python - pandas - reading and writing parquet

최대 1 분 소요

save pd.Dataframe as parquet.

  • 우리는 dataframe을 습관적으로 csv로 저장합니다. 하지만, 이 아이는, 메타데이터를 저장할 수 없어 칼럼별로 dtype을 재지정해줘야 하는 일이 생길 수 있다는 것과, 읽고 쓸때 시간이 많이 걸린다는 단점이 있습니다.
  • 따라서, 이를 보완하기 위해 pickel, parquet, hdf5 와 같은 다양한 데이터 포맷이 있는데요 오늘은 parquet에 대해서 간략하게 정리합니다.

what is parquet?

Apache Parquet is a columnar storage format available to any project in the Hadoop ecosystem, regardless of the choice of data processing framework, data model or programming language.

Use it in pandas

  • Hdoop ecosystem에서 돌아가는 프로젝트들에 맞게 설계된 저장형식이라고 되어있지만, 그냥 써도 됩니다. 다만, hadoop과 연계하여 쓸 경우에는 더 편한 부분들이 아마도 있겠죠.
  • 저는 python data library인 pandas에서 사용할 것입니다.
!pip install pyarrow
print("== parquet: save and load")
df.to_parquet(
    'df.parquet.gzip',
    compression='gzip'
)
pd.read_parquet(
    'df.parquet.gzip'
)

댓글남기기