frhyme

always doing another thing

python - pandas - reading and writing parquet

최대 1 분 소요

save pd.Dataframe as parquet.

우리는 dataframe을 습관적으로 csv로 저장합니다. 하지만, 이 아이는, 메타데이터를 저장할 수 없어 칼럼별로 dtype을 재지정해줘야 하는 일이 생길 수 있다는 것과, 읽고 쓸때 시간이 많이 걸린다는 단점이 있습니다.
따라서, 이를 보완하기 위해 pickel, parquet, hdf5 와 같은 다양한 데이터 포맷이 있는데요 오늘은 parquet에 대해서 간략하게 정리합니다.

what is parquet?

Apache Parquet is a columnar storage format available to any project in the Hadoop ecosystem, regardless of the choice of data processing framework, data model or programming language.

Use it in pandas

Hdoop ecosystem에서 돌아가는 프로젝트들에 맞게 설계된 저장형식이라고 되어있지만, 그냥 써도 됩니다. 다만, hadoop과 연계하여 쓸 경우에는 더 편한 부분들이 아마도 있겠죠.
저는 python data library인 pandas에서 사용할 것입니다.

!pip install pyarrow
print("== parquet: save and load")
df.to_parquet(
    'df.parquet.gzip',
    compression='gzip'
)
pd.read_parquet(
    'df.parquet.gzip'
)

공유하기

Twitter Facebook LinkedIn

댓글남기기