python Parquet将多个csv文件按分区储存起来

在大数据处理中，Parquet 是一种非常常用的列式存储格式，具有压缩率高、读取效率高等优点。将多个 CSV 文件按分区存储为 Parquet 格式，可以使用 Python 的 `pandas` 和 `pyarrow` 库来实现。以下是一个完整的示例，展示如何将多个 CSV 文件按某个字段（如日期）进行分区并保存为 Parquet 格式。 --- ### ✅ 示例代码 ```python import pandas as pd import os import pyarrow.parquet as pq import pyarrow as pa # 1. 定义CSV文件路径和输出目录 csv_files = ["data_202301.csv", "data_202302.csv", "data_202303.csv"] output_dir = "parquet_output" # 假设每个CSV文件中有一个'date'字段用于分区 def csv_to_partitioned_parquet(csv_files, output_dir, partition_col): # 创建输出目录 if not os.path.exists(output_dir): os.makedirs(output_dir) # 遍历每个CSV文件 for file in csv_files: df = pd.read_csv(file) # 确保分区字段存在 if partition_col not in df.columns: raise ValueError(f"Column '{partition_col}' not found in {file}") # 按照分区字段分组 for group_name, group_data in df.groupby(partition_col): # 构造子目录路径 partition_path = os.path.join(output_dir, f"{partition_col}={group_name}") # 创建子目录（如果不存在） if not os.path.exists(partition_path): os.makedirs(partition_path) # 构造Parquet文件名 parquet_file = os.path.join(partition_path, f"{os.path.splitext(os.path.basename(file))[0]}.parquet") # 将DataFrame转换为Parquet格式 table = pa.Table.from_pandas(group_data) pq.write_table(table, parquet_file) print(f"Saved {parquet_file}") # 调用函数 csv_to_partitioned_parquet(csv_files, output_dir, 'date') ``` --- ### ✅ 解释 1. **依赖库**： - `pandas`：用于读取 CSV 文件并进行数据处理。 - `pyarrow`：用于将 Pandas DataFrame 转换为 Arrow Table。 - `pyarrow.parquet`：用于写入 Parquet 文件。 2. **流程说明**： - 遍历所有 CSV 文件； - 对每个 CSV 按指定列（如 `date`）进行分组； - 每个分组对应一个分区目录（如 `date=202301`）； - 在每个分区目录下写入对应的 Parquet 文件。 3. **输出结构示例**： ``` parquet_output/ ├── date=202301/ │ └── data_202301.parquet ├── date=202302/ │ └── data_202302.parquet └── date=202303/ └── data_202303.parquet ``` --- ###

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 Python 将列表中元素逆向排序

目录

python Parquet将多个csv文件按分区储存起来

Python内容推荐

parquet 列式文件格式的 python 实现 .zip

Python打开Parquet文件[源码]

python解析hdfs文件和实现方式

Python_Matplotlib_Numpypandas_ML:用Python完成的程序，实现Matplotlib，numpy，pandas，datetime，parquet，json，read_csv，openpyxl，机器学习概念和更多程序

py代码-Python的Table储存方式

python 实现ETL处理 架构

使用Python Pandas处理亿级数据的方法

基于Python的气象观测数据的解析与存储.zip

Python数据分析必备-Pandas库汉化手册.pdf

pulling:Pulling是一个开放源代码的python存储库，用于处理不同扩展名的文件-python source file

分表_利用python进行数据表分表_

Python数据分析必备-Pandas库汉化手册.docx

python+spark+大数据

spark2-python

使用pyspark将csv文件转为parquet文件

java连接sqoop源码-csv_to_parquet:用于处理Parquet文件的测试平台项目

数据清洗之 csv文件读写

stata-parquet-old:从Stata读取和写入Parquet文件

data:CSV和其他数据科学文件

elasticsearch_loader, 一种批量加载数据文件( json，复合地板，csv，tsv ) 到 ElasticSearch.zip

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构

Java线程池运行时状态怎么实时掌握？有哪些靠谱的监控手段？

桌面工具软件项目效益评估及市场预测分析

告别遮挡！UniApp中WebView与原生导航栏的和谐共处方案（附完整可运行代码）

OSPF是怎么在企业网里自动找最优路径并分区域管理的？

UML建模课程设计：图书馆管理系统论文

python 实现ETL处理架构