python 实现将csv数据转为Parquet数据，详解过程和如何进行增删改查操作

### CSV 转 Parquet 的 Python 实现及操作指南 #### 1. 使用 Pandas 将 CSV 转换为 Parquet 格式 Pandas 提供了便捷的接口用于将 CSV 文件转换为 Parquet 格式。以下是一个完整的示例： ```python import pandas as pd # 指定 CSV 文件路径 csv_path = 'data.csv' # 读取 CSV 文件为 DataFrame df = pd.read_csv(csv_path) # 指定输出的 Parquet 文件路径 parquet_path = 'data.parquet' # 将 DataFrame 写入 Parquet 文件 df.to_parquet(parquet_path) # 验证是否成功写入 read_df = pd.read_parquet(parquet_path) print(read_df) ``` 该方法适用于小型数据集，Pandas 会将整个数据集加载到内存中进行处理，因此不适用于超大规模数据。 #### 2. 使用 PySpark 将 CSV 转换为 Parquet 格式对于大规模数据集，推荐使用 PySpark 进行分布式处理。以下是一个示例： ```python from pyspark.sql import SparkSession # 创建 SparkSession spark = SparkSession.builder.appName("CSV2Parquet").getOrCreate() # 读取 CSV 文件 df = spark.read.csv('data.csv', header=True, inferSchema=True) # 写入 Parquet 文件 df.write.parquet('data-parquet') # 读取 Parquet 文件并显示 parquet_df = spark.read.parquet('data-parquet') parquet_df.show() # 停止 SparkSession spark.stop() ``` 使用 Spark 可以处理 PB 级别的数据，适合在 Hadoop 或其他分布式环境中使用[^3]。 #### 3. 使用 PyArrow 将 CSV 转换为 Parquet 格式 PyArrow 是 Apache Arrow 的 Python 接口，提供高效的内存数据交换能力，适用于高性能数据处理： ```python import pyarrow as pa import pyarrow.parquet as pq import pandas as pd # 读取 CSV 文件为 Pandas DataFrame df = pd.read_csv('data.csv') # 转换为 Arrow Table table = pa.Table.from_pandas(df) # 写入 Parquet 文件 pq.write_table(table, 'data.parquet') # 读取 Parquet 文件并转换为 Pandas DataFrame read_table = pq.read_table('data.parquet') read_df = read_table.to_pandas() print(read_df) ``` PyArrow 在性能和内存效率上优于 Pandas，尤其适用于需要高性能数据处理的场景[^1]。 --- ### Parquet 文件的增删改查操作 #### 查询数据使用 Pandas 读取 Parquet 文件并进行查询： ```python import pandas as pd # 读取 Parquet 文件 df = pd.read_parquet('data.parquet') # 查询特定列 print(df[['id', 'name']]) # 条件查询 print(df[df['age'] > 30]) ``` 使用 PySpark 查询 Parquet 文件： ```python from pyspark.sql import SparkSession spark = SparkSession.builder.appName("ParquetQuery").getOrCreate() df = spark.read.parquet("data-parquet") df.createOrReplaceTempView("data") # 使用 SQL 查询 result = spark.sql("SELECT * FROM data WHERE age > 30") result.show() ``` #### 更新数据 Parquet 文件本身是不可变的，无法直接进行更新操作。通常的做法是读取原始数据，修改后重新写入新的 Parquet 文件： ```python import pandas as pd # 读取 Parquet 文件 df = pd.read_parquet('data.parquet') # 修改数据 df.loc[df['id'] == 1, 'name'] = 'new_name' # 写入新文件 df.to_parquet('data_updated.parquet') ``` #### 删除数据同样，Parquet 文件不支持直接删除操作，需通过过滤后写入新文件实现： ```python import pandas as pd # 读取 Parquet 文件 df = pd.read_parquet('data.parquet') # 删除 id 为 1 的记录 df = df[df['id'] != 1] # 写入新文件 df.to_parquet('data_filtered.parquet') ``` #### 添加数据添加新数据时，需将原始数据与新数据合并后写入新文件： ```python import pandas as pd # 读取原始数据 df = pd.read_parquet('data.parquet') # 创建新数据 new_data = pd.DataFrame({ 'id': [5], 'name': ['new_user'], 'age': [25] }) # 合并数据 combined_df = pd.concat([df, new_data], ignore_index=True) # 写入新文件 combined_df.to_parquet('data_combined.parquet') ``` --- ###

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇使用python进行ODBJOB++文件解析

目录

python 实现将csv数据转为Parquet数据，详解过程和如何进行增删改查操作

Python内容推荐

parquet 列式文件格式的 python 实现 .zip

python解析hdfs文件和实现方式

Python打开Parquet文件[源码]

Python_Matplotlib_Numpypandas_ML:用Python完成的程序，实现Matplotlib，numpy，pandas，datetime，parquet，json，read_csv，openpyxl，机器学习概念和更多程序

python 实现ETL处理 架构

使用Python Pandas处理亿级数据的方法

py代码-Python的Table储存方式

基于Python的气象观测数据的解析与存储.zip

Python数据分析必备-Pandas库汉化手册.pdf

分表_利用python进行数据表分表_

Python数据分析必备-Pandas库汉化手册.docx

python+spark+大数据

使用python语言进行大数据统计.rar

python使用S3 select查询数据放入redis缓存

基于Python语言的Spark数据处理分析案例集锦（PySpark）.zip

Python统计与数据分析实战

【硕士论文完美复现】【价格型需求响应】基于需求侧响应的配电网供电能力综合评估（Python代码实现）

使用pyspark将csv文件转为parquet文件

java连接sqoop源码-csv_to_parquet:用于处理Parquet文件的测试平台项目

数据清洗之 csv文件读写

基于打开pycharm有带图片md文件卡死问题的解决

PyCharm集成Jupyter启动卡死解决[代码]

解决终端运行Py闪退

解决PyCharm闪退问题[项目代码]

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构

Java线程池运行时状态怎么实时掌握？有哪些靠谱的监控手段？

python 实现ETL处理架构