用Python合并两个CSV文件，怎么按指定列精准对接并避免中文乱码？

### 问题解构针对“合并两个CSV文件的Python代码”这一需求，核心任务是实现数据的读取、基于键值的连接操作以及结果的持久化存储。为了确保代码的实用性和健壮性，我们需要关注以下几个关键点： 1. **数据读取**：使用高效且容错率高的方法加载CSV文件。 2. **合并逻辑**：根据特定的公共列（键）将两个数据集拼接在一起，类似于SQL中的JOIN操作。 3. **结果导出**：将合并后的数据保存为新的CSV文件，并处理索引和编码问题。 4. **异常处理**：确保在文件不存在或列名不匹配时，程序能给出清晰的提示而非直接崩溃。 ### 方案推演在Python生态中，`pandas`库是处理此类结构化数据的标准工具，它提供了`read_csv`用于读取，`merge`用于连接，以及`to_csv`用于写入[ref_3]。相比于使用Python内置的`csv`模块手动循环处理，`pandas`在代码简洁性、执行效率以及对缺失值的处理上具有显著优势[ref_4]。此外，为了解决中文环境下常见的乱码问题，推荐显式指定`utf-8`或`utf-8-sig`编码。 ### 具体答案以下是基于`pandas`库实现的完整解决方案。该方案包含两个文件的读取、基于指定列的内连接合并、以及最终结果的导出，并加入了必要的注释和异常处理逻辑。 ```python import pandas as pd import os def merge_two_csv_files(file_path_1, file_path_2, output_path, merge_key): """ 合并两个CSV文件并保存结果参数: file_path_1 (str): 第一个CSV文件的路径 file_path_2 (str): 第二个CSV文件的路径 output_path (str): 合并后文件的保存路径 merge_key (str): 用于合并的共同列名 """ try: # 1. 读取CSV文件 # encoding='utf-8-sig' 可以有效处理包含BOM头的UTF-8文件，避免中文乱码 print(f"正在读取文件: {file_path_1}") df1 = pd.read_csv(file_path_1, encoding='utf-8-sig') print(f"正在读取文件: {file_path_2}") df2 = pd.read_csv(file_path_2, encoding='utf-8-sig') # 2. 检查合并键是否存在 if merge_key not in df1.columns or merge_key not in df2.columns: raise ValueError(f"合并键 '{merge_key}' 在其中一个或两个文件中不存在。") # 3. 执行合并操作 # how='inner' 表示内连接，即只保留两个文件中键值都存在的行 # 也可以根据需要改为 'left', 'right' 或 'outer' print(f"正在基于列 '{merge_key}' 合并数据...") merged_df = pd.merge(df1, df2, on=merge_key, how='inner') # 4. 保存合并后的数据 # 确保输出目录存在 output_dir = os.path.dirname(output_path) if output_dir and not os.path.exists(output_dir): os.makedirs(output_dir) print(f"创建输出目录: {output_dir}") # index=False 表示不将DataFrame的索引写入文件 # encoding='utf-8-sig' 确保Excel打开时不会乱码 merged_df.to_csv(output_path, index=False, encoding='utf-8-sig') print(f"成功！合并后的数据已保存至: {output_path}") print(f"合并后的数据维度: {merged_df.shape[0]} 行 x {merged_df.shape[1]} 列") return merged_df except FileNotFoundError as e: print(f"错误: 文件未找到 - {e}") except Exception as e: print(f"发生未知错误: {e}") # ================= 执行示例 ================= # 定义文件路径 (请根据实际情况修改) input_file_1 = "D:/Desktop/数据/cancer/Cancer_date.csv" input_file_2 = "D:/Desktop/数据/cancer/Cancer_type.csv" result_file = "Data/merged_癌症.csv" common_column = "f.eid" # 调用函数执行合并 # merge_two_csv_files(input_file_1, input_file_2, result_file, common_column) ``` #### 代码核心逻辑说明上述代码利用`pandas`库的强大功能简化了数据合并流程，主要步骤如下： | 步骤 | 操作 | 代码实现 | 说明 | | :--- | :--- | :--- | :--- | | **1. 数据加载** | 读取CSV | `pd.read_csv(..., encoding='utf-8-sig')` | 使用`pandas`读取文件，`utf-8-sig`编码能有效兼容Excel导出的CSV文件，防止中文乱码[ref_6]。 | | **2. 键值校验** | 检查列名 | `if merge_key not in df1.columns...` | 在合并前检查指定的键列是否同时存在于两个数据框中，避免运行时因列名错误导致中断。 | | **3. 数据合并** | 连接操作 | `pd.merge(df1, df2, on=merge_key, how='inner')` | `on`参数指定连接键，`how='inner'`表示取交集（仅保留匹配的行）。若需保留所有数据，可修改为`how='outer'`[ref_3]。 | | **4. 结果导出** | 保存CSV | `merged_df.to_csv(..., index=False, ...)` | `index=False`用于去除默认的行索引列，使输出文件更干净；同时自动创建不存在的输出目录[ref_5]。 | #### 常见合并类型对比在实际应用中，根据业务需求的不同，可能需要调整`pd.merge`函数中的`how`参数。以下是四种主要合并方式的对比： | 合并类型 (`how`参数) | 描述 | 结果数据量 | 典型应用场景 | | :--- | :--- | :--- | :--- | | **inner (内连接)** | 只保留两个表中键值匹配的行。 | $\le$ 两个表中的较小行数 | 精确匹配数据，例如根据ID匹配详细信息。 | | **left (左连接)** | 保留左表所有行，右表无匹配时填充NaN。 | = 左表行数 | 以主表为基础，补充附属表信息。 | | **right (右连接)** | 保留右表所有行，左表无匹配时填充NaN。 | = 右表行数 | 以辅表为基础，补充主表信息。 | | **outer (外连接)** | 保留两个表所有的行，无匹配处填充NaN。 | $\ge$ 两个表中的较大行数 | 全量数据整合，分析数据覆盖情况。 | 此方案通过模块化函数封装，不仅完成了基本的合并任务，还处理了编码和路径异常，能够直接应用于大多数数据整合场景[ref_3]。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇刚学Python的小白怎么写出一个带错误提示的四则运算计算器？

目录

用Python合并两个CSV文件，怎么按指定列精准对接并避免中文乱码？

Python内容推荐

Python利用 utf-8-sig 编码格式解决写入 csv 文件乱码问题

解决Python2.7读写文件中的中文乱码问题

python 写入csv乱码问题解决方法

python读写csv文件并增加行列的实例代码

Python如何把字典写入到CSV文件的方法示例

【Python 技巧】利用 utf-8-sig 编码格式解决写入 csv 文件乱码问题

Python之pandas读写文件乱码的解决方法

利用Python如何将数据写到CSV文件中

Python对CSV、Excel、txt、dat文件的处理

python批量查询、汉字去重处理CSV文件

在Python的Django框架中用流响应生成CSV文件的教程

python处理csv中的空值方法

python3读取csv文件任意行列代码实例

Python csv文件记录流程代码解析

python自动化18csv文件合并教程csv-combine.zip

python 写的一个json转csv文件的脚本

Python中 CSV格式清洗与转换的实例代码

Python爬虫基于lxml解决数据编码乱码问题

Python 查看文件的编码格式方法

用pandas按列合并两个文件的实例

VS2022配置OpenCV[源码]

opencv4.7.0用VS2022编译的debug和release库

OpenCV源码阅读教程[项目代码]

编译GPU加速OpenCV[可运行源码]

OpenCV4.8+CUDA编译教程[源码]

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构