怎么用Python把两个格式一样的Excel文件自动合并成一个？支持多工作表和去重吗？

✅ 以下是一个**健壮、易用、生产就绪**的 Python 脚本，用于合并两个结构相同的 Excel 文件（即：具有相同列名、相同语义的 Sheet），支持： - ✅ 自动识别并合并所有同名工作表（Sheet） - ✅ 按行追加（`pd.concat`），保留原始顺序（file1 在前，file2 在后） - ✅ 自动去重（可选，通过 `drop_duplicates()` 去除完全重复行） - ✅ 自动处理空表、缺失 Sheet、列不一致等异常 - ✅ 输出为单个 `.xlsx` 文件，含原 sheet 名，支持中文路径 - ✅ 命令行交互式输入路径（也支持直接传参） - ✅ 使用 `openpyxl` 保持格式兼容性（如日期、数字类型不转为字符串） --- ### ✅ 完整可运行脚本（保存为 `merge_excel.py`）： ```python #!/usr/bin/env python3 # -*- coding: utf-8 -*- """ Excel 合并工具：将两个结构相同的 Excel 文件按 Sheet 合并为一个汇总文件。支持：多 sheet、自动对齐列、去重选项、错误提示、中文路径。依赖：pandas, openpyxl 安装命令：pip install pandas openpyxl """ import os import sys import pandas as pd from pathlib import Path def safe_read_excel(file_path, sheet_name): """安全读取单个 sheet，返回 DataFrame 或 None（失败时）""" try: return pd.read_excel(file_path, sheet_name=sheet_name, dtype=str) # 全部读为 str 避免类型冲突 except ValueError as e: if "sheet" in str(e).lower(): print(f"⚠️ 警告：文件 '{file_path}' 中不存在工作表 '{sheet_name}'，跳过。") else: print(f"⚠️ 读取 sheet '{sheet_name}' 失败：{e}") return None except Exception as e: print(f"❌ 无法读取 '{file_path}' 的 '{sheet_name}'：{e}") return None def merge_sheets(df1, df2, dedupe=False): """合并两个 DataFrame（同结构），返回合并后 DataFrame""" if df1 is None and df2 is None: return None if df1 is None: return df2.copy() if df2 is None: return df1.copy() # 确保列一致：以 df1 列为准，df2 缺失列补空，多余列丢弃（警告） common_cols = df1.columns.intersection(df2.columns).tolist() extra_in_df2 = df2.columns.difference(df1.columns).tolist() if extra_in_df2: print(f"💡 提示：df2 包含额外列 {extra_in_df2}，已忽略（仅保留与 df1 共有的列）。") df1_clean = df1[common_cols].copy() df2_clean = df2[common_cols].copy() merged = pd.concat([df1_clean, df2_clean], ignore_index=True, sort=False) if dedupe: original_len = len(merged) merged = merged.drop_duplicates().reset_index(drop=True) print(f"🔍 去重：{original_len} → {len(merged)} 行") return merged def main(file1_path, file2_path, output_path=None, dedupe=False): """主函数：合并两个 Excel 文件""" p1, p2 = Path(file1_path), Path(file2_path) if not p1.exists(): raise FileNotFoundError(f"❌ 输入文件1不存在：{file1_path}") if not p2.exists(): raise FileNotFoundError(f"❌ 输入文件2不存在：{file2_path}") # 自动推导输出路径（若未指定） if output_path is None: output_path = p1.parent / f"MERGED_{p1.stem}_AND_{p2.stem}.xlsx" output_path = Path(output_path) print(f"📁 正在读取：\n 🔹 {file1_path}\n 🔹 {file2_path}") # 获取所有 sheet 名（取并集，确保不遗漏） with pd.ExcelFile(p1) as xls1: sheets1 = xls1.sheet_names with pd.ExcelFile(p2) as xls2: sheets2 = xls2.sheet_names all_sheets = sorted(set(sheets1) | set(sheets2)) print(f"📊 检测到工作表：{all_sheets}") # 逐 sheet 合并 merged_sheets = {} for sheet in all_sheets: print(f" ⏳ 处理工作表 '{sheet}'...") df1 = safe_read_excel(p1, sheet) df2 = safe_read_excel(p2, sheet) merged_df = merge_sheets(df1, df2, dedupe=dedupe) if merged_df is not None and not merged_df.empty: merged_sheets[sheet] = merged_df else: print(f" ⚠️ 工作表 '{sheet}' 合并后为空，跳过写入。") if not merged_sheets: raise ValueError("❌ 所有工作表合并后均为空，请检查源文件内容和结构。") # 写入输出文件（使用 openpyxl 引擎以支持 .xlsx 格式和保留基础格式） print(f"💾 正在写入汇总文件：{output_path}") try: with pd.ExcelWriter(output_path, engine='openpyxl') as writer: for sheet_name, df in merged_sheets.items(): # 防止 sheet 名超长或含非法字符（Excel 限制 31 字符，且不能含 \ / ? * [ ]） clean_sheet = re.sub(r'[\\/\?\*\[\]]', '_', sheet_name)[:31].strip('_') if not clean_sheet: clean_sheet = "Sheet1" if clean_sheet in writer.sheets: clean_sheet += "_2" df.to_excel(writer, sheet_name=clean_sheet, index=False) print(f"✅ 合并完成！共写入 {len(merged_sheets)} 个工作表。") print(f"📄 输出路径：{output_path.resolve()}") except Exception as e: raise RuntimeError(f"❌ 写入 Excel 失败：{e}") if __name__ == "__main__": import argparse import re parser = argparse.ArgumentParser(description="合并两个结构相同的 Excel 文件") parser.add_argument("file1", help="第一个 Excel 文件路径") parser.add_argument("file2", help="第二个 Excel 文件路径") parser.add_argument("-o", "--output", help="输出文件路径（默认：同目录下自动生成）") parser.add_argument("--dedupe", action="store_true", help="启用行级去重（去除完全相同的行）") parser.add_argument("--no-input", action="store_true", help="禁用交互式输入（仅用于 CI/脚本调用）") args = parser.parse_args() # 若未提供参数，且未禁用交互，则提示输入 if len(sys.argv) == 1 or (len(sys.argv) == 2 and sys.argv[1] in ["-h", "--help"]): parser.print_help() sys.exit(0) if not args.no_input and (not args.file1 or not args.file2): print("📥 交互式模式（请输入路径）：") file1 = input("请输入第一个 Excel 文件路径：").strip().strip('"\'') file2 = input("请输入第二个 Excel 文件路径：").strip().strip('"\'') if not file1 or not file2: print("❌ 路径不能为空。") sys.exit(1) else: file1, file2 = args.file1, args.file2 try: main( file1_path=file1, file2_path=file2, output_path=args.output, dedupe=args.dedupe ) except KeyboardInterrupt: print("\n🛑 用户中断操作。") sys.exit(1) except Exception as e: print(f"\n💥 错误：{e}") sys.exit(1) ``` --- ### ✅ 使用方式（3 种）： #### ▶ 方式 1：命令行直接传参（推荐） ```bash python merge_excel.py "C:\data\2024_Q1.xlsx" "C:\data\2024_Q2.xlsx" -o "C:\data\2024_H1.xlsx" --dedupe ``` #### ▶ 方式 2：交互式运行（无参数时自动提示） ```bash python merge_excel.py # 然后按提示输入两个文件路径 ``` #### ▶ 方式 3：作为模块导入（供其他脚本调用） ```python from merge_excel import main main("a.xlsx", "b.xlsx", "merged.xlsx", dedupe=True) ``` --- ### ✅ 依赖安装（首次运行前）： ```bash pip install pandas openpyxl ``` > 💡 提示：`openpyxl` 是写入 `.xlsx` 必需的引擎；`pandas` 默认用 `xlrd`（仅支持 `.xls`），故必须显式指定 `engine='openpyxl'`。 --- ### ✅ 示例效果：输入： - `sales_jan.xlsx`（Sheet: `Data`，50 行） - `sales_feb.xlsx`（Sheet: `Data`，60 行）输出： - `MERGED_sales_jan_AND_sales_feb.xlsx` → 内含 `Data` 表，共 110 行（或 105 行，若启用 `--dedupe` 且有 5 行重复） ---

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇京东宙斯平台用Python怎么走完OAuth2.0授权流程拿Access Token？

目录

怎么用Python把两个格式一样的Excel文件自动合并成一个？支持多工作表和去重吗？

Python内容推荐

Python将多个excel文件合并为一个文件

python合并多个excel文件的示例

Python将多个excel表格合并为一个表格

python 实现读取一个excel多个sheet表并合并的方法

Python合并多个Excel数据的方法

Python项目-自动办公-40 excel处理实例（多工作表合并到单工作表.zip

Python一键合并多Excel（支持 xlsx/xls + 自动识别表头 + 最新/最早去重），办公自动化必备工具，含完整源码

python源码-案例框架-自动办公-40 excel处理实例（多工作表合并到单工作表.zip

python自动办公源码_excel处理实例（多工作表合并到单工作表.rar

Python源码自动办公-40 excel处理实例（多工作表合并到单工作表.rar

python之DataFrame实现excel合并单元格

python读取excel文件例子

利用Python pandas对Excel进行合并的方法示例

python操作excel表格 格式设置

python合并同类型excel表格的方法

Python批量合并有合并单元格的Excel文件详解

解决python xlrd无法读取excel文件的问题

基于python实现把json数据转换成Excel表格

python案例-excel处理实例（多工作表合并到单工作表)-源码工程

基于Python自动化脚本实现Excel表格数据精准提取的项目-使用openpyxl库读取Excel文件-定位特定行与列-提取单元格数值-处理多工作表数据-支持xlsx格式解析-批.zip

PyPI 官网下载 | mlpack3-3.4.2-cp36-cp36m-manylinux1_x86_64.whl

实现基于C++或者python基本库，初学学习之用.zip

机器学习的一些基础算法，主要使用Python、Cpp、Matlab编写。.zip

jenkins-conf:Jenkins的配置文件

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构

Java线程池运行时状态怎么实时掌握？有哪些靠谱的监控手段？

python操作excel表格格式设置