如何用Python自动从多个xls文件中按需提取指定列和行数，去重写入xlsx主表并标记已处理内容？

<< 为了满足您的需求，我们可以编写一个基于 Python 和 `pandas`、`openpyxl` 库的脚本程序来完成任务。以下是一个大致实现方案和步骤： ### 实现思路： 1. **读取主文档** (`xlsx`) 并将其存储在内存中以便后续写入数据。 2. 遍历所有副文档（`xls` 文件）并按照指定规则提取所需行的数据。 - 提取特定三列的内容。 - 根据配置文件或输入参数控制每个副文档需要复制的具体行数。 3. 将从副文档中提取出的有效数据追加到主文档，并确保不包含重复内容。 4. 对已处理过的副文档中的某些行标记为红色字体或直接删除。 --- ### 示例代码框架 ```python import pandas as pd from openpyxl import load_workbook, Workbook from openpyxl.styles import Font # 函数：加载XLS/XLSX表格 def read_xls(file_path): return pd.read_excel(file_path) # 函数：保存DataFrame至目标路径（支持更新现有Excel） def save_to_main(main_file, df_new_data): with pd.ExcelWriter(main_file, engine='openpyxl', mode='a') as writer: if not writer.book.sheetnames: # 如果没有sheet，则新建 workbook = Workbook() worksheet = workbook.active worksheet.title = "MainData" else: workbook = load_workbook(writer.path) worksheet = workbook["MainData"] start_row = worksheet.max_row + 1 for r_idx, row in enumerate(df_new_data.values.tolist(), start=start_row): worksheet.append(row) writer.save() # 函数：检查是否已有重复记录 def check_duplicates(main_df, sub_df_part): merged_df = main_df.merge(sub_df_part, how="inner") return len(merged_df.index) > 0 # 主逻辑部分 if __name__ == "__main__": MAIN_FILE_PATH = 'main.xlsx' # 主文档地址 SUB_FILES_LIST = ['subfile1.xls','subfile2.xls'] # 副文档列表 COLS_TO_EXTRACT = [0, 1, 2] # 表示要提取第几列 (例如前三列) try: main_dataframe = read_xls(MAIN_FILE_PATH) except Exception as e: print("Error reading Main File:", str(e)) result_rows = [] # 循环遍历每一份子表单执行操作 for filename in SUB_FILES_LIST: temp_subdf = read_xls(filename).iloc[:, COLS_TO_EXTRACT] non_duplicate_records = temp_subdf[~temp_subdf.apply(tuple, axis=1).isin(main_dataframe.iloc[:, :len(COLS_TO_EXTRACT)].apply(tuple, axis=1))] result_rows.extend(non_duplicate_records.values.tolist()) # 修改原始excel中标注颜色等效果可另行加入这里 final_result_df = pd.DataFrame(result_rows, columns=["Column_1", "Column_2", "Column_3"]) save_to_main(MAIN_FILE_PATH, final_result_df) ``` --- ### 注意事项： - 在运行上述代码前，请安装必要库如 `pip install pandas openpyxl xlrd` - 确保您所提供的所有副文档都符合预期格式并且能够正常解析； - 可以扩展功能使得更灵活地定义哪些单元格需被标色以及自定义输出样式；

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇怎么用Python让医生在图像上框选线对卡区域并录入管电压？

目录

如何用Python自动从多个xls文件中按需提取指定列和行数，去重写入xlsx主表并标记已处理内容？

Python内容推荐

python读取excel指定列数据并写入到新的excel方法

Python批量将文件夹中xls文件批量转换为xlsx

Python将多个excel文件合并为一个文件

Python这样操作能存储100多万行的xlsx文件

Python读取txt内容写入xls格式excel中的方法

Python学习_几种存取xls/xlsx文件的方法总结

python中xls转xlsx代码、操作说明、相关第三方库安装文件及安装方式

利用python对Excel中的特定数据提取并写入新表的方法

python脚本实现xls(xlsx)转成csv

Python读取xlsx文件的实现方法

Python合并多个Excel数据的方法

python提取包含关键字的整行数据方法

Python一键合并多Excel（支持 xlsx/xls + 自动识别表头 + 最新/最早去重），办公自动化必备工具，含完整源码

python pands实现execl转csv 并修改csv指定列的方法

python Excel文件转化为csv文件

Excel xls文件转CSV Python

Python操作Excel之xlsx文件

python实现xlsx文件分析详解

python高手之路python处理excel文件(方法汇总)

Python必学模块之xlrd、xlwt模块 (Excel文件处理)

处理minio文件分析链接的python

minio 文件服务器

minio-py:用于 Python 的 MinIO 客户端 SDK

二、python+前端 实现MinIO分片上传

Python连接MinIO[项目代码]

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构

二、python+前端实现MinIO分片上传