如何用Python自动提取PDF订单信息并归档到Excel？

好的，针对您提出的需求，我将开发一个Python脚本。该脚本的核心功能是监控指定文件夹（CM_PO），解析新放入的PDF文件以提取订单信息（如PO编号、数量等），将这些信息追加到一个“订单管理”表格（例如Excel或CSV文件）中，最后将已处理的PDF文件移动到备份子文件夹（POBackup）中。整个流程的关键在于PDF文本提取、数据解析与表格操作。 #### **解决方案架构与步骤** 我们将按以下逻辑实现： 1. **环境准备**：定义文件夹路径与文件路径，并确保它们存在。 2. **文件监控与发现**：列出 `CM_PO` 文件夹中的所有PDF文件。 3. **PDF内容提取**：使用OCR或文本提取库从PDF中读取文字内容。 4. **数据解析**：使用正则表达式从提取的文本中匹配目标字段（PO, Qty, 日期等）。 5. **数据存储**：将解析出的信息追加到“订单管理”表格文件（如`订单管理.xlsx`）中。 6. **文件迁移**：将处理完成的PDF文件移动到 `POBackup` 子文件夹。为了确保脚本的健壮性，我们需要考虑异常处理和日志记录。以下为详细的代码实现。 #### **核心代码实现** 首先，我们需要安装必要的Python库。请通过以下命令安装：[ref_1] ```bash pip install pymupdf pandas openpyxl ``` * `pymupdf` (即 `fitz`)：用于高效地从PDF中提取文本（非扫描件PDF）。 * `pandas`：用于读写Excel/CSV表格。 * `openpyxl`：作为pandas读写 `.xlsx` 文件的引擎。 **重要提示**：`pymupdf` 擅长处理“文本型PDF”。如果您的PDF是扫描件图片，则需要使用OCR库（如 `pytesseract` 配合 `pdf2image`），但这会更复杂且缓慢。本方案假设PDF为可直接提取文本的格式。 ```python import os import re import shutil import fitz # PyMuPDF import pandas as pd from datetime import datetime import traceback import logging # 1. 配置与路径定义 # 定义主文件夹和备份文件夹路径 [ref_2] BASE_DIR = r"./CM_PO" # 请根据实际情况修改为绝对路径，如 r"C:\Users\YourName\Documents\CM_PO" BACKUP_DIR = os.path.join(BASE_DIR, "POBackup") ORDER_FILE = os.path.join(BASE_DIR, "订单管理.xlsx") # 订单管理表格文件 # 配置日志，便于追踪脚本运行情况 LOG_FILE = os.path.join(BASE_DIR, "pdf_processor.log") logging.basicConfig( level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s', handlers=[ logging.FileHandler(LOG_FILE, encoding='utf-8'), logging.StreamHandler() # 同时在控制台输出 ] ) logger = logging.getLogger(__name__) # 2. 确保必要的文件夹和文件存在 [ref_3] def init_environment(): """初始化运行环境，创建必要的文件夹和文件。""" try: os.makedirs(BASE_DIR, exist_ok=True) os.makedirs(BACKUP_DIR, exist_ok=True) logger.info(f"确保目录存在: {BASE_DIR}, {BACKUP_DIR}") # 如果订单管理文件不存在，则创建一个带有列名的空Excel文件 [ref_4] if not os.path.exists(ORDER_FILE): initial_columns = ['PO编号', '数量', '生成日期', '交货日期', '文件名', '处理时间'] df_initial = pd.DataFrame(columns=initial_columns) df_initial.to_excel(ORDER_FILE, index=False, engine='openpyxl') logger.info(f"创建初始订单管理文件: {ORDER_FILE}") else: logger.info(f"订单管理文件已存在: {ORDER_FILE}") except Exception as e: logger.error(f"初始化环境失败: {e}") raise # 3. 从PDF中提取文本 def extract_text_from_pdf(pdf_path): """ 使用PyMuPDF从PDF文件中提取所有文本。 Args: pdf_path (str): PDF文件的完整路径。 Returns: str: 提取出的全部文本内容。 """ try: doc = fitz.open(pdf_path) text = "" for page in doc: text += page.get_text() doc.close() logger.info(f"成功从 {os.path.basename(pdf_path)} 提取文本，长度: {len(text)} 字符") return text except Exception as e: logger.error(f"从 {pdf_path} 提取文本失败: {e}") return "" # 4. 从文本中解析关键信息 def parse_order_info(text, filename): """ 使用正则表达式从文本中解析订单信息。注意：这里的正则表达式模式是示例，您需要根据您PDF中文字的实际格式进行调整。 Args: text (str): PDF提取出的文本。 filename (str): 原始文件名。 Returns: dict: 包含解析出的信息的字典。 """ # 初始化结果字典，所有字段默认为空字符串 info = { 'PO编号': '', '数量': '', '生成日期': '', '交货日期': '', '文件名': filename } # 示例正则表达式模式，您必须根据您的PDF内容进行修改和增强 [ref_5] patterns = { 'PO编号': r'(?:PO|订单编号|Purchase Order)[\s:：]*([A-Z0-9-]+)', '数量': r'(?:数量|Qty|Quantity)[\s:：]*(\d+)', # 匹配常见日期格式，如 2024-01-15, 2024/01/15, 15-Jan-2024 等 '生成日期': r'(?:日期|生成日期|Date|Issue Date)[\s:：]*([\d\-/\.]+|[A-Za-z]{3}[\s\-]?\d{1,2}[\s\-]?\d{4})', '交货日期': r'(?:交货|交货日期|Delivery Date|Due Date)[\s:：]*([\d\-/\.]+|[A-Za-z]{3}[\s\-]?\d{1,2}[\s\-]?\d{4})', } for key, pattern in patterns.items(): match = re.search(pattern, text, re.IGNORECASE) if match: info[key] = match.group(1).strip() logger.debug(f"在 {filename} 中解析到 {key}: {info[key]}") else: logger.warning(f"在 {filename} 中未找到匹配 {key} 的内容") return info # 5. 将信息追加到订单管理表格 def append_to_order_table(order_info): """ 将解析出的单条订单信息追加到Excel文件中。 Args: order_info (dict): 包含订单信息的字典。 """ try: # 读取现有的Excel文件 df_existing = pd.read_excel(ORDER_FILE, engine='openpyxl') # 将新信息转换为DataFrame # 为当前处理添加一个时间戳 order_info_with_time = order_info.copy() order_info_with_time['处理时间'] = datetime.now().strftime('%Y-%m-%d %H:%M:%S') df_new = pd.DataFrame([order_info_with_time]) # 检查列是否匹配，如果数据结构有变化，此操作可以兼容 df_combined = pd.concat([df_existing, df_new], ignore_index=True) # 写回Excel文件 [ref_6] df_combined.to_excel(ORDER_FILE, index=False, engine='openpyxl') logger.info(f"成功将订单信息追加到 {ORDER_FILE}") except Exception as e: logger.error(f"写入订单管理文件失败: {e}") logger.error(traceback.format_exc()) # 6. 移动PDF文件到备份文件夹 def move_to_backup(pdf_path): """ 将处理完成的PDF文件移动到备份文件夹。 Args: pdf_path (str): 原始PDF文件的完整路径。 """ try: filename = os.path.basename(pdf_path) destination = os.path.join(BACKUP_DIR, filename) # 如果目标文件已存在，则在文件名后添加时间戳以避免覆盖 if os.path.exists(destination): base, ext = os.path.splitext(filename) timestamp = datetime.now().strftime('%Y%m%d_%H%M%S') new_filename = f"{base}_{timestamp}{ext}" destination = os.path.join(BACKUP_DIR, new_filename) shutil.move(pdf_path, destination) logger.info(f"已将文件移动至备份: {pdf_path} -> {destination}") except Exception as e: logger.error(f"移动文件 {pdf_path} 失败: {e}") # 7. 主处理流程 def main(): """主函数，协调整个处理流程。""" logger.info("="*50) logger.info("开始处理CM_PO文件夹中的PDF文件...") init_environment() # 查找CM_PO文件夹中的所有PDF文件 [ref_7] try: pdf_files = [f for f in os.listdir(BASE_DIR) if f.lower().endswith('.pdf')] pdf_paths = [os.path.join(BASE_DIR, f) for f in pdf_files] except Exception as e: logger.error(f"读取文件夹 {BASE_DIR} 失败: {e}") return if not pdf_paths: logger.info("未发现待处理的PDF文件。") return logger.info(f"发现 {len(pdf_paths)} 个待处理的PDF文件。") processed_count = 0 for pdf_path in pdf_paths: logger.info(f"正在处理: {os.path.basename(pdf_path)}") try: # 步骤A: 提取文本 text = extract_text_from_pdf(pdf_path) if not text: logger.warning(f"文件 {pdf_path} 文本内容为空，跳过。") continue # 步骤B: 解析信息 order_info = parse_order_info(text, os.path.basename(pdf_path)) # 步骤C: 保存到表格 append_to_order_table(order_info) # 步骤D: 移动到备份 move_to_backup(pdf_path) processed_count += 1 logger.info(f"文件 {os.path.basename(pdf_path)} 处理完成。") except Exception as e: logger.error(f"处理文件 {pdf_path} 时发生未预料的错误: {e}") logger.error(traceback.format_exc()) # 单个文件失败不应中断整个流程 logger.info(f"处理完成。共处理 {processed_count}/{len(pdf_paths)} 个文件。") logger.info("="*50) # 程序入口 if __name__ == "__main__": main() ``` #### **应用场景与使用说明** 1. **首次运行准备**： * 在脚本所在目录（或您指定的 `BASE_DIR`）手动创建 `CM_PO` 文件夹。 * 将脚本中的 `BASE_DIR` 变量修改为您的 `CM_PO` 文件夹的**绝对路径**，这是最可靠的方式。 * 运行一次脚本，它会自动创建 `POBackup` 子文件夹和 `订单管理.xlsx` 文件。 2. **日常使用**： * 将需要处理的PDF文件放入 `CM_PO` 文件夹。 * 直接运行此Python脚本。脚本会一次性处理文件夹内所有PDF，然后退出。 * 处理后的PDF将被移至 `POBackup`，信息则被记录在 `订单管理.xlsx` 中。 * 您可以在 `CM_PO/pdf_processor.log` 文件中查看详细的运行日志。 3. **高级配置与注意事项**： * **定时任务**：您可以使用Windows任务计划程序或Linux的cron服务，定期（如每5分钟）执行此脚本，实现准实时监控[ref_8]。 * **正则表达式定制**：`parse_order_info` 函数中的 `patterns` 字典是解析的关键。您必须根据您PDF文件中**文字的实际布局和关键词**来修改这些正则表达式。可能需要为不同的供应商或格式编写多套规则。 * **处理扫描件PDF**：如果PDF是扫描图片，需改用OCR方案。这通常涉及将PDF每页转换为图像，然后用Tesseract识别。代码会更复杂，处理速度会显著下降。 * **错误处理**：当前脚本已包含基础异常处理。对于关键业务，您可以考虑增加重试机制、发送邮件通知等功能。 * **并发处理**：如果文件量巨大，可以考虑使用多线程处理，但需注意对共享文件（订单管理表）的写入操作需要加锁。通过以上脚本和说明，您可以构建一个自动化程度高、可追溯的PDF订单信息处理流程，显著减少手工操作。核心在于根据您的实际PDF样本，反复调试和优化 `parse_order_info` 函数中的正则表达式，以确保信息提取的准确率。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 Python里怎么把一个三位数拆成百位、十位和个位数字？有几种靠谱方法？