PDF里的表格怎么用Python精准转成Excel？有哪些靠谱又实用的方案？

# Python实现PDF转Excel的完整指南 ## 一、PDF转Excel的技术方案对比 | 方案 | 核心库 | 适用场景 | 优缺点 | 推荐指数 | |------|--------|----------|--------|----------| | 表格提取方案 | pdfplumber + openpyxl | PDF中包含结构化表格 | 表格识别准确度高，支持复杂表格结构 | ★★★★★ | | 批量处理方案 | tabula-py + pandas | 批量PDF表格转换 | 处理速度快，适合大量文件 | ★★★★☆ | | 多功能方案 | camelot | 复杂版面PDF | 支持多种表格检测算法 | ★★★★☆ | | 基础方案 | PyPDF2 + xlwt | 简单表格提取 | 功能基础，适合学习使用 | ★★★☆☆ | ## 二、推荐方案：pdfplumber + openpyxl ### 2.1 环境准备首先安装必要的依赖库： ```python # 安装核心依赖库 pip install pdfplumber openpyxl pandas ``` ### 2.2 基础转换代码 ```python import pdfplumber import pandas as pd from openpyxl import Workbook from openpyxl.utils.dataframe import dataframe_to_rows import os def pdf_to_excel(pdf_path, excel_path): """ 将PDF中的表格转换为Excel文件 :param pdf_path: PDF文件路径 :param excel_path: 输出的Excel文件路径 """ try: # 创建Excel工作簿 wb = Workbook() # 删除默认创建的工作表 wb.remove(wb.active) with pdfplumber.open(pdf_path) as pdf: # 遍历PDF的每一页 for page_num, page in enumerate(pdf.pages, 1): # 提取当前页的所有表格 tables = page.extract_tables() # 如果当前页有表格 for table_num, table in enumerate(tables, 1): # 将表格数据转换为DataFrame df = pd.DataFrame(table[1:], columns=table[0]) # 创建工作表，命名规则：页数_表格序号 sheet_name = f"Page_{page_num}_Table_{table_num}" ws = wb.create_sheet(title=sheet_name) # 将DataFrame数据写入工作表 for row in dataframe_to_rows(df, index=False, header=True): ws.append(row) # 保存Excel文件 wb.save(excel_path) print(f"转换成功！Excel文件已保存至：{excel_path}") except Exception as e: print(f"转换过程中出现错误：{str(e)}") # 使用示例 if __name__ == "__main__": pdf_file = "sample.pdf" # 输入PDF文件路径 excel_file = "output.xlsx" # 输出Excel文件路径 pdf_to_excel(pdf_file, excel_file) ``` ### 2.3 增强版转换函数（支持表格优化） ```python import pdfplumber import pandas as pd from openpyxl import Workbook from openpyxl.styles import Font, Alignment, Border, Side import re def enhanced_pdf_to_excel(pdf_path, excel_path, table_settings=None): """ 增强版PDF转Excel函数，支持表格样式优化 :param pdf_path: PDF文件路径 :param excel_path: 输出的Excel文件路径 :param table_settings: 表格提取参数配置 """ # 默认表格提取参数 if table_settings is None: table_settings = { "vertical_strategy": "lines", # 垂直线检测策略 "horizontal_strategy": "lines", # 水平线检测策略 "snap_tolerance": 3, # 捕捉容差 } wb = Workbook() wb.remove(wb.active) # 定义Excel单元格样式 header_font = Font(bold=True, color="FFFFFF") header_fill = PatternFill(start_color="366092", end_color="366092", fill_type="solid") border = Border(left=Side(style='thin'), right=Side(style='thin'), top=Side(style='thin'), bottom=Side(style='thin')) with pdfplumber.open(pdf_path) as pdf: total_tables = 0 for page_num, page in enumerate(pdf.pages, 1): print(f"正在处理第 {page_num} 页...") # 使用配置参数提取表格 tables = page.extract_tables(table_settings) for table_num, table in enumerate(tables, 1): if not table or len(table) < 2: continue # 清理表格数据 cleaned_table = [] for row in table: cleaned_row = [cell.replace('\n', ' ').strip() if cell else '' for cell in row] cleaned_table.append(cleaned_row) # 创建DataFrame headers = cleaned_table[0] data = cleaned_table[1:] df = pd.DataFrame(data, columns=headers) # 创建工作表 sheet_name = f"表{total_tables + 1}" if len(sheet_name) > 31: # Excel工作表名称长度限制 sheet_name = f"Table_{total_tables + 1}" ws = wb.create_sheet(title=sheet_name) # 写入表头并设置样式 for col_num, header in enumerate(headers, 1): cell = ws.cell(row=1, column=col_num, value=header) cell.font = header_font cell.fill = header_fill cell.alignment = Alignment(horizontal='center') cell.border = border # 写入数据 for row_num, row_data in enumerate(data, 2): for col_num, cell_value in enumerate(row_data, 1): cell = ws.cell(row=row_num, column=col_num, value=cell_value) cell.border = border cell.alignment = Alignment(horizontal='left') # 自动调整列宽 for column in ws.columns: max_length = 0 column_letter = column[0].column_letter for cell in column: try: if len(str(cell.value)) > max_length: max_length = len(str(cell.value)) except: pass adjusted_width = min(max_length + 2, 50) ws.column_dimensions[column_letter].width = adjusted_width total_tables += 1 if total_tables > 0: wb.save(excel_path) print(f"成功转换 {total_tables} 个表格到 {excel_path}") else: print("未在PDF中发现表格") wb.save(excel_path) # 仍然保存空的Excel文件 # 使用示例 enhanced_pdf_to_excel("input.pdf", "enhanced_output.xlsx") ``` ## 三、替代方案：tabula-py批量处理 ```python import tabula import pandas as pd import os def batch_pdf_to_excel(pdf_directory, output_directory): """ 批量处理PDF文件夹中的所有文件 :param pdf_directory: PDF文件所在目录 :param output_directory: 输出Excel文件目录 """ if not os.path.exists(output_directory): os.makedirs(output_directory) pdf_files = [f for f in os.listdir(pdf_directory) if f.lower().endswith('.pdf')] for pdf_file in pdf_files: pdf_path = os.path.join(pdf_directory, pdf_file) excel_file = os.path.splitext(pdf_file)[0] + '.xlsx' excel_path = os.path.join(output_directory, excel_file) try: # 使用tabula提取所有表格 tables = tabula.read_pdf(pdf_path, pages='all', multiple_tables=True) if tables: with pd.ExcelWriter(excel_path) as writer: for i, table in enumerate(tables): sheet_name = f'Table_{i+1}' # 清理数据 table = table.dropna(how='all') # 删除全空行 table = table.reset_index(drop=True) table.to_excel(writer, sheet_name=sheet_name, index=False) print(f"成功转换: {pdf_file} -> {excel_file}") else: print(f"未在 {pdf_file} 中找到表格") except Exception as e: print(f"转换 {pdf_file} 时出错: {str(e)}") # 批量处理示例 batch_pdf_to_excel("./pdf_files/", "./excel_output/") ``` ## 四、处理特殊情况的进阶技巧 ### 4.1 处理跨页表格 ```python def handle_multi_page_tables(pdf_path, excel_path): """ 处理跨页的连续表格 """ all_tables_data = [] current_table = [] with pdfplumber.open(pdf_path) as pdf: for page in pdf.pages: tables = page.extract_tables() for table in tables: if table: # 判断是否是前一页表格的延续 if (current_table and len(table[0]) == len(current_table[-1]) and is_table_continuation(current_table[-1], table[0])): current_table.extend(table[1:]) else: if current_table: all_tables_data.append(current_table) current_table = table # 保存最后一个表格 if current_table: all_tables_data.append(current_table) # 将合并的表格写入Excel save_merged_tables_to_excel(all_tables_data, excel_path) def is_table_continuation(last_row, first_row): """ 判断两个行是否是同一表格的连续部分 """ # 基于表头匹配或数据模式判断 return len(last_row) == len(first_row) ``` ### 4.2 质量检查和数据验证 ```python def validate_pdf_conversion(pdf_path, excel_path): """ 验证PDF到Excel转换的质量 """ validation_results = { 'total_tables': 0, 'successful_conversions': 0, 'empty_tables': 0, 'format_issues': [] } with pdfplumber.open(pdf_path) as pdf: expected_tables = 0 for page in pdf.pages: tables = page.extract_tables() expected_tables += len([t for t in tables if t and len(t) > 1]) # 读取生成的Excel文件进行验证 try: excel_file = pd.ExcelFile(excel_path) actual_tables = len(excel_file.sheet_names) validation_results['total_tables'] = expected_tables validation_results['successful_conversions'] = actual_tables # 检查每个工作表的数据质量 for sheet_name in excel_file.sheet_names: df = pd.read_excel(excel_path, sheet_name=sheet_name) if df.empty: validation_results['empty_tables'] += 1 elif df.isnull().all().all(): validation_results['format_issues'].append(f"工作表 {sheet_name} 可能格式错误") except Exception as e: validation_results['format_issues'].append(f"Excel文件读取错误: {str(e)}") return validation_results ``` ## 五、实际应用场景示例 ### 5.1 财务报表转换 ```python def convert_financial_reports(pdf_path, excel_path): """ 专门用于财务报表PDF转换的函数 """ # 配置特定的表格检测参数 financial_settings = { "vertical_strategy": "lines", "horizontal_strategy": "lines", "snap_tolerance": 2, "join_tolerance": 3, } return enhanced_pdf_to_excel(pdf_path, excel_path, financial_settings) ``` ### 5.2 学术论文表格提取 ```python def extract_academic_tables(pdf_path, excel_path): """ 提取学术论文中的实验数据表格 """ with pdfplumber.open(pdf_path) as pdf: # 重点关注包含"结果"、"数据"等关键词的页面 results_pages = [] for page_num, page in enumerate(pdf.pages): text = page.extract_text() if text and any(keyword in text.lower() for keyword in ['结果', '数据', 'table', '实验']): results_pages.append(page_num) # 只处理相关页面 tables_data = [] for page_num in results_pages: page = pdf.pages[page_num] tables = page.extract_tables() tables_data.extend(tables) save_tables_to_excel(tables_data, excel_path) ``` 以上Python实现方案涵盖了从基础到高级的PDF转Excel功能，用户可以根据具体需求选择合适的方案。推荐使用`pdfplumber + openpyxl`组合，因其在表格识别准确性和格式保持方面表现最佳[ref_5]。对于批量处理需求，`tabula-py`方案提供了更好的性能[ref_6]。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 WinForm登录窗体在.NET Framework 4.0下怎么一步步搭起来？界面、事件和数据库验证都得有