Python实现抽取PDF文件内容，保留表格样式

在 Python 中实现从 PDF 文件中抽取内容并**保留表格样式**，可以使用一些功能强大的库，如 `pdfplumber`、`camelot` 或 `tabula-py`。这些库能够识别表格结构，并保留其样式信息（如边框、单元格合并等）。以下是一个使用 `pdfplumber` 的示例，它能够抽取 PDF 中的表格内容并保留其样式结构： --- ### ✅ 使用 `pdfplumber` 提取 PDF 表格并保留样式 #### 安装依赖 ```bash pip install pdfplumber ``` #### 示例代码 ```python import pdfplumber def extract_tables_with_style(pdf_path): with pdfplumber.open(pdf_path) as pdf: for i, page in enumerate(pdf.pages): print(f"=== 第 {i + 1} 页表格 ===") tables = page.extract_tables() for table in tables: for row in table: print(" | ".join(cell if cell else "" for cell in row)) print("-" * 40) ``` #### 使用说明 - `page.extract_tables()` 会自动检测页面中的表格区域并提取为二维数组； - 每个单元格的内容保留原始样式（如换行、空格等）； - 可以进一步将表格导出为 CSV、Pandas DataFrame 或 HTML 表格。 --- ### ✅ 使用 `camelot` 提取表格并导出为 DataFrame 或 Excel #### 安装依赖 ```bash pip install camelot-py[cv] ``` #### 示例代码 ```python import camelot def extract_tables_with_camelot(pdf_path): tables = camelot.read_pdf(pdf_path, pages='all') print(f"检测到 {tables.n} 个表格") for i, table in enumerate(tables): print(f"\n--- 表格 {i+1} ---") print(table.df) # pandas DataFrame 格式 # table.to_excel(f"table_{i+1}.xlsx") # 导出为 Excel ``` --- ### ✅ 使用 `tabula-py` 提取表格（适合结构清晰的 PDF） #### 安装依赖 ```bash pip install tabula-py ``` #### 示例代码 ```python from tabula import read_pdf def extract_with_tabula(pdf_path): dfs = read_pdf(pdf_path, pages="all", multiple_tables=True) for i, df in enumerate(dfs): print(f"\n--- 表格 {i+1} ---") print(df) ``` --- ### 总结对比 | 库名称 | 是否保留样式 | 是否支持复杂表格 | 输出格式 | 推荐用途 | |---------------|----------------|--------------------|----------------|-----------------------| | `pdfplumber` | ✅ 部分保留 | ✅ 支持 | 文本/列表 | 精确提取内容 + 样式 | | `camelot` | ✅ 支持样式识别 | ✅ 强大解析能力 | DataFrame/Excel| 表格结构化处理 | | `tabula-py` | ❌ 不保留样式 | ⚠️ 适合结构清晰表格 | DataFrame | 快速提取表格数据 | --- ### ✅ 附加：将表格转为 HTML 保留样式（以 pdfplumber 为例） ```python def table_to_html(table_data): html = "<table border='1'>\n" for row in table_data: html += " <tr>\n" for cell in row: html += f" <td>{cell or ''}</td>\n" html += " </tr>\n" html += "</table>" return html ``` ---

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇已经用python写了接口测试，如何实现自动化

目录

Python实现抽取PDF文件内容，保留表格样式

Python内容推荐

Python15个实用脚本[代码]

Python-PDFMiner一个用于从PDF文档中抽取信息的工具

Python-Excalibur一个用于从PDF中提取表格数据的Web界面

python项目源码_实例50_Python一键提取PDF中的表格到Excel.rar

keyword_find.zip_pdf txt_python转换为pdf_关键词抽取

Python爬虫实例一键提取PDF中的表格到Excel

Python-用于从PDF文件中提取表单的一组工具

python使用pdfminer解析pdf文件的方法示例

Python提取pdf文件目录_Demo源码

毕业设计python完成三个过程PDF的识别与分析信息抽取构建知识图谱信息检索基于知识图源码谱.zip

信息科学_自然语言处理与数据挖掘_Python编程与PDF解析_第54回情报科学若手会演示项目_用于从PDF文档中提取结构化信息的开源工具包_包含PDF文本解析_表格数据抽取_元信.zip

PDFPlumber Python库提取PDF文字表格

正则抽取时间python（csdn）————程序.pdf

基于python实现PDF的识别与分析-信息抽取（构建知识图谱）-信息检索（基于知识图谱）

《python数据处理》pdf文件解析模块：pdfminer和pdfplumber

python实战-Python一键提取PDF中的表格到Excel.zip

PYTHON_PDF_TRANS:它是由PYTHON制造的。 它用于翻译PDF或文本和阅读PDF

【Python编程】Python日志系统logging模块配置与最佳实践

Python安装使用.docx

【Python编程】Python正则表达式re模块高级用法

基于打开pycharm有带图片md文件卡死问题的解决

PyCharm集成Jupyter启动卡死解决[代码]

解决终端运行Py闪退

解决PyCharm闪退问题[项目代码]

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构

Java线程池运行时状态怎么实时掌握？有哪些靠谱的监控手段？

PYTHON_PDF_TRANS:它是由PYTHON制造的。它用于翻译PDF或文本和阅读PDF