PDF扫描件里的文字怎么用Python自动识别并存成CSV表格？

使用Python提取文字并整理成CSV文件可按以下步骤操作： ### 安装相关第三方包需要安装`pdf2image`和`pytesseract`这两个第三方包，命令如下： ```bash pip3 install pdf2image pytesseract ``` ### 导入需要用到的第三方库导入用于处理文件、将PDF转换为图片、识别图片文字以及处理CSV文件的库： ```python import os # 处理文件 from pdf2image import convert_from_path # pdf转图片 import pytesseract # 识别图片文字 import csv # 处理csv文件 ``` ### 读取PDF文件并识别内容首先将PDF文件转换为图片，再使用OCR工具识别图片中的文字，示例代码如下： ```python def tess_ocr(pdf_path, lang, first_page, last_page): # 将PDF转换为图片 images = convert_from_path(pdf_path, first_page=first_page, last_page=last_page) extracted_text = [] for image in images: # 识别图片中的文字 text = pytesseract.image_to_string(image, lang=lang) extracted_text.append(text) return extracted_text ``` ### 将提取的文字整理成CSV文件 ```python pdf_path = 'your_pdf_file.pdf' lang = 'eng' # 语言设置，根据实际情况修改 first_page = 1 last_page = None # 若为None则处理整个PDF # 提取文字 texts = tess_ocr(pdf_path, lang, first_page, last_page) # 将提取的文字写入CSV文件 with open('output.csv', mode='w', newline='', encoding='utf-8') as csv_file: writer = csv.writer(csv_file) writer.writerow(['Page', 'Text']) for i, text in enumerate(texts, start=1): writer.writerow([i, text]) ``` 另外，如果使用`convert_from_path`时需要指定`poppler`路径，可以采用如下方式： ```python pdf_file_path = 'your_pdf_file.pdf' images = convert_from_path(pdf_path=pdf_file_path, poppler_path=r'poppler中bin文件所在地址') ``` 在实际应用中，从扫描件的PDF文件提取特定内容并整理成表格的需求广泛存在，如财务领域提取发票、报销单中的金额、日期、商品名称等信息；科研工作提取实验报告、学术文献中的数据、图表等信息；行政办公提取合同、文件中的关键条款、日期、签名等信息，都可以按照上述思路，结合具体需求进行调整和扩展 [^1][^2][^4][^5]。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 Python里怎么快速判断一行文本是不是以字母p开头？有啥要注意的？

目录

PDF扫描件里的文字怎么用Python自动识别并存成CSV表格？

Python内容推荐

PDFPlumber：从PDF文件提取文字和表格的Python库.pdf

Python 用三行代码提取PDF表格数据

Python-Camelot一个可以轻松地从PDF文件中提取表格的Python库

用Python将 PDF 中的表格提取为 Excel/CSV

python_pdf_to_csv

Python一键提取PDF中的表格到Excel

Python-Excalibur一个用于从PDF中提取表格数据的Web界面

python对CSV文件进行可视化-饼图.pdf

Python开发教程之Python处理CSV与List的转换方法讲解.pdf-综合文档

Python读取CSV文件.pdf

Python源码自动办公-57 PDF-识别并读取PDF中的文字.rar

Python常见读写文件操作实例总结【文本、json、csv、pdf等】

Python 应用程序代码-Python实现PDF表格提取 Camelot

《量化投资:以Python为工具》课后习题答案的pdf及代码及所用的csv都在这里了

python操作pdf、word、csv -1python操作pdf-code

python实例-Python一键提取PDF中的表格到Excel

Python-用于从PDF文件中提取表单的一组工具

将Python字符串生成PDF的实例代码详解

python从PDF中提取数据的示例

如何将一组答案和相应建议的表格转换成Python程序？

Python基础第八章

python面试必备知识点分享.docx

Python面试题及答案共55道.docx

python笔试题(2).docx

Python-100个精选的python陷阱示例每周1个新示例

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构