如何从python 读取pdf 文本之后将文本输入到正确的columns里面

要在Python中完成从PDF文件读取文本并将其组织到适当的列结构（如DataFrame），可以按照以下步骤操作： ### 步骤一：安装必要的库需要两个重要的库来进行该任务，`PyPDF2`用于提取PDF内容，而`pandas`则帮助我们创建表格数据。 ```bash pip install PyPDF2 pandas ``` ### 步骤二：编写代码示例 #### 示例代码下面是一个简单的例子展示如何处理这个问题: ```python import PyPDF2 import pandas as pd # 打开 PDF 文件 def extract_text_from_pdf(pdf_path): text = "" with open(pdf_path, "rb") as file: reader = PyPDF2.PdfReader(file) num_pages = len(reader.pages) # 获取页数 for i in range(num_pages): # 遍历每一页 page = reader.pages[i] text += page.extract_text() + "\n" # 提取出文字信息 return text.strip() # 假设你已经知道了要分割成哪些列，并且有规则去解析它们。 def split_into_columns(text): lines = [line.split(' ') for line in text.split('\n') if line] # 按行拆分并去除空格 df = pd.DataFrame(lines, columns=['Column1', 'Column2']) # 自己设定合适的列名 return df if __name__ == "__main__": pdf_file_path = './example.pdf' # 替换为你自己的路径 raw_text = extract_text_from_pdf(pdf_file_path) structured_df = split_into_columns(raw_text) print(structured_df.head()) # 查看前几行数据是否正确排列到了对应的列里 ``` 注意这个简单版本假设了每一行都是由空格分开的项目列表。实际应用中，您可能需要更复杂的正则表达式或者其他技术来准确地识别出不同字段及其位置关系。 ### 其他注意事项如果文档特别复杂或者格式化程度高，则单纯依靠字符串匹配可能会非常困难甚至不可能完全自动化解决所有情况；此时可以考虑结合OCR光学字符识别工具(例如`tesseract`)以及机器学习模型辅助分类与排序等工作流程部分环节。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 python代码怎么保存为exe

目录

如何从python 读取pdf 文本之后将文本输入到正确的columns里面

Python内容推荐

基于Python快速处理PDF表格数据

python批量提取pdf表格与文字

专门用于测试的资源，Python用pdfplumber第三方库读取pdf文件写入到Excel表中

python实现PDF中表格转化为Excel的方法

Python办公自动化之PDF篇笔记

Python读取Excel数据：使用pandas和openpyxl.pdf

python读取excel数据 .pdf

【python接口自动化】- openpyxl读取excel数据（csdn）————程序.pdf

利用python程序生成word和PDF文档的方法

【办公自动化】python操作excel、word、pdf （含大量代码示例）.pdf

python创建、读取、修改CSV数据文件（csdn）————程序.pdf

Python项目开发实战_读取巴菲特最近的持仓数据_编程案例解析实例详解课程教程.pdf

python从PDF中提取数据的示例

python数据分析pandas快速入门教程.pdf

[实训解析]Python 计算思维训练——SAR图像处理-第2关：读入一个目录下所有图像_5307.pdf

python-docx使用教程.pdf

Python数据分析实践：pandas读写文件new.pdf

python 3.7 静态变量和内部变量的bug（csdn）————程序.pdf

Python-xlwings-调用Excel的工具.pdf

爬虫：Python下载html保存成pdf——以下载知乎下某个专栏下所有文章为例

显示和隐藏进程的主窗口

#资源达人分享计划# clsWindow2.2_20210331控制PC版QQ发送消息.zip

根据进程ID获取进程的用户名

查看窗口和控件句柄、类名、标题、风格

Python获取系统所有进程PID及进程名称的方法示例

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构