Python怎么从Excel里快速揪出含特定词的句子或整行数据？

使用 Python 提取 Excel 关键词可根据不同需求采用不同方法，以下为几种常见方法。 ### 从 Excel 长文本中提取包含特定关键词的句子可通过给原数据每一行一个序号作为唯一标志，将 Excel 中序号和评论两列作为字典读取，对评论分句，将分句结果保存为列表，找到包含关键词的句子，将其和评论序号存入新字典，最后将字典写入 CSV 文件。示例代码如下： ```python import re import csv import pandas as pd # 断句符号 pattern = r'\.|/|;|\'|`|\?|"|\~|!|\^|。|‘|’|·|！|…' juzi = {} # 读取原始文本所在的 Excel 文件 content = pd.read_excel(r'D:\Python\含5G评论.xlsx') # 序号列用来作为区分标志和 dict 的键值，评论列存放原始文本 comments = content.set_index("序号").to_dict()['评论'] for k, v in comments.items(): result_list = re.split(pattern, v) for i in result_list: if '5g' in i or '5G' in i: juzi[k] = i # 将包含关键词的句子和序号写入 CSV 文件 with open(r'D:\Python\5g_comments.csv', 'w', newline='', encoding='gbk') as f: writer = csv.writer(f) for k, v in juzi.items(): writer.writerow([k, v]) ``` 此方法适用于需从长文本中提取包含特定关键词句子的场景，可将结果与原数据对应起来保存 [^4]。 ### 根据多个关键词提取 Excel 数据若要依据多个关键词提取 Excel 里关键词所在的数据，可定义关键词列表，然后遍历 Excel 数据，找出包含关键词的数据。示例代码如下： ```python import pandas as pd # 定义关键词列表 a = ['PGSC1', 'PGSC3', 'PGSC6', 'PGSC7'] # 读取 Excel 文件 df = pd.read_excel('your_excel_file.xlsx') # 筛选包含关键词的数据 result = df[df.apply(lambda row: any(keyword in str(row) for keyword in a), axis=1)] # 输出结果 print(result) ``` 此方法可根据多个关键词筛选出 Excel 中包含这些关键词的数据 [^1]。 ### 使用关键词定位提取 PDF 中指定表格到 Excel 若要从 PDF 中提取指定表格到 Excel，可使用关键词定位。假设需提取公司“主要会计数据”下面的表格，用关键词“主要会计数据”定位即可。示例代码如下： ```python import os import pdfplumber from openpyxl import Workbook path = 'PDF' # 文件所在文件夹 files = [path + "\\" + i for i in os.listdir(path)] # 获取文件夹下的文件名，并拼接完整路径 key_words = "主要会计数据" for file in files: with pdfplumber.open(file) as p: wb = Workbook() # 新建 Excel 工作簿 wb.remove(wb.worksheets[0]) # 删除工作簿自带的工作表 # 获取关键词所在页及下一页的页码 pages_wanted = [] for index, page in enumerate(p.pages): if key_words in page.extract_text(): pages_wanted.append(index) pages_wanted.append(index + 1) break # 提取指定页码里的表格 for i in pages_wanted: page = p.pages[i] tables = page.extract_tables() if tables: ws = wb.create_sheet(f"Sheet{i + 1}") for table in tables: for row in table: ws.append(row) wb.save("Excel\\{}.xlsx".format(file.split("\\")[1].split(".")[0])) ``` 此方法适用于从 PDF 中提取指定表格到 Excel 的场景，通过关键词定位可准确提取所需表格 [^3]。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 MacBook上用Python连MySQL要装啥库、怎么写代码？有啥常见坑？

目录

Python怎么从Excel里快速揪出含特定词的句子或整行数据？

Python内容推荐

python:从excel中提取高频词生成词云

利用python对Excel中的特定数据提取并写入新表的方法

利用python3筛选excel中特定的行（行值满足某个条件/行值属于某个集合）

用Python将数据写入已存在Excel

python用字典统计单词或汉字词个数示例

Python- 快速合并多个Excel文件

Python pandas如何向excel添加数据

Python-快速生成詞雲python腳本可自定义可扩展

python提取excel数据练习

python读取excel指定列数据并写入到新的excel方法

python爬取拉勾网存excel+数据可视化web分析

Python使用Excel将数据写入多个sheet

利用Python实现Excel的文件间的数据匹配功能

利用Python快速批量生成基于Excel数据的KML文件

python实现excel读写数据

python3导入excel数据到mysql例子

python3 读取Excel表格中的数据

使用python将excel数据导入数据库过程详解

python将excel数据导入数据库

python处理excel表格数据

PyPI 官网下载 | mlpack3-3.4.2-cp36-cp36m-manylinux1_x86_64.whl

实现基于C++或者python基本库，初学学习之用.zip

机器学习的一些基础算法，主要使用Python、Cpp、Matlab编写。.zip

jenkins-conf:Jenkins的配置文件

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构

Java线程池运行时状态怎么实时掌握？有哪些靠谱的监控手段？