用python写出筛选几万行excel数据中出现特定名称数量的可运行代码

在处理大型 Excel 文件并统计特定名称出现的次数时，Python 提供了多种库和方法来高效完成此类任务。由于文件较大，选择合适的库和处理方式对于性能和内存管理至关重要。 ### 使用 `pandas` 进行高效统计 `pandas` 是处理大型数据集的首选库之一，它基于 `NumPy`，能够高效处理结构化数据。结合 `openpyxl` 或 `xlrd` 引擎，`pandas` 可以读取 Excel 文件并快速统计特定字段的出现次数。以下是一个完整的代码示例： ```python import pandas as pd def count_occurrences_in_excel(file_path, sheet_name, column_name, target_value): """ 统计 Excel 文件中指定列中特定值的出现次数。 :param file_path: Excel 文件路径 :param sheet_name: 工作表名称或索引 :param column_name: 要统计的列名 :param target_value: 要查找的目标值 :return: 出现次数 """ try: df = pd.read_excel(file_path, sheet_name=sheet_name) count = df[df[column_name] == target_value].shape[0] return count except Exception as e: return f"Error: {e}" # 示例用法 file_path = "large_file.xlsx" sheet_name = 0 # 第一个工作表 column_name = "Name" target_value = "John Doe" result = count_occurrences_in_excel(file_path, sheet_name, column_name, target_value) print(f"出现次数: {result}") ``` 该方法适用于大多数中小型 Excel 文件[^1]。若文件特别大，可考虑分块读取或使用 `openpyxl` 逐行处理。 ### 使用 `openpyxl` 逐行读取大型文件对于非常大的 Excel 文件，使用 `pandas` 可能会导致内存占用过高。此时，使用 `openpyxl` 逐行读取并统计特定字段的出现次数更为高效。 ```python from openpyxl import load_workbook def count_occurrences_with_openpyxl(file_path, sheet_name, column_name, target_value): wb = load_workbook(filename=file_path, read_only=True) ws = wb[sheet_name] # 获取列索引 columns = next(ws.iter_rows(min_row=1, max_row=1, values_only=True)) try: col_index = columns.index(column_name) except ValueError: return f"列 '{column_name}' 未找到" count = 0 for row in ws.iter_rows(min_row=2, values_only=True): # 跳过标题行 if row[col_index] == target_value: count += 1 return count # 示例调用 file_path = "large_file.xlsx" sheet_name = "Sheet1" column_name = "Name" target_value = "John Doe" result = count_occurrences_with_openpyxl(file_path, sheet_name, column_name, target_value) print(f"出现次数: {result}") ``` 此方法适用于处理大型 Excel 文件，`read_only=True` 使得 `openpyxl` 以只读模式加载文件，显著减少内存使用[^2]。 ### 性能优化建议 - **列索引查找**：在读取每一行之前，先确定目标列的索引位置，避免重复查找。 - **使用生成器**：`openpyxl` 的 `iter_rows()` 方法返回生成器，适合处理大型数据集。 - **避免一次性加载全部数据**：对于超大文件，逐行处理是更优选择。 ### 相关问题

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 python中字典类型数据如何筛选中某几行

目录

用python写出筛选几万行excel数据中出现特定名称数量的可运行代码

Python内容推荐

利用python3筛选excel中特定的行（行值满足某个条件/行值属于某个集合）

Python对Excel按列值筛选并拆分表格到多个文件的代码

python 删除excel表格重复行,数据预处理操作

python3读取excel文件只提取某些行某些列的值方法

python自动办公-11 在Excel中按条件筛选数据并存入新的表

利用python对Excel中的特定数据提取并写入新表的方法

自动办公-python 在Excel中按条件筛选数据并存入新的表

【python】删除excel表格重复行，数据预处理

Python操作Excel插入删除行的方法

python读取excel指定列数据并写入到新的excel方法

Python3读取和写入excel表格数据的示例代码

python处理excel表格数据

Python实现删除某列中含有空值的行的示例代码

Python筛选Excel数据[可运行源码]

python3 读取Excel表格中的数据

Python读取Excel数据[可运行源码]

基于python实现在Excel中按条件筛选数据并存入新的表

Python将一个Excel拆分为多个Excel

python实现xlwt xlrd 指定条件给excel行添加颜色

python提取包含关键字的整行数据方法

python实现npy格式文件转换为txt文件操作

Python 存取npy格式数据实例

numpy的文件存储.npy .npz 文件详解

python 实现两个npy档案合并

将npy文件转化为jpg或者png的python脚本（可直接运行）

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构