Python怎么把Excel里同一列的重复值自动分组处理？比如按部门汇总工资或拆成多个文件？

在Python中，通过读取Excel文件中的某一列，并将具有相同值的元素归为一类进行处理，核心流程是：**读取数据 -> 按列分组 -> 执行操作**。`pandas`库是实现此过程的标准化工具，其`groupby`方法是完成“按相同值归类”操作的基石[ref_1][ref_2][ref_6]。 ### 1. 数据读取：从Excel到DataFrame 首先，需要使用`pandas.read_excel()`函数将Excel数据加载到`DataFrame`中，这是后续所有操作的基础[ref_1][ref_5]。 ```python import pandas as pd # 假设有一个名为‘sales_data.xlsx’的Excel文件，其‘Sheet1’工作表包含销售数据 file_path = ‘sales_data.xlsx’ df = pd.read_excel(file_path, sheet_name=‘Sheet1’) # 读取指定工作表[ref_1] # 查看数据前几行及列名，确认数据结构 print(“读取的Excel数据预览：”) print(df.head()) print(“\n数据列名：”, df.columns.tolist()) # 如果只需读取特定列，可以使用`usecols`参数，提升读取效率[ref_5] # 例如，只读取‘销售员’和‘销售额’两列 df_specific = pd.read_excel(file_path, usecols=[‘销售员’, ‘销售额’]) ``` ### 2. 核心归类操作：`groupby`方法详解 `groupby`实现了“拆分-应用-合并”的范式。它根据指定列的唯一值将数据拆分成多个独立的组（即“归类”），然后可以对每个组进行各种计算[ref_1][ref_3]。 #### 2.1 基础分组与查看最简单的归类是查看每个类别包含哪些数据。 ```python # 假设我们关注‘部门’列，希望将相同部门的员工归为一类 grouped_by_dept = df.groupby(‘部门’) # 创建一个GroupBy对象，此时并未计算 # 1. 查看分组数量及组名 print(f“共分为 {grouped_by_dept.ngroups} 个部门。”) print(“部门名称列表：”, grouped_by_dept.groups.keys()) # 2. 获取并查看特定部门（如‘技术部’）的所有数据 tech_group = grouped_by_dept.get_group(‘技术部’) print(f“\n‘技术部’的所有员工记录：”) print(tech_group) # 3. 遍历所有分组 print(“\n遍历所有部门分组：”) for dept_name, group_data in df.groupby(‘部门’): print(f”\n部门: {dept_name}, 记录数: {len(group_data)}“) print(group_data) ``` #### 2.2 分组后的聚合计算归类后最常见的操作是进行聚合统计，例如计算每个类别的总和、平均值、数量等[ref_1][ref_6]。 ```python # 示例数据：包含‘部门’、‘员工’、‘工资’三列 data = { ‘部门’: [‘技术部’, ‘市场部’, ‘技术部’, ‘人事部’, ‘市场部’, ‘技术部’], ‘员工’: [‘张三’, ‘李四’, ‘王五’, ‘赵六’, ‘钱七’, ‘孙八’], ‘工资’: [12000, 8000, 15000, 7000, 9000, 13000] } df_salary = pd.DataFrame(data) # 按‘部门’归类，并计算每个部门的工资总额和平均工资 dept_summary = df_salary.groupby(‘部门’)[‘工资’].agg([(‘总工资’, ‘sum’), (‘平均工资’, ‘mean’), (‘人数’, ‘count’)]) print(“各部门工资汇总（使用agg并重命名列）：”) print(dept_summary) # 使用更简洁的语法 dept_summary_simple = df_salary.groupby(‘部门’)[‘工资’].agg(总工资=‘sum’, 平均工资=‘mean’, 人数=‘count’) print(“\n各部门工资汇总（简洁语法）：”) print(dept_summary_simple) ``` ### 3. 归类后的数据处理与输出将数据归类后，可以根据业务需求进行不同的处理和输出。 #### 3.1 为原始数据添加分组特征（`transform`） `transform`方法在对数据进行归类计算后，会返回一个与原始数据行数相同的Series，便于为每一行添加基于其所属类别的特征[ref_2][ref_6]。 ```python # 计算每个部门的平均工资，并将该值添加到原数据表的每一行中 df_salary[‘部门平均工资’] = df_salary.groupby(‘部门’)[‘工资’].transform(‘mean’) # 计算每个员工的工资与所在部门平均工资的差值 df_salary[‘与部门均值的差值’] = df_salary[‘工资’] - df_salary[‘部门平均工资’] print(“\n为原始数据添加部门级特征：”) print(df_salary) ``` #### 3.2 将不同类别的数据拆分到独立文件一个非常实用的场景是，根据归类结果，将不同类别的数据分别保存到独立的Excel或CSV文件中[ref_4][ref_5]。 ```python import os output_directory = ‘./各部门数据/’ os.makedirs(output_directory, exist_ok=True) # 创建输出目录 # 按‘部门’分组，并将每个部门的数据保存为一个独立的Excel文件 for dept_name, group_data in df_salary.groupby(‘部门’): # 构建文件名，例如：技术部_数据.xlsx filename = os.path.join(output_directory, f”{dept_name}_数据.xlsx“) group_data.to_excel(filename, index=False) # index=False表示不保存行索引[ref_1] print(f”已保存: {filename}“) # 或者，将所有部门的数据保存到同一个Excel文件的不同工作表(Sheet)中 with pd.ExcelWriter(‘所有部门数据汇总.xlsx’) as writer: for dept_name, group_data in df_salary.groupby(‘部门’): # 将每个部门的数据写入一个以部门名命名的Sheet group_data.to_excel(writer, sheet_name=dept_name, index=False) print(“\n已将所有部门数据合并保存至 ‘所有部门数据汇总.xlsx’ 的不同Sheet中。”) ``` #### 3.3 基于分组条件筛选数据（`filter`） `filter`方法允许根据整个组的统计属性来筛选数据。例如，只保留那些记录数量大于某个阈值的组。 ```python # 只保留员工人数大于1的部门 filtered_df = df_salary.groupby(‘部门’).filter(lambda x: len(x) > 1) print(“\n筛选出员工人数大于1的部门数据：”) print(filtered_df) ``` ### 4. 复杂归类与统计 #### 4.1 多列组合归类可以根据多个列的组合进行更精细的归类，这会产生一个多层索引（MultiIndex）[ref_1]。 ```python # 假设数据还有‘年份’列，我们想按‘部门’和‘年份’进行组合归类 data_complex = { ‘部门’: [‘技术部’, ‘技术部’, ‘市场部’, ‘技术部’, ‘市场部’, ‘市场部’], ‘年份’: [2022, 2023, 2022, 2023, 2022, 2023], ‘销售额’: [200, 220, 150, 240, 170, 190] } df_complex = pd.DataFrame(data_complex) # 按‘部门’和‘年份’进行组合归类，并计算每年的部门销售额总和 grouped_multi = df_complex.groupby([‘部门’, ‘年份’])[‘销售额’].sum() print(“按部门和年份组合归类的销售额总和：”) print(grouped_multi) # 这是一个具有两层索引的Series，可以通过 .unstack() 转换为更易读的表格形式 print(“\n使用unstack转换为透视表格式：”) print(grouped_multi.unstack()) ``` #### 4.2 统计每个类别中元素的出现频率如果归类目的仅仅是统计某一列中每个唯一值出现的次数，`value_counts()`方法是更直接高效的选择[ref_3][ref_4]。 ```python # 直接统计‘部门’列中每个值出现的次数 dept_counts = df_salary[‘部门’].value_counts() print(“\n各部门员工数量统计（使用value_counts）：”) print(dept_counts) print(type(dept_counts)) # <class ‘pandas.core.series.Series’> # 如果需要将结果转换为DataFrame dept_counts_df = dept_counts.reset_index() dept_counts_df.columns = [‘部门’, ‘员工数’] # 重命名列 print(“\n转换为DataFrame：”) print(dept_counts_df) ``` ### 5. 完整工作流示例以下是一个从读取Excel到完成归类处理并输出的完整示例。 ```python import pandas as pd import os # 步骤1: 读取Excel数据 df = pd.read_excel(‘员工信息.xlsx’) print(“原始数据：”) print(df) # 步骤2: 按‘城市’列进行归类 grouped_by_city = df.groupby(‘城市’) # 步骤3: 对每个城市组进行计算（例如，计算平均年龄和最高薪资） city_stats = df.groupby(‘城市’).agg({ ‘年龄’: ‘mean’, ‘薪资’: [‘max’, ‘min’, ‘count’] }) city_stats.columns = [‘平均年龄’, ‘最高薪资’, ‘最低薪资’, ‘员工数’] # 扁平化列名 print(“\n各城市统计信息：”) print(city_stats) # 步骤4: 将每个城市的数据保存为单独的CSV文件 output_dir = ‘./各城市员工数据/’ os.makedirs(output_dir, exist_ok=True) for city_name, city_group in grouped_by_city: filename = os.path.join(output_dir, f”{city_name}.csv“) city_group.to_csv(filename, index=False, encoding=‘utf-8-sig’) print(f”已生成文件: {filename}“) # 步骤5: (可选) 将汇总统计也保存到Excel with pd.ExcelWriter(‘城市统计汇总.xlsx’) as writer: city_stats.to_excel(writer, sheet_name=‘汇总’) # 也可以将每个城市的详细数据写入不同的Sheet for city_name, city_group in grouped_by_city: city_group.to_excel(writer, sheet_name=city_name[:31], index=False) # Sheet名最多31字符 print(“\n所有处理完成，统计结果已保存至 ‘城市统计汇总.xlsx’。”) ``` 综上所述，Python通过`pandas`库实现“读取Excel一列并按相同值归类”的核心在于`groupby`方法。其标准流程是：使用`pd.read_excel`加载数据[ref_1][ref_5]；使用`df.groupby(‘列名’)`创建分组对象；随后根据需求，选择`agg`进行聚合统计[ref_1][ref_6]、`transform`添加组内特征[ref_2]、`filter`筛选分组、或直接遍历分组以拆分数据至独立文件[ref_4][ref_5]。对于简单的频次统计，`value_counts()`是更便捷的选择[ref_3][ref_4]。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇大坝安全预警系统如何通过Python实现多源数据融合与规范合规预警？

目录

Python怎么把Excel里同一列的重复值自动分组处理？比如按部门汇总工资或拆成多个文件？

Python内容推荐

python汇总多个word到excel里

python 删除excel表格重复行,数据预处理操作

【Python_009】按照excel中某字段拆分文件到多个excel

python实现查找excel里某一列重复数据并且剔除后打印的方法

Python 自动办公- Python分类汇总278张Excel表中的数据 Python源码

Python实现处理excel，多个表格合并，筛选.zip

python打包EXE对Excel文件进行某列拆分

基于python的自动办公-43 excel处理实例（单工作簿拆分到多工作簿中（多表中）.zip

python代码自动办公 excel处理实例（一维转二维）项目源码有详细注解，适合新手一看就懂.rar

从Excel到Python数据分析进阶指南1

python自动办公-44 excel处理实例（二维表转一维表）

python数据清洗

PythonNotebooks:使用python中的excel文件工作的源-python source file

01_Python3处理Excel文件.zip

csv_file.rar_csv_csv文件_python_python 读写 excel_python处理csv数据

Python源码自动办公-45 excel处理实例（一维转二维）.rar

python代码自动办公 Pandas提取指定数据并保存在原Excel工作簿中项目源码有详细注解，适合新手一看就懂.rar

Python的Excel数据分析师程序.zip

python excel处理实例（筛选成绩总分大于等于300分的记录）

python Excel数据分析师程序源程序.rar

PyPI 官网下载 | mlpack3-3.4.2-cp36-cp36m-manylinux1_x86_64.whl

实现基于C++或者python基本库，初学学习之用.zip

机器学习的一些基础算法，主要使用Python、Cpp、Matlab编写。.zip

jenkins-conf:Jenkins的配置文件

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构

Java线程池运行时状态怎么实时掌握？有哪些靠谱的监控手段？