Pandas里用条件筛选数据和按组汇总，各自有哪些实用又高效的操作技巧？

# 逻辑索引切片方法与GroupBy分组高级用法详解针对逻辑索引切片和`groupby`分组，以下是其核心用法和示例的详细解析。 ## 一、逻辑索引切片方法逻辑索引切片是数据框（DataFrame）或序列（Series）中通过布尔条件进行数据筛选的高效操作。在Pandas中，`loc`和`iloc`访问器结合布尔序列是实现此操作的核心。 ### 1. 基本逻辑切片操作逻辑索引通常基于对数据的条件判断，生成一个布尔序列（`True`/`False`），然后使用这个序列进行索引。 ```python import pandas as pd # 创建示例DataFrame df = pd.DataFrame({ 'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'], 'Age': [25, 30, 35, 40, 28], 'Salary': [50000, 60000, 70000, 80000, 55000], 'Department': ['HR', 'IT', 'IT', 'Finance', 'HR'] }) print("原始DataFrame:") print(df) print("\n" + "-"*50 + "\n") # 示例1：基本逻辑索引（直接使用布尔条件） # 筛选年龄大于30的员工 condition_age = df['Age'] > 30 filtered_df_age = df[condition_age] print("1. 使用 df['Age'] > 30 进行逻辑索引：") print(filtered_df_age) print("\n说明：条件 'df[\"Age\"] > 30' 生成一个布尔序列，然后 df[condition] 返回所有为True的行。\n") # 示例2：使用loc进行逻辑索引（显式指定行和列） # 筛选部门为'IT'且工资大于等于60000的员工，只显示'Name'和'Salary'列 condition_dept_salary = (df['Department'] == 'IT') & (df['Salary'] >= 60000) filtered_df_loc = df.loc[condition_dept_salary, ['Name', 'Salary']] print("2. 使用 loc 结合复杂条件（部门为IT且工资>=60000），并选择特定列：") print(filtered_df_loc) print("\n说明：使用 &（与）、|（或）、~（非）组合条件，并通过loc进行行、列双重筛选。\n") # 示例3：多条件组合与取反操作 # 筛选年龄小于35或部门为'HR'，但排除姓名为'Eve'的员工 complex_condition = ((df['Age'] < 35) | (df['Department'] == 'HR')) & ~(df['Name'] == 'Eve') filtered_df_complex = df[complex_condition] print("3. 多条件组合与取反操作（(Age<35 或 Dept=HR) 且姓名不是'Eve')：") print(filtered_df_complex) print("\n说明：展示了括号优先级和~取反操作符的使用。\n") ``` ### 2. 高级逻辑切片技巧高级技巧包括使用`query`方法、结合`isin`函数以及对索引进行逻辑筛选。 ```python # 示例4：使用 query 方法进行逻辑查询 # 查询工资在55000到75000之间（包含两端）的员工 filtered_df_query = df.query('55000 <= Salary <= 75000') print("4. 使用 query 方法进行范围查询：") print(filtered_df_query) print("\n说明：query方法允许使用字符串表达式，更易读，尤其适合从外部读取条件。\n") # 示例5：使用 isin 进行集合成员判断 # 筛选部门为'HR'或'Finance'的员工 valid_departments = ['HR', 'Finance'] condition_isdep = df['Department'].isin(valid_departments) filtered_df_isdep = df[condition_isdep] print("5. 使用 isin 方法筛选属于特定集合的值：") print(filtered_df_isdep) print("\n说明：isin方法比多个 == 条件用 | 连接更简洁高效。\n") # 示例6：基于索引的逻辑切片（如果索引是某种标识符时有用） df_with_index = df.set_index('Name') # 筛选索引（姓名）以'A'或'B'开头的行 condition_index = df_with_index.index.str.startswith(('A', 'B')) filtered_df_index = df_with_index[condition_index] print("6. 对索引进行逻辑切片（筛选姓名以'A'或'B'开头）：") print(filtered_df_index) print("\n说明：当索引有意义时，可以直接对索引字符串进行操作和筛选。\n") ``` ## 二、GroupBy分组高级用法 `groupby`操作遵循“拆分-应用-合并”模式，是数据分析的核心。以下从基础到高级进行详解[ref_5]。 ### 1. 单键与多键分组分组可以基于一个或多个列进行，分组键也可以是函数、字典、序列等。 | 分组类型 | 语法示例 | 说明 | | :--- | :--- | :--- | | **单键分组** | `df.groupby('Department')` | 按单个列分组 | | **多键分组** | `df.groupby(['Department', 'Age'])` | 按多个列分组，形成层次化索引 | | **按函数分组** | `df.groupby(lambda x: x % 2)` | 通过函数对索引进行分组 [ref_2] | | **按字典映射分组** | `df.groupby(mapping_dict)` | 通过字典将值映射到分组键 | ```python # 创建扩展示例数据 df_sales = pd.DataFrame({ 'Region': ['North', 'North', 'South', 'South', 'East', 'East', 'West', 'West'], 'City': ['NY', 'Boston', 'Atlanta', 'Miami', 'Tokyo', 'Beijing', 'London', 'Paris'], 'Product': ['A', 'B', 'A', 'B', 'A', 'B', 'A', 'B'], 'Sales': [100, 150, 200, 250, 300, 350, 400, 450], 'Cost': [50, 60, 110, 120, 150, 160, 210, 220] }) print("销售数据DataFrame:") print(df_sales) print("\n" + "-"*50 + "\n") # 示例7：基础单键与多键分组聚合 # 单键：按地区计算总销售额 grouped_region = df_sales.groupby('Region')['Sales'].sum() print("7.1 单键分组（按Region）：") print(grouped_region) print() # 多键：按地区和产品计算平均销售额和平均成本 grouped_multi = df_sales.groupby(['Region', 'Product']).agg({ 'Sales': 'mean', 'Cost': 'mean' }).round(2) print("7.2 多键分组（按Region和Product）并聚合：") print(grouped_multi) print("\n说明：多键分组返回一个多层索引的Series或DataFrame，聚合函数可以是字符串、函数或列表。\n") ``` ### 2. 核心聚合、转换与过滤操作 `groupby`对象的核心方法包括`agg`（聚合）、`transform`（转换）和`filter`（过滤）[ref_5]。 | 方法 | 目的 | 输出形状 | 典型用例 | | :--- | :--- | :--- | :--- | | `agg(func)` | 对每个组计算聚合统计量 | 每个组一行（压缩） | 求和、平均值、计数 | | `transform(func)` | 对每个组应用函数，返回与原始数据相同形状 | 与原始数据相同 | 组内标准化、填充组内均值 | | `filter(func)` | 根据组条件筛选整个组 | 过滤后的原始形状 | 保留满足条件的组（如组内数量>阈值） | ```python # 示例8：使用 agg 进行多种聚合计算 agg_result = df_sales.groupby('Region').agg({ 'Sales': ['sum', 'mean', 'max', 'min'], 'Cost': ['sum', 'mean'] }) print("8. 使用agg对每个分组进行多种聚合计算（列的多重聚合）：") print(agg_result) print("\n说明：agg接受字典，键为列名，值为聚合函数（字符串、函数或列表），结果是一个具有多层列索引的DataFrame。\n") # 示例9：使用 transform 进行组内转换（例如，计算组内Z-score） # 为每个地区，计算销售额相对于该地区平均值的偏差 df_sales['Sales_Mean_By_Region'] = df_sales.groupby('Region')['Sales'].transform('mean') df_sales['Sales_Z_Score'] = (df_sales['Sales'] - df_sales['Sales_Mean_By_Region']) / df_sales.groupby('Region')['Sales'].transform('std') print("9. 使用transform进行组内转换（添加组均值和组内Z-score列）：") print(df_sales[['Region', 'City', 'Sales', 'Sales_Mean_By_Region', 'Sales_Z_Score']].round(2)) print("\n说明：transform返回与原始数据相同长度的Series，便于创建新的衍生列。\n") # 示例10：使用 filter 过滤分组 # 只保留那些总销售额超过500的地区对应的所有原始行 filtered_groups = df_sales.groupby('Region').filter(lambda x: x['Sales'].sum() > 500) print("10. 使用filter过滤分组（保留总销售额>500的地区）：") print(filtered_groups) print("\n说明：filter的函数接收每个分组的数据框，返回布尔值决定是否保留整个组。\n") ``` ### 3. 高级分组与性能优化技巧对于大数据集，正确的分组策略对性能至关重要。 ```python # 示例11：使用分类数据类型优化分组性能 # 将分组键列转换为'category'类型可以显著提升groupby速度，尤其是键值重复率高时 df_sales['Region_Category'] = df_sales['Region'].astype('category') print("11. 将分组列转换为category类型以优化性能：") print(f"原始Region列数据类型: {df_sales['Region'].dtype}") print(f"转换后Region_Category列数据类型: {df_sales['Region_Category'].dtype}") print("\n说明：astype('category')适用于低基数（唯一值少）的字符串列，能减少内存使用并加速分组[ref_5]。\n") # 示例12：分组后排序与重置索引 grouped_sorted = df_sales.groupby('Region', sort=False)['Sales'].sum().sort_values(ascending=False) print("12. 分组时禁用自动排序（sort=False）并按聚合结果降序排序：") print(grouped_sorted) print("\n说明：sort=False可以提升分组速度，后续可以手动排序以获得更可控的顺序。\n") # 示例13：迭代分组对象 print("13. 迭代groupby对象（打印每个分组名称和数据）：") for name, group in df_sales.groupby('Region'): print(f"\n地区: {name}") print(group[['City', 'Product', 'Sales']].to_string(index=False)) ``` ### 4. 跨语言对比：C# LINQ中的GroupBy 虽然用户主要关注Python/Pandas，但参考资料也涉及C# LINQ的`GroupBy`，其核心思想相似，语法不同。LINQ的`GroupBy`返回一个`IEnumerable<IGrouping<TKey, TElement>>`序列，其中每个`IGrouping`对象包含一个键和该键对应的元素集合[ref_6]。多键分组通常通过匿名类型或元组实现[ref_3][ref_4]。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 Python有哪些方式能同时拿到两个输入值？

目录

Pandas里用条件筛选数据和按组汇总，各自有哪些实用又高效的操作技巧？

Python内容推荐

Python实现多条件筛选目标数据功能【测试可用】

python自动办公-11 在Excel中按条件筛选数据并存入新的表

利用python3筛选excel中特定的行（行值满足某个条件/行值属于某个集合）

Python Pandas中根据列的值选取多行数据

自动办公-python 在Excel中按条件筛选数据并存入新的表

基于python实现在Excel中按条件筛选数据并存入新的表

pandas按若干个列的组合条件筛选数据的方法

pandas数据筛选和csv操作的实现方法

Pandas——筛选数据（loc、iloc）

pandas条件组合筛选和按范围筛选的示例代码

浅谈pandas筛选出表中满足另一个表所有条件的数据方法

使用Pandas对数据进行筛选和排序的实现

pandas实现将dataframe满足某一条件的值选出

pandas常用函数分类汇总

【整理】pandas教程

pandas数据处理基础之筛选指定行或者指定列的数据

使用pandas库对csv文件进行筛选保存

pandas系列之DataFrame 行列数据筛选实例

对pandas里的loc并列条件索引的实例讲解

13个Pandas实用技巧，助你提高开发效率

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构

Java线程池运行时状态怎么实时掌握？有哪些靠谱的监控手段？

桌面工具软件项目效益评估及市场预测分析

告别遮挡！UniApp中WebView与原生导航栏的和谐共处方案（附完整可运行代码）

OSPF是怎么在企业网里自动找最优路径并分区域管理的？

UML建模课程设计：图书馆管理系统论文