Pandas里提取DataFrame的列有哪些常用方法？各自适用什么情况？

在Pandas中，从DataFrame中提取列数据有多种灵活且高效的方法。下面将详细介绍几种核心方法，并结合具体场景和代码示例进行说明。 ### **一、基础列提取方法** #### **1. 使用方括号 `[]` 或点号 `.` 操作符** 这是最简单直接的列提取方式，适用于列名已知且不含特殊字符（如空格）的情况。 ```python import pandas as pd # 创建一个示例DataFrame [ref_1] data = { '姓名': ['张三', '李四', '王五'], '年龄': [25, 30, 35], '城市': ['北京', '上海', '广州'] } df = pd.DataFrame(data) # 方法1: 使用方括号提取单列，返回一个Series对象 [ref_2][ref_4] series_name = df['姓名'] print("提取‘姓名’列（Series）:") print(series_name) print("类型:", type(series_name)) # 方法2: 使用点号操作符（列名必须是有效的Python标识符）[ref_6] series_age = df.年龄 print("\n提取‘年龄’列（使用点号）:") print(series_age) # 方法3: 提取多列，返回一个DataFrame [ref_1][ref_3] df_subset = df[['姓名', '城市']] print("\n提取‘姓名’和‘城市’两列（DataFrame）:") print(df_subset) print("类型:", type(df_subset)) ``` #### **2. 使用 `loc` 和 `iloc` 索引器** 这两种方法提供了更强大的行、列组合索引能力。 * **`loc`**: 基于**标签**（label）进行索引，即列名。 * **`iloc`**: 基于**整数位置**（integer-location）进行索引，即列的序号（从0开始）。 ```python # 使用loc基于列名提取 [ref_1][ref_4] # 提取‘城市’列 (所有行) city_loc = df.loc[:, '城市'] # `:` 表示所有行 print("使用loc提取‘城市’列:") print(city_loc) # 使用loc提取多列 multi_loc = df.loc[:, ['姓名', '年龄']] print("\n使用loc提取‘姓名’和‘年龄’列:") print(multi_loc) # 使用iloc基于整数位置提取 [ref_1][ref_5] # 提取第1列（索引0，即‘姓名’列） name_iloc = df.iloc[:, 0] print("\n使用iloc提取第1列（‘姓名’）:") print(name_iloc) # 提取第1列和第3列（索引0和2） subset_iloc = df.iloc[:, [0, 2]] print("\n使用iloc提取第1列和第3列:") print(subset_iloc) # 组合提取特定行和列：提取第0、1行，第1、2列 [ref_4] subset_combo = df.iloc[0:2, 1:3] # 行切片0:2，列切片1:3 print("\n使用iloc提取第0-1行，第1-2列:") print(subset_combo) ``` ### **二、高级提取与筛选方法** #### **1. 基于条件筛选提取列** 有时我们需要提取满足特定条件的数据所对应的列。这通常与行筛选结合。 ```python # 创建一个包含成绩的DataFrame [ref_1] data_scores = { '学生': ['小明', '小红', '小刚'], '数学': [85, 92, 78], '英语': [88, 95, 80], '物理': [90, 88, 85] } df_scores = pd.DataFrame(data_scores) # 筛选出数学成绩大于80分的学生的所有列数据 [ref_1] df_math_high = df_scores[df_scores['数学'] > 80] print("数学成绩>80的学生数据:") print(df_math_high) # 筛选出数学成绩大于80分的学生的‘学生’和‘英语’列 [ref_1] df_filtered = df_scores.loc[df_scores['数学'] > 80, ['学生', '英语']] print("\n数学成绩>80的学生的‘学生’和‘英语’列:") print(df_filtered) ``` #### **2. 使用 `filter` 方法** `filter`方法可以根据列名的子字符串、正则表达式或列表来筛选列，非常灵活。 ```python # 筛选列名包含特定字符串的列 [ref_3] df_filtered_by_items = df_scores.filter(items=['学生', '数学']) # 精确匹配列名 print("筛选‘学生’和‘数学’列:") print(df_filtered_by_items) # 筛选列名匹配正则表达式的列 (如列名以‘学’开头) df_filtered_by_regex = df_scores.filter(regex='^学') print("\n筛选列名以‘学’开头的列:") print(df_filtered_by_regex) # 筛选列名包含‘语’的列 df_filtered_like = df_scores.filter(like='语') print("\n筛选列名包含‘语’的列:") print(df_filtered_like) ``` ### **三、实际应用场景示例** #### **场景1：从大型数据集中提取特定字段进行分析** 假设我们有一个销售数据集，需要提取金额相关的列进行计算。 ```python # 模拟销售数据 sales_data = { '订单号': ['A001', 'A002', 'A003', 'A004'], '产品': ['手机', '电脑', '平板', '手机'], '单价': [3000.0, 6000.0, 2500.0, 3000.0], '数量': [2, 1, 3, 1], '折扣': [0.1, 0.05, 0.0, 0.15], '客户类型': ['新客户', '老客户', '新客户', '老客户'] } df_sales = pd.DataFrame(sales_data) # 计算每单的销售额和折后价，需要提取‘单价’、‘数量’、‘折扣’列 [ref_3] # 提取相关数值列 price_series = df_sales['单价'] quantity_series = df_sales['数量'] discount_series = df_sales['折扣'] # 进行计算 df_sales['销售额'] = price_series * quantity_series df_sales['折后价'] = price_series * quantity_series * (1 - discount_series) print("销售数据（含计算列）:") print(df_sales) # 提取所有数值型列进行统计分析 [ref_1] numeric_cols = df_sales.select_dtypes(include=['int64', 'float64']).columns df_numeric = df_sales[numeric_cols] print("\n数值型列数据:") print(df_numeric) print("\n数值列的描述性统计:") print(df_numeric.describe()) # [ref_1] ``` #### **场景2：处理时间序列数据，提取年月日等时间成分** 在处理包含日期时间的数据时，经常需要提取日期中的特定成分。 ```python # 创建一个带日期索引的DataFrame date_rng = pd.date_range(start='2023-01-01', end='2023-01-10', freq='D') df_time = pd.DataFrame(date_rng, columns=['date']) df_time['value'] = range(len(date_rng)) # 将‘date’列设为索引 df_time.set_index('date', inplace=True) print("原始时间序列数据:") print(df_time) # 提取索引（日期）的年份、月份、日作为新列 [ref_3] df_time['year'] = df_time.index.year df_time['month

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇为什么用 id ! 2 过滤数据时容易出错？它在 Python 里到底该怎么安全使用？

目录

Pandas里提取DataFrame的列有哪些常用方法？各自适用什么情况？

Python内容推荐

Python Pandas批量读取csv文件到dataframe的方法

Python pandas.DataFrame调整列顺序及修改index名的方法

对pandas通过索引提取dataframe的行方法详解

Pandas DataFrame 取一行数据会得到Series的方法

Pandas中把dataframe转成array的方法

利用Pandas 创建空的DataFrame方法

详解pandas获取Dataframe元素值的几种方法

如何更改 pandas dataframe 中两列的位置

在pandas中一次性删除dataframe的多个列方法

Pandas DataFrame数据的更改、插入新增的列和行的方法

pandas DataFrame数据转为list的方法

pandas对dataFrame中某一个列的数据进行处理的方法

Pandas把dataframe或series转换成list的方法

从DataFrame中提取出Series或DataFrame对象的方法

pandas将DataFrame的列变成行索引的方法

pandas修改DataFrame列名的实现方法

使用pandas中的DataFrame数据绘制柱状图的方法

Pandas过滤dataframe中包含特定字符串的数据方法

详细介绍pandas的DataFrame的append方法使用

对pandas的dataframe绘图并保存的实现方法

PyPI 官网下载 | mlpack3-3.4.2-cp36-cp36m-manylinux1_x86_64.whl

实现基于C++或者python基本库，初学学习之用.zip

机器学习的一些基础算法，主要使用Python、Cpp、Matlab编写。.zip

jenkins-conf:Jenkins的配置文件

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构

Java线程池运行时状态怎么实时掌握？有哪些靠谱的监控手段？