Pandas 的 Series 和 DataFrame 有什么本质区别？实际分析中该怎么选？

### **Pandas 知识体系：从入门到精通** Pandas 是 Python 数据分析的核心库，以其强大的 DataFrame 数据结构而闻名，广泛应用于数据清洗、处理、分析和建模[ref_3][ref_6]。掌握 Pandas 是从数据中提取价值的关键步骤。 #### **一、核心数据结构：Series 与 DataFrame** Pandas 的威力源于其两种核心数据结构，理解它们是学习的第一步。 | 数据结构 | 维度 | 类比 | 核心特点 | | :--- | :--- | :--- | :--- | | **Series** | 一维 | 带标签的数组 / Excel 中的一列 | 由一组数据（值）和与之关联的索引（标签）构成[ref_6]。 | | **DataFrame** | 二维 | 电子表格 / SQL 表 | 由多个共享同一索引的 Series 组成，是数据分析的主要对象[ref_3][ref_6]。 | **1. 创建与基本操作** ```python import pandas as pd import numpy as np # 1. 创建Series s = pd.Series([1, 3, 5, np.nan, 6, 8]) print("Series:") print(s) # 2. 创建DataFrame # 从字典创建 data = { '姓名': ['张三', '李四', '王五'], '年龄': [25, 30, 35], '城市': ['北京', '上海', '广州'] } df = pd.DataFrame(data) print("\nDataFrame:") print(df) # 从列表创建 data_list = [['A', 1], ['B', 2], ['C', 3]] df2 = pd.DataFrame(data_list, columns=['字母', '数字']) print(df2) ``` **2. 数据查看与基本信息** ```python # 查看前n行/后n行 print(df.head(2)) # 查看前2行 print(df.tail(1)) # 查看最后1行 # 查看DataFrame的维度、索引、列信息 print(f"数据形状: {df.shape}") # (3, 3) print(f"列名: {df.columns.tolist()}") # ['姓名', '年龄', '城市'] print(f"索引: {df.index.tolist()}") # [0, 1, 2] # 查看数据类型和内存信息 print(df.info()) # 查看描述性统计（数值型列） print(df.describe()) ``` #### **二、数据索引与选取** 高效地选取数据是数据分析的基础。Pandas 提供了多种灵活的索引方式[ref_6]。 ```python # 沿用上面的df # 1. 列选取 print(df['姓名']) # 选取单列，返回Series print(df[['姓名', '城市']]) # 选取多列，返回DataFrame # 2. 行选取 (基于位置索引 iloc) print(df.iloc[0]) # 选取第一行，返回Series print(df.iloc[0:2]) # 选取第1，2行（左闭右开） print(df.iloc[[0, 2]]) # 选取第1和第3行 # 3. 行选取 (基于标签索引 loc) df_indexed = df.set_index('姓名') # 将‘姓名’列设为索引 print(df_indexed.loc['张三']) # 选取索引为‘张三’的行 print(df_indexed.loc[['张三', '王五']]) # 选取多行 # 4. 布尔索引 (条件筛选) print(df[df['年龄'] > 28]) # 选取年龄大于28的行 print(df[(df['城市'] == '北京') | (df['年龄'] < 30)]) # 多条件筛选 ``` #### **三、数据清洗与预处理** 真实世界的数据往往是脏乱的，清洗是数据分析中耗时最多但至关重要的环节[ref_5]。 **1. 处理缺失值** ```python # 创建一个包含缺失值的示例DataFrame df_missing = pd.DataFrame({ 'A': [1, 2, np.nan, 4], 'B': [5, np.nan, np.nan, 8], 'C': [10, 11, 12, 13] }) print("原始数据:") print(df_missing) # 检查缺失值 print("\n缺失值统计:") print(df_missing.isnull().sum()) # 处理缺失值 # 方法1: 删除包含缺失值的行 df_dropna = df_missing.dropna() print("\n删除缺失值后:") print(df_dropna) # 方法2: 填充缺失值 df_fillna = df_missing.fillna({'A': df_missing['A'].mean(), 'B': 0}) # A列用均值填充，B列用0填充 print("\n填充缺失值后:") print(df_fillna) ``` **2. 处理重复值与异常值** ```python # 处理重复值 df_dup = pd.DataFrame({'col': ['A', 'A', 'B', 'B', 'A']}) print("去重前:") print(df_dup) print("去重后:") print(df_dup.drop_duplicates()) # 处理异常值 - 以盖帽法为例 data = pd.Series([1, 2, 3, 4, 100]) # 假设100是异常值 q1, q3 = data.quantile(0.25), data.quantile(0.75) iqr = q3 - q1 upper_bound = q3 + 1.5 * iqr capped_data = data.clip(upper=upper_bound) # 将大于上限的值替换为上限值 print(f"原始数据: {data.tolist()}") print(f"盖帽处理后: {capped_data.tolist()}") ``` **3. 数据类型转换** ```python df_types = pd.DataFrame({'str_num': ['1', '2', '3'], 'date_str': ['2023-01-01', '2023-01-02', '2023-01-03']}) print("转换前数据类型:") print(df_types.dtypes) # 字符串转数值 df_types['str_num'] = pd.to_numeric(df_types['str_num']) # 字符串转日期 df_types['date_str'] = pd.to_datetime(df_types['date_str']) print("\n转换后数据类型:") print(df_types.dtypes) ``` #### **四、数据转换与操作** **1. 数据排序** ```python df = pd.DataFrame({'value': [3, 1, 4, 1, 5], 'group': ['B', 'A', 'B', 'A', 'C']}) # 按单列排序 print(df.sort_values('value')) # 按多列排序 print(df.sort_values(['group', 'value'], ascending=[True, False])) ``` **2. 分组聚合 (GroupBy)** GroupBy 是 Pandas 最强大的功能之一，用于“拆分-应用-合并”操作[ref_6]。 ```python sales = pd.DataFrame({ '销售员': ['张三', '李四', '张三', '王五', '李四', '张三'], '产品': ['A', 'B', 'A', 'C', 'B', 'A'], '销售额': [100, 200, 150, 300, 250, 120] }) # 按‘销售员’分组，计算每人总销售额和平均销售额 grouped = sales.groupby('销售员')['销售额'] print("总销售额:") print(grouped.sum()) print("\n平均销售额:") print(grouped.mean()) # 更复杂的聚合：使用agg函数 print("\n多种聚合统计:") result = sales.groupby('销售员').agg( 总销售额=('销售额', 'sum'), 平均销售额=('销售额', 'mean'), 销售次数=('销售额', 'count') ).reset_index() # 将分组键变回列 print(result) ``` **3. 数据合并与连接** ```python df1 = pd.DataFrame({'key': ['A', 'B', 'C'], 'value1': [1, 2, 3]}) df2 = pd.DataFrame({'key': ['B', 'C', 'D'], 'value2': [4, 5, 6]}) # 内连接 (默认) print(pd.merge(df1, df2, on='key', how='inner')) # 左连接 print(pd.merge(df1, df2, on='key', how='left')) # 全外连接 print(pd.merge(df1, df2, on='key', how='outer')) ``` #### **五、进阶应用与性能优化** **1. 向量化操作与 apply 函数** 避免在 DataFrame 上使用循环，优先使用 Pandas 内置的向量化方法，速度更快。 ```python df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]}) # 向量化操作（推荐） df['C'] = df['A'] + df['B'] # 逐元素相加 df['D'] = df['A'].apply(lambda x: x ** 2) # 对A列每个元素应用平方函数 # 更复杂的行级操作可以使用apply，但效率低于向量化 def complex_func(row): return row['A'] * 2 + row['B'] df['E'] = df.apply(complex_func, axis=1) # axis=1 表示按行应用 print(df) ``` **2. 时间序列处理** Pandas 对时间序列有出色的支持。 ```python # 创建时间序列 date_rng = pd.date_range(start='2023-01-01', end='2023-01-10', freq='D') ts = pd.Series(range(len(date_rng)), index=date_rng) print(ts) # 重采样（例如，将日数据聚合为周数据） weekly_mean = ts.resample('W').mean() # ‘W’表示按周 print("\n周平均值:") print(weekly_mean) ``` **3. 数据透视表** 数据透视表是进行多维数据分析的利器。 ```python # 使用之前的sales数据 pivot = sales.pivot_table(index='销售员', columns='产品', values='销售额', aggfunc='sum', fill_value=0) print("销售员-产品透视表:") print(pivot) ``` #### **六、学习路径与资源建议** 1. **基础入门**：首先掌握 Series 和 DataFrame 的创建、索引、基本操作和数据查看[ref_3][ref_4]。 2. **核心技能**：重点攻克数据清洗（缺失值、重复值）、数据选取（iloc/loc/布尔索引）和分组聚合（GroupBy）[ref_5][ref_6]。 3. **实战应用**：通过实际项目（如分析一份销售数据、用户行为数据）来巩固知识，学习数据合并、透视表和常用数据转换[ref_1][ref_5]。 4. **性能与进阶**：了解向量化操作、避免循环，学习处理大规模数据时的分块读取与处理技巧。掌握时间序列分析等特定领域技能[ref_3]。学习时，建议结合 Jupyter Notebook 进行实践，它能即时反馈结果，是学习数据分析的理想工具[ref_1][ref_4]。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇为什么Transformer要用自注意力而不是RNN或CNN？它背后的并行化和长程依赖处理是怎么实现的？

目录

Pandas 的 Series 和 DataFrame 有什么本质区别？实际分析中该怎么选？

Python内容推荐

python pandas 对series和dataframe的重置索引reindex方法

Python pandas.DataFrame 找出有空值的行

在python中pandas的series合并方法

Python pandas库 DataFrame和Series类函数用法Help

python pandas库的安装和创建

python实现在pandas.DataFrame添加一行

Python:pandas中两种结构类型Series和Dataframe的reindex和drop

【CNN-BiLSTM-attention】基于高斯混合模型聚类的风电场短期功率预测方法（Python&matlab代码实现）

软件测试基于Codex CLI的高覆盖率单元测试生成：Java/Go/TS/JS/Python全栈95%+分支覆盖自动化方案

项目源码：Python实战篇 Piggy Nap 小猪定时关机助手.rar

编程竞赛基于Codex CLI与Python的自动化刷题系统：实现高效批量AC与智能复盘

AI工程化基于GPT-4o的Python项目自动化重构：终端命令实现全局代码优化与规范统一

Pandas DataFrame 取一行数据会得到Series的方法

Pandas把dataframe或series转换成list的方法

pandas把dataframe转成Series,改变列中值的类型方法

pandas 对series和dataframe进行排序的实例

详细介绍pandas的DataFrame的append方法使用

Pandas过滤dataframe中包含特定字符串的数据方法

对pandas中两种数据类型Series和DataFrame的区别详解

pandas按行按列遍历Dataframe的几种方式

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构

Java线程池运行时状态怎么实时掌握？有哪些靠谱的监控手段？

桌面工具软件项目效益评估及市场预测分析

告别遮挡！UniApp中WebView与原生导航栏的和谐共处方案（附完整可运行代码）

OSPF是怎么在企业网里自动找最优路径并分区域管理的？

UML建模课程设计：图书馆管理系统论文