Pandas里Series和DataFrame有什么区别？数据读写和筛选操作有哪些常用方法？

### Pandas 基础语法详解 Pandas 是基于 NumPy 构建的 Python 数据分析核心库，它提供了高效、易用的数据结构（Series、DataFrame）和数据分析工具，能轻松处理结构化数据（如表格、CSV 文件、Excel 表格等）[ref_2]。相比 NumPy 专注于数值计算，Pandas 更擅长数据清洗、筛选、转换和分析，是数据分析、机器学习预处理阶段的必备工具。 #### 一、核心数据结构：Series 与 DataFrame **1. Series：一维带标签的数组** Series 可以看作是一个带有索引的一维数组，其索引可以是数字、字符串等任意类型[ref_2]。 ```python import pandas as pd import numpy as np # 从列表创建 Series，默认使用数字索引 s1 = pd.Series([1, 3, 5, np.nan, 6, 8]) print(s1) # 输出： # 0 1.0 # 1 3.0 # 2 5.0 # 3 NaN # 4 6.0 # 5 8.0 # dtype: float64 # 从列表创建 Series，并指定自定义索引（标签） s2 = pd.Series([10, 20, 30, 40], index=['a', 'b', 'c', 'd']) print(s2) # 输出： # a 10 # b 20 # c 30 # d 40 # dtype: int64 # 从字典创建 Series，字典的键自动成为索引 s3 = pd.Series({'Alice': 25, 'Bob': 30, 'Charlie': 35}) print(s3) # 输出： # Alice 25 # Bob 30 # Charlie 35 # dtype: int64 # 访问 Series 元素 print(s2['b']) # 通过标签索引访问，输出: 20 print(s2[1]) # 通过位置索引访问，输出: 20 print(s2[['a', 'c']]) # 通过标签列表访问多个元素 # 输出： # a 10 # c 30 # dtype: int64 ``` **2. DataFrame：二维表格型数据结构** DataFrame 是 Pandas 中最常用、最重要的数据结构，可以理解为由多个共享相同索引的 Series 组成的字典，或者一个二维的、大小可变的、可以有不同类型列的表格[ref_2]。 ```python import pandas as pd import numpy as np # 从字典创建 DataFrame，字典的键成为列名 data = { 'Name': ['Alice', 'Bob', 'Charlie', 'David'], 'Age': [25, 30, 35, 28], 'City': ['New York', 'Los Angeles', 'London', 'Paris'] } df = pd.DataFrame(data) print(df) # 输出： # Name Age City # 0 Alice 25 New York # 1 Bob 30 Los Angeles # 2 Charlie 35 London # 3 David 28 Paris # 从列表的列表创建 DataFrame，需指定列名 data_list = [['Alice', 25, 'New York'], ['Bob', 30, 'Los Angeles'], ['Charlie', 35, 'London']] df2 = pd.DataFrame(data_list, columns=['Name', 'Age', 'City']) print(df2) # 输出： # Name Age City # 0 Alice 25 New York # 1 Bob 30 Los Angeles # 2 Charlie 35 London # 查看 DataFrame 的基本信息 print(df.shape) # 查看形状 (行数, 列数)，输出: (4, 3) print(df.columns) # 查看所有列名，输出: Index(['Name', 'Age', 'City'], dtype='object') print(df.index) # 查看行索引，输出: RangeIndex(start=0, stop=4, step=1) print(df.dtypes) # 查看每列的数据类型 # 输出： # Name object # Age int64 # City object # dtype: object ``` #### 二、数据读取与写入 Pandas 提供了丰富的函数来读取和写入各种格式的数据文件，最常用的是 `read_csv()` 和 `to_csv()`[ref_3]。 **1. 从 CSV 文件读取数据** ```python import pandas as pd # 基本读取，假设文件路径为 'data.csv' file_data = pd.read_csv('data.csv') print(file_data.head()) # 显示前5行数据 # read_csv() 常用参数示例 # 假设 data.csv 内容如下： # # This is a comment line # # Another comment line # id,name,age,city # 1,Alice,25,New York # 2,Bob,30,Los Angeles # 3,Charlie,Not Available,London # 4,David,35,N/A # 5,Eve,22,Paris df = pd.read_csv( 'data.csv', comment='#', # 指定注释起始字符为'#'，以#开头的行会被跳过[ref_1] na_values=['N/A', 'Not Available'], # 将'N/A'和'Not Available'识别为缺失值NaN header=0, # 指定第0行作为列名（表头） index_col='id' # 将'id'列设置为行索引 ) print(df) # 输出： # name age city # id # 1 Alice 25.0 New York # 2 Bob 30.0 Los Angeles # 3 Charlie NaN London # 4 David 35.0 NaN # 5 Eve 22.0 Paris ``` **2. 数据写入 CSV 文件** ```python import pandas as pd # 创建一个示例 DataFrame data = {'Name': ['Alice', 'Bob'], 'Age': [25, 30], 'City': ['NY', 'LA']} df = pd.DataFrame(data) # 将 DataFrame 写入 CSV 文件 df.to_csv('output.csv', index=False) # index=False 表示不将行索引写入文件 ``` #### 三、数据查看与选择 **1. 查看数据** Pandas 提供了多种方法来快速查看数据的概貌[ref_3]。 ```python import pandas as pd import numpy as np # 创建一个示例 DataFrame df = pd.DataFrame({ 'A': np.random.randn(10), 'B': np.random.randn(10), 'C': np.random.randn(10) }) print(df.head()) # 查看前5行，默认5行 print(df.head(3)) # 查看前3行 print(df.tail()) # 查看后5行，默认5行 print(df.tail(2)) # 查看后2行 print(df.describe()) # 生成描述性统计摘要（针对数值列）：计数、均值、标准差、最小值、四分位数、最大值 print(df.info()) # 查看数据集的简明摘要，包括索引数据类型、列数据类型、非空值数量和内存使用情况 ``` **2. 数据选择（索引与切片）** 选择数据是数据分析中最常见的操作，Pandas 提供了灵活且强大的索引方式。 * **按列选择**：直接使用列名，返回一个 Series。 ```python import pandas as pd data = {'Name': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 30, 35], 'City': ['NY', 'LA', 'LDN']} df = pd.DataFrame(data) name_series = df['Name'] # 选择单列，返回 Series print(name_series) # 输出： # 0 Alice # 1 Bob # 2 Charlie # Name: Name, dtype: object sub_df = df[['Name', 'City']] # 选择多列，返回 DataFrame print(sub_df) # 输出： # Name City # 0 Alice NY # 1 Bob LA # 2 Charlie LDN ``` * **按行选择（基于标签 `loc` 和基于位置 `iloc`）** `loc` 主要用于基于**标签**的索引，`iloc` 主要用于基于**整数位置**的索引[ref_2]。 ```python import pandas as pd df = pd.DataFrame({'A': [1, 2, 3, 4, 5], 'B': ['a', 'b', 'c', 'd', 'e']}, index=['row1', 'row2', 'row3', 'row4', 'row5']) # 设置自定义索引 # 使用 loc 基于标签索引 print(df.loc['row2']) # 选择单行，返回 Series # 输出： # A 2 # B b # Name: row2, dtype: object print(df.loc[['row1', 'row3']]) # 选择多行，返回 DataFrame # 输出： # A B # row1 1 a # row3 3 c print(df.loc['row2':'row4', 'A']) # 选择行切片和特定列，返回 Series # 输出： # row2 2 # row3 3 # row4 4 # Name: A, dtype: int64 # 使用 iloc 基于位置索引 print(df.iloc[1]) # 选择第二行（位置索引从0开始），返回 Series # 输出： # A 2 # B b # Name: row2, dtype: object print(df.iloc[0:3, 0:2]) # 选择前3行，前2列，返回 DataFrame # 输出： # A B # row1 1 a # row2 2 b # row3 3 c print(df.iloc[[0, 2, 4], [0]]) # 选择第1、3、5行，第1列，返回 DataFrame # 输出： # A # row1 1 # row3 3 # row5 5 ``` * **布尔索引**：通过条件表达式筛选数据。 ```python import pandas as pd df = pd.DataFrame({'Age': [25, 30, 35, 28, 22], 'City': ['NY', 'LA', 'NY', 'Paris', 'LA']}) # 筛选年龄大于28的行 older_than_28 = df[df['Age'] > 28] print(older_than_28) # 输出： # Age City # 1 30 LA # 2 35 NY # 组合条件筛选（注意使用 &, |, ~ 代替 and, or, not，并用括号分隔条件） complex_filter = df[(df['Age'] > 25) & (df['City'] == 'NY')] print(complex_filter) # 输出： # Age City # 2 35 NY ``` #### 四、数据处理：缺失值与数据清洗实际数据中经常存在缺失值，Pandas 提供了处理缺失值的方法[ref_3]。 ```python import pandas as pd import numpy as np # 创建包含缺失值 NaN 的 DataFrame df = pd.DataFrame({'A': [1, 2, np.nan, 4], 'B': [5, np.nan, np.nan, 8], 'C': [10, 11, 12, 13]}) print(df) # 输出： # A B C # 0 1.0 5.0 10 # 1 2.0 NaN 11 # 2 NaN NaN 12 # 3 4.0 8.0 13 # 1. 检查缺失值 print(df.isnull()) # 返回布尔型 DataFrame，缺失值为 True print(df.isnull().sum()) # 统计每列的缺失值数量 # 输出： # A 1 # B 2 # C 0 # dtype: int64 # 2. 删除缺失值 df_drop_rows = df.dropna(axis=0) # axis=0 删除包含缺失值的行 print(df_drop_rows) # 输出： # A B C # 0 1.0 5.0 10 # 3 4.0 8.0 13 df_drop_cols = df.dropna(axis=1) # axis=1 删除包含缺失值的列 print(df_drop_cols) # 输出： # C # 0 10 # 1 11 # 2 12 # 3 13 # 3. 填充缺失值 df_filled = df.fillna(value={'A': df['A'].mean(), 'B': 0}) # 用A列均值填充A列NaN，用0填充B列NaN print(df_filled) # 输出： # A B C # 0 1.0 5.0 10 # 1 2.0 0.0 11 # 2 2.333333 0.0 12 # 3 4.0 8.0 13 # 前向填充 (用上一行的值填充) df_ffill = df.fillna(method='ffill') print(df_ffill) # 输出： # A B C # 0 1.0 5.0 10 # 1 2.0 5.0 11 # 2 2.0 5.0 12 # 3 4.0 8.0 13 ``` #### 五、数据操作：排序、分组与聚合 **1. 数据排序** ```python import pandas as pd df = pd.DataFrame({'Name': ['Bob', 'Alice', 'Charlie'], 'Age': [30, 25, 35], 'Score': [85, 95, 75]}) # 按单列排序（默认升序） df_sorted_age = df.sort_values(by='Age') print(df_sorted_age) # 输出： # Name Age Score # 1 Alice 25 95 # 0 Bob 30 85 # 2 Charlie 35 75 # 按多列排序（先按Age降序，再按Score升序） df_sorted_multi = df.sort_values(by=['Age', 'Score'], ascending=[False, True]) print(df_sorted_multi) # 输出： # Name Age Score # 2 Charlie 35 75 # 0 Bob 30 85 # 1 Alice 25 95 ``` **2. 数据分组与聚合** `groupby` 是 Pandas 中非常强大的功能，用于对数据进行分组，然后对每个组应用聚合函数（如 sum, mean, count 等）[ref_2]。 ```python import pandas as pd df = pd.DataFrame({ 'City': ['NY', 'LA', 'NY', 'LA', 'NY', 'LA'], 'Category': ['A', 'A', 'B', 'B', 'A', 'B'], 'Sales': [100, 150, 200, 120, 130, 180] }) # 按单列分组并求和 grouped_city = df.groupby('City')['Sales'].sum() print(grouped_city) # 输出： # City # LA 450 # NY 430 # Name: Sales, dtype: int64 # 按多列分组并应用多个聚合函数 grouped_multi = df.groupby(['City', 'Category']).agg({'Sales': ['sum', 'mean', 'count']}) print(grouped_multi) # 输出： # Sales # sum mean count # City Category # LA A 150 150.0 1 # B 300 150.0 2 # NY A 230 115.0 2 # B 200 200.0 1 ```

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 Zed里怎么给不同Python项目配各自的解释器？有什么讲究？