用Pandas快速摸清数据底细，有哪些必备的查看方法和技巧？

### 🐼 Pandas查看数据基本信息完全指南在数据分析工作中，了解数据集的基本信息是首要步骤。Pandas提供了多种函数和方法来快速查看数据的整体情况，包括数据结构、数据类型、缺失值统计等核心信息。 #### 📊 核心信息查看函数对比 | 函数/方法 | 主要功能 | 返回信息 | 适用场景 | |-----------|----------|----------|----------| | `info()` | 数据框概览 | 索引、列名、非空值数量、数据类型、内存使用 | 数据质量评估、内存优化 | | `describe()` | 数值统计 | 计数、均值、标准差、最小值、四分位数、最大值 | 数值分布分析、异常值检测 | | `head()`/`tail()` | 首尾预览 | 前/后n行数据 | 数据抽样、快速浏览 | | `shape` | 数据维度 | 行数和列数 | 数据规模了解 | | `columns` | 列名查看 | 所有列名称 | 字段识别、列操作 | | `dtypes` | 数据类型 | 每列的数据类型 | 类型转换准备 | #### 🔍 详细函数解析与代码示例 ##### 1. `info()` - 数据框全面概览 `info()`函数是查看数据基本信息最全面的方法，它能显示数据的索引范围、各列的非空值数量、数据类型以及内存使用情况[ref_1]。 ```python import pandas as pd # 创建示例DataFrame data = { '姓名': ['张三', '李四', '王五', '赵六', '钱七'], '年龄': [25, 30, 35, 28, 32], '城市': ['北京', '上海', '广州', '深圳', '杭州'], '薪资': [15000, 18000, 22000, 16000, 20000], '入职年限': [2, 5, 8, 3, 6] } df = pd.DataFrame(data) # 使用info()查看基本信息 print("数据框基本信息：") df.info() ``` 输出结果： ``` <class 'pandas.core.frame.DataFrame'> RangeIndex: 5 entries, 0 to 4 Data columns (total 5 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 姓名 5 non-null object 1 年龄 5 non-null int64 2 城市 5 non-null object 3 薪资 5 non-null int64 4 入职年限 5 non-null int64 dtypes: int64(3), object(2) memory usage: 328.0+ bytes ``` ##### 2. `describe()` - 数值统计摘要 `describe()`函数提供数值列的统计摘要，包括计数、均值、标准差、最小值、四分位数和最大值[ref_1][ref_2]。 ```python # 数值列的统计描述 print("\n数值列统计描述：") print(df.describe()) # 包含所有数据类型的描述（包括对象类型） print("\n全数据类型统计描述：") print(df.describe(include='all')) ``` ##### 3. 数据预览函数 `head()`和`tail()`函数用于快速查看数据的前几行和后几行，这在处理大型数据集时特别有用[ref_1][ref_5]。 ```python # 查看前3行数据 print("前3行数据：") print(df.head(3)) # 查看后2行数据 print("\n后2行数据：") print(df.tail(2)) ``` ##### 4. 属性和形状查看 ```python # 查看数据形状（行数，列数） print(f"数据形状：{df.shape}") # 输出：(5, 5) # 查看列名 print(f"列名：{df.columns.tolist()}") # 查看数据类型 print("各列数据类型：") print(df.dtypes) # 查看索引信息 print(f"索引范围：{df.index}") ``` #### 🎯 实际应用场景示例 ##### 场景1：数据质量检查在接收新数据集时，首先使用`info()`检查数据完整性和类型正确性： ```python # 创建包含缺失值的示例数据 data_with_na = { '产品ID': [1, 2, 3, 4, 5], '产品名称': ['A', 'B', 'C', None, 'E'], '价格': [100, 150, None, 200, 180], '库存': [50, 30, 40, 25, 35] } df_na = pd.DataFrame(data_with_na) print("含缺失值的数据信息：") df_na.info() ``` ##### 场景2：数据类型转换准备在进行数据分析前，了解数据类型有助于后续的类型转换： ```python # 识别需要转换的数据类型 print("当前数据类型：") for col in df.columns: print(f"{col}: {df[col].dtype}") # 基于info()结果进行类型转换 df['城市'] = df['城市'].astype('category') # 将对象类型转换为分类类型 print("\n转换后的数据类型：") df.info() ``` ##### 场景3：内存使用优化对于大型数据集，`info()`显示的内存使用信息有助于优化内存： ```python # 查看内存使用详情 print("内存使用详情：") df.info(memory_usage='deep') # 比较优化前后的内存使用 original_memory = df.memory_usage(deep=True).sum() print(f"原始内存使用：{original_memory} bytes") # 优化数据类型后的内存 df_optimized = df.copy() df_optimized['年龄'] = df_optimized['年龄'].astype('int32') df_optimized['薪资'] = df_optimized['薪资'].astype('int32') optimized_memory = df_optimized.memory_usage(deep=True).sum() print(f"优化后内存使用：{optimized_memory} bytes") print(f"内存减少：{(original_memory - optimized_memory) / original_memory * 100:.1f}%") ``` #### 💡 实用技巧和最佳实践 1. **链式操作组合查看**： ```python # 组合多个查看操作 summary = (df .head(2) .append(df.tail(2)) .describe() .round(2)) print("组合查看结果：") print(summary) ``` 2. **自定义信息查看函数**： ```python def comprehensive_info(df, name="数据集"): """综合信息查看函数""" print(f"=== {name} 综合信息 ===") print(f"形状: {df.shape}") print(f"内存使用: {df.memory_usage(deep=True).sum() / 1024:.2f} KB") print("\n数据类型分布:") print(df.dtypes.value_counts()) print("\n缺失值统计:") print(df.isnull().sum()) # 使用自定义函数 comprehensive_info(df, "员工信息") ``` 3. **与NumPy结合的数据查看**： ```python import numpy as np # 查看数值列的统计信息 numeric_cols = df.select_dtypes(include=[np.number]).columns print("数值列统计：") print(df[numeric_cols].agg(['mean', 'std', 'min', 'max'])) ``` 通过掌握这些Pandas数据查看方法，数据分析师能够快速了解数据集的基本情况，为后续的数据清洗、转换和分析工作奠定坚实基础。这些函数在数据探索阶段尤为重要，能够帮助识别数据质量问题、理解数据分布特征，并指导后续的数据处理策略[ref_3][ref_4]。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 Python怎么把一句话转成首字母大写的缩略词？遇到空输入又该怎么处理？

目录

用Pandas快速摸清数据底细，有哪些必备的查看方法和技巧？

Python内容推荐

python数据分析pandas快速入门教程.pdf

Python使用Pandas对csv文件进行数据处理的方法

python pandas消除空值和空格以及 Nan数据替换方法

Python遍历pandas数据方法总结

使用Python Pandas处理亿级数据的方法

python安装numpy和pandas的方法步骤

Python Pandas批量读取csv文件到dataframe的方法

pandas.Series 基本技巧

pandas读取CSV文件时查看修改各列的数据类型格式

快速在PYcharm中安装pandas和matplotlib.docx

pandas.DataFrame 基本技巧

pandas数据框,统计某列数据对应的个数方法

pandas 对每一列数据进行标准化的方法

Pandas DataFrame数据的更改、插入新增的列和行的方法

Pandas读取MySQL数据到DataFrame的方法

Pandas DataFrame 取一行数据会得到Series的方法

将pandas.dataframe的数据写入到文件中的方法

pandas 选取行和列数据的方法详解

使用pandas中的DataFrame数据绘制柱状图的方法

pandas按若干个列的组合条件筛选数据的方法

使用Python Pandas处理亿级数据的方法

Pandas 按索引合并数据集的方法

Python使用pandas对数据进行差分运算的方法

Pandas 数据处理,数据清洗详解

Pandas读取MySQL数据到DataFrame的方法

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构