Python读取Excel后怎么清洗数据并导出分析结果？

你提供的截图显示的是一个 Python 脚本 `excel_read.py`，它使用 pandas 读取了一个 Excel 文件（路径为 `C:\Users\suxu\Desktop\库存超期预警.xlsx`），并打印了 DataFrame 的内容。从终端输出可以看到数据包含“资产编号”、“设备类别”、“储位名称”、“入库时间”等字段，且部分列名为 “Unnamed: X”，说明原始 Excel 表头可能存在合并单元格或格式问题。 --- ✅ **你的需求：“导出来分析”** —— 我理解你是想： > 把这个 Excel 数据导入到 Python 中，进行进一步的数据分析（比如筛选、统计、可视化、导出结果等）。 --- ## 🛠️ 以下是完整可运行的分析与导出方案： ### ✅ 步骤 1：修复代码中的变量名错误你当前代码第2行写的是： ```python d = pd.read_excel(...) ``` 但第3行却用了 `print(df)` → 这会导致报错！因为 `df` 未定义。 **修正如下：** ```python import pandas as pd # 读取 Excel 文件 df = pd.read_excel(r"C:\Users\suxu\Desktop\库存超期预警.xlsx") # 打印前几行查看数据结构 print(df.head()) # 可选：检查列名和缺失值 print("\n列名：", df.columns.tolist()) print("\n缺失值情况：") print(df.isnull().sum()) ``` --- ### ✅ 步骤 2：清理数据（处理 Unnamed 列）如果存在多个 `Unnamed: X` 列，可能是由于 Excel 表头有合并单元格或多层标题导致。你可以： #### 方法 A：直接删除无名列 ```python # 删除所有以 "Unnamed" 开头的列 df = df.loc[:, ~df.columns.str.contains('^Unnamed')] ``` #### 方法 B：手动重命名或删除特定列 ```python # 如果知道哪些列是多余的，可以指定删除 df.drop(columns=['Unnamed: 1', 'Unnamed: 12', 'Unnamed: 13'], inplace=True, errors='ignore') ``` --- ### ✅ 步骤 3：转换日期列（重要！） “入库时间”应该是 datetime 类型，便于后续按时间筛选或计算天数： ```python # 转换入库时间为 datetime 类型 df['入库时间'] = pd.to_datetime(df['入库时间'], errors='coerce') # 检查是否成功转换 print(df['入库时间'].dtype) ``` --- ### ✅ 步骤 4：基础分析示例 #### 🔍 分析 1：按设备类别统计数量 ```python print("\n各设备类别的数量：") print(df['设备类别'].value_counts()) ``` #### 🔍 分析 2：找出最早/最晚入库记录 ```python print("\n最早入库时间：", df['入库时间'].min()) print("最晚入库时间：", df['入库时间'].max()) ``` #### 🔍 分析 3：计算每条记录的“已存放天数”（假设今天是 2025-09-08） ```python today = pd.Timestamp('2025-09-08') df['已存放天数'] = (today - df['入库时间']).dt.days print("\n前5条记录的已存放天数：") print(df[['资产编号', '入库时间', '已存放天数']].head()) ``` #### 🔍 分析 4：筛选“超期”记录（例如超过 365 天） ```python overdue_df = df[df['已存放天数'] > 365] print(f"\n超期记录共 {len(overdue_df)} 条") print(overdue_df[['资产编号', '设备类别', '入库时间', '已存放天数']].head()) ``` --- ### ✅ 步骤 5：导出分析结果 #### 导出为新的 Excel 文件 ```python # 导出全部分析后数据 df.to_excel("库存超期预警_分析后.xlsx", index=False) # 或者只导出超期部分 overdue_df.to_excel("超期库存清单.xlsx", index=False) ``` #### 导出为 CSV（兼容性好） ```python df.to_csv("库存超期预警_分析后.csv", index=False, encoding='utf-8-sig') ``` --- ### ✅ 步骤 6（可选）：可视化分析（需安装 matplotlib/seaborn） ```bash pip install matplotlib seaborn ``` ```python import matplotlib.pyplot as plt import seaborn as sns # 设置中文支持（避免乱码） plt.rcParams['font.sans-serif'] = ['SimHei'] plt.rcParams['axes.unicode_minus'] = False # 绘制设备类别分布图 plt.figure(figsize=(10, 6)) sns.countplot(data=df, y='设备类别', order=df['设备类别'].value_counts().index) plt.title('设备类别分布') plt.xlabel('数量') plt.ylabel('设备类别') plt.tight_layout() plt.show() # 绘制入库时间趋势（按月） df['入库月份'] = df['入库时间'].dt.to_period('M') monthly_count = df.groupby('入库月份').size() plt.figure(figsize=(12, 6)) monthly_count.plot(kind='bar', title='每月入库数量趋势') plt.xlabel('月份') plt.ylabel('数量') plt.xticks(rotation=45) plt.tight_layout() plt.show() ``` --- ## 💡 小贴士 - 如果 Excel 文件较大，建议先用 `nrows=100` 测试读取速度。 - 若遇到编码问题，尝试加 `encoding='gbk'` 或 `'utf-8'`。 - 使用 `df.info()` 和 `df.describe()` 快速了解数据概况。 --- ## 📦 最终推荐完整脚本模板 ```python import pandas as pd import numpy as np # 读取数据 df = pd.read_excel(r"C:\Users\suxu\Desktop\库存超期预警.xlsx") # 清理无名列 df = df.loc[:, ~df.columns.str.contains('^Unnamed')] # 转换日期 df['入库时间'] = pd.to_datetime(df['入库时间'], errors='coerce') # 计算存放天数 today = pd.Timestamp('2025-09-08') df['已存放天数'] = (today - df['入库时间']).dt.days # 筛选超期（>365天） overdue_df = df[df['已存放天数'] > 365].copy() # 导出结果 df.to_excel("库存超期预警_完整分析.xlsx", index=False) overdue_df.to_excel("超期库存清单.xlsx", index=False) print("✅ 分析完成！文件已保存至当前目录。") print(f"总记录数：{len(df)}，超期记录数：{len(overdue_df)}") ``` --- 📌 **下一步建议：** 如果你希望我帮你做更具体的分析（比如按部门、按仓库、生成报表、自动邮件提醒等），请告诉我你的具体业务目标，我可以为你定制脚本！也可以上传一小段脱敏后的数据样例（CSV 或 Excel），我可以帮你写精准的分析逻辑 😊 --- ✅ 现在你可以复制上面的代码，在你的环境中运行，即可完成“导出来分析”的任务！

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 Python里循环生成5个结果，怎么一步步把它们存进一个新列表？

目录

Python读取Excel后怎么清洗数据并导出分析结果？

Python内容推荐

Python读取Excel数据并生成图表过程解析

python读取excel指定列数据并写入到新的excel方法

python实时读取串口数据并自动保存至excel

python3 读取Excel表格中的数据

Python导出数据到Excel可读取的CSV文件的方法

Python实现OLS多元线性回归，类似SPSS一样的分析统计结果，并可以导出excel格式的统计结果

Python实现将数据库一键导出为Excel表格的实例

Python读取Excel一列并计算所有对象出现次数的方法

python实现数据导出到excel的示例--普通格式

python数据清洗

数据预处理，python读取excel数据，分类属性数值化

python制作爬虫并将抓取结果保存到excel中

python list格式数据excel导出方法

python读取excel数据绘制简单曲线图的完整步骤记录

python读取Excel表格文件的方法

PYTHON如何读取和写入EXCEL里面的数据

python提取excel数据练习

Python-Excel一键导入MySQL数据库MySQL数据库一键读取到Excel表格

Python实现读取txt文件并转换为excel的方法示例

python技能之数据导出excel的实例代码

PyPI 官网下载 | mlpack3-3.4.2-cp36-cp36m-manylinux1_x86_64.whl

实现基于C++或者python基本库，初学学习之用.zip

机器学习的一些基础算法，主要使用Python、Cpp、Matlab编写。.zip

jenkins-conf:Jenkins的配置文件

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构

Java线程池运行时状态怎么实时掌握？有哪些靠谱的监控手段？