怎么用Python删掉那些在网时长为负、月费超4万、且总通话时长异常偏高的脏数据？

你问的是图片中 **实训2 数据变换** 部分第（4）题： > （4）查找出在网时长小于0，本月费用大于4万元，通话时长比本地通话时长、国内长途通话时长和国内漫游通话时长的和大100的数据并删除。 --- ✅ **解题思路：** 这是一个**多条件筛选 + 删除异常数据**的任务。我们需要从数据集中找出同时满足以下三个条件的记录，并将其删除： 1. `在网时长 < 0` 2. `本月费用 > 40000` （注意单位是“元”，题目说“4万元”） 3. `通话时长 > (本地通话时长 + 国内长途通话时长 + 国内漫游通话时长) + 100` ⚠️ 注意：第三个条件中的“通话时长”应该是指**总通话时长**，而右边是三项之和再加100 —— 这个逻辑上可能表示“总通话时长异常偏高”，可能是数据录入错误。 --- 📌 **实现步骤（以 Python + pandas 为例）：** 假设你的 DataFrame 叫 `df`，列名如下（根据常见 telecom 数据集推断）： - `'在网时长'` - `'本月费用'` - `'通话时长'` - `'本地通话时长'` - `'国内长途通话时长'` - `'国内漫游通话时长'` ### ✅ 代码实现： ```python import pandas as pd # 假设 df 是你的数据框 # 构造布尔索引，找出满足所有三个条件的行 condition = ( (df['在网时长'] < 0) & (df['本月费用'] > 40000) & (df['通话时长'] > (df['本地通话时长'] + df['国内长途通话时长'] + df['国内漫游通话时长']) + 100) ) # 删除这些行 df_cleaned = df[~condition].reset_index(drop=True) # 可选：查看被删除了多少条 print(f"删除了 {condition.sum()} 条异常数据") ``` --- 💡 **补充说明：** - 如果列名不是中文，比如是英文如 `'tenure'`, `'monthly_fee'`, `'total_call_duration'` 等，请替换成实际列名。 - “通话时长”是否等于后三者之和？如果是，那这个条件就变成： ```python df['通话时长'] > df['通话时长'] + 100 → 永远为 False ``` 所以这里很可能“通话时长”是**独立字段**（比如系统记录的总时长），而后三项是细分项——可能存在不一致或冗余，因此需要校验。 👉 若确实如此，建议先检查数据结构： ```python print(df[['通话时长', '本地通话时长', '国内长途通话时长', '国内漫游通话时长']].head()) ``` 看是否有明显异常值。 --- ✅ **最终目标：** 清理掉那些明显不符合业务逻辑的“脏数据”，使后续标准化、离散化等处理更准确可靠。 --- 如果你能提供具体的列名或样例数据，我可以帮你写更精确的代码 😊 是否需要我继续帮你做下一步：“对年龄属性进行离散化处理”？

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 Python里怎么找出一个子串在字符串中所有出现的位置？有哪些常用方法和区别？

目录

怎么用Python删掉那些在网时长为负、月费超4万、且总通话时长异常偏高的脏数据？

Python内容推荐

python_用eyed3获取MP3时长和文件名

异常值检测_入门_python_python数据分析_数据异常分析_异常值_

数据挖掘-Python-箱线图方法查找出数据表中异常值，并利用拉格朗日插值法和牛顿插值法补充空值（数据表+源码+报告）

Python数据分析与应用：从数据获取到可视化

利用PYTHON进行数据分析.pdf

使用Python进行气象数据分析与可视化.zip

对比Excel,轻松学习Python数据分析数据集（新）.zip

Python数据分析与机器学习-交易数据异常检测

python新手数据预处理案例练习

Python金融数据挖掘案例分析zip

《利用python进行数据分析》数据集.rar

python数据分析参考案例

Python基础语法 Python数据类型与结构 Python函数与模块 面向对象编程在Python中的应用 Python异常处

Python 数据分析与挖掘实战-张良均-数据集

基于Python的2016年9月短信与电话通信记录数据分析系统_包含发送接收号码时间戳通话时长等字段_用于统计分析固定电话移动电话和电话促销员三种号码类型的通信模式_运用Panda.zip

Python数据分析与应用资源

Python获取lunwen信息，包含数据爬取、数据分析、数据可视化代码

python实现基于LSTM神经网络模型的日志异常检测项目源码+数据集（高分项目）.zip

基于python 数据分析可视化实战 超全 附完整代码数据.zip

UWB_TOA_带数据集——python实现

Python爬取数据保存为Json格式的代码示例

用Python将Excel数据导入到SQL Server的例子

使用Python Pandas处理亿级数据的方法

python随机生成指定长度密码的方法

Python数据处理课程设计-房屋价格预测

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构

Python基础语法 Python数据类型与结构 Python函数与模块面向对象编程在Python中的应用 Python异常处

基于python 数据分析可视化实战超全附完整代码数据.zip