为什么要把预处理拆成两个独立的Python脚本？各自负责什么核心任务？

```python """ preprocess_step1.py 功能：数据加载、探索、清洗、编码与标准化输入：lcs_synthetic_20000.csv 输出：lcs_processed_cleaned.csv（覆盖原文件结构，仅清洗编码标准化） """ import pandas as pd import numpy as np from sklearn.preprocessing import LabelEncoder, MinMaxScaler from sklearn.feature_selection import SelectKBest, chi2 print("开始数据预处理（Step 1）...") # 1. 加载数据 df = pd.read_csv('lcs_synthetic_20000.csv') print(f"原始数据形状: {df.shape}") # 2. 缺失值检查 if df.isnull().sum().sum() == 0: print("无缺失值") else: raise ValueError("存在缺失值，请先处理") # 3. 异常值处理：年龄范围限定为 20-100 age_outliers = df[(df['AGE'] < 20) | (df['AGE'] > 100)] if len(age_outliers) > 0: print(f"删除 {len(age_outliers)} 条异常年龄记录") df = df.drop(age_outliers.index).reset_index(drop=True) # 4. 去重 duplicates = df.duplicated().sum() if duplicates > 0: print(f"删除 {duplicates} 条重复记录") df = df.drop_duplicates().reset_index(drop=True) # 5. 分类特征编码 # GENDER: M/F → 0/1 le_gender = LabelEncoder() df['GENDER'] = le_gender.fit_transform(df['GENDER']) # 症状列（1/2 → 0/1） symptom_columns = [ 'SMOKING', 'YELLOW_FINGERS', 'ANXIETY', 'PEER_PRESSURE', 'CHRONIC DISEASE', 'FATIGUE', 'ALLERGY', 'WHEEZING', 'ALCOHOL CONSUMING', 'COUGHING', 'SHORTNESS OF BREATH', 'SWALLOWING DIFFICULTY', 'CHEST PAIN' ] for col in symptom_columns: df[col] = df[col] - 1 # 目标变量：YES/NO → 1/0 df['LUNG_CANCER'] = (df['LUNG_CANCER'] == 'YES').astype(int) # 6. 数值特征标准化：AGE → [0, 1] scaler_age = MinMaxScaler() df['AGE'] = scaler_age.fit_transform(df[['AGE']]) # 7. 特征选择：卡方检验，保留前12个最相关特征 X = df.drop('LUNG_CANCER', axis=1) y = df['LUNG_CANCER'] selector = SelectKBest(chi2, k=12) X_selected = selector.fit_transform(X, y) selected_features = X.columns[selector.get_support()].tolist() # 构建最终清洗后数据集（含目标变量） df_cleaned = df[selected_features + ['LUNG_CANCER']].copy() print(f"清洗后特征数: {len(selected_features)}, 数据形状: {df_cleaned.shape}") # 8. 覆盖保存（不新建文件，直接替换原数据用于后续流程） df_cleaned.to_csv('lcs_synthetic_20000.csv', index=False) print("✅ 清洗完成，已覆盖原文件 lcs_synthetic_20000.csv") ``` --- ```python """ preprocess_step2.py 功能：类别不平衡处理（SMOTE），生成最终训练数据输入：lcs_synthetic_20000.csv（已清洗编码标准化）输出：lcs_synthetic_20000.csv（覆盖为平衡后数据，供模型训练使用） """ import pandas as pd from imblearn.over_sampling import SMOTE print("开始类别不平衡处理（Step 2）...") # 1. 加载清洗后的数据 df = pd.read_csv('lcs_synthetic_20000.csv') print(f"清洗后数据形状: {df.shape}") # 2. 分离特征与标签 X = df.drop('LUNG_CANCER', axis=1) y = df['LUNG_CANCER'] # 3. 应用 SMOTE 过采样 smote = SMOTE(random_state=42) X_resampled, y_resampled = smote.fit_resample(X, y) # 4. 合并为 DataFrame df_balanced = pd.DataFrame(X_resampled, columns=X.columns) df_balanced['LUNG_CANCER'] = y_resampled.values print(f"SMOTE 后数据形状: {df_balanced.shape}") print(f"平衡后类别分布:\n{df_balanced['LUNG_CANCER'].value_counts()}") # 5. 覆盖保存（直接替换，作为模型训练输入） df_balanced.to_csv('lcs_synthetic_20000.csv', index=False) print("✅ 类别平衡完成，已覆盖原文件 lcs_synthetic_20000.csv") print("➡️ 可直接用于模型训练") ``` --- 📌 **使用说明**： 1. 将两个脚本分别保存为： - `preprocess_step1.py` - `preprocess_step2.py` 2. 执行顺序： ```bash python preprocess_step1.py python preprocess_step2.py ``` 3. 最终 `lcs_synthetic_20000.csv` 即为： - 已清洗（无缺失、无异常、无重复） - 已编码（GENDER 和症状均为 0/1，目标变量为 int） - 已标准化（AGE ∈ [0,1]） - 已筛选（12 个高相关性症状特征） - 已平衡（SMOTE 后正负样本比例 ≈ 1:1） ✅ 全程不产生新文件，所有结果均覆盖原 CSV，简洁可控。请确认是否继续撰写“**模型训练模块**”。若同意，请回复：“请继续模型训练部分”。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 Debian系Linux为什么用dist-packages目录来装系统Python包？

目录

为什么要把预处理拆成两个独立的Python脚本？各自负责什么核心任务？

Python内容推荐

Python DataFrame一列拆成多列以及一行拆成多行

京东抢茅台Python脚本

大麦网抢票脚本 Python源码

图片预处理-python自动脚本

Python数据预处理.rar_Python数据处理_python_python 预处理_数据清洗_数据预处理

python 微信自动打卡脚本微信自动打卡脚本

python_scripts：用于确定实际任务的不同python脚本

对Python定时任务的启动和停止方法详解

Python数据预处理1

Python----数据预处理代码实例

python批量添加zabbix Screens的两个脚本分享

python基于celery实现异步任务周期任务定时任务

jenkins配置python脚本定时任务过程图解

mmdetection SUN RGB-D数据集Python预处理程序

基于python的大麦网自动化购票脚本

基于python王者荣耀脚本

华西抢号Python脚本

python常用运维脚本实例小结

arcgis中Python脚本的使用

通过 pyinstaller 打包后的 python 程序会显示两个进程

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构

Java线程池运行时状态怎么实时掌握？有哪些靠谱的监控手段？

桌面工具软件项目效益评估及市场预测分析

告别遮挡！UniApp中WebView与原生导航栏的和谐共处方案（附完整可运行代码）

OSPF是怎么在企业网里自动找最优路径并分区域管理的？

UML建模课程设计：图书馆管理系统论文