这段Python代码是怎么一步步构建中医体质与代谢特征的？

以下是给定 Python 代码在机器学习流程里每行代码的具体作用： ```python import os, pandas as pd, numpy as np ``` 导入所需的库，`os` 用于文件和目录操作，`pandas` 用于数据处理和分析，`numpy` 用于数值计算，这些库在数据预处理和特征工程阶段起着重要作用，是后续数据操作的基础[^1]。 ```python #读取指定文件 q1_file = '共同结果整合.xlsx' outfile = '问题二_特征构建结果1.xlsx' df = pd.read_excel('数据(已清洗).xlsx') ``` - `q1_file` 设定了可能包含关键指标信息的文件。 - `outfile` 定义了最终输出文件的名称。 - `df` 使用 `pandas` 的 `read_excel` 函数读取已清洗的数据文件，将其加载到 `DataFrame` 中，这是数据准备阶段的第一步，为后续的数据处理和特征构建提供数据来源。 ```python #初始化一个空列表，用于存储关键指标 features = [] ``` 创建一个空列表 `features`，用于存储后续筛选和构建的特征，在特征工程阶段用于收集有用的特征。 ```python #读取工作表'关键指标'，去除空值，转为字符串列表 if os.path.exists(q1_file): xls = pd.ExcelFile(q1_file) if '关键指标' in xls.sheet_names: features = pd.read_excel(q1_file, sheet_name='关键指标')['关键指标'].dropna().astype(str).tolist() elif '建模特征' in xls.sheet_names: features = pd.read_excel(q1_file, sheet_name='建模特征')['建模特征'].dropna().astype(str).tolist() ``` - 检查 `q1_file` 是否存在。 - 如果存在，创建 `ExcelFile` 对象读取文件。 - 若文件中有 '关键指标' 工作表，读取该工作表中的 '关键指标' 列，去除空值并转换为字符串列表赋值给 `features`；若没有 '关键指标' 工作表但有 '建模特征' 工作表，则读取 '建模特征' 列进行相同操作。这一步是从外部文件中获取可能的特征信息，属于特征选择的一部分。 ```python # 3) 加入痰湿质特征 tan_raw = '痰湿质' if '痰湿质' in df.columns else None tan_z = '痰湿质_z' if '痰湿质_z' in df.columns else None tan_col = tan_z or tan_raw if tan_col and tan_col not in features: features = [tan_col] + features ``` - 检查 `df` 中是否存在 '痰湿质' 或 '痰湿质_z' 列，优先选择 '痰湿质_z'。 - 如果存在且该列不在 `features` 列表中，则将其添加到 `features` 列表的开头，进一步丰富特征集合。 ```python # 4) 构造衍生特征 # 活动总分 act_raw = '活动量表总分（ADL总分+IADL总分）' if '活动量表总分（ADL总分+IADL总分）' in df.columns else None act_z = '活动量表总分（ADL总分+IADL总分）_z' if '活动量表总分（ADL总分+IADL总分）_z' in df.columns else None act_col = act_raw or act_z ``` - 检查 `df` 中是否存在 '活动量表总分（ADL总分+IADL总分）' 或 '活动量表总分（ADL总分+IADL总分）_z' 列，优先选择 '活动量表总分（ADL总分+IADL总分）_z'，为后续衍生特征的构建做准备。 ```python # BMI bmi_raw = 'BMI' if 'BMI' in df.columns else None bmi_z = 'BMI_z' if 'BMI_z' in df.columns else None bmi_col = bmi_raw or bmi_z ``` - 检查 `df` 中是否存在 'BMI' 或 'BMI_z' 列，优先选择 'BMI_z'，同样是为衍生特征构建准备。 ```python # 痰湿-活动耦合 if tan_col and act_col: df['H_痰湿活动耦合'] = df[tan_col] / (df[act_col].replace(0, np.nan) + 1e-6) features.append('H_痰湿活动耦合') ``` - 如果 `tan_col` 和 `act_col` 都存在，则计算 'H_痰湿活动耦合' 列，通过 `tan_col` 列的值除以 `act_col` 列的值（处理了除零问题）得到新的特征。 - 将该新特征添加到 `features` 列表中，属于特征工程中的特征构造步骤。 ```python # 痰湿-BMI 交互 if tan_col and bmi_col: df['H_痰湿_BMI交互'] = df[tan_col] * df[bmi_col] features.append('H_痰湿_BMI交互') ``` - 如果 `tan_col` 和 `bmi_col` 都存在，则计算 'H_痰湿_BMI交互' 列，通过 `tan_col` 列的值乘以 `bmi_col` 列的值得到新特征。 - 将该新特征添加到 `features` 列表中，也是特征构造的一部分。 ```python # 代谢异常负担：基于 z 值阈值构造 risk_positive = [c for c in ['BMI_z','空腹血糖_z','血尿酸_z','TG（甘油三酯）_z','TC（总胆固醇）_z','LDL-C（低密度脂蛋白）_z'] if c in df.columns] risk_negative = [c for c in ['HDL-C（高密度脂蛋白）_z','活动量表总分（ADL总分+IADL总分）_z'] if c in df.columns] df['H_代谢异常负担'] = 0 for c in risk_positive: df['H_代谢异常负担'] += (pd.to_numeric(df[c], errors='coerce') >= 1).astype(int) for c in risk_negative: df['H_代谢异常负担'] += (pd.to_numeric(df[c], errors='coerce') <= -1).astype(int) features.append('H_代谢异常负担') ``` - 筛选出 `df` 中存在的正向和负向风险指标列。 - 初始化 'H_代谢异常负担' 列为 0。 - 通过遍历正向和负向风险指标列，根据阈值条件计算 'H_代谢异常负担' 列的值。 - 将该新特征添加到 `features` 列表中，进一步丰富特征集合。 ```python features = list(dict.fromkeys([f for f in features if f in df.columns])) use_cols = features + ['高血脂症二分类标签'] data = df[use_cols].apply(pd.to_numeric, errors='coerce').dropna() ``` - 去除 `features` 列表中重复的元素，并筛选出 `df` 中存在的列。 - 将 `features` 列表和 '高血脂症二分类标签' 列组合成一个新的列名列表 `use_cols`。 - 从 `df` 中选取 `use_cols` 列的数据，将数据转换为数值类型（无法转换的置为 `NaN`），并去除包含 `NaN` 的行，完成数据的预处理，得到可用于建模的数据集。 ```python with pd.ExcelWriter(outfile) as w: data.to_excel(w, sheet_name='建模数据', index=False) pd.DataFrame({'特征名': features}).to_excel(w, sheet_name='特征清单', index=False) ``` 使用 `pd.ExcelWriter` 创建一个 Excel 写入对象 `w`，将处理好的 `data` 数据写入到 `outfile` 文件的 '建模数据' 工作表中，不写入行索引；将 `features` 列表转换为 `DataFrame` 并写入到 '特征清单' 工作表中，不写入行索引，保存数据和特征信息，为后续的建模阶段做准备。 ```python print(f'完成：{outfile}') ``` 打印完成信息，显示输出文件名，告知用户数据处理和特征构建任务已完成。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇用Python加pyecharts做数据大屏，具体怎么搭起来？需要哪些关键步骤和技巧？

目录

这段Python代码是怎么一步步构建中医体质与代谢特征的？

Python内容推荐

Python编程500例快速构建可执行高质量代码.pptx

Python代码gabor提取纹理特征

"利用Python代码实现MEMD多元经验模态分解算法：解析多变量信号并提取本征模态函数IMF",MEMD 多元经验模态分解 Python代码 MEMD是一种多元经验模态分解算法，是EMD从单个特征

新版本：cURL转Python代码工具

数学建模python代码仓库.zip

脑电信号分析python代码（python_eeg_analysis）.zip

Python数据分析实践：特征构建.pdf

基于TensorFlow构建的CNN水果识别项目Python代码（高分毕业设计）

去雨算法（python代码）

GFCC和MFCC特征提取（python代码）

Python-xCode自动化构建工具

Python植物大战僵尸源代码

学习Python，练习Python，各种实用Python代码示例！.zip

Python项目源代码_Python.zip

15.时间序列预测（LSTM模型）python代码实现

人人爬虫python代码

卷积神经网络python代码

蛙跳算法python代码

python所有源代码

python基础代码大全

python实现信号时域统计特征提取代码

python 计算积分图和haar特征的实例代码

《python数据分析与挖掘实战》第一章总结.docx

Python代码一键转Jar包及Java调用Python新姿势

AUC计算方法与Python实现代码

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构