为什么训练集标准化要用fit_transform，而测试集只能用transform？

### train_test_split函数 `train_test_split` 函数用于将数据集随机划分为训练集和测试集。其使用方法和代码逻辑如下： ```python from sklearn.model_selection import train_test_split import pandas as pd # 示例数据 data = pd.DataFrame({ '购买频率': [1, 2, 3, 4, 5], '满意度': [0.8, 0.9, 0.7, 0.6, 0.8], '服务使用情况': ['低', '中', '高', '中', '低'], '是否流失': [0, 0, 1, 1, 0] }) # 特征工程：将服务使用情况转换为数值 data['服务使用情况'] = data['服务使用情况'].map({'低': 1, '中': 2, '高': 3}) # 划分特征数据和目标变量 X = data[['购买频率', '满意度', '服务使用情况']] y = data['是否流失'] # 使用 train_test_split 函数划分数据集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) ``` 代码逻辑：首先导入 `train_test_split` 函数，接着准备好特征数据 `X` 和目标变量 `y`。然后调用 `train_test_split` 函数，传入 `X`、`y`，并通过 `test_size` 参数指定测试集的比例，`random_state` 参数设定随机种子以保证划分结果的可复现性。函数返回四个结果，分别是训练集的特征数据 `X_train`、测试集的特征数据 `X_test`、训练集的目标变量 `y_train` 和测试集的目标变量 `y_test` [^2]。 ### StandardScaler类 `StandardScaler` 类用于对数据进行标准化处理，即把数据转换为均值为 0，标准差为 1 的标准正态分布。其使用方法和代码逻辑如下： ```python from sklearn.preprocessing import StandardScaler # 创建 StandardScaler 对象 scaler = StandardScaler() # 在训练集上拟合并转换数据 X_train_scaled = scaler.fit_transform(X_train) # 在测试集上进行同样的转换 X_test_scaled = scaler.transform(X_test) ``` 代码逻辑：先导入 `StandardScaler` 类，然后创建 `StandardScaler` 对象 `scaler`。使用 `fit_transform` 方法在训练集 `X_train` 上进行拟合和转换，得到标准化后的训练集数据 `X_train_scaled`。对于测试集 `X_test`，使用 `transform` 方法进行同样的转换，得到标准化后的测试集数据 `X_test_scaled`。需要注意的是，测试集不能再进行拟合，只能使用训练集拟合得到的参数进行转换，以保证数据处理的一致性 [^5]。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇用CRISPE框架设计Python学习计划时，为什么要分‘实践—评价—优化’三步走？