MinMaxScaler归一化时为什么训练集用fit_transform而测试集只用transform？

### 使用 `MinMaxScaler` 进行数据归一化处理为了实现数据的归一化，可以采用 `sklearn.preprocessing.MinMaxScaler` 工具。此工具能够将特征缩放到给定的最小值和最大值之间，默认情况下是0到1之间的范围。下面展示了一个具体的例子来说明如何应用 `MinMaxScaler` 对数据进行归一化： ```python import pandas as pd from sklearn.model_selection import train_test_split from sklearn.preprocessing import MinMaxScaler def preprocess_data(): # 加载并查看原始数据 data = pd.read_csv('./database/dating.txt', sep='\t') # 将数据划分为训练集和测试集 X_train, X_test = train_test_split(data[['milage','Liters','Consumtime']], test_size=0.2, random_state=42) # 创建 MinMaxScaler 的实例对象，并指定归一化的区间为 (0, 1) scaler = MinMaxScaler(feature_range=(0, 1)) # 计算训练集中每列的最大值和最小值，并据此对训练集执行变换操作 X_train_scaled = scaler.fit_transform(X_train) # 应用相同的尺度参数对测试集做变换；这里不重新 fit 测试集而是直接 transform， # 是因为要保持两者的一致性，防止信息泄露[^1] X_test_scaled = scaler.transform(X_test) print('训练集经过 Min-Max 归一化之后的结果:\n', X_train_scaled[:5]) print('\n测试集经过 Min-Max 归一化之后的结果:\n', X_test_scaled[:5]) if __name__ == '__main__': preprocess_data() ``` 上述代码片段展示了完整的流程：加载数据、划分训练/测试集合以及利用 `MinMaxScaler` 完成归一化工作。值得注意的是，在处理测试集的时候并没有再次调用 `.fit()` 方法，这是因为应该基于训练集学到的比例尺去调整测试集的数据分布，从而维持模型评估的有效性和公正性。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 gridControlPHY.Invoke 和 this.Invoke 在 WinForms 中调用时，到底该选哪个？