Python实战：用sklearn搞定岭回归与LASSO回归（附糖尿病数据集案例）

# 从“过拟合”到“精准预测”：用sklearn实战岭回归与LASSO回归的深度解析在数据科学和机器学习的实践中，线性回归模型因其简洁和可解释性，往往是许多建模任务的起点。然而，当我们满怀信心地将模型应用于真实世界的数据时，常常会遇到一个令人沮丧的现象：模型在训练集上表现近乎完美，但在从未见过的测试数据上却一败涂地。这种“纸上谈兵”式的失败，其核心元凶往往是**过拟合**。对于初学者和中级从业者而言，理解并解决过拟合，是迈向稳健模型构建的关键一步。今天，我们就以经典的糖尿病数据集为战场，深入探讨两种强大的正则化武器——**岭回归**和**LASSO回归**，看看它们如何帮助我们在模型的复杂性与预测能力之间找到那个微妙的平衡点。 ## 1. 理解过拟合与正则化的核心思想在深入代码之前，我们必须先建立清晰的直觉。想象一下，你正在学习画一只猫。如果老师只给你看一张特定角度、特定姿态的猫照片，你可能会把照片背景里的窗帘褶皱也当作猫的特征画下来。当你试图画另一只猫，甚至同一只猫在不同场景下的样子时，你的画就会出错，因为你把“噪声”（窗帘褶皱）当成了“信号”（猫的本质特征）。这就是过拟合：模型过于复杂，完美地“记忆”了训练数据中的每一个细节（包括噪声），导致其泛化到新数据的能力极差。线性回归的目标是最小化预测值与真实值之间的误差平方和。当特征数量很多，或者特征之间存在高度相关性（多重共线性）时，这个最小化过程可能会赋予某些特征极其巨大或微小的系数，模型变得极其敏感且不稳定。正则化的核心思想，就是**在原始的损失函数上，增加一个对模型系数大小的惩罚项**。这个惩罚项就像一位严厉的教练，约束着模型系数不要“放飞自我”，防止它们为了拟合训练数据中的噪声而变得过大。 > 注意：正则化参数（通常记为 λ 或 α）控制着惩罚的力度。λ 越大，惩罚越重，模型系数会被压缩得越小，模型越简单；λ 越小，惩罚越轻，模型越接近普通的线性回归。选择合适的 λ，是正则化模型成败的关键。具体到我们即将实战的两种方法： * **岭回归**：在损失函数中加入模型系数**平方和**的惩罚项（L2正则化）。它倾向于让所有系数都均匀地缩小，但很少会将任何一个系数**精确地压缩到零**。 * **LASSO回归**：在损失函数中加入模型系数**绝对值之和**的惩罚项（L1正则化）。它更“激进”，能够将一些不重要的特征的系数**直接压缩为零**，从而实现**特征选择**。为了直观对比，我们可以看下面这个简单的系数变化示意表： | 特性 | 普通线性回归 | 岭回归 (L2) | LASSO回归 (L1) | | :--- | :--- | :--- | :--- | | **惩罚项** | 无 | 系数平方和 (∑β²) | 系数绝对值之和 (∑\|β\|) | | **解的特点** | 可能无解（矩阵不可逆）或系数过大 | 总有解，系数被均匀收缩 | 总有解，部分系数可变为零 | | **核心能力** | 无偏估计（在理想条件下） | 解决共线性，提高稳定性 | **特征选择**，提高模型可解释性 | | **几何约束** | 无 | 圆形（或球形）区域 | 菱形（或十字形）区域 | 理解了这些，我们就知道，面对一个可能存在多重共线性、特征众多的数据集（如糖尿病数据集），岭回归和LASSO回归不再是可选项，而是必选项。 ## 2. 环境准备与数据初探任何实战都始于一个清晰、可复现的环境。我们假设你已具备基本的Python和数据科学栈知识。让我们从搭建环境和认识数据开始。首先，确保你的工作环境中安装了必要的库。打开你的终端或Jupyter Notebook，可以通过以下命令检查或安装： ```bash # 使用pip进行安装 pip install numpy pandas matplotlib seaborn scikit-learn plotly # 或者使用conda conda install numpy pandas matplotlib seaborn scikit-learn plotly ``` 接下来，我们加载数据并对其进行初步的探索性分析。糖尿病数据集是机器学习中的一个经典数据集，常用于回归任务。我们使用`sklearn`内置的版本，它包含了10个基线特征（年龄、性别、BMI、血压等）和一个目标变量（一年后疾病进展的定量测量）。 ```python # 导入核心库 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns from sklearn.datasets import load_diabetes from sklearn.model_selection import train_test_split # 设置绘图风格，让图表更美观 plt.style.use('seaborn-v0_8-darkgrid') sns.set_palette("husl") # 加载糖尿病数据集 diabetes = load_diabetes() X = pd.DataFrame(diabetes.data, columns=diabetes.feature_names) y = pd.Series(diabetes.target, name='target') print(f"数据集形状: 特征 {X.shape}, 目标变量 {y.shape}") print("\n特征名称:") print(X.columns.tolist()) print("\n前5行数据预览:") print(X.head()) ``` 运行这段代码，你会立刻对数据有一个基本印象：442个样本，10个特征。一个良好的习惯是检查数据的基本统计信息和相关性。 ```python # 查看基本统计信息 print(X.describe().round(3)) # 计算特征与目标变量的相关性，并排序 correlation_with_target = X.apply(lambda col: col.corr(y)) print("\n特征与目标变量的相关系数:") print(correlation_with_target.sort_values(ascending=False)) ``` 在我的这次运行中，`bmi`（身体质量指数）和`s5`（可能是某种血液检测指标）与目标变量的相关性最高。这给了我们一个初步的线索，哪些特征可能更重要。但请注意，相关性不等于因果关系，且特征之间可能存在复杂的交互。最后，也是至关重要的一步：划分训练集和测试集。**永远不要在用于评估模型最终性能的数据上进行任何形式的训练或参数调优**。我们使用`train_test_split`来保留20%的数据作为最终测试。 ```python # 划分训练集和测试集，设置随机种子确保结果可复现 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) print(f"训练集大小: {X_train.shape}") print(f"测试集大小: {X_test.shape}") ``` 至此，战场已经清扫完毕，数据准备就绪。接下来，我们将分别请出两位主角：岭回归和LASSO回归。 ## 3. 实战岭回归：稳定性的艺术岭回归通过L2惩罚项来约束系数，其解总是存在，非常适合处理特征之间存在多重共线性的情况。它的核心挑战在于如何确定那个“恰到好处”的正则化强度 `alpha`（在`sklearn`中，λ 被命名为 `alpha`）。 ### 3.1 可视化寻找Alpha：系数路径图一种直观的方法是绘制**系数路径图**，即观察不同 `alpha` 值下，各个特征系数的变化轨迹。 ```python from sklearn.linear_model import Ridge from sklearn.preprocessing import StandardScaler # 为了公平地施加惩罚，通常需要对特征进行标准化（使均值为0，方差为1） # 注意：我们这里使用StandardScaler，但Ridge类本身也有`normalize`参数（已弃用） scaler = StandardScaler() X_train_scaled = scaler.fit_transform(X_train) X_test_scaled = scaler.transform(X_test) # 重要：使用训练集的参数转换测试集 # 生成一系列alpha值，覆盖一个很大的范围（对数尺度） alphas = np.logspace(-3, 3, 100) # 从10^-3到10^3，共100个点 ridge_coefs = [] # 遍历每个alpha，训练岭回归模型，并记录系数 for alpha in alphas: ridge = Ridge(alpha=alpha) ridge.fit(X_train_scaled, y_train) ridge_coefs.append(ridge.coef_) # 将系数列表转换为DataFrame，便于绘图 ridge_coefs_df = pd.DataFrame(ridge_coefs, columns=X.columns, index=alphas) ridge_coefs_df.index.name = 'alpha' # 绘制系数路径图 plt.figure(figsize=(10, 6)) for column in ridge_coefs_df.columns: plt.semilogx(ridge_coefs_df.index, ridge_coefs_df[column], label=column, linewidth=2) plt.xlabel('Alpha (正则化强度，对数尺度)', fontsize=12) plt.ylabel('回归系数', fontsize=12) plt.title('岭回归系数随Alpha变化路径', fontsize=14) plt.axhline(y=0, color='black', linestyle='--', linewidth=0.5) plt.legend(bbox_to_anchor=(1.05, 1), loc='upper left') plt.tight_layout() plt.show() ``` 观察这张图，你会发现随着 `alpha` 从很小（左侧）增大到很大（右侧），所有特征的系数都逐渐向零收缩。当 `alpha` 非常小时，系数接近普通线性回归的解；当 `alpha` 非常大时，所有系数都被强烈压缩至零附近。我们寻找的是系数开始变得“稳定”、不再剧烈变化的区域。从图中大致可以判断，`alpha` 在1到10之间可能是一个合理的范围。但这只是视觉估计，我们需要更精确的方法。 ### 3.2 交叉验证确定最佳Alpha 交叉验证是确定超参数（如 `alpha`）的标准方法。`sklearn` 提供了 `RidgeCV` 类，可以方便地进行带交叉验证的岭回归。 ```python from sklearn.linear_model import RidgeCV from sklearn.metrics import mean_squared_error, r2_score # 使用RidgeCV进行交叉验证，选择最佳alpha # cv=5表示5折交叉验证，scoring='neg_mean_squared_error'表示以负均方误差为评估指标 ridge_cv = RidgeCV(alphas=alphas, cv=5, scoring='neg_mean_squared_error') ridge_cv.fit(X_train_scaled, y_train) best_alpha_ridge = ridge_cv.alpha_ print(f"通过交叉验证得到的最佳 alpha 值为: {best_alpha_ridge:.4f}") ``` `RidgeCV` 内部会为每一个 `alpha` 候选值计算交叉验证的平均分数（这里是负MSE），然后选择分数最高的（即MSE最小的）对应的 `alpha`。 ### 3.3 构建最终模型与评估现在，我们用找到的最佳 `alpha` 在**整个训练集**上重新训练最终的岭回归模型，并在**独立的测试集**上评估其性能。 ```python # 使用最佳alpha训练最终岭回归模型 final_ridge = Ridge(alpha=best_alpha_ridge) final_ridge.fit(X_train_scaled, y_train) # 获取模型系数和截距 ridge_coefficients = pd.Series(final_ridge.coef_, index=X.columns, name='系数') ridge_intercept = final_ridge.intercept_ print("岭回归模型截距:", ridge_intercept) print("\n岭回归模型系数（按绝对值排序）:") print(ridge_coefficients.reindex(ridge_coefficients.abs().sort_values(ascending=False).index)) # 在训练集和测试集上进行预测 y_train_pred_ridge = final_ridge.predict(X_train_scaled) y_test_pred_ridge = final_ridge.predict(X_test_scaled) # 计算性能指标 train_mse_ridge = mean_squared_error(y_train, y_train_pred_ridge) test_mse_ridge = mean_squared_error(y_test, y_test_pred_ridge) train_r2_ridge = r2_score(y_train, y_train_pred_ridge) test_r2_ridge = r2_score(y_test, y_test_pred_ridge) print(f"\n训练集 MSE: {train_mse_ridge:.2f}, R²: {train_r2_ridge:.4f}") print(f"测试集 MSE: {test_mse_ridge:.2f}, R²: {test_r2_ridge:.4f}") ``` 至此，你得到了一个经过正则化、相对稳定的岭回归模型。注意比较训练集和测试集的R²分数，一个健康的模型两者应该比较接近。如果测试集R²远低于训练集，可能意味着即使正则化后，仍存在一定的过拟合，或者 `alpha` 需要进一步调整。 ## 4. 实战LASSO回归：特征选择的利刃 LASSO回归与岭回归最大的区别在于其L1惩罚项能够产生稀疏解。这意味着它可以自动进行特征选择，将一些不重要的特征的系数设为零，从而得到一个更简单、可解释性更强的模型。 ### 4.1 可视化LASSO路径与特征选择同样，我们先通过系数路径图来感受LASSO的特性。 ```python from sklearn.linear_model import Lasso lasso_coefs = [] for alpha in alphas: # 注意：LASSO对于较大的alpha可能需要更多迭代次数才能收敛 lasso = Lasso(alpha=alpha, max_iter=10000) lasso.fit(X_train_scaled, y_train) lasso_coefs.append(lasso.coef_) lasso_coefs_df = pd.DataFrame(lasso_coefs, columns=X.columns, index=alphas) lasso_coefs_df.index.name = 'alpha' plt.figure(figsize=(10, 6)) for column in lasso_coefs_df.columns: plt.semilogx(lasso_coefs_df.index, lasso_coefs_df[column], label=column, linewidth=2) plt.xlabel('Alpha (正则化强度，对数尺度)', fontsize=12) plt.ylabel('回归系数', fontsize=12) plt.title('LASSO回归系数随Alpha变化路径', fontsize=14) plt.axhline(y=0, color='black', linestyle='--', linewidth=0.5) plt.legend(bbox_to_anchor=(1.05, 1), loc='upper left') plt.tight_layout() plt.show() ``` 仔细观察这张图，并与岭回归的图对比。你会发现，随着 `alpha` 增大，LASSO的系数是**一条条逐渐“坠落”到零的直线**，一旦触及零轴，该特征的系数就永久变为零，从模型中被剔除。这正是特征选择的过程。例如，你可能看到 `sex`（性别）这个特征在 `alpha` 还比较小的时候系数就归零了。 ### 4.2 交叉验证与最佳Alpha选择使用 `LassoCV` 类可以高效地进行交叉验证来选择 `alpha`。它采用坐标下降法，计算速度通常很快。 ```python from sklearn.linear_model import LassoCV # LassoCV会自动在一组alpha值中寻找最佳值，我们也可以指定自己的范围 lasso_cv = LassoCV(alphas=alphas, cv=5, max_iter=10000, random_state=42) lasso_cv.fit(X_train_scaled, y_train) best_alpha_lasso = lasso_cv.alpha_ print(f"通过交叉验证得到的最佳 alpha 值为: {best_alpha_lasso:.4f}") print(f"模型使用了 {np.sum(lasso_cv.coef_ != 0)} 个非零特征（共 {X.shape[1]} 个）。") ``` ### 4.3 构建稀疏模型与深度解析现在，我们用最佳 `alpha` 训练最终的LASSO模型，并仔细分析其结果。 ```python # 使用最佳alpha训练最终LASSO模型 final_lasso = Lasso(alpha=best_alpha_lasso, max_iter=10000) final_lasso.fit(X_train_scaled, y_train) # 获取非零系数 lasso_coefficients = pd.Series(final_lasso.coef_, index=X.columns, name='系数') lasso_intercept = final_lasso.intercept_ non_zero_coef = lasso_coefficients[lasso_coefficients != 0] print("LASSO回归模型截距:", lasso_intercept) print(f"\nLASSO选择了 {len(non_zero_coef)} 个特征:") print(non_zero_coef.sort_values(ascending=False)) # 被剔除的特征（系数为零） zero_coef_features = lasso_coefficients[lasso_coefficients == 0].index.tolist() if zero_coef_features: print(f"\n被LASSO剔除的特征: {zero_coef_features}") else: print("\n所有特征均被保留。") # 预测与评估 y_train_pred_lasso = final_lasso.predict(X_train_scaled) y_test_pred_lasso = final_lasso.predict(X_test_scaled) train_mse_lasso = mean_squared_error(y_train, y_train_pred_lasso) test_mse_lasso = mean_squared_error(y_test, y_test_pred_lasso) train_r2_lasso = r2_score(y_train, y_train_pred_lasso) test_r2_lasso = r2_score(y_test, y_test_pred_lasso) print(f"\n训练集 MSE: {train_mse_lasso:.2f}, R²: {train_r2_lasso:.4f}") print(f"测试集 MSE: {test_mse_lasso:.2f}, R²: {test_r2_lasso:.4f}") ``` LASSO的结果非常具有启发性。它直接告诉你，根据当前的数据和正则化强度，哪些特征被认为是无关紧要的（系数为零）。这极大地简化了模型，并可能揭示出数据中更本质的驱动因素。比较岭回归和LASSO的测试集性能（如R²），如果两者相近，那么LASSO模型因其简洁性而更受欢迎。 ## 5. 高级技巧与实战陷阱规避掌握了基本流程后，我们还需要了解一些进阶技巧和常见陷阱，这能让你在实际项目中更加游刃有余。 ### 5.1 特征标准化：为什么以及如何做正则化惩罚项对系数的大小敏感。如果特征A的取值范围是0-1，特征B的取值范围是0-10000，那么即使特征B的系数很小，其贡献也可能被放大，导致惩罚项主要针对特征B，这不公平。因此，**在应用岭回归或LASSO之前，对特征进行标准化（零均值、单位方差）是标准操作**。我们之前使用了 `StandardScaler`，这正是为了确保每个特征在惩罚项面前“地位平等”。 ```python # 标准化步骤的再强调与解释 from sklearn.preprocessing import StandardScaler scaler = StandardScaler() # 只在训练集上拟合scaler，学习其均值和标准差 X_train_scaled = scaler.fit_transform(X_train) # 用训练集学到的参数去转换测试集，这是为了避免数据泄露 X_test_scaled = scaler.transform(X_test) # 错误的做法：将训练集和测试集合并后再标准化，这会使得测试集信息“泄露”到训练过程中。 ``` ### 5.2 超参数调优：网格搜索与随机搜索 `RidgeCV` 和 `LassoCV` 使用交叉验证选择 `alpha` 已经很方便。但对于更复杂的模型或需要同时调整多个超参数时，`GridSearchCV`（网格搜索）和 `RandomizedSearchCV`（随机搜索）是更强大的工具。 ```python from sklearn.model_selection import GridSearchCV # 以岭回归为例，定义超参数网格 param_grid = {'alpha': np.logspace(-4, 2, 50)} ridge = Ridge() grid_search = GridSearchCV(estimator=ridge, param_grid=param_grid, scoring='neg_mean_squared_error', cv=5, verbose=1, # 输出搜索过程 n_jobs=-1) # 使用所有CPU核心并行计算 grid_search.fit(X_train_scaled, y_train) print(f"最佳参数: {grid_search.best_params_}") print(f"最佳交叉验证分数（负MSE）: {grid_search.best_score_:.2f}") # 获取最佳模型 best_ridge_model = grid_search.best_estimator_ ``` ### 5.3 模型诊断与结果可视化评估模型不能只看R²和MSE。残差分析是诊断线性回归模型假设（如线性、同方差性、正态性）是否成立的重要手段。 ```python # 计算LASSO模型在测试集上的残差 residuals = y_test - y_test_pred_lasso fig, axes = plt.subplots(1, 2, figsize=(12, 4)) # 残差 vs 拟合值图：检查同方差性 axes[0].scatter(y_test_pred_lasso, residuals, alpha=0.6) axes[0].axhline(y=0, color='r', linestyle='--') axes[0].set_xlabel('预测值') axes[0].set_ylabel('残差') axes[0].set_title('残差 vs 预测值') # 残差直方图/Q-Q图：检查正态性（这里用直方图近似） axes[1].hist(residuals, bins=20, edgecolor='black', density=True) axes[1].set_xlabel('残差') axes[1].set_ylabel('密度') axes[1].set_title('残差分布') plt.tight_layout() plt.show() ``` 理想的残差图应该是随机分布在0线周围，没有明显的模式（如漏斗形、曲线形）。残差分布应大致对称。如果发现明显模式，可能意味着模型遗漏了重要的非线性关系或交互项。 ### 5.4 Elastic Net：结合L1与L2的优势有时我们既希望像LASSO那样进行特征选择，又希望像岭回归那样稳定地处理高度相关的特征。`ElasticNet` 回归通过结合L1和L2惩罚项，提供了这种灵活性。它有两个超参数：`alpha`（总体正则化强度）和 `l1_ratio`（L1惩罚项的比例，0为纯岭回归，1为纯LASSO）。 ```python from sklearn.linear_model import ElasticNetCV # 尝试不同的l1_ratio l1_ratios = [.1, .5, .7, .9, .95, .99, 1] elastic_cv = ElasticNetCV(l1_ratio=l1_ratios, alphas=alphas, cv=5, max_iter=10000, random_state=42) elastic_cv.fit(X_train_scaled, y_train) print(f"最佳 alpha: {elastic_cv.alpha_:.4f}") print(f"最佳 l1_ratio: {elastic_cv.l1_ratio_:.4f}") print(f"非零特征数: {np.sum(elastic_cv.coef_ != 0)}") ``` 在实际项目中，尤其是特征维度很高时，Elastic Net常常是默认的、稳健的选择。走完这一整套流程，从数据准备、可视化探索、交叉验证调参到模型诊断，你应该对如何在实际项目中应用岭回归和LASSO回归有了扎实的理解。记住，没有“最好”的模型，只有“最适合”当前数据和问题的模型。多尝试、多比较、深入理解结果背后的业务含义，才是数据科学实践的精髓。最后分享一个我自己的经验：在处理一个新的回归问题时，我通常会先跑一个带交叉验证的Elastic Net作为基线，观察特征选择情况和性能，然后再决定是倾向于更稀疏的LASSO还是更稳定的岭回归。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 Python实战：5步搞定脑电信号预处理（附OpenBCI数据清洗代码）