Python实战：3种数据规约方法对比（附PCA降维代码）

# Python实战：三种数据规约方法的深度对比与实战指南在数据科学项目中，我们常常会遇到一个令人头疼的问题：数据集过于庞大。这里的“庞大”不仅指行数多，更指特征维度高。想象一下，你手头有一个包含数百甚至数千个特征的数据集，直接扔进模型里训练，不仅计算成本高昂，模型训练时间漫长，更糟糕的是，模型很可能陷入“维度灾难”，导致过拟合，泛化能力极差。这时候，**数据规约**就成了我们工具箱里不可或缺的利器。数据规约，简单来说，就是在尽可能保留原始数据关键信息的前提下，对数据进行“瘦身”。它不是为了删除数据，而是为了提炼数据。对于Python开发者，尤其是那些已经熟悉了pandas和sklearn基础操作，正寻求提升数据处理效率与模型性能的中级数据分析师而言，掌握几种核心的规约方法，意味着你能从海量数据中更快地洞察本质，构建更稳健、更高效的机器学习管道。今天，我们不谈枯燥的理论，直接从实战出发。我将为你深入对比三种在工业界和学术界都备受青睐的维归约方法：**属性子集选择**、**小波变换**和**主成分分析**。我会用大家最熟悉的鸢尾花数据集作为“演武场”，但讨论的思维和代码可以直接迁移到你的电商用户画像、金融风控特征或医疗影像数据上。我们会剖析每种方法的内在逻辑、适用场景、Python实现细节以及最重要的——如何根据你的具体问题做出选择。准备好了吗？让我们开始这场数据“瘦身”之旅。 ## 1. 理解数据规约：为何而战，为谁而战在深入具体方法之前，我们有必要先统一思想：数据规约到底在解决什么问题？它绝非简单的数据删除。 **维度灾难**是核心挑战之一。随着特征数量的增加，数据点在特征空间中的分布会变得极其稀疏。这导致两个直接后果：第一，模型需要更多的数据来学习有效的模式，数据需求呈指数级增长；第二，距离度量（如欧氏距离）在高维空间中会失效，所有点之间的距离都趋于相似，使得基于距离的算法（如KNN、聚类）性能下降。规约，就是要把数据从那个稀疏、嘈杂的高维空间，映射到一个信息密度更高的低维空间。从目标上看，数据规约主要服务于两方面： * **计算效率**：减少特征数量能显著降低模型训练和预测的时间与内存开销。这对于在线推理系统或资源受限的环境至关重要。 * **模型性能**：去除不相关和冗余的特征，可以降低模型过拟合的风险，有时甚至能提升模型的预测精度和可解释性。数据规约技术大致分为三类：**维归约**（减少特征）、**数量归约**（减少样本）和**数据压缩**（变换编码）。本文聚焦于维归约，因为这是特征工程中最常见、也最直接影响模型输入的环节。 > 注意：数据规约通常是数据预处理流水线中靠后的步骤。务必先完成数据清洗（处理缺失值、异常值）、数据集成和标准化/归一化，再考虑规约。否则，你可能会在“脏数据”的基础上做无效甚至有害的变换。 ### 1.1 实战环境准备为了确保代码能够复现，我们先来快速搭建一个实验环境。我推荐使用Anaconda管理你的Python环境，它能很好地处理科学计算包的依赖。 ```bash # 创建一个新的conda环境（可选） conda create -n data_reduction python=3.9 conda activate data_reduction # 安装核心库 pip install numpy pandas scikit-learn matplotlib seaborn # 如果你打算尝试小波变换，还需要安装PyWavelets pip install PyWavelets # 为了更丰富的特征选择方法，可以安装scikit-feature或mlxtend（可选） # pip install scikit-feature # pip install mlxtend ``` 接下来，在Jupyter Notebook或你喜欢的IDE中，导入我们将要用到的模块： ```python import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns from sklearn.datasets import load_iris from sklearn.preprocessing import StandardScaler # 设置绘图样式 plt.style.use('seaborn-v0_8-darkgrid') sns.set_palette("husl") ``` 让我们加载经典的鸢尾花数据集，并稍作探索。虽然它只有4个特征，但作为教学示例，足以清晰展示各种方法的原理和效果。 ```python # 加载数据 iris = load_iris() X = iris.data y = iris.target feature_names = iris.feature_names target_names = iris.target_names # 转换为DataFrame便于查看 df = pd.DataFrame(X, columns=feature_names) df['target'] = y df['target_name'] = [target_names[i] for i in y] print("数据集形状:", X.shape) print("特征名:", feature_names) print("目标类别:", target_names) print("\n前5行数据:") print(df.head()) ``` 输出会显示一个150行、4列（萼片长宽、花瓣长宽）的数据集，以及三个类别。我们的任务就是探索如何用不同的方法，将这4维数据有效地表达在更低维的空间中。 ## 2. 属性子集选择：精准的“外科手术” 如果把数据规约比作给数据做“瘦身”，那么**属性子集选择**就像一场精准的“外科手术”。它的核心思想非常直观：从原始特征集合中，直接挑选出一个最优的特征子集。这个子集应该包含最具预测力、且彼此冗余度最低的特征。这种方法最大的优点是**可解释性极强**——你最终使用的特征就是原始特征，业务含义完全没有改变。 ### 2.1 核心策略与算法特征选择方法通常分为三大类： 1. **过滤法**：基于特征的统计属性（如与目标的相关性、方差）进行排序和选择，独立于任何机器学习模型。速度快，但可能忽略特征间的相互作用。 * **方差阈值**：移除方差低于阈值的特征（认为其信息量小）。 * **相关系数**：选择与目标变量相关性最高的特征。 * **卡方检验**：用于分类问题，检验特征与目标的独立性。 * **互信息**：衡量特征与目标之间的非线性依赖关系，比相关系数更通用。 2. **包裹法**：将特征选择过程视为一个搜索问题，使用一个特定的机器学习模型作为“评判员”来评估不同特征子集的性能。效果通常更好，但计算成本非常高。 * **递归特征消除**：从一个包含所有特征的模型开始，不断移除最不重要的特征。 * **前向选择/后向消除**：逐步添加或删除特征，直到模型性能不再显著提升。 3. **嵌入法**：特征选择过程作为模型训练的一部分自然完成。模型在训练时会自动评估特征的重要性。 * **基于树模型的特征重要性**：如随机森林、XGBoost训练后可以输出每个特征的重要性得分。 * **L1正则化**：在线性模型（如Lasso回归）中，L1正则化会使部分特征的系数变为0，从而实现特征选择。 ### 2.2 实战：用Scikit-learn实现特征选择让我们在鸢尾花数据集上实践两种最常用的方法：过滤法中的**单变量选择**和嵌入法中的**基于模型的选择**。首先，我们需要将数据标准化，这对于基于距离或系数的方法很重要。 ```python from sklearn.feature_selection import SelectKBest, f_classif from sklearn.linear_model import LogisticRegression from sklearn.feature_selection import SelectFromModel from sklearn.model_selection import train_test_split # 数据标准化 scaler = StandardScaler() X_scaled = scaler.fit_transform(X) # 方法一：过滤法 - 选择K个最好的特征（使用ANOVA F值） selector_kbest = SelectKBest(score_func=f_classif, k=2) # 选择最好的2个特征 X_kbest = selector_kbest.fit_transform(X_scaled, y) # 查看哪些特征被选中，以及它们的得分 selected_features_mask = selector_kbest.get_support() selected_features = np.array(feature_names)[selected_features_mask] scores = selector_kbest.scores_ print("【过滤法 - SelectKBest】") print(f"特征得分: {dict(zip(feature_names, scores))}") print(f"被选中的特征: {selected_features}") print(f"降维后数据形状: {X_kbest.shape}") ``` 接下来，我们使用一个简单的逻辑回归模型配合L1正则化（嵌入法）来选择特征。 ```python # 方法二：嵌入法 - 使用带L1正则化的逻辑回归 lr = LogisticRegression(penalty='l1', solver='liblinear', C=0.1, random_state=42) lr.fit(X_scaled, y) # 查看模型系数 coef_df = pd.DataFrame({ 'feature': feature_names, 'coefficient': lr.coef_[0] # 以第一类为例，多分类可看平均绝对值 }) print("\n【嵌入法 - L1正则化逻辑回归】") print("模型系数:") print(coef_df) # 使用SelectFromModel自动选择非零系数特征 selector_l1 = SelectFromModel(lr, prefit=True, threshold=1e-5) X_l1_selected = selector_l1.transform(X_scaled) selected_by_l1 = np.array(feature_names)[selector_l1.get_support()] print(f"\nL1正则化选中的特征: {selected_by_l1}") print(f"降维后数据形状: {X_l1_selected.shape}") ``` 为了更直观地比较，我们可以将选择后的特征子集用于训练一个简单的分类器，并查看其在测试集上的性能。 ```python # 划分训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.3, random_state=42) # 使用全部特征 lr_full = LogisticRegression(random_state=42) lr_full.fit(X_train, y_train) score_full = lr_full.score(X_test, y_test) # 使用SelectKBest选出的2个特征 X_train_kbest = selector_kbest.transform(X_train) # 注意：selector已在全量数据上fit，这里仅transform X_test_kbest = selector_kbest.transform(X_test) lr_kbest = LogisticRegression(random_state=42) lr_kbest.fit(X_train_kbest, y_train) score_kbest = lr_kbest.score(X_test, y_test) print("\n【模型性能简单对比】") print(f"使用全部4个特征的准确率: {score_full:.4f}") print(f"使用SelectKBest选出的 {selected_features} 2个特征的准确率: {score_kbest:.4f}") ``` 你可能会发现，在这个小数据集上，只用两个特征就能达到甚至超过使用全部特征的精度。这正是特征选择的魅力所在——用更少的数据，做更好的决策。 ### 2.3 方法对比与选型指南 | 特性 | 过滤法 | 包裹法 | 嵌入法 | | :--- | :--- | :--- | :--- | | **核心思想** | 基于统计指标筛选 | 基于模型性能搜索最优子集 | 模型训练过程自动选择 | | **计算速度** | **非常快** | **非常慢** | 中等（取决于模型） | | **模型相关性** | 无监督/与模型无关 | 强相关（针对特定模型） | 强相关（内置在模型中） | | **结果最优性** | 可能非全局最优 | 相对更优（针对该模型） | 针对该模型较优 | | **可解释性** | 高 | 中 | 中-高 | | **典型算法** | 方差阈值、相关系数、卡方 | RFE、前向/后向选择 | Lasso、树模型重要性 | **何时选择属性子集选择？** * 当你**必须保留原始特征的业务解释性**时。例如，在金融风控中，你需要向合规部门解释为什么拒绝某个客户，模型使用的特征必须是“年龄”、“历史逾期次数”这样的原始变量，而不是某个无法解释的“主成分1”。 * 当你的**特征数量本身不是特别巨大**（例如几百个），且计算资源允许进行一些搜索时。 * 当你怀疑数据中存在大量**无关或冗余特征**，想先做一波清理时。它的局限性在于，当特征间存在复杂的线性或非线性关系时，简单地剔除某个特征可能会丢失这些关系所蕴含的信息。 ## 3. 主成分分析：寻找数据的“主旋律” 如果说属性子集选择是做减法，那么**主成分分析**就是在做一种巧妙的变换。PCA并不丢弃任何原始特征，而是通过线性变换，将原始特征空间旋转到一个新的坐标系中。这个新坐标系的第一根轴（第一主成分）是数据方差最大的方向，第二根轴与第一根正交且方差次大，依此类推。你可以把它想象成给一群三维空间中的散点拍照。从某个角度看过去，这些点挤成一团，信息重叠严重（照片模糊）；PCA就是帮你找到那个“最佳拍摄角度”，从这个角度拍，点与点之间区分度最大（照片最清晰）。这个“最佳角度”就是主成分方向。 ### 3.1 PCA的数学直觉与关键概念 PCA的核心是**特征值分解**或**奇异值分解**。我们不需要手动推导公式，但理解这几个概念对应用至关重要： * **主成分**：新的坐标轴，是原始特征的线性组合。 * **解释方差比**：每个主成分携带的原始数据信息量（方差）占总方差的比例。这是决定保留几个主成分的关键指标。 * **载荷**：原始特征在每个主成分上的权重系数。它告诉我们主成分的“构成”，是连接新旧特征的桥梁。 > 重要提示：**PCA对数据的尺度非常敏感！** 如果特征A的取值范围是0-1，特征B是1000-10000，那么PCA会认为特征B的方差大得多，从而赋予其不成比例的重要性。因此，**在应用PCA之前，必须对数据进行标准化（StandardScaler），使每个特征均值为0，方差为1。** ### 3.2 实战：从二维可视化到n维压缩让我们在标准化的鸢尾花数据上运行PCA，并深入解读结果。 ```python from sklearn.decomposition import PCA # 应用PCA，我们先尝试降到2维以便可视化 pca_2 = PCA(n_components=2) X_pca_2 = pca_2.fit_transform(X_scaled) # fit_transform 包含了拟合模型和应用转换 print("【PCA降维至2维】") print(f"各主成分解释方差比: {pca_2.explained_variance_ratio_}") print(f"累计解释方差比: {np.cumsum(pca_2.explained_variance_ratio_)}") print(f"主成分载荷矩阵（特征向量）形状: {pca_2.components_.shape}") ``` 输出会显示，第一主成分大约解释了原始数据70%以上的方差，加上第二主成分，累计能解释超过95%的方差。这意味着我们仅用两个新特征，就保留了原始四个特征95%以上的信息！这是一个非常高效的规约。现在，让我们可视化降维后的结果： ```python # 创建降维后的DataFrame df_pca = pd.DataFrame(data=X_pca_2, columns=['主成分1', '主成分2']) df_pca['target'] = y df_pca['target_name'] = [target_names[i] for i in y] # 绘制散点图 plt.figure(figsize=(10, 6)) scatter = plt.scatter(df_pca['主成分1'], df_pca['主成分2'], c=df_pca['target'], cmap='viridis', edgecolor='k', alpha=0.7) plt.xlabel(f'主成分1 (解释方差: {pca_2.explained_variance_ratio_[0]:.2%})') plt.ylabel(f'主成分2 (解释方差: {pca_2.explained_variance_ratio_[1]:.2%})') plt.title('鸢尾花数据集PCA降维可视化 (2个主成分)') plt.legend(handles=scatter.legend_elements()[0], labels=target_names, title='鸢尾花种类') plt.grid(True, linestyle='--', alpha=0.5) plt.tight_layout() plt.show() ``` 从图中可以清晰看到，三个类别的数据点在新的二维空间中得到了很好的分离。这正是PCA在数据探索和可视化中的强大之处。但是，我们如何确定应该保留多少个主成分呢？一个常用的方法是绘制**碎石图**。 ```python # 应用PCA，不指定n_components，计算所有主成分 pca_full = PCA() pca_full.fit(X_scaled) # 绘制碎石图 plt.figure(figsize=(10, 6)) plt.plot(range(1, len(pca_full.explained_variance_ratio_) + 1), np.cumsum(pca_full.explained_variance_ratio_), 'bo-', linewidth=2) plt.axhline(y=0.95, color='r', linestyle='--', label='95%方差阈值') plt.xlabel('主成分数量') plt.ylabel('累计解释方差比例') plt.title('PCA碎石图 - 确定主成分数量') plt.grid(True, linestyle='--', alpha=0.5) plt.legend() plt.tight_layout() plt.show() # 自动选择保留95%以上方差的主成分数量 pca_95 = PCA(n_components=0.95) # 指定方差比例，让PCA自动选择 X_pca_95 = pca_95.fit_transform(X_scaled) print(f"\n保留95%方差所需的主成分数量: {pca_95.n_components_}") print(f"降维后数据形状: {X_pca_95.shape}") ``` 通过碎石图，我们可以直观地看到增加主成分带来的“收益”递减。通常选择拐点（“肘部”）之后的主成分，或者直接设定一个累计方差阈值（如95%）。 ### 3.3 PCA的局限性与应用场景 PCA是一种强大的工具，但它并非万能。它的主要**局限性**包括： * **线性假设**：PCA只能捕捉线性关系。如果数据的主要结构是非线性的（如流形结构），PCA效果会很差，此时应考虑**核PCA**或**t-SNE、UMAP**等非线性降维方法。 * **可解释性丢失**：生成的主成分是原始特征的线性组合，其物理含义往往难以直接解释。 * **对异常值敏感**：由于基于方差最大化，异常值会显著影响主成分的方向。 **PCA的典型应用场景：** * **高维数据可视化**：将数十、数百维数据降至2D或3D进行绘图观察。 * **数据压缩与去噪**：保留主要成分，舍弃方差小的成分（常包含噪声）。 * **作为预处理步骤**：在训练模型（尤其是线性模型）前，用PCA消除多重共线性，加速训练。 * **特征工程**：将生成的主成分作为新的特征输入下游模型。 ## 4. 小波变换：时频域的数据雕刻家与前两种方法不同，**小波变换**出身于信号处理领域，它为我们提供了在时域和频域同时分析数据的独特视角。对于图像、音频、时间序列这类具有局部化特征或突变点的数据，小波变换尤其有用。你可以把傅里叶变换想象成一个“棱镜”，它能把信号分解成不同频率的正弦波，但它告诉你的是整个信号周期内有哪些频率，却**不知道这些频率成分出现在什么时间**。小波变换则像一把“显微镜”，它使用一个可以伸缩平移的“小波基函数”，既能分析信号的频率成分，又能定位该成分发生的时间。 ### 4.1 小波变换的核心思想小波变换的核心在于**多分辨率分析**。它通过一系列不同尺度的“小波”来探测信号。大尺度小波捕捉信号的粗粒度、低频概貌，小尺度小波捕捉信号的细粒度、高频细节。在数据规约的语境下，小波变换的流程通常是： 1. 对原始信号（如图像的每一行）进行小波变换，得到一组小波系数。 2. 这些系数代表了信号在不同尺度和位置上的能量。**大的系数对应着信号的重要特征**（如图像的边缘），而**接近于零的系数往往对应噪声或不重要的细节**。 3. 通过设定一个阈值，将绝对值小于该阈值的小波系数置为零（这个过程称为**阈值去噪**）。 4. 仅保留那些大于阈值的系数，或者只保留最大的一部分系数。这些保留的系数就是数据的“规约表示”。 5. 如果需要，可以通过**小波逆变换**，用这些保留的系数近似地重构原始信号。 ### 4.2 实战：一维信号与图像的压缩演示首先，我们用一个合成的一维信号来感受小波去噪和压缩的过程。 ```python import pywt # 生成一个含噪声的一维信号 np.random.seed(42) t = np.linspace(0, 1, 1000, endpoint=False) # 原始信号：一个正弦波加上一个脉冲 signal = np.sin(2 * np.pi * 7 * t) + (t > 0.5) * (t < 0.52) * 5 # 加入高斯噪声 noise = np.random.normal(0, 0.5, signal.shape) signal_noisy = signal + noise # 执行小波变换（使用'db4'小波，进行4层分解） coeffs = pywt.wavedec(signal_noisy, 'db4', level=4) # coeffs是一个列表：[cA4, cD4, cD3, cD2, cD1]，cA是近似系数，cD是细节系数 # 通用阈值去噪 (VisuShrink) sigma = np.median(np.abs(coeffs[-1])) / 0.6745 # 估计噪声标准差 uthresh = sigma * np.sqrt(2 * np.log(len(signal_noisy))) # 计算阈值 # 对除最粗粒度的近似系数cA4外的所有细节系数应用软阈值 coeffs_thresh = [coeffs[0]] + [pywt.threshold(d, value=uthresh, mode='soft') for d in coeffs[1:]] # 小波重构 signal_denoised = pywt.waverec(coeffs_thresh, 'db4') # 绘图对比 fig, axes = plt.subplots(3, 1, figsize=(12, 8), sharex=True) axes[0].plot(t, signal, 'b', linewidth=2, label='原始干净信号') axes[0].set_title('原始干净信号') axes[0].legend() axes[0].grid(True, linestyle='--', alpha=0.5) axes[1].plot(t, signal_noisy, 'gray', alpha=0.7, label='含噪声信号') axes[1].set_title('含噪声信号') axes[1].legend() axes[1].grid(True, linestyle='--', alpha=0.5) axes[2].plot(t, signal_denoised, 'r', linewidth=2, label='小波去噪后信号') axes[2].set_title('小波去噪后信号') axes[2].legend() axes[2].grid(True, linestyle='--', alpha=0.5) plt.tight_layout() plt.show() # 计算压缩率：非零系数占比 original_coeffs_total = sum([len(c) for c in coeffs]) thresh_coeffs_total = sum([len(c) for c in coeffs_thresh]) # 计算非零系数数量 non_zero_original = sum([np.count_nonzero(c) for c in coeffs]) non_zero_thresh = sum([np.count_nonzero(c) for c in coeffs_thresh]) print(f"原始系数总数: {original_coeffs_total}") print(f"阈值化后系数总数: {thresh_coeffs_total} (保持不变)") print(f"原始非零系数数量: {non_zero_original}") print(f"阈值化后非零系数数量: {non_zero_thresh}") print(f"系数稀疏化比例: {(1 - non_zero_thresh/non_zero_original):.2%}") ``` 可以看到，小波变换通过阈值处理，将大量细小的系数（主要对应噪声）设为了零，从而实现了数据的**稀疏表示**。存储或传输这些非零系数及其位置，就实现了数据压缩。对于图像这种二维数据，小波变换同样强大。它可以将图像分解为**近似子图**和**水平、垂直、对角线方向的细节子图**。 ```python # 由于在线环境可能无法读取本地图片，我们使用sklearn自带的数字数据集中的一张图模拟 from sklearn.datasets import load_digits import matplotlib # 加载手写数字数据集，取一个数字图像 digits = load_digits() sample_image = digits.images[0] # 一个8x8的图像 # 为了演示效果，我们将其上采样到32x32，使其更清晰 from scipy import ndimage sample_image_large = ndimage.zoom(sample_image, 4, order=1) # 双线性插值放大 # 执行二维小波变换（一级分解） coeffs2 = pywt.dwt2(sample_image_large, 'haar') cA, (cH, cV, cD) = coeffs2 # 为了显示，将各个子图的像素值缩放到合适范围 def scale_coefficients(mat): return (mat - np.min(mat)) / (np.max(mat) - np.min(mat) + 1e-8) cA_scaled = scale_coefficients(cA) cH_scaled = scale_coefficients(np.abs(cH)) # 细节系数有正负，取绝对值显示 cV_scaled = scale_coefficients(np.abs(cV)) cD_scaled = scale_coefficients(np.abs(cD)) # 拼接显示 top_row = np.hstack([cA_scaled, cH_scaled]) bottom_row = np.hstack([cV_scaled, cD_scaled]) full_img = np.vstack([top_row, bottom_row]) fig, axes = plt.subplots(2, 3, figsize=(12, 8)) axes[0, 0].imshow(sample_image_large, cmap='gray') axes[0, 0].set_title('原始图像') axes[0, 0].axis('off') axes[0, 1].imshow(cA_scaled, cmap='gray') axes[0, 1].set_title('近似系数 (LL)') axes[0, 1].axis('off') axes[0, 2].imshow(cH_scaled, cmap='gray') axes[0, 2].set_title('水平细节 (LH)') axes[0, 2].axis('off') axes[1, 0].imshow(cV_scaled, cmap='gray') axes[1, 0].set_title('垂直细节 (HL)') axes[1, 0].axis('off') axes[1, 1].imshow(cD_scaled, cmap='gray') axes[1, 1].set_title('对角线细节 (HH)') axes[1, 1].axis('off') axes[1, 2].imshow(full_img, cmap='gray') axes[1, 2].set_title('小波分解拼接图') axes[1, 2].axis('off') plt.suptitle('二维小波变换 (Haar小波) 分解示例', fontsize=16) plt.tight_layout() plt.show() ``` 图像的小波分解中，**近似子图（LL）** 是原图的低分辨率版本，包含了主要的结构信息。**细节子图（LH, HL, HH）** 则分别捕捉了水平边缘、垂直边缘和对角线边缘。在图像压缩标准JPEG2000中，就是利用小波变换的这种特性，对近似子图进行精细量化，对细节子图进行粗糙量化或直接舍弃，从而实现高压缩比。 ### 4.3 小波变换在数据规约中的定位小波变换在数据规约中更像一个**专业的“雕刻家”**，它特别擅长处理具有以下特点的数据： * **非平稳信号**：统计特性随时间变化的信号，如语音、股票价格。 * **具有奇异性或突变点**：如信号中的脉冲、边缘。 * **多尺度结构**：同时包含粗粒度概貌和细粒度细节的数据，如图像。 **它的优势在于：** * **局部化分析**：能精准定位特征发生的位置。 * **多分辨率**：同时提供信号在不同尺度下的视图。 * **稀疏性**：对许多自然信号，小波系数是稀疏的（大部分系数接近0），便于压缩。 **局限性也很明显：** * **选择困难**：小波基函数（Haar, Daubechies, Symlets等）和分解层数的选择需要专业知识和经验，不同选择结果差异很大。 * **维度诅咒**：虽然对一维和二维数据很有效，但对于更高维的数据，小波变换的计算和解释会变得复杂。 * **与机器学习流程的整合**：直接将小波系数作为特征输入传统机器学习模型，可能因为系数过多且缺乏明确的语义而效果不佳。通常先做小波变换，再进行特征提取（如计算每个子带的能量、方差等统计量）。在实际项目中，小波变换常常作为**特征提取的前置步骤**，而非最终的特征输入。例如，在故障诊断中，对振动信号进行小波包分解，提取各频带能量作为特征；在人脸识别中，对图像进行小波变换后，再对低频子图进行进一步处理。 ## 5. 综合对比与实战选型决策至此，我们已经深入探讨了三种方法。现在，让我们站在项目决策者的角度，通过一个综合对比表来厘清思路。 | 维度 | 属性子集选择 | 主成分分析 | 小波变换 | | :--- | :--- | :--- | :--- | | **核心原理** | 筛选原始特征子集 | 线性变换，寻找最大方差方向 | 时频域多尺度分解 | | **输出特征** | **原始特征子集** | **原始特征的线性组合**（主成分） | **小波系数**（或基于系数的统计量） | | **可解释性** | **极高** | **低**（主成分含义模糊） | **中-低**（系数对应时频位置） | | **保持数据结构** | 完全保持 | 保持全局线性结构 | 保持局部时频结构 | | **处理关系** | 忽略特征间复杂关系 | 仅捕捉**线性关系** | 擅长捕捉**局部突变和多尺度关系** | | **最佳适用场景** | 1. 特征数适中 2. **需保留业务解释性** 3. 冗余特征明显 | 1. 特征数多，共线性强 2. 数据可视化 3. 作为线性模型前置降维 4. 去除高斯噪声 | 1. **信号、图像、时间序列数据** 2. 数据压缩与去噪 3. 特征提取的前置步骤 | | **计算复杂度** | 低（过滤法）到高（包裹法） | 中等（与特征数平方相关） | 中等（与数据长度线性相关） | | **是否需要标准化** | 依赖具体方法（如基于距离需要） | **必须** | 通常需要 | ### 5.1 如何为你的项目选择？面对一个具体的数据规约任务，你可以遵循以下决策路径： 1. **明确核心需求**： * **首要目标是模型可解释性吗？** 如果是，**属性子集选择**是唯一选择。尤其是在金融、医疗等强监管领域。 * **首要目标是压缩数据维度以便可视化或加速后续计算吗？** 如果是，**PCA**通常是首选，尤其是当特征数量远大于样本数，或特征间存在强线性相关时。 * **你的数据是信号、图像或时间序列，并且关心局部特征、突变点吗？** 如果是，**小波变换**值得尝试，通常作为特征工程的一部分。 2. **评估数据特性**： * 用`df.corr()`看看特征相关性热图。如果呈现明显的区块化高相关，PCA可能很有效。 * 绘制特征对散点图。如果数据看起来是线性可分的，PCA效果会好；如果是复杂的流形，则需要非线性方法。 * 对于序列数据，绘制其波形，观察是否有明显的周期性、趋势或突变。 3. **采用混合策略**：在实际项目中，这些方法并不互斥，可以串联使用。 * **Pipeline 1: 过滤 -> PCA**：先用过滤法（如方差阈值、高相关过滤）去掉明显无效的特征，再用PCA处理剩余特征。这能提升PCA的效率和稳定性。 * **Pipeline 2: 小波 -> 统计特征 -> 选择/PCA**：对信号数据先做小波变换，然后从每个子带计算均值、方差、能量等统计量，形成新的特征向量，最后再用特征选择或PCA对这个新特征向量进行规约。 * **模型集成**：对于预测任务，可以分别用不同规约方法处理数据，训练多个模型，然后进行集成。这有时能捕捉到数据的不同侧面信息。 ### 5.2 一个简单的决策流程图 ``` 开始数据规约 | v 是否需要保留原始特征含义？ -是-> 采用【属性子集选择】 | 否 v 数据是否为信号/图像/时间序列？ -是-> 考虑【小波变换】进行特征提取 | | 否提取统计特征后... v v 特征维度是否很高(>50)且共线性强？ -是-> 采用【PCA】进行降维 | | 否可接【属性子集选择】或【PCA】二次降维 v 考虑使用【嵌入法特征选择】(如Lasso)或【包裹法】(如RFE) | v 结束，得到规约后特征集 ``` 最后，记住一点：**没有免费的午餐**。任何规约都会带来信息损失。最好的方法是通过交叉验证，在最终的评价指标（如分类准确率、回归误差）上，直接比较不同规约策略下模型的性能。让数据本身告诉你，哪种“瘦身”方式最适合它。在我的多次项目实践中，对于表格型数据，我通常会先尝试基于树模型的特征重要性进行初筛，再根据剩余特征的数量和相关性决定是否使用PCA；而对于传感器时序数据，小波包分解提取能量特征几乎是标准流程的开端。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇用Python玩转VSLAM：ORB-SLAM3环境搭建到实时建图完整教程

目录

Python实战：3种数据规约方法对比（附PCA降维代码）

Python内容推荐

PCA降维，python代码

PCA降维python的代码以及结果.doc

PCA+mnist_PCA降维；KNN分类；mnist手写体_pypcaminist_K._python_MNIST降维_

PCA降维+分类器 python语言写的

pca降维-python

PCA数据降维python程序

Slack Python 开发者工具包

司守奎《数学建模算法与应用（第二版）》课件资源：PPT讲义、习题解答、Python代码示例与案例分析

利用PCA降维方法处理高光谱图像（matlab）

pca降维matlab代码

机器学习系列（7）：用PCA降维.docx

PCA降维_PCA数据降维_PCA手写体降维_主成分分析_MNIST降维_

pca降维,pca降维的原理及步骤,matlab

NM_PCA.zip_PCA数据降维_pca_pca降维_降维_降维算法PCA

PCA降维 让你一看就懂的PCA降维工程 可运行

pca降维.rar_PCA数据降维_pca降维_数据降维_数据降维算法_降维

14459615PCA-(ICA)_pca_pca降维_

PCA.zip_PCA 降维_PCA算法降维_pca适用于_pca降维_图片降维

PCA_pca降维_主元分析_降维_

PCA降维算法讲义ppt slides

利用PCA降维方法处理高光谱图像（matlab）

python实现PCA降维的示例详解

PCA降维python的代码以及结果.doc

具体介绍sklearn库中：主成分分析（PCA）的参数、属性、方法

PCRE2 库是一组实现正则表达式模式匹配的 C 函数

基于PLC的机械手控制系统设计与实现

避坑指南：Oracle CDB架构下PDB恢复的5个常见错误（RMAN+19c版）

JavaScript里怎么保证一个操作彻底做完，再开始下一个？

物流园区信息化建设：机遇、挑战与系统规划

Android13录音权限避坑指南：从零配置前台服务到通知栏显示

PCA降维让你一看就懂的PCA降维工程可运行