TOPSIS+熵权法组合拳：用Excel和Python轻松实现决策分析

# TOPSIS+熵权法：用Excel和Python构建科学决策分析引擎在商业决策的日常中，我们常常面临这样的困境：面对一堆供应商、一批待选商品或数个营销方案，每个选项都有一系列复杂的评价指标。传统的做法往往是拍脑袋打分，或者简单加权平均，但权重怎么定？凭感觉？凭经验？这种主观性太强的方法，往往导致决策结果经不起推敲，甚至引发团队争议。有没有一种方法，能让数据自己“说话”，告诉我们哪个指标更重要，并据此做出更客观、更科学的排序选择？这正是TOPSIS（优劣解距离法）与熵权法这对“黄金搭档”所要解决的问题。它们不是高深莫测的学术玩具，而是能直接落地到Excel表格和Python脚本中的实用决策工具。本文将带你绕过复杂的数学公式，直击核心原理，并通过电商选品、供应商评估等真实场景，手把手演示如何从数据清洗到自动化计算，构建一套属于你自己的、客观公正的决策分析系统。 ## 1. 决策分析的核心痛点与组合方案原理在深入技术细节之前，我们得先搞清楚传统方法到底“痛”在哪里。假设你要评估三家潜在的供应商，指标包括价格、交货准时率、质量合格率和售后服务评分。一个常见的做法是给每个指标赋予一个权重，比如价格占40%，质量占30%等等。但问题来了：这个40%和30%的依据是什么？是去年这么定的，还是老板今天心情决定的？这种**主观赋权**缺乏数据支撑，容易受到个人偏好和认知局限的影响。而**熵权法**的出现，就是为了解决“权重从哪来”这个问题。它的思想非常直观：如果一个指标在所有待评价对象中数值都差不多（变异程度小），比如三家供应商的价格几乎一样，那么这个指标在区分谁好谁坏时，提供的信息量就很少，理应赋予较低的权重。反之，如果某个指标在不同对象间差异巨大（变异程度大），比如交货准时率从70%到99%不等，那么这个指标就包含了丰富的区分信息，应该获得更高的权重。熵权法通过计算指标的信息熵来量化这种“信息量”，从而完全由数据本身客观地推导出权重，彻底摒弃了主观臆断。 > 注意：熵权法计算的是指标的“区分度”权重，而非“重要性”权重。一个指标本身可能很重要（如合规性），但如果所有候选者在此指标上都表现完美且一致，那么在该次评价中，它的权重就会很低。这需要结合业务理解进行解读。有了客观的权重，接下来就需要一个强大的“排序引擎”。这就是**TOPSIS**（Technique for Order Preference by Similarity to Ideal Solution），即优劣解距离法。它的逻辑同样符合人类直觉：我们评价一个方案的好坏，通常会看它离“理想中最好的方案”有多近，同时离“想象中最差的方案”有多远。TOPSIS正是模拟了这一思维过程： 1. **构造理想解与负理想解**：找出每个指标在所有候选方案中的最优值（正理想解）和最差值（负理想解）。 2. **计算距离**：分别计算每个候选方案与正理想解、负理想解的距离。 3. **计算贴近度**：方案与正理想解越近、同时与负理想解越远，则越好。贴近度计算公式为：`与负理想解的距离 / (与正理想解的距离 + 与负理想解的距离)`。这个值介于0到1之间，值越大，说明该方案综合表现越优。TOPSIS的优势在于它同时考虑了方案与“最好”和“最坏”的距离，评价结果更为全面和稳健。将两者结合，就形成了一套完整的决策流程：**熵权法负责从数据中客观提炼出各指标的权重，TOPSIS则利用这些权重对方案进行科学排序**。这套组合拳尤其适用于指标多、数据量大的复杂决策场景，如： * **电商选品**：从海量商品中筛选出爆款潜力股。 * **供应商评估**：对多家供应商进行综合绩效考评。 * **投资项目比选**：评估多个投资项目的风险与收益。 * **员工绩效评价**：多维度量化评估员工表现。 ## 2. 实战准备：数据预处理与Excel手动演练在让Python自动化之前，我们最好先在Excel中手动走一遍核心流程，这能帮助我们深刻理解每一个计算步骤。我们以一个简化的**电商选品**案例为例，假设我们有5款待选商品（A-E），需要从4个指标来评估：`客单价（元）`、`转化率（%）`、`用户好评率（%）`、`售后投诉率（%）`。原始数据如下表所示： | 商品 | 客单价（元） | 转化率（%） | 用户好评率（%） | 售后投诉率（%） | | :--- | :---: | :---: | :---: | :---: | | 商品A | 299 | 2.5 | 92 | 1.2 | | 商品B | 159 | 4.8 | 88 | 2.5 | | 商品C | 599 | 1.2 | 95 | 0.8 | | 商品D | 399 | 3.1 | 90 | 1.8 | | 商品E | 199 | 5.5 | 85 | 3.0 | **第一步：指标正向化** 不同的指标对“好”的定义不同。对于电商选品，我们希望`客单价`、`转化率`、`好评率`越高越好（**极大型指标**），而`投诉率`则是越低越好（**极小型指标**）。因此，我们需要将`投诉率`进行正向化，将其转换为“越低越好”为“越高越好”。常用的方法是倒数法或差值法。这里使用差值法：`新投诉率 = Max(投诉率) - 原投诉率`。计算后，投诉率数据变为：商品A: 1.8, 商品B: 0.5, 商品C: 2.2, 商品D: 1.2, 商品E: 0。 **第二步：数据标准化** 为了消除不同指标量纲（元 vs 百分比）和数量级（299 vs 2.5）的影响，我们需要对数据进行标准化，使所有数据处于同一尺度。最常用的是**向量归一化**（Z-score标准化也可行）。公式为： `标准化值 Zij = Xij / sqrt( sum(Xi1^2 + Xi2^2 + ... + Xin^2) )`，其中i代表商品，j代表指标。以商品A的客单价为例，计算过程如下： 1. 计算客单价这一列的平方和：`299^2 + 159^2 + 599^2 + 399^2 + 199^2 = 672,069` 2. 取平方根：`sqrt(672069) ≈ 819.8` 3. 标准化：`299 / 819.8 ≈ 0.3647` 在Excel中，你可以使用`SUMSQ`和`SQRT`函数组合来高效完成整列的标准化。完成所有数据的标准化后，我们得到一个所有值都在0-1之间的标准化矩阵。 **第三步：Excel中实现熵权法计算（核心）** 这是客观定权的关键。我们基于标准化后的矩阵进行计算。 1. **计算比重Pij**：将每个标准化值除以该指标所在列的总和。`Pij = Zij / sum(Zj)`。这相当于将每个指标下的数据视为一个概率分布。 2. **计算信息熵Ej**：对于第j个指标，其信息熵计算公式为 `Ej = -k * sum(Pij * ln(Pij))`，其中 `k = 1/ln(n)`，n为评价对象个数（此处为5）。`ln`是自然对数。*这里有个细节：当Pij为0时，`Pij*ln(Pij)`定义为0。* 在Excel中，可以使用`LN`函数计算自然对数。计算后，我们得到每个指标的信息熵E。 3. **计算信息效用值与权重Wj**： * 信息效用值 `Dj = 1 - Ej`。熵值Ej越大，说明该指标数据越混乱，提供的信息越少，效用值Dj就越小。 * 权重 `Wj = Dj / sum(Dj)`。将各指标的信息效用值归一化，即得到最终的客观权重。通过计算，你可能会发现，`转化率`和`投诉率（正向化后）`的权重较高，因为在这5款商品中，这两个指标的差异最明显；而`好评率`的权重可能较低，因为大家分数都接近。 **第四步：Excel中实现TOPSIS排序** 有了标准化矩阵Z和权重向量W，我们就可以进行TOPSIS计算了。 1. **构造加权标准化矩阵V**：`Vij = Wj * Zij`。即每一列的数据都乘上该指标对应的权重。 2. **确定正负理想解**： * 正理想解 V+：取每个指标在V矩阵中的最大值。 * 负理想解 V-：取每个指标在V矩阵中的最小值。 3. **计算距离**： * 每个商品与正理想解的距离 `D+i = sqrt( sum( (Vij - V+j)^2 ) )` * 每个商品与负理想解的距离 `D-i = sqrt( sum( (Vij - V-j)^2 ) )` Excel中可以使用`SUMSQ`和`SQRT`函数计算欧氏距离。 4. **计算贴近度Ci**：`Ci = D-i / (D+i + D-i)`。 5. **排序**：根据Ci值从大到小排序，Ci值最大的商品即为综合最优选品。通过这一套Excel手动计算，你不仅能得到排序结果，更能透彻理解每个中间步骤的含义，这是直接调用代码无法替代的。 ## 3. Python自动化实现：从脚本到可复用工具当评价对象和指标增多时，Excel手动操作将变得繁琐且容易出错。此时，用Python实现自动化流程就成为必然选择。下面我们将构建一个模块化的Python解决方案。首先，确保你的环境已安装`pandas`和`numpy`库。 ```bash pip install pandas numpy ``` 我们将整个流程封装成函数，提高代码的复用性和可读性。 **3.1 数据读取与正向化模块** 首先，定义一个数据正向化的函数，处理极小型、中间型和区间型指标。 ```python import pandas as pd import numpy as np def data_normalization(data, indicator_types): """ 数据正向化处理 :param data: pandas DataFrame, 原始数据矩阵，每列为一个指标 :param indicator_types: list, 每个指标的类型，1:极小型，2:中间型，3:区间型 :return: 正向化后的DataFrame """ normalized_data = data.copy() n, m = data.shape for j in range(m): col_data = data.iloc[:, j].values itype = indicator_types[j] if itype == 1: # 极小型 -> 极大型 normalized_data.iloc[:, j] = np.max(col_data) - col_data elif itype == 2: # 中间型 best = float(input(f"请输入第{j+1}列指标的最优值: ")) M = np.max(np.abs(col_data - best)) normalized_data.iloc[:, j] = 1 - np.abs(col_data - best) / M elif itype == 3: # 区间型 a, b = map(float, input(f"请输入第{j+1}列指标的最佳区间[a,b]，用逗号分隔: ").split(',')) M = max(a - np.min(col_data), np.max(col_data) - b) normalized_col = np.ones_like(col_data) normalized_col[col_data < a] = 1 - (a - col_data[col_data < a]) / M normalized_col[col_data > b] = 1 - (col_data[col_data > b] - b) / M normalized_data.iloc[:, j] = normalized_col else: # 极大型，保持不变 pass return normalized_data ``` **3.2 熵权法计算权重** 接下来，实现熵权法的核心函数。 ```python def entropy_weight(normalized_data): """ 熵权法计算指标权重 :param normalized_data: pandas DataFrame, 正向化后的数据（需无非负值） :return: weights, 各指标权重数组 """ # 确保数据无负值（如需，可先进行最小-最大标准化到[0,1]） if (normalized_data.values < 0).any(): print("数据包含负数，将进行最小-最大标准化到非负区间。") for col in normalized_data.columns: col_min = normalized_data[col].min() col_max = normalized_data[col].max() normalized_data[col] = (normalized_data[col] - col_min) / (col_max - col_min) # 计算概率矩阵P P = normalized_data / normalized_data.sum(axis=0) # 处理概率为0的情况，避免log(0) P = P.replace(0, 1e-10) # 计算信息熵E n = normalized_data.shape[0] # 样本数 E = (-1 / np.log(n)) * (P * np.log(P)).sum(axis=0) # 计算信息效用值D和权重W D = 1 - E W = D / D.sum() return W.values ``` **3.3 TOPSIS综合评价函数** 最后，整合正向化、熵权法和TOPSIS的主函数。 ```python def topsis_entropy(data, indicator_types, weight_method='entropy'): """ TOPSIS-熵权法综合评价主函数 :param data: DataFrame，原始数据，行是评价对象，列是指标 :param indicator_types: list，指标类型列表 :param weight_method: str，权重确定方法，'entropy'为熵权法，'equal'为等权重，或传入自定义权重数组 :return: result_df，包含评分和排名的DataFrame """ # 1. 数据正向化 norm_data = data_normalization(data, indicator_types) print("正向化后数据:\n", norm_data) # 2. 标准化（向量归一化） Z = norm_data / np.sqrt((norm_data ** 2).sum(axis=0)) print("标准化矩阵Z:\n", Z) # 3. 确定权重 if weight_method == 'entropy': weights = entropy_weight(Z) # 基于标准化矩阵Z计算熵权 elif weight_method == 'equal': m = Z.shape[1] weights = np.ones(m) / m elif isinstance(weight_method, (list, np.ndarray)): weights = np.array(weight_method) else: raise ValueError("不支持的权重方法") print("指标权重:", weights) # 4. 构造加权标准化矩阵 V = Z * weights # 5. 确定正负理想解 V_positive = V.max(axis=0).values # 正理想解 V_negative = V.min(axis=0).values # 负理想解 # 6. 计算距离 D_positive = np.sqrt(((V - V_positive) ** 2).sum(axis=1)) # 与正理想解距离 D_negative = np.sqrt(((V - V_negative) ** 2).sum(axis=1)) # 与负理想解距离 # 7. 计算贴近度（综合得分） C = D_negative / (D_positive + D_negative) # 8. 整理结果 result_df = data.copy() result_df['D+'] = D_positive result_df['D-'] = D_negative result_df['综合得分'] = C result_df['排名'] = result_df['综合得分'].rank(ascending=False, method='min').astype(int) return result_df.sort_values(by='排名') ``` **3.4 完整案例调用** 现在，我们用这个工具来处理之前的电商选品数据。 ```python # 准备数据 data = pd.DataFrame({ '商品': ['商品A', '商品B', '商品C', '商品D', '商品E'], '客单价': [299, 159, 599, 399, 199], '转化率': [2.5, 4.8, 1.2, 3.1, 5.5], '好评率': [92, 88, 95, 90, 85], '投诉率': [1.2, 2.5, 0.8, 1.8, 3.0] # 极小型指标 }) # 设置指标类型：客单价(1-极大型)，转化率(1)，好评率(1)，投诉率(0-极小型) indicator_types = [1, 1, 1, 0] # 注意：我们的函数需要纯数值DataFrame，且指标类型列表对应数值列 data_values = data[['客单价', '转化率', '好评率', '投诉率']].copy() indicator_types = [1, 1, 1, 0] # 1代表极大型，0代表极小型（函数中0对应else，即不变，但投诉率我们已在函数内按极小型处理） # 调用函数，使用熵权法 result = topsis_entropy(data_values, indicator_types, weight_method='entropy') print("\n========== 综合评价结果 ==========") print(result[['D+', 'D-', '综合得分', '排名']]) # 将商品名称合并回结果 result_with_name = pd.concat([data[['商品']], result], axis=1) print("\n最终排序结果:") print(result_with_name[['商品', '综合得分', '排名']].sort_values('排名')) ``` 运行这段代码，你将得到一份包含每个商品与理想解距离、综合得分及最终排名的完整报告。整个过程无需人工干预，修改数据源或指标类型后，重新运行即可得到新结果。 ## 4. 高级应用与常见问题排坑掌握了基础流程后，我们可以探讨一些更深入的应用场景和实践中容易踩的“坑”。 **4.1 指标类型与正向化的深入理解** 正向化不是简单的“取反”。除了极大型和极小型，还有两种常见类型： * **中间型**：指标值越接近某个最优值越好。例如，PH值（最优点为7）、员工年龄（可能存在一个最佳年龄区间）。处理方法是计算每个数值与最优值的绝对距离，并将其转换为“越小越好”的格式。 * **区间型**：指标值落在某个特定区间`[a, b]`内最好。例如，人体体温在36.5°C到37.2°C为佳，过低或过高都不好。处理时，需要计算落在区间外的点与区间端点的距离。在Python实现中，我们已经在`data_normalization`函数里包含了这两种情况的处理逻辑。关键在于业务方必须明确每个指标属于哪种类型，并确定相应的最优值或最优区间。 **4.2 权重结果的解读与调整** 熵权法给出的权重是纯粹的“数据驱动”，它反映的是**本次数据集中**各指标的区分能力。这可能导致一个业务上非常重要的指标，因为本次所有候选对象在该指标上表现趋同，而被赋予很低的权重。例如，在供应商评估中，“合规性”是底线指标，必须达标。如果所有供应商都合规（数据均为100分），熵权法会给它近乎0的权重。 > 提示：纯粹的客观赋权有时会与业务常识冲突。一种混合策略是，先使用熵权法得到客观权重，再由业务专家根据战略重要性给出主观权重，最后通过加权（如各占50%）的方式确定综合权重。这既尊重了数据事实，也融入了人的智慧。 **4.3 数据标准化方法的选择** 我们之前使用的是**向量归一化**，其公式为 `Zij = Xij / sqrt(sum(Xi^2))`。这种方法能保证每个指标下标准化后的平方和为1。另一种常见方法是**Min-Max标准化**（归一化到[0,1]区间）：`Zij = (Xij - min(Xj)) / (max(Xj) - min(Xj))`。两种方法对TOPSIS结果的影响有时会不同。 | 标准化方法 | 公式 | 优点 | 缺点 | 适用场景 | | :--- | :--- | :--- | :--- | :--- | | **向量归一化** | `Zij = Xij / sqrt(∑Xij²)` | 严格保持各方案间相对关系，对极端值不敏感 | 结果受指标数据分布影响 | 指标值均为正，且分布相对均匀时 | | **Min-Max标准化** | `Zij = (Xij - min) / (max - min)` | 结果严格落在[0,1]，直观易懂 | 对极端值（极大、极小）非常敏感 | 需要明确上下限，或数据范围稳定的场景 | | **Z-score标准化** | `Zij = (Xij - μ) / σ` | 将数据转换为均值为0，标准差为1的分布 | 可能产生负值，需后续处理 | 数据近似正态分布时 | 在实际项目中，建议对同一份数据尝试不同的标准化方法，观察排名结果是否稳定。如果结果差异很大，则需要深入分析数据分布和业务逻辑，选择最合理的一种。 **4.4 Python实现中的数值稳定性** 在计算信息熵时，会遇到`p * log(p)`在`p=0`时无定义的情况。我们的代码中使用了`P.replace(0, 1e-10)`来避免。这是一个常用技巧，用一个极小的正数代替0。另外，在计算距离时，如果某个方案与正负理想解的距离同时为0（理论上罕见），会导致贴近度`Ci`的分母为0。可以在分母上加一个极小的数`eps`（如`1e-10`）来防止除零错误。 ```python # 在计算贴近度时增加稳定性处理 eps = 1e-10 C = D_negative / (D_positive + D_negative + eps) ``` **4.5 扩展：与AHP（层次分析法）结合** 对于战略性的复杂决策，可以引入**AHP（层次分析法）** 来构建更科学的指标框架。AHP擅长将模糊的定性问题（如“品牌影响力”和“技术创新力”哪个更重要）通过两两比较转化为定量权重。我们可以这样做： 1. 用AHP确定一级指标（如财务、客户、内部流程、学习成长）之间的权重。 2. 在每个一级指标下，用熵权法根据历史数据确定二级指标（如利润率、营收增长率）的客观权重。 3. 将AHP的主观权重与熵权法的客观权重相乘，得到每个二级指标的综合权重。 4. 将综合权重输入TOPSIS进行最终评价。这种“AHP+熵权法+TOPSIS”的三层模型，兼顾了战略导向与数据事实，是处理大型复杂决策问题的有力武器。实现上，你需要额外引入`ahpy`或`pyanp`等库来计算AHP权重，然后将其作为自定义权重数组传入我们的`topsis_entropy`函数。经过这一整套从原理、Excel演练、Python自动化到高级应用的梳理，你应该已经能够独立运用TOPSIS和熵权法解决实际的商业决策问题了。这套方法的魅力在于其清晰的逻辑和强大的可解释性——每一步计算都可以追溯和验证。下次当你再面对一堆令人头疼的选项时，不妨先把数据整理好，然后运行你的Python脚本，让数据驱动的理性之光，照亮你的决策之路。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 FFT蝶形图实战：从4点到16点，手把手教你画基-2和基-4蝶形图（含Python代码示例）