# TOPSIS+熵权法:用Excel和Python构建科学决策分析引擎
在商业决策的日常中,我们常常面临这样的困境:面对一堆供应商、一批待选商品或数个营销方案,每个选项都有一系列复杂的评价指标。传统的做法往往是拍脑袋打分,或者简单加权平均,但权重怎么定?凭感觉?凭经验?这种主观性太强的方法,往往导致决策结果经不起推敲,甚至引发团队争议。有没有一种方法,能让数据自己“说话”,告诉我们哪个指标更重要,并据此做出更客观、更科学的排序选择?这正是TOPSIS(优劣解距离法)与熵权法这对“黄金搭档”所要解决的问题。它们不是高深莫测的学术玩具,而是能直接落地到Excel表格和Python脚本中的实用决策工具。本文将带你绕过复杂的数学公式,直击核心原理,并通过电商选品、供应商评估等真实场景,手把手演示如何从数据清洗到自动化计算,构建一套属于你自己的、客观公正的决策分析系统。
## 1. 决策分析的核心痛点与组合方案原理
在深入技术细节之前,我们得先搞清楚传统方法到底“痛”在哪里。假设你要评估三家潜在的供应商,指标包括价格、交货准时率、质量合格率和售后服务评分。一个常见的做法是给每个指标赋予一个权重,比如价格占40%,质量占30%等等。但问题来了:这个40%和30%的依据是什么?是去年这么定的,还是老板今天心情决定的?这种**主观赋权**缺乏数据支撑,容易受到个人偏好和认知局限的影响。
而**熵权法**的出现,就是为了解决“权重从哪来”这个问题。它的思想非常直观:如果一个指标在所有待评价对象中数值都差不多(变异程度小),比如三家供应商的价格几乎一样,那么这个指标在区分谁好谁坏时,提供的信息量就很少,理应赋予较低的权重。反之,如果某个指标在不同对象间差异巨大(变异程度大),比如交货准时率从70%到99%不等,那么这个指标就包含了丰富的区分信息,应该获得更高的权重。熵权法通过计算指标的信息熵来量化这种“信息量”,从而完全由数据本身客观地推导出权重,彻底摒弃了主观臆断。
> 注意:熵权法计算的是指标的“区分度”权重,而非“重要性”权重。一个指标本身可能很重要(如合规性),但如果所有候选者在此指标上都表现完美且一致,那么在该次评价中,它的权重就会很低。这需要结合业务理解进行解读。
有了客观的权重,接下来就需要一个强大的“排序引擎”。这就是**TOPSIS**(Technique for Order Preference by Similarity to Ideal Solution),即优劣解距离法。它的逻辑同样符合人类直觉:我们评价一个方案的好坏,通常会看它离“理想中最好的方案”有多近,同时离“想象中最差的方案”有多远。TOPSIS正是模拟了这一思维过程:
1. **构造理想解与负理想解**:找出每个指标在所有候选方案中的最优值(正理想解)和最差值(负理想解)。
2. **计算距离**:分别计算每个候选方案与正理想解、负理想解的距离。
3. **计算贴近度**:方案与正理想解越近、同时与负理想解越远,则越好。贴近度计算公式为:`与负理想解的距离 / (与正理想解的距离 + 与负理想解的距离)`。
这个值介于0到1之间,值越大,说明该方案综合表现越优。TOPSIS的优势在于它同时考虑了方案与“最好”和“最坏”的距离,评价结果更为全面和稳健。
将两者结合,就形成了一套完整的决策流程:**熵权法负责从数据中客观提炼出各指标的权重,TOPSIS则利用这些权重对方案进行科学排序**。这套组合拳尤其适用于指标多、数据量大的复杂决策场景,如:
* **电商选品**:从海量商品中筛选出爆款潜力股。
* **供应商评估**:对多家供应商进行综合绩效考评。
* **投资项目比选**:评估多个投资项目的风险与收益。
* **员工绩效评价**:多维度量化评估员工表现。
## 2. 实战准备:数据预处理与Excel手动演练
在让Python自动化之前,我们最好先在Excel中手动走一遍核心流程,这能帮助我们深刻理解每一个计算步骤。我们以一个简化的**电商选品**案例为例,假设我们有5款待选商品(A-E),需要从4个指标来评估:`客单价(元)`、`转化率(%)`、`用户好评率(%)`、`售后投诉率(%)`。原始数据如下表所示:
| 商品 | 客单价(元) | 转化率(%) | 用户好评率(%) | 售后投诉率(%) |
| :--- | :---: | :---: | :---: | :---: |
| 商品A | 299 | 2.5 | 92 | 1.2 |
| 商品B | 159 | 4.8 | 88 | 2.5 |
| 商品C | 599 | 1.2 | 95 | 0.8 |
| 商品D | 399 | 3.1 | 90 | 1.8 |
| 商品E | 199 | 5.5 | 85 | 3.0 |
**第一步:指标正向化**
不同的指标对“好”的定义不同。对于电商选品,我们希望`客单价`、`转化率`、`好评率`越高越好(**极大型指标**),而`投诉率`则是越低越好(**极小型指标**)。因此,我们需要将`投诉率`进行正向化,将其转换为“越低越好”为“越高越好”。常用的方法是倒数法或差值法。这里使用差值法:`新投诉率 = Max(投诉率) - 原投诉率`。计算后,投诉率数据变为:商品A: 1.8, 商品B: 0.5, 商品C: 2.2, 商品D: 1.2, 商品E: 0。
**第二步:数据标准化**
为了消除不同指标量纲(元 vs 百分比)和数量级(299 vs 2.5)的影响,我们需要对数据进行标准化,使所有数据处于同一尺度。最常用的是**向量归一化**(Z-score标准化也可行)。公式为:
`标准化值 Zij = Xij / sqrt( sum(Xi1^2 + Xi2^2 + ... + Xin^2) )`, 其中i代表商品,j代表指标。
以商品A的客单价为例,计算过程如下:
1. 计算客单价这一列的平方和:`299^2 + 159^2 + 599^2 + 399^2 + 199^2 = 672,069`
2. 取平方根:`sqrt(672069) ≈ 819.8`
3. 标准化:`299 / 819.8 ≈ 0.3647`
在Excel中,你可以使用`SUMSQ`和`SQRT`函数组合来高效完成整列的标准化。完成所有数据的标准化后,我们得到一个所有值都在0-1之间的标准化矩阵。
**第三步:Excel中实现熵权法计算(核心)**
这是客观定权的关键。我们基于标准化后的矩阵进行计算。
1. **计算比重Pij**:将每个标准化值除以该指标所在列的总和。`Pij = Zij / sum(Zj)`。这相当于将每个指标下的数据视为一个概率分布。
2. **计算信息熵Ej**:对于第j个指标,其信息熵计算公式为 `Ej = -k * sum(Pij * ln(Pij))`,其中 `k = 1/ln(n)`,n为评价对象个数(此处为5)。`ln`是自然对数。*这里有个细节:当Pij为0时,`Pij*ln(Pij)`定义为0。*
在Excel中,可以使用`LN`函数计算自然对数。计算后,我们得到每个指标的信息熵E。
3. **计算信息效用值与权重Wj**:
* 信息效用值 `Dj = 1 - Ej`。熵值Ej越大,说明该指标数据越混乱,提供的信息越少,效用值Dj就越小。
* 权重 `Wj = Dj / sum(Dj)`。将各指标的信息效用值归一化,即得到最终的客观权重。
通过计算,你可能会发现,`转化率`和`投诉率(正向化后)`的权重较高,因为在这5款商品中,这两个指标的差异最明显;而`好评率`的权重可能较低,因为大家分数都接近。
**第四步:Excel中实现TOPSIS排序**
有了标准化矩阵Z和权重向量W,我们就可以进行TOPSIS计算了。
1. **构造加权标准化矩阵V**:`Vij = Wj * Zij`。即每一列的数据都乘上该指标对应的权重。
2. **确定正负理想解**:
* 正理想解 V+:取每个指标在V矩阵中的最大值。
* 负理想解 V-:取每个指标在V矩阵中的最小值。
3. **计算距离**:
* 每个商品与正理想解的距离 `D+i = sqrt( sum( (Vij - V+j)^2 ) )`
* 每个商品与负理想解的距离 `D-i = sqrt( sum( (Vij - V-j)^2 ) )`
Excel中可以使用`SUMSQ`和`SQRT`函数计算欧氏距离。
4. **计算贴近度Ci**:`Ci = D-i / (D+i + D-i)`。
5. **排序**:根据Ci值从大到小排序,Ci值最大的商品即为综合最优选品。
通过这一套Excel手动计算,你不仅能得到排序结果,更能透彻理解每个中间步骤的含义,这是直接调用代码无法替代的。
## 3. Python自动化实现:从脚本到可复用工具
当评价对象和指标增多时,Excel手动操作将变得繁琐且容易出错。此时,用Python实现自动化流程就成为必然选择。下面我们将构建一个模块化的Python解决方案。首先,确保你的环境已安装`pandas`和`numpy`库。
```bash
pip install pandas numpy
```
我们将整个流程封装成函数,提高代码的复用性和可读性。
**3.1 数据读取与正向化模块**
首先,定义一个数据正向化的函数,处理极小型、中间型和区间型指标。
```python
import pandas as pd
import numpy as np
def data_normalization(data, indicator_types):
"""
数据正向化处理
:param data: pandas DataFrame, 原始数据矩阵,每列为一个指标
:param indicator_types: list, 每个指标的类型,1:极小型,2:中间型,3:区间型
:return: 正向化后的DataFrame
"""
normalized_data = data.copy()
n, m = data.shape
for j in range(m):
col_data = data.iloc[:, j].values
itype = indicator_types[j]
if itype == 1: # 极小型 -> 极大型
normalized_data.iloc[:, j] = np.max(col_data) - col_data
elif itype == 2: # 中间型
best = float(input(f"请输入第{j+1}列指标的最优值: "))
M = np.max(np.abs(col_data - best))
normalized_data.iloc[:, j] = 1 - np.abs(col_data - best) / M
elif itype == 3: # 区间型
a, b = map(float, input(f"请输入第{j+1}列指标的最佳区间[a,b],用逗号分隔: ").split(','))
M = max(a - np.min(col_data), np.max(col_data) - b)
normalized_col = np.ones_like(col_data)
normalized_col[col_data < a] = 1 - (a - col_data[col_data < a]) / M
normalized_col[col_data > b] = 1 - (col_data[col_data > b] - b) / M
normalized_data.iloc[:, j] = normalized_col
else: # 极大型,保持不变
pass
return normalized_data
```
**3.2 熵权法计算权重**
接下来,实现熵权法的核心函数。
```python
def entropy_weight(normalized_data):
"""
熵权法计算指标权重
:param normalized_data: pandas DataFrame, 正向化后的数据(需无非负值)
:return: weights, 各指标权重数组
"""
# 确保数据无负值(如需,可先进行最小-最大标准化到[0,1])
if (normalized_data.values < 0).any():
print("数据包含负数,将进行最小-最大标准化到非负区间。")
for col in normalized_data.columns:
col_min = normalized_data[col].min()
col_max = normalized_data[col].max()
normalized_data[col] = (normalized_data[col] - col_min) / (col_max - col_min)
# 计算概率矩阵P
P = normalized_data / normalized_data.sum(axis=0)
# 处理概率为0的情况,避免log(0)
P = P.replace(0, 1e-10)
# 计算信息熵E
n = normalized_data.shape[0] # 样本数
E = (-1 / np.log(n)) * (P * np.log(P)).sum(axis=0)
# 计算信息效用值D和权重W
D = 1 - E
W = D / D.sum()
return W.values
```
**3.3 TOPSIS综合评价函数**
最后,整合正向化、熵权法和TOPSIS的主函数。
```python
def topsis_entropy(data, indicator_types, weight_method='entropy'):
"""
TOPSIS-熵权法综合评价主函数
:param data: DataFrame,原始数据,行是评价对象,列是指标
:param indicator_types: list,指标类型列表
:param weight_method: str,权重确定方法,'entropy'为熵权法,'equal'为等权重,或传入自定义权重数组
:return: result_df,包含评分和排名的DataFrame
"""
# 1. 数据正向化
norm_data = data_normalization(data, indicator_types)
print("正向化后数据:\n", norm_data)
# 2. 标准化(向量归一化)
Z = norm_data / np.sqrt((norm_data ** 2).sum(axis=0))
print("标准化矩阵Z:\n", Z)
# 3. 确定权重
if weight_method == 'entropy':
weights = entropy_weight(Z) # 基于标准化矩阵Z计算熵权
elif weight_method == 'equal':
m = Z.shape[1]
weights = np.ones(m) / m
elif isinstance(weight_method, (list, np.ndarray)):
weights = np.array(weight_method)
else:
raise ValueError("不支持的权重方法")
print("指标权重:", weights)
# 4. 构造加权标准化矩阵
V = Z * weights
# 5. 确定正负理想解
V_positive = V.max(axis=0).values # 正理想解
V_negative = V.min(axis=0).values # 负理想解
# 6. 计算距离
D_positive = np.sqrt(((V - V_positive) ** 2).sum(axis=1)) # 与正理想解距离
D_negative = np.sqrt(((V - V_negative) ** 2).sum(axis=1)) # 与负理想解距离
# 7. 计算贴近度(综合得分)
C = D_negative / (D_positive + D_negative)
# 8. 整理结果
result_df = data.copy()
result_df['D+'] = D_positive
result_df['D-'] = D_negative
result_df['综合得分'] = C
result_df['排名'] = result_df['综合得分'].rank(ascending=False, method='min').astype(int)
return result_df.sort_values(by='排名')
```
**3.4 完整案例调用**
现在,我们用这个工具来处理之前的电商选品数据。
```python
# 准备数据
data = pd.DataFrame({
'商品': ['商品A', '商品B', '商品C', '商品D', '商品E'],
'客单价': [299, 159, 599, 399, 199],
'转化率': [2.5, 4.8, 1.2, 3.1, 5.5],
'好评率': [92, 88, 95, 90, 85],
'投诉率': [1.2, 2.5, 0.8, 1.8, 3.0] # 极小型指标
})
# 设置指标类型:客单价(1-极大型),转化率(1),好评率(1),投诉率(0-极小型)
indicator_types = [1, 1, 1, 0]
# 注意:我们的函数需要纯数值DataFrame,且指标类型列表对应数值列
data_values = data[['客单价', '转化率', '好评率', '投诉率']].copy()
indicator_types = [1, 1, 1, 0] # 1代表极大型,0代表极小型(函数中0对应else,即不变,但投诉率我们已在函数内按极小型处理)
# 调用函数,使用熵权法
result = topsis_entropy(data_values, indicator_types, weight_method='entropy')
print("\n========== 综合评价结果 ==========")
print(result[['D+', 'D-', '综合得分', '排名']])
# 将商品名称合并回结果
result_with_name = pd.concat([data[['商品']], result], axis=1)
print("\n最终排序结果:")
print(result_with_name[['商品', '综合得分', '排名']].sort_values('排名'))
```
运行这段代码,你将得到一份包含每个商品与理想解距离、综合得分及最终排名的完整报告。整个过程无需人工干预,修改数据源或指标类型后,重新运行即可得到新结果。
## 4. 高级应用与常见问题排坑
掌握了基础流程后,我们可以探讨一些更深入的应用场景和实践中容易踩的“坑”。
**4.1 指标类型与正向化的深入理解**
正向化不是简单的“取反”。除了极大型和极小型,还有两种常见类型:
* **中间型**:指标值越接近某个最优值越好。例如,PH值(最优点为7)、员工年龄(可能存在一个最佳年龄区间)。处理方法是计算每个数值与最优值的绝对距离,并将其转换为“越小越好”的格式。
* **区间型**:指标值落在某个特定区间`[a, b]`内最好。例如,人体体温在36.5°C到37.2°C为佳,过低或过高都不好。处理时,需要计算落在区间外的点与区间端点的距离。
在Python实现中,我们已经在`data_normalization`函数里包含了这两种情况的处理逻辑。关键在于业务方必须明确每个指标属于哪种类型,并确定相应的最优值或最优区间。
**4.2 权重结果的解读与调整**
熵权法给出的权重是纯粹的“数据驱动”,它反映的是**本次数据集中**各指标的区分能力。这可能导致一个业务上非常重要的指标,因为本次所有候选对象在该指标上表现趋同,而被赋予很低的权重。例如,在供应商评估中,“合规性”是底线指标,必须达标。如果所有供应商都合规(数据均为100分),熵权法会给它近乎0的权重。
> 提示:纯粹的客观赋权有时会与业务常识冲突。一种混合策略是,先使用熵权法得到客观权重,再由业务专家根据战略重要性给出主观权重,最后通过加权(如各占50%)的方式确定综合权重。这既尊重了数据事实,也融入了人的智慧。
**4.3 数据标准化方法的选择**
我们之前使用的是**向量归一化**,其公式为 `Zij = Xij / sqrt(sum(Xi^2))`。这种方法能保证每个指标下标准化后的平方和为1。另一种常见方法是**Min-Max标准化**(归一化到[0,1]区间):`Zij = (Xij - min(Xj)) / (max(Xj) - min(Xj))`。两种方法对TOPSIS结果的影响有时会不同。
| 标准化方法 | 公式 | 优点 | 缺点 | 适用场景 |
| :--- | :--- | :--- | :--- | :--- |
| **向量归一化** | `Zij = Xij / sqrt(∑Xij²)` | 严格保持各方案间相对关系,对极端值不敏感 | 结果受指标数据分布影响 | 指标值均为正,且分布相对均匀时 |
| **Min-Max标准化** | `Zij = (Xij - min) / (max - min)` | 结果严格落在[0,1],直观易懂 | 对极端值(极大、极小)非常敏感 | 需要明确上下限,或数据范围稳定的场景 |
| **Z-score标准化** | `Zij = (Xij - μ) / σ` | 将数据转换为均值为0,标准差为1的分布 | 可能产生负值,需后续处理 | 数据近似正态分布时 |
在实际项目中,建议对同一份数据尝试不同的标准化方法,观察排名结果是否稳定。如果结果差异很大,则需要深入分析数据分布和业务逻辑,选择最合理的一种。
**4.4 Python实现中的数值稳定性**
在计算信息熵时,会遇到`p * log(p)`在`p=0`时无定义的情况。我们的代码中使用了`P.replace(0, 1e-10)`来避免。这是一个常用技巧,用一个极小的正数代替0。另外,在计算距离时,如果某个方案与正负理想解的距离同时为0(理论上罕见),会导致贴近度`Ci`的分母为0。可以在分母上加一个极小的数`eps`(如`1e-10`)来防止除零错误。
```python
# 在计算贴近度时增加稳定性处理
eps = 1e-10
C = D_negative / (D_positive + D_negative + eps)
```
**4.5 扩展:与AHP(层次分析法)结合**
对于战略性的复杂决策,可以引入**AHP(层次分析法)** 来构建更科学的指标框架。AHP擅长将模糊的定性问题(如“品牌影响力”和“技术创新力”哪个更重要)通过两两比较转化为定量权重。我们可以这样做:
1. 用AHP确定一级指标(如财务、客户、内部流程、学习成长)之间的权重。
2. 在每个一级指标下,用熵权法根据历史数据确定二级指标(如利润率、营收增长率)的客观权重。
3. 将AHP的主观权重与熵权法的客观权重相乘,得到每个二级指标的综合权重。
4. 将综合权重输入TOPSIS进行最终评价。
这种“AHP+熵权法+TOPSIS”的三层模型,兼顾了战略导向与数据事实,是处理大型复杂决策问题的有力武器。实现上,你需要额外引入`ahpy`或`pyanp`等库来计算AHP权重,然后将其作为自定义权重数组传入我们的`topsis_entropy`函数。
经过这一整套从原理、Excel演练、Python自动化到高级应用的梳理,你应该已经能够独立运用TOPSIS和熵权法解决实际的商业决策问题了。这套方法的魅力在于其清晰的逻辑和强大的可解释性——每一步计算都可以追溯和验证。下次当你再面对一堆令人头疼的选项时,不妨先把数据整理好,然后运行你的Python脚本,让数据驱动的理性之光,照亮你的决策之路。