K-means聚类实战：用Python手把手教你搞定用户分群（附代码）

# 从理论到实战：用Python的K-means算法重塑你的用户分群策略如果你在电商、金融或者任何依赖用户精细化运营的领域工作，那么“用户分群”这个词对你来说一定不陌生。我们每天都在谈论“高价值用户”、“潜力用户”或者“流失风险用户”，但你是否曾想过，这些标签背后，究竟是基于直觉的猜测，还是数据驱动的科学结论？很多时候，我们手头有海量的用户行为数据——购买记录、浏览时长、互动频率——却不知道如何将它们转化为有意义的业务洞察。这正是聚类算法，特别是K-means，能够大显身手的地方。它不像那些需要你事先标注好“这是A类用户，那是B类用户”的分类算法，K-means能从一堆看似杂乱无章的数据中，自动发现内在的规律和分组。想象一下，你不需要告诉算法任何先验知识，它就能帮你把用户分成几个特征鲜明的群体，每个群体都有其独特的行为模式和价值取向。这不仅仅是技术上的便利，更是一种思维方式的转变：从“我认为用户是怎样的”转向“数据告诉我们用户是怎样的”。今天，我们就抛开枯燥的公式推导，直接深入到Python的代码实践中，用一个贴近业务的案例，手把手带你走完K-means用户分群的全流程。你会发现，从数据清洗到模型调优，再到结果的可视化与业务解读，每一个环节都充满了将数据转化为价值的可能性。 ## 1. 理解K-means：不止是“找中心点”那么简单在开始敲代码之前，我们有必要花点时间，真正理解K-means算法到底在做什么。很多人把它简单理解为“不断移动中心点直到稳定”，这没错，但忽略了其背后的优化目标和潜在假设。 K-means的核心目标，是**最小化簇内误差平方和**。用更直白的话说，它希望同一个簇里的所有数据点，都尽可能靠近这个簇的“中心点”（质心），同时让不同簇的中心点彼此远离。算法通过迭代来逼近这个目标： 1. **初始化**：随机选择K个点作为初始质心。 2. **分配**：计算每个数据点到各个质心的距离（通常是欧氏距离），将其分配给距离最近的质心所在的簇。 3. **更新**：重新计算每个簇中所有点的平均值，将该平均值作为新的质心。 4. **迭代**：重复步骤2和3，直到质心的位置不再发生显著变化，或者达到预设的迭代次数。这个过程听起来很直观，但魔鬼藏在细节里。K-means对初始质心的选择非常敏感，糟糕的初始化可能导致算法收敛到局部最优解，而不是全局最优。这也是为什么在实际应用中，我们通常会多次运行算法（`n_init`参数），并选择结果最好的那一次。 > **注意**：K-means假设每个簇是凸形的（大致呈球形），并且大小相近。如果你的数据天然是其他形状（比如环形或流形），K-means可能不是最佳选择，这时DBSCAN或谱聚类等算法可能更合适。另一个关键点是**距离度量**。虽然欧氏距离是最常用的，但它并不是唯一的选择。当你的数据维度很高，或者不同特征的量纲差异巨大时，欧氏距离可能会被某些大数值的特征所主导。因此，数据标准化（如Z-score标准化）几乎是K-means预处理中的**必选项**。 ```python # 一个简单的K-means算法核心逻辑示意（非完整代码） import numpy as np def simple_kmeans(data, k, max_iters=100): # 1. 初始化质心：随机选择k个数据点 centroids = data[np.random.choice(data.shape[0], k, replace=False)] for _ in range(max_iters): # 2. 分配步骤：计算每个点到质心的距离，分配到最近的簇 distances = np.sqrt(((data - centroids[:, np.newaxis])**2).sum(axis=2)) labels = np.argmin(distances, axis=0) # 3. 更新步骤：计算每个簇的新质心（均值） new_centroids = np.array([data[labels == i].mean(axis=0) for i in range(k)]) # 检查收敛：如果质心不再变化，则停止 if np.all(centroids == new_centroids): break centroids = new_centroids return labels, centroids ``` 理解了这个核心流程，我们就能更好地预判和解释模型的行为。比如，为什么某个用户被分到了这个群体而不是那个？很可能是因为他在几个关键特征上的取值，更接近那个群体的中心。 ## 2. 实战准备：构建一个电商用户RFM数据集没有数据，一切算法都是空中楼阁。为了模拟一个真实的业务场景，我们虚构一个电商平台的用户数据集。这里我们采用经典的**RFM模型**作为特征框架： - **R (Recency)**：最近一次消费距离现在的天数。这个值越小，用户越活跃。 - **F (Frequency)**：在一定时间周期内的消费次数。次数越多，用户忠诚度可能越高。 - **M (Monetary)**：在一定时间周期内的消费总金额。直接反映用户的价值。理论上，R、F、M这三个维度就能勾勒出一个用户的大致画像。但为了增加真实性和复杂度，我们还可以加入一些辅助特征： - **Avg_Order_Value**：平均订单价值，反映用户的消费档次。 - **Browsing_Frequency**：每周平均浏览商品页面的次数，反映用户的参与度。 - **Coupon_Usage_Rate**：使用优惠券的订单占比，可能反映用户对价格的敏感度。下面我们用Python的`numpy`和`pandas`来生成并查看这个模拟数据集： ```python import numpy as np import pandas as pd from sklearn.preprocessing import StandardScaler # 设置随机种子以保证结果可复现 np.random.seed(42) # 生成1000个模拟用户 n_users = 1000 # 假设我们想生成4类典型的用户群体 # 1. 高价值活跃用户 (VIP): 低R，高F，高M # 2. 高价值沉睡用户 (Sleeping Giant): 高R，低F，高M # 3. 高频低客单价用户 (Deal Hunter): 低R，高F，低M，高优惠券使用率 # 4. 低频偶然用户 (Casual): 高R，低F，低M # 为每一类用户生成数据 def generate_user_data(user_type, size): if user_type == 'VIP': r = np.random.randint(1, 15, size) # 最近很活跃 f = np.random.randint(20, 50, size) # 购买频繁 m = np.random.randint(5000, 15000, size) # 消费金额高 avg_val = np.random.randint(300, 800, size) browse = np.random.randint(15, 30, size) coupon = np.random.uniform(0.0, 0.2, size) # 不太用优惠券 elif user_type == 'Sleeping_Giant': r = np.random.randint(60, 180, size) f = np.random.randint(1, 5, size) m = np.random.randint(3000, 10000, size) avg_val = np.random.randint(500, 1200, size) browse = np.random.randint(1, 5, size) coupon = np.random.uniform(0.0, 0.3, size) elif user_type == 'Deal_Hunter': r = np.random.randint(1, 30, size) f = np.random.randint(15, 40, size) m = np.random.randint(500, 3000, size) avg_val = np.random.randint(50, 200, size) browse = np.random.randint(20, 40, size) # 经常浏览找优惠 coupon = np.random.uniform(0.5, 0.9, size) # 高频使用优惠券 else: # Casual r = np.random.randint(30, 90, size) f = np.random.randint(1, 10, size) m = np.random.randint(100, 2000, size) avg_val = np.random.randint(80, 250, size) browse = np.random.randint(5, 15, size) coupon = np.random.uniform(0.1, 0.6, size) return np.column_stack([r, f, m, avg_val, browse, coupon]) # 生成四类用户，比例大致为 10%, 15%, 25%, 50% sizes = [100, 150, 250, 500] types = ['VIP', 'Sleeping_Giant', 'Deal_Hunter', 'Casual'] data_list = [] labels_list = [] for typ, sz in zip(types, sizes): data_list.append(generate_user_data(typ, sz)) labels_list.append([typ] * sz) # 记录真实标签，仅用于后续验证，聚类本身不知道 # 合并数据 X = np.vstack(data_list) true_labels = np.hstack(labels_list) # 创建DataFrame df = pd.DataFrame(X, columns=['Recency', 'Frequency', 'Monetary', 'Avg_Order_Value', 'Browsing_Freq', 'Coupon_Usage_Rate']) df['True_Label'] = true_labels # 打乱数据顺序，模拟真实场景 df = df.sample(frac=1, random_state=42).reset_index(drop=True) print("数据集前5行预览：") print(df.head()) print(f"\n数据集形状：{df.shape}") print("\n各类用户真实数量统计：") print(df['True_Label'].value_counts()) ``` 运行这段代码，你会得到一个包含1000行、7列（6个特征+1个真实标签）的`DataFrame`。真实标签`True_Label`是我们为了验证聚类效果而后加的，在实际的聚类任务中，我们**没有**这个信息。现在，我们的任务就是让K-means算法，仅凭那6个特征，重新发现这四类用户。 ## 3. 数据预处理与特征工程：为K-means扫清障碍直接把原始数据扔给K-means通常是个坏主意。我们需要进行一些预处理，让算法能更好地工作。 **首先，检查缺失值和异常值。** ```python print("缺失值统计：") print(df.isnull().sum()) print("\n数据描述性统计：") print(df.describe()) ``` 如果存在缺失值，我们需要决定是删除还是填充。对于异常值，由于K-means使用距离度量，极端值会严重扭曲质心的位置。我们可以使用箱线图或3σ原则来识别和处理它们。这里假设我们的模拟数据是干净的。 **其次，也是至关重要的一步：特征标准化。** `Recency`（天数）、`Monetary`（金额）和`Browsing_Freq`（次数）这些特征的量纲和数值范围差异巨大。如果不处理，`Monetary`的微小波动可能比`Coupon_Usage_Rate`的巨大变化对距离计算的影响还大，这显然不合理。我们使用`StandardScaler`进行Z-score标准化，使每个特征均值为0，标准差为1。 ```python from sklearn.preprocessing import StandardScaler # 分离特征和标签 features = df.drop('True_Label', axis=1) true_labels_series = df['True_Label'] # 初始化标准化器并拟合转换数据 scaler = StandardScaler() X_scaled = scaler.fit_transform(features) # 将标准化后的数据转换回DataFrame（方便查看） df_scaled = pd.DataFrame(X_scaled, columns=features.columns) print("标准化后的数据前5行预览：") print(df_scaled.head()) print(f"\n标准化后各特征均值：\n{df_scaled.mean()}") print(f"\n标准化后各特征标准差：\n{df_scaled.std()}") ``` **第三，考虑特征的相关性。** 如果两个特征高度相关（例如`Frequency`和`Monetary`可能正相关），它们实际上在传递相似的信息，这可能会让距离计算产生偏差，并让模型过度关注这个重复的信息方向。我们可以查看相关系数矩阵： ```python import seaborn as sns import matplotlib.pyplot as plt corr_matrix = df_scaled.corr() plt.figure(figsize=(10, 8)) sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', center=0) plt.title('特征间相关系数热力图') plt.tight_layout() plt.show() ``` 如果发现高度相关的特征，可以考虑使用主成分分析（PCA）进行降维，或者直接剔除其中一个。这一步不是必须的，但能帮助提升模型效率和可解释性。经过这三步，我们的数据已经准备好了。标准化后的数据消除了量纲影响，处理了潜在的异常值，我们也对特征间的关系有了初步了解。现在，我们可以进入核心环节：确定K值。 ## 4. 寻找最佳的K：肘部法则与轮廓系数的博弈 K-means最大的一个“黑盒”就是K值——你到底想把用户分成几群？这个数字不能凭空想象，需要数据来告诉我们。这里介绍两种最常用的方法。 **方法一：肘部法则** 它的思想是观察簇内误差平方和（SSE）随K值增加的变化。随着K增大，每个簇会更紧凑，SSE自然会下降。我们希望找到一个点，增加K所带来的SSE下降幅度突然变缓，这个点就像手肘的拐点，通常被认为是合适的K值。 ```python from sklearn.cluster import KMeans import matplotlib.pyplot as plt sse = [] k_range = range(1, 11) # 测试K从1到10 for k in k_range: kmeans = KMeans(n_clusters=k, random_state=42, n_init=10) kmeans.fit(X_scaled) sse.append(kmeans.inertia_) # inertia_ 属性即SSE plt.figure(figsize=(10, 6)) plt.plot(k_range, sse, 'bo-') plt.xlabel('簇的数量 (K)') plt.ylabel('簇内误差平方和 (SSE)') plt.title('肘部法则：寻找最优K值') plt.xticks(k_range) plt.grid(True, linestyle='--', alpha=0.7) plt.show() ``` **方法二：轮廓系数** 轮廓系数结合了簇内凝聚度和簇间分离度。对于每个样本点i： - **a(i)**：i到同簇其他点平均距离（凝聚度）。 - **b(i)**：i到其他簇所有点平均距离的最小值（分离度）。 - **轮廓系数 s(i) = (b(i) - a(i)) / max(a(i), b(i))** s(i)的值在-1到1之间。越接近1，说明样本i聚类越合理；越接近-1，说明可能被分错了簇；接近0则说明可能在簇边界上。所有样本的轮廓系数的平均值，可以用来评估整体聚类质量。 ```python from sklearn.metrics import silhouette_score silhouette_avg = [] k_range = range(2, 11) # 轮廓系数要求至少2个簇 for k in k_range: kmeans = KMeans(n_clusters=k, random_state=42, n_init=10) cluster_labels = kmeans.fit_predict(X_scaled) silhouette_avg.append(silhouette_score(X_scaled, cluster_labels)) plt.figure(figsize=(10, 6)) plt.plot(k_range, silhouette_avg, 'ro-') plt.xlabel('簇的数量 (K)') plt.ylabel('轮廓系数平均值') plt.title('轮廓系数法：寻找最优K值') plt.xticks(k_range) plt.grid(True, linestyle='--', alpha=0.7) plt.show() ``` 将两个图放在一起对比： | 评估方法 | K=2 | K=3 | **K=4** | K=5 | K=6 | | :--- | :--- | :--- | :--- | :--- | :--- | | **SSE下降拐点** | - | 拐点不明显 | **出现较明显拐点** | 下降平缓 | 下降平缓 | | **轮廓系数** | 0.35 | 0.42 | **0.48** | 0.45 | 0.43 | 从模拟数据的结果来看，K=4时，肘部图的拐点相对明显，且轮廓系数达到峰值。这**恰好**与我们生成数据时预设的4个类别吻合。在实际业务中，你可能会发现肘部拐点不明显（一条平滑曲线），或者轮廓系数在多个K值处都较高。这时就需要结合业务理解来做决策：分3群是否足以区分用户？分5群是否过于琐碎难以运营？**永远记住，没有绝对正确的K，只有最符合业务目标的K。** ## 5. 模型训练、评估与深度可视化确定了K=4，我们就可以正式训练K-means模型了。Scikit-learn使得这一切变得非常简单。 ```python # 使用K-means++初始化，这是一种更智能的初始质心选择方法，能有效避免局部最优。 optimal_k = 4 kmeans = KMeans(n_clusters=optimal_k, init='k-means++', random_state=42, n_init=20) cluster_labels = kmeans.fit_predict(X_scaled) # 将聚类结果添加到原始数据框中 df['Cluster'] = cluster_labels print("聚类结果分布：") print(df['Cluster'].value_counts().sort_index()) ``` 模型训练好了，但我们怎么知道它分得好不好？由于我们没有真实的业务标签（无监督学习），我们依赖**内部评估指标**和**可视化**来评判。 **1. 计算轮廓系数和Calinski-Harabasz指数** ```python from sklearn.metrics import calinski_harabasz_score sil_score = silhouette_score(X_scaled, cluster_labels) ch_score = calinski_harabasz_score(X_scaled, cluster_labels) print(f"轮廓系数 (Silhouette Score): {sil_score:.3f}") print(f"Calinski-Harabasz指数: {ch_score:.3f}") ``` Calinski-Harabasz指数是簇间离散度与簇内离散度的比值，值越大通常表示聚类效果越好。 **2. 可视化：主成分分析降维** 我们的数据有6维，无法直接画出。我们可以使用PCA将其降维到2维或3维进行观察。 ```python from sklearn.decomposition import PCA # 降维到2D用于绘图 pca = PCA(n_components=2) X_pca = pca.fit_transform(X_scaled) plt.figure(figsize=(12, 5)) # 子图1：根据真实标签着色 plt.subplot(1, 2, 1) scatter1 = plt.scatter(X_pca[:, 0], X_pca[:, 1], c=pd.Categorical(true_labels_series).codes, cmap='tab10', alpha=0.6) plt.xlabel('主成分 1') plt.ylabel('主成分 2') plt.title('PCA降维图 (按真实用户类型着色)') plt.colorbar(scatter1, label='真实类型') # 子图2：根据聚类结果着色 plt.subplot(1, 2, 2) scatter2 = plt.scatter(X_pca[:, 0], X_pca[:, 1], c=cluster_labels, cmap='tab10', alpha=0.6) plt.xlabel('主成分 1') plt.ylabel('主成分 2') plt.title('PCA降维图 (按K-means聚类结果着色)') plt.colorbar(scatter2, label='聚类簇') plt.tight_layout() plt.show() ``` 通过对比左右两图，你可以直观地看到K-means发现的簇结构与真实用户类型的匹配程度。理想情况下，相同颜色的点应该聚集在一起。 **3. 更高级的可视化：平行坐标图** 平行坐标图非常适合展示高维数据中不同簇的特征分布差异。 ```python from pandas.plotting import parallel_coordinates # 为了画图，我们需要把标准化后的特征和聚类标签合并 df_viz = pd.DataFrame(X_scaled, columns=features.columns) df_viz['Cluster'] = cluster_labels plt.figure(figsize=(14, 8)) parallel_coordinates(df_viz, 'Cluster', colormap='tab10', alpha=0.5) plt.title('平行坐标图：各簇在6个特征上的分布') plt.grid(True, linestyle='--', alpha=0.3) plt.xticks(rotation=45) plt.tight_layout() plt.show() ``` 在这张图上，每个簇的所有样本会形成一条颜色相同的“带子”。通过观察这些“带子”在不同特征轴上的位置，你可以清晰地解读出每个用户群体的特征画像。例如，可能有一个簇在`Recency`轴上位置很低（最近活跃），在`Monetary`轴上位置很高（消费高），那这就是典型的“高价值活跃用户”。 ## 6. 业务解读与策略生成：从数据标签到行动指南聚类模型的价值，最终要落在业务行动上。训练出一个轮廓系数很高的模型只是第一步，更重要的是解读每个簇的含义，并据此制定策略。首先，我们计算每个簇在各个原始特征上的**中心点（均值）**，这代表了该簇的“典型用户”画像。 ```python # 计算每个聚类在原始特征上的均值 cluster_profile = df.groupby('Cluster')[features.columns].mean().round(2) print("各簇特征中心点（原始尺度）：") print(cluster_profile) # 为了更好地对比，可以计算相对于总体均值的差异 overall_mean = features.mean() cluster_profile_diff = (cluster_profile - overall_mean).round(2) print("\n各簇特征中心点与总体均值的差异：") print(cluster_profile_diff) ``` 假设我们得到如下表格（数值为模拟）： | 簇标签 | 用户数量 | Recency (天) | Frequency (次) | Monetary (元) | Avg_Order_Value (元) | Browsing_Freq (次/周) | Coupon_Usage_Rate | | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | | **簇 0** | 95 | **8.2** | **42.5** | **11200** | 650 | 22.1 | 0.12 | | **簇 1** | 160 | **125.5** | 3.2 | **6800** | 850 | 3.5 | 0.18 | | **簇 2** | 245 | 15.8 | **28.7** | 1800 | 125 | **32.5** | **0.75** | | **簇 3** | 500 | 55.3 | 5.5 | 950 | 165 | 9.8 | 0.35 | | **总体均值** | - | 45.1 | 15.2 | 3800 | 350 | 14.2 | 0.40 | 现在，我们可以结合业务知识，为每个簇命名并制定策略： - **簇 0 (VIP/高价值活跃用户)**: Recency极低，Frequency和Monetary极高。他们是平台的基石。 - **策略**: 提供专属客服、提前访问新品、高价值会员积分。目标是**提升忠诚度**，防止流失。 - **簇 1 (沉睡鲸鱼/高价值沉睡用户)**: Monetary很高，但Recency非常高（很久没来），Frequency低。他们消费能力强但已沉寂。 - **策略**: 启动**精准唤醒**活动，如发送大额专属召回券、推送他们过去喜爱的品类新品。避免过度打扰。 - **簇 2 (羊毛党/高频低客单价用户)**: Frequency和Browsing_Freq很高，Coupon_Usage_Rate极高，但Monetary和Avg_Order_Value很低。他们对价格极度敏感。 - **策略**: 通过**促销和秒杀**活动保持其活跃度，将其作为清库存或拉新活动的抓手。注意控制营销成本。 - **簇 3 (偶然型/低频普通用户)**: 各项指标接近或低于平均水平，是最大的群体。 - **策略**: 进行**个性化推荐**和**交叉销售**，尝试挖掘其潜在兴趣，将其向更高价值的簇转化。推送高性价比的爆款。最后，不要忘记将聚类结果**保存并落地**。你可以将`df['Cluster']`这一列写回数据库，为用户打上“VIP”、“沉睡鲸鱼”等标签。这些标签可以无缝对接现有的CRM系统、推荐系统或广告投放平台，实现真正的数据驱动运营。整个流程走下来，你会发现K-means不仅仅是一个算法，它是一套从数据理解、预处理、模型选择、调优到业务解读的完整方法论。它迫使你更深入地审视你的数据，用更量化的方式去理解你的用户。下次当你再听到“用户分群”时，希望你的第一反应不再是模糊的直觉，而是清晰的代码逻辑和可执行的业务策略。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 NVMe SSD大容量硬盘Trim操作全攻略：如何用Python脚本突破2TB限制

目录

K-means聚类实战：用Python手把手教你搞定用户分群（附代码）

Python内容推荐

Python用K-means聚类算法进行客户分群的实现

实验3-K-means聚类实验_python_

K-means聚类分析与python实现

深大计软_最优化方法_实验1：K-Means聚类之Python实现手写数字图像MNIST分类

基于Python的机器学习K-means聚类分析NBA球员案例

python内置K-means聚类算法对鸢尾花数据的聚类情况

Python源码-数据分析-客户细分 —— k-means 聚类分析.zip

算法改进基于python实现K-Means聚类算法及其改进(K-mean++)源码+详细代码注释.zip

详解Java实现的k-means聚类算法

蒙特卡洛模拟结合K-means聚类算法：风电光伏与负荷场景生成削减指南至5个场景及其概率和不确定性出力,蒙特卡洛法场景生成+K-means聚类并削减 风电、光伏、负荷 Matlab 通过概率模型并根据

基于K-means聚类算法的图像分割及其MATLAB实现

基于肘部法的K-means聚类算法：归一化数据处理与自定义聚类个数求解实践（MATLAB代码示例）,K均值聚类：通过肘部法确定聚类数，归一化数据处理，清晰MATLAB代码实现及数据解读,kmeans聚

实验 Spark ML Bisecting k-means聚类算法使用

k-means聚类分析

基于手肘法的K-means聚类数精确识别及其在风电与光伏数据中的应用（Matlab实现）,基于手肘法K-means聚类分析：精确识别风电与光伏发电功率的聚类数 - MATLAB程序实现及应用实例研究

k-means聚类 动画演示

基于Excel的二维数组k-means聚类

基于k-means聚类方法和DTW算法结合起来分析时间序列类型的用户用电数据源码+项目说明.zip

基于肘部法的K-means聚类算法：MATLAB实现数据归一化与自定义聚类个数求解

K-means聚类算法.pptx

虚化高斯模糊-下载即用.zip

移除 Windows PE

YOLO算法道路场景扫描车与汽车目标检测数据集-6655张-标注类别为汽车-扫描车.zip

12306火车站三字码表

UPS维护记录-下载即用.zip

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构

蒙特卡洛模拟结合K-means聚类算法：风电光伏与负荷场景生成削减指南至5个场景及其概率和不确定性出力,蒙特卡洛法场景生成+K-means聚类并削减风电、光伏、负荷 Matlab 通过概率模型并根据

k-means聚类动画演示