K-means聚类实战：从零开始用Python实现电商用户分群（附完整代码）

# 电商用户精细化运营的引擎：用Python+K-means构建你的首个客户分群模型在电商领域，我们每天面对的是海量的用户行为数据——浏览、点击、加购、下单、复购。这些数据如果只是躺在数据库里，就只是一串冰冷的数字。但如果你能从中识别出不同的用户群体，理解他们的独特偏好和行为模式，那么这些数据就变成了驱动业务增长的“石油”。想象一下，你可以精准地向“高价值潜力用户”推送新品，对“价格敏感型用户”发放定向优惠券，或者为“流失风险用户”设计挽回策略。这种精细化运营的能力，正是现代电商竞争的核心。今天，我们不谈复杂的理论，而是直接动手，从一份模拟的电商用户数据集开始，一步步用Python实现一个完整的K-means用户分群项目。无论你是刚开始接触数据分析的运营同学，还是希望将算法落地的数据产品经理，这篇文章都将为你提供一个清晰、可复现的实战指南。我们会涵盖从数据清洗、特征工程、模型训练到结果解读与业务应用的全流程，并附上每一环节的完整代码。让我们开始吧。 ## 1. 理解战场：电商用户分群到底在解决什么问题？在深入代码之前，我们必须先明确目标。用户分群（Customer Segmentation）不是为分而分，其最终目的是实现**差异化策略**，提升整体运营效率与用户生命周期价值（LTV）。 **一个常见的误区**是认为分群越多、越细越好。实际上，过于细碎的群组会让运营动作变得极其复杂，难以执行。理想的分群应该具备以下几个特征： * **群内同质性高**：同一群组内的用户，在关键行为特征上足够相似。 * **群间异质性大**：不同群组之间的用户，特征差异明显，足以支撑不同的运营策略。 * **可识别与可触达**：我们能通过明确的规则或标签来识别这群用户，并且有渠道（如Push、短信、站内信）能够触达他们。 * **可操作性强**：分群结果能直接转化为具体的运营动作，例如“针对A群用户，在下周进行满减券推送”。在电商场景下，我们通常基于用户的**交易行为**和**互动行为**来构建特征。交易行为包括最近一次购买时间（Recency）、购买频率（Frequency）、消费金额（Monetary），也就是经典的RFM模型维度。互动行为则可能包括近期的登录天数、浏览商品品类数、加购次数、参与活动次数等。 > 提示：在项目启动前，务必与业务方（如市场、运营团队）充分沟通，明确他们希望通过分群解决的具体业务问题。是提升复购率？还是清理库存？不同的目标会影响特征的选择和后续的策略设计。 ## 2. 实战准备：环境搭建与数据构造我们使用Python作为主要工具，因其丰富的数据科学生态系统。确保你的环境中已安装以下核心库： ```bash pip install pandas numpy scikit-learn matplotlib seabond ``` 接下来，我们模拟一份电商用户数据集。在实际工作中，这部分数据通常来自数据仓库（如Hive、MaxCompute）或业务数据库。为了演示，我们创建一个包含1000个虚拟用户的DataFrame。 ```python import pandas as pd import numpy as np from datetime import datetime, timedelta # 设置随机种子以保证结果可复现 np.random.seed(42) # 生成1000个用户ID user_ids = [f'user_{i:04d}' for i in range(1000)] # 模拟“最近一次购买时间”（Recency）：假设数据截止日期为今天，用户最近一次购买在1-365天前 recency_days = np.random.randint(1, 366, size=1000) # 模拟“购买频率”（Frequency）：过去一年的订单数，大部分用户订单较少，符合长尾分布 frequency = np.random.poisson(lam=3, size=1000) # 泊松分布，均值为3 frequency = np.where(frequency == 0, 1, frequency) # 确保最小值至少为1（有过购买） # 模拟“消费金额”（Monetary）：客单价，假设服从对数正态分布 monetary = np.random.lognormal(mean=5.5, sigma=0.8, size=1000).round(2) # 模拟“近30天登录天数” login_days_30 = np.random.binomial(n=30, p=0.2, size=1000) # 二项分布，平均每月登录6天 # 模拟“近30天加购商品数” cart_items_30 = np.random.poisson(lam=5, size=1000) # 模拟“浏览商品品类数” view_categories = np.random.randint(1, 15, size=1000) # 构建DataFrame df_users = pd.DataFrame({ 'user_id': user_ids, 'recency_days': recency_days, 'frequency': frequency, 'monetary': monetary, 'login_days_30': login_days_30, 'cart_items_30': cart_items_30, 'view_categories': view_categories }) print("数据预览（前5行）：") print(df_users.head()) print(f"\n数据集形状：{df_users.shape}") print(df_users.describe().round(2)) ``` 运行上述代码，你会得到一个包含7个维度的用户数据表。`describe()`函数可以帮你快速了解每个特征的分布情况，比如均值、标准差、最小最大值，这对于后续的数据标准化至关重要。 ## 3. 数据预处理：为模型输入“烹饪”数据原始数据就像未经处理的食材，直接丢给K-means算法很可能得到糟糕的结果。预处理的核心是**解决量纲不一致**和**处理异常值**。 **3.1 特征选择与业务理解** 并非所有拿到的特征都适合放入聚类模型。我们需要基于业务逻辑进行筛选。例如，`user_id`是标识符，不应作为特征。我们选择`recency_days`, `frequency`, `monetary`, `login_days_30`, `cart_items_30`, `view_categories`这6个特征。 **3.2 处理异常值** K-means使用距离度量，对异常值非常敏感。一个消费金额极高的“鲸鱼用户”可能会单独成为一个簇的中心，或者严重扭曲其他簇的形态。常用的处理方法有： - **缩尾处理（Winsorization）**：将超出特定分位数（如1%和99%）的值替换为分位数值。 - **直接剔除**：在业务允许的情况下，将极端异常的用户单独分析。 ```python def handle_outliers(df, column, lower_quantile=0.01, upper_quantile=0.99): """对指定列进行缩尾处理""" lower_bound = df[column].quantile(lower_quantile) upper_bound = df[column].quantile(upper_quantile) df[column] = df[column].clip(lower=lower_bound, upper=upper_bound) return df # 对金额和频率等可能包含异常值的字段进行处理 for col in ['monetary', 'frequency', 'cart_items_30']: df_users = handle_outliers(df_users, col) print("异常值处理后的数据描述：") print(df_users[['monetary', 'frequency']].describe().round(2)) ``` **3.3 数据标准化** 这是最关键的一步。`recency_days`（范围1-365）和`monetary`（可能几百到几千）的量级相差巨大。如果不处理，模型会完全被数值大的特征主导。我们使用**Z-score标准化**，将每个特征转化为均值为0、标准差为1的分布。 ```python from sklearn.preprocessing import StandardScaler # 选择需要标准化的特征列 features_for_clustering = ['recency_days', 'frequency', 'monetary', 'login_days_30', 'cart_items_30', 'view_categories'] # 初始化标准化器 scaler = StandardScaler() # 拟合并转换数据 df_users_scaled = df_users.copy() df_users_scaled[features_for_clustering] = scaler.fit_transform(df_users[features_for_clustering]) print("标准化后的数据预览（前5行）：") print(df_users_scaled[features_for_clustering].head()) ``` 标准化后，所有特征都处于同一尺度，模型能公平地考量每一个维度对距离计算的贡献。 ## 4. 模型训练：寻找最佳的K值与模型评估 K-means算法需要我们预先指定簇的数量K。如何确定K？我们不能凭空猜测，需要用数据说话。 **4.1 肘部法则（Elbow Method）** 其思想是：随着K值增大，样本被划分得越来越细，每个簇的聚合程度（内聚度）会提高，所有样本点到其所属簇中心的距离平方和（称为**失真度**或**惯性**）会减小。这个下降过程会在某个K点开始变得平缓，形如手肘，该点对应的K值通常是一个较好的选择。 ```python from sklearn.cluster import KMeans import matplotlib.pyplot as plt # 尝试不同的K值 inertias = [] K_range = range(1, 11) for k in K_range: kmeans = KMeans(n_clusters=k, random_state=42, n_init='auto') kmeans.fit(df_users_scaled[features_for_clustering]) inertias.append(kmeans.inertia_) # inertia_属性即样本到最近聚类中心的距离平方和 # 绘制肘部法则图 plt.figure(figsize=(10, 6)) plt.plot(K_range, inertias, 'bo-') plt.xlabel('Number of clusters (K)') plt.ylabel('Inertia (Distortion)') plt.title('Elbow Method For Optimal K') plt.xticks(K_range) plt.grid(True) plt.show() ``` 观察生成的折线图，寻找那个“拐点”。例如，可能在K=3或K=4处，曲线从陡峭下降变为平缓。这提示我们3或4个用户群可能是一个合理的起点。 **4.2 轮廓系数（Silhouette Score）** 肘部法则有时比较主观。轮廓系数提供了另一个量化视角。它结合了**簇内凝聚度**和**簇间分离度**，取值范围在[-1, 1]之间。值越接近1，说明聚类效果越好。 ```python from sklearn.metrics import silhouette_score silhouette_scores = [] for k in K_range[1:]: # 轮廓系数要求至少2个簇 kmeans = KMeans(n_clusters=k, random_state=42, n_init='auto') cluster_labels = kmeans.fit_predict(df_users_scaled[features_for_clustering]) silhouette_avg = silhouette_score(df_users_scaled[features_for_clustering], cluster_labels) silhouette_scores.append(silhouette_avg) print(f"For K = {k}, the average silhouette_score is : {silhouette_avg:.4f}") # 绘制轮廓系数图 plt.figure(figsize=(10, 6)) plt.plot(list(K_range)[1:], silhouette_scores, 'ro-') plt.xlabel('Number of clusters (K)') plt.ylabel('Silhouette Score') plt.title('Silhouette Score For Optimal K') plt.xticks(list(K_range)[1:]) plt.grid(True) plt.show() ``` 结合肘部法则和轮廓系数，我们假设选择K=4作为最终聚类数。现在，训练最终的K-means模型。 ```python # 确定K值，这里我们根据假设选择4 optimal_k = 4 # 初始化并训练K-means模型 final_kmeans = KMeans(n_clusters=optimal_k, random_state=42, n_init='auto') df_users['cluster_label'] = final_kmeans.fit_predict(df_users_scaled[features_for_clustering]) # 查看各簇用户数量分布 cluster_distribution = df_users['cluster_label'].value_counts().sort_index() print("各簇用户数量分布：") print(cluster_distribution) ``` ## 5. 结果解读与业务落地：从数字到策略模型跑出来了，但工作只完成了一半。更重要的是理解每个簇代表什么样的用户，以及我们能做什么。 **5.1 簇特征分析** 我们需要计算每个簇在各个原始特征上的平均值（或中位数），与整体平均值进行对比，从而刻画簇的画像。 ```python # 计算每个簇的特征均值 cluster_profile = df_users.groupby('cluster_label')[features_for_clustering].mean().round(2) # 计算整体均值作为参考 overall_mean = df_users[features_for_clustering].mean().round(2) cluster_profile.loc['Overall'] = overall_mean print("各簇特征均值画像（与整体均值对比）：") print(cluster_profile) ``` 为了更直观，我们可以用雷达图或分组柱状图来可视化簇之间的差异。这里用分组柱状图示例： ```python import seaborn as sns # 将数据转换为长格式，便于用seaborn绘图 profile_melted = cluster_profile.reset_index().melt(id_vars='cluster_label', var_name='feature', value_name='mean_value') profile_melted = profile_melted[profile_melted['cluster_label'] != 'Overall'] # 移除整体行用于绘图 plt.figure(figsize=(14, 8)) sns.barplot(data=profile_melted, x='feature', y='mean_value', hue='cluster_label') plt.title('Average Feature Values by Cluster') plt.ylabel('Mean Value (Original Scale)') plt.xticks(rotation=45) plt.legend(title='Cluster') plt.tight_layout() plt.show() ``` **5.2 业务解读与命名** 根据上面的特征均值表，我们可以尝试为每个簇赋予业务含义： | 簇标签 | 关键特征（对比整体） | 业务解读与命名 | 可能的运营策略 | | :--- | :--- | :--- | :--- | | **簇 0** | `recency_days` 很高（很久未购），`frequency`和`monetary`很低，互动行为少。 | **沉睡/流失用户**：购买力弱且长期未互动。 | 低成本召回（如签到活动）、推送高性价比爆品，若多次触达无响应，可考虑降低运营优先级。 | | **簇 1** | `recency_days` 很低（最近刚买），`frequency`和`monetary`中等偏高，`login_days_30`和`cart_items_30`很高。 | **高活跃价值用户**：近期有购买，且日常互动频繁，消费能力不错。 | 核心维护对象。推送新品、会员专属权益、高客单价商品，邀请参与新品试用或调研，提升忠诚度。 | | **簇 2** | `monetary` 极高，`frequency`中等，`recency_days`中等，互动行为一般。 | **鲸鱼用户/高消费用户**：单次消费金额巨大，但购买频率和互动不一定最高。 | 提供VIP专属客服、高端商品推荐、限量款优先购买权。避免过度推送打扰，注重服务体验。 | | **簇 3** | `frequency` 很高，`monetary`中等，`recency_days`较低，`cart_items_30`多。 | **频繁购买型用户**：喜欢多次购买，可能是生活必需品或习惯性消费，客单价一般。 | 推送复购券、关联商品推荐、订阅制服务（如每月购）。运营重点是提升客单价和跨品类购买。 | > 注意：以上解读是基于模拟数据的一个示例。真实业务中，你需要结合具体的产品、用户路径和运营目标来定义簇的含义，这个命名和策略制定的过程需要业务团队深度参与。 **5.3 策略落地与效果追踪** 分群完成后，真正的价值在于行动： 1. **用户打标**：将`cluster_label`写回用户画像系统或数据仓库，作为用户的一个长期或动态标签。 2. **渠道对接**：通过用户ID列表，将分群结果同步到CRM系统、Push推送平台、广告投放平台等。 3. **策略设计**：运营团队针对每个群组设计具体的触达内容、优惠力度、商品推荐列表等。 4. **AB实验与效果评估**：对同一群组用户进行策略A和策略B的测试，或者对比策略实施前后该群组的关键指标（如转化率、客单价、复购率）变化，用数据验证分群运营的有效性。 ## 6. 进阶思考与模型优化基础的K-means模型已经能解决很多问题，但在实际应用中，我们还可以从多个角度进行优化。 **6.1 特征工程的深化** 我们之前使用的是基础行为特征。更精细的模型可以考虑： - **时间序列特征**：如购买金额的月度趋势、活跃天数的周变化等。 - **品类偏好特征**：用户在不同商品品类上的消费占比、浏览时长等。 - **转化漏斗特征**：从浏览到加购，再到下单的转化率。 **6.2 尝试不同的聚类算法** K-means假设簇是凸形的且大小相近，对异常值敏感。如果你的用户群体结构复杂，可以尝试： - **DBSCAN**：基于密度，能发现任意形状的簇，并能识别噪声点（异常用户）。适合用户分布极不均匀的场景。 - **高斯混合模型**：假设数据由多个高斯分布生成，提供属于各簇的概率，而非硬分配。 - **层次聚类**：不需要预先指定K值，可以通过树状图（谱系图）在不同粒度上观察聚类结果。 **6.3 聚类结果的稳定性评估** 由于K-means初始中心点是随机选择的，多次运行结果可能略有差异。在生产环境中，可以： - 多次运行（如10次）取平均轮廓系数最好的结果。 - 使用`KMeans++`作为初始化方法（`scikit-learn`默认已使用），它能让初始中心点彼此远离，通常能得到更稳定、更好的结果。 - 定期（如每月）重新运行聚类模型，观察用户群组的演变和用户在不同群组间的迁移，这本身就是一种重要的用户洞察。我在多个电商项目中实施用户分群，最大的体会是：**模型本身的技术难度并不高，真正的挑战在于业务对齐、特征构建和策略闭环**。一开始不要追求完美的模型，先快速跑通一个基础版本，让业务方看到分群的价值。然后，在迭代中逐步加入更复杂的特征和算法。记住，一个能被业务用起来、产生效果的简单模型，远胜过一个精度很高但无人问津的复杂模型。最后，记得将整个流程，从数据抽取、预处理、模型训练到结果输出，进行脚本化和自动化调度，这样才能让数据洞察持续为业务赋能。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 Python爬虫实战：5分钟搞定flbook电子书下载（附完整代码）

目录

K-means聚类实战：从零开始用Python实现电商用户分群（附完整代码）

Python内容推荐

python 代码实现k-means聚类分析的思路（不使用现成聚类库）

Python从零实现 K-mean 和K-中心点聚类算法的样本数据

Python源码-数据分析-原理+代码｜手把手教你用K-Means算法实现银行客户聚类.zip

基于hash向量和共现矩阵的python聚类：DBSCAN、k-means、agglomerative.zip

从零开始学Python数据分析与挖掘

《Python机器学习及实践从零开始通往Kaggle竞赛之路》，代码（基于pycharm的py3实现）、数据集

python中kmeans聚类实现代码

python机器学习算法源代码.zip

基于Python和scikit-learn库的陈旧代码与资料集合涵盖数据预处理特征工程模型训练与评估的完整机器学习流程包括分类回归聚类等算法实现附带数据集和文档示例.zip

python 数据挖掘入门与实践 代码下载

这个存储库探索了机器学习中常用的各种技术和算法，以及在MATLAB和PYTHON中的实现_Jupyter Noteboo.zip

Python库 | cluster-lee-0.0.dev0.tar.gz

Python学习课程安排表.pdf

不调库，纯python实现机器学习经典算法.zip

Python学习课程安排表.docx

Python与机器学习教程 机器学习算法课程-HTML网页版教程课件 可直接在浏览器运行 从入门到进阶.rar

基于Python与TensorFlow框架构建的集成多种经典与前沿机器学习算法的开源学习平台项目_涵盖监督学习中的线性回归逻辑回归支持向量机决策树随机森林梯度提升树无监督学习中的K.zip

Python中文文本关键词抽取[项目代码]

Machine-laearning-KN:该存储库包含从基础到高级的机器学习教程，包括python，Ml概念等

ML_algorithms_KMeans:从零开始使用scikit-learn进行K-Means聚类

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构

Java线程池运行时状态怎么实时掌握？有哪些靠谱的监控手段？

桌面工具软件项目效益评估及市场预测分析

告别遮挡！UniApp中WebView与原生导航栏的和谐共处方案（附完整可运行代码）

OSPF是怎么在企业网里自动找最优路径并分区域管理的？

UML建模课程设计：图书馆管理系统论文

python 数据挖掘入门与实践代码下载

Python与机器学习教程机器学习算法课程-HTML网页版教程课件可直接在浏览器运行从入门到进阶.rar