能解释一下怎么用Python对比决策树、KNN和深度学习在鸢尾花数据上的分类效果吗？

要实现决策树、KNN和深度学习模型在鸢尾花分类任务上的正确率对比，需要分别训练这三个模型，然后在相同的测试集上评估它们的性能，最后进行可视化对比。以下是完整的代码实现。 ### 1. 数据准备与预处理首先，我们加载鸢尾花数据集，并进行统一的预处理和数据集划分，确保三个模型在完全相同的数据上进行训练和测试 [ref_3]。 ```python # 导入必要的库 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler, LabelBinarizer from sklearn.tree import DecisionTreeClassifier from sklearn.neighbors import KNeighborsClassifier from sklearn.metrics import accuracy_score, classification_report, confusion_matrix import tensorflow as tf from tensorflow import keras from tensorflow.keras import layers # 1. 加载数据 iris = load_iris() X = iris.data # (150, 4) y = iris.target # (150,) feature_names = iris.feature_names target_names = iris.target_names print("数据集信息:") print(f"特征形状: {X.shape}") print(f"标签形状: {y.shape}") print(f"特征名称: {feature_names}") print(f"类别名称: {target_names}") # 2. 数据预处理 # 对于决策树和KNN，标准化是可选的，但对于深度学习是必要的 scaler = StandardScaler() X_scaled = scaler.fit_transform(X) # 划分数据集：70%训练，15%验证，15%测试 X_train_val, X_test, y_train_val, y_test = train_test_split( X_scaled, y, test_size=0.15, random_state=42, stratify=y ) X_train, X_val, y_train, y_val = train_test_split( X_train_val, y_train_val, test_size=0.1765, random_state=42, stratify=y_train_val ) # 0.85*0.1765≈0.15 print(f"\n数据集划分:") print(f"训练集: {X_train.shape}, {y_train.shape}") print(f"验证集: {X_val.shape}, {y_val.shape}") print(f"测试集: {X_test.shape}, {y_test.shape}") # 为深度学习准备One-Hot编码标签 lb = LabelBinarizer() y_train_onehot = lb.fit_transform(y_train) y_val_onehot = lb.transform(y_val) y_test_onehot = lb.transform(y_test) ``` ### 2. 决策树模型训练与评估决策树模型简单直观，不需要复杂的超参数调优 [ref_1]。 ```python # 3. 决策树模型 print("\n" + "="*50) print("训练决策树模型...") print("="*50) # 创建并训练决策树模型 dt_model = DecisionTreeClassifier( max_depth=4, # 限制树深度防止过拟合 min_samples_split=5, min_samples_leaf=2, random_state=42 ) dt_model.fit(X_train, y_train) # 在验证集和测试集上评估 dt_val_pred = dt_model.predict(X_val) dt_test_pred = dt_model.predict(X_test) dt_val_acc = accuracy_score(y_val, dt_val_pred) dt_test_acc = accuracy_score(y_test, dt_test_pred) print(f"决策树验证集准确率: {dt_val_acc:.4f}") print(f"决策树测试集准确率: {dt_test_acc:.4f}") # 输出决策树的重要特征 dt_feature_importance = pd.DataFrame({ 'feature': feature_names, 'importance': dt_model.feature_importances_ }).sort_values('importance', ascending=False) print("\n决策树特征重要性:") print(dt_feature_importance) ``` ### 3. KNN模型训练与评估 KNN模型基于距离度量，对特征尺度敏感，因此使用标准化后的数据 [ref_3]。 ```python # 4. KNN模型 print("\n" + "="*50) print("训练KNN模型...") print("="*50) # 使用交叉验证寻找最佳K值（简化版，实际应用中应使用GridSearchCV） best_k = 5 # 通过简单验证确定 best_knn_acc = 0 for k in range(3, 11): knn_temp = KNeighborsClassifier(n_neighbors=k) knn_temp.fit(X_train, y_train) knn_val_acc = knn_temp.score(X_val, y_val) if knn_val_acc > best_knn_acc: best_knn_acc = knn_val_acc best_k = k # 使用最佳K值训练最终模型 knn_model = KNeighborsClassifier(n_neighbors=best_k) knn_model.fit(X_train, y_train) # 在验证集和测试集上评估 knn_val_pred = knn_model.predict(X_val) knn_test_pred = knn_model.predict(X_test) knn_val_acc = accuracy_score(y_val, knn_val_pred) knn_test_acc = accuracy_score(y_test, knn_test_pred) print(f"最佳K值: {best_k}") print(f"KNN验证集准确率: {knn_val_acc:.4f}") print(f"KNN测试集准确率: {knn_test_acc:.4f}") ``` ### 4. 深度学习模型训练与评估构建一个简单的深度神经网络，包含Dropout层以防止过拟合 [ref_2]。 ```python # 5. 深度学习模型 print("\n" + "="*50) print("训练深度学习模型...") print("="*50) # 构建神经网络模型 dl_model = keras.Sequential([ layers.Input(shape=(4,)), layers.Dense(16, activation='relu'), layers.Dropout(0.2), # Dropout正则化防止过拟合 layers.Dense(8, activation='relu'), layers.Dense(3, activation='softmax') ]) # 编译模型 dl_model.compile( optimizer=keras.optimizers.Adam(learning_rate=0.01), loss='categorical_crossentropy', metrics=['accuracy'] ) # 打印模型摘要 dl_model.summary() # 定义回调函数 callbacks = [ keras.callbacks.EarlyStopping( monitor='val_loss', patience=10, restore_best_weights=True ), keras.callbacks.ReduceLROnPlateau( monitor='val_loss', factor=0.5, patience=5, min_lr=0.0001 ) ] # 训练模型 history = dl_model.fit( X_train, y_train_onehot, validation_data=(X_val, y_val_onehot), epochs=100, batch_size=16, callbacks=callbacks, verbose=0 ) # 在测试集上评估 dl_test_loss, dl_test_acc = dl_model.evaluate(X_test, y_test_onehot, verbose=0) print(f"深度学习测试集准确率: {dl_test_acc:.4f}") print(f"深度学习测试集损失: {dl_test_loss:.4f}") # 获取验证集准确率（用于对比） dl_val_pred_prob = dl_model.predict(X_val, verbose=0) dl_val_pred = np.argmax(dl_val_pred_prob, axis=1) dl_val_acc = accuracy_score(y_val, dl_val_pred) print(f"深度学习验证集准确率: {dl_val_acc:.4f}") ``` ### 5. 正确率对比与可视化现在，我们将三个模型的性能进行对比分析，并使用图表直观展示 [ref_6]。 ```python # 6. 性能对比分析 print("\n" + "="*50) print("模型性能对比分析") print("="*50) # 收集所有模型的准确率 model_names = ['决策树', 'KNN', '深度学习'] val_accuracies = [dt_val_acc, knn_val_acc, dl_val_acc] test_accuracies = [dt_test_acc, knn_test_acc, dl_test_acc] # 创建对比表格 comparison_df = pd.DataFrame({ '模型': model_names, '验证集准确率': val_accuracies, '测试集准确率': test_accuracies, '准确率差异': np.array(test_accuracies) - np.array(val_accuracies) }) print("\n模型准确率对比表:") print(comparison_df.to_string(index=False)) # 7. 可视化对比 fig, axes = plt.subplots(2, 2, figsize=(14, 10)) # 子图1：验证集与测试集准确率对比 x = np.arange(len(model_names)) width = 0.35 axes[0, 0].bar(x - width/2, val_accuracies, width, label='验证集', color='skyblue') axes[0, 0].bar(x + width/2, test_accuracies, width, label='测试集', color='lightcoral') axes[0, 0].set_xlabel('模型') axes[0, 0].set_ylabel('准确率') axes[0, 0].set_title('模型准确率对比 (验证集 vs 测试集)') axes[0, 0].set_xticks(x) axes[0, 0].set_xticklabels(model_names) axes[0, 0].legend() axes[0, 0].grid(True, alpha=0.3) # 在柱状图上添加数值标签 for i, (val, test) in enumerate(zip(val_accuracies, test_accuracies)): axes[0, 0].text(i - width/2, val + 0.01, f'{val:.3f}', ha='center', va='bottom') axes[0, 0].text(i + width/2, test + 0.01, f'{test:.3f}', ha='center', va='bottom') # 子图2：准确率差异（测试集 - 验证集） axes[0, 1].bar(model_names, comparison_df['准确率差异'], color=['green' if x >= 0 else 'red' for x in comparison_df['准确率差异']]) axes[0, 1].set_xlabel('模型') axes[0, 1].set_ylabel('准确率差异') axes[0, 1].set_title('模型泛化能力 (测试集准确率 - 验证集准确率)') axes[0, 1].axhline(y=0, color='black', linestyle='-', linewidth=0.5) axes[0, 1].grid(True, alpha=0.3) # 添加数值标签 for i, diff in enumerate(comparison_df['准确率差异']): axes[0, 1].text(i, diff + (0.01 if diff >= 0 else -0.02), f'{diff:.3f}', ha='center', va='bottom' if diff >= 0 else 'top') # 子图3：深度学习训练历史 axes[1, 0].plot(history.history['accuracy'], label='训练准确率', color='blue') axes[1, 0].plot(history.history['val_accuracy'], label='验证准确率', color='orange') axes[1, 0].set_xlabel('训练轮次 (Epoch)') axes[1, 0].set_ylabel('准确率') axes[1, 0].set_title('深度学习模型训练历史') axes[1, 0].legend() axes[1, 0].grid(True, alpha=0.3) # 子图4：三个模型在测试集上的混淆矩阵热图 models = [dt_model, knn_model, dl_model] model_titles = ['决策树', 'KNN', '深度学习'] for idx, (model, title) in enumerate(zip(models, model_titles)): if idx == 2: # 深度学习模型 y_pred_prob = model.predict(X_test, verbose=0) y_pred = np.argmax(y_pred_prob, axis=1) else: # 决策树和KNN模型 y_pred = model.predict(X_test) cm = confusion_matrix(y_test, y_pred) # 将热图放在1x3的子图中 if idx == 0: ax_cm = axes[1, 1] else: # 如果需要更多子图，可以调整布局 pass # 简化：只显示最后一个模型的混淆矩阵 if idx == 2: sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', xticklabels=target_names, yticklabels=target_names, ax=axes[1, 1]) axes[1, 1].set_title(f'{title}混淆矩阵 (测试集)') axes[1, 1].set_ylabel('真实标签') axes[1, 1].set_xlabel('预测标签') plt.tight_layout() plt.show() # 8. 详细性能报告 print("\n" + "="*50) print("详细性能分析报告") print("="*50) # 对每个模型生成测试集的详细分类报告 for name, model in zip(model_names, models): print(f"\n{name}模型分类报告:") print("-"*40) if name == '深度学习': y_pred_prob = model.predict(X_test, verbose=0) y_pred = np.argmax(y_pred_prob, axis=1) else: y_pred = model.predict(X_test) print(classification_report(y_test, y_pred, target_names=target_names)) # 9. 总结分析 print("\n" + "="*50) print("模型对比总结") print("="*50) # 找出最佳模型 best_model_idx = np.argmax(test_accuracies) best_model_name = model_names[best_model_idx] best_model_acc = test_accuracies[best_model_idx] print(f"在鸢尾花数据集上，表现最佳的模型是: {best_model_name}") print(f"最佳测试集准确率: {best_model_acc:.4f}") print(f"\n各模型特点总结:") print("1. 决策树: 可解释性强，训练速度快，但可能过拟合") print("2. KNN: 简单直观，对异常值敏感，需要标准化处理") print("3. 深度学习: 能够学习复杂模式，但需要更多数据和调参") print(f"\n注意: 准确率差异 ({comparison_df['准确率差异'].mean():.4f}) 反映了模型的泛化能力") print("正值表示模型在测试集上表现更好，负值表示可能存在过拟合") ``` ### 6. 代码执行结果分析执行上述代码后，您将得到以下输出和可视化结果： | 输出内容 | 说明与解读 | |:---|:---| | **数据集信息** | 显示鸢尾花数据集的基本信息：150个样本，4个特征，3个类别 [ref_3]。 | | **数据集划分** | 显示训练集、验证集、测试集的具体划分情况，确保所有模型使用相同的数据。 | | **各模型准确率** | 分别显示决策树、KNN和深度学习模型在验证集和测试集上的准确率 [ref_6]。 | | **性能对比表** | 以表格形式汇总三个模型的准确率，便于直观比较。 | | **可视化图表** | 包含四个子图：准确率对比柱状图、泛化能力差异图、深度学习训练历史、混淆矩阵热图。 | | **分类报告** | 每个模型的精确率、召回率、F1-score等详细指标 [ref_1]。 | | **总结分析** | 指出最佳模型，并分析各模型的优缺点。 | ### 7. 关键实现要点说明 | 实现要点 | 技术细节与原因 | |:---|:---| | **数据标准化** | 对所有模型使用相同的标准化数据，确保公平比较。虽然决策树对特征尺度不敏感，但统一处理简化了流程 [ref_3]。 | | **数据集划分** | 使用`stratify=y`参数确保每个数据集中各类别比例与原始数据集一致，避免类别不平衡问题。 | | **模型评估** | 使用验证集进行模型选择和超参数调整，使用独立的测试集进行最终评估，避免数据泄露 [ref_2]。 | | **深度学习回调** | 使用`EarlyStopping`防止过拟合，`ReduceLROnPlateau`动态调整学习率，提高训练效率 [ref_5]。 | | **性能指标** | 除了准确率，还计算了精确率、召回率、F1-score等更全面的评估指标 [ref_1]。 | | **可视化设计** | 使用多种图表类型（柱状图、折线图、热图）全方位展示模型性能，便于分析比较。 | 通过上述代码，您可以完整地实现决策树、KNN和深度学习三种模型在鸢尾花分类任务上的训练、评估和对比分析。该实现不仅提供了准确率的直接对比，还包含了训练过程可视化、混淆矩阵分析和详细的性能报告，帮助您全面理解不同模型在该任务上的表现特点和适用性 [ref_6]。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇怎么用Python让QQ机器人对接DeepSeek大模型并自动回复消息？

目录

能解释一下怎么用Python对比决策树、KNN和深度学习在鸢尾花数据上的分类效果吗？

Python内容推荐

人工智能-项目实践-鸢尾花分类-Python 基于BP神经网络实现鸢尾花的分类

python运用sklearn实现KNN分类算法

python机器学习之决策树分类详解

Python实现线性回归、逻辑回归、KNN、SVM、朴素贝叶斯、决策树、K-Means7种机器学习算法的经典案例——亲测可用

Python决策树分类算法学习

python鸢尾花数据基于sklearn使用不同的机器学习分类器

基于Python垃圾短信识别程序(KNN、逻辑回归、随机森林、决策树和多项式分布朴素贝叶斯、伯努利分布朴素贝叶斯等算法进行融合)

Iris-flower-classification:实现使用机器学习和Python对鸢尾花物种进行分类的解决方案

Python鸢尾花数据集实现人工智能经典算法.rar

基于Python的BP神经网络实现鸢尾花的分类【源码+教程】（95分以上大作业）.zip

使用python实现kNN分类算法

基于python实现的传统机器学习分类算法源码集合(KNN决策树贝叶斯随机森林SVM等).zip

人工智能项目实践鸢尾花分类-Python基于BP神经网络实现鸢尾花的分类源码+使用说明

传统机器学习分类算法python实现源码集合(KNN决策树贝叶斯随机森林SVM等).zip

Python使用sklearn库实现的各种分类算法简单应用小结

机器学习基于Python的模型构建与部署全流程技术实践：交通领域费用预测系统设计与实现

【Python编程】Python函数式编程与高阶函数应用

机器学习（KNN二）——案例：鸢尾花数据分类

机器学习分类算法实验报告.docx

基于Sklearn+KNN算法实现鸢尾花分类.zip

HZFS_1.rar

施肥播种机 SolidWorks三维.rar

土豆收获分类机 SolidWorks三维.rar

含多类型电动汽车的微网两阶段优化调度模型研究（Matlab代码实现）

自己绘制的图纸打开乱码怎么办？下载应急方案及时解决.rar

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构