用Python分析水质数据时，清洗、可视化和建模的关键步骤有哪些？

为了对给定的水质安全数据集进行全面的分析与可视化，我们将遵循一个结构化的数据分析流程。该流程主要包括数据加载与概览、数据清洗与预处理、探索性数据分析（EDA）以及高级分析与建模四个核心步骤。以下是详细的方案与代码实现。 ### 1. 数据加载与概览首先，我们需要加载数据并了解其基本结构、数据类型和初步的统计信息。 ```python import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns # 设置中文字体和图表样式 plt.rcParams['font.sans-serif'] = ['SimHei', 'DejaVu Sans'] plt.rcParams['axes.unicode_minus'] = False sns.set_style("whitegrid") # 从提供的链接加载数据集 # 注意：实际运行时需确保能访问该URL或已下载文件至本地 file_url = "https://www.heywhale.com/mw/dataset/6572a403af1248ddb488a432/file" # 假设数据集为CSV格式，使用pandas读取 try: # 在线读取（需网络） df = pd.read_csv(file_url) except: # 如果在线读取失败，尝试从本地加载（假设已下载并命名为'water_quality.csv'） df = pd.read_csv('water_quality.csv') # 查看数据前5行 print("数据前5行：") print(df.head()) print("\n" + "="*50 + "\n") # 查看数据集基本信息 print("数据集基本信息：") print(f"数据集形状：{df.shape}") print(f"列名：{df.columns.tolist()}") print("\n数据类型与非空计数：") print(df.info()) print("\n" + "="*50 + "\n") # 查看数值型数据的描述性统计 print("数值型数据描述性统计：") print(df.describe()) ``` 此步骤将输出数据维度、各列数据类型、缺失值情况以及数值分布（如均值、标准差、分位数等），为后续清洗提供依据[ref_5]。 ### 2. 数据清洗与预处理数据清洗是保证分析质量的关键，主要处理缺失值、异常值、数据类型转换以及冗余特征。 ```python # 2.1 检查缺失值 print("各列缺失值数量：") missing_data = df.isnull().sum() print(missing_data[missing_data > 0]) # 处理缺失值（示例：对数值列用中位数填充，分类列用众数填充） for col in df.columns: if df[col].dtype in ['int64', 'float64']: df[col].fillna(df[col].median(), inplace=True) else: df[col].fillna(df[col].mode()[0], inplace=True) print("缺失值已处理。") # 2.2 检查并处理重复值 duplicates = df.duplicated().sum() print(f"发现重复行数：{duplicates}") if duplicates > 0: df.drop_duplicates(inplace=True) print("重复行已删除。") # 2.3 处理异常值（以'pH'列为例，使用IQR方法） Q1 = df['pH'].quantile(0.25) Q3 = df['pH'].quantile(0.75) IQR = Q3 - Q1 lower_bound = Q1 - 1.5 * IQR upper_bound = Q3 + 1.5 * IQR # 标记异常值，可根据分析需求选择删除或修正 outliers = df[(df['pH'] < lower_bound) | (df['pH'] > upper_bound)] print(f"'pH'列异常值数量：{len(outliers)}") # 示例：将异常值替换为上下边界值 df['pH'] = df['pH'].clip(lower=lower_bound, upper=upper_bound) # 2.4 数据类型转换（例如，将日期列转换为datetime类型） # 假设存在'Date'列 if 'Date' in df.columns: df['Date'] = pd.to_datetime(df['Date'], errors='coerce') print("日期列已转换。") print("\n数据清洗完成。") print(f"清洗后数据集形状：{df.shape}") ``` 通过以上步骤，我们确保了数据的完整性和一致性，为后续分析奠定了可靠的基础[ref_1][ref_5]。 ### 3. 探索性数据分析（EDA）与可视化 EDA旨在通过统计图表揭示数据内在的分布规律、关系与趋势。我们将从单变量分析、多变量关系分析和时间序列分析（如果存在时间列）几个方面展开。 #### 3.1 单变量分布分析 ```python # 选取几个关键水质指标进行分布可视化 key_columns = ['pH', 'Dissolved_Oxygen', 'Turbidity', 'Nitrate'] fig, axes = plt.subplots(2, 2, figsize=(14, 10)) axes = axes.ravel() for idx, col in enumerate(key_columns): ax = axes[idx] # 绘制直方图与核密度估计 sns.histplot(df[col], kde=True, ax=ax, bins=30, color='skyblue', edgecolor='black') ax.axvline(df[col].mean(), color='red', linestyle='--', label=f'均值: {df[col].mean():.2f}') ax.axvline(df[col].median(), color='green', linestyle='-.', label=f'中位数: {df[col].median():.2f}') ax.set_title(f'{col} 分布', fontsize=14) ax.set_xlabel(col) ax.set_ylabel('频数') ax.legend() plt.tight_layout() plt.show() ``` #### 3.2 多变量关系分析 ```python # 计算关键水质指标间的相关系数矩阵 corr_matrix = df[key_columns].corr() plt.figure(figsize=(10, 8)) sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', center=0, square=True, fmt='.2f') plt.title('关键水质指标相关系数热力图', fontsize=16) plt.show() # 成对关系散点图 pairplot_fig = sns.pairplot(df[key_columns], diag_kind='kde', plot_kws={'alpha':0.6}) pairplot_fig.fig.suptitle('关键水质指标成对关系图', y=1.02, fontsize=16) plt.show() ``` #### 3.3 水质安全类别分析（假设存在'Safety_Level'列）如果数据中包含根据标准划分的安全等级（如“安全”、“警戒”、“污染”），我们可以对其进行深入分析。 ```python if 'Safety_Level' in df.columns: # 安全等级分布 safety_counts = df['Safety_Level'].value_counts() plt.figure(figsize=(8, 6)) safety_counts.plot(kind='bar', color=['green', 'orange', 'red']) plt.title('水质安全等级分布', fontsize=16) plt.xlabel('安全等级') plt.ylabel('样本数') plt.xticks(rotation=0) plt.show() # 不同安全等级下各指标的箱线图对比 fig, axes = plt.subplots(2, 2, figsize=(14, 10)) axes = axes.ravel() for idx, col in enumerate(key_columns): ax = axes[idx] sns.boxplot(x='Safety_Level', y=col, data=df, ax=ax, palette='Set2') ax.set_title(f'不同安全等级的{col}分布', fontsize=14) ax.set_xlabel('安全等级') ax.set_ylabel(col) plt.tight_layout() plt.show() ``` #### 3.4 时间序列趋势分析（如果存在时间列） ```python if 'Date' in df.columns: # 按时间排序 df_time = df.sort_values('Date').set_index('Date') # 重采样为月度均值，分析趋势 monthly_avg = df_time[key_columns].resample('M').mean() plt.figure(figsize=(15, 10)) for i, col in enumerate(key_columns, 1): plt.subplot(2, 2, i) plt.plot(monthly_avg.index, monthly_avg[col], marker='o', linewidth=2) plt.title(f'{col} 月度变化趋势', fontsize=14) plt.xlabel('日期') plt.ylabel(col) plt.grid(True, linestyle='--', alpha=0.7) plt.tight_layout() plt.show() ``` 通过以上可视化，我们可以直观地理解水质各项指标的分布特征、相互关联以及随时间的变化趋势，识别潜在的风险模式和规律[ref_3][ref_5]。 ### 4. 高级分析与建模（示例）基于清洗和探索后的数据，我们可以进一步构建模型，例如预测水质安全等级或进行聚类分析。 #### 4.1 特征工程与数据准备 ```python from sklearn.model_selection import train_test_split from sklearn.preprocessing import LabelEncoder, StandardScaler # 假设目标为预测'Safety_Level' if 'Safety_Level' in df.columns: # 编码目标变量 le = LabelEncoder() df['Safety_Level_encoded'] = le.fit_transform(df['Safety_Level']) # 选择特征（这里使用之前定义的关键指标） features = key_columns X = df[features] y = df['Safety_Level_encoded'] # 划分训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y) # 特征标准化 scaler = StandardScaler() X_train_scaled = scaler.fit_transform(X_train) X_test_scaled = scaler.transform(X_test) print("数据已准备完毕，用于建模。") ``` #### 4.2 构建与评估分类模型（以随机森林为例） ```python from sklearn.ensemble import RandomForestClassifier from sklearn.metrics import classification_report, confusion_matrix, accuracy_score if 'Safety_Level' in df.columns: # 初始化模型 rf_model = RandomForestClassifier(n_estimators=100, random_state=42) # 训练模型 rf_model.fit(X_train_scaled, y_train) # 预测 y_pred = rf_model.predict(X_test_scaled) # 评估模型 print("随机森林模型性能评估：") print(f"准确率：{accuracy_score(y_test, y_pred):.4f}") print("\n分类报告：") print(classification_report(y_test, y_pred, target_names=le.classes_)) # 绘制混淆矩阵 cm = confusion_matrix(y_test, y_pred) plt.figure(figsize=(8,6)) sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', xticklabels=le.classes_, yticklabels=le.classes_) plt.title('混淆矩阵', fontsize=16) plt.ylabel('真实标签') plt.xlabel('预测标签') plt.show() # 特征重要性分析 feature_importance = pd.DataFrame({ 'feature': features, 'importance': rf_model.feature_importances_ }).sort_values('importance', ascending=False) plt.figure(figsize=(10,6)) sns.barplot(x='importance', y='feature', data=feature_importance, palette='viridis') plt.title('随机森林特征重要性排序', fontsize=16) plt.xlabel('重要性得分') plt.ylabel('特征') plt.show() ``` 此建模示例展示了如何利用机器学习方法从数据中挖掘预测性知识，识别影响水质安全的关键指标[ref_6]。 ### 总结整个分析流程遵循了从数据理解到模型构建的完整链条。通过系统性的数据清洗、丰富的可视化探索以及初步的预测建模，我们能够： 1. **全面掌握数据质量**：识别并处理了缺失、异常等问题。 2. **深入洞察数据规律**：通过分布图、相关热力图、时间趋势图等揭示了水质指标的内在特征与关联。 3. **挖掘预测价值**：示例性地构建了分类模型，评估了关键指标对水质安全等级的预测能力，并量化了各特征的重要性。该方案为基于Python的水质安全数据分析与可视化提供了一个可复现、可扩展的模板。根据具体数据集的字段定义，可灵活调整分析的重点（例如，重点关注特定污染物、空间分布分析等）[ref_1][ref_5][ref_6]。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 Python里十进制转二进制的底层计算逻辑是怎么一步步推出来的？