数值和类别特征怎么用Pipeline分别做缺失值填充和标准化/编码？

以下是使用`Pipeline`分别定义数值特征和类别特征处理流程的 Python 代码，其中数值特征使用`SimpleImputer`填补缺失值、`StandardScaler`进行缩放，类别特征使用`SimpleImputer`填补缺失值、`OneHotEncoder`进行独热编码： ```python import numpy as np import pandas as pd from sklearn.compose import ColumnTransformer from sklearn.pipeline import Pipeline from sklearn.impute import SimpleImputer from sklearn.preprocessing import StandardScaler, OneHotEncoder from sklearn.model_selection import train_test_split # 创建示例数据 data = { 'numeric_feature': [1, np.nan, 3, 4, 5], 'categorical_feature': ['A', 'B', 'A', 'B', 'A'], 'target': [0, 1, 0, 1, 0] } df = pd.DataFrame(data) # 分离特征和目标变量 X = df.drop('target', axis=1) y = df['target'] # 划分训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # 定义数值特征和类别特征 numeric_features = X.select_dtypes(include=[np.number]).columns categorical_features = X.select_dtypes(include=['object']).columns # 定义数值特征处理流程 numeric_transformer = Pipeline(steps=[ ('imputer', SimpleImputer(strategy='mean')), ('scaler', StandardScaler()) ]) # 定义类别特征处理流程 categorical_transformer = Pipeline(steps=[ ('imputer', SimpleImputer(strategy='constant', fill_value='missing')), ('onehot', OneHotEncoder(handle_unknown='ignore')) ]) # 使用ColumnTransformer组合不同特征的处理流程 preprocessor = ColumnTransformer( transformers=[ ('num', numeric_transformer, numeric_features), ('cat', categorical_transformer, categorical_features) ]) ```

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 Python怎么同时处理Excel、Word和PDF文件，还能确保原始文件不被改动且数据类型不出错？

目录

数值和类别特征怎么用Pipeline分别做缺失值填充和标准化/编码？

Python内容推荐

Python-ScikitLearn风格的特征工程工具包

Python实现对某城市民宿价格进行预测分析项目源代码+数据，包括数据清洗与预处理，特征工程，模型选择与训练，数据分析与可视化

数据预处理从入门到实战 基于 SQL 、R 、Python.zip

Python库 | Automunge-2.94-py3-none-any.whl

AI数据预处理脚本工具包：缺失值处理、编码、标准化一站式示例

adults、advertisement数据集 最佳特征选择 转换器

蓝白社数据处理与预测.zip

AI人工智能课程 机器学习算法班第11讲：排序与CTR预估问题 共35页.pdf

数据清洗code.zip

Kaggle竞赛之Outbrain点击率预估

scikit-learn-0.14.tar.gz

SparkML算法详解(关于DataFrame的API操作)--数据挖掘(Scala与Java版)

The-Data-Scientist-s-Toolbox-Week-3-and-Week-4-Quiz-answer

CIS310:业务分析的数据准备

实现二级菜单(嵌套ul li)

K-Vault聚合云盘系统源码支持API分片、访客上传

使用jQuery刷新DIV

基于yolov8的目标检测系统

西门子S7-1200 PID控制案例[源码]

基于Java语言实现的纯真网络IP地址数据库解析库-支持从类路径文件系统路径或字节数组加载qqwry-dat数据文件-提供IP地址归属地查询和版本信息获取功能-采用内存映射和二进制.zip

XX一号地工程模板支撑系统监理实施细则分析

别再为PyG安装头疼了！手把手教你用pip搞定PyTorch Geometric（附版本匹配避坑指南）

Windows下用YOLO时路径写法有什么讲究？斜杠、盘符和相对路径怎么处理？

现代自动控制系统理论与应用前沿综述

Jetson Nano环境配置避坑指南：TF卡初始化与镜像烧录全流程（Win11实测）

Hibernate懒加载字段在JSON序列化前怎么提前初始化？

VScode环境下LVGL运行指南及安装包下载

Prescan8.5+MATLAB2020b联合仿真避坑指南：从安装到第一个场景搭建全流程

Monkey测试中频繁出现ANR和崩溃，该怎么快速定位和修复？

2023年大学VB编程考试题库精编与解析

数据预处理从入门到实战基于 SQL 、R 、Python.zip

adults、advertisement数据集最佳特征选择转换器

AI人工智能课程机器学习算法班第11讲：排序与CTR预估问题共35页.pdf