Spark里怎么用Pipeline自动处理泰坦尼克号数据并自动调参找最优LogisticRegression模型？

以下是使用Spark构建泰坦尼克号数据集预处理Pipeline，定义参数网格，设置交叉验证，进行模型训练与分析，找出最优超参数组合并输出最优模型在测试集上的AUC值的代码示例： ```python from pyspark.sql import SparkSession from pyspark.ml import Pipeline from pyspark.ml.feature import StringIndexer, Imputer, VectorAssembler from pyspark.ml.classification import LogisticRegression from pyspark.ml.tuning import ParamGridBuilder, CrossValidator from pyspark.ml.evaluation import BinaryClassificationEvaluator # 创建SparkSession spark = SparkSession.builder.appName("TitanicPipeline").getOrCreate() # 读取泰坦尼克号数据集 data = spark.read.csv("titanic.csv", header=True, inferSchema=True) # 定义变换器 gender_indexer = StringIndexer(inputCol="Sex", outputCol="Sex_index") age_imputer = Imputer(inputCol="Age", outputCol="Age_imputed", strategy="mean") vector_assembler = VectorAssembler(inputCols=["Age_imputed", "Sex_index", "Fare"], outputCol="features") # 定义估计器 lr = LogisticRegression(featuresCol="features", labelCol="Survived") # 构建流水线 pipeline = Pipeline(stages=[gender_indexer, age_imputer, vector_assembler, lr]) # 定义参数网格 param_grid = ParamGridBuilder() \ .addGrid(lr.regParam, [0.1, 0.01]) \ .addGrid(lr.elasticNetParam, [0.0, 0.5]) \ .build() # 设置交叉验证 evaluator = BinaryClassificationEvaluator(labelCol="Survived", metricName="areaUnderROC") cross_validator = CrossValidator(estimator=pipeline, estimatorParamMaps=param_grid, evaluator=evaluator, numFolds=5) # 划分训练集和测试集 train_data, test_data = data.randomSplit([0.8, 0.2], seed=42) # 运行交叉验证 cv_model = cross_validator.fit(train_data) # 获取最优模型 best_model = cv_model.bestModel # 在测试集上进行预测 predictions = best_model.transform(test_data) # 计算AUC值 auc = evaluator.evaluate(predictions) print(f"最优模型在测试集上的AUC值: {auc}") ``` ### 代码解释 1. **数据读取**：使用`spark.read.csv`读取泰坦尼克号数据集。 2. **定义变换器**：使用`StringIndexer`对性别进行编码，使用`Imputer`填充年龄缺失值，使用`VectorAssembler`组合特征。 3. **定义估计器**：使用`LogisticRegression`作为分类器。 4. **构建流水线**：将变换器和估计器串起来，形成一个完整的预处理和模型训练流程。 5. **定义参数网格**：使用`ParamGridBuilder`定义`regParam`和`elasticNetParam`的不同组合。 6. **设置交叉验证**：使用`CrossValidator`进行交叉验证，选择最优超参数组合。 7. **划分训练集和测试集**：使用`randomSplit`方法将数据集划分为训练集和测试集。 8. **运行交叉验证**：使用`fit`方法进行交叉验证，找出最优模型。 9. **计算AUC值**：使用`BinaryClassificationEvaluator`计算最优模型在测试集上的AUC值。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇初学者用Python写斐波那契、素数和组合数程序，有什么关键思路和易错点？

目录

Spark里怎么用Pipeline自动处理泰坦尼克号数据并自动调参找最优LogisticRegression模型？

Python内容推荐

基于Python语言的Spark数据处理分析案例集锦（PySpark）.zip

蒙特卡洛风光场景并通过削减法聚类法得到几个典型场景（包含Matlab代码和Python代码实现）

Python仓库管理系统源码 tkinter+sqlite3 GUI库位可视化排布 仓储WMS工具（毕业设计/新手学习/库管免代码/程序员二开）

【Python编程】Python导入语句区别

基于参数服务器的logistic regression,xgboost,FFM,FM ),可以线上使用的点击率预估流水线.zip

spark练习数据

PySpark数据分析和模型算法实战.pdf

Spark大数据处理技术 带标签 完整版

【数据科学竞赛】基于Jenkins的自动化持续集成系统设计：实现模型训练、评估与提交全流程自动化

SparkML算法详解(关于DataFrame的API操作)--数据挖掘(Scala与Java版)

藏经阁-Netflix’s Recommendation ML Pipeline using Apache Spark.pdf

spark数据处理databrickssparkknowl

机器学习基于Scikit-learn的自动化参数优化模板：网格搜索与随机搜索在模型调参中的高效应用

基于SparkML2.0进行的Kaggle、JData等比赛.zip

AI实战-泰坦尼克号生还可能性数据集分析预测实例（含19个源代码+59.76 KB完整的数据集）.zip

梁堰波-Spark MLlib 的最新进展

spark大数据分析(3平台版本)

spark-mlib-master分类算法

大数据技术分享 Spark技术讲座 使用Apache Spark生成H2O模型 共20页.pdf

藏经阁-SCALABLE DATA SCIENCE WITH SPARKR.pdf

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构

Java线程池运行时状态怎么实时掌握？有哪些靠谱的监控手段？

桌面工具软件项目效益评估及市场预测分析

告别遮挡！UniApp中WebView与原生导航栏的和谐共处方案（附完整可运行代码）

OSPF是怎么在企业网里自动找最优路径并分区域管理的？

UML建模课程设计：图书馆管理系统论文

Python仓库管理系统源码 tkinter+sqlite3 GUI库位可视化排布仓储WMS工具（毕业设计/新手学习/库管免代码/程序员二开）

Spark大数据处理技术带标签完整版

大数据技术分享 Spark技术讲座使用Apache Spark生成H2O模型共20页.pdf