头歌Spark第3关WordCount词频统计，用命令行怎么跑通Scala和Python代码？

要使用命令代码完成头歌Spark实战第3关WordCount词频统计，以下分别给出Scala和Python两种实现方式的命令代码示例。 #### Scala 实现首先，编写 Scala 代码文件 `WordCount.scala`： ```scala import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object WordCount { def main(args: Array[String]): Unit = { val conf = new SparkConf().setMaster("local").setAppName("WordCount") val sc = new SparkContext(conf) val path = "file:///root/files/wordcount.txt" val file = sc.textFile(path) val words: RDD[String] = file.flatMap(_.split(" ")) val wordsAndone: RDD[(String, Int)] = words.map((_, 1)) val result: RDD[(String, Int)] = wordsAndone.reduceByKey(_ + _) val result1: RDD[(String, Int)] = result.sortBy(_._2, false) result1.foreach(println) sc.stop() } } ``` 然后，将代码打包成 JAR 文件，假设打包后的文件名为 `wordcount.jar`。接着，使用以下 Spark 命令来运行该程序： ```bash spark-submit --class WordCount --master local wordcount.jar ``` #### Python 实现首先，编写 Python 代码文件 `test.py`： ```python from pyspark import SparkContext sc = SparkContext('local', 'test') textFile = sc.textFile("word.txt") wordCount = textFile.flatMap(lambda line: line.split(" ")).map(lambda word: (word, 1)).reduceByKey(lambda a, b: a + b) wordCount.foreach(print) ``` 然后，使用以下 Spark 命令来运行该 Python 脚本： ```bash spark-submit test.py ``` ###

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 Python里怎么安全又准确地提取文件的后缀名（比如.jpg、.py）？

目录

头歌Spark第3关WordCount词频统计，用命令行怎么跑通Scala和Python代码？

Python内容推荐

基于Python Java Scala语言的MapReduce及Spark分词及词频统计效率对比

大数据技术实践——Spark词频统计

Spark 最简单WordCount

大数据技术实践之基于Spark的词频统计

采用多种方式实现词频统计

使用spark 对文本分词统计

Spark开发环境搭建

Spark Shell入门教程[可运行源码]

spark集群安装

Spark+SparkSQL+Spark Streaming+Spark Core+数据处理

词频统计的练习素材，如需使用请下载！

实验7-Spark基本操作.docx

基于Hadoop与Spark的大数据处理平台的构建研究.pdf

spark-windows helloword入门例子

SparkStreaming实时流处理平台项目_日志分析系统与舆情管控实时词频统计子系统及中文分词服务器集成与网站用户行为统计系统与安全监控报警系统_用于实现大规模日志数据的实时采.zip

spark-application

pres-spark-demo

SparkML算法详解(关于DataFrame的API操作)--数据挖掘(Scala与Java版)

Machine Learning with Spark 2nd Edition

基于 Spark 的文本情感分类.zip

大数据技术实践——Spark词频统计

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构

Java线程池运行时状态怎么实时掌握？有哪些靠谱的监控手段？

桌面工具软件项目效益评估及市场预测分析

告别遮挡！UniApp中WebView与原生导航栏的和谐共处方案（附完整可运行代码）

OSPF是怎么在企业网里自动找最优路径并分区域管理的？