Python怎么在不装Hadoop的情况下，用Spark读本地CSV文件？

在 Hadoop 环境中运行本地 CSV 文件，通常有以下两种主流场景，需明确区分： ✅ 场景一：**仅用 Python（不启动 Hadoop）读取本地 CSV**（最简单，无需 Hadoop） ```python import pandas as pd df = pd.read_csv("data.csv") print(df.head()) ``` ✅ 场景二：**使用 PySpark（Hadoop 生态组件）读取本地 CSV，并利用本地模式模拟 Hadoop 环境**（推荐，轻量、兼容 YARN/HDFS 后续迁移）前提：已安装 `pyspark`（`pip install pyspark`），无需部署完整 Hadoop。 ```python from pyspark.sql import SparkSession # 启动本地模式 Spark（无需 Hadoop 安装，自动内置 mini-Hadoop 兼容层） spark = SparkSession.builder \ .appName("CSV_Local_Read") \ .master("local[*]") \ # 使用本机所有 CPU 核心 .getOrCreate() # 读取本地 CSV（支持 header、inferSchema 等） df = spark.read \ .option("header", "true") \ .option("inferSchema", "true") \ .csv("file:///path/to/data.csv") # 注意：本地路径必须加 file:/// df.show(5) df.printSchema() spark.stop() ``` ⚠️ 注意事项： - `file:///` 是必需协议（三斜杠），区别于 `./data.csv` 或 `data.csv`（后者会报错或被误认为 HDFS 路径）； - 若 CSV 无表头，设 `.option("header", "false")` 并手动指定 schema； - 真正的 Hadoop 集群环境应将 CSV 放入 HDFS：`hdfs dfs -put data.csv /input/`，再用 `spark.read.csv("hdfs://namenode:9000/input/data.csv")`； ❌ 不推荐方式：直接用 Hadoop Streaming + Python 脚本处理 CSV（复杂、过时、无优势）。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 Unity Hub里做高斯泼溅动态交通重建，到底该用C#还是Python写核心逻辑？

目录

Python怎么在不装Hadoop的情况下，用Spark读本地CSV文件？

Python内容推荐

Python连接HDFS实现文件上传下载及Pandas转换文本文件到CSV操作

Spark编程基础(Python版).rar

python解析hdfs文件和实现方式

Hadoop with Python

code: spark for python developer

Spark for Python Developers.pdf

Python数据分析应用：csv文件数据读写.pptx

pyspark 读取csv文件创建DataFrame的两种方法

PyCharm搭建Spark开发环境实现第一个pyspark程序

使用pyspark将csv文件转为parquet文件

PyCharm搭建Spark开发环境的实现步骤

Learning Spark

Hadoop实时数据处理框架spark技术

Hadoop-Spark集群环境搭建及疏散星团NGC2266数据处理1

Spark机器学习案例实战.pdf

Spark从入门到精通

basketball的csv数据，NBA官方

BigDataProcess:hadoop+spark加速同态加密

基于Hadoop豆瓣电影数据分析实验报告

spark-coursework

VS2022配置OpenCV[源码]

opencv4.7.0用VS2022编译的debug和release库

OpenCV源码阅读教程[项目代码]

编译GPU加速OpenCV[可运行源码]

OpenCV4.8+CUDA编译教程[源码]

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构