airflow中mysql查询的数据直接上传到s3 中的parquet文件

### 实现 MySQL 查询结果以 Parquet 格式上传至 S3 在 Airflow DAG 中实现从 MySQL 查询数据并将其转换为 Parquet 文件格式后上传到 Amazon S3 存储桶的操作涉及多个步骤。以下是具体方法： #### 使用 PythonOperator 和 Pandas 库来完成此任务 ```python from airflow import DAG from airflow.providers.amazon.aws.hooks.s3 import S3Hook from airflow.operators.python_operator import PythonOperator import pandas as pd from sqlalchemy import create_engine import pyarrow.parquet as pq import io def mysql_to_s3_parquet(): # 创建 MySQL 连接引擎 engine = create_engine('mysql+pymysql://username:password@host/dbname') # 执行 SQL 查询并将结果加载到 DataFrame df = pd.read_sql_query("SELECT * FROM your_table", con=engine) # 将 DataFrame 转换为 Parquet 字节流 parquet_buffer = io.BytesIO() table = pa.Table.from_pandas(df) pq.write_table(table, parquet_buffer) # 初始化 AWS S3 Hook 并上传文件 s3_hook = S3Hook(aws_conn_id='your_aws_connection_id') s3_hook.load_string( string_data=parquet_buffer.getvalue(), key="path/to/your/file.parquet", bucket_name="your-s3-bucket-name", replace=True, acl_policy='private' ) with DAG(dag_id='example_dag', schedule_interval=None, start_date=datetime(2023, 1, 1)) as dag: task_mysql_to_s3 = PythonOperator( task_id='task_mysql_to_s3', python_callable=mysql_to_s3_parquet ) ``` 上述代码展示了如何通过 `PythonOperator` 定义一个自定义函数，在该函数中先创建与 MySQL 数据库之间的连接，执行查询语句获取所需记录；接着利用 Pandas 处理这些记录，并借助 PyArrow 工具包将它们转化为 Parquet 格式的字节数组；最后使用 Airflow 提供的 S3Hook 接口把生成好的二进制对象存放到指定位置。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 qiandao这个docker在有验证码的论坛自动签到

目录

airflow中mysql查询的数据直接上传到s3 中的parquet文件

Python内容推荐

Python Airflow数据管道[项目源码]

基于Python开发的ETL数据集成处理工具_支持多源异构数据同步转换清洗聚合_实现企业级数据仓库构建与实时数据分析平台搭建_采用Airflow调度框架结合Pandas数据处理库_.zip

Python库 | openmetadata_airflow-1.0-py3-none-any.whl

Python库 | airflow-provider-great-expectations-0.0.7.tar.gz

Airflow数据管道实战

Airflow2.10.5安装部署[可运行源码]

airflow中文时区完美解决方案_与安装大全

基于Sqoop+Hive+Spark+MySQL+AirFlow+Grafana的工业大数据离线数仓项目

data-pipeline-airflow:使用Airflow的数据管道将数据从S3加载到Redshift

Airflow Documentation

airflow笔记资料

Apache Airflow实战指南：从入门到精通

airflow的安装文件constraints-3.8.txt

Apache Airflow Installation on Ubuntu

Data Pipelines with Apache Airflow.pdf 资料

airFlow的安装使用以及参数说明.docx

Airflow：Airflow数据管道构建实战.docx

PyPI 官网下载 | apache-airflow-providers-apache-hive-1.0.0b2.tar.gz

airflow dag之间调用方法.docx

apache-airflow-2.1.2.tar.gz

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构

Java线程池运行时状态怎么实时掌握？有哪些靠谱的监控手段？

桌面工具软件项目效益评估及市场预测分析

告别遮挡！UniApp中WebView与原生导航栏的和谐共处方案（附完整可运行代码）

OSPF是怎么在企业网里自动找最优路径并分区域管理的？

UML建模课程设计：图书馆管理系统论文