怎么用Python自动抓取中国银行前三页外汇牌价，并用正则解析+保存为带中文表头的CSV？

你好！我是视觉专家。根据你提供的图片代码以及“爬取前三页并保存为CSV”的需求，我为你编写了完整的Python代码。 ### 核心修改点说明（基于你的图片）： 1. **循环分页**：中国银行的外汇牌价列表通常通过URL参数 `?p=1`, `?p=2` 等来控制页码。我在代码中增加了一个循环来处理前3页。 2. **正则优化**：保留了你图片中的命名分组正则逻辑，但针对多页数据进行了适配。 3. **CSV写入**：引入了 `csv` 模块，将提取到的字典数据写入 `boc_rates.csv` 文件。 ### 完整代码实现请确保你已经安装了 `requests` 库 (`pip install requests`)。 ```python import requests import re import csv import time def scrape_boc_rates(): # 基础URL，注意后面没有页码参数 base_url = "https://www.bankofchina.com/sourcedb/whpj/" # 设置请求头，模拟浏览器 headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36" } # 准备存储所有数据的列表 all_data = [] print("开始爬取前3页数据...") # 循环爬取第1页到第3页 for page_num in range(1, 4): # 构造带页码的URL (中国银行通常是 ?p=1, ?p=2) if page_num == 1: url = base_url else: url = f"{base_url}?p={page_num}" print(f"正在抓取第 {page_num} 页: {url}") try: response = requests.get(url, headers=headers) response.encoding = 'utf-8' # 设置编码 page_text = response.text # --- 正则表达式部分 (参考你的图片逻辑) --- # 解释：匹配 <tr>...</tr>，并捕获其中的 <td> 内容 # 使用非贪婪匹配 .*? 防止跨行匹配错误 # 注意：实际网页结构中，日期可能在最后一列或特定位置，这里根据常见结构编写 # 如果你的图片中正则能跑通，可以直接沿用，这里提供一个更通用的版本适配表格行 pattern = re.compile( r'<tr>.*?' r'<td>(?P<currency>.*?)</td>' # 货币名称 r'.*?<td>(?P<xhmcj>.*?)</td>' # 现汇买入价 r'.*?<td>(?P<xcmcj>.*?)</td>' # 现钞买入价 r'.*?<td>(?P<xhmsj>.*?)</td>' # 现汇卖出价 r'.*?<td>(?P<xcmsj>.*?)</td>' # 现钞卖出价 r'.*?<td class="BOC_table_publish">(?P<date>.*?)</td>' # 发布时间 r'.*?</tr>', re.S # re.S 让 . 可以匹配换行符 ) result = pattern.findall(page_text) # 如果上面的正则太严格匹配不到，可以使用你图片里的简单版逻辑进行清洗 # 这里演示如何处理提取到的元组数据 for item in result: # item 是一个元组，对应正则中括号捕获的顺序 # 假设 result 是 findall 返回的列表，每个元素是 (currency, xhmcj, ..., date) # 为了兼容你图片中的 groupdict 写法，我们需要用 search 或者重新构造 # 但 findall 效率更高。这里手动构建字典： # 清洗数据：去除空格和换行 currency = item[0].strip() xhmcj = item[1].strip() xcmcj = item[2].strip() xhmsj = item[3].strip() xcmsj = item[4].strip() date_raw = item[5].strip() # 处理日期格式 (参考你图片中的 split 操作) date_clean = date_raw.split(' ')[0] if ' ' in date_raw else date_raw data_dict = { '货币名称': currency, '现汇买入价': xhmcj, '现钞买入价': xcmcj, '现汇卖出价': xhmsj, '现钞卖出价': xcmsj, '发布日期': date_clean } all_data.append(data_dict) # 礼貌性延时，避免请求过快被封 time.sleep(1) except Exception as e: print(f"第 {page_num} 页抓取失败: {e}") # --- 保存到 CSV 文件 --- if all_data: filename = 'boc_exchange_rates_top3.csv' # 定义CSV的列名 fieldnames = ['货币名称', '现汇买入价', '现钞买入价', '现汇卖出价', '现钞卖出价', '发布日期'] with open(filename, 'w', newline='', encoding='utf-8-sig') as f: writer = csv.DictWriter(f, fieldnames=fieldnames) writer.writeheader() # 写入表头 writer.writerows(all_data) # 写入所有数据 print(f"\n成功！共抓取 {len(all_data)} 条数据，已保存至 {filename}") else: print("\n未抓取到任何数据，请检查正则表达式或网络连接。") if __name__ == "__main__": scrape_boc_rates() ``` ### 代码关键点解析： 1. **URL 构造逻辑**： * 代码使用了 `f"{base_url}?p={page_num}"`。这是中国银行网站常见的分页方式。第一页通常不需要参数，第二页开始加 `?p=2`。 2. **正则表达式 (`re.S`)**： * 我在正则中加入了 `re.S` 标志。这是因为HTML源码中 `<tr>` 标签内部通常包含换行符，如果不加这个标志，`.` 无法匹配换行符，会导致匹配失败。 * 正则中的 `(?P<name>...)` 是命名分组，虽然 `findall` 返回的是元组，但在逻辑上对应了你图片中的 `groupdict` 概念。 3. **CSV 保存 (`utf-8-sig`)**： * 在 `open` 函数中使用 `encoding='utf-8-sig'` 非常重要。这会在文件开头添加 BOM 头，防止用 Excel 打开中文 CSV 文件时出现乱码。 * 使用 `csv.DictWriter` 可以直接将字典列表写入，非常方便。 ### 如何运行： 1. 将上述代码复制到一个新的 Python 文件中（例如 `boc_crawler.py`）。 2. 在终端或命令行运行 `python boc_crawler.py`。 3. 运行结束后，同目录下会生成一个 `boc_exchange_rates_top3.csv` 文件。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 Python列表推导式中如何跳过两个对应元素相等的情况？

目录

怎么用Python自动抓取中国银行前三页外汇牌价，并用正则解析+保存为带中文表头的CSV？

Python内容推荐

python的pandas工具包，保存.csv文件时不要表头的实例

python读csv文件时指定行为表头或无表头的方法

合并所有csv文件并去除表头的python代码.zip

python抓取51job职位信息，保存到csv及mysql中

Python批量处理csv并保存过程解析

python爬取招聘网信息并保存为csv文件

Python简单爬虫导出CSV文件的实例讲解

Python写入CSV文件的方法

python 借助numpy保存数据为csv格式的实现方法

Python爬虫--抓取百度百科的前1000个页面

Python拆分大型CSV文件代码实例

python爬虫 猫眼电影和电影天堂数据csv和mysql存储过程解析

python抓取新浪微博数据

python保存文件的几种方式

python网络爬虫：实现百度热搜榜前50数据爬取，生成CSV文件

Python读取csv文件实例解析

Python实现抓取网页生成Excel文件的方法示例

小红书关键词笔记搜索Python 爬虫 （csv保存）.zip

python爬虫爬取网页表格数据

python爬虫抓取58房源在高德地图显示

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构

Java线程池运行时状态怎么实时掌握？有哪些靠谱的监控手段？

桌面工具软件项目效益评估及市场预测分析

告别遮挡！UniApp中WebView与原生导航栏的和谐共处方案（附完整可运行代码）

OSPF是怎么在企业网里自动找最优路径并分区域管理的？

UML建模课程设计：图书馆管理系统论文

python爬虫猫眼电影和电影天堂数据csv和mysql存储过程解析

小红书关键词笔记搜索Python 爬虫（csv保存）.zip