怎么用Python自动抓取古诗文网里带‘春天’标签的诗词并存成文本文件？

### 编写Python爬虫程序抓取古诗文网上与春天相关的诗词为了完成这个任务，可以利用`requests`库发起HTTP请求，并借助`BeautifulSoup`库解析HTML文档。具体来说，先访问含有春天主题诗歌的页面，再提取所需数据并保存。 #### 导入库首先导入必要的第三方库： ```python import requests from bs4 import BeautifulSoup ``` #### 发送GET请求构建URL指向目标网页，这里假设已知存在专门收集春天题材作品的链接；随后创建session对象用于维持会话状态，提高效率的同时也更接近真实浏览器行为。 ```python url = "https://www.gushiwen.org/shiwen/default.aspx?page=1&t=%E6%98%A5%E5%A4%A9" headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)', } session = requests.Session() response = session.get(url, headers=headers) html_content = response.text ``` #### 解析HTML内容使用`BeautifulSoup`加载下载下来的HTML字符串，指定lxml作为解析器，因为其速度较快且功能强大。之后定位到包含每首诗的具体位置，通常这些元素会被包裹在一个特定类名下的div标签内。 ```python soup = BeautifulSoup(html_content, 'lxml') poems_divs = soup.find_all('div', class_='contson')[:3] # 只选取前三个例子展示 ``` #### 提取信息遍历找到的所有诗句容器，分别读取出标题和正文部分。注意实际开发过程中可能需要调整选择路径以适应不同网站结构变化。 ```python for poem_div in poems_divs: title_tag = poem_div.previous_sibling.previous_sibling.find('b') title = title_tag.string.strip() if title_tag else '' lines_tags = poem_div.stripped_strings content = '\n'.join(lines_tags) with open(f'{title}.txt', mode='w+', encoding='utf-8') as file: file.write(content) ``` 上述过程展示了如何基于给定条件筛选出符合条件的内容[^2]。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 Python里怎么设计一个学生类，支持录入课程成绩并自动算平均分？

目录

怎么用Python自动抓取古诗文网里带‘春天’标签的诗词并存成文本文件？

Python内容推荐

Python诗词名句网获取源码.zip

Python爬虫获取古诗词网诗词给孩子学习

Python一分钟生成古诗词

Python程序写诗【1分钟】古诗词生成

python古诗词生成

Python-最全中华古诗词数据库

pygame做的诗词填空游戏(python2和python3都支持)

Python GUI项目：古诗词鉴赏系统代码

python爬虫古诗词

基于Python+neo4j的知识图谱古诗词问答系统.zip

python 爬取古诗文存入mysql数据库的方法

Python爬虫使用示例-诗词名句网的作者名称和作者简介

Python大作业简易爬虫项目-古诗文名句网站数据抓取与可视化分析系统-用于爬取古诗文名句网站内容并模拟七种搜索方式通过PyQt5界面实现数据保存和词云图生成支持用户模式和作者.zip

古诗词自动录入数据库项目_基于Python与MySQL的古诗词数据自动化采集与存储系统_实现从开源古诗词库chinese-poetry中自动解析JSON格式的诗词数据并批量录入My.zip

基于Python的古诗文学网大数据分析项目.zip

基于Python构建的最全中华古诗词数据库设计源码

毕业设计 基于Python+知识图谱(Neo4j)的古诗词问答系统源码+详细文档+全部数据资料（高分项目）.zip

python爬取中庸词诗词保存数据库.rar

爬虫学习笔记：爬取古诗文网

gsww.zip|古诗文网爬取代码

PyPI 官网下载 | mlpack3-3.4.2-cp36-cp36m-manylinux1_x86_64.whl

实现基于C++或者python基本库，初学学习之用.zip

机器学习的一些基础算法，主要使用Python、Cpp、Matlab编写。.zip

jenkins-conf:Jenkins的配置文件

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构

Java线程池运行时状态怎么实时掌握？有哪些靠谱的监控手段？

毕业设计基于Python+知识图谱(Neo4j)的古诗词问答系统源码+详细文档+全部数据资料（高分项目）.zip