用scrapy爬取古诗文网站的数据，要求存储为csv或者文本格式

### 使用 Scrapy 爬取古诗文网站并保存为 CSV 或文本文件为了实现通过 Scrapy 爬取古诗文网站并将数据保存到 CSV 文件或文本文件中，可以按照以下方式构建爬虫程序。 #### 1. 安装依赖库确保已安装 `scrapy` 库。如果未安装，可以通过以下命令完成安装： ```bash pip install scrapy ``` --- #### 2. 创建 Scrapy 项目运行以下命令创建一个新的 Scrapy 项目： ```bash scrapy startproject gushiwen ``` 这将在当前目录下生成一个名为 `gushiwen` 的项目结构。进入该项目目录： ```bash cd gushiwen ``` --- #### 3. 配置 Items 数据模型定义要提取的数据字段，在项目的 `items.py` 中配置如下内容： ```python import scrapy class GushiItem(scrapy.Item): title = scrapy.Field() # 古诗标题 author = scrapy.Field() # 作者名称 dynasty = scrapy.Field() # 所属朝代 content = scrapy.Field() # 正文内容 ``` 此部分用于描述抓取的目标数据项[^4]。 --- #### 4. 编写 Spider 脚本在 `spiders` 子目录中新建一个 Python 文件（如 `gushi_spider.py`），编写具体的爬取逻辑： ```python import scrapy from gushiwen.items import GushiItem class GushiSpider(scrapy.Spider): name = 'gushi' # 爬虫名称 allowed_domains = ['gushiwen.cn'] # 域名范围 start_urls = ['https://www.gushiwen.cn/'] # 初始 URL 地址 def parse(self, response): poems = response.css('div.poem') # 提取页面中的诗歌列表 for poem in poems: item = GushiItem() item['title'] = poem.css('h1::text').get() or '' # 抓取标题 item['author'] = poem.css('.author::text').get() or '' # 抓取作者 item['dynasty'] = poem.css('.dynasty::text').get() or '' # 抓取朝代 item['content'] = '\n'.join(poem.css('.content p::text').getall()) # 抓取正文 yield item # 返回抓取的结果给管道处理 next_page = response.css('a.next-page::attr(href)').get() # 查找下一页链接 if next_page is not None: yield response.follow(next_page, self.parse) # 继续请求下一页 ``` 这里使用 CSS Selector 来定位 HTML 元素，并从中抽取所需的信息[^2]。 --- #### 5. 设置持久化存储编辑 `settings.py` 文件来启用 Feeds 导出功能，从而自动将结果保存至目标文件格式： ```python FEEDS = { 'output.csv': { # 输出路径及文件名 'format': 'csv', # 文件格式 (可选 csv/json/text) 'encoding': 'utf8', 'overwrite': True, }, } ``` 这样无需额外编码即可轻松导出成指定类型的文档[^3]。对于纯文本形式，则需自定义 Pipeline 并重载其方法以逐条记录每笔资料于单独档案里头；或者直接修改 FEED 参数里的 format 字段设为 text 即可满足需求。 --- #### 6. 运行爬虫最后执行下面这条指令启动刚才建立好的蜘蛛程式去采集资料： ```bash scrapy crawl gushi -o output.txt --logfile log.txt ``` 其中 `-o` 参数指定了输出文件的位置与类型，而 `--logfile` 将日志信息存入特定位置方便后续排查错误[^1]。 --- ### 注意事项 - 如果遇到反爬机制，可能需要加入 User-Agent 模拟浏览器行为或是设置延时访问间隔。 - 对动态加载的内容考虑引入 Selenium 辅助解析 JavaScript 渲染后的 DOM 结构[^2]。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇创建Python函数，功能是返回两个数的平均值

目录

用scrapy爬取古诗文网站的数据，要求存储为csv或者文本格式

Python内容推荐

python食物数据爬取及分析（源码、爬取数据、数据可视化图表、报告）

python爬虫框架scrapy实战之爬取京东商城进阶篇

东方财富股票评论数据 Python爬虫代码Scrapy框架

Python爬虫实例——scrapy框架爬取拉勾网招聘信息

scrapy框架爬取小说网的数据的python源码

Python爬虫实战：Scrapy豆瓣电影爬取

Python-WenshuSpiderScrapy框架爬取中国裁判文书网案件数据

机器人控制系统与运动规划：两轮差速运动学+Pure Pursuit路径跟踪Python仿真

[Python+Django+Spark]基于大数据技术的医疗数据分析系统 全套源码+论文+PPT+演示视频+数据库文档

算机语言学中n-gram算法的python实

scrapy实例爬取网站

Scrapy爬取新浪微博用户信息、用户微博及其微博评论转发

根据关键词使用scrapy爬取今日头条网站新闻各类信息和内容页

Scrapy框架爬取51job和智联招聘数据信息

Scrapy入门：爬取古诗文

【Scrapy爬虫项目】爬取books.toscrape.com上书籍的相关信息并存储为csv文件

各大网站新闻数据爬取.rar

爬虫实战之研招网数据爬取（含分析与实现）

Scrapy微博一站式爬取（可用）

Scrapy爬取网站：Quotes to Scrape

关于jupyter打开之后不能直接跳转到浏览器的解决方式

Anaconda和ipython环境适配的实现

anaconda组件图标

Anaconda+spyder+pycharm的pytorch配置详解(GPU)

mayavi mlab简明ppt教程

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构

[Python+Django+Spark]基于大数据技术的医疗数据分析系统全套源码+论文+PPT+演示视频+数据库文档