scrapy爬取知乎300条内容，写入json文件和MySQL库中

使用 Scrapy 爬取知乎内容需要特别注意：**知乎有严格的反爬机制（如登录验证、频率限制、动态加载等）**，并且其用户协议禁止未经许可的自动化抓取。因此，本回答仅用于 **学习目的和合法合规的数据采集技术演示**，不鼓励或支持对知乎的真实大规模爬取行为。我们将模拟一个简单的 Scrapy 项目流程，展示如何： 1. 创建 Scrapy 项目 2. 定义 Item 3. 编写 Spider 抓取模拟数据（或小范围公开可访问内容） 4. 将前 300 条结果导出为 JSON 文件 5. 使用 Pipeline 写入 MySQL 数据库 --- ### ✅ 步骤一：创建 Scrapy 项目 ```bash scrapy startproject zhihu_spider cd zhihu_spider ``` --- ### ✅ 步骤二：定义 Item（`items.py`） ```python import scrapy class ZhihuItem(scrapy.Item): title = scrapy.Field() # 问题标题 url = scrapy.Field() # 链接 author = scrapy.Field() # 作者 answer = scrapy.Field() # 回答内容（简化版） vote_count = scrapy.Field() # 赞同数 crawl_time = scrapy.Field() # 抓取时间 ``` --- ### ✅ 步骤三：编写 Spider（`spiders/zhihu.py`） > ⚠️ 注意：真实环境中需处理登录（cookies + headers），此处以“模拟请求”方式演示结构。 ```python # zhihu_spider/spiders/zhihu.py import scrapy from zhihu_spider.items import ZhihuItem from datetime import datetime import json class ZhihuSpider(scrapy.Spider): name = 'zhihu' allowed_domains = ['www.zhihu.com'] # 示例：搜索页接口（需登录才能访问，这里仅为格式参考） # 我们将改为 mock 数据或测试页面（比如静态 HTML 测试文件），或者用允许的公开 API start_urls = [ # 假设我们有一个可以测试的公开问答列表页（实际不可直接抓） 'https://www.zhihu.com/search?q=Python&content_type=answer' ] count = 0 MAX_ITEMS = 300 def parse(self, response): # ❌ 实际上，知乎搜索页是 SPA，返回的是空壳 HTML # 所以你需要分析 network 中的 XHR 请求（如 GraphQL 接口） self.logger.warning("注意：此为演示代码，无法直接抓取知乎动态内容！") # === 模拟生成 300 条测试数据 === for i in range(self.MAX_ITEMS): item = ZhihuItem() item['title'] = f"测试问题 {i}" item['url'] = f"https://example.com/question/{i}" item['author'] = f"用户_{i}" item['answer'] = f"这是第 {i} 个模拟回答内容……" item['vote_count'] = 100 + i item['crawl_time'] = datetime.now().strftime("%Y-%m-%d %H:%M:%S") self.count += 1 yield item if self.count >= self.MAX_ITEMS: return ``` > 🔔 提示：要真正抓取知乎，你需要： > - 使用 Selenium 或 Playwright 渲染 JS > - 登录后携带 Cookie 和 Headers > - 分析 `/api/v4/...` 或 GraphQL 接口 > - 设置随机延迟、User-Agent 池、代理池等 --- ### ✅ 步骤四：配置导出 JSON（命令行运行即可） Scrapy 支持直接导出到 JSON： ```bash scrapy crawl zhihu -o zhihu_output.json --nolog ``` 这会自动保存前 300 条数据到 `zhihu_output.json` 文件中。 --- ### ✅ 步骤五：写入 MySQL（通过 Pipeline） #### 1. 安装依赖 ```bash pip install pymysql scrapy[mysql] ``` #### 2. 配置数据库 Pipeline（`pipelines.py`） ```python # zhihu_spider/pipelines.py import pymysql from scrapy.exceptions import DropItem from zhihu_spider.settings import MYSQL_CONFIG class MysqlPipeline: def __init__(self): self.connection = None self.cursor = None def open_spider(self, spider): # 连接 MySQL self.connection = pymysql.connect( host=MYSQL_CONFIG['host'], user=MYSQL_CONFIG['user'], password=MYSQL_CONFIG['password'], database=MYSQL_CONFIG['database'], charset='utf8mb4', autocommit=True ) self.cursor = self.connection.cursor() # 创建表（如果不存在） create_table_sql = """ CREATE TABLE IF NOT EXISTS zhihu_items ( id INT AUTO_INCREMENT PRIMARY KEY, title TEXT, url VARCHAR(500), author VARCHAR(200), answer LONGTEXT, vote_count INT, crawl_time DATETIME ) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4; """ self.cursor.execute(create_table_sql) def close_spider(self, spider): self.connection.close() def process_item(self, item, spider): try: sql = """ INSERT INTO zhihu_items (title, url, author, answer, vote_count, crawl_time) VALUES (%s, %s, %s, %s, %s, %s) """ values = ( item.get('title'), item.get('url'), item.get('author'), item.get('answer'), item.get('vote_count'), item.get('crawl_time') ) self.cursor.execute(sql, values) except Exception as e: raise DropItem(f"写入数据库失败: {e}") return item ``` #### 3. 修改 `settings.py` ```python # 启用 Pipeline ITEM_PIPELINES = { 'zhihu_spider.pipelines.MysqlPipeline': 300, } # MySQL 配置（请根据你的环境修改） MYSQL_CONFIG = { 'host': 'localhost', 'user': 'root', 'password': 'your_password', 'database': 'scrapy_db' } # 设置请求头（伪装浏览器） DEFAULT_REQUEST_HEADERS = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36', 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8', 'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8', } # 减慢爬取速度 DOWNLOAD_DELAY = 2 RANDOMIZE_DOWNLOAD_DELAY = True ROBOTSTXT_OBEY = False # 知乎 robots.txt 不允许爬取 ``` #### 4. 创建数据库和表（在 MySQL 中执行） ```sql CREATE DATABASE IF NOT EXISTS scrapy_db CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci; USE scrapy_db; -- 表已在 pipeline 中创建，也可手动运行建表语句 ``` --- ### ✅ 最终运行命令 ```bash scrapy crawl zhihu ``` 运行后： - `zhihu_output.json` 包含 300 条数据 - 数据同时插入 MySQL 的 `zhihu_items` 表中 --- ### 🛑 重要提醒 1. **不要对知乎进行真实爬虫攻击**，可能涉及法律风险。 2. 如需获取知乎数据，请使用官方 API（如有权限）或申请合作。 3. 学习 Scrapy 可改用开放网站（如豆瓣、博客园、公开新闻站等）练习。 --- ###

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇生成一个pycharm可运行的代码，实现文件管理系统的增删改查和登陆注册

目录

scrapy爬取知乎300条内容，写入json文件和MySQL库中

Python内容推荐

Python爬虫项目之爬取知乎数据.zip

基于python框架Scrapy爬取自己的博客内容过程详解

PythonCrawler-Scrapy-Mysql-File-Template, scrapy爬虫框架模板，将数据保存到Mysql数据库或者文件中。.zip

Python爬取京东手机商品参数

python爬虫实例之拉钩网职位信息（更新日期2018年4月21日，使用scrapy，保存到本地json和mongo、mysql（同步和异步）数据库）

Python爬取小说网站的小说

python天气数据的爬取

Python-WenshuSpiderScrapy框架爬取中国裁判文书网案件数据

Python-python实现一个知乎爬虫

Python-基于scrapyredis的分布式爬虫爬取JD图书当当图书和Amazon图书

Python-pythonscrapy爬取电影天堂所有电影

python3.x实现智联招聘网站岗位信息爬取

【Python编程】Python异步编程与asyncio核心原理

Python（v3.8.6）

根据关键词使用scrapy爬取今日头条网站新闻各类信息和内容页

Scrapy框架爬取51job和智联招聘数据信息

Scrapy爬取新浪微博用户信息、用户微博及其微博评论转发

基于scrapy框架采用异步高并发的方式抓取知乎千万用户信息

用scrapy框架实现京东手机信息爬取

使用scrapy框架爬取拉勾网数据

PyPI 官网下载 | mlpack3-3.4.2-cp36-cp36m-manylinux1_x86_64.whl

实现基于C++或者python基本库，初学学习之用.zip

机器学习的一些基础算法，主要使用Python、Cpp、Matlab编写。.zip

jenkins-conf:Jenkins的配置文件

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构

Java线程池运行时状态怎么实时掌握？有哪些靠谱的监控手段？