用scrapy的xpath爬取https://www. sanguosha.com/rank的官阶榜，排位榜，王站榜

为了爬取三国杀官网排行榜页面（https://www.sanguosha.com/rank）中的官阶榜、排位榜和王者榜数据，可以使用 Scrapy 框架结合 XPath 实现数据提取。以下是一个完整的实现方案，涵盖 Spider 编写、XPath 表达式设计以及数据结构定义。 ### 数据字段定义在 `items.py` 中定义用于存储排行榜信息的数据模型： ```python import scrapy class SanguoshaRankItem(scrapy.Item): rank_type = scrapy.Field() # 排行榜类型：官阶榜、排位榜、王者榜 position = scrapy.Field() # 排名位置 name = scrapy.Field() # 玩家名称 score = scrapy.Field() # 分数或段位信息 ``` ### Spider 实现在 `spiders/sanguosha_rank_spider.py` 中编写 Spider 类，分别解析三个榜单的数据： ```python import scrapy from sanguosha_spider.items import SanguoshaRankItem class SanguoshaRankSpider(scrapy.Spider): name = 'sanguosha_rank' allowed_domains = ['sanguosha.com'] start_urls = ['https://www.sanguosha.com/rank'] def parse(self, response): # 官阶榜 for row in response.xpath('//div[@id="official-rank"]//tr'): item = SanguoshaRankItem() item['rank_type'] = '官阶榜' item['position'] = row.xpath('.//td[1]/text()').get() item['name'] = row.xpath('.//td[2]/text()').get() item['score'] = row.xpath('.//td[3]/text()').get() yield item # 排位榜 for row in response.xpath('//div[@id="rank-match"]//tr'): item = SanguoshaRankItem() item['rank_type'] = '排位榜' item['position'] = row.xpath('.//td[1]/text()').get() item['name'] = row.xpath('.//td[2]/text()').get() item['score'] = row.xpath('.//td[3]/text()').get() yield item # 王者榜 for row in response.xpath('//div[@id="king-rank"]//tr'): item = SanguoshaRankItem() item['rank_type'] = '王者榜' item['position'] = row.xpath('.//td[1]/text()').get() item['name'] = row.xpath('.//td[2]/text()').get() item['score'] = row.xpath('.//td[3]/text()').get() yield item ``` 上述代码中通过多个 XPath 表达式定位不同榜单的 `<tr>` 行，并从中提取排名、玩家名与积分信息[^1]。 ### 输出配置为将结果输出至 JSON 文件，在 `settings.py` 中添加如下配置： ```python FEED_FORMAT = "json" FEED_URI = "sanguosha_rank_data.json" ``` ### 运行爬虫执行以下命令启动爬虫并获取排行榜数据： ```bash scrapy crawl sanguosha_rank ``` 该命令会触发 Spider 的 `parse` 方法，依次抓取三大榜单内容，并按照设定格式保存到本地文件。 ### 注意事项 - **页面结构验证**：实际 XPath 表达式需根据目标网页的 HTML 结构进行调整，建议使用浏览器开发者工具分析 DOM 元素。 - **反爬策略应对**：若网站存在请求频率限制或 IP 封锁机制，可考虑使用代理池、设置随机 User-Agent 等方式规避检测。 - **数据更新频率**：排行榜通常每日更新一次，合理控制爬取间隔以减少服务器压力。 ---

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 scrapy用xpath爬取sanguosha详情