小红书关键词搜索结果里的用户名、ID、点赞收藏评论数、标题和正文，是怎么通过Python从网页里提取出来的？

<think>由于爬取小红书数据可能涉及法律和道德问题，特别是未经授权爬取用户数据可能违反其服务条款，因此在实际操作前，请确保遵守相关法律法规和目标网站的robots.txt协议。本示例仅用于教育目的，展示如何使用Python进行网页爬取的基本思路，但请注意，小红书有反爬机制，实际爬取可能会遇到困难。另外，小红书网页版对数据的展示有限，且需要登录才能查看更多内容。因此，这里提供一个基于请求和解析的基本框架，但请注意，实际中可能需要处理登录、验证码、动态加载等问题。由于小红书的页面结构可能会变化，以下代码可能需要调整。步骤： 1. 分析小红书搜索页面的请求方式。小红书搜索页面为：https://www.xiaohongshu.com/search_result?keyword=关键字 2. 注意：小红书页面是动态加载的，所以直接请求HTML可能无法获取到数据，需要分析其接口。 3. 经过分析，小红书搜索接口为：https://edith.xiaohongshu.com/api/sns/web/v1/search/notes?keyword=关键字&page=页码&page_size=20 4. 该接口需要携带一些请求头，特别是Cookie（需要登录状态）和User-Agent，否则可能返回403。另外，还需要注意其他反爬措施，例如签名等，但该接口目前似乎没有签名。但是，请注意：这个接口的返回数据是JSON格式，里面包含了帖子列表。由于小红书反爬措施较强，且接口可能随时变化，以下代码仅作为示例，可能无法直接运行。我们将使用requests库，并模拟浏览器请求。注意：请替换示例中的cookie值，并且确保你的爬虫行为符合法律法规和网站规定。由于无法获取到每个用户的具体cookie，这里只展示流程。我们将从接口获取数据，然后解析JSON，提取所需信息。字段说明： - 用户名：在返回的JSON中，每个笔记项（item）下面有user.nickname - 用户id：user.user_id - 点赞数：note.interact_info.liked_count - 收藏数：note.interact_info.collected_count - 评论数：note.interact_info.comment_count - 标题：note.title - 作品内容：note.desc 注意：有些字段可能为空，或者需要进一步处理。由于小红书接口返回的数据结构可能变化，以下代码仅供参考。步骤： 1. 构造请求头，包括Cookie（登录状态）和User-Agent。 2. 分页请求接口。 3. 解析JSON数据，提取所需字段。 4. 保存数据。注意：该接口返回的数据中，可能一页有20条，但实际测试发现，如果没有登录或者cookie无效，可能无法获取数据。由于小红书的反爬机制，建议在爬取时设置合理的间隔时间，避免对服务器造成过大压力。以下代码示例： </think> 以下是一个使用Python编写的爬取小红书关键字搜索结果的爬虫示例，该脚本通过模拟浏览器行为获取数据。**请注意：实际使用时需遵守小红书Robots协议及网站使用条款，避免法律风险。** ```python import requests import json import re from bs4 import BeautifulSoup def crawl_xiaohongshu(keyword): # 基础配置 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36', 'Cookie': '您的登录Cookie' # 需要实际替换 } results = [] # 分页爬取（示例仅取第一页） for page in range(1, 2): url = f'https://www.xiaohongshu.com/search_result?keyword={keyword}&page={page}' try: response = requests.get(url, headers=headers) soup = BeautifulSoup(response.text, 'html.parser') # 提取页面中的JSON数据（小红书数据在<script>标签中） script_tags = soup.find_all('script') for script in script_tags: if 'window.__INITIAL_STATE__' in script.text: json_str = re.search(r'window\.__INITIAL_STATE__\s*=\s*({.*?})</script>', script.text).group(1) data = json.loads(json_str) # 解析笔记数据 notes = data['search']['notes']['notes'] for note in notes: user = note.get('user', {}) interact = note.get('interact_info', {}) results.append({ '用户名': user.get('nickname', ''), '用户ID': user.get('user_id', ''), '点赞数': interact.get('liked_count', 0), '收藏数': interact.get('collected_count', 0), '评论数': interact.get('comment_count', 0), '标题': note.get('title', ''), '内容': note.get('desc', '') }) break except Exception as e: print(f"爬取失败: {str(e)}") return results # 示例调用 if __name__ == "__main__": keyword = "美食" data = crawl_xiaohongshu(keyword) print(json.dumps(data, ensure_ascii=False, indent=2)) ``` ### 关键说明： 1. **反爬措施**： - 需要替换有效的登录`Cookie`（通过浏览器登录后获取） - 小红书会频繁更新反爬策略，可能需要使用Selenium模拟浏览器 2. **数据定位**： - 核心数据存储在`window.__INITIAL_STATE__`的JSON对象中 - 通过正则表达式提取JSON字符串 3. **字段说明**： - 用户ID：`user.user_id` - 作品内容：`note.desc`（可能包含HTML标签） - 互动数据在`interact_info`对象中 ### 注意事项： - 需安装依赖：`pip install requests beautifulsoup4` - 频繁请求可能导致IP被封，建议添加延迟（如`time.sleep(3)`） - 小红书网页结构经常变动，需定期调整解析逻辑

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇这段用MCP协议调用工具的Python代码，到底是怎么一步步跟服务器通信的？

目录

小红书关键词搜索结果里的用户名、ID、点赞收藏评论数、标题和正文，是怎么通过Python从网页里提取出来的？

Python内容推荐

xiaohongshuSpider_python爬虫_python小红书_python

Python_小红书链接提取作品采集工具提取账号发布收藏点赞作品链接提取搜索结果作品用户链接采集小红书作品信息提取小红.zip

Python实现小红书链接转换

Python爬取小红书笔记[代码]

xiaohongshuSpider_python爬虫_python小红书_python_源码.zip

基于selenium+pyqt5开发的小红书自动化工具python源码(自动评论、点赞、收藏、关注).zip

使用Python获取小红书的几千条一级评论+二级评论+展开评论

python小红书关键词爬取网络数据.zip

xhs-小红书数据采集python算法还原

xiaohongshuSpider_python爬虫_python小红书_python.zip

小红书爬虫源码，使用Python编写，下载即可运行，可做毕业设计

python实现自动点赞

基于Python和Selenium的自动化小红书数据抓取工具_模拟用户登录小红书网站根据关键词搜索帖子并收集文章链接保存到本地文件_用于高效自动化数据抓取解析和管理通过模块化日志系.zip

Python-pke是一个基于python的开源关键词Keyphrase提取工具包

基于Selenium自动化测试框架与ChromeDriver浏览器驱动模拟真实用户行为实现小红书平台高效数据采集的Python爬虫程序_小红书关键词帖子文章检索和收集爬虫程序_通过.zip

小红书笔记生成器 (Python 源码)一键将视频转换为优质小红书笔记

python实现TF-IDF算法提取关键词

抓取Bing 搜索引擎的搜索结果的python 脚本

【更新-优质】python爬取与文本分析-提取公司年报关键词附代码和help文档

python开发网页应用批量提取导出核酸结果

python实现用户名密码校验

python通过BF算法实现关键词匹配的方法

Python进行数据提取的方法总结

python实现信号时域统计特征提取代码

python实现提取str字符串/json中多级目录下的某个值

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构