京东商品评论是怎么通过Python抓取的？背后用了什么接口和技巧？

# Python爬取京东商品评论的完整实现指南 ## 一、技术原理与准备工作 ### 1.1 京东评论接口分析京东商品评论数据通过AJAX接口动态加载，采用JSON格式返回数据。通过分析网络请求，可以发现评论数据的真实接口地址，这比直接解析HTML页面更加高效和稳定[ref_1]。 ### 1.2 所需环境配置在开始编写爬虫代码前，需要安装以下Python库： ```python # 安装必要的库 pip install requests pandas ``` 核心库功能说明： - **requests**：用于发送HTTP请求获取评论数据 - **pandas**：用于数据处理和CSV文件保存 - **json**：Python内置库，用于解析JSON数据 ## 二、完整爬虫代码实现 ### 2.1 基础爬虫实现 ```python import requests import json import pandas as pd import time import random class JDCommentCrawler: def __init__(self): self.headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36', 'Referer': 'https://item.jd.com/' } self.base_url = 'https://club.jd.com/comment/productPageComments.action' def get_comments(self, product_id, page=0, page_size=10): """ 获取指定商品的评论数据 :param product_id: 商品ID :param page: 页码 :param page_size: 每页评论数量 :return: 评论数据列表 """ params = { 'productId': product_id, 'score': 0, # 0表示所有评价，1-好评，2-中评，3-差评 'sortType': 5, # 排序类型，5-推荐排序 'page': page, 'pageSize': page_size, 'callback': 'fetchJSON_comment98' } try: response = requests.get(self.base_url, params=params, headers=self.headers) # 处理JSONP响应格式 json_str = response.text.replace('fetchJSON_comment98(', '').replace(');', '') data = json.loads(json_str) if data.get('comments'): return data['comments'] else: print(f"第{page}页没有获取到评论数据") return [] except Exception as e: print(f"获取评论失败: {e}") return [] def crawl_multiple_pages(self, product_id, max_pages=10): """ 爬取多页评论数据 :param product_id: 商品ID :param max_pages: 最大爬取页数 :return: 所有评论数据 """ all_comments = [] for page in range(max_pages): print(f"正在爬取第{page+1}页评论...") comments = self.get_comments(product_id, page=page) if not comments: break all_comments.extend(comments) # 添加随机延迟，避免请求过于频繁 time.sleep(random.uniform(1, 3)) return all_comments # 使用示例 if __name__ == "__main__": crawler = JDCommentCrawler() product_id = "100012043978" # 示例商品ID comments_data = crawler.crawl_multiple_pages(product_id, max_pages=5) print(f"共获取到{len(comments_data)}条评论") ``` ### 2.2 数据存储实现 ```python def save_to_csv(comments, filename="jd_comments.csv"): """ 将评论数据保存为CSV文件 :param comments: 评论数据列表 :param filename: 保存的文件名 """ if not comments: print("没有评论数据可保存") return # 提取关键字段 processed_data = [] for comment in comments: comment_info = { '用户昵称': comment.get('nickname', ''), '评论内容': comment.get('content', '').strip(), '评分': comment.get('score', 0), '评论时间': comment.get('creationTime', ''), '点赞数': comment.get('usefulVoteCount', 0), '回复数': comment.get('replyCount', 0), '用户级别': comment.get('userLevelName', ''), '商品颜色': comment.get('productColor', ''), '商品规格': comment.get('productSize', '') } processed_data.append(comment_info) # 创建DataFrame并保存 df = pd.DataFrame(processed_data) df.to_csv(filename, index=False, encoding='utf-8-sig') print(f"评论数据已保存到 {filename}") # 在爬取完成后调用保存函数 save_to_csv(comments_data) ``` ## 三、关键技术要点详解 ### 3.1 请求参数解析 | 参数名 | 含义 | 可选值 | 说明 | |--------|------|--------|------| | productId | 商品ID | 数字字符串 | 必需参数，从商品URL中获取 | | score | 评价类型 | 0,1,2,3 | 0-全部，1-好评，2-中评，3-差评[ref_2] | | sortType | 排序方式 | 5,6 | 5-推荐排序，6-时间排序 | | page | 页码 | 从0开始 | 每页增加1 | | pageSize | 每页数量 | 10,20,30 | 建议设置为10 | ### 3.2 反爬虫策略应对 ```python def advanced_crawler_setup(): """ 高级爬虫配置，应对反爬措施 """ session = requests.Session() # 设置更真实的请求头 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36', 'Accept': 'application/json, text/javascript, */*; q=0.01', 'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8', 'Accept-Encoding': 'gzip, deflate, br', 'Connection': 'keep-alive', 'Referer': 'https://item.jd.com/' } # 添加Cookie（如果需要） cookies = { # 这里可以添加必要的cookies } return session, headers, cookies ``` ## 四、实际应用案例 ### 4.1 获取商品ID的方法 ```python def extract_product_id(url): """ 从京东商品URL中提取商品ID :param url: 商品页面URL :return: 商品ID """ # 示例URL: https://item.jd.com/100012043978.html import re pattern = r'/(\d+)\.html' match = re.search(pattern, url) if match: return match.group(1) else: raise ValueError("无法从URL中提取商品ID") ``` ### 4.2 数据清洗与预处理 ```python def clean_comment_data(comments): """ 清洗评论数据 :param comments: 原始评论数据 :return: 清洗后的数据 """ cleaned_comments = [] for comment in comments: # 过滤空评论 if not comment.get('content', '').strip(): continue # 处理特殊字符和HTML标签 content = comment['content'].replace('\n', ' ').replace('\r', ' ') # 添加清洗后的数据 cleaned_comment = comment.copy() cleaned_comment['content'] = content cleaned_comments.append(cleaned_comment) return cleaned_comments ``` ## 五、完整工作流程示例 ```python def complete_workflow(product_url, save_filename="jd_comments.csv", max_pages=10): """ 完整的爬虫工作流程 """ # 1. 提取商品ID product_id = extract_product_id(product_url) print(f"商品ID: {product_id}") # 2. 创建爬虫实例 crawler = JDCommentCrawler() # 3. 爬取评论数据 print("开始爬取评论数据...") comments = crawler.crawl_multiple_pages(product_id, max_pages=max_pages) # 4. 数据清洗 cleaned_comments = clean_comment_data(comments) # 5. 保存数据 save_to_csv(cleaned_comments, save_filename) # 6. 输出统计信息 print(f"\n爬取完成!") print(f"原始评论数: {len(comments)}") print(f"有效评论数: {len(cleaned_comments)}") print(f"数据已保存至: {save_filename}") # 执行示例 if __name__ == "__main__": example_url = "https://item.jd.com/100012043978.html" complete_workflow(example_url, max_pages=5) ``` ## 六、注意事项与最佳实践 ### 6.1 合规使用建议 - **遵守robots.txt**：在使用前检查京东的robots.txt文件 - **控制请求频率**：添加适当的延迟，避免对服务器造成压力 - **数据使用范围**：仅用于学习和研究目的 ### 6.2 性能优化技巧 - 使用会话保持连接复用 - 实现异常重试机制 - 分批保存数据，避免内存溢出 ### 6.3 常见问题解决 - **请求被拒绝**：检查User-Agent和请求头设置 - **数据为空**：验证商品ID和接口参数 - **编码问题**：确保使用正确的字符编码（UTF-8）通过上述完整的实现方案，您可以成功爬取京东商品评论数据并进行后续的数据分析和可视化工作。这个方案结合了多个参考资料的最佳实践[ref_3][ref_4][ref_5]，提供了从基础到高级的完整解决方案。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇怎么用C++和Python画一个空心正方形？边长由用户输入，外框是'#'，内部全填'.'