帮我生成Python程序要求爬取豆瓣网星际穿越和上海堡垒的评价与评分各1000条数据，保存为两个csv文件

### 编写爬虫程序抓取豆瓣网评价与评分数据以下是一个完整的解决方案，使用 Python 编写爬虫程序从豆瓣网抓取《星际穿越》和《上海堡垒》的评价与评分数据，并将结果保存为两个 CSV 文件。 #### 1. 环境准备在开始编写爬虫之前，需要确保安装了必要的库。以下是所需的库及其功能： - `requests`：用于发送 HTTP 请求。 - `BeautifulSoup`（来自 `bs4` 模块）：用于解析 HTML 内容。 - `pandas`：用于处理和保存数据到 CSV 文件。可以通过以下命令安装这些库： ```bash pip install requests beautifulsoup4 pandas ``` #### 2. 爬虫代码实现以下是完整的爬虫代码： ```python import requests from bs4 import BeautifulSoup import pandas as pd import time def fetch_reviews(movie_id, num_reviews=1000): base_url = f"https://movie.douban.com/subject/{movie_id}/comments" headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36" } reviews = [] start = 0 while len(reviews) < num_reviews: url = f"{base_url}?start={start}&limit=20&status=P" response = requests.get(url, headers=headers) if response.status_code != 200: print(f"Failed to fetch data from {url}") break soup = BeautifulSoup(response.text, 'html.parser') comment_items = soup.select(".comment-item") if not comment_items: print("No more reviews available.") break for item in comment_items: try: username = item.select_one(".comment-info a").text.strip() rating_tag = item.select_one(".comment-info .rating") rating = rating_tag['class'][0][-2] if rating_tag else None # Extract rating (e.g., "allstar40" -> "4") comment = item.select_one(".short").text.strip() reviews.append({"username": username, "rating": rating, "comment": comment}) except Exception as e: print(f"Error processing review: {e}") start += 20 time.sleep(1) # Add delay to avoid overloading the server return reviews[:num_reviews] def save_to_csv(data, filename): df = pd.DataFrame(data) df.to_csv(filename, index=False, encoding="utf-8-sig") print(f"Data saved to {filename}") # Movie IDs for Interstellar and Shanghai Fortress interstellar_id = "1890316" # ID for Interstellar shanghai_fortress_id = "26861685" # ID for Shanghai Fortress # Fetch and save reviews for Interstellar interstellar_reviews = fetch_reviews(interstellar_id, num_reviews=1000) save_to_csv(interstellar_reviews, "interstellar_reviews.csv") # Fetch and save reviews for Shanghai Fortress shanghai_fortress_reviews = fetch_reviews(shanghai_fortress_id, num_reviews=1000) save_to_csv(shanghai_fortress_reviews, "shanghai_fortress_reviews.csv") ``` #### 3. 代码说明 - **`fetch_reviews` 函数**：该函数接受电影 ID 和需要抓取的评论数量作为参数，返回包含用户名、评分和评论内容的字典列表。通过循环加载更多评论页面，直到达到指定数量或没有更多评论为止。 - **`save_to_csv` 函数**：将抓取的数据保存为 CSV 文件，确保文件编码为 UTF-8-SIG 以支持中文字符[^2]。 - **电影 ID**：豆瓣网每部电影都有唯一的 ID，例如《星际穿越》的 ID 是 `1890316`，而《上海堡垒》的 ID 是 `26861685`。这些 ID 可以通过访问豆瓣电影页面获取。 #### 4. 注意事项 - **反爬机制**：豆瓣网可能对频繁请求进行限制，因此在每次请求之间添加了 1 秒延迟以避免触发反爬机制。 - **用户代理**：设置了自定义的 `User-Agent`，模拟浏览器行为以减少被封禁的风险。 - **数据完整性**：某些评论可能没有评分，因此在提取评分时进行了异常处理。 #### 5. 输出结果运行上述代码后，将生成两个 CSV 文件： - `interstellar_reviews.csv`：包含《星际穿越》的评论与评分数据。 - `shanghai_fortress_reviews.csv`：包含《上海堡垒》的评论与评分数据。 ---

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 Pandas 读取Excel表格，如果第一行第一列的单元格值为空，自动填充“班级”

目录

帮我生成Python程序 要求爬取豆瓣网星际穿越和上海堡垒的评价与评分各1000条数据，保存为两个csv文件

Python内容推荐

python爬取招聘网信息并保存为csv文件

Python爬虫程序源代码爬取豆瓣TOP250排行榜数据电影名称评分导演演员等信息

python爬虫-爬取豆瓣音乐

利用python爬取豆瓣音乐TOP250的数据----爬取的247首歌曲的网址

基于python编写的爬取豆瓣网的爬虫源码

基于python实现爬取携程景点数据与评论数据源码+项目说明.zip

Python爬取猫眼豆瓣数据

毕业设计基于Python豆瓣网站数据爬取与可视化实现项目源码.zip

python爬虫-爬取豆瓣评分前250的电影信息

用爬虫爬取豆瓣电影TOP250，并用PythonTkinter实现GUI展示与电影信息检索

Python爬虫实例-爬取豆瓣Top250-保存为表格

python爬取豆瓣短评

Python爬取电影榜单Top100并保存csv文件（附源码下载）

Python豆瓣图书数据爬取

python爬虫开发学习-爬取豆瓣排行榜电影数据(含GUI界面版)-源码.zip

慕课python百度百科爬取1000个页面

Python 爬虫豆瓣TOP250

python食物数据爬取及分析（源码、爬取数据、数据可视化图表、报告）

python编写程序爬取Boss直聘求职数据

Python课程设计答辩ppt——豆瓣读书TOP250的数据爬取及可视化设计

python 对多个csv文件分别进行处理的方法

用python生成1000个txt文件的方法

python保存数据到本地文件的方法

Python爬取数据并实现可视化代码解析

利用pandas向一个csv文件追加写入数据的实现示例

构建智慧警务大数据平台：全面技术架构设计解析

保姆级教程：用Wireshark抓包分析DoIP协议（从车辆发现到诊断通信）

CAPWAP隧道是怎么在AP和AC之间建立并传输数据的？

2020年互联网大厂薪资职级深度解析

3分钟搞懂dB/dBm/dBV区别：从放大器增益到噪声测量的完整对照表

帮我生成Python程序要求爬取豆瓣网星际穿越和上海堡垒的评价与评分各1000条数据，保存为两个csv文件