下面是一个完整的Python爬虫程序，使用正则表达式方法爬取《星际穿越》和《上海堡垒》的影评数据和对应评分并将结果保存为两个CSV文件

### 完整的 Python 爬虫程序以下是一个完整的 Python 程序，使用正则表达式爬取《星际穿越》和《上海堡垒》的影评数据与评分，并将结果保存为两个 CSV 文件。程序结合了 `requests` 库、正则表达式以及文件操作[^1]。 ```python import requests import re import csv # 定义函数用于爬取影评数据 def fetch_movie_reviews(movie_name, url): headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36" } response = requests.get(url, headers=headers) if response.status_code == 200: content = response.text # 使用正则表达式提取评论和评分 reviews = re.findall(r'<div class="review">(.*?)</div>', content, re.S) ratings = re.findall(r'<span class="rating">(.*?)</span>', content, re.S) # 清洗数据并存储到列表中 cleaned_reviews = [] for i in range(min(len(reviews), len(ratings))): review_text = re.sub(r'<.*?>', '', reviews[i]).strip() rating_value = ratings[i].strip() cleaned_reviews.append({"movie": movie_name, "rating": rating_value, "content": review_text}) return cleaned_reviews else: print(f"Failed to fetch data for {movie_name}. Status code: {response.status_code}") return [] # 定义函数用于保存数据到 CSV 文件 def save_to_csv(data, filename): with open(filename, 'w', newline='', encoding='utf-8') as file: writer = csv.DictWriter(file, fieldnames=["movie", "rating", "content"]) writer.writeheader() writer.writerows(data) # 爬取《星际穿越》的影评数据 interstellar_url = "https://example.com/interstellar-reviews" # 替换为目标网站的实际 URL interstellar_reviews = fetch_movie_reviews("Interstellar", interstellar_url) save_to_csv(interstellar_reviews, "interstellar_reviews.csv") # 爬取《上海堡垒》的影评数据 shanghai_fortress_url = "https://example.com/shanghai-fortress-reviews" # 替换为目标网站的实际 URL shanghai_fortress_reviews = fetch_movie_reviews("Shanghai Fortress", shanghai_fortress_url) save_to_csv(shanghai_fortress_reviews, "shanghai_fortress_reviews.csv") ``` #### 代码说明 - **`fetch_movie_reviews`** 函数：该函数接收电影名称和目标 URL，通过正则表达式提取评论内容和评分[^2]。 - **`save_to_csv`** 函数：将爬取到的数据保存为 CSV 文件，便于后续分析和使用[^3]。 - **正则表达式**：`re.findall` 用于匹配 HTML 中的评论和评分部分。需要根据实际网页结构调整正则表达式[^4]。 #### 注意事项在运行上述代码前，请确保替换 `interstellar_url` 和 `shanghai_fortress_url` 为实际的目标网站 URL。此外，应遵守目标网站的 `robots.txt` 文件规定以及相关法律法规，确保爬取行为合法合规[^5]。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇怎么实现docker容器云环境下的云主机集群管理平台实现