Python爬虫程序，使用正则表达式方法和xpath爬取《星际穿越》和《上海堡垒》的影评以及对应评分各1000条，并将结果保存为两个CSV文件

### 使用 Python 编写爬虫程序，通过正则表达式和 XPath 方法爬取影评数据以下是一个完整的 Python 程序，结合正则表达式和 XPath 方法爬取《星际穿越》与《上海堡垒》的影评及评分各 1000 条，并将结果保存为 CSV 文件。 #### 爬虫代码实现 ```python import requests import re from lxml import etree import csv # 定义函数用于通过 XPath 提取影评数据 def fetch_reviews_xpath(movie_name, url): headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36" } response = requests.get(url, headers=headers) if response.status_code == 200: html = etree.HTML(response.text) # 使用 XPath 提取评论内容和评分 reviews = html.xpath('//div[@class="review"]/text()')[:1000] # 根据实际网页结构调整XPath表达式[^1] ratings = html.xpath('//span[@class="rating"]/text()')[:1000] # 根据实际网页结构调整XPath表达式[^1] # 清洗数据并存储到列表中 cleaned_reviews = [] for i in range(min(len(reviews), len(ratings))): review_text = reviews[i].strip() rating_value = ratings[i].strip() cleaned_reviews.append({"movie": movie_name, "rating": rating_value, "content": review_text}) return cleaned_reviews else: print(f"Failed to fetch data for {movie_name}. Status code: {response.status_code}") return [] # 定义函数用于通过正则表达式提取影评数据 def fetch_reviews_regex(movie_name, url): headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36" } response = requests.get(url, headers=headers) if response.status_code == 200: content = response.text # 使用正则表达式提取评论内容和评分 reviews = re.findall(r'<div class="review">(.*?)</div>', content, re.S)[:1000] # 根据实际网页结构调整正则表达式[^2] ratings = re.findall(r'<span class="rating">(.*?)</span>', content, re.S)[:1000] # 根据实际网页结构调整正则表达式[^2] # 清洗数据并存储到列表中 cleaned_reviews = [] for i in range(min(len(reviews), len(ratings))): review_text = reviews[i].strip() rating_value = ratings[i].strip() cleaned_reviews.append({"movie": movie_name, "rating": rating_value, "content": review_text}) return cleaned_reviews else: print(f"Failed to fetch data for {movie_name}. Status code: {response.status_code}") return [] # 定义函数用于保存数据到 CSV 文件 def save_to_csv(data, filename): with open(filename, 'w', newline='', encoding='utf-8') as file: writer = csv.DictWriter(file, fieldnames=["movie", "rating", "content"]) writer.writeheader() writer.writerows(data) # 爬取《星际穿越》的影评数据（XPath方法） interstellar_url_xpath = "https://example.com/interstellar-reviews" # 替换为目标网站的实际 URL interstellar_reviews_xpath = fetch_reviews_xpath("Interstellar (XPath)", interstellar_url_xpath) save_to_csv(interstellar_reviews_xpath, "interstellar_reviews_xpath.csv") # 爬取《星际穿越》的影评数据（正则表达式方法） interstellar_url_regex = "https://example.com/interstellar-reviews" # 替换为目标网站的实际 URL interstellar_reviews_regex = fetch_reviews_regex("Interstellar (Regex)", interstellar_url_regex) save_to_csv(interstellar_reviews_regex, "interstellar_reviews_regex.csv") # 爬取《上海堡垒》的影评数据（XPath方法） shanghai_fortress_url_xpath = "https://example.com/shanghai-fortress-reviews" # 替换为目标网站的实际 URL shanghai_fortress_reviews_xpath = fetch_reviews_xpath("Shanghai Fortress (XPath)", shanghai_fortress_url_xpath) save_to_csv(shanghai_fortress_reviews_xpath, "shanghai_fortress_reviews_xpath.csv") # 爬取《上海堡垒》的影评数据（正则表达式方法） shanghai_fortress_url_regex = "https://example.com/shanghai-fortress-reviews" # 替换为目标网站的实际 URL shanghai_fortress_reviews_regex = fetch_reviews_regex("Shanghai Fortress (Regex)", shanghai_fortress_url_regex) save_to_csv(shanghai_fortress_reviews_regex, "shanghai_fortress_reviews_regex.csv") ``` #### 代码说明 - **`fetch_reviews_xpath`** 函数：使用 XPath 提取影评数据。需要根据目标网站的实际 HTML 结构调整 XPath 表达式。 - **`fetch_reviews_regex`** 函数：使用正则表达式提取影评数据。需要根据目标网站的实际 HTML 结构调整正则表达式。 - **`save_to_csv`** 函数：将爬取到的数据保存为 CSV 文件，便于后续分析和使用。 - **正则表达式与 XPath 的对比**：正则表达式适用于简单的字符串匹配，而 XPath 更适合处理结构化的 HTML 数据，能够更精确地定位目标元素[^3]。 #### 注意事项在运行上述代码前，请确保替换所有 `url` 变量为目标网站的实际 URL。此外，应遵守目标网站的 `robots.txt` 文件规定以及相关法律法规，确保爬取行为合法合规。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇下面是一个完整的Python爬虫程序，使用正则表达式方法爬取《星际穿越》和《上海堡垒》的影评数据和对应评分并将结果保存为两个CSV文件

目录

Python爬虫程序，使用正则表达式方法和xpath爬取《星际穿越》和《上海堡垒》的影评以及对应评分各1000条，并将结果保存为两个CSV文件

Python内容推荐

Python爬虫运用正则表达式的方法和优缺点

【Python网络爬虫】python爬虫用正则表达式进行数据清洗与处理.txt

python爬虫，爬取10000张高清美图，适合新手进阶，xpath和正则表达式匹配

基于python爬虫对豆瓣影评分析进行爬取的课程设计.zip

学生信息爬虫系统-基于Python和Scrapy框架开发的自动化数据采集工具支持多线程与分布式爬取集成Selenium模拟浏览器行为使用XPath和正则表达式解析网页具备反.zip

网络爬虫-通过正则表达式快速获取电影的下载地址-Python实例源码.zip

Python网络爬虫学习项目_包含网页下载工具Urllib2和Requests_页面内容提取工具正则表达式BeautifulSoup和lxmlXpath_数据存储Excel和MyS.zip

LeetCode Python爬虫，爬取题目以及提交代码.zip

python正则表达式及0.12版本scrapyAP

Python网络爬虫程序技术--项目1爬取学生信息.zip

【顶级EI复现】基于 KKT 条件与列约束生成的微电网两阶段鲁棒优化经济调度求解方法研究（Python代码实现）

正则表达式和XPATH

表达式验证1.0[正则，xpath测试]

基于网络爬虫技术搭建药品数据库项目-使用Scrapy框架和BeautifulSoup模块进行数据爬取-通过正则表达式和Xpath解析网页内容-调研药品数据网站并修正国家食品药品监督.zip

正则表达式基础.zip

正则表达式+xml

基于-NET-Framework-35-SP1-开发的智能网络爬虫数据采集工具-支持多线程网页抓取与内容解析-提供可视化任务配置界面与实时监控面板-集成正则表达式匹配与XPath提.zip

爬虫解析_jsonpath的基本使用和爬取淘票票的城市.zip

牛客竞赛平台用户排名信息爬取与数据分析系统_基于requests和BeautifulSoup以及Scrapy框架的多模式网络爬虫技术实现_通过XPath和正则表达式匹配高效采集牛客.zip

【FIR滤波器】调频连续波Chirp雷达研究（Matlab代码实现）

Python使用xpath实现图片爬取

Python爬虫实例_城市公交网络站点数据的爬取方法

python爬虫之xpath的基本使用详解

Python爬虫爬取新闻资讯案例详解

python爬虫框架scrapy实战之爬取京东商城进阶篇

克雷格插值电路逻辑综合与优化技术研究

RepeatMasker手动安装实战：如何解决RepBase和Dfam数据库配置难题

在 Fragment 里怎么实现音频播放、暂停和资源释放？

计算机专业实习体验：技术积累与互联网影响

用GraphRAG 2.0.0+阿里云百炼，给你的TXT文档做个“知识体检”：从文本到图谱的完整分析报告