怎么在pycharm中爬取豆瓣电影top250中的图片、电影名、导演及参演人员、年份、评分、评价人数、引言

在 PyCharm 中爬取豆瓣电影 Top250 的图片、电影名、导演及参演人员、年份、评分、评价人数、引言，可按以下步骤操作。首先，创建一个 Python 项目并安装必要的库，使用以下命令安装`requests`和`beautifulsoup4`： ```bash pip install requests beautifulsoup4 ``` 以下是实现爬取功能的代码： ```python import requests from bs4 import BeautifulSoup import os # 创建保存图片的文件夹 def create_dir(): file_path = r'./film_pic' if os.path.exists(file_path): # 若文件夹已存在，删除后重新创建 for root, dirs, files in os.walk(file_path, topdown=False): for name in files: os.remove(os.path.join(root, name)) for name in dirs: os.rmdir(os.path.join(root, name)) os.rmdir(file_path) os.mkdir(file_path) # 下载图片 def download_image(url, filename): response = requests.get(url) if response.status_code == 200: with open(filename, 'wb') as f: f.write(response.content) # 爬取单页数据 def scrape_page(url): headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} response = requests.get(url, headers=headers) if response.status_code == 200: soup = BeautifulSoup(response.text, 'html.parser') items = soup.find_all('div', class_='item') movies = [] for item in items: # 图片 img_url = item.find('img')['src'] img_name = os.path.join('./film_pic', img_url.split('/')[-1]) download_image(img_url, img_name) # 电影名 title = item.find('span', class_='title').text # 导演及参演人员 info = item.find('div', class_='bd').p.text.strip().split('\n')[0] # 年份 year = item.find('div', class_='bd').p.text.strip().split('\n')[1].strip().split('/')[0].strip() # 评分 rating = item.find('span', class_='rating_num').text # 评价人数 num_reviews = item.find('div', class_='star').find_all('span')[-1].text[:-3] # 引言 quote = item.find('span', class_='inq') quote = quote.text if quote else '' movie = { 'title': title, 'info': info, 'year': year, 'rating': rating, 'num_reviews': num_reviews, 'quote': quote, 'img_name': img_name } movies.append(movie) return movies return [] # 主函数 def main(): create_dir() all_movies = [] for start in range(0, 250, 25): url = f'https://movie.douban.com/top250?start={start}' movies = scrape_page(url) all_movies.extend(movies) for movie in all_movies: print(movie) if __name__ == "__main__": main() ``` ### 代码解释此代码定义了几个函数： - `create_dir()`函数用于创建保存图片的文件夹，若文件夹已存在则删除后重新创建。 - `download_image()`函数根据图片的 URL 下载图片并保存到指定文件夹。 - `scrape_page()`函数爬取单页的数据，包含图片、电影名、导演及参演人员、年份、评分、评价人数、引言等信息。 - `main()`函数作为主函数，调用`create_dir()`创建文件夹，循环爬取 10 页的数据，将结果保存到`all_movies`列表中，并打印出所有电影的信息。 ### 注意事项 - 豆瓣网站有反爬虫机制，需要设置合适的`User-Agent`来模拟浏览器访问。 - 爬取数据时要遵守网站的`robots.txt`规则。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇我需要可以识别图片中的字符的源代码(openCV)

目录

怎么在pycharm中爬取豆瓣电影top250中的图片、电影名、导演及参演人员、年份、评分、评价人数、引言

Python内容推荐

Python课程设计答辩ppt——豆瓣读书TOP250的数据爬取及可视化设计

豆瓣电影top250python代码（可生成excel文件，也可将结果导入数据库）

爬取豆瓣电影源代码数据-项目实战7-爬取源代码数据-ipynb格式-Python语法-用Jupyter notebook打开

python 电影top250（爬取+可视化）.zip

python3 +lxmL+requests+pycharm组件 爬取图片 建议使用pyCharm编辑器

使用Python在豆瓣电影 Top 250网页中爬取排名信息-脚本

python爬取豆瓣电影(requests模块)

python网络爬虫爬取页面图片

Python爬取猫眼电影数据及可视化

毕业设计 - 基于Python豆瓣电影爬虫采集与分析可视化设计

在pycharm中显示python画的图方法

用60行代码用python编译一个简易爬虫，自动爬取豆瓣酱中《肖申克的救赎》前9页（前180个）热评，并写入txt文本和数据库

Scrapy爬虫框架教程（二）-- 爬取豆瓣电影TOP250

Scrpay爬虫框架爬取豆瓣TOP250示例源码

PycharmProjects:pymysql爬取豆瓣top250电影

py 视频爬取插件 +pycharm +py3 + 安装教程

pycharm爬取51job网站

豆瓣电影Top250自动采集+评分与类型分析+Flask可视化看板

安居客爬虫，采用Pycharm软件爬取安居客小区数据。.zip

labelimg 在pycharm下使用，有关已经标注的一些数据集labelimg 在pycharm下使用，有关已经标注

C++实现的书店管理系统及其功能介绍

别再被手册吓退！10分钟搞定Xilinx FPGA的GTX收发器（附仿真文件修改技巧）

为什么IDE报错'Cannot resolve symbol 'NfcController''？这个类到底从哪来？

操作系统用户接口与作业管理培训课件

从Dashboard到API：手把手教你用Qdrant Console玩转向量数据库（附增删改查实战）

Coze工作流里解析招标PDF后，怎么用节点自动搭出带层级的标书目录？

操作系统进程管理的原理与并发执行特征

CornerNet实战：如何用对角点检测替代传统Anchor Boxes（附代码示例）

云电竞是怎么做到用普通手机或低配电脑就能玩3A大作的？

Premiere软件操作实训报告及技巧掌握

python3 +lxmL+requests+pycharm组件爬取图片建议使用pyCharm编辑器