python在在豆瓣前250的电影信息（名称，排名，导演，主演，类别，评分）可视化分析

### Python 豆瓣 Top 250 电影数据爬取与可视化分析 #### 数据爬取为了获取豆瓣Top 250电影的相关信息，可以通过网络爬虫技术实现。具体来说，可以使用`requests`库来发送HTTP请求并抓取网页内容，再通过`BeautifulSoup`解析HTML文档提取所需的数据[^3]。以下是完整的爬虫代码示例： ```python import requests from bs4 import BeautifulSoup import pandas as pd headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36' } url_template = "https://movie.douban.com/top250?start={}" data_list = [] for start in range(0, 250, 25): # 遍历每一页 url = url_template.format(start) response = requests.get(url, headers=headers) soup = BeautifulSoup(response.text, 'html.parser') movies = soup.select('.item') for movie in movies: title = movie.find('span', class_='title').text.strip() rating_num = float(movie.find('span', class_='rating_num').text.strip()) director_and_cast_info = movie.find('p').get_text(strip=True).split('\n')[0].strip().replace("\xa0", "") director = director_and_cast_info.split("导演:")[1].split("主演:")[0].strip() try: cast = director_and_cast_info.split("主演:")[1].strip() except IndexError: cast = "" genres = movie.find_all('span', class_='inq')[-1].parent.previous_sibling.strip().split('/') data_dict = { '名称': title, '排名': int(movie.em.text), '导演': director, '主演': cast, '类别': '/'.join(genres), '评分': rating_num } data_list.append(data_dict) df = pd.DataFrame(data_list) print(df.head()) # 查看部分数据 ``` 此代码会从豆瓣网站上抓取Top 250电影的名称、排名、导演、主演、类别以及评分等字段，并将其存储在一个Pandas DataFrame对象中。 #### 数据清洗与处理在完成数据采集之后，可能需要进一步清理和预处理这些原始数据以便于后续分析。例如去除重复项、填补缺失值或者转换某些列的数据类型等操作都可以借助 Pandas 库轻松达成目标[^4]。 #### 可视化展示对于已经准备好的结构化表格形式的数据集而言，利用 Matplotlib 或 Seaborn 这样的绘图工具包能够直观形象地呈现出各种统计规律特征。下面给出几个典型例子说明如何针对不同维度制作图表来进行探索性数据分析（EDA）: - **柱状图**: 显示各个类别的数量分布情况。 ```python import matplotlib.pyplot as plt plt.figure(figsize=(10,8)) genre_counts = df['类别'].str.split('/').explode().value_counts().head(10) genre_counts.plot.barh(color='skyblue') plt.title('Top Categories by Count') plt.xlabel('Number of Movies') plt.ylabel('Category') plt.gca().invert_yaxis() # 将y轴反转使得最大值位于顶部 plt.show() ``` - **条形水平堆叠图**: 展现前几名高分国家及其对应的平均得分状况。 ```python country_avg_rating = df.groupby('上映地区')['评分'].mean().sort_values(ascending=False)[:10] country_avg_rating.plot(kind="barh", color="lightgreen") plt.title('Average Ratings per Country (Top 10)') plt.xlabel('Rating Score') plt.ylabel('Country') plt.gca().invert_yaxis() plt.show() ``` 上述两段脚本分别绘制出了关于影片类型的频次直方图还有基于地域划分下的均值表现对比图谱[^1]。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 python画热力图cbar_kws