用Python爬猫眼春节档电影数据，怎么分三步实现从采集到画图？

### 1_ data_collection.py（数据采集） ```python import requests from bs4 import BeautifulSoup import csv # 目标URL base_url = "https://maoyan.com/board/6?year=" # 定义六个核心字段 fields = ['电影名称', '上映年份', '票房', '评分', '主演', '上映日期'] # 存储数据的列表 data = [] # 循环遍历2010 - 2025年 for year in range(2010, 2026): url = base_url + str(year) headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} response = requests.get(url, headers=headers) soup = BeautifulSoup(response.text, 'html.parser') # 解析页面获取数据 movies = soup.find_all('div', class_='movie-item-info') for movie in movies: name = movie.find('p', class_='name').a.text.strip() # 这里需要根据实际页面结构获取其他字段数据，以下为示例，可能需要调整 release_year = year box_office = '暂无数据' # 根据实际页面调整获取方式 score = '暂无数据' actors = '暂无数据' release_date = '暂无数据' data.append([name, release_year, box_office, score, actors, release_date]) # 将数据保存到CSV文件 with open('maoyan_data.csv', 'w', newline='', encoding='utf-8') as csvfile: writer = csv.writer(csvfile) writer.writerow(fields) writer.writerows(data) ``` ### 2_ data_preprocessing.py（数据预处理） ```python import pandas as pd # 读取CSV文件 data = pd.read_csv('maoyan_data.csv') # 处理缺失值 data = data.dropna() # 简单删除缺失值，可根据实际情况调整 # 数据类型转换，例如将票房转换为数值类型 # data['票房'] = pd.to_numeric(data['票房'], errors='coerce') # 保存处理后的数据 data.to_csv('maoyan_data_processed.csv', index=False) ``` ### 3_ data_visualization.py（数据可视化） ```python import pandas as pd import matplotlib.pyplot as plt # 读取处理后的数据 data = pd.read_csv('maoyan_data_processed.csv') # 示例可视化：按年份统计票房 yearly_box_office = data.groupby('上映年份')['票房'].sum() # 绘制柱状图 plt.bar(yearly_box_office.index, yearly_box_office.values) plt.xlabel('上映年份') plt.ylabel('总票房') plt.title('历年春节档电影总票房') plt.show() ``` ### 说明 - 在`1_ data_collection.py`中，通过`requests`库发送HTTP请求获取猫眼电影页面数据，使用`BeautifulSoup`解析HTML，提取六个核心字段数据，并保存到CSV文件中。 - `2_ data_preprocessing.py`中，使用`pandas`库读取CSV文件，进行简单的数据预处理，如处理缺失值，最后保存处理后的数据。 - `3_ data_visualization.py`中，读取处理后的数据，使用`matplotlib`库进行简单的可视化，例如按年份统计票房并绘制柱状图。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 WinForms里怎么让Panel自动‘长出’按钮？添加时要注意哪些细节？