豆瓣电影分类排行榜前100部影片的数据怎么用 Python 自动抓取并整理成 Excel 表格？

### 使用 Python Requests 库抓取豆瓣电影分类排行榜数据并导出为 Excel 文件 #### 导入所需库为了完成此任务，需要导入几个必要的库。`requests` 用于发送 HTTP 请求；`BeautifulSoup` 来解析 HTML 文档；而 `openpyxl` 则负责处理 Excel 文件。 ```python import requests from bs4 import BeautifulSoup import openpyxl ``` #### 发送请求获取页面内容通过向目标 URL 发起 GET 请求来获得网页源码。这里假设已经找到了正确的 API 或者页面链接指向豆瓣电影分类排行榜[^2]。 ```python url = 'https://movie.douban.com/top250' # 示例URL，请替换为目标分类榜单的实际地址 headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36" } response = requests.get(url, headers=headers) html_content = response.text ``` #### 解析HTML文档提取所需信息利用 BeautifulSoup 对象分析返回的内容，定位到包含电影排名、名称、评分等字段的具体标签位置，并将其转换成列表形式以便后续操作。 ```python soup = BeautifulSoup(html_content, 'lxml') movies_list = [] for item in soup.find_all('div', class_='item'): rank = item.em.string.strip() title = item.span.string.strip() rating_num = float(item.find('span', {'class': 'rating_num'}).string) movies_list.append([rank, title, rating_num]) ``` #### 创建新的Excel工作簿并将数据写入其中创建一个新的 Excel 工作簿对象，并定义表头作为首行记录。接着遍历之前准备好的电影条目集合，逐个追加至表格内每一列对应的位置上。 ```python workbook = openpyxl.Workbook() sheet = workbook.active sheet.title = "Douban Top Movies" header_row = ["Rank", "Title", "Rating"] sheet.append(header_row) for movie_data in movies_list: sheet.append(movie_data) output_file_path = './douban_top_movies.xlsx' workbook.save(output_file_path) print(f'Data has been successfully saved to {output_file_path}') ```

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 Python里怎么快速找出列表中所有None元素的位置和总数？