python爬虫爬取b站视频并将数据存储进mysql

### Python 爬虫从 B 站抓取视频数据并存储到 MySQL 数据库 #### 抓取 B 站视频数据要实现从 B 站抓取视频数据的功能，通常需要借助 `requests` 或 `selenium` 来模拟请求，并使用正则表达式或 `BeautifulSoup` 解析 HTML 页面中的目标数据。对于动态加载的内容，则可能需要用到浏览器自动化工具如 Selenium。假设我们需要获取某个 UP 主发布的最新几条视频的信息（例如标题、播放量、链接），可以通过以下方式完成： ```python import requests from bs4 import BeautifulSoup def fetch_bilibili_data(url): headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36' } response = requests.get(url, headers=headers) soup = BeautifulSoup(response.text, 'html.parser') video_list = [] for item in soup.select('.video-item.matrix'): # 假设这是视频列表的选择器 title = item.find('a')['title'] # 获取视频标题 link = "https:" + item.find('a')['href'] # 获取视频链接 views = item.find('span', class_='so-icon watch-num').text.strip() # 获取播放量 video_info = {'title': title, 'link': link, 'views': views} video_list.append(video_info) return video_list ``` 此部分代码用于提取页面上的视频信息[^1]。 --- #### 清洗数据在实际应用中，爬取的数据可能存在不一致的情况，因此需要对其进行清洗。这里可以利用 Pandas 对数据进行预处理，包括去重、填充缺失值以及标准化字段格式等操作。 ```python import pandas as pd data = [ {"title": "Python基础入门", "link": "http://example.com/video1", "views": "1万"}, {"title": "Python进阶学习", "link": "http://example.com/video2", "views": "2千"} ] df = pd.DataFrame(data) # 转换播放量为数值型 df['views_num'] = df['views'].str.replace('万', '').astype(float) * 1e4 df.drop(columns=['views'], inplace=True) print(df.head()) ``` 上述代码展示了如何将字符串类型的播放量转换成浮点数以便后续分析和存储。 --- #### 将数据存入 MySQL 数据库为了将清理后的数据写入 MySQL 数据库，需安装第三方模块 PyMySQL 并建立相应的连接对象。下面是一个完整的例子展示如何执行这一过程： ```python import pymysql db_config = { 'host': 'localhost', 'port': 3306, 'user': 'root', 'password': 'your_password', 'database': 'bilibili_db', 'charset': 'utf8mb4' } try: connection = pymysql.connect(**db_config) with connection.cursor() as cursor: create_table_query = """ CREATE TABLE IF NOT EXISTS videos ( id INT AUTO_INCREMENT PRIMARY KEY, title VARCHAR(255), link TEXT, views FLOAT ) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci; """ cursor.execute(create_table_query) insert_query = "INSERT INTO videos (title, link, views) VALUES (%s, %s, %s)" values = [(row['title'], row['link'], row['views_num']) for _, row in df.iterrows()] cursor.executemany(insert_query, values) connection.commit() except Exception as e: print(f"Error occurred while inserting data into database: {e}") finally: if connection.open: connection.close() ``` 以上脚本实现了创建表格结构以及批量插入记录的操作[^3]。 --- #### 总结综上所述，整个流程分为三个主要阶段：一是通过网络请求技术采集原始资料；二是运用数据分析框架整理杂乱无章的结果集；三是依靠数据库接口持久化最终成果至关系型管理系统当中[^2][^4]。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 python中用turtle画哆啦A梦