用Python写个简单爬虫，怎么把抓到的标题和正文自动存进MySQL？

### 使用简易爬虫工具并存储数据到MySQL #### 爬虫工具的选择与安装对于简单的网页抓取任务，`requests`库和`BeautifulSoup`组合是一个非常流行且易于使用的解决方案。这两个库可以方便地获取页面内容并对HTML文档进行解析。为了简化操作流程，在开始之前需要先通过pip命令来安装所需的依赖包： ```bash pip install requests beautifulsoup4 pymysql ``` #### 编写基本的爬虫脚本下面是一份基础版的Python爬虫程序模板，它会访问指定URL地址读取网页源码，并从中提取特定的信息片段[^1]。 ```python import requests from bs4 import BeautifulSoup def fetch_page(url): response = requests.get(url) if response.status_code != 200: raise ValueError(f"Failed to load page at {url}") soup = BeautifulSoup(response.text, "html.parser") return soup ``` 此函数接收一个网址参数作为输入，返回经过BS对象封装后的整个HTML文档树结构供后续分析使用；如果请求失败则抛出错误提示信息。 #### 连接MySQL数据库并创建表单接下来定义另一个辅助方法用于建立同本地或远程服务器上的MySQL实例之间的连接关系，并准备一张用来容纳即将被抓回来的数据的新表格[^3]。 ```python import pymysql.cursors connection_config = { 'host': 'localhost', 'user': 'root', 'password': '', 'database': 'testdb' } create_table_sql = """ CREATE TABLE IF NOT EXISTS articles ( id INT AUTO_INCREMENT PRIMARY KEY, title VARCHAR(255), content TEXT ); """ with pymysql.connect(**connection_config) as connection: with connection.cursor() as cursor: cursor.execute(create_table_sql) connection.commit() ``` 这段代码实现了如下功能： - 构建SQL语句声明新表的文章字段属性； - 执行上述DDL指令完成实际物理层面上的对象构建动作。 #### 将抓取的内容存入数据库最后一步就是把前面两部分结合起来——即利用先前编写的fetch_page函数去拉取网络资源之后再调用insert_into_db接口将其持久化保存下来[^2]。 ```python def insert_into_db(title, content): sql_query = f""" INSERT INTO articles (title, content) VALUES (%s,%s); """ try: with pymysql.connect(**connection_config) as conn: with conn.cursor() as cur: cur.execute(sql_query, (title, content)) conn.commit() except Exception as err: print(f"Database insertion failed: {err}") if __name__ == "__main__": url_to_scrape = input("Enter URL you want to scrape:") html_doc = fetch_page(url_to_scrape) article_title = html_doc.find('h1').get_text(strip=True) main_content = ''.join([p.get_text() for p in html_doc.select('.article-body > p')]) insert_into_db(article_title, main_content) ``` 以上便是完整的基于Python实现的小型Web Scraper应用案例说明，其中包含了从发起HTTP GET请求直至最终将有用的部分记录入库的一系列过程描述。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 Python里的if语句有哪些常见用法和实用技巧？

目录

用Python写个简单爬虫，怎么把抓到的标题和正文自动存进MySQL？

Python内容推荐

用Python写网络爬虫_用Python写网络爬虫.pdf_

用Python写网络爬虫.pdf

Python爬虫

用Python写网络爬虫PDF&源码

python写的淘宝爬虫，爬取搜索商品的名称、价格、店铺、销量、图片等信息 可以存到excel也可以存到mysql数据库

Python写网络爬虫经典资料

《用Python写网络爬虫》随书源代码

我国四个直辖市2021年历史天气爬虫及相关分析 python爬虫+MySQL数据库+可视化分析+图形界面

毕业设计-基于python招聘岗位数据爬虫及可视化分析设计：Python + Requests+Mysql+Echarts

Python-python实现简单的爬虫数据demo

用Python写网络爬虫PDF&amp;源码.rar

Python-一个简单的Python爬虫

书籍[用Python写网络爬虫]对应的配套全套源代码 共9个章节.rar

python3 网络爬虫 多线程 无限爬网址 带mysql sql带入文件

python爬虫课件+代码.zip

利用selenium编写的python网络爬虫-淘宝商品信息并保存到mysql数据库

Python-百度贴吧爬虫基于scrapy和mysql

网络爬虫作业练习_爬虫_python学习_网络爬虫_python_

Python-CSDN爬虫远程服务器MySQL存储数据可视化

用Python写网络爬虫

python 爬虫 实现增量去重和定时爬取实例

Python网络爬虫课件（高职高专）.pdf

python3实现往mysql中插入datetime类型的数据

利用AI+数智应用服务商提升政府科技活动成果转化效率

从零搭建一个多协议通信网关：用ESP32玩转CAN转TCP、串口转蓝牙

YOLO检测结果怎么在网页上实时画框并标注？

掌握中医药数据库检索技巧与策略

时间序列预测新趋势：大模型+Transformer实战教程（附iTransformer等案例）

OpenMV图像识别模块从硬件选型到算法部署，整个流程是怎么走通的？

数据库安全性与控制方法：防御数据泄露与破坏

python写的淘宝爬虫，爬取搜索商品的名称、价格、店铺、销量、图片等信息可以存到excel也可以存到mysql数据库

用Python写网络爬虫PDF&源码.rar

书籍[用Python写网络爬虫]对应的配套全套源代码共9个章节.rar

python3 网络爬虫多线程无限爬网址带mysql sql带入文件

python 爬虫实现增量去重和定时爬取实例