用python将https://www.csdn.net/网页上的内容都爬取下来保存到word中

### 实现思路使用 Python 爬虫抓取 CSDN 首页内容并将其保存到 Word 文档中，可以通过 `requests` 或 `selenium` 抓取网页内容，再结合 `python-docx` 库将数据写入 Word 文档。此方法可以实现网页内容的结构化提取和文档生成，适用于内容归档、资料整理等场景。 ### 爬取 CSDN 页面内容 CSDN 是一个技术博客平台，页面内容通常包含文章标题、链接和摘要信息。使用 `requests` 和 `BeautifulSoup` 可以抓取首页的文章标题和链接信息。需要注意的是，部分网页内容可能通过 JavaScript 动态加载，此时需要使用 `selenium` 或 `playwright` 模拟浏览器操作。 ```python import requests from bs4 import BeautifulSoup def fetch_csdn_links(url="https://www.csdn.net/"): headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36" } response = requests.get(url, headers=headers) response.encoding = 'utf-8' soup = BeautifulSoup(response.text, 'html.parser') articles = [] # 根据 CSDN 的页面结构提取文章链接和标题（可能需要根据实际页面结构调整） for item in soup.find_all('a', {'class': 'title-article'}): title = item.get_text(strip=True) link = item['href'] articles.append((title, link)) return articles ``` ### 将数据保存到 Word 文档使用 `python-docx` 库创建 Word 文档，并将爬取到的标题和链接插入到文档中，每行显示一个标题和对应的链接，格式清晰易读。 ```python from docx import Document from docx.shared import Pt from docx.oxml.ns import qn from docx.enum.text import WD_ALIGN_PARAGRAPH def save_to_word(data, filename="CSDN_Articles.docx"): doc = Document() doc.add_heading("CSDN 热门文章", level=1) for title, link in data: paragraph = doc.add_paragraph() run = paragraph.add_run(f"标题：{title}") run.font.size = Pt(12) run.bold = True paragraph = doc.add_paragraph() run = paragraph.add_run(f"链接：{link}") run.font.size = Pt(10) run.italic = True doc.add_paragraph() # 添加空行分隔 desktop_path = os.path.join(os.path.expanduser("~"), "Desktop") file_path = os.path.join(desktop_path, filename) doc.save(file_path) return file_path ``` ### 完整脚本整合将上述两个函数整合为完整的脚本，抓取 CSDN 首页文章链接，并保存到 Word 文档中。 ```python import os import requests from bs4 import BeautifulSoup from docx import Document from docx.shared import Pt def fetch_csdn_links(url="https://www.csdn.net/"): headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36" } response = requests.get(url, headers=headers) response.encoding = 'utf-8' soup = BeautifulSoup(response.text, 'html.parser') articles = [] for item in soup.find_all('a', {'class': 'title-article'}): title = item.get_text(strip=True) link = item['href'] articles.append((title, link)) return articles def save_to_word(data, filename="CSDN_Articles.docx"): doc = Document() doc.add_heading("CSDN 热门文章", level=1) for title, link in data: paragraph = doc.add_paragraph() run = paragraph.add_run(f"标题：{title}") run.font.size = Pt(12) run.bold = True paragraph = doc.add_paragraph() run = paragraph.add_run(f"链接：{link}") run.font.size = Pt(10) run.italic = True doc.add_paragraph() desktop_path = os.path.join(os.path.expanduser("~"), "Desktop") file_path = os.path.join(desktop_path, filename) doc.save(file_path) return file_path if __name__ == "__main__": csdn_data = fetch_csdn_links() if csdn_data: file_path = save_to_word(csdn_data) print(f"文档已保存到：{file_path}") else: print("未抓取到任何文章") ``` ### 注意事项 - **页面结构变化**：CSDN 的页面结构可能会发生变化，因此需要根据实际 HTML 结构调整选择器。 - **反爬机制**：CSDN 可能会设置反爬机制，如 IP 封禁或验证码，可使用代理 IP 池和请求间隔控制来规避风险[^1]。 - **动态加载内容**：如果页面内容由 JavaScript 动态加载，可以使用 `selenium` 或 `playwright` 替代 `requests` 进行模拟浏览器操作。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 python tcp客户端太久没收到消息则断开连接

目录

用python将https://www.csdn.net/网页上的内容都爬取下来保存到word中

Python内容推荐

利用python3爬虫爬取全国天气数据并保存入Mysql数据库

用Python爬取豆瓣电影分类排行榜（保存至本地）

python爬取京东手机销售数据

Python爬虫之Scrapy（爬取csdn博客）

python+selenium+google网页自动截全图保存

用Python爬取豆瓣电影分类排行榜（不保存）

python爬取淘宝手机销售数据

实战自学python如何成为大佬(目录):https://blog.csdn.net/weixin-67859959/artic

Python使用Phantomjs截屏网页的方法

python+selenium爬取手机号归属地

Python - 截取指定帧数间隔指定大小的视频，并保存图片到指定位置

python爬虫之初入urllib（csdn）————程序.pdf

基于python的行人与车辆检测和跟踪实现（HOG+SVM/HAAR）

python_TB.py

百度地图与高德地图用户评论Python爬取结果.zip

C/C++ 多线程调用嵌入Python

Python爬取CSDN资源[源码]

使用python3 模拟烟花绽放 推荐一下我的博客(https://blog.csdn.net/qq-37963615) 效

Python 核心编程代码 https://blog.csdn.net/weixin-38566632/article/deta

爬取静态网页漫画的python爬虫项目

基于打开pycharm有带图片md文件卡死问题的解决

PyCharm集成Jupyter启动卡死解决[代码]

解决终端运行Py闪退

解决PyCharm闪退问题[项目代码]

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构

Java线程池运行时状态怎么实时掌握？有哪些靠谱的监控手段？

使用python3 模拟烟花绽放推荐一下我的博客(https://blog.csdn.net/qq-37963615) 效