Python抓取网页div里的文字，该选requests+bs4、lxml还是selenium？

要使用Python获取网页`<div>`元素中的文本内容，核心在于两个步骤：**获取网页源代码**和**解析HTML以定位并提取目标`<div>`的文本**。根据网页的性质（静态或动态渲染）和目标`<div>`的具体特征，有多种成熟的方案可供选择。下表对比了常用的几种方法及其关键特点： | 方法/库组合 | 核心库 | 适用场景 | 优点 | 缺点 | | :--- | :--- | :--- | :--- | :--- | | **静态解析 (基础)** | `requests` + `BeautifulSoup` | 获取静态HTML页面中常规`<div>`的文本。 | 语法简洁易懂，解析方式灵活（支持CSS选择器、标签名、属性查找）。 | 无法处理JavaScript动态渲染的内容[ref_1][ref_2][ref_3]。 | | **静态解析 (高效)** | `requests` + `lxml` | 需要高效解析大量静态页面，或需使用XPath进行精准定位。 | 解析速度极快，XPath表达式功能强大，定位精准[ref_6]。 | XPath语法有一定学习成本，且同样无法处理动态内容。 | | **动态渲染处理** | `selenium` + `lxml`/`BeautifulSoup` | 网页内容由JavaScript动态生成，`<div>`在初始HTML中不存在。 | 能模拟浏览器行为，获取完整的、渲染后的DOM，可处理最复杂的动态页面[ref_5]。 | 需要安装浏览器驱动，运行速度慢，资源消耗大。 | | **简易表格提取** | `pandas` | 网页中的`<div>`结构恰好是一个规整的表格（`<table>`）。 | 一行代码即可将网页表格读取为DataFrame，极其便捷。 | 适用范围狭窄，仅适用于`<table>`及其子元素，通用性差[ref_4]。 | ### 方案一：使用 Requests + BeautifulSoup (最常用) 这是最经典和易用的组合，适用于绝大多数静态网页。 1. **安装库**： ```bash pip install requests beautifulsoup4 ``` 2. **核心代码示例**：假设我们要从一个网页中提取所有`<div>`标签的文本，以及提取特定`class`或`id`的`<div>`。 ```python import requests from bs4 import BeautifulSoup # 1. 获取网页源代码 url = 'https://example.com' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36' } # 添加请求头模拟浏览器访问[ref_1] response = requests.get(url, headers=headers) # 检查请求是否成功 if response.status_code == 200: html_content = response.text else: print(f"请求失败，状态码：{response.status_code}") exit() # 2. 使用BeautifulSoup解析HTML soup = BeautifulSoup(html_content, 'html.parser') # 指定解析器为html.parser # 3. 定位并提取div文本 # 示例3.1：提取页面中所有的div文本 all_divs = soup.find_all('div') for idx, div in enumerate(all_divs): text = div.get_text(strip=True) # strip=True 用于去除文本前后多余空白字符 if text: # 只打印有内容的div print(f"Div #{idx+1}: {text}") # 示例3.2：提取具有特定class的div文本 (例如 class="company-name") # 这是获取“公司名”等特定信息的常见方法[ref_1][ref_2] company_divs = soup.find_all('div', class_='company-name') for div in company_divs: print(f"公司名: {div.get_text(strip=True)}") # 示例3.3：提取具有特定id的div文本 (例如 id="main-content") main_content_div = soup.find('div', id='main-content') # find只返回第一个匹配项 if main_content_div: print(f"主要内容: {main_content_div.get_text(strip=True)}") # 示例3.4：使用CSS选择器进行更灵活的定位 # 选择所有class包含'post'的div下的直接p标签文本 selected_texts = soup.select('div.post > p') for p in selected_texts: print(p.get_text(strip=True)) ``` ### 方案二：使用 Requests + lxml (追求解析性能) `lxml`是一个高性能的解析库，特别适合处理大型文档。它支持XPath，提供了一种非常强大和精准的定位方式。 1. **安装库**： ```bash pip install requests lxml ``` 2. **核心代码示例**： ```python import requests from lxml import etree url = 'https://example.com' headers = {'User-Agent': 'Mozilla/5.0...'} response = requests.get(url, headers=headers) html_content = response.content # lxml 通常使用 .content 字节数据 # 1. 解析HTML tree = etree.HTML(html_content) # 2. 使用XPath定位并提取文本 # XPath语法：//div 表示选择所有div节点 all_divs = tree.xpath('//div') for idx, div in enumerate(all_divs): # text() 获取节点文本 text = div.xpath('string(.)').strip() # 使用string(.)获取节点及其所有子节点的完整文本[ref_6] if text: print(f"Div #{idx+1}: {text}") # 提取特定class的div文本 # XPath: //div[@class="company-name"] company_names = tree.xpath('//div[@class="company-name"]/text()') for name in company_names: print(f"公司名: {name.strip()}") # 提取具有特定id的div文本 main_content = tree.xpath('//div[@id="main-content"]//text()') if main_content: combined_text = ' '.join([t.strip() for t in main_content if t.strip()]) print(f"主要内容: {combined_text}") ``` ### 方案三：使用 Selenium (处理动态页面) 当目标`<div>`的内容是由JavaScript异步加载生成，在页面初始HTML中不存在时，必须使用`selenium`这类浏览器自动化工具。 1. **安装库及驱动**： ```bash pip install selenium ``` 此外，还需下载与浏览器版本匹配的WebDriver（如ChromeDriver）并配置到系统PATH中[ref_5]。 2. **核心代码示例**： ```python from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC from lxml import etree # 获取源码后，依然可以用lxml或BeautifulSoup解析 # 启动浏览器（以Chrome为例） options = webdriver.ChromeOptions() options.add_argument('--headless') # 无头模式，不显示图形界面 driver = webdriver.Chrome(options=options) url = 'https://example.com' driver.get(url) # 等待特定div加载出来（显式等待，更可靠） try: # 等待class为'dynamic-content'的div出现，最多等10秒 target_div = WebDriverWait(driver, 10).until( EC.presence_of_element_located((By.CLASS_NAME, "dynamic-content")) ) print(f"动态内容: {target_div.text}") # 直接通过Selenium元素的.text属性获取文本 except Exception as e: print(f"等待元素超时或未找到: {e}") # 方式一：使用Selenium的API直接查找元素获取文本 all_divs_selenium = driver.find_elements(By.TAG_NAME, "div") for div in all_divs_selenium: if div.text: print(div.text) # 方式二：获取渲染后的完整页面源码，再用lxml/BeautifulSoup解析（更灵活） page_source = driver.page_source tree = etree.HTML(page_source) # 之后可以使用方案二中的XPath进行任意提取[ref_5] dynamic_texts = tree.xpath('//div[@data-loaded="true"]//text()') for text in dynamic_texts: print(text.strip()) # 关闭浏览器 driver.quit() ``` ### 方案对比与选择建议 * **新手入门或快速开发**：优先选择**方案一（Requests + BeautifulSoup）**。其API友好，学习曲线平缓，能满足大部分静态数据抓取需求，是抓取“公司名”等静态信息的标准方法[ref_1][ref_2]。 * **需要高性能解析或精准XPath定位**：选择**方案二（Requests + lxml）**。XPath在定位嵌套复杂或属性唯一的元素时非常高效[ref_6]。 * **页面由JavaScript动态渲染**：必须选择**方案三（Selenium）**。虽然速度慢，但它是获取完整渲染后DOM的唯一可靠方法[ref_5]。 * **注意事项**： 1. 无论使用哪种方法，在发送请求时都应添加适当的`User-Agent`等请求头，以模拟真实浏览器，避免被简单的反爬机制屏蔽[ref_1]。 2. 提取文本时，注意使用`.strip()`或`get_text(strip=True)`来清理数据中的多余空格和换行符。 3. 在实际应用中，应加入异常处理（如`try...except`）和延时（如`time.sleep`），以提升程序的健壮性并尊重目标网站的服务器压力。对于多页面抓取，需要构建URL循环或发现“下一页”链接的逻辑[ref_3]。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇这8道经典编程题用Python怎么解？每道题的关键思路和易错点是什么？

目录

Python抓取网页div里的文字，该选requests+bs4、lxml还是selenium？

Python内容推荐

Selenium+PhantomJS+python获取html动态生成的数据

Python使用lxml模块和Requests模块抓取HTML页面的教程

python 3利用BeautifulSoup抓取div标签的方法示例

Python BS4库的安装与使用详解

python如何爬取网页中的文字

Python3使用requests包抓取并保存网页源码的方法

Python 获取div标签中的文字实例

Python基于requests库爬取网站信息

python+selenium+PhantomJS抓取网页动态加载内容

Python3 基于 requests+bs4+lxml 的京东商品抢购下单工具！.zip

python requests抓取one推送文字和图片代码实例

Python + 基于多线程 + requests+bs4+lxml 爬取斗图网站图片.zip

python+selenium动态实战：抓取京东商城信息

Python爬虫使用bs4方法实现数据解析

Python3实现抓取javascript动态生成的html网页功能示例

使用Python的Requests、Selenium和BeautifulSoup结合的爬虫示例代码，用于爬取带有分页的动态网页

Python实现抓取HTML网页并以PDF文件形式保存的方法

python爬虫抓取哪儿网页上的一些字段

Python Selenium 获取动态网页指定元素的超链接.pdf

bs4-requests爬取图片_爬取图片_python_

处理minio文件分析链接的python

minio 文件服务器

minio-py:用于 Python 的 MinIO 客户端 SDK

二、python+前端 实现MinIO分片上传

Python连接MinIO[项目代码]

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构

二、python+前端实现MinIO分片上传