Python的selenium爬取网页的多页的表格，未显示有多少页

在使用 Python 的 Selenium 爬取网页中多页表格数据时，如果无法确定总页数，通常需要根据网页结构动态判断分页的结束条件。以下是几种常见策略： ### 1. **通过分页控件识别总页数** 许多网页会在分页导航栏中显示总页数或最后一页的链接。可以通过定位分页导航元素并提取相关文本或链接数量来推算总页数。例如，查找包含页码的 `<li>` 或 `<a>` 元素并统计其数量。 ```python from selenium import webdriver driver = webdriver.Chrome() driver.get("https://example.com/table") # 假设分页链接在 class="pagination" 的 div 中 pagination = driver.find_element("css selector", ".pagination") page_links = pagination.find_elements("tag name", "a") total_pages = len(page_links) # 估算总页数 ``` ### 2. **通过动态加载判断分页结束** 某些网站不会直接显示总页数，而是通过“下一页”按钮是否存在来判断是否到达最后一页。可以在每次翻页后检查“下一页”按钮是否可用，若不可点击或不存在则停止爬取。 ```python next_button = driver.find_element("id", "next_page_button") while next_button.is_enabled(): # 爬取当前页表格数据 next_button.click() # 重新定位按钮（可能需要重新查找元素） ``` ### 3. **通过 URL 参数变化推算总页数** 有些网站的分页 URL 会以参数形式传递页码（如 `?page=1`），可以尝试递增页码直到返回空数据或 404 页面。此方法适用于静态分页网站。 ```python import requests page_num = 1 while True: url = f"https://example.com/table?page={page_num}" response = requests.get(url) if "No data found" in response.text: break # 解析并保存当前页数据 page_num += 1 ``` ### 4. **结合 JavaScript 执行获取分页信息** 如果网页使用 JavaScript 动态生成分页信息，可以通过 `execute_script` 执行脚本获取当前页码或总页数。 ```python current_page = driver.execute_script("return window.currentPage;") total_pages = driver.execute_script("return window.totalPages;") ``` ### 5. **异常处理与容错机制** 在爬取过程中，应加入异常处理逻辑，防止因网络波动或页面结构变化导致程序中断。例如使用 `try-except` 捕获元素未找到异常。 ```python from selenium.common import exceptions try: next_button = driver.find_element("id", "next_page_button") next_button.click() except exceptions.NoSuchElementException: print("已到达最后一页") break ``` ### 6. **模拟用户行为翻页** 部分网站的分页逻辑较为复杂，可能需要模拟用户输入页码并点击“跳转”按钮来实现翻页。 ```python page_input = driver.find_element("id", "page_input") page_input.clear() page_input.send_keys(str(current_page + 1)) submit_button = driver.find_element("id", "go_button") submit_button.click() ``` ---

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇用Python 写exe 文件中可以选文件地址的弹窗

目录

Python的selenium爬取网页的多页的表格，未显示有多少页

Python内容推荐

通过python的selenium框架爬取考试宝典题目

详解python selenium 爬取网易云音乐歌单名

Python selenium爬取微博数据代码实例

python + selenium +pyquery 爬虫 爬取 1688详情图片 阿里巴巴详情图片 与标题 下载图片并进行压缩 仅供学习交流使用 .zip

python爬虫：爬取动态网页内容

python爬取并分析淘宝商品信息

基于selenium模拟天眼查登录并爬取企业工商信息的python爬虫

python爬取天气数据并制图分析

Python爬虫爬取网页信息

python selenium爬取斗鱼所有直播房间信息过程详解

Python使用Selenium爬取淘宝异步加载的数据方法

Python-selenium-爬取河南省统计年鉴信息

selenium登录爬取京东商品信息（python爬虫例子）

基于python requests selenium爬取excel vba过程解析

Python selenium爬取微信公众号文章代码详解

基于python的Selenium爬取网页简单操作(含安装教程)

python3+selenium爬取百度图片

python selenium爬取斗鱼

使用Python的Requests、Selenium和BeautifulSoup结合的爬虫示例代码，用于爬取带有分页的动态网页

Python爬取东方财富公司公告

python快速编写单行注释多行注释的方法

Python中注释（多行注释和单行注释）的用法实例

Pyhton中单行和多行注释的使用方法及规范

Python中的单行、多行、中文注释方法

Perl中的单行注释和多行注释语法

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构

python + selenium +pyquery 爬虫爬取 1688详情图片阿里巴巴详情图片与标题下载图片并进行压缩仅供学习交流使用 .zip