当当网24小时畅销书榜的网页结构是怎样的？怎么用Python精准提取排名、书名、作者和价格？

在这个当当网畅销书排行榜页面（http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours-0-0-1-），我们可以抓取书籍的相关信息，比如排名、书名、作者、价格等。以下是详细的抓取步骤和示例代码。 --- ### 第一步：分析网页结构打开该网址后，右键点击“检查”进入开发者工具查看源码，定位到我们需要的信息所在的HTML标签及属性。例如： - **排名**：通过 `<li>` 元素的位置确定。 - **书名**：位于 `div[@class='name'] > a` 中的文本内容。 - **作者**：位于 `div[@class='publisher_info'] > a` 的第一个超链接内的文本。 - **当前价**：位于 `p[@class='price_n'] > span[@class='search_now_price']` 内部的文字。 - **原价**：可以在 `span[@class='search_pre_price']` 找到折扣前的价格。 - **评论数**：由 `div[@class='star'] > a[@class='search_comment_num']` 包含的具体数字给出。相应地构造XPath表达式如下表所示： | 需求 | XPath路径 | |------|-------------------------------------------------------------------------------------------| | 排名 | `(//ul/li)` | | 书名 | `.//div[@class='name']/a/text()` | | 作者 | `.//div[@class='publisher_info']/a[1]/@title` | | 当前价| `.//p[@class='price']/span[@class='search_now_price']/text()` | | 原价 | `.//p[@class='price']/span[@class='search_pre_price']/text()` | 注意以上为大致参考，请根据实际解析结果调整细节部分匹配规则。 --- ### 第二步：编写Python脚本进行抓取我们使用 Python 结合 requests 和 lxml 库来进行网络请求与 DOM 解析操作。 ```python import requests from lxml import etree url = 'http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours-0-0-1-' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)' } response = requests.get(url, headers=headers).content.decode('gbk') html = etree.HTML(response) books_list = [] for book_li in html.xpath("//ul[@class='bigimg']/li"): rank = books_list.index(book_li)+1 if len(books_list)>0 else '' name = "".join(book_li.xpath('.//div[@class="name"]/a/text()')).strip().replace("\n","").replace(" ","") author = "".join(book_li.xpath('.//div[@class="publisher_info"]/a[1]/@title')) price_current = "".join(book_li.xpath('.//p[@class="price"]/span[@class="search_now_price"]/text()')).strip() price_original = "".join(book_li.xpath('.//p[@class="price"]/span[@class="search_pre_price"]/text()')).strip() one_book = {"rank":rank,"book_name":name,"author":author,"current_price":price_current,"original_price":price_original} books_list.append(one_book) # 输出抓取的结果 for b in books_list[:5]: print(b) ``` 此段程序能够成功获取指定范围之内的书籍基本信息列表。 ---

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 Python字典里的key和value到底怎么配合工作的？它们各自有哪些硬性要求？

目录

当当网24小时畅销书榜的网页结构是怎样的？怎么用Python精准提取排名、书名、作者和价格？

Python内容推荐

python 24小时制转12小时制

python写的水木社区24小时挂机赚积分程序（原创）

24小时学会Python

Python时间的精准正则匹配方法分析

用python脚本24小时刷浏览器的访问量方法

（python）小时降雨量转为24小时累计降雨量

新浪财经24小时python爬虫程序（内置企业微信机械人推送功能）

基于Python的当当网图书销售数据全流程自动化爬取与智能分析系统_实现多维度时间跨度数据采集包含往年全年各月近30天7天24小时排行并支持智能URL构建分页抓取模拟浏览器请求头与.zip

fileCopyUtility:复制过去 24 小时内创建的修改过的文件的脚本。 用 Python、wxPython 和 SQLite 编写

agiletriggers:用于根据价格和Octopus Energy客户的Octopus Agile API触发操作​​的Python应用程序，价格每半小时变化一次，并且每天更新一次。 历史使用数据会在24小时后添加到数据库中

python抓取全国24小时aqi数据.zip

Python将8位的图片转为24位的图片实现方法

Python-一个24小时监测VPS延迟的工具

python整小时 整天时间戳获取算法示例

Python 日期时间datetime 加一天，减一天，加减一小时一分钟,加减一年

Python爬虫爬取杭州24时温度并展示操作示例

Python项目-自动办公-24 Python一键提取PDF中的表格到Excel.zip

24点游戏-Python实现

TimeConvert:该程序将时间从24小时转换为12小时，反之亦然

24小时重复拨打率

5分钟部署Paraformer语音识别[项目代码]

阿里Paraformer语音识别模型体验[代码]

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构

Java线程池运行时状态怎么实时掌握？有哪些靠谱的监控手段？

桌面工具软件项目效益评估及市场预测分析

告别遮挡！UniApp中WebView与原生导航栏的和谐共处方案（附完整可运行代码）

fileCopyUtility:复制过去 24 小时内创建的修改过的文件的脚本。用 Python、wxPython 和 SQLite 编写

agiletriggers:用于根据价格和Octopus Energy客户的Octopus Agile API触发操作的Python应用程序，价格每半小时变化一次，并且每天更新一次。历史使用数据会在24小时后添加到数据库中

python整小时整天时间戳获取算法示例