python爬取新浪新闻动态加载页面

### 使用Python抓取新浪新闻动态加载网页内容 #### 处理JavaScript渲染和分页为了有效地抓取像新浪新闻这样的动态加载网页的内容，通常需要解决两个主要挑战：处理由JavaScript生成的内容和管理分页。以下是具体方法：对于JavaScript生成的内容，Selenium是一个强大的工具，它允许模拟浏览器行为来执行复杂的Web自动化任务[^2]。通过创建WebDriver实例并导航到目标URL，可以等待页面完全加载后再提取所需的信息。针对分页问题，许多现代网站采用无限滚动或“加载更多”按钮的形式来展示更多信息，这背后往往涉及Ajax请求向服务器获取新数据片段而不必刷新整个页面[^1]。了解这些请求的具体参数（如时间戳、游标位置等），可以直接模仿它们发送HTTP GET/POST请求给API接口从而绕过前端界面直接取得原始JSON响应体中的文章列表。 ```python from selenium import webdriver import time import requests import json def get_ajax_content(url, scroll_pause_time=2): options = webdriver.ChromeOptions() options.add_argument('headless') # 不打开浏览器窗口运行Chrome. driver = webdriver.Chrome(options=options) try: driver.get(url) last_height = driver.execute_script("return document.body.scrollHeight") while True: # 向下滚动到底部 driver.execute_script( "window.scrollTo(0, document.body.scrollHeight);") # 等待加载完成 time.sleep(scroll_pause_time) new_height = driver.execute_script("return document.body.scrollHeight") if new_height == last_height: break last_height = new_height elements = driver.find_elements_by_css_selector('.news-item') titles = [] for element in elements: title_element = element.find_element_by_tag_name('h2').find_element_by_tag_name('a') titles.append(title_element.text.strip()) return titles finally: driver.quit() def fetch_api_data(api_url, params=None): response = requests.post(api_url, data=params) if response.status_code != 200: raise Exception(f"Failed to load page {api_url}") result = json.loads(response.content.decode('utf-8')) items = result['data']['list'] news_titles = [item['title'] for item in items] return news_titles if __name__ == "__main__": ajax_loaded_titles = get_ajax_content('https://example.sina.com.cn/news') api_fetched_titles = fetch_api_data('https://example.api.sina.com/getNewsList', {'page': '1'}) all_news_titles = list(set().union(ajax_loaded_titles, api_fetched_titles)) print("\n".join(all_news_titles)) ``` 此脚本展示了两种不同的策略用于收集来自不同类型的动态加载机制下的新闻标题集合——一种基于Selenium模拟真实用户的浏览习惯直到所有的可见项目都被加载出来；另一种则是解析出实际使用的API调用来批量拉取多批次的结果集。这两种方式可以根据实际情况单独使用或是组合起来提高效率与准确性。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 pythoninterpolate二维插值linear

目录

python爬取新浪新闻动态加载页面

Python内容推荐

新浪微博爬虫，用python爬取新浪微博数据

python新浪微博爬虫，爬取微博和用户信息 (源码)

Python爬取新浪微博转发数等

新浪微博爬虫，用python爬取新浪微博数据.zip

新浪微博爬虫，用python爬取新浪微博数据-python

python实现爬取新浪微博

Python-爬取新浪微博信息

详解用python写网络爬虫-爬取新浪微博评论

python新浪微博爬虫，爬取微博和用户信息 (含源码及示例)-Python代码类资源

weiboSpider：新浪微博爬虫，用python爬取新浪微博数据

基于Python的新浪微博数据爬虫

新浪微博爬虫(Weibo Spider)-用python爬取新浪微博数据

新浪微博爬虫，用python爬取新浪微博数据，并下载微博图片和微博视频.zip

Python爬虫爬取新浪微博内容示例【基于代理IP】

新浪微博爬虫功能包括爬取用户信息关注粉丝爬取超级话题用户及粉丝相关信息

Scrapy爬取新浪微博用户信息、用户微博及其微博评论转发

提供新浪微博爬虫代码，爬取某个地点发布的微博

需要登录才能抓取的新浪微博爬虫例子

Scrapy框架的使用之Scrapy爬取新浪微博

新浪微博图片爬虫

显示和隐藏进程的主窗口

#资源达人分享计划# clsWindow2.2_20210331控制PC版QQ发送消息.zip

根据进程ID获取进程的用户名

查看窗口和控件句柄、类名、标题、风格

Python获取系统所有进程PID及进程名称的方法示例

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构