如何用Python提取网页中的href链接

### Python提取网页中所有`href`链接的代码示例以下是通过Python提取网页中所有`<a>`标签下的`href`属性值（即链接地址）的一个完整代码示例： ```python import requests from bs4 import BeautifulSoup def extract_links_from_webpage(url): response = requests.get(url) # 发送HTTP请求获取网页内容 html_content = response.text # 获取响应的内容 # 使用BeautifulSoup解析HTML文档 soup = BeautifulSoup(html_content, 'html.parser') # 查找所有的<a>标签 a_tags = soup.find_all('a') # 遍历每一个<a>标签，提取其href属性值 urls = [] for tag in a_tags: href_value = tag.get('href') if href_value and not href_value.startswith('#'): # 排除锚点链接 urls.append(href_value) return urls # 测试代码 if __name__ == "__main__": webpage_url = "http://example.com" # 替换为目标网站的实际URL extracted_urls = extract_links_from_webpage(webpage_url) for url in extracted_urls: print(url) ``` #### 说明 1. **发送HTTP请求**：使用`requests`库向目标网址发起GET请求，并获取网页的HTML源码[^2]。 2. **解析HTML文档**：利用`BeautifulSoup`对象解析HTML内容，指定解析器为`html.parser`[^3]。 3. **查找所有 `<a>` 标签**：调用`soup.find_all('a')`方法找到页面中的所有超链接标签[^1]。 4. **提取 `href` 属性**：对于每个`<a>`标签，使用`.get('href')`方法获取其中的`href`属性值。同时过滤掉无效或重复的链接（如仅包含`#`的锚点链接）[^3]。此代码能够有效地抓取并打印出目标网页上的所有有效链接。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇非期望产出的超效率sbm模型，Python代码

目录

如何用Python提取网页中的href链接

Python内容推荐

Python提取网页中超链接的方法

python使用正则表达式提取网页URL的方法

python提取页面内url列表的方法

Python爬虫获取页面所有URL链接过程详解

Python源码-从给定网页中提取所有链接.zip

python获取指定网页上所有超链接的方法

python抓取网页到本地实例程序

python使用BeautifulSoup分页网页中超链接的方法

使用python进行网络抓取：在此存储库中，我将说明如何使用带有BeautifulSoup的python编程语言来抓取网站并请求模版

Python+selenium 获取一组元素属性值的实例

Python爬虫案例.md

用Python程序抓取网页的HTML信息的一个小实例

Python爬取APP下载链接的实现方法

Python获取当前页面内所有链接的四种方法对比分析

使用Python的爬虫框架Scrapy来爬取网页数据.txt

VB用正则表达式提取网页中的链接

py代码-获取目标网页所有超链接（http/https）

获取HTML文件中的所有链接

从html中分析提取链接(url) (5KB)

提取网页中所有链接的功能

Python解惑之True和False详解

Python中的True,False条件判断实例分析

浅谈Python里面None True False之间的区别

Python返回真假值（True or False）小技巧

python 输入年份 如果是闰年输出True 否则输出False 示例

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构

python 输入年份如果是闰年输出True 否则输出False 示例