beautifulsoup用find和findall方法

### BeautifulSoup 中 `find` 和 `find_all` 方法详解 #### 一、`find()` 方法 `find()` 是用于在 HTML 或 XML 文档中查找第一个符合条件的标签或字符串的方法。它返回的是单个匹配项，如果没有找到，则返回 `None`。 - **基本语法** ```python soup.find(name, attrs={}, recursive=True, string=None, **kwargs) ``` - 参数说明： - `name`: 要查找的标签名称。 - `attrs`: 字典形式指定属性及其值进行筛选[^4]。 - `recursive`: 是否递归子节点，默认为 `True`。 - `string`: 查找特定文本内容的条件。 - 示例代码： ```python from bs4 import BeautifulSoup html_doc = ''' <html> <body> <h1>标题</h1> <p class="content">这是一个段落。</p> <a href="http://example.com">链接</a> </body> </html> ''' bs = BeautifulSoup(html_doc, 'lxml') result = bs.find('p', {'class': 'content'}) print(result) # 输出：<p class="content">这是一个段落。</p> ``` --- #### 二、`find_all()` 方法 `find_all()` 是用于查找所有符合条件的标签或字符串的方法。它可以一次性获取多个匹配的结果并以列表的形式返回。 - **基本语法** ```python soup.find_all(name, attrs={}, recursive=True, string=None, limit=None, **kwargs) ``` - 参数说明： - `name`: 标签名。 - `attrs`: 属性字典。 - `limit`: 控制返回的最大数量。 - `recursive`: 同样表示是否递归搜索子节点。 - `string`: 可选参数，用于过滤基于文本的内容。 - 特殊用法：当需要排除某些属性时，可将其设为 `False`[^3]。 - 示例代码： ```python results = bs.find_all('a', href=True)[:2] for r in results: print(r['href']) # 输出前两个超链接地址 ``` 上述例子展示了如何利用 `find_all()` 获取页面上的所有 `<a>` 标签，并提取其 `href` 值。另外，在实际应用中还可以结合正则表达式进一步增强查询能力[^1]。 --- ### 总结对比 | 功能 | `find()` | `find_all()` | |--------------|-----------------------------------|----------------------------------| | 返回结果数 | 单个 | 多个 | | 数据结构 | Tag 对象或者 None | 列表 (List)，可能为空 | 以上即是对这两个核心方法的具体讲解以及实例演示。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇如何使用pytorch训练一个逻辑回归的模型并部署到本地