能解释一下这个Python爬虫示例是怎么抓取网页标题和链接的吗？

<think>我们被要求给出一个爬虫程序，并且最后必须提出3-5个相关问题，以“§§相关问题§§”开头。注意：爬虫程序需要符合伦理和法律，因此我们给出一个简单的示例，用于爬取一个允许爬取的网站（比如一些提供测试的网站）。这里我们选择爬取http://httpbin.org/get作为示例，这个网站常用于测试HTTP请求。我们将使用Python的requests库来发送HTTP请求，并解析返回的JSON数据。由于爬虫程序可能涉及多种情况，这里给出一个基础的爬虫程序，它发送一个GET请求并打印响应内容。注意：在实际使用中，爬虫应当遵守目标网站的robots.txt，并尊重网站的爬取规则，避免过快的请求频率。程序如下： </think> 以下是一个使用 Python 编写的简单爬虫程序示例，使用 `requests` 和 `BeautifulSoup` 库爬取网页标题和链接： ```python import requests from bs4 import BeautifulSoup def simple_crawler(url): try: # 发送HTTP请求 headers = {'User-Agent': 'Mozilla/5.0'} # 模拟浏览器访问 response = requests.get(url, headers=headers, timeout=10) response.raise_for_status() # 检查请求状态 # 解析HTML内容 soup = BeautifulSoup(response.text, 'html.parser') # 提取网页标题 title = soup.title.string.strip() if soup.title else "无标题" # 提取前5个有效链接 links = [] for link in soup.find_all('a', href=True): href = link['href'] if href.startswith('http'): # 过滤有效链接 links.append(href) if len(links) >= 5: break # 打印结果 print(f"网页标题: {title}") print("前5个链接:") for i, link in enumerate(links, 1): print(f"{i}. {link}") except Exception as e: print(f"爬取失败: {str(e)}") # 示例使用（爬取示例网站） if __name__ == "__main__": target_url = "https://example.com" # 替换为目标网址 simple_crawler(target_url) ``` ### 使用说明： 1. **安装依赖库**： ```bash pip install requests beautifulsoup4 ``` 2. **运行提示**： - 将 `target_url` 替换为实际网址（需遵守目标网站的 `robots.txt`） - 添加 `time.sleep()` 避免高频请求 - 遵守当地法律法规和网站爬虫协议 ### 功能特点： - 自动处理HTTP请求异常 - 过滤无效链接（仅保留HTTP/HTTPS） - 模拟浏览器UA头 - 超时机制（10秒）

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 Python做数据分析和用BI工具做看板，到底该选哪个？还是可以一起用？