Python语言爬取百度图片操作

### 使用Python爬取百度图片的方法和示例代码爬取百度图片需要结合 `requests` 和 `lxml` 库来实现。以下是具体方法和示例代码： #### 方法说明 1. 确定目标：通过百度图片搜索页面的 URL 构造请求，获取图片链接。 2. 模拟请求：使用 `requests` 发送 HTTP 请求，并设置适当的 headers 以模拟浏览器行为[^1]。 3. 解析 HTML：利用 `lxml` 或 `BeautifulSoup` 提取图片链接。 4. 下载图片：将提取到的图片链接保存到本地文件夹中。 #### 示例代码以下是一个完整的 Python 脚本，用于爬取百度图片并保存到本地： ```python import os import requests from lxml import etree def download_images(query, pages=1): # 创建存储图片的文件夹 folder_path = './img' if not os.path.exists(folder_path): os.makedirs(folder_path) headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36' } for page in range(pages): url = f'https://image.baidu.com/search/index?tn=baiduimage&word={query}&pn={page * 30}' response = requests.get(url, headers=headers) if response.status_code == 200: html = etree.HTML(response.text) img_urls = html.xpath('//img[@class="main_img img-hover"]/@data-imgurl') # 提取图片链接 for i, img_url in enumerate(img_urls): try: img_data = requests.get(img_url, headers=headers).content file_name = f'{folder_path}/{query}_{page * 30 + i}.jpg' with open(file_name, 'wb') as f: f.write(img_data) print(f'Successfully downloaded: {file_name}') except Exception as e: print(f'Failed to download image: {e}') else: print(f'Failed to fetch page {page}: Status code {response.status_code}') if __name__ == "__main__": query_word = input("请输入要搜索的关键词：") num_pages = int(input("请输入要爬取的页数：")) download_images(query_word, num_pages) ``` #### 注意事项 - 在代码中，`query_word` 是用户输入的搜索关键词，`num_pages` 是需要爬取的页数。 - 图片链接的 XPath 表达式可能因百度页面结构变化而失效，需根据实际页面调整。 - 需要安装 `requests` 和 `lxml` 库，可通过以下命令安装： ```bash pip install requests lxml ``` #### 结果保存爬取到的图片会保存在当前目录下的 `./img` 文件夹中，文件名格式为 `{关键词}_{编号}.jpg`。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 private void checkBox1_CheckedChanged(object sender, EventArgs e) { }winform中如何判断checkbox是不是勾选上的