知道一个网址，把这个网页网页保存为本地的html文件，包括图片，使用Python

### 如何使用 Python 下载整个网页并保存为本地 HTML 文件以及下载其中的图片为了完成这一目标，可以通过 `urllib` 或 `requests` 库获取网页内容，并通过 `BeautifulSoup` 解析 HTML 文档来提取和处理图片链接。以下是完整的解决方案： #### 1. 获取网页内容利用 `requests.get()` 方法可以从指定 URL 中获取网页内容。 ```python import requests def fetch_web_content(url): response = requests.get(url) if response.status_code == 200: return response.text else: raise Exception(f"Failed to retrieve content from {url}. Status code: {response.status_code}") ``` 此函数会返回网页的原始 HTML 内容[^2]。 #### 2. 创建本地 HTML 文件将获取到的 HTML 数据写入本地文件中。 ```python def save_html(file_name, html_content): with open(file_name + ".html", "w", encoding="utf-8") as file: file.write(html_content) ``` 注意编码设置为 UTF-8，以支持中文字符或其他特殊字符[^4]。 #### 3. 提取并下载图片借助 `BeautifulSoup` 来解析 HTML 并找到所有的 `<img>` 标签及其对应的 `src` 属性。 ```python from bs4 import BeautifulSoup import os import urllib.parse def download_images(base_url, html_content, output_dir): soup = BeautifulSoup(html_content, 'html.parser') img_tags = soup.find_all('img') if not os.path.exists(output_dir): os.makedirs(output_dir) for img in img_tags: src = img.get('src') if not src: continue full_src = urllib.parse.urljoin(base_url, src) # 处理相对路径 filename = os.path.basename(full_src) try: image_response = requests.get(full_src) if image_response.status_code == 200: with open(os.path.join(output_dir, filename), 'wb') as f: f.write(image_response.content) # 替换 HTML 中的图片路径为本地路径 new_path = os.path.abspath(os.path.join(output_dir, filename)) img['src'] = 'file://' + new_path.replace("\\", "/") except Exception as e: print(f"Error downloading {full_src}: {e}") return str(soup) # 返回修改后的 HTML 内容 ``` 这段代码不仅下载了图片，还替换了 HTML 文件中的图片路径指向本地存储位置[^3]。 #### 4. 综合以上功能最后一步是调用这些方法并将它们组合起来形成最终的工作流。 ```python if __name__ == "__main__": url = input("Enter the webpage URL you want to download: ") base_output_dir = "./downloaded_page" try: web_content = fetch_web_content(url) updated_html = download_images(url, web_content, base_output_dir) save_html("index", updated_html) print("Webpage and images have been successfully downloaded.") except Exception as err: print(err) ``` 这样就实现了从网络抓取网页、保存成本地 HTML 文件的同时也完成了对页面内嵌资源（如图片）的同步下载与替换工作流程[^1]^。 ---

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 nn.init.kaiming_normal_(m.weight, mode='fan_in', nonlinearity='leaky_relu')

目录

知道一个网址，把这个网页网页保存为本地的html文件，包括图片，使用Python

Python内容推荐

用Python下载一个网页保存为本地的HTML文件实例

python抓取网页中图片并保存到本地

Python爬虫获取图片并下载保存至本地的实例

python保存网页图片到本地的方法

python 抓取一个网站所有图片并保存

使用Python保存网页上的图片或者保存页面为截图

Python实现抓取HTML网页并以PDF文件形式保存的方法

Python爬虫抓取指定网页图片代码实例

Python3实现Markdown生成的网页中嵌入本地图片

通过python爬取网页图片

Python使用爬虫抓取美女图片并保存到本地的方法【测试可用】

Python+selenium实现截图图片并保存截取的图片

python抓取网页图片并放到指定文件夹

Python爬虫爬取一个网页上的图片地址实例代码

Python3简单爬虫抓取网页图片代码实例

Python使用爬虫爬取静态网页图片的方法详解

Python使用Scrapy爬虫框架全站爬取图片并保存本地的实现代码

python实现下载指定网址所有图片的方法

Python实现简单网页图片抓取完整代码实例

python实现自动网页截图并裁剪图片

处理minio文件分析链接的python

minio 文件服务器

minio-py:用于 Python 的 MinIO 客户端 SDK

二、python+前端 实现MinIO分片上传

Python连接MinIO[项目代码]

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构

二、python+前端实现MinIO分片上传