保姆级教程：用Python2.7从零搭建CelebA-HQ数据集（附百度网盘资源）

# 从零构建CelebA-HQ：一份面向现代开发者的深度实践指南如果你正在涉足人脸生成、图像超分辨率或风格迁移等领域，那么CelebA-HQ数据集很可能已经出现在你的研究雷达上。这个由高分辨率名人脸组成的精选集合，因其图像质量高、标注信息丰富，已成为计算机视觉领域一个重要的基准数据集。然而，官方提供的原始CelebA数据集分辨率仅为178x218，而CelebA-HQ则是通过一套复杂的算法流程，将其中3万张图像提升至1024x1024的高清版本。对于许多刚入门的开发者或研究者来说，如何从原始素材开始，一步步搭建起这个数据集，往往是一个充满挑战的过程——尤其是当官方工具依赖于较旧的Python 2.7环境时。网上能找到的教程大多零散，或是直接给出一个成品数据集的下载链接，但后者往往存在链接失效、版本不匹配或缺乏构建过程透明度的问题。更重要的是，亲自动手构建一遍，不仅能让你在遇到模型训练问题时拥有更强的调试能力，更能深入理解数据预处理流程中的关键环节。本文将彻底抛开那些只给网盘链接的简单指南，带你深入技术细节，从环境配置、源码修改到批量生成，完整走通CelebA-HQ的构建流水线。我们会重点关注如何在现代操作系统上优雅地处理Python 2.7的兼容性问题，并分享一些加速处理、验证数据质量的实用技巧。 ## 1. 理解CelebA-HQ：不仅仅是更高清的图片在开始动手之前，我们有必要先搞清楚CelebA-HQ究竟是什么，以及它是如何诞生的。这能帮助你在后续步骤中理解每个操作的目的，而非机械地执行命令。 CelebA数据集本身包含了超过20万张名人脸部图像，每张图都有40种属性标注（如是否微笑、是否戴眼镜等）以及5个关键点坐标。然而，其分辨率较低，限制了它在需要高清细节的任务中的应用。CelebA-HQ的创造者提出了一种基于**渐进式生成对抗网络（PGGAN）** 的“上采样”方法。但请注意，这里的上采样并非简单的双线性插值，而是一个**有监督的、基于学习的图像转换过程**。具体来说，研究者首先训练了一个PGGAN，能够生成高质量的人脸图像。然后，对于CelebA中的每一张低分辨率图片，他们在GAN的隐空间中找到对应的编码，并通过该生成器“重建”出高分辨率版本。这个过程会产生一个“残差”或“增量”文件（也就是`celeba-hq-deltas`文件夹里的内容），这个文件记录了从低清到高清所需的变化信息。因此，构建CelebA-HQ的本质，是**利用预训练的GAN模型和这些增量文件，对原始CelebA图像进行“增强重建”**。理解这一点至关重要，因为它解释了为什么我们需要两个核心输入： 1. **原始CelebA图像** (`img_celeba.7z`)：作为重建的源数据。 2. **HQ增量文件** (`celeba-hq-deltas`)：包含了由GAN学习到的高频细节信息。而`list_landmarks_celeba.txt`文件则提供了人脸关键点，在原始的构建流程中可能用于对齐或辅助生成过程，但在我们最终使用的`h5tool.py`脚本里，它主要用于索引和验证。 > 注意：CelebA-HQ只包含了原始CelebA数据集中质量较高的30,000张图片，并非全部。其ID范围是1到30000。 ## 2. 环境搭建：在Python 3时代优雅地驾驭Python 2.7 官方提供的生成脚本`h5tool.py`及其依赖是为Python 2.7编写的。在2023年甚至更晚的时间点，直接使用系统级的Python 2.7会遭遇大量包依赖和系统兼容性问题。最佳实践是使用**虚拟环境**进行隔离。这里我们首推使用`conda`，因为它能更好地处理Python 2.7这种历史版本的环境。 ### 2.1 使用Conda创建独立的Python 2.7环境打开你的终端（Linux/macOS）或Anaconda Prompt/PowerShell（Windows），执行以下命令来创建一个全新的环境： ```bash conda create -n celeba_hq_py27 python=2.7 -y ``` 这条命令创建了一个名为`celeba_hq_py27`的环境，并指定了Python 2.7。`-y`参数自动确认安装提示。创建完成后，激活该环境： ```bash conda activate celeba_hq_py27 ``` 激活后，你的命令行提示符前通常会显示环境名`(celeba_hq_py27)`，这表明后续的所有Python和pip操作都局限在这个环境内，不会影响你的主系统或其他项目。 ### 2.2 安装依赖包生成脚本依赖于几个关键的Python库。由于Python 2.7已停止维护，直接用`pip install`可能会因为找不到合适的wheel版本而失败。Conda的仓库里仍然保留了许多包的Python 2.7版本，因此我们优先使用`conda install`。 ```bash conda install numpy scipy pillow h5py cryptography -y ``` 如果`conda`渠道中某个包（如`cryptography`）没有合适的版本，可以尝试用`pip`在虚拟环境中安装。但务必确保你已经激活了`celeba_hq_py27`环境。 ```bash pip install cryptography ``` **验证安装**：在激活的环境下，运行`python`进入交互模式，尝试导入这些包，确保没有报错。 ```python import numpy, scipy, PIL, h5py, cryptography print("All dependencies imported successfully.") ``` ### 2.3 获取数据与代码你需要准备以下三个核心组件，并规划好你的项目目录结构。一个清晰的结构能避免后续的路径混乱。 ``` CelebA_HQ_Project/ ├── raw_data/ │ ├── img_celeba.7z (解压后为img_celeba文件夹) │ ├── list_landmarks_celeba.txt │ └── celeba-hq-deltas.zip (不要解压！) ├── scripts/ │ └── h5tool.py (修改后的生成脚本) └── output/ (空文件夹，用于存放最终生成的HQ图像) ``` * **原始图像 (`img_celeba.7z`)**: 下载后，请将其解压。最终你应该有一个名为`img_celeba`的文件夹，里面包含大量以六位数字命名的`.jpg`文件（如`000001.jpg`）。 * **关键点文件 (`list_landmarks_celeba.txt`)**: 下载后，**直接放入**上一步解压得到的`img_celeba`文件夹内。这是脚本读取它的默认位置。 * **HQ增量文件 (`celeba-hq-deltas.zip`)**: **至关重要的一点：保持压缩包原样，不要解压！** 生成脚本`h5tool.py`内部会直接读取这个ZIP文件中的内容。 * **生成脚本 (`h5tool.py`)**: 这是核心的Python脚本。原始版本可能需要一些调整才能在你的系统上运行。 ## 3. 脚本解析与关键修改点直接从网络获取的`h5tool.py`脚本很可能无法开箱即用。我们需要像外科手术一样，精准地修改几处路径和可能的兼容性问题。请用你喜欢的代码编辑器（如VS Code, Sublime Text）打开这个文件。 ### 3.1 修改关键点文件路径在脚本中，寻找读取`list_landmarks_celeba.txt`的代码段。通常它看起来像这样： ```python with open(os.path.join(celeba_dir, 'Anno/list_landmarks_celeba.txt'), 'rt') as file: ``` 问题在于，我们并没有将关键点文件放在`Anno`子目录下，而是直接放在了`img_celeba`文件夹里。因此，需要删除路径中的`'Anno/'`部分： ```python with open(os.path.join(celeba_dir, 'list_landmarks_celeba.txt'), 'rt') as file: ``` ### 3.2 修改输出图像保存路径接下来，找到保存生成图像的代码段。原始脚本可能写死了一个绝对路径，比如： ```python root_path = '/home/user/CelebA/CelebA-HQ' ``` 你需要将其修改为你自己规划的输出目录。例如，按照我们上面的目录结构，可以改为： ```python root_path = '/path/to/your/CelebA_HQ_Project/output' ``` **重要前置步骤**：在运行脚本之前，**必须手动创建**好输出分辨率对应的子文件夹！脚本不会自动创建它们。在你的`output`文件夹内，创建以下五个空文件夹： ``` output/ ├── celeba-64/ ├── celeba-128/ ├── celeba-256/ ├── celeba-512/ └── celeba-1024/ ``` ### 3.3 处理潜在的Python 2.7编码问题 Python 2.7默认的字符串处理与Python 3不同，在读取文件时可能遇到编码错误。如果你在运行时报出`UnicodeDecodeError`，可以尝试在打开文件时指定编码。找到脚本中所有`open(...)`语句，特别是读取文本文件的地方，添加`encoding='utf-8'`参数（如果报错与ASCII有关，也可以尝试`encoding='latin-1'`）。 ```python with open(some_file_path, 'rt', encoding='utf-8') as f: # ... 文件操作 ``` ### 3.4 一个修改后的代码片段示例假设修改保存路径的部分在脚本中是一个循环，它可能看起来像这样（修改后）： ```python # ... 脚本前面的代码 ... root_path = '/Users/YourName/Projects/CelebA_HQ_Project/output' # 修改为你的绝对路径 with ThreadPool(num_threads) as pool: for orig_fn, aimg64, aimg128, aimg256, aimg512, aimg1024 in pool.process_items_concurrently(fields['idx'], process_func=process_func, max_items_in_flight=num_tasks): aimg64.save(os.path.join(root_path, 'celeba-64', str(orig_fn))) aimg128.save(os.path.join(root_path, 'celeba-128', str(orig_fn))) aimg256.save(os.path.join(root_path, 'celeba-256', str(orig_fn))) aimg512.save(os.path.join(root_path, 'celeba-512', str(orig_fn))) aimg1024.save(os.path.join(root_path, 'celeba-1024', str(orig_fn))) print(orig_fn) # ... 脚本后面的代码 ... ``` 我使用了`os.path.join`来拼接路径，这比字符串相加的方式更跨平台、更安全。 ## 4. 执行生成与监控所有准备工作就绪后，就可以开始漫长的生成过程了。 ### 4.1 命令行执行首先，确保你的终端位于`h5tool.py`脚本所在的目录（`CelebA_HQ_Project/scripts/`）。并且，你已经激活了`celeba_hq_py27`虚拟环境。运行以下命令： ```bash python h5tool.py create_celeba_hq celeba-hq-1024x1024.h5 /path/to/raw_data/img_celeba /path/to/raw_data/celeba-hq-deltas.zip ``` 命令分解： * `create_celeba_hq`: 脚本的子命令，指示执行创建HQ数据集的操作。 * `celeba-hq-1024x1024.h5`: 这是脚本会生成的中间文件，一个HDF5格式的文件，包含了所有图像数据。你可以自定义这个名字。 * 第一个路径参数：指向包含`.jpg`文件和`list_landmarks_celeba.txt`的`img_celeba`**文件夹**。 * 第二个路径参数：指向**未解压的**`celeba-hq-deltas.zip`**文件**。 ### 4.2 过程监控与预期按下回车后，脚本开始运行。这个过程会非常耗时，取决于你的CPU性能，可能需要**数小时到十几小时**。在终端中，你会看到它不断打印出正在处理的图片编号（如`1`, `2`, `3`...）。 **正常现象**： * 终端持续输出数字。 * 你的`output`子文件夹里开始慢慢出现图片文件。 * 脚本所在目录会生成一个不断变大的`.h5`文件。 **可能遇到的问题与排查**： 1. **导入错误 (ImportError)**：检查虚拟环境是否激活，以及所有依赖是否已正确安装在当前环境中。 2. **文件找不到错误 (IOError)**：仔细检查三个路径参数是否正确无误。特别是`celeba-hq-deltas.zip`的路径，必须是完整的文件名，且确保文件没有损坏。 3. **内存不足**：生成高分辨率图像（尤其是1024x1024）非常消耗内存。如果进程被杀死，尝试关闭其他大型程序，或者考虑在拥有更大内存的机器上运行。 4. **进程似乎卡住**：检查硬盘活动指示灯或使用系统监控工具查看Python进程是否仍在占用CPU。处理单张高分辨率图像可能需要几十秒，耐心等待。 ### 4.3 验证生成结果生成结束后，不要急于删除中间文件。先进行抽样验证： 1. **检查数量**：每个分辨率文件夹（如`celeba-1024`）下应该有30000张`.png`图片。 ```bash ls -la /path/to/output/celeba-1024 | wc -l # Linux/macOS dir /path/to/output/celeba-1024 | find /c /v "" # Windows (需要减去标题行) ``` 2. **检查质量**：随机打开几张不同ID的图片，查看是否清晰，脸部是否完整，有无明显的扭曲或伪影。 3. **检查对应关系**：确认低分辨率和高分辨率图片的ID是否一一对应。例如，`img_celeba`里的`000123.jpg`应该对应`output/celeba-1024`里的`123.png`。 ## 5. 进阶技巧与后续使用建议成功生成数据集只是第一步，如何高效地利用它同样重要。 ### 5.1 加速处理与资源管理 * **使用更快的存储**：将原始数据和输出目录放在SSD硬盘上，能显著减少I/O等待时间。 * **并行度调整**：查看`h5tool.py`脚本，看是否有控制线程数或批处理大小的参数（如`num_threads`, `max_items_in_flight`）。根据你的CPU核心数适当调高，但要注意内存消耗。 * **分步生成**：如果你只需要特定分辨率（如只需要1024x1024），可以尝试注释掉脚本中保存其他分辨率的代码行，节省磁盘写入时间。 ### 5.2 数据集的加载与使用生成后的图片是分散在各个文件夹的`.png`文件。对于深度学习项目，直接读取文件列表可能效率不高。常见的做法是： 1. **创建索引文件**：编写一个小脚本，生成一个包含所有图片路径和对应属性（可从原始CelebA的`Anno`文件夹获取）的CSV或JSON文件。 2. **使用HDF5文件**：脚本生成的`.h5`文件其实已经将所有图像数据打包在一起。你可以直接使用`h5py`库来读取这个文件，这对于需要快速随机访问的场景非常高效。 ```python import h5py import numpy as np with h5py.File('celeba-hq-1024x1024.h5', 'r') as f: # 数据集通常被存储为一个大的数组 images_dset = f['data'] # 具体键名需查看.h5文件结构 img_1024 = images_dset[0] # 获取第一张图片 print(img_1024.shape) # 期望输出 (3, 1024, 1024) 或 (1024, 1024, 3) ``` 3. **与深度学习框架集成**： PyTorch的`Dataset`和TensorFlow的`tf.data`都可以方便地基于文件列表或HDF5文件创建高效的数据管道。 ### 5.3 常见问题与替代方案 * **磁盘空间不足**： CelebA-HQ全套数据（5种分辨率）需要超过**200GB**的磁盘空间。如果空间紧张，可以只保留你需要的分辨率，并在生成后删除`.h5`中间文件和解压的原始`img_celeba`文件夹。 * **Python 2.7的终极困扰**：如果环境问题实在难以解决，可以考虑寻找社区重写的**Python 3兼容版本**的生成脚本。有些研究者为了复现工作，会自己维护更新版的脚本，在GitHub等平台搜索“CelebA-HQ Python 3”可能会有收获。 * **直接使用预生成版本**：对于急于实验模型、不关心构建过程的用户，一些学术资源网站或云平台（如Google Cloud Public Datasets, Kaggle）有时会提供预生成的CelebA-HQ数据集的镜像。但这失去了对数据构建过程的控制和学习机会。构建CelebA-HQ数据集的过程，就像完成一次精密的数据工程。它考验的不仅仅是按照步骤操作的能力，更是对路径管理、环境隔离、脚本调试和耐心的一次综合锻炼。当三万张高清人脸图片在你面前生成完毕时，那份对数据脉络的掌控感，是直接下载一个现成压缩包无法比拟的。这份指南里提到的路径问题、环境配置陷阱，都是我在实际搭建过程中踩过的坑，希望它们能帮你扫清障碍，把更多精力投入到更有创造性的模型设计与实验中去。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 Python数据分析必备：Numpy数组的5种高效创建方法（附代码示例）

目录

保姆级教程：用Python2.7从零搭建CelebA-HQ数据集（附百度网盘资源）

Python内容推荐

Python 开源项目之「自学编程之路」，保姆级教程

Python 开源项目之「自学编程之路」，保姆级教程：AI实验室、宝藏视频、数据结构、学习指南、机器学习实战、深度学习实战、网络

Python实现CEEMDAN-VMD-CNN-GRU时间序列预测（完整源码和数据)

16个 保姆级 Python 菜鸟教程.docx

Python资源python最基础教程.zip

Python实现EMD-SSA-VMD-LSTM-Attention时间序列预测（完整源码和数据)

Python数据分析入门案例,教程,源码,及资源汇总.zip

Python实现CEEMDAN-CNN-BILSTM-attention时间序列预测（完整源码和数据)

精品--Python 开源项目之「自学编程之路」，保姆级教程：AI实验室、宝藏视频、数据结构、学习指南、机器学习.zip

Python实现CEEMDAN-ABC-VMD-DBO-CNN-LSTM时间序列预测（完整源码和数据)

Python 的环境搭建安装保姆级教程（超详细）

Python实现EMD-CNN-LSTM时间序列预测（完整源码和数据)

Python 开源项目之「自学编程之路」，保姆级教程：AI实验室、宝藏视频、数据结构、学习-PythonPark.zip

python-tutorial-books 是关于python 学习的保姆级的教程文档，这里将包含：python基础.zip

Python实现ARIMA-WOA-CNN-LSTM时间序列预测（完整源码和数据)

Python 自学编程之路」，保姆级教程：AI实验室、宝藏视频、数据结构、学习指南、机器学习实战、网络爬虫、大厂面经、程序人生

Python 开源项目，保姆级教程：AI实验室、宝藏视频、数据结构、学习指南、机器学习实战、深度学习实战、网络爬虫、大厂面经

Python实现CEEMDAN-ISOS-VMD-GRU-ARIMA时间序列预测（完整源码和数据)

Pycharm安装+python3.12环境搭建保姆级教程

【可再生能源场景生成】使用生成对抗性网络的数据驱动场景生成方法研究（该方法基于两个互连的深度神经网络与基于概率模型的现有方法相比）（Python代码实现）

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构

Java线程池运行时状态怎么实时掌握？有哪些靠谱的监控手段？

桌面工具软件项目效益评估及市场预测分析

告别遮挡！UniApp中WebView与原生导航栏的和谐共处方案（附完整可运行代码）

OSPF是怎么在企业网里自动找最优路径并分区域管理的？

UML建模课程设计：图书馆管理系统论文

16个保姆级 Python 菜鸟教程.docx