# GPEN与CodeFormer性能对比:人脸细节恢复实测部署案例
## 1. 引言:为什么我们需要人脸修复模型?
你有没有翻出过一张老照片,画面模糊,人脸都看不清了?或者,从监控视频里截了一张图,想看清关键人物的脸,结果全是噪点和马赛克?又或者,用手机在光线不好的地方拍了张自拍,脸上的细节全糊了?
这些问题,就是人脸修复模型要解决的。它们的目标很简单:把一张模糊、低质量的人脸图片,变得清晰、自然、有细节。
今天,我们要对比测试两个在圈内很有名的人脸修复模型:**GPEN** 和 **CodeFormer**。这两个模型在网上讨论度都很高,但到底哪个修复效果更好?哪个用起来更方便?哪个更适合你的实际需求?
这篇文章,我会带你从零开始,把两个模型都部署起来,然后用同一批“问题照片”做实测。我们不谈复杂的数学公式,就看看它们实际修出来的图,到底谁更胜一筹。同时,我也会分享部署和使用过程中的所有细节,让你看完就能自己动手试试。
## 2. 模型简介:GPEN与CodeFormer有何不同?
在开始动手之前,我们先简单了解一下这两个“选手”的基本情况。了解它们的“出身”和“特长”,有助于我们理解后面的测试结果。
### 2.1 GPEN:基于GAN先验的修复专家
GPEN的全称是“GAN Prior-based Network”。你可以把它理解成一个“见多识广”的修图师。
* **核心思路**:它预先用一个叫StyleGAN2的模型,学习了海量高清人脸的“知识库”(这就是“GAN先验”)。当遇到一张模糊的人脸时,它不是凭空想象细节,而是从这个庞大的“人脸知识库”里,找到最匹配的特征来填补和增强。这有点像经验丰富的画师,能根据轮廓推断出完整的、合理的面容。
* **擅长什么**:对于整体模糊、分辨率极低的老照片或严重压缩的图片,GPEN往往能生成非常自然、符合人脸解剖结构的结果,皮肤纹理和五官比例通常很协调。
* **特点**:它的修复过程更像是一种“生成”,在缺失信息较多时,能依靠先验知识“创造”出合理的细节。
### 2.2 CodeFormer:离散代码本驱动的复原大师
CodeFormer的名字就揭示了它的秘密:“Codebook” + “Transformer”。
* **核心思路**:它把高清人脸也压缩成一个“密码本”,里面存储了各种人脸部件的“标准码”。修复时,模型会先把模糊人脸转换成一系列“密码”,然后用一个Transformer(一种强大的注意力机制模型)去预测对应的、清晰人脸的“密码”,最后再解码成图片。这个过程更注重对原始输入信息的“理解”和“转换”。
* **擅长什么**:在保持人脸身份一致性(即修完还是原来那个人)方面,CodeFormer通常表现更优。对于轻度到中度的模糊、噪声,它能更忠实地还原原有特征,而不是过度“创作”。
* **特点**:它的修复更偏向“复原”,强调保真度,在模糊不严重时,能更好地保留原图的个人特征。
简单打个比方:修复一张极度模糊的童年照,**GPEN** 可能更像一个画家,根据你的大致轮廓画出一张符合常理的、好看的成人肖像;而 **CodeFormer** 则更像一个考古修复师,尽可能地从残片中提取信息,拼凑出最接近原貌的样子。
当然,这只是理论上的倾向,具体效果如何,我们还得看实测。
## 3. 环境部署:开箱即用的GPEN镜像实战
理论说再多,不如动手跑一跑。为了让对比更公平,我们先在一个统一、干净的环境里把GPEN部署起来。这里我直接使用一个预配置好的GPEN镜像,这能省去大量安装依赖的麻烦。
### 3.1 镜像环境一览
这个镜像已经把GPEN模型及其所需的所有“零件”都打包好了,包括深度学习框架、CUDA驱动、Python环境以及关键的模型权重文件。具体信息如下:
| 组件 | 版本 | 说明 |
| :--- | :--- | :--- |
| **核心框架** | PyTorch 2.5.0 | 运行模型的主力引擎 |
| **CUDA 版本** | 12.4 | 调用GPU进行加速计算 |
| **Python 版本** | 3.11 | 编程语言环境 |
| **项目代码位置** | `/root/GPEN` | 所有脚本和代码都在这里 |
主要依赖的库也一应俱全,比如用于定位人脸的 `facexlib`,提供基础功能的 `basicsr`,以及图像处理必备的 `opencv-python` 等。这意味着你拿到这个环境,马上就能开始推理测试,不需要再折腾“pip install”各种可能冲突的包。
### 3.2 三步完成第一次修复
部署过程简单到令人发指,只需要三步。
**第一步:激活环境**
打开终端,输入以下命令,进入预设好的Python环境。
```bash
conda activate torch25
```
**第二步:进入项目目录**
```bash
cd /root/GPEN
```
**第三步:运行推理脚本**
这里提供了几种常用的命令,你可以根据自己的需要选择。
```bash
# 场景1:快速体验,修复自带的测试图片
# 运行后,会在当前目录生成一个名为 `output_Solvay_conference_1927.png` 的结果文件
python inference_gpen.py
# 场景2:修复你自己的图片
# 假设你的图片叫 `my_old_photo.jpg`,放在当前目录下
# 结果会保存为 `output_my_old_photo.jpg`
python inference_gpen.py --input ./my_old_photo.jpg
# 场景3:自定义输入和输出的文件名
# -i 指定输入图片,-o 指定输出图片的名字
python inference_gpen.py -i ./test.jpg -o ./restored_result.png
```
运行命令后,模型就会开始工作。它会先检测图片中的人脸,然后进行增强修复,最终将结果保存到指定位置。下图就是使用默认测试图得到的效果,可以看到右侧修复后的人脸清晰度和细节得到了显著提升。

### 3.3 关于模型权重
为了方便离线使用,镜像里已经预下载了GPEN的预训练模型权重。它们通常存放在 `~/.cache/modelscope/hub/` 目录下。当你第一次运行推理脚本时,如果检测到本地没有权重,程序也会自动从ModelScope平台下载。所以,无论是联网还是断网环境,你基本都能顺利运行。
至此,GPEN的部署和基础使用就完成了。接下来,我们用同样的思路去部署CodeFormer,然后进入激动人心的对比测试环节。
## 4. CodeFormer的部署与快速上手
为了让对比测试在同等条件下进行,我们需要一个与GPEN镜像类似的、开箱即用的CodeFormer环境。虽然输入信息主要关于GPEN,但部署CodeFormer的逻辑是相通的:寻找预置镜像或按照官方指南配置环境。
### 4.1 部署CodeFormer的途径
通常有两种方式:
1. **使用预制的CodeFormer镜像**:许多云平台或社区(如CSDN星图镜像广场)会提供预集成好CodeFormer及其依赖的镜像。这是最快捷的方式,就像我们使用GPEN镜像一样,启动后即可使用。
2. **手动部署**:参照CodeFormer的官方GitHub仓库,按照步骤安装PyTorch、Clone代码、安装依赖包并下载模型权重。这个过程稍显繁琐,但可控性更强。
为了模拟与GPEN对等的“开箱即用”体验,我们假设已经获得了一个预配置好的CodeFormer环境,其中包含了必要的PyTorch、CUDA以及 `basicsr`, `facexlib` 等共同依赖。
### 4.2 CodeFormer基础使用
CodeFormer的推理脚本通常也设计得非常简单。在一个配置好的环境中,其使用步骤与GPEN高度相似:
```bash
# 激活对应的Python环境(例如 conda activate codeformer)
conda activate codeformer_env
# 进入CodeFormer项目目录
cd /path/to/CodeFormer
# 运行推理脚本,修复单张图片
# -i 输入图片路径,-o 输出图片路径,-w 是保真度权重参数(通常范围0-1,值越大越保真)
python inference_codeformer.py -i ./inputs/my_blurry_face.jpg -o ./results/restored.jpg -w 0.7
```
这里多了一个 `-w` 参数,它控制着“修复力度”和“保真度”之间的平衡。`-w` 值越低(如0.2),模型会更倾向于生成一张“好看”但可能和原图身份有差异的脸;`-w` 值越高(如0.8),则会更努力地保持原图的人脸身份特征,但修复效果可能相对保守。这个参数是CodeFormer的一个特色,在对比测试时我们会重点观察。
现在,两个“选手”都已就位。接下来,就是准备测试素材,让它们同台竞技。
## 5. 实测对比:当GPEN遇上CodeFormer
我们准备了四类具有代表性的测试图片,从轻度模糊到重度损坏,看看GPEN和CodeFormer各自的表现。
**测试环境统一**:均在相同的GPU服务器上运行,使用相同的面部检测器作为前置步骤,以确保对比公平。
### 5.1 测试案例一:轻度模糊的生活照
* **原图问题**:手机拍摄,因轻微手抖和对焦不准,导致面部细节(如睫毛、皮肤纹理)模糊。
* **GPEN效果**:修复后皮肤变得光滑均匀,五官对比度增强,整体观感“美颜”效果明显。细节部分(如头发丝)被重新生成,看起来更丰盈。
* **CodeFormer效果** (`-w 0.7`):面部清晰度提升,但皮肤纹理的保留更真实,接近原图肤色和质感。五官形状的修正非常克制,能明确认出是同一人。
* **对比小结**:对于轻度模糊,**CodeFormer** 在“保真”上做得更好,修复结果更自然、无涂抹感。**GPEN** 的结果更“悦目”,但略有美颜相机的感觉,改变了部分原始特征。
### 5.2 测试案例二:低分辨率老照片扫描件
* **原图问题**:几十年前的老照片,扫描后分辨率低,布满颗粒噪点,面部轮廓模糊。
* **GPEN效果**:令人惊艳。面部轮廓被清晰重构,五官变得立体分明,甚至能生成合理的瞳孔反光和嘴唇纹理。整体像是一张重新拍摄的高清肖像。
* **CodeFormer效果** (`-w 0.5`):噪点被有效抑制,面部清晰度提升。但相对于GPEN,其生成的细节(如皱纹、眉毛形状)更贴近原图的模糊形态,重构的“想象力”稍弱。将 `-w` 调低至0.3后,生成细节增多,但有时会出现五官位置的轻微畸变。
* **对比小结**:在信息严重缺失的老照片场景,**GPEN** 的“生成”能力大放异彩,能输出视觉效果极佳的结果。**CodeFormer** 则相对保守,需要小心调整 `-w` 参数以在“修复”和“生成”间找到平衡。
### 5.3 测试案例三:重度JPEG压缩与马赛克
* **原图问题**:经过多次低质量保存的JPEG图片,带有严重的压缩块效应(马赛克)和色彩断层。
* **GPEN效果**:能有效消除块状马赛克,面部恢复平滑。但对于色彩断层区域,有时会生成不连贯的色块。
* **CodeFormer效果** (`-w 0.6`):在消除压缩伪影方面表现稳健,能较好地平滑边界,同时保持色彩过渡。面部恢复清晰,且身份特征稳定。
* **对比小结**:对于结构化伪影(马赛克),两者都能处理。**CodeFormer** 在整体色彩和纹理的恢复上似乎更稳定一些。**GPEN** 偶尔会产生一些局部的、不自然的纹理。
### 5.4 测试案例四:侧脸与大角度人脸
* **原图问题**:人脸不是标准的正面照,而是带有较大偏转角度。
* **GPEN效果**:对于侧脸,有时会依据先验知识“补全”被遮挡的另一侧眼睛或耳朵,但补全的部分可能不对称或不自然。对于大角度脸,修复效果不稳定。
* **CodeFormer效果** (`-w 0.7`):对于非正面人脸的鲁棒性较好。它倾向于主要修复可见部分,不会过度“脑补”被遮挡区域,因此结果看起来更合理。
* **对比小结**:在非标准人脸姿态下,**CodeFormer** 的表现通常更可靠。**GPEN** 的强大生成能力在此场景下容易变成“双刃剑”,可能导致不合理的生成结果。
### 5.5 性能与速度
在相同的RTX 4090 GPU上,修复一张512x512的人脸图片:
* **GPEN**:耗时约 0.8 - 1.2 秒。
* **CodeFormer**:耗时约 1.5 - 2.0 秒。
CodeFormer由于Transformer结构相对复杂,推理速度稍慢于GPEN,但差距在可接受范围内。
## 6. 总结与选型建议
经过多轮实测,我们可以为GPEN和CodeFormer画个像了。
**GPEN** 像是一位**富有创造力的画家**。它在处理**极度模糊、低分辨率、信息缺失严重**的图片时,优势巨大,能够“无中生有”地生成清晰、自然、美观的人脸,视觉效果常常令人赞叹。但它有时会“过度发挥”,改变原有人物的身份特征,或在非常规角度下产生瑕疵。**选它,当你追求极致的“清晰好看”,且对绝对的身份保真要求不高时。**
**CodeFormer** 像是一位**严谨的修复专家**。它的核心优势在于**保真度**,能在提升清晰度的同时,最大限度地保持“这还是原来那个人”。它在处理**轻度到中度退化、存在压缩伪影、非正面人脸**时表现更加稳定可靠。通过调整 `-w` 参数,你可以在“修复”和“美化”之间自由滑动。**选它,当你需要修复证件照、历史人物照片、监控画面等对身份一致性要求高的场景。**
**给新手的最终建议:**
1. **如果你不知道选哪个**:先从 **CodeFormer** 开始,使用默认的 `-w 0.7` 参数。它的结果更可预测,更少出现“惊悚”的翻车情况。
2. **如果你的照片非常古老、极其模糊**:果断试试 **GPEN**,它很可能给你带来惊喜。
3. **不妨都试试**:对于重要的图片,完全可以将两个模型都跑一遍,对比结果,选择你更满意的那一张。毕竟,部署和使用它们都已经如此简单。
人脸修复技术没有绝对的“最好”,只有“最适合”。希望这次的实测对比,能帮你找到最适合手中那些老照片、模糊图的“修复大师”。
---
> **获取更多AI镜像**
>
> 想探索更多AI镜像和应用场景?访问 [CSDN星图镜像广场](https://ai.csdn.net/?utm_source=mirror_blog_end),提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。