港科大&MSRA研究：关于图像到图像转换，Finetuning is all you need

许多内容制作项目需要将简单的草图转换为逼真的图片，这就涉及图像到图像的转换（image-to-image translation），它使用深度生成模型学习给定输入的自然图片的条件分布。

图像到图像转换的基本概念是利用预训练的神经网络来捕捉自然图片流形（manifold）。图像转换类似于遍历流形并定位可行的输入语义点。系统使用许多图片对合成网络进行预训练，以从其潜在空间的任何采样中提供可靠的输出。通过预训练的合成网络，下游训练将用户输入调整为模型的潜在表征。

多年来，我们已经看到许多特定于任务的方法达到了 SOTA 水平，但目前的解决方案还是难以创建用于实际使用的高保真图片。

在最近的一篇论文中，香港科技大学和微软亚洲研究院的研究者认为，对于图像到图像的转换，预训练才是 All you need。以往方法需要专门的架构设计，并从头开始训练单个转换模型，因而难以高质量地生成复杂场景，尤其是在配对训练数据不充足的情况下。

因此，研究者将每个图像到图像的转换问题视为下游任务，并引入了一个简单通用框架，该框架采用预训练的扩散模型来适应各种图像到图像的转换。他们将提出的预训练图像到图像转换模型称为 PITI（pretraining-based image-to-image translation）。此外，研究者还提出用对抗训练来增强扩散模型训练中的纹理合成，并与归一化指导采样结合以提升生成质量。

最后，研究者在 ADE20K、COCO-Stuff 和 DIODE 等具有挑战性的基准上对各种任务进行了广泛的实证比较，表明 PITI 合成的图像显示出了前所未有的真实感和忠实度。

港科大&MSRA研究：关于图像到图像转换，Finetuning is all you need

论文链接：https://arxiv.org/pdf/2205.12952.pdf
项目主页：https://tengfei-wang.github.io/PITI/index.html

GAN 已死，扩散模型永存

作者没有使用在特定领域表现最佳的 GAN，而是使用了扩散模型，合成了广泛多样的图片。其次，它应该从两种类型的潜在代码中生成图片：一种描述视觉语义，另一种针对图像波动进行调整。语义、低维潜在对于下游任务至关重要。否则，就不可能将模态输入转换为复杂的潜在空间。鉴于此，他们使用 GLIDE 作为预训练的生成先验，这是一种可以生成不同图片的数据驱动模型。由于 GLIDE 使用了潜在的文本，它允许语义潜在空间。

扩散和基于分数的方法表现出跨基准的生成质量。在类条件 ImageNet 上，这些模型在视觉质量和采样多样性方面与基于 GAN 的方法相媲美。最近，用大规模文本图像配对训练的扩散模型显示出惊人的能力。训练有素的扩散模型可以为合成提供通用的生成先验。

港科大&MSRA研究：关于图像到图像转换，Finetuning is all you need