（2023，微调节，多纵横比训练，细化模型）SDXL：用于高分辨率图像合成的改进的潜在扩散模型

原创

已于 2023-09-19 20:06:16 修改 · 3.1k 阅读

标签

#人工智能

于 2023-09-19 19:56:43 首次发布

本文提出 SDXL，一种用于文本到图像合成的潜在扩散模型。与旧版稳定扩散相比，它利用更大 UNet 主干、设计新颖调节方案、在多纵横比上训练，还引入细化模型提升视觉保真度。不过，模型也存在合成复杂结构困难、有偏见等局限。

SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis

公众号：EDPJ（添加 VX：CV_EDPJ 或直接进 Q 交流群：922230617 获取资料）

2.2 微调节（Micro-Conditioning）

2.3 多纵横比（aspect-ratios）训练

0. 摘要

我们提出了 SDXL，一种用于文本到图像合成的潜在扩散模型（latent diffusion model，LDM）。与之前版本的稳定扩散相比，SDXL 利用了三倍大的 UNet 主干：模型参数的增加主要是由于更多的注意力块和更大的交叉注意力上下文，因为 SDXL 使用第二个文本编码器。我们设计了多种新颖的调节方案并在多种纵横比上训练 SDXL。我们还引入了一种细化（refinement）模型，该模型用于使用事后（post-hoc）图像到图像技术提高 SDXL 生成的样本的视觉保真度。我们证明，与以前版本的稳定扩散相比，SDXL 显示出显着提高的性能，并取得了与黑盒最先进的图像生成器相媲美的结果。本着促进开放研究并提高大型模型训练和评估透明度的精神，我们提供对代码和模型权重的访问。

代码：https://github.com/Stability-AI/generative-models

模型权重：https://huggingface.co/stabilityai/

1. 简介

去年，自然语言 [50]、音频 [17] 和视觉媒体 [38、37、40、44、15、3、7] 等各种数据领域的深度生成模型取得了巨大飞跃。在本报告中，我们重点关注后者并推出了 SDXL，这是稳定扩散的大幅改进版本。稳定扩散是一种潜在的文本到图像扩散模型（DM），它是一系列最新进展的基础，例如 3D 分类 [43]、可控图像编辑 [54]、图像个性化 [10]、合成数据增强 [48]、图形用户界面原型 [51] 等。值得注意的是，应用范围非常广泛，涵盖音乐生成 [9] 和从功能磁共振成像（fMRI）脑扫描重建图像等多种领域 [49]。

用户研究表明，SDXL 始终大幅超越所有以前版本的稳定扩散（见图 1）。在本报告中，我们提出了导致性能提升的设计选择，包括：

与之前的稳定扩散模型相比，UNet 骨干增加了 3 倍（第 2.1 节）
两种简单但有效的附加调节技术（第 2.2 节) 不需要任何形式的额外监督
一个单独的基于扩散的细化模型，该模型对 SDXL 产生的潜在编码应用噪声去噪过程 [28]，以提高其样本的视觉质量（第 2.5 节）。

视觉媒体创作领域的一个主要问题是，虽然黑盒模型通常被认为是最先进的，但其架构的不透明性阻碍了对其性能的忠实评估和验证。这种透明度的缺乏阻碍了可重复性，抑制了创新，并阻止社区在这些模型的基础上进一步推动科学和艺术的进步。此外，这些闭源策略使得以公正和客观的方式评估这些模型的偏见（biases）和局限性变得具有挑战性，这对于负责任和道德的部署至关重要。通过 SDXL，我们发布了一个开放模型，该模型可实现与黑盒图像生成模型的竞争性能（见图 10 和图 11）。

2. 改进稳定扩散

在本节中，我们将介绍对稳定扩散架构的改进。它们是模块化的，可以单独使用或一起使用来扩展任何模型。尽管以下策略是作为潜在扩散模型（LDM）[38] 的扩展来实现的，但其中大多数也适用于其像素空间对应物。

2.1 架构与规模

从 Ho 等人 [14] 和宋等人 [47] 证明了 DM 是强大的图像合成生成模型的开创性作品开始，卷积UNet [39] 架构一直是基于扩散的图像合成的主要架构。然而，随着基础 DM 的发展 [40,37,38]，底层架构不断发展：从添加自注意力和改进的升级层 [5]，到文本到图像合成的交叉注意力 [38] ，到纯基于 transformer 的架构 [33]。

我们遵循这一趋势，并遵循 Hoogeboom 等人 [16] 的观点，将 transformer 的大部分计算转移到 UNet 中的较低层特征。特别是，与原始的稳定扩散架构相比，我们在 U-Net 内使用 transformer 块的异构分布：出于效率原因，我们省略了最高特征级别的 transformer 块，在较低级别使用 2 和 10 个块，并完全删除 U-Net 中的最低级别（8×下采样）——参见表 1。表 1 比较 Stable Diffusion 1.x & 2.x 和 SDXL 的架构。我们选择更强大的预训练文本编码器用于文本调节。具体来说，我们将 OpenCLIP ViT-bigG [19] 与 CLIP ViT-L [34] 结合使用，其中我们沿着通道轴连接倒数第二个文本编码器输出 [1]。除了使用交叉注意力层来根据文本输入来调节模型之外，我们还遵循[30]，并另外根据 OpenCLIP 模型的池化文本嵌入来调节模型。这些变化导致 U-Net 中的模型大小为 2.6B 参数，请参见表 1。文本编码器的参数总大小为817M。

2.2 微调节（Micro-Conditioning）

根据图像尺寸调节模型。 LDM 范式 [38] 的一个臭名昭著的缺点是，由于其两阶段架构，训练模型需要最小的图像大小。解决此问题的两种主要方法是丢弃低于某个最小分辨率的所有训练图像（例如，稳定扩散 1.4/1.5 丢弃所有低于 512 像素的任何尺寸的图像），或者上采样太小的图像。然而，根据所需的图像分辨率，前一种方法可能会导致训练数据的很大一部分被丢弃，这可能会导致性能损失并损害泛化能力。我们在图 2 中可视化了 SDXL 预训练数据集的此类效果。对于这种特定的数据选择，丢弃低于 256^2 像素预训练分辨率的所有样本将导致丢弃 39% 的数据。另一方面，第二种方法通

最低0.47元/天解锁文章