深入浅出讲解Stable Diffusion原理，新手也能看明白

最新推荐文章于 2026-04-30 10:23:04 发布

原创

最新推荐文章于 2026-04-30 10:23:04 发布 · 1.2w 阅读

标签

#stable diffusion #计算机视觉 #人工智能

本文详细介绍了StableDiffusion的工作原理，包括前向和反向扩散过程，以及如何在潜在空间中进行运算以提高效率。文章还探讨了变分自编码器在压缩图像和噪声预测因子在生成过程中的作用，以及文本条件如何引导图像生成。此外，提到了模型的不同版本及其训练数据对结果的影响。

说明

最近一段时间对多模态很感兴趣，尤其是Stable Diffusion，安装了环境，圆了自己艺术家的梦想。看了这方面的一些论文，也给人讲过一些这方面的原理，写了一些文章，具体可以参考我的文章：

北方的郎：图文匹配：Clip模型介绍

北方的郎：VQGAN（Vector Quantized Generative Adversarial Network）模型简介

北方的郎：当倚天剑遇到屠龙刀 VQGAN-CLIP 介绍

不知道看文章的人怎么看，听我讲的人经常反应的就是听不明白。于是我又在网上找了一下，发现这篇文章讲的很好，算得上是深入浅出，可惜是英文的，就把它翻译了一下：

https://stable-diffusion-art.com/how-stable-diffusion-work/

在翻译的过程中，我增加了自己的一些东西，调整了一些内容。

Stable Diffusion如何工作？

Stable Diffusion是一种深度学习模型。我们将深入探讨Stable Diffusion是如何工作的。你为什么需要知道这部分内容？除了它本身就是一个引人入胜的主题之外，对内在机制的一些理解将使您成为更好的艺术家。您可以正确使用该工具以获得更高精度的结果。文本到图像(text-to-image)与图像到图像(image-to-image)有何不同？什么是CFG价值？什么是降噪强度？您将在本文中找到答案。

Stable Diffusion能做什么？

在最简单的形式中，Stable Diffusion是一种文本到图像模式。给它一个文本提示(Text Prompt)。 它将返回与文本匹配的图像。

Stable Diffusion将文本提示转换为图像。

扩散模型(Diffusion model)

Stable Diffusion属于一类称为扩散模型（diffusion model）的深度学习模型。它们是生成模型，这意味着它们的目的是生成类似于它们训练数据的新数据。对于Stable Diffusion来说，数据就是图像。
为什么叫扩散模型？因为它的数学看起来很像物理学中的扩散。让我们来解释这个理念。假设我训练了一个只有两种图像的扩散模型：猫和狗。在下图中，左边的两个山峰代表猫和狗这两组图像。

前向扩散将照片变成噪点。（图修改自本文)

前向扩散(Forward diffusion)

前向扩散过程将噪声添加到训练图像中，逐渐将其转换为没有特点的噪声图像。前向过程会将任何猫或狗的图像变成噪声图像。最终，您将无法分辨它们最初是狗还是猫。就像一滴墨水掉进了一杯水里。墨滴在水中扩散。几分钟后，它会随机分布在整个水中。你再也分不清它最初是落在中心还是边缘附近。
下面是一个进行前向扩散的图像示例。猫的图像变成随机噪音。