要读文献 | Nat Rev Drug Discov | 生成扩散模型如何革新抗体药物发现：从序列生成到功能验证

原创

于 2026-03-02 08:23:19 发布 · 519 阅读

标签

1. 从“大海捞针”到“按图索骥”：抗体药物发现为何需要一场AI革命

如果你在生物医药领域工作过，或者只是对前沿科技感兴趣，那你肯定听说过抗体药物。从治疗癌症的PD-1抑制剂，到对抗自身免疫疾病的各类单抗，它们已经彻底改变了现代医学的图景。但你可能不知道的是，发现一个有效的抗体药物，在过去几十年里，其过程堪比“大海捞针”。

传统的抗体发现，比如经典的杂交瘤技术，或者后来的噬菌体展示库筛选，本质上都是一种“试错”过程。科学家们需要从数以亿计、甚至千亿计的候选分子库中，通过一轮又一轮繁琐的湿实验（也就是在实验室里用瓶瓶罐罐做的生物化学实验）去筛选、验证。这个过程不仅耗时——动辄数月甚至数年，而且极其昂贵，成功率还低得可怜。更关键的是，这种方法很难做到“精准设计”。我们想要一个能精准结合新冠病毒某个特定脆弱位点、并且副作用最小的抗体，传统方法就像蒙着眼睛在巨大的乐高积木桶里摸索，找到合适形状的积木全靠运气。

这就是为什么生成式人工智能，特别是生成扩散模型，正在给这个领域带来一场静悄悄但深刻的革命。它把“大海捞针”变成了“按图索骥”。想象一下，你不再需要盲目地筛选海量随机序列，而是可以告诉AI：“请为我设计一个能紧密结合靶点蛋白上‘口袋A’、具有高稳定性、且人源化程度高的抗体序列。” AI模型经过学习，就能像一位精通蛋白质语言的设计师，直接“画”出符合你所有要求的候选抗体蓝图。这不仅仅是效率的提升，更是研发范式的根本性转变。

我接触过不少一线研发团队，他们最头疼的不是没有想法，而是想法到验证的路径太长、成本太高。一个计算科学家设计出的序列，送到生物学家手里做表达、纯化、功能测试，一圈下来可能几周就过去了，结果发现不表达或者没活性，一切又得从头再来。而扩散模型这类AI工具，正试图打通从“计算设计”到“湿实验验证”的闭环，让药物发现变得更像一场精密的“工程设计”。接下来，我们就深入看看，这场革命是如何一步步发生的。

2. 生成扩散模型：给蛋白质“画画”的AI艺术家

要理解扩散模型如何革新抗体设计，我们得先搞明白它到底是什么。别被“扩散”、“去噪”这些词吓到，我们可以用一个非常形象的类比来理解：教AI“复原”一张被涂鸦毁掉的名画。

假设你有一张清晰的抗体结构图（就像一张名画）。扩散模型的学习过程分为两步：“破坏”和“修复”。在“破坏”（前向过程）中，我们给这张清晰的结构图一点点地、随机地加上“噪声”——比如随意移动一些原子的位置，或者随机替换一些氨基酸字母。经过很多步之后，这张图就变成了一堆完全随机、毫无意义的像素点（或原子坐标）。

然后，我们让一个神经网络（通常是U-Net架构）去看这些被一步步破坏的图片，并学习如何从“满是噪声的图片”反向操作，一步步“修复”（反向过程）回最初清晰的抗体结构图。这个过程不是一蹴而就的，而是通过海量的抗体结构数据训练，让神经网络深刻理解抗体从“有序”到“无序”，再从“无序”到“有序”的每一步变化规律。

一旦这个神经网络学会了这个“修复”技能，神奇的事情就发生了。我们可以给它一张完全随机的“噪声图”，然后说：“请把它修复成一个能结合‘某某靶点’的抗体。” 模型就会运用它学到的知识，从纯粹的随机噪声开始，一步步“去噪”，最终“生成”一个全新的、但符合生物学规律的抗体结构或序列。这就是“生成”能力的来源——它不是在记忆和拼凑，而是在创造。

这和之前的一些AI生成模型，比如生成对抗网络（GAN）或变分自编码器（VAE）有很大不同。扩散模型在生成高质量、多样性样本方面表现更稳定，尤其是在处理像蛋白质结构这种复杂的三维空间数据时。它生成的结果更加“自然”，更像一个真实的、可能存在于自然界的抗体。在我自己的项目实践中，用早期VAE模型生成的抗体序列，经常会出现一些非常奇怪、自然界根本不存在的氨基酸排列，导致蛋白根本无法正确折叠。而扩散模型生成的序列，其“语法”和“词频”更接近天然抗体，这大大提高了后续实验的成功率。