DeepSeek Sparse Attention：当大模型的“大脑”学会精打细算

最新推荐文章于 2026-06-26 19:39:05 发布

原创最新推荐文章于 2026-06-26 19:39:05 发布 · 516 阅读

5 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#人工智能 #算法 #python

AI 时代程序员必备技能

Codex、Claude Code、Cursor、Hermes Agent、OpenClaw等工程化实战专栏，讲透 AI 如何接管脏活累活

一键订阅

DeepSeek Sparse Attention：当大模型的“大脑”学会精打细算

如果说大语言模型是一颗大脑，那么注意力机制就是它的大脑皮层——每一次思考都要检查所有神经元的活动，计算量随信息量平方增长，很快就把自己“算爆”了。

传统Transformer的自注意力机制需要计算序列中每一个token与其他所有token的相关性，当序列长度L拓展到128K时，单精度浮点数的注意力矩阵将占用约68.7GB的显存——这还只是一个注意力头的开销。这让“长上下文”成为一个难以逾越的天花板。

DeepSeek推出的稀疏注意力机制（DeepSeek Sparse Attention，DSA），正是在为这颗过度燃烧的大脑做一次关键的手术。2025年9月29日，DeepSeek正式开源了带有DSA机制的实验性模型DeepSeek-V3.2-Exp，参数量为685B。此后，DSA被进一步继承与扩展至DeepSeek-V4，成为支撑百万级别上下文能力的核心架构底座。DSA也是DeepSeek与北京大学合作的ACL 2025最佳论文中，原生稀疏注意力机制（NSA）的工程化落地与演进。

下面，我们将从代码出发，一步步拆解DSA的精髓。

一、DSA为何重要？——破解长上下文的囚徒困境

要理解DSA的价值，首先要看清传统注意力机制面临的囚徒困境：更大的上下文窗口带来更精准的模型回答，但每扩大10倍序列长度，计算量就要扩大100倍。在1M上下文的极限条件下，Full Attention需要约1T的浮点运算量。KV缓存同样令人头疼——对于40层、32头、128维的典型配置，序列长度128K时KV缓存已超过100GB。

DSA的核心突破在于：它将“谁重要”的选择权完全交给了模型自己，而非人工设计的固定规则。下面，我们用一段伪代码来对比传统注意力的计算瓶颈：

# 传统Full Attention的复杂度示意
import torch

def full_attention(query, key, value):
    # query, key, value: [batch, heads, seq_len, dim]
    scores = torch.matmul(query, key.transpose(-2, -1))  # O(L^2) 矩阵乘法
    attn_weights = torch.softmax(scores, dim=-1)
    output = torch.matmul(attn_weights, value)          # O(L^2) 再一次
    return output

# 当 seq_len = 128K，head_dim=128，半精度下 scores 矩阵大小约为
# 128K * 128K * 2 bytes ≈ 32GB —— 单头已爆显存

而DSA的解法，可以用一句概括：先筛后排，以筛置换。

二、DSA核心代码实现：Lightning Indexer + Top-k + Sparse MLA

下面，我们将用PyTorch风格的代码，构建一个可运行的DSA简化版，帮助理解其内部流程。为便于展示，我们假设batch=1，单头注意力。

1. Lightning Indexer：低成本预筛选

import torch
import torch.nn.functional as F

class LightningIndexer(torch.nn.Module):
    """
    轻量级索引器：用低维投影、少量头、FP8低精度（模拟）快速打分。
    输入: query [1, L_q, d_model], key [1, L_k, d_model]
    输出: scores [1, L_q, L_k]  每个(q, k)对的相关性分数（不经过softmax）
    """
    def __init__(self, d_model, indexer_dim=64, num_indexer_heads=4):
        super().__init__()
        self.d_model = d_model
        self.indexer_dim = indexer_dim
        self.num_heads = num_indexer_heads
        # 低秩投影矩阵
        self.W_q = torch.nn.Linear(d_model, indexer_dim * num_indexer_heads, bias=False)
        self.W_k = torch.nn.Linear(d_model, indexer_dim * num_indexer_heads, bias=False)

    def forward(self, query, key):
        # 投影到低维空间: [1, L, indexer_dim * num_heads]
        q_proj = self.W_q(query)
        k_proj = self.W_k(key)

        # 拆分为多头: [num_heads, L, indexer_dim]
        B, L_q, _ = q_proj.shape
        _, L_k, _ = k_proj.shape
        q_proj = q_proj.view(B, L_q, self.num_heads, self.indexer_dim).transpose(1, 2)
        k_proj = k_proj.view(B, L_k, self.num_heads, self.indexer_dim).transpose(1, 2)

        # 计算点积得分（无softmax，不除scale）：[num_heads, L_q, L_k]
        scores = torch.einsum('hqd,hkd->hqk', q_proj, k_proj)  # 简化的多头求和
        # 取所有头的平均值作为最终得分： [L_q, L_k]
        scores = scores.mean(dim=0)
        return scores  # 未归一化的相关性分数

2. Top-k Selection：固定预算筛选

def top_k_selection(scores, k=2048, padding_mask=None):
    """
    从所有历史token中选出得分最高的k个位置。
    scores: [1, L_q, L_k]  每个query对应的历史分数
    k: 保留的token数量（固定）
    return: top_k_indices [1, L_q, k], top_k_mask [1, L_q, k]（有效位置标记）
    """
    batch, L_q, L_k = scores.shape
    top_k_indices = torch.topk(scores, k, dim=-1).indices  # [B, L_q, k]
    top_k_mask = torch.ones_like(top_k_indices, dtype=torch.bool)
    # 若k > 实际有效token数，需对无效位置进行mask（简化起见，假设L_k >= k）
    return top_k_indices, top_k_mask

3. 稀疏MLA：仅对选中的KV进行计算

这里我们复用DeepSeek已有的MLA（Multi-head Latent Attention）压缩思想，但仅对top-k的键值进行访问。

class SparseMLAAttention(torch.nn.Module):
    """
    基于稀疏选择的MLA注意力。
    通过压缩KV缓存降低内存，再通过DSA稀疏选择降低计算量。
    """
    def __init__(self, d_model, n_heads, kv_compress_ratio=2):
        super().__init__()
        self.d_model = d_model
        self.n_heads = n_heads
        self.head_dim = d_model // n_heads
        self.compress_dim = d_model // kv_compress_ratio

        # MLA压缩矩阵：将KV压缩到低维潜在空间
        self.W_down_kv = torch.nn.Linear(d_model, self.compress_dim, bias=False)
        self.W_up_kv = torch.nn.Linear(self.compress_dim, d_model, bias=False)
        self.W_q = torch.nn.Linear(d_model, d_model, bias=False)
        self.W_o = torch.nn.Linear(d_model, d_model, bias=False)

    def compress_kv(self, key, value):
        """KV压缩：将原始K,V投影到低维潜在向量"""
        # key, value: [B, L, d_model]
        compressed = self.W_down_kv(key)  # [B, L, compress_dim]
        # 实际MLA会存储compressed，而非原始K,V
        return compressed

    def decompress_kv(self, compressed):
        """解压以获得用于注意力的K,V"""
        # compressed: [B, L, compress_dim]
        kv = self.W_up_kv(compressed)  # [B, L, d_model]
        k = kv  # 简化：K,V共享解压结果
        v = kv
        return k, v

    def forward(self, query, compressed_kv, top_k_indices):
        """
        query: [B, L_q, d_model]
        compressed_kv: [B, L_k, compress_dim]  全部历史token的压缩KV
        top_k_indices: [B, L_q, k]  每个query选中的历史位置索引
        """
        B, L_q, _ = query.shape
        _, L_k, _ = compressed_kv.shape
        k = self.compress_dim

        # 1. 线性变换生成Q
        q = self.W_q(query)  # [B, L_q, d_model]
        q = q.view(B, L_q, self.n_heads, self.head_dim).transpose(1, 2)  # [B, H, L_q, D]

        # 2. 根据稀疏索引收集对应的压缩KV并解压
        # 为简单实现，我们逐query处理（实际工程可用gather + 批处理）
        outputs = []
        for b in range(B):
            q_b = q[b]  # [H, L_q, D]
            outputs_b = []
            for t in range(L_q):
                indices_t = top_k_indices[b, t]  # [k]
                # 从压缩KV中收集选中的条目
                selected_compressed = compressed_kv[b, indices_t]  # [k, compress_dim]
                # 解压得到K_selected, V_selected: [k, d_model]
                k_selected, v_selected = self.decompress_kv(selected_compressed)
                k_selected = k_selected.view(k_selected.shape[0], self.n_heads, self.head_dim).transpose(0, 1)  # [H, k, D]
                v_selected = v_selected.view(v_selected.shape[0], self.n_heads, self.head_dim).transpose(0, 1)
                # 对当前query token（所有头）计算注意力
                q_t = q_b[:, t:t+1, :]  # [H, 1, D]
                scores_t = torch.matmul(q_t, k_selected.transpose(-2, -1)) / (self.head_dim ** 0.5)  # [H, 1, k]
                attn_t = F.softmax(scores_t, dim=-1)
                out_t = torch.matmul(attn_t, v_selected)  # [H, 1, D]
                outputs_b.append(out_t.transpose(1, 2).reshape(1, -1))  # [1, d_model]
            outputs.append(torch.cat(outputs_b, dim=0))  # [L_q, d_model]
        output = torch.stack(outputs, dim=0)  # [B, L_q, d_model]
        output = self.W_o(output)
        return output

4. 完整的DSA层

将上述组件串联起来，形成一个可直接替换标准注意力的DSA层。

class DeepSeekSparseAttention(torch.nn.Module):
    """DSA完整实现：Lightning Indexer + Top-k + 稀疏MLA"""
    def __init__(self, d_model, n_heads, indexer_dim=64, num_indexer_heads=4, sparse_k=2048):
        super().__init__()
        self.indexer = LightningIndexer(d_model, indexer_dim, num_indexer_heads)
        self.sparse_attn = SparseMLAAttention(d_model, n_heads)
        self.k = sparse_k

    def forward(self, query, key, value, past_kv_compressed=None, return_compressed_kv=True):
        """
        简化接口：假设外部已维护压缩的KV缓存。
        实际使用中，压缩KV会随序列生成逐步更新。
        """
        # Step 1: 索引器打分
        scores = self.indexer(query, key)  # [B, L_q, L_k]

        # Step 2: 选择top-k位置
        top_k_indices, _ = top_k_selection(scores, k=self.k)

        # Step 3: 对压缩KV进行稀疏注意力计算
        # 此处为演示，将原始key,value压缩；实际压缩KV是持续缓存的状态
        if past_kv_compressed is None:
            # 压缩全部历史KV（仅首次构造时）
            compressed_kv = self.sparse_attn.compress_kv(key, value)  # [B, L_k, compress_dim]
        else:
            compressed_kv = past_kv_compressed

        output = self.sparse_attn(query, compressed_kv, top_k_indices)

        if return_compressed_kv:
            return output, compressed_kv
        else:
            return output

# 使用示例
if __name__ == "__main__":
    torch.manual_seed(42)
    B, L_q, L_k, D = 1, 4, 16384, 1024  # 模拟长上下文（L_k=16K）
    n_heads = 8
    query = torch.randn(B, L_q, D)
    key = torch.randn(B, L_k, D)
    value = torch.randn(B, L_k, D)

    dsa = DeepSeekSparseAttention(D, n_heads, sparse_k=512)  # 只保留512个token
    output, compressed_kv = dsa(query, key, value)
    print(f"输出形状: {output.shape}")  # [1, 4, 1024]
    print(f"压缩KV形状: {compressed_kv.shape}")  # [1, 16384, 512] (compress_dim = D/2)

运行上述代码，你会看到DSA在16K上下文中仅选择了512个位置进行精确注意力计算，将计算量从 O(L_q * L_k) 降低为 O(L_q * k)，而索引器本身的开销远小于全注意力。

三、效率革命：从理论到工程的全面突破

以上代码揭示了DSA的精髓：用一个轻量级索引器替代繁重的全注意力扫瞄。但实际工程中，DeepSeek还做了更多优化：

FP8低精度索引：索引器内的矩阵乘法使用FP8，进一步降低计算和内存。
块状Top-k与负载均衡：为保证GPU的Tensor Core利用率，DSA不是逐token挑选独立位置，而是将序列划分为块，在每个块内保留top-p比例的token。
FlashAttention风格的稀疏内核：使用FlashMLA等定制算子，避免显式生成稀疏掩码矩阵，直接对选中的KV进行高效注意力计算。

下面是一个简化的块状稀疏选择代码，更贴近工程实现：

def block_wise_top_k(scores, block_size=64, k=2048):
    """
    将序列划分为block，在每个block内保持局部性，再从所有block中选出总k个token。
    保证选中的token在空间上相对均匀，有利于GPU并行。
    """
    B, L_q, L_k = scores.shape
    num_blocks = (L_k + block_size - 1) // block_size
    # 计算每个块的平均分
    block_scores = scores.view(B, L_q, num_blocks, block_size).mean(dim=-1)  # [B, L_q, num_blocks]
    # 选出top-m个块（m = ceil(k/block_size) * 2 冗余选取）
    m = (k + block_size - 1) // block_size + 2
    top_blocks = torch.topk(block_scores, m, dim=-1).indices  # [B, L_q, m]
    # 收集这些块内的所有token位置
    indices = []
    for b in range(B):
        for t in range(L_q):
            block_ids = top_blocks[b, t]
            offsets = torch.arange(block_size, device=scores.device)
            block_starts = block_ids * block_size
            block_indices = (block_starts.unsqueeze(-1) + offsets).flatten()
            # 再进行一次精排，从中挑出最终的k个token
            block_scores_flat = scores[b, t, block_indices]
            final_top = torch.topk(block_scores_flat, k).indices
            indices.append(block_indices[final_top])
    return torch.stack(indices).view(B, L_q, k)

四、DSA如何撑起百万上下文：DeepSeek-V4的实践答卷

DSA的实际效果在DeepSeek-V4上得到了充分验证。DeepSeek-V4将上下文窗口扩展至1M token（约70–80万字），这在代码审查、文档分析、Agent多步任务等场景中具有关键意义。

根据官方技术报告的数据，在1M上下文场景下，DSA将计算量降低了近90%。我们可以用一个小实验来感受：

# 模拟计算量对比
L_seq = 1_000_000   # 1M上下文
k = 2048            # DSA固定选择2048个token

full_attention_ops = L_seq ** 2                    # 1e12
dsa_ops = L_seq * k                                # 2.048e9
print(f"Full Attention 计算量: {full_attention_ops:.2e}")
print(f"DSA 计算量: {dsa_ops:.2e}")
print(f"节省比例: {(1 - dsa_ops/full_attention_ops)*100:.2f}%")
# 输出: 节省比例: 99.80%

当然，实际加速没有这么夸张，因为索引器本身也有开销，但节省比例依然超过90%。

五、DSA之后：一个时代的序章

DSA的出现，从多个维度改写了AI计算的叙事。

首先，它打破了“更大上下文意味着更高成本”的铁律。在DSA之前，增加上下文窗口是一项奢侈的操作；在DSA之后，每个查询只需要处理固定数量token的成本，上下文扩展的边际成本趋于零。

其次，DSA催生了一个围绕稀疏注意力算法的活跃生态。IndexCache等后续研究证明，DSA的骨架可以被进一步优化和扩展。下面是一个极其简单的“索引缓存”思想演示：

class IndexCache:
    """缓存上一层的top-k索引，如果当前层的索引器结果相似，则直接复用"""
    def __init__(self, layer_id):
        self.layer_id = layer_id
        self.cached_indices = None

    def get_indices(self, current_scores, threshold=0.95):
        if self.cached_indices is None:
            return None  # 需要重新计算
        # 计算当前得分与缓存得分之间的Jaccard相似度（简化用重叠率）
        # 如果重叠率 > threshold，直接返回缓存索引
        # 否则重新计算并更新缓存
        pass