纯堆叠必死！CNN+Mamba+UNet医学影像分割必看

原创已于 2026-04-14 14:11:22 修改 · 406 阅读

5 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

收录于

人工智能

成长学习

论文

于 2026-04-08 14:49:25 首次发布

CNN+Mamba+UNet 还能发论文，且 2025–2026 年持续有顶会 / 期刊录用（如 JBHI、Frontiers、BIBM、ICLR 等），但必须做扎实创新与工程优化，单纯堆砌组合很难中稿。

因篇幅有限，这里只展示部分论文解析，推荐对此方向感兴趣的同学领取完整进一步学习。

一、为什么还能发？

方向火热：Mamba（SSM）兼具长程依赖与高效计算，正成为医学影像分割的主流替代方案，与 CNN+UNet 的混合架构是研究热点。
已有大量成果：2025–2026 年多篇相关论文发表，涵盖 CT、超声、多器官分割等场景，验证了路线可行性。
适配你的背景：你聚焦 CT 图像疾病识别，该组合在 CT 肿瘤 / 器官分割中表现突出，数据与任务高度匹配。

二、好发的关键条件

1. 必须有的创新点（任选 1–2 个深挖）

2. 不可踩的雷

❌ 纯拼接：仅将 CNN、Mamba、UNet 简单堆叠，无模块设计与协同，无显著性能提升，易被拒稿。
❌ 创新虚：创新点不聚焦（如同时堆多个模块），实验验证不充分，缺乏消融实验与对比基线。
❌ 任务不匹配：选通用数据集（如自然图像），未结合 CT / 医学影像的临床痛点，审稿人认可度低。

3. 适合医学选题建议（CT 方向）

CT 肺部肿瘤分割：双编码器融合 CNN 局部与 Mamba 全局，设计动态融合模块，提升复杂形态肿瘤 Dice 指标。
CT 多器官轻量化分割：结合边界增强与轻量 Mamba 模块，降低参数量与计算量，适配临床设备。
小样本 / 弱监督 CT 分割：利用 Mamba 高效建模能力，减少标注数据依赖，提升小病灶召回率。

三、投稿建议

期刊：JBHI、Medical Image Analysis、Frontiers in Computational Neuroscience、《中国医学物理学杂志》。
会议：BIBM、ISBI、ICLR（2026 有相关方向）。
实验要求：至少 2 个公开 CT 数据集（如 MSD 肺肿瘤、Synapse），做详尽消融实验与对比，突出效率与精度平衡。

总结

CNN+Mamba+UNet 依然是可发、好发的方向，核心在于围绕 CT 任务做深度创新与工程优化，避免堆砌。

HCMA-UNet: A Hybrid CNN-Mamba UNet with Axial Self-Attention for Efficient Breast Cancer Segmentation

内容：本文提出了HCMA-UNet，一种用于DCE-MRI乳腺肿瘤分割的混合CNN-Mamba UNet架构。由于乳腺肿瘤形态异质且边界模糊，该任务极具挑战性。HCMA-UNet采用轻量级CNN主干网络提取局部特征，并设计了一个多视角轴向自注意力Mamba模块来建模长距离依赖关系。MISM模块通过将3D体积沿三个解剖平面重新切片为2D切片，利用视觉状态空间块进行双向扫描以提取切片内特征，并结合轴向自注意力机制增强切片间特征关联，实现切片内与切片间信息的有效整合。为降低计算冗余，该模块采用非对称通道分割策略，将50%通道分配给轴面，其余两面各25%。此外，论文还提出了特征引导的区域感知损失函数，通过结合Dice损失、加权交叉熵损失以及特征一致性和边界感知损失，提升模型对正负像素相似度高的乳腺肿瘤图像的分割精度。

VM-UNET-V2: Rethinking Vision Mamba UNet for Medical Image Segmentation

内容：本文提出了一种用于医学图像分割的纯视觉状态空间模型架构，旨在解决卷积神经网络难以建模长距离依赖以及Transformer计算复杂度呈二次增长的局限性。该方法基于Mamba状态空间模型，引入视觉状态空间块来捕获广泛的上下文信息，同时采用语义与细节注入模块来增强低级特征与高级特征的融合，其中语义信息被注入低级特征，而详细信息则用于精化高级特征。VM-UNetV2遵循UNetV2的框架设计，在编码器部分使用预训练的VMamba权重，并通过消融实验确定编码器深度设置为[2,2,9,2]时分割性能较优，同时采用深度监督机制融合两层输出特征进行损失计算。该模型在多个公开的皮肤病灶和息肉分割数据集上进行了全面实验，结果表明VM-UNetV2在医学图像分割任务中具有竞争力的性能，且无需选择特别大的网络深度即可实现良好效果。

HMT-UNet: A hybird Mamba-Transformer Vision UNet for Medical Image Segmentation

内容：本文提出了，一种用于医学图像分割的混合Mamba-Transformer架构。针对CNN难以建模长距离依赖以及Transformer计算复杂度呈二次增长的问题，作者利用状态空间模型如Mamba在线性时间复杂度下建模长程交互的优势，设计了一种将Mamba和Transformer机制精心融合的混合架构。HMT-UNet采用U型编码器-解码器结构，编码器的前两层使用CNN进行快速特征提取，后两层采用MambaVision Mixer；解码器对称地包含Mamba Mixer、上采样操作、卷积模块和最终的线性层。具体而言，在阶段3和4中，给定N层网络，前N/2层使用MambaVision和MLP块，后N/2层使用Transformer和MLP块，通过将自注意力机制整合到Mamba架构的混合部分，显著提升了捕获长距离空间依赖的能力。

UNetMamba: An Efficient UNet-Like Mamba for Semantic Segmentation of High-Resolution Remote Sensing Images

内容：本文提出了一种名为UNetMamba的高效UNet-like模型，用于高分辨率遥感图像语义分割。针对现有基于Transformer的方法在准确性与效率之间存在权衡困境的问题，作者利用Mamba线性复杂度和长距离建模能力的优势，设计了一个包含ResT主干编码器、Mamba分割解码器和局部监督模块的架构。MSD通过将VMamba的视觉状态空间块转移到解码侧，实现了即插即用的功能，在显著减少参数量的同时利用全局感受野准确解码复杂语义信息。在LoveDA和ISPRS Vaihingen数据集的实验表明，UNetMamba在mIoU指标上分别较最先进方法提升0.87%和0.39%，实现了精度与效率的最优平衡，模型仅含14.76M参数、225.71MB内存占用和100.52G FLOPs计算量。