技术纵览 | 3DGS演进与应用全景：从重建、编辑到生成式AI融合

原创

于 2026-03-07 00:47:48 发布 · 426 阅读

标签

1. 3DGS：从“点云”到“照片级实时渲染”的革命

如果你玩过3D建模或者看过电影特效制作，大概知道传统3D内容有多“金贵”——要么靠昂贵的激光扫描仪吭哧吭哧扫，要么靠艺术家在专业软件里一点一点“捏”出来，耗时耗力不说，效果还常常不尽如人意。后来，神经辐射场（NeRF）技术横空出世，让AI从几张照片里“脑补”出3D场景成为可能，画质惊艳，但有个致命缺点：太慢了。训练动辄几十小时，渲染一帧也要好几秒，想实时交互？门都没有。

就在大家觉得3D重建的“速度”与“质量”难以兼得时，2023年，一项名为 3D高斯泼溅（3D Gaussian Splatting，简称3DGS） 的技术火了。它干了一件很“反直觉”的事：放弃复杂的神经网络，改用一堆“会发光的彩色橡皮泥球”（也就是高斯椭球体）来表示整个3D场景。每个“橡皮泥球”有自己的位置、大小、旋转角度、颜色和不透明度。渲染时，就把这些球体按照视角“啪”地一下投影到2D屏幕上，像泼溅颜料一样合成最终图像。

我实测下来，这个思路的改变带来了翻天覆地的效果。原来用NeRF训练一个场景可能要一两天，现在用3DGS，30分钟就能搞定，而且在普通游戏显卡上就能跑到每秒上百帧的实时渲染速度，画质还和NeRF不相上下。这感觉就像从绿皮火车换成了高铁，一下子把高质量3D内容的创作和消费门槛拉低了好几个数量级。它不再仅仅是实验室的玩具，而是真正能走进游戏、VR/AR、影视预览甚至电商展示的实用工具。

那么，3DGS凭什么这么快？核心在于它的“显式”表示和“光栅化”渲染流程。NeRF是“隐式”的，你需要沿着每条光线去采样几百个点，挨个询问神经网络“这里密度和颜色是多少？”，计算量巨大。而3DGS是“显式”的，所有“橡皮泥球”的位置属性都是直接存储和优化的。渲染时，图形硬件（GPU）非常擅长处理这种将3D图元投影到2D屏幕并混合的工作（类似传统三角形光栅化，但更灵活）。这种从“连续查询”到“离散投影”的转变，正是其效率革命的根源。

2. 重建之路：如何让“橡皮泥球”更逼真、更紧凑、更通用

最初的3DGS虽然快，但就像刚出炉的毛坯房，还有很多地方需要精装修。研究人员很快发现了一系列问题：镜头拉近拉远时画面会闪烁或出现锯齿（走样问题）；场景中运动物体会“鬼影重重”；想要重建一个城市街区，几百万个高斯球体直接让显存“爆炸”……过去一年多，围绕“重建质量提升”、“模型压缩”和“动态重建”三大方向，3DGS社区贡献了无数精彩的“装修方案”。

2.1 质量增强：告别闪烁与模糊

原始3DGS在固定分辨率下表现良好，但一旦视角或分辨率变化，问题就来了。这好比用固定大小的马赛克拼图，凑近看颗粒感就非常明显。Mip-Splatting 是解决这个问题的标杆工作之一。它借鉴了图形学中经典的Mipmap思想，为高斯球体预先计算不同层级（尺度）下的表现，渲染时根据像素覆盖范围自动选择合适的层级进行混合，有效抑制了锯齿和闪烁。这就像为每个“橡皮泥球”准备了一套从“全景”到“特写”的连续LOD（细节层次）描述，切换时无比顺滑。

另一个常见问题是“漂浮物”（Floaters）。由于优化过程中的误差，一些本不该存在的、半透明的高斯球体会飘在空间中，从某些角度看就像场景里蒙了一层薄雾或杂质。Pixel-GS 等方法通过更精细地控制高斯球体的“分裂”与“克隆”策略，并引入基于像素覆盖和相机距离的梯度约束