1. 3DGS:从“点云”到“照片级实时渲染”的革命
如果你玩过3D建模或者看过电影特效制作,大概知道传统3D内容有多“金贵”——要么靠昂贵的激光扫描仪吭哧吭哧扫,要么靠艺术家在专业软件里一点一点“捏”出来,耗时耗力不说,效果还常常不尽如人意。后来,神经辐射场(NeRF)技术横空出世,让AI从几张照片里“脑补”出3D场景成为可能,画质惊艳,但有个致命缺点:太慢了。训练动辄几十小时,渲染一帧也要好几秒,想实时交互?门都没有。
就在大家觉得3D重建的“速度”与“质量”难以兼得时,2023年,一项名为 3D高斯泼溅(3D Gaussian Splatting,简称3DGS) 的技术火了。它干了一件很“反直觉”的事:放弃复杂的神经网络,改用一堆“会发光的彩色橡皮泥球”(也就是高斯椭球体)来表示整个3D场景。每个“橡皮泥球”有自己的位置、大小、旋转角度、颜色和不透明度。渲染时,就把这些球体按照视角“啪”地一下投影到2D屏幕上,像泼溅颜料一样合成最终图像。
我实测下来,这个思路的改变带来了翻天覆地的效果。原来用NeRF训练一个场景可能要一两天,现在用3DGS,30分钟就能搞定,而且在普通游戏显卡上就能跑到每秒上百帧的实时渲染速度,画质还和NeRF不相上下。这感觉就像从绿皮火车换成了高铁,一下子把高质量3D内容的创作和消费门槛拉低了好几个数量级。它不再仅仅是实验室的玩具,而是真正能走进游戏、VR/AR、影视预览甚至电商展示的实用工具。
那么,3DGS凭什么这么快?核心在于它的“显式”表示和“光栅化”渲染流程。NeRF是“隐式”的,你需要沿着每条光线去采样几百个点,挨个询问神经网络“这里密度和颜色是多少?”,计算量巨大。而3DGS是“显式”的,所有“橡皮泥球”的位置属性都是直接存储和优化的。渲染时,图形硬件(GPU)非常擅长处理这种将3D图元投影到2D屏幕并混合的工作(类似传统三角形光栅化,但更灵活)。这种从“连续查询”到“离散投影”的转变,正是其效率革命的根源。
2. 重建之路:如何让“橡皮泥球”更逼真、更紧凑、更通用
最初的3DGS虽然快,但就像刚出炉的毛坯房,还有很多地方需要精装修。研究人员很快发现了一系列问题:镜头拉近拉远时画面会闪烁或出现锯齿(走样问题);场景中运动物体会“鬼影重重”;想要重建一个城市街区,几百万个高斯球体直接让显存“爆炸”……过去一年多,围绕“重建质量提升”、“模型压缩”和“动态重建”三大方向,3DGS社区贡献了无数精彩的“装修方案”。
2.1 质量增强:告别闪烁与模糊
原始3DGS在固定分辨率下表现良好,但一旦视角或分辨率变化,问题就来了。这好比用固定大小的马赛克拼图,凑近看颗粒感就非常明显。Mip-Splatting 是解决这个问题的标杆工作之一。它借鉴了图形学中经典的Mipmap思想,为高斯球体预先计算不同层级(尺度)下的表现,渲染时根据像素覆盖范围自动选择合适的层级进行混合,有效抑制了锯齿和闪烁。这就像为每个“橡皮泥球”准备了一套从“全景”到“特写”的连续LOD(细节层次)描述,切换时无比顺滑。
另一个常见问题是“漂浮物”(Floaters)。由于优化过程中的误差,一些本不该存在的、半透明的高斯球体会飘在空间中,从某些角度看就像场景里蒙了一层薄雾或杂质。Pixel-GS 等方法通过更精细地控制高斯球体的“分裂”与“克隆”策略,并引入基于像素覆盖和相机距离的梯度约束


被折叠的 条评论
为什么被折叠?



