
今天读一篇CVPR 2024中结合3D-GS与Triplane的做单视图重建的文章,作者来自清华和VAST。
代码地址:Github
文章目录
Abstract
近年来,单张图像的3D重建在生成模型的推动下快速发展。尤其是基于Score Distillation Sampling和扩散模型的3D生成方法取得了较大进展。但这些方法普遍存在训练和优化时间长、推理速度慢的问题。本文提出了一种新的单视图3D重建方法,利用两种基于Transformer的网络(点云解码器和 Triplane 解码器),通过一种混合表示,快速从单张图像生成3D模型。
1 Intro
现有方法不足:
- 基于扩散模型的生成方法:可借助扩散模型想象新视角下的图像,但缺乏3D结构约束,训练时间长,优化速度慢,不适用于快速创建。
- 回归类别特定的3D表示:如点云、体素、网格、NeRF等。这些方法虽然可用单张图像直接回归,但常常局限于特定类别,训练和渲染效率仍有不足。
- Triplane表示:紧凑、高效、支持体积渲染,但volume rendering过程计算量大,内存开销高,不适合实时渲染。
- Gaussian Splatting:利用3D Gaussian表示支持高质量渲染和快速渲染,但从图像中直接学习3D Gaussian表示非常困难,因为其是高维、非结构化的显式表示。
核心创新:Triplane-Gaussian 混合表示:
- 提出Triplane-Gaussian混合 3D 表示:
- 点云提供粗略的显式几何信息。
- Triplane编码高斯属性(如透明度、旋转、球谐系数等)。
- 显式位置和隐式属性的分离,使得训练更稳定,渲染更高效。
- 采用两个Transformer网络分别预测点云和Triplane特征,通过cross-attention融合图像特征。
- 引入投影感知条件 (Projection-aware Conditioning) 和几何感知编码 (Geometry-aware Encoding),提升了纹理一致性和背面细节还原效果。
- 整体pipeline可端到端训练,在保证高质量重建和新视图合成的同时,推理速度大幅提升。
2 Related Works
介绍一些背景知识。
3 Method

整体框架
本文提出的单视图3D重建方法包含三大模块:
-
图像编码器 (Image Encoder):
- 使用预训练的ViT如 DINOv2将输入图像编码为patch-wise的特征token。
- 通过Adaptive LayerNorm融合相机内参与外参信息,使图像特征具有视角感知能力。
-
点云解码器 (Point Cloud Decoder):
- 使用 6 层 Transformer 解码器,根据图像特征预测粗略点云(2048 个点)。
- 点云作为显式几何表示,提供初步的物体形状。
-
点云上采样 (Point Upsampling with Projection-aware Conditioning):
- 采用 Snowflake Point Deconvolution (SPD) 将粗略点云上采样至高密度点云(16384 个点)。
- 上采样时融合局部图像特征(通过投影映射获得),提升几何细节一致性。
-
Triplane 解码器 (Triplane Decoder with Geometry-aware Encoding):
- 使用 10 层 Transformer 解码器,结合图像特征和点云信息预测 Triplane 特征。
- 使用 PointNet 和投影特征增强三平面的几何感知能力。
-
3D Gaussian 解码器 (3D Gaussian Decoder):
- 对于每个点云位置,从 Triplane 查询特征后输入 MLP,解码出高斯属性:
- 位置offset (Δx)
- 透明度 α
- 尺度 s 和旋转 q(控制各向异性)
- 球谐系数 sh(控制颜色)
- 对于每个点云位置,从 Triplane 查询特征后输入 MLP,解码出高斯属性:
-
Gaussian Splatting 渲染:
- 基于已解码的 3D Gaussians,使用高效的 tile-based rasterization 实现新视图合成与端到端训练。
训练损失
训练过程中结合了 2D 渲染损失与 3D 几何监督:
-
点云监督:
- Chamfer Distance ( L C D L_{CD} LCD)
- Earth Mover’s Distance ( L E M D L_{EMD} LEMD)
-
渲染监督:
- 像素级均方误差 ( L M S E L_{MSE} L

1900

被折叠的 条评论
为什么被折叠?



