【论文精读】Triplane Meets Gaussian Splatting

原创

已于 2025-08-04 02:40:07 修改 · 1.4k 阅读

标签

#计算机视觉 #人工智能 #深度学习 #3d

于 2025-06-02 02:59:30 首次发布

在这里插入图片描述

今天读一篇CVPR 2024中结合3D-GS与Triplane的做单视图重建的文章，作者来自清华和VAST。

代码地址：Github

文章目录

Abstract
1 Intro
2 Related Works
3 Method
- 整体框架
- 训练损失
4 Experiments

Abstract

近年来，单张图像的3D重建在生成模型的推动下快速发展。尤其是基于Score Distillation Sampling和扩散模型的3D生成方法取得了较大进展。但这些方法普遍存在训练和优化时间长、推理速度慢的问题。本文提出了一种新的单视图3D重建方法，利用两种基于Transformer的网络（点云解码器和 Triplane 解码器），通过一种混合表示，快速从单张图像生成3D模型。

1 Intro

现有方法不足：

基于扩散模型的生成方法：可借助扩散模型想象新视角下的图像，但缺乏3D结构约束，训练时间长，优化速度慢，不适用于快速创建。
回归类别特定的3D表示：如点云、体素、网格、NeRF等。这些方法虽然可用单张图像直接回归，但常常局限于特定类别，训练和渲染效率仍有不足。
Triplane表示：紧凑、高效、支持体积渲染，但volume rendering过程计算量大，内存开销高，不适合实时渲染。
Gaussian Splatting：利用3D Gaussian表示支持高质量渲染和快速渲染，但从图像中直接学习3D Gaussian表示非常困难，因为其是高维、非结构化的显式表示。

核心创新：Triplane-Gaussian 混合表示：

提出Triplane-Gaussian混合 3D 表示：
- 点云提供粗略的显式几何信息。
- Triplane编码高斯属性（如透明度、旋转、球谐系数等）。
- 显式位置和隐式属性的分离，使得训练更稳定，渲染更高效。
采用两个Transformer网络分别预测点云和Triplane特征，通过cross-attention融合图像特征。
引入投影感知条件 (Projection-aware Conditioning) 和几何感知编码 (Geometry-aware Encoding)，提升了纹理一致性和背面细节还原效果。
整体pipeline可端到端训练，在保证高质量重建和新视图合成的同时，推理速度大幅提升。

2 Related Works

介绍一些背景知识。

3 Method

在这里插入图片描述

整体框架

本文提出的单视图3D重建方法包含三大模块：

图像编码器 (Image Encoder)：
- 使用预训练的ViT如 DINOv2将输入图像编码为patch-wise的特征token。
- 通过Adaptive LayerNorm融合相机内参与外参信息，使图像特征具有视角感知能力。
点云解码器 (Point Cloud Decoder)：
- 使用 6 层 Transformer 解码器，根据图像特征预测粗略点云（2048 个点）。
- 点云作为显式几何表示，提供初步的物体形状。
点云上采样 (Point Upsampling with Projection-aware Conditioning)：
- 采用 Snowflake Point Deconvolution (SPD) 将粗略点云上采样至高密度点云（16384 个点）。
- 上采样时融合局部图像特征（通过投影映射获得），提升几何细节一致性。
Triplane 解码器 (Triplane Decoder with Geometry-aware Encoding)：
- 使用 10 层 Transformer 解码器，结合图像特征和点云信息预测 Triplane 特征。
- 使用 PointNet 和投影特征增强三平面的几何感知能力。
3D Gaussian 解码器 (3D Gaussian Decoder)：
- 对于每个点云位置，从 Triplane 查询特征后输入 MLP，解码出高斯属性：
  - 位置offset (Δx)
  - 透明度 α
  - 尺度 s 和旋转 q（控制各向异性）
  - 球谐系数 sh（控制颜色）
Gaussian Splatting 渲染：
- 基于已解码的 3D Gaussians，使用高效的 tile-based rasterization 实现新视图合成与端到端训练。