【论文精读】Triplane Meets Gaussian Splatting

在这里插入图片描述

今天读一篇CVPR 2024中结合3D-GS与Triplane的做单视图重建的文章,作者来自清华和VAST。

代码地址:Github

Abstract

近年来,单张图像的3D重建在生成模型的推动下快速发展。尤其是基于Score Distillation Sampling和扩散模型的3D生成方法取得了较大进展。但这些方法普遍存在训练和优化时间长、推理速度慢的问题。本文提出了一种新的单视图3D重建方法,利用两种基于Transformer的网络(点云解码器和 Triplane 解码器),通过一种混合表示,快速从单张图像生成3D模型。

1 Intro

现有方法不足:

  • 基于扩散模型的生成方法:可借助扩散模型想象新视角下的图像,但缺乏3D结构约束,训练时间长,优化速度慢,不适用于快速创建。
  • 回归类别特定的3D表示:如点云、体素、网格、NeRF等。这些方法虽然可用单张图像直接回归,但常常局限于特定类别,训练和渲染效率仍有不足。
  • Triplane表示:紧凑、高效、支持体积渲染,但volume rendering过程计算量大,内存开销高,不适合实时渲染。
  • Gaussian Splatting:利用3D Gaussian表示支持高质量渲染和快速渲染,但从图像中直接学习3D Gaussian表示非常困难,因为其是高维、非结构化的显式表示。

核心创新:Triplane-Gaussian 混合表示:

  • 提出Triplane-Gaussian混合 3D 表示:
    • 点云提供粗略的显式几何信息。
    • Triplane编码高斯属性(如透明度、旋转、球谐系数等)。
    • 显式位置和隐式属性的分离,使得训练更稳定,渲染更高效。
  • 采用两个Transformer网络分别预测点云和Triplane特征,通过cross-attention融合图像特征。
  • 引入投影感知条件 (Projection-aware Conditioning) 和几何感知编码 (Geometry-aware Encoding),提升了纹理一致性和背面细节还原效果。
  • 整体pipeline可端到端训练,在保证高质量重建和新视图合成的同时,推理速度大幅提升。

2 Related Works

介绍一些背景知识。

3 Method

在这里插入图片描述

整体框架

本文提出的单视图3D重建方法包含三大模块:

  1. 图像编码器 (Image Encoder)

    • 使用预训练的ViT如 DINOv2将输入图像编码为patch-wise的特征token。
    • 通过Adaptive LayerNorm融合相机内参与外参信息,使图像特征具有视角感知能力。
  2. 点云解码器 (Point Cloud Decoder)

    • 使用 6 层 Transformer 解码器,根据图像特征预测粗略点云(2048 个点)。
    • 点云作为显式几何表示,提供初步的物体形状。
  3. 点云上采样 (Point Upsampling with Projection-aware Conditioning)

    • 采用 Snowflake Point Deconvolution (SPD) 将粗略点云上采样至高密度点云(16384 个点)。
    • 上采样时融合局部图像特征(通过投影映射获得),提升几何细节一致性。
  4. Triplane 解码器 (Triplane Decoder with Geometry-aware Encoding)

    • 使用 10 层 Transformer 解码器,结合图像特征和点云信息预测 Triplane 特征。
    • 使用 PointNet 和投影特征增强三平面的几何感知能力。
  5. 3D Gaussian 解码器 (3D Gaussian Decoder)

    • 对于每个点云位置,从 Triplane 查询特征后输入 MLP,解码出高斯属性:
      • 位置offset (Δx)
      • 透明度 α
      • 尺度 s 和旋转 q(控制各向异性)
      • 球谐系数 sh(控制颜色)
  6. Gaussian Splatting 渲染

    • 基于已解码的 3D Gaussians,使用高效的 tile-based rasterization 实现新视图合成与端到端训练。

训练损失

训练过程中结合了 2D 渲染损失与 3D 几何监督:

  • 点云监督

    • Chamfer Distance ( L C D L_{CD} LCD)
    • Earth Mover’s Distance ( L E M D L_{EMD} LEMD)
  • 渲染监督

    • 像素级均方误差 ( L M S E L_{MSE} L
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

YuhsiHu

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值