
一、主要内容
本文针对现有具身世界模型在机器人交互场景中物理一致性不足(如3D几何失真、运动不合理)的问题,提出了一种物理感知的具身世界模型RoboScape。该模型通过多任务联合训练框架,将RGB视频生成、时间深度预测和自适应关键点动态学习统一起来,在保证视觉保真度的同时提升了物理合理性。
核心工作包括:
- 数据处理管道:基于AGIBOT-World数据集,构建了含物理先验标注的多模态数据集,通过深度生成、关键点跟踪、视频切片、片段过滤和分类等步骤,确保训练数据的高质量和多样性。
- 模型架构设计:采用自回归Transformer框架,引入两个物理感知辅助任务:
- 时间深度预测:通过双分支协同自回归Transformer,将深度特征融入RGB生成,增强3D几何一致性;
- 自适应关键点动态学习:采样高动态区域关键点并维护其时间一致性,隐式编码物体材质属性和运动规律。
- 实验验证:从视频生成质量、机器人策略训练实用性、策略评估可靠性三个维度验证,结果表明RoboScape在PSNR、LPIPS等指标上优于IRASim、iVideoGPT等基线模型,生成的合成数据可有效提升Diffusion Policy、π0等策略模型的性能,且作为策略评估器时与真实模拟器结果
订阅专栏 解锁全文
220

被折叠的 条评论
为什么被折叠?



