【机器人】HOV-SG 语言导航实战 | 分层3D场景图构建与开放词汇解析

最新推荐文章于 2026-06-29 17:11:45 发布

原创

最新推荐文章于 2026-06-29 17:11:45 发布 · 1k 阅读

标签

#机器人 #HOV-SG #3D场景图 #导航

想象一下，你对着家里的扫地机器人说"去厨房把餐桌下的充电器拿来"，它居然真的能听懂并完成任务——这就是HOV-SG技术正在实现的未来。这个来自RSS 2024的前沿研究，彻底改变了传统机器人依赖固定指令集的工作模式。

HOV-SG的三大技术支柱就像机器人的"感官-大脑-四肢"协同系统：

分层3D场景图相当于机器人的空间记忆，将环境分解为楼层、房间、物体三级结构。就像人类进入陌生商场时会先找楼层导览图，再定位具体店铺，最后寻找货架上的商品。
开放词汇模型则是语言理解中枢，采用CLIP等视觉语言大模型。我实测发现，即使用"那个带USB接口的白色小玩意儿"描述充电器，系统也能通过语义相似度匹配到目标。
跨层级路径规划如同运动神经系统，通过Voronoi图实现多层楼宇间的全局路径计算。在办公楼测试中，机器人能自主选择电梯或楼梯完成跨楼层任务。

最让我惊艳的是它的空间压缩能力。传统密集地图存储每个点的语义信息，而HOV-SG通过场景图结构将数据量减少75%。在HM3D数据集测试中，200平米的公寓地图仅需约50MB存储空间，这让消费级机器人部署成为可能。

第一次配置HM3D数据集时，我踩了个坑：直接下载的GLB文件缺少语义标注。正确做法是同时获取四个必备组件：

hm3d-val-glb-v0.2
hm3d-val-habitat-v0.2  
hm3d-val-semantic-annots-v0.2
hm3d_annotated_basis.scene_dataset_config.json

建议用rsync同步数据，避免HTTP下载中断。完成后的目录结构应该像这样：

data/hm3d/
├── hm3d_annotated_basis.scene_da