OmAI联汇发布全球首个端侧流式多模态模型VLX，开启物理世界AI全新范式

转载于 2026-06-30 17:16:11 发布 · 4 阅读

·

0

·

【导语：当AI迈向真实物理世界，多模态模型架构革新正当时。OmAI联汇发布全球首个面向物理世界的端侧流式多模态模型系列VLX，提出全新架构，实现端侧闭环，为物理AI演进带来新范式。】

VLX：开创流式多模态全新架构

OmAI联汇发布的VLX系列，是全球首个面向物理世界的端侧流式多模态模型系列，首次提出“流式多模态”全新模型架构。与传统视频理解模型不同，它面向持续涌入的视频流，以流式编码与缓存增量推理实现毫秒级实时感知，还在端侧打通了“持续感知→精准定位→行动决策”的完整闭环。

三款模型协同构建能力体系

VLX系列由三款模型协同构成。VLX - Flow负责持续感知，通过增量编码与缓存推理机制，让模型持续观察环境，新画面随时吸收，提问瞬间响应。VLX - Seek负责精准定位，将坐标生成转化为区域检索，为端侧设备提供可靠的空间感知能力。VLX - Go负责行动执行，将视觉理解转化为机器人可执行的短时航点与运动轨迹，让设备自主完成跟随、避障与导航。

在这一架构下，视觉信息以“连续流”方式进入模型，模型实现“边看边理解、必要时主动行动”，带来“AI自主工作能力的质变”。

应对刚性约束的端侧设计

物理世界的AI需面对时间连续、环境动态变化、终端算力受限三个刚性约束。VLX系列完全围绕实时视频流与端侧设备原生构建，从架构层面为端侧具身智能重新设计，具有“快（流式推理，单路延迟最低0.06秒）、小（轻量化选型，覆盖0.6B至10B规格）、准（细粒度定位）、行（感知执行闭环）”四大优势，实现端侧闭环。

引领物理AI演进新方向

当多模态模型从“看图答题”走向“持续感知”，AI从屏幕走向真实物理世界，VLX端侧流式多模态模型系列提供了全新架构范式，让每一台终端都能拥有持续理解、即时决策、自主行动的能力。

编辑观点：VLX的发布是多模态模型领域的重大突破，其创新架构和端侧设计为物理AI发展指明方向，有望推动AI在更多物理场景落地应用。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。