【机器人+硬件】Zeroth Bot 美国开源最简人形机器人—— 负担得起（￥2535）端到端（SIM2REAL，RL）3D打印的（包括硬件、SDK、 sim环境）基于视觉、强化学习走路、以及语音

原创已于 2025-03-11 11:31:40 修改 · 2.5k 阅读

32 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#机器人 #Zeroth Bot #PPO #EVLA

于 2025-03-11 11:22:37 首次发布

机器人/具身人形/VLA/Lerobot 专栏收录该内容

19 篇文章

订阅专栏

发布时间：2024年10月

硬件清单：Bill of Materials (BoM) - Zeroth Bot Docs
代码：https://github.com/zeroth-robotics/zeroth-bot

全球最小开源端到端人形机器人Zeroth 01 Bot

简介

Zeroth-01是一种开源端到端类人形机器人，起价为350美元，具有视觉，基于RL的步行和语音。
特点
带有开源机器人和仿真环境的SIM2REAL转移（“Isaac Gym”是NVIDIA于2021年推出的一款基于GPU加速的机器人仿真平台，主要用于强化学习和机器人仿真任务。）
深度RL的端到端控制。
VLA：可推广视觉语言行动策略。
负担能力：我们通过开源硬件和软件使机器人更加负担得起。

1.1 硬件构成

Bill of Materials (BoM) - Zeroth Bot Docs

Assembly Guide - Zeroth Bot Docs

Part	Description	Link	Quantity	Total Cost (USD)	说明
Serial Bus Servo	*STS3250 50KG Serial Bus Servo	STS3250	x16	Depends by Seller due to Supply Chain Issues. Previously: 222.24	串行总线舵机（Serial Bus Servo）支持高扭矩输出（50kg·cm），通过串行总线协议（如UART或CAN）实现多舵机协同控制，适用于机器人关节、工业自动化等场景。
Controller	Milk-V	Link	x1	10	基于RISC-V架构的低功耗嵌入式控制器，常用于机器人、物联网设备开发
Servo driver board	Waveshare Bus Servo Adapter	Link	x1	7	作为舵机与主控间的通信桥梁，支持多路舵机并联，简化布线
LCD IMU	RP2040 MCU Board	Link	x1	16	搭载双核ARM Cortex-M0+处理器，处理传感器数据并驱动显示屏。
IMU （Inertial Measurement Unit）	9-DOF IMU	Link	x1	29.95	三轴加速度计（测量线性加速度）、三轴陀螺仪（测量角速度）、三轴磁力计（测量磁场方向）
Camera	Milk-V CAM-GC2083	Link	x1	4	摄像头
Battery	RC Lipos	Link	x1	33	RC锂聚合物电池
12V to 5V	12V to 5V, 3 amp capacity (may need connectors)	Link	x1	3	可选LM2596或XL4015开关稳压芯片，支持3A输出，效率达95%
Microphone	Electret Microphone	Link	x1	6	麦克风
Speaker	3 Watt Speaker	Link	x1	8	扬声器
Amplifier	LM386 Mono Audio Amplifier	Link	x1	8	功放

1.2 强化学习在人形机器人走到的应用

“Isaac Gym”是NVIDIA于2021年推出的一款基于GPU加速的机器人仿真平台，主要用于强化学习和机器人仿真任务。

近端策略优化（PPO）算法

近端策略优化（PPO）算法训练人形机器人。近端策略优化是一种基于策略的强化学习算法，通过执行者-评论者（actor-critic）方法最大化奖励函数。执行者网络学习从状态到动作的映射策略，而评论者网络评估这些状态-动作对的价值函数。PPO利用评论者的价值估计指导策略更新，通过稳定优化策略实现未来预期奖励的最大化。

在强化学习（尤其是基于当前策略的强化学习）中，算法往往过于短视——仅依赖当前观测信息进行策略更新，导致以牺牲稳定性为代价激进优化当前策略的临时环境。PPO通过引入裁剪替代目标函数改进了传统策略梯度方法，该机制限制了策略更新时与先前策略的偏离程度。这种裁剪机制既能防止灾难性的策略突变，又能保持策略向最优行为的稳步改进。

PPO特别适用于人形机器人控制任务，其优势包括：

高效处理连续动作空间
通过保守策略更新实现稳定学习
可有效最大化编码机器人预期行为的复杂奖励函数
执行者-评论者架构支持在价值估计指导下平衡探索与利用

我们的PPO算法流程如下：

当未完成训练时：
    使用当前策略收集经验
    若达到更新间隔：
        计算优势函数和回报
        对每个训练周期：
            对每个小批量数据：
                计算策略比率 r = 新策略/旧策略
                计算裁剪损失 L_clip = min(r * 优势值, clip(r, 1-ε, 1+ε)*优势值)
                计算价值损失 L_vf 和熵奖励项
                总损失 = -L_clip + c1*L_vf - c2*熵
                执行梯度更新
        清空经验池

当前超参数配置：

学习率：1e-5（自适应）
熵系数：0.001
折扣因子 (gamma)：0.994
GAE lambda：0.9
训练周期数：2
小批量数：4
执行者网络隐层单元：[512, 256, 128]
评论者网络隐层单元：[768, 256, 128]

奖励塑造是强化学习训练的关键环节，它通过以下方式提升学习效果：

加速智能体学习进程
提高训练稳定性
实现复杂任务目标

以下将详细说明实验中使用的奖励机制：

站立基础奖励
基于URDF（统一机器人描述格式）模型的标准站立姿态，目标是最小化训练过程中的姿态偏移。必要时可添加方向奖励项，通过惩罚偏离目标方向的姿态变化，维持机器人直立状态。

行走复合奖励
在站立奖励基础上叠加以下专项奖励。关

键设计原则：初始训练阶段站立姿态奖励占比80%，确保策略优先掌握稳定站立能力——这是所有行为发展的基础。

前向速度奖励（权重较低）：通过机器人前进速度的奖励函数引导移动，初始阶段权重较低以防止过早优化行走而牺牲稳定性
脚部离地高度奖励：促进抬脚动作的合理性
接触力奖励：增强对地面反作用力的适应能力
动作平滑性奖励：生成符合现实PID控制系统执行能力的动作指令

这些附加奖励项（记为r_i）通过权重w_i（定义于配置参数表）加权组合，共同实现：

提升仿真到现实的迁移能力（sim2real）
适应摩擦系数等现实物理特性
生成符合真实机器人执行能力的运动模式

数学形式化表示为：
总奖励 = Σ(w_i * r_i)
其中w_i为配置参数中定义的各种奖励成分的权重系数

1.3 边缘-视觉-语言-动作模型（Edge Vision-Language-Action (EVLA)）的应用

Edge Vision-Language-Action (EVLA) - Zeroth Bot Docs

EVLA是一种专门为机器人应用中的边缘设备部署而设计的高效视觉 - 语言 - 动作模型。它基于OpenVLA的架构，通过战略性优化大幅降低了计算需求。该模型在像Jetson Nano这样的边缘设备上实现了30 - 50赫兹的推理速度，同时保持了较大视觉 - 语言模型的编码表征能力。

架构

EVLA的架构由三个协同工作的主要组件构成。视觉编码由预训练的SigLIP和DinoV2模型处理，它们对输入图像进行处理并提取视觉特征。语言处理由Qwen2负责，这是一个拥有5亿(0.5B)参数的语言模型，与传统方法相比，其规模显著减小。这些组件通过一个投影层连接起来，该投影层将视觉表征映射到语言模型的词元空间。

该模型在一个包含120万个文本 - 图像对的综合性数据集上进行训练，这个数据集结合了来自各种图像描述数据集的55.8万个样本和66.5万个合成的多模态指令调优示例。这种多样化的训练数据确保了模型在广泛的机器人任务中都能有出色的表现。

关键创新点

EVLA的主要创新点在于其控制预测的方法。传统的视觉 - 语言模型采用自回归预测，逐个生成输出词元。而EVLA采用联合控制预测，在一次前向传播中就输出末端执行器的位置。这种架构上的改变使推理速度提高了6倍，同时保持了预测的准确性，使其特别适合实时机器人控制应用。

EVLA还利用了小型语言模型（SLMs）的最新进展。通过使用仅含5亿参数的Qwen2，EVLA在与较大模型性能相当的情况下显著降低了计算需求。这种高效性使得该模型能够部署在价格实惠的边缘设备上，极大地降低了机器人研究和开发的门槛。

性能与部署

在A100 - 40GB GPU上与OpenVLA进行基准测试时，EVLA表现出更快的推理时间和更低的内存需求，同时在Bridge和OXE数据集上保持了相似的训练性能。这种高效性在实际部署中带来了实际的好处，使得该模型能够在像Jetson Nano这样价格实惠的边缘设备上运行，而不需要像Jetson AGX这种价值2000多美元的昂贵硬件。

随着诸如flash_attention2和FlexAttention机制等优化技术的实施，预计该模型的性能将进一步提高。此外，EVLA相对较小的规模为在CPU架构上的部署提供了可能性，进一步拓展了其潜在的应用范围。