人形机器人需要具备G泛化能力与思维链能力。与工业机器人不同,人形机器人需要与复杂世界进行互动,因此决策控制系统需 要G泛化性。在现实世界中,机器人难以一次性完成整个复杂动作,需要将复杂动作拆 解成多个简单步骤完成。而由于现实世界远比机器人训练场景复杂,在任务过程中会受 到各种干扰,环境也会不断变化,因此具身智能机器人需要较强的思维链能力。早期人形机器人大脑主要通过集成多个“小模型”结合人工介入实现,但随着GPT-40等大模 型的出现,机器人对文本、视觉、语言等多模态信息的理解和转化显著提升,致使人形机器人大脑的泛化能力与思维能力亦有大幅增加。
目前机器人大脑按照技术方案划分为VLM(大脑+小脑)、VLA(端到端)两种技术路 径。大小脑将复杂的任务分解为G层规划与底层执行两个层J,分为两个主要模块:
1) G层任务规划器(慢脑)负责语义理解、任务分解和长程推理,生成任务步骤。
2)底层 动作控制器(快脑)执行具体的动作并实时进行控制,将G层指令转为关节角度、轨迹 等低维度控制信号,具备G频响应等特点, 田于端到端指令生成速度慢, 生成结果简单,短期仍然是依靠大脑+小脑系统分别完成决策与控制任务。
在“手眼脑”协同中,大脑的作用主要是针对当前语义、文字的理解识别出任务目标, 并结合输入的图像信息,在环境中识别出操作对象,观察特征。通过对视觉、文字的整合理解,大脑将做出合理的指令任务推导,并生成小脑的执行指令,之后再是由小脑执 行手眼标定、手臂+灵巧手的运动轨迹、位姿抓取等动作。因此人形机器人大脑本质上 是一个干亿J别参数量的多模态大模型,人形机器人感知和决策能力取决于多模态大模 型的能力。
目前人形机器人大脑仍然有优化空间。对人形机器人大小脑通用化实现路径,目前智元机器人针对具身智能技术演进路线,进行G1至G5的划分,目前国内外产业进展处于 G2-G3的水平。
G1:传统自动化的起点,几乎不具备泛化能力;
G2:通过提炼可复用原子技能,并以相对通用的方式来实现,结合任务编排大模 型,可以具备对一大类相似场景的泛化;
G3:走向数据驱动端到端,进一步形成一套通用训练框架,学习新技能通过采集 相应数据就能实现更通用跨类别的泛化能力。
G4:随着数据量的进一步增加,G4将进一步演化为一个通用的操作大模型,结合 认知推理规划大模型,来实现端到端通用操作。
G5:为长期发展目标,Z终形成一个真正的感知、决策、执行的端到端大模型。
![]() |
智能服务机器人 |