美文网首页
从智元机器人GO-1大模型看让机器人更聪明的2个关键点

从智元机器人GO-1大模型看让机器人更聪明的2个关键点

作者: 孙庚辛 | 来源:发表于2025-03-13 11:06 被阅读0次

给大家介绍一下智元机器人推出的GO-1大模型。它在技术层面具备了通用场景感知和理解能力,构建训练时学习了互联网的大规模纯文本和图文数据,能理解不同指令在具体环境下的含义与要求。

这款大模型有四大特性。首先是人类视频学习能力,它借助互联网视频资源和真实人类操作示范来学习,提升对人类行为的理解程度。其次,它有小样本快速泛化优势,即便在数据量极少甚至零样本的状况下,也能够顺利迁移至全新场景与任务之中,降低了具身模型的应用门槛和后续训练成本。再者,它呈现出一脑多形的特色,作为通用型机器人策略模型,能适应不同机器人本体。第四,其持续进化能力突出,配备完整的数据回流系统,能从实际执行任务时的问题数据里不断学习,实现自我进化。

传统具身模型通常针对单一机器人本体设计,存在数据利用率低和部署受限的问题。而GO-1可以赋能多种本体,在不同机器人形态间快速迁移,提升数据利用效率,降低部署成本。

GO-1实现这些功能的背后是ViLLA(视觉-语言-潜在动作)架构,它由VLM(多模态大模型)+MoE(混合专家模型)组成。其中,MoE包含Latent Planner(隐式规划器)和Action Expert(动作专家)两个关键的组成混合专家。通过在人类操作视频和真实机器人数据上进行训练,能够在极少输入的情况下实现快速泛化。简单来说,VLM用多模态大模型InternVL-2B“看懂”和“听懂”任务,Latent Planner基于大量数据制定动作“蓝图”,Action Expert基于真机经验执行具体动作。

不过,GO-1在类人五指机械掌应用上还存在提升的空间,可能需要多视角拍摄或传感器数据的辅助来补全数据。

机器人领域的发展,也是在借鉴语言大模型的发展过程,有两个关键要素促进了模型智能能力的提升, 一是提高训练的数据规模,二是提高训练数据的标注质量,进而提升机器人在三维空间中的物体模型抽象能力,结合时间序列上的推理规划能力,有希望在5到10年的时间里,机器人的智能水平可产生质的飞跃。当然,从情感领域,也可以向大自然这个造物主学习为机器人设计奖励函数,比如,让机器人比较乐于"陪伴"人, 这样可以增强它与人相伴的社群属性,而避免它伤害人的潜在可能性。

相关文章

网友评论

      本文标题:从智元机器人GO-1大模型看让机器人更聪明的2个关键点

      本文链接:https://www.haomeiwen.com/subject/idbvmjtx.html