谷歌DeepMind的“机器猫”，自学成才了

本文来自微信公众号：智东西（ID：zhidxcom），作者：云鹏，编辑：心缘，题图来自：《惊奇队长》

(资料图)

6月21日，谷歌DeepMind推出了一种可以自我改进、自我提升（self-improving）的用于机器人的AI智能体，名为“RoboCat”。

DeepMind称它是全球第一个可以解决和适应多种任务的机器人AI智能体，并且它可以在各类真实的机器人产品上完成这些任务。

RoboCat操控机械臂完成各种各样的任务，来源：Google DeepMind

整体来看，RoboCat最主要的突破在三个方面：

1. DeepMind让一个神经网络能在多个不同的机器人上工作，可以快速操作新的机械臂，解决新的复杂任务。

2. RoboCat学习的新任务越多，就越擅长学习和解决额外的新任务。

3. RoboCat是通用机器人领域的重要研究进展，能够减少对人类监督训练的需求。

RoboCat解决更多类型的任务，来源：Google DeepMind

AI智能体可以自己操控机械臂，学习玩套圈、搭积木、抓水果了！效率极高，还不需要多少人力。

只需要通过100次左右的演示，RoboCat就可以学会操控机械臂来完成各式各样的任务，并且它还能通过自生成的数据来进行迭代改进。

最重要的是，不论是它操控的机械臂还是它要完成的任务，RoboCat之前都从来没见过。

RoboCat可以解决的各类任务，来源：Google DeepMind

这种“通用性学习能力”是RoboCat的强项，此外，RoboCat最主要的特点就是“学得快”，这种能力对于加快机器人领域的研究有重要意义，因为有了这种能力，人类监督训练的需求就会极大减少，这是创造通用机器人非常重要的一环。

在DeepMind演示视频中，RoboCat可以通过自主学习完成“套圈”“搭积木”“拿放水果”等任务。目前RoboCat完成一项新任务的成功率已经从初期的36%提升至74%。

RoboCat前后版本完成任务成功率对比，来源：Google DeepMind

根据DeepMind论文，RoboCat完成现实世界训练任务的成功率要远高于传统基于视觉的模型方案，领先幅度还是比较明显的，这也是DeepMind研究的重要价值所在。

RoboCat与基于视觉的模型在完成现实世界训练任务成功率方面的对比，来源：Google DeepMind

值得一提的是，RoboCat用到的关键技术之一，是一种多模态模型（multimodal model）Gato，而Gato在西班牙语里意为“猫”，也就是“cat”，这也是“RoboCat”这一命名的由来。

此前研究人员已经在机器人大规模学习多种任务方面进行了探索，并将对语言模型的理解与现实世界的机器人能力相结合。而RoboCat的进步在于，它是第一个可以解决和适应多种任务的机器人AI智能体。

DeepMind认为，RoboCat独立学习技能、快速自我提升的能力，以及对于不同硬件设备的快速适应能力，将对新一代通用机器人AI智能体的发展起到重要推动作用。

套圈、搭积木样样精通，将水果从碗里拿出来总共分几步？

首先，我们来看看这个RoboCat到底能做什么。

从DeepMind的演示视频中我们可以看到，研究人员在机器人的摄像头下面将物体摆好，机器人就会将摆好的物体状态设定为“目标图像”，在设定好目标图像后，研究人员会将物体的摆放位置还原，然后让机器人操作还原刚才的物体摆放状态。

RoboCat完成“套圈”任务，来源：Google DeepMind

在“套圈”这个任务中，RoboCat可以很好地操控机械臂还原橘红色圆圈的位置。

在同一类“套圈”任务中，RoboCat还可以解决更复杂的情况，比如区分大圈和小圈并准确套在对应的金属柱上。

RoboCat完成更复杂的“套圈”任务，来源：Google DeepMind

DeepMind还演示了一个任务，就是抓水果。这个任务RoboCat已经在此前的训练中看到过，但值得注意的是，此前的训练数据中从来没有过“人手”出现，这次研究人员给RoboCat设定的目标图像中却包含了人手。最终，RoboCat仍然可以顺利完成任务。

RoboCat在目标图像有“人手”干扰的情况下完成抓水果任务，来源：Google DeepMind

这还没完，后续研究人员进一步提高难度，让RoboCat操控了一个它之前从未见过的机械臂，这个机械臂跟之前抓水果用的有所不同，但最终RoboCat依然可以操控这一新的机械臂来完成任务。

RoboCat操控从未见过的机械臂完成此前学过的任务，来源：Google DeepMind

在另一个“搭积木”的测试中，研究人员展示了RoboCat的另一项技能，当目标图像设定好后，不论初始积木位置是怎样的，RoboCat都可以很好地还原目标图像中的积木状态。

当目标图像设定好后，不论初始积木位置是怎样的，RoboCat都可以很好地还原目标图像中的积木状态，来源：Google DeepMind

除了搭积木，RoboCat还可以完成将水果从碗里拿进拿出这样的任务。

基于超大数据集，还会自我迭代升级，五步就能掌握新本领

具体来看RoboCat背后的硬核技术。DeepMind提到，RoboCat用到了一种多模态模型Gato，Gato模型可以在模拟环境和物理环境中处理语言、图像和动作，研究人员将Gato的架构与一个大型训练数据集进行了结合，这个数据集包含了各种机械臂解决数百个不同任务的图像序列和动作。

在第一轮训练之后，研究人员让RoboCat进入一个“自我提升（self-improvement）”的训练周期，在这个训练周期中，RoboCat会学习解决很多以前从未见过的任务。

每项新任务的学习分为五个步骤：

1. 收集100-1000个由研究人员控制的机械臂完成的新任务演示。

2. 在新任务所使用的机械臂上微调（Fine-tune）RoboCat，创建一个专用的衍生代理。

3. 衍生代理在机械臂上练习10000次，以生成更多的训练数据。

4. 将演示数据和自生成数据合并到RoboCat的现有训练数据集中。

5. 在新的训练数据集上训练RoboCat的新版本。

RoboCat的训练周期示意图，它能够自生成额外的训练数据，来源：Google DeepMind

上述所有这些训练的结合，意味着RoboCat的数据集将包含数百万次的训练轨迹数据，这些数据来自真实机械臂以及模拟机械臂，包括了RoboCat自生成的数据。

RoboCat从各种训练数据类型和任务中学习，来源：Google DeepMind

研究人员总共使用了四种不同类型的机器人和各类机械臂来收集基于视觉的数据。

RoboCat使用现实和虚拟机械臂积累训练数据，来源：Google DeepMind

RoboCat：一个“自我提升的通才”

在上述这种多样化的训练方式下，RoboCat可以在几个小时内学会操作不同的机械臂，包括一些更加复杂的从未见过的机械臂。

RoboCat可以操作这些机械臂完成之前见过的任务，比如套圈、拿取水果，甚至是在对应形状的格子中放上对应形状的物品，这些任务会考验RoboCat操作的精准度、理解力以及对于形状匹配难题的解决能力。

RoboCat用新机械臂完成此前学过的任务，来源：Google DeepMind

用DeepMind的话来说，RoboCat是一个“自我提升的通才”，因为它是基于一个良性的训练循环来学习新任务。简单来说，它学习的新任务越多，它就能更好地学习和解决额外的新任务。

最初版本的RoboCat，在每个新任务进行500次演示后，只有36%的概率能成功地完成之前从未见过的任务，但是最新版本的RoboCat已经将这一成功率提升至74%。

这些提升归功于RoboCat不断增长的经验广度，就像人类在特定领域不断深化学习，从而发展出更加多样化的能力一样。

今天，机器人在我们的生活中已经广泛应用，但大部分机器人只能完成特定的任务，这些机器人基本上都是被提前编程设定好的。

在制造可以完成更多种类任务的“通用机器人”方面，研究进展一直很缓慢，因为收集现实世界中的训练数据是非常费时费力的。

RoboCat这种独立学习技能、快速自我提升的能力，以及对于不同硬件设备的快速适应能力，将对新一代通用机器人AI智能体的发展起到重要推动作用。

结语：多模态AI模型引入通用机器人，研究再进一步

在全球AI研究热点涌向大模型的当下，谷歌DeepMind似乎对大模型竞赛并不热衷，仍专注于解决AI如何与物理世界交互的问题，并将研究重心锁定在优化机器人技术的基础模型上。

而最新发布的RoboCat，绝对是个了不起的AI模型。它通过视觉目标调节解决了不同平台的各种拾取和放置任务，只需100次演示就能学会在不同的机器人上执行各种任务，从自生成训练数据提高技能的方法令人眼前一亮。

多模态AI模型的引入，为迈向通用机器人的历程贡献了又一个激动人心的进展。

论文地址：https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/robocat-a-self-improving-robotic-agent/robocat-a-self-improving-foundation-agent-for-robotic-manipulation.pdf

本文来自微信公众号：智东西（ID：zhidxcom），作者：云鹏，编辑：心缘

推荐内容

所谓的辉煌大宋并不富裕，底层百姓比起汉唐几无活路 全球即时看

2023北京数字经济体验周 百度地图正式上线“数字地图”-全球关注

硅业分会：6月多晶硅价格略有回升 市场逐步收窄跌幅

高斯贝尔06月21日涨停分析

国共内战电视剧最新（国共内战电视剧）

赢周杰伦演唱会门票、享点歌特权！上快手成为“超级锦鲤”|当前快看

热推荐：6月21日数字政通跌6.92%，民生加银成长优选股票基金重仓该股

好消息！端午节期间融安火车站扩大运能方便旅客出行 每日消息

中原证券：锂电池板块估值偏低 建议关注三条投资主线

孩子王收购乐友 65% 股权将形成 7.75 亿元商誉，业绩承诺补偿上限为 1.94 亿

天天快资讯：世纪恒通（301428）盘中异动 股价振幅达6.88% 跌6.99% 报35.54元（06-21）

谷歌DeepMind的“机器猫”，自学成才了

最资讯丨单峰骆驼和双峰骆驼_单峰骆驼

遗世而独立出处-请问遗世而独立 羽化而登仙 是什么意思 每日报道

每日聚焦：联合国开会审议马尔维纳斯群岛问题 中方坚定支持阿根廷对马岛主权要求

环球速看：天津长虹公园事件_天津长虹公园

方城县举办“十佳”“二十优”驻村第一书记擂台比武活动 世界热讯

阿里纳斯谈历史前5控卫：詹姆斯、魔术师、库里、大O、保罗 今日热文

东哥回归许冉上任，京东站在十字路口

环球热消息：浙江东方(600120.SH)：子公司拟出资2亿元投资浦东引领区科创一号基金

海上风电场工程规划报告编制规程

今热点：bettertogether歌词_together歌词

微头条丨体验21℃的夏天 第十二届中国大巴山（重庆·城口）消夏康养季于6月21日启动

当前动态:中兴通讯今日涨停 三机构合计卖出4.91亿元

【全球新要闻】达州十大面馆?

每日聚焦：石头品牌首款硬派SUV申报 新车采用新LOGO

【世界新视野】对话科学家｜任福继院士：GPT尚未达到通用人工智能标准，仅是一枚工具

陕西省餐饮联合会携手“红餐网”共探陕菜破局及发展之道-每日视点

首席V观·全会新词①丨从这三个词，窥见四川新型工业化发展的新气象

奥林匹斯的陷落在线观看（奥林匹斯传3）

6月20日吉林养老金调整方案公布了吗？2023吉林退休养老金可以涨多少？-环球今亮点

夫妻喝酒的朋友圈说说_泰山颜悦蓝色多少钱一盒

今日关注：2023年1-5月全国办公楼现房销售面积统计分析

科学家团队发现：火星可能有个液态内核|天天精选

焦点播报:北京站是哪个区_北京站属于哪个区

天天短讯！星环科技拟定增募资15亿，上市不足一年，去年亏损2.71亿元

广州税务擦亮“税惠助农”特色品牌 环球聚看点

保险力量为麦农“遮风挡雨” 西安市小麦保险首笔赔款已支付

全球微动态丨分析师在GE的固体季度发表讲话

德博拉席尔瓦_德博拉

数智赋能带动产业升级 算力支撑促进区域发展 “东数西算”算力产业合作大会在兰州新区举行-世界即时看

环球热资讯！端午"捡钱"：国债逆回购最佳时点来了 躺赚5天利息

九 芝 堂（000989）：6月19日北向资金增持23.6万股

日照港（600017）：6月19日北向资金减持325.73万股

牟平区气象台发布暴雨蓝色预警【Ⅳ/一般】【2023-06-20】-世界热门

方位角计算公式_方位角_天天时讯

世界观速讯丨世界舞王排名前10_世界舞王

瓜罗：“国际米兰已经从拉齐奥买断了阿切尔比，按照...

环球热讯:各级团组织提供全链条就业服务 为青年发展创造条件

锦江电子科创板IPO闯关：商业化慢于国内同行 凭借 PFA 技术弯道超车？

数模国赛有项排名，24个队并列第一

世界热推荐：深圳高级技工学校在哪里_深圳高级技工学校

当前快报:玉米行情周报(6.12-6.18)

每日速递：港股开盘｜恒生科技指数跌0.67% 阿里巴巴跌超1%

天天快看点丨河北移动携手中兴通讯顺利完成灰度升级外场试点

流水线、立体式种植！合肥包河首个数字化种植工厂来啦！

天天消息！东北中石油国际事业公司考察调研盘锦鹏鹞二代生物柴油项目

全球时讯：摩拉维亚村的新品牌呼应传统的摩拉维亚标志和价值观

靖安县气象台发布雷电黄色预警信号【III级/较重】【2023-06-19】 天天动态

ST宏达申请“摘帽” 曾涉“专网通信”案

【世界独家】南京熊猫：公司部分产品及系统解决方案中有涉及到云计算和5g等技术

环球微速讯：梦幻西游副本难易程度排行_梦幻西游副本难度排行

京东20年·京东618增速超预期 再创新纪录

sky网络电话账号密码_sky网络电话-每日消息

蔡天凤葬礼现场遗体被红色纱帐罩住，娘家人排长队上香拜祭

天天快看点丨文化和旅游部进一步加强旅游厕所建设管理

港股异动 | 医脉通(02192)跌超4% 高盛下调公司目标价至13港元

波普艺术领军人物——安迪·沃霍尔大型个展首次亮相济南|全球独家

天天热议:日本企业为啥不热衷于上市

现实题材爱情电影《我爱你！》6月21日全国公映，韩延解析创作初衷 环球讯息

啤酒浇花多久浇一次_啤酒浇花

Immersive Audio 发布适用于 XPL12 的 MD-80 Pro Cockpit I|每日头条

“轮上智能两室一厅” 12.18万元起北京现代MUFASA 沐飒正式上 当前滚动

萝卜快跑获批在深圳无人驾驶商业化收费运营

每日视讯：英伟达GeForce RTX 4090显卡超频记录刷新至3.93GHz，默认2235MHz

世界微速讯：车不报废有什么影响(汽车不报废有什么后果)

怎么解锁苹果id_解锁苹果id

6月16日进口棉报价小幅下跌_天天报道

中金：并购重组助力上市国央企高质量发展 关注三类领域投资机会_世界热讯

所谓的辉煌大宋并不富裕，底层百姓比起汉唐几无活路全球即时看

2023北京数字经济体验周百度地图正式上线“数字地图”-全球关注

硅业分会：6月多晶硅价格略有回升市场逐步收窄跌幅

好消息！端午节期间融安火车站扩大运能方便旅客出行每日消息

中原证券：锂电池板块估值偏低建议关注三条投资主线

天天快资讯：世纪恒通（301428）盘中异动股价振幅达6.88% 跌6.99% 报35.54元（06-21）

遗世而独立出处-请问遗世而独立羽化而登仙是什么意思每日报道

每日聚焦：联合国开会审议马尔维纳斯群岛问题中方坚定支持阿根廷对马岛主权要求

方城县举办“十佳”“二十优”驻村第一书记擂台比武活动世界热讯

阿里纳斯谈历史前5控卫：詹姆斯、魔术师、库里、大O、保罗今日热文

微头条丨体验21℃的夏天第十二届中国大巴山（重庆·城口）消夏康养季于6月21日启动

当前动态:中兴通讯今日涨停三机构合计卖出4.91亿元

每日聚焦：石头品牌首款硬派SUV申报新车采用新LOGO

广州税务擦亮“税惠助农”特色品牌环球聚看点

数智赋能带动产业升级算力支撑促进区域发展 “东数西算”算力产业合作大会在兰州新区举行-世界即时看

环球热资讯！端午"捡钱"：国债逆回购最佳时点来了躺赚5天利息

九芝堂（000989）：6月19日北向资金增持23.6万股

环球热讯:各级团组织提供全链条就业服务为青年发展创造条件

锦江电子科创板IPO闯关：商业化慢于国内同行凭借 PFA 技术弯道超车？

靖安县气象台发布雷电黄色预警信号【III级/较重】【2023-06-19】天天动态

京东20年·京东618增速超预期再创新纪录

现实题材爱情电影《我爱你！》6月21日全国公映，韩延解析创作初衷环球讯息

“轮上智能两室一厅” 12.18万元起北京现代MUFASA 沐飒正式上当前滚动

中金：并购重组助力上市国央企高质量发展关注三类领域投资机会_世界热讯

“汛”速行动筑牢防汛“安全墙”

马力刺客｜全新标杆！奥迪RS e-tron GT轮上功率实测

童童娇蕊_童小芯-每日观察

田浩洋：6.18黄金操作策略，周一开盘行情具体解析全球头条

长城史上最大的SUV？全新哈弗H5曝光长5.19米

将9月底实现量产全新一代北京BJ40申报图

激活出错未能成功请恢复_激活出错资讯

她是80年代金牌配角，《喜盈门》中的仁芳，后下海经商成赢家世界播资讯

聚焦三大主题北京重点站区开展主题教育系列交流研讨

鸟种类黑色大鸟种类|天天微头条

快播：6月16日机构席净买入买入14股

携程携全新 IP 形象 YoYo 而来世界热讯

今日热讯：工作分析中方法分析常用的方法是括号工作分析中方法分析常用的方法是

火成网红车了！这比亚迪仅 7.38 万起小姐姐看了都说买！

【融资事件】物流供应链服务平台“发网物流”获数亿元D+轮融资嘉富泽达领投全球热推荐

丙三醇（甘油）商品报价动态（2023-06-17）当前动态

突触前膜释放神经递质的方式_突触天天热讯

北京又成交3宗商品住宅用地亦庄“王炸”地块花落新面孔

“看到孩子们不断进步，我很快乐”（帮扶县驻村手记）短讯

2020捷达VS7怎么样及2020款奔驰GLC Coupe怎么样视点

观速讯丨直击水井坊2022年度股东大会三大战略方向保持不变降低渠道库存是行业挑战

学日语能报哪些大学和专业可以考在可以什么天天热点