当前位置：首页 >行业动态 >

李飞飞机器人大模型听懂人话

量子位 2023-07-11 18:33:43

丰色梦晨发自凹非寺量子位 | 公众号 QbitAI

(资料图片仅供参考)

李飞飞团队 具身智能 最新成果来了：

大模型接入机器人，把复杂指令转化成具体行动规划，无需额外数据和训练。

从此，人类可以很随意地用自然语言给机器人下达指令，如：

打开上面的抽屉，小心花瓶！

大语言模型+视觉语言模型就能从3D空间中分析出目标和需要绕过的障碍，帮助机器人做行动规划。

然后重点来了， 真实世界 中的机器人在未经“培训”的情况下，就能直接执行这个任务。

新方法实现了零样本的日常操作任务轨迹合成，也就是机器人从没见过的任务也能一次执行，连给他做个示范都不需要。

可操作的物体也是开放的，不用事先划定范围，开瓶子、按开关、拔充电线都能完成。

目前项目主页和论文都已上线，代码即将推出，并且已经引起学术界广泛兴趣。

一位前微软研究员评价到：这项研究走在了人工智能系统最重要和最复杂的前沿。

具体到机器人研究界也有同行表示：给运动规划领域开辟了新世界。

还有本来没看到AI危险性的人，因为这项AI结合机器人的研究而改变看法。

李飞飞团队将该系统命名为VoxPoser，如下图所示，它的原理非常简单。

首先，给定环境信息（用相机采集RGB-D图像）和我们要执行的自然语言指令。

接着，LLM （大语言模型）根据这些内容编写代码，所生成代码与VLM （视觉语言模型）进行交互，指导系统生成相应的操作指示地图，即 3D Value Map 。

所谓3D Value Map，它是Affordance Map和Constraint Map的总称，既标记了 “在哪里行动” ，也标记了 “如何行动” 。

如此一来，再搬出动作规划器，将生成的3D地图作为其目标函数，便能够合成最终要执行的操作轨迹了。

而从这个过程我们可以看到，相比传统方法需要进行额外的预训练，这个方法用大模型指导机器人如何与环境进行交互，所以直接解决了机器人训练数据稀缺的问题。

更进一步，正是由于这个特点，它也实现了零样本能力，只要掌握了以上基本流程，就能hold任何给定任务。

在具体实现中，作者将VoxPoser的思路转化为一个优化问题，即下面这样一个复杂的公式：

它考虑到了人类下达的指令可能范围很大，并且需要上下文理解，于是将指令拆解成很多子任务，比如开头第一个示例就由“抓住抽屉把手”和“拉开抽屉”组成。

VoxPoser要实现的就是优化每一个子任务，获得一系列机器人轨迹，最终最小化总的工作量和工作时间。

而在用LLM和VLM将语言指令映射为3D地图的过程中，系统考虑到语言可以传达丰富的语义空间，便利用“ 感兴趣的实体 (entity of interest) ”来引导机器人进行操作，也就是通过3DValue Map中标记的值来反应哪个物体是对它具有“吸引力”的，那些物体是具有“排斥性”。

还是以开头的例子举，抽屉就是“吸引”的，花瓶是“排斥”的。

当然，这些值如何生成，就靠大语言模型的理解能力了。

而在最后的轨迹合成过程中，由于语言模型的输出在整个任务中保持不变，所以我们可以通过缓存其输出，并使用闭环视觉反馈重新评估生成的代码，从而在遇到干扰时快速进行重新规划。

因此，VoxPoser有着很强的抗干扰能力。

以下分别是VoxPoser在真实和模拟环境中的表现（衡量指标为平均成功率）：

可以看到，无论是哪种环境哪种情况（有无干扰、指令是否可见），它都显著高于基于原语的基线任务。

最后，作者还惊喜地发现，VoxPoser产生了 4个“涌现能力” ：

（1）评估物理特性，比如给定两个质量未知的方块，让机器人使用工具进行物理实验，确定哪个块更重；

（2）行为常识推理，比如在摆餐具的任务中，告诉机器人“我是左撇子”，它就能通过上下文理解其含义；

（3）细粒度校正，比如执行“给茶壶盖上盖子”这种精度要求较高的任务时，我们可以向机器人发出“你偏离了1厘米”等精确指令来校正它的操作；

（4）基于视觉的多步操作，比如叫机器人将抽屉精准地打开成一半，由于没有对象模型导致的信息不足可能让机器人无法执行这样的任务，但VoxPoser可以根据视觉反馈提出多步操作策略，即首先完全打开抽屉同时记录手柄位移，然后将其推回至中点就可以满足要求了。

大约一年前，李飞飞在美国文理学会会刊上撰文，指出计算机视觉发展的三个方向：

具身智能（Embodied AI）视觉推理（Visual Reasoning）场景理解（Scene Understanding）

李飞飞认为，具身智能不单指人形机器人，任何能在空间中移动的有形智能机器都是人工智能的一种形式。

正如ImageNet旨在表示广泛且多样化的现实世界图像一样，具身智能研究也需要解决复杂多样的人类任务，从叠衣服到探索新城市。

遵循指令执行这些任务需要视觉，但需要的不仅仅是视觉，也需要视觉推理理解场景中的三维关系。

最后机器还要做到理解场景中的人，包括人类意图和社会关系。比如看到一个人打开冰箱能判断出他饿了，或者看到一个小孩坐在大人腿上能判断出他们是亲子关系。

机器人结合大模型可能正是解决这些问题的一个途径。

除李飞飞外，参与本次研究的还有清华姚班校友 吴佳俊 ，博士毕业于MIT，现为斯坦福大学助理教授。

论文一作 Wenlong Huang 现为斯坦福博士生，在谷歌实习期间参与了PaLM-E研究。

论文地址：项目主页： / 参考链接： [1]/wenlong_huang/status/1677375515811016704 [1]/publication/searching-computer-vision-north-stars

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态

X 关闭

相关文章

李飞飞机器人大模型听懂人话

李飞飞机器人大模型听懂人话

2023-07-11

往开水中尿尿有何后果？根据马拉高尼效应，热水会逆流而上烫着你

往开水中尿尿有何后果？根据马拉高尼效应，热水会逆流而上烫着你

2023-07-11

扬州气象台发布高温黄色预警信号

扬州气象台发布高温黄色预警信号

2023-07-11

会呼吸的鞋子，夏天穿起来不闷脚！

会呼吸的鞋子，夏天穿起来不闷脚！

2023-07-11

张景胤4榜单前十！曲宗帅防守第六，接应位置问题大，二传不稳定

张景胤4榜单前十！曲宗帅防守第六，接应位置问题大，二传不稳定

2023-07-11

旗滨集团：目前的纯碱采购是同主要纯碱厂家签订长约协议价格由双方协商

旗滨集团：目前的纯碱采购是同主要纯碱厂家签订长约协议价格由双方协商

2023-07-11

东南亚国家谴责美国向乌提供集束弹药：受害者将是平民

东南亚国家谴责美国向乌提供集束弹药：受害者将是平民

2023-07-11

经典爱情对白，哪句触动了你？

经典爱情对白，哪句触动了你？

2023-07-11

安徽华兴：“减”出来的全省冠军

安徽华兴：“减”出来的全省冠军

2023-07-11

连衣裙的搭配增添日系时髦感，诠释出时髦气息，穿出惊艳气质

连衣裙的搭配增添日系时髦感，诠释出时髦气息，穿出惊艳气质

2023-07-11

为孤独症儿童点亮星空，游族网络公益行活动传递大爱

为孤独症儿童点亮星空，游族网络公益行活动传递大爱

2023-07-11

EDG俱乐部起诉Scout，将于7月20日在上海开庭审理

EDG俱乐部起诉Scout，将于7月20日在上海开庭审理

2023-07-11

天津网红夜市：如何既有“流量”还有“留量”

天津网红夜市：如何既有“流量”还有“留量”

2023-07-11

煊是什么意思在五行中煊是什么意思

煊是什么意思在五行中煊是什么意思

2023-07-11

未来两天重庆中小河流水势基本平稳无明显涨水过程

未来两天重庆中小河流水势基本平稳无明显涨水过程

2023-07-11

港珠澳大桥通关车流创新高

港珠澳大桥通关车流创新高

2023-07-11

一场就业攻坚战：三年十万大学生留银川

一场就业攻坚战：三年十万大学生留银川

2023-07-11

思南：激活神经末梢提升组织功能

思南：激活神经末梢提升组织功能

2023-07-11

广东好人｜卞华伟：13年执着为山区孩子改善伙食

广东好人｜卞华伟：13年执着为山区孩子改善伙食

2023-07-11

中金：电池管理芯片迎国产化提升及下游增长双驱动时刻

中金：电池管理芯片迎国产化提升及下游增长双驱动时刻

2023-07-11

小米平板5和6的区别

小米平板5和6的区别

2023-07-11

一辈子富贵好命的星座女生（天生享福命的3大星座女人）

一辈子富贵好命的星座女生（天生享福命的3大星座女人）

2023-07-11

聚力打造基层理论宣讲品牌

聚力打造基层理论宣讲品牌

2023-07-11

国家能源集团持续推动新疆“风储”项目

国家能源集团持续推动新疆“风储”项目

2023-07-11

地脚螺栓规格重量表（地脚螺栓螺母规格表）

地脚螺栓规格重量表（地脚螺栓螺母规格表）

2023-07-11

廊坊广电·关注丨新闻侧记：招商引资再聚焦项目建设再加力

廊坊广电·关注丨新闻侧记：招商引资再聚焦项目建设再加力

2023-07-10

为青春一起“乒”！2023深港青少年乒乓球交流赛收官

为青春一起“乒”！2023深港青少年乒乓球交流赛收官

2023-07-10

林州重机：中标4.47亿元液压支架采购项目

林州重机：中标4.47亿元液压支架采购项目

2023-07-10

我爱我家：原天津公司总经理已接任杭州公司总经理一职

我爱我家：原天津公司总经理已接任杭州公司总经理一职

2023-07-10

头条晚报丨男子幼儿园行凶致6死1伤；江苏回应“垃圾桶捡到人头”

头条晚报丨男子幼儿园行凶致6死1伤；江苏回应“垃圾桶捡到人头”

2023-07-10

三星折叠屏销量暴增64%，在中国占据主导

三星折叠屏销量暴增64%，在中国占据主导

2023-07-10

啄木鸟投诉平台周报：警惕线上拍卖平台的消费陷阱

啄木鸟投诉平台周报：警惕线上拍卖平台的消费陷阱

2023-07-10

山西进一步规范旅行社经营管理和导游执业行为

山西进一步规范旅行社经营管理和导游执业行为

2023-07-10

全球升温为何导致高海拔森林向更高扩张？物候学证据找到了！

全球升温为何导致高海拔森林向更高扩张？物候学证据找到了！

2023-07-10

美国法官驳回种族大屠杀幸存者的诉讼美媒：这里没有正义

美国法官驳回种族大屠杀幸存者的诉讼美媒：这里没有正义

2023-07-10

千亿市值巨头跨界医疗，医工交叉赋能向上突破

千亿市值巨头跨界医疗，医工交叉赋能向上突破

2023-07-10

互动平台热点集要

互动平台热点集要

2023-07-10

水庆霞：欧洲女足训练和水平比我们高得多，王霜会即插即用

水庆霞：欧洲女足训练和水平比我们高得多，王霜会即插即用

2023-07-10

乔任梁爸爸住院被诊断为酮症酸中毒

乔任梁爸爸住院被诊断为酮症酸中毒

2023-07-10

于汉超单骑闯关鲍亚雄献神扑申花客场1-0浙江队

于汉超单骑闯关鲍亚雄献神扑申花客场1-0浙江队

2023-07-10

11部门联合部署开展论坛活动专项清理整治

11部门联合部署开展论坛活动专项清理整治

2023-07-10

江门中微子实验有机玻璃球完成赤道层安装

江门中微子实验有机玻璃球完成赤道层安装

2023-07-10

冒着高温，他为独居老人做了这件事……

冒着高温，他为独居老人做了这件事……

2023-07-10

又到溺水多发季，这些防溺水安全知识不能忽视

又到溺水多发季，这些防溺水安全知识不能忽视

2023-07-10

小贾巴里：乌度卡建议我去引领球队早点学这些比晚点学要好

小贾巴里：乌度卡建议我去引领球队早点学这些比晚点学要好

2023-07-10

能源格局持续演变，全球首个全高温超导核聚变实验装置要开建

能源格局持续演变，全球首个全高温超导核聚变实验装置要开建

2023-07-10

中国材料大会77个分会场全面登场面向国家重大需求推动产业取得突破

中国材料大会77个分会场全面登场面向国家重大需求推动产业取得突破

2023-07-10

生态文明贵阳国际论坛取得多项成果达成14项共识签约122.36亿元

生态文明贵阳国际论坛取得多项成果达成14项共识签约122.36亿元

2023-07-10

你想要的都在这里

你想要的都在这里

2023-07-10

tokyo hot n0689（关于tokyo hot n0689的基本详情介绍）

tokyo hot n0689（关于tokyo hot n0689的基本详情介绍）

2023-07-10

Copyright © 2015-2021 制药网版权所有备案号：皖ICP备2022009963号-12 联系邮箱： 39 60 29 14 2@qq.com