纠纷奇闻作文社交美文家庭
家庭城市
爱好生活
创业男女
能力餐饮
美文职业
心理周易
母婴奇趣
两性技能
社交传统
新闻范文
工作个人
思考社会
作文职场
家居中考
兴趣安全
解密魅力
奇闻笑话
写作笔记
阅读企业
饮食时事
纠纷案例
初中历史
说说童话
乐趣治疗

李飞飞高徒指导看懂多模态提示的机器人zeroshot性能提升

2月26日 艮山观投稿
  编辑:LRS【新智元导读】李飞飞朝着她的北极星具身智能又前进了一步!
  人工智能领域的下一个发展机会,有可能是给AI模型装上一个身体,与真实世界进行互动来学习。
  相比现有的自然语言处理、计算机视觉等在特定环境下执行的任务来说,开放领域的机器人技术显然更难。
  比如promptbased学习可以让单个语言模型执行任意的自然语言处理任务,比如写代码、做文摘、问答,只需要修改prompt即可。
  但机器人技术中的任务规范种类更多,比如模仿单样本演示、遵照语言指示或者实现某一视觉目标,这些通常都被视为不同的任务,由专门训练后的模型来处理。
  最近来自英伟达、斯坦福大学、玛卡莱斯特学院、加州理工、清华大学和得克萨斯大学奥斯汀分校的研究人员共同提出一个基于Transformer的通用机器人智能体VIMA,利用多模态的prompt,实现极高的泛化性能,能够处理大量的机器人操作任务。
  论文链接:https:arxiv。orgabs2210。03094
  项目链接:https:vimalabs。github。io
  代码链接:https:github。comvimalabsVIMA
  输入prompt为交错使用的文字和视觉符号。
  为了训练和评估VIMA,研究人员提出了一个新的模拟基准数据集,包含上千个由程序生成的带有多模态提示的桌面任务,和60多万条专家轨迹用于模仿学习,以四个等级来评估模型的泛化性能。
  在同等尺寸的模型、等量训练数据的情况下,VIMA在最难的zeroshot的泛化设置下任务成功率为当下sota方法的2。9倍。
  在训练数据减少10倍的情况下,VIMA的表现仍然比其他方法好2。7倍。
  目前所有的代码、预训练模型、数据集和模拟基准都已完全开源。
  论文的第一作者是YunfanJiang,斯坦福大学硕士二年级学生,目前在英伟达研究院实习。2020年本科毕业于爱丁堡大学。他的主要研究方向为具身人工智能(embodiedAI),即通过与环境的互动来学习。具体研究内容为如何利用大规模的基础模型来实现开放式的的具身智能体(embodiedagents)
  论文包含两位导师,均为李飞飞曾经的学生。
  朱玉可,本科毕业于浙江大学,并取得了浙江大学和加拿大西蒙弗雷泽大学的双学位。硕士和博士研究生就读于斯坦福大学,师从李飞飞,并于2019年8月取得博士学位。朱玉可现任UTAustin计算机科学系助理教授,同时是机器人感知和学习实验室的主任,以及英伟达研究院高级研究科学家。
  范麟熙,博士毕业于斯坦福大学,师从李飞飞,目前是NVIDIAAI的研究科学家。主要研究方向为开发通用且强大的自主智能体(generallycapableautonomousagents),具体的研究工作涵盖了基础模型、策略学习、机器人技术、多模式学习和大规模系统。
  机器人与多模态prompt
  Transformer在NLP领域多任务已经实现相当高的性能,仅一个模型就能同时完成问答、机器翻译、文本摘要等。
  实现不同任务的接口就在于输入的文本提示,从而将具体的任务需求传递给通用大模型。
  能不能把这种prompt接口用在通用机器人智能体上呢?
  对于一个家务机器人来说,理想情况下,只需要输入给我拿杯子的图像,机器人就可以按照图片把杯子拿过来。
  当机器人需要学习新技能时,最好可以通过输入视频演示就能学习。如果机器人需要与不熟悉的物体进行互动时,只需要通过图例即可轻松解释。
  同时为了确保安全部署,用户可以进一步指定视觉约束,比如不要进入图像房间
  为了实现这些功能,VIMA模型主要包含三部分:
  1、形式化多模态提示,将机器人操纵任务转化为一个序列建模问题;
  2、一个新的机器人智能体模型,能够进行多任务操作
  3、一个具有不同任务的大规模基准,以系统地评估智能体的可扩展性和通用性
  首先,由多模态提示带来的灵活性可以让开发者指定和构建一个模型即可支持大量的任务规范,这篇论文中主要考虑六类任务:
  1、简单物体操纵(Simpleobjectmanipulation),任务提示形如putinto,其中对应的槽位为物体的图像;
  2、实现视觉目标(Visualgoalreaching),操纵物体实现目标设置,比如重新排列(rearragement);
  3、接纳新概念(Novelconceptgrounding),提示中包含一些不常见的词,例如dax,blicket等,可以通过在提示内的图像进行解释,然后直接在指令中使用,可以测试智能体对新概念的认知速度;
  4、单样本视频模仿(Oneshotvideoimitation),观看视频演示,并学习如何以相同的移动路径对一个特定物体进行复现;
  5、满足视觉限制(Visualconstraintsatisfaction),机器人必须小心地操纵物体,来避免触犯安全性限制;
  6、视觉推理(Visualreasoning),有一些任务要求智能体需要会推理,比如把所有和相同纹理的物体都放到一个容器中,或者要求视觉记忆,如把放到容器中,然后再放回到原位
  需要注意的是,这六类任务并非互斥,比如有的任务可能会通过演示视频(imitation)引入了一个之前没见过的动词(NovelConcept)
  新基准VIMBENCH
  巧妇难为无米之炊,为了训练模型,研究人员同时准备了一些配套数据作为多模态机器人学习基准VIMABENCH。
  在仿真环境(SimulationEnvironment)上,现有的基准一般都是针对特定的任务规范,目前还没有一个基准能够提供丰富的多模态任务套件和全面的测试平台来有针对性地探测代理能力。
  为此,研究人员通过扩展Ravens机器人模拟器来建立VIMABENCH,支持可扩展的物体和纹理集合,以组成多模态提示,并按程序生成大量的任务。
  具体来说,VIMABENCH提供了17个带有多模态提示模板的元任务,可以被实例化为1000个独立的任务。每个元任务属于上述6种任务规范方法中的一种或多种。
  VIMABENCH可以通过脚本化的oracle智能体生成大量的模仿学习数据。
  在观察和行动(ObservationandActions)上,模拟器的观察空间包括从正视图和自上而下视图渲染的RGB图像,基准还提供真实的物体分割和边界框,用于训练以物体为中心的模型。
  VIMBENCH从前人工作中继承了高级动作空间,由最基础的运动技能组成,如取放、擦拭等,具体由终端效果的姿势所决定。
  模拟器还具有脚本化的oracle程序,可以通过使用特权模拟器的状态信息,如所有物体的精确位置,以及多模态指令的基础解释,生成专家示范。
  最终,研究人员通过预编程的oracles生成了一个大型的专家轨迹离线数据集用于模仿学习。数据集包括每个元任务的5万条轨迹,共计65万条成功的轨迹。
  同时保留一个物体模型和纹理的子集方便评估,并将17个元任务中的4个用于zeroshot泛化性测试。
  VIMABENCH的每个任务标准只有成功和失败,不存在中间状态的奖励信号。
  在测试时,研究人员在物理模拟器中执行智能体策略,以计算出成功率,所有评估的元任务的平均成功率为最终报告的指标。
  评估协议包含四个层次以系统地探测智能体的泛化能力,每一级都更多地偏离训练分布,因此严格来说一级比一级难。
  1、放置泛化(Placementgeneralization):在训练过程中,所有的提示都是逐字逐句的,但在测试时,桌面上的物体放置是随机的。
  2、组合泛化(Combinatorialgeneralization):所有的材料(形容词)和三维物体(名词)在训练中都能看到,但在测试中会出现一些新的组合形式。
  3、新物体泛化(Novelobjectgeneralization):测试提示和模拟的工作空间包括新的形容词和物体。
  4、新任务泛化(Noveltaskgeneralization):测试时带有新提示模板的新型元任务
  VIMA模型
  多模态prompt中总共包含三种格式:
  1、文本,使用预训练的T5模型进行分词及获取词向量;
  2、整个桌面的场景,首先使用MaskRCNN识别出所有的独立物体,每个物体由一个boundingbox和裁剪图像表示,然后使用一个boundingbo编码器和ViT分别进行编码。
  3、单个物体的图像,同样使用ViT获得tokens,然后将结果序列输入到预训练的T5编码器模型中。
  机器人控制器(RobotController),即解码器的输入为提示序列上进行多次交叉注意力层后的表示和轨迹历史序列。
  这样的设计可以增强对prompt的连接度;更好地保留且更深地处理原始更好的计算效率。
  在测试阶段的实验设计,主要为了回答三个问题:
  1、VIMA和之前的SOTA基于Transformer的智能体在多模态提示的多种任务上的性能对比;
  2、VIMA在模型容量和数据量上的缩放性(scalingproperties);
  3、不同的视觉分词器,条件提示和条件编码是否会影响到最终的决策。
  对比的基线模型包括Gato,Flamingo和DecisionTransformer(DT)
  首先在模型缩放(Modelscaling)上,研究人员对所有方法从2M到200M参数量进行训练,编码器的尺寸始终保持为T5base,在所有层次的zeroshot泛化性评估上,VIMA都绝对好于其他工作。
  尽管Gato和Flamingo在更大尺寸的模型上性能有所提升,VIMA也仍然好于所有模型。
  在数据缩放(Datascaling)上,研究人员对各个方法的训练数据采取0。1,1,10和全量模仿学习数据集的不同实验,VIMA仅需1的数据,就能实现其他方法用10倍的数据训练的L1和L2泛化性指标。在L4指标上,仅需1的训练数据,VIMA就已经要比其他模型在全量数据上训练效果要好了。
  在渐进泛化(ProgressiveGeneralization)性能对比中,在面向更难的泛化任务中,没有采用任何微调。VIMA模型的性能倒退最少,尤其是从L1到L2和L1到L3,而其他模型退化超过了20,这也意味着VIMA学习到了更泛化的策略,更健壮的表征。
  参考资料:
  https:arxiv。orgabs2210。03094
投诉 评论 转载

近600年一遇,就在今晚1703今天傍晚将会发生本年度第二次月食天象此次月食是一次近乎全食的月偏食天象由于此次月偏食发生在日落时分届时若天气晴朗大家无需熬夜便可观赏到这场天……抛弃了松下拥抱了比亚迪,改款丰田雷凌改用锂电池,这属于减配?众所周知丰田的混合动力汽车的电池选择是有别于其他车企的。那年,当其他车企纷纷选择了锂电池之时,丰田却坚持走上了镍氢电池的道路。然而,在时隔多年之后的今天,丰田汽车还是走上……沉香如屑评分5。6分,一星超过20,这两条评论一针见血这几年的古偶剧,质量参差不齐,远远不能和前几年相提并论。能够达到6分以上的,都算是能看的了。比如杨紫和成毅出演的这一部《沉香如屑》,豆瓣开分了。仅有5。6分,……孙悦娇妻陈露近况!与孙悦分居2年,为女儿庆生交白人男性朋友最近这两个多月,中国男篮一直都在征战世界大赛,不过中国男篮后卫的表现一直不算太好,从孙铭徽、胡明轩到赵继伟,面对黎巴嫩、澳大利亚男篮这样的强敌,所有后卫都非常拉胯,这也不由得让……黄金大涨90美元,狂欢结束了上周,现货黄金大涨逾90美元,亚洲时段,现货黄金低开后窄幅震荡,目前在1759美元附近徘徊。本周,投资者将重点关注美国10月零售销售数据以及美联储官员讲话。本周重点……西甲赛程年轻球员需多学习,新闻积分榜球场上的不同比赛往往非常有趣,每个参与的球员都扮演着重要的角色。凭借其强大的性能,它们可以在许多情况下提供出色的性能。也正是因为如此,很多人才知道这些球员。在西甲,我想很多人更……经常活跃在高端局的打野英雄有这七位,你认为是哪七位高端局打野永远只有这七位,学会其中一位就能轻松上大分。第七位,阿古朵,阿古朵是一位节奏型打野,前中期非常强势独特的刷野机制,可以无视野区的保护,在中高分段非常受欢迎。……赖特我觉得凯恩要么会留在热刺当传奇要么加盟曼联在接受《英超制作》节目采访时,阿森纳名宿伊恩赖特谈到了凯恩的未来,赖特表示道凯恩要么会选择留在热刺当传奇,要么会加盟缺中锋的曼联,并会在红魔依旧拿出稳定表现。赖特:在我看……中国男篮悬了!俄罗斯将参加杭州亚运,亚洲冠军不保,步男足后尘咱们2022杭州亚运会因故推迟到今年的9月2310月8日举办,距今也只有7个多月的时间。近日,亚运会这边传来了重磅消息。据韩国媒体报道,一位韩国的官员透露,亚奥理事会已经……李飞飞高徒指导看懂多模态提示的机器人zeroshot性能提升编辑:LRS【新智元导读】李飞飞朝着她的北极星具身智能又前进了一步!人工智能领域的下一个发展机会,有可能是给AI模型装上一个身体,与真实世界进行互动来学习。相比现有……羽生结弦召开记者见面会,注射止痛药跳出最好的4A羽生結弦日、北京市内、記者会見形式取材応。自身挑回転半()最高表現、今思明。14日,花样滑冰选手羽生结弦在北京市内召开了记者见面会接受各国媒体采访。并坦言在比赛中尝试的四……2554!火箭新核心正式上位!125,榜眼首秀却不如此人亮眼今天NBA季前赛继续进行,备受广大球迷关注的休斯顿火箭队,迎来了新赛季主场的首秀。最终火箭主场以125119力克奇才,取得了季前赛的开门红。虽然这只是一场无关紧要的季前赛……
苹果为AppleTV和HomePod发布16。3Beta1测暴雪起诉新浪赤果果抄袭魔兽世界目的仍是赚钱赢钱!投资者要的是赌场,不是要去中心化Intel发鸡血驱动核显效率猛增43热血单机轩辕剑柒来了虚幻4打造Win10Sets功能消失2年后重见天日索尼PS5新情报主频设定难以置信支付宝我太蓝了!投教精品数说科创板记一下难忘的几位团友以色列约旦旅游日记(8)三大厂商强行撤走自家大作后!NV终获强援腾讯首款手机版端游问世零下载
我感觉好好啊十二星座对前任的态度十二星座都是怎么对待前任的?内蒙古沙漠化的原因奇怪的结局村居原文翻译注释赏析主叫号码未显示(主叫号码未显示怎么解决)热文聚热点网 这五种面相的男人桃花运特别旺母爱的味道巧用拼图培养宝宝思维能树叶粘贴画图片大全飞机树叶粘贴画图片热传聚热点网 二货出没,甩开膀子笑吧!左手与右手

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找美丽时装彩妆资讯历史明星乐活安卓数码常识驾车健康苹果问答网络发型电视车载室内电影游戏科学音乐整形