纠纷奇闻社交美文家庭
投稿投诉
家庭城市
爱好生活
创业男女
能力餐饮
美文职业
心理周易
母婴奇趣
两性技能
社交传统
新闻范文
工作个人
思考社会
作文职场
家居中考
兴趣安全
解密魅力
奇闻笑话
写作笔记
阅读企业
饮食时事
纠纷案例
初中历史
说说童话
乐趣治疗

我在谷歌大脑工作的18个月

1月21日 发如雪投稿
  雷锋网AI科技评论按:在强化学习领域,谷歌大脑的研究内容一直是业界重点关注的对象。MarcG。Bellemare是谷歌大脑的研究员,研究方向为分布式强化学习、表征学习等。他将自己在谷歌大脑18个月中研究经历和心得写成了文章并进行发表。雷锋网AI科技评论全文编译如下。雷锋网
  时间回溯到2017年夏天,在欧洲一段时间的告别旅行中,我被当时在蒙特利尔新成立的谷歌大脑团队录用(当时我进行远程办公)。我在家里的办公室可以看到伦敦北部贝尔塞斯公园(BelsizePark)的绝美景色,而且还曾招待了谷歌蒙特利尔的整个强化学习团队,这是真的。
  从那以后,我搬到了另一个大陆,在AI实习生、学生研究者和全职谷歌员工三重角色中转换。现在,谷歌团队的规模有了相当大的扩展(而且还在继续扩展:MarlosC。Machado也加入了我们)。事后看来,2018年是相当多产的一年。这篇博客回顾了这段时间我们的科研产出,以一个全景视角介绍了蒙特利尔谷歌大脑团队在强化学习方面研究进展以及我们所参与过的非常棒的合作,从而让我们对不远的未来有了一个认识。
  分布式强化学习
  它很好。但它如何实现呢?
  在强化学习中,分布式的方法认为我们应该预测随机收益的分布,而不是预测它们的期望值(Bellemare,Dabney,Munos,ICML2017)。然而,大多数分布式智能体仍然通过将行动值(actionvalue)分布提取还原为它们各自的期望值,然后选择期望值最高的操作来运行。预测,然后提取。那么,为什么它在实践中表现得如此出色呢?
  为了回答这个问题,我们开发了一种正式语言来分析分布式强化学习方法,尤其是基于样本的方法(Rowland等,AISTATS2018)。通过这一形式,我们发现原来的分布式算法(称为C51)隐式地最小化了概率分布之间的距离(Cramr距离)。但是我们的一些结果表明,分布式算法应该最小化分布之间的Wasserstein距离,而不是Cramr距离。我们(我指的是WillDabney)用一种叫做分位数回归(quantileregression,)的技术重新修正了大部分的C51,在一定程度上最小化了Wasserstein距离。由此产生的智能体(这个称为QRDQN)在Atari2600基准上表现出强大的性能(Dabneyetal。,AAAI2018)。另一个令人兴奋的结果是,MarkRowland最近发现了分布式强化学习中统计量和样本之间的一个有趣的失配,这就解释了为什么这些算法有效,而其他算法注定会失败(Rowlandetal。,2019)。
  根据Mark对C51的分析,我们从基本原理推导出了一个分布式算法在本例中,使用的是更容易处理的Cramr距离。我们的目标是开发出一项能显式地对分配损失执行梯度下降(C51和QRDQN都没有这样做)的分配算法,而最终开发出来的是一项我们命名为S51的算法(Bellemare等人,AISTATS2019);S代表有符号的,因为算法可能会输出有效的负概率。由于其相对简单,我们能够证明,当与线性函数近似(linearfunctionapproximation)结合时,S51能够保证收敛性。在此过程中,我们还收集了一些证据,证明在一些病态的例子中,预测提取的方法比直接预测期望值的表现更糟糕。这是一位评论者所提到的更容易出现模型错误识别所导致的自然而然的结果。
  此后,我们也证明了将预测提取的方法结合到表格表征中实际上是无效的,同时证实了如果将该方法结合到线性表示中,其性能可能比预期的强化学习更差(Lyle,Castro,Bellemare,AAAI2019)。这使我们排除了不依赖于表征选择的常见解释,如分布式强化学习减少方差或平均分布式预测导致更准确的值估计。这些解释某种程度上错误地引用了Holmes先生的话,一旦你排除了不可能,剩下的一定是真相:分布式强化学习一旦与深层网络结合,似乎就会变得有用。
  为了收集这方面的进一步证据,我们在Cartpole域中训练了智能体,要么使用固定的低维表示(一阶傅里叶基),要么使用类似的深度网络。结果(总结如下面的图表所示)相当有说服力:在固定表征的情况下,分布式方法的性能比基于预期的方法差;但使用深度表征后,它们就表现得更好了。这篇论文还表明,基于Cramr的方法应该输出累积分布函数(cumulativedistributionfunction),而不是概率质量函数(probabilitymassfunction,PMFs)。
  一名深度学习实践者会很自然地得出这样的结论:分布式强化学习是有用的,因为它有助于更好地学习表征。但这在形式上意味着什么呢?如何证明或反驳这种说法呢?这些问题促使我们研究了一个非常热门的话题:将表征学习应用于强化学习。
  表征学习
  去年夏天,WillDabney和我为强化学习中的表征学习设计了一个我们称之为苹果派(applepie)的实验:用一个简单的设置去研究学习好的表征意味着什么。这个实验包括1)一个综合环境(四室域);2)训练一个非常大的深度网络;3)做出各种预测。我们将表征定义为从状态到d维特征向量的映射,之后又将这些特征向量线性映射到预测。在所有的实验中,d都小于状态数。这个设置允许我们回答这样的问题:当我们训练网络预测X时,得到的表征是什么?,其中X可能是值函数、值分布或一些辅助任务。
  通过对这个小问题的不断探索,我们意识到可以为表征制定一个最优准则。该准则指出,最优表征应该最小化所有可实现值函数的近似误差。这里我用可实现表示由某些策略生成(Bellemareetal。,2019)。事实上,我们只需要考虑此类值函数的一个非常特殊的子集,即对偶值函数(adversarialvaluefunctions,AVFs),以反映最优性准则的极小值特征。因为这些参数基本上是几何化的,得出的这些结果也很有趣。在整个过程中,我们发现值函数的空间本身是高度结构化的:虽然还存在着一些不直观的特征,但它整体来看是一个多面体(Dadashietal。,2019)。
  我们使用用于表征的FMRI(见上)来可视化该方法的效果(上图;MarlosC。Machado提供代码)。这里,每个单元格将特征的归一化激活描述为输入状态的函数。图中对比了网络被训练用来预测单个值函数或多个AVFs时的情况。在仅使用值表征的时候,得出的结果有点不令人满意:单个特征要么在状态之间不活跃,要么是预测值函数的副本;此外,在激活模式中还存在噪声。相比之下,AVFs方法产生的结构很漂亮。
  我们可以使用相同的工具来确认分布式强化学习确实学习了更丰富的表征。下图是使用C51(左)或使用QRDQN(右)预测随机策略值分布时学到的特性的可视化情况。分位数回归得到的特征提供了一系列的响应,从目标附近的高度峰值(左下角第二行)到相对分散(右上角)。这两组特性都比刚刚前面提到强化学习在学习值函数时更加结构化(前面的图左)。
  作为这些结果的补充,我们可视化了Atari2600游戏智能体中隐藏单位的激活。这些构成了与PabloSamuelCastro、FelipeSuch、JoelLehman以及其他许多人在AtariZoo项目中非常出色的合作的一部分(如etal。,DeepRLWorkshopatNeurIPS,2018)。为了强调其中一个结果,分布式算法(该算法是Hessel等人对C51的扩展,叫做Rainbow)学习到的卷积特性通常比非分布式DQN学习到的卷积特性更详细、更复杂,如下面的Seaquest游戏示例所示:
  同样重要的是,我们发现预测多个折扣率的值函数也是在Atari2600游戏中制作辅助任务的一种简单而有效的方法(Fedusetal。,2019)。
  毫无疑问,不同的强化学习方法会产生不同的表征形式,并且在深度学习和强化学习之间会发生复杂的交互作用。如果幸运的话,在接下来的一年,我们也会找出这些表征与智能体的经验表现之间的关系。
  软件
  如果你曾参加我去年的一次演讲,你可能会看到我的演讲内容如下:
  根据发行日期,时间轴按时间顺序对ArcadeLearningEnvironment提供的60款游戏进行排列。每个标题标出了(主观)估计的性能最好的学习智能体:超人的(黑色格),近似人类的(红白格),最后也为游戏中的AI不为完成游戏,而纯粹以得分为目的游戏打出了分值(灰色格)。时间轴显示,前面标上超人的标签的游戏,比重要高于后面的游戏。我认为,这证明了早期游戏要比后期游戏更容易,部分原因在于电子游戏体验的转变:从反应性游戏(Pong)转变为认知性游戏(Pitfall!)
  注意,时间表是从2017年年中开始的,现在有点过时了,经过调整,我们也考虑到了其他的游戏,例如MsRevenge通过运用模仿学习(Hesteretal。,2017;Aytaretal。,2018)和非参数方案(Ecofettetal。,2019)在性能上实现了巨大进步,不过即使是这样,我们或许还是遗漏了很少一部分有代表性的游戏。鉴于ALE在推动深度强化学习研究复兴方面发挥了重要的作用,因此在强化学习领域应该积极寻找下一个Atari。
  但这张图表也帮我说明了另一点:ALE现在是一个成熟的基准,应该区分对待它和新出现的挑战。用MilesBrundage的话来说就是:Atari游戏,如果你在意样本效率,那么它可以作为强化学习基准。深度强化学习本身也在不断成熟:想要更好地了解当前的技术,请参阅VincentFranoisLsreview(2019)。在取得令人兴奋的早期成功后,深度强化学习可能准备回归基础。
  这种成熟的结果之一是对ALE论文进行二次更新,这项工作由我当时的学生MarlosC。Machado主导,新的成果与新的代码一同发布。该代码的发布解锁了额外的难度级别(flavours),这证明新成果是对迁移学习研究非常有用的(Machadoetal。,2018)。在这篇论文中有太多的好东西要列出,但是首先要讨论的是如何评估学习Atariplaying算法的重复性和公平性。在GoExplore博客发布的Twittereddies中可以看到一个关于社区如何接受这一点的很好的例子:经过讨论之后,作者们重新使用我们推荐的粘性行为评估方案来评估他们的方法。(如果你感兴趣,这是JeffClune的一条推特)。
  去年8月,我们还发布了开源强化学习框架,Dopamine(白皮书:Castroetal。,2018)。我们想从简单的Dopamine入手,坚持开发对强化学习研究有用的一小部分核心功能。因此,框架的第一个版本由大约12个Python文件组成,并为ALE提供了一个单GPU、最先进的Rainbow智能体。Dopamine2。0(2月6日PabloSamuelCastro的博客文章)扩展了第一个版本,更广泛地支持离散操作域。我们最近几乎所有的强化学习研究都使用Dopamine。
  最后同样值得一提的是,我们最近还与DeepMind合作发布了一个基于热门纸牌游戏Hanabi(Bardetal。,2019)的人工智能方法新研究平台。Hanabi是独一无二的,因为它结合了合作(而不是竞争!)和部分可观察性。代码中包含一个基于Dopamine的智能体,因此你可以随时将代码用起来。我已经在另一篇博文中对此进行了更多的讨论,但最后我想说,这是这段时间以来我研究的最有趣的问题之一。顺便说一下:分布式强化学习和非分布式强化学习之间似乎存在很大的性能差距,如下面的学习曲线所示。这是一个小小的谜团。
  结语
  这篇文章没有讨论如何探索强化学习,尽管这个话题对我来说仍然很重要。值得注意的是,通过AdrienAliTaiga,我们在理解伪计数如何帮助我们探索方面取得了一些进展(AliTaiga,Courville,Bellemare,2018)。很高兴看到强化学习的越来越多的研究者们迎接挑战,致力于解决Montezuma’sRevenge等艰难的探索问题。尽管epsilon贪婪(epsilongreedy)算法和熵正则化(entropyregularization)在实践中仍然占据主导地位,但我认为我们离显著提高算法样本效率的集成解决方案,也不远了。
  尽管蒙特利尔市中心的风景可能与伦敦北部不尽相同,但我在谷歌大脑这段时间的研究经历绝对令人兴奋。蒙特利尔和加拿大是多位世界上最优秀的深度强化学习研究人员的家乡,能与这么多本地和谷歌大脑团队的人才交流,我感到很不胜荣光。
  来源:雷锋网
投诉 评论 转载

潘石屹真的赢了!自媒体称望京SOHO“风水差”被判赔20万因在发布的文章中套用风水迷信解读望京SOHO的布局设计,微信公众号S神棍局S注册运营方珠海市神棍网络科技有限公司被诉至法院。4月1……全球快消品Top100:7家中国品牌入选4月8日消息,近日,英国调查公司欧睿(Euromonitor)根据2017财年的全球零售销售额排出全球最成功的100个快速消费品牌(Thebiggestfastmovingco……五粮液进入“砍砍砍”模式王者回归之路还有多远?高端白酒的聚光灯不光打在贵州茅台(600519。SH)身上,五粮液(000858。SZ)也重回媒体焦点。从3月18日五粮液在全国春季糖酒会上,由五粮液集团董事长李曙光、集……盒小马为什么开不下去了?运营302天后,盒小马的苏州首店在其线上渠道淘鲜达宣布停业。36氪了解到,盒小马苏州首店的线下门店也基本停止运营,在宣布店内商品将进行六折促销不到一个星期后,店内货架已清……各国5G爆发性发展,但是5G安全吗?新报告称六喜六忧日前,首个行政区域5G网络在上海建成并开始试用,第一通5G手机通话正式拨通,我国的5G发展已经步入快车道。除了追求5G建设速度,5G安全也成为一项重要议题。整体来看,5G……中国手机印度二十年:市场倔不尽,对手打不完走在印度德里的大街上,如果不看肤色不听口音,往往会有一种时光倒流的感觉来自于十年前中国三四线城镇手机厂商乱战的景象若隐若现中国手机厂商赴印度淘金的同时,也在吸引着更多印度……斯坦福大学终身教授:区块链世界到底是如何形成的作者:张首晟,斯坦福大学终身教授,丹华资本创始人本文源自张首晟先生的讲演就像人类的历史一样,网络的历史也可以用分久必合,合久必分来概括。我1983年去美国留学的时候……罗永浩:科技loser,营销鬼才不被嘲笑的愿望是不值得去实现的。罗永浩在创业纪录片《燃点》中如是说。事实上,从2006年创业第一个项目牛博网以来,罗永浩就一直被裹挟在漫天的嘲笑……我在谷歌大脑工作的18个月雷锋网AI科技评论按:在强化学习领域,谷歌大脑的研究内容一直是业界重点关注的对象。MarcG。Bellemare是谷歌大脑的研究员,研究方向为分布式强化学习、表征学习等。他将自……黑洞周围运行尘埃图像首曝光黑洞照片冲洗需要两年据国外媒体报道,天文学家第一次直接拍摄到围绕超大质量黑洞运行的尘埃圆环图像。这一类似甜甜圈结构的圆环(torus)位于天鹅座A星系的中心,而该星系是宇宙中能量最强大的电波星系之……手机淘宝改名背后,移动互联网正在“消失”的“手机淘宝”总算改名为“淘宝”了。“手机淘宝”这个名字就像是PC时代的遗物,总算在昨天去掉了上个世代的痕迹当PC是主端的时候,我们需要加上“手机”这样的修饰前缀;而到了今……传卢米埃影城拟卖身恒大,外资影院为何纷纷退出内地市场?不同业内人士向毒眸透露,一直致力于拓展文娱业务的恒大系,正在与中港合资的影投公司卢米埃影业洽谈收购事宜。有消息人士表示,收购方案目前正在经过恒大方面最后的审批。毒眸于昨日……
Google发布全新Snapseed2图片处理应用Casio将进军智能腕表领域Facebook推出Messenger网页版VICTORINOX限量推出大马士革钢打造的瑞士军刀Levi’sPORTER联名系列包袋KITHxNewEraNewYorkYankees“WorlUDox打造全新球鞋百科全书式应用程序Sneakers:ThNikon发布数码相机自拍杆CanonXC104K摄像机URBANRESEARCHxPersol期间限定太阳镜款特斯拉充电桩将全面进驻皇冠假日酒店BeatsByDre以Apple产品为灵感打造Solo2Wi沟里造句用沟里造句大全橘皮泡脚功效多冬季使用保暖又安眠胎位不正在家能自行纠正吗如何使花朵保鲜我熟悉的一个人强制医疗程序的构建与完善自是造句用自是造句大全新生儿硬肿症有哪些危害怎样亲手种出貌美的波斯菊日系无刘海短发发型为你的短发换个风格努比亚nubiaZ5mini的屏幕尺寸是多少?分辨率是多少?好听的励志流行歌曲介绍

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找美丽时装彩妆资讯历史明星乐活安卓数码常识驾车健康苹果问答网络发型电视车载室内电影游戏科学音乐整形