纠纷奇闻社交美文家庭
投稿投诉
家庭城市
爱好生活
创业男女
能力餐饮
美文职业
心理周易
母婴奇趣
两性技能
社交传统
新闻范文
工作个人
思考社会
作文职场
家居中考
兴趣安全
解密魅力
奇闻笑话
写作笔记
阅读企业
饮食时事
纠纷案例
初中历史
说说童话
乐趣治疗

清华打造足球AI首次实现同时控制10名球员完成比赛,胜率94

4月20日 赤雷榭投稿
  只见4号球员在队友的配合下迅速攻破后防,单刀直入,一脚射门,球,进了!
  观众朋友们大家好,您现在看到的是谷歌AI足球比赛的现场,场上身着黄色球衣的是来自清华大学的AI球员。
  这届清华AI可不一般,他们在艰苦训练之下,不仅有个人能力突出的明星球员,也有世界上最强最紧密的团队合作。
  在多项国际比赛中所向披靡,夺得冠军。
  Oh,现在7号接过队友传来的助攻,临门一脚,球又进了!
  言归正传,以上其实是清华大学在足球游戏中打造的一个强大的多智能体强化学习AITiKick。
  在多项国际赛事中夺得冠军则是指,TiKick在单智能体控制和多智能体控制上均取得了SOTA性能,并且还是首次实现同时操控十个球员完成整个足球游戏。
  这支强大的AI团队是如何训练出来的呢?从单智能体策略中进化出的多智能体足球AI
  在此之前,先简单了解一下训练所用的强化学习环境,也就是这个足球游戏:GoogleResearchFootball(GRF)。
  它由谷歌于2019年发布,提供基于物理的3D足球模拟,支持所有主要的比赛规则,由智能体操控其中的一名或多名足球运动员与另一方内置AI对战。
  在由三千步组成的上下半场比赛中,智能体需要不断决策出移动、传球、射门、盘球、铲球、冲刺等19个动作完成进球。
  在这样的足球游戏环境中进行强化学习难度有二:
  一是因为多智能体环境,也就是一共10名球员(不含守门员)可供操作,算法需要在如此巨大的动作空间中搜索出合适的动作组合;
  二是大家都知道足球比赛中一场进球数极少,算法因此很难频繁获得来自环境的奖励,训练难度也就大幅增大。
  而清华大学此次的目标是控制多名球员完成比赛。
  他们先从Kaggle在2020年举办的GRF世界锦标赛中,观摩了最终夺得冠军的WeKick团队数万场的自我对弈数据,使用离线强化学习方法从中学习。
  这场锦标赛只需控制场中的一名球员进行对战。
  如何从单智能体数据集学习出多智能体策略呢?
  直接学习WeKick中的单智能体操作并复制到每个球员身上显然不可取,因为这样大家都只会自顾自地去抢球往球门冲,根本就不会有团队配合。
  又没有后场非活跃球员动作的数据,那怎么办?
  他们在动作集内添加了第二十个动作:buildin,并赋予所有非活跃球员此标签(比赛中若选用buildin作为球员的动作,球员会根据内置规则采取行动)。
  接着采用多智能体行为克隆(MABC)算法训练模型。
  对于离线强化学习来说,最核心的思想是找出数据中质量较高的动作,并加强对这些动作的学习。
  所以需在计算目标函数时赋予每个标签不同的权重,防止球员倾向于只采用某个动作作为行动。
  这里的权重分配有两点考虑:
  一是从数据集中挑选出进球数较多的比赛、只利用这些高质量的数据来训练,由于奖励较为密集,模型能够加速收敛并提高性能。
  二是训练出Critic网络给所有动作打分,并利用其结果计算出优势函数,然后给予优势函数值大的动作较高的权重,反之给予较低的权重。
  此处为了避免梯度爆炸与消失,对优势函数做出了适当的裁剪。
  最终的分布式训练架构由一个Learner与多个Worker构成。
  其中Learner负责学习并更新策略,而Worker负责搜集数据,它们通过gRPC进行数据、网络参数的交换与共享。
  Worker可以利用多进程的方式同时与多个游戏环境进行交互,或是通过IO同步读取离线数据。
  这种并行化的执行方式,也就大幅提升了数据搜集的速度,从而提升训练速度(5小时就能达到别的分布式训练算法两天才能达到的同等性能)。
  另外,通过模块化设计,该框架还能在不修改任何代码的情况下,一键切换单节点调试模式和多节点分布式训练模式,大大降低算法实现和训练的难度。94。4的获胜率和场均3分的净胜分
  在多智能体(GRF)游戏上的不同算法比较结果中,TiKick的最终算法(AW)以最高的获胜率(94。4)和最大的目标差异达到了最佳性能。
  TrueSkill(机器学习中竞技类游戏的排名系统)得分也是第一。
  TiKick与内置AI的对战分别达到了94。4的胜率和场均3分的净胜分。
  将TiKick与GRF学术场景中的基线算法进行横向比较后发现,TiKick在所有场景下都达到了最佳性能和最低的样本复杂度,且差距明显。
  与其中的基线MAPPO相比还发现,在五个场景当中的四个场景都只需100万步就能达到最高分数。
  作者介绍
  一作黄世宇,清华大学博士生,研究方向为计算机视觉、强化学习和深度学习的交叉领域。曾在华为诺亚方舟实验室、腾讯AI、卡内基梅隆大学和商汤工作。
  共同一作也是来自清华大学的陈文泽。
  此外,作者还包括来自国防科技大学的LongfeiZhang、腾讯AI实验室的LiZiyang、ZhuFengming、YeDeheng、以及清华大学的ChenTing。
  通讯作者为清华大学的朱军教授。
  论文地址:
  https:arxiv。orgabs2110。04507
  项目地址:
  https:github。comTARTRLTiKick
  参考链接:
  https:zhuanlan。zhihu。comp421572915
投诉 评论 转载

日本科学家打破网速全球纪录,达319TbpsIT之家7月18日消息据外媒Motherboard报道,日本国家信息和通信技术研究所(NICT)的科学家成功打破现有的互联网网速纪录,达319Tbps,几乎是英国和日本团队在2……北京残奥会开幕式硬核后援团中国电信量子加密对讲技术首次亮相IT之家3月5日消息,据中国电信发布,2022年3月4日,冰雪盛会再度开幕,中国电信作为背后的一支硬核后援团,运用量子加密完成通信保障任务,实现了运营商量子加密对讲技术的首次亮……詹姆斯韦伯望远镜现在到哪儿了?距离地球62万公里,NASA还詹姆斯韦伯望远镜(JWST)升空4天后,NASA于今日宣布,这台太空望远镜的使用寿命将超过10年,比原来最低设计寿命5年长了一倍多。毕竟,对于一台造价100亿美元的太空望……连发三天大火箭,完美收官2021SpaceX猎鹰9号即将执行IT之家12月19日消息,继星链卫星之后,SpaceX现在准备在佛罗里达州卡纳维拉尔角再发射两次猎鹰9号任务。据介绍,猎鹰9号计划于今晚美国东部时间晚上10点从佛罗里达州……马斯克公布超重型星舰运载火箭猛禽发动机转向测试视频9个一组IT之家12月18日消息,根据微博用户China航天消息,SpaceXCEO马斯克今日在Twitter公布了一段视频,展现了超重型星舰运载火箭底部猛禽发动机的转向测试视频。……早安心语励志经典语录1、生命中,再无聊的时光,也都是限量版。2、少走了弯路,也就错过了风景,无论如何,感谢经历。3、多年以后,当我又开始回忆那些失去的人或事时,我一定会豁达的抿着嘴微笑……视频行业迎来太空盛宴Netflix将拍SpaceX载人飞行纪北京时间8月5日早间消息,据报道,今年秋季,美国民营太空公司SpaceX将会发射该公司史上第一批全大众乘员,让他们环绕地球飞行数日。有点不寻常的是,因为SpaceX已经和美国网……鼓励自己能战胜高考的座右铭1、先天下之忧而忧,后天下之乐而乐。2、去留无意,闲看庭前花开花落;宠辱不惊,漫随天外云卷云舒。3、淡看世间事,心情如浮云。4、乐民之乐者,民亦乐其乐;忧民之……中国东北发现14。6万年前人类新物种,科学家将其命名为龙人研究人员通过从头骨中提取少量样本来检测放射性元素铀的衰变率,进而缩小了时间窗口,该方法表明这块头骨至少有14。6万年的历史,可追溯至更新世中期据国外媒体报道,目前,最新三……以色列发现未知人类化石,至少生活在10万年前IT之家6月26日消息人类演化过程分为几个主要时期,例如南方古猿、能人、匠人、智人等,地理上常见的史前人类也有亚洲的直立人,以及栖息在欧洲的尼安德特人等,他们之中部分演变成了我……何恺明时隔两年再发一作论文为视觉大模型开路,CVPR2022大神话不多,但每一次一作论文,必定引发江湖震动。这不,距离上一篇一作论文2年之后,何恺明再次以一作身份,带来最新研究。依然是视觉领域的研究,依然是何恺明式的大道至简……清华打造足球AI首次实现同时控制10名球员完成比赛,胜率94只见4号球员在队友的配合下迅速攻破后防,单刀直入,一脚射门,球,进了!观众朋友们大家好,您现在看到的是谷歌AI足球比赛的现场,场上身着黄色球衣的是来自清华大学的AI球员。……
感谢给你泼冷水的人的人生哲理荐关于暖心的话语每次都哭的爱情经典语录有哪些大学晨读励志句子每日语录选集几米经典的伤感语录励志方面的短文最好的一句话的座右铭最新马云精彩励志语录大全对孩子说的话精选小清新的励志签名顾城经典语录
无公害黄瓜种类泡面头发型女图片中长发这样泡面头比丸子头还减龄当事人对司法鉴定怎么投诉?互联网系VS硬件设备系,下半场之战,谁将最终胜出?2017淘抢购年货节围观抢怎么玩?莫于川:有限政府有效政府亲民政府透明政府(下)关于我们的校园的作文500字狐狸与乌鸦后传作文400字咏史诗。摩笄山50万新轻年的UP之选第二代CS55PLUS上市了酒国天香智能售卖系统发布暨散茅土炮招商会成功举办11斤重,奥运首金杨倩用的气步枪是如何制造的?

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找美丽时装彩妆资讯历史明星乐活安卓数码常识驾车健康苹果问答网络发型电视车载室内电影游戏科学音乐整形