纠纷奇闻作文社交美文家庭
聚热点
家庭城市
爱好生活
创业男女
能力餐饮
美文职业
心理周易
母婴奇趣
两性技能
社交传统
新闻范文
工作个人
思考社会
作文职场
家居中考
兴趣安全
解密魅力
奇闻笑话
写作笔记
阅读企业
饮食时事
纠纷案例
初中历史
说说童话
乐趣治疗

何恺明时隔两年再发一作论文为视觉大模型开路,CVPR2022

3月19日 飞仙轩投稿
  大神话不多,但每一次一作论文,必定引发江湖震动。
  这不,距离上一篇一作论文2年之后,何恺明再次以一作身份,带来最新研究。
  依然是视觉领域的研究,依然是何恺明式的大道至简。
  甚至在业内纷纷追求大力出奇迹、暴力美学的当下,何恺明还带着一种坚持独立思考的反共识气概。
  简洁:通篇论文没有一个公式。
  有效:大巧不工,用最简单的方法展现精妙之美。
  江湖震动:CVPR2022最佳论文候选预定。
  所以,何恺明新作《MaskedAutoencodersAreScalableVisionLearners》究竟有怎样的思想和研究成果?
  用于CV的自监督学习方案
  本文提出了一种用于计算机视觉的MaskedAutoEncoders掩蔽自编码器,简称MAE,一种类似于NLP技术的自我监督方法。
  操作很简单:对输入图像的随机区块进行掩蔽,然后重建缺失的像素。
  主要有两个核心设计。
  一个是非对称的编码解码架构,一个高比例遮蔽输入图像。
  先来看编码解码架构。
  如图所示,编码器是ViT,它仅对可见区块进行操作,然后用一个轻量级编码器仅在预训练期间负责图像重建任务。
  具体而言,作者先将图像均匀划分为非重叠区块,然后随机对区块进行采样。
  以遮蔽比例75为例,它先在输入图像中掩蔽75的随机区块,编码器只在可见的25区块子集上运行,这样就可以只用非常少的计算和显存,来训练非常大的编码器。
  然后解码器将可见的token和掩码token组合,并向所有token中添加位置嵌入,通过预测每个掩蔽区块的像素值来重建图像信号。
  这样一来,在预训练时解码器可以独立于编码器,从而可以用非常轻量级解码器实验,大量减少预训练时间。
  另一个特点则是对输入图像的高比例进行遮蔽时,自监督任务效果非常好。
  比如,掩蔽掉80随机patch的效果如下:
  其中最左列为输入图像,中间列为MAE方法重建效果,最右侧为原图效果。
  不同掩蔽比例在重建图像中的表现对比如下:
  将这两种设计结合,结果用来训练大模型:
  训练速度提升3倍以上,还提高准确率的那种。
  除此之外,基于该方案所得出的大模型具备很好的泛化能力:
  比如,在仅使用ImageNet1K数据时,ViTHuge模型准确性达87。8。
  在COCO数据集中的表现如下,虽然重建效果不清晰,但是基本语义是正确的。
  研究者还对MAE迁移学习的性能进行了评估。
  结果在下游任务,比如目标检测、实例分割、语义分割等任务都优于监督预训练。
  在对比中可以看到,随机遮蔽75、整块遮蔽50和网格遮蔽50的三种采样方法中,随机遮蔽75重建图像的质量最好。
  基于这些研究成果,何恺明团队在最后也表达了他们的看法。
  一方面,扩展性好的简单算法是深度学习的核心。
  在计算机视觉中,尽管自监督学习方面取得了进展,但实际预训练仍需受到监督。
  这项研究中,作者看到ImageNet和迁移学习任务中,自编码器表现出了非常强的可扩展优势。
  为此作者认为,CV中自监督学习现在可能正走上与NLP类似的轨道。
  另一方面,作者注意,图像和语言是不同性质的信号,这种差异需要小心处理。
  图像仅仅是记录下来的光,并没有语义分解为文字的视觉类似物。
  他们不是去试图去除物体,而是去除可能不构成语义段的随机区块。重建的像素,也并不是语义实体。研究团队
  论文的研究团队,来自FacebookAI研究院(FAIR),每个人都屡屡获誉,堪称梦之队。
  除了几位老将,我们这次再多说说里面的华人面孔。
  XinleiChen,本科毕业于浙江大学计算机专业,随后在卡内基梅隆大学攻读博士学位,曾在UCLA、谷歌云、MSR实习。
  谢赛宁,本科毕业于上海交通大学ACM班,随后在UC圣迭戈分校攻读计算机博士学位,曾在谷歌、DeepMind实习。
  YanghaoLi,本科毕业于北京大学计算机专业,随后留在本校继续攻读硕士学位。
  最后,再次隆重介绍下何恺明。
  一作何恺明,想必大家都不陌生。作为MaskRCNN的主要提出者,他已4次斩获顶会最佳论文。
  何恺明是2003年广东高考状元,并保送了清华,进入杨振宁发起设立的物理系基础科学班。
  硕博阶段,何恺明前往香港中文大学多媒体实验室,导师正是后来的商汤科技创始人汤晓鸥。
  此间,何恺明还进入微软亚洲研究院实习,在孙剑指导下,以一作身份发表ResNet研究,一举成名天下知,荣获2016年CVPR最佳论文。
  同年何恺明进入由YannLecun(获2019年图灵奖)掌舵的Facebook人工智能实验室,与RossGirshick、PiotrDollar本次研究中的其他几位老面孔,组成了FAIR在AI研究领域的梦之队。
  更加令人钦佩的是,何恺明年少成名,但这几年来依然不断潜心研究,一直带来新惊喜。
  甚至他的新研究,很多都是那种可以开枝散叶的成果。
  这一次,MAE同样被视为这样的延续。
  你怎么看MAE?
投诉 评论 转载

日本科学家打破网速全球纪录,达319TbpsIT之家7月18日消息据外媒Motherboard报道,日本国家信息和通信技术研究所(NICT)的科学家成功打破现有的互联网网速纪录,达319Tbps,几乎是英国和日本团队在2……北京残奥会开幕式硬核后援团中国电信量子加密对讲技术首次亮相IT之家3月5日消息,据中国电信发布,2022年3月4日,冰雪盛会再度开幕,中国电信作为背后的一支硬核后援团,运用量子加密完成通信保障任务,实现了运营商量子加密对讲技术的首次亮……詹姆斯韦伯望远镜现在到哪儿了?距离地球62万公里,NASA还詹姆斯韦伯望远镜(JWST)升空4天后,NASA于今日宣布,这台太空望远镜的使用寿命将超过10年,比原来最低设计寿命5年长了一倍多。毕竟,对于一台造价100亿美元的太空望……连发三天大火箭,完美收官2021SpaceX猎鹰9号即将执行IT之家12月19日消息,继星链卫星之后,SpaceX现在准备在佛罗里达州卡纳维拉尔角再发射两次猎鹰9号任务。据介绍,猎鹰9号计划于今晚美国东部时间晚上10点从佛罗里达州……马斯克公布超重型星舰运载火箭猛禽发动机转向测试视频9个一组IT之家12月18日消息,根据微博用户China航天消息,SpaceXCEO马斯克今日在Twitter公布了一段视频,展现了超重型星舰运载火箭底部猛禽发动机的转向测试视频。……早安心语励志经典语录1、生命中,再无聊的时光,也都是限量版。2、少走了弯路,也就错过了风景,无论如何,感谢经历。3、多年以后,当我又开始回忆那些失去的人或事时,我一定会豁达的抿着嘴微笑……视频行业迎来太空盛宴Netflix将拍SpaceX载人飞行纪北京时间8月5日早间消息,据报道,今年秋季,美国民营太空公司SpaceX将会发射该公司史上第一批全大众乘员,让他们环绕地球飞行数日。有点不寻常的是,因为SpaceX已经和美国网……鼓励自己能战胜高考的座右铭1、先天下之忧而忧,后天下之乐而乐。2、去留无意,闲看庭前花开花落;宠辱不惊,漫随天外云卷云舒。3、淡看世间事,心情如浮云。4、乐民之乐者,民亦乐其乐;忧民之……中国东北发现14。6万年前人类新物种,科学家将其命名为龙人研究人员通过从头骨中提取少量样本来检测放射性元素铀的衰变率,进而缩小了时间窗口,该方法表明这块头骨至少有14。6万年的历史,可追溯至更新世中期据国外媒体报道,目前,最新三……以色列发现未知人类化石,至少生活在10万年前IT之家6月26日消息人类演化过程分为几个主要时期,例如南方古猿、能人、匠人、智人等,地理上常见的史前人类也有亚洲的直立人,以及栖息在欧洲的尼安德特人等,他们之中部分演变成了我……何恺明时隔两年再发一作论文为视觉大模型开路,CVPR2022大神话不多,但每一次一作论文,必定引发江湖震动。这不,距离上一篇一作论文2年之后,何恺明再次以一作身份,带来最新研究。依然是视觉领域的研究,依然是何恺明式的大道至简……清华打造足球AI首次实现同时控制10名球员完成比赛,胜率94只见4号球员在队友的配合下迅速攻破后防,单刀直入,一脚射门,球,进了!观众朋友们大家好,您现在看到的是谷歌AI足球比赛的现场,场上身着黄色球衣的是来自清华大学的AI球员。……
如何才能快速灭鼠宝宝易消化的美食粥料理风雷石是什么可以染丝的硫磺矿类剧毒斗鱼直播雪倒立露点原图绝地求生吃鸡有风险老年人吃石榴的好处种卫生间打开方式拿好不谢保护儿童健康首个儿童家具强制性标准严治环保乱象长筒靴筒围太紧怎么办银针造句用银针造句大全名录造句用名录造句大全正本造句用正本造句大全宾馆智能门锁品牌有哪些
红菇可以炖鸭肉吗滋补红菇老鸭汤食谱我拥有我快乐我的喜怒哀乐朝花夕拾读书笔记600字任城登太白楼我的小秘密人生感慨句子说说心情感悟人生的说说短短excel中选取单元格及区域的方法茬意思是什么(茬是什么意思)热闻聚热点网 怎么分辨核桃树的花芽和叶芽随笔散文笑看世界杯风云背后为什么要入党(入党理由简短)

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找美丽时装彩妆资讯历史明星乐活安卓数码常识驾车健康苹果问答网络发型电视车载室内电影游戏科学音乐整形