纠纷奇闻社交美文家庭
投稿投诉
家庭城市
爱好生活
创业男女
能力餐饮
美文职业
心理周易
母婴奇趣
两性技能
社交传统
新闻范文
工作个人
思考社会
作文职场
家居中考
兴趣安全
解密魅力
奇闻笑话
写作笔记
阅读企业
饮食时事
纠纷案例
初中历史
说说童话
乐趣治疗

CVPRampamp3922OralAdaMixer基于快速

2月2日 先锋客投稿
  作者丨王利民知乎(已授权)
  来源丨https:zhuanlan。zhihu。comp493049779
  编辑丨极市平台
  论文链接:https:arxiv。orgpdf2203。16507。pdf
  代码链接(已开源):https:github。comMCGNJUAdaMixer
  本文介绍一下我们在目标检测的新工作AdaMixer,通过增强检测器的自适应建模能力来加速querybased检测器(类DETR检测器和SparseRCNN)的收敛和最终的表现效果,并且使模型架构维持在一个相对简单的结构上。我们提出了一系列技术来增强querybased检测器的decoder解码部分,包括3D特征空间采样和动态MLPMixer检测头,这使得我们免于引入设计繁重、计算量大的各种注意力编码器(attentionalencoder),或者特征金字塔式的多尺度交互网络,在保持效果的同时(其实我们超越了很多之前的模型),进一步简化了基于query的检测器的结构。研究动机
  首先,我们简单介绍一下我们的研究动机。现在基于query的检测器成为学术研究的热点,其通过query集合(有的文章也称proposal集合)和图像特征图的迭代交互抽取特征,不断完善query本身的语义,使其能够在matchingloss下完成query对object的一对一cls和bbox预测。基于query的检测器不需要后续的NMS操作,使得整个检测流程更为简单和优雅。但是我们发现,基于query的检测器,尤其是类DETR检测器,其通常引入了多层的注意力编码器(attentionalencoder),这些注意力编码器对每个像素密集地进行全局或者局部的注意力计算,引入了较大的运算量,且不易于拓展到高分辨率的特征图上,由此带来了小物体检测困难的问题,而且可能会带来训练时长的困扰。SparseRCNN流派引入了显式的特征金字塔网络FPN来增强对小物体的建模,但同样的,特征金字塔网络会引入额外的计算量。我们觉得在backbone和decoder之间加入额外的网络其实有些不优雅,而且这和用query做检测的目标有点相违背了。如果检测器需要厚重的密集编码器的话,那用数量少的query通过decoder可以检测物体作为模型的亮点就有点南辕北辙了。出现这些问题的根本原因还是decoder不够强势,需要encoder的建模能力来弥补,所以我们的方法的根本动机就是增强decoder的能力,使检测器尽量避免引入各种encoder。
  但如何增强decoder的能力呢,尤其是对不同图像不同目标的多样化建模能力?这个问题对只使用稀疏且数量限制的query的解码器至关重要。回顾典型的querydecoder本身,是一个基于transformerdecoder的结构,首先将query和query之间做selfattention,而后query和图像特征feat做交互,然后每个query再过FFN。而这些初始的query虽然一般都是可学习的向量,但在inference时就固定下来,无法对不同的输入而变化(虽然现在有潮流把初始的query由类RPN产生),所以如何保证querydecoder本身的解码机制对不同图片输入不同物体的自适应能力就成了一个问题。为此,我们提出从两个方面来改进这种基于query的目标检测器:采样位置的自适应能力和解码特征的自适应能力,对应着就是我们提出的3D特征空间采样和动态MLPMixer检测头。方法
  我们简单介绍一下我们的AdaMixer检测器两个代表性的创新点,以利于读者迅速抓取到我们方法的脉络。有些细节在此忽略了,具体可以查看原文。自适应的特征采样位置
  与现在其他方法一样,我们把query解耦成两个向量,分别是内容向量(contentvector)和位置向量(positionalvector),其中query代表着的框可以由位置向量解码而来。在每一个stage,querydecoder都会更新refine这两个向量。值得注意的是,我们对位置向量采用的参数化并不是常用框的lrtb坐标或是ccwh坐标,而是xyzr形式,其中z代表着框大小的对数,r代表着框长宽比的对数,这种参数化形式的xyz可以直接让我们的query可以与多层级特征所形成的3D特征空间进行联系。如上图所示,3D特征空间中的query坐标自然由xyz决定,自适应3D特征采样首先由query根据自己的内容向量生成多组offset,再在3D特征空间上进行对应点的插值采样得到对应的特征,3D特征空间有益于我们的方法统一自适应地学习目标物体的位置和尺度的变化。注意这一步是不需要任何多尺度交互网络的。自适应的采样内容解码
  总结构
  我们的AdaMixer解码器总结构如上图,虽然看起来有一点繁琐,但是在内容向量上的操作基本构造还是和Transformerdecoder是一致的,位置向量可以简单地视为在一个stage内参与坐标变换和计算,然后在一个stage的末尾再更新。
  总的AdaMixer检测器只由两个主要部分构成:其一是主干网络,其二是我们所提出来的AdaMixer解码器,不需要额外的注意力编码器以及显式的多尺度建模网络。结果
  实验结果在当时投稿时还是比较精彩的,在12epoch的训练条件下,我们的表现超过了其他检测器(包括传统以及基于query的检测器),其中N为query的数量,证明了我们的方法的收敛速度和最终效果。而且我们的12epoch在8卡V100上实际训练时间还是比较快的,只要9小时。
  在与跟其他querybased检测器相比下,我们也有更好的表现,而且我们是表中唯一不需要额外的注意力编码器或者金字塔特征网络的模型。
  消融实验
  我们做了比较丰富的消融实验来验证我们提出的各个模块的有效性。在此,我们选一些有代表性的消融实验来进行讨论。
  表(a)是对我们方法核心所需的自适应性的探究,不管是采样位置(loc。)还是解码内容(cont。)的适应性都对我们最终模型的表现有着大幅的影响。
  表(b)是对我们提出的adaptivemixing的探究,动态通道混合(ACM)和动态空间混合(ASM)的顺序组合是最佳选择。
  表(c)是我们的AdaMixer再加上不同的多尺度交互网络的效果,我们很惊讶地发现不加额外的金字塔网络居然效果还比较好,我们猜测可能是因为我们的AdaMixer解码器自然具有多尺度交互的能力且额外的金字塔网络有着更多的参数需要更多的训练时间来收敛。
  表8进一步探究了3D特征空间采样。注意到表8中实验模型都没有配备FPN网络,在这种情况下RoIAlign的表现效果较差在我们的情理之中。自适应2D采样(不学习z方向上的offset)的模型落后了3D特征空间采样将近1。5个AP,说明了3D采样尤其是z方向上学习offset的必要性。另外,另一个很有意思的结论是只用C4特征要比C5要好,这可能归功于C4特征的分辨率较大。而且只用C4特征时,可以把ResNet的后续特征提取阶段直接砍掉(因为没有FPN,也用不到C5特征图了),这可能代表着此类检测器轻量化可以涉及的方向?我们还未做过多探究。总结
  我们提出了一个具有相对简单结构、快速收敛且表现不俗的检测器AdaMixer,通过改善解码器对目标物体的自适应解码能力,我们的AdaMixer无需引入厚重的注意力编码器以及显式的多尺度交互网络。我们希望AdaMixer可以作为后续基于query的检测器简单有效的基线模型。
投诉 评论 转载

5千元人民币兑换239万比索,能在哥伦比亚做什么?总算明白了5000元人民币可以兑换239万比索,这笔钱在哥伦比亚可以享受哪些服务呢?听完当地美女的回答,所有男性游客都明白了。(此处已添加小程序,请到今日头条客户端查看)这几……英超2利物浦萨拉赫马内破门科瓦契奇世界波北京时间1月3日凌晨0点30分,20212022赛季英超联赛第21轮迎来一场焦点战,切尔西坐镇斯坦福桥对阵利物浦,这是联赛二三名之间的对决。上半场,马内和萨拉赫为利物浦连进两球……骁龙8新旗舰口碑如何?看看这两款高好评率的新机,你就有答案了如今,随着骁龙8新旗舰的接连登场,用户也足以从各种真机实测中了解到换用台积电4nm工艺后的处理器功耗情况。由众多实测与用户反馈来看,新处理器似乎真的在功耗问题上迎来了很到位的解……初拥拍摄发生意外,两位工作人员坠亡,炎亚纶发文批评剧组在影视剧拍摄过程中,为了呈现精彩的镜头,往往需要到比较危险的地方取景拍摄,虽然剧组一般会为演员和工作人员做好防护,但很难做到万无一失,这几年不少剧组都出过事故,而3月11日,剧……人民日报罕见发声让实体店重新旺起来!你怎么看?近期,人民日报发文《让实体店人气重新旺起来》,为实体店打call。人民日报指出:近年来,在多重因素影响下,实体店越来越难做,市场份额也在逐渐被电商吞噬。45天关10……不用担心人工智能时代马上来临,就怕比别人慢一步实现人工智能代替人工作,人们再也不用从事繁重的体劳动和脑力劳动,这是一件多么美好和令人兴奋的事啊!但却有人深深地担心,找工作更难,人们会大量失业,这是不是杞人忧天想多了。其实……名医堂黄晓玲做一个儿科好医生,要有三心段沛伶封面新闻记者宁芝孩子的健康成长关乎国家的未来,儿科医疗一直是我国医疗建设的重要领域。如何当好儿科医生?如何打造区域儿科医疗高地?近日,封面新闻记者特别专访了内江市第……每天吃核桃,或许有很多的好处,但它适合所有人吗?建议了解一下核桃与榛子、腰果、扁桃被称为世界四大干果。核桃又称胡桃,富含非常丰富的不饱和脂肪酸、维生素、叶酸、蛋白质、脂肪、烟酸等各类元素,不仅可以生吃,还能够熟吃,是非常珍贵的滋补……新赛季15大锋线球员詹姆斯领跑,字母哥KD小卡威金斯上榜20222023赛季的NBA常规赛即将揭幕,对于球迷而言,这是一大喜讯。在关注揭幕战对决的同时,大量球队与不少球星在下赛季的表现同样值得期待。湖人詹姆斯、篮网杜兰特、雄鹿……CVPRampamp3922OralAdaMixer基于快速作者丨王利民知乎(已授权)来源丨https:zhuanlan。zhihu。comp493049779编辑丨极市平台论文链接:https:arxiv。orgpd……汪小菲深夜开战小S!怒呛别欺人太甚,是不是药又吃多了?小S近日在节目中爆料姐姐大S与具俊晔是在最相爱的时候被迫分开,因此她在得知姐姐有新男友后,第一个猜到的对象就是具俊晔,没想到这段节目播出后却引起大S前夫汪小菲不满,凌晨在微博发……韦布望远镜证实发现首颗系外行星据美国国家航空航天局(NASA)网站报道,美国科学家首次借助韦布空间望远镜证实了一颗系外行星,这颗小型岩石行星名为LHS475b,直径几乎和地球相当,距地球约41光年,位于南极……
硅谷投资人纳瓦尔宝典,积累财富和幸福生活是可以学习的技能北京地铁音乐地图正式发布,带您看冬奥,听北京(社会)福州坊巷里的中国年味2022年退休,一次性补缴5万元养老保险,可以领取多少养老金哪有什么一夜成名,都是百炼成钢重视中国话背后的语言价值9月适合错峰有的14个美景,看下你最想去哪里?简直不要太美落伍了吗?赶快了解下web3。0健康生活方式预防脑梗死慧荣SM2258XT主控数据恢复详细教程李楠谈魅族20发布会没人邀请,邀请了也不去鸳鸯戏水我的顺转剖经历历史上,新凤霞有哪些故事?被马蜂蜇伤该怎么办赵露思长歌行曝花絮!片场被踩15次,表情痛苦仍不忘保护搭档尼采经典语录与好句摘抄忙碌的国庆作文飞机起降时会影响孕妇健康吗房屋装修合同女星艺考素颜照赵薇清纯,钟楚曦如换脸,她们没有变化感触《像时光一样柔软》王彦霖承认恋情,甜蜜表白女友刻在我心里的名字梦游天姥吟留别教案

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找美丽时装彩妆资讯历史明星乐活安卓数码常识驾车健康苹果问答网络发型电视车载室内电影游戏科学音乐整形