游戏电视苹果数码历史美丽
投稿投诉
美丽时装
彩妆资讯
历史明星
乐活安卓
数码常识
驾车健康
苹果问答
网络发型
电视车载
室内电影
游戏科学
音乐整形

语义分割新范式!StructToken对perpixel分类

  作者丨Lart
  编辑丨极市平台
  论文链接:https:arxiv。orgabs2203。12612
  本文是对语义分割传统编解码逐像素分类范式的一种思考和改进。
  之前语义分割的工作将其视作一种逐像素分类任务,主流范式是编解码结构,通过编码器和解码器学习逐像素表征后,通过对每个像素单独分类到不同的类别中从而获得预测的语义掩码结果。这篇文章选择了另一种策略,即将结构信息作为先验直接构造语义掩码然后逐步细化,而不再是按照逐像素分类的范式。
  具体来看,对于给定的输入图像,模型中可学习的结构token会和图像表征进行交互,从而推理出最终的语义掩码。这一思路和最初的ViT结构中的clstoken的行为颇为类似。考虑到这份工作的实现是基于ViTL,所以可以很直观的推想出,StructToken的思路很是将Transformer原本的形式向语义分割这样的密集预测任务的一种直接迁移,这其中并没有像其他工作那样,过多受到目标任务中原始的卷积神经网络设计范式的影响。
  所以值得思考的几点可以由此提出:本文定义的结构信息是什么?提出的设计是怎样表达出这些结构信息的?如何验证这些设计带来的提升与所谓的结构信息有关?相关工作
  现有的语义分割领域已经出现了大量的工作,但是目前出现的工作中基本上都可以被归类为逐像素分类范式,差别主要在于分类参数是否是动态的:静态逐像素分类:延续着以分割领域早期基于卷积神经网络的经典工作的范式,例如FCN。他们主要利用上下文语义信息的增强和多尺度特征的融合,从而获得更有效的图像特征表示。并利用独立的静态分类器(典型如1x1卷积)实现逐像素的语义类别预测。然而这类工作专注于提升逐像素特征的表达能力,却并未在模型设计中考虑图像中的结构信息。动态逐像素分类:最近的工作中开始引入动态结构的思想。除了模型本身特征处理结构之外,分类器也开始转变为动态形式。论文列出的典型的工作有Segmenter〔Segmenter:Transformerforsemanticsegmentation〕、MaskFormer〔Perpixelclassificationisnotallyouneedforsemanticsegmentation〕、Mask2Former〔Maskedattentionmasktransformerforuniversalimagesegmentation〕和KNet〔KNet:Towardsunifiedimagesegmentation〕。他们主要是使用了一系列与语义类别相关的可学习的token,与图像自身的特征进行交互,从而实现最终mask的预测。这从形式上来看,可以认为是一种动态分类的过程。这些方法同时由没有完全抛弃上面提到的经典范式,整体上获得了更好的表现。但是从本文的角度来看,这类方法仍然没有抛开逐像素分类的范式:)。
  这些工作从整体上来看,都是在学习针对每一类的线性判别函数,要么是静态的卷积,要么动态的矩阵乘法运算。这会作用在逐像素的特征表示上,从而来为其赋予一个最相关的语义类别。
  作者们认为,按照人识别物体的过程,先是捕获语义类别的结构信息(形状等),然后关注于内部细节。想要分割图像中不同语义类别的区域,通常先根据结构生成一个粗略的mask,之后在调整mask的细节。现有的两种逐像素分类范式并没有充分的体现这一过程,而更多的是,直接在模型倒数第二层的特征图上分类像素从而获得得分图。这一特性鼓励网络优化单一像素的表征,而忽略甚至破坏了最重要的结构特征。
  本文中作者们提出了一种结构先验范式来解决这一问题,直接从结构token中构造得分图来分割图像,然后逐渐细化。主要内容
  文中主要研究了如何从特征图中根据结构token提取有用的信息。提出的结构整体遵循这样的过程:提取特征:使用Transformer骨干网络,例如ViT,提取特征图F,大小为〔C,H16,W16〕。构造结构token:随机初始化可学习的结构tokenS,大小为〔K,N〕,K为数据集类别数量,N为patch数量,即〔H16,W16〕。信息交互:使用交互结构来处理S。捕获特征图中的结构信息,并根据学习到的先验为每一类构建粗略的mask。特征细化:独立的FFN用于结构token的细化,并处理特征图。级联处理:堆叠多个基础单元(包括交互和细化)来重复处理特征。预测结果:尾部使用两个卷积层和跳过链接构成的卷积块来细化最终构建的分割mask并得到最终的结果。
  这些步骤中,交互式结构的设计是本文的核心。文中主要探索了三种交互式结构。其中包含两种动态结构和一种静态结构。动态结构:基于Attention的思路,但是计算相关的token并非是空间patch,而是基于通道,即S中的类别token和F中的特征通道之间的交互。第一种CSE基于CrossAttention范式,经过线性变换,S生成Query,F生成Key和Value,送入CrossAttention。这里得到的结果与S形状一致。按照图示,这里也有个拆分操作,但是论文并未明说具体如何实现。第二种SSE基于SelfAttention范式,S和F沿通道拼接后经过线性变换得到Query、Key和Value,并送入SelfAttention。结果会被按照通道的原始比例进行拆分。
  静态结构:直接使用1x1卷积处理SSE模块中的相似性注意力的计算。卷积结果即为最终对应于拆分之前的结果。这一过程使用1x1卷积直接混合不同的输入通道的信息,实现了类似于SSE的过程。
  上面结构中在执行Attention操作之前,S和F会被送入投影层处理,虽然是针对通道的Attention处理,但是这里的投影层使用的是1x1卷积3x3深度卷积1x1卷积的形式,仍然是空间维度共享的操作。
  这些模块的两个输出都会各自接一个FFN。这里的FFN使用的是FC3x3分组卷积FC的结构。即可以细化局部特征,也可以看作是一种隐式位置编码。实验结果对比实验
  文中在三个主要的语义分割数据集上进行了验证。本文的方法是构建在ViT的不同变体之上的,也因此没有使用那些金字塔架构形式的多尺度特征。
  从这里的实验中可以发现一个趋势,语义分割方法使用的backbone越来越大,从早期的的Res101,到现在的ViTL、MiTB5、SwinL。预训练权重甚至都开始使用ImageNet21K上的了。不知道这样的潮流是否真的有意义。
  消融实验
  对提出的结构中的不同组件进行了消融实验。这里的baseline模型基于ViT,仅隔着一个CSE模块和FFN模块。这里的FFN没有使用分组卷积,另外这里不对Query、Key和Value的投影层进行消融实验,因为作者们觉得如果替换成常规的全连接成,会导致无法支持多尺度推理。因为为了保持attention操作本身的原始性,仅对输入转置来实现通道attention而非手动修改投影层的情况下,此时的投影层就成了空间上的全连接了。
  这里还对提出的解码块堆叠数量进行了实验,最终作者们考虑性能与计算复杂度的平衡,就选择了4。实际上实验中反映出来,更多的块会带来更好的性能表现。
  但是作者们并没有讨论这些伴随而来的计算量和参数量对于性能的影响。
  为了验证提出的结构token保留结构信息的能力,作者们构建了一个逐像素分类范式的对等参考,backbone提取的特征会先将通道数量调整到类别数(类似于本文提出的结构token那样),每个通道认为对应一个类别。之后通过四个残差块来进行处理,最终使用1x1卷积生成最终的得分图。来自每个残差块的输出会被用来与本文模型中每个交互块的结构token输出进行可视化对比。下图中,不同的行组对应着不同的类别。可以看到,尽管输出的得分图很类似,但是结构token在中间的输出却展现出了更清晰的目标形状、轮廓等结构信息。而且随着多个块的处理,这些目标信息更加清晰(典型如第9行)。
  总结与思考
  回答开头的问题:本文定义的结构信息是什么?文章反复在强调的结构其实直观上可以理解为反映目标信息的形状和外观。本文提出的结构Token在多次堆叠的处理单元的输出中都明显的凸显出了特定类别的目标,确实实现了粗略预测的效果。提出的设计是怎样表达出这些结构信息的?基于通道的交互方式,使得结构token可以对图像特征不同的通道进行自适应的组合与强化。双流中各自的FFN实现了独立的空间变换和通道整合,这保证了各自学习过程的差异性和多样性。这种交互方式保留了图像空间结构信息的独立性和完整性。同时由于真值的监督,目标类别对应的结构token经过优化,会愈发具有与真值接近的空间上的外观,也即论文中图3中所展示的那样。这是为什么呢?我觉得这是因为通道注意力的使用的结果。基于通道之间的相似性计算的attention运算中,会为图像特征中对应空间位置激活更加明显(即与结构token对应类别通道更加相似)的通道赋予更大的比重,这样才会让损失越来越小。
  如何验证这些设计带来的提升与所谓的结构信息有关?作者对此并未进行探讨,或许可以构造这样一个实验:在目前这种在最后单一监督的形式中,后续处理单元中结构token各个类别通道的可视化结果非常趋于真值了。那若是使用深监督策略,直接对论文中提供的逐像素分类范式的卷积模型,对这些位置的特征进行额外监督,进一步强化这些特征对于这些目标区域的分割效果。如果性能进一步提升,则说明这样的结构信息的强化是有必要的。

散文家乡的秋色家乡的秋色清晨,推窗远望。一阵微风吹过。带着秋月的微凉,抚慰着我的脸庞。昨夜的一场寒风,夹杂着绵绵细雨,让季节加快了脚步。窗外,银杏树的叶子黄了。仿佛一夜之间,被秋……日职联鸟栖沙岩VS大阪钢巴,当遇到老朋友之时,鸟栖不敢松懈鸟栖的低迷他有很多理由,譬如人员不齐啊,杯赛并不重视啊,甚至可以说个自身实力已经继续下滑了。可现在问题来了,难道西川润、本田风智的回归,就能让鸟栖的进攻恢复起来吗?那或许吧,或……乡土散文割稻子辽河三角洲的人,都管水稻叫稻子,尤其成熟的水稻,稻子是人们对它最爱的称呼。低洼盐碱的土地,长出来的水稻格外喜人,整个盘锦大地,都在仟佰连绵的水稻所覆盖。每个村庄周边,放眼……走近冬奥冬奥会食品确保满足运动员的特殊要求新华社北京1月18日电(记者马向菲、姬烨)北京冬奥会即将喜迎八方来客,远道而来的运动员们很快会体验到东道主的热情好客。中国人将民以食为天奉为至理,各方将共同努力,确保让运动员们……为什么你的戾气越来越重?日子过好了,吃穿不愁,很多人的戾气却越来越重,一丁点不起眼的火苗都会惹得怒火中烧,一开口就恶语伤人!自己却不觉察,以为这就是脾气不好。但事实上,脾气和戾气可不是一回事。……世界首创FPPGA现场可编程光子芯片出货!速度提高20倍功耗来源:EETOP编译整理自allaboutcircuits光子学是一个很有前途的研究领域,专注于光科学及其在高性能技术中的可能用途。近年来,学术界和电子公司推出了范围广泛……中医是如何治疗痤疮的一、什么是痤疮?痤疮为常见的皮肤病,多发于面部,以粉刺、丘疹、脓疤、结节、囊肿及瘢痕为主要特征,常伴皮脂溢出口。我国痤疮患病率为36。051。3,青春期寻常痤疮患病率86……网络三张表ARP表,MAC表,路由表,实现你的网络自由!!背景说明:网络的知识,是大家开发过程中,非常重要也是非常底层的知识。所以网络知识是一个非常、非常核心的面试知识点。在30岁老架构师的读者交流群(50)中,其相关面试……中国代表团冬奥名单出炉,这些人的比赛别错过中新网客户端北京1月28日电(王昊)1月27日,参加北京冬奥会的中国体育代表团正式成立。代表团总人数为387人,其中运动员176人。北京冬奥会是中国体育代表团史上参赛规模最大的……甄嬛传里的浣碧,治好了我的完美主义情结我是阿瑞,分享女性情感和成长感悟,点击上方关注,和我一起提升自己,努力成长!图片来源于网络,侵删《甄嬛传》里的浣碧,演绎了人性最真实的样子,是她的【看不惯】。……2w字40张图带你参透并发编程1hr并发历史在计算机最早期的时候,没有操作系统,执行程序只需要一种方式,那就是从头到尾依次执行。任何资源都会为这个程序服务,在计算机使用某些资源时,其他资源就会空闲,就……2月55城新房价格上涨住宅库存仍在上升,市场分化持续3月16日,国家统计局发布2023年2月份70个大中城市商品住宅销售价格变动情况。今年2月份,随着政策效果逐步显现及住房需求进一步释放,70个大中城市中商品住宅销售价格环比上涨……
最近火了一种穿法,叫裤子塞进靴筒里,保暖显瘦,潮人都爱了伴随逐渐降低的气温,越来越多的人把自己全身都裹得很严实,不想要留一丝缝隙让冷空气进入身体,但在追求保暖的时候,你是否有考虑过如何搭配才能够既保暖又显瘦呢?这一点其实在很多人身上……别只盯着汉兰达,这车论舒适性同级无对手,21万比途观L值多了中型SUV已经是时下老生常谈的话题,各家为了提升品牌影响力,都会开始往这个领域发力,国产也不例外。GS6RX8CS95等等都是自主品牌向上的代表。当然,在销量上面,它们跟合资车……湖人,你是在帮鹈鹕获得文斑亚马今天,湖人与森林人比赛,意料之中,又输了,目前0胜5负,联盟倒数第一,更可怕的是不知道未来那场球会赢。詹姆斯又创造20历史记录季前赛开始前,谁能想到这样的结果,这就……对比朗逸轩逸,东风本田享域会重蹈INSPIRE的覆辙吗?看到官方发布东风本田享域量产版车型的官图时,小鹍恍惚间想起了东风本田旗下另一款并不畅销的车型INSPIRE。然而,同样是姊妹版车型,享域会重蹈INSPIRE的覆辙吗?提到……小板凳欧蓝德的真实体验随着欧蓝德的年度改款,小编也去到车展现场亲自体验欧蓝德。内饰方面19款欧蓝德没有太大的变化,只是多了电子手刹,放在19年这个年度才上电子手刹的确算不上什么新鲜的配置了,但……中年以后,不少男人开始反思这几点,早知早好,能改掉不容易人随着年龄的增长,身体机能就会不断下降,这时,衰老也就会加速,身体免疫力下降,更容易受到疾病的困扰,中老年人是众多疾病的高发人群,因此,人过中年,就一定要开始多多关注自己的身体……大瓜!跳水皇后伏明霞被传婚变,被爆净身出户?71岁老公紧急回真相来了,港媒曝跳水皇后伏明霞离婚,净身出户?最近狗仔爆料内娱流量明星各种没头没尾地瓜不少,港媒也爆出一个关于跳水界离婚瓜。伏明霞和郭晶晶不幸躺枪,真相来了!先是港……林肯新车航海家详解,网友这价格,你会为它放弃BBA吗林肯品牌在国内可谓几经沉浮,2014年林肯重新开启国内复苏进程,其中SUV车型MKX充当了主力成员,该车采用福特锐界平台打造,定位中型SUV。如今几年时间过去,林肯MKX中期改……日本宇航员想吃泡面,让后勤人员跑断腿,太空中为啥不能吃泡面?众所周知,太空里是没有地心引力的,所以那是一个失重的环境。人在那里就像地球上的气球一样飘浮着的,当然因为没有地心引力的作用,所有没有被固定住的物品也都是飘浮着的,比如食物,水,……一眼万年!我国天文爱好者拍到5万年绕太阳一圈的彗星新华社C2022E3彗星是2023年的第一颗明亮彗星。从1月起,它开始逐渐靠近地球,并于2月2日掠过近地点,近日我国天文爱好者对它进行了观测和拍摄。北京市天文爱好者……脱发?多半是脾弱肺虚,一张方子,调脾养肺,摆脱掉发烦恼有这样一种脱发,它的病机是脾弱肺虚。怎么理解呢?这些人普遍:肥胖,爱吃肉类、头发爱掉、爱出油、严重时2天不洗头上的油可炒一盘菜的那种,平时受凉了还爱拉肚子,常常疲乏……7座车,到底该选232还是223?7座车到底该选232的座椅布局还是223呢?随着我国二孩儿政策的全面放开以及人口老龄化现象的出现,这是个好多人买七座车时都纠结过的问题。小编们对此也各有各的见解并为此争论不休,……
友情链接:易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网