游戏电视苹果数码历史美丽
投稿投诉
美丽时装
彩妆资讯
历史明星
乐活安卓
数码常识
驾车健康
苹果问答
网络发型
电视车载
室内电影
游戏科学
音乐整形

Transformer再胜Diffusion!谷歌文本图像生

  编辑:LRS【新智元导读】谷歌带着更强大的图像生成模型来了,依然Transformer!
  最近谷歌又发布了全新的文本图像生成Muse模型,没有采用当下大火的扩散(diffusion)模型,而是采用了经典的Transformer模型就实现了最先进的图像生成性能,相比扩散或自回归(autoregressive)模型,Muse模型的效率也提升非常多。
  论文链接:https:arxiv。orgpdf2301。00704。pdf
  项目链接:https:musemodel。github。io
  Muse以maskedmodeling任务在离散token空间上进行训练:给定从预训练的大型语言模型(LLM)中提取的文本嵌入,Muse的训练过程就是预测随机masked掉的图像token。
  与像素空间的扩散模型(如Imagen和DALLE2)相比,由于Muse使用了离散的token,只需要较少的采样迭代,所以效率得到了明显提高;
  与自回归模型(如Parti)相比,由于Muse使用了并行解码,所以效率更高。
  使用预训练好的LLM可以实现细粒度的语言理解,从而转化为高保真的图像生成和对视觉概念的理解,如物体、空间关系、姿态、cardinality等。
  在实验结果中,只有900M参数的Muse模型在CC3M上实现了新的SOTA性能,FID分数为6。06。
  Muse3B参数模型在zeroshotCOCO评估中实现了7。88的FID,同时还有0。32的CLIP得分。
  Muse还可以在不对模型进行微调或反转(invert)直接实现一些图像编辑应用:修复(inpainting)、扩展(outpainting)和无遮罩编辑(maskfreeediting)。
  Muse模型
  Muse模型的框架包含多个组件,训练pipeline由T5XXL预训练文本编码器,基础模型(basemodel)和超分辨率模型组成。
  1。预训练文本编码器
  与之前研究中得出的结论类似,研究人员发现利用预训练的大型语言模型(LLM)有利于提升高质量图像的生成结果。
  比如从语言模型T5XXL中提取的嵌入(embedding)带有关于物体(名词)、行动(动词)、视觉属性(形容词)、空间关系(介词)以及其他属性(如卡片性和组成)的丰富信息。
  所以研究人员提出假设(hypothesis):Muse模型学会将LLM嵌入中的这些丰富的视觉和语义概念映射到生成的图像上。
  最近也有一些工作已经证明了,由LLM学习到的概念表征与由视觉任务训练的模型学习的概念表征大致上是可以线性映射的。
  给定一个输入的文本标题,将其传递给冻结参数的T5XXL编码器,可以得到一个4096维的语言嵌入向量,然后将这些向量线性地投射到Transformer模型(base和超分辨率)的hiddensize维度上。
  2。使用VQGAN进行SemanticTokenization
  VQGAN模型由一个编码器和一个解码器组成,其中的量化层(quantizationlayer)将输入图像映射成来自一个学习过的codebook的token序列。
  然后完全用卷积层建立编码器和解码器,以支持对不同分辨率的图像进行编码。
  编码器中包括几个下采样块来减少输入的空间维度,而解码器中则是有相应数量的上采样块来将latents映射回原始图像大小。
  研究人员训练了两个VQGAN模型:一个是下采样率f16,模型在256256像素的图像上获得基本模型的标记,从而得到空间尺寸为1616的标记;另一个是下采样率f8,在512512的图像上获得超分辨率模型的token,相应的的空间尺寸为6464。
  编码后得到的离散token可以捕捉图像的高层次语义,同时也可以消除低层次的噪声,并且根据token的离散性可以在输出端使用交叉熵损失来预测下一阶段的maskedtoken
  3。BaseModel
  Muse的基础模型是一个maskedTransformer,其中输入是映射的T5嵌入和图像token。
  研究人员将所有的文本嵌入设置为unmasked,随机mask掉一部分不同的图像token后,用一个特殊的〔MASK〕标记来代替原token。
  然后将图像token线性地映射到所需的Transformer输入或hiddensize维度的图像输入embedding中,并同时学习2Dpositionembedding
  和原始的Transformer架构一样,包括几个transformer层,使用自注意块、交叉注意力块和MLP块来提取特征。
  在输出层,使用一个MLP将每个masked图像嵌入转换为一组logits(对应于VQGANcodebook的大小),并以groundtruth的token为目标使用交叉熵损失。
  在训练阶段,基础模型的训练目标为预测每一步的所有mskedtokens;但在推理阶段,mask预测是以迭代的方式进行的,这种方式可以极大提高质量。
  4。超分辨率模型
  研究人员发现,直接预测512512分辨率的图像会导致模型专注于低层次的细节而非高层次的语义。
  使用级联模型(cascadeofmodels)则可以改善这种情况:
  首先使用一个生成1616latentmap(对应256256的图像)的基础模型;然后是一个超分辨率模型,将基础latentmap上采样为6464(对应512512的图像)。其中超分辨率模型是在基础模型训练完成后再进行训练的。
  如前所述,研究人员总共训练了两个VQGAN模型,一个是1616潜分辨率和256256空间分辨率,另一个是6464潜伏分辨率和512512空间分辨率。
  由于基础模型输出对应于1616latentmap的token,所以超分辨率模块学会了将低分辨率的latentmap翻译成高分辨率的latentmap,然后通过高分辨率的VQGAN解码,得到最终的高分辨率图像;该翻译模型也是以类似于基础模型的方式进行textconditioning和交叉注意力的训练。
  5。解码器微调
  为了进一步提高模型生成细节的能力,研究人员选择通过增加VQGAN解码器的容量,添加更多的残差层(residuallayer)和通道的同时保持编码器的容量不变。
  然后对新的解码器进行微调,同时保持VQGAN编码器的权重、codebook和Transformers(即基础模型和超分辨率模型)不变。这种方式能够提高生成图像的视觉质量,而不需要重新训练任何其他的模型组件(因为视觉token保持固定)。
  可以看到,经过微调的解码器以重建更多更清晰的细节。
  6。可变掩码率(MaskingRate)
  研究人员使用基于Csoinescheduling的可变掩码率来训练模型:对于每个训练例子,从截断的arccos分布中抽出一个掩码率r〔0,1〕,其密度函数如下。
  掩码率的期望值为0。64,也就是说更偏向于选择更高的掩码率,使得预测问题更加困难。
  随机的掩码率不仅对并行采样方案至关重要,而且还能实现一些零散的、开箱即用的编辑功能。
  7。ClassifierFreeGuidance(CFG)
  研究人员采用无分类指导(CFG)来提高图像的生成质量和文本图像对齐。
  在训练时,在随机选择的10的样本上去除文本条件,注意力机制降为图像token本身的自注意力。
  在推理阶段,为每个被mask的token计算一个条件logitlc和一个无条件logitlu,然后通过从无条件logit中移出一个量t作为指导尺度,形成最终的logitlg:
  直观来看,CFG是以多样性换取保真度,但与以前方法不同的是,Muse通过采样过程线性地增加指导尺度t来减少多样性的损失,使得earlytoken可以在低引导或无引导的情况下更自由地被取样,不过也增加了对latertokens条件提示的影响。
  研究人员还利用这一机制,通过将无条件的logitlu替换为以negativeprompt为条件的logit,促进了生成图像具有与postiveprompt相关的特征。
  8。推理时迭代并行解码
  在提升模型推理时间效率的一个关键部分是使用并行解码来预测单个前向通道中的多个输出token,其中一个关键假设是马尔科夫属性,即许多token是有条件地独立于给定的其他token的。
  其中解码是根据cosineschedule进行的,选择固定比例中最高置信度的掩码进行预测,其中token在剩余的步中被设定为unmasked,并且适当减少maskedtokens。
  根据上述过程,就可以在基本模型中只用24个解码步(step)实现对256个token的推理,在超分辨率模型中用8个解码步对4096个token进行推理,相比之下,自回归模型需要256或4096步,扩散模型需要数百步。
  虽然最近的一些研究包括progressivedistillation、betterODEsolver大大减少了扩散模型的采样步骤,但这些方法还没有在大规模的文本到图像生成中得到广泛验证。
  实验结果
  研究人员以不同的参数量(从600M到3B),基于T5XXL训练了一系列基础Transformer模型。
  生成图像的质量
  实验中测试了Muse模型对于不同属性的文本提示的能力,包括对cardinality的基本理解,对于非单数的物体,Muse并没有多次生成相同的物体像素,而是增加了上下文的变化,使整个图像更加真实。
  例如,大象的大小和方向、酒瓶包装纸的颜色以及网球的旋转等等。
  定量比较
  研究人员在CC3M和COCO数据集上与其他研究方法进行了实验对比,指标包括衡量样本质量和多样性的FrechetInceptionDistance(FID),以及衡量图像文本对齐的CLIP得分。
  实验结果证明了632M的Muse模型在CC3M上取得了SOTA结果,在FID得分方面得到了改善,同时也取得了最先进的CLIP得分。
  在MSCOCO数据集上,3B模型取得了7。88分的FID得分,略好于相似参数量的Parti3B模型取得的8。1分。
  参考资料:
  https:arxiv。orgpdf2301。00704。pdf

李易峰将在泰国复出?着急变卖北京豪宅,经纪人积极帮忙铺路头条创作挑战赛俗话说万丈高楼平地起,辉煌还得靠自己,一砖一瓦建起来的大厦,也有可能在顷刻之间倒塌,李易峰用实际行动证明了这个道理。仅仅只是一个爆料,一张图片以及简短的视频……又恋爱啦?白百何与导演张思麟深夜吃日料,曾多次被拍同返家中白百何此前深受一指弹事件的影响,不仅事业遭受重创,还被扒出各类黑料。此前白百何与陈羽凡已经离婚却还以夫妻的名字参加综艺节目合体捞金大秀恩爱,也是震惊了众人。毕竟上次这么做的人是……谷爱凌时尚大片网上曝光,突破奥运冠军头衔,挑战绝美高级风提起今年的冬奥会冠军之一谷爱凌,不知道大家还有不认识她的吗?作为一位奥运健儿,通过深挖才发现,原来对方还身怀多艺,除了运动员的身份之外,对方还是模特、学霸等等多个身份加持。就在……电商三巨头三季报解析谁能摆脱内卷旋涡?文程宇职业投资人、看懂独角兽专栏作家目前,阿里巴巴披露了2022财年中报。京东和拼多多披露了2021财年的三季报。这三家公司均为中国电商行业的代表性公司。结合三家公司的财……无美貌无身材,这位50岁的阿姨凭啥穿得精彩?这3点很重要在你心中,时尚应该是怎样一种感觉?相信在大多数人眼里,时尚都是和年轻人有关的事情。又或者穿着时尚,就意味着要穿一些比较吸引眼球的服装。总之,时尚似乎和年纪较大的中年女人没……夏天必来天台山的6大理由!!!最近天热得有点猛要get解暑的正确方式就去一趟天台山吧既能放肆地玩水,又能健康养生还能近距离感受萤火虫的魅力快来了解一下吧耍水夏日与水……中国4大领先世界的科技技术,你能猜到几个?还知道几个呢?世界上的高新技术不少,难的是如何将这些高新技术,做到世界领先,甚至于继续自主创新,开辟出新道路,今天就来盘点中国的4大领先世界的技术,不知道你能猜到几个呢?1、超级钢……盘点一下,2022年王者荣耀至今出过几款传说皮肤王者荣耀,我玩了6年左右,从贵1慢慢充到了贵7,娱乐性玩家,这赛季排位都没打,上线也就是打打娱乐局,已经没什么动力让我去打排位和巅峰赛了〔抠鼻〕。今年小王出的皮肤又多又贵……苹果将生产线移出中国,但印度厂良品率太低,极不顺利在美国政府施压之下,手机巨头苹果正在敦促旗下的代工生产商努力搬厂去印度,增加印度厂的产能,将生产线移出中国,但是消息显示苹果供应商在印度极不顺利。英国金融时报2月14日就……中年开始,最好命的活法相信做过针线活的朋友应该都有这种感受,当你集中精力,想把线头从细小的针眼一穿而过时,往往手心会瞬间溢满汗水,眼花手抖,越是这样,线就越难穿进针眼,这种现象叫穿针心理。目的……特斯拉越降价,马斯克越赚钱特斯拉的价格战,没有让CEO埃隆马斯克赔本,反而让他成为了全球首富。近日,有数据统计,得益于特斯拉的股价反弹,马斯克的净资产也是水涨船高,约1870亿美元,超过法国奢侈品巨头L……渡边雄太合同细节曝光,薪水数字感人还没保障,难怪周琦不来上赛季,篮网的战绩一言难尽,在阵容不差的情况下,球队磕磕绊绊进入季后赛,首轮面对凯尔特人,711组合对阵双探花,没想到篮网一胜难求,最终被横扫出局,为此,蔡老板最多亏损一亿美元……
李易峰将在泰国复出?着急变卖北京豪宅,经纪人积极帮忙铺路头条创作挑战赛俗话说万丈高楼平地起,辉煌还得靠自己,一砖一瓦建起来的大厦,也有可能在顷刻之间倒塌,李易峰用实际行动证明了这个道理。仅仅只是一个爆料,一张图片以及简短的视频……又恋爱啦?白百何与导演张思麟深夜吃日料,曾多次被拍同返家中白百何此前深受一指弹事件的影响,不仅事业遭受重创,还被扒出各类黑料。此前白百何与陈羽凡已经离婚却还以夫妻的名字参加综艺节目合体捞金大秀恩爱,也是震惊了众人。毕竟上次这么做的人是……谷爱凌时尚大片网上曝光,突破奥运冠军头衔,挑战绝美高级风提起今年的冬奥会冠军之一谷爱凌,不知道大家还有不认识她的吗?作为一位奥运健儿,通过深挖才发现,原来对方还身怀多艺,除了运动员的身份之外,对方还是模特、学霸等等多个身份加持。就在……电商三巨头三季报解析谁能摆脱内卷旋涡?文程宇职业投资人、看懂独角兽专栏作家目前,阿里巴巴披露了2022财年中报。京东和拼多多披露了2021财年的三季报。这三家公司均为中国电商行业的代表性公司。结合三家公司的财……无美貌无身材,这位50岁的阿姨凭啥穿得精彩?这3点很重要在你心中,时尚应该是怎样一种感觉?相信在大多数人眼里,时尚都是和年轻人有关的事情。又或者穿着时尚,就意味着要穿一些比较吸引眼球的服装。总之,时尚似乎和年纪较大的中年女人没……夏天必来天台山的6大理由!!!最近天热得有点猛要get解暑的正确方式就去一趟天台山吧既能放肆地玩水,又能健康养生还能近距离感受萤火虫的魅力快来了解一下吧耍水夏日与水……中国4大领先世界的科技技术,你能猜到几个?还知道几个呢?世界上的高新技术不少,难的是如何将这些高新技术,做到世界领先,甚至于继续自主创新,开辟出新道路,今天就来盘点中国的4大领先世界的技术,不知道你能猜到几个呢?1、超级钢……盘点一下,2022年王者荣耀至今出过几款传说皮肤王者荣耀,我玩了6年左右,从贵1慢慢充到了贵7,娱乐性玩家,这赛季排位都没打,上线也就是打打娱乐局,已经没什么动力让我去打排位和巅峰赛了〔抠鼻〕。今年小王出的皮肤又多又贵……苹果将生产线移出中国,但印度厂良品率太低,极不顺利在美国政府施压之下,手机巨头苹果正在敦促旗下的代工生产商努力搬厂去印度,增加印度厂的产能,将生产线移出中国,但是消息显示苹果供应商在印度极不顺利。英国金融时报2月14日就……中年开始,最好命的活法相信做过针线活的朋友应该都有这种感受,当你集中精力,想把线头从细小的针眼一穿而过时,往往手心会瞬间溢满汗水,眼花手抖,越是这样,线就越难穿进针眼,这种现象叫穿针心理。目的……特斯拉越降价,马斯克越赚钱特斯拉的价格战,没有让CEO埃隆马斯克赔本,反而让他成为了全球首富。近日,有数据统计,得益于特斯拉的股价反弹,马斯克的净资产也是水涨船高,约1870亿美元,超过法国奢侈品巨头L……渡边雄太合同细节曝光,薪水数字感人还没保障,难怪周琦不来上赛季,篮网的战绩一言难尽,在阵容不差的情况下,球队磕磕绊绊进入季后赛,首轮面对凯尔特人,711组合对阵双探花,没想到篮网一胜难求,最终被横扫出局,为此,蔡老板最多亏损一亿美元……
友情链接:易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网