CVPR2023首个多模态DeepFake检测定位模型让AI
编辑:好困【新智元导读】为了应对多模态假新闻,本文提出检测并定位多模态媒体篡改任务(DGM)。与现有的单模态DeepFake检测任务相比,DGM不仅判断输入图像文本对的真假,也尝试定位篡改内容(例如图像篡改区域和文本篡改单词)。
由于如StableDiffusion等视觉生成模型的快速发展,高保真度的人脸图片可以自动化地伪造,制造越来越严重的DeepFake问题。
随着如ChatGPT等大型语言模型的出现,大量假本文也可以容易地生成并恶意地传播虚假信息。
为此,一系列单模态检测模型被设计出来,去应对以上AIGC技术在图片和文本模态的伪造。但是这些方法无法较好应对新型伪造场景下的多模态假新闻篡改。
具体而言,在多模态媒体篡改中,各类新闻报道的图片中重要人物的人脸(如图1中法国总统人脸)被替换,文字中关键短语或者单词被篡改(如图1中正面短语iswelcometo被篡改为负面短语isforcedtoresign)。
这将改变或掩盖新闻关键人物的身份,以及修改或误导新闻文字的含义,制造出互联网上大规模传播的多模态假新闻。
图1。本文提出检测并定位多模态媒体篡改任务(DGM4)。与现有的单模态DeepFake检测任务不同,DGM4不仅对输入图像文本对预测真假二分类,也试图检测更细粒度的篡改类型和定位图像篡改区域和文本篡改单词。除了真假二分类之外,此任务对篡改检测提供了更全面的解释和更深入的理解。
表1:所提出的DGM4与现有的图像和文本伪造检测相关任务的比较
检测并定位多模态媒体篡改任务
为了解此新挑战,来自哈工大(深圳)和南洋理工的研究人员提出了检测并定位多模态媒体篡改任务(DGM4)、构建并开源了DGM4数据集,同时提出了多模态层次化篡改推理模型。目前,该工作已被CVPR2023收录。
论文地址:https:arxiv。orgabs2304。02556
GitHub:https:github。comrshaojimmyMultiModalDeepFake
项目主页:https:rshaojimmy。github。ioProjectsMultiModalDeepFake
如图1和表1所示,检测并定位多模态媒体篡改任务(DetectingandGroundingMultiModalMediaManipulation(DGM4))和现有的单模态篡改检测的区别在于:
1)不同于现有的DeepFake图像检测与伪造文本检测方法只能检测单模态伪造信息,DGM4要求同时检测在图像文本对中的多模态篡改;
2)不同于现有DeepFake检测专注于二分类,DGM4进一步考虑了定位图像篡改区域和文本篡改单词。这要求检测模型对于图像文本模态间的篡改进行更全面和深入的推理。
检测并定位多模态媒体篡改数据集
为了支持对DGM4研究,如图2所示,本工作贡献了全球首个检测并定位多模态媒体篡改(DGM4)数据集。
图2。DGM4数据集
DGM4数据集调查了4种篡改类型,人脸替换篡改(FS)、人脸属性篡改(FA)、文本替换篡改(TS)、文本属性篡改(TA)。
图2展示了DGM4整体统计信息,包括(a)篡改类型的数量分布;(b)大多数图像的篡改区域是小尺寸的,尤其是对于人脸属性篡改;(c)文本属性篡改的篡改单词少于文本替换篡改;(d)文本情感分数的分布;(e)每种篡改类型的样本数。
此数据共生成23万张图像文本对样本,包含了包括77426个原始图像文本对和152574个篡改样本对。篡改样本对包含66722个人脸替换篡改,56411个人脸属性篡改,43546个文本替换篡改和18588个文本属性篡改。
多模态层次化篡改推理模型
本文认为多模态的篡改会造成模态间细微的语义不一致性。因此通过融合与推理模态间的语义特征,检测到篡改样本的跨模态语义不一致性,是本文应对DGM4的主要思路。
图3。提出的多模态层次化篡改推理模型HierArchicalMultimodalManipulationrEasoningtRansformer(HAMMER)
基于此想法,如图3所示,本文提出了多模态层次化篡改推理模型HierArchicalMultimodalManipulationrEasoningtRansformer(HAMMER)。
此模型建立在基于双塔结构的多模态语义融合与推理的模型架构上,并将多模态篡改的检测与定位细粒度层次化地通过浅层与深层篡改推理来实现。
具体而言,如图3所示,HAMMER模型具有以下两个特点:
1)在浅层篡改推理中,通过篡改感知的对比学习(ManipulationAwareContrastiveLearning)来对齐图像编码器和文本编码器提取出的图像和文本单模态的语义特征。同时将单模态嵌入特征利用交叉注意力机制进行信息交互,并设计局部块注意力聚合机制(LocalPatchAttentionalAggregation)来定位图像篡改区域;
2)在深层篡改推理中,利用多模态聚合器中的模态感知交叉注意力机制进一步融合多模态语义特征。在此基础上,进行特殊的多模态序列标记(multimodalsequencetagging)和多模态多标签分类(multimodalmultilabelclassification)来定位文本篡改单词并检测更细粒度的篡改类型。
实验结果
如下图,实验结果表明研究团队提出的HAMMER与多模态和单模态检测方法相比,都能更准确地检测并定位多模态媒体篡改。
图4。多模态篡改检测和定位结果可视化
图5。关于篡改文本的模型篡改检测注意力可视化
图4提供了一些多模态篡改检测和定位的可视化结果,说明了HAMMER可以准确地同时进行篡改检测与定位任务。图5提供了关于篡改单词的模型注意力可视化结果,进一步展示了HAMMER是通过关注与篡改文本语义不一致性的图像区域来进行多模态篡改检测和定位。
总结
本工作提出了一个新的研究课题:检测并定位多模态媒体篡改任务,来应对多模态假新闻。本工作贡献了首个大规模的检测并定位多模态媒体篡改数据集,并提供了详细丰富的篡改检测与定位的标注。团队相信它可以很好地帮助未来多模态假新闻检测的研究。本工作提出了一个强大的多模态层次化篡改推理模型作为此新课题很好的起始方案。
本工作的代码和数据集链接都已分享在本项目的GitHub上,欢迎大家Star这个GitHubRepo,使用DGM4数据集和HAMMER来研究DGM4问题。DeepFake领域不只有图像单模态检测,还有更广阔的多模态篡改检测问题亟待大家解决!
参考资料:
https:arxiv。orgabs2304。02556
每天吃一个鸡蛋,是养生,还是损坏心血管?不妨看看研究结果鸡蛋是每个家庭必备的一种食材,它的营养价值是比较丰富的,比如说氨基酸,胆碱,磷脂,蛋白质等,可以为身体补充营养,还可以增强免疫功能。其实鸡蛋的价格大部分人都可以接受,经常……
盘点刚刚发布的荣耀Play6C的配置参数信息【1】荣耀Play6C搭载高通5G芯片(具体型号未知),性能方面基本上就别抱太大希望了,日常够用的水平,运行一些大型游戏就比较吃力了正面是一块6。52英寸的LCD直……
不抽烟不喝酒,买把键盘怎么了?iQunixF97黑武士机械键我媳妇有个习惯,但凡遇到特别喜欢的衣服或者鞋子,会把同款不同色统统买回来。而我好像也被她影响了,这不3月份刚买了一把铝厂的F97漫游指南,用着非常舒服,最近又忍不住剁手把F97……
小学生幸福是什么读书笔记400字编者按:读了《幸福是什么》这篇课文后,小作者明白了幸福可以来自多方面,生活中的小事也是幸福的来源。我一直以为幸福是有父母的宠爱,朋友们的关心,老师的表扬,说也说不尽,直到……
佛诞日遇上母亲节不可错过的殊胜日背上行囊、拿着相机,看遍这世间的所有美好,该是每个人的理想生活。那么妈妈呢?如果你和妈妈一起出游过,就会发现她和你一样喜欢旅行。明明还在路上,她却开始计划着下次去哪儿。2……
中学生逃课检讨书怎么写【篇一】最敬爱的老师:今天,我怀着愧疚和懊悔给您写下这份检讨书,以向您表示我对逃课这种不良行为的深刻认识以及再也不逃课的决心。早在我踏进校们,老师就已三申五令……
岳阳楼记读后感导语:读完《岳阳楼记》,范仲淹先天下之忧而忧,后天下之乐而乐的情怀固然让人敬佩,下面是小编为大家带来的岳阳楼记读后感,欢迎阅读。岳阳楼记读后感1岳阳楼与黄鹤楼、滕王阁号称……
孝敬父母的小学生感恩演讲稿范文尊敬的各位老师,亲爱的同学们,大家好:《新三字经》里有这样一句话:能温席,小黄香,爱父母,意深长。其中提到的小黄香就是一位孝敬长辈而流芳千古的好儿童。他九岁时,不幸丧母,……
学校校长辞职信辞职应该怎么写辞职信呢?下面是小编整理的学校校长辞职信,希望可以帮到你,上公文站,发现学习。学校校长辞职信一中心校领导:承蒙中心校领导厚爱,让我担任times;ti……
店铺员工劳动合同店铺,即商店,是坐商进行贸易活动的场所。唐朝封演《封氏闻见记》写道:至京邑城市,多开店铺。以下是品学网小编整理的店铺员工劳动合同,欢迎参考阅读。店铺员工劳动合同范文一……
成长路径读后感有幸得到一本书《成长路径》,在闲暇之时随便拿过来翻阅一下,本来认为也许是一些名家记录自己成名经历的书籍,这样的书太多了,没想到一读竟然舍不得放手。我从小就不喜爱读书,那不是我的……
2020年最新科研培训心得体会教师培训是教师教育的重要组成部分,是提高全体在职教师整体素质和促进教师专业化的有效途径,也是全面实施素质教育的关键。下面是品学网小编为大家整理的20xx年最新科研培训心得体会,……