游戏电视苹果数码历史美丽
投稿投诉
美丽时装
彩妆资讯
历史明星
乐活安卓
数码常识
驾车健康
苹果问答
网络发型
电视车载
室内电影
游戏科学
音乐整形

Facebook开源3D识别训练工具3DETRDepthCo

  查看引用信息源请点击:映维网
  3DETR和DepthContrast
  (映维网2021年10月28日)使用大型标记数据集进行预训练已成为开发高性能计算机视觉模型的核心工具。不过,尽管这种方法适用于多种类型的媒介,但它尚未广泛用于3D识别任务,例如在客厅的3D扫描中识别和定位沙发。
  这是由于缺少带注释的数据,以及标记3D数据集非常耗时。另外,用于3D理解的模型通常依赖于与特定3D数据集紧密耦合的人工架构设计。
  针对这个问题,Facebook人工智能团队将在国际计算机视觉2021大会介绍3DETR和DepthContrast。这是两种互补的新模型,能够促进对3D的理解,并大大简化了入门开始。通过建立一个简化3D理解的通用3D架构,并通过一种不需要标签的自我监督学习方法,研究人员希望能够解决上述的常见挑战。
  同时,Facebook人工智能团队宣布将向开源社区提供这项研究和相关代码。
  1。为机器理解世界解锁一种强大的新方式
  出于一系列的原因,打造能够理解世界3D数据的机器非常重要。自动驾驶汽车需要3D理解以实现移动和避免撞到障碍物,而ARVR应用则可以帮助人们完成各种任务,例如可视化沙发是否适合客厅。
  来自2D图像和视频的数据表示为规则的像素网格,而3D数据则反映为点坐标。由于更难获取和标记,3D数据集通常比图像和视频数据集小得多。这意味着它们通常在总体规模和包含的类或概念数量方面受到限制。
  以前,专注于3D理解的从业者需要关键的领域知识来调整标准计算机视觉架构。单视图3D数据比多视图3D更容易收集,因为前者来自一台同时记录深度信息的摄影头,而后者则需要利用两台或多台摄影头记录同一场景。多视图3D数据通常由单视图3D后处理生成,但这个处理步骤存在故障率(有研究人员估计达到78),原因包括源图像模糊或摄像头过度运动。
  DepthContrast旨在解决所述的数据挑战,因为它能够从任何3D数据(包括单视图和多视图)训练自我监督模型,所以消除了使用小型、未标记数据集的挑战(即使是对大量2D图像或视频进行预训练,都不太可能对ARVR等复杂应用产生准确的3D理解)。
  团队的第二个研究3DETR是3DDetectionTransformer的缩写。这个模型是一种基于Transformer的简单3D检测和分类架构,可作为检测和分类任务的通用3D主干。这个模型简化了用于训练3D检测模型的损失函数,这使得它更容易实现。
  研究人员指出,性能相当于或超过了依赖于手动调整的3D架构和损耗函数的现有最先进方法。Facebook表示:从帮助机器人导航世界,到为使用智能手机和未来设备(如AR眼镜)的人们带来丰富的新VRAR体验,所述模型都具有巨大的潜力。
  随着3D传感器逐渐在手机等移动设备实现普及,研究人员甚至可以从自己的设备获取单视图3D数据来训练模型。DepthContrast技术是以自我监督方式使用所述数据的第一步。通过处理单视图和多视图数据类型,DepthContrast大大增加了3D自监督学习的潜在用例。
  2。3DETR:在检测和分类中建模3D数据的Transformers
  3DETR将3D场景(表示为点云或一组XYZ点坐标)作为输入,并为场景中的对象生成一组3Dboundingbox。这项新的研究是基于Facebook用于检测3D点云中的对象的VoteNet模型,以及基于Facebook人工智能团队在应对对象检测挑战所提出的架构DetectionTransformers(DETR)。
  为了实现从2D检测到3D检测的跳跃,Facebook确定了两个重要的变化,以便将Transformers用于3D理解。所以,团队需要非参数查询嵌入和傅立叶编码。
  这两种设计决策都十分有必要,因为点云在大量空白空间和噪点之间具有不同的密度。3DETR主要是通过所述两种技术来处理这个问题。与DETR和其他Transformer模型DETR中使用的标准嵌入相比,傅里叶编码是表示XYZ坐标的更好方法。
  其次,DETR使用一组固定的参数(称为查询)来预测对象的位置。团队发现这一设计决策不适用于点云。取而代之的是,他们从场景中采样随机点,并预测相对于所述点的对象。实际上,研究人员没有一组固定的参数来预测位置,随机点采样能够适应3D点云的不同密度。
  使用点云输入,Transformer编码器生成场景中对象形状和位置的坐标表示。它通过一系列的selfattention操作来捕获识别所需的全局和局部情景。例如,它可以检测3D场景的几何特性,例如放置在圆桌周围的椅子的椅脚和靠背。正如下面的图例所示,编码器能够自动捕获重要的几何特性。
  团队在3DETR中可视化Transformer编码器生成的selfattentionmap,并观察到编码器会自动捕获椅子的腿和靠背等概念。
  Transformer解码器将点特征作为输入,并且输出一组3Dboundingbox。它对点特征和查询嵌入应用一系列crossattention操作。解码器的selfattention表示它关注于对象,以便预测它们周围的boundingbox。
  3DETR的解码器attentionmap显示,它可以隔离属于对象的点。解码器在从输入的三维点云预测对象的三维边界框时可能依赖于所述信息。
  Transformer编码器同时非常通用,可以用于其他3D任务,例如形状分类。
  总的来说,3DETR的实现比以前的研究要简单得多。在3D基准测试中,3DETR的性能与之前的人工3D架构相比具有竞争力。它的设计决策同时与之前的3D研究兼容,使得研究人员能够灵活地将3DETR中的组件调整到自己的管道中。
  3。DepthContrast:使用任意3D点云进行自我监督预训练
  自我监督学习一直是业界关注的一个主要领域。DepthContrast是Facebook人工智能团队的最新尝试。它旨在不适用标记数据的情况下学习强大的3D表示。这项研究同时与Facebook以前在这方面的PointContrast相关(这同时是一种用于3D的自我监督技术)。
  现在获得3D数据的机会很多。传感器和多视点立体算法通常为视频或图像提供补充信息。但在之前,理解这种数据一直是一个挑战,因为3D数据具有不同的物理特征,具体取决于获取数据的方式和地点。例如,与户外传感器的数据相比,商用手机传感器的深度数据看起来非常不同。
  人工智能研究中使用的大多数3D数据是以单视图深度映射的形式获取,其通过称为3D配准的步骤进行后处理,从而获得多视图3D数据。以前的研究依赖于多视图3D数据来学习自我监督的特征,而损失的设计则考虑了3D点对应。
  如上所述,尽管将单视图数据转换为多视图数据的故障率很高,但DepthContrast显示,仅使用单视图3D数据就足以学习最先进的3D功能。
  利用3D数据增强,研究人员可以从单个视图深度映射生成稍微不同的3D深度映射。DepthContrast通过使用对比学习来对齐从增强深度映射获得的特征来实现这一点。
  实验表明,这种学习信号可以用来预训练不同类型的3D结构,如PointNet和SparseConvNets。
  更重要的是,无论是室内还是室外采集,无论是单视图还是多视图,DepthContrast可以应用于任何类型的3D数据。研究表明,使用DepthContrast预训练的模型在ScanNet3D检测基准上达到了绝对的先进水平。
  DepthContrast的功能提供了各种3D基准测试的增益,如形状分类、对象检测和分割。
  这个模型同时表明,自监督学习在3D理解方面同样非常具有前景。事实上,DepthContrast分享了学习增强不变特征的基本原理,而后者已用于支持Facebook的SEER等自我监督模型
  4。寻找利用3D理解的新方法
  自监督学习依然是一种跨文本、图像和视频学习表示的强大工具。现在,大多数智能手机都配备了深度传感器,而这为提高3D理解和创造更多人可以享受的新体验提供了重要机会。
  Facebook人工智能团队表示:我们希望3DETR和DepthContrast能够帮助当前和新的从业者开发更好的3D识别工具,并打破先前要求的高进入壁垒。我们非常期待开源社区将如何应用这些新技术。
  相关论文:AnEndtoEndTransformerModelfor3DObjectDetection
  相关代码:3DETR
  相关论文:SelfSupervisedPretrainingof3DFeaturesonanyPointCloud
  相关代码:DepthContrast
  原文链接:https:news。nweon。com90938

主题班会活动方案法与我们息息相关日期2004年12月班会主题法与我们息息相关主持人林春辉活动目标通过这次班会活动,使学生了解各种法律法规,知道运用法……深圳迅雷大厦今日封顶6。5万平米,将成公司总部IT之家6月18日消息据迅雷官方微信公众号消息,6月18日上午,迅雷集团总部办公基地迅雷大厦项目主体结构在深圳南山科技园片区正式封顶。主体封顶之后,内外装饰、机电设备、智能化等……B站开屏2233娘形象升级中,8月回归感谢IT之家网友哟呦鹿鸣的线索投递!IT之家6月6日消息昨天,有用户发现哔哩哔哩最新版App的开屏画面从2233娘变为了小电视,对此B站官方在知乎上进行了解释,称2233……Spotify的下一战事把3亿音乐用户变成播客听众据报道,瑞典流媒体音乐服务提供商Spotify想要占领播客(Podcast)市场,这一野心在过去两年的一系列高调收购和交易中,已经表现得很明显了,包括Ringe、Gimlet、……国家卫健委超七成学生睡眠时间不达标IT之家4月29日消息今天,国家卫生健康委员会举办新闻发布会,介绍了2018年儿童青少年近视调查结果。新闻发布会上指出,据监测发现,中国学生近视相关危害因素广泛存在。比如……睡眠不足影响健康让人变笨健忘,近乎慢性自杀IT之家小编注:原标题为睡眠不足有多可怕:让你变笨健忘,是一种慢性自杀。北京时间4月24日消息,据国外媒体报道,日前,神经学家马修沃克(MatthewWalker)在20……小学电脑美术教案神奇的画笔一、教学目的:1、感受电脑绘画的独特魅力,特别是由于运用了数字化技术而产生的独特而神奇的绘画处理方法。2、指导学生运用画图程序上的绘画处理工具进行绘画。3、引……小学科学肥沃的土壤教案知识与技能:1、知道什么是腐殖质,知道腐殖质的多少影响土壤的肥力2、知道一些小动物和微生物在成肥过程中的作用3、会做腐殖质形成的实验过程与方法:遵……人类该如何在地球之外寻找生命迹象北京时间12月9日消息,据国外媒体报道,科学家投入了很长的时间和足够多的精力来寻找外星生命的证据,但即使它们真的存在,可能也不太容易识别。研究人员越来越意识到,发现外星生命的过……怎样记比较复杂的事初中同学写记叙文,主要的是掌握记叙简单的事情,但是,个别情况下也涉及到记叙比较复杂的事情。所谓比较复杂的事件,一般是指事件本身情节比较曲折,头绪比较繁多,时间的变化和地点的变换……七年级思想品德上学期教学反思关于ppt课件的反思打造高效课堂配有一些教学辅助手段更易形成,使用ppt幻灯片十几张就能大大丰富课堂信息,并且可在灯片上插入文字、图片、声音、视频等不但提高信息量而且吸引……汉魏晋五言诗三首优秀教学设计〔教学目的〕1、领会五言诗的特点。2、学习诗中所表现的为国捐躯、视死如归的高尚精神。〔教学重点〕1、《迢迢牵牛星》用平凡意象表达的销魂之情。2、《……
烛之武退秦师教学反思范文本课教学力图体现重在自主,重在发现,重在探究的教学理念。首先,学生的鉴赏活动贯穿教学的始终,无论是对文本意义的读解,还是对意境的感悟,都不是(或很少是)由教师传递、告知的……狐狸和乌鸦教学反思狐狸和乌鸦讲的是一则寓言故事,下面是由小编为大家带来的关于狐狸和乌鸦教学反思,希望能够帮到您!狐狸和乌鸦教学反思一这篇课文是则寓言,采用的是拟人化的写法,学生喜欢读,也有……肩肘倒立说课稿一、本课教材1、技巧:肩肘倒立(第一次课)水平三;2、游戏:角力二、教学创意本课教学设计首先考虑体现《新课标》的基本理念,坚持以人为本,健康第一教育思想为指导……八年级下册生物的遗传和变异教学反思《第二章生物的遗传和变异》内容较难,大多数学生掌握不好。它理论性较强,难度大,以前的老师也觉察到了。所以我在本章的教学过程中重视讲解法的作用,对于一些学生难于探究的问题,我多借……狂欢节教案一、活动名称:《狂欢节》二、活动目标:1、鼓励幼儿积极参与活动,体验与家长和小朋友共同活动带来的乐趣。2、培养幼儿的集体意识和合作能力。3、鼓励幼……课文灰雀优秀教学设计学习目标认识桦、胸等5个生字。会写郊、散等12个生字。能正确读写郊外、散步、胸脯等14个词语。正确、流利、有感情地朗读课文,联系上下文,读懂文中的语句。了解列……九年级太阳优质课教案一、导入这节课我们继续学习第26课《太阳》(板书课题)谁能说说作者是从几方面向我们介绍太阳的有关知识?板书:特点与人类的关系二、学习第一段(一)读……文庙的造句文庙拼音【注音】:wenmiao文庙解释【意思】:旧时祭祀孔子的庙。文庙造句:1、文庙建筑气势恢弘,院内苍柏林立,花草相依,环境幽雅。2、文……坚持主题班会教案班会是我们围绕着一个主题进行积极的讨论,下面是小编整理的坚持主题班会教案,欢迎阅读。学情分析进入初三以来,许多同学意识到学习的重要性,两个月来的学习劲头比起初二时有……布达拉宫教学设计第一课时教学目标:1正确认读8个要求会认的生字。掌握9个要求会写的生字。朗读课文,初步感受布达拉宫雄伟壮丽的建筑和浩瀚繁复的收藏。感受本文色彩华丽,词汇……音乐教案小落叶的节奏活动目标:1。运用多种形式,培养幼儿的节奏感,让幼儿熟练掌握四分音符,八分音符及休止符的混合节奏型。2。培养幼儿反应敏捷及注意力集中。重难点:多声部的合奏……初中期中考试教师反思范文初中期中考试陆续结束了,学生、老师都可以暂时放松一段时间了,但现在学生和老师们需要做的是根据期中考试成绩,来做初中期中考试总结,查漏补缺。本文为大家提供一份初中期中考试总结,仅……
友情链接:易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网