游戏电视苹果数码历史美丽
投稿投诉
美丽时装
彩妆资讯
历史明星
乐活安卓
数码常识
驾车健康
苹果问答
网络发型
电视车载
室内电影
游戏科学
音乐整形

LK分享基于深度学习的单目深度估计综述

  前段时间有思考过结合3D信息来辅助多目标跟踪任务,不过效果没有达到我的预期。一方面是多目标跟踪相关数据集除了KITTI之外缺乏多任务标注信息,另一方面单目深度估计对于密集拥挤人群的效果很差。所以我觉得对于稀疏场景、车辆跟踪或者提供真实3D信息和相机信息的场景任务更有意义。下面的总结主要是我2019年初整理的文献,时效性可能还没跟上。很多图都是我从我之前整理的word里面复制出来的,所以有些模糊,想看的话可以自行搜索相关论文。1、任务介绍
  深度估计是计算机视觉领域的一个基础性问题,其可以应用在机器人导航、增强现实、三维重建、自动驾驶等领域。而目前大部分深度估计都是基于二维RGB图像到RBGD图像的转化估计,主要包括从图像明暗、不同视角、光度、纹理信息等获取场景深度形状的ShapefromX方法,还有结合SFM(Structurefrommotion)和SLAM(SimultaneousLocalizationAndMapping)等方式预测相机位姿的算法。其中虽然有很多设备可以直接获取深度,但是设备造价昂贵。也可以利用双目进行深度估计,但是由于双目图像需要利用立体匹配进行像素点对应和视差计算,所以计算复杂度也较高,尤其是对于低纹理场景的匹配效果不好。而单目深度估计则相对成本更低,更容易普及。
  那么对于单目深度估计,顾名思义,就是利用一张或者唯一视角下的RGB图像,估计图像中每个像素相对拍摄源的距离。对于人眼来说,由于存在大量的先验知识,所以可以从一只眼睛所获取的图像信息中提取出大量深度信息。那么单目深度估计不仅需要从二维图像中学会客观的深度信息,而且需要提取一些经验信息,后者则对于数据集中相机和场景会比较敏感。
  通过阅读文献,可以将基于深度学习的单目深度估计算法大致分为以下几类:
  监督算法
  顾名思义,直接以2维图像作为输入,以深度图为输出进行训练:
  上面给的例子是KITTI数据集中的一组例子,不过深度图可能看的不是很明显,我重新将深度图涂色之后:
  无监督算法
  由于深度数据的获取难度较高,所以目前有大量算法都是基于无监督模型的。即仅仅使用两个摄像机采集的双目图像数据进行联合训练。其中双目数据可彼此预测对方,从而获得相应的视差数据,再根据视差与深度的关系进行演化。亦或是将双目图像中各个像素点的对应问题看作是立体匹配问题进行训练。左视图右视图示例:
  视差,以我们人眼为例,两只眼睛看到的图像分别位于不同的坐标系。将手指从较远地方慢慢移动到眼前,会发现,手指在左眼的坐标系中越来越靠右,而在右眼坐标系中越来越靠左,这种差异性就是视差。与此同时,可以说明,视差与深度成反比。除此之外,由于摄像机参数也比较容易获取,所以也可以以相机位姿作为标签进行训练。
  Structurefrommotion基于视频的深度估计
  这一部分中既包含了单帧视频的单目深度估计,也包含了多帧间视频帧的像素的立体匹配,从而近似获取多视角图像,对相机位姿进行估计。
  2、数据集介绍2。1KITTI
  KITTI是一个多任务属性的数据集,其中原始数据采集平台装配有2个灰度摄像机,2个彩色摄像机,一个Velodyne64线3D激光雷达,4个光学镜头,以及1个GPS导航系统。
  其中包含有200G的原始数据,而有关户外场景的有175G数据。对于这些数据,所标注的任务包含:立体图像匹配、光流、场景流、深度估计(单目或者基于3D点云激光数据的深度估计)、视觉测距、目标检测(2D3D物体检测、俯视图物体检测)、目标跟踪、道路车道线检测、目标分割等。2。2vKITTI
  从名字可以看出这个数据集跟KITTI有关联,其对应KITTI的原始数据和各类任务,创建了全新的虚拟图像,当然,并不是所有原始数据都能对应得上。这里的虚拟指的是:左右摄像头15和30偏转画面、清晨、晴天、多云、雾天、下雨等基于原图的渲染图像。共计14G原始RGB图像,对应的目标检测、目标跟踪、目标分割标注都存在。这一数据集的意义在于可以缓解深度信息对于光线的敏感问题。
  2。3Cityscapes
  Cityscapes的数据取自德国的50多个城市的户外场景,其中数据包含有左右视角图像、视差深度图、相机校准、车辆测距、行人标定、目标分割等,同时也包含有类似于vKITTI的虚拟渲染场景图像。其中简单的左视角图像、相机标定、目标分割等数据需要利用学生账号注册获取,其他数据需要联系管理员获取。
  2。4NYUDepthV2
  NYUDepthV2数据集中包含有428G室内场景数据,同时包含有目标分割标注、深度标注。
  2。5ScanNet
  ScanNet中包含有约1500个视频序列的RGBD数据,主要用于三维重建。
  2。6Make3D
  Make3d数据集包含约1000张室外场景图片,50张室内场景,7000张合成物体。其中包含有激光2D图像,立体图像、深度数据等。
  3、数据处理3。1数据组成
  以KITTI数据集为例,它没有给出深度相关的标注信息。其数据组成包括多个场景下的原始图像数据(gray、color),实例分割、目标跟踪、2d3d目标检测等任务信息。为了方便我后续使用,我将数据结构解析如下,由于知乎不支持表格,所以我就直接截图了:
  这一部分内容中,对于一个点云数据P:〔X,Y,Z,1〕T,其中Z就是深度信息,将其转化为相机左视图的像素点坐标Q:〔u,v,1〕T:
  对于GPSimu中的点G:〔X,Y,Z〕T,将其转化为相机左视图的像素点坐标Q:
  其中最需要注意的是第一个公式,用于深度的信息的提取,以及Prectxx,其前三列数据为修正后的相机内参。3。2数据处理
  有关相机像素世界坐标系的知识我就不介绍了,对于相对位姿,如果将每个视频场景的第一帧的位姿视为初始位姿,那么每一帧的相对位姿计算如下:
  由于深度信息的转换需要用到相机内参,所以对于图像的缩放需要先处理,假如图像大小的放缩尺度为〔zoomx,zoomy〕,那么相机内参的变化如下:
  根据世界坐标系的转换:
  由于要求点云数据的反射强度为1,所以需要先将点云数据的反射强度置为1:
  最后我们只需要保留满足图像边界约束的点的深度信息,如果映射得到的点坐标相同,则只保留深度更小的。
  那么对于网络训练过程中的数据增强,则可以进行多种变换,下面列出几种基础的:随机水平翻转,所以需要改变相机内参的水平平移量cxwcx;随机尺度变换并剪切至固定大小:
  3。3评价指标
  KITTI数据集在考虑深度估计信息误差时,所以判定的时候只取0。40810811H0。99189189H,0。03594771W0。9640522229W部分图像区域,当然也经常会只取50m或者80m范围内的深度信息。为了让预测深度和真实深度的数量级范围一致,一般会用二者深度的中位数作为尺度,对预测深度信息进行尺度放缩。
  4相关工作4。1基于单目视觉的深度估计
  传统编解码结构
  深度估计任务是从二维图像到二维深度图像的预测,因此整个过程是一个自编码过程,包含编码和解码,通俗点就是下采样和上采样。这类结构主要有FCN框架和Unet框架,二者的下采样过程都是利用了卷积和池化,而上采样利用了逆卷积转置卷积(Deconvolution)和upsample。
  深度回归网络
  早期的单目深度估计网络框架基本上都是直接利用了上面所提到的两个基础框架进行了预测,为了让这类框架更好的应用于深度估计问题,一般都从以下几个方面着手:更好的backbone模型、多尺度、更深的网络。
  以3DV2016中《DeeperDepthPredictionwithFullyConvolutionalResidualNetworks》一文为例,其提出了FCRN网络框架:
  其网络框架主体是基于Resnet50,在上采样过程中采用了独特的方式,将逆卷积用uppooingconv的方式替代了,将Resnet中的project模块进行了一定的改进。
  其中上采样过程中将特征图利用0元素进行填充,然后利用一类特殊的卷积核进行特征提取,这一过程可以先卷积,然后错位相连得到,原理如下:
  其中可以发现卷积核并非是正方形,而是矩形,不过过程其实是一样的。而projection部分,即resnet中原图先经过11卷积再与特征图相连的部分,变为:
  具体细节我就不在多讲了,其效果如下:
  其代码链接为:https:github。comirocpFCRNDepthPrediction,基于Tensorflow和matconvnet。
  深度分类网络
  将深度估计问题变为回归问题的缺点在于,太依赖于数据集的场景,并且由于图像中深度往往是分层的,类似于等高线之类的,所以也有学者将深度估计变为一个分类问题,而类别数就是将最远实际距离划分为多份而制作的。
  以此为代表的是CVPR2018中《DeepOrdinalRegressionNetworkforMonocularDepthEstimation》所提出的DORN框架:
  该框架2018年在多个数据集上取得了第一的名次,不过现在有个别算法超越了。可以看到,原图在经过密集特征提取之后,增加了一个场景理解模块,这一模块包含5个部分。其中fullimageencoder部分与传统的自编码器不同:
  可以看到其先是利用池化进行下采样,将其拉伸为向量之后,利用全连接层进行编解码,然后还原为原图大小。而ASPP模块是利用了膨胀卷积(dilatedconvolution)进行特征提取,膨胀倍数分别为6,12,18。五个部分concat得到最终的特征图。再进入有序回归模块,实质上是多分类器。其将深度范围划分为多个区间:
  最后输出WH2K的结果,K代表深度区间,2K是因为每两个相邻的通道值2n表示深度小于n的概率,2n1表示深度大于n的概率,二者利用softmax归一化。
  其效果如下:
  可以看到,DORN对于深度的细节把握得非常好,其速度约为2fps,代码基于caffe平台,链接为:github。comhufu6371DOR
  无论是回归还是分类,都是以深度信息作为标签的监督算法,因此其受限于训练集场景,仅限于刷榜。4。2结合双目视觉的单目深度估计
  既然监督算法受限于场景,那么近两年则出现了很多无监督算法,其中就包含有利用双目数据进行训练的算法,下面我用几个例子进行说明。
  首先以CVPR2017中《UnsupervisedMonocularDepthEstimationwithLeftRightConsistency》一文所提出的Monodepth算法为例。这篇论文算是这类算法的一个开端吧,效果并没有非常优异,但是引出这样一条思路。其网络框架如下:
  该算法将深度估计问题变成了左右视图立体匹配问题,都是先从原始图预测另外一个视图的视差,然后结合输出另外一个视图。整体框架依赖DispNet,而DispNet又是在FlowNet基础上进行的改变,主要改变是在多尺度衔接出增加卷积层,以保证图像尽可能平滑。
  经过自编码器之后,分别利用逆卷积、预测的右视图相对左视图的视差upsample双线性插值、预测的左视图相对右视图的视差upsample双线性插值、原图。有了这些之后,损失函数部分则同时包含有:
  外观匹配损失,即预测的视图和实际视图的区别:
  其中SSIM指的是结构相似性。
  视差平滑性约束:
  左右视差一致性损失:
  由于其主要在KITTIoutdoor和Cityscapes上训练的,所以对于室外场景效果会略好,又因为其算法框架比较简单,所以深度信息中的细节比较模糊,尤其是存在遮挡或者物体相连的情况时。测试效果如下:
  通过其原理和论文中的测试效果来看,其对于室外场景下的深度估计效果还行,不过对于边缘部分的把握不是很好。再加上大多是街景数据,所以对于室内场景的视角具有很大的不适应性。另外,由于立体匹配对于大面积的纯色或者颜色相近的图像块效果很差,所以Monodepth不适用于纹理不清晰的场景,容易将大片颜色类似的图像块视为一个整体。
  代码是基于tensorflow进行开发的:
  https:github。commrharicotmonodepth,也有pytorch0。4。1的复现版本:https:github。commrharicotmonodepth。
  与此同时,在CVPR2018中,由商汤团队在《SingleViewStereoMatching》一文中提出了类似的SVS算法,其相对于Monodepth,在细节和场景适应性方面有了很大的提升。
  SVS网络框架如下:
  从图中不难看出,得到预测的右视图之后,两个视角的图像进行类似于DispNet的立体匹配,从而获得左视图的视差。而关键在于怎么从左视图预测右视图。可以发现,SVS在利用卷积层对左视图进行特征提取之后,分别将每一通道的特征图和原图进行元素乘法,然后再相加。这一部分实际上是借鉴了Deep3D的框架。Deep3D模型是用来将2D图像转化为3D图像对的,其框架为:
  假设每个通道分别代表着在左视图中每个像素点相对右视图中的视差偏移量的概率分布。综上,SVS实质上就是Deep3DDispnet的合体版,其效果图如下:
  同时可以看看基于KITTI数据集训练的SVS模型在其他数据集上的测试效果:
  代码是基于caffe开发的:https:github。comlawy623SVS4。3基于视频的相机位姿估计和视觉测距
  基于视频的单目深度估计大多都是面向相机位姿估计和视觉测距的,其核心就是利用相邻视频帧所产生的运动,近似多视角图像,并对相机位姿进行估计,从而可以估计出相机的移动路线,进一步完成SLAM工作。
  那么在CVPR2017的一篇《UnsupervisedLearningofDepthandEgoMotionfromVideo》中则是提出了SFM算法,这篇文章中对于深度估计的求解较为简单,所以效果不是很好,但是提出了基于视频帧序列的相机位姿估计算法。
  其论文中使用了相邻3帧的信息,不过代码却是用的相邻5帧的信息,整体框架比较简单:
  可以看到,单目深度估计部分仅仅是针对一帧的,直接采用了Dispnet的网络框架,不过我发现实际上是Unet,而相机位姿估计则是将相邻帧的相对相机位姿变化看作一个含有6个元素的向量(可以理解为x,y,z方向的平移量和旋转量)进行预测。有意思的是,SFM并没有使用深度信息作为标签,而是将深度信息作为一个过程变量,将前后帧图像联系起来,从而做到无监督学习,不过相机位姿的训练还是有监督的:
  利用预测的相机位姿和深度信息,可估计出目标视图相对原视图的像素点位置,由于预测的像素点位置可能不是整数,为了保证其为整数,将采用双线性插值,其中K是相机参数矩阵:
  可以看到这里的插值方式是对估计像素点位置处的相邻4个位置的像素进行加权平均,然后作为目标像素点位置处的像素值,新合成的视图和目标视图进行一致性约束。
  不过上述这种做法受限于静态场景,且无遮挡情况,为了缓解这种问题,作者又加入了一个可解释性网络:
  该网络的编码部分输出的是相机位姿,解码部分输出的是多个尺度的解释性眼膜,其意义是合成视图中的每个像素点能够被成功建模的概率。而这一部分是没有标签的,所以作者通过设计损失函数将其进行了约束:
  l指的是尺度,s指的是图片,其中的平滑性约束跟上一节所讲的Monodepth一样,由于解释性掩膜无标签,如果不加约束的话会自动为0,所以利用交叉熵损失函数对其进行了约束,默认为全1矩阵。其效果如下:
  可以看到,深度估计的效果并不是很好,不过整体的设计思路很新颖,也可以看看其对于解释性掩膜的预测效果:
  可以发现,对于发生变化的部分,即前景部分,其不可解释性很高,其实这个也能用来估计光流。
  代码是基于tensorflow的:https:github。comtinghuizSfMLearner
  不过有pytorch的复现版本:https:github。comClementPinardSfmLearnerPytorch
  果不其然,在CVPR2018中商汤又提出了GeoNet,该网络在SFM的基础上增加了光流监督信息:
  可以看到,前半部分的深度估计和相机位姿估计都跟SFM一样,只是在后面增加了光流的输出,先利用前半部分得到刚性结构的光流,后半部分增加一个非刚性光流预测环节,二者之和就是最终的光流。效果:
  可以看到,GeoNet的深度估计效果并没有特别突出,代码是基于Tensorflow的:https:github。comyzcjtrGeoNet
  同样的还有CVPR2018的《UnsupervisedLearningofMonocularDepthEstimationandVisualOdometrywithDeepFeatureReconstruction》一文中提到的DepthVOFeat:
  直接从这个网络架构可以看到包含了两个部分的图像重构,一个是左视图和右视图的重构,一个是前后两帧间的重构,重构的意义在于找到对应像素点的联系,并非直接利用左右视图进行误差计算,可以看到图中对于右视图的边缘填充。由于该框架假设场景是Lambertian的,即无论从哪个角度观察,其光照强度是一致的,那么这对于图像的重构就很敏感,因此,作者又添加了特征的重构,框架一致。
  对于训练细节,除了图像和特征的L1重构误差之外,也加入了边缘平滑性约束,骨干网络是Resnet50的变种。对于深度估计,其预测的是深度信息的倒数。效果如下:
  可以看到,深度估计的效果还是中规中矩,不过其可以用来做视频中相机的移动轨迹预测,这一点在多目标跟踪(MOT)中对于手持相机的场景有所帮助。代码是基于caffe的:https:github。comHuangyingZhanDepthVOFeat
  相应的,近几年关于无监督单目深度估计的研究越来越多,我抽空了看了下,比如有Google出品的vid2depth和struct2depth算法,二者的代码链接如下:
  vid2depth:
  https:github。comtensorflowmodelstreemasterresearchvid2depth
  struct2depth:
  https:github。comtensorflowmodelstreemasterresearchstruct2depth
  其他的也挺多的,后面章节我会再补充一点,不过肯定不全。4。4基于图像风格迁移的单目深度估计
  实质上,深度图像也是一种图像风格,如果我们要将生成学习引入深度估计的话,就需要注意两个地方,一个是原始图像到深度图像的风格转变,这一点可以获取类似于分割的map,另一点就是对像素点的深度进行回归。这里的方式与第一节讲的深度回归模型不一样,因为第一步的风格转变,已经对于场景和相机位姿有了很好的适应性。
  ECCV2018中《T2Net:SynthetictoRealisticTranslationforSolvingSingleImageDepthEstimationTasks》所提出的T2Net尝试性地将图像风格迁移引入单目深度估计领域,虽然效果只是2016年的水平,不过也算是一次很好的尝试了。下面介绍下T2Net的思路,首先给出其网络框架:
  框架很明显,对于室外场景,其训练集用到了KITTI和VKITTI中的sunset场景,对于室内场景,则使用了NYUDepthv2和SUNCG,没仔细看怎么下载,相关工具在https:github。comshuransSUNCGtoolbox。
  从图中可以看到,作者做了两个模块,一个是图像风格迁移模块,一个是单目深度估计模块。其中图像风格迁移模块中包含有合成图像到真实图像的迁移,真实图像到真实图像的迁移,二者共用一个GAN。其中的Loss包含有:由合成图像风格迁移生成的图像与原始图像的GANLoss,即利用判别器进行判定的误差;由真实图像风格迁移生成的图像预原始图像的重构误差,这一部分计算L1Loss;由合成图像风格迁移生成的图像与原始图像的编码特征的GANLoss。
  然后仅对合成图像分支进行深度估计,同样地,也加入了深度图的平滑性约束。从不匹配的图像对可以看出,其基础框架为CycleGAN。
  可以看到风格迁移的效果和深度估计的效果如下:
  从结果中我们发现有一个版本的实现效果超过了完整框架,通过查阅发现,是只利用真实数据进行深度估计的效果,也就是说效果比加入图像迁移的效果更好,打自己脸实际上他是在跟只用合成图像进行深度估计训练的效果作比较,确实好了些。
  代码链接:
  https:github。comlyndonzhengSynthetic2Realistic
  除此之外,在CVPR2018也有一篇类似的算法《RealTimeMonocularDepthEstimationusingSyntheticDatawithDomainAdaptationviaImageStyleTransfer》,其效果则是达到了stateofart,我们暂且称其为MDEDA,网络框架如下:
  熟悉CycleGAN框架的话,应该很容易看懂其中的关系,其中存在三种图像序列,一种是原始图像,一种是合成的图像,一种是深度图像,不同的是三种图像内容是一致的,而非CycleGAN那样不匹配的。其中原始图像和合成图像之间进行图像风格的循环迁移和重构,合成图像与深度图像进行单向的风格迁移。
  效果如下:
  左侧的是直接对原图进行深度估计的效果,中间是其他图像迁移算法的效果,右侧是采用本文算法后的合成以及深度估计效果,速度大概为44fps。合成图像对于深度估计的效果提升也反映了一个问题,即图像光暗条件对于深度估计有很大影响,所以对于一些出现了阴影,如影子等的场景,深度估计会出现偏差,如:
  代码只提供了测试模型:
  https:github。comatapourmonocularDepthInference4。5多任务深度估计
  在ICRA2019中《RealTimeJointSemanticSegmentationandDepthEstimationUsingAsymmetricAnnotations》中基于图像分割算法RefineNet设计了一个多任务框架。其中RefineNets是CVPR2017中提出的算法,其全局框架是基于Resnet的Unet网络框架,可以输出多尺度的分割图:
  可以看到的是,RefineNet在每一个尺度的上采样部分都增加了一个局部提升的网络,用于多尺度输出的融合:
  所以其主要创新在于采用skipconnection和ResnetBlock的方式不断融合各种分辨率的特征,用于增加更多的细粒度特征,从而方便生成更高分辨率的预测:
  那么在BMVC2018中则是提出了一种LightweightedRefineNet算法,顾名思义,就是RefineNet的轻量级网络,其对于512512大小的图像,速度从RefineNet的20FPS提升到了55FPS(1080Ti),效果略微下降。代码基于Pytorch:https:github。comDrSleeplightweightrefinenet
  那么回到正题,我们提到的这个同时进行深度估计和目标分割的网络框架,对于1200350大小的输入,其速度为60FPS。网络框架如下:
  以上的结构通过之前我介绍的深度估计框架以及LightWeightedRefineNet框架很容易能看懂,之所以比原本的LightWeightedRefineNet还要快,是因为将其中的部分11卷积替换成了MobileNetV2中采用的depthwise卷积方式。
  对于分割和深度估计任务的结合,从网络框架和损失函数的设计来看可以发现,其除了特征是共享的之外,预测任务是独立的。效果如下:
  代码仅提供了测试用例:https:github。comdrsleepmultitaskrefinenet
  ECCV2018中《DFNet:UnsupervisedJointLearningofDepthandFlowusingCrossTaskConsistency》一文提出了单目深度估计和光流预测的联合任务框架。不同于单独训练两个任务的方式,作者将二者的一致性进行了考虑,从而做到二者的相互促进,可以看到对比效果:
  其主要思路是利用无监督的方式从视频中预测深度信息和相机位姿变化,这一部分对于刚性流场景比较适用,即静态背景。通过几何一致性的约束监督,可以将3D的场景流映射到2D光流上,由此与光流预测模型的结果进行一致性约束。具体框架如下:
  乍一看可以发现网络框架的前半部分很眼熟,图中展示的是分别对前后帧做单目深度估计,然后利用前后帧做相机位姿变化预测和光流预测,结合SFM网络中像素点转移的计算公式,可以利用深度信息和相机位姿变化关系求得在t1时刻对应像素点位置,由此可以计算刚性流场景下的光流。
  对于刚性流场景下的合成光流信息和直接预测到的光流信息,二者都反映了相邻两帧的像素点的对应关系,因此作者对此引入了光照约束(利用对比映射和插值,计算每个像素点的像素值差异)和深度的平滑性约束。
  再来看ForwardBackward模块,由于我们在上面提到了光照一致性约束,但实际上对于重叠区域并不适用,因此加入了前后向一致性的约束。即图中的ValidMask部分,利用刚性流信息可以检测出一些无效的像素区域,如运动物体、画面边缘等,因为这些都不符合刚性这一条件,那么再在有效区域使用光照一致性假设:
  感觉这个跟SFM中的ExplainMask一样,然后前后的一致性约束,则是分光流和深度估计两部分,其中深度的一致性跟光照一致性的计算方式一样,而光流的一致性则是真的计算了前向和反向的光流一致性。最后对于深度和光流的共同有效区域,保证二者预测的光流尽可能一致。为了保证更好的训练效果,作者先在SYNTHIA数据集上预训练光流预测,采用的是UnFlownetC网络,在KITTI和Cityscapes上预训练深度估计和相机位姿预测,采用的是SFM框架,然后进行联合训练。代码基于Tensorflow:https:github。comvtvllabDFNet
  我前段时间还发现一个多任务的集成框架CVPR2019的CCN算法《JointUnsupervisedLearningofDepth,CameraMotion,OpticalFlowandMotionSegmentation》,效果目前好像还是SOTA,其融合了单目深度估计、相机位姿估计、光流估计和运动分割多个任务,代码:https:github。comanuragranjcc
  本小节的内容都是基于无监督的单目深度估计算法。5、总结
  对于单目深度估计模型,目前主要分为基于回归分类的监督模型,基于双目训练视频序列的无监督模型,以及基于生成学习的图像风格迁移模型。大概从2017年起,即CVPR2018开始,单目深度估计的效果就已经达到了双目深度估计的效果,主要是监督模型。但是由于现有的数据集主要为KITTI、Cityscapes、NYUDepthV2等,其场景和相机都是固定的,从而导致监督学习下的模型无法适用于其他场景,尤其是多目标跟踪这类细节丰富的场景,可以从论文中看到,基本上每个数据集都会有一个单独的预训练模型。
  对于GAN,其对于图像风格的迁移本身是一个很好的泛化点,既可以用于将场景变为晴天、雾天等情况,也可以用于图像分割场景。但是深度估计问题中,像素点存在相对大小,因此必定涉及到回归,因此其必定是监督学习模型,所以泛化性能也不好,以CVPR2018的那篇GAN模型为例可以对比:
  左边是KITTI的测试效果,右边是MOT的测试效果,从上到下依次是原图、合成图,以及深度图。可以看到,其泛化性能特别差。而对于无监督模型,从理论上来讲,其泛化性能更好。那么对于无监督模型,我们分两部分进行讨论,第一部分是利用双目视差进行训练的无监督模型,这里的无监督模型中包含有左右视图预测的监督信息,所以存在一定程度的局限性。以Monodepth为例:
  对于无监督的算法,可能场景适应性会更好,但依旧不适用于对行人深度的估计。6、参考文献
  〔1〕LongJ,ShelhamerE,DarrellT。Fullyconvolutionalnetworksforsemanticsegmentation〔C〕ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition。2015:34313440。〔2〕RonnebergerO,FischerP,BroxT。Unet:Convolutionalnetworksforbiomedicalimagesegmentation〔C〕InternationalConferenceonMedicalimagecomputingandcomputerassistedintervention。Springer,Cham,2015:234241。〔3〕LainaI,RupprechtC,BelagiannisV,etal。Deeperdepthpredictionwithfullyconvolutionalresidualnetworks〔C〕2016Fourthinternationalconferenceon3Dvision(3DV)。IEEE,2016:239248。〔4〕FuH,GongM,WangC,etal。Deepordinalregressionnetworkformonoculardepthestimation〔C〕ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition。2018:20022011。〔5〕GodardC,MacAodhaO,BrostowGJ。Unsupervisedmonoculardepthestimationwithleftrightconsistency〔C〕ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition。2017:270279。〔6〕DosovitskiyA,FischerP,IlgE,etal。Flownet:Learningopticalflowwithconvolutionalnetworks〔C〕ProceedingsoftheIEEEinternationalconferenceoncomputervision。2015:27582766。〔7〕IlgE,MayerN,SaikiaT,etal。Flownet2。0:Evolutionofopticalflowestimationwithdeepnetworks〔C〕ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition。2017:24622470。〔8〕MayerN,IlgE,HausserP,etal。Alargedatasettotrainconvolutionalnetworksfordisparity,opticalflow,andsceneflowestimation〔C〕ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition。2016:40404048。〔9〕XieJ,GirshickR,FarhadiA。Deep3d:Fullyautomatic2dto3dvideoconversionwithdeepconvolutionalneuralnetworks〔C〕EuropeanConferenceonComputerVision。Springer,Cham,2016:842857。〔10〕LuoY,RenJ,LinM,etal。SingleViewStereoMatching〔C〕ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition。2018。〔11〕ZhouT,BrownM,SnavelyN,etal。Unsupervisedlearningofdepthandegomotionfromvideo〔C〕ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition。2017:18511858。〔12〕YinZ,ShiJ。Geonet:Unsupervisedlearningofdensedepth,opticalflowandcamerapose〔C〕ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition。2018:19831992。〔13〕ZhanH,GargR,SarojWeerasekeraC,etal。Unsupervisedlearningofmonoculardepthestimationandvisualodometrywithdeepfeaturereconstruction〔C〕ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition。2018:340349。〔14〕GoodfellowI,PougetAbadieJ,MirzaM,etal。Generativeadversarialnets〔C〕Advancesinneuralinformationprocessingsystems。2014:26722680。〔15〕RadfordA,MetzL,ChintalaS。UnsupervisedRepresentationLearningwithDeepConvolutionalGenerativeAdversarialNetworks〔J〕。ComputerScience,2015。〔16〕ArjovskyM,ChintalaS,BottouL。Wassersteingan〔J〕。arXivpreprintarXiv:1701。07875,2017。〔17〕GulrajaniI,AhmedF,ArjovskyM,etal。Improvedtrainingofwassersteingans〔C〕AdvancesinNeuralInformationProcessingSystems。2017:57675777。〔18〕MaoX,LiQ,XieH,etal。Leastsquaresgenerativeadversarialnetworks〔C〕ProceedingsoftheIEEEInternationalConferenceonComputerVision。2017:27942802。〔19〕MirzaM,OsinderoS。Conditionalgenerativeadversarialnets〔J〕。arXivpreprintarXiv:1411。1784,2014。〔20〕IsolaP,ZhuJY,ZhouT,etal。Imagetoimagetranslationwithconditionaladversarialnetworks〔C〕ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition。2017:11251134。〔21〕WangTC,LiuMY,ZhuJY,etal。Highresolutionimagesynthesisandsemanticmanipulationwithconditionalgans〔C〕ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition。2018:87988807。〔22〕ZhuJY,ParkT,IsolaP,etal。Unpairedimagetoimagetranslationusingcycleconsistentadversarialnetworks〔C〕ProceedingsoftheIEEEinternationalconferenceoncomputervision。2017:22232232。〔23〕WangTC,LiuMY,ZhuJY,etal。VideotoVideoSynthesis〔J〕。arXivpreprintarXiv:1808。06601,2018。〔24〕ZhengC,ChamTJ,CaiJ。T2net:Synthetictorealistictranslationforsolvingsingleimagedepthestimationtasks〔C〕ProceedingsoftheEuropeanConferenceonComputerVision(ECCV)。2018:767783。〔25〕AtapourAbarghoueiA,BreckonTP。Realtimemonoculardepthestimationusingsyntheticdatawithdomainadaptationviaimagestyletransfer〔C〕ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition。2018:28002810。〔26〕NekrasovV,DharmasiriT,SpekA,etal。RealTimeJointSemanticSegmentationandDepthEstimationUsingAsymmetricAnnotations〔J〕。arXivpreprintarXiv:1809。04766,2018。〔27〕NekrasovV,ShenC,ReidI。LightWeightRefineNetforRealTimeSemanticSegmentation〔J〕。arXivpreprintarXiv:1810。03272,2018。〔28〕LinG,MilanA,ShenC,etal。RefineNet:MultiPathRefinementNetworksforHighResolutionSemanticSegmentation〔C〕ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition。,2017:19251934〔29〕ZouY,LuoZ,HuangJB。DFNet:UnsupervisedJointLearningofDepthandFlowusingCrossTaskConsistency〔C〕ProceedingsoftheEuropeanConferenceonComputerVision(ECCV)。2018:3653。〔30〕RanjanA,JampaniV,BallesL,etal。Competitivecollaboration:Jointunsupervisedlearningofdepth,cameramotion,opticalflowandmotionsegmentation〔C〕ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition。2019:1224012249。
  作者:黄飘知乎,编辑:3D视觉工坊,来源:https:zhuanlan。zhihu。comp111759578

人到中年,应该拿什么来宠爱自己仿佛只是一转身之间,生命的道路已行至中年。上有老下有小的中年,奔波于工作和家庭之间疲惫不堪的中年,一边是身体机能开始走滑坡路一边还要继续和年轻人抢饭碗的中年我们每个……一加9RT极限游戏测试领跑原神大榜单,是否名副其实?关注手机圈新闻动态的朋友,应该听说了一加9RT最近跑原神的事。据知名数码评测机构WHYLAB的测试,在首测的超30款当前主流手机玩《原神》游戏的具体表现中,一加9RT以帧……什么才是合法且无瑕疵的网约车网约车的全称是网络预约出租汽车。随着网约车的不断发展壮大,由单一的称赞变成了今天爱恨夹杂的新局面。当时滴滴网约车刚出现时,那是全国上下一面欢呼。以往困扰出租汽车乘租服务态……高颜值能拯救一款车一个品牌吗?大家给爱驰U6把把脉随着新能源车的兴起,汽车市场上涌现出很多以新能源车型为主的造车新势力,比如特斯拉、蔚来、理想等,不过相比于这几个有名的大厂,爱驰汽车就显得存在感低了些。作为一个新能源品牌,截止……女网红私生活多乱?跟多位大哥有染,还瞒着男友和别人订婚说起网红,很多网友都会产生一种不太好的直观的印象:有些网红为了赚钱不择手段,素质低下没有下限。实际上,网友们的这种直观感觉在很大程度上是准确的,现在不少的网红都是素质不高,而且……马云说现在是创业最好的时代,但法拍房的主要来源也是创业者今天看到两则很有意思的消息,拼到一起看,更有意思了。一则消息来自马爸爸,表示现在是创业最好的时代。作为这个时代最成功的创业者,马云非常的有发言权,因为如果不创业,马老师可……特色国情之下,韭菜欠中国银行的钱要不要还?闹剧可能刚刚开始原油宝的事一出,万年被骂的P2P也不那么渣了。毕竟P2P只割韭菜,而原油期货是刨韭菜根。现在的理财途径,不是比谁赚的多,还是比谁亏的少。至于韭菜,不患被割而患被割的……高性价比的ampampquot奶爸车ampampquot,油随着二胎家庭的普及,奶爸车的概念也开始深入人心。论多人乘坐空间,自然还是MPV更加有优势。如果您很多时候多人出行,而且还希望用车成本低,那么宋MAXDM,这台比亚迪的奶爸车肯定……双11两百元价位,闭着眼睛选漫步者LolliPodsMini双11将至,不论是学生党、白领人士,还是有打算换新蓝牙耳机的朋友,在加购蓝牙耳机时,总会被市场上琳琅满目的产品深受选择焦虑症的困扰。选择一款佩戴舒适、蓝牙连接稳定、音质表现优异……华为nova65G对比vivoX30Pro跑分,实现全方面碾随着年底一众手机厂商新机的发布,网络上又掀起了一阵5G手机对比热潮,而与vivoX30系列对比最多的则是华为前不久刚刚推出的华为nova65G,其与vivoX30Pro价格相当……选口红色号总是出错的男生们,白色情人节就不要再送口红了!对广大男性同胞来说,为妹子选口红可谓是一个千古难题!难以计数的品牌加上更加难以计数的色号这?确定不是专门来整我们的?因此网络上流传了很多关于直男选口红的悲惨段子,妹子们看后更是……国产手机定价越来越高,到底是膨胀了还是物有所值?首先我抛出自己的观点:国产手机从参数配置上来看,值目前的价格,但从品牌定位来看,不太值,从使用体验上来说,不值!我们往下看近两年,很多消费者在购买手机时……
解放双手,比小AI更好玩的天猫精灵曲奇评测阿里旗下天猫精灵目前可以说非常炽手可热,人人都想领养它,为啥呢?在同类智能音响产品中,目前看来其智商并不比某些大厂的语音助手差,甚至超越三分,本期评测,GK星辰带你体验阿里新智……在手机上就能体验哈曼卡顿音响?它做到了第一眼看到小米11ultra我就被它吸引了,没办法我是个看颜值的人。不得不说,整个背板的造型别具一格,小编猎奇的心理瞬间爆棚;11Ultra,官方称它为影响新物种,……比亚迪将有450台比亚迪唐EV车型在广州港集结,启程前往挪威日前,我们从比亚迪官方了解到,将有450台比亚迪唐(参数询价)EV车型在广州港集结,启程前往挪威。至此,比亚迪已累计向挪威发运超1000台唐EV。今年5月,比亚迪对外宣布……自己搭建小程序商城流程,小程序搭建需要哪些步骤小程序在实际操作中十分便携,无需任何安装卸载,也不需要占用手机内存,因此受到不少的用户的喜爱。电商小程序可以由此进行宣传和策划,在根据不同的服务平台就可以容易的进行营销推广了,……恭喜!再延长!税务局正式发文通知再延长!税务局正式发文通知!继续免征房产税和城镇土地使用税!这2项税收优惠期限延长至2021年6月30号关于延续实施应对疫情影响房产税、城镇土地使用税优惠政策的公告……比亚迪宋Pro限时优惠速来抢购。本周宋Pro最新报价:比亚迪益丰祥泰店10。28日限时促销,降价10。78,如此优惠的降幅,大家可千万不要错过,店铺地址:内蒙古自治区呼伦贝尔市鄂温克族自治旗巴彦托海镇南工业园……有下村阳子的音乐这就足够了,王国之心记忆旋律评测提到《王国之心》系列,或许有的玩家喜欢的是其《最终幻想》式的剧情与世界观设计,而有的玩家则喜欢的是其融合了迪士尼中的各个形象与人物,但毋庸置疑的是,没有哪位《王国之心》的玩家不……关于DIY台式组装1电脑升级是越来越快了,但现在的发烧友最喜欢的就是买各种配件自己来装,小编就来说说DIY台式机的一些事儿吧。DIY家庭经济版首先是显示器然后是机箱。改一下……尽快建立艺人艺德和公众行为规范制度,不然娱乐圈真会是个圈娱乐圈从来都不会缺新闻,这几年娱乐圈的饭圈文化越来越严重,甚至到了影响舆论和司法公正的地步,今年的郑爽事件,当时郑爽的粉丝就喧嚣与各个娱乐版块的头条之上,随着郑爽国外代孕,一瓶……华为的下半场手机将降至第七,智能家居将成新增长点文杨剑勇作为一家非上市公司,长期以来坚持披露经营数据,可以说华为是全球透明度最高的非上市企业。依托通信起家,是全球运营商5G重要伙伴,且近年来手机板块强劲,成为全球第二手……GPS霸权落下帷幕?中国北斗卫星立大功!北斗如何一步步走向世复移小凳扶窗立,教识中天北斗星。古时,人们赋予了北斗七星司南功能,到了如今,中国人有了自己的卫星导航系统北斗,终于不用再受限于美国的GPS,同时还接连立下大功,这是否意味……购买按摩椅四重一要?奥佳华OG7808Core知芯大师按摩椅序:对于家里购买大件这个事上面,平时我是没有发言权的,毕竟女王才是一家之主,我的职责就是付钱,你看,在我们家能用钱解决的事都不是大事。不过最近我购买了一件大件,当家做主了……
友情链接:易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网