![thesis基于条件对抗网络立体匹配算法_第1页](http://file4.renrendoc.com/view/d6c2f1334768148381a69f3aaeeec6a0/d6c2f1334768148381a69f3aaeeec6a01.gif)
![thesis基于条件对抗网络立体匹配算法_第2页](http://file4.renrendoc.com/view/d6c2f1334768148381a69f3aaeeec6a0/d6c2f1334768148381a69f3aaeeec6a02.gif)
![thesis基于条件对抗网络立体匹配算法_第3页](http://file4.renrendoc.com/view/d6c2f1334768148381a69f3aaeeec6a0/d6c2f1334768148381a69f3aaeeec6a03.gif)
![thesis基于条件对抗网络立体匹配算法_第4页](http://file4.renrendoc.com/view/d6c2f1334768148381a69f3aaeeec6a0/d6c2f1334768148381a69f3aaeeec6a04.gif)
![thesis基于条件对抗网络立体匹配算法_第5页](http://file4.renrendoc.com/view/d6c2f1334768148381a69f3aaeeec6a0/d6c2f1334768148381a69f3aaeeec6a05.gif)
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
SubmittedintotalfulfillmentoftherequirementsforthedegreeofMasteriyImportantMajorStereomatchingusingconditionaladversarialDepartmentofComputerScience,SEIEEShanghaiJiaoTongUniversityShanghai,StereomatchingusingconditionaladversarialStereomatchingisoneoftheoldestandstillpopulartopicsincomputervisionresearch.Itsistosimulatethehumanvisualsystem.Usinocamerasaseyesandgorithmasthebrain,stereomatchingtasktriestorestorethedepthinformationfromtwotwo-dimensionalimagesofthesurroundings.Stereomatchingplaysavitalroleinmanycomputervisionappli-cations,suchas3Dreconstruction,autonomousdrivingandsomatosensorygames.Thecoretaskofastereomatchingalgorithmistocomputethecorrespondenceofeachpixelbetweentwoimagesandthentoproducecorrespondingdisparitymaps.Here,adisparitymapcanbeconvertedintoadepthmapbymathematicaltransformation.Thetraditionalstereomatchingalgorithmscanbedividedintothreemaincategories.Theyarelocalmethods,globalmethodsandconfidence-basedmethods.Inrecentyears,withthepowerfulfeaturelearningability,deeplearninghasgreatlyimprovedtheperformanceofthestereomatchingbycombiningitselfwiththesethreekindsofmethods.Recently,onenewbranchofdeeplearning,adversarialnetwork,hasattractedincreasingattentionsforthepromisingperfromance.Thispapertriestopresenttheapplicationofconditionaladversarialnetworkstostereomatchingtask.Ourapproachworkswithaconditionaladversarialnetworkthatconsistsoftwosub-networks:oneisageneratorthatlearnsthemapfromapairofcameraimagestoadensedisparitymap,andtheotherisadiscriminatorthatdistinguisheswhetherthedisparitymapcomesfromthegroundtruthorfromterator.Here,bothteratorandthediscrimi-natortakethesamecameraimagepairasaninputcondition.Thispaperperformsanadversarialtrainingprocessonthesetwosub-networkstolearnsomething,.Duringtheadversarialtrainingprocess,generatortriestopredictdisparitymapsfromcameraimagesasaccurayaspossible,untilthediscriminatorcannotdistinguishthemfromtheground-truthdispairtymaps.Whilethedisciminatortriestocapturethedifferencesbetweengenerateddisparitymapandtheground-truthdisparitymapstofindoutteratedonesfromallinputdisparitymaps.Astheadversarialtraininggoeson,ourdiscriminatorgraduallycaptureshigh-level1 研究背景1 匹配概述.............................1 匹配需要克服的难 ......................2 匹配的研究方法.........................3 匹配的基本流程.........................4 相关工作 局部方法及其例 .......................... 全局方法及其例 .......................... 置信度方法及其例子 研究以及本文贡献............................ 结构....................................神经网络概 ................................. 神经元与神经网 .......................... 神经网络中的运 .......................... 深度学习的发展 深度学习中的基础模块 卷积层 激活函数 池化层 全连接层 目标函数 深度学习经典网络架构 Alex-Net................................VGG- 全卷积网 U- 全卷积网 Siamese网 全卷积网 第三章深度学匹配中的应 部分阶段应用深度学 端到端的深度学 置信度方法中的深度学 第四章基于条件对抗生成网络的匹配算 对抗训练框 生成对抗网 条件生成对抗网 网络结 生成网 判别网 第五章实验结果与分 数据 训练细 激活函 数据预处 权值初始 批处理 优化方 优化超参 正则化方 的目标函 5.2.价指 5.2.10重要参数汇 定量结果和定性结 单输入模 双输入模 对抗项的正则化性 第六章全文总结以及未来工作展 全文总 未来工 参考文 攻 期间的学术 51匹配系统概述3Middlebury数据集...............................5KITTI数据集6全卷积网络U-Net......................................Siamese网络一对相机的RGB图像作为输入来产生一幅对应的稠密视差图。随后,鉴鉴别器判断出该样本是否是生成的。这里,和鉴别器都是以同样的一对RGB图像作为输入条件的。................. 条件对抗网络的结
SceneFlow的driving子数据集从左到右依次是:相机左图和视差图左图 SceneFlow数据集上的定性结果.从左到右依次是:相机左图,图以及真实视差图 对抗损失项对生成的视差图的影响.从左到右依次是:相机左图,抗损失项的生成视差图,带有对抗损失项的生成视差图........... 第一 绪匹配(StereoMatching)算法。 基于主动传感器的方法。主动传感器的是含有光源的。其估计场景深度的有商业产品问世,包括应用于无人驾驶中的LIDAR(LightDetectionAndRanging)传感器以及应用于体感的Kinect传感器。动传感器不含光源。估计场景深度的方法是,用一个或多个相机来替代人视差为0。因此,估计场景深度的任务可以转化成估计场景视差的任务。下面,对匹配的任务作出形式化的描述:给定两张,分别是两个相机从不同水平位置拍摄得到的,即左图和右图。目标是针对其中的某一张图(左图和右图的水平坐标的差值——即一个在左图(x,y)位置出现的物体将会在右图的(x−d,y)位置出现。而在得知了一个物体的视差d之后,可以通过以下公式计算出它距离相机的深度z:z=f∗B 这里f是相机的焦距,B三维地形测量。例如,大学和微软合作为火星探测“探测者LIDAR激光雷括广泛应用于体感的Kinect传感器以及增强现实头盔HoloLens。 在真实应用中,匹配算法需要克服室内室外环境中的很多难点。KITTI[12]图1–1匹配系统概1.1.3匹配的研究方如图1–1所示,匹配系统,是以两个相机(双相机类似人类的双眼)拍摄的二维(CameraCalibration),目标是得到相机坐标系到世界坐标系的映校正模块(Rectification),目标是通过图像变换,消除镜头畸变,将左右视图转匹配模块(StereoMatching),任务是计算校正后的相机左右二维图像这里,重点关注匹配模块的计算机视觉任务还包括:光流估计(opticalflow)[4],表面法向量估计(surfacenormalsestimation)[5]和语义分割(semanticsegmatation)[6]。这些任务的目标具有一个相同点,就是给图像中的每一个像素都赋予一个数值。在匹配问题中,要赋予的数值就是视有代表性的数据集包括Middlebury数据集[7]1和KITTI数据集[1,2]2。如图1–2所示,Middlebury数据集规模较小,在几张到十几张之间,包括各种室内[8]Middleury匹配算法的标准评测系统如图1–3Middlebury数据集不同的是,KITTI数据集是通过架设在一辆行其中,KITTI数据集中的高精度视差图是使用LIDAR扫描得到的。不过,由于技术限制,这里的视差图全部为稀疏图。KITTI数据集包含KITTI2012[1]和KITTI2015[2]两个版本。其中,KITTI20122012年推出的最早数据集,KITTI2015数据集则在此基础上做了相应扩充和调整并于2015年推出,其中包含了200对相机图像对及其 根据文献综述[7]分类法,匹配算法通常遵循以下四步骤代价聚合,目标是将相关像素点的匹配代价进行聚合,以作为支持帮助计算出视差。这里,相关性指的是空间上、颜色相似或者具有相同的语义等121–2Middlebury1–3KITTI为两个大类:局部(local)方法以及全局(global)方法。即相关像素点对应的视差的联系。如此,计算出所有像素点对应的视差。这里的匹配代价计算针对的对象是一对像素点。而在计算一对像素点的匹配代价配。基于单个像素点的方法主要是基于某一种度量距离的,例如绝对值距离(absoluted-difference)或者平方距离(squared-difference)等。以采用窗口内像素的绝对值距离之和(sum-of-absoluted-difference)或者平方距离之和口的合适特征上了。早期的图像窗口特征只是简单地考虑了像素亮度,例如SAD(sum-of-absolued-difference)SSD(sum-f-squared-differene)NCC(normalizedross-correlaio)等。后开始渐引入单工特或者们的组,例梯度算]、NS子[10]BIEF算子11]以及互信息[2]等。噪声的影响会比较大。调整窗口的工作包括:可以改变大小的窗口[14]等。实际上,一个更好的改进方法是考虑将简单求和改进为求和。至于对图像窗口内像素的赋权方法,一种具有代表性的权重是自适应支持权(Adaptive-Supported-Weight,ASW)[15]中,这里的权重是基于到中间像素的空间程度和颜色接近差阶段,对于每一个像素,局部方法往往采用简单的赢者通吃策略(winner-takes-all)。在d=arg
cost(d,x, 型理论中的条件随机场模型推导出来。在条件随机场模型中,一张对应一个图结数据项,建模某一个像素x与其对应的y之间的匹配程度平滑项,建模某一个像素x与其相关像素x′之间的联系,这往往是一种先验假设,例如相邻像素对应的 利用条件随机场模型完成建模之后,就可以将匹配任务转化成了一个最大后验估计(umAPosteriori,MAP)问题,该MAP问题等价于:找到一个视差函数d(xy),来最小化一个全局能量项:E(d)=Edata(d)+ 这里,全局能量数据项和平滑项组成。其中数据项Edata(d),是用来评价视差函数d与输入的图像对之间的匹配程度的,数学表达式为Edata(d)
∑C(x,y,d(x, 这里,C(x,y,d(x,y))是一个至于平滑项Esmooth(d),是用来建模平滑假设的。为了简化假设,使得优化计算可Esmooth(d)
ρ(d(x,y)−d(x+1,y))+ρ(d(x,y)−d(x,y+ 播算法[17]以及针对条件随机场优化过的基于最大流最小割算法的图割算法[18]。查(left-right-check,LRC)来进行处理。通过左右一致性检查可以将所有的像素点分为两类:稳定的(stable)和不稳定的(unstable)。其原理为,在左视差图和右视差图中,一对 |d−D()p是稳定的且D(p) d这里,p为某一个像素,D(ppd匹配点的视差数值,Cnewpd差d的代价,这是作为像素稳定或不稳定的判断依据。代价计算的依据,具有对光照变化不敏感的优点。互信息是由两个图像的各自的熵HMII,I=HI+HI−HI 1 1P∫HI= PI(i)log
∫01∫HI,I= PI,I(i1,i2)logPI,I(i1,1 1 1 对于匹配良好的两张,其联合熵HI1,I2比较低,因为这意味着可以根据一张图片推断出另一张。接着介绍一个典型的代价聚合算法:自适应支持权(Adaptive-supported-weight, ASW)15]自适应支持权本质上是一种基于窗口的匹配算法其思路是,在代聚阶段给持口内像赋以同的持重。适支权的源自普的求或平具有个含假:即一窗口的素场景位似的度,因具相的视。实际这是对,因需某方法区同视的素,通赋权值形体现来。适支持的权方类边滤器权值由窗中心素色彩似度空位置近决的,权够起突边缘降噪影响作,从提高配准确。对于像素点p而言,其权cw(p,p)=exp(−(||p−pc||2+Ip−Ic|| c 其中,pc是窗口中心像素,I(xx的亮度函数,σ1σ2是调节窗口有效范围的参
qNp,qd∈Np
dq∈N,q
w(p,q)w(p,qdp 其中pd和qd表示的是匹配的像素点对。e(q,qd)表示的是像素对原始的匹配代价,这里∑e(q,qd)=
cq−cd)T口的相似度的评估。尽管在最近由于卷积神经网络(ConvolutionalNeural 是难以捕捉到相关像间的视差的结构信息。例如,前馈深度神经网络(DNN)并没密打任务的重要因素。全局方法的在于显式地建立相关像间的联系。在匹配中通常使用的是概率图模型,如条件随机场(ConditionalRandomField,CRF),来建模输入和输出的依赖关系。在条件随机场中,稠密图像打问题是通过最大后验估计(MAP)可以转化成素对之间的依赖关系,并把这作为一种先验。比如说,空间上相邻的像间的标这里,给出两个典型的例子:半全局方法(Semi-globalmethod,SGM)和displets方E(D)
(C(p,Dp)
P1T[|Dp−Dq|=1]
P2T[|Dp−Dq|> 其中,D指的是待估计的视差图,Np是像素p的领域像素集合。这里的全局视差计算使用了动态规划进行近。后续的精细化是用过LRC和亚像素插值完成的。由于鲁棒另一个例子displets方法作为混合模型,融合了视觉任务,即物体识别,以及假设,又能够进行有效的优化和推理。常用的优化方法包括:图割[18],动态规划[12]以这里,作为改进,可以把置信度图作为一个先验引入到SGM[12]等框架下,以[22]首先使用了随机森林来学习匹配的误差。它们将众多的置信度度量特征成一个特征向量,通过随机森林学习并做做出。然后在Middlebury数据集和值得一提的是,目前在计算机视觉领域大热的深度学习技术在引入次语义信息以及提取有效特征的任务上具有强大的能力。不过,由于匹配任务本身是一个低层次的计算机视觉任务,直到以对起到正则化的作用,即指导的输出的作用。实际上,这样一个网络架构已经成功应用于语义分割[23]问题中。由于同属稠密打问题,语义分割问题和pix2ix24](conditionalgenerativeadversarialnetwork)像译问包:形学务例如中等以视觉务例如比语分割。过值得提是,样一架还没被用配务在数据集SceneFlow上对比了最接近的工作pix2pix,并在效果上得到了一第二 深度学习基础回种能够自动学习到数据的有效特征表示的机器学习方法。其基本形式包括:有监督学习,半监督学习和无监督学习。而最常用的还是有监督学习。y=f(wTx)=f
wixi+ 其中,x是输入向量,wb是待定参数,对应的是网络中的权重。fRR是激活1x>f(x)
x≤
以及阶跃函数对应的可微形式——Sigmoid1f(x)=1+
下面给出神经网络中多层感知机(Muti-LayerPercetron)的数学表达式。对第i层络,i=2··· 有z(i)=W(i−1)x+a(i)=f 其中,z(i)是第i层的线性组合()是第i层的线性组合经过激活函数之后的输出。在网络的最后一层,根据任务的不同,会采用不同的损失函数,例如回归问题的损失函数有L2范yˆ=)Loss=||y−ˆ||2其中,y是网络要近的,而yˆ是网络对的估计值
梯度下降法是基于以下的观察,如果一个多变量函数F(x)在一个点a的领域内是有定义且可微的,那么在点a处F(x)下降最快的方向是关于点a的负梯度−▽F(a)。因此,如果an=anγ▽F(an)对于足够小的γ,始终有F(an)≥Fn1。对于最优化问题minLoss,往往可以通过梯度下降法来更新权重这里的梯度下降法还有很多的改进形式,其中包括Adam[25]、RMSProp等,主要改如CaffeTensorFlow都采用了符号微分的方法进行自动求导。这使得用户在实际应用中,可以集实际上,反向算法的基本理论早在2000年之前就已经提出。然而,在当时训练多层神经网络仍然是一件十分的事情。直到2012年,深度神经网络AlexNet在ImageNet物体识别竞赛中一举夺魁,深度学习才得以重焕生机,而这主要得益于:很多海量数据集,其中最具代表性的就是ImageNet数据集。ImageNet数据集包含超过1400万幅,涵盖超过2万个类别,关于图像分类和物体检测等的研也是十分巨大的。而GPU的出现解决了计算能力的瓶颈。GPU十分适合深度学习中的运算模式。这使得原先耗时长达1周乃至数月的训练过程可以在短短几深度学习理论的发展由于hinton等人的不懈坚持,关于深度学习的训练和应用的技巧(trick)也被不断提出来,其中,典型代表包括卷积层、ReLU(RectifiedLinearUnit)激活函数、数据增强(dataaugmentation)、随机失活(dropout)等。此外,各子,HOG[27]算子,CENSUS[10]算子等。而深度神经网络能够直接从原始数据中学习到性,表达的语义信息层层递进。通过卷积核的可视化[28可以发现,浅层的特征通常为边卷积运算是图像处理中的重要操作。卷积操作的输入包括一张以及一个卷积 ∑∑yil+1,jl+1,d
fi,j,dl,d×xl+1+i,jl+1 i=0j=0ll层网络,ij,d值得注意的是,该卷积核的权重对于的不同位置都是相同的,即权值共享(eihtsari)。卷积核的作用相当于特征提取装置,可以学到诸如颜色,形状,纹理众多的本模式,且在多神经网中,过组合能够学到复杂的语义(filerize)和卷积步长(tride)GGNet之后,人们已经普遍采用小filerize=3,ride=1。卷积层(convolutionlayer)的最早的应用是YannLeCun等人在文章[29]中LeNet。LeNet能够实现对手写数字字符的光学识别,且正确率达到99%,并成功应用于邮政系统写识别中。moid函数,但是由于该激活函数存在梯度的问题,目前主要以线性整流单元(Rec-tifiedLinearUnit,ReLU)及其变体作为激活函数。ReLU的数学表示如下:f(x)=max(0, 有最大值池化(max-pooling)和均值池化(average-pooling)。其数学表达式如下:Average-pooling:y
=
xx
iiMax-pooling:yil+1,jl+1,d
ll层网络,i,jd分别为长、高、深度三个通道的坐标,H,W则的目标函数:应用于分类任务的softmax函数,以及应用于回归任务的L2范数。Alex-2012IaeNetx-Net[30]12%lxet5个卷积层和3lxet的成功包含了很多因素:首次将卷积神经网络应用于ImageNet数据集GPU来加速网络训练。原本需要数周乃至数月的网络训练过程缩短至至6天。计算能力的增强大大缩短了大型网络模型的研究周期,从而开起了深网络结构的改变和训练技巧也起到了至关重要的作用。其中包括线性激活函数eeU比起原始的Siid问题。还有正则化方法随机失活(drout),随机失活起作用的原理是相当于做了模型集成。VGG-VGG-Net[31]是2014年的ImageNet的物体识别竞赛的亚军。该网络的最大贡献是,VGG-Net的一大贡献是提倡使用小卷积核(如3×3的卷积核),提倡更深的网络次感。而更深的网络,则能带来的非线性。为了加深网络,VGG- 还提出了每层保持输入大小的技巧。以及通道数的组织按照以下规律364128256VGG-Net 由于具有良好的泛化能力,已经成为了学术界和工业界应用最为广泛的深度络之了。2–1随着卷积神经网络在图像分类的巨大成功之后,卷积生成网络逐渐开始应用于其他的语义任务,比如物体检测任务。后来,在一些低层的图像任务,比如语义分割也开始尝试使用深度学习,例如2015年全卷积网络(llyCooluioalet-or,FN)6]。是一一对的。编的存在意是,缩信息,裁剪重,防止拟合。编的标志性操作是下采样。而器的作用与之想法,用于还原信息,其标志性操作是上采样。不过,全卷积网络中的上采样操作的实现还只是简单的基于规则的双线性插[32]插值。这里的反卷积层,可以视为是卷积层的逆操作,也被称为转置卷积(aedoolution)。U-2–2U- 是全卷积网络的一个自然改进。其结构如图2–2所示。连接。这克服了全卷积网络中低层特征与特征无法融合的缺陷。通过U-Net,可以用更少的样本训练出效果更好的模型。这里,之所以需要用果更好了,是因为低层特征和特征得以融合,这样可以发掘出有效的特征。Siamese一个方案就是使用Siamese网络[34]。Siamese网络是普通前馈神经网络在结构上针对两输入的一个自然改进。在此之前,一个理输入简的法是把张在通维上堆在起然后网敛,取得更好的效果。根据文献[34],最早的Siamese网络的结构如图2–3所示。一种embedding的思想。embedding的思想指的是,做这样一个空间的fX7Y,与此同时Y要能保留X中的结构信息。右图两个通道的特征进行逐元素点乘。值得注意的是,在Siamese网络的实现中,左右2–3Siamese第三 深度学匹配中的应取得了巨大的成功。其中既包层语义任务,如图像分类[30]、物体检测[35]等,也包括低层语义任务,如语义分割[6]、光流估计[36]等。受到深度学计算机视觉领域的成功的启发,近年来的匹配研究都开始尝试引入深度神经网络,尤其卷积神经网络(ConvolutionalNerualNetwork,CNN)。[37]首次将深度学习引入到匹配中去,它将卷积神经网络引入到像素对的匹配代价的计算中去,并且在Middlebury数据集和KITTI数据集上都取得了当时的最佳结3Siamese网络[34前半部分结构来处理相机左图和相机右图,随后将两个特征图按照通道拼接在一起后,经过4个全连接层进行信息融合,最后再通过一个softmax函数产生一个二分类的结果,即匹配或者不匹配。随后的其他匹配阶段中,相继使用了基于交叉的代价聚合方法(Cross-basedcostaggregation,CBCA)[38]和半全局匹配[12]的视差计算方法。最后,还通过左右一致性检查[21]等传统精细化技术[[收到Siamese网络的启发:将像素对匹配代价的计算建模成一个回归问题,这里目标函果相差不大的情况下,还能大大提高了网络的运行效率,对比[37]100类似的[40网络的启发。在原先[37,39]早期为方便理匹配法为分成个骤。际,人四个模型合并成一个步骤一个模型?即通过深度学习构造一个端到端(end-to-end)系统,[41]本质上来说是一个编码器。其中,编是通过卷积操作和池化下采样操作实现的,而器则主要依托于反卷积[32]操作实现。由于深度学习需要大量的数据,而不论是Middlebury数据集还是KITTI数据集,数据量都不够大。为此[41]还通过3D建模构造了一个巨大的仿真数据集。3D建模的优势是可以几乎毫无成本地得到完全精确经过仿真数据集的训练后,模型可以在KITTI等真实数据集上再训练,对权重做出微(finetune)后可以进一步提高性能实际上,通过端到端网络,已经一定程度上克服了分阶段局部方法的最大缺进一步的[42]发现,在匹配的操作中,除了有长宽的二维信息之外,还有标函数也要做相应的修正。在[42]中,实现了一个argmin函数的可微版本。事实上,虽文献[43]是首个使用卷积神经网络来建模图像窗口的二分类问题的匹配算法。softmax层。但是由(SGM)。并且,这来对视差的结果进行迭代求精。文献[44]首次将流程中的全部步骤都用卷积神经网络断出置信度图,另一个是用来初始输入与真实视差(GroundTruth)之间的残差图,从而第四 基于条件对抗生成网络的匹配算基于条件对抗网络的对抗生成框架。然后,在章节4.1给出应用于匹配任务的对抗自从2012年起,深度神经网络已经在许多领域的测试中达到了人类的水准:例如模型的,对于生成模型,深度学直没有特别好的模型。直到2015年,IanGoodfellow在文献[45]中提出了生成对抗网络。生成对抗网络被机器学习界的大师Lecun称赞为无G(Generator),其作用是尽量去捕捉到真实数据的分布,然后生成足以以假乱真的,它的输入是一个随机噪声的分布z,而输出为假样本为G(z)判别器D(Discriminator),其作用是判断一张是否是真实的,即输出一个概率值,表明输入样本是来自于真实训练样本还是来自于G生成的样本。它的输入是样本x,x可能来自于真实训练样本或者的生成样本,D(x)表明x来自真实训练样本的概率。在训练过程中,G要使得D做出错误判断的概率最大化,而判别器D则minmaxV(D,G)= (x)[logD(x)]+Ez∼p(z)[log(1−D(G(z))] 其中,x是输入样本,z是噪声,服从分布。可以证明对任意的函数G和D,都存在唯一解,使得G能够恢复出训练数据的分布,并且使得D无法区分输入的是训练数原始的对抗生成网络(N)45]可以被直接拓展成条件对抗网络(N)46]和判器都加上同的额信息作为入条件。在的条件抗框架,条指的是,和判别器都以相同的RGB图相对作为输入的条件之一 cGAN(G,D)= (x)[logD(xy)]+Ez∼p(z)[ D(G(zy (4–2)这里x是训练数据,z是 代表的是额外的输入条件。 匹配算法中,x代表的是视差图的训练数据,y代表的是一对已经观察到的相机左右图像在传统的对抗训练的过程中,G竭力去最小化以下的目标函数,与此同时,判别器D则竭力去最大化相同的目标函数,该目标函数的形式是G∗=argminmaxLcGAN(G, 是两个损失项的和。第一个损失项是一个传统的L1损失项,该损失项可以有效捕捉到低层的信息,比如像素亮度等。之所以不采用L2范数的原因是,L1范数作为一个长尾分布对异常点(outlier)的忍耐度更高,可以导致更加锐利清晰的结果;而L2G∗=argminmaxLcGAN(G,D)+ 这里,λ是一个平衡L1损失项和对抗损失项的超参数。一旦判别器发现输入的视差图是“的”,即生成的,对抗损失项的数值就会增大,这样就可以指导,另一个样本空间的对应输出,即图像翻译任务。实际上,条件对抗网络(conditionalgenerativenetwork,cGAN)已经被证明是一个有希望的通用解法,可以用来解决图像到文献[24]首次提出可以将条件对抗网络当做图像翻译问题的一个通用解决方案,其最该解决方案在以下的任务中被证明是有效的:这些图像翻译问题包括,图形学任的架构如图4–2(a)所示相机左图和相机右图首先被输入到一个Siamese网络[34]中去。之所以选择希望能够抽取出更有意义更次的特征,而不仅仅是原始的图像像素,这样可以降低网络学习的难度。其二,Siamese网络的两个分支共享相同的神经网络架构和权值,这就Siamese网络的两个分支是由6“Conv-BN-ReLU”模块组成。一个“Conv-BN-ReL”模块是按照以下的规则组成的:一个卷积层(Convolution)后面跟着一个批正则化层(BatchNormalizationLayer)[47],然后再跟着一个线性整流单元(RectifiedLinearUnit,ReLU)。这里,卷积层的所有的卷积核尺寸都是3。这664641281281281282(Max-PoolingLayer)做一次尺寸折半的下采样操作。图4–1基于条件对抗网络的匹配算法。左侧的,即匹配网络,以一对相机的RGB图像作为输入来产生一幅对应的稠密视差图。随后,鉴别器从的生成结果或者是真实的训练数据中随机抽样作为输入,鉴别器判断出该样本是否是生成的。这里,和鉴别器都是以同样的一对RGB图像作为输入条件的。(a)的网络结 (b)判别器的网络结这些经过Siamese网络抽取出来的特征图,接着被简单地拼接在一起以让便后续的U-Net网络结构[33]进行处理。U-Net网络结构可以被视为是传统的编-器架构的改进版本。传统的编-器架构通常包含了一系列的下采样操作来压缩信息,以“Conv-BN-ReLU”×2模块的编 和一个包含3个“Deconv-BN-ReLU-Conv-BN-ReLU” 第i层的特征被输入到对应的倒数第i层 作为额外的输入。编的每一层的输出个数依次为256→256→512→512→512→512,并且每一个模块之后的特征图都会通过最大池化层(Max-PoolingLayer)做一次尺寸折半的下采样操作。而器的输出个数依次为512→512→512→512→256→256,并且每一个模块之后的特征图都会利用反卷积层[32]做相对应的尺寸加倍的上采样处理判别器的架构如图4–2(b)所示图首先被分别输入到Siamese网络中提取出特征。接着Siamese网络的输出被输入到一个拼接层(ConcatenatedLayer)中去,然后经过两个“Conv-BN-ReLU”模块实施进一图中选出一个样本。这个视差图同时也被经过2个“Conv-BN-ReLU”模块的处理,用来这些特征拼接之后被进一步传入一系列的“Conv-BN-ReLU”模块中去。在判别器的最后使用一个igmid练数据集的概率。这些特征图在每两个模块之后会通过最大池化层(ax-oligLer)做一次尺寸折半的下采样操作。第五 实验结果与分SceneFlow数据集上给出了定性结果和定量结果。在章节5.1中,简要介绍了实验的这里,的数据集选择的是SceneFlow数据集,主要是基于三个原因数据集足够大。SceneFlow数据集的规模足够大,包含上千个高精度样本,可以数据集足够真实。SceneFlow数据集虽然是一个人工的数据集,但是其中包数据集足够准确。SceneFlow数据集为每一对相机图像对,提供对应的完美视差图。由于SceneFlow是由Blender通过3D建模生成的,只需通过数算这里,选择了SceneFlow数据集中的driving子数据集,该数据集非常接近于自动驾驶中的真实场景。driving子数据集包含了4400个RGB图像对,其中包括一个3520对图像组成的训练集,和一个880对图像组成的验证集。数据集效果:ReLUf(x)=max(0xleakyf(x) 这里,有a>0。不选用Sigmoid函数,因为Sigmoid函数具有以下缺点:饱和0为中心的,expReLU因则是,ReLU对于x<0的情况全部置0,这被称之为“死区”。可以发现,Leaky是对ReLU的“死区”现象的改进。在机器学习中,对输入数据做归一化(normlization)预处理是一个常见步骤。这里们对网络的权值初始化都采用随机正太分布(randomnormaldistricution)。具体参数设定是mean=0,var=0.02。批处理层(BatchNormalization)[47]是深度神经网络训练中的重要技巧,可以加快网的BathNrmalizaion(iiat,但是测试时用使用的是全部测试数据的均值和方差。网络中采用的优化方法是梯度下降法的一个变种Adam25]。Adam方法的优点在于,设定初的学率其参数后优化动节学率确更快好在网络中使用了常用的两种正则化:随机失 以及数据增(dataargumentation)其中,随机失活(dropout)的具体操作是:在每次前向,把一些神经元随机设00的概率是一个超参数,一个默认参数是0.5。为什么随机失活能起作用呢?一种解释是,因为这能使得网络学习到的特征具模型的集成模型(这些模型都共享权值)。至于数据增强(dataargumentation),指的是通过对输入数据做各种图像变换,如平5.2.价指这里错误像素的定义是,估计出来的视差数值与真实的视差数值的绝对偏差超过Tpercentage(T)
∑(x,y)I(esty)−dground−truth(x,y≥TW×
x,yW,H是输入图像的高和宽,I(xMAE
1
(x,y)−
(x, 使用TensorFlow[48]实现了整个对抗训练架构。在进行训练之前,首先对 像素的数值取值范围在[−1,1]之间。为了方便比较,采用了和最为相似的工作pix2pix[24]相同的超参数进行训练。这些超参数λbatchsize迭代次数iterations=的优化方法选择了Adam[25]方法,其中初始值学习率设定为10−5,beta采用0.5。为了和最接近的工作pix2pix比较,把所有的大小重置为256×256,这个尺寸与pix2pix原文中的尺寸一致。这里,所有的网络都可以在一张NVIDIA1080的GPU卡上运行成功。们实施了一系列的实验。如表5–1所示,在SceneFlow数据集上通过对比实验验证了文中架构设计上的几个关键选择,包括:Siamese,Siamese鉴别器以及在的目标函数中对抗损失项的引入。以下介绍一下比对的三个模型的框架。单输入模型是最基础的模型(baeline),其直接取自于基于条件对抗网络的最接近的工作pix2ix24]。pix2ix是一个实现图像翻译的工作,给定一对图像对:工作中的条件对抗网络包含和鉴别器两个子网络。其中使用的U-Net架构,损失项用的是1是很好。平均误差达到了2.91px.改进但输入模型的一个简单方法是充分利用匹配算法中双输入的特果。平均误差达到了2.16px。然而,这个简单模型的错误率仍然是比较严重的。为了改进这个网络架构,考虑再架构中结合Simaese网络和U-Net。Siamese网络首先从相机左图和相机右图中抽取出的特征,然后通过一个U-Net网络进行特征的融合。通过这个网络结构上的改进,平均视差误差从2.16px降低到了1.87px。这证明了Siamese网络的有效性。是,简单地将相机对和对应的视差图拼接起来作为鉴别器的输入。这里,决定先分开处理相机和视差图。这里,考虑到Siamese网络抽取特征的强大能力以及在实验中的成功,在鉴别器中也采用了和一样的Siamese网络结构。使用了Siamese网络之后,平均视差误差从1.87px降低到了1.05px。这证明了Siamese网在图5–2,给出了在SceneFlow数据集上的定性结果。这里视差图原本是灰度器的损失函数只考虑了L1范数损失项,另一个架构的的损失函数不仅包含了L1图5–2SceneFlow数据集上的定性结果.从左到右依次是:相机左图,视差图以及真实视差图5–3对抗损失项对生成的视差图的影响.从左到右依次是:相机左图不带对抗损失项的生成视差图,带有对抗损失项的生成视差图.>>>Mean>>>Mean针对架构的比+根据通道堆叠的SiameseSiameseG带Siamese网络的G+带Siamese网络的针对损失函数的比L1损失项的L1损失项和对抗损失项的第六 全文总结以及未来工作展用判别器来对起到正则化的作用。在网络架构方面,结合匹配任务的特点,对采用了Siamese网络U-Net网络的结合。对于判别器,采用了与相同的Siamese网络结构。在条件对抗损失项,另一个则是传统的L1损失项。在章节五中,在SceneFlow数据集上开展了一系列实验。验证了以下网络设计的有效性:带Siamese网络的,U-Net,带Siamese网络的判别器。此外,还验证了判别器对的正则化作用,以及由判别器损失项和L1损失项组成的混合目匹配工作,虽然基于条件对抗网络的匹配算法具有训练速度更快,所需要自然的想法是,把置信度方法和条件对抗网络相结合,以期更好的匹配效GEIGERA,LENZP,URTASUNR.Arewereadyforautonomousdriving?thekittivisionbenarksuite[C]//ComputerVisionandPatternRecognition(CVPR),2012IEEEConferenceon.IEEE.[S.l.]:[s.n.],2012:3354–3361.MENZEM,GEIGERA.Objectsceneflowforautonomousvehicles[C]//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.[S.l.]:[s.n.],2015:SUNJ,WANGP,QINZ,etal.Overviewofcameracalibrationforcomputervision[J].2014:86–92.HORNBKP,SCHUNCKBG.Determiningopticalflow[J].ArtificialInligence,1980,17(13):185–203.EIGEND,FERGUSR.PredictingDepth,SurfaceNormalsandSemanticLabelswithaCommonMulti-scaleConvolutionalArchitecture[J].Internationalconferenceoncom-putervision,2015:2650–2658.LONGJ,SHELHAMERE,DARRELLT.Fullyconvolutionalnetworksforsemanticsegmentation[J].Computervisionandpatternrecognition,2015:3431–3440.SCHARSTEIND,SZELISKIR.Ataxonomyandevaluationofdensetwo-framestereocorrespondencealgorithms[J].Internationaljournalofcomputervision,2002,47(1-3):7–SCHARSTEIND,SZELISKIR.High-accuracystereodepthmapsusingstructuredlight[C]//ComputerVisionandPatternRecognition,2003.Proceedings.2003IEEEComputerSocietyConferenceon.Vol.1.IEEE.[S.l.]:[s.n.],2003:I–I.GEIGERA,ROSERM,URTASUNR.Efficientlarge-scalestereomatching[C]//Asianconferenceoncomputervision.Springer.[S.l.]:[s.n.],2010:25–38.ZABIHR,WOODFILLJ.Non-parametriclocaltransformsforcomputingvisualcorre-spondence[C]//Europeanconferenceoncomputervision.Springer.[S.l.]:[s.n.],1994:CALONDERM,LEPETITV,STRECHAC,etal.Brief:Binaryrobustindependentelementaryfeatures[J].ComputerVision–ECCV2010,2010:778–792.HIRSULLERH.Stereoprocessingbysemiglobalmatchingandmutualinforma-tion[J].IEEETransactionsonpatternysisandmachineinligence,2008,30(2):ACHANTAR,SHAJIA,SMITHK,etal.SLICSuperpixelsComparedtoState-of-the-ArtSuperpixelMethods[J].IEEETransactionsonPatternysisandMachineInli-gence,2012,34(11):2274–2282.HIRSULLERH,INNOCENTPR,GARIBALDIJM.Real-TimeBasedStereoVisionwithReducedBorderErrors[J].InternationalJournalofComputerVision,2002,47:229–246.YOONK,KWEONIS.Adaptivesupport-weightapproachforcorrespondencesearch[J].IEEETransactionsonPatternysisandMachineInligence,2006,28(4):650–656.KIRKPATRICKS,GELATTCD,VECCHIMP.Optimizationbysimulatedanneal-ing.[J].Science,1983,220(4598):671–680.SUNJ,ZHENGN,SHUMH.Stereomatchingusingbeliefpropagation[J].IEEETrans-actionsonPatternysisandMachineInligence,2003,25(7):787–800.BOYKOVY,VEKSLERO,ZABIHR.Fastapproximateenergyminimizationviagraphcuts[J].IEEETransactionsonPatternysisandMachineInligence,2001,23(11):GUNEYF,GEIGERA.Displets:Resolvingstereoambiguitiesusingobjectknowl-edge[J].2015:4165–4175.HUX,MORDOHAIP.AtativeEvaluationofConfidenceMeasuresforStereoVi-sion[J].IEEETransactionsonPatternysisandMachineInligence,2012,34(11):FUAP.Aparallelstereoalgorithmthatproducesdensedepthmapsandpreservesimagefeatures[J].Machinevisionapplications,1993,6(1):35–49.HAEUSLERR,NAIRR,KONDERMANND.EnsembleLearningforConfidenceMea-suresinStereoVision[J].2013:305–312.LUCP,COUPRIEC,CHINTALAS,etal.Semanticsegmentationusingadversarialnetworks[J].ArXivpreprintarXiv:1611.08408,2016.ISOLAP,ZHUJ.-Y,ZHOUT,etal.Image-to-imagetranslationwithconditionaladver-sarialnetworks[J].ArXivpreprintarXiv:1611.07004,2016.KINGMADP,BAJL.Adam:AMethodforStochasticOptimization[J].Internationalconferenceonlearningrepresentations,2015.LOWEDG.DistinctiveImageFeaturesfromScale-InvariantKeypoints[J].InternationalJournalofComputerVision,2004,60(2):91–110.DALALN,TRIGGSB.Histogramsoforientedgradientsforhumandetection[J].2005,1:ZEILERMD,FERGUSR.VisualizingandUnderstandingConvolutionalNetworks[J].Europeanconferenceoncomputervision,2013:818–833.LECUNY,BOTTOUL,BENGIOY,etal.Gradient-basedlearningappliedtorecognition[J].ProceedingsoftheIEEE,1998,86(11):2278–2324.KRIZHEVSKYA,SUTSKEVERI,HINTONGE.Imagenetclassificationwithdeepconvolutionalneuralnetworks[C]//Advancesinneuralinformationprocessingsystems.[S.l.]:[s.n.],2012:1097–1105.SIMONYANK,ZISSERMANA.VeryDeepConvolutionalNetworksforLarge-ScaleImageRecognition[J].Internationalconferenceonlearningrepresentations,2015.NOHH,HONGS,HANB.Learningdeconvolutionnetworkforsemanticsegmenta-tion[C]//ProceedingsoftheIEEEInternationalConferenceonComputerVision.[S.l.]:[s.n.],2015:1520–1528.RONNEBERGERO,P,BROXT.U-Net:ConvolutionalNetworksforBiomed-icalImageSegmentation[J].Medicalimagecomputingandcomputerassistedinterven-tion,2015:234–241.BROMLEYJ,GUYONI,LECUNY,etal.Signatureverificationusinga”siamese”timedelayneuralne
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年高性能铁氧体一次料合作协议书
- 五年级上册小数口算练习题
- 房屋合租协议书范本
- 换热站安装合同范本
- 新上海就业协议书范本
- 产品推广销售代理合同范本
- 2025年度泳池夜间开放免责条款协议
- 二零二五年度租房安全协议及租客行为规范合同
- 2025年度风机叶片售后服务采购合同
- 二零二五年度商业步行街门面店铺租赁服务协议
- 高校体育课程中水上运动的安全保障措施研究
- 城市基础设施修缮工程的重点与应对措施
- 油气勘探风险控制-洞察分析
- 2022年中考化学模拟卷1(南京专用)
- 医疗机构质量管理指南
- 【牛客网】2024秋季校园招聘白皮书
- 2024-2025银行对公业务场景金融创新报告
- 《医疗机构老年综合评估规范(征求意见稿)》
- 2025届郑州市高三一诊考试英语试卷含解析
- 《我国个人所得税制下税收征管问题研究》
- 建筑工程三通一平技术方案
评论
0/150
提交评论