基于双随机游走与深度多层网络的显著性检测

基于双随机游走与深度多层网络的显著性检测

ID:76139104

大小:4.30 MB

页数:69页

时间:2023-05-31

上传者:笑似︶ㄣ無奈
基于双随机游走与深度多层网络的显著性检测_第1页
基于双随机游走与深度多层网络的显著性检测_第2页
基于双随机游走与深度多层网络的显著性检测_第3页
基于双随机游走与深度多层网络的显著性检测_第4页
基于双随机游走与深度多层网络的显著性检测_第5页
基于双随机游走与深度多层网络的显著性检测_第6页
基于双随机游走与深度多层网络的显著性检测_第7页
基于双随机游走与深度多层网络的显著性检测_第8页
基于双随机游走与深度多层网络的显著性检测_第9页
基于双随机游走与深度多层网络的显著性检测_第10页
资源描述:

《基于双随机游走与深度多层网络的显著性检测》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

大连理工大学硕士学位论文摘要显著性目标检测旨在让计算机能够自动检测出一幅图像中人眼最关注的区域,近些年来伴随着它特有的优势得到了越来越多人的关注与研究。作为一个预处理过程,它被广泛地应用在了计算机视觉范畴,包括图片压缩,视频概要,目标跟踪,人再识别等。尽管现在人们已经在该领域作出了突出成绩,但是依然还有许多地方需要改善。本文在两个显著性目标检测的主要研究方向分别提出了一种新型有效的方法,分别是基于传播方向的双随机游走显著性目标检测模型,以及深度学习方向的基于多任务学习的深度多层网络模型。在基于双随机游走的显著性目标检测模型中,本文模拟了两个代理者(又称为游走者)分别代表前景与背景属性同时游走在一张图模型上来探索显著性分布。首先,模型中提出了一种新型的距离度量算法——传播距离度量,并且使用它替代了使用测地线距离来计算两个代理者的初始分布。接着,两个代理者分别从各自初始分布出发游走同一张图模型,并且通过重启机制来构建沟通的桥梁,在每次迭代后交互游走信息来纠正对方当前错误的路线。一旦有纠错的需要就强迫代理者以一定概率返回到一些预期设定的节点来重新规划路线,这些重启节点则是由双重启机制来决定。为了增强特征的判别性,本文还从卷积神经网络中提取了深度特征来表示每个超像素节点。在基于多任务学习的深度多层网络算法中,本文在考虑完基于区域目标候选模型和基于超像素分割模型的优缺点后,提出了一种基于目标候选和超像素分割相融合的深度学习方式来互补改善显著性检测结果。此外,分类损失(也就是softmax)可以从负事例中区分出正事例,而相似度损失(也就是triplet)能够扩大不同类别特征间的对比差异。本文针对两种损失互补还提供了一种联合优化的方式来更进一步提升检测的性能。最终,一个多层元胞自动机模型来整合网络生成最终边缘轮廓完美并且目标内部整体平滑高亮的显著性结果。充足的实验验证了,本文两种显著性检测方法相比较其他当前先进算法在数个标准数据库上有更优的表现。关键词:显著性目标检测;双随机游走;传播距离度量;卷积神经网络;多任务学习-I- 基于双随机游走与深度多层网络的显著性检测SaliencyDetectionviaDoubleRandomWalksandDeepMulti-LevelNetworksAbstractSaliencydetection,whichaimstofindthemostimportantandinterestingregionsinanimage,hasattractedincreasinglyattentioninrecentyears.Asaneffectivepre-processingstep,ithasbeenextensivelyappliedtonumerouscomputervisiontasks,suchasvideosummarization,personre-identification,imagecompressionandobjecttrackingetc.Althoughmuchsignificantprogresshasbeenmade,itremainsachallengingproblem.First,thispaperproposesanovelsaliencymodelbasedondoublerandomwalkswithdualrestarts.Twoagents(alsoknownaswalkers)respectivelyrepresentingtheforegroundandbackgroundpropertiessimultaneouslywalkonagraphtoexploresaliencydistribution.First,weproposethepropagationdistancemeasureanduseittocalculatetheinitialdistributionsofthetwoagentsinsteadofusinggeodesicdistance.Second,thetwoagentstraversethegraphstartingfromtheirowninitialdistribution,andtheninteractwitheachothertocorrecttheirtravelroutesbytherestartmechanism,whichenforcestheagentstoreturntosomespecificnodeswithacertainprobabilityaftereverymovement.Wedefinethedualrestartstotakeintoaccounttheinteractingandweightingoftwoagents.Toenhancethediscriminativecapabilityoffeatures,weextractdeepfeaturesfromthefullyconvolutionalnetworktorepresenteachsuperpixelnode.Extensiveevaluationsdemonstratethattheproposedalgorithmperformsfavorablyagainstotherstate-of-the-artmethodsonfivebenchmarkdatasets.Second,thispaperdemonstratessegment-levelsaliencypredictioncanprovidetheproposal-levelmethodwithcomplementaryinformationtoimprovedetectionresults.Inaddition,classificationloss(i.e.,softmax)candistinguishpositivesamplesfromnegativeonesandsimilarityloss(i.e.,triplet)canenlargethecontrastdifferencebetweensampleswithdifferentclasslabels.Weproposeajointoptimizationofthetwolossestofurtherpromotetheperformance.Finally,amultilayercellularautomatamodelisincorporatedtogeneratethefinalsaliencymapwithfineshapeboundaryandobject-levelhighlighting.Extensiveevaluationsdemonstratethattheproposedalgorithmperformsfavorablyagainstotherstate-of-the-artmethodsonfivebenchmarkdatasets.KeyWords:SalientObjectDetection;DoubleRandomWalks;PropagationDistance;ConvolutionalNeuralNetworks;Multi-TaskLearning-II- 大连理工大学硕士学位论文目录摘要.............................................................................................................................IAbstract.............................................................................................................................II1绪论..............................................................................................................................11.1研究背景与选题意义.......................................................................................11.2研究现状...........................................................................................................31.2.1传统启发式显著性检测方法................................................................31.2.2基于传播的显著性检测方法................................................................41.2.3基于监督学习与深度网络显著性检测方法........................................41.3本文主要工作和章节安排..................................................................................61.3.1章节安排................................................................................................72相关工作与出发点......................................................................................................82.1基于双随机游走的显著性目标检测...............................................................82.2基于深度多层网络的显著性目标检测.........................................................103基于双随机游走的显著性目标检测........................................................................123.1初始分布算法模型.........................................................................................133.1.1深度特征提取......................................................................................133.1.2传播距离度量与初始背景分布..........................................................143.1.3初始前景分布......................................................................................163.2基于双随机游走的显著性检测算法.............................................................173.2.1图模型的构建......................................................................................183.2.2单随机游走..........................................................................................193.2.3基于重启机制的单随机游走..............................................................193.2.4基于双重启机制的双随机游走..........................................................203.2.5多尺度传播与优化..............................................................................264基于深度多层网络的显著性目标检测....................................................................284.1目标候选层介绍.............................................................................................284.2超像素分割层介绍.........................................................................................304.3多任务显著性目标检测.................................................................................314.4多层融合.........................................................................................................325实验结果与分析........................................................................................................345.1基于双随机游走显著性检测算法实验分析.................................................34-III- 基于双随机游走与深度多层网络的显著性检测5.1.1数据库介绍..........................................................................................345.1.2参数设置..............................................................................................345.1.3算法效率..............................................................................................355.1.4评测指标..............................................................................................365.1.5比较的方法..........................................................................................365.1.6评测......................................................................................................365.1.7不同设置的评估..................................................................................445.1.8失败案例..............................................................................................485.2基于深度多层网络显著目标检测实验分析.................................................485.2.1参数设置..............................................................................................485.2.2评测......................................................................................................495.2.3不同设置的评估..................................................................................525.2.4失败案例..............................................................................................53结论..........................................................................................................................55参考文献....................................................................................................................56攻读硕士学位期间发表学术论文情况..........................................................................61致谢..........................................................................................................................62大连理工大学学位论文版权使用授权书......................................................................63-IV- 大连理工大学硕士学位论文1绪论1.1研究背景与选题意义图1.1基于显著性目标检测的应用示例。(a)目标分割;(b)图片渲染。Fig.1.1Exampleapplicationsofthesaliencydetection.(a)objectsegmentation;(b)picturerendering.近些年来,随着互联网的蓬勃发展,社交媒体的广泛普及以及移动网络的深入人类的生活,每天我们都要接触大量的图片信息。当然,因为人类具有超强的感知能力与识别处理的大脑,我们能有条不紊地从接触的图片集中完成分别归类,提取有效信息以及完成搜索识别等操作。但是一旦图片集大到亿万级别,并且需要追求效率时,我们如何花费最少的人力物力来完成各种图像处理任务就成了一个困扰复杂的问题。于是我们想到了依靠计算机来替代人工,因为计算机没有“疲劳感”,只需要给予能量就能一直工作,并且计算机有超强的计算能力与并发等优势。我们如果加以有效而合理的应用,计算机完全可以在许多领域以远超人工的能力与效率完成相应地工作。由此在计算机技术畛域孕育而生了一个热门的研究话题即人工智能(ArtificialIntelligence,AI)。随着计算机硬件的更新换代,人工智能中各种复杂算法的实现变的更加简单,尤其近几年深度学习的普及化,将人工智能聚焦到了前所未有的研究高度。例如,拥有强大的棋谱学习能力的AlphaGo机器人,凭借深度学习和强化学习战胜了各大人类围棋职业选手。各大公司依托可靠而又稳定的算法模型实现人脸识别,从而让我们生活诸如刷脸支付,进出门卫系统等变的更加便捷。公安机关依靠大量数据学习的检测系统保障着人民的生命财产安全,其中包括脚印识别,指纹检索以及嫌疑犯匹配等。此外,人工智能还应用在现-1- 基于双随机游走与深度多层网络的显著性检测在正大力发展研究和未来可期的各个领域,例如智慧交通,智能音箱,机器人物流,无人机跟踪和无人驾驶等。人工智能的井喷式发展正让其成为互联网之后又一场“工业革命”。而计算机视觉(ComputerVision,CV)是人工智能的不可或缺的分支,即计算机替代人眼与大脑完成各种图像视频处理的任务。视觉显著性近些年来在计算机视觉社区收获了日益渐长的关注。它一开始是关注在图片中预测出眼动点区域,逐渐地在近些年扩展到了识别和高亮出图片中吸引人类注意的目标。显著性目标检测广泛地应用在了其他计算机视觉和图像处理任务来提高它们的性能,例如目标分割[1],图片渲染[2],视频概要[3],目标跟踪[4],人再识别[5]等。显著性目标检测应用在图像处理上的实例如图1.1所示,我们可以将显著性目标检测作为预处理的过程,这样就会大大减少其他应用最终处理的复杂程度,并且还能提高其精度。例如图1.1(b),依靠显著性目标检测,图片渲染可以仅针对不包含重要内容的背景进行选择性操作,从而尽可能保存了显著区域的信息量。这样的操作可以大大提高图片渲染的意义与精度。(a)(b)(c)(d)图1.2显著图。(a)输入图片;(b)真值显著目标图;(c)本文基于双随机游走算法生成的显著性目标检测图;(d)本文基于深度多层网络算法生成的显著性目标检测图。Fig.1.2Saliencymaps.(a)inputimages;(b)groundtruth;(c)saliencymapsgeneratedbythedoublerandomwalksmethod;(d)saliencymapsgeneratedbydeepmulti-levelnetworkswithmulti-tasklearningmethod.显著性目标检测从任务角度来考虑就是每输入一张图片,算法模型会通过运算来输出一张同样尺度的高亮而突显出显著目标完整轮廓的灰度图,如图1.2所示。虽然当前有大量的算法从各个角度实现了不错的检测结果,但是该课题依然存在很多需要进一步-2- 大连理工大学硕士学位论文深入研究的地方。随着待处理图片场景的复杂化以及前景与背景在这些图片中高度相似,多目标与微小目标问题,还有实际应用中图片的背景包含各种类型的噪音混杂,使得检测的算法需要进一步优化,而不仅仅满足于针对理想化的图片取得不错的效果。此外,还有显著性目标检测应用在特殊领域需要面对各种特定场景的检测问题,例如生物医学领域的显著性目标检测,待处理任务面对的是复杂的灰度心电图,或者微小生物。再例如无人驾驶领域实时变化的交通图显著性目标检测,如何实时而又精确地处理视频拍摄的每一帧图片。总之,显著性目标检测的研究还面临很多具有挑战性的问题。综上所述,显著性目标检测是属于人工智能和计算机视觉中一个重要的研究分支。它所拥有的强大预处理优势让其可以应用在众多计算机视觉领域。但是随着应用场景的越来越苛刻的要求,以及实际生活应用中图片的前背景复杂化,显著性目标检测算法还有很多地方值得去改进与创新。1.2研究现状自从Itti等人[6]提出通过多尺度上度量局部对比度来检测显著性区域,大量计算型模型如雨后春笋被应用在了显著性目标检测上。[7]中有周密齐全地总结关于显著性目标检测的内容,包括研究内容,研究方法,研究现状,数据库介绍,当前算法对比等。在这一章节,我们主要会讨论与本文理论最相关的显著性检测算法。1.2.1传统启发式显著性检测方法早期显著性检测工作主要依靠启发式教育的视觉先验以及特征融合理论来实现,而且它们通常是从前景属性来考虑这些内容。Ma和Zhang[8]通过在一个局部相邻区域计算颜色对比度来检测显著性区域。Jiang等人[10]则通过低等级前景视觉刺激和形状先验来作最终的显著性预测。Cheng等人[11]不仅考虑全局颜色对比度,而且融入颜色直方图的思想来细分颜色特征和空间一致性来检测显著性。Jiang等人[12]则通过融合三个分别被称作独特性,关注性和目标性的视觉先验来评估显著性。Li等人[13]提出一个多图模型来捕获上下文显著性信息。以上都是启发式方法中从前景属性来研究显著性目标检测。后来,也有一些方法考虑前景属性来检测显著性。Wei等人[14]和Zhang等人[15]分别应用测地线距离和最小光栅距离来探索基于边界先验的显著性度量。而前景和背景属性相结合的方法也有所研究。Zhu等人[16]构建一个融合多前景和背景先验融合的优化的价值方程来检测显著性。早期的显著性检测更多考虑各种先验知识,这种先验的知识是人们根据视觉上的特性总结而得到的。其中,对比度先验和边界先验分别是前景与背景属性中最广泛被应用的先验知识,从以上的介绍中也可以看出,很多方法分别借助-3- 基于双随机游走与深度多层网络的显著性检测两种先验获得很好的检测结果。在本文基于双随机游走算法中,我们正是依靠对比度先验和边界先验分别获取前景与背景代理者的初始分布。1.2.2基于传播的显著性检测方法基于传播的技术在显著性目标检测上也赢得了非常多的关注,并且获得了非常满意的检测性能。一些方法考虑从前景种子点来传播显著信息。例如,Gopalakrishnan等人[17]利用在一个全连接图上和一个k-规则图上传播的时间来检测显著性区域。Yan等人[18]构建一个多层图,并且基于一个树模型来优化求解显著性值。Kong等人[19]利用一个扩展的随机游走算法来更进一步传播显著性种子点的标签。相对立的,与启发式研究中算法一样,一些人考虑从背景属性入手首先检测到背景区域,然后反向突显前景区域。这些方法基于背景种子点也获得了广泛而有效的应用,其中多数会结合边界先验来构建传播模型。Jiang等人[20]选择虚拟边界节点作为一个马尔科夫链中的吸收种子点,然后在传播过程中通过计算每个节点传播到这些点的吸收时间来计算显著性分数。Qin等人[21]构建一个基于背景属性的初始图,然后利用元胞自动机算法来探索相似区域的内在关系来检测显著性。Wang等人[22]通过构建一个新型的图结构,执行背景连接性约束来检测显著性区域。此外,有些方法分别从前景种子点和背景种子点来传播显著性信息。Yang等人[23]基于流型排序提出一个梯式串联方案分别排序前景和背景种子点来检测显著性目标。Li等人[24]利用正则化的随机游走排序结合相同的梯式串联方案来标注全图节点标签。Gong等人[25]则采用从教到学和从学到教相辅的策略,借助两个相串联的阶段分别传播前景和背景信息来检测显著性区域。与以上三种分两个阶段串联式考虑前背景属性的方法不同,我们是在一个统一的框架下模拟出前景与背景代理者同时来探索显著性区域。这样设计的优点就是,有别于前背景属性加成相独立,两个代理者是同时游走在一张图上,从而可以分享路径信息并且帮助对方纠正游走路线。所以它们的协作能够相互改善最终的检测结果。1.2.3基于监督学习与深度网络显著性检测方法为了融入高阶级内容,一些工作融入通过有监督学习探索任务驱动的方法。Judd等人[26]训练一个支持向量机来从背景区域区分出显著目标。Jiang等人[27]学习一个随机森林回归来映射区域的特征向量为一个显著分值。Borji等人[28]将眼动点预测公式表达为一个图片区域块有监督分类问题。Wang等人[29]基于一个学习到排序的方法论选择和融合完美的目标级目标候选来检测显著区域。近些年,基于深度学习的模型收到了很大的关注,并且获得了最先进的效果。因为深度网络的优越表现,我们在基于双随机游-4- 大连理工大学硕士学位论文走的模型中从预训练的FCN网络[30]中提取了深度特征来表示超像素。我们还提出了一个多任务学习的深度多层网络来检测显著性目标。深度学习的方法我们又可以分为三个类型:基于像素学习方法,基于超像素学习方法,基于目标候选学习方法。对于基于像素的深度学习方法,他们主要关注端到端的卷积神经网络的学习,也就是一次输入一张图片,经过网络处理直接输出一个与输入图片相同分辨率的像素级显著图。Li等人[31]提出一个用像素级精度作为输入图片的多层全卷积流和一个基于分割的空间池化流来同时检测显著性。在[32,33,34]中,周期性卷积神经网络被用在显著目标检测,算法中之前迭代生成的结果通常可以为当前迭代的显著结果优化提供上下文信息。Kuen等人提[32]出一个循环性注意机制的卷积-解卷积网络。网络将整幅图像作为输入然后输出一幅显著图,接着显著图渐进式地被选择的子区域局部优化,最终得到一个更好的检测结果。Wang等人[33]为了获取更精确的预测融入了显著性先验知识到一个循环的全卷积网络。Liu等人[34]使用一个分层循环卷积网络,通过一步步融入局部上下文信息来优化显著图的细节。对于基于超像素和目标候选的方法,他们首先将一幅图片分成一系列没用重叠的超像素或者目标候选,接着使用不同的深度网络来获取显著性度量。Li等人[35]将一幅图像分割成多层区域,并且通过卷积神经网络提取多层深度特征。接着一个三层的神经网络被训练为一个回归方程来计算显著值。Zhao等人[36]则对每个超像素为中心的窗结合局部或者全局的上下文信息来预测显著目标。Lee等人融[37]入手动提取的低级和高级深度特征到一个统一的深度学习框架来计算每个超像素的显著值。Wang等人[38]训练两个深度神经网络。第一个网络用来为图片区域块学习局部深度度量,然后结合送入第二个网络的全局的手动提取的特征来预测每个目标候选的显著性。Kim等人[39]使用一个剑姬神经网络作为一个多标签的分类器用来为目标候选预测二值图,并且结合这些图通过分层分割来获得最终的显著值。上文提到的工作,要么使用目标候选要么使用超像素,所以最终的检测结果并未达到最大精确。这是因为目标候选不能够检测目标边界的细节和细微的结构。而显著目标的超像素容易受复杂背景噪音的影响,从而通常不能够平滑高亮整个目标的内部。在本文提出的多任务学习的深度多层网络的方法中。我们结合了基于目标候选的卷积神经网络和基于超像素的卷积神经网络来互补检测显著目标。此外,我们还在网络框架中统一使用分类器学习和度量学习,它们可以为显著性目标检测获取更加有效的高级表示。-5- 基于双随机游走与深度多层网络的显著性检测1.3本文主要工作和章节安排本文针对显著性目标检测当前两个主要研究方向:基于传播的显著性检测方法和基于深度学习的显著性检测方法,各提出了一种综合考虑的新型有效融合方法。首先对于基于传播的显著性目标检测,当前方法都是从前景或者背景一个属性来研究种子点传播,或者串联式分别研究前背景属性的传播特性。也就是说,它们都没有完全同时考虑前景与背景属性的关系。在本文中,我们提出了一个基于双随机游走的新型显著性检测模型。我们同时模拟两个分别代表前景和背景的代理者,然后同时在一个统一的框架上探索显著性分布。两个代理者同时游走在一张图上可以分享路径信息,并且能够帮助对方纠正游走路线。所以两者的协作能够在每次迭代后相互改善检测结果。总结来说,基于双随机游走算法的主要贡献有以下三点:1)我们提出了一个新型的基于双随机游走的传播框架,其中前景和背景代理者基于双重启同时游走在一张图上;2)我们提出一个新型的距离度量来计算两个代理者的初始分布,它可以改善显著性计算中的测地线距离度量的性能;3)实验结果显示本方法在ECSSD,MSRA-5000,HKU-IS,PASCAL-S和SED五个标准数据库上,相比较当前先进的算法能够获得良好的性能。然后对于基于深度学习的显著性目标检测方法,对于之前基于目标候选或超像素的方法中,要么仅使用目标候选要么仅使用超像素的一面性,所以最终的检测结果并未达到最大精确程度。这是因为目标候选不能够很好地检测目标边界的轮廓和细微的结构,而显著目标的超像素容易受复杂背景噪音的影响,从而通常不能够平滑高亮整个目标的内部。在本文提出的多任务学习的深度多层网络的方法中,模型结合了目标候选和超像素的卷积神经网络来互补检测显著目标。超像素能够很好的保存显著目标的边界,并且移除无关的图片细节。而目标候选能够检测到目标细微结构以及平滑一致地突显整个显著目标。本文提出的一个融合互补的框架能够大大地改善检测结果。基于多任务学习的深度多层网络算法的主要贡献有以下三点:1)我们构建了一个目标候选层深度学习网络和一个超像素层深度学习网络来分别捕获高等级和低等级语义信息,并且结合两个互补的成分来检测显著目标;2)我们使用了多任务学习的技术在卷积神经网络中来同时优化度量损失和分类损失,从而能学习出更加鲁棒的特征属性;3)相比较之前仅基于目标候选或者超像素分割一个方向的有监督学习算法,该方法能够在PASCAL-S,SED2和HKU-IS三个标准数据库上表现出更好的性能。-6- 大连理工大学硕士学位论文1.3.1章节安排本文主要包括以下几个章节:(1)第一章绪论在这一章节主要介绍了图像处理和人工智能探讨的背景,显著性目标检测的意义,还有显著性目标检测中和本文研究相关的众多算法。尤其重点介绍了基于传播的和基于深度学习的检测方法,另外还还介绍了本文主要工作等内容。(2)第二章相关工作与出发点在这一章节主要会介绍与本文两个算法最相关的工作研究,以及本文算法的动机和出发点。基于算法的内容,还会介绍算法参考点与其对应的针对显著性目标检测作出的改进。(3)第三章基于双随机游走的显著性目标检测在这一章节主要介绍了基于双重启的双随机游走算法,算法框架模拟两个代理者分别表示前景与背景属性,然后同时游走在同一张图相互协助检测显著目标。章节首先介绍了获得前景与背景代理者初始分布的距离度量方法——传播距离度量,以及超像素深度特征的提取。然后重点介绍了多尺度随机游走过程和相比较引用的原方法做出的改进的地方。(4)第四章基于深度多层网络的显著性目标检测在这一章节主要介绍了基于多任务学习理论的深度多层网络算法。首先,分别详细地介绍了基于目标候选深度神经网络框架以及基于超像素的深度深度神经网络框架的构建。还介绍了多任务学习技术来同时优化深度网络中的度量损失与分类损失。最后介绍了一个多层元胞自动机模型来融合两个互补结果。(5)第五章实验结果与分析在这一章节主要介绍了两种显著性检测算法的详细实验过程,分别包括数据库,参数设置,实验环境,比较的方法与评价标准。然后分别从定量,质量,效率上比较了本文方法与当前先进算法的性能。此外,还介绍了算法模型中不同的参数设置的实验比较,算法失败的案例等内容。-7- 基于双随机游走与深度多层网络的显著性检测2相关工作与出发点本文主要介绍了两种显著性目标检测算法,分别从当前主流的两个研究方向来研究显著性目标检测的算法创新,即基于图模型传播以及基于卷积神经网络学习的方法。本章节会介绍两种新型算法的详细思路,出发点与创新点,并且会详细地比较与相似类型算法的优势。2.1基于双随机游走的显著性目标检测(a)输入图像(b)BSCA(c)MR(d)RR(e)Ours图2.1基于传播的显著性目标检测算法。越明亮的地方表示越显著。(a)输入图像;(b)-(e)分别由BSCA[21],MR[23],RR[24]和本文算法生成的显著图。相比较(b)使用一类种子点和(b)-(c)分别从背景与前景种子点独立地传播显著信息,本文方法(e)在一个统一框架下同时考虑前景与背景先验。Fig.2.1Saliencydetectionbydifferentpropagationmethods.Brighterpixelsindicatehighersaliencyvalues.(a)Input.(b)-(e)SaliencymapsrespectivelygeneratedbyBSCA[21],MR[23],RR[24]andtheproposedmethod.Comparedwith(b)usingone-classseedand(c)-(d)separatelydiffusingsaliencyinformationfrombackgroundandforegroundseeds,theproposedmethod(e)simultaneouslyconsidersforegroundandbackgroundcuesinaunifiedframework.显著性目标检测在启发式模型中主要还是通过获取前景或者背景先验来构思算法。这些先验属性能够帮助我们最大程度上节省检测到显著目标大致区域的花费,无论是时间上还是算法设计的复杂度上。当前很多算法主要利用前景的视觉先验来检测显著目标,例如,光属性[40],独特的外形[41],突出的颜色[11,42,43],空间分布[10,44],-8- 大连理工大学硕士学位论文几何性[45,46],目标性[47],关注性[12]和语义信息[48]。相对立的,一些方法[14,15,16,17,18,19]尝试从背景先验考虑,然后抑制背景反向来突显出显著目标。其中,最广泛使用的图像背景假设是沿着图片边界的区域更可能属于背景。这种假设被称为边界先验,并且能够有效地从复杂场景中区分出显著目标[17,18,19]。还有一些研究者结合前景与背景属性一起来构建显著性模型。在[23,24,25]中,显著性信息通过一个双阶段组合分别从前景与背景种子点传播到未标签的区域。但是,这些方法并没有同时充分的考虑前景与背景属性的关系。在本方法中,一个基于双随机游走的新型显著性目标检测模型被提出。模型模拟两个代理者在一个统一框架中来同时探索显著区域的分布。它们分别被称为前景代理者和背景代理者,并且分别“代理”前景与背景属性来检测显著区域的分布。两个代理者同时游走在一张图模型上,并且会分享路径信息和相互帮助对方纠正游走路线。所以,它们的协作可以在每次迭代之后相互改善检测的结果。不同于传统的随机游走方法,它们仅依靠一个代理者,而本方法扩展到了两个代理者同时游走。两个代理者从它们自己的初始分布出发,并且根据一个公共的转移矩阵穿越整张图模型,但是它们会在迭代的过程中交互游走信息来实时纠正它们的移动路线。随着迭代次数的增加,两个对立的代理者会占据平衡,并且它们的分布也趋于稳定,也就是说前景与背景的分布也逐渐“明朗”。最后,我们使用前景代理者占据每个节点的概率来度量每个节点的显著性。由不同传播算法生成的显著图如图2.1所示。本方法的创意主要是受启发于[49],在[49]中多随机游走算法在图片协同分割领域获得了很好的检测结果。本文算法在三个方面与[49]有很大区别。首先,我们增加了一个时不变重启来克服单独时变交互重启容易使两位代理者最终处于一个局部均衡的状态的问题。第二,替代使用固定先验概率来决定交互规则,我们依据每次迭代的结果动态地计算贝叶斯公式中的先验概率,这样可以自适应地为更好的检测结果来平衡两个代理者的权重。实验结果显示该两点优化可以大大地提高显著性检测的鲁棒性。第三,我们提出了一种新的距离度量方法来更加规范地计算初始的前景与背景分布,而不是和[49]一样简单地选择图片中心和边界节点作为种子点。我们将这种新型距离度量称为传播距离,它可以在显著性目标检测中缓解测地线距离度量的中心模糊问题。本方法是基于超像素分割完成图模型显著性检测的,超像素的优势是可以很好地保存显著性目标的边界,并且能够帮助移除图片中不相关的细节。在本文工作中,我们从全连接网络(FullyConvolutionalNetwork,FCN)[30]提取深度特征来表示超像素。FCN特征可以同时捕获图片的低级视觉信息(从早期网络提取)和高级的语义信息(从后期网络提取)。-9- 基于双随机游走与深度多层网络的显著性检测(a)输入图像(b)真值(c)LEGS(d)KSR(e)MCDL(f)Ours图2.2基于不同事例的有监督方法的检测结果图示。(a)输入图像;(b)真值;(c)-(d)分别是基于目标候选的显著性检测方法LEGS[38]和KSR[29]的结果;(e)基于超像素分割的显著性检测算法MCDL[50]的结果;(f)本文方法。Fig.2.2Saliencydetectionbydifferentsamplesbasedmethods.(a)Input,(b)Groundtruth,(c)-(d)ResultsoftheproposalbasedmethodLEGS[38]andKSR[29],(e)ResultsofthesegmentbasedmethodMCDL[50],(f)Ours.2.2基于深度多层网络的显著性目标检测前一小节介绍了当前显著性检测方法可以分为基于前景属性和基于背景属性两个研究方向,实际上显著性目标检测方案还可以划分成基于像素[6,40],基于超像素分割[11,27,51]和基于区域目标候选[29,38]三类。基于像素的方法主要从像素中通过提取各种类型的手工制作的低级特征来检测显著目标,例如颜色,纹理,边界等等。最近,从卷积神经网络中提取更高级别的语义特征被很好的融入这些算法中[31,32,33,34,52]。基于分割的方法使用超像素作为基础图片组成,并且计算局部到全局的差异来表示显著区域。这些方法能够捕获局部形状先验,所以能够描述出很好的目标轮廓。但是,它们并不能很好地突显整个显著目标。区域目标候选在最近工作中被应用在了显著性目标检测中,它旨在识别图片中所有的目标事例无论这些目标的种类。使用目标候选可以很大程度上限制显著目标搜索空间,并且精确地标注显著目标的位置以及平滑地高亮目标的内部区域。尽管当前一些基于目标候选的算法[29,38]也取得了不错的成绩,但是这些算法由于目标候选的限制影响了检测效果。例如,它们经常不能很好地检测目标细-10- 大连理工大学硕士学位论文节和精细构造,因为几乎没有一个目标候选能够完全与图片真值重叠。此外,它们也无法平滑地突显多个显著目标,因为一个目标候选通常仅包含一个目标事例。为了解决以上的问题,我们融合了基于区域目标候选和基于超像素分割的过程来检测显著目标。具体来说,我们构建了两个分别基于目标候选和超像素分割的独立的深度神经网络,从而让两个网络作为相辅相成的算法组成。接着使用多层元胞自动机模型来融合两项显著性先验。图2.2给出了几个示例,显示了结合基于目标候选和基于超像素分割处理的优势。图中基于目标候选的方法[29,38]检测显著目标细微结构失败了(例如鹿的头部),而基于超像素分割的方法不能够平滑地突显目标的主要部位。通过融合两者信息,本文方法可以很好地检测显著目标包括轮廓形状,并且抑制了背景复杂的噪声。显著性目标检测是为每个图像组成(即像素,超像素分割,或者目标候选)评估一个0到1显著性分值的过程。在之前的深度卷积神经网络工作中,分类器(例如softmax)被训练在提取的特征上来决定每个成分的显著分数。它们关注于从负事例中分离出正事例,但是类内变化并没有很好的维护。这种变化对发现视觉上和语义上相似的事例从而拥有更加精确的分类至关重要。为了克服以上限制,我们明确地使用度量损失(也就是triplet)定义了深度网络中一个相似度约束,并且使用多任务学习技术来联合优化度量损失和分类损失,所以能够为显著性目标检测学习更加鲁棒而有判别性的深度特征。-11- 基于双随机游走与深度多层网络的显著性检测3基于双随机游走的显著性目标检测图3.1基于双重启的双随机游走算法的总流程图。首先,模型生成两个前景和背景代理者的初始分布。接着,两个代理者同时游走在多尺度图模型上来探索显著信息。最后,结合前景代理者的四个尺度上后验概率作为最终的显著图。Fig.3.1Pipelineoftheproposedalgorithmbasedondoublerandomwalkswithdualrestarts.Firstly,twoinitialdistributionsoftheforegroundandbackgroundagentsaregenerated.Then,twoagentswalktogetheronthemulti-scalegraphstoexploresaliencyinformation.Ultimately,fourposteriordistributionsoftheforegroundagentareaveragedasthefinalsaliencymap.在这一章节主要会介绍一种结合双重启的双随机游走的新型显著性目标检测模型。模型中两个分别代表前景和背景属性的代理者(也被称作游走者)同时游走在一张图像上去探索显著性的分布。首先,本文提出一种被称为传播距离度量方法,并且会使用它取代测地线距离度量[14]去计算两个代理者的初始分布。然后,两个代理者会始发于各自初始分布在待检测图像上来回游走和详细研究。而在每次移动后,它们还会停下来与对方交互一次,从而结合对方游走信息来纠正自己的游走路线。这种纠正正是依靠重启机制实现的,重启机制会强制代理者们在每次游走之后,以一定的概率返回到一些我们期望的节点,从而重新规划更完美的游走路线。为了更合理规划重启,本文采取了一种双重启机制来保证两个游走者的交互与权衡。另外,为了增强特征的辨识能力,本文从全连接卷积深度网络[30]提取深度特征来表示每个游走节点。充足的实验证明了本文提-12- 大连理工大学硕士学位论文出的方法能够在五个标准图像库上相比较现有算法有很大的优势。本章节介绍的算法综述如图3.1所示。3.1初始分布算法模型在这一小节主要会介绍通过传播距离度量结合图像对比度先验以及边界先验来获取代理者的初始分布。本文提出的传播算法与绝大多数传播算法[21,22,23,24,25]一样也是基于超像素完成的,超像素的优势就在于它会针对图像进行一次预处理,即将图像中相邻外观相似的像素聚合成一个个像素块。这样的像素块能够很好的保存显著性目标的边界信息,以及帮助移除不相关的图像细节,从而为后续算法模型的传播相比较像素节点提供了更大的便捷。此外,像素点的合并能够为后续计算减少节点的数量,从而大大提高算法的计算效率。本文是采纳了经典的SLIC算法生成固定数量的超像素的,效果图如图3.2所示。(a)输入图像(b)N=50(c)N=100(d)N=200(e)N=300图3.2不同尺度的SLIC算法超像素分割。Fig.3.2ThedifferentscalesofsuperpixelsaresegmentedbySLICalgorithm.3.1.1深度特征提取在[30]中,全连接卷积深度网络(FullyConvolutionalNetwork,FCN)是直接输入任意大小尺度的图像来训练网络的,并不需要任何预处理和后处理复杂操作。所以可以不针对输入图像进行任何操作完成一次一整张图像的深度特征提取。尽管FCN网络一开始是为语义分割任务而设计,并且也是在语义分割图像库上完成训练的,但是实验表明直接从预训练的FCN上提取深度特征,没有任何针对显著性检测再训练一样可以在本文工作上获得很好的检测结果。如图3.3所示FCN包含16层卷积层。为了获取到具有辨识性的特征表示,当一幅图像传入网络中,我们使用一个精细层和一个粗糙层串联形成的特征图块来表示超像素-13- 基于双随机游走与深度多层网络的显著性检测的特征。这两层最终选择的是FCN中的pool1层(对应精细层)和pool5层(对应粗糙层)。这样的选择好处是,精细层可以获取图像的局部特性,而粗糙层能够捕获图像的全局信息。如图3.3所示,pool1层和pool5层分别是34934964和2222512大小尺度。本文首先将这两层变换为与输入图像一样的尺度。然后每个超像素内的像素的深度特征平均化来表示该超像素,也就是一个576维的向量。本文工作中是利用MatConvNetmatlab工具包中已训练FCN完成特征图提取的。图3.3从已训练的FCN中提取深度特征。输入图像是任意大小未经任何处理。在图片输入到深度卷积网络之后,本文串联pool1层和pool5层表示成深度特征,并且这两层会被调整为与输入图像同等大小尺度。最终每个像素点的深度特征为576维的向量。Fig.3.3TheDeepfeaturesextractedfromthepre-trainedFullyConvolutionalNetwork.Inputimageisinanarbitrarysizewithoutanyoperation.Aftertheimagefedtothisnetwork,wecombinepool1layerwithpool5layerasitsfeatures,andbothlayersareresizedtothesamesizeastheoriginalimage.Finaldeepfeaturesforeverypixelisavectorof576dimensions.3.1.2传播距离度量与初始背景分布首先,模型将一张输入图片分割成N个超像素{s,...,s}。针对这些超像素节点构1N建一张无向权重图,图中节点是所有超像素,权重边连接所有相邻的节点。n,...,nij1k表示一条连接超像素节点s和s的路径,也是由一序列的节点构成,并且节点的连续对ij在空间上是相邻的。其中n表示路径上第i个节点。当给定一个路径花费函数c,节点siimin和s间的最短路径可以表示为jijminargminc(),(3.1)ijijijij-14- 大连理工大学硕士学位论文其中表示节点s和s间所有可能的相通路径集合。而路径花费函数c的定义取决于应ijij用场景。在[14]中,花费函数c被定义为测地线距离度量,即路径花费为沿着两点路径累加所有边权重的和。数学公式上可以表示为k1cgd(ij)||(fnm1)f(nm)||2,(3.2)m1其中f(n)表示节点n的特征向量(也就是576维的深度特征),||.||表示欧式距离。mm2(a)(b)(c)(d)(e)图3.4不同距离度量生成的显著图对比。所有结果都是基于相同的深度特征生成的。(a)输入图像。(b)-(e)基于使用测地线距离度量的边界先验的结果[14],使用传播距离度量的边界先验的结果Ss(),使用欧式距离度量的对比度先验的结果[53]和使用传播距离度量的对比度先验的结果biSs()。fiFig.3.4Comparisonofsaliencymapsbydifferentdistancemeasures.Allresultsaregeneratedbasedonthesamedeepfeatures.(a)Inputimages.(b)-(e)Resultsbasedonboundarypriorwithgeodesicdistance[14],boundarypriorwithpropagationdistanceSs(),contrastpriorwithEuclideandistance[53]andbicontrastpriorwithpropagationdistanceSs().fi基于边界先验,Wei等人[14]通过公式(3.1)和公式(3.2)获取每个节点到图片边界的最短路径,然后使用计算得到的最短路径花费来检测每个节点的显著性。因为沿着最短路径的积累差异可以让测地线显著性检测算法自适应于图片上下文,所以测地线显著性检测算法可以有效的检测到大多数图片中显著性目标的大致位置。但是正如作者自己介绍的,当图片中心附近存在一大片光滑的背景区域,内部节点看上去就会近似相对-15- 基于双随机游走与深度多层网络的显著性检测等,以至于它们的外表差异值就会是近乎等于零的小。所以许多小的权重值就会沿着到图片边界这条长路径被累加,从而会生成一个十分杂乱无章的中心区域(如图3.4(b)所示)。此外,当图片包含复杂的场景,对于一个远离边界的节点,就会在沿着它到图片边界最短路径上存在许多属于不同类型上下文的相邻节点,这依然会导致错误的检测。为了解决上面提到的问题,我们设计了一个新型的距离度量(也就是所说的传播度量)作为花费函数c。公式表示如下:k1kcpd(ij)||(fnm1)f(nm)||2||(fnm)f()||n12,(3.3)m1m2其中公式的第一项即为公式(3.2)距离度量的开更号表示,第二项为累加沿着路径的所有节点与起始节点间特征差异,实际上为了塑造起始节点关于整个路径的全局差异化项。我们从实例中来看这样设计的好处,当分别为一个前景节点和一个背景节点计算它们到图像边界的最短距离,背景节点相比较前景节点通常拥有更多与其相似节点在最短路径上。所以前者相比较后者可以获得更大的值。最终结合第一项,传播距离可以使前景节点更加显著,并且中心模糊问题也有效地被缓和了(如图3.4(c)所示)。对于一个超像素节点s,我们利用其到图像边界的最短路径花费来计算初始的背景i(0)分布p()s,公式如下:biminSs()minc(),bipdijj(0)1Ssb()i(3.4)p()s,biNi1(1Ssb())imin其中表示所有图像边界上节点的集合,表示节点s和s间的最短路径。我们归一ijij化Ss(),i1,...,N的值到[0,1],符号表示为Ss()。归一化后的所有超像素计算结果可bibi以得到一张显著图,如图3.4(c)所示。本文中所有最短距离计算都是基于迪杰斯特拉算法完成的。3.1.3初始前景分布根据对比度先验,显著性区域通常和它们相连的上下文有很大的差异特征。而且,一个区域显著性主要取决于它和比较靠近区域的对比度,而离它较远的区域的影响则甚微。也就是说,空间关系同样在人眼注意机制中承担了不可或缺的作用。对于一个超像素节点s,它的显著值可以定义为与所有其他超像素节点的对比度的i权重和。其中权重根据成对节点间的空间距离计算得到,如下:-16- 大连理工大学硕士学位论文2||()rsr()||sij2wss(,)exp(),(3.5)ij22式中参数控制空间权重的力度,r()s表示节点s的空间矢量。所以,初始前景分布ii(0)p()s可以计算如下:fiminSsf()iwss(,)ijcpd(ij),j1,...,;NjiSs()(3.6)(0)fip()s,fiNi1Ssf()imin表示节点s和s间的最短路径。我们归一化Ss(),i1,...,N的值到0与1之间,符ijijfi号表示为Ss()。归一化后的所有超像素计算结果可以集合为一张显著图,如图3.4(e)fi所示。表3.1总结了两个初始分布计算的主要步骤。表3.1基于传播距离度量的初始分布算法流程Tab.3.1Propagationdistancebasedinitialdistributions算法1:基于传播距离度量的初始前景与背景分布输入:图片;超像素数量N;公式(3.5)中参数(0)(0)输出:初始前景分布p()s和初始背景分布p()sfibi1:采用MatConvNet工具包中已训练FCN获取所有像素的深度特征N2:基于SLIC算法分割N块超像素s,然后提取超像素的深度特征f(),si1,...,N。ii1i3:通过公式(3.5)计算每个空间距离wss(,)ij4:fori=1:N5:通过公式(3.3)和公式(3.4)计算节点s的基于边界先验的显著性值Ss()和ibi(0)背景分布值p()sbi6:通过公式(3.3)和公式(3.6)计算节点s基于对比度先验的显著性值Ss()和ifi(0)前景初始分布p()sfi7:endfor(0)(0)(0)(0)(0)(0)8:初始前景和背景分布p[p(),...,sp(s)]和p[p(),...,sp(s)]ff1fNbb1bN3.2基于双随机游走的显著性检测算法根据人类注意机制,当人们观察一幅图像的时候,总是连续地从一个目标转移注意视线到另一个目标。我们可以将这样的视野转移的过程看作一个图上信息传播的过程,-17- 基于双随机游走与深度多层网络的显著性检测其中一个节点关联一个图像上的区域,例如超像素,图像块等。此外,人类的眼睛更喜欢转移向相对独特的目标,所以图中每条边可以被赋予相连的两节点的权重。至此,当我们围绕一幅图构建好无向权重图的节点和边,每个区域块就可以根据各种传播算法计算得到显著值。在本文中,算法采取了一种新型的,依靠两个代理者同时游走在一张图上的双随机游走框架来检测显著性目标的。3.2.1图模型的构建图3.5无向图节点连接的三标准图示。Fig.3.5Illustrationofthenodeconnectionofanundirectedgraph.我们首先对任意一幅输入图像构建一个无向图(,),其中是由所有超像素构成的节点集合,是包含权重值的边集合。我们基于以下三点标准构建节点连接性:1)共有边的相邻节点相互连接;2)每个节点还和与其相接触节点相邻的节点连接;3)所有沿着图像边界的节点相互连接。无向图节点的连接模型如图3.5所示,蓝色线表示边节点连接,灰色点表示某个中心点,紫红色线表示该点与相邻节点的连接,大红色线表示该点和与其相邻节点相邻的节点连接。一般地,连接s和s两节点的边权重w定义如ijij下:2||()fsf()||sij2exp(),ife2ijwij2,(3.7)0,otherwise式中是控制权重力度的尺度参数。我们让W[w]表示图的关联矩阵,而ijNNDdiagdd{,12,...,dN}表示次数矩阵,其中每个子项dijwij。所以转移矩阵A可以对应地如下计算得到:1ADW。(3.8)-18- 大连理工大学硕士学位论文因为无向图的边权重中ww,所以A是对称矩阵。这里我们分别将前景和背景ijji(0)(0)(0)(0)(0)(0)代理者的初始分布向量表示为p[p(),...,sp(s)],p[p(),...,sp(s)]。ff1fNbb1bN3.2.2单随机游走(0)()k当给定转移矩阵A和初始分布p,经过k步转移后的概率矩阵p可以计算为:()k(k1)2(k2)()k(0)pApAp=...=Ap,(3.9)(k)(k)(k)()k公式中p[p(),...,sp(s)],p()s表示当经过k步转移后代理者在节点s上被1Nii发现的概率。这个过程随着迭代次数的增加,整个随机过程马尔科夫链会趋于一个独一()k无二的稳定状态分布πlimp。k当前存在的显著性检测模型[17,54,55]探索随机游走在这平衡状态时候的属性来检测显著性。它们经常突显一些对比度高并且微小不连续的区域,但是不能高亮整个显著目标的内部。并且,当一些区域被初始分布错误检测的时候,随着迭代这些结果也会慢慢地被错误积累,最终显著图往往会呈现模糊和包含噪音的结果。为了解决这个问题,基于重启机制的随机游走模型被提出[56,57]。3.2.3基于重启机制的单随机游走在[56]中,代理者的随机游走会在每次转移后以一定概率被强迫返回到一些固定的节点。这些固定节点由预先指定的重启分布所决定。通过这个设计,随机游走就会倾向于游走向一些我们期望的节点,这些期望的节点集正是我们通过先验知识预判的认为更可能是显著的区域。具体来说,一个代理者从它可能出现的一些节点出发,然后根据转移矩阵A游走在整张图模型上。在每次迭代之后,代理者可能以一定概率返回到重启分布预设的节点上。我们定义这个循环游走的过程如下:()k(k1)p(1)Apφ,(3.10)Nφ[(),...,(s1sN)]是满足i1()1si,()si0规范的重启分布。()si表示代理者可能在节点s重启的概率。重启分布的影响受控于重启概率。特殊地,当0,整个i基于重启的单随机游走过程就会退化为同公式(3.9)一样的传统随机游走过程。(0)(0)图3.6说明了重启分布在基于随机游走的显著性目标检测中的影响。当pp,f()k然后通过公式(3.9)计算获得的平衡分布πlimp作为最终的显著结果。另一方k面,通过加上具体的重启分布项来强迫代理者偏向于某些预设节点集,让其倾向在这些区域附近检测相关的显著目标(详细如图3.6(b)-(e)第二行所示)。当没有加上重启机制,-19- 基于双随机游走与深度多层网络的显著性检测随机游走模型会产生一片模糊的检测结果如图3.6(a)所示。由此可以看出,重启机制能够帮助代理者修正一些不准确的路径规划,从而改善基于随机游走模型的显著性检测结果。在[52]中,一个金字塔式多级结构上粗尺度的显著图作为精尺度上显著性传播的重启分布,一定程度上改善了检测结果。但是,粗尺度上的一些噪音也会被带到精尺度上,从而造成最终的显著图依旧呈现一些噪音和模糊。(a)(b)(c)(d)(e)图3.6重启机制在基于随机游走的显著性检测算法中影响。(a)输入图像(上)和不带重启机制的随机游走生成的显著图(下)。(b)-(c)分别选择不同目标区域作为重启分布(上)和基于对应重启分布的单随机游走生成的显著图(下)。(d)重启分布Ss()(上)和基于对应重启分布的单随机游fi走生成的显著图(下)。(e)重启分布Ss()(上)和本文最终方法生成的显著图(下)。biFig.3.6Impactsofrestartdistributiononsaliencydetection.(a)Aninputimage(top)andsaliencymapgeneratedbyrandomwalkwithnorestart(bottom).(b)-(c)Restartdistributionsrespectivelyhighlightingdifferentobjectinstances(top)andsaliencymapsobtainedbysinglerandomwalkwiththecorrespondingrestartdistributions(bottom).(d)RestartdistributionSs()(top)andsaliencymapfiobtainedbysinglerandomwalkwiththecorrespondingrestartdistributions(bottom)(e)RestartdistributionSs()(top)andsaliencymapobtainedbyourfinalmethod.bi3.2.4基于双重启机制的双随机游走基于[49]中的多随机游走框架,我们增加另一个使算法更鲁棒的重启分布λ来检测显著性,公式如下:(k)(k1)(k1)p(1)Apφλ,(3.11)式中φ和λ是两个重启分布,0,,1是冷却因子,{,}fb表示前景和背景代理者,两个代理者共享同一个转移矩阵A。每个代理者以1概率独立于另一个代理者游走在同一张图模型上,但是游走的过程中,每个代理者会有以概率返回根据-20- 大连理工大学硕士学位论文()k()k()k时变的重启分布φ[(),...,s(s)]决定的某些节点。这个时变的重启分布是会1N根据上一次迭代两个代理者检测结果不断调整的,后文会有详细介绍。此外,每个代理者还会以概率返回一个时不变的重启分布λ[(),...,s(s)]。时不变的重启分布1N主要是为了全局上的指向作用以及一定意义上防止代理者偏向错误路线。公式(3.11)第二项时变的重启分布在本文中定义为一种代理者们交互路径信息的项。两个代理者会在每次迭代后交互一些有意义的路径信息。具体实现的公式如下:()k(k1)()k()kφ(1)φ(p,p),(3.12)fb式中是一个位于0到1之间的常数,控制交互信息的接受度。是一个交互规则函数,由两个代理者在第k次迭代中的概率分布所决定,这个概率分布正是间接检测的前景与背景的分布情况。公式如下:()k()k()k()k(p,p)Λp,(3.13)fb()k()k其中Λdiagp{(|),si1,...,}N是一个对角矩阵,它融合了两个代理者每次游走的i()k信息,从而为下一次代理者游走出发提供有效的指导。矩阵中每个子项p(|)s可以i称为后验概率,根据贝叶斯公式可以写成以下形式:()k()k()kp(|)sip()p(|)s。(3.14)i()k()k()k()kp(|)sfp()fp(|)sbp()bii()k求解的后验概率p(|)s物理意义上表示在第k次迭代后,节点s被代理者占据的概ii()k率。式中似然函数p(|)s则表示代理者被发现在节点s上的概率,我们可以根据ii(k)前面公式(3.11)每次迭代后获得。p()是先验概率,在[49]中为相等的固定概率值,(k)(k)应用在基于双随机游走的显著性检测上即p()fp()b0.5。当两个代理者在多次迭代后达到平衡状态,每个节点s的后验概率就会满足1pbs(|)pfs(|)。我们将前景iii代理者的后验概率作为节点s的显著性值。i-21- 基于双随机游走与深度多层网络的显著性检测(a)(b)(c)(d)图3.7单重启与双重启机制实验结果的比较图示。(a)输入图像;(b)真值;(c)单重启φ结果;(d)双重启φ和λ的结果。Fig.3.7Comparisonsofsingleanddualrestarts.(a)Input.(b)Groundtruth.(c)Resultswithsinglerestartφ.(d)Resultswithdualrestartsφandλ.公式(3.13)的时变交互的重启机制可以促进在某些节点上应占主导的代理者相比较另一个代理者更加具有优势。但是,如果两个游走者在一些节点上都没有偏置,这些节点就可能被两个游走者以相似的概率一直同时占据(也就是一种局部均衡状态)。这样的后果就是伴着迭代渐深,两位代理者会相互“角力”难分胜负,算法并不能区分该区域是属于前景还是背景,最终显著图在这些区域依旧会呈现一种较模糊的状态。此外,如果初始分布在一些节点上非常不精确,那交互的迭代也可能带来错误信息的累加,从而造成一个不可控的结果(如图3.7(c)所示)。最后考虑以上问题,我们增加了一个时不变的重启规则来更进一步地纠正它们的游走路线。基于边界先验,我们定义背景代理者的重启分布如下:1,ifsi()s,(3.15)bi0,otherwise式中的表示沿着图像边界的超像素节点集合,表示节点集合的大小。而对于前景代理者的重启分布,由于我们很难提前既省力又精确地获得显著目标的先验知识,所以-22- 大连理工大学硕士学位论文在这里我们直接设置前景重启分布归零,即λ=0。一旦前景代理者遇到路径规划错误,f它会退出游走,等待背景代理者给它提供有效的图分布信息再规划更合理的游走路线。按这样的重启机制规划以后,模糊的背景区域得到了更好的平滑,而被错误抑制的显著性目标重新被高亮,如图3.7(d)所示。(a)输入(b)k=0(c)k=1(d)k=3(e)k=5(f)k=8(g)k=10(h)k=20(i)k=final()k图3.8双重启机制在显著性检测上的影响(也就是前景游走者的后验概率分布p(|)fs多i次迭代过程的图示)。实验都是在同一个N=200超像素尺度下比较的。(a)输入图像和真值;(b)-(i)第一行和第二行分别是单重启(φ)和双重启(φ和λ)机制随机游走算法在第k次迭代中的结果。()kFig.3.8Theimpactsofthedualrestartsonsaliencycomputation(i.e.,p(|)fsposterioriprobabilitydistributionoftheforegroundagent).(a)Inputimageandgroundtruth.(b)-(h)Thefirstandsecondrowsarerespectivelytheresultswithsinglerestart(φ)anddualrestarts(φandλ)ateachtimeinstancek.图3.8说明了双重启机制对于本文双随机游走算法的影响。图中第一行和第二行分别表示前景代理者在单重启和双重启下迭代的检测结果。图3.8(b)给出了通过公式(3.6)获得的初始前景分布,两种游走中初始前景分布一样。由于输入图像包含很复杂的场景,初始检测的显著分布呈现的状态十分模糊和杂乱。这种问题也一直存在于两种游走的前期状态,如图3.8(c)-(d)所示。但是随着迭代的继续,显著目标逐渐从图像的背景中突显出来。然而,当一些区域被前景代理者和背景代理者都不偏不倚地占驻,两者博弈势均力敌,时变重启项会趋向于在这些区域将两者带入一种局部平衡的状态。这样就造成这些区域的显著性值一直不高不低,区域属性无法判断,在显著分布图上也就是一种模糊的状态。如图3.8(e)-(h)第一行所示,黄花周围区域的检测正是呈现这样一种状态。而通过增加第二项时不变重启机制之后,背景先验促进两个代理者在图上更深入的游走和“瓜分占据”节点,直到新的平衡出现。如图3.8(e)-(h)第二行所示,黄花周围区域的模糊状态就得到了明显改善。两者检测结果的定量评测在实验部分也有详细演示,我们可以看出算法的整体性能有了明显的改善。-23- 基于双随机游走与深度多层网络的显著性检测(a)(b)(c)(d)图3.9公式(3.14)不同先验概率设置的比较。(a)输入图像;(b)真值;(c)固定先验概率[0.5,0.5]的实验结果;(d)公式(3.16)动态先验概率的实验结果。Fig.3.9Comparisonofdifferentpriorprobabilitysettingsin(3.14).(a)Input.(b)Groundtruth.(c)Resultswiththefixedpriorprobabilities[0.5,0.5].(d)Resultswiththedynamicalonesdefinedin(3.16).(a)输入图像&真值(b)k=0(c)k=5(d)k=10(e)k=20图3.10前背景游走过程图示。(a)输入图像和真值;(b)-(e)迭代k次后,前景游走者概率分布(上)和背景游走者概率分布(下)。Fig.3.10Illustrationofthewalkingprocessoftheforegroundandbackgroundagents.(a)Input&Groundtruth.(b)-(e)theprobabilitydistributionoftheforegroundagents(top)andtheprobabilitydistributionofthebackgroundagents(bottom).通常,当我们使用边界先验作为算法的一部分(本文中包括初始背景分布提取算法和时不变重启分布机制的设计都有所涉及),容易导致显著性目标接触边界的部分被不合理的抑制。这个公认的问题在很多经典算法中都有探讨[20,21,22,23,24,25],-24- 大连理工大学硕士学位论文本文为了最大程度上限制这个问题,针对公式(3.14)设计出一个动态先验概率的方案。(k)先验概率p()动态地控制两个代理者的权重,迫使交互路线信息的时候,前景代理者占据着主导地位而背景代理者协助它去交换有益的信息,这样一定程度上摒弃一些背景代理者提供的信息。具体来说,在每次迭代先验概率动态地计算如下:N(k1)(k)i1p(|)bsip()fNk1k1i(p(|)fsip(|))bsiN(k1)i1p(|)bsi,(3.16)N()k(k)p()1bp()f。因为绝大多数情况下,背景区域的占图像比例都超过先验的目标,这也符合人更关()k注图像上较小突显目标的人眼关注机制。最终动态先验概率机制使得概率p()f大多数(k)情况下比p()b更大。实验结果显示显著区域可以被更完整的检测,如图3.9所示。(a)输入图像(b)N=50(c)N=100(d)N=200(e)N=300(f)final图3.11多尺度融合结果图示。(a)输入图像;(b)-(e)不同超像素尺度N下的实验结果;(f)最终四个尺度融合的结果S。Fig.3.11Comparisonoftheresultsbasedonmultiscalerandomwalks.(a)Input.(b)-(e)Thesaliencyresultsofthedifferentscalesuperpixels.(d)Thefinalresultswhichaveragethesaliencymapsfromallscales图3.10展示了本文算法双随机游走算法迭代的过程。图3.(b)是第一小节计算得到的前景与背景代理者的初始分布,它们分别从自己初始指定的节点出发,然后随着迭代的深入,前背景代理者在转移矩阵和信息交互的双指引下游走于图上,两者一步步占据自己区域,最终分布趋于稳定形成最终前背景分布图。图中当迭代到20次显著图分布已经趋于稳定,前期迭代分布一些模糊区域也逐渐分明。-25- 基于双随机游走与深度多层网络的显著性检测表3.2基于双随机游走的显著性检测算法流程Tab.3.2SaliencyDetectionviaDoubleRandomWalks算法2:基于双随机游走的显著性检测算法流程m输入:图片;m个尺度超像素{N};公式(3.11)中参数和,公式(3.7)ii12中参数,最大迭代次数K输出:最终显著图S1:采用MatConvNet工具包中已训练FCN获取所有像素的深度特征2:forj=1:mNj3:基于SLIC算法提取N个超像素{}s,并且映射图的深度特征到每个超像素,jii1即为f(),si1,...,Nij(0)(0)4:通过Algorithm1获取初始前景和背景分布p和pfb5:通过公式(3.7)和公式(3.8)计算转移矩阵A6:设置时不变重启分布λ=0和通过公式(3.15)计算λfb7:初始迭代次数起始值k18:while没有收敛或者k未达到最大迭代次数Kdo9:通过公式(3.13)更新交互规则()()k()k10:通过公式(3.12)更新时变交互式重启分布φ和φfb11:通过公式(3.11)基于双重启的双随机游走算法更新当前前背景概率分布12:设置kk113:endwhile14:endfor()im15:平均不同尺度显著图{M},并通过[58]中方法优化得到最终显著性检测结果Ssi13.2.5多尺度传播与优化显著性检测的精度对于超像素数量很敏感,因为显著性目标可能出现在不同的尺度上。为了让本文算法在复杂的场景更加的鲁棒,我们分别在m层不同尺度超像素上(表m示为{N})进行双随机游走检测显著性目标。最后,我们平均所有尺度上的显著图作ii1为显著性检测结果,并且利用[58]中一种边界腐蚀方法来优化显著目标边界的细节。我()i们将每一层尺度上双随机游走达到平衡后,由公式(3.14)求得的显著图表示为M,那s么最终显著图求解公式如下:-26- 大连理工大学硕士学位论文m1()iSref{Ms}。(3.17)mi1式中ref{}表示边界腐蚀方法。多尺度融合实验效果图如图3.11所示。表3.2总结了基于双随机游走的显著性目标检测算法的主要步骤。-27- 基于双随机游走与深度多层网络的显著性检测4基于深度多层网络的显著性目标检测本章节所介绍的算法综述如图4.1所示,其中算法框架由两个互补的卷积神经网络(CNNs)所组成:一个多任务的目标候选(proposal-wise)层和一个多任务的超像素分割(segment-wise)层。两组网络保持一致的构造框架,但是拥有不同的参数设置,当然任务也是各不相同。第一层网络使用整幅图片的所有目标候选(proposal)作为输入,并且为每个目标候选评测一个分值。接着以它们的分值作为权重来线性结合分值最高的数个目标候选,最终获得显著图S。基于目标候选的显著图可以精确地标注显著目标位p置,并且一定程度上能够保证目标区域的标签一致性。第二层网络则是为每个超像素分割(segment)评测一个显著分值,然后以相同于获取目标候选显著图的方式来生成一张显著图S。基于超像素分割的显著图可以保护图片中目标的精细轮廓。最终,两张显s著图通过一个多层元胞自动机融合的方式融合成一张理想的显著图S。图4.1基于深度多层网络的显著性目标检测的流程图。Fig.4.1Thepipelineofthedeepmulti-levelnetworksmethodforsaliencydetection.4.1目标候选层介绍在这小节,我们会构建一个深度卷积网络来预测输入的每个目标候选和显著性目标的重合度有多高。目标候选层的网络构造如图4.2所示,结构是由两条流组成的一个组合网络,图中上层流作用在除目标候选外所有背景区域被扣除的输入图上,而下层流操作在保存了以目标候选为边界的最小目标框上。两层流结构都连接了独自的连接层(也就是图上的Fc7_b和Fc7_r),并且一起连接了一个统一的全连接层(也就是图上的Fc8)。-28- 大连理工大学硕士学位论文在最后的全连接层(也就是图上的Fc9_1和Fc10_2)之后,整个网络框架集成了一个度量损失和一个分类损失,算法最终选择使用联合学习策略来同时学习所有参数。这样网络提取的特征更具有判别性,从而作出的分类预测更加精准。图4.2基于目标候选方法的流程结构。Fig.4.2Thearchitectureoftheproposedapproachbasedonproposal-levelpresentation.本文首先使用GOP算法[59]将输入的每张图片分割成一个个目标候选集,通常一个集合包含1000个左右各种形状,大小和位置的目标候选。然后,本文使用[38]中的置信度量来选择正训练样本和负训练样本。置信度量计算公式如下:(1)ACiiconf,(4.1)iACii式中A|PG||P|是精确率度量,而C|PG||G|是覆盖率度量。P和G分别表iiiiii示第i个目标候选的二值图和整张图片的真值。符号表示一个集合中像素值为1的像素数量。在实验中,本文选择置信度量分值高于0.85的作为正训练样本,而低于0.6的作为负训练样本(部分正训练样本proposals如图4.3所示)。最后,我们使用所有可能的正样本和部分与正样本数量相同的负样本作为训练集。给定训练样本,对于上层流网络,我们裁剪和扭曲目标候选为一个正方形作为输入(227227),但是背景区域被掩盖(使用所有ImageNet训练图片的平均像素值)。而对于下层流网络,本文使用一个边界框围绕提取的区域,然后将目标候选固定到裁剪的框中作为输入(如图4.2)。两种类型的输入同时在网络中传播,凭借各自输入样本的不同,最终检测上层流能够提供目标信息,而下层流能够提供围绕目标区域附近的上下文信息,这正是网络分上下层流的优势所在。在测试阶段,一张图片的所有目标候选会被输入到网络中,并且通过K个最高分值的候选结合来获取基于目标候选的显著图S。公式如下:pK()iSpip,(4.2)i1-29- 基于双随机游走与深度多层网络的显著性检测()i式中表示第i个目标候选的权重,并且=exp(2s)。这里,s表示第i个目标ipiii候选通过深度网络后预测的分数。(a)(b)(c)(d)图4.3基于GOP算法生成的正训练样本图示。(a)输入图像和真值;(b)-(d)部分正训练proposals样本。Fig.4.3TheillustrationofthetrainingsamplesbytheGOP.(a)Input&Groundtruth;(b)-(d)sometruetrainingsamples.4.2超像素分割层介绍目标候选层卷积网络旨在查找出显著目标精确的位置和保持目标空间上的连续性,而超像素分割层卷积网络是用来提供更加优良的目标轮廓和检测细节。首先,本文将一张输入图片分解为一系列非重叠的超像素。和[35]相似,本文利用基于图的图像分割算法[60]来生成M层超像素分割。给定一张图片I,我们将多层分割表示为S{,SS,...,S},每个分割区域S是图片I的一个分解。S中区域是通过融合S中12Mmmm1区域计算得到的。从最精细层到最粗糙层的大致分割数量为300到20,之间间隔相同。本文选择区域中至少80%像素属于前景或者背景的超像素块作为训练样本。相似地,最终整个样本集由所有选择出来的正样本和对应相同数量的负样本所组成。本文超像素分割层的网络和目标候选层网络结构相同,如图4.2所示。其中双层流的输入分别为抠除剩余区域的超像素块,以及精确包含超像素的矩形框。本文通过M层超像素分割集训练出一个基于超像素分割的网络,而网络在测试阶段会对每张图片生成M张显著图。我们平均化这些结果图作为最终基于分割的显著图S,公式如下:s-30- 大连理工大学硕士学位论文M1()iSss,(4.3)Mi1()i式中表示第i层结果图。s4.3多任务显著性目标检测显著性目标检测量化来说就是计算出图中所有像素的显著分值。为了达到这个目的,分类器(或者回归器)经常用来评测显著性。在深度卷积神经网络中,softmax损失广泛地应用在图像分类中,它旨在最小化分类结果与真值标签间的交叉熵损失。当给定N个训练样本{,y}xN1,交叉熵损失函数公式如下:1iii1N1E(;{,})xy1llog(Pyjx;),(4.4)siii1{yij}iijN1i{1,..,N1}j{0,1}其中,x和y分别表示输入样例(也就是目标候选或者超像素)和其显著性标签。如果ii样例i是显著的,y1;而如果样例i是背景,则y0。P表示样例i被分类为前景或ii者背景的后验概率。公式(4.4)可以将同一类的样例分别归类到相关的特征空间中,但是并没有很好地保存类内变化。而类内变化便于分类,可以发现视觉和语义上相似样本。为了处理上述的限制,本文采用了一种多任务联合学习理论。度量目标集成分类损失函数作为一个相似性约束。基于一次所有送入网络训练图片中所有正样本对和负样本对,结构化的相似性损失函数被定义如下:12Emmax(0,Eij,),2(,)ij(4.5)Eij,max(maxDik,,maxDjl,)Dij,,(,)ik(,)jl其中,和分别是一次所有送入网络训练图片中正样本对集合,负样本对集合。是一个边界参数。fx()和fx()间的欧式距离通过Dfx()fx()计算得到的。f()ijij,ij2是上层流中最后全连接层(Fc9_1)输出的特征映射。显然,最大方程函数是非平滑的,并且容易收敛到一个坏的局部最优。所以,在方程中一个平滑的上界被使用在工作中。具体而言,一次训练的损失函数定义如下:12Emmax(0,Eij,),2(,)ij(4.6)Eij,log(exp{Dik,}exp{Dil,})Dij,。(,)ik(,)il-31- 基于双随机游走与深度多层网络的显著性检测本文使用了多任务学习理论来联合优化两项损失函数。联合学习的框架如图4.2所示。当给定两类输入,在连接层和全连接层Fc8之后,输出的特征f()x被传入度量损失层用来计算相似度损失E,同时f()x还被输入到softmax损失层用来计算分类误差E。ms接着,我们结合这两层损失如下:EE(1)E,(4.7)ms其中,参数控制两类损失的平衡。本文使用标准最小化随机梯度下降方法来最小化公式(4.7)。两种类型的损失使用反向传播来联合训练。4.4多层融合基于目标候选的显著图S和基于超像素的显著图S是互补的。如图4.4所示,显著ps图S可以高亮显著目标的主要部位,但是会损失精良的目标轮廓并且不能够很好地检测p多显著目标。而显著图S恰恰相反,它不能平滑统一地高亮目标,但是却能有效地抑制s杂乱的背景和保持目标轮廓。所以在这里需要一个有效的融合机制来改善最终的性能,本文最终选择使用一个像素级的多层元胞自动机(MCA)[21]来结合两者的结果。(a)(b)(c)(d)(e)图4.4不同部分的显著性检测结果比较。(a)输入,(b)真值,(c)基于目标候选层的预测S,(d)基pT于分割层的预测S,(e)多层融合结果S。sFig.4.4TheSaliencyresultsofdifferentcomponents.(a)Input,(b)Groundtruth,(c)SfromthepTproposal-levelprediction,(d)Sfromthesegment-levelprediction,(e)Sfromthemulti-layersintegration.多层元胞自动机原理是当前一个元胞的状态是受其和其邻居前一个状态影响的。具体来说,图片上的像素可以看作元胞,它们的显著值代表它们的状态。不同层显著图上-32- 大连理工大学硕士学位论文相同坐标的像素被认为是相邻的,这里本文假设所有邻居决定元胞下个状态的影响力是相同的。多显著图的同步更新机制如下:t1tt(Sm)(Sm)sign(Skk1),(4.8)k{,}pskmttttTt其中S[S,...,S,...S],S表示第t次迭代中,m(m{,}ps)显著图上第k个mm1mkmNmk元胞的显著值。N是显著图上像素的总数。是一个由OTSU[61]决定的自适应阈值。参数ln(),其中P(1|iF)表示当像素i属于前景F,它的邻居被预测j1为前景的概率。符号()表示先验率(iF)的对数,计算如下:tPi(F)Si(iF)ln(iF)lnln,(4.9)tPi(B)1SitT其中S表示第t次迭代中像素i的显著值。在T次迭代之后,最终的显著图S计算如下:iT1TTS(SS)。(4.10)ps2-33- 基于双随机游走与深度多层网络的显著性检测5实验结果与分析5.1基于双随机游走显著性检测算法实验分析5.1.1数据库介绍本文在五个应用广泛的标准数据库上做了比较实验:ECSSD[18],MSRA-5000[62],HKU-IS[35],PSACAL-S[63],SED[64]。其中,ECSSD数据库包含了1000张结构复杂的前景以及错综杂乱背景的图片,包含语义信息,目标较小,多目标等形形色色特点,检测难度较大。MSRA-5000数据库包含5000张图片,包含大量场景内容,目标较大。一开始这个数据库只标注了真值框的,后来,Jiang等人[27]为显著性目标检测提供了更加精确的像素级真值标注。HKU-IS数据库包含4447张图片,被分为了训练和测试两个部分。数据库中图片包含各种尺度,各种位置分布的多目标。PASCAL-S数据库包含850张自然图像,由于它一开始选择的图片场景就很复杂,并且考虑了数据库偏置设计,标注真值参与人更多,更加客观,所以也是当前最具有挑战的显著性检测数据库之一。SED数据库是一个合并数据库:包含SED1和SED2两个数据库。SED1和SED2分别都包含100张图片,SED1中每张图片仅包含一个显著目标,而SED2中每张图片包含多个显著目标。5.1.2参数设置在基于双随机游走显著性检测工作中,主要包含以下几处参数的设置。我们首先分别设置4个尺度的超像素,分别N=50,100,200,300。公式(3.5)中参数根据[21]中建议设置为0.05,它用来控制空间权重的力度。我们设置公式(3.11)中==0.1,假定前背景代理者在每次迭代游走中返回重启分布的概率。如图5.1(a)和(b)所示,这两个参数会影响最终的检测结果。图5.1(c)显示了公式(3.12)中参数设置成不同值后得到的不同结果,最终在我们实验中固定为0.95。同理,根据图5.1(d)显示的比较结果,公2式(3.7)中参数最终设为0.1。在双随机游走的过程中,最大迭代次数K我们设为了4100,并且为了防止无意义的迭代,我们设置了一个阈值110,如果当前显著值向量和上一次的差值的二范数比这个阈值还小,也就是检测修正进入了稳定状态,我们就提前停止迭代。实验后发现,在绝大多数情况下,随机游走的迭代次数不会超过20次。-34- 大连理工大学硕士学位论文5.1.3算法效率本文实验是在一个Inteli5-65003.2GHzCPU和8GBRAM的PC上完成的。在不考虑提取深度特征计算花费上,我们使用并没有深入优化的MATLAB代码,处理一张典型的300400图片平均花费0.803s,当然在实际应用中我们可以继续优化程序来提高算法的效率,例如多个尺度随机游走可以从多线程角度来完成等。(a)(b)(c)(d)图5.1本文算法不同参数值设置在ECSSD上查准率-查全率曲线比较。(a)公式(3.11)中参数不同赋值的结果比较。(b)公式(3.11)中参数不同赋值的结果比较。(c)公式(3.12)2中参数不同赋值的结果比较。(d)公式(3.7)中参数不同赋值的结果比较。Fig.5.1Precision-recallcurvesontheECSSDdatasetbytheproposedalgorithmwithdifferentparametervalues.(a)Resultswithdifferentvaluesofin(3.11).(b)Resultswithdifferentvaluesof2in(3.11).(c)Resultswithdifferentvaluesofin(3.12).(d)Resultswithdifferentvaluesofin(3.7).-35- 基于双随机游走与深度多层网络的显著性检测5.1.4评测指标为了评估本文算法的性能,我们采用了三个广泛使用的评价方法,分别是查准率-查全率(P-R)曲线,F-measure和AreaUnderCurve(AUC)。P-R曲线是通过对显著图设置一系列固定的0到255整数像素阈值将其转为二值图而生成的。每个阈值下得到的真正率比上精确率形成P-R曲线。同时,我们获得真正例率(TruePositiveRate,简称TPR)和假正例率(FalsePositiveRate,简称FPR)绘制ROC曲线然后计算对应的AUC分数。我们计算查准率,查全率以及定义两倍于输入图像平均显著值的自适应阈值的F-measure[65]。F-measure是通过权衡查准率和查全率计算得到的一个总性能指标,公式如下:2(1)PrecisionRecallF,(3.18)2PrecisionRecall2公式中按照[21,28,65]中建议在本文中设置为0.3。5.1.5比较的方法在本文工作中,我们将两个初始显著性计算方法分别命名为PDF和PDB。其中PDF表示基于对比度先验和传播距离检测前景分布的算法,PDB表示基于边界先验和传播距离检测背景分布的算法。本文最终基于双随机游走的方法被称为DRW。我们广泛的比较本文方法DRW与十六个当前最先进的显著性检测方法,包括GC[66](2013年),HS[18](2013年),MR[23](2013年),PCA[41](2013年),UFO[12](2013年),DRFI[27](2013年),wCtr[16](2014年),HDCT[67](2014年),RR[24](2015年),BL[68](2015年),BSCA[21](2015年),LEGS[38](2015年),MST[69](2016年),KSR[29]()2016年),MILPS[70](2017年)和RCRR[71](2017年)。所有比较的算法都是近五年具有代表的算法,并且在其中,DRFI[27],HDCT[67],LEGS[38]和KSR[29]需要显著性数据库超过2000张有标注真值的图片来训练它们的参数模型。5.1.6评测(1)初始分布方法的优化首先,我们针对初始分布获取方法比较了传播距离度量的性能。如表5.1所示,我们比较了欧式距离(ED),测地线距离(GD)与传播距离度量(PD)的性能。我们可以看到在ECSSD数据库上根据F-measure和AUC分数测评,PD相对于ED和GD基于边界先验和对比度先验初始显著性检测方法都一致表现的更加优秀。-36- 大连理工大学硕士学位论文此外,我们也比较了本文算法在不同阶段于ECSSD数据库上的性能差异。如图5.2所示,我们可以明显看到,本文基于双随机游走的框架能够显著地提升初始分布结果。最终DRW相比较更好的初始分布PDB根据F-measure和AUC分值分别获得了8.25%和2.79%的改善。表5.1在ECSSD数据库上根据F-measure和AUC分值评估传播距离度量Tab.5.1EvaluationofthepropagationdistanceintermsoftheF-measureandAUCscoresontheECSSDdataset边界先验对比度先验1)2)3)EDGDPDEDGDPDF-measure0.56190.66510.69010.51430.59030.6128AUC0.88340.91060.92130.87560.88960.90021)ED表示欧式距离度量(Euclideandistance)2)GD表示测地线距离度量(geodesicdistance)3)PD表示本文中传播距离度量(propagationdistance)图5.2本文算法在ECSSD数据库上不同阶段的性能比较。PDF和PDB分别表示初始显著图Ss()和Ss(),而DRW表示最终算法的显著图。fibiFig.5.2PerformancecomparisonsofdifferentstagesoftheproposedalgorithmontheECSSDdataset.PDFandPDBindicatetheinitialsaliencymapsSs()andSs(),andDRWindicatesthefinalfibimap.-37- 基于双随机游走与深度多层网络的显著性检测(2)与当前先进算法比较图5.3-5.7和表5.2展示了不同算法与本文算法DRW在五个数据库上的性能比较。其中,由于GC[66]和UFO[22]在SED和HKU-IS数据库上的结果没有提供,所以我们没有与它们在这两个数据库上作比较。图5.3本文算法与当前16种先进算法在MSRA-5000数据库上的查准率-查全率曲线,柱状图比较。Fig.5.3Bargraphsoftheproposedmethodandthesixteenstate-of-the-artmethodsontheMSRA-5000dataset.MSRA-5000数据库:如图5.3所示,我们在MSRA-5000数据库上和所有十六个先进算法做了定量上的性能分析。从查准率-查全率曲线上我们可以看出本文算法保持着最好的曲线,从查准率-查全率-F-measure柱状图分析,本文算法查全率比其他所以算法都要高,查准率和F-measure值仅次于DRFI[27],LEGS[38]和KSR[29]。从表5.2我们可以看到本文方法在MSRA-5000数据库上取得了AUC分数最高的成绩。-38- 大连理工大学硕士学位论文这里值得一提的是,DRFI[27],KSR[29]和LEGS[38]都需要大量的已标记真值的显著性图像库来训练它们的模型,也就是说它们都是有监督方法。DRFI需要训练大量的特征,最终测试一张图像也需要花费近一分钟的时间。LEGS属于一个深度学习的方法,需要更多的图片去训练一个卷积神经网络。KSR跟本文方法一样,需要提取深度特征,并且需要大量图片训练模型,最终测试一张图像也将花费一分钟。而本文算法尽管也使用了深度特征,但是特征的提取是从在其他领域已完全预训练完成的FCN中完成的,并且整个框架是一个完全无监督方法,测试一张图像花费时间不到一秒钟,但是却与这三种有监督方法取得了不相上下的效果。图5.4本文算法与当前16种先进算法在ECSSD数据库上的查准率-查全率曲线,柱状图比较。Fig.5.4Bargraphsoftheproposedmethodandthesixteenstate-of-the-artmethodsontheECSSDdataset.ECSSD数据库:如图5.4所示,我们在ECSSD数据库上和所有十六个先进算法做了同样的定量上的性能分析。ECSSD数据库相比较MSRA-5000数据库虽然图片数量少了很多,但是数据库包含更复杂的背景,显著性目标也更加丰富而有检测难度。从查准-39- 基于双随机游走与深度多层网络的显著性检测率-查全率曲线上我们可以看出本文算法保持着最好的曲线,从查准率-查全率-F-measure柱状图分析,本文算法查全率比其他所以算法都要高,查准率和F-measure值仅次于LEGS[38]和KSR[29]。从表5.2我们可以看到本文方法在ECSSD数据库上取得了AUC分数第二高的成绩,仅次于DRFI[27]。图5.5本文算法与当前16种先进算法在PASCAL-S数据库上的查准率-查全率曲线,柱状图比较。Fig.5.5Bargraphsoftheproposedmethodandthesixteenstate-of-the-artmethodsonthePASCAL-Sdataset.PASCAL-S数据库:如图5.5所示,我们在PASCAL-S数据库上和所有十六个先进算法做了同样的定量上的性能分析。PASCAL-S数据库是目前为止公认最难检测的数据库之一,这不仅是因为数据库中图片场景更复杂,所有图片选自PASCALVOC2010分割任务,而且主要在于它标注真值的客观性以及详细地考虑分析了数据库设计偏置问题。从查准率-查全率曲线上我们可以看出本文算法仅次于LEGS[38]和KSR[29],从查-40- 大连理工大学硕士学位论文准率-查全率-F-measure柱状图分析,本文算法查全率比其他所以算法都要高,查准率和F-measure值仅次于LEGS[38]和KSR[29]。从表5.2我们可以看到本文方法在PASCAL-S数据库上取得了AUC分数第二高的成绩,仅次于KSR[29]。图5.6本文算法与当前14种先进算法在HKU-IS数据库上的查准率-查全率曲线,柱状图比较。Fig.5.6Bargraphsoftheproposedmethodandthefourteenstate-of-the-artmethodsontheHKU-ISdataset.HKU-IS数据库:如图5.6所示,我们在HKU-IS数据库上和其中十四个先进算法做了同样的定量上的性能分析,由于UFO[22]和GC[66]算法没有提供代码和该数据库上检测结果,没有与它们进行比较。HKU-IS数据库是为了有监督算法提供训练与测试样本的数据库,图片场景较复杂。从查准率-查全率曲线上我们可以看出本文算法表现的最好,从查准率-查全率-F-measure柱状图分析,本文算法查全率比其他所以算法都要高,查准率和F-measure值仅次于DRFI[27],LEGS[38]和KSR[29]。从表5.2我们可以看到本文方法在PASCAL-S数据库上取得了AUC分数第二高的成绩,仅次于DRFI[27]。-41- 基于双随机游走与深度多层网络的显著性检测图5.7本文算法与当前14种先进算法在SED数据库上的查准率-查全率曲线,柱状图比较。Fig.5.7Bargraphsoftheproposedmethodandthefourteenstate-of-the-artmethodsontheSEDdataset.SED数据库:如图5.7所示,我们在SED数据库上和其中十四个先进算法做了同样的定量上的性能分析,由于UFO[22]和GC[66]算法没有提供代码和该数据库上检测结果,没有与它们进行比较。SED数据库只有200张图片,但是因为它考虑了显著性目标数量的影响,也就是检验算法在多目标中是否依然有效,所以同样是一个具有挑战性的显著性数据库。从查准率-查全率曲线上我们可以看出本文算法表现的最好,从查准率-查全率-F-measure柱状图分析,本文算法查全率比其他所以算法都要高,查准率和F-measure值仅次于LEGS[38]。从表5.2我们可以看到本文方法在PASCAL-S数据库上取得了AUC分数最高的成绩。-42- 大连理工大学硕士学位论文图5.8在ECSSD数据库上当前算法和通过本文算法(DRW)优化后的结果性能比较。我们使用了两组基础方法集(也就是A-DRW={BL,UFO}以及B-DRW={MR,PCA})。Fig.5.8Performancecomparisonsofpreviousmethodsandtheirpromotedresultsbytheproposedalgorithm(DRW)ontheECSSDdataset.Weusetwosetsofbaselines(i.e.,A-DRW={BL,UFO}andB-DRW={MR,PCA}).(3)对其他算法的改进在本文工作中,我们提出的算法还可以用来结合和改进先存显著性检测方法。具体来说,我们可以利用由一个基础算法生成的显著图作为初始前景分布,然后翻转另一个基础算法生成的显著图获得背景分布,接着通过本文的双随机游走来改善最终的结果。如图5.8所示,A-DRW表示BL[68]和UFO[22]分别用来计算前景和背景分布。另一方面,B-DRW表示我们使用MR[23]和PCA[41]分别用来计算前景和背景分布。我们通过这两个实验来评测一下双随机游走的效果。从图中可以看出,两组结合后的结果都要远远比基础算法表现的要更好。根据F-measure分值,我们相比较两组中较好的BL[68]和MR[23]算法分别获得9.5%和7.7%的改善。(4)质量比较图5.9展示了这些算法与DRW显著图的样例,从中可以看出本文算法DRW能够平滑地高亮所有显著目标。另外,当一些小的噪声或不易区分的背景区域存在图片中,大多数显著性检测算法不能够满意地从杂乱中区分出显著目标,但是本文方法能够有效地抑制嘈杂的背景影响。-43- 基于双随机游走与深度多层网络的显著性检测表5.2根据AUC分数的定量比较。最好以及第二好的结果分别以红色以及蓝色标记Tab.5.2QuantitativecomparisonsintermsofAUCscore.Thebestandsecondbestresultsareshowninredandbluecolor,respectively.DatasetsGCHSMRHDCTRRMSTMILPSLEGSECSSD0.78480.88210.88200.90380.88390.86590.90570.9229MSRA-50000.87310.92790.92670.94220.93050.89610.94310.9559PASCAL-S0.73210.83090.82070.85540.82530.82540.84660.8832HKU-IS-0.87820.86110.88930.87110.86170.90480.9026SED-0.85530.86030.88710.86400.86720.85910.8872UFOwCtrBLBSCARCRRKSRDRFIOursECSSD0.85870.87780.91460.91670.88510.93050.93920.9365MSRA-50000.91790.93740.95340.94830.93120.95230.96550.9683PASCAL-S0.80240.84310.86360.86090.82440.90080.88910.8893HKU-IS-0.89510.91400.90510.87000.90970.94350.9309SED-0.88230.91950.89420.90720.90020.92300.9280InputMRDRFIRRLEGSMSTMILPSRCRRKSROursGT图5.9部分比较算法与本文算法的质量比较。本文方法能够平滑地高亮显著目标,并且能够很好地抑制复杂地背景区域。Fig.5.9Saliencyresultsofevaluatedmethods.Theproposedalgorithmisabletohighlightsalientregionsuniformlyandsuppresstheresponseofclutteredbackgroundswell.5.1.7不同设置的评估-44- 大连理工大学硕士学位论文(a)(b)图5.10在ECSSD(a)和PASCAL-S(b)数据库上,参考方法[49]用来检测显著性(即图中Reference标注),单随机游走,基于单重启双随机游走和基于双重启双随机游走方法的性能比较。所有结果基于同一深度特征生成。Fig.5.10Performancecomparisonsofthereferencemethod[49]usedonsaliencydetection(i.e.,Reference),singlerandomwalk,doublerandomwalkswithsinglerestartanddoublerandomwalkswithdualrestartsontheECSSD(a)andPASCAL-S(b)datasets.Allresultsaregeneratedbasedonthesamedeepfeatures.-45- 基于双随机游走与深度多层网络的显著性检测(a)(b)图5.11在ECSSD(a)和PASCAL-S(b)数据库上,公式(3.14)中先验概率不同设置的性能比较。‘0.5/0.5’表示前景和背景先验分布都设为0.5,‘Dynamic’表示通过公式(3.16)动态计算先验分布。Fig.5.11Performancecomparisonsofdifferentsettingsforpriorprobabilitiesin(3.14)ontheECSSD(a)andPASCAL-S(b)dataset.’0.5/0.5’meanstheforegroundandbackgroundpriordistributionsaresetto0.5and’Dynamic’denotesthedynamiccomputationby(3.16).(1)双重启机制vs.单重启机制我们在ECSSD和PASCAL-S数据库上评测了基于不同重启机制双随机游走算法的效果。PASCAL-S数据库包含更多显著性目标接触图片的边界(人为统计约有38%)。图5.10显示了比较结果,本次实验都是在同样的深度特征等相同条件下测试的。我们可-46- 大连理工大学硕士学位论文以看到双随机游走无论基于单重启还是双重启都要远远好于单随机游走算法的性能。此外,双重启机制通过增加一个时不变的重启分布,全局上提供辅助指导更进一步防止代理者偏向错误路线。我们从结果也可以看到,根据三种评价标准双重启机制的性能要比单重启更好。在ECSSD和PASCAL-S数据库上,双重启机制分别根据F-measure分值获得了5.9%和5.8%的提高,根据AUC分值获得了2.2%和4.0%的增长。(2)动态先验概率vs.固定先验概率图5.11展示了公式(3.16)定义的动态先验概率与固定先验概率“0.5/0.5”(即前背景先验概率分别设为等值的0.5)的性能比较。从图中我们可以看到,无论在ECSSD还是PASCAL-S数据库动态的概率分布要明显好于原先的固定先验分布。超准率-查全率曲线中前者明显好于后者,尤其查全率查过了0.6。对于ECSSD和PASCAL-S数据库,双重启机制分别在F-measure分值上获得了4.9%和3.7%的提高,以及在AUC分值上获得了3.4%和2.8%的增长。这主要取决于动态先验概率很好地考虑了人眼注意机制,确立背景游走者辅助前景游走者检测显著性目标,从而大大降低背景先验带来的影响。检测优化后的效果图已经在图3.8有所展示,显著目标在边界附近被背景化的问题得到了很好的改善。图5.12失败案例。从左至右分别为:输入图像,真值,显著图。Fig.5.12Examplesoffailure.Lefttoright:input,groundtruth,saliencymap.-47- 基于双随机游走与深度多层网络的显著性检测5.1.8失败案例本文工作中,我们在双随机游走中同时考虑了前景与背景先验,并且提取了具有判别能力的深度特征来表示超像素,所以本文提出的方法能够对大多数显著性检测任务很有效。但是,如图5.12所示,如果图片背景过于杂乱或者前景与背景具有极其相似的外貌,那么本文提出的方法并不能够很好地从背景干扰中区分出显著性目标。5.2基于深度多层网络显著目标检测实验分析我们会在如下三个标准数据库上评估本文算法的性能:PASCAL-S[63],SED2[64]和HKU-IS[35],数据库的详细介绍见上一小节。同样,我们在本次实验还是使用查准率-查全率曲线,F-measure和AUC分数来评估度量算法性能。5.2.1参数设置我们随机地从MSRA10K[11]数据库中选择9000张图片作为目标候选层训练集合,此外选择3000个样本图片用来训练分隔层网络。这里有大概150000个目标候选和1000个超像素。我们没有使用校验集和分开训练两个模型直它们训练数据损失收敛。我们在前面介绍的其他三个数据库上测试本文方法。这里有很多目标候选,但是有些要么过小要么过大,从而对显著性检测贡献甚微。所以本文采取和算法[29]相同的方式,即在训练和测试之前首先预处理[59]生成的目标候选。我们先计算目标候选的面积占相关图片的比例,并且抛弃那些超大尺寸目标候选(>70%)和超小尺寸目标候选(<0.5%)。此外,我们抛弃那些同时与图片四个边界都接触的目标候选。模型公式中,综合参数K和分割等级总量M分别设为16和15。在多层元胞自动机算法中,迭代次数参考T[21]设为20以及参数设为0.15。我们使用Caffe[72]工具包来训练和测试本文深度网络。所有的卷积层由在PASCALVOC2012训练数据库上预训练的网络SDS[73]来初始化权重。对于目标候选层的训练,所有全连接层权重随机初始化。而对于超像素层训练,所有全连接层初始化于固定卷积层的权重后超像素层训练集预训练的权重。本文一开始对两个模型设置学习率为0.0001,所有训练和测试图片初始化为227227。一次性训练送入网络中的目标候选为300个,超像素为200个。度量损失项中边界设为1.0。我们设置=0.1来让度量损失项和分类损失项是同等量级。-48- 大连理工大学硕士学位论文(a)PASCAL-S(b)SED2(c)HKU-IS图5.13本文算法与当前14种先进算法在三个数据库上的查准率-查全率曲线,柱状图比较。Fig.5.13Bargraphsoftheproposedmethodandthefourteenstate-of-the-artmethodsonthethreedatasets.5.2.2评测我们比较本文算法和其他14个当前经典的方法,包括HS[18](2013年),MR[23](2013年),RC[66](2013年),DSR[74](2013年),HDCT[67](2014年),BL[68](2015-49- 基于双随机游走与深度多层网络的显著性检测年),DRFI[27](2013年),wCtr[16](2014年),LEGS[38](2015年),MDF[35](2015年),BSCA[21](2015年),MCDL[36](2016年),ELD[37](2016年),KSR[29](2016年)。对于定量分析,我们在图5.13显示了查准率-查全率曲线和F-measure分值比较结果。从图中我们可以看出,本文算法相比较所有其他算法在四个数据库上更加优秀或者旗鼓相当。其中,基于目标候选或者基于超像素的方法MDF,MCDL,MDF,ELD和KSR都要么使用CNN模型或者CNN特征了。我们可以看到,本文方法比它们获得了更好的表现,同时显示了使用两层网络的优势。本文提出的方法分别在绝大多数数据库上表现了最高的F-measure和AUC分值。最终结果值得关注以下几点:(1)基于目标候选方法通常可以精确地标注显著目标位置,并且能够平滑地突显显著区域内部。但是同时它们不能很好地保存目标精细轮廓和突显多显著目标,因为几乎没有目标候选能够完全和图片真值重合。(2)基于分割的方法可以提供精确的目标轮廓,但是并不能很好地抑制背景噪音。(3)通过使用一个多任务学习技术,我们可以将正实例从负实例中区分开,并且维护类内的变化,这是发现视觉上和语义上相似实例从而促进更加精确的分类的关键点。(a)PASCAL-S(b)SED2图5.14不同设计选项查准率-查全率曲线的性能比较。Fig.5.14PerformancecomparisonofP-Rcurveswithdifferentdesignoptions.此外,我们也评估了本文算法在PASCAL-S和SED2数据库上每个组成的性能。图5.14显示了比较结果,也就是超像素层表示,目标候选层表示,softmax损失和联合损失。尽管独立的目标候选层或者超像素层没有表现最好的结果,但是它们是两个互补的-50- 大连理工大学硕士学位论文组成。通过使用多层元胞自动机融合它们,我们可以结合它们共同的优势,并且抑制背景噪声来获取更好的结果。在两类损失联合优化之后,实验结果得到了更好的优化。对于质量评估,我们和不同的方法比较显著图,如图5.15所示。我们可以看到本文方法能够更好的平滑突显显著目标内部,并且更好地抑制了背景噪音。本文的算法的显著图在各种具有挑战的场景中也是最接近真值的。本文算法和其他当前经典有监督算法的平均运行时间比较如表5.3所示。实验评估是构建在一个IntelCorei7-7700k3.60GHzCPU,一个TITANGPU和32GRAM电脑上的。本文算法的计算速度超过大部分算法。值得注意的是,本文算法中大多数时间是花费在我们提取多尺度超像素(大约0.84s)和目标候选(大约0.78s)。尽管本文算法运行速率比ELD[37]和LEGS[38]算法慢,但是我们的效果要比它们好很多。InputGTBSCABLDRFILEGSMDFMCDLELDKSROurs图5.15部分比较算法与本文算法的质量比较。Fig.5.15Saliencyresultsofevaluatedmethods.表5.3平均运行时间的比较(秒/每张图片)Tab.5.3Comparisonofaverageruntime(secondsperimage).DRFIBLLEGSMDFMCDLELDKSROursTime(s)48.2131.731.5521.572.290.6349.292.13-51- 基于双随机游走与深度多层网络的显著性检测5.2.3不同设置的评估(1)不同的基准网络在本文工作中,我们主要关注的是多任务学习能否提高检测性能和超像素层与目标候选层方法能否互补检测显著目标。尽管本文使用的基准网络AlexNet[75]有些过时,但是本文方法依旧比其他当前经典算法表现的更好。这也间接地证明了本文提出的贡献的有效性。在本文中算法框架的基准网络除了可以是AlexNet[75],也可以基于其他网络设计。我们选择更加前沿的网络ResNet[76]和DenseNet[77]作为比较的基准网络,并且修改它们来匹配我们的要求和F-measure和AUC分数的比较结果如表5.4所示。比较的网络框架分别是通过ResNet-50[78]和DenseNet-161[77]的caffemodels来初始化的,并且是与AlexNet相同的参数设置来微调训练的。表5.4根据F-measure和AUC分数使用不同基准网络的性能比较Tab.5.4PerformancecomparisonofusingdifferentbaselinenetworksintermsoftheF-measureandAUCscores.评价标准基准网络PASCAL-SSED2HKU-ISAlexNet0.72890.76640.7924F-MeasureResNet0.73550.76890.8267DenseNet0.73810.77080.8298AlexNet0.93450.95080.9525AUCResNet0.94230.96120.9577DenseNet0.94880.96450.9604(2)不同的目标候选方法在本文工作中,我们是采用的GOP算法[59]来生成目标候选。为了分析使用不同目标候选方法的影响,我们比较了GOP和另一个广泛使用的方法MCG的性能。如表5.5所示,根据F-measure和AUC分数比较,最终由MCG生成的结果是要比GOP的表现的稍微好一些。但是值得注意的是,MGC的计算速度要比GOP的方法慢很多。前者每张图片华为大概28.12s,而后者每张图片只需要花费0.78s。经过综合考虑后,我们最终采用GOP算法来生成目标候选。-52- 大连理工大学硕士学位论文(3)不同的超像素方法我们也实施实验来分析了使用不同超像素方法的影响。我们比较了本文中使用的基于图的方法[60]和另一个方法SLIC的性能。如表5.6所示,我们可以看出两种方法根据F-measure和AUC分数有相类似的性能。此外,两种方法的时间花费也相似大小。对于相同的多尺度超像素生成,基于图的方法每张图花费0.84s,而SLIC方法每张图花费0.92秒。表5.5根据F-measure和AUC分数使用不同基准网络的性能比较Tab.5.5PerformancecomparisonofusingdifferentregionproposalmethodsintermsoftheF-measureandAUCscores.评价标准基准网络PASCAL-SSED2HKU-ISGOP0.72890.76640.7924F-measureMCG0.71940.77040.7953GOP0.93450.95080.9525AUCMCG0.93270.95340.9517表5.6根据F-measure和AUC分数使用不同基准网络的性能比较Tab.5.6PerformancecomparisonofusingdifferentsuperpixelmethodsintermsoftheF-measureandAUCscores.评价标准方法PASCAL-SSED2HKU-ISGraph-based0.72890.76640.7924F-measureSILC0.72640.76520.7913Graph-based0.93450.95080.9525AUCSILC0.92930.95660.95235.2.4失败案例本文基于目标候选层和超像素层深度网络模型算法有效地应对了大多数显著性检测场景。但是,如果图片背景过于杂乱或者前景与背景极度相似,如图5.16所示,本文方法并不能很好地从背景中区分出显著目标。-53- 基于双随机游走与深度多层网络的显著性检测图5.16失败案例。从左至右分别为:输入图像,真值,显著图。Fig.5.16Examplesoffailure.Lefttoright:input,groundtruth,saliencymap.-54- 大连理工大学硕士学位论文结论本文分别从当前主流的两个研究方向来研究显著性目标检测的算法创新,即基于图模型传播以及基于卷积神经网络学习的方向。在第一个算法中,本文提出了一个双重启的双随机游走模型来检测显著区域。算法首先使用新型的距离度量方法分别基于对比度先验和边界先验来计算出了前景与背景初始分布。接着,算法分别模拟一个前景代理者与一个背景代理者,两者交互地在一个双随机游走框架中传播前景和背景信息来检测显著区域。此外,算法通过构思双重启机制来构建两个代理者交互信息的桥梁,并且动态地计算先验概率来平衡两个代理者在交互时的影响程度,从而提高算法的鲁棒性。充足的实验结果验证了本文算法相比较当前优秀的显著性检测算法在五个数据库上具有良好的表现。在第二个算法中,本文提出了一个新型的基于目标候选和超像素分割的深度学习模型来检测显著区域。算法借助目标候选和超像素分割的双优势可以检测出保持良好的轮廓边界和抑制背景噪音的显著性目标,也就是说框架中两个深度学习模型能够形成很好的互补。对于每层网络,我们使用两个分支流来结合一个独立的目标候选或者超像素分割样例来提取图片上下文信息。此外,算法使用了一个多任务学习策略来联合优化度量损失与分类损失,从而进一步学习出更加具有判别性的深度特征来检测显著区域。最终,一个多层元胞自动机用来整合以上两个互补网络的结果。充足的实验结果验证了本文算法在三个数据库上性能超过了当前优秀的显著性检测算法。两个显著性检测算法的共性主要有以下几点:1)两种算法都充分考虑了双重优势的互补性,基于双随机游走算法中主要考虑了前景与背景属性的互补,而基于目标候选和超像素分割的深度学习算法不仅考虑了目标候选和超像素分割的互补,还考虑了度量损失与分类损失的互补;2)两种算法都充分考虑了卷积神经网络的优势,前者提取了深度特征来表示超像素,而后者直接基于深度学习的框架来设计检测算法;3)两种算法都在各自研究方法的方向取得了不错的检测结果,前者在基于传播的无监督方法中有不错表现,后者在基于有监督的深度学习方法中超过了大多数先进算法的检测性能。-55- 基于双随机游走与深度多层网络的显著性检测参考文献[1]GofermanS,Zelnik-ManorL,TalA.Context-awaresaliencydetection[J].IEEEtransactionsonpatternanalysisandmachineintelligence,2012,34(10):1915-1926.[2]IttiL.Automaticfoveationforvideocompressionusinganeurobiologicalmodelofvisualattention[J].IEEETransactionsonImageProcessing,2004,13(10):1304-1318.[3]LeeYJ,GhoshJ,GraumanK.Discoveringimportantpeopleandobjectsforegocentricvideosummarization[C].ComputerVisionandPatternRecognition(CVPR),2012IEEEConferenceon.IEEE,2012:1346-1353.[4]ZhaoR,OuyangW,WangX.Unsupervisedsaliencelearningforpersonre-identification[C].ComputerVisionandPatternRecognition(CVPR),2013IEEEConferenceon.IEEE,2013:3586-3593.[5]MahadevanV,VasconcelosN.Saliency-baseddiscriminanttracking[C].ComputerVisionandPatternRecognition,2009.CVPR2009.IEEEConferenceon.IEEE,2009:1007-1013.[6]IttiL,KochC,NieburE.Amodelofsaliency-basedvisualattentionforrapidsceneanalysis[J].IEEETransactionsonpatternanalysisandmachineintelligence,1998,20(11):1254-1259.[7]BorjiA,ChengMM,JiangH,etal.Salientobjectdetection:Abenchmark[J].IEEETransactionsonImageProcessing,2015,24(12):5706-5722.[8]MaYF,ZhangHJ.Contrast-basedimageattentionanalysisbyusingfuzzygrowing[C].ProceedingsoftheeleventhACMinternationalconferenceonMultimedia.ACM,2003:374-381.[9]AchantaR,EstradaF,WilsP,etal.Salientregiondetectionandsegmentation[C].Internationalconferenceoncomputervisionsystems.Springer,Berlin,Heidelberg,2008:66-75.[10]JiangH,WangJ,YuanZ,etal.Automaticsalientobjectsegmentationbasedoncontextandshapeprior[C].BMVC.2011,6(7):9.[11]ChengMM,MitraNJ,HuangX,etal.Globalcontrastbasedsalientregiondetection[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2015,37(3):569-582.[12]JiangP,LingH,YuJ,etal.Salientregiondetectionbyufo:Uniqueness,focusnessandobjectness[C].ComputerVision(ICCV),2013IEEEInternationalConferenceon.IEEE,2013:1976-1983.[13]LiX,LiY,ShenC,etal.Contextualhypergraphmodelingforsalientobjectdetection[C].ComputerVision(ICCV),2013IEEEInternationalConferenceon.IEEE,2013:3328-3335.[14]WeiY,WenF,ZhuW,etal.Geodesicsaliencyusingbackgroundpriors[C].Europeanconferenceoncomputervision.Springer,Berlin,Heidelberg,2012:29-42.[15]ZhangJ,SclaroffS,LinZ,etal.Minimumbarriersalientobjectdetectionat80fps[C].ProceedingsoftheIEEEInternationalConferenceonComputerVision.2015:1404-1412.[16]ZhuW,LiangS,WeiY,etal.Saliencyoptimizationfromrobustbackgrounddetection[C].ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition.2014:2814-2821.-56- 大连理工大学硕士学位论文[17]GopalakrishnanV,HuY,RajanD.Randomwalksongraphsforsalientobjectdetectioninimages[J].IEEETransactionsonImageProcessing,2010,19(12):3232-3242.[18]YanQ,XuL,ShiJ,etal.Hierarchicalsaliencydetection[C].ComputerVisionandPatternRecognition(CVPR),2013IEEEConferenceon.IEEE,2013:1155-1162.[19]KongY,WangL,LiuX,etal.Patternminingsaliency[C].EuropeanConferenceonComputerVision.Springer,Cham,2016:583-598.[20]JiangB,ZhangL,LuH,etal.Saliencydetectionviaabsorbingmarkovchain[C].ComputerVision(ICCV),2013IEEEInternationalConferenceon.IEEE,2013:1665-1672.[21]QinY,LuH,XuY,etal.Saliencydetectionviacellularautomata[C].ComputerVisionandPatternRecognition(CVPR),2015IEEEConferenceon.IEEE,2015:110-119.[22]WangQ,ZhengW,PiramuthuR.Grab:Visualsaliencyvianovelgraphmodelandbackgroundpriors[C].ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.2016:535-543.[23]YangC,ZhangL,LuH,etal.Saliencydetectionviagraph-basedmanifoldranking[C].ComputerVisionandPatternRecognition(CVPR),2013IEEEConferenceon.IEEE,2013:3166-3173.[24]LiC,YuanY,CaiW,etal.Robustsaliencydetectionviaregularizedrandomwalksranking[C].CVPR.2015:2710-2717.[25]GongC,TaoD,LiuW,etal.Saliencypropagationfromsimpletodifficult[C].ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.2015:2531-2539.[26]JuddT,EhingerK,DurandF,etal.Learningtopredictwherehumanslook[C].ComputerVision,2009IEEE12thinternationalconferenceon.IEEE,2009:2106-2113.[27]JiangH,WangJ,YuanZ,etal.Salientobjectdetection:Adiscriminativeregionalfeatureintegrationapproach[C].ComputerVisionandPatternRecognition(CVPR),2013IEEEConferenceon.IEEE,2013:2083-2090.[28]BorjiA.Boostingbottom-upandtop-downvisualfeaturesforsaliencyestimation[C].ComputerVisionandPatternRecognition(CVPR),2012IEEEConferenceon.IEEE,2012:438-445.[29]WangT,ZhangL,LuH,etal.Kernelizedsubspacerankingforsaliencydetection[C].EuropeanConferenceonComputerVision.Springer,Cham,2016:450-466.[30]LongJ,ShelhamerE,DarrellT.Fullyconvolutionalnetworksforsemanticsegmentation[C].ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition.2015:3431-3440.[31]LiG,YuY.Deepcontrastlearningforsalientobjectdetection[C].ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.2016:478-487.[32]KuenJ,WangZ,WangG.Recurrentattentionalnetworksforsaliencydetection[J].arXivpreprintarXiv:1604.03227,2016.[33]LiuN,HanJ.Dhsnet:Deephierarchicalsaliencynetworkforsalientobjectdetection[C].ComputerVisionandPatternRecognition(CVPR),2016IEEEConferenceon.IEEE,2016:678-686.[34]WangL,WangL,LuH,etal.Saliencydetectionwithrecurrentfullyconvolutionalnetworks[C].EuropeanConferenceonComputerVision.Springer,Cham,2016:825-841.-57- 基于双随机游走与深度多层网络的显著性检测[35]LiG,YuY.Visualsaliencybasedonmultiscaledeepfeatures[J].arXivpreprintarXiv:1503.08663,2015.[36]ZhaoR,OuyangW,LiH,etal.Saliencydetectionbymulti-contextdeeplearning[C].ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.2015:1265-1274.[37]LeeG,TaiYW,KimJ.Deepsaliencywithencodedlowleveldistancemapandhighlevelfeatures[C].ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.2016:660-668.[38]WangL,LuH,RuanX,etal.Deepnetworksforsaliencydetectionvialocalestimationandglobalsearch[C].ComputerVisionandPatternRecognition(CVPR),2015IEEEConferenceon.IEEE,2015:3183-3192.[39]KimJ,PavlovicV.Ashape-basedapproachforsalientobjectdetectionusingdeeplearning[C].EuropeanConferenceonComputerVision.Springer,Cham,2016:455-470.[40]HouX,ZhangL.Saliencydetection:Aspectralresidualapproach[C].ComputerVisionandPatternRecognition,2007.CVPR'07.IEEEConferenceon.IEEE,2007:1-8.[41]MargolinR,TalA,Zelnik-ManorL.Whatmakesapatchdistinct?[C].ComputerVisionandPatternRecognition(CVPR),2013IEEEConferenceon.IEEE,2013:1139-1146.[42]BorjiA,IttiL.Exploitinglocalandglobalpatchraritiesforsaliencydetection[C].ComputerVisionandPatternRecognition(CVPR),2012IEEEConferenceon.IEEE,2012:478-485.[43]PerazziF,KrähenbühlP,PritchY,etal.Saliencyfilters:Contrastbasedfilteringforsalientregiondetection[C].ComputerVisionandPatternRecognition(CVPR),2012IEEEConferenceon.IEEE,2012:733-740.[44]YangC,ZhangL,LuH.Graph-regularizedsaliencydetectionwithconvex-hull-basedcenterprior[J].IEEESignalProcessingLetters,2013,20(7):637-640.[45]LuY,ZhangW,LuH,etal.Salientobjectdetectionusingconcavitycontext[C].ComputerVision(ICCV),2011IEEEInternationalConferenceon.IEEE,2011:233-240.[46]LuY,ZhangW,JinC,etal.Learningattentionmapfromimages[C].ComputerVisionandPatternRecognition(CVPR),2012IEEEConferenceon.IEEE,2012:1067-1074.[47]ChangKY,LiuTL,ChenHT,etal.Fusinggenericobjectnessandvisualsaliencyforsalientobjectdetection[C].ComputerVision(ICCV),2011IEEEInternationalConferenceon.IEEE,2011:914-921.[48]LiY,HouX,KochC,etal.Thesecretsofsalientobjectsegmentation[C].GeorgiaInstituteofTechnology,2014.[49]LeeC,JangWD,SimJY,etal.Multiplerandomwalkersandtheirapplicationtoimagecosegmentation[C].ComputerVisionandPatternRecognition(CVPR),2015IEEEConferenceon.IEEE,2015:3837-3845.[50]ZhaoR,OuyangW,LiH,etal.Saliencydetectionbymulti-contextdeeplearning[C].ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.2015:1265-1274.-58- 大连理工大学硕士学位论文[51]GofermanS,Zelnik-ManorL,TalA.Context-awaresaliencydetection[J].IEEEtransactionsonpatternanalysisandmachineintelligence,2012,34(10):1915-1926.[52]TangY,WuX.Saliencydetectionviacombiningregion-levelandpixel-levelpredictionswithcnns[C].EuropeanConferenceonComputerVision.Springer,Cham,2016:809-825.[53]ChengMM,MitraNJ,HuangX,etal.Salientobjectdetectionandsegmentation[J].IEEETransactionsonPatternAnalysis&MachineIntelligence,2014(1):1-1.[54]HarelJ,KochC,PeronaP.Graph-basedvisualsaliency[C].Advancesinneuralinformationprocessingsystems.2007:545-552.[55]WangW,WangY,HuangQ,etal.Measuringvisualsaliencybysiteentropyrate[C].ComputerVisionandPatternRecognition(CVPR),2010IEEEConferenceon.IEEE,2010:2368-2375.[56]KimJS,SimJY,KimCS.Multiscalesaliencydetectionusingrandomwalkwithrestart[J].IEEEtransactionsoncircuitsandsystemsforvideotechnology,2014,24(2):198-210.[57]KimH,KimY,SimJY,etal.Spatiotemporalsaliencydetectionforvideosequencesbasedonrandomwalkwithrestart[J].IEEETransactionsonImageProcessing,2015,24(8):2552-2564.[58]GastalESL,OliveiraMM.Domaintransformforedge-awareimageandvideoprocessing[C].ACMTransactionsonGraphics(ToG).ACM,2011,30(4):69.[59]KrähenbühlP,KoltunV.Geodesicobjectproposals[C].Europeanconferenceoncomputervision.Springer,Cham,2014:725-739.[60]FelzenszwalbPF,HuttenlocherDP.Efficientgraph-basedimagesegmentation[J].Internationaljournalofcomputervision,2004,59(2):167-181.[61]OtsuN.Athresholdselectionmethodfromgray-levelhistograms[J].IEEEtransactionsonsystems,man,andcybernetics,1979,9(1):62-66.[62]LiuT,YuanZ,SunJ,etal.Learningtodetectasalientobject[J].IEEETransactionsonPatternanalysisandmachineintelligence,2011,33(2):353-367.[63]LiY,HouX,KochC,etal.Thesecretsofsalientobjectsegmentation[C].GeorgiaInstituteofTechnology,2014.[64]AlpertS,GalunM,BrandtA,etal.Imagesegmentationbyprobabilisticbottom-upaggregationandcueintegration[J].IEEEtransactionsonpatternanalysisandmachineintelligence,2012,34(2):315-327.[65]AchantaR,HemamiS,EstradaF,etal.Frequency-tunedsalientregiondetection[C].Computervisionandpatternrecognition,2009.cvpr2009.ieeeconferenceon.IEEE,2009:1597-1604.[66]ChengMM,WarrellJ,LinWY,etal.Efficientsalientregiondetectionwithsoftimageabstraction[C].ComputerVision(ICCV),2013IEEEInternationalConferenceon.IEEE,2013:1529-1536.[67]KimJ,HanD,TaiYW,etal.Salientregiondetectionviahigh-dimensionalcolortransform[C].ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.2014:883-890.[68]TongN,LuH,RuanX,etal.Salientobjectdetectionviabootstraplearning[C].ComputerVisionandPatternRecognition(CVPR),2015IEEEConferenceon.IEEE,2015:1884-1892.-59- 基于双随机游走与深度多层网络的显著性检测[69]TuWC,HeS,YangQ,etal.Real-timesalientobjectdetectionwithaminimumspanningtree[C].ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.2016:2334-2342.[70]HuangF,QiJ,LuH,etal.Salientobjectdetectionviamultipleinstancelearning[J].IEEETransactionsonImageProcessing,2017,26(4):1911-1922.[71]YuanY,LiC,KimJ,etal.ReversionCorrectionandRegularizedRandomWalkRankingforSaliencyDetection[J].IEEETransactionsonImageProcessing,2018,27(3):1311-1322.[72]JiaY,ShelhamerE,DonahueJ,etal.Caffe:Convolutionalarchitectureforfastfeatureembedding[C].Proceedingsofthe22ndACMinternationalconferenceonMultimedia.ACM,2014:675-678.[73]HariharanB,ArbeláezP,GirshickR,etal.Simultaneousdetectionandsegmentation[C].EuropeanConferenceonComputerVision.Springer,Cham,2014:297-312.[74]LiX,LuH,ZhangL,etal.Saliencydetectionviadenseandsparsereconstruction[C].ComputerVision(ICCV),2013IEEEInternationalConferenceon.IEEE,2013:2976-2983.[75]KrizhevskyA,SutskeverI,HintonGE.Imagenetclassificationwithdeepconvolutionalneuralnetworks[C].Advancesinneuralinformationprocessingsystems.2012:1097-1105.[76]HeK,ZhangX,RenS,etal.Deepresiduallearningforimagerecognition[C].ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition.2016:770-778.[77]HuangG,LiuZ,WeinbergerKQ,etal.Denselyconnectedconvolutionalnetworks[C].ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition.2017,1(2):3.[78]ArbeláezP,Pont-TusetJ,BarronJT,etal.Multiscalecombinatorialgrouping[C].ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition.2014:328-335.-60- 大连理工大学硕士学位论文攻读硕士学位期间发表学术论文情况[1]LiheZhang,XiangFang,TiantianWang,HongguangBo,HuchuanLu.DeepMulti-LevelNetworkswithMulti-TaskLearningforSaliencyDetection.Neurocomputing,2018.Elsvier.(SCI检索期刊,IF:3.317,已录用)(本硕士学位论文第四章)[2]XiangFang,LiheZhang.SalientObjectDetectionviaForegroundandBackgroundAgentsSimultaneouslyWalking.InternationalConferenceonBigDataandArtificialIntelligence(BDAI2018),2018.IEEE.(EI检索会议,已录用)(本硕士学位论文第三章)[3]LiheZhang,XiangFang,HuchuanLu,GuohuaWei.SalientObjectDetectionviaDoubleRandomWalkswithDualRestarts.ImageandVisionComputing,2018.Elsvier.(SCI检索期刊,IF:2.671,审稿中)(本硕士学位论文第三章)-61- 基于双随机游走与深度多层网络的显著性检测致谢三年研途,看似漫长,却一晃而过,匆匆如年。在这漫长又短暂的三年时光里,我在创新园大厦A536教研室学到了很多,也让我从一个青涩懵懂的小伙子蜕变成熟,等待社会检验。这三年的成长离不开一路陪伴的老师,家人,朋友,室友还有同学,在此由衷的感激他们的鼓舞与指导。正是他们的支持,让我才能顺利完成硕士研究生学习。首先,真诚地表达对三年研途的指导老师张立和副教授的感激。在大四后半学期,张老师就给我们安排过来提前学习了教研室研究方向的知识,让我们很好地适应了研究生生活与科研节奏。研期,张老师还耐心与我们探讨前沿论文的内容,推论先进算法应用在自己研究领域的可行性,并且将他科研的经验一点一滴地授教于我们,帮助我们少走了很多科研的弯路,让我们事半功倍。科研之路犹如雪山草原,正是张老师耐心的指路与教导,才让我们一步步行走的更远。张老师还会定期开展学术组会,给我们研究方向与方法提供思路,开拓了我们的视野。此外,张老师严谨的学风、温文儒雅的气质也深深地影响了我,这些会影响我一生的行事风格。我还要感谢同一个研究组的卢湖川教授,李建华教授,戚金清副教授等老师的亲切指导。每次组会他们都能针对我们汇报的内容提出有意义的建议,让我收获良多。研一期间还在卢湖川老师的教研室学习了一年,让我很好地体会了卢老师教研室良好的学风,期间也得到了老师亲切的指导与耐心的帮助,让我科研更加的顺利。在此,由衷地感谢以上所有老师在这三年研途对我提供的各种教导,也愿整个IIAU教研室以后桃李满天下。此外,我还要感谢教研室一路陪伴与共同学习的人,包括孙冲,艾建伍,冯梦阳,迟至真,王田田,周钦,张丹丹,卜凡杰,吴杰等等师兄弟们。是他们让我体会了一起学习一起进步的乐趣。还要感谢一起生活三年的室友张一,路世杰和姜佳成,是他们让我的生活变得更加充实而有意义。最后,感谢父亲方军亮,母亲陈守爱这么多年来的教育与养育之恩。父恩比山高,母恩比海深。今后我会更加努力,来报答这些年来父母的谆谆教导。-62- 大连理工大学学位论文独创性声明作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外,本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请学位或其他用途使用过的成果一。与我同工作的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。若有不实之处,本人愿意承担相关法律责任。学位论文题目:A随如敗(与凓產w网敘於界羞./Hq作者签名:日期:2啊年/(日g月 大连理工大学硕士学位论文大连理工大学学位论文版权使用授权书本人完全了解学校有关学位论文知识产权的规定,在校攻读学位期间工工大学允许论文被查阅和借阅。学校有论文作的知识产权属于大连理,可以将权保留论文并向国家有关部门或机构送交论文的复印件和电子版.本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印、或扫描等复制手段保存和汇编本学位论文。他学位论文题目:1彳议随孝0J游皮忐况焱闷良的线忪松)日期1日?>〇年K月丨作者签名:|^导师签名日期:孑年Z月"曰

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
大家都在看
近期热门
关闭