《基于多标签学习的图像语义自动标注研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
基于多标签学习的图像语义自动标注研究ResearchofTheAutomaticImageAnnotationBasedOnMultipleLabelLearning姓2013年6月 独创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中己注明引用的内容以外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果,也不包含为获得江苏大学或其他教育机构的学位或证书而使用过的材料。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名:易粮沙7多年6月肛日 学1立论文版权使用授权书I删嗲必江苏大学、中国科学技术信息研究所、国家图书馆、中国学术期刊(光盘版)电子杂志社有权保留本人所送交学位论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一致,允许论文被查阅和借阅,同时授权中国科学技术信息研究所将本论文编入《中国学位论文全文数据库》并向社会提供查询,授权中国学术期刊(光盘版)电子杂志社将本论文编入《中国优秀博硕士学位论文全文数据库》并向社会提供查询。论文的公布(包括刊登)授权江苏大学研究生处办理。本学位论文属于保密口,在年解密后适用本授权书。不保密团。学位论文作者签名:沥\,名很沙乃年占月亿日将狮繇移金∥D年/6月f易Et 江苏大学硕士学位论文摘要随着多媒体数字化技术的发展和推广、存储成本的降低、网络传输带宽的增长,各种多媒体数据如图像、视频等飞速膨胀逐渐成为信息的主流,并对人们的生活和社会发展产生重要的影响。图像是视频的的基础,在多媒体数据管理中占有重要的地位,如何有效的管理这些大规模图像数据已经成了摆在人们面前的需要亟待解决的问题,“语义清晰"是大规模图像数据管理的重要前提,因此图像语义自动标注的研究成为了相关领域的研究热点。图像语义的自动标注本质上是一个学习问题,即根据图像的视觉内容推导出图像的语义标签。因此,各种机器学习、统计推理技术都应用于图像标注的研究中,并在不断的深化和推进。然而,由于图像标注中“语义鸿沟"以及“多标签”问题的影响,现有方法的标注性能仍有待进一步提高。本文围绕图像标注的多标签特点,集中利用多标签的相关性和共现性知识,针对多标签特性带来的数据稀疏、噪声数据集以及语义多标签的无序性等问题开展研究,在多标签数据集的转化、语义多标签的排序、图像语义自动标注系统等方面进行了新的尝试,并取得了一定的效果。本文主要工作如下:(1)提出了一种新的多标签数据集转化方法RAPC-W:针对现有多标签数据集转化方法无法有效利用标签间的语义相关性和共现性知识以及转化后得到的数据集存在数据稀疏和噪声数据集的问题,提出了一种新的多标签数据集转化方法RAPC—W(RankingByAllPairwiseComparisionBasedWordNet),该方法将标签对从原始的两对扩展到四对,增加了划分后数据集的规模。另外,引入了外部数据源WordNet,较好地考虑了标签语义相关性和共现性知识,一定程度上过滤掉了语义不相关的标签组合,更好的保留了原始数据集的信息,降低了噪声数据集对基分类器训练的不良影响。实验结果表明该方法是有效可行的。(2)提出了一种新的语义多标签排序算法:语义标签的排序结果也是图像语义自动标注结果正确与否的重要参考指标,针对当下图像语义自动标注中语义标签排序不准确的问题,提出了一种新的多标签排序算法,该算法利用判别分类技术中用到的基分类器,根据划分后数据集的规模给予每一个基分类器一定的权值,最后利用该权值对每个基分类器输出的语义标注结果进行投票,从 基于多标签学习的图像语义自动标注研究而实现对语义标签的排序。最终实验结果表明该方法是有效的。(3)设计实现了一个图像语义自动标注系统:语义自动标注技术的研究在多媒体数据管理领域具有十分重要的理论意义与应用前景。为了充分展示本文所提方法的标注性能及其应用价值。本文在以上所提两个算法的基础上,参照多马尔可夫随机场的图像语义自动标注模型(MultipleMarkovRandomField,MMRF),设计并实现了一个图像语义自动标注系统,通过交互式的图像语义标注模型的训练与标注演示,充分展示了该标注系统优越的标注性能。关键字:图像语义自动标注,多标签学习,RAPC.W,语义标签排序,图像语义自动标注系统II 江苏大学硕士学位论文ABSTRACTW池thedevelopmentofdigitalmultimediatechnologyandpopularization,reducestoragecosts.thegrowthofthetransmissionbandwidthofnetwork,allkindsofmultimediadatasuchasimages,videoandothersrapidexpansionhavegraduallybecomethemainstreamofinformation,andareimportantlyimpactingonpeople’slivesandsocialdevelopment.Imageisthebasisofthevideo,occupiesallimportantpositoninthemanagementofmultimediadata,howtoeffectivelymanagethesemassiveimagedatahasbecomeaproblemtobesolvedinfrontofpeople,"semanticclarity”istheimportantpreconditionformassiveimagedatamanagement,sotheimagesemanticautomatictaggingresearchhasbecomearesearchfocusintherelatedfield.Automatictaggingofimagesemanticsisessentiallyalearningproblem,whichisderivedtheimagesemanticlabelaccordingtotheimageofthevisualcontentoftheimage.Therefore,allsortsofmachinelearning,statisticalinferencetechniquesareappliedtoimageannotationstudy,andconstantlydeepenandadvance.However,duetotheinfluenceofthe‘‘semanticgap’’and“multi-label”problemintheimageannotation,theexistingmethodsofannotationperformanceremainstobefurtherimproved.Tabbedfeaturesaroundtheimageannotation,thispaperfocusonusingmultiplelabelsandco—occurrence,therelevanceofthetabbedpropertiesofsparsedataandnoisedatasetsandthesemanticlabelproblemsuchasthedisorderofresearch,themoretagdatasetsoftransformation,semanticlabelordering,suchasautomaticimagesemanticannotationsystemforanewattempt,andhasobtainedtlleremarkableeffect.(1)anewmulti-labeldatasetconversionmethodsRAPC-Wisproposedbythispaper:Inviewoftheexistingtagdatasetconversionmethodscannoteffectivelyusethesemanticcorrelationbetweensexknowledgeandco.occurrencetransformationafterthedatasethastheproblemofsparsedataandnoisedataset,thispaperproposesanewlabeldatasetmoreconversionmethodsRAPC-W(RankingByAllPairwiseComparision-basedWordNeO,thismethodwilltagonfromtheoriginaltwotofourpairsofforextension,butincreasesthedivisionafterthesizeofthedataset.Inaddition,introducedtheexternaldatasourceWordNet,wellconsiderthelabelsemanticcorrelationandtheco.occurrenceofsexualknowledge,toacertainextenttofilteroutthesemantictagsthataren’trelated,betterretaintheoriginaldatasetinformation,reducethenoiseofthebaseclassifiertrainingdataset.Theexperimentalresultsshowthatthemethodiseffectiveandfeasible.(2)anewsemanticlabelsortingalgorithmsisproposedbythispaper:Semanticlabelsortingresultisalsotheresultimagesemanticautomatictaggingcorrectlyornotimportantreferenceindex.accordingtothepresentsemanticlabelso—ngisnotaccurateinimagesemanticautomatictaggingproblem,thispaperproposesanewlabelsortingalgorithms,thealgorithmusingthediscriminantclassificationtechniquesusedinthebaseclassifier,divideaccordingtothesizeofthedatasetaftergivingeachofthebaseclassifiercertainweights,fmallyusingtheweightofeachclassifieroutputthesemanticannotationofvoteresults,soastorealizethesemanticlabelordering.Finallytheexperimentalresultsshowthatthemethodiseffective.III (3)animageautomaticsemanticannotationsystemisdesignedandimplemented:Automaticsemanticannotationtechnologyresearchinthefieldofmultimediadatamanagementhasveryimportanttheoreticalsignificanceandapplicationprospects.Inordertotul哆demonstratetheproposedmethodinthispapertheperformanceandapplicationvalue.Inthispaper,onthebasisofthetwoalgorithmsmentionedabove,referencetoThomas,automatictaggingimagesemanticmodelofMarkovRandomField(MultipleMarkovRandomField,MMRF),designsandrealizesanautomaticimagesemanticannotmionsystem,throughtheinteractiveimagesemanticannotationmodeltrainingandtaggingofdemo,fullyshowsthetaggingsystemsuperiorperformancewithanannotation,aswellastohelpthembetterunderstandtheimagesemanticautomatictaggingmechanismandrealizationprocessofthesystem.KeyWords:AutomaticImageAnnotation,MultipleLabelLearning,RAPC-W,SemanticLabelSorting,SystemofAutomaticImageAnnotmionIV 江苏大学硕士学位论文目录摘要⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯IABSTRACT⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯III第一章绪论⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.11.1研究背景及意义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.11.2研究现状⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.21.3本文工作⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.61.4论文组织结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.7第二章相关知识介绍⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.92.1图像语义自动标注⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.92.1.1基于生成模型的图像标注模型图像标注方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.92.1.2基于判别分类模型的图形标注方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯102.2图像语义标注的基本框架⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯122.3图像视觉特征提取和表示方式⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯122.3.1颜色⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.132.3.2纹理⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯142.3.3形状⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯152.3.4对象或区域空间位置信息⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯162.4图像语义标注的多标签特性⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯172.5多标签学习中的多标签数据集转化⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯182.6图像标注中的语义标签排序问题⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯202.7马尔可夫随机场⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯212.8小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯21第三章一种新的语义多标签数据集转化方法RAPC.W⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯223.1多标签学习问题常用的处理方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯223.2常见的多标签数据集转化方法及存在问题⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯233.3相关知识介绍⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯243.3.1外部数据源WordNet⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯243.3.2RPC(RankingByPairwiseComparisonl⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯263.4基于RPC方法的多标签数据集转化方法RAPC—W⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯263.5实验结果分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯283.6结束语⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯33第四章基于基分类器加权投票的语义标签自动排序⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯344.1研究现状与存在的问题⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯344.2基分类器的训练⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯354.2.1支持向量机SVM(SupportVectorMachine,SVM)⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.354.2.2SVM(SupportVectorMachine,SVM)的构造⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.364.3基于基分类器加权投票的图像语义标签排序方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯374.4实验与分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯414.4.1实验数据描述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯414.4.2评价标准⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯4l4.4.3实验结果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯414.5小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..44V 基于多标签学习的图像语义自动标注研究第五章图像语义自动标注系统⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯455.1系统开发背景⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯455.2图像语义自动标注模型⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯455.3图像特征提取及应用⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯475.4系统框架设计⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯485.4.1系统主流程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯485.4.2系统标注效果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯505.5系统演示⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯505.5.1界面展示⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯505.5.2系统演示⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯515.6/J、结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..51第六章总结与展望⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯536.1总结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一536.2展望⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯53参考文献⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.55致{射⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯60在学期间发表的学术论文及其他科研成果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.61VI 江苏大学硕士学位论文1.1研究背景及意义第一章绪论随着多媒体技术的不断进步与发展、存储成本的降低、网络带宽的增长,各种多媒体数据如图像、视频等飞速发展逐渐成为信息的主流,对人们的日常生产和生活产生着越来越重要的影响。“语义清晰”是大规模数据特别是多媒体数据管理的重要的出发点,因此通过信息技术自动获取多媒体数据对象的语义内容的研究具有十分重要的意义。图像是视频的基础,在多媒体数据管理中占据着重要的地位,因此,图像语义自动标注的研究已经成为相关领域的研究热点,在学术界和企业界受到越来越多的关注,可以预见,图像语义自动标注是一个颇具生命力的研究方向,进行图像语义自动标注的研究具有十分重要的理论与实践意义。图像检索一直是推动图像语义标注研究的主要动力,基于内容的图像检索系统利用图像的底层视觉特征,包括颜色、纹理、形状等,进行图像的相似性匹配,输出特征相似的图像作为检索结果”图像的相似性体现在图像视觉特征的相似性上,这些视觉特征从图像中自动提取。然而,人类所理解的图像与用底层视觉特征来表达的图像之间存在着很大的差距,即在图像语义和视觉特征之间横亘着“语义鸿沟"。为了实现更为贴近用户理解能力的、用自然语言描述的查询方式,对图像语义标注的研究逐渐引起人们的广泛注意【l】。标注就是使用语义关键字或标签来表示一幅图像的语义内容,进而可以将图像检索转化为基于文本的检索。早期,基于文本的图像检索大都采用人工标注的方法,即需要专业人员对每幅图像标出关键字。然而,一方面人工标注存在主观性和不精确性,直接影响到检索结果的准确性;另一方面对图像进行人工标注费时费力,尤其是面对目前的海量图像,人工标注十分困难。随着图像处理!机器学习和自然语言处理等技术的发展,近几年出现了众多图像语义的自动标注模型,其核心在于从已有训练数据中对高级语义概念与图像的低级视觉特征的关系进行自动建模,从而使用学习到的模型对新的图像进行标注。因此,图像语义的自动标注可以有效避免基于人工标注的图像检索系统所面临的一系列问题,使得大规模图像基于语义检索应用更具现实性。可以预见,图像语义的自动标注是一l 基于多标签学习的图像语义自动标注研究个颇具生命力的研究方向,具有重大的理论价值和广泛的应用前景。由于图像往往具有丰富的语义内容,百闻不如一见、一图值千言都说明了这个事实,而用户对图像的语义理解又经常表现出主观性和易变性,即不同的用户对同一幅图像的理解与判断经常会不一致,甚至同一个用户在不同的时间或环境下对同一幅图像的语义判断也会不同。因此,自动地理解图像的语义内容仍然是一个非常困难的问题。尽管一些机器学习方法被应用于学习高层语义概念和底层视觉特征的关系,然而出于简化模型的考虑,传统学习方法往往关注于独立标签问题,即假设语义关键词是独立存在的[21,对语义概念进行独立标注。忽略了语义概念的共现模式和相关性。而大多数真实世界的图像属于多标签学习问题,即一幅图像可对应多个语义关键词。图像标注的多标签学习特点是图像语义标注的显著特点。因此,必须要基于“多标签学习”这一特性来开展图像语义自动标注的研究。针对图像语义标注的多标签特点,对待标注图像进行适当建模是当前图像语义自动标注的主要研究方向。据使用统计方法的不同,图像标注模型可以分为两类:基于可判别分类模型的图像标注模型和基于生成模型的图像标注模型。基于可判别分类模型的图像标注模型将每个语义关键词看作一个独立的类,并为每个类学习一个分类器,每个分类器用于判断该图像属不属于该类别,从而决定标注结果。基于生成模型的图像标注模型对视觉特征和语义概念之间的联合概率进行估计,从而对待标注图像进行标注,然而,无论是基于生成模型的图像标注方法还是基于判别分类技术的图像标注方法,针对语义概念的共现性和相关性、数据稀疏、噪声数据集以及语义标签的无序性等问题的研究还有待进一步挖掘。1.2研究现状图像语义自动标注是一个多标签学习问题,即一副图像对应多个语义标签,语义概念之间有很强的相关性和共现性,这就使得图像语义自动标注比传统的学习问题更加富有挑战性。当下图像语义自动标注距离现实应用的水平还存在很大的差距。因此,目前图像语义自动标注的主要任务是提高图像语义标注的准确度,从而推动图像语义自动标注的大规模实际应用。针对图像语义标注的2 江苏大学硕士学位论文多标签特点,对待标注数据进行适当建模是当前图像语义自动标注的主要研究方向。根据使用统计方法的不同,图像标注模型可以分为两类:基于可判别分类模型的图像标注方法和基于生成模型的图像标注方法。基于生成模型的方法进行图像标注的关键是从训练集中估计视觉特征与标注词之间的联合概率。Duygulu等人提出的翻译模型[3】,对分割后的图像区域特征进行聚类,将连续特征变成离散视觉关键字(blob)单词表,图像的标注问题可看作从图像视觉关键字到语义关键字的翻译过程,通过寻找标注词和图像特征之问的关系对待标注图像进行标注。Monay等人建立了一对有关联的PLSA模型对文本特征赋予了更高的重要性[4】。Jeon提出离散相关模型利用视觉关键字与语义关键字的相关性(联合概率)进行标注[5】。这类方法的一个直观想法是同一关键词的视觉特征具有一致性,如“大象”,其颜色和纹理在视觉特征上保持一致。这样,图像可以被分割成一些带有一定语义含义的局部区域(如采用Normalizedcut图像分割技术[6】),理想情况下图像分割后每个区域对应一个清晰的语义对象,因此,通过区域特征的距离计算可以近似度量两个区域(对象)的语义相似性。虽然离散特征模型考虑了对象和区域的语义含义,但这种方法的成功源于每个区域需对应一个清晰语义对象的假设。然而现在图像分割技术还远远不能达到这种效果,因此,该方法的有效性也受到限制。另外,这种对视觉特征的离散处理方法会造成视觉特征内容的损失,由于事先很难确定一个理想的聚类粒度,标注结果受离散化效果影响较大[71。紧接着连续特征模型CRM[81和MBRM[91对CMRM进行改进,使用基于核的非参数估计对特征生成概率进行估计,并对词建立多伯努力分布模型。这些方法使用非参数高斯核进行特征生成概率的连续估计,与离散模型相比其标注性能有显著提高。然而,上述方法对图像各个区域在生成概率估计中所起作用的复杂性考虑不足。将核密度估计看作区域一图像的相似性度量函数,则在上述模型中,区域与图像的相似性定义为区域与图像各个区域相似性度量的平均值,然而一幅图像的不同区域对该相似性度量的贡献程度不同,如图像中的“对象”区域较“背景”区域贡献大。另一方面,常用的图像分割方法易产生许多 基于多标签学习的图像语义自动标注研究语义不明确的区域,由于这些区域的弱语义特性,使得这类区域经常与代表多种不同语义对象的区域都具有较高的特征相似性,影响图像特征生成概率的估计的准确性。基于区域的图像相似性度量在基于内容图像检索(CBIR)领域已被研究多年,并存在多种利用区域匹配结构信息来提高图像检索效果的方法【10’11,12】。wang等人在SIMPLicity[10】中定义了加权的区域相似性之和来度量两幅图像的相似性,最相似的区域有最高匹配优先权。zhang在FuzzyClub[il]中对其进行改进,定义一幅图像的某区域和另一幅图像的距离值为该区域和另一幅图像的所有区域中距离度量最小的值,该最小距离值反映区域和图像的最大相似性。这些方法都表明在图像整体相似性度量中不应忽视图像之间的区域匹配特性。我们认为这种图像相似区域之间的匹配结构是揭示图像语义相关性的关键,在图像标注领域,估计待标注图像的生成概率时应该充分利用这种匹配信息来提高估计的准确性。基于生成模型的图像标注方法在学习过程中未将图像组织为类,因此可将这些方法归为无指导学习类别【l31。将每个语义关键词看作一个类标签,图像标注也可以使用有指导的可辨别分类方法解决。其中基于模型的方法和基于SVM的方法被广泛用于图像标注中。基于模型的方法如Bamard等人使用高斯混合模型对每个语义类的分布进行建模[14],进而使用EM方法对模型参数进行学习。Shi等人使用层次多项式混合模型对每个语义概念进行建模【l51,在其方法中将先验层次知识结合进图像的多级概念结构表示中,使用贝叶斯学习框架进行图像标注。基于模型的方法往往需要事先假定真实类分布符合的模型,因此容易受到假设模型与真实类分布不一致的问题的影响。同时,由于图像数据的视觉多样性,模型中往往存在大量的参数,需要大量的训练数据进行参数学习[1引。SVM以其良好的泛化能力被广泛应用于分类问题中。在基于SVM的标注方法中,和给定标注词相关的图像为正例,其它的图像为该类的负例,从而进行多个二元分类器的学习。如:Jain等人提出使用多分辨率基于固定网格的图像内容表示方法以及层次增强算法来解决使用图像分类的标注中图像内容表示以及分类器的有效训练等问题[161。Yang等人将基于区域的图像标注问题转化为多实例学习问题,并设计非对4 江苏大学硕士学位论文称SVM对图像标注的多实例学习进行研究【17】。Cameiro等人将图像标注问题转化为有指导多类标注问题,在其方法中,为每个类学习一个类分布模型,在其标注过程中可为待标注图像同时进行多标签分类【l31。如前所述的无指导方法不受数据规模和语义关键词的个数限制,同时其估计概率的方式为待标注图像语义标注的选择提供了天然的排序方式。但这些方法也容易受到无指导学习的质量的影响。如在离散特征模型中,当使用聚类方法生成视觉关键字表时,标注性能受到聚类效果的影响。由于语义鸿沟的存在,特征相似而语义不相似或语义相似而特征不相似的图像都会影响聚类效果,从而影响标注性能。同样,在连续特征模型MBRM中,高生成概率而语义不相似的图像也会对待标注图像的正确标注产生破坏作用。而辨别分析方法具有良好的泛化能力,采用基于可辨别分析的分类方法:如SVM,可对影响生成模型的错误图像和相关图像进行区分,从而提高生成模型的标注性能。但是直接基于SVM的辨别分类方法,需要为每个语义关键词学习一个分类器,时间复杂度高且容易受到正负例不平衡的影响。由此可见,无论是基于生成模型的图像标注方法还是基于判别分类技术的图像标注方法,针对语义概念的共现性和相关性、数据稀疏、噪声数据集以及语义标签的无序性等问题的研究还有待进一步挖掘。另外,图像语义自动标注与传统的多分类任务不同,它是一个多标签学习问题,如:一个图像可以同时赋予“urban”、“building”和“road”三个标签。而传统的分类任务是一种排它性分类,即一个样本对应一个类标签。因此,图像语义自动标注的多标签特性也带来了一系列问题,随着研究的深入,图像语义自动标注中的一些问题也逐渐暴露出来,主要表现在以下几个方面:(1)语义概念的相关性和共现性问题。在现实世界中,每幅图像的语义概念都不是独立存在的,它们之间存在着很强的共现模式和语义相关性。传统的学习方法往往假设每个语义类相互独立,因此对这种语义关联性难以很好的把握,很难建模。因此,清晰的学习不同语义概念的边界仍是一个十分困难的问题[18,19]。(2)数据稀疏问题。对一个图像集合而言,一般包含语义概念的图像数量非常稀少。而标注模型训练的准确度和训练数据的数量有很大关系。因此,对 基于多标签学习的图像语义自动标注研究这些稀疏语义概念进行准确建模仍十分困难。(3)噪声数据集问题。基于可判别分类模型的图像标注方法将每个语义关键词看作一个独立的类,并为每个类学习一个基分类器,每个基分类器用于判断该图像属不属于该类别,从而决定标注结果。而训练基分类器的前提是先要对数据集按某种规则进行划分,但划分后的数据集往往含有很多对分类器的准确性产生负面影响的噪声数据,如何有效的去除噪声数据集对基分类器训练的不良影响,也是一个亟待解决的问题。(4)语义标签的无序性问题。由于图像语义自动标注是一个多标签学习题,也就是一副图像可以同时赋予多个语义标签,这些语义标签有的与图像的视觉内容相关,有的与图像的上下文信息相关,因此,其相对于图像的重要性不同,即图像的语义标签存在一个顺序问题,显然第一种语义标签相对于第二种语义标签有着更高的重要性,因此,语义标签排列顺序也是衡量图像语义自动标注准确度的重要指标,而现有的图像语义自动标注对语义标签的排序问题的研究还有待进一步挖掘。1.3本文工作本文主要针对图像语义标注中存在的问题,采用统计学的方法,围绕图像标注的多标签特点进行了一些探索和研究。主要包括以下几方面的工作:(1)针对现有多标签数据集转化方法无法有效利用标签间的语义相关性和共现性知识以及转化后得到的数据集存在数据稀疏和噪声数据集的问题,提出了一种新的多标签数据集转化方法RAPC—W(RankingByAllPairwiseComparisionBasedWordNet),该方法将标签对从原始的两对扩展到四对,增加了划分后数据集的规模。另外,引入了外部数据源WordNet,较好地考虑了标签语义相关性和共现性知识,一定程度上过滤掉了语义不相关的标签组合,更好的保留了原始数据集的信息,降低了噪声数据集对基分类器训练的不良影响。实验结果表明该方法是有效可行的。(2)语义标签的排序也是图像语义自动标注结果正确与否的重要指标,针对当前图像语义自动标注中语义标签的无序性问题,提出了一种新的多标签排序算法,该算法利用判别分类技术中用到的的基分类器,根据划分后数据集的6 江苏大学硕士学位论文规模给予每一个基分类器一定的权值,最后利用该权值对每个基分类器输出的语义标注结果进行投票,从而实现对语义标签的排序。最终实验结果表明该方法是有效可行的。(3)语义自动标注技术的研究在多媒体数据管理领域具有十分重要的理论意义与应用前景。为了充分展示本文所提方法的标注性能及其应用价值。本文在以上两个算法的基础上,结合图像底层视觉特征提取技术,参照多马尔可夫随机场的图像语义自动标注方法(MultipleMarkovRandomField,MMRF),设计实现了一个图像语义自动标注系统,通过交互式的图像语义标注模型的训练与标注演示,充分展示了该标注系统优越的标注性能,同时有利于帮助大家更好地了解图像语义自动标注的机理和系统的实现过程。1.4论文组织结构本文共分六章,论文结构及各章内容简介如下:第一章简单介绍了图像语义标注的研究背景与研究意义,阐述了当前图像语义标注的研究现状与存在的问题以及本文所做的工作,最后综述本文的组织结构。第二章首先介绍了图像标注的基本框架,接着讨论了当前图像标注的相关工作及背景知识。通过分析现有图像语义标注方法,指出现有多标签图像标注的研究所存在的不足之处。第三章首先阐述了现有多标签数据集转化方法及其不足,然后简单介绍了常用的数据集转化方法RPC和外部数据源WordNet,接着在RPC方法的基础上结合外部数据源WordNet提出了一种新的多标签数据集转化方法,并给出了具体实现,最后在已有的图像数据库上验证了所提方法的有效性。第四章首先介绍了图像语义标注中语义标签排序的重要性及当前研究现状,然后阐述了现有图像语义标签排序的主要研究方法及不足,最后依据划分后数据集的规模,借助多分类器加权投票,实现了一种新的语义标签排序方法,并给出了具体实现,最后在已有的图像数据库上验证了所提方法的有效性。第五章在以上所提两种方法的基础上参照马尔可夫随机场图像语义标注方法(MultipleMarkovRandomField),实现了一个图像语义自动标注系统,通过 基于多标签学习的图像语义自动标注研究交互式的图像语义标注模型的训练与标注演示,充分展示了本文所构造系统的标注性能。第六章简单归纳了本文的工作,并给出了该领域的进一步发展前景。 江苏大学硕士学位论文第二章相关知识介绍本章首先介绍了图像语义标注的基本框架,进而讨论了当前图像标注的相关工作及背景知识。指出现有工作在多标签图像标注中还存在的不足,从而为后续研究工作奠定基础。2.1图像语义自动标注从上世纪90年代末开始,图像语义自动标注领域就非常活跃,人们利用机器学习、统计模型等设计出各种不同的图像语义自动标注模型,主要可以分为两大类:基于概率统计的模型和基于判别分类的模型。2.1.1基于概率统计模型的图像标注方法这类方法进行图像标注的关键是从训练集中估计视觉特征与标注词之间的联合概率。Duygulu等人提出的翻译模型,对分割后的图像区域特征进行聚类,将连续特征变成离散视觉关键字(blob)单词表,图像的标注问题可看作从图像视觉关键字到语义关键字的翻译过程,通过寻找标注词和图像特征之间的关系对待标注图像进行标注。Monay等人建立了一对有关联的PLSA模型对文本特征赋予了更高的重要性。Jeon提出离散相关模型CMRM,利用视觉关键字与语义关键字的相关性(联合概率)进行标注。这类方法的一个直观想法是同一关键词的视觉特征具有一致性,如“狮子”,其颜色和纹理在视觉特征上保持一致。这样,图像可以被分割成一些带有一定语义含义的局部区域(如采用Normalizedcut图像分割技术),理想情况下图像分割后每个区域对应一个清晰的语义对象,因此,通过区域特征的距离计算可以近似度量两个区域(对象)的语义相似性。虽然离散特征模型考虑了对象和区域的语义含义,但这种方法的成功源于每个区域需对应一个清晰语义对象的假设。然而现在图像分割技术还远远不能达到这种效果,因此,该方法的有效性也受到限制。另外,这种对视觉特征的离散处理方法会造成视觉特征内容的损失,由于事先很难确定一个理想的聚类粒度,标注结果受离散化效果影响较大。 基于多标签学习的图像语义自动标注研究紧接着连续特征模型CRM和MBRM对CMRM进行改进,使用基于核的非参数估计对特征生成概率进行估计,并对词建立多伯努力分布模型。这些方法使用非参数高斯核进行特征生成概率的连续估计,与离散模型相比其标注性能有显著提高。然而,上述方法对图像各个区域在生成概率估计中所起作用的复杂性考虑不足。将核密度估计看作区域一图像的相似性度量函数,则在上述模型中,区域与图像的相似性定义为区域与图像各个区域相似性度量的平均值,然而一幅图像的不同区域对该相似性度量的贡献程度不同,如图像中的“对象”区域较“背景”区域贡献大。另一方面,常用的图像分割方法易产生许多语义不明确的区域,由于这些区域的弱语义特性,使得这类区域经常与代表多种不同语义对象的区域都具有较高的特征相似性,影响图像特征生成概率的估计的准确性。基于区域的图像相似性度量在基于内容图像检索(CBIR)领域已被研究多年,并存在多种利用区域匹配结构信息来提高图像检索效果的方法。Wang等人在SIMPLicity中定义了加权的区域相似性之和来度量两幅图像的相似性,最相似的区域有最高匹配优先权。Zhang在FuzzyClub中对其进行改进,定义一幅图像的某区域和另一幅图像的距离值为该区域和另一幅图像的所有区域中距离度量最小的值,该最小距离值反映区域和图像的最大相似性。这些方法都表明在图像整体相似性度量中不应忽视图像之间的区域匹配特性。我们认为这种图像相似区域之间的匹配结构是揭示图像语义相关性的关键,在图像标注领域,估计待标注图像的生成概率时应该充分利用这种匹配信息来提高估计的准确性。2.1.2基于判别分类模型的图形标注方法上节中介绍的标注模型在学习过程中未将图像组织为类,因此可将这些方法归为无指导学习的类别。将每个语义关键词看作一个类标签,图像标注也可以使用有指导的可辨别分类方法解决。其中基于模型的方法和基于SVM的方法被广泛用于图像标注中。基于模型的方法如Bamard等人使用高斯混合模型对每个语义类的分布进行建模,进而使用EM方法对模型参数进行学习。Shi等人使用层次多项式混合10 江苏大学硕士学位论文模型对每个语义概念进行建模,在其方法中将先验层次知识结合进图像的多级概念结构表示中,使用贝叶斯学习框架进行图像标注。基于模型的方法往往需要事先假定真实类分布符合的模型,因此容易受到假设模型与真实类分布不一致的问题的影响。同时,由于图像数据的视觉多样性,模型中往往存在大量的参数,需要大量的训练数据进行参数学习。SVM以其良好的泛化能力被广泛应用于分类问题中。在基于SVM的标注方法中,和给定标注词相关的图像为正例,其它的图像为该类的负例,从而进行多个二元分类器的学习。如:Jain等人提出使用多分辨率基于固定网格的图像内容表示方法以及层次增强算法来解决使用图像分类的标注中图像内容表示以及分类器的有效训练等问题。Yang等人将基于区域的图像标注问题转化为多实例学习问题,并设计非对称SVM对图像标注的多实例学习进行研究。Carneiro等人将图像标注问题转化为有指导多类标注(supervisedmulticasslabeling)问题,在其方法中,为每个类学习一个类分布模型,在其标注过程中可为待标注图像同时进行多标签分类。如前所述的无指导方法不受数据规模和语义关键词的个数限制,同时其估计概率的方式为待标注图像语义标注的选择提供了天然的排序方式。但这些方法也容易受到无指导学习的质量的影响。如在离散特征模型中,当使用聚类方法生成视觉关键字表时,标注性能受到聚类效果的影响。由于语义鸿沟的存在,特征相似而语义不相似或语义相似而特征不相似的图像都会影响聚类效果,从而影响标注性能。同样,在连续特征模型MBRM中,高生成概率而语义不相似的图像也会对待标注图像的正确标注产生破坏作用。而辨别分析方法具有良好的泛化能力,采用基于可辨别分析的分类方法:如SVM,可对影响生成模型的错误图像和相关图像进行区分,从而提高生成模型的标注性能。但是直接基于SVM的辨别分类方法,需要为每个语义关键词学习一个分类器,时间复杂度高且容易受到正负例不平衡的影响。由此可见,统计生成模型与辨别分析方法具有各自的优缺点,将两者进行结合以实现优势互补,吸引人们的广泛关注。在图像标注的相关领域,如视觉对象分类领域,存在一些生成模型与辨别分析方法相结合的相关工作,如。但与分类任务不同,图像标注具有多标签特点,即每个图像对应多个语义相关的标签,将现存研究工作直接应用于图像标注领域中是一件十分困难的工作。 基于多标签学习的图像语义自动标注研究2.2图像语义标注的基本框架图像的语义标注指的是运用语义关键字来表示一副图像的内容,从而将图像的检索转化为基于文本的检索。图像语义标注的框架图如图2.1所示:图2.1图像语义标注的基本框架从上图可以看出传统的图像标注框架分为两部分,其中实线部分表示基本标注框架而虚线部分表示语义标注的优化部分,通常图像语义自动标注的主要部分集中在基本框架下,用来学习图形的底层视觉特征与高层语义概念之间的关系。因为现在的文本检索方式已经相对成熟,所以如果图像语义标注的准确度能够达到较高水平,那么基于文本的检索方法可用来解决现有的图像检索问题,而“语义鸿沟”的问题在一定程度上也可通过图像语义自动标注技术得到缓解。实际上,早期的基于文本的图像检索方式也可看做是图像语义的标注问题,只是当时的图像标注是基于手工的方式,这种方式不仅费时费力而且效率低下,同时由于不同的人对同一副图像的语义有不同的理解,甚至是同一个人在不同的时间和环境下对同一副图像的语义理解也可能会不同,因此手工方式的标注准确度也不高,且标注代价过大,现在的自动标注技术能将人们从费时费力的手工标注中解脱出来而且还提高了标注的准确性,也使得在海量图像中基于语义检索的应用能够得以实现。2.3图像视觉特征提取和表示方式目前广泛使用的图像内容表示及特征提取方法可分为两大类:基于图像或基于网格;基于区域或基于对象。前者从整个图像或均匀划分的图像网格中提取特征,其好处是不需要进行图像分割,因此特征提取的速度快,但对于对象识别和基于对象的标注和检索难以很好的支持。后者需对图像进行分割,进而从分12 江苏大学硕士学位论文割后的区域中提取特征。虽然基于区域的内容表示方法能够较好的支持对象级的标注和检索,但由于目前图像分割技术并不可靠,其错误会传递给标注过程,最终标注结果容易受图像分割效果的影响。采用适当的图像内容表示方法后,我们对图像提取视觉特征。图像的特征是多方面的,一般可分为颜色、纹理、形状和图像的空间位置信息等,下面简单介绍下这几种特征的提取和表示方式。2.3.1颜色为了正确地使用颜色这一特征,需要建立颜色空间模型,通常的颜色空间模型可用三个基本量来描述,所以建立颜色空间模型就是建立一个3.D坐标系,其中每个空间点都代表某一种颜色。通常来说,对于不同的应用,应该选取不同的颜色空间模型。常用的颜色空间模型主要有RGB、HIS、HSV、ⅥⅣ、YIQ、Munsell等,颜色空间模型的选取需要符合一定的标准,常用的颜色特征表示方法有颜色直方图、颜色矩、颜色聚合向量、颜色集等。下面简单介绍一些典型的颜色特征。(1)颜色直方图(ColorHistogram)1991年,M.L.swain和D.H.Ballard在颜色索弓l(colorindexing)文中使用颜色直方图求交的方式进行图像颜色相似性计算‘201。颜色直方图是表示图像中颜色分布的一种统计值,它的横轴表示颜色值,纵轴表示在某个颜色值下的像素个数在整幅图像中所占的比例。颜色直方图检索简单,具有平移!尺度以及旋转不变性,因此在基于内容的图像检索中得到最为普遍的应用。(2)颜色相关图(ColorCorrelogram)颜色相关图是Huang等‘211在1997年提出的一种颜色直方图在空间中的延伸。颜色相关图是记录颜色之间相关性的统计值,即对颜色值为Ci的像素Pl与该像素点相距为K的另一个像素点P2的颜色为C;的概率的大小。相对于颜色直方图,颜色相关图很大程度上提高了检索效率,但是由于维数较高使得计算量偏大。(3)颜色矩(ColorMoments)颜色矩是Stricker和Orengo(221提出的测量彩色图像相似性的方法。他们认 基于多标签学习的图像语义自动标注研究为颜色信息集中在图像颜色的低阶矩中,故主要针对颜色分量的一阶(均值)、二阶(方差)以及三阶(斜度)等颜色矩进行统计。颜色矩计算简单,可以有效表示图像中颜色分布,特别是对图像中只有一个目标是十分有效,并己在许多检索系统中得到应用,如QBIc系统。(4)局部颜色特征Fuh等‘231提出一种颜色局部特征来捕获图像的局部颜色空间信息。他们将图像划分成一定的矩形区域,每个区域用一种主要颜色代表,图像之间的相似性定义为图像间具有相似颜色区域的重叠程度。2.3.2纹理纹理是图像的另一个主要特征,通常看作图像的某种局部特征,它不仅反映图像的灰度统计信息,而且反映图像的空间分布信息和结构信息。对图像纹理,迄今为止仍无一个公认的、一致的严格定义。但图像纹理对人们来说是很熟悉的。纹理是人眼视觉的重要组成部分,反映了物体的深度和表面信息,表达了物体表面颜色和灰度的某种变化。而且这些变化又与物体本身的属性有关,是图像的固有特征之一。数字图像中的纹理是相邻像素的灰度或颜色的空间相关性,或是图像灰度和颜色随空间位置变化的视觉表现。纹理特征描述方法大致可以分为统计法、结构法、模型法、频谱法。结构分析方法分析图像的结构从中获取纹理特征,包括形态学算子,边界图等”统计分析方法是对图像属性进行统计分析,包括共生矩阵、Tamura纹理、Word分解、马尔可夫随机场(MarkovRandomField)、多分辨率分析方法等。频谱分析方法是对傅立叶频谱中峰值所占能量比例进行分析的方法,包括计算峰值处的面积、峰值处的相位、峰值间的相角差等。(1)Tamura纹理特征Tamura等在人类对纹理视觉感知的心理学研究基础上,提出了Tamura纹理特征‘241。Tamura纹理特征的六个分量对应于心理学上纹理特征的六个属性,分别是粗糙度(Coarseness)、对比度(Contast)、方向度(Directionality)、线像度(Linelikeness)、规整度(Regularity),以及粗略度(Roughness)。Tamura纹理特征在视觉上是有意义的,故被应用与许多图像检索系统之中,如QBIC系统。14 江苏大学硕士学位论文(2)基于小波变换的纹理特征自小波变换(WaveletTransform)理论框架建立之后,研究者们开始将小波变换应用于纹理表示中,小波变换逐渐成为一种常用的纹理分析和分类方法并受到广泛关注[25,26,27】。小波变换将二维信号分解成四个子波段,根据其频率特征分别称为LL,LH,HL和HH,可以采用每个波段的每个分解层次上的能量分布均值和标准方差来表示图像纹理特征。Ma和Manjunath等在对直角小波变换、树结构小波变换和Gabor小波变换进行比较之后,发现Gabor小波变换最符合人类视觉特征的表达【281。研究者们针对纹理特征计算量大,对噪声敏感的问题,提出了一些改进方法,如Gabor过滤器法和扩展不规则碎片性分析法等[291。2.3.3形状计算机视觉中,相对颜色或纹理等低层特征而言,形状特征属于图像的中间层特征,它作为刻画图像中物体和区域特点的重要特征,是描述高层视觉特征(如目标、对象)的重要手段,要把图像低层特征与高层特征有机的结合起来,必须有好的形状特征描述与提取算法的支持。形状特征的描述主要有基于边界和基于区域两大类,前者只利用形状的外部边缘,如链码、骨架、傅立叶描述子等。而后者利用形状的全部区域,如区域面积、不变矩等。这两种又都可以进一步分为基于变换域和基于空间域的方法。(1)傅立叶描述子(FourierDescriptor)傅立叶描述子是基于边界的形状特征的最典型表示方法之一,其主要思想是利用傅立叶变换后的边界作为形状特征[30,31]将XY平面上的边界转换到复平面上,对复平面上的边界函数进行傅立叶变换,得到一系列复数系数,其高频分量对应于形状细节特征,而低频分量则描述了形状的基本特征。傅立叶描述子可以用较少的参数表示很复杂的边界。(2)不变矩(InvariantMoment)不变矩是一种重要的基于区域的形状描述方法,其基本思想是使用与变换无关的基于区域的矩作为形状特征‘321。不变矩具有平移、旋转、镜面以及尺度不变性。 基于多标签学习的图像语义自动标注研究2.3.4对象或区域空间位置信息图像中的对象或区域的空问位置信息是关于图像视觉特征的一种重要信息。它可以有效的补充如颜色直方图特征描述方法无法描述图像的空间分布信息的缺陷。所以图像的空间位置信息对于图像检索是非常有帮助的。常用的描述图像的空间位置信息的方法是2D.String。空间quad.Tree和符号图也是有效的图像空间位置信息描述方法。姿态估计问题就是:确定某一三维目标物体的方位指向问题。姿态估计在机器人视觉、动作跟踪和单照相机定标等很多领域都有应用。在不同领域用于姿态估计的传感器是不一样的,在这里主要讲基于视觉的姿态估计。基于视觉的姿态估计根据使用的摄像机数目又可分为单目视觉姿态估计和多目视觉姿态估计。根据算法的不同又可分为基于模型的姿态估计和基于学习的姿态估计。(1)基于模型的姿态估计方法基于模型的方法通常利用物体的几何关系或者物体的特征点来估计。其基本思想是利用某种几何模型或结构来表示物体的结构和形状,并通过提取某些物体特征,在模型和图像之间建立起对应关系,然后通过几何或者其它方法实现物体空间姿态的估计。这里所使用的模型既可能是简单的几何形体,如平面、圆柱,也可能是某种几何结构,也可能是通过激光扫描或其它方法获得的三维模型。基于模型的姿态估计方法是通过比对真实图像和合成图像,进行相似度计算更新物体姿态。目前基于模型的方法为了避免在全局状态空间中进行优化搜索,一般都将优化问题先降解成多个局部特征的匹配问题,非常依赖于局部特征的准确检测。当噪声较大无法提取准确的局部特征的时候,该方法的鲁棒性受到很大影响。(2)基于学习的姿态估计方法基于学习的方法借助于机器学习(machinelearning)方法,从事先获取的不同姿态下的训练样本中学习二维观测与三维姿态之间的对应关系,并将学习得到的决策规则或回归函数应用于样本,所得结果作为对样本的姿态估计。基于学习的方法一般采用全局观测特征,不需检测或识别物体的局部特征,具有较好的鲁棒性。其缺点是由于无法获取在高维空间中进行连续估计所需要的密16 江苏大学硕士学位论文集采样,因此无法保证姿态估计的精度与连续性。2.4图像语义标注的多标签特性出于简化计算的目的,己知工作普遍假设语义关键词之间相互独立。近年来,人们逐渐意识到图像标注的多标签特性,一方面多标签分类(Multi.1abelClassificatinn)技术被运用于解决图像标注问题,另一方面人们在标注时利用词与词之间的相关性(Correlation)改进标注性能。本节分别对这两方面的相关工作进行介绍。机器学习领域的多标签分类方法并不多见。通常的做法包括二元分类方法以及直接的多类方法。二元方法是将多标签分类问题转换为多个独立的二元分类问题,每个二元问题用于检测给定标注词是否出现在图像中。该方法最普遍使用的方法,如上节中所述基于SVM的分类方法。后来,出现对二元独立分类器的分类结果利用上下文信息进行融合的方法,这种方法融合的结果依赖初始的二元分类器,因此若二元分类器的结果并不可靠,其误差会传递给融合过程。直接的多类方法将包含多个标签的样本作为新的类,并为它们建立模型。但这样会产生非常多的新类,因此这种方法在图像标注中并不多见。Qi等人提出一个相关多标签视频标注算法,提出相关多标签框架,对单个语义概念及它们的相互作用同时建模。Kang等人提出一个相关标签传播算法,对基于核的KNN分类算法进行改进,使其对标签间的相关性进行考虑。另一方面,人们在标注时利用词和词的相关性改进标注性能。举例来说,“people,beach”、“people,garden”具有较高相关性,则这两者同时作为图像标注的概率较高,而‘'grass,tiger’组合成为某一图像的语义标注的概率显然高于“ocean,tiger'’。在标注中使用此类相关性信息的代表性工作包括CLM模型、TMHD方法以及AGAnn方法。Jin等人设计CLM模型,在其标注方法中将该问题放松为估计p(眈II)——语言模型岛生成图像I的标注词的概率,隐含考虑了词和词的相关性。与使用外部知识源WordNe进行词与词相关性不同,该方法在标注过程中利用训练集中词和词关系进行标注,并且其在一定程度上改善了标注性能,但该篇文章并 基于多标签学习的图像语义自动标注研究未给出度量任意两个词的相似性的有效方法,同时对词的“邻居”关系蕴含的语义相似性并未考虑,且由于使用EM算法,标注速度较慢。TMHD方法需借助外部数据源WordNet,通过WordNet度量词和词的相关性,对使用机器翻译模型的标注结果进行不相干词的过滤,但此种方法对训练集中有用的上下文信息未充分利用。AGAma对自适应[](AdaptiveGraph)标注的结果应用词与词相关性。Zhou等人提出了一种迭代的图像语义自动标数据集中学习标注词之间的语义共现性。Wang等人则通过标注词在训练图像数据集中的共现模式(Co.occurrence)来估计标注词之间的语义共现性和相关性。Tang等人提出了一种基于图的方法来估计标注词之间的语义共现性。总之,现有的方法通常基于有限的训练图像数据集或标准的语法辞典,如借助WordNet来估计标注词之间的语义共现性。然而,由于WordNet等语法辞典并没有考虑图像里的上下文信息。而训练图像数据集的有限性导致基于训练数据集的标注词之间的语义共现性具有很大的局限性,对于数量巨大的Web图像来说更是如此。基于WordNet的标注词之间语义共现性的估计方法有许多的相关工作,本文就不再详述。由于WordNet技术已相对较成熟,因此,本文结合WordNet技术进行了一些新的尝试,结合WordNet技术提出了一种新的多标签数据集转化方法,具体内容将在第三章进行介绍。为了在标注过程中考虑词与词的相关性,理想情况下应该利用词的集合进行标注,此时需穷举标注单词表的所有子集,当标注单词表非常大时,在计算上并不可行。并且在前面介绍的方法中,往往单方面考虑了图像特征的相似性度量方式以及词与词的相关性,对这两方面的相互作用方式并未考虑。2.5多标签学习中的多标签数据集转化对于多标签学习问题,其处理方法可分为整体优化法和基于数据分解的方法。整体优化法对所有样本和标签构建一个优化问题,如BoosTexter算法、Rank.SVM算法、多标签k近邻算法以及最大化熵的多标签算法(MIME)等,该类方法的优点是没有改变数据的结构,没有破坏类与类之间的联系,其缺点是需要花费大量时间去解优化问题,难以应用到较大规模的数据集。基于数据分解的方法将多标签学习任务转化为一个或多个单标 江苏大学硕士学位论文签学习任务,利用已有的单标签数据挖掘知识进行多标签问题的处理。这种转换实际上是先将多标签学习任务中的多标签数据集转化为单标签数据集,再利用SVM等分类算法在转化后的数据集上进行基分类器的训练,并借助基分类器完成多标签数据的分类工作。要想提升该类方法的准确率,可以在两方面做努力,一是寻求有效的基分类器构造方法,在转化后的数据集构建更加高效的基分类器。二是在多标签数据集的转化上下功夫,即可以寻找一种高效的数据集转化方法,使转化后的数据集能更好的反映原始多标签数据集中的信息,从而使得建立在这种数据集上的基分类器具有更高的分类准确率。本文重点从第二方面入手,寻找更加有效的数据集转化方法。目前可用的转化方法主要有BR方法、Copy方法、Copy-Weight方法、LP方法、RPC方法等。BR(BinaryRelevance)方法是一种典型的基于数据分解的方法,它将每个标签的预测看作一个独立的单分类问题,并为每个标签训练一个独立的分类器,用全部的训练数据对每个分类器进行训练,这种算法忽略了标签之间的相互关系,往往无法达到令人满意的分类效果。文献通过拷贝(copy)和带权重拷贝(copy.weight)的方法对BR进行改进,将原训练集合中的一条多标签数据拆分成多条单标签数据,并给予相应的权重;LP(LabelPowerset)是另外一种被广泛使用的转化方法,它将训练数据中的每种标签组合进行二进制编码,从而形成新的标签。LP算法的显著缺点是不能预测新的标签组合。为此,Read等将概率分布模型应用到LP中,当对未分类数据进行预测时,可以预测出训练集合中未出现的标签组合。LP算法的复杂度较高,高达O(min{2q,m)≠}t(D)),可以通过剪枝或随机标签组合的方法在一定程度上可以降低复杂度,但降低的幅度有限;RPC是Hullermeier等提出的一种方法,该方法是一种基于标签对比(pairwisecomparison)的转化方法,通过对比标签集合中任意两个标签之间的关系,建立q(q.1)/2个分类器。每个分类器在两个标签k和k间投票,然后组合这些投票结果作为最终的多标签分类结果。假设多标签分类算法中采用的基础分类器(basedclassifier)的复杂度为0(t(D)),其中函数t(D)表示分类器在训练集合D上建立分类模型的复杂度,则基于标签对比的多19 基。J:多标签学习的图像语义自动标注研究标签分类算法的复杂度为O(q(q.1)/2撑t(D))。上述这些方法均没有有效的利用标签之间潜在的语义相关(relevance)和共现。t生(co—occurrence)矢N识,并且转化得到的数据集相对于问题本身规模偏小,不能进行有效的基分类器训练。2.6图像标注中的语义标签排序问题当前研究表明,图像标注的语义标签中,只有50%的标签是和图像内容相关的。并且,标签的重要性或者相关性不能够由现有的标签次序反应。图2—2给出了Flickr上的两幅示例图像,可以看到两幅图像的视觉内容非常相似,但是最主要的关键词“鸟(bird)”却有着不同的次序,说明社交图像中原有的标签次序没有反应出标签和图像之间的关联程度。为了解决标签次序的问题,近些年来,学者对标签排序问题进行了研究。Liu等人p3J对标签排序问题进行了先驱性的工作,使用概率密度估计和随机游走的方法计算标签的相关性以对标签进行排序。Li等人【34]根据图像之间视觉关联,使用近邻投票的方法进行标签排序。Zhuang等人【35J提出了一个一_维(文本和视觉)的学习方法计算标签和图像之间的相关性。但是,以上这些方法在计算标签和图像的相关性的时候只考虑了整幅图像,而忽略了标签与图像中显著区域之间的潜在相关性。圈藿0墓蛰图2—2来自Flickr的两幅示例图像及其对应的标签列表为了克服现有的语义标签排序研究工作中只考虑了标签和整幅图像之间的相关性而造成的语义关联不明确的问题,本文考虑图像的显著性区域,提出了一个新的基于视觉显著性区域的语义标签排序方法,以期望得到语义标签更准确的排序。20 江苏大学硕士学位论文2.7马尔可夫随机场马尔科夫随机场(MarkovRandomFields,MRS)模型也称为无向图模型,一般应用在统计学习和机器学习等领域,用来对联合概率进行建模。Metzler等人通过MIu模型来构建一个通用的、形式化的模型以对项之间的依赖性(Termdependencies)进行建模。该模型可以将任意的文本特征作为例证(evidence)集成到该模型中。zhu等人明提出了一个动态的层次马尔科夫随机场(DynamicHierarchicalMarkovRandomFields,DHMRF)模型来以判别分析的方式集成数据提取中的结构不确定性。近年来,马尔科夫随机场模型也被广泛用于解决计算机视觉中的许多问题,例如图像分割,物体检测,视频去噪等等。在这些应用中,MRF模型被用来模拟像素或者超像素(从图像的特定位置或区域提取的视觉特征)之间的空间关系。Micusic等人[36】通过在超像素上建立MRF模型,采用最大和(max.sum)方法来解决多标签图像分割问题。首先对图像提取局部特征,然后利用特征之间的空间关系来构造图结构,从而把物体检测问题转化为图匹配问题,最后通过MRF模型来解决图匹配问题。提出了时空MRF模型,通过同时模拟视频中的时间和空间信息来解决视频去噪问题。Chen等人【37】贝0采用MRF模型来模拟语义概念之间的关系,从而提出了CML模型,CML模型通过同时对语义概念分类和模拟它们之间的关系来对视频的语义内容进行标注,也取得了不错的效果。本文在第三章和第四章所提两种方法的基础上结合马尔可夫随机场图像语义标注方法(MultipleMarkovRandomField),实现了一个图像语义自动标注系统,通过交互式的图像语义标注模型的训练与标注演示,充分展示了MMRF技术的标注性能,同时也帮助人们更好地了解了图像语义自动标注的机理和系统实现过程。2.8小结本章介绍了图像语义自动标注的基本框架,并对当前图像语义自动标注的相关工作及背景知识进行分析和讨论,指出现有图像语义自动标注工作中存在的不足之处,从而为本文的研究工作奠定基础。 基于多标签学习的图像语义自动标注研究第三章一种新的语义多标签数据集转化方法RAPC-W针对现有多标签数据集转化方法无法有效利用标签间的语义相关性和共现性知识,以及转化得到的数据集相对于问题规模偏小等问题,提出了一种新的多标签数据集转化方法RAPC-W(RankingByAllPairwiseComparisionBasedWordNet),该方法将标签对从原来的两对扩展到四对,增加了划分后数据集的规模。另外,引入了外部数据源WordNet,较好地考虑了语义标签的相关性和共现性知识,一定程度上过滤掉了语义不相关的标签组合,更好的保留了原始数据集的信息,降低了噪声数据集对基分类器训练的不良影响。实验结果表明该方法是有效可行的。3.1多标签学习问题常用的处理方法随着多标签学习在图像及视频语义标注、功能基因组、音乐情感分类和营销指导等方面的成功应用,多标签学习已经成为数据挖掘领域的一个研究热点。对于多标签学习问题,其处理方法可分为整体优化法和基于数据分解的方法[3引。整体优化法对所有样本和标签构建一个优化问题,如BoosTexter算法[391、Rank2SVM算法[40]、多标签k近邻算法‘411以及最大化熵的多标签算法[421(MIME)等,该类方法的优点是没有改变数据的结构,没有破坏类与类之间的联系,其缺点是需要花费大量时间去解优化问题,难以应用到较大规模的数据集。基于数据分解的方法将多标签学习任务转化为一个或多个单标签学习任务,利用已有的单标签数据挖掘知识进行多标签问题的处理。这种转换实际上是先将多标签学习任务中的多标签数据集转化为单标签数据集,再利用SVM[43】等分类算法在转化后的数据集上进行基分类器的训练,并借助基分类器完成多标签数据的分类工作Ⅲ】。要想提升该类方法的准确率,可以在两方面做努力,一是寻求有效的基分类器构造方法,在转化后的数据集构建更加高效的基分类器。二是在多标签数据集的转化上下功夫,即可以寻找一种高效的数据集转化方法,使转化后的数据集能更好的反映原始多标签数据集中的信息,从而使得建立在这种数据集上的基分类器具有更高的分类准确率。本文重点从第二方面入手,寻找更加有 江苏大学硕士学位论文效的数据集转化方法。3.2常见的多标签数据集转化方法及存在问题目前可用的转化方法主要有BR方法【441、Copy方法m】、Copy.Weight方法【441、LP方法[451、RPC方法㈤等。BR(BinaryRelevance)方法是一种典型的基于数据分解的方法,它将每个标签的预测看作一个独立的单分类问题,并为每个标签训练一个独立的分类器,用全部的训练数据对每个分类器进行训练,这种算法忽略了标签之间的相互关系,往往无法达到令人满意的分类效果。文献[44]通过拷贝(copy)和带权重拷jlq(copy—weight)的方法对BR进行改进,将原训练集合中的一条多标签数据拆分成多条单标签数据,并给予相应的权重;LP(LabelPowerset)是另外一种被广泛使用的转化方法,它将训练数据中的每种标签组合进行二进制编码,从而形成新的标签。LP算法的显著缺点是不能预测新的标签组合。为此,Read等将概率分布模型应用到LP中,当对未分类数据进行预测时,可以预测出训练集合中未出现的标签组合【47】。LP算法的复杂度较高,高达O(min{2q,m)宰t(D)),可以通过剪枝‘471或随机标签组合[481的方法在一定程度上可以降低复杂度,但降低的幅度有限;RPC是Hullermeier等提出的一种方法,该方法是一种基于标签对L匕(pairwisecomparison)的转化方法,通过对比标签集合中任意两个标签之间的关系,建立q(q一1)/2个分类器。每个分类器在两个标签k和九i间投票,然后组合这些投票结果作为最终的多标签分类结果【491。假设多标签分类算法中采用的基础分类器(basedclassifier)的复杂度为O(t(D)),其中函数t(D)表示分类器在训练集合D上建立分类模型的复杂度,则基于标签对比的多标签分类算法的复杂度为O((q(q-1)/2)枣t(D))。上述这些方法均没有很好的利用标签之间潜在的语义相关性(relevance)和共现性(co—occurrence)知识,并且转化得到的数据集相对于问题本身规模偏小,不能进行有效的基分类器训练。为此,本文在RPC方法的基础上,结合外部数据源WordNet,提出了一种新的多标签数据集转化方法RAPC.W,该方法从两方面对RPC进行了扩展,一是增加了标签的对数组合,将标签对 基于多标签学习的图像语义自动标注研究从原来的两对扩展到四对,更全面的考虑了标签语义相关性和共现性知识,增加了划分后数据集的规模,有利于进行基分类器的训练;二是引入了外部数据源WordNet,一定程度上过滤掉了语义不相关的标签组合,更好的保留了原始数据集的信息,也降低了噪声数据集对基分类器训练的不良影响。3.3相关知识介绍3.3.1外部数据源WordNet在进行语义相似性和相关性度量发面,基于结构化语义知识库WordNet的度量一直在这一领域独领风骚,形成了一系列比较成熟的方法。它将名词、动词、形容词和副词分别按照词义进行组织,形成同义词集(Synsets),同义词集之间通过多种语义关系进行连接,其中最基本的语义关系是上下位关系,根据上下位关系可以将WordNet的同义词集形成一个树状的层次结构,各种语义相关性的计算大多是基于这个层次结构进行的。下面介绍几种基于WordNet的词问语义相关性度量方法。(1)基于文本重叠度的度量Lest[501首次提出使用单词定义的文本重叠度进行相关性的计算。Banerjee等人对Lest的方法进行了改进,提出了“扩展的注释重叠度”方法,效果较前者有所改进。(2)基于路径的度量Wu等人考虑了两个概念节点及其最小公共父结点在层次结构中的深度来计算语义相似性,具体计算如式(3.1)所示。2×d(1cs)Kwnc(c1,c2)wUp2,(cl,七s)+f(c2’胁)+2×d(胁)(3.1)其中,1cs为节点Cl和C2在WordNet层次结构中的最小公共父结点,d(1cs)为节点lcs在层次结构中的深度,1(cl,lcs)为节点Cl到1cs的距离。Leacock等人综合考虑了层次结构的深度和节点间的距离对相关性的影响,提出了一种规格化的测量相似性的方法,具体计算如式(3.2)所示。 江苏大学硕士学位论文.1(c1,c2)Kwnc(c1,c2)LCH2一log——2D(3.2)其中,l(c1,c2)为节点el和c2之间的距离,D为WordNet层次结构的最大深度。(3)基于信息量的度量Resnik根据概念在一个文集中的出现概率度量其信息量,由两个概念的最小公共父结点的信息量计算概念对之间的相关性。两个概念间共享信息的程度为:胁c(c1,c2)RES2庀(㈧(3.3)圮(b)=一logP(b)(3.4)其中,P(1cs)为概念lcs出现的概率,IC(1cs)为概念lcs的信息量。Jiang等人‘511提出了一种新颖的基于信息量和文集混合测量语义距离的JNC度量,该方法被认为是最有效的一种度量方法。JNC中需要给定一个已经按照语义进行过改良好分类的词库,由这个词库可以估计出每个概念c出现的概率:Freq(c)Pr(c)=——N(3.5)其中,Freq(c)指概念c出现的次数,N是所有概念出现的总次数。利用此概率可定义该概率对应的信息容量(InformationContent,IC):,c(c)=一log(Pr(c))(3.6)基于WordNet的语义相关性度量可理解为两个概念分别去除公共概念之后信息容量和的倒数,即:1Kwnc(c1,c2)Ic(q)+IC(c2)一21c(b(c1,唿))(3.7)其中,lcs(cl,c2)是概念cl与c2的最低公共父节点,n-I"f扫WordNet的概念树结构来得到。有了词汇间关系的有效度量方法,就能利用式子(3.5)、(3.6)、(3.7)来定 基于多标签学习的图像语义自动标注研究量的计算两两标签之间的关系量五。3.3.2RPC(RankingByPairwiseComparison)RPC将多标签数据集转换成M(M一1)/2个二标签数据集,对于每一组标签(k,九i),1Si
此文档下载收益归作者所有