基于多标签学习的图像语义自动标注研究

ID：32988242

大小：7.94 MB

页数：70页

时间：2019-02-18

上传者：U-22107

资源描述：

《基于多标签学习的图像语义自动标注研究》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

基于多标签学习的图像语义自动标注研究ResearchofTheAutomaticImageAnnotationBasedOnMultipleLabelLearning姓2013年6月独创性声明本人郑重声明：所呈交的学位论文，是本人在导师的指导下，独立进行研究工作所取得的成果。除文中己注明引用的内容以外，本论文不包含任何其他个人或集体已经发表或撰写过的作品成果，也不包含为获得江苏大学或其他教育机构的学位或证书而使用过的材料。对本文的研究做出重要贡献的个人和集体，均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名：易粮沙7多年6月肛日学1立论文版权使用授权书I删嗲必江苏大学、中国科学技术信息研究所、国家图书馆、中国学术期刊(光盘版)电子杂志社有权保留本人所送交学位论文的复印件和电子文档，可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一致，允许论文被查阅和借阅，同时授权中国科学技术信息研究所将本论文编入《中国学位论文全文数据库》并向社会提供查询，授权中国学术期刊(光盘版)电子杂志社将本论文编入《中国优秀博硕士学位论文全文数据库》并向社会提供查询。论文的公布(包括刊登)授权江苏大学研究生处办理。本学位论文属于保密口，在年解密后适用本授权书。不保密团。学位论文作者签名：沥＼，名很沙乃年占月亿日将狮繇移金∥D年／6月f易Et 江苏大学硕士学位论文摘要随着多媒体数字化技术的发展和推广、存储成本的降低、网络传输带宽的增长，各种多媒体数据如图像、视频等飞速膨胀逐渐成为信息的主流，并对人们的生活和社会发展产生重要的影响。图像是视频的的基础，在多媒体数据管理中占有重要的地位，如何有效的管理这些大规模图像数据已经成了摆在人们面前的需要亟待解决的问题，“语义清晰"是大规模图像数据管理的重要前提，因此图像语义自动标注的研究成为了相关领域的研究热点。图像语义的自动标注本质上是一个学习问题，即根据图像的视觉内容推导出图像的语义标签。因此，各种机器学习、统计推理技术都应用于图像标注的研究中，并在不断的深化和推进。然而，由于图像标注中“语义鸿沟"以及“多标签”问题的影响，现有方法的标注性能仍有待进一步提高。本文围绕图像标注的多标签特点，集中利用多标签的相关性和共现性知识，针对多标签特性带来的数据稀疏、噪声数据集以及语义多标签的无序性等问题开展研究，在多标签数据集的转化、语义多标签的排序、图像语义自动标注系统等方面进行了新的尝试，并取得了一定的效果。本文主要工作如下：(1)提出了一种新的多标签数据集转化方法RAPC-W：针对现有多标签数据集转化方法无法有效利用标签间的语义相关性和共现性知识以及转化后得到的数据集存在数据稀疏和噪声数据集的问题，提出了一种新的多标签数据集转化方法RAPC—W(RankingByAllPairwiseComparisionBasedWordNet)，该方法将标签对从原始的两对扩展到四对，增加了划分后数据集的规模。另外，引入了外部数据源WordNet，较好地考虑了标签语义相关性和共现性知识，一定程度上过滤掉了语义不相关的标签组合，更好的保留了原始数据集的信息，降低了噪声数据集对基分类器训练的不良影响。实验结果表明该方法是有效可行的。(2)提出了一种新的语义多标签排序算法：语义标签的排序结果也是图像语义自动标注结果正确与否的重要参考指标，针对当下图像语义自动标注中语义标签排序不准确的问题，提出了一种新的多标签排序算法，该算法利用判别分类技术中用到的基分类器，根据划分后数据集的规模给予每一个基分类器一定的权值，最后利用该权值对每个基分类器输出的语义标注结果进行投票，从基于多标签学习的图像语义自动标注研究而实现对语义标签的排序。最终实验结果表明该方法是有效的。(3)设计实现了一个图像语义自动标注系统：语义自动标注技术的研究在多媒体数据管理领域具有十分重要的理论意义与应用前景。为了充分展示本文所提方法的标注性能及其应用价值。本文在以上所提两个算法的基础上，参照多马尔可夫随机场的图像语义自动标注模型(MultipleMarkovRandomField，MMRF)，设计并实现了一个图像语义自动标注系统，通过交互式的图像语义标注模型的训练与标注演示，充分展示了该标注系统优越的标注性能。关键字：图像语义自动标注，多标签学习，RAPC．W，语义标签排序，图像语义自动标注系统II 江苏大学硕士学位论文ABSTRACTW池thedevelopmentofdigitalmultimediatechnologyandpopularization，reducestoragecosts．thegrowthofthetransmissionbandwidthofnetwork，allkindsofmultimediadatasuchasimages，videoandothersrapidexpansionhavegraduallybecomethemainstreamofinformation，andareimportantlyimpactingonpeople’slivesandsocialdevelopment．Imageisthebasisofthevideo，occupiesallimportantpositoninthemanagementofmultimediadata，howtoeffectivelymanagethesemassiveimagedatahasbecomeaproblemtobesolvedinfrontofpeople,"semanticclarity”istheimportantpreconditionformassiveimagedatamanagement，sotheimagesemanticautomatictaggingresearchhasbecomearesearchfocusintherelatedfield．Automatictaggingofimagesemanticsisessentiallyalearningproblem,whichisderivedtheimagesemanticlabelaccordingtotheimageofthevisualcontentoftheimage．Therefore，allsortsofmachinelearning，statisticalinferencetechniquesareappliedtoimageannotationstudy，andconstantlydeepenandadvance．However，duetotheinfluenceofthe‘‘semanticgap’’and“multi-label”problemintheimageannotation，theexistingmethodsofannotationperformanceremainstobefurtherimproved．Tabbedfeaturesaroundtheimageannotation，thispaperfocusonusingmultiplelabelsandco—occurrence，therelevanceofthetabbedpropertiesofsparsedataandnoisedatasetsandthesemanticlabelproblemsuchasthedisorderofresearch，themoretagdatasetsoftransformation，semanticlabelordering，suchasautomaticimagesemanticannotationsystemforanewattempt，andhasobtainedtlleremarkableeffect．(1)anewmulti-labeldatasetconversionmethodsRAPC-Wisproposedbythispaper：Inviewoftheexistingtagdatasetconversionmethodscannoteffectivelyusethesemanticcorrelationbetweensexknowledgeandco．occurrencetransformationafterthedatasethastheproblemofsparsedataandnoisedataset，thispaperproposesanewlabeldatasetmoreconversionmethodsRAPC-W(RankingByAllPairwiseComparision-basedWordNeO，thismethodwilltagonfromtheoriginaltwotofourpairsofforextension，butincreasesthedivisionafterthesizeofthedataset．Inaddition，introducedtheexternaldatasourceWordNet，wellconsiderthelabelsemanticcorrelationandtheco．occurrenceofsexualknowledge，toacertainextenttofilteroutthesemantictagsthataren’trelated，betterretaintheoriginaldatasetinformation，reducethenoiseofthebaseclassifiertrainingdataset．Theexperimentalresultsshowthatthemethodiseffectiveandfeasible．(2)anewsemanticlabelsortingalgorithmsisproposedbythispaper：Semanticlabelsortingresultisalsotheresultimagesemanticautomatictaggingcorrectlyornotimportantreferenceindex．accordingtothepresentsemanticlabelso—ngisnotaccurateinimagesemanticautomatictaggingproblem，thispaperproposesanewlabelsortingalgorithms，thealgorithmusingthediscriminantclassificationtechniquesusedinthebaseclassifier，divideaccordingtothesizeofthedatasetaftergivingeachofthebaseclassifiercertainweights，fmallyusingtheweightofeachclassifieroutputthesemanticannotationofvoteresults，soastorealizethesemanticlabelordering．Finallytheexperimentalresultsshowthatthemethodiseffective．III (3)animageautomaticsemanticannotationsystemisdesignedandimplemented：Automaticsemanticannotationtechnologyresearchinthefieldofmultimediadatamanagementhasveryimportanttheoreticalsignificanceandapplicationprospects．Inordertotul哆demonstratetheproposedmethodinthispapertheperformanceandapplicationvalue．Inthispaper，onthebasisofthetwoalgorithmsmentionedabove，referencetoThomas，automatictaggingimagesemanticmodelofMarkovRandomField(MultipleMarkovRandomField，MMRF)，designsandrealizesanautomaticimagesemanticannotmionsystem，throughtheinteractiveimagesemanticannotationmodeltrainingandtaggingofdemo，fullyshowsthetaggingsystemsuperiorperformancewithanannotation，aswellastohelpthembetterunderstandtheimagesemanticautomatictaggingmechanismandrealizationprocessofthesystem．KeyWords：AutomaticImageAnnotation，MultipleLabelLearning，RAPC-W，SemanticLabelSorting，SystemofAutomaticImageAnnotmionIV 江苏大学硕士学位论文目录摘要⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯IABSTRACT⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯III第一章绪论⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯．11．1研究背景及意义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯．11．2研究现状⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯．21．3本文工作⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯．61．4论文组织结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯．7第二章相关知识介绍⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯．92．1图像语义自动标注⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯．92．1．1基于生成模型的图像标注模型图像标注方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯．92．1．2基于判别分类模型的图形标注方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯102．2图像语义标注的基本框架⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯122．3图像视觉特征提取和表示方式⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯122．3．1颜色⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯．132．3．2纹理⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯142．3．3形状⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯152．3．4对象或区域空间位置信息⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯162．4图像语义标注的多标签特性⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯172．5多标签学习中的多标签数据集转化⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯182．6图像标注中的语义标签排序问题⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯202．7马尔可夫随机场⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯212．8小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯21第三章一种新的语义多标签数据集转化方法RAPC．W⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯223．1多标签学习问题常用的处理方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯223．2常见的多标签数据集转化方法及存在问题⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯233．3相关知识介绍⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯243．3．1外部数据源WordNet⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯243．3．2RPC(RankingByPairwiseComparisonl⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯263．4基于RPC方法的多标签数据集转化方法RAPC—W⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯263．5实验结果分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯283．6结束语⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯33第四章基于基分类器加权投票的语义标签自动排序⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯344．1研究现状与存在的问题⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯344．2基分类器的训练⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯354．2．1支持向量机SVM(SupportVectorMachine，SVM)⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯．354．2．2SVM(SupportVectorMachine，SVM)的构造⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯．364．3基于基分类器加权投票的图像语义标签排序方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯374．4实验与分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯414．4．1实验数据描述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯414．4．2评价标准⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯4l4．4．3实验结果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯414．5小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯．．44V 基于多标签学习的图像语义自动标注研究第五章图像语义自动标注系统⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯455．1系统开发背景⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯455．2图像语义自动标注模型⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯455．3图像特征提取及应用⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯475．4系统框架设计⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯485．4．1系统主流程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯485．4．2系统标注效果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯505．5系统演示⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯505．5．1界面展示⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯505．5．2系统演示⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯515．6／J、结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯．．51第六章总结与展望⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯536．1总结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一536．2展望⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯53参考文献⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯．55致{射⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯60在学期间发表的学术论文及其他科研成果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯．61VI 江苏大学硕士学位论文1．1研究背景及意义第一章绪论随着多媒体技术的不断进步与发展、存储成本的降低、网络带宽的增长，各种多媒体数据如图像、视频等飞速发展逐渐成为信息的主流，对人们的日常生产和生活产生着越来越重要的影响。“语义清晰”是大规模数据特别是多媒体数据管理的重要的出发点，因此通过信息技术自动获取多媒体数据对象的语义内容的研究具有十分重要的意义。图像是视频的基础，在多媒体数据管理中占据着重要的地位，因此，图像语义自动标注的研究已经成为相关领域的研究热点，在学术界和企业界受到越来越多的关注，可以预见，图像语义自动标注是一个颇具生命力的研究方向，进行图像语义自动标注的研究具有十分重要的理论与实践意义。图像检索一直是推动图像语义标注研究的主要动力，基于内容的图像检索系统利用图像的底层视觉特征，包括颜色、纹理、形状等，进行图像的相似性匹配，输出特征相似的图像作为检索结果”图像的相似性体现在图像视觉特征的相似性上，这些视觉特征从图像中自动提取。然而，人类所理解的图像与用底层视觉特征来表达的图像之间存在着很大的差距，即在图像语义和视觉特征之间横亘着“语义鸿沟"。为了实现更为贴近用户理解能力的、用自然语言描述的查询方式，对图像语义标注的研究逐渐引起人们的广泛注意【l】。标注就是使用语义关键字或标签来表示一幅图像的语义内容，进而可以将图像检索转化为基于文本的检索。早期，基于文本的图像检索大都采用人工标注的方法，即需要专业人员对每幅图像标出关键字。然而，一方面人工标注存在主观性和不精确性，直接影响到检索结果的准确性；另一方面对图像进行人工标注费时费力，尤其是面对目前的海量图像，人工标注十分困难。随着图像处理!机器学习和自然语言处理等技术的发展，近几年出现了众多图像语义的自动标注模型，其核心在于从已有训练数据中对高级语义概念与图像的低级视觉特征的关系进行自动建模，从而使用学习到的模型对新的图像进行标注。因此，图像语义的自动标注可以有效避免基于人工标注的图像检索系统所面临的一系列问题，使得大规模图像基于语义检索应用更具现实性。可以预见，图像语义的自动标注是一l 基于多标签学习的图像语义自动标注研究个颇具生命力的研究方向，具有重大的理论价值和广泛的应用前景。由于图像往往具有丰富的语义内容，百闻不如一见、一图值千言都说明了这个事实，而用户对图像的语义理解又经常表现出主观性和易变性，即不同的用户对同一幅图像的理解与判断经常会不一致，甚至同一个用户在不同的时间或环境下对同一幅图像的语义判断也会不同。因此，自动地理解图像的语义内容仍然是一个非常困难的问题。尽管一些机器学习方法被应用于学习高层语义概念和底层视觉特征的关系，然而出于简化模型的考虑，传统学习方法往往关注于独立标签问题，即假设语义关键词是独立存在的[21，对语义概念进行独立标注。忽略了语义概念的共现模式和相关性。而大多数真实世界的图像属于多标签学习问题，即一幅图像可对应多个语义关键词。图像标注的多标签学习特点是图像语义标注的显著特点。因此，必须要基于“多标签学习”这一特性来开展图像语义自动标注的研究。针对图像语义标注的多标签特点，对待标注图像进行适当建模是当前图像语义自动标注的主要研究方向。据使用统计方法的不同，图像标注模型可以分为两类：基于可判别分类模型的图像标注模型和基于生成模型的图像标注模型。基于可判别分类模型的图像标注模型将每个语义关键词看作一个独立的类，并为每个类学习一个分类器，每个分类器用于判断该图像属不属于该类别，从而决定标注结果。基于生成模型的图像标注模型对视觉特征和语义概念之间的联合概率进行估计，从而对待标注图像进行标注，然而，无论是基于生成模型的图像标注方法还是基于判别分类技术的图像标注方法，针对语义概念的共现性和相关性、数据稀疏、噪声数据集以及语义标签的无序性等问题的研究还有待进一步挖掘。1．2研究现状图像语义自动标注是一个多标签学习问题，即一副图像对应多个语义标签，语义概念之间有很强的相关性和共现性，这就使得图像语义自动标注比传统的学习问题更加富有挑战性。当下图像语义自动标注距离现实应用的水平还存在很大的差距。因此，目前图像语义自动标注的主要任务是提高图像语义标注的准确度，从而推动图像语义自动标注的大规模实际应用。针对图像语义标注的2 江苏大学硕士学位论文多标签特点，对待标注数据进行适当建模是当前图像语义自动标注的主要研究方向。根据使用统计方法的不同，图像标注模型可以分为两类：基于可判别分类模型的图像标注方法和基于生成模型的图像标注方法。基于生成模型的方法进行图像标注的关键是从训练集中估计视觉特征与标注词之间的联合概率。Duygulu等人提出的翻译模型[3】，对分割后的图像区域特征进行聚类，将连续特征变成离散视觉关键字(blob)单词表，图像的标注问题可看作从图像视觉关键字到语义关键字的翻译过程，通过寻找标注词和图像特征之问的关系对待标注图像进行标注。Monay等人建立了一对有关联的PLSA模型对文本特征赋予了更高的重要性[4】。Jeon提出离散相关模型利用视觉关键字与语义关键字的相关性(联合概率)进行标注[5】。这类方法的一个直观想法是同一关键词的视觉特征具有一致性，如“大象”，其颜色和纹理在视觉特征上保持一致。这样，图像可以被分割成一些带有一定语义含义的局部区域(如采用Normalizedcut图像分割技术[6】)，理想情况下图像分割后每个区域对应一个清晰的语义对象，因此，通过区域特征的距离计算可以近似度量两个区域(对象)的语义相似性。虽然离散特征模型考虑了对象和区域的语义含义，但这种方法的成功源于每个区域需对应一个清晰语义对象的假设。然而现在图像分割技术还远远不能达到这种效果，因此，该方法的有效性也受到限制。另外，这种对视觉特征的离散处理方法会造成视觉特征内容的损失，由于事先很难确定一个理想的聚类粒度，标注结果受离散化效果影响较大[71。紧接着连续特征模型CRM[81和MBRM[91对CMRM进行改进，使用基于核的非参数估计对特征生成概率进行估计，并对词建立多伯努力分布模型。这些方法使用非参数高斯核进行特征生成概率的连续估计，与离散模型相比其标注性能有显著提高。然而，上述方法对图像各个区域在生成概率估计中所起作用的复杂性考虑不足。将核密度估计看作区域一图像的相似性度量函数，则在上述模型中，区域与图像的相似性定义为区域与图像各个区域相似性度量的平均值，然而一幅图像的不同区域对该相似性度量的贡献程度不同，如图像中的“对象”区域较“背景”区域贡献大。另一方面，常用的图像分割方法易产生许多基于多标签学习的图像语义自动标注研究语义不明确的区域，由于这些区域的弱语义特性，使得这类区域经常与代表多种不同语义对象的区域都具有较高的特征相似性，影响图像特征生成概率的估计的准确性。基于区域的图像相似性度量在基于内容图像检索(CBIR)领域已被研究多年，并存在多种利用区域匹配结构信息来提高图像检索效果的方法【10’11，12】。wang等人在SIMPLicity[10】中定义了加权的区域相似性之和来度量两幅图像的相似性，最相似的区域有最高匹配优先权。zhang在FuzzyClub[il]中对其进行改进，定义一幅图像的某区域和另一幅图像的距离值为该区域和另一幅图像的所有区域中距离度量最小的值，该最小距离值反映区域和图像的最大相似性。这些方法都表明在图像整体相似性度量中不应忽视图像之间的区域匹配特性。我们认为这种图像相似区域之间的匹配结构是揭示图像语义相关性的关键，在图像标注领域，估计待标注图像的生成概率时应该充分利用这种匹配信息来提高估计的准确性。基于生成模型的图像标注方法在学习过程中未将图像组织为类，因此可将这些方法归为无指导学习类别【l31。将每个语义关键词看作一个类标签，图像标注也可以使用有指导的可辨别分类方法解决。其中基于模型的方法和基于SVM的方法被广泛用于图像标注中。基于模型的方法如Bamard等人使用高斯混合模型对每个语义类的分布进行建模[14]，进而使用EM方法对模型参数进行学习。Shi等人使用层次多项式混合模型对每个语义概念进行建模【l51，在其方法中将先验层次知识结合进图像的多级概念结构表示中，使用贝叶斯学习框架进行图像标注。基于模型的方法往往需要事先假定真实类分布符合的模型，因此容易受到假设模型与真实类分布不一致的问题的影响。同时，由于图像数据的视觉多样性，模型中往往存在大量的参数，需要大量的训练数据进行参数学习[1引。SVM以其良好的泛化能力被广泛应用于分类问题中。在基于SVM的标注方法中，和给定标注词相关的图像为正例，其它的图像为该类的负例，从而进行多个二元分类器的学习。如：Jain等人提出使用多分辨率基于固定网格的图像内容表示方法以及层次增强算法来解决使用图像分类的标注中图像内容表示以及分类器的有效训练等问题[161。Yang等人将基于区域的图像标注问题转化为多实例学习问题，并设计非对4 江苏大学硕士学位论文称SVM对图像标注的多实例学习进行研究【17】。Cameiro等人将图像标注问题转化为有指导多类标注问题，在其方法中，为每个类学习一个类分布模型，在其标注过程中可为待标注图像同时进行多标签分类【l31。如前所述的无指导方法不受数据规模和语义关键词的个数限制，同时其估计概率的方式为待标注图像语义标注的选择提供了天然的排序方式。但这些方法也容易受到无指导学习的质量的影响。如在离散特征模型中，当使用聚类方法生成视觉关键字表时，标注性能受到聚类效果的影响。由于语义鸿沟的存在，特征相似而语义不相似或语义相似而特征不相似的图像都会影响聚类效果，从而影响标注性能。同样，在连续特征模型MBRM中，高生成概率而语义不相似的图像也会对待标注图像的正确标注产生破坏作用。而辨别分析方法具有良好的泛化能力，采用基于可辨别分析的分类方法：如SVM，可对影响生成模型的错误图像和相关图像进行区分，从而提高生成模型的标注性能。但是直接基于SVM的辨别分类方法，需要为每个语义关键词学习一个分类器，时间复杂度高且容易受到正负例不平衡的影响。由此可见，无论是基于生成模型的图像标注方法还是基于判别分类技术的图像标注方法，针对语义概念的共现性和相关性、数据稀疏、噪声数据集以及语义标签的无序性等问题的研究还有待进一步挖掘。另外，图像语义自动标注与传统的多分类任务不同，它是一个多标签学习问题，如：一个图像可以同时赋予“urban”、“building”和“road”三个标签。而传统的分类任务是一种排它性分类，即一个样本对应一个类标签。因此，图像语义自动标注的多标签特性也带来了一系列问题，随着研究的深入，图像语义自动标注中的一些问题也逐渐暴露出来，主要表现在以下几个方面：(1)语义概念的相关性和共现性问题。在现实世界中，每幅图像的语义概念都不是独立存在的，它们之间存在着很强的共现模式和语义相关性。传统的学习方法往往假设每个语义类相互独立，因此对这种语义关联性难以很好的把握，很难建模。因此，清晰的学习不同语义概念的边界仍是一个十分困难的问题[18,19]。(2)数据稀疏问题。对一个图像集合而言，一般包含语义概念的图像数量非常稀少。而标注模型训练的准确度和训练数据的数量有很大关系。因此，对基于多标签学习的图像语义自动标注研究这些稀疏语义概念进行准确建模仍十分困难。(3)噪声数据集问题。基于可判别分类模型的图像标注方法将每个语义关键词看作一个独立的类，并为每个类学习一个基分类器，每个基分类器用于判断该图像属不属于该类别，从而决定标注结果。而训练基分类器的前提是先要对数据集按某种规则进行划分，但划分后的数据集往往含有很多对分类器的准确性产生负面影响的噪声数据，如何有效的去除噪声数据集对基分类器训练的不良影响，也是一个亟待解决的问题。(4)语义标签的无序性问题。由于图像语义自动标注是一个多标签学习题，也就是一副图像可以同时赋予多个语义标签，这些语义标签有的与图像的视觉内容相关，有的与图像的上下文信息相关，因此，其相对于图像的重要性不同，即图像的语义标签存在一个顺序问题，显然第一种语义标签相对于第二种语义标签有着更高的重要性，因此，语义标签排列顺序也是衡量图像语义自动标注准确度的重要指标，而现有的图像语义自动标注对语义标签的排序问题的研究还有待进一步挖掘。1．3本文工作本文主要针对图像语义标注中存在的问题，采用统计学的方法，围绕图像标注的多标签特点进行了一些探索和研究。主要包括以下几方面的工作：(1)针对现有多标签数据集转化方法无法有效利用标签间的语义相关性和共现性知识以及转化后得到的数据集存在数据稀疏和噪声数据集的问题，提出了一种新的多标签数据集转化方法RAPC—W(RankingByAllPairwiseComparisionBasedWordNet)，该方法将标签对从原始的两对扩展到四对，增加了划分后数据集的规模。另外，引入了外部数据源WordNet，较好地考虑了标签语义相关性和共现性知识，一定程度上过滤掉了语义不相关的标签组合，更好的保留了原始数据集的信息，降低了噪声数据集对基分类器训练的不良影响。实验结果表明该方法是有效可行的。(2)语义标签的排序也是图像语义自动标注结果正确与否的重要指标，针对当前图像语义自动标注中语义标签的无序性问题，提出了一种新的多标签排序算法，该算法利用判别分类技术中用到的的基分类器，根据划分后数据集的6 江苏大学硕士学位论文规模给予每一个基分类器一定的权值，最后利用该权值对每个基分类器输出的语义标注结果进行投票，从而实现对语义标签的排序。最终实验结果表明该方法是有效可行的。(3)语义自动标注技术的研究在多媒体数据管理领域具有十分重要的理论意义与应用前景。为了充分展示本文所提方法的标注性能及其应用价值。本文在以上两个算法的基础上，结合图像底层视觉特征提取技术，参照多马尔可夫随机场的图像语义自动标注方法(MultipleMarkovRandomField，MMRF)，设计实现了一个图像语义自动标注系统，通过交互式的图像语义标注模型的训练与标注演示，充分展示了该标注系统优越的标注性能，同时有利于帮助大家更好地了解图像语义自动标注的机理和系统的实现过程。1．4论文组织结构本文共分六章，论文结构及各章内容简介如下：第一章简单介绍了图像语义标注的研究背景与研究意义，阐述了当前图像语义标注的研究现状与存在的问题以及本文所做的工作，最后综述本文的组织结构。第二章首先介绍了图像标注的基本框架，接着讨论了当前图像标注的相关工作及背景知识。通过分析现有图像语义标注方法，指出现有多标签图像标注的研究所存在的不足之处。第三章首先阐述了现有多标签数据集转化方法及其不足，然后简单介绍了常用的数据集转化方法RPC和外部数据源WordNet，接着在RPC方法的基础上结合外部数据源WordNet提出了一种新的多标签数据集转化方法，并给出了具体实现，最后在已有的图像数据库上验证了所提方法的有效性。第四章首先介绍了图像语义标注中语义标签排序的重要性及当前研究现状，然后阐述了现有图像语义标签排序的主要研究方法及不足，最后依据划分后数据集的规模，借助多分类器加权投票，实现了一种新的语义标签排序方法，并给出了具体实现，最后在已有的图像数据库上验证了所提方法的有效性。第五章在以上所提两种方法的基础上参照马尔可夫随机场图像语义标注方法(MultipleMarkovRandomField)，实现了一个图像语义自动标注系统，通过基于多标签学习的图像语义自动标注研究交互式的图像语义标注模型的训练与标注演示，充分展示了本文所构造系统的标注性能。第六章简单归纳了本文的工作，并给出了该领域的进一步发展前景。江苏大学硕士学位论文第二章相关知识介绍本章首先介绍了图像语义标注的基本框架，进而讨论了当前图像标注的相关工作及背景知识。指出现有工作在多标签图像标注中还存在的不足，从而为后续研究工作奠定基础。2．1图像语义自动标注从上世纪90年代末开始，图像语义自动标注领域就非常活跃，人们利用机器学习、统计模型等设计出各种不同的图像语义自动标注模型，主要可以分为两大类：基于概率统计的模型和基于判别分类的模型。2．1．1基于概率统计模型的图像标注方法这类方法进行图像标注的关键是从训练集中估计视觉特征与标注词之间的联合概率。Duygulu等人提出的翻译模型，对分割后的图像区域特征进行聚类，将连续特征变成离散视觉关键字(blob)单词表，图像的标注问题可看作从图像视觉关键字到语义关键字的翻译过程，通过寻找标注词和图像特征之间的关系对待标注图像进行标注。Monay等人建立了一对有关联的PLSA模型对文本特征赋予了更高的重要性。Jeon提出离散相关模型CMRM，利用视觉关键字与语义关键字的相关性(联合概率)进行标注。这类方法的一个直观想法是同一关键词的视觉特征具有一致性，如“狮子”，其颜色和纹理在视觉特征上保持一致。这样，图像可以被分割成一些带有一定语义含义的局部区域(如采用Normalizedcut图像分割技术)，理想情况下图像分割后每个区域对应一个清晰的语义对象，因此，通过区域特征的距离计算可以近似度量两个区域(对象)的语义相似性。虽然离散特征模型考虑了对象和区域的语义含义，但这种方法的成功源于每个区域需对应一个清晰语义对象的假设。然而现在图像分割技术还远远不能达到这种效果，因此，该方法的有效性也受到限制。另外，这种对视觉特征的离散处理方法会造成视觉特征内容的损失，由于事先很难确定一个理想的聚类粒度，标注结果受离散化效果影响较大。基于多标签学习的图像语义自动标注研究紧接着连续特征模型CRM和MBRM对CMRM进行改进，使用基于核的非参数估计对特征生成概率进行估计，并对词建立多伯努力分布模型。这些方法使用非参数高斯核进行特征生成概率的连续估计，与离散模型相比其标注性能有显著提高。然而，上述方法对图像各个区域在生成概率估计中所起作用的复杂性考虑不足。将核密度估计看作区域一图像的相似性度量函数，则在上述模型中，区域与图像的相似性定义为区域与图像各个区域相似性度量的平均值，然而一幅图像的不同区域对该相似性度量的贡献程度不同，如图像中的“对象”区域较“背景”区域贡献大。另一方面，常用的图像分割方法易产生许多语义不明确的区域，由于这些区域的弱语义特性，使得这类区域经常与代表多种不同语义对象的区域都具有较高的特征相似性，影响图像特征生成概率的估计的准确性。基于区域的图像相似性度量在基于内容图像检索(CBIR)领域已被研究多年，并存在多种利用区域匹配结构信息来提高图像检索效果的方法。Wang等人在SIMPLicity中定义了加权的区域相似性之和来度量两幅图像的相似性，最相似的区域有最高匹配优先权。Zhang在FuzzyClub中对其进行改进，定义一幅图像的某区域和另一幅图像的距离值为该区域和另一幅图像的所有区域中距离度量最小的值，该最小距离值反映区域和图像的最大相似性。这些方法都表明在图像整体相似性度量中不应忽视图像之间的区域匹配特性。我们认为这种图像相似区域之间的匹配结构是揭示图像语义相关性的关键，在图像标注领域，估计待标注图像的生成概率时应该充分利用这种匹配信息来提高估计的准确性。2．1．2基于判别分类模型的图形标注方法上节中介绍的标注模型在学习过程中未将图像组织为类，因此可将这些方法归为无指导学习的类别。将每个语义关键词看作一个类标签，图像标注也可以使用有指导的可辨别分类方法解决。其中基于模型的方法和基于SVM的方法被广泛用于图像标注中。基于模型的方法如Bamard等人使用高斯混合模型对每个语义类的分布进行建模，进而使用EM方法对模型参数进行学习。Shi等人使用层次多项式混合10 江苏大学硕士学位论文模型对每个语义概念进行建模，在其方法中将先验层次知识结合进图像的多级概念结构表示中，使用贝叶斯学习框架进行图像标注。基于模型的方法往往需要事先假定真实类分布符合的模型，因此容易受到假设模型与真实类分布不一致的问题的影响。同时，由于图像数据的视觉多样性，模型中往往存在大量的参数，需要大量的训练数据进行参数学习。SVM以其良好的泛化能力被广泛应用于分类问题中。在基于SVM的标注方法中，和给定标注词相关的图像为正例，其它的图像为该类的负例，从而进行多个二元分类器的学习。如：Jain等人提出使用多分辨率基于固定网格的图像内容表示方法以及层次增强算法来解决使用图像分类的标注中图像内容表示以及分类器的有效训练等问题。Yang等人将基于区域的图像标注问题转化为多实例学习问题，并设计非对称SVM对图像标注的多实例学习进行研究。Carneiro等人将图像标注问题转化为有指导多类标注(supervisedmulticasslabeling)问题，在其方法中，为每个类学习一个类分布模型，在其标注过程中可为待标注图像同时进行多标签分类。如前所述的无指导方法不受数据规模和语义关键词的个数限制，同时其估计概率的方式为待标注图像语义标注的选择提供了天然的排序方式。但这些方法也容易受到无指导学习的质量的影响。如在离散特征模型中，当使用聚类方法生成视觉关键字表时，标注性能受到聚类效果的影响。由于语义鸿沟的存在，特征相似而语义不相似或语义相似而特征不相似的图像都会影响聚类效果，从而影响标注性能。同样，在连续特征模型MBRM中，高生成概率而语义不相似的图像也会对待标注图像的正确标注产生破坏作用。而辨别分析方法具有良好的泛化能力，采用基于可辨别分析的分类方法：如SVM，可对影响生成模型的错误图像和相关图像进行区分，从而提高生成模型的标注性能。但是直接基于SVM的辨别分类方法，需要为每个语义关键词学习一个分类器，时间复杂度高且容易受到正负例不平衡的影响。由此可见，统计生成模型与辨别分析方法具有各自的优缺点，将两者进行结合以实现优势互补，吸引人们的广泛关注。在图像标注的相关领域，如视觉对象分类领域，存在一些生成模型与辨别分析方法相结合的相关工作，如。但与分类任务不同，图像标注具有多标签特点，即每个图像对应多个语义相关的标签，将现存研究工作直接应用于图像标注领域中是一件十分困难的工作。基于多标签学习的图像语义自动标注研究2．2图像语义标注的基本框架图像的语义标注指的是运用语义关键字来表示一副图像的内容，从而将图像的检索转化为基于文本的检索。图像语义标注的框架图如图2．1所示：图2．1图像语义标注的基本框架从上图可以看出传统的图像标注框架分为两部分，其中实线部分表示基本标注框架而虚线部分表示语义标注的优化部分，通常图像语义自动标注的主要部分集中在基本框架下，用来学习图形的底层视觉特征与高层语义概念之间的关系。因为现在的文本检索方式已经相对成熟，所以如果图像语义标注的准确度能够达到较高水平，那么基于文本的检索方法可用来解决现有的图像检索问题，而“语义鸿沟”的问题在一定程度上也可通过图像语义自动标注技术得到缓解。实际上，早期的基于文本的图像检索方式也可看做是图像语义的标注问题，只是当时的图像标注是基于手工的方式，这种方式不仅费时费力而且效率低下，同时由于不同的人对同一副图像的语义有不同的理解，甚至是同一个人在不同的时间和环境下对同一副图像的语义理解也可能会不同，因此手工方式的标注准确度也不高，且标注代价过大，现在的自动标注技术能将人们从费时费力的手工标注中解脱出来而且还提高了标注的准确性，也使得在海量图像中基于语义检索的应用能够得以实现。2．3图像视觉特征提取和表示方式目前广泛使用的图像内容表示及特征提取方法可分为两大类：基于图像或基于网格；基于区域或基于对象。前者从整个图像或均匀划分的图像网格中提取特征，其好处是不需要进行图像分割，因此特征提取的速度快，但对于对象识别和基于对象的标注和检索难以很好的支持。后者需对图像进行分割，进而从分12 江苏大学硕士学位论文割后的区域中提取特征。虽然基于区域的内容表示方法能够较好的支持对象级的标注和检索，但由于目前图像分割技术并不可靠，其错误会传递给标注过程，最终标注结果容易受图像分割效果的影响。采用适当的图像内容表示方法后，我们对图像提取视觉特征。图像的特征是多方面的，一般可分为颜色、纹理、形状和图像的空间位置信息等，下面简单介绍下这几种特征的提取和表示方式。2．3．1颜色为了正确地使用颜色这一特征，需要建立颜色空间模型，通常的颜色空间模型可用三个基本量来描述，所以建立颜色空间模型就是建立一个3．D坐标系，其中每个空间点都代表某一种颜色。通常来说，对于不同的应用，应该选取不同的颜色空间模型。常用的颜色空间模型主要有RGB、HIS、HSV、ⅥⅣ、YIQ、Munsell等，颜色空间模型的选取需要符合一定的标准，常用的颜色特征表示方法有颜色直方图、颜色矩、颜色聚合向量、颜色集等。下面简单介绍一些典型的颜色特征。(1)颜色直方图(ColorHistogram)1991年，M．L．swain和D．H．Ballard在颜色索弓l(colorindexing)文中使用颜色直方图求交的方式进行图像颜色相似性计算‘201。颜色直方图是表示图像中颜色分布的一种统计值，它的横轴表示颜色值，纵轴表示在某个颜色值下的像素个数在整幅图像中所占的比例。颜色直方图检索简单，具有平移!尺度以及旋转不变性，因此在基于内容的图像检索中得到最为普遍的应用。(2)颜色相关图(ColorCorrelogram)颜色相关图是Huang等‘211在1997年提出的一种颜色直方图在空间中的延伸。颜色相关图是记录颜色之间相关性的统计值，即对颜色值为Ci的像素Pl与该像素点相距为K的另一个像素点P2的颜色为C；的概率的大小。相对于颜色直方图，颜色相关图很大程度上提高了检索效率，但是由于维数较高使得计算量偏大。(3)颜色矩(ColorMoments)颜色矩是Stricker和Orengo(221提出的测量彩色图像相似性的方法。他们认基于多标签学习的图像语义自动标注研究为颜色信息集中在图像颜色的低阶矩中，故主要针对颜色分量的一阶(均值)、二阶(方差)以及三阶(斜度)等颜色矩进行统计。颜色矩计算简单，可以有效表示图像中颜色分布，特别是对图像中只有一个目标是十分有效，并己在许多检索系统中得到应用，如QBIc系统。(4)局部颜色特征Fuh等‘231提出一种颜色局部特征来捕获图像的局部颜色空间信息。他们将图像划分成一定的矩形区域，每个区域用一种主要颜色代表，图像之间的相似性定义为图像间具有相似颜色区域的重叠程度。2．3．2纹理纹理是图像的另一个主要特征，通常看作图像的某种局部特征，它不仅反映图像的灰度统计信息，而且反映图像的空间分布信息和结构信息。对图像纹理，迄今为止仍无一个公认的、一致的严格定义。但图像纹理对人们来说是很熟悉的。纹理是人眼视觉的重要组成部分，反映了物体的深度和表面信息，表达了物体表面颜色和灰度的某种变化。而且这些变化又与物体本身的属性有关，是图像的固有特征之一。数字图像中的纹理是相邻像素的灰度或颜色的空间相关性，或是图像灰度和颜色随空间位置变化的视觉表现。纹理特征描述方法大致可以分为统计法、结构法、模型法、频谱法。结构分析方法分析图像的结构从中获取纹理特征，包括形态学算子，边界图等”统计分析方法是对图像属性进行统计分析，包括共生矩阵、Tamura纹理、Word分解、马尔可夫随机场(MarkovRandomField)、多分辨率分析方法等。频谱分析方法是对傅立叶频谱中峰值所占能量比例进行分析的方法，包括计算峰值处的面积、峰值处的相位、峰值间的相角差等。(1)Tamura纹理特征Tamura等在人类对纹理视觉感知的心理学研究基础上，提出了Tamura纹理特征‘241。Tamura纹理特征的六个分量对应于心理学上纹理特征的六个属性，分别是粗糙度(Coarseness)、对比度(Contast)、方向度(Directionality)、线像度(Linelikeness)、规整度(Regularity)，以及粗略度(Roughness)。Tamura纹理特征在视觉上是有意义的，故被应用与许多图像检索系统之中，如QBIC系统。14 江苏大学硕士学位论文(2)基于小波变换的纹理特征自小波变换(WaveletTransform)理论框架建立之后，研究者们开始将小波变换应用于纹理表示中，小波变换逐渐成为一种常用的纹理分析和分类方法并受到广泛关注[25,26,27】。小波变换将二维信号分解成四个子波段，根据其频率特征分别称为LL，LH，HL和HH，可以采用每个波段的每个分解层次上的能量分布均值和标准方差来表示图像纹理特征。Ma和Manjunath等在对直角小波变换、树结构小波变换和Gabor小波变换进行比较之后，发现Gabor小波变换最符合人类视觉特征的表达【281。研究者们针对纹理特征计算量大，对噪声敏感的问题，提出了一些改进方法，如Gabor过滤器法和扩展不规则碎片性分析法等[291。2．3．3形状计算机视觉中，相对颜色或纹理等低层特征而言，形状特征属于图像的中间层特征，它作为刻画图像中物体和区域特点的重要特征，是描述高层视觉特征(如目标、对象)的重要手段，要把图像低层特征与高层特征有机的结合起来，必须有好的形状特征描述与提取算法的支持。形状特征的描述主要有基于边界和基于区域两大类，前者只利用形状的外部边缘，如链码、骨架、傅立叶描述子等。而后者利用形状的全部区域，如区域面积、不变矩等。这两种又都可以进一步分为基于变换域和基于空间域的方法。(1)傅立叶描述子(FourierDescriptor)傅立叶描述子是基于边界的形状特征的最典型表示方法之一，其主要思想是利用傅立叶变换后的边界作为形状特征[30,31]将XY平面上的边界转换到复平面上，对复平面上的边界函数进行傅立叶变换，得到一系列复数系数，其高频分量对应于形状细节特征，而低频分量则描述了形状的基本特征。傅立叶描述子可以用较少的参数表示很复杂的边界。(2)不变矩(InvariantMoment)不变矩是一种重要的基于区域的形状描述方法，其基本思想是使用与变换无关的基于区域的矩作为形状特征‘321。不变矩具有平移、旋转、镜面以及尺度不变性。基于多标签学习的图像语义自动标注研究2．3．4对象或区域空间位置信息图像中的对象或区域的空问位置信息是关于图像视觉特征的一种重要信息。它可以有效的补充如颜色直方图特征描述方法无法描述图像的空间分布信息的缺陷。所以图像的空间位置信息对于图像检索是非常有帮助的。常用的描述图像的空间位置信息的方法是2D．String。空间quad．Tree和符号图也是有效的图像空间位置信息描述方法。姿态估计问题就是：确定某一三维目标物体的方位指向问题。姿态估计在机器人视觉、动作跟踪和单照相机定标等很多领域都有应用。在不同领域用于姿态估计的传感器是不一样的，在这里主要讲基于视觉的姿态估计。基于视觉的姿态估计根据使用的摄像机数目又可分为单目视觉姿态估计和多目视觉姿态估计。根据算法的不同又可分为基于模型的姿态估计和基于学习的姿态估计。(1)基于模型的姿态估计方法基于模型的方法通常利用物体的几何关系或者物体的特征点来估计。其基本思想是利用某种几何模型或结构来表示物体的结构和形状，并通过提取某些物体特征，在模型和图像之间建立起对应关系，然后通过几何或者其它方法实现物体空间姿态的估计。这里所使用的模型既可能是简单的几何形体，如平面、圆柱，也可能是某种几何结构，也可能是通过激光扫描或其它方法获得的三维模型。基于模型的姿态估计方法是通过比对真实图像和合成图像，进行相似度计算更新物体姿态。目前基于模型的方法为了避免在全局状态空间中进行优化搜索，一般都将优化问题先降解成多个局部特征的匹配问题，非常依赖于局部特征的准确检测。当噪声较大无法提取准确的局部特征的时候，该方法的鲁棒性受到很大影响。(2)基于学习的姿态估计方法基于学习的方法借助于机器学习(machinelearning)方法，从事先获取的不同姿态下的训练样本中学习二维观测与三维姿态之间的对应关系，并将学习得到的决策规则或回归函数应用于样本，所得结果作为对样本的姿态估计。基于学习的方法一般采用全局观测特征，不需检测或识别物体的局部特征，具有较好的鲁棒性。其缺点是由于无法获取在高维空间中进行连续估计所需要的密16 江苏大学硕士学位论文集采样，因此无法保证姿态估计的精度与连续性。2．4图像语义标注的多标签特性出于简化计算的目的，己知工作普遍假设语义关键词之间相互独立。近年来，人们逐渐意识到图像标注的多标签特性，一方面多标签分类(Multi．1abelClassificatinn)技术被运用于解决图像标注问题，另一方面人们在标注时利用词与词之间的相关性(Correlation)改进标注性能。本节分别对这两方面的相关工作进行介绍。机器学习领域的多标签分类方法并不多见。通常的做法包括二元分类方法以及直接的多类方法。二元方法是将多标签分类问题转换为多个独立的二元分类问题，每个二元问题用于检测给定标注词是否出现在图像中。该方法最普遍使用的方法，如上节中所述基于SVM的分类方法。后来，出现对二元独立分类器的分类结果利用上下文信息进行融合的方法，这种方法融合的结果依赖初始的二元分类器，因此若二元分类器的结果并不可靠，其误差会传递给融合过程。直接的多类方法将包含多个标签的样本作为新的类，并为它们建立模型。但这样会产生非常多的新类，因此这种方法在图像标注中并不多见。Qi等人提出一个相关多标签视频标注算法，提出相关多标签框架，对单个语义概念及它们的相互作用同时建模。Kang等人提出一个相关标签传播算法，对基于核的KNN分类算法进行改进，使其对标签间的相关性进行考虑。另一方面，人们在标注时利用词和词的相关性改进标注性能。举例来说，“people，beach”、“people，garden”具有较高相关性，则这两者同时作为图像标注的概率较高，而‘'grass，tiger’组合成为某一图像的语义标注的概率显然高于“ocean，tiger'’。在标注中使用此类相关性信息的代表性工作包括CLM模型、TMHD方法以及AGAnn方法。Jin等人设计CLM模型，在其标注方法中将该问题放松为估计p(眈II)——语言模型岛生成图像I的标注词的概率，隐含考虑了词和词的相关性。与使用外部知识源WordNe进行词与词相关性不同，该方法在标注过程中利用训练集中词和词关系进行标注，并且其在一定程度上改善了标注性能，但该篇文章并基于多标签学习的图像语义自动标注研究未给出度量任意两个词的相似性的有效方法，同时对词的“邻居”关系蕴含的语义相似性并未考虑，且由于使用EM算法，标注速度较慢。TMHD方法需借助外部数据源WordNet，通过WordNet度量词和词的相关性，对使用机器翻译模型的标注结果进行不相干词的过滤，但此种方法对训练集中有用的上下文信息未充分利用。AGAma对自适应[](AdaptiveGraph)标注的结果应用词与词相关性。Zhou等人提出了一种迭代的图像语义自动标数据集中学习标注词之间的语义共现性。Wang等人则通过标注词在训练图像数据集中的共现模式(Co．occurrence)来估计标注词之间的语义共现性和相关性。Tang等人提出了一种基于图的方法来估计标注词之间的语义共现性。总之，现有的方法通常基于有限的训练图像数据集或标准的语法辞典，如借助WordNet来估计标注词之间的语义共现性。然而，由于WordNet等语法辞典并没有考虑图像里的上下文信息。而训练图像数据集的有限性导致基于训练数据集的标注词之间的语义共现性具有很大的局限性，对于数量巨大的Web图像来说更是如此。基于WordNet的标注词之间语义共现性的估计方法有许多的相关工作，本文就不再详述。由于WordNet技术已相对较成熟，因此，本文结合WordNet技术进行了一些新的尝试，结合WordNet技术提出了一种新的多标签数据集转化方法，具体内容将在第三章进行介绍。为了在标注过程中考虑词与词的相关性，理想情况下应该利用词的集合进行标注，此时需穷举标注单词表的所有子集，当标注单词表非常大时，在计算上并不可行。并且在前面介绍的方法中，往往单方面考虑了图像特征的相似性度量方式以及词与词的相关性，对这两方面的相互作用方式并未考虑。2．5多标签学习中的多标签数据集转化对于多标签学习问题，其处理方法可分为整体优化法和基于数据分解的方法。整体优化法对所有样本和标签构建一个优化问题，如BoosTexter算法、Rank．SVM算法、多标签k近邻算法以及最大化熵的多标签算法(MIME)等，该类方法的优点是没有改变数据的结构，没有破坏类与类之间的联系，其缺点是需要花费大量时间去解优化问题，难以应用到较大规模的数据集。基于数据分解的方法将多标签学习任务转化为一个或多个单标江苏大学硕士学位论文签学习任务，利用已有的单标签数据挖掘知识进行多标签问题的处理。这种转换实际上是先将多标签学习任务中的多标签数据集转化为单标签数据集，再利用SVM等分类算法在转化后的数据集上进行基分类器的训练，并借助基分类器完成多标签数据的分类工作。要想提升该类方法的准确率，可以在两方面做努力，一是寻求有效的基分类器构造方法，在转化后的数据集构建更加高效的基分类器。二是在多标签数据集的转化上下功夫，即可以寻找一种高效的数据集转化方法，使转化后的数据集能更好的反映原始多标签数据集中的信息，从而使得建立在这种数据集上的基分类器具有更高的分类准确率。本文重点从第二方面入手，寻找更加有效的数据集转化方法。目前可用的转化方法主要有BR方法、Copy方法、Copy-Weight方法、LP方法、RPC方法等。BR(BinaryRelevance)方法是一种典型的基于数据分解的方法，它将每个标签的预测看作一个独立的单分类问题，并为每个标签训练一个独立的分类器，用全部的训练数据对每个分类器进行训练，这种算法忽略了标签之间的相互关系，往往无法达到令人满意的分类效果。文献通过拷贝(copy)和带权重拷贝(copy．weight)的方法对BR进行改进，将原训练集合中的一条多标签数据拆分成多条单标签数据，并给予相应的权重；LP(LabelPowerset)是另外一种被广泛使用的转化方法，它将训练数据中的每种标签组合进行二进制编码，从而形成新的标签。LP算法的显著缺点是不能预测新的标签组合。为此，Read等将概率分布模型应用到LP中，当对未分类数据进行预测时，可以预测出训练集合中未出现的标签组合。LP算法的复杂度较高，高达O(min{2q，m)≠}t(D))，可以通过剪枝或随机标签组合的方法在一定程度上可以降低复杂度，但降低的幅度有限；RPC是Hullermeier等提出的一种方法，该方法是一种基于标签对比(pairwisecomparison)的转化方法，通过对比标签集合中任意两个标签之间的关系，建立q(q．1)／2个分类器。每个分类器在两个标签k和k间投票，然后组合这些投票结果作为最终的多标签分类结果。假设多标签分类算法中采用的基础分类器(basedclassifier)的复杂度为0(t(D))，其中函数t(D)表示分类器在训练集合D上建立分类模型的复杂度，则基于标签对比的多19 基。J：多标签学习的图像语义自动标注研究标签分类算法的复杂度为O(q(q．1)／2撑t(D))。上述这些方法均没有有效的利用标签之间潜在的语义相关(relevance)和共现。t生(co—occurrence)矢N识，并且转化得到的数据集相对于问题本身规模偏小，不能进行有效的基分类器训练。2．6图像标注中的语义标签排序问题当前研究表明，图像标注的语义标签中，只有50％的标签是和图像内容相关的。并且，标签的重要性或者相关性不能够由现有的标签次序反应。图2—2给出了Flickr上的两幅示例图像，可以看到两幅图像的视觉内容非常相似，但是最主要的关键词“鸟(bird)”却有着不同的次序，说明社交图像中原有的标签次序没有反应出标签和图像之间的关联程度。为了解决标签次序的问题，近些年来，学者对标签排序问题进行了研究。Liu等人p3J对标签排序问题进行了先驱性的工作，使用概率密度估计和随机游走的方法计算标签的相关性以对标签进行排序。Li等人【34]根据图像之间视觉关联，使用近邻投票的方法进行标签排序。Zhuang等人【35J提出了一个一_维(文本和视觉)的学习方法计算标签和图像之间的相关性。但是，以上这些方法在计算标签和图像的相关性的时候只考虑了整幅图像，而忽略了标签与图像中显著区域之间的潜在相关性。圈藿0墓蛰图2—2来自Flickr的两幅示例图像及其对应的标签列表为了克服现有的语义标签排序研究工作中只考虑了标签和整幅图像之间的相关性而造成的语义关联不明确的问题，本文考虑图像的显著性区域，提出了一个新的基于视觉显著性区域的语义标签排序方法，以期望得到语义标签更准确的排序。20 江苏大学硕士学位论文2．7马尔可夫随机场马尔科夫随机场(MarkovRandomFields，MRS)模型也称为无向图模型，一般应用在统计学习和机器学习等领域，用来对联合概率进行建模。Metzler等人通过MIu模型来构建一个通用的、形式化的模型以对项之间的依赖性(Termdependencies)进行建模。该模型可以将任意的文本特征作为例证(evidence)集成到该模型中。zhu等人明提出了一个动态的层次马尔科夫随机场(DynamicHierarchicalMarkovRandomFields，DHMRF)模型来以判别分析的方式集成数据提取中的结构不确定性。近年来，马尔科夫随机场模型也被广泛用于解决计算机视觉中的许多问题，例如图像分割，物体检测，视频去噪等等。在这些应用中，MRF模型被用来模拟像素或者超像素(从图像的特定位置或区域提取的视觉特征)之间的空间关系。Micusic等人[36】通过在超像素上建立MRF模型，采用最大和(max．sum)方法来解决多标签图像分割问题。首先对图像提取局部特征，然后利用特征之间的空间关系来构造图结构，从而把物体检测问题转化为图匹配问题，最后通过MRF模型来解决图匹配问题。提出了时空MRF模型，通过同时模拟视频中的时间和空间信息来解决视频去噪问题。Chen等人【37】贝0采用MRF模型来模拟语义概念之间的关系，从而提出了CML模型，CML模型通过同时对语义概念分类和模拟它们之间的关系来对视频的语义内容进行标注，也取得了不错的效果。本文在第三章和第四章所提两种方法的基础上结合马尔可夫随机场图像语义标注方法(MultipleMarkovRandomField)，实现了一个图像语义自动标注系统，通过交互式的图像语义标注模型的训练与标注演示，充分展示了MMRF技术的标注性能，同时也帮助人们更好地了解了图像语义自动标注的机理和系统实现过程。2．8小结本章介绍了图像语义自动标注的基本框架，并对当前图像语义自动标注的相关工作及背景知识进行分析和讨论，指出现有图像语义自动标注工作中存在的不足之处，从而为本文的研究工作奠定基础。基于多标签学习的图像语义自动标注研究第三章一种新的语义多标签数据集转化方法RAPC-W针对现有多标签数据集转化方法无法有效利用标签间的语义相关性和共现性知识，以及转化得到的数据集相对于问题规模偏小等问题，提出了一种新的多标签数据集转化方法RAPC-W(RankingByAllPairwiseComparisionBasedWordNet)，该方法将标签对从原来的两对扩展到四对，增加了划分后数据集的规模。另外，引入了外部数据源WordNet，较好地考虑了语义标签的相关性和共现性知识，一定程度上过滤掉了语义不相关的标签组合，更好的保留了原始数据集的信息，降低了噪声数据集对基分类器训练的不良影响。实验结果表明该方法是有效可行的。3．1多标签学习问题常用的处理方法随着多标签学习在图像及视频语义标注、功能基因组、音乐情感分类和营销指导等方面的成功应用，多标签学习已经成为数据挖掘领域的一个研究热点。对于多标签学习问题，其处理方法可分为整体优化法和基于数据分解的方法[3引。整体优化法对所有样本和标签构建一个优化问题，如BoosTexter算法[391、Rank2SVM算法[40]、多标签k近邻算法‘411以及最大化熵的多标签算法[421(MIME)等，该类方法的优点是没有改变数据的结构，没有破坏类与类之间的联系，其缺点是需要花费大量时间去解优化问题，难以应用到较大规模的数据集。基于数据分解的方法将多标签学习任务转化为一个或多个单标签学习任务，利用已有的单标签数据挖掘知识进行多标签问题的处理。这种转换实际上是先将多标签学习任务中的多标签数据集转化为单标签数据集，再利用SVM[43】等分类算法在转化后的数据集上进行基分类器的训练，并借助基分类器完成多标签数据的分类工作Ⅲ】。要想提升该类方法的准确率，可以在两方面做努力，一是寻求有效的基分类器构造方法，在转化后的数据集构建更加高效的基分类器。二是在多标签数据集的转化上下功夫，即可以寻找一种高效的数据集转化方法，使转化后的数据集能更好的反映原始多标签数据集中的信息，从而使得建立在这种数据集上的基分类器具有更高的分类准确率。本文重点从第二方面入手，寻找更加有江苏大学硕士学位论文效的数据集转化方法。3．2常见的多标签数据集转化方法及存在问题目前可用的转化方法主要有BR方法【441、Copy方法m】、Copy．Weight方法【441、LP方法[451、RPC方法㈤等。BR(BinaryRelevance)方法是一种典型的基于数据分解的方法，它将每个标签的预测看作一个独立的单分类问题，并为每个标签训练一个独立的分类器，用全部的训练数据对每个分类器进行训练，这种算法忽略了标签之间的相互关系，往往无法达到令人满意的分类效果。文献[44]通过拷贝(copy)和带权重拷jlq(copy—weight)的方法对BR进行改进，将原训练集合中的一条多标签数据拆分成多条单标签数据，并给予相应的权重；LP(LabelPowerset)是另外一种被广泛使用的转化方法，它将训练数据中的每种标签组合进行二进制编码，从而形成新的标签。LP算法的显著缺点是不能预测新的标签组合。为此，Read等将概率分布模型应用到LP中，当对未分类数据进行预测时，可以预测出训练集合中未出现的标签组合【47】。LP算法的复杂度较高，高达O(min{2q，m)宰t(D))，可以通过剪枝‘471或随机标签组合[481的方法在一定程度上可以降低复杂度，但降低的幅度有限；RPC是Hullermeier等提出的一种方法，该方法是一种基于标签对L匕(pairwisecomparison)的转化方法，通过对比标签集合中任意两个标签之间的关系，建立q(q一1)／2个分类器。每个分类器在两个标签k和九i间投票，然后组合这些投票结果作为最终的多标签分类结果【491。假设多标签分类算法中采用的基础分类器(basedclassifier)的复杂度为O(t(D))，其中函数t(D)表示分类器在训练集合D上建立分类模型的复杂度，则基于标签对比的多标签分类算法的复杂度为O((q(q-1)／2)枣t(D))。上述这些方法均没有很好的利用标签之间潜在的语义相关性(relevance)和共现性(co—occurrence)知识，并且转化得到的数据集相对于问题本身规模偏小，不能进行有效的基分类器训练。为此，本文在RPC方法的基础上，结合外部数据源WordNet，提出了一种新的多标签数据集转化方法RAPC．W，该方法从两方面对RPC进行了扩展，一是增加了标签的对数组合，将标签对基于多标签学习的图像语义自动标注研究从原来的两对扩展到四对，更全面的考虑了标签语义相关性和共现性知识，增加了划分后数据集的规模，有利于进行基分类器的训练；二是引入了外部数据源WordNet，一定程度上过滤掉了语义不相关的标签组合，更好的保留了原始数据集的信息，也降低了噪声数据集对基分类器训练的不良影响。3．3相关知识介绍3．3．1外部数据源WordNet在进行语义相似性和相关性度量发面，基于结构化语义知识库WordNet的度量一直在这一领域独领风骚，形成了一系列比较成熟的方法。它将名词、动词、形容词和副词分别按照词义进行组织，形成同义词集(Synsets)，同义词集之间通过多种语义关系进行连接，其中最基本的语义关系是上下位关系，根据上下位关系可以将WordNet的同义词集形成一个树状的层次结构，各种语义相关性的计算大多是基于这个层次结构进行的。下面介绍几种基于WordNet的词问语义相关性度量方法。(1)基于文本重叠度的度量Lest[501首次提出使用单词定义的文本重叠度进行相关性的计算。Banerjee等人对Lest的方法进行了改进，提出了“扩展的注释重叠度”方法，效果较前者有所改进。(2)基于路径的度量Wu等人考虑了两个概念节点及其最小公共父结点在层次结构中的深度来计算语义相似性，具体计算如式(3．1)所示。2×d(1cs)Kwnc(c1，c2)wUp2，(cl，七s)+f(c2’胁)+2×d(胁)(3．1)其中，1cs为节点Cl和C2在WordNet层次结构中的最小公共父结点，d(1cs)为节点lcs在层次结构中的深度，1(cl，lcs)为节点Cl到1cs的距离。Leacock等人综合考虑了层次结构的深度和节点间的距离对相关性的影响，提出了一种规格化的测量相似性的方法，具体计算如式(3．2)所示。江苏大学硕士学位论文．1(c1，c2)Kwnc(c1，c2)LCH2一log——2D(3．2)其中，l(c1，c2)为节点el和c2之间的距离，D为WordNet层次结构的最大深度。(3)基于信息量的度量Resnik根据概念在一个文集中的出现概率度量其信息量，由两个概念的最小公共父结点的信息量计算概念对之间的相关性。两个概念间共享信息的程度为：胁c(c1，c2)RES2庀(㈧(3．3)圮(b)=一logP(b)(3．4)其中，P(1cs)为概念lcs出现的概率，IC(1cs)为概念lcs的信息量。Jiang等人‘511提出了一种新颖的基于信息量和文集混合测量语义距离的JNC度量，该方法被认为是最有效的一种度量方法。JNC中需要给定一个已经按照语义进行过改良好分类的词库，由这个词库可以估计出每个概念c出现的概率：Freq(c)Pr(c)=——N(3．5)其中，Freq(c)指概念c出现的次数，N是所有概念出现的总次数。利用此概率可定义该概率对应的信息容量(InformationContent，IC)：，c(c)=一log(Pr(c))(3．6)基于WordNet的语义相关性度量可理解为两个概念分别去除公共概念之后信息容量和的倒数，即：1Kwnc(c1，c2)Ic(q)+IC(c2)一21c(b(c1，唿))(3．7)其中，lcs(cl，c2)是概念cl与c2的最低公共父节点，n-I"f扫WordNet的概念树结构来得到。有了词汇间关系的有效度量方法，就能利用式子(3．5)、(3．6)、(3．7)来定基于多标签学习的图像语义自动标注研究量的计算两两标签之间的关系量五。3．3．2RPC(RankingByPairwiseComparison)RPC将多标签数据集转换成M(M一1)／2个二标签数据集，对于每一组标签(k，九i)，1Si五时，将这条数据标记为(X，Cifj)或标记为(x，_1Ci]Cj)。具体描述如算法3．1所示。算法3．1：基于RPC与WordNet的多标签数据集转化方法RAPC．W。输入：多标签数据集S；阀值旯。输出：单标签数据集SimData。(1)初始化新的数据集Sim_Data；(2)fori=ltoM／／M为标签个数(3)forj=(i+1)toM(4)P(CiCj)卜getPairLabel(S)；／／获取所有的标签对组合(5)endfor；(6)endfor；严转化S中只包含单标签的数据集幸／(4)foreachCiCjinP(ciQ)do(5)Data(co卜F(S，ci)：／／获得含有Ci不含Cj的数据项(6)(X，Ci-1Cj)卜M(Data(Ci))；／／标记含有ci的数据项(7)Data(Cj)卜F(S，Cj)：／／获得含有Cj不含ci的数据项(8)(x，""aCifj)卜M(Data(Cj))；／／标记含有Cj的数据项(9)初始化一个单标签数据集子集Sirn_DataSet；(10)Sim—Data卜(x，CiCj)／／将新数据项放入Sim—Data中(11)Sim—Data一(X，-'1Cifj)；／／将新数据项放入Sire—Data中(12)Sim—Data卜SimDataSet；／／将数据子集放入Sirn_Data中(13)endfor；产转化S中包含一对标签或一对均不包含的数据集幸／(14)foreachCiCjinP(CiCj)do(15)计算Knwc(Ci，Cj)；∥通过式(5)(6)(7)(16)ifKnwc(Ci，Cj)>旯then(17)Data(CiCj)卜F(S，Ciq)／／获得含c,q的数据项(18)(X，ciCj)卜M(Data(ciCj))；∥标记含ciq的数据项(19)Data--iCi---iq)一F(S，-]Ci--1Cj)；∥获得不含CiQ的数据项’7 基于多标签学习的图像语义自动标注研究(20)(X，-1Ci-、Cj)卜M(Data(-、Ci_1Cj))：／／标记不含CiCj的数据项(21)endif(22)初始化一个单标签数据集子集Dou_Data；(23)Dou—Data卜(X，cicj)：／／将数据项放入Dou—Data中(24)Dou—Data卜(x，_1Ci-'7Cj)；／／将数据项放入Dou—Data中(25)Sim—Data卜Dou_Data；／／将数据子集放入Sim—Data中(26)endfor：3．5实验结果分析本章对R_PC与PAPC—W进行实验对比时，借助两种方法在转化后的数据集上进行基分类器的训练，第一种方法采用的svM训练程序来自台湾大学林智仁教授等人开发的LibSVMt521，SVM(SupportVectorMachine)分类器采用线性核函数，该方法记为SVML；第二种采用的是多项式核函数，常数C的值设为1，该方法记为SVMD。采用的数据集为UCI矢II识库提供的Yeast和Letter数据集，以及KEEL提供的Emotion、Genbase数据集，基本信息如表3—1所示。其中，平均标签长度为数据集中每个样本所拥有的标签个数的平均值。表3．1实验数据集信息本章从准确率、灵敏性、特效性、精度、Fl值、“NumberWords”等六个方面对所提出的PAPC—W方法与传统RPC方法进行比较。所谓灵敏性也称真正(识别)率，即正确识别正元组的百分比；特效性是指真负率，即正确识别负元组的百分比；准确率是正确识别正负元组的百分比，它是灵敏性和特效性的函数；精度是指正确识别的正元组在识别为正元组中所占的比率；F1值是精度和灵敏性的调和平均数；“NumberWords”即至少被正确识别一次的标签数量，这一数值反28 江苏大学硕士学位论文映了转化方法对标签的覆盖程度，记为“NumWords”。采用SVML作为基分类器，在数据集Genbase、Letter、Emotion和Yeast上的实验结果分别见图3—1、图3—2、图3—3与图3—4；采用SVM_D作为基分类器，在数据集Genbase、Letter、Emotion和Yeast上的实验结果分别见图3—5、图3—6、图3—7与图3—8。其中，+、一和’分别表示本文方法优于、劣于和持平于对比方法。图3．1Genbase上的对比结果∥一i三孬⋯⋯⋯‘丽戛F⋯‘图3-2Letter上的对比结果29 基于多标签学习的图像语义自动标注研究t●．2t■)o．240o．200o．0aO瞄曩瞄暖嚣蹦飘豳RI>C(1lRAI’C—Wo．：邕+O．251}+E=：o．：豢o．：1330．：!lC壤o．2l+o．2l(●+‘oco～o．199箧‘’19Uo．193嘲麟}ll麓66～ll震i霾霞SensiTivitySpccinciIyPrecisionAccuracy图3．3Emotion上的对比结果Nu-1tWord8图3-4Yeast上的对比结果30∞孙M北舱憎ⅢM垤m864：o如Ⅻ弘M∞踯㈧m¨忙mo42n ‘}．300O38002“●o二40o2(tO¨l晰，nI州)014,0lll20onH{’nn“，(}040(}t)2《'江苏大学硕士学位论文一IgPC【0RAPc—wo：14E+o．24‘0．：嶙，0．252+o．25《l+c；‘l圈o．239+Eo⋯一f’．23_2lo．：127-o．23《卜+目Ic，o．：Il鋈20嬲黧——疆黧震雾l。IIl嚣il墓露霾登&-11sitivitySpc,2itici!y1．rc'cisionAccuracyF}{ANulnWords图3．5Genbase上的对比结果图3-6Letter上的对比结果3l冲勰孙N舱加埔ⅢH心忡o64：j呻勰弘H砼{专抖协M心ms64，o 基于多标签学习的图像语义自动标注研究图3．7Emotion上的对比结果图3-8Yeast上的对比结果借助两种基分类器，在四个多标签公用数据集上对RAPC．W方法与RPC方法进行比较，对比结果显示：其中图3—1、图3—4、图3—5中的Specify指标以及图3．2中的Accuracy指标，RAPC．W方法较RPC方法有不同程度的下降，这可能是由于数据集的正负例数据不平衡导致的；图3-4与图3—8中的NumberWords指标，RAPC—W方法与RPC方法持平。除此之外，各数据集上江苏大学硕士学位论文的各项指标，RAPC．W方法较之RPC方法均有明显提高，即至少在80％的性能指标上，RAPC．W较RPC有显著提高，这是由于本文所提的RAPC．W增加了划分后数据集的规模，提高了基分类器训练的准确度，另外，通过引入外部数据源WordNet，较好地考虑了语义标签的相关性和共现性知识，一定程度上过滤掉了语义不相关的标签组合，更好的保留了原始数据集的信息，降低了噪声数据集对基分类器训练的不良影响，RAPC—W在整体实验结果上较RPC有明显提高。因此，本文所提方法是有效可行的。3．6结束语本章在多标签数据集划分方法RPC方法的基础上，提出了一种新方法RAPC．W，该方法在考虑标签组合时引入了外部数据源WordNet进行校验，通过在UCI知识库以及KEEL提供的数据集上的一系列实验，验证了所提方法的有效性。基于多标签学习的图像语义自动标注研究第四章基于基分类器加权投票的语义标签自动排序针对当前图像语义标签的无序性问题，本章提出了一种基于基分类器加权投票的图像语义标签自动排序方法。该方法基于图像显著性区域内容，借助基分类器对图像的每个语义标签进行加权投票，以此来决定每个语义标签与图像的相关程度，实现图像标签次序的有序排列。4．1研究现状与存在的问题满。．乒黥一眵I 江苏大学硕士学位论文签数据集转化后的规模，给予每一个训练获得的基分类器一个权值，借助基分类器的加权投票结果将图像的语义标签次序进行重排。最后，语义标签的新顺序由语义标签得票的高低来确定。4．2基分类器的训练4．2．1支持向■机SW(SupportVectorMachine，SV吣目前处理多标签分类问题的常用方法就是将其转化成多类问题，然后利用多分类中的方法来进行分类。多类分类要求训练样本具有单一主题，并且只能为待分类样本标记一个确定的主题。在处理多类问题时，往往将其分解成一系列的二分类问题利用基分类器加以解决。而基分类器往往借助SVM(SupportVectorMachine，SVM)来构建。支持向量机(SupportVectorMachine，SVM)是一种建立在统计学习理论基础上的新的分类技术。它是基于结构风险最小化原则，根据有限样本信息在模型的复杂度和学习能力之间寻求最佳的折中。由于其出色的泛化性能，因此成为目前解决分类问题的主要工具。在实际应用中，多数情况下不能满足线性可分，而SVM能很好地解决这个问题。其基本原理是将在原始空间中的非线性输入向量x映射到一个高维空间z，并在这个空间中构造最优分类超平面，该超平面使类别间的分类间隔最大。通过计算向量与最大间隔超平面的距离来判别所属类别。由于在高维空间中只需要进行内积运算，使得SVM对高维数据有很好的处理能力。在线性可分的情况下，SVM可通过计算最小化||WIl2／2来得到最优超平面。最优超平面为训练集中向量的线性组合：iw=∑Yi口fxf(4．1)f-l其中，当a产0时的样本对分类问题没有贡献，只有当ai)O时的支持向量才对构造分类器起作用。式(4．2)用于对预测样本进行分类，分类函数表示为：／(x)=sgn(∑口，Y，K(墨，x)+6)(4．2)i=l 基于多标签学习的图像语义自动标注研究4．2．2SVM(SupportVectorMachine，sw)的构造支持向量机网络结构图如图4—2所示，其基本思想是，首先通过非线性变换将输入空间变换到一个高维空间，然后在这个新空间中求取最优或是广义最优线性分类面，而这个非线性变换是通过定义适当的核函数实现的临3J。由于核函数的存在，即使在特征维数增加很多的情况下，解最优化的过程并没有增加多少复杂度，因此成功解决了特征维数灾难问题。核函数的选择必须满足Mercer条件。常用的核函数有：(1)线性核函数(Linear)线性核函数是最基本的一种非线性映射：K(xi，Xj)=XiXj(4．3)其中，xi，xj是特征向量。(2)多项式核函数(Polynomial)多项式核函数是最常用的一种非线性映射：k(xi，Xj)=(C木Ti木J+r)d，C≥0(4．4)其中，xi，xj是特征向量；C，d，r是由用户决定的参数。所得到的是d阶多项式分类器。，f(x，口)=sgn[)-1Yf口f(一rx+r)d+6](4．5)f=l其中，sgn(x)是符号函数；b是由训练算法自动确定的最优偏置。(3)径向基核函数(RadialBasisFunction，RBF)径向基核函数是应用很广泛的，经典的径向基函数使用下面的判定规则：，f(x，口)=sgntXaig(Ix—Xil)+6](4．6)i=1其中，K(1xi．xjl)取决于两个向量之间的距离Ixi-xjI。最常用的判定规则是采用高斯径向基函数：X(xi，■)=exp(一I誓一t12／2少2)，Y>0(4．7)其中，C是由用户决定的核宽度：exp(x)是指数函数。(4)S形核函数(Sigmoid)36 江苏大学硕士学位论文支持向量机采用Sigmoid函数作为内积运算，从而实现了包含一个隐层的多层感知机。隐层节点数目flaiJII练算法自动确定，满足Mercer条件的Sigmoid函数为：K(‘，xj)=tanh(yxilXf+r)(4．8)其中，tanh(x)是双曲正切函数；C，r是由用户决定的参数。本文对上述核函数在不同参数下的分类效果进行了测试，从而确定适合图像语义分类的核函数即S核函数，实现了基分类器的构造。输入层核运层求和层输出层图4．2支持向量机网络结构图4．3基于基分类器加权投票的图像语义标签排序方法标签排序最重要的任务是确定每个标签与图像的相关程度。以往的研究表明使用k近邻图像投票的方法来学习标签的相关程度是有效的，但是利用整幅图像的k近邻图像是不够准确的。实际上，通常反映图像主要语义的都集中在图像的显著性区域，也就是说，图像的显著性区域与图像的主要语义有着重要的关联。而本文提出的基于基于基分类器加权投票的图像语义标签排序方法，首先要先训练获得基分类器，然后对训练得到的每一个基分类器依据训练数据集的规模赋予一定的权值，获得具有一定权值的基分类器，从而针对图像的每个语义标签借助具有有一定权值的基分类器进行加权投票，决定每个语义标签与图像的相关程度，实现图像语义标签次序的排列，算法的具体流程如图4—3所示，算法的基本思路如下：基于多标签学习的图像语义自动标注研究首先，利用第三章中的RAPC．W对多标签图像样本数据集进行转化，得到单标签图像数据集，并且统计单标签数据集的规模；接着，利用LibSVM在转化后得到的数据集上进行基分类器的训练，针对每一个单标签数据集得到一个基分类器，并依据相应单标签数据集的规模为每个基分类器赋予一定的权值；最后，利用得到的具有一定权值的基分类器对待标注图像进行加权投票分类，输出具有一定顺序的图像语义标签序列。具体描述算法如算法4．1所示。算法4．1：基于基分类器加权投票的图像语义标签排序方法输入：图像训练样本数据集S；待标注的图像数据Picture。输出：具有一定顺序的图像语义标签序列Label。(1)算法开始(2)初始化新的数据集Sim—Data，Label，Picture，S／／Sim-Data存放单标签数据集(3)fori=ltoM／／M为标签个数(4)forj=(i+1)toM(5)P(CiCj)卜getPairLabel(S)∥获取所有的标签对组合(6)endfor(7)endfor／畔专化S中只包含单标签的数据集幸／(8)foreachciqinP(CiCj)do(9)Data(Ci)卜F(S，Ci)∥获得含有ci不含Cj的数据项(10)(X，Ci_1Cj)卜M(Data(Ci))／／标记含有ci的数据项(11)Data(Cj)卜F(S，Cj)／／获得含有Cj不含ci的数据项(12)(x，-]ciq)卜M(Data(Cj))／／标记含有Cj的数据项(13)初始化一个单标签数据集子集Sim_DataSet；(14)Sim—Data卜(X，Ci_1Cj)／／将新数据项放入Sim—Data中(15)Sim—Data卜(X，-1ciq)／／将新数据项放入Sim—Data中(16)Sim—Data—Sim—DataSet／／将数据子集放入Sim—Data中(17)endfor；／峙专化S中包含一对标签或一对均不包含的数据集木／(18)foreachCiCjinP(CiCj)do1R 江苏大学硕士学位论文(19)计算Knwc(Ci，cj)／／通过式(5)(6)(7)(20)ifKnwc(Ci，cj)>2then(21)Data(Cifj)卜F(S，CiCj)／／获得含cicj的数据项(22)(X，cicj)卜M(Data(CiCj))∥标记含CiCj的数据项(23)Data(-1Ci_1Cj)一F(S，-]Ci．1cj)／／获得不含cicj的数据项(24)(X，-]Ci-ncj)卜M(Data(_]Ci-1cj))／／标记不含cicj的数据项(25)endif(26)初始化一个单标签数据集子集Dou-Data；(27)DouData卜(X，ciCj)／／将数据项放入Dou—Data中(28)Dou_Data卜(X，_1Ci-1cj)∥将数据项放入Dou—Data中(29)Sim—Data卜Dou—Data／／将数据子集放入Sim—Data中(30)endfor(31)T=Count(Sim-Data)／／统计数据集Sim．Data的规模(32)fori=lton(33)Ci=LibSVM(Sim-Data)／／iJII练得到基分类器(34)Ti=Count(Sim—Datai)／／统计数据集Sim．Data的子数据集的规模(35)Bi=(Ti／T)Ci／／得到具有一定权值的基分类器(36)Labeli=Bi(Picture)／／利用基分类器对Picture进行加权投票(37)endfor(38)fori=lton(39)Label—Sort(Labeli)／／对标签序列按权值从大到小的排列得到Label(40)endfor(41)算法结束39 基于多标签学习的图像语义自动标注研究图4．3图像语义标签排序算法示意图江苏大学硕士学位论文4．4实验与分析4．4．1实验数据描述本实验使用的数据来自于真实数据库NUSWIDE中的260000张图像和对应的标签列表。该数据库中的所有图像都是来源于图片分享网站Flickr，共有对应于图像的5018个独立标签。对每张图片本实验提取四种视觉特征，包括64维的颜色直方图，144维的颜色相关图，73维的边缘方向直方图，128维的小波纹理和225维的基于5*5块的颜色矩。4．4．2评价标准本实验用归一化的折扣累积增益(Normalizediscountcumulativegain，NDCG)指标来评价试验结果。本章从NUS—WIDE数据库中随机选取了400张图像，并请了4位同学对这400张图像的标签与图像内容的相关性进行了人工标注。每个标签与图像内容的相关性被标为5个等级：最相关(分数5)，相关(分数4)，部分相关(分数3)，局部相关(分数2)，不相关(分数1)。给定一张图像的按序排列的标签列表tl,t2⋯．tn，NDCG计算如下：M=zn善n高件9，式中的i为第i个标签的次序，“i)为地i个标签与当前图像内容的相关性，zn为NDCG归一化的常数，Nn的最优值为1。4．4．3实验结果实验计算了400张图像每一个标签序列的NDCG，然后求的平均值，以获得对本章所提的基于基分类器加权投票的标签排序方法的整体评价。为了对本章所提出的标签排序方法进行定量的评价，本章与以下标签排序方法得到的平均NDCG进行了比较：(1)基本标准(Baseline)：标签列表的初始次序；(2)基于整幅图的近邻投票(Entireimagebasedk-nearestneighborsvote，EKNN)：文献[54]中提出的基于整幅图像的KNN标签排序方法；41 基于多标签学习的图像语义自动标注研究(3)概率估计和随机游走方法(Probabilityestimateandrandomwalk，PRW)：Liu等人提出的先使用核密度估计然后再用基于标签图的随机游走的标签排序方法。实验结果如表4-1所示。从表4-1可以看出，本章所提方法的平均NDCG比其他方法要高，也就是说本章所提方法的标签排序结果要优于初始次序，也优于其它对比方法。根据表4-1所示的实验结果，本章所提出的基于基分类器加权投票的标签排序方法的平均NDCG比Baseline高出了5．6％，比EKNN方法高出了4．3％，比RPW方法高出了2．7％。标签列表的初始次序由于是同学人为输入的，所以NDCG值比较低。EKNN方法仅考虑了基于整张图像内容的关系，所以经由EKNN方法学习得到的标签相关性和真实情况差别较大。而PRW首先使用近邻图像建立了标签之问的关系，然后在建立的标签图上用随机游走的方法修正了标签的相关性，同时考虑了图像的内容和标签的语义信息，所以NDCG的平均值比较高。而本文所提出的方法则考虑了语义信息与图像显著性区域内容之间的关系，从实验结果上看，根据图像的显著性区域内容找到图像的语义标签序列更加接近真实情况。所以投票获得的结果也与真实情况更加接近。表4．1几种方法的NDCG图4—3与图4—4分别展示了一些示例图像的原始标签及标签的原始次序和经过本文所提方法得到的标签及标签顺序。为了更有针对性的说明本章方法的优越性，排除不相关垃圾标签的影响，本章所提方法截取了前六个标签予以展示，结果显示GLR-BCW方法得到的标签及新次序更好地反应了标签与图像语义的不同相关性，先主体后背景突出了图片的主题，更加符合人们对图像语义的理解。比如，图4-4中是一个人，但是在标签原始次序中，排在第1位的标签是42 江苏大学硕士学位论文white，而和图像内容最相关的人(people)标签却排在第4位。应用本文方法后，人(people)排在了第1位。明显地，这样的标签次序更加符合图像的语义。标签原始汝序：vctuteskyflowe‘peopleblue掣1SUi'D-ITRj"cloudgrassyellow应用本文方法后的标签及顺序peopleflowergrassskycloudsumm酋图4．4示例图像标签原始故序：naturetreeChinasunshinekoadgzeenspringleaf__roninz应用本文方法后的标签及顺序：treeroad]latk[rsunshinegreen图4．5示例图像43^≮※蘩潦藤基于多标签学习的图像语义自动标注研究再比如，图4-5的标签原始次序中，排在第1位的标签是自然(nature)，但是图中内容最主要的语义应该是排在第2位的标签：树(tree)。应用本文方法后，树(tree)这个标签被排在了第1位，自然(nature)标签被排在了第3位。4．5小结针对当前图像语义标签无序性问题，提出了一种基于基分类器加权投票的图像语义标签自动排序方法，进一步提高图像语义自动标注的准确度。该方法基于图像显著性区域内容，借助基分类器对图像的每个语义标签进行加权投票，以此来决定每个语义标签与图像的相关程度，实现图像标签次序的排列。在现实图像数据库上的实验表明，本文所提方法是有效的。江苏大学硕士学位论文第五章图像语义自动标注系统语义自动标注技术的研究在多媒体数据管理领域具有十分重要的理论意义与应用前景。本章在本文所提的RPC方法与基于基分类器加权投票的图像语义标签排序方法的基础上结合图像底层视觉特征提取技术，参照多马尔可夫随机场的图像语义自动标注方法(MultipleMarkovRandomField，MMRF)设计并实现了一个图像语义自动标注与训练系统。通过交互式的图像语义标注模型的训练与标注演示，充分展示了本文所提方法的标注性能。5．1系统开发背景随着互联网上数字图像的急剧增长，例如著名的图像分享网站Flickr的图片数量已经超过40亿张，而且这个数字还在不断增长，尽管一些主流媒体的网站图像大多附有用户标签，但是仍然存在标签不准确及垃圾标签等问题。就现阶段而言，图像资源的语义识别与标注仍然是大规模图像数据管理的前提与基础。图像语义自动标注即利用计算机系统为数字图像自动赋予语义标签。由于图像语义自动标注是一个多标签学习问题，并且存在高层抽象语义与底层视觉内容之间不匹配的问题，因此，目前图像语义自动标注亟需解决的是“多标签学习”与“语义鸿沟”的问题。为了克服这些问题，研究者们提出了很多方法，其中Xiang等人提出的多马尔克夫随机场标注框架(MultipleMarkovRandomField，MMRF)是一种新颖的基于语义上下文的建模方法，该标注模型在考虑图像底层视觉特征的基础上，引入了语义上下文模型，利用语义概念之间的关联性来提高标注效果。受该方法启发，本文在RPC方法与基于基分类器加权投票的图像语义标签排序方法的基础上，结合图像底层视觉特征提取技术，设计实现了一个图像语义自动标注与训练系统。5．2图像语义自动标注模型图像语义自动标注领域的研究者们提出了很多不同的模型来尝试克服“多标签学习”与“语义鸿沟”的问题，Xiang等人提出的多马尔克夫随机场(MultipleMarkovRandomField，MMRF)即通过估计语义概念和图像共同出现45 基于多标签学习的图像语义自动标注研究的联合概率分布来实现标注，该算法的核心是在底层生成模型的基础上引入了语义概念之间的相关关系使得标注性能得到大幅提升，具体来讲，这一标注框架利用马儿可夫随机场理论(MarkovRandomField，MRF)对语义概念的相关性进行建模，并能针对每个语义概念单独学习一组参数，大大提高了语义上下文建模(contextmodeling)的效果。图5—1是MMRF的模型示意图。其中表示观察图像，p(x，Wi)表示语义标签Wi和X共同出现的联合概率，￡表示图像的标签。图5—1删RF模型框架本文受MMRF模型启发，在RPC．W方法和基于基分类器加权投票的图像语义标签排序方法的基础上提出了本文的标注模型，具体如图5—2所示，其中S代表图像数据集，S代表单标签图像数据集，B和Bw分别代表基分类器和加权基分类器，L代表语义标签。该模型的核心是本文提出的两个算法，该模型较好地考虑了图像语义标签的相关性和共现性知识，一定程度上过滤了不相关语义标签的组合，更好地保留了原始图像数据集的信息，降低了噪声数据集对基分类器训练的不良影响，也在一定程度上实现了图像语义标签的排序，从而使得图像语义自动标注的结果更加准确。江苏大学硕士学位论文●⑨}⑤|⑨l●|⑨|⑤|④∈≥i④}∈≥f●①l④④●／’—、．，l／一4、。，／9、’_1sis,s0j(黜J(sis,s0)＼／＼／＼／④④④5．3图像特征提取及应用图5-2本文模型框架对于每幅图像，我们利用图像标注和检索研究中常用的特征提取方法来获得图像特征D，简单来讲，系统使用了Gist和颜色直方图两种全局图像特征。颜色直方图分别在RGB，LAB，HSV三个颜色空间上计算三种颜色直方图。局部特征上我们使用了SIFT和强化色调特征，两种特征都分别在密集多尺度网格(DenseMulti—scaleGrid)和由Harris—Laplacian检测器检测得到的图像区域上计算得到。为了引入图像内容布局(1ayout)信息，我们还将图像从水平方向分成3个区域，对这些区域根据上面提到的除了Gist以外的方法进行特征提取，再将得到的3种特征综合成为一个完整的全局特征描述。因此，系统中我们用到的特征总共有15种。15种特征对于图像标注的贡献度是不同的，在计算2幅图像的距离时需要综合考虑所有特征，具体来讲，设两幅图像在第i种特征上的欧氏距离为di，47 基于多标签学习的图像语义自动标注研究则两幅图像在15种特征上的距离为：15D=∑w呸(5．1)i=1其中Wi是第i种特征上的欧氏距离的权重系数，权重向量W=(wl，W2，．．．，WlS)通过Tagprop模型学习得到。5．4系统框架设计系统框架图如图5-3所示。5．4．1系统主流程图5—3系统框架示意图系统主要的流程分为离线预处理和在线图像标注两个部分，离线预处理包括以下两个步骤：(1)图像库的构建系统提供的图像数据库来自于图像语义自动标注经常采用的数据库Corel数据集，包含5000幅图像，每幅图像标注了1’5个语义标签，我们用这个数据库图像集作为我们的训练数据集。另一个图像库通过网络下载得到，包括从图江苏大学硕士学位论文像分享网站Flickr或者通过Bing等搜索引擎下载，在对这些图像进行去除错误标签的处理。(2)标注模型学习本系统主要是在本文第三章及第四章所提两个方法的基础上，结合Corel数据集进行标注模型的学习，模型的训练过程如算法5．1所示。算法5．1：标注模型学习输入：训练图像集S输出：标注模型M①RPC．W(S，SiM)／／多标签图像数据集s转化为单标签图像数据集SIM②fori=lton③SIMi∈SIM④LibSVM(SIMi，Bi)Htlil练获得基分类器⑤统计每个单标签数据集的规模⑥w(Bi，Bwi)∥依据数据集规模为每个基分类器赋权值⑦endfor⑧fori--1ton⑨M卜w(Bi，Bwi)d求解系统的标注模型M⑩endfor标注系统在线图像标注流程主要包括以下四个步骤：(1)图像上传及特征提取用户可以上传一副或多幅图像，系统会对这些图像按5．3所示的方法进行底层视觉特征提取。(2)图像标注系统在对图像进行完底层视觉特征提取之后，会将提取到的视觉特征输入NtJil练获得的模型M中，M输出标注结果，反馈给用户。(3)用户评判用户对标注结果给出评判，在认为正确的标注结果上做标记，实现交互式注。(4)标注结果保存49 基于多标签学习的图像语义自动标注研究将用户评判的标注结果保存的数据库中，并将其加入到我们自己下载的训练图像库。一般来讲，这些新加入的训练图像具有较高的标注准确度，能让系统对模型的参数进行修正，因此对于提高系统标注性能是有积极的作用的。5．4．2系统标注效果本文从准确率、灵敏性、特效性、Fl值等三个方面对所提出的标注方法的性能进行了展示，并与经典的MBRM方法和Tagprop方法进行了对比，具体对比结果如表5-1所示，所谓灵敏性也称真正(识别)率，即正确识别正元组的百分比；特效性是指真负率，即正确识别负元组的百分比；准确率是正确识别正负元组的百分比，它是灵敏性和特效性的函数；Fl值是精度和灵敏性的调和平均数。从表5-1可以看出，除了在灵敏性方面，我们的方法在Corel数据集上取得了较好的实验效果，准确率、特效性、F1值等指标均高于其他两个方法。表5．1在Corel数据集上的实验对比结果5．5系统演示该系统是基于Java语言实现的，具有良好的用户界面和跨平台运行效果，能让用户很方便地上传图像进行标注，并具有人机交互功能，用户可以对标注结果的正确性进行筛选，系统能够保存评判后的结果并将新的标注图像添JJH至,J训练图像库中，以提高图像语义自动标注训练模型的准确度。5．5．1界面展示图5—4给出了系统界面示意图，用户可以选择训练图像库，选择待标注的图像，图像上传完成后会在界面上显示出来。点击“标注”按钮后系统将对新上传的图像进行标注，给出标注结果和相应标签的置信度。用户可以在标注结江苏大学硕士学位论文果的“用户评判”一栏为正确的标签打钩，点击“保存”按钮系统将把新标注的图像保存到数据库并加入到训练图像集。5．5．2系统演示图5-4系统图形化界面该系统通过交互式的图像语义标注模型的训练与标注演示，充分展示了本文所提标注方法的标注性能，并帮助大家更好地了解了图像语义自动标注的机理和系统的构建过程，系统的演示分为以下几步：(1)开始(2)点击训练模块的“浏览”按钮，选择训练图像库；(3)点击标注模块的“浏览”按钮，选择待标记的图像并上传到系统；(4)点击“标注”按钮进行标注，系统显示标注结果；(5)用户对标注结果进行筛选；(6)保存标注结果，将新标注的图像加入到训练图像集。(7)结束。5．6小结本章在RPC．W方法和基于基分类器加权投票的图像语义标签排序方法的基于多标签学习的图像语义自动标注研究基础上，结合图像底层视觉特征提取技术，设计并实现了一个图像语义自动标注系统。通过交互式的系统演示，直观的展示了本系统的标注性能，给出了图像语义自动标注的机理和系统的构建过程。江苏大学硕士学位论文6．1总结第六章总结与展望图像语义的自动标注本质上是一个“多标签学习”问题，即根据图像的视觉内容推导出图像的语义标签。因此各种机器学习，统计推理技术都应用于图像标注的研究中。然而，由于图像标注中“语义鸿沟”以及“多标签”问题的影响，现有方法的标注性能仍有待进一步提高。本文主要针对图像语义标注中存在的问题，采用统计学的方法，围绕图像标注的多标签特点进行了一些探索和研究。围绕多标签的相关性和共现性知识，针对图像标注的多标签特点所带来的数据稀疏和噪声数据集对基分类器训练的不良影响等问题，提出了一种新的多标签数据集转化方法RPC．W；针对现有的图像语义多标签的无序性问题，提出了一种基于基分类器加权投票的图像语义标签排序方法；最后，在这两种方法的基础上结合图像底层视觉特征提取技术，设计并实现了一个图像语义自动标注系统，通过交互式的系统演示，直观的展示了系统的标注性能，帮助大家更好地了解了图像语义自动标注的机理。6．2展望本文提出的思想、模型和算法均已进行了实验验证。基于本文已完成的工作，发现还有以下问题值得进一步研究和探讨：数据集中的上下文信息的利用：本文提出的RPC．W方法在对标签组合引入WordNet校验时，只是进行了简单的不相关语义标签过滤，并没有效利用数据集中的上下文信息。因此如何利用数据集中的上下文信息并结合WordNet进行语义标签组合的过滤是下一步值的深入研究的。另外，本文最后设计实现的图像语义自动标注系统，如果能结合语义上下文信息实现一个基于语义上下文建模的图像语义自动标注系统也是值得研究的方向。尝试新的数据集：尝试新的数据集，如TRECVIDVIDEO数据集、CLEF图像数据集：自图像标注问题提出以来，大部分的研究工作均基于统一的标准数据集即本文所用到的Corel数据集。然而，很多人在研究中发现该数据集存基于多标签学习的图像语义自动标注研究在标注不够准确、数据不平衡现象严重、包含的信息过于单薄等问题。而TRECVIDVIDEO、CLEF等数据集已经经过众多研究者的处理，同时包含着丰富的上下文信息。为了充分验证标注模型的有效性，扩展其应用领域，在新的数据集中进行研究是一件十分有意义的事，值得深入研究。江苏大学硕士学位论文参考文献【1]Lew,Sebe，Djeraba，Jain，Content-basedMultimediaInformationRetrieval：StateoftheArtandChallenges，ACMTransaetionsonMultimediaComPuting，Communications，andApplications，ACMPress，2006：1—19【2]T．Li，C．L．ZhangandS．H．Zhu．EmPiricalStudiesonMulti-labelClassifieation，InProc．of18thIEEEInternationalConferenceonToolswithArtificialIntelligence(ICTAl06)，Washington：IEEEComputerSoeiety,2006：86-92．【3】3EDuyguilu，K．Bamard，LEG；deFreitas，andD．A．Forsyth．ObjectRecognitionasMachineTranslation：LearningaLexiconforaFixedImageVocabulary．In：HeydenAeds．Proc．ofEuropeanConferenceonComputerVision．Berlin：Spring—Veflag，2002：97一112．[4】Monay,EandD．GaticaPerez．PLSA-basedImageAutoAnnotation：ConstrainingtheLatentSpace．In：HenningS，NevenkaD，eds．Proe．ofInternationalConferenceonACMMultimedia．NewYork：ACMPress．2004：348-351．[5】J．Jeon，V．Lavrenko，andR．Manmatha．AutomaticImageAnnotationandRetrievalusingCross—MediaRelevanceModels．In：Proe．ofIntl．ACMSIGIR．Toronto，ACMPress，2003：l19—126．【6】J．ShiandJ．Malik．NormalizedCutsandImageSegmentation．IEEETrans．OnPaRemAnalysisandMachineIntelligence，22，2000：888—905．[7]S．L．Feng，R．ManmathaandV．Lavrenko．MultipleBernoulliRelevanceModelsforImageAndVideoAnnotation．In：Proe．oftheIEEEConf．ComputerVisionandPaRemRecognition．WashingtonDC：IEEEComputerSociety,2004：1002-1009．[8]V．Lavrenko，R．Manmatha，andJ．Jeon．AModelforLearningtheSemanticsofPictures．In：SebastianT,LawreneeKS，BemhardS，eds．Proe．ofNeurallnformationProeessingSystems(NIPS)．VaneouverandWhistler：MITPress，2004：553—560．[9】R．Manmatha，S．L．FengandV．Lavrenko．MultipleBernoulliRelevanceModelsforImageAndVideoAnnotation．In：Proe．oftheIEEEConf．ComputerVisionandPatternRecognition．WashingtonDC：IEEEComputerSociety,2004：1002—1009．[10]J．Z．wang，J．LiandGWiederhold．SIMPLicity：Semantics-SensitiveIntegratedMatchingforPictureLibraries．IEEETrans．OnPatternAnalysisandMachineIntelligence．23(9)，2001：947-962【11]R．F．Zhang，Z．F．(Mark)Zhang．AClusteringBasedApproachtoEfficientImageRetrieval．Proceedings．14伪IEEEInternationalConferenceonToolswith55 基于多标签学习的图像语义自动标注研究ArtificialIntelligence(ICTAI2002)4-6Nov．2002：339-346．[12]T．Wang，YRuiandJ．G．Sun．ContraintBasedRegionMatchingforImageRetrieval，InternationalJournalofComputerVision，KluwerAcademic，56(1／2)，2004：37．45．[13]GCarneiro，A．B．Chan，P．J．Moreno，N．Vasconcelos，SupervisedLearningofsemanticClassforImageAnnotationandRetrieval，IEEETrans．onPattemAnalysisandMachineIntelligence，IEEECSPress，29(3)，2007：394-410．[14]K．BarnardandD．A．Forsyth．LeamingtheSemanticsofWordsandPictures．InProc．IntemationalConferenceonComputerVision，Vaneouver)Canada：IEEEComputerSoeiety,2001：408-415．[15]R．Shi，T．S．Chua，C．H．1eeandS．Gao．BayesianLearningofHierarchicalMultinomialMixtureModelsofConceptsforAutomaticImageAnnotation．In：HariS，eds．Proc．ofConf．ImageandVideoRetrieval．Tempe：LectureNotesinComputerSeience．2006：102-112．[16]YL．Gao，J．P．Fan，X．YxueandR．Jain．AutomaticImageAnnotationbyIncorporatingFeatureHierarchyandBoostingtoScaleupSVMClassifiers．In：KlaraN，MatthewT，YongR，W6lfgangK，KetanMReds．Proc．ofACMInternationalConferenceonMultimedia．SantaBarbara：ACMPress．2006．901-910．[17]C．B．YangandM．Dong，Region-basedImageAnnotationusingAsymmetricalSupportVectorMachine—basedMultiple—InstanceLearning，InProc．of2006IEEEComputersocietyConferenceonComputerVisionandPatternRecognition，NewYork：IEEEComPuterSociety,2006：2057-2063[18]T．Li，C．L．ZhangandS．H．Zhu．EmpiricalStudiesonMulti-labelClassification，InProe．of18mIEEEIntemationalConferenceonToolswithArtificialIntelligence(ICTAl06)，Washington：IEEEComputerSociety,2006：86-92．【19]X．Shen，M．Boutell，J．Luo，andC．Brown．Multi-labelmachinelearninganditsapplicationtosemanticsceneclassification．InInternationalSymposiumonElectronicImaging，SanJose，CA，2004．[20】Swain，M．J，D．H．Ballard，Colorindexing．InternationalJournalofComputerVision，1991．7(1)：11-32．[21】Huang，J．S．R．Kumar,eta1．Imageindexingusingcolorcorrelogram．IEEEConferenceofComputerVisioinPattemRecognition(CVPR97)，1997．San．Juan，PuertoRico：762．76856 江苏大学硕士学位论文[22】Strcker'M．Orengo，Similarityofcolorimages．SPIEStorageandRetrievalforImageandVideoDatabasesIII，1995．2185：381—392[23]Fuh，C．S，S．W．Cho，eta1．Hierarchicalcolorimageregionsegmentationforcontent-basedImageretrievalsystem．IEEETransactionOnImageProceessing，2000．9(1)：156—163．【24]Tamura，H．S．Mori，eta1．Texturefeaturescorrespondingtovisualperception．IEEETransactionOnSystem，ManandCybemetics，1978．8(6)：460—473．[25】John，R．S，S．EChang，Tansformfeaturesfortextureclassifcationanddiscriminationinlargeimagedatabase．ProceedingsofIEEEIntemationalConferenceonImageProcessing(ICIP)，1994．3：407-41[26]Ma，w■B．S．Manjunath，AcomparisonofwavelettransformfeaturesfortextureimageAnnotation．ProceedingsofIEEEInternationalConferenceonImageProceeding(ICIP)，1995．WashingtonDC，USA．11：256-259．[27】Randen，T．J．H．Husoy,Filteringfortextureclassification：Acomparativestudy．IEEETansactionsonPatternAnalysisandMachineIntelligence，1999．21(4)：291-310．[28】Pirrone，R．M．L．Cascia，Textureclassificationforcontent-basedimageretrieval．InternationalConferenceonImageAnalysisandProcessing(ICIAP)，2001．Palermo，Italy：398—403．[29]Lonearic，S．Asurveyofshapeanalysistechniques．PatternRecognition,1998．31(8)：983-996．【30]Kauppinen，H．T．Seppnaen，eta1．AnexperimentalcomparisonofautoregressiveandFourier-Baseddescriptorsin2Dshapeclassification．IEEETransactionsonPattemAnalysisandMachineIntelligence，1995．17(2)：201-207．【31]Rui，YA．C．She，eta1．Modifiedfourierdescriptionsforshaperepresentation-Apracticalapproach．Proceedingsof18‘Internationalworkshoponimagedatabasesandmultimediasearch，1996．Amsterdam，Netherlands：456—461．[32】Hu，M-K，Visualpatternrecognitionbymomentinvariants．IEEETransactionsInformationTheory,1962．8(2)：179-187．[33]LiuDong，HuaXiansheng，YangLinjun，eta1．Tagranking[A]．ProceedingsofInternationalConferenceonWorldWideWeb[C]．Madrid，Spain：ACM，2009：351．360．[34]LiXirong，SnoekCGM，WorringM．Learningtagrelevancebyneighborvotingforsocialimageretrieval[A]．ProceedingsofACMInternational57 基于多标签学习的图像语义自动标注研究ConferenceonMultimediaInformationRetrieval[C]．Vancouver，Canada：ACM，2008：180．187．【35]ZhuangJinfeng，HoiSCH．Atwo—viewlearningapproachforimagetagranking[A]．ProceedingsofACMInternationalConferenceonWebSearchandDataMining[C]．HongKong，China：ACM，2011：625—634．[36]B．MicusikandT．PajdlaMulti—labelimagesegmentationviamax-SHillsolver．InProcessingofCVPR07，2007．[37]J．ChenandC．Tang．Spmio·temporalmarkovrandomfieldforvideodenoising．InprocessingofCVPR07，2007．[38]TsoumakasCtMultilabelclassificationintemationalJournalofDataWarehouSing&Ming，2007，3(3)：12-13．[39]ArakenM．Santos，LauraE．A．SantanaandAnneM．Canuto．AnalyzingClassificationMethodinMulti—labelTasks．Computerscience，2010：137-142[40]SchapireRE，SingerY．Boostexter：aboostingbasedalgorithmformultilabelclassification[C]／／ProceedingsoftheIEEEInternationalConferenceonGranularComputing．Heidelberg：SpringerBerlin，2004：7182721[41】ZhangML，ZhouZH．Aknearestneighborbasedalgorithmformultilabelclassification[C]／／ProceedingsoftheIEEEInternationalConferenceonGranularComputing．Heidelberg：SpringerBerlin，2004：7182721[42】ZhuSH，JIX，XuW,etalMultilabelledclassificationusingmaximumentropymethod[C]／／proceedingsofthe28thAnnualInternationalACMSIGIRConferenceonResearchanddevelopmentSalvador：ACM，2004：2742281[43]ChangChih-Chung，LinChi-Jen．LIBSVM：ALibraryforSupportVectorMachine[EB／OL]．(2010—0l-10)．http：／／www．csie．ntu．tw／-cjlin／libsvm．[44]K．Trohidis，CtTsoumakas，GKalliris，I．Vlahavas，“Multi—labelclassificationofmusicbyemotion”，EURASIPJournalonAudio，Speech，andMusicProcessing．2011：4—6．【45]Read，J．：Aprunedproblemtransformationmethodformulti-labelclassification．InProc．NewZealandComputerScienceResearchStudentConference(NZCSRS2008)．(2008)143—150【46]GrigoriosTsoumakas，IoannisKatakisandIoannisVlahavas，miningmulti—labeldata．dataminingandknowledgediscoveryhandbook，2010，Part6，667-685【47]ReadJ．Aprunedproblemtransformationmethodformultilabelclassification／／ProceedingsoftheNewZealandComputerScienceResearchStudent58 江苏大学硕士学位论文Conference．NewZealand，2008：143-150[48]K．Sechidis，GTsoumakas，I．Vlahavas，“OntheStratificationofMulti．LabelData”／／proceedingofECMLPKDD2011，Athens，Greece，2011．【49]JesseRead，BernhardPfahringer,GeoffHolmes，EibeFrank．ClassifierChainsforMulti-labelClassClassification．MachineLearningJournal．Springer．V01．85(3)，2011．[50]LESKM．Automaticsensedisambiguationusingmachinereadabledictionaries：howtotellapineconefromanicecreamcone[C]／／FifthInternationalConferenceonSystemsDocumentation．Toronto，Canada：ACM，l986：24．26[51】JIANGJJ,CONRATHDW．Semanticsimilaritybasedoncorpusstatisticsandlexicaltaxonomy[C]／／ProceedingsofInternationalConferenceonResearchinComputationalLinguisticsManchester：IEEE，1997：19—33[52】ChangChih-Chung，LinChi-Jen．LIBSVM：ALibraryforSupportVectorMachine【EB／OL]．(2010-01-10)．http：／／www．csie．ntu．tw／～cjlipJlibsvm[53]边肇祺，张学工．模式识别[M]．北京：清华大学出版社，1999．[54]LiXiong，SnoekC．G．M，WorringM．LearningtagrelevancebyneighborvotingforsocialImageretrieval[A]．ProceedingsofACMInternationalConferenceonMulti-mediaInformationRetrieval[C]．Vancouver，Canada：ACM．2008：180．187．59 基于多标签学习的图像语义自动标注研究致谢感谢我的导师朱玉全教授，朱老师渊博的专业知识，严谨的治学态度，平易近人的长者风范都令我终身难忘。与朱老师的相处，让我感到获益匪浅。感谢朱老师这三年来在学业和生活上给予的指导和帮助，让我拥有了一段难忘的经历。值此论文完成之际，对朱老师表示深深的谢意。感谢实验室这几年来所有曾经共同打拼过的学长、同学和学弟学妹们。正是他们才构成了实验室这个团结奋进的大家庭，才使我的学习生活变得丰富多彩，特别是在和你们的讨论和学术活动中，给了我很多有益的启发。虽然没有将他们的姓名一一列出，但对于他们，我心存感激。同时，也感谢我的室友和同学，感谢他们曾经给予我的关怀和帮助。最后，感谢我的父母、姐姐、姐夫以及其他所有亲人对我无私的关心、理解和帮助，他们始终如一的支持给了我莫大的勇气和力量。60 江苏大学硕士学位论文在学期间发表的学术论文及其他科研成果兰浩良、朱玉全、陈庚，一种新的多标签数据集转化方法RAPC．W，计算机应用技术，2013．661

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 70



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

大家都在看

近期热门

基于多标签学习的图像语义自动标注研究

基于多标签学习的图像语义自动标注研究

最近更新

大家都在看

相关文章

相关标签