一种支持语义的视频检索系统研究

ID：33301269

大小：4.24 MB

页数：84页

时间：2019-02-23

上传者：U-22107

资源描述：

《一种支持语义的视频检索系统研究》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

中国科学技术大学硕士学位论文一种支持语义的视频检索系统研究姓名：徐峰申请学位级别：硕士专业：网络传播系统与控制指导教师：郑烇20100501 摘要随着网络技术、多媒体技术的不断发展以及硬件设备功能的不断增强，越来越多的个人用户以及专业媒体公司可以非常方便地制造出包含丰富语义信息的视频数据。这些海量视频数据的出现使得检索出符合用户要求的视频内容变得越来越困难，迫切需要有效的检索手段，从而真正满足用户检索需求，提高检索效率。但由于视频内容具有数据量大，结构复杂，语义信息丰富等特点，使得视频内容的检索成为多媒体检索中最具挑战的部分。传统的检索引擎大多是针对文本数据，且从技术上采用文本匹配的方式，难以适应视频内容的检索任务。基于内容的检索使用低级特征相似度匹配方式进行检索，它充分利用了视频数据的信号层信息，相对于简单的文本检索来说是一种很大的进步，但是给用户带来了很大的负担，他们一般难以选择合适的查询样例，用户希望可以在语义层次上检索视频数据。本文提出一种支持语义的视频检索方式(SemanticSupportedVideoRetrieval，SSVR)，它充分利用视频数据的特点，允许用户输入简单概念，返回语义匹配的视频片段集合。SSVR的主要思想是在视频信号空间和用户思维空间之间建立一个语义层，从而可以准确、快速地检索出用户希望的视频内容。首先，利用视频处理技术提取视频的结构和低级特征信息，在此基础上使用本体和MPEG．7语义描述工具对视频进行标注，从而获取视频内容的语义信息。选择LSCOM中120种典型概念构建索引本体，利用索引本体建立视频内容的语义索引，这些结构化的语义索引存储在原生的XML数据库中，便于进行检索和推理：其次，当用户首次检索时提示用户设置偏好配置文件，这些配置文件可自动更新。利用用户偏好文件和上下文信息解析检索条件，将用户的初始检索要求映射到不同的查询类型并分配相应的权重；最后，利用本体相似度和查询推理算法将用户的检索概念映射到语义索引空间，并将匹配的索引项对应的视频片段描述信息返回给用户，如果用户满意则检索结束，视频流化服务器开始向客户端传输视频数据；如果用户不满意，则对用户的检索条件进行查询重写，并重新进行检索直到用户满意。SSVR可以极大地减轻用户负担，增强用户检索体验；和文本检索、基于内容检索方式相比，SSVR能提高系统的查全率和查准率。关键词：视频检索本体MPEG．7语义索引查询推理 AbstractWiththeprogressofnetworkandmultimediatechnologiesandenhancementinhardwaredevices，moreandmorepersonalusersandprofessionalmediacompaniescanconvenientlyproducevideodatawhichcontainabundantsemanticinformation，theemergenceoflargeamountofvideodatamaketheretrievalofvideoswhichconformtousers’desiremoreandmoredifficulty,andurgentlyneedefficientretrievalmethodtoenhanceretrievaleffect，thustrulysatisfyuser’sretrievalneedandimproveretrievalefficiency,butduetovideos’featurewhichincludealargenumberofdata，havecomplicatedstructureandluxuriantsemanticinformationandSOon，videosretrievalhasbecomethemostdefiantpartamongthemultimediainformationretrieval．Traditionalsearchenginesmostlyfocusontextretrievalandadoptthetextmatchingtechnology,thustheyCan’tfulfillvideossearchtaskwell．Content·Basedvideoretrievalmethodsmake，useofvideos’low—levelfeaturematchingstyletofinishthesearchtask，theyaremoreadvancedthantextretrievalmethods，buttheyimposemoreburdensonusers，commonUSerSalwaysfinditdifficulttoselecttheproperexampletolettheretrievalengineworkwell．theyprefertoretrievalvideodatainthesemanticlevel．ThearticlestudiesoneSemantic—SupportedVideoRetrieval(SSVR)method，itfullyusesvideosfeature，allowsuserinputretrievalconditionintheformofsimpleconcepts，andgivebackvideosegmentswhichmatchthesemanticofUSer’Sinput．ThemainideaofSSVRiStobuildthemiddlesemanticlayer,thusCanaccuratelyandquicklyfindthevideoswhichconformtouse’sneed．Firstly,adoptvideoprocessingtechnologytogetvideos’structureandlow—levelfeatureinformation,onthisbasis，makeuseofOntologyandMPEG-7toannotatevideodata，thusgetthesemanticinformationofthevideos．Choosingthe120conceptsfromLSCOMandconstructingOntologyforindexing，thenCanmakeuseofindexingOntologytobuildsemanticindexforvideos，thesestructuredsemanticindexarestoredinnativeXMLdatabase，andCanberetrievedandinferredeasily．Secondly,whenfirstusethesystem，itwillremindtheusertosetuptheUSerpreferenceprofile，thisfileCanbeupdatesautomaticallySystemCanutilizetheprofileandcontexttoresolveUSer’Sretrievalcondition，maptheinitialsearchconditiontosomesearchclassesandgiveeachofthemproperweightvalue．Atlast,makeuseofOntologysimilarityandinferringIII AbstractalgorithmstomaptheUSe／"retrievalconcepttosemanticindexspace，andsendthematchingcontenttotheuser,ifuserssatisfytheresult，thenvideostreamingserverbeginstotransportthecontent,ifnot，searchenginewilloverwriteuser’sinputconditionandagainsearchuntilusersatisfies．SSVRcanalleviateUSerS’burden，thusgiveusersSatisfyingretrievalexperience；whenComparedwithText．BasedretrievalandContent．Basedretrievalstyle，SSVRcanincreasesystem’Sprecisionandrecallwell．KeyWords：videoretrieval，Ontology,MPEG一7，semanticindex，searchinferringIV 中国科学技术大学学位论文原创性声明本人声明所呈交的学位论文，是本人在导师指导下进行研究工作所取得的成果。除已特别加以标注和致谢的地方外，论文中不包含任何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做的贡献均已在论文中作了明确的说明。作者签名：丕玺出荤签字同期：盖迓当≤二L中国科学技术大学学位论文授权使用声明作为申请学位的条件之一，学位论文著作权拥有者授权中国科学技术大学拥有学位论文的部分使用权，即：学校有权按有关规定向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅，可以将学位论文编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。本人提交的电子文档的内容和纸质论文的内容相一致。保密的学位论文在解密后也遵守此规定。广田公开口保密(——年)作者签名：导师签名．豸噬第1章绪论本章首先介绍本文的研究背景以及国内外相关研究的现状，接着分析了本文的研究动机、目标以及主要的研究内容，最后给出全文的结构安排。1．1研究背景视频数据包含了非常丰富的信息，它可以将音频、视觉和文本信息进行同步，从而使得它们可以通过协作共同表达语义信息，这使得很多应用都采用视频的形式来记录和表示数据。各种数字终端设备的出现使得制造视频内容变得越来越简单和方便，同时各种存储(Lutwycheetal，2000)和分发技术(SujataBanerjeeetal，2003；DongyanXuetal，2004)的成熟以及互联网的不断发展都为视频数据的快速增长创造了客观条件。很多专业媒体公司可以7*24小时不间断制造视频内容，同时广大的互联网用户也可以使用数码相机等普通设备制造和上传视频。视频数据的指数增长使得海量视频数据正加速出现在我们的周围，这给广大的普通用户带来了巨大的挑战，他们难以准确、快速地检索到自己需要的视频数据。为了改善用户的检索体验，提高视频资产的使用效率，迫切需要增强对视频数据的处理能力，尤其是基于互联网的视频检索能力。传统的基于关键字匹配的检索方式难以适应海量视频检索要求，这主要是因为：(1)关键字包含的信息可能具有不确定性，缺少明确的语义约束；(2)用户通常并不很清楚自己的检索需求，因而输入的关键字过于宽泛，不能表达出真正的检索意图；(3)检索引擎不能充分利用视频的结构、内容和语义信息，只是对元数据进行简单匹配。传统的基于内容的视频检索方式(Content．BasedVideoRetrieval，CBVR)相对于基于关键字匹配的检索方式来说是一种很大的进步(HongjiangZhangetal，2002；徐建华，2000)，它可以对视频内容进行分析，抽取出视频的低级特征，用户检索时输入样例，系统返回和样例在特征上超过一定的相似度阈值的内容。但是在实际的应用中，CBVR的效果也不是很理想，主要原因在于：(1)用户难以提供合适的样例；(2)系统采用基于低级特征相似度匹配的方式进行检索，但是低级特征和高级语义概念间缺少直接的映射方式，这就是所谓的“语义鸿沟”ShankarVembuetal，2006；Smeulders，2000)，导致检索的结果通常与用户的需求相差甚远。为了克服传统检索方式的不足，使用户可以从海量视频数据中快速检索和过滤信息，系统需要支持语义级别的视频检索。首先需要对视频数据进行有效的分析与处理，充分挖掘视频中包含的结构、内容、语义以及元信息；其次需要以一1 第1章绪论种标准的模型来描述这些信息(Bloehdorn，2004；Calicetal，2005)，使得可以高效地共享、重用这些描述信息，同时支持知识推理；接着需要将描述模型映射到索引空间，建立语义索引，并能够根据不同系统的目标调整索引空间；最后需要建立有效的检索模型，它赋予用户定制系统的能力，可以充分挖掘用户的检索意图，并可以有效地完成从用户查询空间到索引空间的映射。视频分析与处理的任务主要包括视频镜头分割、关键帧以及相应特征提取等，这是进行视频语义检索的基础。镜头分割的目标是将视频分割成镜头的集合，可以采用基于镜头边界检测的方式来进行，具体算法包括模板匹配法(HaitaoJiang，1998)、直方图法等。关键帧提取的目标是获取镜头中代表性的帧，可以采用基于运动分析的提取算法(WolfWayne，1996)，基于图像信息差异性的提取算法(Zhangzetal，1997)，基于镜头活动性信息的提取方法(Gresleetal，1997)等来获得关键帧。特征提取的任务包括视频的低级特征和语义特征的提取，视频的低级特征一般采用自动的方式来获得，语义特征可以采用机器学习(Y．Songetal，2005；Snoeketal，2005)的方式来自动提取或者手工标注的方式来获得。“多媒体描述接口”(MultimediaContentDescriptionInterface，简称MPEG．7)是运动图像专家组(MovingPictureExpertsGroup，MPEG)制定的一个国际标准，采用统一的架构来管理各种多媒体内容，包括音频、视频、文本、3．D图像等，得到了广泛的应用。MPEG．7提供了一整套强大的工具来描述多媒体数据的结构、内容、语义以及元信息，包括描述定义语言(DescriptionDefinitionLanguage，简称DDL)，描述符(Description，简称D)，描述方案(DescriptionSchema，简称DS)等。基于MPEG．7来描述和管理视频数据的优势主要体现在两个方面：(1)MPEG．7描述能力强大■可职充芬砸孺阿弗随赡辩酐瞬暂阿盲惠、内容信息、语义信息以及元信息；(2)MPEG．7支持共享和协作，这是标准的优势所在，非常适合在因特网这样的开放环境中共享多媒体描述信息。MPEG．7的DDL建立在XMLschema(XSchcma)基础上。XMLSchema在结构定义、集合描述以及数据类型的定义、约束方面都具有非常强大的能力，但是它缺少语义描述能力。DDL继承了XMLSchema的优点，同时在语义描述方面能力不足，导致会出现语义模糊的情况，即“同一概念有多种词汇表示；同一个词汇有多种概念含义"。本体(Ontology)等语义网技术(StephenDilletal，2003)可以弥补MPEG．7语义描述能力不足的缺点，可以用来进行语义消歧、知识推理。本体论起源于哲学领域，它在计算机科学中有其特殊的含义，其中比较正式的定义由T．R．G／'l／ber提出、后经R．Studer改进，即：一个本体是·个概念体系的显示的形式化规范2 第1章绪论(史树敏，2008：艾丹祥，2004)。本体的目标是捕获相关领域的知识，提供对该领域知识的统一理解，确定该领域内共同认可的概念，并从不同层次的形式化模式上给出这些概念之间明确的关系定义(M．Bunge，1977)，这样可以明确消除语义的二义性。本体描述语言OWL(WebOntologyLanguage，OWL)具有强大的建模能力，可以表达非常丰富的语义信息，可以定义推理规则，非常适合进行知识的推理。基于本体的检索技术是一个新的研究热点(Eeroetal，2003)，可以提高系统的检索能力。本文构建了一种支持语义的视频检索系统(Semantic．SupportedVideoRetrievalSystem，SSVRS)，它在传统视频处理技术的基础上构建了领域本体来辅助获取视频语义信息，使得标注更加精确，标注的结果可以很容易地进行推理以及共享；定制了MPEG．7，使得描述的信息更加适合语义检索，并在此基础上建立了语义索引：建立了用户交互模型，使得用户可以非常方便地按照自己的喜好来定制系统，同时检索系统也可以根据交互模型来分析用户的潜在需求：在系统中引入规则和本体相似度，增强了系统的推理和检索能力。SSVRS可以完成语义级的视频检索任务，极大地增强了用户的检索体验。1．2国内外相关研究Jain(1994)指出人们使用视频数据的主要用途包括娱乐、获取信息、信息交流以及进行数据分析等。不同用户的需求相差甚远，比如为了娱乐目的可以检索整部视频；为了分析特定的事件，比如比赛中的得分，则更希望检索出相关的视频片段。检索整部视频往往只需要一些元信息，采用基于关键字匹配的检索方式即可，但是检索特定的视频片段要复杂的多，它需要检索引擎理解视频的含义，这就需要检索系统可以克服“语义鸿沟”。“语义鸿沟"产生的原因在于视频低级特征和高级语义概念间缺少明确、直观的映射方式。为了突破“语义鸿沟’’，支持语义级的视频检索，国内外的相关研究机构和公司进行了大量、深入的研究，常用的方法是建立一个中间概念层(Naphadeetal，2004)，并将低级特征映射到概念层，借助概念层可以显著提高视频检索效果并且通常只需要3000个左右的概念即可(Hauptmannetal，2007)。从低级特征到概念层的映射方式主要有两种：(1)人工标注，即利用人的先验知识将低级特征和高级语义进行关联，这种方式需要花费大量的人力，并且对人的背景知识和标注能力要求很高，专业人士和业余标注者的标注效果相差很大(S．A．Golderetal，2006；M．Guyetal，20061K．K．Matusiak，2006)，但是它可以显著提高视频检索的效果(D．A．Shamrnaetal，2007)．；(2)基于机器学习的自动标注，它通过对样本的低级特征进行学习建立3 第1章绪论概念分类器来将概念和低级特征相关联，然后利用这些概念分类器去自动识别新输入的视频片段(Olivaetal，2001；Yavlinskyetal，2005)，达到标注的目的。这种方式的优点在于一旦分类器训练完成，可以极大地减少标注的工作量，但是分类器的训练需要花费大量的机器时间，并且概念分类器的准确度也很低，目前只在特定的领域取得较好的效果。另外一些学者尝试从改进检索手段的角度来提高系统的性能，并且已经研制出大量性能良好的系统，这些研究的重点在于视频内容的处理、交互式操作以及多模态检索方面。如都柏林城市大学(DublinCityUniversity，Ireland)研制的FisChl瓣Tv(Fischl小Tv)，该系统基于Web，支持视频节目的录制、检索、播放等功能，并提供个性化以及视频节目推荐等服务，它最大的特点在于提供交互式的检索方式，可以分析用户的行为，挖掘用户的潜在需求。哥伦比亚大学的CuZero(CuZero)也是一个出色的交互式视频检索系统。荷兰阿姆斯特丹大学智能系统实验室(IntelligentSystemsLabAmsterdam)丌发了mediamill(mediamill)视频检索系统，该系统主要包括图像视频处理，计算机视觉，语言学，机器学习，信息视觉化等多学科技术，结合了文本查询，语义检索等技术组建检索模块，达到了较好的效果，它最大特点在于采用多模态的检索方式，并可以根据检索的结果自动调整权重，进行结果的融合。哥伦比亚大学的语义视频检索引擎能够在海量新闻广播视频上进行多模态的语义检索，该系统最初是为了评价TRECVID2005测试基准而研制，后来包括了大量的的视觉概念探测器，该系统综合利用各种特征，针对每种特征采用最佳的检索技术来达到多模态的语义视频检索目标。为了鼓励在多媒体检索领域进行深入研究，NIST(NationalInstituteofStandardsandTechnology，NIST)资助了TRECVID(TextRetrievalConferenceVideoRetrievalEvaluation，TRECVID)，它提供实验数据和评估标准，每年有大量研究机构的视频检索系统参与TRECVID的任务。ACMInternationalConferenceonImageandVideoRetrieval(CIVR)、VideOlympics(VideOlympics)等也是多媒体检索领域非常著名的会议。这些都极大促进了视频检索技术的发展。本文构建了视频本体和体育领域本体并使用LSCOM(Large-ScaleConceptOntologyforMultimedia，LSCOM)中120种典型的概念来构建索引本体，建立语义索引；建立用户交互处理模型，增强用户与系统的交互能力，让用户可以定制系统的行为并提供相关反馈；通过基于用户交互模型以及本体的查询扩展、查询重写可以动态地分析用户的需求，完成从用户需求空间到语义索引空间的映射，提高系统的查全率；通过基于本体相似度和用户的偏好设置来对检索结果进行过滤和排序可以提高系统的查准率。4 第1章绪论1．3研究动机和目标1．3．1研究动机海量视频数据的出现给视频检索带来了极大的挑战，传统的检索技术己无法满足用户的视频检索需要，导致了视频数据的利用率不断下降，其主要原因在于：(1)视频数据量大、信息丰富，通常一部电影就有几百兆，视频中的语义信息难以提取和描述；(2)机器只能理解视频的低级特征信息，不能将这些低级特征信息和用户概念空间中的语义信息自动关联；(3)用户真实需求难以捕捉，有时用户自己也不清楚自己的需求；(4)视频检索引擎缺少推理能力，只能进行基于关键字的全文匹配或者基于低级特征的相似度匹配。为了提高视频资产的使用效率，增强用户的检索体验，SSVRS致力于解决导致视频使用率下降的四个原因，具体包括：(1)利用成熟的视频处理技术(包括镜头分割、关键帧提取以及低级特征提取)来获取视频的结构信息以及低级特征信息，并通过构建领域本体来标注关键帧和复杂事件，提取视频中的语义信息，最后使用经过定制的MPEG一7来描述这些信息；(2)采用LSCOM中120种典型的概念作为索引项，并明确这些概念间的语义关系，然后使用它们来建立视频语义索引，并采用结构化的方式来组织这些索引。用户检索时，检索引擎将用户概念空间中的信息和索引空间中的概念进行匹配，不需要检索引擎判断概念和低级特征间的关系；(3)建立用户交互模型，它可以让用户定制系统，同时系统也可以借助用户交互模型更好地分析和挖掘用户的需求；(4)检索引擎采用本体和规则进行知识推理，可以检索出在语义上相近的内容，如要求检索“美国总统”演讲的视频，SSVRS可以检索出“奥巴马”演讲的视频。1．3．2研究目标本文从制约视频检索引擎的四个因素开始进行研究，建立视频内容分析模型来提取、描述和组织视频内容的各种信息；建立用户交互模型赋予用户定制系统的能力，系统也可以使用交互模型来分析用户的检索意图；建立语义检索模型，使用基于推理和本体相似度的检索方式来提高系统的查全率和查准率。具体的研究目标如下：(1)分析视频数据的特点，利用视频处理技术自动提取视频中结构信息和低级特征信息(包括颜色、纹理、形状等)；定制MPEG．7，明确描述工具的语义和使用的限定条件，使其更加适合视频语义检索的需要；采用prot696(prot696)构建视频本体和体育领域本体，利用这些本体5 第1章绪论来对视频的关键帧和复杂事件进行标注，提取出其中的语义信息并明确这些语义信息间的关系；使用LSCOM中120种概念典型概念构建索引本体，从而建立视频语义索引，并采用结构化的方式来描述这些语义索引。可以根据不同系统的目标来建立相应的语义索引，即一个视频描述文件可以对应若干个语义索引文件；视频的描述文件和索引文件存储在原生的XML数据库OracleBerkeleyDBXML(OracleBDB)中，使用XQuery(XQuery)进行检索；(2)用户可以通过用户交互模型来定制检索偏好，包括查询／过滤偏好以及浏览／观看偏好，用户通过这些偏好信息可以控制检索系统的响应行为；系统可以记录用户的检索历史并使用这些信息分析用户的检索条件，挖掘出用户的潜在需求，从而实现查询的扩展和重写；用户交互模型可以将用户的检索历史信息自动映射到用户偏好描述中，从而实现用户偏好描述的自动更新；(3)建立语义检索模型，将用户的输入映射到相应的查询类别中，根据不同的查询类别选择最佳的查询方式；在语义索引空间中，利用规则和JENA的查询推理能力将查询类别和语义索引相关联；根据本体相似度以及用户偏好对查询结果进行过滤和排序。1．4本文主要研究内容本文分析了视频语义检索系统需求并设计了一种支持语义的视频检索系统架构，主要包括视频内容处理、用户交互式操作以及和视频语义检索三个部分。视频内容处理部分主要包括本体的构建、视频语义信息的获取以及视频语义索引的建立。用户交互操作部分主要包括用户对系统的定制操作以及用户定制信息的自动更新处理。视频语义检索部分主要包括用户查询意图的解析与扩展，基于本体规则的查询推理以及基于用户偏好和本体概念相似度的过滤与排序。1．5论文结构本文内容结构安排如下：第一章为绪论，首先介绍了论文的背景和国内外相关研究现状，接着分析了研究的动机和目标，最后给出了本文的主要研究内容和结构安排。第二章详细分析了视频语义检索系统需要的关键技术和标准，主要包括MPEG．7、Ontology、OWL、JENA(Jena)、SPARQL和XQuery。6 第1章绪论第三章分析了视频语义检索系统的需求并提出了一种支持语义的视频检索系统架构，接着详细地研究了视频内容处理模型，主要包含视频语义标注和视频语义索引构建。第四章构建了用户交互模型，研究了用户检索偏好和检索历史信息的作用以及用户偏好信息的自动更新算法。第五章研究了视频语义检索模型，主要包含用户查询意图的解析，查询的映射与推理以及基于本体相似度和用户偏好信息的过滤与排序算法。第六章对全文进行总结并给出了下一步继续研究的方向和思路。7 第2章视频语义检索相关技术研究2．1多媒体描述接口2．1．1MPEG．7概述随着多媒体数据的不断增长，查询、过滤和管理多媒体数据变得越来越困难：为了应对多媒体数据的指数增长带来的挑战，需要建立有效的模型来描述多媒体数据，MPEG．7因此而诞生。MPEG．7提供了DDL来定义MPEG．7文档的结构和内容信息，并且提供了丰富的描述符和描述方案，具有强大的描述能力。2．1．2定义描述语言DDL是一种Schema语言，它构建在XMLSchema的基础之上，主要作用包括：(1)定义MPEG．7的描述符和描述方案的语法、结构以及取值约束：(2)定义元素在描述方案内或者描述方案间的结构关系、继承关系、空间关系、时间关系、时空关系以及概念关系；(3)提供丰富的模型来关联描述信息和原始的多媒体数据，描述信息是符合特定DS的XML文档，独立于具体的平台，对机器和人均具有良好的可读性；(4)指定描述符的数据类型，包括基本的类型(整型，文本，日期，时间)和复合类型(柱状图，枚举)；(5)它在XMLSchema的基础上进行了扩展，增加了矩阵和数组类型以及baseTimePoint和baseDuration；(6)赋予用户定制适应特定应用领域的描述符和描述方案的能力。2．1．3多媒体描述方案DS可以是原子的，也可以通过聚合D和DS而形成。多媒体描述方案(MultimediaDescriptionSchema，MDS)是MPEG-7标准的重要组成部分，在SSVRS中具有重要的作用。它的主要组成部分如图2．1所示：9 第2章视频语义检索相关技术研究图2-1MDS组成MDS的核心部分是基本元素，它包含了一系列的描述工具，可以描述多媒体内容的时间、链接、媒体位置、标注等信息，并且可以定制描述的术语；它也是MDS其他部分的基本组成部分。基本元素包含了Schema-I-具、基本工具、基本数据类型以及链接和媒体位置描述工具。和其他基本元素的作用不同，SchemaT具的作用不是描述多媒体内容信息，而是验证和管理这些描述信息，一个合法的MPEG．7描述文件必须包含根元素和顶层元素。根元素是Mpe97，它封装了整个描述信息，并规定了描述模型。在MPEG．7中有两种合法的描述模型：完全描述(completedescription)和描述单元(descriptionunit)，它们对应的标签分别是Description和DescriptionUnit，在SSVRS中，我们使用完全描述模型来描述视频信息。在完全描述模型中，顶层元素是作为根元素的直接子元素出现的，它的作用是根据不同的描述任务选择描述工具，在MPEG．7中主要有三种类型的描述任务：(1)内容实体信息描述；(2)内容抽象信息描述；(3)内容管理信息描述。内容实体信息描述提供描述多媒体内容实体信息的模型，这些实体信息包括：图像、视频、音频以及多媒体文档集合等。内容抽象信息描述提供模型来描述多媒体内容的概要信息、图像的不同视角信息、音频和视频的信号信息以及多媒体内容的语义信息等。内容管理信息描述提供模型来描述一些通用的管理任务，包括多媒体的创建信息管理、多媒体内容的分类信息管理、多媒体内容的使用信息管理以及用户的使用信息管理。根元素和顶层元素的关系如图2．2所示：10 第2章视频语义检索相关技术研究图2-2MPEG．7根元素和顶层元素内容实体元素组织结构如图2．3所示：图2-3内容实体元素结构内容抽象元素组织结构如图2-4所示：图2-4内容抽象元素结构ll 第2章视频语义检索相关技术研究内容管理元素组织结构如图2-5所示：图2．5内容管理元素结构MDS基本元素中提供的链接和定位描述工具将MPEG．7描述文件和多媒体数据进行关联映射，这样可以从描述文件中直接定位到相应的多媒体内容。在SSVRS中，检索引擎从视频描述文件服务器中检索出符合用户要求的视频描述信息并提取出其中的链接和定位等信息，然后将这些信息提交给视频流化服务器，视频流化服务器根据链接和定位信息选择合适的视频片段进行流化，然后向客户端传输这些流化数据。MPEG．7提供了两种方式将描述文件和媒体信息进行关联：(1)通过媒体的唯一标识符UID来关联；(2)通过媒体定位工具来关联，MPEG．7中共有三种类型的媒体定位工具，分别是通用的MediaLocator，它使用URI来指向媒体数据或者直接包含媒体数据，URI与UID不同，它不是一个标识符，而是媒体数据的物理位置；TemporalSegmentLocator，它在时序媒体(如视频、音频)中定位视频片段(如场景、镜头)；lmageLocator，它可以在视频中定位图像或者帧。为了播放视频片段，需要知道视频片段的起始时间和持续时间，MPEG．7提供了两种类型的时间：(1)多媒体内容中的时间；(2)真实世界中的时间，这两种时间的表示方式基本相同，真实世界中的时间一般需要加上时区信息。视频片段的起始时间点用mediaTimePoint来表示，它的格式是：-YYYY-MM．DDm：mm：ss：nFN，其中Y表示年，M表示月，D表示天，T是一个分割符，h表示小时，m表示分钟，s表示秒，N表示将1秒等分成N个片段，n表示片段的个数。视频片段的持续时间用mediaDuration来表示，它的格式是：PnDTIlHnMnSnNnF，其中P表示时间段的开始，T是分割符，其余同mediaTimePoint。在mediaTimePoint和mediaDuration的基础上，MPEG．7定义了三种类型的时间表示：(1)SimpleTime，它的时间点采用绝对时间表示；(2)12 第2章视频语义检索相关技术研究RelativeTime，它设置了～个时间参考点，其它时间点用它们和时间参考点之间的时间位移来表示；(3)IncrementTime，它规定了时间单元的长度，其它时间点用它们和参考点之间的时间单元个数来表示。MDS基本元素定义了一个基本的抽象类型层次结构来管理描述符和描述方案。在MPEG7中，任何类型均直接或者间接继承自Mpe97BaseType，它的直接子类包括HeadType、DSType和DType。DSType的子类包括VisualDSType和AudioDSType，任何视觉和音频描述方案都是VisualDSType和AudioDSType的子类。DType的直接子类包括VisualDType和AudioType，任何视觉和音频描述符都是VisualDType和AudioDType的子类。这个类层次如图2．6所示：图2．6MDS抽象类层次结构MDS基本元素中的基本工具是其它描述方案和数据类型的基本构造单元，它主要包含图和关系描述工具、文本标注工具、分类方案和术语工具、代理描述工具、情感描述工具和排序描述工具。关系和图可以用来构造复杂的描述结构，其中关系是一个有向图，它的类型在Classification方案中用Term进行定义，可用四元组(source，target，strength，type)来表示；图可用(V，E)来表示，V代表节点集合，E表示关系集合。文本标注是指利用自然语言来描述多媒体内容，MPEG．7提供四种类型的文本标注工具：(1)自由文本标注(FreeTextAnnotation)，它使用普通文本信息来标注，不便于机器处理；(2)关键字标注(KeyWordAnnotation)，它使用关键字集来标注，便于机器处理，但是失去了关键字之间的结构信息；(3)结构化标注(StructuredAnnotation)，它具有自由文本标注的简单性和关键字标注的表达能力，并且能够保持标注文本的结构信息；(4)依赖结构标注(DependencyStructure)，它基于dependencygrammar理论(Michael，2001)，提供了强大的描述工具来表示标注文本的语法结构。分类方案(Classificationschema)可以为不同的应用领域定义专用的术语，如定义视频的流派和格式方面的术语，它用domain属性指定应用领域，在一个分类方案中可以使用URI来导入其他的分类方案。ClassificationSchema规定了术语的定义和使用信息，其中TerrnDefinition用来定义术语(标识符、名称和说明信息)；TermUse和ControlledTermUse用来说明如何使用术语；href用来导入已经定义13 第2章视频语义检索相关技术研究好的ClassificationSchema。在MPEG．7中，代理包括：人(真实的或者虚构的人)、组织以及人的集合，分别用PersonType、OrganizationType和PersonGroupType来表示。情感描述工具可以用来为每个视频片段打分(分数在．1和l之间)，分数反映了观众对多媒体内容的喜爱程度。排序描述工具可以指明如何对多媒体片段进行排序，如下面的xml片段表示：按照摄像头移动次数降序排列一个视频信息中的视频片段集合。<／OrderingKey>在SSVRS中为了管理视频数据，获取视频描述信息，使用了内容管理、内容结构、内容语义方面的描述工具并根据系统需要对MPEG．7做了适当的剪裁。内容管理工具描述了多媒体内容的创建、媒体和使用信息，它的组织结构如图2．7所示：14图2．7内容管理组织第2章视频语义检索相关技术研究内容结构工具用来描述多媒体内容的分段、段的属性以及段之间的关系，它包括段实体描述工具、段属性描述工具、段分解描述工具和结构关系描述工具。段实体描述工具主要包括：StillRegionDS(描述图像的空间区域或者视频帧)、VideoSegrnentDS(描述视频内容以及视频内容按时间分段的信息)、ImageTextDS(描述帧或图像中出现的文字信息)、VideoTextDS(描述视频内容中出现的文字信息)、AudioVisualSegrnentDS(描述影音内容以及它们按时间分段的信息)、．MultimediaSegmentDS(描述多媒体内容及其分段信息)、ShotDS(描述通过全局转换得到的视频片段信息)、AudioSegrnentDS(描述音频内容以及音频内容按时间分段的信息)和GlobalTransitionDS(描述视频内容的全局转换信息)。段属性描述工具包括：CreationlnformationDS(描述多媒体的创建信息)、MedialnformationDS(描述多媒体内容的媒体信息)、SemanticDS(描述语义信息)、TextAnnotationdatatype(描述段的标注信息)、MatchingHintD(描述段的匹配线索)和PointOfViewD(描述段的不同视角)。段分解工具主要包括：Stillregiondecomposition(描述静态图像在空间上的分解)、Movingregiondecomposition(描述运动区域的在时间、空间和媒体上的分解)、Audiosegmentdecomposition(描述音频段在时间和媒体上的分解)、Audio．visualsegmentdecomposition(描述影音内容在时间、空间和媒体上的分解)、Multimediadecomposition(描述多媒体数据在媒体上的分解)和Shotdecomposition(描述按照镜头来分解多媒体数据)。结构关系描述工具主要包括：TemporalRelationCS(描述内容实体在时间上的关系)和SpatialRelationCS(描述内容实体在2．D空间上的关系)。内容语义工具描述信号空间中的信息在语义空间中的表示，主要包括对象、事件、概念、语义时间和语义地点等描述。SSVR系统的目标是在语义级别上检索视频信息，挖掘视频数据的语义信息是进行语义检索的前提。MPEG．7提供一系列的工具来描述多媒体内容的语义；它们的关系如图2．8所示：图2-8语义描述工具结构15 第2章视频语义检索相关技术研究语义描述工具可以分成三类：(1)语义实体描述工具；(2)语义属性描述工具；(3)语义关系描述工具。语义实体描述工具继承SemanticBaseDS，包括对象、事件、语义概念、语义状态和语义地点等描述方案。SemanticBaseDS包含了语义实体共有的一些特性，包括：标签，可用于类别查询；文本描述、属性、媒体的链接和描述：语义实体间的关系。对象和事件DS可以嵌套使用，它们用来描述可被感知的语义实体，这些对象和事件实体可以在真实世界中存在或者发生。语义时间和语义地点DS分别描述了真实或者虚构的时间(时间点或者时间段)和地点信息，它们一般和事件相关联。语义状态DS描述在人的概念空间中特定的时间和地点下语义实体的属性，它还可以刻画语义实体的状态变化。2．1．4主要的视觉描述符颜色描述符包括：ColorSpace(D)、DominantColor(D)、ScalableColor(D)、GroupofFrames(D)、ColorStructure(D)和ColorLayout(D)。纹理描述符包括：HomogeneousTexture(D)、TextureBrowsing(D)和EdgeHistogram(D)。形状描述符包括：Region-BasedShape(D)、Contour-BasedShape(D)和3一DShape(D)。运动描述符包括：MotionActivity(D)、CameraMotion(D)、MotionTrajectory(D)和ParametricMotion(D)。2．2语义网相关技术2．2．1I①F(S)资源描述框架(ResourceDescriptionFramework，RDF)数据是一个三元组(Subject，Predicate，Object)，其中Subject是一个Resource，它可以用URI来表示，也可以是一个空节点(用：表示)；Object可以是一个Resource或者常量(用literal表示)；Predicate是一个属性，它是连接Subject和Object的边的标签。RDF数据可以使用多种语法表示，如RDF／XML、Turtle(Turtle)、N．Triples、Notation3等，其中Turtle语法使用最频繁，它也是SPARQL的基础。在RDF数据中，可以用a代表rdf：type，表示IS．A关系。假设张三个人信息描述如下：主页http：／／www．zhangsan．com；电话1585695****；他知道李四和王五的信息，http：／／www．1isi．com／foaf．rdf是李四信息的URI，http：／／www．wangwu．com／foaf．rdf是王五信息的URI，那么可以很容易用rdf描述张三信息，如图2-9所示：16 第2章视频语义检索相关技术研究图2-9张三信息的RDF描述RDFSchema(RDFS)是对RDF的扩展，描述能力更加强大。它在RDF的基础上增加了rdfs：subClassOf、rdf：subPropertyOf、rdfs：domain、rdfs：range、rdfs：Class，rdfs：Resource、rdfs：Literal，rdfs：DataType，Rdfs：Label，rdfs：comment，可以表示资源和属性的简单分类和类层次关系，并可以为属性指明domain和range限制。2．2．2OWLOWL在RDFS的基础上提供了极其丰富的工具箱来描述类的属性和关系，它提供了大量的属性来准确描述两个类之间关系的特点。OWL的主要目标是为本体的语义描述打下坚实的基础，使推理引擎能够对数据进行自由演绎。OWL可用来定义领域模型中的共享概念即本体，它在RDFS的基础上增加了owl：equivalentClass，owl：equivalentProperty，owl：sameAs，owl：inverseOfIowl：TransitiveProperty、owl：SymmetricProperty、owl：Restriction、owl：FunctionalProperty、owl：InverseFunctionalProperty、owl：ObjectProperty、owl：hasValue、owl：onProperty等，增强了对领域知识建模的能力。本体抽象出了领域中的知识和规则，它明确了概念、属性的含义以及它们之间的关系，促进了对知识的理解和共享。本体具体可以分为通用本体和领域本体，通用本体抽取出众多应用领域共有的概念和关系，可以作为领域本体的基础；领域本体对特定的应用领域建模，它构建在通用本体的基础上，描述特定领域内的知识，如足球领域本体可以描述球队、球员、比赛事件等各种信息。OWL可以分为OWLLite、OWLDL和OWLFull，它们的功能依次增强，其中OWLDL使用最频繁。OWLDL的属性和对应的FOL(first．orderlogicaxioms)描述的关系如表2．1所示：17 表2-1OWL和FOL关系OWL属性公理FOL描述．Prdfs：domainC坛，Y．p(x，y)3C(x)Prdfs：rangeCPowl：inverseOfP’Vx,y．P(x，y)暑P’(y，x)Paowl：SymmetricPropertyVx，y．P(x，y)亍P(Y，x)Paowl：FunctionalPropertyVx,y，z．P(x，Y)^P(x，Z)3y=zPaowl：InverseFunctionalPropertyVx，Y，z．P(x，Y)^P(z，J，)3x=ZPaowl：TransitiveProperty’Vx，Y，z．尸(而y)^P(y，z)3p(x，z)owl：Thingx=xowl：Nothing工=—Ⅸowl：intersectionOf(C1，C2⋯。Cn)CI(石)^⋯e(x)owl：unionOf(C1，C2⋯．．Cn)CI(x)v⋯G(x)owl：complementOf(C1，C2⋯。Cn)owl：oneOf(CI，C2⋯．．Cn)1C(工)X201V⋯VX20nOWl：restriction(Powl：someValueFrom(C))3y．P(x，y)人C(J，)OWl：restriction(Powl：allValueFrom(C))Vy．P(x，J，)]C(J，)OWl：restriction(Powl：value(O))P(x，D)owhrestriction(Powl：minCardinality(n))^owl：restriction(Powl：maxCardinality(n))砂l。∥。，^P(x，Y^)^^J，f≠Y，k=li20 第2章视频语义检索相关技术研究{$resulVtitle}<／title><url>{$result／MediaLocator}<／url><／result>该表达式检索视频描述集videosl中所有出现“阅兵"的镜头，返回镜头的标题和镜头数据的位置。XQuery支持用户自定义查询函数，将频繁的查询任务写成经过优化的函数，可以极大提高系统的响应速度。自定义函数的格式为definefunction函数名(参数)f函数体)。用户自定义函数实例如下所示：declarefunctiondepth($node){if($node-kind()=“document'’)then0elsel+depth($node／．．))max(for$xindoc(video．xml))／／*retumdepth(Sx))该函数的作用是返回video．xml构成的树的最大高度。2．2．5ReasoningEngine规则和本体一样重要，它可以推理出本体中没有明确表示出来的知识，在本体中加入规则，将会极大地提高本体的建模能力。目前存在很多规则描述语言，如Jena、KAON2、Pellet(Pellet)、Oraclelg、HD．rules等。Jena是HP实验室开发的开放源码的JAVA框架，被广泛用于开发语义网应用，它为RDF／RDFS、OWL、SPARQL提供了一个编程环境，同时包含了一个基于规则的推理引擎。Jena的推理子系统是可插拔的，它可以集成不同的推理引擎，如RDFS推理引擎、OWL推理引擎等。Jena推理机制如图2．12所示：一图2-12Jena推理机制应用程序使用ModelFactory将dataset和reasoner关联在一起来构建一个新的model，查询在这个model上进行，结果不仅返回原始数据中存在的信息，还可以返回从原始数据中推理出的信息。ReasonerAPI利用buildSchema调用将一系21 第2章视频语义检索相关技术研究列的schema或者本体数据和reasoner绑定，然后reasoner可以利用build调用访问实例数据。ReasonerRegistry是一个静态类，可以在推理机集合中选择合适的推理机并创建其实例。Jena中存在许多预定义的推理机，包括：Transitivereasoner、RDFSrulereasoner、OWLreasoner、Genericrulereasoner等，它还支持动态加入新的推理机。Pellet是_二个基于JA：VrA的开放源码的功能强大OWLDL推理器，它可以被集成到Jena中。Pellet主要具有以下特点：(1)本体分析和修复；(2)集成ABox查询；(3)数据类型推理；(4)利用E．Connections进行多本体推理。Pellet的架构如图2．13所示：?‘o‘_”；I曩：i”7：．‘’’’“-’。‘．RDF，XMLParser黟?珂”鞴吾爵怯n磊t。to”n一'&．C)11tologyRepair7'Z。‘”／。7。7瓣TBoxTAbsorption：撞Hf磊忑磊≯睦一IRZ：‰，2．3本章小结”A⋯B。90x。?Q。。uejfrly．。Engine露麓1≯高KnowledgeBaseInterface(ReasonerSPI)图2．13Pellet架构‘r?滞’’一+i’～廿5Jena．ApplicationOWLAPIAPpaication霹蜀品互品品晶离辐DIGApI)Iica60n本章详细研究了视频语义检索系统中需要的关键技术，首先分析了MPEG．7的起源、主要描述工具等，然后仔细研究了RDF(S)，OWL，SPARQL，XQuery以及推理引擎技术。这些标准和技术是构建SSVRS的基础。。u啊t廿芒一一ou再t∞_lul一廿u再JJQ-c一母c∞，一一t《J之一。一。一凸釜一第3章SSVRS架构与视频内容处理视频语义检索的目标是提高视频检索的查准率和查全率，它将用户概念空间中的概念信息有效地映射到视频内容空间，可以检索出符合用户意图的视频数据，从而增强用户的检索体验，提高视频资产的使用率。本章首先详细分析了视频数据的特点和视频语义检索系统的需求，接着根据系统需求设计了一种支持语义的视频检索系统(SSVRS)并分析了系统的主要工作流程。SSVRS主要包括视频内容处理、用户交互式操作和视频语义检索三个子系统，本章剩余部分研究了视频内容处理子系统，包括视频数据分析，本体构建，低级特征和语义信息提取以及语义索引构建等。3．1视频数据特点视频是目前信息的一种重要载体，得到了广泛的使用，为了更好地分析和使用视频信息，需要充分了解视频数据的特点。定义1：令y表示视频数据，则V={Visual(t)，Audio(t)，t，Cons，M)，其中Visual表示视频数据中的视觉信息，Audio表示视频数据中的音频信息，t是视频数据中的时间信息，Visual和Audio均是时间t的函数，并且它们通过t进行同步，Cons是视频数据的结构信息，肘表示视频数据的元信息。定义2：Cons={shotl(keyframel，keyframe2⋯)，shot2(keyframeI，keyframe2⋯)⋯)，其中shot表示镜头，keyframe表示关键帧，在视频数据中可以包含若干个镜头，在一个镜头中可以包含若干个关键帧。’定义3：keyframe=(colorD，shapeD，textureD，motionD，media，time}，其中colorD用来描述颜色信息，shapeD用来描述形状信息，textureD用来描述纹理信息，motionD用来描述运动信息，media用来描述媒体信息，time用来描述时间信息。定义4：Story=(SceneI(shotl，shot2．．．)，Scene2(shotl，shot2⋯)⋯)，其中Story用来表示故事单元信息，如足球比赛的上半场，Scene表示场景，它是基本的语义单元，如进球镜头，一个视频中通常包含若干故事，一个故事通常由若干个场景构成，一个场景通常由若干个镜头构成。从上述定义中可以发现视频信息具有以下特点：(1)视频数据具有非常大的信息容量，可以通过同步音频、视觉、嵌入的文本信息以及使用不同的结构编排方式来表达丰富的语义；(2)视频数据的处理需要掌握特定领域的背景知识，如第3章SSVRS架构与视频内容处理不同的观众观看同一段视频得到的信息可能不同，这取决于观众的背景知识以及情绪状态等因素，这说明了视频的语义信息是和相关的领域知识结合在一起的，如裁判亮红牌，懂得比赛规则的人会清楚是球员犯规被罚出场，而不知道的规则的人可能对此熟视无睹；(3)视频的时间结构单元是帧，语义单元是场景，帧可以自动提取，但是场景获取需要人工参与，帧层次的信号信息到场景层次的语义信息没有固定的映射规则，这是导致视频检索中的语义鸿沟的原因。为了标注场景的语义信息，需要理解一定的背景知识，这可以通过构建、引入相关领域的本体来实现。用Video表示视频数据，ST表示故事单元，SC表示场景，SH表示镜头，KF表示关键帧，则视频数据的物理和语义结构示意如图3．1所示t图3-1视频数据结构3．2视频语义检索系统需求为了支持语义级别的视频检索，系统要能够充分挖掘视频的语义信息并将这些信息有效地组织起来，同时可以准确分析用户的检索需求，使用有效的映射机制来准确、快速地完成用户思维空间中的概念到视频索引空间的映射，检索出符合用户要求的视频内容，从而增强用户的检索体验。视频语义检索系统的具体需求如下：1、系统需要建立有效的视频数据分析模型来处理原始视频数据，使其更加适合检索。视频数据分析模型功能主要包括：(I)可以将原始视频数据分解成镜24 第3章SSVRS架构与视频内容处理头和关键帧集合，提取出视频的结构信息；(2)可以提取出镜头和关键帧包含的低级特征信息，包括颜色、形状、纹理、运动、音频信息等；(3)可以提取出视频中的语义信息和全局元信息，如对象、事件等；(4)可以有效地描述和组织这些提取出的视频信息，使其便于管理和使用；(5)建立适合语义检索的视频索引，可以将用户概念空间的检索需求快速映射到视频内容空间并防止语义信息的丢失；(6)支持在线和离线的视频及其描述文件的更新和增删操作。2、系统需要建立有效的交互模型，提供友好的用户界面，增强用户的检索体验。交互模型的功能主要包括：(1)可以适应具有不同检索偏好的用户，它可以让用户定制配置文件，从而控制检索系统的行为：(2)能够通过分析用户的检索历史，挖掘出用户的真实检索意图；(3)可以将用户的检索历史自动映射成用户检索偏好，实现用户检索偏好文件的自动更新；(4)查询结果按照默认策略或者用户的要求进行处理，如对检索结果进行过滤和排序。3、系统需要建立有效的语义检索模型，它将用户的检索输入准确、快速地映射到索引空间，从而检索出用户希望的视频数据。语义检索模型的功能主要包括：(1)将用户的检索要求映射到若干查询类型并为每个查询类型分配相应的权重：(2)根据不同的查询类选择最佳的检索方式进行检索；(3)将查询类型映射到语义索引空间，通过查询推理提高检索的效果；(4)利用本体相似度和用户偏好设置对检索结果进行过滤和排序。4、系统应具有可扩展性，支持海量视频的语义检索。5、系统应具有鲁棒性，可同时支持5000个并发请求3．3SSVRS架构与流程3．3．1SSVRS架构本文根据视频语义检索系统需求，设计了一种支持语义的视频检索系统(SSVRS)，SSVRS采用基于B／S的分布式架构，可以满足语义级的视频检索需求。客户端采用基于浏览器的方式，提供查询请求界面和查询结果显示界面。查询请求界面提供了多模态的查询方式，包括本体语义查询、基于内容的查询、关键字查询。用户可以选择查询方式及输入相关的查询条件，也可以通过查询请求界面定制用户配置文件。用户配置文件可以被共享，它的生成方式有：(1)采用向导的方式在用户查询丌始前生成；(2)导入用户保存过的配置文件；(3)系统记录用户的检索历史，自动生成用户配置文件。系统会在用户结束查询前询问是第3章SSVRS架构与视频内容处理否保存用户配置文件。查询的结果按照一定的策略在查询结果界面中显示。服务器端的作用包括：(1)分析与处理视频内容，即使用视频处理技术、MPEG．7和本体提取视频数据的结构、内容、语义和元信息，建立适合语义检索的视频索引；(2)组织视频原始数据、视频描述数据以及视频索引数据，视频原始数据存储在视频服务器中，视频描述文件和索引文件存储在原生XML数据库和本体数据库中：(3)解析用户检索条件，进行查询扩展与映射并检索出符合用户需求的视频数据，系统使用用户配置文件和JENA推理机分析用户意图，进行查询的映射和推理：(4)处理视频检索结果，可以按照用户配置文件和本体相似度对结果进行过滤和排序。SSVRS采用B／S结构，具有很强的扩展性和鲁棒性，系统整体架构如图3．2所示：3．3．2SSVRS主要流程图3-2SSVR系统架构SSVRS主要流程包括：(1)原始视频内容分析与处理流程，即根据MPEG．7和本体获取视频内容的描述信息和索引信息；(2)用户视角的交互式检索流程；(3)检索引擎工作流程，即获取用户检索输入，返回处理后的检索结果。视频内容分析与处理流程如图3．3所示：‘26 第3章SSVRS架构与视频内容处理图30视频内容分析与处理视频内容描述分析与处理流程详细描述如下：(1)基于镜头边界检测技术将视频数据分割成以镜头为单位的视频片段集合，提取出视频结构信息以及元信息并将视频片段集合存入视频服务器；(2)提取镜头中具有代表性的帧，一个镜头中可以提取一个或者多个关键帧；(3)自动提取关键帧的低级特征信息，这些低级特征包括颜色、纹理、形状、嵌入字幕等；(4)采用半自动化方式获取视频的语义信息，即借助人工方式和本体技术来标注视频，获取视频中包含的语义信息，如对象、事件等；(5)将包含视频结构、内容、语义以及元信息的MPEG．7描述文件存入MPEG一7文件描述服务器，SSVRS采用BerkeleyDBXML来存储这些视频描述文件；(6)从视频描述文件中生成视频索引文件：(7)将用XML表示的视频描述文件和视频索引文件转换成OWL格式，存储在SPARQL数据库TDB中。用户交互式检索流程如图3-4所示：区瑟搦一d蓁一用P·Hc捌：虹赋Te静降)tlil静b◆∈一I衄检索弓I簟缩十粜一(··：aJ妊】I'哪■霄●忙j噼可一逼出豳缪’F界坷戢j辅月旺舒-蕾簪图3-4用户交互处理用户交互式操作流程详细描述如下：(1)用户开始检索前，系统提示用户设置或者导入用户配置文件，并将配置文件保存到用户配置文件服务器；(2)用户选择查询方式，输入查询条件；(3)系统记录用户的检索历史，将用户检索历史自动映射到用户配置文件，实现配置文件的自动更新；(4)检索引擎解析用户查27 第3章SSVRS架构与视频内容处理询意图，在数据服务器中检索符合要求的视频内容，根据用户配置文件信息处理检索结果；(5)通过结果显示界面向用户显示检索结果，如果用户需要重新检索，可以从步骤l开始重复进行直到用户满意为止。检索引擎工作流程如图3．5所示：图3-5检索引擎查询检索引擎工作流程详细描述如下：(1)利用自然语言处理技术分析用户的检索输入，提取出检索关键词；(2)根据用户偏好设置文件、用户检索上下文分析用户输入的检索关键词的语义信息：(3)将用户输入的检索要求映射到具体的检索类型，并为每个检索类型分配相应的权重：(4)根据不同的查询类型，对用户的输入进行语义扩展；(5)使用SPARQL、JENA推理机和规则集合在TDB中进行检索，它完成用户概念到语义索引空间的映射，并且可以进行语义推理：(6)查询的结果若不理想，则将SPARQL查询映射到XQuery元查询，映射时保持查询的语义等价性；(7)将查询结果经过过滤和排序处理，返回给终端用户。3．4视频内容处理3．4．1定制MPEG一7MPEG．7是一个针对各种媒体信息的通用描述标准，它对不同应用的元数据模型并没有非常严格的限制，这使得它可以被应用到非常广泛的应用领域，但是针对某个具体的应用领域它具有如下的不足(ISO／IECJTC，2001)：(1)使用复杂：(2)妨碍交互，这就需要根据具体的应用来定制MPEG．7。定制MPEG一7的主要步骤包括(ISO／IECJTC，2003)：(1)选择MPEG．7的描述符和描述方案的一个子集；(2)对选中的描述符和描述方案的使用施加一定的限制：(3)明确描述符和描述方案的语义。SSVRS的主要功能是进行视频的语义检索，需要能够详细描述图像、音频、28 第3章SSVRS架构与视频内容处理视觉信息。本文根据视频语义检索的需求，定制符合其要求的MPEG．7配置文件：SSVRS．MP(SSVRSMPEG一7Profile)。SSVRS-MP包含以下的描述符和描述方案：(1)视频的内容结构描述，包括时间、空间和时空结构：(2)视频的视觉、音频特征和信号属性的描述；(3)视频的媒体、创建和使用信息的描述；(4)视频摘要信息的描述；(5)视频语义信息的描述。SSVRS．MP的结构如图3-6所示：图3石OSVRS．MP结构SSVRS．MP的主要语义约束如下所示：1、根元素是Mpe97，它含有子元素DescriptionMetadata和Description。一个MPEG-7文档中只有一个类型是ContentEntityType的Description元素。2、只有Mpe97和Description元素可以包含DescriptionMetadata。在Mpe97元素下的DescriptionMetadata必须包含Privateldentifier，它是元数据描述的唯一标识符。29 第3章SSVRS架构与视频内容处理3、AudioVisualSegment必须包含直接子元素Medialnfomation，并且媒体信息元素至少应包括一个媒体Profile。如果媒体内容具有多种形态，必须包含多个媒体Profile。4、AudioVisualSegment必须包含直接的子元素Creationlnformation，用来描述创建信息(如标题、标题元数据、摘要、创建的地点、时间以及版权信息等)和分类信息(如节目类型、语言等)。5、AudioVisualSegment必须包含MediaSourceDecomposition，用来描述视频的结构信息。视频可根据不同的标准进行分解，如根据visualshots标准，可将视频分解成镜头集合，镜头集合可根据keyframes标准提取关键帧集合，但是关键帧之间不允许重叠。6、视频片段的内容用文本标注来描述，视频片段的语义信息用语义标注来描述。文本标注和语义标注都包含在按时间分解的视频段中。段分解的标准和语义如表3．1所示：表3-1段分解标准及其语义将根audiovisual分解成visual和MediaSourceDecompositionmodalitiesaudio将根visual分解成shot集合TemporalDecompositionvisualshots将shot分解成关键帧集合TemporalDecompositionkeyframes将Stillimage分解成对象SpatialDecompositionobjects将根segment分解成场景TemporalDecompositionSCeneS将根segment分解成事件TemporalDecompositionevents将Stillimage分解成人脸SpatialDecompositionfaces3．4．2构建本体MPEG．7提供了一系列标准的工具来使人和机器可以制造和理解影音内容的描述文件，但是这些工具是构建在XMLSchema基础上的，缺少明确的语义信息和推理能力。在MPEG．7中，同一个语义实体可以使用不同的描述工具来描述，同一个描述工具可以用来描述不同的语义实体，如描述姚明盖帽事件，可以使用Semantic、StructuredAnnotation、FreeTextAnnotation以及KeyWordAnnotation等来进行描述。MPEG．7的DDL允许用户自定义描述工具，这导致相同的标签可以表示不同的语义，不同的标签可以表示相同的含义j如在一些描述工具中Doctor表示医生，而在另外一些工具中则表示博士。MPEG．7描述工具不能进行语义的关联，这主要是因为它是一个通用的标准，缺少具体应用领域的知识和规第3章SSVRS架构与视频内容处理则信息，如在～段视频标注中出现了克林顿，用户要求检索出现美国总统的视频片段，普通的基于MPEG．7的系统不能胜任这样的任务。在基于Intemet的开放环境中，不同的团体和个人均可以制造和上传影音文件以及其描述，它们可以捆绑上传，也可以单独上传。这些影音文件可以是关于不同领域的，为了共享这些影音文件，需要机器可以理解它们的描述信息，即理解描述工具的准确含义和应用领域专门的知识和规则。视频本体的作用是明确描述工具的语义、使用规则以及描述工具之间的关系。SSVRS的视频本体SSVRS．VO和MPEG一7兼容，用Prot696构建，包含MDS中主要的描述工具，采用OWL描述。视频本体的OWL文件包含本体的注释信息、类定义和属性定义。注释用owl：Ontologyrdf：about来说明；类用owl：Classrdf：ID来定义；对象属性用owl：ObjectPropertyrdf：ID来定义；数据类型属性用owl：DatatypePropertyrdf：ID来定义。注释信息包含了：评论、标签和版本信息，它的OWL描述如下：<owl：Ontologyrdf：about=””><rdfs：comment>视频本体，与MPEG7兼容<／rdfs：comment><rdfs：label>VO本体<／rdfs：label><owl：versionlnfo>2010．4．12<／owl：versionlnfo><／owl：Ontology>类定义包括：标签、评论和继承关系(可以是多继承)，如MultimediaContent是Resource的子类，表示多媒体数据类，它的OWL描述如下：<owl：Classrdf．ID=”MultimediaContent”>’<rdfs：label>MultimediaContent<／rdfs：label><rdfs：comment>多媒体数据类<／rdfs：comment>．<rdfs：subClassOfrdf：resource=”http：／／www．w3．org／2000／01／rdf-schema#Resource”／><／owl：Class>对象属性定义包括：标签、继承关系、Domain和Range信息，一个对象属性可以继承多个属性，它的Domain和Range域也可以包含多个对象，如temporal_decomposition是decomposition的子属性，它的Domain和Range分别是MultimediaContent和Segment，表示使用时间分解可以将MultimediaContent分解成Segment。temporaldecomposition的OWL描述如下：<owl：ObjectPropertyrdfilD=”temporal_decomposition”><rdfs：label>段的时间分解<／rdfs：label><rdfs：subPropertyOfrdf：resource=”#decomposition”／><rdfs：domainrdf：resource=”#MultimediaContent”／><rdfs：rangerdf：resource=”#Segment”／>1_<／owl：ObjectPmperty>3l 第3章SSVRS架构与视频内容处理数据类型属性定义包括：Dommn和Resource,--个数据类型属性的Dommn和Range可以包含多个对象。如MediaDuration的Domain和Range分别是：MediaTime和time，表示MediaTime对象具有数据类型为time的属性。数据类型属性MediaDuration的OWL描述如下：<owl：DatatypePropertyrdf：ID=”MediaDuration”><rdfs：domainrdf：resource=”#MediaTime”／><rdfs：rangerdf：resource=”http：／／www．w3．org／2001／XMLSchema#time”／><／owl：DatatypeProperty>SSVRS．VO中包含的类的及其关系如图3．7所示：图3-7SSVRS．VO类层次关系领域本体提供了领域知识和规则，它在视频本体的基础上充分挖掘视频的低级信号特征所代表的领域知识。体育视频是最受欢迎的视频类型之一，它包含丰富的语义信息，构造体育领域的本体，对挖掘体育视频的语义信息(对象、时间、概念、语义时间和语义地点)有很重要的意义。SSVRS的体育本体SSVRS．DO的目标是建模体育领域的概念和关系，提高系统的语义挖掘能力以及语义检索能力，SSVRS—DO也是用OWL来描述的。体育领域的主要对象包括：运动员、教练、赞助商、比赛、场地、运动队等；主要事件包括各种动作及其相应结果，如传球，得分等；主要关系包括对象间的关系，对象与事件的关系，如运动员是运32 第3章SSVRS架构与视频内容处理动队的成员，运动员是得分事件的参与者等。下面以动作为例来说明体育领域本体的构建。SportAction是动作类的基类，它是Resource的子类。SportAction包含两个子类Ban和SportMatchAction，Ban表示犯规动作，SportMatchAction表示比赛中的其他动作。SportMatchAction包含子类：PlayerAction、SpectatorAction、TrainerAction、OtherAction、OfficialAction。PlayerAction指可以使运动员获得比赛胜利的动作：SpectatorActio指在比赛中观众的动作；TrainerAction指在比赛中教练的动作：OtherAction指在比赛中发生的对比赛结果不产生影响的动作；OfficialAction在比赛中官方人员的动作，主要是指裁判和助理裁判的动作。PlayerAction包含子类：SingleFootballPlayerAction和FootballTeamAction。SingleFootballPlayerAction指单个足球运动员的动作；FootballTeamAction指由一个球队中若干球员共同完成的动作。SpectatorAction包含子类：Applause、Boo、Shout、Encourage。Applause指观众鼓掌加油喝彩；Boo指观众不满，发出唏嘘和哭泣声；Shout指观众狂呼，表示极度的惊讶、不满或者喜悦；Encourage指观众鼓励运动员的动作。TrainerAction包含子类：GiveAdvice和InterchangingOfPositions。GiveAdvice指教练指导运动员：InterchangingOfPositions指更换运动员的位置来加强防守或者进攻。OtherAction的子类包括：LeaveTheField和ExchangePennants。LeaveTheField指运动员离场，包括受伤、得到红牌以及教练换人。OfficialAction包含子类：RefereeAction和LinesmanAction。RefereeAction指裁判的动作：LinesmanAction指助理教练的动作SingleFootballPlayerAction包含子类：GoalkeeperAction和AnyPlayerAction。GoalkeeperAction指守门员的动作；AnyPlayerAction指任何队员均可做的动作。GoalkeeperAction包含子类：Parry、CarryingTheBall、PunchOut、GoalkeeperDive、BaseballThrow和DropKick。Parry指守门员利用身体的任何部位来阻止球进门；Can'yingTheBall指守门员抱住球；PunchOut指守门员扑球；GoalkeeperDive指守门员挑起接球；BaseballThrow指守门员将球踢出中场；DropKick指守门员在球落下时将其踢出。FootbaUTeamAction及其子类的关系如图3-8所示：图3-8球队动作类结构33 第3章SSVRS架构与视频内容处理RefereeAction及其子类如图3-9所示：图3-9裁判动作类结构动作是体育视频本体的一个非常重要的组成部分，除了动作，体育视频本体主要还包括：Person表示人员；Location．表示地点；Sport表示比赛的类型(室内比赛or室外比赛)；Object表示比赛周围的环境对象(窗户、天空、海滩和沙地)，Game表示体育的类型，它含有子类Match，表示比赛类型。PerSon类层次结构如图3．10所示：图3．10Person类结构Sport类层次结构如图3一II所示：图3-IISport层次结构比赛类型层次结构如图3．12所示：图3．12Ma把hType层次结构SSVRS．DO的总体结构如图3．13所示：第3章SSVR$架构与视频内窖处理●，，⋯5一图3-13SSVRS．DO的总体结构第3章SSVRS架拘与视频内容处理3．43视频信息提取视频信息提取包括结构信息、低级特征、语义特征以及视频元信息的提取。低级特征描述了视觉、音频信息，可以自动提取；语义特征是低级特征在人的概念空司中的映射，主要包括对象、事件等，这种映射难以自动进行，需要人的参与，并且需要借助背景知识：视频元数据是用来描述视频内容的数据，主要包括：媒体信息、导演、演员、流派、视频摘要信息等。语义特征提取又称为视频的语义标注，元数据提取又称为视频元信息标注，视频语义标注和视频元信息标注台称为视频标注，视频标注的好坏直接影响了对视频数据的应用．包括建立语义索引以及进行语义查询等。3．431视频低级特征提取视频的低级特征主要用MDS中的视觉捕述符、结构描述符、音频描述符束描述，可以用实现MPEG．7标准的工具来自动提取。SemanticVideoAnnotationSuite是款基于MPEG一7的视频处理工具，包括Media—Analyze和SemanticVideoAnnotationTool。Media．Analyze主要用束进行低级特征的提取．SemanticVideoAnnotationTool主要用来进行视频标注。Media-Analyze对低级特}iI!的提取如图3．14所示：盛甚篮盘罐监越器童盘蟠盈岛■■瞳匝瞳瞳盛盈醢越譬滏磷强图西替蓝翻越甚显i董；!娃龇3a4崩e￡|·⋯--、一i|’5』o目。国自日矗j]三互]五盈量同五三E==巨习⋯_{_L—inillllll⋯一“∞⋯dFill⋯hrf‘⋯⋯I’—二!!—J—!二：二jf=墨曩焉焉霉r——————一}黜盎=：。瞄}—岳i_I等一—b—Eij￡鼬1目iin—I兰t：：一露：．⋯。。图3-14Media—Analyze特征提取Media-Analyze可H自动提取出视频的媒体信息，包括视觉和听觉方面的媒体信息以及视频存储位嚣和文件大小。图3-14显示的币在处理的视频的媒体信一i一_圄第3章SSVRS架构与视频内容处理息如下：(1)视觉方面媒体信息包括编码格式(MPEG．1video)、帧大小(320"240)、比特率以及帧速率；(2)听觉方面的媒体信息包括：音频编码格式(MPEG．1audio)、采样率、比特率以及声音通道数；(3)视频文件大小为202MB、视频文件名为rocker．mpg、视频存储在系统定义的位置$LI．SYSlNTDATAl。Media．Analyze可以通过对视频进行时间分解自动提取出视频的结构信息以及包含在视频结构中其他信息，有两种时间分解的标准，分别是基于镜头(visualshots)的分解和基于斑纹图像(stripeimages)的分解。基于镜头的时间分解可以将视频分解成镜头类型(ShotType)的视频段的集合，每个镜头具有一个标识TRIDN，‘它分别包含结构单元信息、媒体时间信息、视觉描述符信息和基于关键帧的时间分解信息。结构单元信息描述的是视频单元的单位，这里是shot,媒体时间信息包括镜头的开始时间和持续时间，如TRID2的镜头的开始时间和持续时间分别是：T00：00：02：11F25和PODTOHOM8S1N25F，它表示镜头TRID2在2．44秒开始，共持续了8．04秒。视觉描述符的类型是摄像机的运动类型(CameraMotionType)，一个CameraMotionType类型的视觉描述符可以分解成若干个类型为MixtureCameraMotionSegmentType的段(Segment)，每个段具体可以包括MediaTime、FractionalPresence和AmountOfMotion，如TRID1的镜头的视觉描述符号包含3个Segment，TRID2的镜头的视觉描述符包含4个Segment，TRID3的镜头的视觉描述符包含1个Segment等。基于关键帧的分解将一个镜头分解成关键帧的集合，每个关键帧具有一个标识KFIDN，它分别包含媒体的位置、结构单元、媒体时间以及三种类型的视觉描述符(ScalableColorType、EdgeHistogramType、ColorLayoutType)。媒体的位置信息用来表示代表关键帧的图像所存储的位置，如镜头TRID1的第一个关键帧KFID1的媒体位置是$LIME；keyframes／000000．jpg，其中$LIME是系统变量，它代表了系统的一个路径，K．FID1的关键帧的图像在目录$LIME＼keyframes下并且它的名称是00oo0000．jpg。结构单元信息描述的是视频单元的单位，这里是keyframe。媒体时间信息包括关键帧的开始时间和持续时间信息。基于斑纹图像的时间分解将视频分解成类型为VideoSegmentType的视频段集合，每个视频段具有一个标识SlIDN，它分别包含媒体位置、结构单元和媒体时间信息，其中结构单元为Stripelmage。Media．Analyze提供了一个全局信息标注的功能来描述视频的制造信息，主要包括：视频标题和子标题、视频内容发生的地点和时间、信息标注人、导演、摄像机类型：视频摘要、版权信息等。这些信息可以在视频分析前填写，它们会自动写入视频描述文件中，或者可以在视频标注阶段进行标注。37 第3章SSVRS架构与视频山容处理3432视频语义特征提取计算机主要是从信号(视觉、音频信号)特征来区分视频数据，但是它并不能理解这些信引刑弋表的含义，为了让计算机能够理解和处理视频语义信息，需要将信号特征翻译成相应的概念信息，然后对这些概念信息建立索引，这个翻译过程就是视频标注，它是视频的信号特征与人的思维空问中的语义概念相绑定的过程。视频标注分为自动标注和手工标注两种，这两种方法都有很广泛的运用。自动标注一般利用机器学习的方法，首先需要通过样本柬训练标注模型：然后利用标注模型对输入的视频数据标注。手工标注不需要通过学习建立标注模型，它利用人的知识对输入的视频数据进行标注，因为人的知识体系比通过训练建立的标注模型完善的多，所以人工标注比自动标注要准确的多。人工标注也有一些不足，主要包括：(1)工作量大，非常耗时；(2)标注的准确与否直接取决于人的背景知识，专业人士比非专业人士杯泣的效果要好很多：(3)人的思维具有变化性，同个人在不同的时刻对相同的视频内容标注的结果可能不相同；(4)不同的人对相同的视频内容标注的结果极有可能不相同。为了提高标注的准确性。降低标注的难度以及提高标注结果的重用程度，引入了领域本体，它包含了特定领域的概念(术语)、属性以及概念问的关系，这世概念得到了广泛的认同并且其有明确的语义信息，非常适合用来标注视频数据，在SSVRS引入了两种本体：SSVRS．VO(视频本体)和SSVRS—DO(体育本体)来辅助视频标注。视频标注示意如图3．15所示：圈熏国魏鐾燮璧哑避疆盥謦壁龇a)火箭进攻(b)火箭防守困3一ls视频标注示意视频的语义信息主要包括：对象和事件，对象具有属性A，包括颜色、形状、纹理、运动等低级特征，一个对象和其他对象还具有某些关系R，对象的属性和对象之间的关系描述了一个对象的状态S，对象状态可|三l随时间和地点而变化，它的变化导致了事件的发生，事件通常具有对象、发生时间、持续时问和发生地点等属性。对象、属性、关系和事件都是可以组合的，它们可以由基本的对象、属性、关系和事件按照某种方式组合而成。如线性排列、迭代、交叉排列等。在静志的关键帧中，可以包含对象的所有信息，但是事件是时问的函数，～个事件第3章SSVRS架构与视频内容处理的信息可以包含在一个关键帧中，也可以包含在若干个关键帧中，称前者为简单事件，后者为复杂事件。视频标注具体任务包含三种：(1)对关键帧的标注(可以包含对象和简单事件)；(2)对复杂事件的标注；(3)对全局元数据的标注。完成视频标注以后就可以将视频在语义层次上划分为故事和场景的集合。定义l：KFA(关键帧标注)：视频的关键帧集合K(墨，K：⋯K。)，本体中概念集合C(c1，C2．．．e)，S={So(K，，Cj)If∈【1川】，_『∈【l，以】；&∈[O，l】)是一个二维矩阵，瓯表示K；与C，的相关度。关键帧标注的任务就是确定矩阵S中的每个元素值，若S，，<旯∈[0，l】，则标注时忽略该概念。兄的取值是可以动态改变的，如果可标注的概念太多，则力应取较大值，反之应取较小值，旯一般取O．6。关键帧标注的结果是每个关键帧都和一个概念集合相关联，并且这个概念集合中每个概念都有相应的权重来表示该关字和关键帧的匹配程度。关键帧的标注采用基于tag的标注方式，这种标注方式是按照关键帧的顺序来标注的，它将一个关键帧和所有的概念迸行匹配，然后再标注下一个关键帧直到所有的关键帧都标注完。基于tag的标注方式如图3．16所示：。ClC2C：3C4图3一16基于tag的标注为了分析基于tag的标注方式的效率，用T(KFA(K，C))表示用概念集合C对关键帧集合K进行KFA标注所需要的时间。从图3．16可以看出T(KFA(K，C))是关键帧集合的数量以及本体中概念的数量的函数，另外标注者需要一定的决策／标注的时间以及导航／定位到特定关键帧的时间。令K(K，，K”．K。)表示所有关键帧的集合，用C(CI，C2⋯C。)来表示本体中所有概念的集合，K，(C)={C’l，C’2⋯C’也JC’I∈C，C’2∈C⋯C’也∈C)表示关键帧f对应的概念集合，在定义l中指出当S。<旯∈[0,1】时，则不用概念_，来标注关键帧i，故墨(c)￡C，a，=IK，(C)l表示用来标注关键帧i的概念数，标注者需要从c(G，c2⋯e)选出子集K，(C)，然后用K，(C)中的每个概念来标注关键帧i，即输入概念并评定相关度，t，表示标注者决策／标注第．，个概念的时间，t·，表示导航／定位第f个关键帧的时间，则T(KFA(K，C))如式3．1所示：39 第3章SSVRS架构与视频内容处理T(KFA(K，c))：ZTr,：∑：．(壹f，“，)：∑：。j羔--a。+∑：。以(3-1)产Ij=l使用SemanticVideoAnnotationSuite可以方便用户导航和定位关键帧，这样对每个关键帧的导航／定位时间可以看做是一个常量f’。，决策／标注时间取决于标注者的知识、技能程度以及概念的复杂程度，令概念的平均复杂程度为CP(常量)，用户标注复杂度为CP的概念的平均时间为t。(常量)，概念．，的复杂度相对于CP的比例系数为占，，一个用户的实际标注时间相对于“的比例系数为粤，则对于某个具体的标注者的标注时间如式3．2所示：a．T(KFA(K，c))=∑I(2t／+f-f)=fo∑：。2占ig+mt’o(3—2)户Ij_-j定义2：CEA(复杂事件标注)：假设视频的关键帧集合K(K。，K2⋯K。)，本体中所有复杂事件概念的集合为E(巨，E：⋯Ek)并且满足E∈C，二维矩阵S’={S’扩Iie[1，m】，_，∈[1，忌】；S’{fe[o，l】)，其中Sv表示K，与E，的相关度。复杂事件标注的结果是每一个复杂事件对应一个(X，，r)，Xi是该事件对应的第一帧，r是该事件对应的最后一帧，玉F。={UI，Z)ImaxO-'flto．)；五∈[1，，川，Za[1，聊】，Z>=五；f∈【l，尼]，Je[1，m】)j=Xi复杂事件的标注采用基于浏览的标注方式，这种标注方式是按照本体中事件概念的顺序来标注的，它将一个事件概念和所有的关键帧进行匹配，然后再标注下一个事件概念直到所有的事件概念都标注完。基于浏览的标注方式如图3．17所示：CIC2C：，C4图3．17基于浏览的标注为了分析基于浏览的标注方式的效率，用T(CEA(K，E))表示用事件概念集合C对关键帧集合K进行CEA标注所需要的时间。从图3．17可以看出T(CEA(K，E))是关键帧集合的数量以及本体中事件概念的数量的函数，另外标注者需要一定的决策／标注的时间以及导航／定位到特定关键帧的时间。令K(X。，K：．．K。)表示关键帧集合，C(cl，G⋯q)表示本体中概念集合，第3章SSVRS架构与视频内容处理E(‘，丘E。)表示事件集合并且压EC，标注事件巨就是确定一个关键帧序号对(z，，r)，_．=(I一鼻．+1)表示事件E对应的关键帧个数。令事件的平均复杂程度为E1)(常量)，用户标注复杂度为E1)的概念的平均时间为r。(常量)，事件，的复杂度相对于EP的比例系数为5，，～个用户的实际标注时间相对于f。的比例系数为f，航／定位时间可以看做是一个常量，’。，则基于浏览的标注方式的时间表达式如式3-3所示：^tT(CEA(K，E))=∑正=∑(mf’o+吼P‘fo)=kmt。。+f。∑研f‘(3-3)Media．Analyze将视频分解成镜头集合，每个镜头中又包含若干关键帧，这些结构信息毗及关键帧的信号特征信息被保存在xral文件中，对视频进行标注以后，标注信息也会被写入这些xml文件中。可以在这些文件中直接修改和添加来标注视频．但是从公式3—2和公式3-3中可以看出借助专门的工具可以方便标注，降低导航／定位的时间，从而提高标注的效率。SemanticVideoAnnotationSuite是一款不错的视频标注工具，它提供了很多有用的功能：(1)视频操作，包括播放、快进、快退等；(2)镜头和关键帧的导航。通过SemanticVideoAnnotationSuite不仅可以快速定位到特定的镜头和关键帧．还可以播放相应的视频片段，这样可以获取在镜头的镜头、关键帧中获取不到的信息，如事件。SemanticVideoAnnotationSuite标注如图3．18所示：、￡1+7“‘E1⋯⋯“P⋯t‘d⋯m1·一ik一一』一——+口口目目日o々“⋯⋯，n．一。圆圈3．18视频标注当视频的关键帧和复杂事件都标注结束后，可以将视频划分成语义程度更高第3章SSVRS架构与视频内容处理的故事和场景的集合，这些标注信息会被写入XML文件，可以用来建立语义索引。下面的XML文件片段描述了一个视频标注的信息，它表示在2004-04．12火箭与湖人主场比赛的第一节中，科比被姚明盖帽的视频片段。<objects><objecttype=“Person’’id=“OBJECTl’’><propertyname=“FullName'’value=“姚明’’><propertyposition=“中锋’’><propertyteam=“火箭～<／object><objecttype=‘‘Person’’id--“OBJECT2’’><propertyname：=“FullName”value=“科比’'><propertyposition=“后卫’'><propertyteam=“湖人’'><／object><／objects><events><eventtype=“盖帽”id=“EVENTI”><be#nunit=-‘‘frames’’>100<／begin><endunit=-“frames”>130<／end><argumentargNum=“object”id-“OBJECTl．OBJECT2’’><argumentargNum=“place”value=‘'NBA，湖人主场，前场”><argumentargNum=“time'’value=“2004．04—12，第一节’'><argumentargNum=“relation”type=“发起者”id--“OBJECTl’，><argumentargNum=“relation'’type=“承受者”id--“OBJECT2’，><event><／events>3．4．4视频索引为了支持语义级别的视频检索，除了需要充分提取出视频数据的特征信息(自动提取)和这些特征信息代表的语义内容(人工标注)外，还需要对这些描述信息建立索引。索引对于信息检索系统来说具有非常重要的作用，它是用户检索空间和数据空间的中介并且索引空间规模远小于数据空间，用户的检索是直接作用在索引空间中的，这样可以极大地减少系统的响应时间，提高系统的性能。索引的建立是一个非常耗时的过程，通常在系统投入使用前已经建立好。有效的视频索引需要满足：(1)可以极大缩小检索空闻}(2)．不丢失视频的42 第3章SSVRS架构与视频内容处理语义信息，这样可以保证在缩短系统响应时间的同时保持良好的查全率和查准率。根据视频数据的特点，对视频数据建立索引，需要将视频语义信息、视频结构信息、视频低级特征以及元数据综合起来考虑。为了支持视频语义检索，需要建立多种视频索引，具体可包括基于低级特征的索引、基于语义概念的索引、基于视频元数据的索引，SSVRS将这三种索引方式结合起来，提供多模态检索方式。3．4．4．1基于低级特征的索引建立视频低级特征索引主要是为了支持基于样例的相似度匹配查询，它让用户输入一个样例(如一副图片)，返回和样例在低级特征上相似的结果。视频中可以提取的低级特征包括视觉特征和音频特征，为了简单起见，基于低级特征的索引方式只考虑部分视觉方面的低级特征，具体的视觉信息特征类型包括：摄像机运动类型(CameraMotionType)、边缘柱状图类型(EdgeHistogramType)和颜色布局类型(ColorLayoutType)，其中摄像机运动类型是用来描述镜头的视觉特征信息类型，边缘柱状图类型和颜色布局类型是用来描述关键帧的视觉特征信息类型。摄像机运动类型将一个镜头分割成若干个片段，每个片段中包含以下信息：mediaTime(包含MediaTimePoint和MediaTimeDuration)、FractionalPresence(包含PanRight、TiltDown和Fixed)、AmountOfMotion(包含PanRight和TiltDown)；边缘柱状图类型包含BinCounts(80位)；颜色布局类型主要包含以下信息：YDCCoeff,CbDCCoeff,CrDCCoeff,YACCoeff5、CbACCoeff2、CrACCoeft2。这些视觉特征均可以被自动提取出来。基于视频低级特征的索引格式如式3—4所示：况胁姒：=VideolD，CMT，EHT，CLT，CMT≥shotID，Timelnfo，FPI咖，AOMInfoEHT≥KFID，BincountsCLT．．KFID，ydc，cbdc，crdc，yac5，cbac2，crac2(3-4)Timelnfo．-mtp，mtdFPInfo亭pr，td，fixed’AOMInfo：=pr，td3．4．4．2基于元数据的索引这是一种最简单的视频索引方式，它支持基于关键字匹配的查询以及用户快速浏览视频，现在大多数视频检索系统都采用这种检索方式。视频元数据一般包括：(1)视频的标题(title)，一般允许包括子标题，如视频标题：火箭VS灰熊，子标题：第一节；(2)视频的类型(genre)，如动作片、喜剧片、戏剧艺术片、生活片、战争片、科幻片、电视音乐剧等；(3)视频摘要(summary)，一般用43 第3章SSVRS架构与视频内容处理来概述视频的内容，可以手动或者自动生成；(4)观众的反馈与评分(user-rating)，一般可设置5个等级，等级越高，代表观众的喜爱程度越高，这部分信息需要动态更新；(5)视频制作时间(produce．time)，用来描述该视频制作完成的时期，如上世纪八十年代制作；(6)视频时长(runtime)，用来描述该视频的时间长度，如半个小时；(7)导演(director)，用来描述该视频的制作者；(8)演员(actors)，用来描述扮演视频中角色的人；(8)媒体信息(mediainfo)，用来描述视频的编码格式、存储介质等信息；(9)版权和价格信息(right&price)，用来描述视频的版权和费用信息，如免费试看等；(10)语言(1anguage)信息，描述该视频中人物所使用的语言，如汉语、英语等。对于视频检索系统来说，视频的标题、类型、摘要使用最多的视频元信息。视频元信息一般可以用来对视频进行分类，其中最常用的是基于视频类型的分类，SSVRS也采用基于类型的分类方式来对视频的元数据建立索引，它将视频集合按照元数据组织成一个视频树，树的第一层是视频的类型(genre)，第二层是视频的语言(1anguage)，第三层是视频的制作时间(produce．time)，这样组织的原因是符合大多数用户的检索习惯，若要满足特殊的检索需求，可以重新组织视频集合，建立不同的元数据索引，如存储设备提供商希望快速获取2009年视频数据中采用光盘存储的情况，可以将制作时间作为视频树的第一层，将媒体信息作为视频树的第二层。基于元数据的索引格式如式3．5所示：VMDIndex=videoSet{genre{language{year{title(summary，director⋯)))})(3．5)3．4．4．3基于语义溉念的索引建立视频语义概念索引主要是为了满足普通用户的模糊检索需求，很多时候用户没有样例并且不知道具体的元信息，他们只知道一个概念，然后希望检索出和这个概念相关的视频信息。如用户希望检索“美国总统白宫演讲的视频镜头”，检索引擎并不能检索出奥巴马在白宫的演讲，虽然奥巴马也是美国总统，用户希望视频检索引擎可以理解美国总统这个概念，然后将这个概念和具体的实例相关联，如奥巴马、克林顿等。为了满足用户这种模糊的查询请求，视频检索引擎要能够对查询进行扩展和推理，检索引擎的这些功能是建立在语义概念索引的基础上的。视频的语义概念是通过视频标注的方式来获取，它代表了人对视频数据的理解。SSVRS采用LSCOM来作为语义概念集，LSCOM涵盖了一个很大的语义概念空间，它是由IBM、卡内基梅隆大学、哥伦比亚大学等共同研究而成，被广泛地运用到TRECVID中。LSCOM分为LSCOM．full和LSCOM．1ittle，LSCOM—full包含449个概念，这些概念具有涵盖面广、代表性强、容易被感知等特点，LSCOM—little则包含了LSCOM．full中最常用的39种概念。LSCOM中第3章SSVRS架构与视频内容处理的概念分为六大类，分别是：(1)Program类，包含天气(Weather)、娱乐(Entertainment)、体育(Sports)等；(2)Location类，包含办公室(Office)、庭院(Court)、会议室(Meeting)、工作室(Studio)、室外(Outdoor)、道路(Road)、天空(Sky)、白雪(Snow)、城市(Urban)、海景(Waterscape)、山川(Mountain)、沙漠(Desert)、建筑物(Building)、植被(Vegetation)、医院(Hospital)、高速公路(HighWay)等；(3)People类，包含Crowd、Face、Person、Roles、GovernmentLeader、Corporateleader、Police、Military、Prisoner；(4)Obect类，包含旗帜(Flag)、动物(Animal)、计算机(Computer)、车辆(Vehicle0、飞机(Airplane)、小汽车(Car)、军舰(Boat／ship)、公共汽车(Bus)、大卡车(Truck)、帐篷(Tent)等；(5)Activitiesandevents类，包含：游行(Parade)、握手(Handshaking)、飞机起飞(Airplane-Takeoff)、飞机着陆(Airplane．Landing)、飞机坠毁(Airplane．Crash)、直升机盘旋(Helicopter、地震、哭．Hovering)(Earthquake)泣(People—Crying)、打高尔夫球(Golf)、步行(Walking)、唱歌(Singing)、监禁(Jail)、自然灾害(Naturaldisaster)、爆炸(Explosion)等；(6)Graphics类，包含：地图(Maps)、图表(Charts)等。SSVRS选取LSCOM．full中常用的120种概念作为索引项来构建索引本体。设视频集合为Videos(V，，％⋯圪)，对于视频集合中的每个视频K，其镜头集合为V,(Shot)={ShotI，Shot2⋯Shot鲫))，镜头Shotj中的关键帧集合为Shot』(腰)=(职，KF2⋯弛(』))，口(f)和A(／)分别是衍口_，的函数，它表示不同的视频中含有的镜头数可以不同，．不同的镜头中含有的关键帧数可以不同，但对于给定的视频f来说，它包含的镜头个数p(f)是一个常量，对于给定的镜头／来说，‘它包含的关键帧个数2(j)也是一个常量。一个镜头可以用一个二元组(f，／)来唯一标识，一个关键帧可以用一个--元组(i，J，k)来唯一标识，其中f表示视频号，_，表示镜头号，k表示关键帧号。语义索引是将每个概念和每个视频中的一个(组)关键帧相关联，并赋予一定的关联强度，为了方便建立索引，可以将关键帧转换O(i)成用一个二元组来表示。视频f包含的关键帧个数是∑五(_，)，它是一个常量，则，一l(f，／，尼)可以表示成(f，∑允(m)+尼)，这些转换工作可以在视频处理阶段完成。视m=1频语义概念索引如图3．19所示：’45 第3章SSVRS架构与视频内容处理图3．19语义索引视频语义概念索引的数据格式如式3-6所示：护(，JVSClndex={Ca(i，{(Ⅳ，】，)，Score})[a∈[1，120]，f∈【1，m】，x<-y<-∑A(／))(3·6)式3．6表明每个概念会被映射每个视频的一组关键帧序号对集合中，实际建立索引时，如果视频f中的关键帧序对(X，y)的得分Score小于一个阈值矽时，则不对这个关键帧序对建立索引。假设视频集合中共有3部视频，≯设定为O．7，概念为飞机起飞(Airplane-Takeoff)，在视频1中关键帧序对(123，167)、(398，456)、(1200，1400)的得分分别是0．69，O．88，0．95：在视频2中，关键帧序对(233，367)、(598，670)、(2100，2400)的得分分别是0．99，0．78，0．55：在视频3中，关键帧序对(533，667)、(788，870)、(2500，2900)的得分分别是O．89，O．98，0．75；则对飞机起飞概念建立语义索引的结果如下所示：(1，(398，456)，O．88)、(1，(1200，1400)，0．95)、(2，(233，367)，O．99)、(2，(598，670)，0．78)、(3，(533，667)，0．89)、(3，(788，870)，0．98)、(3，(2500，2900)，0．75)。这种索引结构非常简单，可以用简单的邻接矩阵来实现，在使用前可以将各个索引项目按照得分顺序进行排列，这样虽然在建立索引阶段比较费时，但是一旦索引建立，将极大提高检索的效率。3．5本章小结视频是一种高效的数据载体，为了有效地管理和利用视频数据，本章首先分析了视频数据的特点，接着分析了视频语义检索系统的需求并设计了一种支持语义的视频检索系统架构，分析了系统的主要工作流程，然后定制MPEG．7作为底层模型来描述视频数据的信息，包括视频低级特征信息和高级语义信息。为了使描述模型具有语义联想的功能，在MPEG．7的基础上构建了视频本体和体育领域本体，这些本体被用来标注视频的语义信息和建立语义概念索引。视频信息的提取包括低级特征的自动提取和语义特征的人工标注两部分，在视频标注部分46 第3章SSVRS架构与视频内容处理引入本体知识，并分析了关键帧标注和复杂事件标注的时间模型。语义索引对于视频检索系统能说至关重要，在提取出视频语义信息的基础上，提出了一种简单有效的视频语义索引模型。47 第4章用户交互处理为了让系统更有效地理解用户需求，提高系统的效率和用户的检索体验，需要建立用户交互模型。通过该模型，用户可以和检索引擎进行有效的交互并定制对检索结果的处理策略。用户交互模型主要包括：(1)用户的检索偏好，它主要是对检索的范围(如视频的类型、语言)和检索结果的处理策略(如对检索结果的过滤、显示策略、观看策略)进行定制。检索引擎可以通过用户偏好来对用户检索请求进行解析和扩展，同时选择对检索结果的处理策略(如排序策略)；(2)用户的检索历史，它主要包括用户之前输入的关键字集合、关键字集合中各个关键字的频度、用户对返回的视频的处理(如观看、忽略等)，这些信息通常由系统自动记录，检索引擎也可以通过用户的检索历史对用户的检索请求进行解析和扩展；(3)用户配置引擎，用来管理用户偏好描述信息和用户使用历史描述信息。用户可以选择独占用户偏好描述以及用户使用历史描述信息，或者选择将其共享，这样其他用户就可以直接使用。用户交互模型以及它和系统中其他部分的关系如图4．1所示：图4-1用户交互模型用户交互模型的核心是用户配置引擎，它的作用：(1)根据用户的要求生成用户偏好描述；(2)记录用户和系统的交互，生成用户使用历史描述；(3)当用户没有显示提供用户偏好描述时，将用户使用历史描述映射成用户偏好描述。用户模型和用户以及系统其它部分的交互过程包括：(1)用户通过用户配置引擎生成用户偏好描述；(2)用户向系统发出检索请求，内容查找和过滤引擎参考用户偏好描述和用户使用历史描述(如果存在的话)从视频描述文件中检索到合适的视频描述文件；(3)内容浏览和观看引擎参考内容查找和过滤引擎返回的视频描述数据以及用户偏好描述设置结果返回方式并记录用户的浏览和观看记录，生成用户使用历史描述。49 第4章用户交互处理4．1用户偏好模型用户偏好描述包括用户对检索内容的偏好以及对检索方式的偏好，用户对检索内容的偏好主要用来描述用户喜欢什么类型的视频内容，如篮球比赛视频；用户对检索方式的偏好主要用来描述用户喜欢检索引擎如何运作，如每隔固定时间自动检索某个主题的相关视频内容。用户偏好描述对于视频检索系统来说具有很重要的作用，具体包括：(1)它使得检索引擎可以更加理解用户的检索需求，过滤掉不相关的内容，返回最符合用户要求的视频数据；(2)系统可以根据用户的偏好向用户推荐视频内容，从而可以减轻用户的负担；(3)用户不输入检索关键字，系统也可以根据用户的偏好设置自动进行检索，这适合分类检索，如每周天检索关于股票行情的视频数据。用户检索偏好在用户检索开始前进行设置，设置的方法主要包括四种：(1)用户导入第三方的用户偏好描述文件，这使得可以重用他人的检索经验；(2)导入用户自己之前保存过的偏好描述文件，可以进行相应的更新设置；(3)用户配置引擎提供设置向导来帮助用户进行设置，向导提供来一些常用的配置选项，可以简化设置过程；(4)若用户没有显示进行设置，则用户配置引擎提供默认的用户偏好描述设置。一般来说，用户的检索偏好会包含很多具体的偏好设置，这些偏好信息对用户来说可能并不是同样重要的，他们可以通过用户配置引擎来为不同的偏好信息设定相应的权重。不同的用户会有不同的检索偏好，为了描述用户偏好，需要选择其中具有代表性的用户检索偏好。用户模型中包含的用户偏好描述有：(1)用户描述文件中各项的权重描述，代表用户对不同偏好的重视程度；(2)对视频分类信息的偏好，主要包括视频的首次发行地，视频的首次发行时间(包括发行开始时间和持续时间)，视频中人物使用的语言，视频中字幕的语言，视频的类型(Genre)，视频的主题(Subject)，视频的评论信息(包括评论人、对该视频的评定级别等)；(3)对视频的媒体信息的偏好，包括视频分发的媒体格式(如DvD)，视频压缩格式，视频编码，视频的源(如现场直播、转播)；(3)对视频创建信息的偏好，主要包括视频的片名(Title)，视频的制作者(Creator，如导演、演员)，视频的制作地点，视频的制作时间(包括制作开始时间以及持续时间)，视频制作中使用的道具；(4)对视频使用信息的偏好，主要包括视频的版权信息(如是否可以免费获得)，视频的制作费用和票房收入信息，视频在何时、何地可以被获取的信息：(5)对视频摘要信息的偏好，主要包括视频摘要的类型(如基于关键帧的摘要、基于关键字的摘要)，视频摘要中的关键字信息，视频中关键帧的数量。’为来更好的使用用户偏好描述文件，需要一定的用户偏好描述文件的元信息，主要包括用户偏好描述文件的标识符、控制描述和上下文信息。用户偏好描50 第4章用户交互处理述文件的标识符用来区分不同的用户描述文件。用户偏好描述文件的控制指：(1)用户可以选择共享该文件，这样一组人可以使用相同的偏好描述文件，这很适合在一个工作组中使用，他们具有相同的信息需求。用户也可以选择将偏好描述文件私有化，这样可以保护自己的隐私；(2)用户可以指定是否允许偏好描述文件自动更新。用户偏好描述文件的上下文信息主要包含时间和地点，用户的检索偏好是随时间和地点变化而不断变化的。同一个用户在不同的地点使用的偏好设置可能不同，如在办公室主要检索和工作相关的视频信息，在家里则可能会检索和娱乐相关的视频信息。同样在不同的时间，同一个用户的检索偏好也可能不同，如国庆很可能会检索和旅游相关的视频。有的用户希望使检索任务自动化，如每隔若干小时使用相同的检索偏好信息来重新检索关于股票行情的视频。这些检索需求可以通过设置用户偏好模型的上下文信息来实现，设置检索偏好的上下文信息可以方便用户重用这些检索偏好信息，他们可以很方便地在不同的地点和时间导入相应的检索偏好设置来指导搜索引擎进行搜索。如果用户没有显示设置上下文信息，则代表这些偏好信息在任何时间和地点均适应。定义1：用户偏好模型UPM={vPM，VPD)，它包含偏好描述信息以及其元数据描述。用户模型中主要包括元数据描述和偏好描述。定义2：视频偏好描述文件的元数据记为VPM，它包括标识符、上下文信息(主要包括时间和地点信息)和控制信息(如是否允许自动更新等)，则VPM={VPID，P，Auto，time，place，reapN，reapA，save}VPM可以用一个结构体来表示，其中VPID是一个字符串数据，它是视频偏好描述文件的唯一标识：P是一个布尔量，它取true时表示不允许共享该偏好描述文件，反之则可以共享：Auto是一个布尔量，它取true时表示允许系统自动更新该偏好描述文件，反之则不允许；Time和Place是偏好描述文件的上下文信息，这可以让用户区分自己的偏好描述文件，也可以告诉检索引擎该只有在符合相应的时间和地点的情况下才可以使用该偏好描述文件；reapN是一个整形数值，它用来表示检索引擎可以重复使用该偏好描述文件的次数，只有在reapA为true的情况下，检索引擎-A“会考虑reapN；reapA是一个布尔量，它取true时表示系统可以自动按照该偏好描述文件区检索，不需要用户输入检索条件；save是一个整形变量，它可以取0、1和2，取0表示当检索结束后不保存该偏好描述文件，取1表示自动保存，取2表示询问用户是否需要保存。定义3：视频偏好描述记为VPD，它包括用户对视频分类信息、媒体信息、创建信息、使用信息以及摘要信息的偏好描述，则VPD={VCr，VM，VCI，VU，vs}VPD可以用一个对象引用数组来表示，数组中每个元素指向一个关联数组。gCr={(title，value)，(creator，value)，(place，value)，(time，value)，(tool，value))表5l 第4章用户交互处理示用户对视频创建信息的偏好，其中title(字符串类型)表示片名，creator(字符串类型)表示视频制作者，place(字符串类型)表示视频的制作地点，time(时间类型)表示视频的制作时间，tool(字符串类型)表示视频制作中使用的道具，相应的value表示它们的权重。一VM={(format，value)，(compressed，value)，(encode，value)，(source，value))表不用户对视频媒体信息的偏好，其中format(枚举类型)表示视频分发的媒体格式，compressed(枚举类型)表示视频的压缩格式，encode(枚举类型)表示视频的编码方式，source(枚举类型)表示视频的来源，相应的value表示它们的权重，这些枚举类型取值参照MPEG．7。VCI={qim弓value)，(1an,value)，(1anl，value)，(genr弓value)，(sb,value)，(revieHcvalue))表示用户对视频分类信息的偏好，其中time(时间类型)表示视频的首次发行时间，lan和lanl均为枚举类型，分别表示视频中人物使用的语言和视频中字幕的语言，genre和站均为枚举类型，分别表示视频的类型和主题，review(字符串类型)表示视频的评论信息。VU={(right，value)，(finance，value))表示用户对视频使用信息的偏好，right(字符串)表示版权信息，finance(双精度类型)表示视频的制作和收入信息，value表示权重。VS={(type，value)，(keyword，value)，(frameN，value))表示对视频的摘要信息偏好，type(枚举类型)表示摘要类型，keyword表示视频摘要中关键字信息，#ameN表示视频中关键帧的数量。4．2用户检索历史用户历史信息是对用户在一定时蒯段内针对视频数据采取的行为动作的记录，令UHl表示用户历史信息，UID表示用户的标识符，Context表示UHI的上下文信息，UActions表示用户在Context下的行为动作列表，CTR表示用户对UHI的控制，则UHl={UID，Context，UActions，CTR)。UID用来区分不同用户的历史信息，不同的用户具有不同的UID，相同的用户也可以具有不同的UID。Context主要包含时间和地点，所有用户的历史信息都具有其上下文信息。CTR是一个枚举量，表示用户对系统的控制能力，主要包括：(1)用户可以决定是否记录这些历史信息；(2)用户可以决定是否需要更新这些历史信息；(3)用户可以决定是否共享这些历史信息：(4)用户可以决定是否在检索前导入这些历史信息。UActions表示用户在一定上下文下的行为动作集合，主要有用户之前的检索历史以及用户浏览和观看视频的历史记录。用户检索历史指的是用户以前输入的关键字集合，关键字集合是从用户的输入条件中提取的并赋予相应的权重，这些权重52 第4章用户交互处理可以由用户显示赋予，也可以由系统自动赋予；用户浏览和观看的历史记录可以显示用户对视频的真实需求。系统利用这些用户检索历史信息可以更精确的挖掘用户的真实需求，同时系统还可以将这些检索历史信息自动映射到用户偏好描述中，使用户偏好描述可以同步更新。在UHI中，主要的内容是CTR和UActions。CTR代表用户对系统的控制，用户可以对CTR赋予不同的值来控制系统的行为。系统在执行相应的操作之前会测试这些数据，判断是否需要进行相应的操作。CTR是一个四位的整形变量，第一位表示是否导入历史记录(0表示不导入)，第二位表示是否更新历史记录(0表示不更新)，第三位表示是否共享历史记录(0表示不共享)，第四位表示是否保存历史记录(0表示不保存)，CTR描述如表4．1所示。表4-1CTR描述3(保存)2(共享)l(更新)0(导入)0Ol如系统在更新历史记录前，它会测试CTR的第二位是否为l，如果为l则更新，反之不更新，其他操作类似。UActions={(Aperiodl，4)，(Aperiod2，A2)⋯(Aperiod。，A。))，Aperiod，表示用户的第f个动作A，的开始和持续时间。每个事件都有自己的唯一标识符以及事件的类型，事件的类型主要有三种，分别是：检索事件、浏览视频摘要事件和观看视频事件。不同类型的事件具有不同的特点，对于检索事件，用户会输入关键字以及权重等检索条件，系统会根据用户的设置决定是否更新这些信息；对于浏览事件，系统主要会记录用户浏览的视频摘要的关键词；对于观看视频事件，系统主要记录视频的长度，用户观看的时间等信息。定义4：KWS={(K．，K)，(K：，％)⋯(K。，圪)lVi∈[1，，1]，I∈【一l，1】)KWS表示用户某次输入的检索条件，其中K，表示第f个关键词，杉表示K，的权重，权重的取值范围是【一l，l】，当K∈【O，l】时取值越大表示用户对关键词K，的重视程度越大；当形∈卜1,0]时绝对值越大表示用户越不喜欢检索和关键词K，相关的视频信息。定义5．-KWH={K’(ⅣI，K’)，K2t(Ⅳ2，巧。)．．K。’(K，吃’)Im≥n)KWH表示系统中的关键词历史记录，它的关键词数量一般会比KWS中的多。KWH采用哈希表的数据结构，其中K，’表示第i个关键词，M和Ki分别表示K，’出现的次数和平均权重。在系统中存在两种类型的KWH，一种是全局的KWH，一种是局部的KWH。全局的KWH记录系统的所有用户输入的关键词历史记录信息，它的作用包括：(1)用户首次使用系统并且未指定关键字权重时，系统会53 第4章用户交互处理参照全局KWH信息，自动赋予每个关键字相应的权重；(2)可以用来统计所有用户的检索热点，向用户提供一些推荐功能：局部的KWH主要用来记录每个用户输入的关键词历史记录信息，它的作用主要是对用户的查询进行解析和扩展。全局的KWH只有一个，局部的KWH数量和同时在线的用户数量相同。当用户输入检索条件，进行一次检索时，系统就会对相应的局部KWH和全局KWH进行更新，它对关键字进行哈希并修改关键字出现的次数和权重，全局KWH的更新算法类似局部KWH的更新算法。用户在关闭系统时可以保存这些输入的关键词信息，这样在下次进行检索时可以导入这些保存过的的关键字历史记录信息。局部KWH更新算法(LocalKey-WordHistoryUpdate，KWLU)如表4．2所示：表4-2KWLU算法K脱U算法输入：K臃：用户输入的检索条件；∽D：用户的标识符K嘲：局部KWH集合输出：更新后的局部K∥H算法描述：／／获取标识符为们D的用户的K形HKWH卜KWHS．get(UID)foreachf∈【l，一】／／获取用户输入条件中的第f个关键字和权重kw=KWS．get(f)．酽Ⅸ∥()kv=KWS．get(f)．getKV0assert(加)∈卜l，1】／／获取关键词kw的哈希值hashV=hash(加)：／／判断kw是否已经存在ifkw存在Item=K厢．get(hashV)．getltem0n=Item．酽fⅣO；’，=Item．getV()；’，=(行×1，+kv)÷(力+1)n=疗+lItem．putN(刀)Item．putV(1，)K腑．get(hashV)．putltem(Item)else 第4章用户交互处理Item=createltme(kw，幻)KWH．getHash．putltem(Item)定义6-UF={(尺，Ⅳr，乃)，(B，Ⅳ6，瓦)，(y，M，￡)>UF表示用户使用系统的体验情况。R、召和矿分别表示检索事件、浏览事件和观看事件(包含下载)，Ⅳr、M和M分别表示用户执行这三种事件的次数，Z和瓦均为二元组序列，它们记录用户每次执行相应事件的开始和持续时间，瓦为三元组序列，它包含观看(下载)视频的开始时间、持续时间以及视频实际的时间长度，，令乇，瓦，』，瓦．。分别表示第f次检索的持续时间，第／次浏览的持续时间和第J|}次观看的持续时间，令瓦．^’表示第k次观看的视频的实际时间长度，耳、死和乃为用户执行相应事件的平均时间’则％=’寿蔷c∥％2瓦1智E"’1以。”乃=击善t．。，一般情况下，靠和％越小，乃越大，表示用户的体验越高。为了更精确地分析用户检索事件的效率，需要知道用户检索事件时间在整个系统使用中的比例。用户检索一次的时间包括用户输入查询条件的时间(瓦)以及系统响应用户检索的时间(C)，瓦和Z一般可以视为常量，则疋=寿善c。；=--。5，E薹<“+c．f)。令五表示用户使用系统的效率，即观看(包括下载)事件的时间占使用系统的时间的百分比，则A=丙了j考‰，名的分母越小，它的取值越大，表示系统的效率越高。疋可以视为常量，Ⅳr越小，则Ⅳr耳越小，即希望用户用较少的检索次数就可以检索出需要的视频内容。对于一部视频，如果用户越感兴趣，则用户观看的时间会越长，第k部视频的实际使用率为a。=#，当a。<万，万∈[o，0．2】时，可以认为这部视频并不是用户希望找的，则用户的有效观看时间为F：兰瓦∥a。≥万，系统实际的使用率如式4．155 56F-7’Iv／．g五2二ii_蒜’吼≥艿c4．，)4．3用户偏好更新更新?姜等篇黧：釜晨射到用户慨从而实姗户偏姗述的自动更新，映射过程示意如图4．2所示：“”1’“∥uⅢ哭恍用尸偏好描述的自动浆黧麓婆凇翟喜萼篇苍键词集；(2)分析用户观看和浏览的视磊磊薹篇答芋1：萎笔用芝兰入碧检索螨：罴黧垂一4。所示“3)使用KWLU算法更新用户淼萎茹蒜叠室更新算’法如表竺踟～≥麟翌雾一～观文后玩研～熏釜一用描蟊甄～～一描蝴蝴～瓠桃靴～第4章用户交互处理ID=Vid．getlD(f)EType=Vid．getEType(i)Genre=VD。getGenre(f)Lan=VD．getLanguagP(f)⋯／，获取其他信息圹(删节．get(ID)一null)elseUPF．put(ID，(Genre，EventTypeW．getGenreV(Etype)))明叩．put(ID，(Lan，EventTypeW．getLanguageV(Etype)))GenreV=max(UPF．get(ID)．getGenreVO，EventTypeW．getGenreg(Etype))LanV=max(UPF．getlD(ID)．getGenreVO，EventTypeW．getLanguageV(Etype))U即．put(ID，(Genre，GenreV)UPF．put(ID，(Lan，LanV、)4．3本章小结本章研究了用户模型，包括用户检索偏好以及检索历史信息，用户可以使用这些信息来对检索结果进行定制，增强了对检索系统的控制能力；检索引擎可以使用这些信息更好地理解用户的需求，从而检索出更加符合用户需要的信息，提高用户的满意度。57 第5章视频语义检索视频检索引擎的工作流程包括：(1)用户输入检索偏好信息(可选)，对系统进行设置；(2)用户输入检索条件，触发检索引擎工作；(3)检索引擎分析用户的检索条件，挖掘用户检索意图；(4)检索引擎在索引空间中检索出匹配用户意图的数据；(5)系统按照一定的策略处理检索引擎返回的结果并按照用户的要求呈现检索结果；(6)如果用户对检索结果满意，检索过程结束，否则从第一步开始迭代。用户的检索请求通常是简单的、模糊的，如用户输入“苹果”，系统并不能辨别用户是需要检索“苹果”公司及其产品信息还是需要检索作为水果的“苹果”，如果系统知道用户前一次检索了“香蕉”、“苹果笔记本”或者用户在“苹果”后又输入了一个关键词“乔布斯”，则系统会更好的判别用户的意图。通过分析用户检索条件、检索历史以及用户偏好来解析查询意图，并进行相应的语义扩展，可以充分地挖掘出用户的检索意图。通常的视频检索系统只能对用户的检索进行简单的匹配，不能进行一定的推理，如用户输入“操作系统”，计算机很可能对“Linux”视而不见，在检索系统中引入一定的规则，可以增强系统的查询推理能力。用户一般希望系统返回和查询意图最相关的视频，这需要检索引擎对检索结果进行一定的处理，如对结果进行排序等。查询扩展、语义推理以及结果排序对于提高用户体验具有很重要的意义。5．1视频检索格式查询输入负责描述用户的查询请求，它使用户可以并行从多个MPEG．7描述文件数据库中进行检索。查询输入格式描述如表5．1所示：表5．1查询输入格式Querylnput=RsPresentation*,QueryCondition+，SortBy木RsPresentation=RsPresentationTransform*,RetumedMetadata乖，{maxPageEntries木，maxltemCount幸)RsPresentationTransform=XSLstylesheetRetumedMetadata=MPEG7Feature·，OtherMetadata*QueryCondition=MediaResouree*,Feature*,QueryExpression+SortBy=ASC[DECMediaResource={mimeType，uriRef，encoding，contentEncoding，id)59 第5章视频语义检索Feature=DescriptionUnit，AudioD，AudioDS，VisualD，VisualDS，TextAnnotationQueryExpression=SingleSearchlCombinedSearchSingleSearch=SemanticQuerylTextQuerylQueryByExampleIQueryByVeatureIBrowsingQueryIQueryByFeatureRangeISpatialQueryQueryByExample={medialDREF，exactMatch宰)QueryByFeature={featurelDREF，exactMatch幸)QueryByFeatureRange={featurelDREFupperBound，featurelDREFlowerBound)BrowsingQuery={textual，image，audio，video，audiovisual，any)TextQuery=TextQuery幸，FreeTextQuery,{retrieval，caseSensitive)SpatialQuery=SpatialElement，SpatialElementCombinedSearch=BooleanOperatorICompareOperatorlArithmeticOperatorBooleanOperator=(”AND”，NBooleanOperands)l(”OR”，NBooleanOperands)l("NOT”，Search)I(”XOW’，2BooleanOperands)2BooleanOperands=Search，SearchNBooleanOperands=2BooleanOperands，{Search)Search=SingleSearchlCombinedSearchCompareOperator=(‘‘一”l“>”l“>=”l‘‘<”l‘‘<-”l‘‘!=”)，ArithmeticOperatorJ(QueryByFeaturelConditionValuelConditionOperand)ArithmeticOperator=(‘‘+'’J“一”l“妒’I‘少)，(QueryByFeaturelConditionValuelConditionOperand)RsPresentation(可选)用于指定如何表示查询结果。RsPresentationTransforrn(可选)指定一个XSL的样式表。RetumedMetadata(可选)指定将被返回和显示的元数据，它包含MPEG7Feature和OtherMetadata。MPEG7Feature(可选)指定用户希望返回的MPEG．7特征描述：OtherMetadata可以指定其他需要返回的元数据信息。属性maxPageEntries(可选)、maxltemCount(可选)分别指定了每页最多可以显示的结果数目和最多可以返回的结果个数。第5章视频语义检索QueryCondition指定查询表达式包含的媒体信息以及特征信息，它包含MediaResource、Feature和QueryExpression。MediaResource(可选)指定在查询表达式中使用的媒体文件，属性mimeType(必选)说明指定媒体文件的格式，如video／mpeg、image／jpeg等；属性id(必选)是给定的MediaResource的标识符。Feature(可选)指定在查询表达式中使用的MPEG．7描述。QueryExpression指定查询表达式，可以是SingleSearch或CombinedSearch。SingleSearch包含TextQuery、QueryByExample、Que呻yFeature、QueryByFeatureRange、SpatialQuery和BrowsingQuery。QueryByExample用于相似度匹配查询，medialDREF(必选)用来指定样例媒体数据，exactMatch(可选)是一个布尔值，用来指定是否需要精确匹配。QueryByFeature基于MPEG一7描述进行相似度匹配，featureIDREF(必选)用来指定样例描述，exactMatch(可选)指定是否需要精确匹配。QueryByFeatureRange基于MPEG-7描述进行范围匹配，属性featurelDREFupperBound(必选)和featurelDREFlowerBound(必选)指定特征的范围的上界和下界。BrowsingQuery指定用户希望浏览的媒体文件类型。TextQuery包含TextQuery和FreeTextQuery两种方式，TextQuery可以进行结构化的文本检索，FreeTextQuery用于全文检索。属性retrieval是一个枚举类型，包含eontains、exactMatch、beginsWith和endsWith，属性caseSensitive是～个布尔值，用来指定是否对大小写敏感。SpatialQuery基于MPEG一7段分解和给定的空间关系来检索。SortBy(可选)用于指定查询结果排序的方式，可以是ASC(升序)或者DEC(降序)。为了演示如何进行查询，下面给出几个典型的查询场景。．任务1：检索出现克林顿和胡锦涛并且导演姓张的所有视频信息<Query><Input><QueryCondition><CombinedSearchtype=‘‘BooleanOperatorType’’><AND><SingleSearchtype=“TextQueryType’’retrival=‘‘contains’’><FreeTextQuery>克林顿<／FreeTextQuery>，<／SingleSearch>’<SingleSearchtype=‘'TextQueryType’’retrival=“contains’’><FreeTextQuery：》胡锦涛<／FreeTextQuery><／SingleSearch>6l 第5章视频语义检索<SingleSearchtype=‘‘TextQueryType’’retrival=“beginsWith’’><FreeTextQuery>张<／FreeTextQuery><／SingleSearch><SingleSearchtype=‘‘BrowsingQueryType'’media=‘'video’伦<／AND><／CombinedSearch><／QueryCondition><／Input><／Query>任务2：检索和样例视频段相似的视频信息，返回30个视频，并按照视频大小降序排列<Query><Input><QueryCondition><Featureid=”segl”><DescriptionUnittype=’’VideoSegmentType”><MediaTime><MediaTimePoint>T00：00：00：l5F25<／MediaTimePoint><MediaDuration>PTOOH00M04S05N25F<／MediaDuration><／MediaTime><VisualDescriptorxsi：type=”GoFGoPColorType”><SealableColornumOfCoeff=”32’’numOfBitplanesDiscarded=”0”><Coeff>485650515120l168474462282219981752l414184404258113O1863O72368<／Coeff><／SealableColor><／VisualDescriptor><SpatioTemporalDecompositiong驴”true¨overlap=”false’’><StillRegion><MediaLocator><MediaUri>000222．jPg<／MediaUri><，MediaLocator><MediaTimePoint：>。T00：00：01：05F25<／MediaTimePoint><，StillRegion><／SpatioTemporalDecomposition>62 第5章视频语义检索<／DescriptionUnit><Feature><RsPresentationmaxltemCount=¨20”／><QueryExpression><CombinedSearchtype=”BooleanOperatorType”><AND><SingleSearchtype=”QueryByFeatureDescriptionType”featurelDREF=”segl”／><SingleSearchtype=’’BrowsingQueryType”media=¨video’’／><／AND><，CombinedSearch><／QueryExpression><SortByorder=”DES”>。|FileSize<／SortBy><／Feature><／QueryCondition><／Input><Query>5．2语义检索模型语义检索的目标是检索出符合用户需要的数据，它是通过挖掘用户的检索意图并进行语义联想来实现的。SSVRS定义了语义检索模型来进行查询扩展和查询的语义推理，具体包括查询分类模型和语义映射模型。查询分类模型预先定义一组查询类型，当用户进行检索时，它可以将用户的查询输入映射到这些预定义的查询类型，并按照每个查询类型的相关程度赋予相应的权值，每个查询类型均具有最佳的检索方式，如基于低级特征的检索，基于关键字的检索或基于语义概念的检索。语义映射模型的作用是将查询类型和语义索引中的具体概念相关联。通过查询分类模型和语义映射模型完成了查询扩展和推理的功能，从而将用户检索条件和具体的视频文档绑定，检索出用户希望的数据。语义检索模型如图5．1所示：63 第5章视频语义检索图5．1语义检索模型查询类型(queryclass)是一组查询实例对象的集合，如“实名个体”是一个查询类型，它代表了所有“具有特定姓名以及某些行为、动作的个体”，这样像“姚明盖帽”、“奥巴马国会演讲”之类的检索会被归类到对“实名个体”类型的检索。预定义的查询类型设计需要遵循一定的规则，首先需要保证选择的查询类型具有典型性和代表性，这样可以使更多的检索请求映射到该查询类型；其次用户的检索条件应能够被自动映射到相应的查询类型，同时保证一定的映射精度。查询分类模型选择了八种查询类型，分别是：(1)实名个体类型：(2)实名对象类型，它代表了所有“具有唯～标识、可以从同类对象中被区分的对象"，如检索“包含微软公司logo的镜头”、“包含孔子塑像的镜头’’等会被映射到对实名对象的检索；(3)一般对象类型，它代表对象的类别，而不是具有实名的对象，如检索“开满杜鹃花的大山的镜头”、“具有很多军舰的镜头”等会被映射到对一般对象类型的检索：(4)场景类型，描述了多个对象及其空间关系，如检索“高速公路上很多汽车堵塞在一起的镜头”、“泰山上很多人在观看同出的镜头”等会被映射到对场景类型的检索；(5)体育类型，检索特定体育类型中各种动作、事件的镜头会被映射到对体育类型的查询；(6)灾难类型，检索包含各种灾难事件的镜头会被映射到对灾难类型的检索，如检索出现“汶川地震99,“H1NI感染者’’的镜头等；(7)天气类型，检索包含各种天气现象的镜头会被映射到对天气类型的检索，如检索“出现日全食”、“哈雷彗星’’的镜头等：(8)金融类型，检索各种金融事件的镜头会被映射到对金融类型的检索，如检索“出现经济危机"、“公司破产”的镜头等。同一个查询类中的实例具有相似的语言特性，如“实名个体”类型的查询实例一般具有人(概念)+动作的语言结构，这可以利用自然语言处理的方法将一个查询实例自动映射到相应的查询类型，同一个查询中各个查询实例的处理策略相同，如将该查询映射到哪些单模念检索方式。每个查询类型和索引空间中的一组概念或低级特征相关联，这些概念或者低级特征的实例是具体的视频文档。如第5章视频语义检索用户希望检索出现“美国总统国会演讲"的视频内容，这个检索条件首先被预处理为关键词集合(美国总统，国会，演讲)，检索引擎分析这些关键词，发现“美国总统”是概念“职务”的子类，“职务”是概念“人"的属性，因此美国总统是人的子类，同理国会被映射成概念“地点"的子类，演讲被映射成概念“动作"的子类，最终这个检索条件被映射到“实名个体"检索类型，该检索类型的最佳检索方式是基于语义概念的检索。它将关键词美国总统、国会和演讲赋予一定的权重，然后提交到语义概念空间中进行检索，对于原子概念，检索引擎直接返回对应的视频文档，对于复合概念，检索引擎会递归选择它的最佳子概念，并返回它对应的视频文档。5．3查询条件解析检索引擎是由用户输入检索条件触发的，它首先需要理解用户的检索需求，即对用户的检索条件进行解析与扩展。检索条件解析一般指用自然语言处理的方式提取出其中的关键字集合，查询扩展指的是给关键字赋予相应的权重并扩大或者缩小关键字的语义空间。系统一般会依据用户的检索偏好、检索历史和检索条件的上下文信息来处理用户的检索条件。用户检索偏好包含元信息、上下文信息以及具体的检索偏好项设置，元信息一般赋予用户对检索偏好文件的控制能力，如是否共享该文件；上下文信息主要包含时间和地点，它用来说明需要满足一定的时间和地点要求，系统才可以使用这个偏好文件；检索偏好项是二元组的集合，它们之间形成一棵检索偏好树，根元素是“root”，第一层元素包含视频分类偏好、视频媒体偏好、视频创建偏好、视频使用偏好以及视频摘要偏好。用户检索历史包括用户包括控制信息、上下文信息和动作列表，其中控制信息和上下文信息的作用类似用户检索偏好，动作列表包含历史检索输入，用户观看和浏览历史。检索条件的上下文指的是在同一次检索输入中，如果包含若干个关键词，则某个关键词的上下文信息就是除这个关键词之外的其他关键词。检索引擎主要利用用户偏好信息、检索历史信息以及检索条件的上下文信息来对用户的检索条件进行解析和扩展。令VPIte，船表示用户的检索偏好项，VHs表示用户的历史检索输入，尺表示当前用户检索输入的关键词集合(它是通过对用户的输入进行一定的预处理获得)，VContext表示用户检索条件的上下文信息。VPltems={root，(ItemI，U)，(Item2，1，2)⋯(Item。，1，。))，其中Itemf和u分别表示第f个检索偏好及其权重。类似地，用户的历史检索条件也是一个二元组集合，珊={(‘，珂。)，(吃，，12)⋯(‰，，l。))，其中，I，和咒，分别表示第-『个关键词以及其出现的次数。R={K．，K，⋯K，)，其中K，表示用户某次检索时输入的检索条件中第t个关65 第5章视频语义检索键词，gContext(KP)={K1．．．K一，K州。‘lp∈【l，m。一般当用户没有显示指定查询权重或者检索引擎无法判断某些概念的语义时需要进行语义扩展。如用户输入“Doctor"，检索引擎尝试从本体树中分析Doctor所属的类型，即向上遍历其父节点，发现“Doctor”具有两个父类节点，分别是职业和学历，这时检索引擎会使用上下文信息、偏好项和历史检索条件对该关键词进行语义扩展。如检索偏好中指明检索关于“健康保健”类型的视频，或者检索历史中出现“医院”、“禽流感"等关键词，或者检索上下文中出现“护士"等关键词，则检索引擎会正确理解Doctor的语义，它将Doctor扩展成(Doctor，职业)。如果没有上下文信息、偏好项和历史检索条件，检索引擎则会将Doctor扩展成(Doctor，职业)和(Doctor，学历)。语义扩展算法(SemanticExpandingAlgorithm，SEA)如表5．2所示：表5-2SEA算法描述语义扩展算法(SEA)输入：用户检索条件W，查询本体实例Onto，舭，凇、阶妇，万(词语间相似度阈值)输出：检索条件的语义扩展沈’算法描述：R=Natural-language-process(UC)foreacht《l，f】／／给关键字K．赋权重矿(_米赋值)V，：—VH—s．—ge—t(iK,—)．g—et—N—O+1∑万，i=ln=Onto．getParentN(K，)／／获取K，父类节点的个数牡口=Onto．getParent(KI)矿0一O)Onto．put(Kf)UC'．put(K，)esleif(n一1)UC’．put(K,，弛)elseforeachf∈【1，力&&f!=t／／上下文信息中词语相似度超过阈值的关键词集合KSl．put(WordNet—similarity(Kl，Ki)>万)．第5章视频语义检索foreach／∈[1，n】Ij=VPItems．getItem(j)KS2．put(WordNet—similarity(K,，Ij)>万)foreachk∈【1，rt】rk=VHs．eetn(k)KS3．put(WordNet—similarity(K,，rk)>万)foreachKW∈(KSl．KS2，KS3)foreachq∈[1，，l】sim。+=semanticSimlarity(KW，犯【g])q=max(sireg)UC’．put(K，，rE[q])考虑到Onto、VPItems、VHs和UC’中项数均为有限的几个，上述算法所需的时问很有限，它可以显著提高查对用户检索条件的理解。5．4视频检索处理用户的检索意图分为两种：(1)显示表达出来的意图；(2)隐含的意图，检索引擎需要能够同时检索出符合用户显示意图的视频内容和隐含意图的视频内容，这需要检索引擎具有一定的查询推理能力。检索引擎响应用户的查询一般会得到很多检索结果，具体包含：(1)符合用户希望的检索结果；(2)和用户希望不太相关的结果；(3))和用户希望不相关的结果。如果不对这些数据加以处理，而是混合在一起返回给用户，将会给用户带来很大的负担。检索引擎在将结果返回给用户前会按照用户偏好信息以及本体概念相似程度对检索结果进行过滤和排序。5．4．1查询推理查询推理的作用是获取没有显示表达出来的信息，如A是B的母亲，则A一定是位女性。查询推理是建立在规则的基础上，在SSVRS中主要使用三种规则：Inverserule、Transitiverule以及hierarchyrule。Inverserule表示两个概念间的相互关系，如规则hasParent；Inverse(hasChild)，则从实例hasParent(A，67 第5章视频语义检索B)可以推理出hasChild(B，A)。Transitiverole表示传递性规则，如hasBrother具有传递性，则从实例hasBrother(A，B)，hasBrother(B，C)可以推理出hasBrother(A，C)。hierarchyrule表示层次规则，如规则hasMotherchasParent，则从实例hasMother(A，B)可以推理出hasParent(A，B)。在Jena中预定义了五种查询推理引擎：Transitivereasoner、RDFSrulereasoner、OWLreasoner、DAMLmicroreasoner和Geneticrulereasoner。在SSVR系统中，本体是用OWL来表示的，因此选择OWL推理引擎来增强系统的查询推理能力，OWL推理引擎是基于规则的推理引擎。查询推理如图5．1所示：图5-2查询推理图5．2中实线表示在本体中已经明确的概念间关系，虚线表示通过查询推理获得的概念间的关系，这些概念既包括用户查询本体也包括建立语义索引时使用的120种概念形成的索引本体。用户的检索条件被映射到概念5和概念9，其中概念9和概念l以及概念lO通过本体显示关联，概念9和概念l1通过查询推理隐式关联。如果不建立本体，则只能查询到概念5和概念9索引的视频文档，如果不在本体的基础上增加基于规则的推理，则只能查询到概念1、概念5、概念9和概念10索引的视频文档，可见，本体和基于规则的推理对于提高系统的检索查全率具有重要意义。规则一般由前提和结论构成，它的语法如式5．1所示：Rule：=【ruleName：ruleBody】ruleBody：=term。2erm一>hterm⋯hterm；／／前向规则ruleBodybhterm<一胞删一钯删；∥后向规则．jI绷．_纪圳【朋坳D训(5．1)term净(node，node，node)l(node，node，functoObhterm．．(node，node，node)functor：=funetorName(node⋯node)node≥?vaNamefnumberIqnameltHteral’ 第5章视频语义检索例1：【all：(?Crdf：typeowl：Restriction)，(?Cowl：onProperty?P)，(?Cowl：allValuesFrom?D)．>(?Cowl：equivalentClassall(?P，?D)】例2：【rule：(?fpre：father?a)(?upre：brother?f)一>(?upre：uncle?a)】例l中aU表示规则名，它和OWL类的实例C是等价类，规则all的作用是表明它的第二个变量D的所有取值会对第一个变量P产生限制。例2中rule表示规贝lj名，它的前提是：变量f是变量a的father，farther在前缀是pre的命名空间中定义；变量U是变量f的兄弟，结论是：变量U是变量a的叔叔。查询推理包括前向推理、后向推理以及两者之间的结合。前向推理模式指的是在系统开始运行前，将规则集运用到查询数据集中，通过推理获得所有的推理数据并且可以获得新的推理规则，如运用规则A．>B，B．>C，则可以获得新的规则A．>C。通过前向推理的方式，在用户开始检索时，系统中已经包含原始数据和推理生成的数据，这样检索引擎在进行检索时不需要进行查询推理，可以缩短系统的响应时间。如果引入新的规则或者删除一些原始数据，则系统会重新运行这些规则集，生成更新后的数据集。前向推理规则引擎的实现一般基于RETE算法(C．LForgy，1982)。后向推理模式在用户检索前未将规则集运用到原始数据中，这样系统中只有原始数据，不包含推理数据，检索引擎在检索过程中运用相应的规则进行查询扩展。前向推理模式最大的优势在于系统响应时间短，但是它包含来很多可能用不到的推理数据，增加了系统的存储负担；后向推理模式将用户的查询直接映射到部分规则集进行推理，可以减少不必要的存储空间，但是它的检索时间会比较长，可能发现不了一些潜在规则。前向推理模式和后向推理模式是互补的两种模式，可以将它们结合起来，这就是混合推理模式。混合推理模式如图5．3所示：图5-3混合推理模式5．4．2本体$fltF2度本体是概念和关系的集合，概念可视为一个点，关系可视为概念之间的连线，69 第5章视频语义检索则本体可以建模成有向图。设本体O=(C，R)，C是概念的集合，R是关系的集合，O对应的图M=(V，E)，V是顶点的集合，E是边的集合。O和M之间满足如下关系：(1)C中的元素和V中的元素一一对应(2)C中任意的两个概念Cl，C2，它们对应的M中的顶点V1，V2，若(C1，C2)是R的元素，则(V1，V2)是E的元素。假设存在本体O=(Cl，C2，C3，C4，C5；equivalentclass(C1，C3)，subclass(C4，C5)，subclass(Cl，C2)，subclass(C3，C5))，它表示在本体O中概念C1和C3是等价类，Cl是C2的子类，C3是C5的子类，C4是C5的子类，在本体图中等价类用双向箭头表示，子类用单向箭头表示。则它对应的有向图如图5-4(a)所示：图5-4本体图(b)在本体图中，语义越接近的概念问路径长度越短，反之越长，则本体图中两个概念间的语义关系可以用它们之间的路径长度来建模，SSVRS使用本体概念相似度来刻画这种概念问的语义距离。为了简化本体概念相似度计算，可以在计算前推理出本体图中所有隐含的连接，用虚线表示推理得到的连接，则图5．1(a)经过推理得到的本体图如图5．1(b)所示。令dfst(C,，C，)表示本体图中概念C和C，的最短路径距离，如dist(CI，G)=l。计算两个节点e和C，之间的语义距离的步骤包括：(1)判断G是否是C，的祖先节点，如果是，则G是C，的第几代祖先，记代数为Ⅳ，如e是C，的父类，则N=l，Ⅳ随代数的增加而增加，则C和C，的距离为dist(Cs，C，)=2州，显然dist(C，，C)=N。如果G不是C，的祖先节点，进行第2步判断；(2)寻找这两个节点在本体图中最先相遇的节点，可视为它们共同的祖先点，记它们到该祖先节点的路径长度最大值为maxP，则这两个节点间的距离为2一M，如果这两个节点没有共同的祖先节点，则进行第3步判断；(3)如果这两个节点存在共同的孩子节点，令该孩子节点到这两个节点的路径距离的最大值为maxC，则这两个节点间的距离为2嗽N，如果它们不存在共同70 第5章视频语义检索的孩子节点，则它们的距离为无穷大(可以设置为一个较大值即可)。图5．1中各个概念间的距离如表5．3所示：。表5-3概念距离C1C2C3C4C5C10l41C2202无穷4C3lO4lC44无穷4OlC5242O本体相似度公式如式5-2所示：5．4．3过滤和排序s咖(口，6)=面F1丽“‘．)¨“，‘，JTi(5．2)检索系统在将检索结果返回给用户前，首先需要对结果进行过滤，减少不相关的视频数量；然后对这些视频数据进行排序，使越接近用户意图的视频内容排名越靠前。系统主要依据用户偏好描述中的观看和浏览的偏好以及本体相似度来进行过滤和排序。用户的观看和浏览偏好从整体上指导检索系统对返回结果进行处理，如有的用户希望仅返回包含某些特定事件的视频片段，而有的用户希望返回整个视频：有的用户希望返回视频时长在一定范围的视频，如视频时间小于半个小时；有的用户希望返回的结果不要超过一定的数量；有的用户指定每页显示多少检索结果：有的用户希望同时返回视频的摘要和视频代表帧等等。在系统中预定义了一些常用的用户浏览和观看的偏好项处理函数，系统在返回检索结果前会枚举用户观看和浏览偏好中的设置，并根据不同的设置调用相应的处理函数进行处理。系统使用本体相似度对结果进行过滤和排序操作的基本思想是：(1)系统计算用户的检索条件和建立索引时使用的LSCOM中的120种本体概念的语义相似度；(2)系统将检索结果集以及其中每个视频片段对应的索引概念集绑定；(3)系统将用户检索条件和每个视频片段对应的概念集的相似度累加，计算每个视频片段的得分；(4)系统设定一定的阈值，当视频片段的得分小于这个阈值的时候，则不返回这个视频片段，从而对结果进行过滤：(5)系统将得分越高的视频片段放在越靠前的位置，从而对结果进行排序。使用本体相似度对结果进行过滤和排序的算法如表5．4所示：7l 第5章视频语义检索表5-4过滤与排序算法结果过滤与排序算法输入：用户检索条件C，LSCOM中的120种本体概念集0：检索结果集R；阈值万输出：经过过滤和排序的检索结果尺。算法步骤：／／获得检索条件对应的概念集CK[】-getConcept(C)N=length(Ck)foreachf∈【l，Ⅳ】foreachJ∈[1,120】score[i][j】-dist(CK[i]，D[巾￡=length(R)foreach七∈【1，￡】indexC[】_R．get(k)．getlndexConcept()T=length(indexC)foreacht∈【l，t】J=0．findlndex(indexC[t])Ⅳ研七】_∑scoref．』，罩lg(s[k】<a)sh'p()三．_length(R)／／L’<--Lsort(S，L’)SentToUser(处理过的结果)5．5实验分析视频语义检索系统的主要性能参数包括查全率和查准率，本文设计了简单的实验方案来验证SSVR的有效性以及指导下一步的改进工作。查准率(Predsion)定义如式5．3所示：第5章视频语义捡索n”柳”2惫㈤，，查全率(Recall)定义如式5-4所示：Recall=等㈦，其中，Ⅳ。，表示检索结果中相关的视频数量，Ⅳ劬，表示返回的视频总量，Ⅳ，“’表示系统中相关的视频总量。实验的目的是比较SSVR和关键字查询以及基于内容查询方式的查全率和查准率，从而验证SSVR的有效性。实验环境设置如表5-5所示：表5-5实验环境服务器Tomeat数据库OfadeBDB和TDB实验数据5000个标注好的视频片段推理机JENA用户输入解析库WordNet视频索引索引本体实验设置了十个查询主题并针对每个查询主题分别进行20次查询，将各个主题每次查诒J的Precision和Recall进行加权平均，消除系统偶然误差造成的结果失真。三种检索方式的查准率如图5-5所示：图5-5奇准率比较三种检索方式的查全率如图5-6所示：第5章视频语义检索圈5-6青全率比较从图5．5和5-6中可以看出随着查询次数的增加，三种检索方式都会提高查询的准确率和查全率，这主要是因为检索系统会根据用户的检索历史来分析用户的检索意图，从而更精确地获取用户需求。SSVR比文本检索和CBVR具有更好的查准率和查全率，主要原因在于引入了查询推理机制。5．6本章小结本章研究了语义检索模型，包括语义扩展和映射算法。语义扩展指剥用户的检索进行解析和语义联想，语义映射指将检索条件和索引空间中的语义概念绑定。系统采用查询推理的方式检索出符合用户需求的信息，采用基于本体相似度的过滤与排序算法对结果进行处理．满足用户的不同需要，提高了用户的检索体验。实验结果显示SSVR比基于文本和基于内容的视频检索方式具有更好的查全率和查准率。第6章总结与展望6．1总结在语义级别上检索视频内容是视频检索领域中研究的难点和热点问题之一，研究中的主要挑战在于：(1)视频的数据量大，通常一部视频就会具有上百兆的数据；(2)视频的信息量大，包含结构信息、内容信息、语义信息以及元信息，视频检索需要检索引擎充分利用这些信息才能检索出符合人们需要的视频数据；(3)机器不理解视频的低级特征信息和高级语义信息之间的关系，这就是所谓的“语义鸿沟”。本文构建了一种支持语义的视频检索系统，它充分提取了视频的各种信息(结构、内容、语义和元数据)，合理地描述和组织这些信息，建立高效的语义索引，增加了系统的语义联想能力并提高了用户对检索的控制能力，达到了提高系统效率和终端用户检索体验目的。具体的研究内容如下：(1)为了充分挖掘视频的语义信息，增加系统的语义联想能力，引入了语义网相关知识，主要包括本体、OWL以及规则等。系统构建了视频本体和体育领域本体，使用OWL来建模本体，使用prot696来简化本体的创建并在本体中引入了规则集。(2)针对视频检索的特点对MPEG．7进行定制，明确了描述工具的语义信息以及使用中的限定条件。采用定制后的MPEG?7描述视频信息，具有明确的语义和更高的共享特性，同时适合推理机进行查询扩展。(3)详细分析了视频数据，首先将视频数据进行分割，提取出其中的结构信息(镜头和关键帧)和低级特征信息(视觉特征和音频特征信息)；然后对视频进行元数据标注，提取出其中的元数据信息；接着采用基于关键帧和基于复杂事件的标注模型对分割后的视频片段集合进行语义标注，提取这些低级特征所表达的高级语义概念信息；最后对这些标注后的视频片段建立低级特征索引和语义特征索引，其中语义索引采用LSCOM中的120种代表性的语义概念作为索引项，提高了索引空间的语义联想能力。(4)为了更好地挖掘用户的检索需求以及增强用户对检索的控制能力，建立了用户模型，包括用户偏好和用户检索历史。通过用户模型，用户可以对检索结果进行定制，系统也可以更好地分析用户的潜在需求，提高检索的准确性。(5)研究了语义检索模型，它将用户的检索输入映射到索引空间，在映射过程中采用本体推理技术和语义概念相似度匹配算法，提高了系统的查全率和查准率。75 第6章总结与展望6．2展望本文通过对视频语义检索系统中主要技术进行详细的研究发现：(1)使用本体和推理可以提高系统的语义联想能力；(2)提取视频的语义信息并建立语义索引对于视频检索模型具有非常重要的作用，可以显著提高系统的查全率和查准率。但是这些技术有的本身还不够完善，有的在系统中未能完全发挥作用，下一步主要研究如何更好地完善和使用这些技术，具体包括：(1)增加规则集的数量，研究更佳的推理方式．(2)研究不同领域本体的融合策略，这样可以在系统中使用更多的领域本体(3)增加语义索引项的数量，将LSCOM中其他的语义概念引入到系统中。(4)研究基于SVM的视频语义自动标注方法，使得既可以保持标注的效果，同时减少人工干预。76 参考文献徐建华。一种新型的多媒体检索技术一基于内容的检索。情报学报，2000艾丹祥。基于本体论的知识检索研究(硕士学位论文)。武汉大学，2004史树敏。基于领域本体的汉语共指消解及相关技术研究(硕士学位论文)。南京理工大学，2008BloehdomS．，Pet．ridisk，SimouN．，TzouvarasV，AvrithisY，HandschuhS．，KompatsiarisY，StaabS．，StrintzisM．G(2004)，KnowledgeRepresentationforSemanticMultimediaContentAnalysisandReasoning，ProceedingsoftheEuropeanWorkshopontheIntegrationofKnowledge，SemanticsandDigaalMediaTechnology．CalicJ．，CampbellN．，DasiopoulouS．，KompatsiarisV(2005)，ASurveyonMultimodalVideoRepresentationforSemanticRetrieval，theThirdInternationalConferenceonComputerasatool(Eurocon2005)，IEEE．C．GM．Snoek，M．Wowing，andA．W．Smeulders．Earlyversuslatefusioninsemanticvideoanalysis．InACMMultimedia，2005CIVR．http：／／www．civr2009．ore,／C．LForgy,RETE：Afastalgorithmforthemanypattern／manyobjectpatternmatchproblem，ArtificialIntelligence1982CuZero．http：／／www．ee．columbia．edu／ln／dvmm／researchProjects／MultimediaIndexing／cuzero／D．A．Shamma，R．Shaw,P．LShaflon，andY．Liu．“Watchwhat1watch：Usingcommunityactivitytoundersmndcontent",inProceedingsoftheACMSIGMMInternationalWorkshoponMultimediaInformationRetrieval，PP．275—284，Augsburg，Germany,2007．DongyanXu，Heung-KeungChaLCatherineRosenberg_,SunilKulkarni．AnalysisofaHyb^dArchitectureforCost-EffectiveStreamingMediaDistributionEeroHyv”onen，SamppaSaarela，andKimViiianen．Ontogator：CombiningView。andOntology-BasedSearchwithSemanticBrowsing，2003Fischlar-TV．http：／／www．fischlar．dcu．ie／index．htmlGreslePO，HuangTS，GistingofVideoDocuments，AKeyFramesSelectionAlgorithmUsingRelativeActivityMeasure，The2ndInt．Conf．onVisuallnformmionSystems，1997HaitaoJiang，AbdeiSalamHelal，SceneChangeDetectionTechniquesforVideo．。DatabasesSystems，MultimediaSystems1998(6)：186—19577 参考文献Hauptmann，A．，Yah，＆，Lin，W—H．，Christel，M．andWactlar,H．(2007)，‘Canhigh—levelconceptsfillthesemanticgapinvideoretrieval?aoasestudywithbroadcastnews’．IEEETransactionsonMultimedia9(5)，958-966．HongjiangZhang，”Content．basedVideoAnalysis，RetrievalAndBrowsing”，inMultimediaInformationRetrievalandManagement-TechnologicalFundamentalsandApplications，D．Feng，W．C．Sin，andH．J．Zhang．(ed．)，Springer,2002ISO／IECJTCI／SC29／WG1IN4039：MPEG一7Interoperability,ConformanceTestingandProfiling，Mar．2001．ISO／IECJTC1／SC29／WG1N6079：DefinitionofMPEG一7DescriptionProfiling，Oct．2003．Jena．hnp：／／jera．sourceforge．net／K．kMatusiak．‘'Towardsuser-centeredindexingindigitalimagecollections”，OCLCSystems&Services，v01．22，PP．263—296，2006．LSCOM．http：／／www．1scom．ore,／M．Bunge，TreatiseonbasicPhilosophy,OntologyI：TheFurnitureoftheWorld，v01．3，ReidelPublishingCo．，Boston，1977．MichaelA．Covington．AFundamentalAlgorithmforDependencyParsing，Proceedingsofthe39thAnnualACMSoutheastConfe：rence(2001)Mediamill．http：／／www．scienee．uva．nl／research／mediamill／index．phpM．I．Lutwyche，M．Despont，U．Drechsler,eta1．Highlyparalleldatastoragesystembasedonscanningprobearrays．APPLIEDPHYSICSLETTERSMPEGhttp：#www．mpeg．org／M．GuyandE．Tonkin．“Folksonomies：Tidyinguptags?”，D-LibMagazine，v01．12，Availableat：http：／／www．dlib．org／dlib／january06／guy／01guy．html，2006．Naphade，M．R．andSmith，J．R．(2004)．OnthedetectionofsemanticconceptsatTRECVID，in‘12thannualACMintemationalconferenceonMultimedia’，ACMPress，NewYork，NY,USA，PP．660-667．NISThttp：／／www．nist．gov／Oliva，A．，Torralba，A．：Modelingtheshapeofthescene：Aholisticrepresentationofthespatialenvelope．Int．J．Comput．Vision42(2001)145—175OWL．http：#www．w3．org／TIVowl-features／OracleBerkeleyDBhttp：／／www．oracle．com／technology／products／berkeley-db／index．htmlprot696．http：／／protege．stanford．edu／78 参考文献Pellet．http：／／clarkparsia．ecru／pellet／Quilt．http：／／quilt．sourceforge．net／RDFS．http：／／www．w3．org／TR／rdf-schcma／R．JainandA．Hampapur'‘‘Metadatainvideodatabases",ACMSIGMODRecord，v01．23，PP．27—33，1994．S．A．GolderandB．A．Huberman．‘'Thestructureofcollaborativetaggingsystems”，JournalofInformationScience，v01．32，PP．198—208，2006．SujataBanerjee，ZhichenXu，Sung-JuLee，ChunqiangTang．ServiceAdaptiveMulticastforMediaDistributionNetworks．thelThirdIEEEWorkshoponInternetApplicationsSPARQL．http：／／www．w3．org／TR／rdf-sparql—query／ShankarVembu，MalteKiesel，MichaelSintek，andStephanBaumann．TowardsBridgingtheSemanticGapinMultimediaAnnotationandRetrieval，2006Smeulders，A．，Worring，M．，Santini，S．，Gupta，A．andJain，R．(2000)，‘‘Content-basedimageretrieval：theendoftheearlyyears”，IEEETransactionsPattemAnalysisandMachineIntelligence22(12)，1349-1380．StephenDill，NadavEiron，DavidGibson，DanielGruhl，R．Guha，AnantJhingran，TapasKanungo，SridharRajagopalan，AndrewTomkins，JohnA．Tomlin，andJasonY．Zien．SemTagandSeeker：BootstrappingtheSemanticWebviaAutomatedSemanticAnnotation，ACM，2003TRECVID．http：／ttrecvid．nist。gov／Turtle．http：／／en．wikipedia．org／wiki／TurtleVideOlympics．http：／／www．videolympics．org／WolfWayne，KeyFrameSelectionbyMotionAnalysis，Proc．IEEEInt．Con￡onAcoustics，SpeechandSignalProe．，1996，7-10XSchema．http：Hwww．w3．org／XML／SchemaXQuery．http：／／www．w3．org／TR／xquery／XPath．http：／／www．w3．org／TR／xpath／XDM．http：／／www．w3．org／T1Uxpath-datamodel／Y．Song，X．．S．Hua，L．Dai，andM．Wang．Semi-automaticvideoannotationbasedonactivelearningwithmultiplecomplementarypredictors．InACMInternationalWorkshoponMultimediaInformationRetrieval，2005Yavlinsky,A．，Sehofield，E．，R—uger,S．：AutomatedImageAnnotationUsingGlobalFeaturesandRobustNonparametricDensityEstimation．InLeow,W：k，Lew,M⋯SChua，T．S．，Ma，w．Y，Chaisorn，L．，Bakker’E．M．，eds．：ImageandVideoRetrieval．Volume3568ofLNCS．，Singapore，Springer(2005)507—517 参考文献ZhangZ，WuJ，ZhongD，etal，AnIntegratedSystemforContent—basedVideoRetrievalandBrowsing，PatternRecognition，1997，30(4)：643 致谢本文的所有工作均是在郑老师无微不至的关心和精心的指导下完成的，老师在繁重的教学工作和项目管理之余，时刻关注我们的科研和生活情况，是我们真正的良师益友。对我在生活上和科研上的困难，郑老师一直以来给予我最大的宽容、理解和帮助，在此表示深深的感谢。在郑老师营造的宽松的学术环境，浓郁的学术氛围下，我的科研能力得到了显著的提高并取得了一定的科研成就，再一次向老师表示衷心的感谢和崇高的敬意。在参与分布式执行引擎的项目时，王雷老师给予我很多具体的指导和帮助，他精益求精的工作态度深深感染了我，让我受益匪浅，谢谢王老师。项目组的叶俊鹏，马林，吴彪等经常和我讨论各种问题，让我在增加能力的同时也收获了友谊，谢谢你们。硕士同窗郑小乐，吴伟，章文，王鹏，殷月伟，肖碧宇，李少波，周志伟，曾中魁，孙志军，袁婧，余燕飞，李伟等使我的研究生生活丰富多彩，谢谢诸位对我的帮助，并深深怀念与各位在一起快乐的时光，祝你们在工作上和科研上取得更大的成就。最后衷心感谢我的亲人。父母含辛茹苦把我抚养大，但是我到现在却不能让他们摆脱生活的困境，我感到深深的内疚和不安，在此仅以此文表达我对父母的爱。我尤其要感谢的是我的女朋友，她对我的关心，照顾让我可以免于琐事，专心研究，她对我的理解和支持永远是促进我前进的最大动力。，徐峰2010年4F]28日于科大81 在读期间发表的学术论文与取得的其他研究成果攻读硕士学位期间参加的科研课题[1】支持语义的海量视频数据空间的组织、存储于索引关键技术研究(国家863项目，项目编号：2008AA012147)【2】新一代业务运营管控协同支撑环境的开发(国家863项目，项目编号：2008AA01A317)【1】徐峰，郑炝。一种基于本体的视频语义检索系统研究。计算机应用(2010年第3期)[2】徐峰。第五届全国研究生数学建模竞赛三等奖(2008年12月)83</p> </div> <div class="mt-3 bg-white"> <div class="d-lg-block d-none px-3 px-lg-4 py-3 border-bottom text-center font-18"> 当前文档最多预览五页，下载文档查看全文 </div> <div class="detail-fixed-feature d-none d-lg-block" id="detailFixedFeatureBox"> <div class="px-3 px-lg-4 py-3 d-flex align-items-center justify-content-between fixed-feature-box" id="detailFixedFeature"> <div class="d-lg-flex d-none align-items-center"> <div> <a class="btn btn-outline-danger article-state" href="javascript:;" data-id="33301269" data-code="438274" data-title="一种支持语义的视频检索系统研究"> <span>侵权申诉</span> </a> <button type="button" class="btn btn-outline-secondary with-light ml-2" data-toggle="modal" data-target="#reportModal" data-id="33301269"><span>举报</span></button> </div> <nav class="d-flex align-items-center ml-4" id="anchorPoint"> <a href="javascript:;" class="btn btn-light anchor-pre px-2"><i class="iconfont text-muted"></i></a> <div class="text-muted mb-0 pre-point-list" id="prePointList"> <a class="px-2 active nav-link" href="#anchorImg0">1</a> <a class="px-2 nav-link" href="#anchorImg1">1</a> <a class="px-2 nav-link" href="#anchorImg2">2</a> <a class="px-2 nav-link" href="#anchorImg3">3</a> <a class="px-2 nav-link" href="#anchorImg4">4</a> <a class="px-2 nav-link" href="#anchorImg5">5</a> / <span class="px-2" id="prePageNums">84</span> </div> <a href="javascript:;" class="btn btn-light anchor-next px-2"><i class="iconfont text-muted"></i></a> </nav> </div> <div class="d-flex align-items-center"> <p class="d-lg-block d-none font-14 text-black-50 mb-0 mr-2">此文档下载收益归作者所有</p> <button class="btn btn-danger detail-download-btn px-3 ml-0 font-16" data-btn="downloadfile" style="width:128px;height:40px;" data-id="33301269" data-price="1000" data-size="4.24 MB" data-page="84页" data-type="pdf" data-binddown="true" data-isold="new_content" data-vip="0" data-title="一种支持语义的视频检索系统研究">下载文档</button> </div> </div> </div> </div> <div class="d-block d-lg-none px-3 px-lg-4 py-3 border-bottom text-center font-14" style="color:#999">当前文档最多预览五页，下载文档查看全文</div> <button class="btn d-block w-100 d-lg-none btn-danger detail-download-btn px-3 ml-0 font-16" data-btn="downloadfile" data-id="33301269" data-price="1000" data-size="4.24 MB" data-page="84页" data-type="pdf" data-binddown="true" data-isold="new_content" data-vip="0" data-title="一种支持语义的视频检索系统研究">点击下载本文档 </button> </div> <div class="px-3 px-lg-4 py-3 bg-white mt-3"> <ul class="nav custom-tab border-bottom" id="myTab" role="tablist"> <li class="nav-item" role="presentation"> <a class="nav-link active px-0 mr-4 font-16 font-weight-light pb-3" id="tips-tab" data-toggle="tab" href="#showTips" role="tab" aria-controls="showTips" aria-selected="true">版权提示</a> </li> <li class="nav-item" role="presentation"> <a class="nav-link px-0 pb-3 font-16 font-weight-light text-black-50" href="/d-33301269.html" >下载文档</a> </li> <dl class="flex-grow-1 mb-0 d-lg-none"> <li class="ml-3 float-right"> <button type="button" class="btn btn-light" data-toggle="modal" data-target="#reportModal" data-id="33301269"><span>举报</span></button> </li> </dl> </ul> <div class="tab-content with-content pt-3" id="myTabContent"> <div class="tab-pane fade show active font-14" id="showTips" role="tabpanel" aria-labelledby="showTips-tab"> 温馨提示： <br> 1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。<br> 2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。<br> 3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。<br> 4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。 <br> </div> </div> </div> <div class="mt-3 bg-white"> <div class="px-3 px-lg-4"> <div class=" py-2 border-bottom d-flex align-items-center justify-content-between"> <h5 class="font-16 my-2">最近更新</h5> <a class="font-14 hover-letter-spacing" href="/sitemaps/index.html" target="_blank" rel="nofollow">更多<i class="iconfont font-12 pl-1"></i></a> </div> </div> <ul class="mx-75 px-0 py-3 mb-0 row img-item-list"> <li class="font-14 col-lg-6 col-12 mx-0 my-0"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-docx" href="/p-66812951.html" title="2019司法考试心得体会_2" target="_blank">2019司法考试心得体会_2</a> </li> <li class="font-14 col-lg-6 col-12 mx-0 my-0"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-docx" href="/p-76094743.html" title="2017四川司法考试成绩及法律职业资格申请" target="_blank">2017四川司法考试成绩及法律职业资格申请</a> </li> <li class="font-14 col-lg-6 col-12 mx-0 my-0"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-doc" href="/p-66429739.html" title="2002~2009年司法考试国际经济法部分" target="_blank">2002~2009年司法考试国际经济法部分</a> </li> <li class="font-14 col-lg-6 col-12 mx-0 my-0"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-doc" href="/p-77579753.html" title="招生全国统一考试语文卷广东卷试题" target="_blank">招生全国统一考试语文卷广东卷试题</a> </li> <li class="font-14 col-lg-6 col-12 mx-0 my-0"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-docx" href="/p-64188479.html" title="招生全国统一考试(全国Ⅱ卷)语文试题" target="_blank">招生全国统一考试(全国Ⅱ卷)语文试题</a> </li> <li class="font-14 col-lg-6 col-12 mx-0 my-0"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-doc" href="/p-76616615.html" title="2010年度普通高等学校招生全国统一考试山东卷" target="_blank">2010年度普通高等学校招生全国统一考试山东卷</a> </li> <li class="font-14 col-lg-6 col-12 mx-0 my-0"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-docx" href="/p-75889990.html" title="北京专版20考历史复习方案第01篇第三部分世界史课时训练19封建时代的欧洲封建时代的亚洲国家试题" target="_blank">北京专版20考历史复习方案第01篇第三部分世界史课时训练19封建时代的欧洲封建时代的亚洲国家试题</a> </li> <li class="font-14 col-lg-6 col-12 mx-0 my-0"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-doc" href="/p-77579458.html" title="招生全国统一考试英语全国卷试题" target="_blank">招生全国统一考试英语全国卷试题</a> </li> <li class="font-14 col-lg-6 col-12 mx-0 my-0"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-docx" href="/p-76092472.html" title="徐州专版20考生物复习方案判断专练试题" target="_blank">徐州专版20考生物复习方案判断专练试题</a> </li> <li class="font-14 col-lg-6 col-12 mx-0 my-0"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-pptx" href="/p-73327863.html" title="2020年普通高等学校招生全国统一考试（江苏卷）（讲评课件）" target="_blank">2020年普通高等学校招生全国统一考试（江苏卷）（讲评课件）</a> </li> </ul> </div> <div class="detail-yourlike px-3 px-lg-4"> <div class="border-bottom d-flex align-items-center justify-content-between py-2"> <h5 class="font-16">大家都在看</h5> <a class="font-14 hover-letter-spacing" href="/today.html" target="_blank" rel="nofollow">近期热门<i class="iconfont font-12 pl-1"></i></a> </div> <ul class="row font-14" id="mayBeFllowArticle"> <li class="col-lg-6 px-0 px-lg-3"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-docx" href="/p-71188549.html" title="2007年国家司法考试试卷三" target="_blank">2007年国家司法考试试卷三</a> </li> <li class="col-lg-6 px-0 px-lg-3"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-doc" href="/p-68473748.html" title="司法考试民法讲义最新版" target="_blank">司法考试民法讲义最新版</a> </li> <li class="col-lg-6 px-0 px-lg-3"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-docx" href="/p-77469842.html" title="2017年普通高等学校招生全国统一考试(天津卷).doc" target="_blank">2017年普通高等学校招生全国统一考试(天津卷).doc</a> </li> <li class="col-lg-6 px-0 px-lg-3"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-pptx" href="/p-75357100.html" title="2021年普通高等学校招生全国统一考试乙卷语文试题讲评课件" target="_blank">2021年普通高等学校招生全国统一考试乙卷语文试题讲评课件</a> </li> <li class="col-lg-6 px-0 px-lg-3"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-doc" href="/p-77579756.html" title="招生全国统一考试语文卷湖南卷试题" target="_blank">招生全国统一考试语文卷湖南卷试题</a> </li> <li class="col-lg-6 px-0 px-lg-3"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-doc" href="/p-77578134.html" title="招生全国统一考试(广东卷)语文试题分析试题" target="_blank">招生全国统一考试(广东卷)语文试题分析试题</a> </li> <li class="col-lg-6 px-0 px-lg-3"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-pdf" href="/p-70210415.html" title="司法考试《法学》精选金题精讲附答案（方法论+理论法）" target="_blank">司法考试《法学》精选金题精讲附答案（方法论+理论法）</a> </li> <li class="col-lg-6 px-0 px-lg-3"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-pdf" href="/p-70210426.html" title="司法考试《宪法》备考口诀【打印版】" target="_blank">司法考试《宪法》备考口诀【打印版】</a> </li> <li class="col-lg-6 px-0 px-lg-3"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-doc" href="/p-75860645.html" title="2020年普通高等学校招生全国统一考试政治江苏卷无答案" target="_blank">2020年普通高等学校招生全国统一考试政治江苏卷无答案</a> </li> <li class="col-lg-6 px-0 px-lg-3"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-doc" href="/p-74206976.html" title="2021年度注册会计师全国统一考试大纲" target="_blank">2021年度注册会计师全国统一考试大纲</a> </li> <li class="col-lg-6 px-0 px-lg-3"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-docx" href="/p-64269086.html" title="报关员年度资格全国统一考试试题(doc27页)(正式版)" target="_blank">报关员年度资格全国统一考试试题(doc27页)(正式版)</a> </li> <li class="col-lg-6 px-0 px-lg-3"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-doc" href="/p-68926550.html" title="司法考试国际私法精华版考点归纳" target="_blank">司法考试国际私法精华版考点归纳</a> </li> <li class="col-lg-6 px-0 px-lg-3"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-doc" href="/p-68296713.html" title="司法考试易错考点278例" target="_blank">司法考试易错考点278例</a> </li> <li class="col-lg-6 px-0 px-lg-3"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-docx" href="/p-76091981.html" title="徐州专版20考地理复习方案专题训练01读图识图用图试题" target="_blank">徐州专版20考地理复习方案专题训练01读图识图用图试题</a> </li> <li class="col-lg-6 px-0 px-lg-3"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-doc" href="/p-77579713.html" title="招生全国统一考试语文(四川卷)精析版试题" target="_blank">招生全国统一考试语文(四川卷)精析版试题</a> </li> <li class="col-lg-6 px-0 px-lg-3"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-pdf" href="/p-69729837.html" title="【知识】国家司法考试《卷二》知识点大全" target="_blank">【知识】国家司法考试《卷二》知识点大全</a> </li> <li class="col-lg-6 px-0 px-lg-3"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-docx" href="/p-76092327.html" title="徐州专版20考生物复习方案第八单元降地生活课时训练20降地生活试题" target="_blank">徐州专版20考生物复习方案第八单元降地生活课时训练20降地生活试题</a> </li> <li class="col-lg-6 px-0 px-lg-3"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-docx" href="/p-64181401.html" title="国家司法考试法律法规汇编" target="_blank">国家司法考试法律法规汇编</a> </li> <li class="col-lg-6 px-0 px-lg-3"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-pdf" href="/p-69289596.html" title="2021年2021年2018年普通高等学校招生全国统一考试模拟语文试题(全国卷i)" target="_blank">2021年2021年2018年普通高等学校招生全国统一考试模拟语文试题(全国卷i)</a> </li> <li class="col-lg-6 px-0 px-lg-3"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-doc" href="/p-66511086.html" title="【司法考试】论交通肇事罪" target="_blank">【司法考试】论交通肇事罪</a> </li> </ul> </div> </div> <div class="detail-sidebar d-none d-lg-block"> <div id="columnDetailSiderRight"> <div class="detail-yourlike mt-0 pb-2" id="relativeArticle"> <div class="border-bottom py-2 d-flex align-items-center justify-content-between"> <h5 class="font-16">相关文章</h5> <a class="font-14 hover-letter-spacing" href="/ucenter/search/index.html?text=一种支持语义的视频检索系统研究" target="_blank" rel="nofollow">更多<i class="iconfont font-12 pl-1"></i></a> </div> <ul class="font-14 like-list"> <li class=""> <a class="text-ellipsis office-icon text-dark office-icon-pdf" href="/p-4215099.html" title="一种快速的xml语义检索算法" target="_blank"><span class="text-danger">一</span><span class="text-danger">种</span>快速<span class="text-danger">的</span>xml<span class="text-danger">语</span><span class="text-danger">义</span><span class="text-danger">检</span><span class="text-danger">索</span>算法</a> </li> <li class=""> <a class="text-ellipsis office-icon text-dark office-icon-docx" href="/p-28137433.html" title="基于语义的视频检索综述" target="_blank">基于<span class="text-danger">语</span><span class="text-danger">义</span><span class="text-danger">的</span><span class="text-danger">视</span><span class="text-danger">频</span><span class="text-danger">检</span><span class="text-danger">索</span>综述</a> </li> <li class=""> <a class="text-ellipsis office-icon text-dark office-icon-pdf" href="/p-33368771.html" title="基于语义自动标注算法的图像检索系统研究" target="_blank">基于<span class="text-danger">语</span><span class="text-danger">义</span>自动标注算法<span class="text-danger">的</span>图像<span class="text-danger">检</span><span class="text-danger">索</span><span class="text-danger">系</span><span class="text-danger">统</span><span class="text-danger">研</span><span class="text-danger">究</span></a> </li> <li class=""> <a class="text-ellipsis office-icon text-dark office-icon-pdf" href="/p-34447749.html" title="语义视频检索的现状和研究进展new" target="_blank"><span class="text-danger">语</span><span class="text-danger">义</span><span class="text-danger">视</span><span class="text-danger">频</span><span class="text-danger">检</span><span class="text-danger">索</span><span class="text-danger">的</span>现状和<span class="text-danger">研</span><span class="text-danger">究</span>进展new</a> </li> <li class=""> <a class="text-ellipsis office-icon text-dark office-icon-pdf" href="/p-34482664.html" title="语义视频检索综述" target="_blank"><span class="text-danger">语</span><span class="text-danger">义</span><span class="text-danger">视</span><span class="text-danger">频</span><span class="text-danger">检</span><span class="text-danger">索</span>综述</a> </li> <li class=""> <a class="text-ellipsis office-icon text-dark office-icon-pdf" href="/p-34587757.html" title="基于语义web的信息检索系统研究与实现" target="_blank">基于<span class="text-danger">语</span><span class="text-danger">义</span>web<span class="text-danger">的</span>信息<span class="text-danger">检</span><span class="text-danger">索</span><span class="text-danger">系</span><span class="text-danger">统</span><span class="text-danger">研</span><span class="text-danger">究</span>与实现</a> </li> <li class=""> <a class="text-ellipsis office-icon text-dark office-icon-pdf" href="/p-34667803.html" title="语义视频检索的现状和研究进展18089" target="_blank"><span class="text-danger">语</span><span class="text-danger">义</span><span class="text-danger">视</span><span class="text-danger">频</span><span class="text-danger">检</span><span class="text-danger">索</span><span class="text-danger">的</span>现状和<span class="text-danger">研</span><span class="text-danger">究</span>进展18089</a> </li> <li class=""> <a class="text-ellipsis office-icon text-dark office-icon-pdf" href="/p-34824967.html" title="小议基于语义的构件检索系统研究与实现" target="_blank">小议基于<span class="text-danger">语</span><span class="text-danger">义</span><span class="text-danger">的</span>构件<span class="text-danger">检</span><span class="text-danger">索</span><span class="text-danger">系</span><span class="text-danger">统</span><span class="text-danger">研</span><span class="text-danger">究</span>与实现</a> </li> <li class=""> <a class="text-ellipsis office-icon text-dark office-icon-pdf" href="/p-35071188.html" title="基于隐语义模型的网络视频推荐系统研究" target="_blank">基于隐<span class="text-danger">语</span><span class="text-danger">义</span>模型<span class="text-danger">的</span>网络<span class="text-danger">视</span><span class="text-danger">频</span>推荐<span class="text-danger">系</span><span class="text-danger">统</span><span class="text-danger">研</span><span class="text-danger">究</span></a> </li> <li class=""> <a class="text-ellipsis office-icon text-dark office-icon-docx" href="/p-43554429.html" title="支持语义的分布式视频检索系统的设计与实现" target="_blank"><span class="text-danger">支</span><span class="text-danger">持</span><span class="text-danger">语</span><span class="text-danger">义</span><span class="text-danger">的</span>分布式<span class="text-danger">视</span><span class="text-danger">频</span><span class="text-danger">检</span><span class="text-danger">索</span><span class="text-danger">系</span><span class="text-danger">统</span><span class="text-danger">的</span>设计与实现</a> </li> </ul> </div> <div class="detail-yourlike pb-2"> <div class="border-bottom py-2"> <h5 class="font-16">相关标签</h5> </div> <ul class="font-14 like-list d-flex flex-wrap"> <a class="search-tag" href="/tags/695424/" target="_blank">检索系统</a> <a class="search-tag" href="/tags/963496/" target="_blank">语义</a> <a class="search-tag" href="/tags/540311/" target="_blank">视频</a> <a class="search-tag" href="/tags/540422/" target="_blank">支持</a> <a class="search-tag" href="/tags/540313/" target="_blank">研究</a> <a class="search-tag" href="/tags/968112/" target="_blank">一种</a> </ul> </div> <a class="detail-sidebar-gg d-block rounded" href="https://www.ttzyw.com/" target="_blank"><img src="https://www.wenku365.com/d/file/2021/09-08/8ae594f962021288bbd21ce8e5e2f6e6.jpg"></a> </div> </div> </div>  <div class="d-lg-none m-footer"> <div class="container d-flex justify-content-between align-items-center bg-white border-top flex-nowrap pr-3"> <div class="flex-1 pr-3 text-secondary d-flex align-items-center" style="line-height: 1"> <a class="text-center px-3 d-block mr-2" href="/"> <i class="iconfont d-block font-24 text-muted"></i> <p class="font-12 text-muted mb-0 mt-1">首页</p> </a> <div class="text-center px-3 mr-2" id="shareModal"> <i class="iconfont d-block font-24 text-muted"></i> <p class="font-12 text-muted mb-0 mt-1">分享</p> </div> <div class="text-center px-3 copyWebsite"> <i class="iconfont d-block font-24 text-muted"></i> <p class="font-12 text-muted mb-0 mt-1">客服</p> </div> </div> <button class="btn btn-danger px-4 py-2 flex-shrink-0" data-btn="downloadfile" data-mobile="true" data-id="33301269" data-price="1000" data-size="4.24 MB" data-page="84页" data-type="pdf" data-binddown="true" data-isold="new_content" data-vip="0" data-title="一种支持语义的视频检索系统研究">下载本文档</button> </div> </div>  <div aria-live="polite" aria-atomic="true" class="toast-area"></div>   <div class="modal m-fullscreen-modal" id="viewModal" tabindex="-1" role="dialog" aria-labelledby="viewModalLabel" aria-hidden="true"> <div class="modal-dialog modal-dialog-scrollable modal-dialog-centered"> <div class="modal-content pt-0"> <div class="modal-header"> <h5 class="modal-title text-ellipsis">暂无标题</h5> <button type="button" class="close" data-dismiss="modal" aria-label="Close"> <span aria-hidden="true">×</span> </button> </div> <div class="modal-body empty-box-2" data-target="#dataLoading"> <div id="viewImgBox"></div> <button class="btn" id="dataLoading" data-close="#viewModal"> </button> </div> </div> </div> <div class="view-modal-features"> <div> <a class="btn btn-light article-viewall" target="_blank"><i class="iconfont"></i></a> </div> <div> <a class="btn btn-light article-collection" tabindex="-1" role="button" aria-disabled="false" data-close="#viewModal"><i class="iconfont"></i></a> </div> <div> <a class="btn btn-light article-download" data-body="true" data-btn="downloadfile" data-dismiss="modal"><i class="iconfont"></i></a> </div> </div> </div>  <div class="modal fade m-fullscreen-modal" id="reportModal" tabindex="-1" role="dialog" aria-labelledby="reportModalLabel" aria-hidden="true"> <div class="modal-dialog modal-dialog-scrollable modal-dialog-centered"> <div class="modal-content pt-0"> <div class="modal-header"> <h5 class="mb-0">举报</h5> <button type="button" id="closeReportModal" class="close" data-dismiss="modal" aria-hidden="true">×</button> </div> <div class="modal-body"> <div class="modal-custom-box px-0 px-lg-4"> <form id="reportForm" data-logintype="normal"> <div class="d-flex mb-4 align-items-center"> <p class="require flex-shrink-0">举报原因</p> <label class="flex-grow-1"> <select class="custom-select" id="reportReason" name="title" class="rounded"> <option selected hidden disabled value="" class="text-secondary">请选择举报原因</option> <option value="涉及党政历史">涉及党政历史</option> <option value="歪曲党史、新中国史、改革开放史、社会主义发展史">歪曲党史、新中国史、改革开放史、社会主义发展史</option> <option value="文档内容质量低下无意义">文档内容质量低下无意义</option> <option value="内容中含有违法信息如（涉恐，色情，低俗等）">内容中含有违法信息如（涉恐，色情，低俗等）</option> </select> <div></div> </label> </div> <input type="hidden" name="id" value="33301269"/> <div class="d-flex mb-4 align-items-center"> <p class="require">联系方式</p> <label class="flex-grow-1"> <input type="text" placeholder="请输入您的手机号" id="reportContract" name="tel" class="rounded"> <div></div> </label> </div> <div class="d-flex align-items-center mb-4"> <p class="require">详细说明</p> <label class="flex-grow-1"> <textarea type="text" placeholder="请输入举报原因" id="reportDetail" name="content" class="rounded"></textarea> <div></div> </label> </div> <div class="mt-4 d-flex align-items-center justify-content-between" style="padding-left: 83px"> <button class="btn btn-primary submit mt-0 px-5 flex-shrink-0" style="width: auto" type="button">提交</button> <p class="mb-0 ml-3">内容无法转码请<button type="button" class="btn btn-sm btn-outline-primary ml-2" id="reEncode">点击此处</button></p> </div> </form> </div> </div> </div> </div> </div>  <div class="modal fade m-fullscreen-modal" id="rechargeEnoughModal" tabindex="-1" role="dialog" aria-labelledby="rechargeEnoughModaLabel" data-backdrop="static" data-keyboard="false" aria-hidden="true"> <div class="modal-dialog modal-dialog-scrollable modal-dialog-centered"> <div class="modal-content pt-0"> <div class="modal-header"> <h5 class="mb-0">文档下载</h5> <button type="button" id="closeRechargeEnoughModal" class="close" data-dismiss="modal" aria-label="Close"> × </button> </div> <div class="modal-body"> <div class="px-3 py-2 bg-light"> <a href="" class="font-14 text-ellipsis-2 mb-0 text-dark">一种支持语义的视频检索系统研究</a> </div> <div class="text-dark font-14 text-center mt-3"> 我的金币余额：<b class="text-danger user-balance">0.00</b></div> <div class="text-dark text-center mt-2 font-16">下载文档需要支付金币<b class="text-danger user-pay-money">10</b></div> <div class="mt-5 text-center"> <button class="btn btn-primary px-5 lianquanPay" data-id="33301269" data-price="10" data-page="84页" data-type="pdf" data-binddown="true" data-isold="new_content" data-vip="0" data-title="一种支持语义的视频检索系统研究">确定支付并下载</button> </div> </div> </div> </div> </div>  <div class="modal fade m-half-fullscreen-modal custom-modal-dialog" id="rechargeUnLoginImportPhone" tabindex="-1" role="dialog" aria-labelledby="rechargeEnoughModaLabel" aria-hidden="true"> <div class="modal-dialog modal-dialog-centered"> <div class="modal-content"> <div class="modal-header w-100"> <h5 class="mb-0">请先输入手机号</h5> <button type="button" class="close" data-dismiss="modal" aria-label="Close">×</button> </div> <div class="modal-body"> <form> <label> <i class="iconfont text-secondary"></i> <input type="text" placeholder="请输入手机号" id="importPhone" name="phone"> </label> </form> <div class="mt-5 text-center"> <button class="btn btn-primary px-5" id="rechargeUnLoginSurePhone">确定</button> </div> </div> </div> </div> </div> <div id="mobilePayBox" class="mobile-pay-box"></div> <div id="closeAlipay" class="close-ali-pay">关闭</div> <footer> <div class="container d-none d-lg-block mb-4"> <div class="d-flex justify-content-between footer-nav"> <ul class="d-flex foot-nav"> <li> <h5>常见问题</h5> <a class="text-decoration-none help-nav-item" href="/help/wenti/upload/" data-name="关于上传" target="_blank">关于上传</a><a class="text-decoration-none help-nav-item" href="/help/wenti/xiazai/" data-name="关于下载" target="_blank">关于下载</a><a class="text-decoration-none help-nav-item" href="/help/wenti/qinquan/" data-name="关于侵权" target="_blank">关于侵权</a><a class="text-decoration-none help-nav-item" href="/help/wenti/fenxaing/" data-name="文档上传教程" target="_blank">文档上传教程</a> </li> <li> <h5>关于我们</h5> <a class="text-decoration-none help-nav-item" href="/help/about/wzjs/" data-name="网站介绍" target="_blank">网站介绍</a><a class="text-decoration-none help-nav-item" href="/help/about/gywm/" data-name="关于我们" target="_blank">关于我们</a><a class="text-decoration-none help-nav-item" href="/help/about/lxwm/" data-name="联系我们" target="_blank">联系我们</a> </li> <li> <h5>版权问题</h5> <a class="text-decoration-none help-nav-item" href="/help/banquan/bqsm/" data-name="版权声明" target="_blank">版权声明</a><a class="text-decoration-none help-nav-item" href="/help/banquan/qqcl/" data-name="侵权处理" target="_blank">侵权处理</a><a class="text-decoration-none help-nav-item" href="/help/banquan/mzsm/" data-name="免责声明" target="_blank">免责声明</a> </li> <li> <h5>协议条款</h5> <a class="text-decoration-none help-nav-item" href="/help/xieyi/yhxy/" data-name="用户协议" target="_blank">用户协议</a><a class="text-decoration-none help-nav-item" href="/help/xieyi/fwtk/" data-name="用户服务条款" target="_blank">用户服务条款</a><a class="text-decoration-none help-nav-item" href="/help/xieyi/ysbh/" data-name="用户隐私保护" target="_blank">用户隐私保护</a> </li> <li> <h5>网站导航</h5> <a class="text-decoration-none help-nav-item" href="/sitemaps.xml" data-name="网站地图" target="_blank">网站地图</a> <a class="text-decoration-none help-nav-item" href="/list.html" data-name="全部分类" target="_blank">全部分类</a> <a class="text-decoration-none help-nav-item" href="/sitemaps/index.html" data-name="资源地图" target="_blank">资源地图</a> </li> </ul> <div class="foot-qrcode d-flex"> <div> <div class="subsitute-bg"><img src="https://www.wenku365.com/d/file/2022/07-08/f23df57d987ef7ad9acb33fe5abf9854.jpg"></div> <p>关注公众号<br></p> </div> </div> </div> </div> <div class="footer-copyright"> <p><a href="/" target="_blank">天天文库</a>定位于知识共享平台，用户可以上传优质的文档内容，提供知识服务，本平台完成后续的宣传推广、内容分发、知识创收等工作，为更多的知识创作者创造价值。</p> <p>本平台严格对内容的质量进行把关，为了能够健康、平衡的发展。如果您的权利被侵害，请联系我们的客服进行举报。客服QQ：3074922707 欢迎举报。</p> <p>Copyright 2004-2023 <a href="https://www.wenku365.com/" target="_blank">wenku365.com</a> All Rights Reserved <a href="https://beian.miit.gov.cn/#/Integrated/index" rel="nofollow" target="_blank">闽ICP备15016911号-5 </a></p> <p>闽公网安备 <a href="http://www.beian.gov.cn/portal/registerSystemInfo?recordcode=35052402000320" rel="nofollow" target="_blank">35052402000320</a></p> <p> <a href="https://www.wenku365.com/zt.html" target="_blank">专题文集</a> <a href="https://www.wenku365.com/zt-90007.html" target="_blank">丨职业培训</a> <a href="https://www.wenku365.com/zt-90005.html" target="_blank">丨实用范文</a> <a href="https://www.wenku365.com/zt-90010.html" target="_blank">丨商业材料</a> <a href="https://www.wenku365.com/zt-90013.html" target="_blank">丨合同协议</a> <a href="https://www.wenku365.com/zt-90009.html" target="_blank">丨PPT专题</a></p> </div> </footer> <script> if (/Android|webOS|iPhone|iPod|mobile|BlackBerry|ucweb|SymbianOS/i.test(navigator.userAgent)) { var _hmt = _hmt || []; (function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?4632cf11732a8c1c3d1dc47558ae7444"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })(); } else{ var _hmt = _hmt || []; (function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?3b8c97f8bd7ac4a9ba9ae67ec48cab62"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })(); } </script> </body> <script src="//static.wenku365.com/wenku365/js/global.min.js?1.0.7"></script> <script src="//static.wenku365.com/wenku365/js/clipboard.min.js?1.0.7"></script> <script src="//static.wenku365.com/wenku365/js/jquery.treeview.js?1.0.7"></script> <script src="//static.wenku365.com/wenku365/js/jquery.share.min.js?1.0.7"></script> <script src="//static.wenku365.com/wenku365/js/common.min.js?1.0.7"></script> <script src="//static.wenku365.com/wenku365/js/downloadFile.js?1.0.7"></script> <script src="//static.wenku365.com/wenku365/js/loginWindow.js?1.0.7"></script> <script src="//static.wenku365.com/wenku365/js/windowRecharge.js?1.0.7"></script> <script src="//static.wenku365.com/wenku365/js/viewer.min.js?1.0.7"></script> <script src="//static.wenku365.com/wenku365/js/detail.js?1.0.7"></script> <script src='/wenku/onclick/33301269'></script> </html>