基于维基百科的语义web搜索技术研究

基于维基百科的语义web搜索技术研究

ID:11425773

大小:1.24 MB

页数:53页

时间:2018-07-11

基于维基百科的语义web搜索技术研究_第1页
基于维基百科的语义web搜索技术研究_第2页
基于维基百科的语义web搜索技术研究_第3页
基于维基百科的语义web搜索技术研究_第4页
基于维基百科的语义web搜索技术研究_第5页
资源描述:

《基于维基百科的语义web搜索技术研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、分类号:TP393520.6099密级:天津理工大学研究生学位论文基于维基百科的语义Web搜索技术研究(申请硕士学位)学科专业:计算机应用技术研究方向:信息检索作者姓名:刘朋杰指导教师:赵德新ThesisSubmittedtoTianjinUniversityofTechnologyfortheMaster’sDegreeSemanticWebsearchtechnologybasedonWikipediaByPengjieLiuSupervisorDexinZhao独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研

2、究工作和取得的研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得天津理工大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。学位论文作者签名:签字日期:年月日学位论文版权使用授权书本学位论文作者完全了解天津理工大学有关保留、使用学位论文的规定。特授权天津理工大学可以将学位论文的全部或部分内容编入有关数据库进行检索,并采用影印、缩印或扫描等复制手段保存、汇编,以供查阅和借阅。同意学校向国家有关部门或机构

3、送交论文的复本和电子文件。(保密的学位论文在解密后适用本授权说明)学位论文作者签名:导师签名:摘要目前的Web搜索技术是基于关键词的搜索,信息的查全率和精确度仍然不能满足用户的需求,其效果常常不能使人满意。这是由于在Web搜索过程中,缺乏搜索引擎可读的语义信息,因而限制了计算机自动分析处理以及进一步的智能化处理的能力。因此,为了提高搜索引擎检索信息的精准度和智能性,传统的基于关键字的搜索引擎要向更智能的语义检索方向发展。语义搜索要有一个概念的语义空间网络作为支撑,维基百科(Wikipedia)是一个开放式的在线百科全书,它是世

4、界最大的包含了大量人类知识和语义关系的知识库资源。如何充分利用维基百科的知识,为现有的搜索技术添加语义处理能力,优化信息检索过程,即成为本论文的研究课题。本文主要的工作如下:首先,针对维基百科中的信息组织及结构特点,抽取出语义信息。对维基百科数据的处理,我们应用了大数据处理的技术,构建了基于Hadoop的维基数据包处理云平台。通过建立一套基于对象模型的应用程序接口,得到了维基百科主题页面中我们感兴趣的语义信息,包括概念、类别、链接、摘要段(主题页面的第一段),这为后续的语义相关度计算提供了必要的结构性和内涵性信息。本文的处理技

5、术还能为以后的维基百科大数据处理提供借鉴。其次,提出了一种计算词条语义相关度的新方法,称为WLA算法(WikipediaLinkandAbstract)。在上述对维基百科抽取出相关信息的基础上,我们重点研究了链接关系和摘要段的内容。链接关系(包括入链和出链)与摘要段公共词的特征能很好地反映出概念之间的联系,通过对其分别赋以不同的权重,实验结果显示WLA的Spearman相关系数达到了0.68,取得了令人满意的结果。最后,开发了语义搜索系统的原型。将我们提出的WLA算法集成到系统中,实现了能够提供普通用户和语义研究人员进行语义搜

6、索的平台。该搜索系统以维基百科对词语的解释为背景知识,包括语义计算,语义概念查询和文本注释三大功能。语义计算功能可计算出词条语义相关性;语义概念查询系统提供基于维基百科的语义词典功能,对偏生词,多义词,歧义词进行语义解释,可以帮助用户扩展知识,能够增强搜索引擎处理查询的能力;文本注释功能对短文本中的专有名称进行注解,只要文本中的词条在维基百科有与之对应的主题页面,那么系统会对该词条进行注解并加入链接功能。该原型可作为语义搜索相关研究的测试平台。关键词:维基百科语义计算搜索引擎AbstractBecausethecurrentW

7、ebsearchtechnologyisbasedonkeywords,itoftenfailstomeetuser’sneedsduetoinformation’srecallratioandaccuracyfarbelowpeople’sexpectancy.ForlackingofreadablesemanticinformationduringWebsearch,thereforeitlimitstheabilityofcomputertoautomaticallyanalyzeandfurtherprocessint

8、elligently.Thence,aimingatimprovingtheaccuracyandintelligenceofsearchengine,wewouldliketoshiftoursearchenginefromatraditionalbasedonkeywor

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。