基于本体的网络爬虫设计及应用

基于本体的网络爬虫设计及应用

ID:35066284

大小:4.50 MB

页数:63页

时间:2019-03-17

基于本体的网络爬虫设计及应用_第1页
基于本体的网络爬虫设计及应用_第2页
基于本体的网络爬虫设计及应用_第3页
基于本体的网络爬虫设计及应用_第4页
基于本体的网络爬虫设计及应用_第5页
资源描述:

《基于本体的网络爬虫设计及应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、%毛击如成杳UNVERSITYOFELECTRONICSCIENCEANDTECHNOLOGYOFCHINAI专业学位硕±学位论文MASTERTHESISFORPROFESSIONALDEGREE''■I论文题目基于本体的网鑛爬虫设计及应用专业学位类别工程硕±学号201192040402作者姓名谭啸指导教师董宇亮副教授独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加W标注和致谢的地方外,?

2、论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得电一子科技大学或其它教育机构的学位或证书而使用过的材料。与我同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示谢意。。。;:作者签名_日期>(年了月令日自论文使用授权本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定,,有权保留并向国家有关部口或机构送交论文的复印件和磁盘化许论文被查阅和借阅。本人授权电子科技大学可W将学位论文的全部或部分内容编入有关数据库进行检索,可采用影印、缩印或扫描等复制手段保存、汇编学位论文。,

3、(保密的学位论文在解密后应遵守此规定)作者签名:_。若导肺慾么:^平曰期:又/^^年备月7曰分类号密级注1UDC学位论文基于本体的网络爬虫设计及应用谭啸指导教师董宇亮副教授电子科技大学成都夏宏高级工程师四川通信服务有限公司成都申请学位级别硕士专业学位类别工程硕士工程领域名称软件工程提交论文日期2015.3.15论文答辩日期2015.6.15学位授予单位和日期电子科技大学2015年6月答辩委员会主席评阅人注1:注明《国际十进分类法UDC》的类号。DesignandApplicationofOntology-basedWebCrawlerAMast

4、erThesisSubmittedtoUniversityofElectronicScienceandTechnologyofChinaMasterofEngineeringMajor:XiaoTanAuthor:YuLiangDongSupervisor:School:SchoolofPhysicalElectronics摘要摘要过去的几十年里,我们一起见证了因特网的迅猛发展和网络信息的不断膨胀。但是随着信息量的逐渐增加,传统的网络爬虫已经不能很好地满足用户对爬虫性能的需求。因此基于本体的网络爬虫应运而生,它的出现很大程度地提高了爬虫对某个领域的查准率。而

5、本体在网络爬虫中的应用,大大减小了一词多义给主题爬虫带来的不精确性。目前,基于本体的网络爬虫技术还不够成熟,在一些大型的搜索引擎中并未采用此技术。不过随着搜索引擎技术不断的发展和人们对网络搜索技术要求的提高,基于本体的网络爬虫将会为未来的搜索领域开辟一块新的天地。本文对基于本体的网络爬虫进行了深入的研究。在详细地阐述了网络爬虫和本体论的知识之后,全面地介绍了基于本体网络爬虫的模型,并且对模型各个模块进行了详细的分析。同时本文结合国内外对基于本体网络爬虫的研究,提出了构建基于本体网络爬虫的基本方法。本文完成的工作具体如下:首先,本文结合了本体论的基本知识,选取

6、了计算机教育领域作为本体,对该领域进行了全面的分析并且使用开源软件Protégé来构建基于网络本体语言(OWL)的本体模型。其次,本文详细地介绍了空间向量模型。该方法将页面和本体用向量来表示,通过计算向量之间的夹角来衡量链接与领域之间的相关度。接着,本文采用了Java语言来实现基于本体的网络爬虫系统,并且将本体论的知识,向量模型,与网络爬虫的技术相结合,全面地介绍了基于本体网络爬虫的每一个模块的实现细节。最后,本文对网络爬虫爬取的信息进行了全面的分析,用查准率与查全率作为本体爬虫性能的衡量指标。综合地展示了基于本体的网络爬虫的性能。通过实验结果我们可以看出,

7、基于本体的网络爬虫在查准率上要比传统的网络爬虫高很多。采用这种网络爬虫将可以对某个领域的网页面进行定向的搜集,从而为基于主题的搜索引擎提供页面基础。关键词:网络爬虫,本体,搜索引擎,查准率IABSTRACTABSTRACTOverthepastfewdecades,wewitnessaremarkabledevelopmentinInternetandexpansionofnetworkinformation.Butwiththeincreasingofinformation,thetraditionalwebcrawlercannolongersatisf

8、ytheperformanceneedsofuser

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。