基于rsm的网页间语义链网络构建方法研究

基于rsm的网页间语义链网络构建方法研究

ID:12391684

大小:1.62 MB

页数:68页

时间:2018-07-16

基于rsm的网页间语义链网络构建方法研究_第1页
基于rsm的网页间语义链网络构建方法研究_第2页
基于rsm的网页间语义链网络构建方法研究_第3页
基于rsm的网页间语义链网络构建方法研究_第4页
基于rsm的网页间语义链网络构建方法研究_第5页
资源描述:

《基于rsm的网页间语义链网络构建方法研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、上海大学硕士学位论文ThePostgraduateThesisofShanghaiUniversity中图分类号:TP391单位代号:11903密级:学号:07720850硕士学位论文SHANGHAIUNIVERSITYMASTER’SDissertation题目基于RSM的网页间语义链网络构建方法研究作者学科专业计算机应用技术导师完成日期2010年2月上海大学硕士学位论文ThePostgraduateThesisofShanghaiUniversity上海大学本论文经答辩委员会全体委员审查,确认符合上海大学硕士学位论文质量要求。答辩委员会签名:主任

2、:委员:导师:答辩日期:上海大学硕士学位论文ThePostgraduateThesisofShanghaiUniversity原创性声明本人声明:所呈交的论文是本人在导师指导下进行的研究工作。除了文中特别加以标注和致谢的地方外,论文中不包含其他人已发表或撰写过的研究成果。参与同一工作的其他同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。签名:___________日期__________本论文使用授权说明本人完全了解上海大学有关保留、使用学位论文的规定,即:学校有权保留论文及送交论文复印件,允许论文被查阅和借阅;学校可以公布论文的全

3、部或部分内容。(保密的论文在解密后应遵守此规定)签名:__________导师签名:________日期:__________上海大学硕士学位论文ThePostgraduateThesisofShanghaiUniversity上海大学工学硕士学位论文基于RSM的网页间语义链网络构建方法研究硕士生:导师:学科专业:计算机应用技术上海大学计算机工程与科学学院2010年2月上海大学硕士学位论文ThePostgraduateThesisofShanghaiUniversityADissertationSubmittedtoShanghaiUniversit

4、yfortheDegreeofMasterinEngineeringResearchontheMethodofBuildingSemanticLinkNetworkofWebPageBasedRSMM.D.Candidate:Supervisor:Major:ComputerApplicationTechnologySchoolofComputerEngineeringandScience,ShanghaiUniversityFeb,2010上海大学硕士学位论文ThePostgraduateThesisofShanghaiUniversity摘要随着

5、Internet及其相关技术的发展,互联网上出现了海量的、异构的web信息资源,当前的通用搜索引擎虽然在很大程度了解决了人们在互联网上查找信息困难的问题,但是随着web信息指数化地增长,不能满足用户个性化的需求,于是出现了很多基于某一特定领域的垂直搜索引擎,但是这种垂直搜索引擎还是没有改变基于关键词简单匹配的性质。在谷歌、百度等通用搜索引擎中检索时返回的结果集的数量非常大,而且这些网页间缺少语义联系,有时难以获取到有用的信息。目录式门户网站主要工作是对网页进行分类,手工分类方式工作量大且更新慢,同样分类好的网页都是独立的缺少与其他网页之间的联系。针对

6、传统网页间缺少语义联系这一问题,本文对网页间的语义链网络构建方法进行了研究,提出了一种用来组织管理海量异构web信息的方法,使网页之间建立起一种语义关系,而非传统网页中仅有的一个链接关系。本文首先根据网页的五维正交信息基于资源空间模型(RSM-ResourceSpaceModel)表示网页,达到多方面研究网页信息的效果,根据网页标签的权重信息提出了一个改进的TFIDF(TermFrequencyInverseDocumentFrequency)公式来计算关键词权重,并利用信息熵验证了算法的可靠性,提出了动态K值选择的KNN(K-NearestNeig

7、hbor)分类算法,解决了KNN算法K值选择难的问题。其次,根据行业中普遍存在着的产业链这一经济特性建立网页主题间的语义链网络,本文定义了网页主题间三种语义链关系:上位关系、下位关系和同位关系,分析了这三种关系的自反性、对称性和传递性特点,以及推导出这三种关系间的九条规则,并引入了产业链中主题间距离的概念。最后,定义了网页间的两种语义关系:相似关系和关联关系,其中相似关系是同一个类别下的网页间存在的关系,而关联关系则是通过网页主题间的语义链网络建立起来的网页间语义关系,针对不同类别下网页间含有的共同关键词比较少的情况,本文还提出了一种空间向量模型间关

8、联关系的关联度算法,最终建立了网页间的语义链网络。通过建立网页间的语义链网络,为海量异构的Web网页间建立了

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。