探索事件垂直搜索引擎的研究与实现

探索事件垂直搜索引擎的研究与实现

ID:34775904

大小:5.47 MB

页数:80页

时间:2019-03-10

探索事件垂直搜索引擎的研究与实现_第1页
探索事件垂直搜索引擎的研究与实现_第2页
探索事件垂直搜索引擎的研究与实现_第3页
探索事件垂直搜索引擎的研究与实现_第4页
探索事件垂直搜索引擎的研究与实现_第5页
资源描述:

《探索事件垂直搜索引擎的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中山大学硕士学位论文事件垂直搜索引擎的研究与实现姓名:刘锦标申请学位级别:硕士专业:计算机应用技术指导教师:王常吉20080508中山大学硕士毕业论文事件垂直搜索引擎的研究与实现计算机应用技术刘锦标王常吉副教授摘要在信息膨胀的W曲2.O狂潮之下,Goo百e、Baidu等针对所有用户以及所有主题的通用搜索引擎越来越力不从心,原因如下:通用搜索引擎只根据用户输入的关键字搜索难以准确理解用户的需求,从而导致搜索的结果往往不是用户所需要的;通用搜索引擎面向的是互联网上所有主题的网页,不可能做到面面俱到;通用搜索引擎面向的最小单位是网页,搜索结果对某些特定需求的用户来说往往不是最

2、贴切的。在这种情况下,垂直搜索应运而生。垂直搜索针对某些行业搜索需求的用户,提供专业化的搜索服务。概括地说,垂直搜索提供的是对某一个特定行业的搜索。它只抓取某一主题的领域网站,并且把网站的信息分类、去重、分词并结构化成所谓的元数据,经过深度的加工处理、优化,并在返回用户查询结果时提供良好的用户体验。以往的垂直搜索往往只针对静态的物体进行搜索,如租房,餐饮等,但当今社会是不断变化的社会,用户往往很想知道周边的资讯事件。这种领域的搜索本身是符合用户需求和富有创新的。本文的垂直搜索主要是为用户提供对事件的关于空间和时间两个维度的搜索。本文在深入研究垂直搜索引擎技术的同时,对架

3、构进行了精细的设计,设计并实现了一个分布式爬虫的事件垂直搜索系统,并提出了一种基于规则和图路径的地址分词算法。在对事件对象的排序研究上,提出了一种基于PageRank和PopRank的HotRank的排序算法,它对对象间不同的同类引用赋予不同的权重。实验表明,HotRank模型能够有效地提高PopRank的排序准确率。关键词:垂直搜索引擎,爬虫,中文地址分词,PopRaIll(,HotRank中山人学硕.1:毕业论文事件垂直搜索引擎的研究与实现ResearchandImplementationofanEVelltV缸icalSe鲫chEn百neComputerAppli

4、cationTecllIlologyJinBiaoLiuAssociateProfessorChan自iWangABSTRACTAlongwitht11erapidexpansionofW曲2.0,Goo百e,Baiduandomergeneralsearchen西nes,、礼ichfacetothealll(indsoftheusersaJldallkindofmetopics,arcincreasin酉yinsu衔cient.Thereasonsareasfollow:firstlXitisdi伍cultforthegenemlsearChen西neto如11y吼d

5、erstalldtheneedoftheusersonlybytllekeywordiIlputtedbytheusers.Itmi曲t1eadstheinappropriatesearchresultt0tlleusers.Secondly'thegeneralsearchen百nescouldnotdowellinaUdomainsoftheint锄et.Thirdly,becausethesearchresultproVidedbyt11egeneralsearchen西neconsistsofpagesasitsminimumunits,itcouldrlotm

6、eettheuserSwimsomespecificneed.Undersuchcircumstances,Venicalsearchen百necomesout.V缸icalsearchen百neaimsatthecertainuserSinsomespecificdomainsa11dpmVidesspecializedsearchseⅣices.Generallyspeal(ing,meVenicalsearchen百neproVidessearchservicesforapaniculardomain.ItcrawlsmewebsitesofoneSpecific

7、domain,retrievesarldclassifiestheinfomationdata丹ommepages,segmentsandrecomposesthedatatometadata,觚dproVidesabettersearcheXperiencetousers.Fo册erVenica】searchen百neS011lyproVidesearchserviceeitherforstaticdata,suchaSrestaurant,houserenting.HoweV%today’ssocietychallgesconstan

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。