deep web集成查询系统预处理关键技术研究

deep web集成查询系统预处理关键技术研究

ID:32815261

大小:6.74 MB

页数:70页

时间:2019-02-16

deep web集成查询系统预处理关键技术研究_第1页
deep web集成查询系统预处理关键技术研究_第2页
deep web集成查询系统预处理关键技术研究_第3页
deep web集成查询系统预处理关键技术研究_第4页
deep web集成查询系统预处理关键技术研究_第5页
资源描述:

《deep web集成查询系统预处理关键技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、大连海事大学硕士学位论文DeepWeb集成查询系统预处理关键技术研究姓名:张春丽申请学位级别:硕士专业:管理科学与工程指导教师:陈如亮201206中文摘要摘要随着信息化技术的发展,人们越来越倾向于从网络上获取资源。传统搜索引擎能够检索到的网络资源称为Sumcew曲,而SumceW曲仅占整个Web资源的很少一部分。那些隐藏在W曲数据库中,靠提交查询生成动态页面获取的资源称为De印W曲。DeepWeb信息含量大,领域相关度强,如何高效的获取这些资源成为当前研究的关键问题。De印w曲集成查询系统是由同领域的De印W曲入口集成的一个全局查询接口,通过对这个集成接口提交查询,可

2、以同时检索到不同W曲数据库中的资源。预处理阶段是系统集成过程中的初始阶段,它主要分三步进行:W曲入口的发现、查询接口模式抽取、查询接口集成,其最终结果的好坏对后面查询处理和结果处理有着重要影响。因此上述预处理阶段各个步骤采用哪种技术能够获得更高的效率是本文研究的出发点。本文的主要研究工作如下:(1)分析了De印W曲查询表单的特征,针对现阶段W曲入口发现技术的优缺点,提出将多分类器聚焦爬行技术应用到W曲入口发现上,重点给出各分类器的实现方法,并介绍了种子URL的选取策略;根据查询表单分类过程的启发式规则提出采用基于决策树的表单分类方法,区分出那些非W曲入口的查询表单。(

3、2)研究W曲入口的模式特征,针对HTML页面的结构性特征提出基于DOM树和DwI对象模型的模式抽取方法,首先通过网页解析器将接口页面解析成DOM树结构,然后遍历DOM树找出属性元素及其对应的标签,最后用DWI对象模型将查询接口的模式信息表示出来。(3)比较现有模式匹配技术的优劣势,针对查询接口属性元素的特点,提出基于语义的模式匹配方法,该方法从简单匹配和复杂匹配两个角度分别给出了属性相似度的计算公式,使得模式匹配具有更高的效率。针对所提出的预处理阶段相关技术,本文分别设计了具体实验,用实验结果证明上述各个方法的有效性。关键词:Deep№b;Web入口发现;模式抽取;模

4、式匹配英文摘要ABSTRACTWimthedeVelopmentofinfo肌ationtecllllology,peopleareincreasin酉yinclinedtoobtainresources舶mthen抓Vork.TheresourcesthatcaJlberetrieVedbytraditionalsearChen舀nearecalledSurfaceWeb,w蜘chonlyaccountcdforasmallfi.actionoftllewholewebresources.TheresourCeshiddeninWebdatabaSe,whichon

5、lybeobtainedbysubmittingaque巧fomtogeneratedyn锄icpagesarel(nownasDe印Web.De印WebC0ntainsa1a唱enlIn曲erofspecializedinf.o砷ation,sohowtoaccesstotheseresourcesefjficieIltlyh嬲beComet11ekeyissueofc岍铋tresearch.De印WebInte刚edQue拶SysteIIlisaglobalque巧systeITl、)l恤chinte黟atedif融.饥tque巧interfacesillthes

6、amefield.Wec肌getresources舶mdi蜀衙entWebdatab嬲esbysubmittingque叮fomintllis酉obalinterface.Pr印roceSsingisthefirStstageiIlmeproCessofsysteIllintegration,itmainlycontainsthreest印s:medisCoVe叮0ftheWebinterface,que拶interfaccsch锄aex的ction孤dque叫interfaceime伊砒ion.Itsfinalresulth弱a黟eatirIlpactonthene

7、xtstageofque拶processinga11dresultprocessing.Therefore,findinge简ci%tmethodsineVe拶st印ofpr印rocessingstageist11estaningpointoft11isarticle.Themainresearchworksoftmsp印erare嬲f01lows:(1)AmalySisingoft11ech姬烈甜sticsoftlleDe印Webque叮fonn,studing柚dcomp撕ngmeadVantagesanddisadV卸tagesofcu玎c:I

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。