hidden web上的自动信息抽取

hidden web上的自动信息抽取

ID:35146568

大小:2.04 MB

页数:62页

时间:2019-03-20

hidden web上的自动信息抽取_第1页
hidden web上的自动信息抽取_第2页
hidden web上的自动信息抽取_第3页
hidden web上的自动信息抽取_第4页
hidden web上的自动信息抽取_第5页
资源描述:

《hidden web上的自动信息抽取》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、南开大学硕士学位论文HiddenWeb上的自动信息抽取姓名:于振申请学位级别:硕士专业:计算机应用技术指导教师:王庆人20080501中文摘要互联网中蕴含着大量可用的信息,但其中越来越多的内容需要通过填写HTML表单的方式才能获得。从用户和数据管理的角度来看,这是合理的,但是对于收集网络信息的自动化工具来说,无疑制造了很多的困难。这部分被隐藏在查询表单后面的Web也因此被称为HiddenWeb。由于其中信息的巨大价值,在HiddenWeb中的自动信息搜索己经成为热门的研究课题。本文将提出一个在HiddenWeb中进行信息搜索的方法,不同于其他针对页面的方法,它以HiddenWeb中

2、的信息为目标,通过自动填表、制定查询计划、结果页面处理、重复信息过滤等步骤,力争高效地实现对隐藏在表单后面信息的覆盖。为了有效利用所获得的信息,本文还将提出~种在页面中抽取信息的方法。这种方法没有针对Web页面的整个结构进行解析,但仍然提取出了表格结构,在效率与灵活之间找到了一个平衡。在此基础之上,我们构建了一个系统。针对典型的搜索引擎,它可以实现自动登录、自动发起查询、索引页面处理、详情页面处理等功能,通过查询界面尽可能多的获取信息,并通过信息抽取的方法,将其转化为结构化的数据放入数据库中,以便进行类似于数据挖掘的后续处理步骤。此系统被应用在~个欧美软件项目中,利用目标网站提供的

3、简历搜索引擎获取简历信息。本文将对其应用及实验结果进行总结与评价。。关键字Crawling、HiddenW曲、信息抽取AbslractAbstractThereisavastamountofinformationontheinternet,butmorgandmoreWebdataisaccessibleonlybyfillingoutHTMLformstoqueryallunderlyingdatasource.Whilethisismostwelcomefromauserperspectiveandfromadatamanagementperspective,itposesma

4、nydifficultiesforautomatedagentstoaccessdatabehindforms.Forthisreason,thisportionofWebiscalled‘‘HiddenWeb’’.Duetothevalueoftheinformationinit,crawlingthehiddenwebhasbecomeanimportantresearchsubject.Inthispaper,wepresentamethodtoretrieveinformationinthehiddenweb.Unlikeotherapproachesthataimatwe

5、bpages,weaimatinformationinpages.Usingstepssuchasautomatedformfilling,makingquerysubmissionplan,processingqueryresponsepagesandfilteringduplicaterecords,westrivetocovertheinformationbehindtheformsefficiently.Thispaperalsointroducesamethodforinformationextractiononwebpages,whichcanhelpUSmakebet

6、teruseoftheobtainedinformation.Thismethoddoesn’tparsewebpagestogettheHTMLtag—basedhierarchy,butitCanstillobtainthestructureoftables.Soitachievesabalancebetweenefficiencyandflexibility.Basedonthesetechniques,webuiltasystemwhichcanextractinformationfromsearchengines.ThissystemCanperformlogin,sub

7、mitqueriesautomaticallyandprocessindexpagesanddetailpages.Itfinallyconvertsinformationtostructureddata,whichfacilitatesfurtheranalysislikedatamining.Thesystemisusedinasoftwareprojectwhichaimstoextractresumesfromaparticularwebsite.Thepap

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。