hidden web上的自动信息抽取

ID：35146568

大小：2.04 MB

页数：62页

时间：2019-03-20

资源描述：

《hidden web上的自动信息抽取》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、南开大学硕士学位论文HiddenWeb上的自动信息抽取姓名：于振申请学位级别：硕士专业：计算机应用技术指导教师：王庆人20080501中文摘要互联网中蕴含着大量可用的信息，但其中越来越多的内容需要通过填写HTML表单的方式才能获得。从用户和数据管理的角度来看，这是合理的，但是对于收集网络信息的自动化工具来说，无疑制造了很多的困难。这部分被隐藏在查询表单后面的Web也因此被称为HiddenWeb。由于其中信息的巨大价值，在HiddenWeb中的自动信息搜索己经成为热门的研究课题。本文将提出一个在HiddenWeb中进行信息搜索的方法，不同于其他针对页面的方法，它以HiddenWeb中

2、的信息为目标，通过自动填表、制定查询计划、结果页面处理、重复信息过滤等步骤，力争高效地实现对隐藏在表单后面信息的覆盖。为了有效利用所获得的信息，本文还将提出～种在页面中抽取信息的方法。这种方法没有针对Web页面的整个结构进行解析，但仍然提取出了表格结构，在效率与灵活之间找到了一个平衡。在此基础之上，我们构建了一个系统。针对典型的搜索引擎，它可以实现自动登录、自动发起查询、索引页面处理、详情页面处理等功能，通过查询界面尽可能多的获取信息，并通过信息抽取的方法，将其转化为结构化的数据放入数据库中，以便进行类似于数据挖掘的后续处理步骤。此系统被应用在～个欧美软件项目中，利用目标网站提供的

3、简历搜索引擎获取简历信息。本文将对其应用及实验结果进行总结与评价。。关键字Crawling、HiddenW曲、信息抽取AbslractAbstractThereisavastamountofinformationontheinternet，butmorgandmoreWebdataisaccessibleonlybyfillingoutHTMLformstoqueryallunderlyingdatasource．Whilethisismostwelcomefromauserperspectiveandfromadatamanagementperspective，itposesma

4、nydifficultiesforautomatedagentstoaccessdatabehindforms．Forthisreason，thisportionofWebiscalled‘‘HiddenWeb’’．Duetothevalueoftheinformationinit，crawlingthehiddenwebhasbecomeanimportantresearchsubject．Inthispaper,wepresentamethodtoretrieveinformationinthehiddenweb．Unlikeotherapproachesthataimatwe

5、bpages，weaimatinformationinpages．Usingstepssuchasautomatedformfilling，makingquerysubmissionplan，processingqueryresponsepagesandfilteringduplicaterecords，westrivetocovertheinformationbehindtheformsefficiently．Thispaperalsointroducesamethodforinformationextractiononwebpages，whichcanhelpUSmakebet

6、teruseoftheobtainedinformation．Thismethoddoesn’tparsewebpagestogettheHTMLtag—basedhierarchy,butitCanstillobtainthestructureoftables．Soitachievesabalancebetweenefficiencyandflexibility．Basedonthesetechniques，webuiltasystemwhichcanextractinformationfromsearchengines．ThissystemCanperformlogin，sub

7、mitqueriesautomaticallyandprocessindexpagesanddetailpages．Itfinallyconvertsinformationtostructureddata,whichfacilitatesfurtheranalysislikedatamining．Thesystemisusedinasoftwareprojectwhichaimstoextractresumesfromaparticularwebsite．Thepap

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 62



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

hidden web上的自动信息抽取

hidden web上的自动信息抽取

相关文章

相关标签