基于xml的web信息抽取技术的应用研究

基于xml的web信息抽取技术的应用研究

ID:33533966

大小:1.82 MB

页数:72页

时间:2019-02-26

基于xml的web信息抽取技术的应用研究_第1页
基于xml的web信息抽取技术的应用研究_第2页
基于xml的web信息抽取技术的应用研究_第3页
基于xml的web信息抽取技术的应用研究_第4页
基于xml的web信息抽取技术的应用研究_第5页
资源描述:

《基于xml的web信息抽取技术的应用研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、武汉理工大学硕士学位论文基于XML的Web信息抽取技术的应用研究姓名:陈佳申请学位级别:硕士专业:计算机应用指导教师:胡燕20070401摘要互联网的飞速发展使其成为全球信息传播与共享的重要资源,Web上的数据一直呈几何级数增长,要想从Web上获取一条有用信息的难度却越来越大,“信息过载”已经成为一个亟待解决的问题。一种理想的情况是:人们可以像查询数据库一样查询Web上的数据。然而,如何从浩繁的Web数据中抽取出有用的信息成为众多研究工作希望解决的问题。Internet具有的海量、异构、动态变化等特性使Web信息抽取不同于传统信息抽取,同时带来了新的挑战。抽取技术随着需求的

2、增加而不断丰富,近年来国内外涌现了多种信息抽取方法。这些方法各有侧重地解决了上述Web信息抽取中面l临的问题,总体上取得了良好的效果,但在某些方面存在不同程度的局限或缺陷。为了更好地解决Web信息抽取面临的诸多问题和不足,有必要对Web信息抽取问题作进一步研究。本文使用标准的XML技术来解决网页信息抽取问题。基于标准的XSLT,可以利用它强大而且灵活的特性编写简单、健壮和通用的抽取规则。首先获得目标HTML页,并将HTML文档转换成符合XML语法的XHTML文档,然后通过XML强大的数据查询能力对构建的XML文档库进行查询,并利用DOM树将产生的抽取规则存入规则库中。然后将

3、查询结果传到客户端,从而完成用户所需的数据的抽取。但是,它不是一个通用的抽取系统,而是针对某一领域,还需要制订有效的抽取规则,一旦被抽取的源w曲页面结构发生变化,抽取工作可能失效。因此对其进行了改进,将页面分割成多个语义块,使块内主题尽可能地相关于同一主题。对页面进行分割以后,可以直接去除一些无用信息块,如导航信息和版权信息等;对语义相关的块进行操作,而不是整个页面,这将大大提高信息检索的质量。这里结合信息熵的理论并构造DOM语义树来弥补DOM分割的不足。最后,我们将XML文档看成是一种对象树,用一种对象~关系映射语言将这样的对象映射到关系数据库,将抽取出来的信息XML在关

4、系数据库中存储。基于本文所设计开发的Web信息抽取平台,可以很快的构建出健壮和通用的网页信息抽取Wrapper。关键词:信息抽取,映射,信息熵,DOM树AbstractTherapiddevelopmentoftheInteracthasbecomeanimportantSourceofglobalinformationdisseminationandsharing.DataontheWebhasgrowngeometrically.ToobtainusefulinformationfromtheWebhasbecomeincreasinglydifficult.”Info

5、rmationoverload”hasbecomeallurgentsolution.TheidealsituationisthatpeoplecanbelikesearchingthedatabaseforinformationonthesameWebinquiries.However,HowtoaccesstoandUSeusefulinformationfromWebhasbecometheproblemforresearchwork.Thecharacteristics,suchasmagnanimity,differentconstructing,anddynam

6、icchangethatInteracthas,madeWebinformationextractiondifferentfromtraditionalinformationextraction,broughtthene,vvchallengeatthesametime.Extractiontechnologyisenrichingconstantlywithincreaseofthedemand,manykindsofinformationextractionmethodshaveemergedbothathomeandabroadinrecentyears.Thesem

7、ethodshavefocusedsolutionproblemsconfrontingtheWebinformationextractiontotheabove,achievedgoodresultsoverall,butincertainareastherearevaryingdegreesoflimitationsorflaws.InordertobetteraddressthemanyproblemsandshortcomingstotheWebinformationextraction,itisneces

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。