基于DOM的网页主题信息自动提取

基于DOM的网页主题信息自动提取

ID:39585118

大小:689.49 KB

页数:10页

时间:2019-07-06

基于DOM的网页主题信息自动提取_第1页
基于DOM的网页主题信息自动提取_第2页
基于DOM的网页主题信息自动提取_第3页
基于DOM的网页主题信息自动提取_第4页
基于DOM的网页主题信息自动提取_第5页
资源描述:

《基于DOM的网页主题信息自动提取》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、万方数据第41卷第10期计算机研究与发展2004年10月JoURNALOFCOM口UTERRESEARCHANDDEVEIDPMENTVd.41.No.10Oct.2004基于DoM的网页主题信息自动提取王琦1唐世渭1’2杨冬青2王腾蛟21(北京大学视觉与听觉信息处理国家重点实验室北京100871)2(北京大学计算机科学与技术系北京100871)(qi.wang@db.pku.edu.cn)摘要web页面所表达的主要信息通常隐藏在大量无关的结构和文字中,使用户不能迅速获取主题信息,限制了web的可用性,信息提取有助

2、于解决这一问题.基于DOM规范,针对}rFML的半结构化特征和缺乏语义描述的不足,提出含有语义信息的STUDOM树模型.将HTML文档转换为STU—DOM树,并对其进行基于结构的过滤和基于语义的剪枝,能够准确地提取出主题信息.方法不依赖于信息源,而且不改变源网页的结构和内容,是一种自动、可靠和通用的方法.具有可观的应用价值,可应用于PAD和手机上的web浏览以及信息检索系统.关键词DOM;信息提取;分块;趼u;sru树;sTuDOM树;相关度中图法分类号TP311.13DOM—BasedAut伽嘎aticExtra

3、ctionofTopicalInfo珈1ationfromWebPageswANGQil,仉气NGshi—weil一,YANGDong—Qin孑,andwANGTeng。Jia021(N&£幻徽Zk6Dm幻删o”^缸旃i粥R”印琉眦,融i蜡U矗i蝴i移,B嘶i甥’100871)2(眈∞以胱,2£盯。研加灯Sf锄卯a蒯乃娩加110拶,尸趺i增‰it踟劫,B西i曙100871)AbstractWebisavastresourceofinfonnation,butitsrepresentationlimitsitsava

4、ilability:themaininfomationinawebpageisalwayshidden锄ongunimportantfeaturessuchasunnecessaryimagesandextraneOus1inks,andthismakesitdifficultfOrtheuserStoacquirethetopicalinfOrmation.InfonnationextraCtioncanhelptheuserstolocatetheinfOrmationofinterest.Anewextrac

5、tionmetk)dolOgybasedonDOMisprOpoSedbytranSformingDOMtreestoSTU—D()MtreesandthenproceSsingthemwithSOmealgorithms.ASTU—DOMtreecanbeviewedaSaD()MtreewithSomesemanticcontextualattributes.Thekeya190rithmistofilterandprunetheSTU—D()Mtree.Itcanautomaticallyandaccurat

6、elyextracttheusefulandrelevant∞ntentfromHTMLdocuments.Thisapproachisauniversalmethod,whichisindependentofdocumentstructuresanddomains.Unlikemostapproaches,itmaintainsthestructureandcontentaswell.Hencetheapproachissignificantandreliable.ItcanbewidelyappliedfOrw

7、ebbrowsingonhandhelddevices,suchasPIIAsandnlobilephones,andretrievalsystenls.KeywordsDOM;infomationextraction;partition;STU;STUtree;STU-DOMtree;∞rrelativity1引言随着Intemet及其技术的迅速发展,Web已经成为当今最庞大的信息库.但是web页面通常含有很多用户并不关心的信息,如广告链接和图像等,它们分布于网页四周,甚至附着在正文旁边,文档主题很不明确,使用户

8、不能迅速定位所需信息.这一问收稿日期:2004—07—15基金项目:国家“九七三”重点基础研究发展规划基金项目(G1999032705);国家“八六三”高技术研究发展计划基金项目数据库管理系统及其应用重大专项课题(2002AA423440)万方数据10期王琦等:基于酬的网页主题信息自动提取1787题对于使用低端设备,尤其是使用PDA和手机的用户来说最为突出,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。