基于模板的web页面信息提取技术研究

基于模板的web页面信息提取技术研究

ID:37544310

大小:2.73 MB

页数:81页

时间:2019-05-25

基于模板的web页面信息提取技术研究_第1页
基于模板的web页面信息提取技术研究_第2页
基于模板的web页面信息提取技术研究_第3页
基于模板的web页面信息提取技术研究_第4页
基于模板的web页面信息提取技术研究_第5页
资源描述:

《基于模板的web页面信息提取技术研究》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、南开大学r801011硕士研究生毕业(学位)论文姓名:年级:张海威二零零二级专业:计算机软件与理论研究方向:数据库与数据挖掘技术论文题目:基于模板的Web页面信息提取技术研究完成日期:二零零五年五月导师:袁晓洁教授二零零五年五月二十四日敢谶麓嘲摘要摘要随着Web上信息的迅速扩展,各项基于Web信息的应用也逐渐繁荣起来。Web数据挖掘作为一项新兴的技术被越来越多的Web与数据库技术的研究者所关注。作为Web数据挖掘技术的基础和重要组成部分,Web页面信息提取技术正应用于搜索引擎、站点结构分析、页面有效性分析、Web图形化、用户兴趣挖掘以及个性化信息获取等多种

2、应用和研究中。然而,随着人们对web提供的各项信息的利用要求越来越高,对Web页面信息的提取技术要求也越来越高,人们要求更准确、更完搀的Web页面信息来满足各种各样的需求。Web数据挖掘技术研究者己经提出了很多提取Web页面信息的方法,这些方法各有所长,同时也有各自的局限性。根据在Web页面信息提取技术领域的长期积累以及国内外在Web页面信息提取技术领域的研究与发展,本文在综述了国内外的研究情况后提出了一个基于模板的Web页面信息提取方法及其系统模型,该系统包括Web页面预处理、Web页面模板的生成、Web页面信息的提取、Web页面信息属性的提取以及Web

3、页面信息的存储方式等一系列模块,对于每个模块,本文分别给出了主要工作的相关处理算法和流程,并针对研究过程中遇到的问题,提出了多个新的概念定义、判定定理及算法:≯在定义页面记号串的类型的基础。卜,给出了基本型、元组型和集合型的定义及性质,并给出相关定理的证明。≯在分析Web页面记号的基础上,提出了等频记号集合和频繁多记号集合的定义以及Web模板生成的算法。≯根据Web页面模板,提出了提取Web页面信息以及页面信息属性的算法≯根据Web页面信息的层次结构,提出了Web页面信息的树型结构存储方式以及向某个数据模型转换的必要性。≯在系统实现的过程中,使用了页面信息

4、提取的准确率(Precisio山和页面信息的发现率(Recall)两个指标衡量系统对Web页面信息提取的结果。实验结果显示,使用本文提出的Web页面信息提取方法提取页面信息的准确率是非常高的,该系统具有较强的实用价值。关键词:Web页面信息,Web页面记号,类型,等频记号集合,频繁多记号集合,Web页面模板,Web页面信息属性AbstractWithinformationrapidlyexpandingintheWeb,manyWebservicesaccordinglyboomup.Asaburgeoningteclurology,Webdatamini

5、ngisgettingmoreandmoreattentionbymoreandmoreresearchersofWebanddatabasetechnology.AsabasicfoundationandimportantcomponentofWebdatamining,extractinginformationfromWebpagesisapplyinginmanyfirlds,However,facingwithpeoplerequestingmoreandmorerigorousandprolific,peopleneedmoreandmoreac

6、curateandintegratedinformationofWebpagestosatisfytheirneedswell.Asaresult,researchersofWebdatamininghavepresentedmanymethodsofextractinginformationfromWebpages.EachofthesemethodshasitsownadvantagesandlimitationBasedonthelong-timeaccumulationinthefieldofextractinginformationfromWeb

7、pages,andcombiningthecurrentdevelopingtechnologyonextractinginformationfromWebpages,thisarticlebringforwardasolutionofextractinginformationfromWebpagesbasedtemplateAndthenamodelforthesolutionwillalsobepresentedinthisarticle,wherethemodelismainlyincluding5modules:preparationofWebpa

8、ges,generationofWebpagetemplate,e

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。