基于xml的web信息抽取系统研究与实现

基于xml的web信息抽取系统研究与实现

ID:33999017

大小:2.24 MB

页数:62页

时间:2019-03-03

上传者:U-22107
基于xml的web信息抽取系统研究与实现_第1页
基于xml的web信息抽取系统研究与实现_第2页
基于xml的web信息抽取系统研究与实现_第3页
基于xml的web信息抽取系统研究与实现_第4页
基于xml的web信息抽取系统研究与实现_第5页
资源描述:

《基于xml的web信息抽取系统研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

膏’箩营参◆I,●分类号UDC论文题目10126.30713026密级编号研究生:圈主指导教师:丑亟量I』塾援专业:让簋扭型堂皇撞苤研究方向:△王蟹篚皇多基佳堇丕所在学院:让篡扭堂院2011年6月15日I卜一卜Nr㈧ ■’,原创性声明本人声明:所呈交的学位论文是本人在导师的指导下进行的研究工作及取得的研究成果。除本文已经注明引用的内容外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得内蒙直太堂及其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。一学位论文作者签名:雎日期:趁!f:么:!£!_指导教师签名:垄礁垄公日期:趁!Z:笸!≤厂在学期间研究成果使用承诺书本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:内蒙古大学有权将学位论文的全部内容或部分保留并向国家有关机构、部门送交学位论文的复印件和磁盘,允许编入有关数据库进行检索,也可以采用影印、缩印或其他复制手段保存、汇编学位论文。为保护学院和导师的知识产权,作者在学期间取得的研究成果(含计算机软件、程序)属于内蒙古大学计算机学院。作者今后使用涉及在学期间主要研究内容或研究成果,须征得内蒙古大学计算机学院就读期间导师的同意;若用于发表论文,版权单位必须署名为内蒙古大学计算机学院方可投稿或公开发表。学位论文作者签名:啦指导教师签名:蛆丛.白期:塑丛么!r日期:塑fZ。么么=- ● 内蒙古大学硕士学位论文基于XML的WEB信息抽取系统研究与实现摘要随着计算机科学技术与互联网的不断发展,在我们的工作和生活中web已变..得必不可少。web上信息资源呈几何级数量增长,web已经成为一个巨大的信息一资源库,要想准确有效地获取一条想要的信息变得越来越难,如何从web信息资源库中抽取出有用的信息已经成为众多科研工作者研究的课题,web信息抽取技术应运而生。本文在研究现有的web信息抽取技术基础上,结合标准的XML技术,提出了基于XML的web信息抽取技术。本文主要工作有以下几点:1.在研究前人技术成果基础之上,对现有信息抽取技术加以整合和扩展,设计了基于XML的Web信息抽取系统框架模型。2.研究了信息抽取关键技术,阐述了信息抽取工作流程,设计了抽取规则和抽取配置文件的生成方法。最终,实现了Web信息抽取系统的主要功能.。3.本文对抽取结果进行分类,采用了朴素贝叶斯理论,设计了一个中文Web文本分类系统模型,该模型隶属于整个信息抽取系统框架模型。■4.系统抽取结果是XML数据文档类型,在分析当前数据库存储技术基础上,,。探讨了将抽取结果经分类后存储到数据库的不同方法。本文设计的基于XML的Web信息抽取系统能够较好的解决web信息抽取问题,实验结果表明,该系统具有较高的召回率和准确率。关键词:XML,Web信息抽取,抽取规则,文本分类,XML数据存储 基于XML的WEB信息抽取系统研究与实现XML--basedWEBInformationExtractionSystemResearchandImplementationAbstractAscomputerscienceandtechnologyandtheInternetcontinuetodevelop,webhasbecomeessentialinourworkandlife.Webinformationresourcesaregrowingonthenumberofexponentially,webhasbecomeahugerepositoryofinformation,inordertoobtaindesiredinformationaccuratelyandeffectivelybecomesmoreandmoredifficult,andhowtoextractuseful_informationfromawebinformationrepositoryhasbecomethesubjectofmanyresearchscientists,webinformationextractiontechnologyispresented.BasedontheresrarchinexistingwebinformationextractiontechnologyandcombinedwiththestandardXMLtechnology,XML-basedwebinformationextractiontechnologyisproposed.Themaincontributionsinthispaperalelistedasfollows:1.Basedontheresearchinprevioustechnicalachievements,tointegrateandextendtheexistinginformationextractiontechnology,XML—basedframeworkofWebinformationextractionsystemmodelisdesigned.2.Doresearchinthekeytechnologiesofinformationextraction,anddescribeinformationextractionprocesses,andproposetheextractionrulesandthegenerationmethodofextractconfigurationfile.Ultimately,themainfunctionoftheWebinformationextractionsystemisrealized.3.Theextractionresultisclassified,usingaNaiveBayesiantheory.AChineseWcbtextclassificationsystemmodelisdesigned,whichisundertheframeworkofinformationextractionsystemmodel.4.TheextractionresultisXMLdatadocumenttype.Basedontheanalysisofthecurrentdatabasestoragetechnology,discussedthedifferentmethodsoftheextractionresultstostoreintheThisdesignofXML-basedWebinformationextractionsystemcanbettersolvetheproblemofwebinformationextraction,experimentalresultsshowthat’thesystemhashigherreeaUandprecisionrates.KEYWORDS:XML,Webinformationextraction,extractionrules,Textclassification,XMLdataⅡ● 内蒙古大学硕士学位论文目录摘要⋯⋯⋯⋯⋯⋯:⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.IABSTRACT⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.II目勇之⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..III图表目录⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯V第一章绪论⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.11.1论文选题背景与研究意义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.11.1.1论文选题背景⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..11.1.2论文研究意义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.21.2国内外WEB信息抽取研究现状综述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯31.2.1国外Web信息抽取研究现状⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯31.2.2国内Web信息抽取研究现状⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯...⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.41.3论文的内容和组织结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..5第二章WEB信息抽取基本知识与相关技术标准⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.62.1WEB信息抽取基本知识⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..62.1.1Web信息抽取概念⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.j⋯⋯⋯62.1.2Web信息抽取的方法和存在问题⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..72.2WEB信息抽取相关技术标准⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯92.2.1XML的技术标准⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯92.2.2HTML、XHTML与XML⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯112.2.3XPath查询语言⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.112.2.4XSLT基础⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯132.2.5DOM和SAX比较⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.17第三章基于XML的WEB信息抽取系统框架体系的设计与研究⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯203.1提出问题⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.203.1.1Web信息抽取的困难⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯203.1.2Web信息抽取的目标⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯203.2分析问题⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..:⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯213.2.1基于XML的Web信息抽取系统框架模型⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.2lIII 基于XML的WEB信息抽取系统研究与实现3.2.2系统框架模型结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯223.3解决问题⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯243.3.1Web信息抽取系统工作流程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.243.3.2抽取规则的研究⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯253.3.3W曲信息抽取过程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯273.3.4Web中文文本分类⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯303.3.5XML数据文档的存储⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。36第四章基于XML的WEB信息抽取系统的测试与分析⋯⋯⋯⋯⋯⋯⋯⋯⋯.:⋯⋯⋯⋯⋯⋯394.1WEB信息抽取和文本分类评价指标⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..394.1.1Web信息抽取评价指标⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯394.1.2Web文本分类评价指标⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯394.2实验测试环境与方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯404.3WEB信息抽取结果及分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..404.4抽取结果分类存储及分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..41第五章总结和展望⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..435.1论文总结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯...⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.435.2论文展望⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..43参考文献⋯⋯‰⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯45致谢⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..50攻读硕士学位期间发表的论文和参加的项目⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯51IV 内蒙古大学硕士学位论文图表目录表2.1XPATH支持的节点类型⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯12表2.2常用XPATH路径表达式⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯12表2.3XPATH通配符⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..13表2.4DOM和SAX解析之间的差异⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.18图3.1WEB.HARVEST管道式处理器的执行情况⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯22图3.3WEB信息抽取系统工作流程图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..24图3.4抽取规则的自动学习模型流程图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯26图3.5抽取结果实例⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯30图3.6中文WEB文本分类系统模型流程图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯3l图3.7文本特征项集合向量空间⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯33表4.1实验环境⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.40表4.2网站测试列表⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯40图4.1抽取结果分类柱状图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯42V 基于XML的WEB信息抽取系统研究与实现VI 内蒙古大学硕士学位论文1.1论文选题背景与研究意义1.1.1论文选题背景第一章绪论随着计算机科学技术和应用技术的迅猛发展,互联网也得到了快速发展,只要有一个终端,人们可以随时随地通过互联网接收和发送信息,互联网作为当下最流行的信息发布媒介已经被越来越多的人们接受,从而使人们获取信息变得更加方便。然而,随着互联网上信息呈几何级的增长,人们想要准确获取一条自己想要的信息已变得非常困难,目前,虽然搜索引擎一定程度上方便了我们获取相关信息,但依然不够高效。因特网是一个巨大的信息源,但是,这种信息源往往是半结构化的,尽管中间还夹杂着结构化和自由文本,因特网上的信息还是动态的,包含着超链接,网上信息以不同的表现形式出现,而且跨网站和平台,可以实现全网共享。信息抽取(InformationExtraction:IE)的目标是把文本里包含的信息进行结构化处理,变成类似表格一样的组织形式。输入信息抽取系统的是原始文本,输出的是固定格式的信息点,信息点可以从各种各样的文档中被抽取出来,然后以统一的形式集成在一起,这就是信息抽取的主要任务。信息抽取技术对于从大量的文档中抽取想要的特定信息来说是非常有必要的。在因特网上,同一主题的信息通常分散在不同网站上,而且表现的形式也各不相同。如果能将这些信息收集起来,用结构化形式来储存,是一件十分有意义的工作,这对于那些把因特网当成是信息来源的人来说是非常重要的。web信息抽取系统可以看作是把用户想要的信息从互联网上不同文档中抽取出来转换成数据库记录的系统。因此,优秀的信息抽取系统将把浩瀚的互联网信息资源看成是一个巨大的数据库。近十几年来,IE得到了快速发展,一是由于“消息理解研讨会"(MOC)的推动,二是由于网上内容大量增加带来的需求。IE对自由文本和结构化文本都能处理。NLP(自然语言理解技术)技巧通常用于自由文本的处理,对结构化和半结构化文本不是太适合,一个Web文档就是一个网页,网页显示的文本被大量的标记分隔开来,因而,基于分隔符和字符的方法更加奏效。随着互联网的出现和发展,Web文档的有效信息抽取被提上日程。互联网上的资源是包 基于XML的WEB信息抽取系统研究与实现含着大量半结构化文本的信息源。网页与传统的文本相比,有许多特点:信息量大,更新快,变化多,页面中包含结构化的文字块,可能还有超链接。因此,互联网是一个特殊的挑战,一直推动着从结构化和半结构化文本中进行抽取信息的研究向前迈进【I】。如何有效的从Web上抽取信息已经成为一个研究的重点的问题。Web信息抽取过程中的一个突出的问题就是数据的异构性,它极大地阻碍对信息的有效的使用。XML的出现正是针对这一问题而提出的解决方案。XML主要有以下优点:1.自描述性。XML文档通常包含一个文档类型()声明,从而便于机器理解数据的意义。XML文档中的数据可被任何能够对XML数据进行解析的应用程序所抽取、分析和处理,并以所需格式显示。2.扩展性。XML是一种用于设计标记语言的原语言,而不是像HTML那样,是一种只有一个固定标记集的特定标记语言。XML允许用户根据其需要创建自己的标记,这些标记可通过XMLDTD(DocumentTypeDefinition)加以定义。3.灵活性。XML提供了一种结构化的数据表现方式,从而使用户界面与结构化数据相分离。4.可读性。人类和机器的可读性。XML要求以标签标记的数据有严格的层次结构。严格的数据层次结构是人类视图和机器视图的折衷。人类视图是一个具有标记的文档,机器视图是一个具有树状结构的数据。随着计算机和网络技术的不断发展,XML技术的应用也在不断扩展。XML技术不仅可以应用于电子商务、搜索引擎软件、自动智能翻译、文档发声软件等领域,还可以应用于银行之间进行数据交换、证券公司对其上市公司相关的数据进行统计、图书馆对其馆藏书目进行查询检索、企事业单位对其文件档案进行管理。XML技术在当前的互联网和IT环境中扮演着越来越重要的角色,它事实上已经成为数据交换的标准、SOA架构的基石。Gartner预测,XML文件的使用率在2007年达到40%,在2008年将占据支配地位。IDC(国际数据公司)最近发布的一份报告显示,在500家受访企业的IT部门中,有29%的企业宣称正在大量使用XML存储库和数据库。XML的广泛使用使高效的XML数据处理成为一种迫切的需要。【8】1.1.2论文研究意义随着信息化进程的推进以及网络技术的发展,越来越多的人开始认识到互联网作为信息来源的重要性,而互联网也已经融入到了人们生活的方方面面。CNNIC[删(中国互联网络信息中心)在2011年1月19日公布的“第27次中国互联网络发展状况统计报告"显示,截2 内蒙古大学硕士学位论文至2010年12月,我国网民规模已达4.57亿,互联网普及率进一步提升,达到34.3%。互联网规模在不断扩大,互联网上的数据量非常巨大,并且依然在不断增长。这些数据的主题广泛而内容多样,用户可以在互联网上找到几乎任何信息。互联网上具有各种类型的数据,例如:结构化的表格、半结构化的网页、无结构的文本,以及多媒体文件(图片、音频和视频)等;互联网上的信息是异构的;由于网站网页作者不同,多数表示相同或相似内容的网页可能会使用完全不同的文字和格式,这使将多个网页信息整合变为一项挑战;互联网上绝大部分信息是互联的,网站内部和网站之间的网页通过超链接建立联系;互联网上的信息包含噪音,其中,一张网页通常包含多块内容,例如:网页的主要内容、导航链接、广告、版权声明、隐私策略等等,然而,对于特定应用而言,只有其中一部分信息是有用的,其余全是噪音;互联网提供各种服务,如购买商品、支付账单和填写表格等等;互联网具有动态性,网上的信息不断变化,对于很多应用而言,紧跟并监督这些变化是十分重要的;互联网还是个虚拟的社会,它不仅仅是一些数据、信息和服务,而且包括人、组织和自动化系统之间的交互。用户可以和位于任何地方的任何人方便地进行即时交流,也可以在论坛、微博、SNS和评论站点上发表自己的观点。【zJ对于从互联网上抽取信息和知识这一任务而言,这些特点既是挑战,又是机遇。针对互联网信息的特征,Web信息抽取已经发展出了许多的方法,总体上取得了良好的效果,但在很多方面还有待进一步完善。1.2国内外Web信息抽取研究现状综述1.2.1国外Web信息抽取研究现状信息抽取(InformationExtraction:IE)的前身是文本理解,最早开始于20世纪60年代中期,主要是从自然语言文本中获取结构化信息的研究,这被看作是信息抽取技术的初始研究。从20世纪80年代末开始,信息抽取研究逐渐火热起来,这主要有两个因素对其发展有重要的影响:一是在线和离线文本数量的几何级数增加,另一个是“消息理解研讨会”(MUC。MessageUnderstandingConference)从1987年开始到1998年共举行了七届会议对该领域的关注和推动。MUC由美国国防高级研究计划委员会(DARPA,theDefenseAdvancedResearchProjectsAgency)资助,其显著特点并不是会议本身,而在于对信息抽取系统的评测。近几年,信息抽取技术的研究与应用更为活跃。在研究方面,主要侧重于以下几方面:利用机器3 基于XML的WEB信息抽取系统研究与实现学习技术增强系统的可移植能力、探索深层理解技术、篇章分析技术、多语言文本处理能力、Web信息抽取(Wrapper)以及对时间信息的处理等;在应用方面,信息抽取应用的领域更加广泛,除自成系统以外,还往往与其他文档处理技术结合建立功能强大的信息服务系统。至今,已经有不少以信息抽取技术产品为主的公司出现,国外比较著名的有:Cymfony公司、Bhasha公司、Linguamatics公司、Revsolutions公司等。目前,除了强烈的应用需求外,正在推动信息抽取研究进一步发展的动力主要来自美国国家标准技术研究所(NIST)组织的自动内容抽取(ACE,AutomaticContentExtraction)评争测会议。这项评测从1999年7月开始酝酿,2000年12月正式开始启动,从2000年到2007年已经举办过多次评测。这项评测的目的是:开发自动内容抽取技术以支持对三种不同来源一(普通文本、由自动语音识别ASR得到的文本、由光学字符识别OCR得到的文本)的语言文本自动处理。研究的主要内容是:自动抽取新闻语料中出现的实体、关系、事件等内容,即对新闻语料中实体、关系、事件的识别与描述。与MUC相比,目前的ACE评测不针对某个具体的领域或场景,采用基于漏报(标准答案中有而系统输出中没有)和误报(标准答案中没有而系统输出中有)为基础的一套评价体系,还对系统跨文档处理(Cross.documentprocessing)能力进行评测。这一新的评测会议将把信息抽取技术研究引向新的高度。【l】1.2.2国内Web信息抽取研究现状国内对中文信息提取系统的研究起步较晚,还集中在命名实体识别方面。遵照MUC规范完整的中文信息提取系统目前还处于探索阶段。Intel中国研究中心在ACL.2000上演示了他们开发的一个抽取中文命名实体以及实体间关系的系统。在MUC.6和MUC.7上,增加了中文系统的评测项目。国立台湾大学(NationalTaiwanUniversity)和新加坡肯特岗数字实验室参加了MUC.7中文命名实体识别任务的评测,测试了中文命名实体(人名、地名、时间、事件等名词性短语)的识别,取得了与英文命名实体识别系统相近的性能。当然,这只是对中文信息抽取作了比较初步的工作,但并不能真正进行中文信息抽取。另外,北京大学计算语言所对中文信息抽取也作了比较早的系统探讨,承担了两个有关中文信息抽取项目的工作,即自然科学基金项目“中文信息提取技术研究”和IBM一北大创新研究院项目“中文信息提取系统的设计与开发”,其目标是研究中文信息提取中的一些基础性和关键性的问题,为开发实用的信息提取技术提供了理论指导,并具体探讨了信息提取系统设计的各个环节【I】。在基于Web的信息抽取方面,现在国内研究有基于预定义模式的包装器【3】、基于多层模式的多记录网页信息抽取方法【4】、基于DOM的W曲信息抽取【51和基于本体论的w曲信息抽取[6】等。4 内蒙古大学硕士学位论文1.3论文的内容和组织结构针对人们对于Web页面感兴趣信息的有效抽取,本文研究提出了一种基于XML的Web信息抽取系统,Web信息抽取系统旨在对Web页面特征分析的基础上,研究如何基于XML的相关技术来解决Web信息抽取问题,并对抽取结果进行分类存储。为了达到这样的目的,本文在Web信息抽取实现的基础上进行相关工作,给出分析研究的过程和结果,并进行相应的测试。’本文按照基于XML的Web信息抽取系统研究设计和实现的逻辑层次,文共分五章。第一章是本文的绪论,对论文选题背景和研究意义及国内外Web信息抽取研究现状进行了分析概括。第二章介绍了Web信息抽取基本知识和相关技术标准。首先,介绍了Web信息抽取概念和当前存在的几种Web信息抽取方法,并分析了典型系统。其次,对Web信息抽取相关技术标准做了简要介绍,它们是:XML技术标准,HTML、XHTML和XML的关系,XPath语言,XSLT技术标准以及DOM树等。。第三章在分析Web信息抽取的困难和目标后,介绍了基于XML的Web信息抽取系统框架模型,分析了信息抽取的过程,提出了自动学习抽取规则的方法,设计了抽取结果的分类系统模型,探讨了对分类结果的存储方法。第四章首先介绍了信息抽取和文本分类的评价标准。其次,在分析Web页面特征的基础上,进行了实验测试,然后对抽取结果和分类存储进行了探讨分析,最终实现了基于XML的W曲信息抽取系统的设计。厂第五章对本文工作进行了总结和展望。 基于XML的WEB信息抽取系统研究与实现第二章Web信息抽取基本知识与相关技术标准2.1Web信息抽取基本知识2.1.1Web信息抽取概念信息抽取的概念有多种描述方式,1997年Proteus工程的创建者Grishman描述信息抽取的概念:“信息抽取是为从文本中选择出的信息创建一个结构化的表示形式(比如:数据库表)”,微软亚洲研究院2005年信息抽取技术暑期研讨班将信息抽取的概念描述为:“信息抽取是抽取和链接基于用户详细说明的相关信息的过程”。结合各种对信息抽取概念的描述,以及过去20年里一系列的消息理解会议(MessageUnderstandingConference,MUC)对信息抽取技术的讨论,综观各定义,可以将Web信息抽取的概念界定为:Web信息抽取(WebInformationExtraction:WIE)就是从网页文本中抽取指定的一类信息(事件、事实)并将其形成结构化的数据填入一个数据库中供用户查询使用的过程。Web信息抽取技术的核心是能够从Web页包含的无结构或半结构的信息中识别用户感兴趣的数据,用更为结构化、语意更为清晰的格式来表示。输入信息抽取系统的是原始文本,输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出来,然后以统一的形式集成在一起。这就是Web信息抽取的主要功能。IE系统中的关键组成部分是本文中将要讲到的配置文件里一系列的抽取规则或模式,其作用是确定需要抽取的信息的位置。W曲信息抽取的内容一般可以分为这样几个方面【9】:.命名实体的抽取、与模板相关的内容信息抽取、各个实体之间关系的抽取和预置事件的信息抽取。‘命名实体的抽取:它包括组织机构、人名、地名的抽取,时间、日期、钱币和百分数的抽取、专有名词的抽取、隐含指代名词和集合名词的抽取。命名实体的自动抽取能力已近似于人工抽取:查准率达到了70%以上,查全率也到达60%。.模板内容信息的抽取:用户预先设置模板,自动抽取用户关心的详细内容,反映时间、地点、人物和发生的事件,比如新闻。实体关系信息的抽取:比如某些疾病的因果关系。预置事件信息的抽取:比如公司宣布破产、合并的消息、原因等等。事件信息抽取的查准率目前维持在50%巧O%。6 内蒙古大学硕士学位论文Web信息抽取承接了传统信息抽取技术的研究成果,其核心是将分散在Interne上的半结构化的HTML页面中的隐含的信息点抽取出来,并以更为结构化、语义更为清晰的形式表示,为用户在Web中查询数据、数据集成和应用程序直接利用Web中的数据提供便利。2.1.2Web信息抽取的方法和存在问题目前,W曲信息抽取方法的分类各异【9】。从w曲信息源考虑可以分为自由文本的抽取、半结构化的文本抽取和结构化的文本抽取。从包装器原理考虑可以分为基于层次结构的信息抽取归纳方法和基于概念模型的多记录信息抽取方法。从自动化程度考虑可以分为人工方式、半自动化方式和全自动化方式[1们。从各种信息抽取工具所采用的抽取原理和抽取方式考虑可以将Web信息抽取分为基于自然语言理解方式的信息抽取、基于机器学习方式的信息抽取、基于ontology方式的信息抽取、基于HTML结构的信息抽取和基于Web查询方式的信息抽取【11】。本文从抽取工具所采用的原理考虑对信息抽取方法进行简要介绍【12】。1.基于自然语言理解方式的信息抽取基于自然语言理解方式的信息抽取技术通常用于自由文本的信息抽取,利用字句结构、短语和字句间的关系建立基于语法和语义的抽取规则从而实现信息抽取。采用该原理的典型系统有RAPIER[131、SRV[14】和WHISK[151。RAPIER和SRV只能对单条记录进行抽取,而WHISK可以对多条记录进行抽取。基于自然语言理解方式的信息抽取技术用于Web信息抽取是将Web文档视为文本进行处理,没有充分利用Web文档不同于普通文本的特性,并且还需要进行大量的样本学习。2.基于机器学习方式的信息抽取基于机器学习方式的信息抽取技术是基于定界符来定位待抽取数据。首先由用户标记样本实例,然后根据实例自动学习并生成基于定界符的抽取规则。其中定界符是对感兴趣语义项上下文的描述,从而根据语义项左右边界来定位语义项。采用机器学习方式的典型系统有STALKER[16】【1刀【18】【19】、SOFTMEALY[20]和WIENt211。虽然机器学习能提高获取规则的自动化程度,但通常也需要大量的样本页面,而且需要经过较长时间的学习,信息抽取才能获得较好的查准率。3.基于ontology方式的信息抽取[冽Ontology在哲学中泛指对客观世界的本体描述,在人工智能领域一般指智能系统中涉及的概念术语及其性质等静态知识的描述。基于ontology方式的信息抽取技术主要是利用对数据本身的描述信息实现抽取,对网页结构的依赖较少。该系统最大的优点是对网页结构的依7 基于XML的WEB信息抽取系统研究与实现赖较少,只要事先创建的应用领域的Ontology足够强大,系统可以对某一应用领域中各种网页实现信息抽取。采用该原理的典型系统有BVU(SrighamYongUniversity信息抽取小组开发的信息抽取工具例)、QUIXOTE[24】[25】。主要缺点是:(1)需要领域专家创建基于某一应用领域的详细清晰的Ontology知识库,工作量大。(2)由于是根据数据本身实现信息抽取的,因此在减少了对网页结构依赖的同时,增加了对网页中所含的数据结构的要求。比如要求在被抽取内容中包含时间、日期、号码等有一定格式的内容。4.基于HTML结构的信息抽取基于HTML结构的信息抽取技术的特点是根据HTML的结构特点来定位信息,在进行信息抽取之前使用相关解析器将Web文档解析成语法树,通过自动或半自动的方式产生取规则,将信息抽取转化为对语法树的操作,从而实现Web信息抽取。采用该原理的典型系统有XWRAP[26】【271、LIXTO[28】【29】、W4F、ANDES、RoadRunner。下面分析了具有代性的几个系统。W4F[301是用一组自定义的语言描述网页获取、信息抽取以及到Java程序对象的转换规则。它使用基于HTML树结构的树路径和正则表达式的方法来描述抽取规则,通过树路径对信息进行精确定位。但是,由于自己设计抽取模式语言,一旦网页结构发生变化,修改变得比较困难。ANDES[311使用标准的XML和XSLT技术进行W曲信息抽取,可以很方便地构造抽取规则,并且XML和XSLT是被广泛支持的标准语言,功能强大。ANDES仅提出了一种简单的构造抽取规则的方法。本文借鉴了该系统采用XSLT作为抽取规则描述语言的思想。RoadRunner㈣是完全自动化的信息抽取系统。该系统通过对两个或多个样本页面结构进行比较,获得该类页面的通用结构模式,从而根据结构模式实现对相似页面的信息抽取,RoadRunner使用正则表达式描述抽取规则模板。系统根据结构模式中HTML标记间的关系,以嵌套的形式组织抽取数据。然而,它将信息抽取模式的生成等同为正则表达式归纳问题,而正则表达式归纳是比较难解的问题。同时,为了归纳出正则表达式,它使用了大量复杂的启发式搜索算法,使得归纳容易失败。另外,该系统还需要大量的样本训练。5.基于Web查询方式的信息抽取基于Web查询方式的信息抽取技术将Web信息抽取转化为使用标准的Web查询语言对W曲文档进行查询,具有通用性。采用该类技术的典型系统有:W曲.OQL[33l【341和PQAgentt35】【36】。 内蒙古大学硕士学位论文信息抽取方法的划分标准有很多,以上所提只是其中一种,所有的Web信息抽取方法的最终目的都是为了最大程度提高信息抽取的准确性、高效性和自动性。性能比较好的信息抽取要求人为参与多,自动化程度比较低,而自动化程度比较高的信息抽取准确率不高,适应性较差,所以,一个好的信息抽取方法需要对这两者之间的矛盾进行有效的调节。另外,由于网页多变性的特点,包装器的生成以及维护也是Web信息抽取需要解决的问题。2.2Web信息抽取相关技术标准2.2.1XML的技术标准XML(eXtensibleMarkupLanguage,可扩展标记语言)【37】是由W3C(WbrldWideW曲Consortium,万维网联盟)制定的一种标记语言,用于对Web上有格式的数据进行描述、传输和操作。以便于软件开发人员和内容创建者在网页上组织信息,其目的不仅在于满足不断增长的网络应用需求,同时还希望借此功能确保在通过网络进行交互合作时,具有良好的可靠性和互操作性。虽然XML标准本身简单,但与XML相关的标准却种类繁多,W3C制定的相关标准就有20多个,XML确实是一种非常实用的结构化语言,并且已经得到了广泛的应用。XML相关标准体系可分为元语言标准、基础标准和应用标准三个层次【lo】。元语言标准:用来描述标准的元语言。在XML标准体系中只有XML标准是整个体系的核心,其他XML相关标准都是通过其制定的或者为其服务的。基础标准:这一层次的标准时为XML的进一步实用化制定的标准,规定了采用XML制定标准时的一些公用特征、方法或规则。包括DTD、XMLSchema、XMLNamespace、DOM(DocumentObjectModel,文档对象模型)、SAX(SimpleAPIsforXML,XML简单应用程序接口)、XPath、XLink、XPointer、XSL及RDF(ResourceDescriptionFormat,资源描述框架)等。应用标准:XML已经开始被大家广泛接受,大量的应用标准,特别是针对Internet的应用标准纷纷采用XML进行制定。包括XHTML(采用XML对HTML的重新定义)、SVG(ScalableVectorGraphics,可伸缩向量,是一个描述二维图形对象的XML应用程序)、WAP、MathML(数学标记语言)、ebXML(联合国UN/CEFACT小组和OASIS共同发起的一个计划,目标是制定出基于XML的全球范围的电子商务数据交换标准)。从XML标准体系中可以看到XML基础标准是相当多的,而且这些标准又是相当重要的,9 基于XML的WEB信息抽取系统研究与实现因为这些标准是XML应用标准的基础。它们是在XML标准的基础上,进一步对XML中的一些公共特性和方法及规划作了更为详细明确的规定,应用标准通常都要使用到这些标准的内容或者遵照其中的约定。在XML文件中,用的大多数都是自定义的标记,但仔细考虑一下,如果两个同行业的、公司A和B要用XML文件相互交换数据,公司A用<价格>标记来表示他们产品的价格信息,而公司B可能用<售价>标记来表示价格信息。这样,当一个XML应用程序来读取他们各自的XML文件中的信息时,如果应用程序只知道<价格>里表示的是价格信息,那么B公司的。‘价格信息就读不出来,必将产生错误。显然,对于想利用XML文件来交换信息的实体来说,他们之间必须有一个约定——即编写XML文件可用那些标记,父元素中能包括那些子元素,,各个元素出现的顺序,元素中的属性怎样定义等。这样他们在利用XML交换数据时才能够畅通无阻,这种约定称为DTD。对于同行业之间进行数据交换时,有一个固定的DTD将会方便很多。比如说,如果Web上的各大电子商场的XML网页都能遵循同一个DTD时,那么我们就可以轻松地依据这个DTD编写一个应用程序,去网上将感兴趣的东西自动取回来。DTD对于XML文档的结构起到了很好的描述作用。但是,它也具有采用非XML的语法规则、不支持数据类型的以及扩展性较差等缺点。XMLSchema正好解决的这些问题。Schema基于XML,更具有规范性。它利用XML的基本语法来定义XML文档的整体机构,如哪些元素可以出现在文档中、元素间的关系是什么、每个元素有哪些内容和属性以及元素出现的顺序和次数等等,都可一目了然,并且Schema对DTD进行了扩充,引入了数据类型和命名空间,从而使其具备了较强的可扩展性。XMLNamespace提供了一种简单的方式,用来在XML文档中通过与有URI引用标识的命名空间相关联的限定元素和属性,提供了解决多DTD的XML文档中元素名、属性名冲突的基本方法。上作为一个程序开发人员,可能需要通过程序代码访问一个XML文档中的内容。由于XML文档实际上就是一个文本文件,开发者必须书写一个能够识别XML文档中文本信息的文件阅读器——.XML解析器,用来解析XML文档并提取其中的内容。显然,这不仅是一项非常耗时的工作,而且要求每个应用XML的人都要自己去处理XML中的语法细节,而且,在不同应用程序或开发环境中,如果多种应用程序都需要访问XML文档中的数据,这样的解析器代码就要被重写多次。因此,一个统一的XML数据接口是必须的,DOM和SAX就是两个标准的应用程序接口,二者在后续中将单独详细介绍。10 内蒙古大学硕士学位论文2.2.2HTML、XHTML与XMLHTML(HypertextMarkupLanguage,超文本指标语言)是现在流行的网页制作语言,它已经成为全球信息网的基础语言。HTML为人们的传送和接收信息带来了革命性变化,但是HTML主要是被设计为资料显示之用,HTML的焦点几乎完全放在信息应该如何显示上,而不是信息的内容及它的机构。HTML强调文档的表现形式,XML强调文档的结构,这也是XML出现的原因【10】。XHTML(eXtensibleHyperTextMarkupLanguage)是符合XML的HTML文档的又一个家族。XHTML文档是结构良好的XML,可以使用标准的XML处理器对它们进行查看、编辑或验证。通俗地讲,XHTML就是一个扮演着HTML角色的XML,XHTML仅是一种过渡技术,它基于XML的强大功能及HTML的简单特性。XHTML于2000年1月26日被W3C认定为一个正式标准‘101。2.2.3XPath查询语言XML路径语言(XMLPathLanguage,XPath)[371是一门专门用于在XML文档中查找信息的语言,其他XML程序可以利用XPath在XML文档中对元素进行导航。XPath主要用于为XSLT、XPointer以及其他XML技术提供服务,XSLT、XPointer等技术需要依赖于XPath来定位XML文档中元素和属性等节点。1999年11月,W3C发布了XSLTl.0标准,而XPathl.0作为XSLTl.0的重要组成部分也被一同发布。2007年1月,W3C发布了最新的XPath2.0规范,与其一同发布的还有XPath2.0,这也是XPath的最新版本。可以这样理解:1.XPath使用路径表达式在XML文档中进行导航2.XPath包含一个标准函数库3.XPatll是XSLT中的主要元素4.XPath是一个W3C标准。XPath将一个XML文档视为一棵树进行操作,为此,XPath定义了树状模型(TreeModel)。该模型仅仅是概念上的,并且不要求任何特定实现。该树包含了七种节点类型,分别为:XML文档根节点、元素节点、文本节点、属性节点、命名空间节点、处理指令节点和注释节点。概括起来,XPath语言里的节点类别如表所示: 基于XML的WEB信息抽取系统研究与实现表2.1XPath支持的节点类型Table2.1XPathnodetypessupported节点类型说明XML文档根节点XML文档的根称为文档节点或根节点元素节点一个元素的开始标签、结束标签,以及开始标签和结束标签之间的全部内容整体称为元素节点文本节点即XML元素中间的字符数据,包括CDATA段中的字符数据属性节点元素的每个属性都是属性节点。属性节点包括属性名和属性值两个部分。XPath认为属性节点必须依附于元素节点命名空间节点命名空间节点代表XML文档中的xmlns:prefix属性处理指令节点XML的处理指令部分就是处理指令节点注释节点XML文档里包含的部分就是注释,注释对应于注释节点XPath使用路径表达式来选取XML文档中的节点或节点集。节点是通过沿着路径(path)或者步(steps)来选取的。表2.2列出了常用的XPath路径表达式。表2.2常用XPath路径表达式.Table2.2XPathpathexpressionscommonlyused路径表达式描述nodename选取此节点的所有子节点|从根节点选取||从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置选取当前节点选取当前节点的父节点@选取属性Step是XPath的基本结构,提供了从XML数据文档中选择节点的方法,包括三个部分:轴(axis)、节点测试(nodetest)、和谓词(predicate)。轴与节点测试用双冒号(::)分开,每个谓词放在方括号中,即axisname::nodetest[predicate]。XPath轴:可表示XML文件分支树表达式的浏览方向。即所选节点与当前节点之间的树关系。这些坐标——以全名然后缩写语法——选取个别列举如下:12 内蒙古大学硕士学位论文★child(子节点:比自身节点深度大的一层的节点,且包含在自身之内)默认,不需要缩写语法声明★attribute(属|生)@★descendant(子孙节点:比自身节点深度大的节点,且包含在自身之内)缩写语法不提供★descendant.or-self(自身引用及子孙节点)//★parent(父节点:比自身节点深度小一层的节点,且需要包含自身的节点)..节点测试:允许从指定的轴中选择特定的元素或者其他节点类型,来进一步缩小节点定位范围。列举如下:★comment0(寻找XML注释节点,例如)★text0(寻找某点的文字型别,例如hello于hello</k>)★processing—instruction0(寻找XML处理指令如。在这个例子里,将符合processing.instruction('php’)会传回值。)★node()(寻找所有点)谓词(Predicates):谓语用来查找某个特定的节点或者包含某个指定的值的节点,谓词被嵌在方括号中。选取未知节点:XPath通配符可用来选取未知的XML元素。表2.3XPath通配符Table2.3XPathwildcard通配符描述木匹配任何元素节点@宰匹配任何属性节点node0匹配任何类型的节点选取若干路径:通过在路径表达式中使用“l”运算符,您可以选取若干个路径。2.2.4XSLT基础XSLT[3刀起始于XSL,XSL指扩展样式表语言(EXtensibleStylesheetLanguage)。万维网联盟(w3c)开始发展XSL的原因是:存在着对于基于XML的样式表语言的需求。XSLT在1999年11月16日被确立为W3C标准。13 基于XML的WEB信息抽取系统研究与实现CSS=HTML样式表。HTML使用预先定义的标签,标签的意义很容易被理解。HTML元素中的

元素定义表格,并且浏览器可以清楚如何显示它。向HTML元素添加样式是很容易的。通过CSS,很容易告知浏览器用特定的字体或颜色显示一个元素。XSL=XML样式表。XML不使用预先定义的标签(用户可以使用任何喜欢的标签名),并且这些标签的意义并不都那么容易被理解。
元素意味着一个HTML表格,一件家具,或是别的什么东西,浏览器不清楚如何显示它。XSL可描述如何来显示XML文档,XSL不仅仅是样式表语言。XSL包括三部分:1.XSLT是一种用于转换XML文档的语言。它用于将一份XML文档转换成另一份可浏览或输出的文档,并可控制转换后的显示外观。2.XFath是一种用于在XML文档中导航的语言。XSL使用XPath来识别、选择和匹配XML文档中各种组成部分,包括元素、属性和文本内容等。.3.XSL.FO是一种用于格式化XML文档的语言。XSL还可以使用XSL.FO解释结果树、格式化转换得到的文档。XSLT可以这样理解:1.XSLT指XSL转换(XSLTransformations)。2.XSLT是XSL中最重要的部分。3.XSLT可将一种XML文档转换为另外一种XML文档。。4.XSLT使用XPath在XML文档中进行导航。5.X.Path是一个W3C标准。XSLT=XSL转换,XSLT是XSL中最重要的部分,XSLT用于将一种XML文档转换为另外一种XML文档,或者可被浏览器识别的其他类型的文档,比如HTML和XHTML。通常,XSLT是通过把每个XML元素转换为(X)HTML元素来完成这项工作的。通过XSLT,您可以向输出文件添加或移除元素和属性。您也可以重新排列元素,执行测试并决定隐藏或显示哪个元素,等等。描述转化过程的一种通常的说法是,XSLT把XML原始树转换为X】ⅥL结果树。XSLT使用XPath在XML文档中查找信息。XPath被用来通过元素和属性在XML文档中进行导航。在转换过程中,XSLT使用XPath来定义源文档中可匹配一个或多个预定义模板的部分。一旦匹配被找到,XSLT就会把原始文档的匹配部分转换为结果文档。几乎所有的浏览器都支持XML和XSLT。本文正是使用了XPath的这个功能来定位抽取信息的。把文档声明为XSL样式表的根元素是。注意,14 内蒙古大学硕士学位论文是完全同义的,均可被使用!根据W3C的XSLT标准,声明XSL样式表的正确方法是:或者:如需访问XSLT的元素、属性以及特性,我们必须在文档顶端声明XSLT命名空间。xmlns:xsl=”http://www.w3.ore,/1999/XSL/Transform”指向了官方的W3CXSLT命名空间。如果您使用此命名空间,就必须包含属性version--”1.0”。我们现在要把下面这个XML文档(”cdcatalog.xml”)转换为XHTML..EmpireBurlesque</title><artist>BobDylan</artist><country>USA</country><company>Columbia</eompany>.<price>10.90</price><year>1985</year></cA></catalog>在IntemetExplorer和Firefox中查看XML文件:打开XML文件(通常通过点击某个链接)XML文档会以颜色化的代码方式来显示根元素及子元素。点击元素左侧的加号或减号可展开或收缩元素的结构。如需查看原始的XML源文件(不带有加号和减号),请在浏览器菜单中选择“查看页面源代码’’。然后创建一个带有转换模板的XSL样式表(”cdcatalog.xsl”):<?xmlversion="1.0”encoding=”ISO一8859-1”?><xsl:stylesheetversion--”1.0”xmlns:xsl=”http://www.w3.org/1999/XSL/Transform”><xsl:templatematch=”/”><html><body>’15 基于XML的WEB信息抽取系统研究与实现<h2>MyCDCollection</h2><tableborder=”1”><trbgcolor=”#9acd32”><thalign=”left”>Title</th><thalign=”left”>Artist</th></tr><xsl:for-eachselect=”cataloged”><仃><td><xsl:value—ofselect=-¨title”/></td>.<td><xsl:value.ofselect=-”artist”/></td></tr>.</xsl:for-each></table></body></html></xsl:template></xsl:stylesheet>向XML文档(”edcatalog.xml”)添加XSL样式表引用:<?xmlversion=¨1.0”encoding=”ISO一8859—1II?><?xml.stylesheettype=”text/xsl”href=-”cdcatalog.xsl”?>//这里添加了XSL样式表的引用<catalog><咖<title>EmpireBuflesque</title><artist>BobDylan</artist><cotmtry>USA</country><company>Columbia</company><price>10.90</price><year>1985</year><led></catalog>16 内蒙古大学硕士学位论文另外,XSLT规范了很多有用的元素:<xsl:teI:nplate>元素。<xsl:template>元素用于构建模板。match属性用于关联XML元素和模板。match属性也可用来为整个文档定义模板。match属性的值是XPath表达式(举例,match=¨/¨定义整个文档)。<xsl:value—of>元素。<xsl:value.of>元素用于提取某个选定节点的值,并把它添加到转换的输出流中。<xsl:for-each>元素。<xsl:for-each>元素可用于选取指定的节点集中的每个XML元素。<xsl:sort>元素用于对结果进行排序。<xsl:if>元素用于放置针对XML文件内容的条件测试。<xsl:choose>元素用于结合<xsl:when>和<xsl:otherwise>来表达多重条件测试。<xsl:apply-templates>元素。<xsl:apply-templates>元素可把一个模板应用于当前的元素或者当前元素的子节点。假如为<xsl:apply-templates>元素添加一个select属性,此元素就会仅仅处理与属性值匹配的子元素。用户可以使用select属性来规定子节点被处理的顺序。2.2.5DOM和SAX比较一处理XML文档首先是解析ⅪⅥL文档,比较常用的XdV[L文档解析接口,有DOM和SAX。其它一些与特定语言相关的XML解析标准如JDOM,DOM4),JAXP等,它们的底层都是基于这两种标准的。下面着重介绍DOM,并简单介绍一下DOM和SAX的差异【10】。DOM(DocumentObjectModel,文档对象模型)是由W3C制定的一套标准接口规范,它与平台和语言无关,并允许程序和脚本动态接入和更新文档的内容、结构和风格。DOM树模型的作用就是定义了XML文档(Document)和Object(各种Node节点)之间的映射关系,从而允许用户通过内存中的DOM树(一系列Node对象的集合)获取对应的XML文档里的信息。在应用程序中,基于DOM的XML解析器在对XML文档进行解析后,不管这个文档有多简单还是有多复杂,文档中的信息都会被转化成一棵对象节点树。DOM节点树生成之后,就可以通过DOM接口访问、修改、添加、删除及创建树中的节点和内容,从而实现对XML文档中数据的操作。DOM解析器通过DOM树使应用程序可以对XML文档进行随机访问。这种访问方式给应用程序的开发带来了很大的灵活性,它可以任意地控制整个XML文档中的内容。然而,由于DOM分析器把整个XML文档转化成DOM树放在了内存中,因此,当17 基于XML的WEB信息抽取系统研究与实现XML文档比较大或者文档结构比较复杂时,对内存的需求就比较高。一般来说,DOM方式适用于解析不大的XML文档,因为使用这种方式,为了要构造文档对象树,在应用程序运行时,需要把整个XML文档调入内存,这就加大了应用程序运行所花费的资源开销。在DOM接口规范中,有四个基本的接口:Document,Node,NodeList以及NamedNodeMap。在这四个基本接口中,Document接口是对文档进行操作的入口,它是从Node接口继承过来的。Node接口是其他大多数接口的父类,象Documct,Element,Attribute,Text,Comment等接口都是从Node接口继承过来的。NodeList接口是一个节点的集合,它包含了某个节点中的所有子节点。NamedNodeMap接口也是一个节点的集合,通过该接口,可以建立节点名和节点之间的一一映射关系,从而利用节点名可以直接访问特定的节点。SAX解析器提供的是一种对XML文档的顺序访问机制,对于已经解析过的部分,不能再倒回去重新处理,它是一种快速读写XML数据的方式。SAX解析器在实现时,只是顺序地检查XML文档中的字节流,判断当前字节是XML语法的那一部分,检查是否符合XML语法并触发相应的事件,对于事件处理函数本身,要由应用程序自己来实现。SAX解析的关键在于事件驱动,SAX解析器处理XML文档时,会自动对外发送一系列的事件,这些事件将会由程序员提供的监听器所监听。因此,SAX接口也被称作事件驱动接口。同DOM解析器相比,SAX解析器实现简单,对内存要求比较低。可以想象,当整个互联网的信息在XML的平台上整合应用时,现代信息海洋的杂乱无章无疑会得到根本的改善。DOM和SAX解析之间的差异如表2.4所示:.表2.4DOM和SAX解析之间的差异Table2.4Thedifferencebe骶enDOMandSAXparsingDOMSAX速度需要一次性装入整份顺序解析XML文档,无XML文档,并将XML须一次性装入整份XML文档转换为DOM树,速文档,因此速度很快度比较慢重复访问‘将XML文档转换为顺序解析XML文档,不DOM树后,整个解析阶保存已访问的数据,因此段DOM树常驻内存,非不适合重复访问。如果需18 内蒙古大学硕士学位论文常适合重复访问,效率很要重复访问数据,则需要好再次开始解析XML文档内存要求整个解析阶段DOM树不保存已访问数据,对内常驻内存,对内存要求存几乎没有要求,内存占高,内存占用率大用率低修改既可读取节点内容,也可通常只能读取节点内容,修改节点内容无法修改节点内容复杂度完全采用面向对象的编采用事件机制思维进行程思维进行解析,整份编程,SAX解析器只负XML文档转换为DOM责触发事件,程序负责监树之后,以面向对象的方听所有事件,并通过事件式来操作各Node对象即获取XML文档中的信息可19 基于XML的WEB信息抽取系统研究与实现第三章基于XML的Web信息抽取系统框架体系的设计与研究3.1提出问题3.1.1Web信息抽取的困难Web页面结构和内容的特点给信息抽取带来了很大的困难,主要表现在:(1)Web页面结构和表现形式经常性发生变化。Web页面结构是半结构化的,表现形式也会经常更新,一定程度上给信息抽取规则的制定带来影响。(2)Web页面内容所含的信息资源复杂多样。当前,Web页面内容复杂多样,包括有:文本、弹出广告、flash动画、声音、图像等等,在这样复杂的页面中搜寻想要的数据也会变得极为困难。(3)Web信息资源准确定位困难。(4)W曲页面语义模糊。Web页面更注重数据的表现,而不是数据的描述。那么,试图自动地在HTML文档中寻找特定数据信息时,通常基本不是可能通过标签信息获得的。Web信息抽取由以下两个部分组成,一个是信息抽取,一个是信息集成。本文的信息抽取是整合扩展了基于XML的Web.Harvest开源程序来实现的,它具有较强的灵活性和扩展性。信息集成是采用本文设计的基于Lucene的中文文本分类系统,对文本分类后进行存储,以备后续更加方便利用。3.1.2Web信息抽取的目标研究Web信息抽取技术主要是为了能找到自动的,抽取信息完整性和准确性高的信息获取方法。Web信息抽取技术的核心是能够从Web页面所包含的无结构或半结构的信息中识别用户感兴趣的数据(比如特定新闻、商品信息,搜索引擎返回结果信息,厂商信息,技术资料等等),并将其转化为更加结构化、语义更为清晰的格式。转化后的格式化的数据文件,可以供用户进行对比(比如对比获取到的商品信息,电影信息等等,从中做出选择)或者作为语料库继续下一步数据挖掘方面的工作,也可以丰富用户自己的信息库,比如对从Web页面中获取的信息进行分类后转化成关系型数据库表来完成信息集成。综上可见,进行Web信息抽取研究是一项非常有意义的工作。基于XML的Web信息抽取工作就是在这样的问题面前产生。Web信息抽取的目标就是 内蒙古大学硕士学位论文从大量Web网页数据中获取有效的、新颖的、准确的、最终可理解的模式的过程。简单的说,Web信息抽取的就是从浩瀚网页数据中准确提取符合要求数据的一个过程。Web信息抽取领域里,准确性和通用性一直是这一研究领域的矛盾。当然,本文所构建的系统框架正朝着简单、通用和健壮的目标而努力。3.2分析问题3.2.1基于XML的Web信息抽取系统框架模型针对信息抽取的困难和目标,本文在分析和结合现有相关技术的基础上,设计提出了一种基于XML的Web信息抽取系统框架模型,系统框架模型运用了开源的Web.Harvest[381数据提取工具,并对其进行了整合研究和扩展。Web.Harvest是一个用Java写的开源的Web数据提取工具。它提供了一种从所需的页面上提取有用数据的方法。为了达到这个目的,本文需要用到如XPatll,XSLT,XQuery和正则表达式等操作text/xml的相关技术。Web.Harvest主要着眼于目前仍占大多数的基于HMLT/XML的Web页面内容。另一方面,它也能通过写自己的Java方法来轻易扩展其抽取能力。因为每个Web页面都是运用某种逻辑混合而成的,所以需要有一种反向的过程来从这些混杂的内容中提取所需的数据。而在Web.Harvest中这种提取过程是用户通过基于XML配置文件的方式来进行定义的。每一个配置文件描述了为了达到最终目的的提取数据的一系列任务,而这些任务又是以一种链式的方式执行的,所以一个任务返回结果可以当作另一个任务的输入内容,这可以从下面的代码中看出:<xpathexpression=”//a[@shape=’rect’]/@href’><html..to..xml><httpurl=”http://www.somesite.tom/”/></lamal.to.xml></xpath.>当Web.Harvest执行上述代码的时候,其步骤为:1.http处理器从指定的URL上下载内容;2.http.to.xml处理器清除页面上的一些HTML以产生XHTML;3.Xpath处理器在指定的URL里面寻找符合其表达式的序列;2l 基于XML的WEB信息抽取系统研究与实现Web—Harvest支持的处理集合包括变量操作,条件分支,循环,函数,文件操作,HTML和XML处理,异常处理等。Web.Harvest的主要目的是加强现有数据提取技术的应用。它的目标不是创造一种新方法,而是提供一种更好地使用和组合现有方法的方式。它提供了一个处理器集,用于处理数据和控制流程,每一个处理器被看作是一个函数,它拥有参数而且执行后同样有返回结果。而且处理是被组合成一个管道的形式,这样使得它们可以以链式的形式来执行,此外为了更易于数据操作和重用,Web.Harvest还提供了变量上下文用于存储已经声明的变量。图3.1描述了管道式处理器的执行情况。图3.1Web-harvest管道式处理器的执行情况Figure3.1TheimplementationoftheWeb-Harvestprocessorpipeline正因为Web—Harvest具有以上所述特点,本文在结合XML进行Web信息抽取时采用了Web.Harvest开源程序,并对其进行了整合研究和扩展。一3.2.2系统框架模型结构通过学习研究Web.Harvest2.0开源程序,结合XML相关技术,本文设计了基于信息抽取系统框架模型结构图,为了实现信息的进一步利用,本文还设计了基于Lucene【611的中文Web文本分类系统模型,对信息抽取结果进行分类后存储。图3.2给出了本文基于XML的Web信息抽取系统框架模型结构。 内蒙古大学硕士学位论文图3.2web信息抽取系统框架模型结构图Figure3.2Framemodelstructureofwebinformationextractionsystem该系统模型主要由以下两部分组成:一个是Web.Harvest2.0,本文整合扩展了开源的Web.Harvest数据抽取工具,通过构建XML配置文件,实现对Web网页内容进行精确抽取,得到对应抽取结果的XML数据文档;另一个是Lucene3.0,使用基于Lucene的中文文本分类系统模型对抽取的网页数据文档进行分类,从而构建分类文本存储库,为进一步准确制定抽取规则和构建基于XML文档知识库做好准备。这里一个关键的任务就是构建XML配置文件,其中重要的内容就是制定抽取规则,如何自动学习构建XML配置文件是一个非常庞大的任务,需要用到机器学习里的很多知识,由于时间和精力有限,本文仅设计了一个简单的机器自动学习模型来实现抽取规则库的构建,所以本文结合了已经构建好的XML文档库,主要采用抽取规则自定义和待抽取Web信息相结合的思想,即用手工构建XML配置文件来完成对Web网页信息抽取的定位,这种方法的准确性比较高。那么可以看到,整个系统将完成两个主要任务,一个是Web页面信息准确抽取,另一个就是将抽取结果进行分类后存储。下面就针对这两个过程进行详细阐述。 基于XML的WEB信息抽取系统研究与实现3.3解决问题3.3.1Web信息抽取系统工作流程随着Web信息资源量不断增长,面对浩瀚的Web信息资源数据库,信息的准确获取和再利用已经成为当前Web数据挖掘的一个热门应用。Web信息抽取技术正是在这样的背景下应运而生。:..。’,“,,;:4.灌岳‘y1jj:'_,,:,:囊苎曼舞毒冀煮熏黑::j。量叠囊;。之二曩菇l蠢赢。:叠’⋯’々月F目"^⋯“vwk^^*#^*口#m⋯一⋯⋯日ww*mF#⋯⋯‰■p#,wrH*⋯图3.3Web信息抽取系统工作流程图Figure3.3FlowchartofWebinformationextractionsystem由图3.3可知,Web信息抽取系统工作流程一目了然,整个系统的实现分为三大模块,分别是页面优化、构建XML配置文件和抽取结果分类存储。页面优化包括两个内容:页面清洗和页面解析。页面清理主要是修复整理HTML页面中的非法字符、不规范的和错误嵌套的标记,去除非主题元素,实现由HTML文档到XHTML文档的转换,在这个过程中本文使用了HTML解析器,首先把HTML文档解析成HTMLDOM24 内蒙古大学硕士学位论文树,然后通过遍历该DOM树对HTML文档进行清洗,最终构建符合XML标准的XHTML文档;页面解析主要是使用第二章介绍的XML解析器,把经过页面清洗后得到的XHTML文档解析成一棵XMLDOM结构树,从而方便对这棵树进行抽取规则的人工制定和学习,在这个过程中本文使用了基于DOM的XML解析器。构建XML配置文件是指人工制定(用户标注)抽取规则或者机器学习构建抽取规则,本文采用了抽取规则自定义和待抽取Web信息相结合的思想,也就是人工制定抽取规则的方法,对经过页面优化处理后生成的XMLDOM树,通过使用XPath语言,对所要获取的信息资源进行人工书写XPath路径表达式,设计实现针对某类页面抽取规则的自定义,进而构建XML配置文件,最终实现信息资源的精确抽取。另外,XML配置文件中抽取规则的制定也可以采用机器学习的方法。抽取结果分类存储是指经过抽取后获得的XML数据文档,为了将来进一步利用这些文档,本文设计了基于Lucene的中文文本分类系统模型,对抽取结果进行了分类存储,存储是可以将XML文档映射存储在关系数据库中,或者直接以文档形式存储在XML类型的数据库中。。3.3.2抽取规则的研究1.抽取规则自定义和待抽取Web信息相结合的思想。抽取规则自定义和待抽取Web信息相结合的思想就是通过人工对照制定抽取规则,针对获得的Web页面文档,首先经过页面优化处理后生成XMLDOM树,然后使用XPath语言,对所要获取的信息资源进行人工书写xPam路径表达式,这种方法的抽取准确性比较高,但对于要从大量格式不相同的网页中抽取信息则需要耗费较多的时间和精力来编写抽取规则。2.抽取规则的自动学习模型。一抽取规则的自动学习模型就是机器学习方法,它可以通过学习和总结规则,从而对新的Web文档进行信息的提取。但它要建立在对大量训练数据的基础上。下面设计了抽取规则的自动学习模型。图3.4给出了抽取规则的自动学习模型流程图。. 基于XML的WEB信息抽取系统研究与实现图3.4抽取规则的自动学习模型流程图Figure3.4Flowchartofextractionruleautomaticlearningmodel对于待抽取的结构比较相似的页面,可以通过对少量的页面进行训练,建立抽取规则。然后,在建立起来的抽取规则的指导下,对大量结构相似的页面进行信息抽取,获得用户所需要的信息。通过DOM解析器,可以把XML加载为一棵DOM树存放在内存中。对于一棵DOM树,某些叶子节点可能是是用户需要抽取的信息资源。在训练规则时,用户通过指定感兴趣的信息资源(比如DOM树的某个叶子节点),可以得到DOM树中从根到指定叶子节点的一条XPath路径,这条路径就是一个抽取规则,需要把这条抽取规则存进一个规则集合中。对于不同的页面,结构可能是不尽相同的,所以用户感兴趣的某些同样的信息资源在不同的页面中,其抽取规则也就不同,这是需要把这些不同的规则放在同一个规则集合中。以下算法描述了上述过程:假设样本训练集合为samplestrain_set,一个训练样本为sample,抽取规则集合为extractionrulesset,抽取规则为extractionrules,用户指感兴趣的信息资源为SOI.U'CC。具体算法描述如下:extractionrulesset=①; 内蒙古大学硕士学位论文while(semplestrain_set=!①){semple=semplestrainset其中一项;if(根据extraetionrules—set成功抽取数据){semplestrain_set=semplestrain_set——semples;Break;)extractionrules=DOM树中SOUl'CC从根到叶子节点的路径;if(extractionrules属于extractionrules—set){extractionrules——set=-extractionrules——setU{extractionrules};>extractionsemples_set=semplestrain_set——semple;)通过扩大训练集规模以及当训练集里样本差异性较明显时,则会明显增加 基于XML的WEB信息抽取系统研究与实现<h郇url=”http://www.baidu.com/s?wd=玩具”/></html..to..xml></var-def><!一获取竟价排名的企业网站列表一><var-defname=”urllist”><xpa$expression=”//div[@cLass=’rl】”><varname=”start¨/></xpath></var-def><!一循环urllist,并把抽取结果写入到XML数据文档中一><fileaction=”write”path=’'baidu/cataLog.xml”charset=”utf-8”><![CDATA[<catalog>]】><loopitem=”item”index=”i”><list><varnamff=”urllist”/>奶is伊<body><xquery><xq-paramname=”item”type=”nodeO”><varname:=”item”/></xq-param><xq-expression><![CDATA【declarevariable$itemasnodeOexternal;Let$name:=data($item//span/font[1]/textO[1])Let$urL:=data($item//span/font[2]/textO)return<Website><name>{normalize-space($name)}</name><url>{normalize-space($url)}</url>】]X/xq—expression></xquery></body></loop> 内蒙古大学硕士学位论文<![CDATA[</catalog>】]></file></config>上述的配置文件包含了三段。第一段的执行步骤:1.下载“http://www.baidu.corn/s?wd=玩具’’里面的内容;2.http—to—xml处理器清除页面上的一些HTML以产生XHTML:第二段的执行步骤:1.XPath处理器在指定的URL里面寻找符合其表达式的序列;2.使用一个新的变量“urllist”来保存上面的搜索结果;第三段是利用上一段的搜索结果来提取相应的信息:1.循环里面迭代每一个item:2.获取每个item的name和url;3.将其保存在文件系统里;制定了配置文件(把该配置文件保存为:baidu.xmL)后,在程序里调用配置文件,其代码如下:importjava.io.IOException;importorg.Webharvest.definition.ScrapcrConfiguration;importorg.Webharvest.runtime.Scraper;一publiccLassTestf一、●publicstaticvoidmain(String[】args)throwsIOException{ScraperConfigurationconfig=newScraperConfiguration(”c:/baidu.xml”);Scraperscraper2newScraper(config,”c:/tmp/”);scraper.setDebug(true);longstartTime=System.currentTimeMillis0;scraper.execute0;System.out.println(”timeeLapsed:”+(System.currentTimeMillis0一startTime));>根据以上配置文件(baidu.xml)‘,执行抽取任务后,得到抽取结果XML数据文档实例如 基于XML的WEB信息抽取系统研究与实现图3.5所示:3.3.4Web中文文本分类图3.5抽取结果实例Figure3.5ExampLesofresuLtsextracted对于从Web抽取的XML数据文档进行有效管理是一件非常重要的事情,这将有利于快速、准确地使用从Web上抽取的信息:针对这一问题本文进行了分析和研究。Web中文文本分类是指如何从已标识训练文本中学习得到分类模型的问题。用获得的模型来对新的文档进行分类。例如,有一些新闻报道,分别属于下面几个类别:财经、体育、和IT等等。本文要做的工作是学习构建一个文本自动分类系统模型,并将Web网页的新闻报道自动分门别类到这几个类型中。随着信息技术飞速发展,从浩瀚的Web信息资源中发现潜在的、有价值信息的Web挖掘 内蒙古大学硕士学位论文技术正悄然兴起,备受关注。其中Web上用户和各种机构在线文档的急速增长,Web上文本结构复杂、文本信息资源数量巨大,如何有效提高网络文本信息资源获取质量,方便用户对所需文本信息资源分类和聚类,已经变得尤为重要,因而自动文本分类系统的设计与实现已经成为一个重要研究问题。英文文本分类的研究现己相当成熟,提出了较多分类系统模型,相关标准的分类语料和评价标准已经建立【39411。关于中文文本分类在国内也进行了大量的研究,由于中英文语言构成的差异性,在中文文本分类领域还没有形成统一的测试语料和评价标准,性能的客观性评价不易做到[42-43]。本文设计实现了一个基于Lucene的Web中文文本自动分类系统模型,使用了Bayesian理论,对使用的Web中文文本分类算法进行了简述,介绍了中文文本分类系统模型的设计。Web中文文本分类系统模型主要通过Web文本采集器将网络上相关信息资源采集到待分类文本库中,这一步已由整合扩展的Web.Harvest实现,然后,将训练文本和待分类文本经过文本预处理后,构建文本特征库,构建文本分类器,利用分类算法最终实现Web文本有效分类。W曲中文文本分类系统模型流程图如图3.6所示。图3.6中文Web文本分类系统模型流程图Figure3.6FLowchartoft_heChineseWebtextcategorizationsystemmodeLWeb文本采集Web文本采集主要通过网络蜘蛛(WebSpider)或者相关网页抓取工具自动下载多种网站文本内容的程序,著名的搜索引擎,如GoogLe、百度、Yahoo!和MSN都有自己的通用抽取工具,它们都能高效地收集各种内容的网页。本文采用整合扩展的基于XML的Web.Harvest开源Web网页信息抽取工具对中文网页进行抽取,得到抽取结果即待分类的XML数据文档。文本预处理 基于XML的WEB信息抽取系统研究与实现Web上的大部分网页是HTML或XML文档,通过信息采集模块将网页的内容去掉与文本分类无关的标记,如HTML中的Tag、去除停用词等,然后转换成统一格式的XML文本,存放在文件夹已备使用。相对于英文文本的预处理,中文文本的预处理更为复杂,中文字的信息量比较低,中文的表示中词和词之间并没有明显的间隔符号,因而自动分词问题是中文信息处理的首要问题与难点,句子中各词语间没有固有的分隔符(空格),因此对中文文本还要进行词条切分处理,重要的分词方法主要有机械分词(如基于字符串匹配正向最大匹配、正向最小匹配、负向最大匹配和负向最小匹配方法)、基于理解的方法及基于统计的方法(如基于统计学的N.Gram技术)。分词后,接下来的工作就是去除禁用词,引入停用词表和高频词表去除对文本分类影响不大的词语。其中停用词指那些虚词、感叹词、连词和语法词等,高频词是指在所有文本中出现的频率基本都相同,区分性小,不能作为文本分类的特征的词。构建文本特征库训练文本和待分类文本经过分词并去除停用词和高频词后,表示文本的向量空间和类别向量的维数也是相当大煦,因此需要进行特征的抽取,即构建文本特征库。特征提取是文本分类系统中十分关键的问题,它不仅降低了向量空间的维数,提高了系统的速度和精度,还能防止过度拟合。本文采用了向量空间模型作为文本的表示方式,特征提取采用了信息增益的方法。(1)获取训练文本集。训练文本集的选择是否合适对文本分类器的性能有较大影响。训练文本应该能够广泛地代表分类系统所要处理的客观存在的各个类别中的文本。一般而言,训练文本应是公认的、经人工分类的语料库。(2)建立文本表示模型选用什么样的文本特征和用怎样的数学形式组织这些语言要素来表征文本,这是文本分类中的一个重要技术问题。目前的文本分类方法和系统大多以词或词组作为表征文本语义的语言要素;表示模型则主要有布尔模型、向量空间模型【删和统计语言模型【45】,向量空间模型(VectorSpaceModel,VSM)是文本分类中广泛使用的模型,在信息检索(InformationRetrieval,简称取)中得到广泛应用。在文本自动分类中使用这种方法主要是从信息检索中引进过来的。向量空间模型(VSM)的基本思想是:把文本表示成特征向量,在向量空间模型中,每个文本都可被抽象表示成如下形式:V(di)=((tl,wl(di));(t2,w2(di));⋯⋯(ti,wi(di))⋯..;(tn,wn(di)))32 内蒙古大学硕士学位论文其中,ti是特征项(tem);wi(di)是ti在文档di中的权值函数,反映特征项ti决定文档di属于某一类的重要程度。特征项是从文档中提取的特征词,根据“.贝叶斯假设”,假定特征项之间对文本的类别归属的影响是相互独立的,这样就可以把文本表示成由文本特征项的集合所表示的向量。对于一个训练文本集合,我们就可以得到如图3.7所示的一个向量空间。dl⋯di⋯d。tlWl,ld(1)⋯W1.id(i)⋯whd(n):●w¨d(1)⋯w;jd(i)⋯、。d(n)ti:●tnW¨dO)⋯W叫d(i)⋯W。.。d(n)图3.7文本特征项集合向量空间Figure3.7CoLLectionoftextFeaturesvectorspaceW通常是一个稀疏矩阵,、删(由)(权值)可以通过统计ti在文档di中出现的频率来表示,也可以通过布尔统计来表示。训练文本和待分类文本在向量空间模型中使用上述相同的表示方法。(3)文本特征提取特征选择就是尝试从文本集中除去信息含量较低的单词,从而提高分类效率和减少计算复杂度。特征选择的主要方法有:文档频率(DF)‘461,信息增益(IG),Z2统计,互信息(MI)和交叉熵【47】。本文采用了信息增益方法来提取特征。信息增益是机器学习领域中常用的衡量特征项的指标,它通过特征项在文本中出现与不出现的情况来推算该特征项所带有的信息量。一个单词W的信息增益定义为:‘佑(w)=一∑P(c.,)logP(c/)+尸(w)∑P(c,Jw)logP(c.,1w)+P(订)∑尸(c/I面)logP(c/I诼)l=l,2lj=l这里以勺)的估计值为属于类勺的文档个数除以文档的总数,即巳类文档在语料库中出现的频率:P(叻的估计值为出现单词W的文档个数除以文档的总个数得出,即W在库中出现的文档频率;P(勺1w)为属于勺且出现了单词w的文档个数除以出现单词w的文档个数,即33 基于XML的WEB信息抽取系统研究与实现包含单词wN于cj类的条件概率;p(cjI劝为属于q且不出现单词W的文档个数除以不出现单词w的文档个数,即不包含单词W属于ci类的条件概率。最后对训练集中的每个单词计算其信息增益值,根据佑对初始特征项排序,然后根据特定阈值,从原始特征空间中移除低于特定阈值的单词,保留高于阈值的词条作为特征项。构建文本分类器文本分类方法是一种有监督的学习方法,它用一个已标识好类别的文本数据集(即训练集文本)来训练分类器,然后用训练好的分类器对未标识类别的文本进行分类。文本分类方法通过构造某种分类模型,并以此判断样本所属的类别。当前分类器的构造方法有许多种,常用的基于统计的分类方法有朴素贝叶斯分类‘481、KNN[49】[501、支持向量机【5l】、决策树【52]、回归模型【53】、规则学习算法、相关反馈、选举分类、神经网络等。我们这里使用朴素贝叶斯(Bayesian)的学习方法来解决文本分类问题,朴素贝叶斯学习效率高,它只需要对训练数据进行一次扫描就可以估计出所有需要的概率。也可以作为增量算法使用,当新的数据出现时,我们可以更新模型,概率值可以方便地得到更新。所以朴素贝叶斯在文本分类中被广泛使用。贝叶斯理论是一个通过考虑总体信息和先验信息来获得后验信息的统计推断过程,它的主要特点是使用概率表示所有形式的不确定性,并通过概率规则来实现学习和推理过程。贝叶斯理论的原理是通过计算某件事情过去发生的频率来估计未来它发生的概率,它的计算结果表示为随机变量的概率分布,也可以解释为对不同可能性的信任程度。下面是贝叶斯理论的几个基本概念。(1)先验概率先验概率是指根据历史的资料或主观判断所确定的各事件发生的概率,由于这类概率没能经过实验证实,属于检验前的概率,所以称之为先验概率。(2)条件概率条件概率也称后验概率,它一般是指利用贝叶斯公式,并通过实验等方式获得了新的信息,从而对先验概率进行修正后得到的更符合实际的概率。(3)联合概率联合概率是指两个或多个时间同时发生的概率。(4)全概率公式设x,】,为两个随机变量,不考虑变量X的取值,只考虑Y=Y这一事件发生的概率就是先验概率,记作e(r=y);在考虑X=x这一事件发生的概率下,事件Y=Y发生的概率就 内蒙古大学硕士学位论文是条件概率,记作p(r=ylX=x)。显然,条件概率尸(y=yIX=x)比先验概率p(】,=夕)基于更多的信息。考虑X=x,Y=Y这两个事件同时发生的概率,称为它们的联合概率,记作P(XnY1。变量X和Y的联合概率和条件概率满足如下全概率公式:尸(zn】,)=尸(yIX)P(X)=P(xrr)P(Y)(5)贝叶斯定理将全概率公式的右半部分进行移项,就得到了贝叶斯定理,公式如下:≥(yI耻半岩产’贝叶斯定理描述了先验概率和条件概率之间的关系,它提供了一种由Y,P(r),e(xI】,)计算后验概率P(ylX)的方法。(6)事件独立性设X,Y为两个时间,一般情况下,事件X的发生对事件Y发生的概率是有影响的,即P(YIx)≠尸(y),但当这种影响不存在时,会有尸(】,lx)=P(】,),此时全概率公式转化为:尸(ynx)=P(】,Ix)尸(x)P(】,)P(x),若两个事件x,】r满足以上公式,则称x,Y为相互独立的事件。同理,对于n个事件五,五,五,⋯,鼍。(7)极大后验假设在许多情况下,给定某一数据D,需要在候选集合C中寻找使得条件概率P(cID),最大假设c∈C,任何像这样具有最大可能性的假设被称为极大后验假设,记作气栌,如下所示:‰P⋯⋯kc州。)=argmaxc.c半铲,朴素贝叶斯分类方法就是依据上述极大后验假设的原理来找出待分类对象最可能隶属的类别的。设己标识类别的训练文档集合D={盔,畋,...吒},其类别属于m个预定义的主题类别集合C={c1,乞,..靠),现有待分类文档x,特征项为辑,乞,..厶>,e为文档X所属类别,则满足尸(elx)=max{P(C=GIX=x)}。由贝叶斯公式以及前面提到的两个独立性假设,也就是特征项独立性假设和特征项顺序无关假设,我们可以得到:35 ●基于XML的WEB信息抽取系统研究与实现P(C=C,IX=x)P(X=X)=P(X=xC=C,)P(C=Ci)进而得到:kP(C,)l-IP(t,/C,)P(C=CfX=x)P(X=x)=尸(x),其中P(C,)为类别的先验概率,取七值为样本数据集中类别cf中的样本比例,P(x)为常数,得到:P(C,/x)oo兀P(t,/Ci),3=1分类需要从数据集中估计P(0/C:f)的值,设M为单词表中的词汇总数,TF(tj,Cf)表示特征项tj,在类别G中出现的频率次数,则类别G中所有单词的出现频率次数和为:∑I:-I。rF(fJ,C,),于是我们得到词频型朴素贝叶斯文本分类模型:即∥弘井营一一此分类模型为多项式朴素贝叶斯分类模型,文献‘州中的研究表明,对于分类特征集集比较大的分类问题,使用多项式朴素贝叶斯分类模型的误差较其他模型较小,所以一般基于朴素贝叶斯分类方法的网页分类都采用多项式朴素贝叶斯分类模型来构造。到此,我们设计了一个中文文本分类系统模型。这个系统模型是整个信息抽取系统框架模型的一部分,用它来实现对Web信息资源抽取结果的分类。下一节我们对抽取结果存储进行了的探讨。.3.3.5XML数据文档的存储本文中抽取结果是以ⅪvIL数据文档形式表示的,经过分类后被存储在数据库中,这里的存储方式有两种,一种是以3;JV[L数据文档中数据为中心的映射关系将数据存储在关系数据库中,另一种是以XML数据文档为中心被直接存储在关系数据库中。下面对这两种存储方式进行了简单的探讨,具体实现存储将是下一步重点研究的工作。将XML映射到数据库有两种常见的方法:基于表的映射和对象.关系(或基于对象的)映射。这两种方法都是双向的,因此可用于存储和检索XML文档。基于表的映射将文档看作一个表或者一组表。这种映射最明显的优点是简单。因为结构与关系数据库的表及结果集匹配,根据这种映射编写代码很容易。代码执行快、伸缩性好,对某些应用很合适,比如每次一个表在数据库之间传递数据。但是,基于表的映射也有一些不足之处。它只能用于非常小的ⅪvIL文档子集。此外,,36 内蒙古大学硕士学位论文它没有保留物理结构(即字符和实体引用、字符编码或独立的声明)、文档信息(即文档类型声明或DTD)、注释和处理指令。基于表的映射只能用于有限的XML文档,因此多数支持XML的关系数据库、大部分支持XML的对象服务器以及一些中间件工具会使用更加复杂的映射,称为对象.关系映射。这种映射方法将XML文档建模为针对文档数据的一棵对象树,然后将这些对象映射到数据库。实现对象.关系映射需要两步。首先将XML模式(这里使用DTD)映射到对象模式,然后将对象模式映射到数据库模式。也可以将这两种映射合并成一个DTD到数据库的映射,现在多数软件都是这样做的。两种映射都是对XML文档中的数据而不是对文档本身建模。因此映射更适合于以数据为中心的文档而不是以文档为中心的文档。虽然对象.关系映射是采用面向对象的技术,但是也不够理想。基于表的映射根本不能处理混合内容,而从性能的角度看对象.关系映射可能效率很低。以XML文档为中心直接存储在关系数据库中,Oracle和IBM公司都提出了相应的存储解决方案。就是分别以pureXMLt551和OracleXMLDB[561为代表的数据库管理系统。它们都采用了W3C的XML数据模型,都提供了对XMLSchema和XPath等技术标准的支持,都可以对关系型数据和XML数据提供良好的支持。但是,他们在设计和实现方法还是存在一定差别。DB2pureXML中XML文档是以一个列的形式存储在关系表中,这种混合数据库采用两种不同的解析方式来处理SQL和XQuery,即一个编译器可以同时处理两种语言,各种应用可以通过DB29的编译器同时管理关系数据和XML文档。OracleXMLDB是将XML文档转化为SQL对象,利用关系数据的处理方法来处理XML文档。DB2pureXML存储机制相对简单,DB2pureXML就是完整地保存XML文档,整个XML文档存储在数据表中,XML文档对象是独立于其父表单独存储的,对于XML文档类型的列的每一行都有一个XML数据标识符(XMLDataSpecifier(XDS))存储着如何访问硬盘的XML数据的信息。OracleXMLDB基于对数据要求的不同采用三种不同的存储机制[56】。1.对于一些数据,只需要保存良好的结构和数据的完整性,这种数据就以CLOB的形式进行存储。2.对于一些数据,对查询的性能和更新的力度要求非常高,和传统的关系型数据类似,这种数据需要先定义XML数据的模式XMLSchema,在Sehema中定义每个数据的数据类37 基于XML的WEB信息抽取系统研究与实现型,然后注册这个Schema,根据注册的Schema将XML数据拆分映射到对应的关系数据表中,采用完全结构化的存储机制。3.对于一些数据,其中一部分满足上述第一种情况,而另一部分满足第二种情况,是一种半结构化的混合数据,这种情况采用的机制和第2种方法类似,就是将非结构化部分的数据类型定义为CLOB。综上所述,在数据库存储方面,DB2pureXML和OracleXMLDB各有特点,采用DBpureXML的存储机制,XML文档的内容和结构可以更加灵活。而OracleXMLDB虽然是基于已经注册的Schema的,结构相对固定,但是对于不同的数据采用了不同的存储方式,特别是对于那些有重要意义的数据采用结构化的存储方式,理论上在查询等方面具有更好的性能。 内蒙古大学硕士学位论文第四章基于XML的Web信息抽取系统的测试与分析4.1Web信息抽取和文本分类评价指标4.1.1Web信息抽取评价指标对信息抽取系统的评测指标的必要性的认识来源于MUC(messageunderstandingconferences)。其评测指标的出发点是IR(InformationRetrieval)的评测指标:查准率P(Precision)和召回率R(Recall)。虽然延用了m中的叫法,但作为IE(InformationExtraction)的评测指标,查准率和召回率与其在IR中略有不同。在信息抽取中,召回率可以大概地解释成有多少信息被正确地抽取出来;查准率则表示了抽取出的信息中有多少是正确的。其计算公式如下:召回率=抽取出的信息点数/所有正确的信息点数。抽取出的信息点数‘所有正确的信息点数查准率=抽取出的正确信息点数/所有抽出的信息点数。抽取出的正确信息点数“所有抽取的信息点数由上述公式可以看出,P和R存在反比关系。P和R均存在于[0,1j区间内。在评测一个信息抽取系统时,必须将这两者同时考虑。但由于二者的反比关系,不能够直接地同时比较P和R,所以出现了F指标(F.measure)。F指标是为了评估综合性能而设立的一个指标,它是一个加权几何平均值,其计算公式如下:。precisionXrecallx2』1=一.precision+recall4.1.2Web文本分类评价指标查准率(precision)、查全率(recall)及F1测试值是信息检索领域通用的评估方法。也是Web文本分类中常用的评估方法。Recall、Precision和F1值的定义:prectslonck2被正确归为c。类的页面39 基于XML的WEB信息抽取系统研究与实现recalle=一★被正确归为c。类的页面丽甄面瓦歪丽’F1=—prec括ionx—recallx2。precision+recall4.2实验测试环境与方法系统开发在Windows7环境下,使用Java语言开发,用到了Eclipse集成开发环境,所使用的JDK版本是.1.6.0,其中还用到了JTidy_【571,w曲一Harvest,Lucene等开源包。JTidy主要用于研究页面源HTML文档的预处理,整合扩展了的W曲.Harvest主要完成信息抽取核心工作,基于Lucene的中文文本分类系统模型主要实现了对抽取结果的分类存储,其中分词工具采用IK-Analyser3.0[581中文分词。实验环境如表4.1所示:表4.1实验环境TabLe4.1ExperimentalenvironmentcPUInter酷睿i3.380M(双核.2.53GHz)内存2GB操作系统I张ndows7开发I具Eclipse3.6.2dDK版本号1.6.o4.3Web信息抽取结果及分析基于XML的Web信息抽取系统框架模型可以针对多种网站的网页进行信息抽取。本文主要对sohu网站的十大类新闻信息的抽取进行了测试研究,它们隶属于数据密集型网站,作为测试的网站列表如表4.2所示:表4.2网站测试列表TabLe4.2WebsiteTestList 内蒙古大学硕士学位论文类型网站URL搜狐招聘http://hr.sohu.corn/搜狐文化http://cul.sohu.corn/搜狐体育http://sports.sohu.corn/搜狐汽车http://auto.sohu.corn/搜狐旅游http://travel.sohu.corn/搜狐军事http://mil.news.sohu.com/搜狐教育http://learning.sohu.com搜狐健康http://health.sohu.corn/搜狐财经http://business.sohu.com/搜狐I,rhttp://it.sohu.corn/本文设计实现的信息抽取系统框架模型,平均召回率为96.3%,平均准确率为98.7%,都在比较高的水平。本系统框架模型对于数据密集型Web页面具有很好的信息抽取效果,对于不是数据密集型Web页面,对该类型Web页面实施信息抽取的意义也不是很大,一方面,此类页面一般包含所需信息量比较少,为此类页面设计专门的信息抽取系统,其通用性一般不是特别高;另一方面,如果需要对该类Web页面实施信息的抽取时,完全可以采用手工的方式,从而可以得到更加准确的抽取结果。4.4抽取结果分类存储及分析基于Lucene的中文文本分类系统模型主要实现了对抽取结果的XML文档进行分类。其中分词工具采用IK.Analyser3.0中文分词,提供Lucene接口,可以实现跨平台,该分词工具采用了特有的“正向迭代最细粒度切分算法",支持细粒度和最大词长两种切分模式,具有83万字/秒(1600KB/S)的高速处理能力,还采用了多子处理器分析模式,支持:英文字母(口地址、Email、UI也)、数字(日期,常用中文数量词,罗马数字,科学计数法),中文词汇(姓名、地名处理)等分词处理,优化的词典存储,更小的内存占用。41 基于XML的WEB信息抽取系统研究与实现训练语料:本文采用Sogou实验室的SogouC.mini.20061127中文文本分类数据集,类别体系包括:招聘、文化、体育、汽车、旅游、军事、教育、健康、财经、IT,合计10个类别,共计100篇文章,总大小244KBl59】。测试语料:主要抽取搜狐(Sohu)的新闻网页,按照训练语料的类别,每类各抓取50个测试页面。共500个页面。‘图4。1抽取结果分类柱状图Figure4.1Classificationofextractionresultshistogram从图4.1的统计结果可以看到,汽车和军事的Precision、Recall和F1值比较高。然而招聘、文化、健康和教育的Precision、Recall和Fl值相对比较低。我们经过人工对照分析发现,特征项标识重叠是主要原因,因而导致本应属于这一个类的文本被分到了另一个类,另一个原因就是存在同一个文本同时属于两个以上类别的可能性。总体上看,对网页抽取结果的分类还是令人满意的,基本上达到了预期实验目的。经过分类后,分类结果将被分别存储在分类文本数据存储库中,对今后进一步利用这些分类结果提供了便利。42 内蒙古大学硕士学位论文5.1论文总结第五章总结和展望计算机科学技术和应用的不断发展,给互联网技术的研究和应用带来了机遇与挑战。近年来,互联网用户和信息爆炸式增长,使人们的生活方式发生了翻天覆地的变化,网上需求信息发布、网上购物、网上办公、网上考试、网上缴费和网上就医看病等等,这一切在以Web2.0为主的互联网时代已经变成现实,下一步,传感器技术融合互联网将产生物联网,世界正在走向一个以互联网为核心的信息化时代。在浩瀚的Web信息世界里,人们想要准确、有效地获取和定位相关信息已经变得越来越困难,如何从大量的Web信息里抽取用户想要的信息已成为人们研究的重点,相关技术也在不断地被开发和应用。本文主要完成了以下工作:1.着重研究Web信息抽取,介绍了Web信息抽取的研究背景、研究意义,以及相关知识如XML、XPath、XSLT和DOM树等,并对当前几种主要的Web信息抽取技术作了对比分析,找出了其中的优点及不足,为下面理论研究和系统实现做好准备。2.在研究前人成果的基础之上,重点对半自动化抽取方式进行研究,对现有技术加以改进和整合,提出了基于XML的Web信息抽取系统的研究和实现,设计了系统框架模型。该系统能更加方便的实现Web信息抽取,执行效率也有所提高。该系统采用了抽取规则自定义和待抽取Web信息相结合的思想,所以具有更好的准确性。3.研究了信息抽取关键技术,抽取规则和抽取配置文件的生成,最终实现了Web信息抽取系统的功能。此外,本文还研究了将抽取结果的XML数据进行分类的问题,探讨了将分类结果存储到关系型数据库的方法。4.结合经典的Web信息抽取评价标准,对系统抽取效果和分类效果进行测试,对结果进行了分析。实验内容是搜狐网站新闻相关页面,对其进行抽取和分类测试,结果显示,本文设计实现的基于XML的Web信息抽取系统框架模型的整体效果还是很好的,平均召回率为96.3%,平均准确率为98.7%。抽取结果XML数据文档的分类存储效果也是比较理想的。5.2论文展望本文已经构建了Web信息抽取系统的框架模型,实现了Web信息抽取的基本功能,并在43 基于XML的WEB信息抽取系统研究与实现信息抽取的准确性上获得了提高,基于本文构建的信息抽取平台,人们可以对网页内容进行抽取利用,但在效率和方便性等方面还有待进一步完善,Web信息抽取任重而道远。未来的工作会在以下几个方面继续努力:1.本文设计的Web抽取系统对于结构比较完整的Web页面有很好的效果,但对于结构性较差的Web页面,抽取效果仍需进一步改进。2.由于Web的规模巨大,覆盖度、新鲜度和重要度同样对于Web信息抽取系统提出了要求。随着网页数量的不断增加,网页内容的删除和修改,实时性在Web信息抽取领域也是一个重要的研究方向。3.随着构建网站技术的不断发展与创新,web信息抽取技术还需要进一步跟进。由于时间有限,加以本人对Web信息抽取方面的理论知识的积累深度还不够,本文在研究工作及撰写的进行中难免会出现疏漏和失误,敬请各位老师能够指正,提出宝贵的意见。. 内蒙古大学硕士学位论文参考文献[1]李保利,陈玉忠,俞士汶,《信息抽取研究综述》,北京大学计算机科学与技术系计算语言学研究所[2]译者:俞勇,薛贵荣,韩定一,((Web数据挖掘》,出版社:清华大学出版社,原书名:WebDataMining,原出版社:Springer作者:(美)BingLiu,丛书名:世界著名计算机教材精选[3]孟小峰,王海燕,谷明哲等{XWIS中基于预定义模式的包装器》,计算机应用[4]朱明,王军,王俊普,《基于多层模式的多记录网页信息抽取方法》,计算机工程[5]李效东,顾清,《基于DOM的Web信息提取》,计算机学报,[6]周明健,李济,李飞,《基于本体论的Web信息抽取》,计算机辅助设计与图形学学报,[7]柳佳刚,刘高嵩,贺令亚等。《基于Web的信息抽取技术现状与发展》,福建电脑,2007[8]孟小峰,《XML数据管理概念与技术》,中国计算机学会著作丛书,[9]蒲筱哥,《基于Web的信息抽取技术研究综述》,现代情报,2007年10月,第10期[10]LineEikvil;InformationExtractionfromWorldWideWebASurvey·TechnicaLRePort945,NorweiganComputingCenter,1999[11]AlbertoH.F.Laender,BerthierA.Ribeiro—Neto,AltigranS.daSiLva,JulianaS.Teixeira.ABriefSurveyofWebDataExtractionTools.SIGMODRecord,2002.31(2):84-93[12]贺智平,《web信息自动抽取技术研究》,(硕士学位论文).西安:西安电子科技大学,2006[13]CALIFFM,MOONEYR.RelationalLearningofpattern—matchruLesforinformationextraction[Z].InProeeedingsoftheSixteenthNationalConferenceonArtificialIntelligenceAndEleventhConferenceonInnovativeApplicationsofArtificialIntel1igence,Orlando,Florida,1999.[14]FREITAG:D.Machinelearningforinformationextractionininformaldomains[J].Machinelearning,2000,39(2/3):169—202.[15]SODERLANDS.Learninginformationextractionrulesforsemi—structuredandFreeText[J].Machinelearning,1999,34(13):233-272.[16]MUSLEAI,MINTONS.KNOLOCKC.Hierarchicalwrapperinductionforsemi-structured45 基于XML的WEB信息抽取系统研究与实现Informationsources[J].AutonomousAgentsandMulti—AgentSystems,2001,4(1/2):93-i14.[17]CRAIGA,KNOBLOCK,KRISTINAL,eta1.accuratelyandreLiablyextractingdatafromtheWeb:Amachinelearningapproach[J].DataEngineeringBulletin,2000,23(4):33-41.[18]MUSLEAI,MINTONS,CRAINGA,eta1.Activelearningforhierarchicalwrapperinduction(7).InProceedingsoftheSixteenthNationalConferenceonArtificial口IntelligenceandEleventhConferenceonInnovativeApplicationsofArtificialIntelligence,Orlando,Florida,USA,1999.[19]MUSLEAI,MINIONS,CRAIGA,etaL.Ahierarchicalapproachtowrapperinduction[Z].InProceedingsoftheThirdInternationalConferenceonAutonomousAgents,Washington,USA,1999.[20]HSUCNDUNGm.Generatingfinite-statetransducersforsemi-structureddataextractionfromtheWeb[J].InformationSystem,1998,23(8):521-538.[21]KUSHMERICKN.Wrapperinduction:efficiencyandexpressiveness[J]ArtificialIntelligenceJournal,20(X),118(1/2):15—68.[22]DavidW.Embley,DouglasM.Campbel1,Y.S.Jiangeta1.Conceptual一Model—BasedDataExtractionfromMultipLe—ReeordWebPages.DataandKnowledgeEngineering.1999.31(3):227-251[23]EMBLEYD,CAMPBELLD,JIANGS,etaL.Conceptual—model—baseddataextractionfrommultiplerecordWebPages[J]DataandKnowledgeEngineering,1999,31(3):227-251.[24]CHRISTINAYIPCHUNG,MICHAELGERTZ,NEELSUNDARESAN.ReverseengineeringforWebdata:Fromvisualtosemanticstructures[Z].InProceedingsof18thInternationalConferenceonDataEngineering,SanJose,CaLifornia,2002.[25]CHRISNAYIPCHUNG,NEEL,SUNDARESAN.Quixote:BuildingXMLrepositoriesfromtopicspecificWebdocuments[Z].InFourthInt.WorkshopontheWebandDatabases,2001.[26]LIUL,PUC,HANW.XWRAP:AnXML—enabledwrapperconstructionsystemforWebInformationsources[Z].InProceedingsoftheInternationalConferenceonData, ●内蒙古大学硕士学位论文Engineering,SanDiego,2000.[27]LIUL,HANW,BUTTLERD,eta1.AnXMLBasedwrappergeneratorforWebinformationextraction[Z].InProceedingsofACMSIGMODInternationalConferenceonManagementofData,Philadelphia,Pennsylvania,USA,1999.[28]ROBERTBAUMGARTNER,SERGIOFIESCA,GEORGGOTTLOB.Supervisedwrappergenerationwithlixto[Z].Proceedingsof27thinternationalConferenceonVeryLargeDatabase,Roma,Italy,2001.[29]ROBERTBAUMGARTNER,SERGIOFLESCA,GEORGGOTTLOB.VisualWebinformationextractionwithlixto[Z].Proceedingsof27thinternationalConferenceonVeryLargeDatabase,Roma,ItaLy,2001.[30]ARNAUDSAHUGUET,FABIENAZAVANT.BuildingintelligentWebapplicationsusinglightweightwrappers.DataKnowledgeEngineering,2001.36(3):283-316[31]LAENDERA,RIBEIRO—NETOB,SILVAA.AbriefsurveyofWebdataextractionTools.SIGMoDRecord,2002·31(2):84-93[32]ValterCreseenzi,GiansalvatoreMecca,PaoloMerialdo.RoadRunner:towardsautomaticdataextractionfromlargeWebsites.In:Proceedingsofthe27thInternationalConferenceonVeryLargeDatabase,2001.[33]AROCENAG,MENDELZONA.WebOQL:Restructuringdocuments,databasesandWebs[Z].InProeeedingsofthe14thICDEConference,Orlando,Florida,USA,1998.[34]CUSTAVOAROCEAN.WebOQL:ExploitingdocumentstructureinWebqueries[D].TorontoMaster’Sthesis,UniversityofToronto,1997.[35]徐林吴,杨文柱,陈少飞.《基于XPath的Web信息抽取取》[Z].19届全国数据库会议,郑州,2002.[36]杨文柱,徐林吴,郝亚南.,《个性化的Web查询助手的设计与实现》[Z].19届全国数据库会议,郑州,2002.[37]http://www.w3schooL.com.cn[38]http://web—harvest.sourceforge.net/[39]YANGYiming,LIUXin.Are—examinationoftextcategorizationmethods[EB/OL].http://citeseer.nj.nec.com/yan999reexamination.html,1999.[40]CohenWW,SingerY.Context—sensitivelearningmethodsfortextcategorization47 基于XML的WEB信息抽取系统研究与实现[EB/OL].http://citeseer.nj.nec.com/cohen96contextsensitiVe.html,1996.[41]DavidD.1ewis.Trainingalgorithmsforlineartextclassifier[EB/OL].http://citeseer.nj.nec.com/1ewis96training.html,1996.[42]SaltonG.WangA.YangCS.Avectorspacemodelforautomaticindexing[J].CommunicationofACM,1975,18(11):613—620.[43]邹涛.基于WWw的信息发现技术的研究[D].南京:南京大学,1999.[44]Salton,McGill,IntroductiontomodemInformationretrieval,McGraw—HillBook。company,NewYork,1983[45]F.Peng,LanguageIndependentTextLeaningwithStatisticaln—GramLanguage’Models,UniversityofWaterlooinComputerScience,2003[46]Joachims,AprobabilisticanalysisoftheRocchioalgorithmwithTFIDFfortextcategorization.[47]MitchellT.M著。曾华军,张银奎等译。机器学习,机械工业出版社,2003[48]C.APete,P.DamerauandS.Weiss.Textminingwithdecisionrulesanddecisiontrees.InProceedingsoftheConferenceonAutomatedLearningandDiscoveryWorkshop6:LearningfromTextandtheWeb,1998[49]Y.Yang.AnevaluationofstatisticalapproachestotextcategorizationInformationRetrieval,1999,L(L):76-88[50]李荣陆,胡运发,《基于密度的KNN文本分类器训练样本裁剪方法》,计算机研究与发展,2004,41(4),539-545[51]T.Joachims.Textcategorizationwithsupportvectormachines:LearningWithManyRelevantFeatures.InProceedingsoflOthEuropeanconferenceonMachineLearning,1998,137—142[52]J.R.QuinLan.InductionofDecisionTreesKluwerAcademicPublishers1968.[53]Y.YangandC.G.Chute.Alinearleastsquaresfitmappingmethodforinformationretrievalfromnaturallanguagetexts.Inproceedingsofthe14thConferenceonComputationalLinguistics,1992.[54]McCallum,A.,andNigam,K.AcomparisonofeventmodelsforNaiveBayestextclassificationIn~诅I一98WorkshoponLearningforTextCategorization,1998,41-8. 内蒙古大学硕士学位论文[55]http://www.ibm.com/developerworks/cn/xml/x—comparexmldb/index.html#purexml[56]http://www.oracle.corn/technetwork/cn/index.html[57]http://jtidy.sourceforge.net/[58]http://code.google.com/p/ik—analyzer/[59]http://www.sogou.com/labs/[60]http://www.cnnic.net.cn/。[61]http://lucene.apache.org/49 基于XML的WEB信息抽取系统研究与实现致谢转眼间三年的硕士研究生生活就要结束了。在此,我要向三年来给予我帮助和支持的老师和同学们说声谢谢,谢谢你们!首先,我要感谢我的导师巩政副教授。三年来,我在研究生阶段的学习和生活中,巩老师给予了无私的关怀和帮助,让我能够在一个良好宽松的科研环境下学习和生活,在巩老师的指导下,我的科研实践能力得到了快速的进步。在此,我要向巩老师致以最深切的谢意和诚挚的敬意。其次,我还要感谢课题组的其他老师和同学们。他们是:飞龙老师、张学娃、岳俊英、宋海林、明玉,和们快乐每一天!感谢所有曾给予们!同时,感谢内蒙古大学计算,不管遇到多大的困难,总有你 O}o内蒙古大学硕士学位论文,发袭的论文攻读硕士学位期间发表的论文和参加的项目[1]GongZheng,YuTian.ChineseWebtextclassificationsystemmodelbasedon’Bayesiantheory,E-ProductE-ServiceandE-Entertainment(ICEEE),2010InternationalConferenceon,Henan,7-9Nov.2010[2]XiangdongSu,GuangLaiGao,YuTian.AFrameworktoAnswerQuestionsofOpinionType,WebInformationSystemsandApplicationsConference(WlSA),20107“,Hohhot,20—22Aug.2010参加的项目1.2010年6月-2010年9月参与内蒙古住房资金管理中心网站及业务系统开发,负责后台管理模块的设计与开发。2.2010年10月-2011年2月参与内蒙古大学计算机学院横向项目即内蒙古自治区财政厅政府采购处政务公开电子信息平台和第二党支部创先争优活动电子平台的设计与开发。5l ●—■置罾盛髑●0.,^jJl■■■量蠡t毒玉■E孽簟—■飞_●J墨纛誉量鬈器罄馨量鼍Z邑鬈,^●●霸■嗣鬻、Il;j●—■—■,●,塌鼍离叠u,_'—霍■_;</p> </div> <div class="mt-3 bg-white"> <div class="d-lg-block d-none px-3 px-lg-4 py-3 border-bottom text-center font-18"> 当前文档最多预览五页,下载文档查看全文 </div> <div class="detail-fixed-feature d-none d-lg-block" id="detailFixedFeatureBox"> <div class="px-3 px-lg-4 py-3 d-flex align-items-center justify-content-between fixed-feature-box" id="detailFixedFeature"> <div class="d-lg-flex d-none align-items-center"> <div> <a class="btn btn-outline-danger article-state" href="javascript:;" data-id="33999017" data-code="438274" data-title="基于xml的web信息抽取系统研究与实现"> <span>侵权申诉</span> </a> <button type="button" class="btn btn-outline-secondary with-light ml-2" data-toggle="modal" data-target="#reportModal" data-id="33999017"><span>举报</span></button> </div> <nav class="d-flex align-items-center ml-4" id="anchorPoint"> <a href="javascript:;" class="btn btn-light anchor-pre px-2"><i class="iconfont text-muted"></i></a> <div class="text-muted mb-0 pre-point-list" id="prePointList"> <a class="px-2 active nav-link" href="#anchorImg0">1</a> <a class="px-2 nav-link" href="#anchorImg1">1</a> <a class="px-2 nav-link" href="#anchorImg2">2</a> <a class="px-2 nav-link" href="#anchorImg3">3</a> <a class="px-2 nav-link" href="#anchorImg4">4</a> <a class="px-2 nav-link" href="#anchorImg5">5</a> / <span class="px-2" id="prePageNums">62</span> </div> <a href="javascript:;" class="btn btn-light anchor-next px-2"><i class="iconfont text-muted"></i></a> </nav> </div> <div class="d-flex align-items-center"> <p class="d-lg-block d-none font-14 text-black-50 mb-0 mr-2">此文档下载收益归作者所有</p> <button class="btn btn-danger detail-download-btn px-3 ml-0 font-16" data-btn="downloadfile" style="width:128px;height:40px;" data-id="33999017" data-price="1000" data-size="2.24 MB" data-page="62页" data-type="pdf" data-binddown="true" data-isold="new_content" data-vip="0" data-title="基于xml的web信息抽取系统研究与实现">下载文档</button> </div> </div> </div> </div> <div class="d-block d-lg-none px-3 px-lg-4 py-3 border-bottom text-center font-14" style="color:#999">当前文档最多预览五页,下载文档查看全文</div> <button class="btn d-block w-100 d-lg-none btn-danger detail-download-btn px-3 ml-0 font-16" data-btn="downloadfile" data-id="33999017" data-price="1000" data-size="2.24 MB" data-page="62页" data-type="pdf" data-binddown="true" data-isold="new_content" data-vip="0" data-title="基于xml的web信息抽取系统研究与实现">点击下载本文档 </button> </div> <div class="px-3 px-lg-4 py-3 bg-white mt-3"> <ul class="nav custom-tab border-bottom" id="myTab" role="tablist"> <li class="nav-item" role="presentation"> <a class="nav-link active px-0 mr-4 font-16 font-weight-light pb-3" id="tips-tab" data-toggle="tab" href="#showTips" role="tab" aria-controls="showTips" aria-selected="true">版权提示</a> </li> <li class="nav-item" role="presentation"> <a class="nav-link px-0 pb-3 font-16 font-weight-light text-black-50" href="/d-33999017.html" >下载文档</a> </li> <dl class="flex-grow-1 mb-0 d-lg-none"> <li class="ml-3 float-right"> <button type="button" class="btn btn-light" data-toggle="modal" data-target="#reportModal" data-id="33999017"><span>举报</span></button> </li> </dl> </ul> <div class="tab-content with-content pt-3" id="myTabContent"> <div class="tab-pane fade show active font-14" id="showTips" role="tabpanel" aria-labelledby="showTips-tab"> 温馨提示: <br> 1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。<br> 2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。<br> 3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。<br> 4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。 <br> </div> </div> </div> <div class="mt-3 bg-white"> <div class="px-3 px-lg-4"> <div class=" py-2 border-bottom d-flex align-items-center justify-content-between"> <h5 class="font-16 my-2">最近更新</h5> <a class="font-14 hover-letter-spacing" href="/sitemaps/index.html" target="_blank" rel="nofollow">更多<i class="iconfont font-12 pl-1"></i></a> </div> </div> <ul class="mx-75 px-0 py-3 mb-0 row img-item-list"> <li class="font-14 col-lg-6 col-12 mx-0 my-0"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-doc" href="/p-66583805.html" title="国家司法考试卷四复习方法每日一练(2015.2.25)" target="_blank">国家司法考试卷四复习方法每日一练(2015.2.25)</a> </li> <li class="font-14 col-lg-6 col-12 mx-0 my-0"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-doc" href="/p-76880478.html" title="普通高等学校招生全国统一考试(河南卷) 完整 优质" target="_blank">普通高等学校招生全国统一考试(河南卷) 完整 优质</a> </li> <li class="font-14 col-lg-6 col-12 mx-0 my-0"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-docx" href="/p-76092493.html" title="徐州专版20考物理复习方案第二部分物质力力与运动压强浮力课时训练09质量密度物质的物理属性试题" target="_blank">徐州专版20考物理复习方案第二部分物质力力与运动压强浮力课时训练09质量密度物质的物理属性试题</a> </li> <li class="font-14 col-lg-6 col-12 mx-0 my-0"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-doc" href="/p-66856586.html" title="2017成人高等学校专升本招生全国统一考试政 治试题答案[文档版]" target="_blank">2017成人高等学校专升本招生全国统一考试政 治试题答案[文档版]</a> </li> <li class="font-14 col-lg-6 col-12 mx-0 my-0"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-docx" href="/p-76091955.html" title="徐州专版20考地理复习方案第四部分中国地理上课时训练1国的河流试题" target="_blank">徐州专版20考地理复习方案第四部分中国地理上课时训练1国的河流试题</a> </li> <li class="font-14 col-lg-6 col-12 mx-0 my-0"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-docx" href="/p-68900190.html" title="2021年普通高等学校招生全国统一考试仿真卷理综" target="_blank">2021年普通高等学校招生全国统一考试仿真卷理综</a> </li> <li class="font-14 col-lg-6 col-12 mx-0 my-0"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-docx" href="/p-68801601.html" title="司法考试改革:法律职业准入条件出炉每日一练2021.6.24.doc" target="_blank">司法考试改革:法律职业准入条件出炉每日一练2021.6.24.doc</a> </li> <li class="font-14 col-lg-6 col-12 mx-0 my-0"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-docx" href="/p-76118122.html" title="2019年司法考试第二编法理学新章节考点1" target="_blank">2019年司法考试第二编法理学新章节考点1</a> </li> <li class="font-14 col-lg-6 col-12 mx-0 my-0"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-docx" href="/p-71188609.html" title="2006年国家司法考试试 卷 二" target="_blank">2006年国家司法考试试 卷 二</a> </li> <li class="font-14 col-lg-6 col-12 mx-0 my-0"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-docx" href="/p-64269993.html" title="李文华:司法考试刑法:最新专题《犯罪未完成形态》" target="_blank">李文华:司法考试刑法:最新专题《犯罪未完成形态》</a> </li> </ul> </div> <div class="detail-yourlike px-3 px-lg-4"> <div class="border-bottom d-flex align-items-center justify-content-between py-2"> <h5 class="font-16">大家都在看</h5> <a class="font-14 hover-letter-spacing" href="/today.html" target="_blank" rel="nofollow">近期热门<i class="iconfont font-12 pl-1"></i></a> </div> <ul class="row font-14" id="mayBeFllowArticle"> <li class="col-lg-6 px-0 px-lg-3"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-docx" href="/p-76091956.html" title="徐州专版20考地理复习方案第四部分中国地理上课时训练1国的地形试题" target="_blank">徐州专版20考地理复习方案第四部分中国地理上课时训练1国的地形试题</a> </li> <li class="col-lg-6 px-0 px-lg-3"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-doc" href="/p-77579852.html" title="招生全国统一考试语文试题(江西卷)精校版 试题" target="_blank">招生全国统一考试语文试题(江西卷)精校版 试题</a> </li> <li class="col-lg-6 px-0 px-lg-3"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-docx" href="/p-71188619.html" title="2006年国家司法考试试 卷 一" target="_blank">2006年国家司法考试试 卷 一</a> </li> <li class="col-lg-6 px-0 px-lg-3"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-docx" href="/p-71188595.html" title="2014年国家司法考试试 卷 一" target="_blank">2014年国家司法考试试 卷 一</a> </li> <li class="col-lg-6 px-0 px-lg-3"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-docx" href="/p-76090759.html" title="2017年司法考试三卷《民事诉讼基础》试题二" target="_blank">2017年司法考试三卷《民事诉讼基础》试题二</a> </li> <li class="col-lg-6 px-0 px-lg-3"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-docx" href="/p-75889981.html" title="北京专版20考历史复习方案第01篇第二部分中国近代史课时训练10资产阶级民主革命与中华民国的建立试题" target="_blank">北京专版20考历史复习方案第01篇第二部分中国近代史课时训练10资产阶级民主革命与中华民国的建立试题</a> </li> <li class="col-lg-6 px-0 px-lg-3"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-pdf" href="/p-70210432.html" title="司法考试《刑法学》高端速成训练题【附答案】" target="_blank">司法考试《刑法学》高端速成训练题【附答案】</a> </li> <li class="col-lg-6 px-0 px-lg-3"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-doc" href="/p-72457541.html" title="XXXX年国家司法考试新增法律法规解读" target="_blank">XXXX年国家司法考试新增法律法规解读</a> </li> <li class="col-lg-6 px-0 px-lg-3"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-docx" href="/p-76091619.html" title="2017年新疆司法厅司法考试公告" target="_blank">2017年新疆司法厅司法考试公告</a> </li> <li class="col-lg-6 px-0 px-lg-3"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-docx" href="/p-71188605.html" title="2016年国家司法考试试 卷 一" target="_blank">2016年国家司法考试试 卷 一</a> </li> <li class="col-lg-6 px-0 px-lg-3"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-pdf" href="/p-70210402.html" title="司法考试《刑法》金题考点精讲-第二期" target="_blank">司法考试《刑法》金题考点精讲-第二期</a> </li> <li class="col-lg-6 px-0 px-lg-3"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-docx" href="/p-76118124.html" title="2019年司法考试第二编法理学新章节考点3" target="_blank">2019年司法考试第二编法理学新章节考点3</a> </li> <li class="col-lg-6 px-0 px-lg-3"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-doc" href="/p-68473748.html" title="司法考试民法讲义最新版" target="_blank">司法考试民法讲义最新版</a> </li> <li class="col-lg-6 px-0 px-lg-3"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-doc" href="/p-69979746.html" title="司法考试卷四论述题模板式答题技巧探秘" target="_blank">司法考试卷四论述题模板式答题技巧探秘</a> </li> <li class="col-lg-6 px-0 px-lg-3"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-doc" href="/p-72458260.html" title="XXXX司法考试新增法律法规大全(方便打yin" target="_blank">XXXX司法考试新增法律法规大全(方便打yin</a> </li> <li class="col-lg-6 px-0 px-lg-3"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-doc" href="/p-66893854.html" title="司法考试之八百条重点记忆点整理" target="_blank">司法考试之八百条重点记忆点整理</a> </li> <li class="col-lg-6 px-0 px-lg-3"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-docx" href="/p-76092771.html" title="2017年浙江司法考试成绩查询和法律职业资格申请公告" target="_blank">2017年浙江司法考试成绩查询和法律职业资格申请公告</a> </li> <li class="col-lg-6 px-0 px-lg-3"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-doc" href="/p-77579818.html" title="招生全国统一考试语文试题(共3份)" target="_blank">招生全国统一考试语文试题(共3份)</a> </li> <li class="col-lg-6 px-0 px-lg-3"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-doc" href="/p-66516613.html" title="关于司法考试刑法学习方" target="_blank">关于司法考试刑法学习方</a> </li> <li class="col-lg-6 px-0 px-lg-3"> <a class="text-ellipsis office-icon text-dark py-2 office-icon-docx" href="/p-75889986.html" title="北京专版20考历史复习方案第01篇第二部分中国近代史课时训练17祖国统一科技成就外交成就国防成就与社会生活试题" target="_blank">北京专版20考历史复习方案第01篇第二部分中国近代史课时训练17祖国统一科技成就外交成就国防成就与社会生活试题</a> </li> </ul> </div> </div> <div class="detail-sidebar d-none d-lg-block"> <div id="columnDetailSiderRight"> <div class="detail-yourlike mt-0 pb-2" id="relativeArticle"> <div class="border-bottom py-2 d-flex align-items-center justify-content-between"> <h5 class="font-16">相关文章</h5> <a class="font-14 hover-letter-spacing" href="/ucenter/search/index.html?text=基于xml的web信息抽取系统研究与实现" target="_blank" rel="nofollow">更多<i class="iconfont font-12 pl-1"></i></a> </div> <ul class="font-14 like-list"> <li class=""> <a class="text-ellipsis office-icon text-dark office-icon-pdf" href="/p-1145403.html" title="基于xml的自动学习web信息抽取" target="_blank"><span class="text-danger">基</span><span class="text-danger">于</span><span class="text-danger">x</span><span class="text-danger">m</span><span class="text-danger">l</span><span class="text-danger">的</span>自动学习<span class="text-danger">w</span><span class="text-danger">e</span><span class="text-danger">b</span><span class="text-danger">信</span><span class="text-danger">息</span><span class="text-danger">抽</span><span class="text-danger">取</span></a> </li> <li class=""> <a class="text-ellipsis office-icon text-dark office-icon-pdf" href="/p-33187222.html" title="基于领域本体的xml语义信息抽取的研究与实现" target="_blank"><span class="text-danger">基</span><span class="text-danger">于</span>领域本体<span class="text-danger">的</span><span class="text-danger">x</span><span class="text-danger">m</span><span class="text-danger">l</span>语义<span class="text-danger">信</span><span class="text-danger">息</span><span class="text-danger">抽</span><span class="text-danger">取</span><span class="text-danger">的</span><span class="text-danger">研</span><span class="text-danger">究</span><span class="text-danger">与</span><span class="text-danger">实</span><span class="text-danger">现</span></a> </li> <li class=""> <a class="text-ellipsis office-icon text-dark office-icon-pdf" href="/p-33533966.html" title="基于xml的web信息抽取技术的应用研究" target="_blank"><span class="text-danger">基</span><span class="text-danger">于</span><span class="text-danger">x</span><span class="text-danger">m</span><span class="text-danger">l</span><span class="text-danger">的</span><span class="text-danger">w</span><span class="text-danger">e</span><span class="text-danger">b</span><span class="text-danger">信</span><span class="text-danger">息</span><span class="text-danger">抽</span><span class="text-danger">取</span>技术<span class="text-danger">的</span>应用<span class="text-danger">研</span><span class="text-danger">究</span></a> </li> <li class=""> <a class="text-ellipsis office-icon text-dark office-icon-pdf" href="/p-33805143.html" title="基于xml的web信息抽取技术研究" target="_blank"><span class="text-danger">基</span><span class="text-danger">于</span><span class="text-danger">x</span><span class="text-danger">m</span><span class="text-danger">l</span><span class="text-danger">的</span><span class="text-danger">w</span><span class="text-danger">e</span><span class="text-danger">b</span><span class="text-danger">信</span><span class="text-danger">息</span><span class="text-danger">抽</span><span class="text-danger">取</span>技术<span class="text-danger">研</span><span class="text-danger">究</span></a> </li> <li class=""> <a class="text-ellipsis office-icon text-dark office-icon-pdf" href="/p-33983950.html" title="基于xml的web数据抽取技术的研究" target="_blank"><span class="text-danger">基</span><span class="text-danger">于</span><span class="text-danger">x</span><span class="text-danger">m</span><span class="text-danger">l</span><span class="text-danger">的</span><span class="text-danger">w</span><span class="text-danger">e</span><span class="text-danger">b</span>数据<span class="text-danger">抽</span><span class="text-danger">取</span>技术<span class="text-danger">的</span><span class="text-danger">研</span><span class="text-danger">究</span></a> </li> <li class=""> <a class="text-ellipsis office-icon text-dark office-icon-pdf" href="/p-33989266.html" title="基于xml的web信息发布系统设计与实现" target="_blank"><span class="text-danger">基</span><span class="text-danger">于</span><span class="text-danger">x</span><span class="text-danger">m</span><span class="text-danger">l</span><span class="text-danger">的</span><span class="text-danger">w</span><span class="text-danger">e</span><span class="text-danger">b</span><span class="text-danger">信</span><span class="text-danger">息</span>发布<span class="text-danger">系</span><span class="text-danger">统</span>设计<span class="text-danger">与</span><span class="text-danger">实</span><span class="text-danger">现</span></a> </li> <li class=""> <a class="text-ellipsis office-icon text-dark office-icon-pdf" href="/p-34139616.html" title="基于分块的web信息抽取系统研究论文" target="_blank"><span class="text-danger">基</span><span class="text-danger">于</span>分块<span class="text-danger">的</span><span class="text-danger">w</span><span class="text-danger">e</span><span class="text-danger">b</span><span class="text-danger">信</span><span class="text-danger">息</span><span class="text-danger">抽</span><span class="text-danger">取</span><span class="text-danger">系</span><span class="text-danger">统</span><span class="text-danger">研</span><span class="text-danger">究</span>论文</a> </li> <li class=""> <a class="text-ellipsis office-icon text-dark office-icon-docx" href="/p-34360449.html" title="基于dom的web信息抽取系统设计与实现" target="_blank"><span class="text-danger">基</span><span class="text-danger">于</span>do<span class="text-danger">m</span><span class="text-danger">的</span><span class="text-danger">w</span><span class="text-danger">e</span><span class="text-danger">b</span><span class="text-danger">信</span><span class="text-danger">息</span><span class="text-danger">抽</span><span class="text-danger">取</span><span class="text-danger">系</span><span class="text-danger">统</span>设计<span class="text-danger">与</span><span class="text-danger">实</span><span class="text-danger">现</span></a> </li> <li class=""> <a class="text-ellipsis office-icon text-dark office-icon-pdf" href="/p-34850210.html" title="基于web的新闻信息抽取系统设计与实现" target="_blank"><span class="text-danger">基</span><span class="text-danger">于</span><span class="text-danger">w</span><span class="text-danger">e</span><span class="text-danger">b</span><span class="text-danger">的</span>新闻<span class="text-danger">信</span><span class="text-danger">息</span><span class="text-danger">抽</span><span class="text-danger">取</span><span class="text-danger">系</span><span class="text-danger">统</span>设计<span class="text-danger">与</span><span class="text-danger">实</span><span class="text-danger">现</span></a> </li> <li class=""> <a class="text-ellipsis office-icon text-dark office-icon-pdf" href="/p-35131847.html" title="试论web信息抽取技术研究与基于web service的实现" target="_blank">试论<span class="text-danger">w</span><span class="text-danger">e</span><span class="text-danger">b</span><span class="text-danger">信</span><span class="text-danger">息</span><span class="text-danger">抽</span><span class="text-danger">取</span>技术<span class="text-danger">研</span><span class="text-danger">究</span><span class="text-danger">与</span><span class="text-danger">基</span><span class="text-danger">于</span><span class="text-danger">w</span><span class="text-danger">e</span><span class="text-danger">b</span>s<span class="text-danger">e</span>rvic<span class="text-danger">e</span><span class="text-danger">的</span><span class="text-danger">实</span><span class="text-danger">现</span></a> </li> </ul> </div> <div class="detail-yourlike pb-2"> <div class="border-bottom py-2"> <h5 class="font-16">相关标签</h5> </div> <ul class="font-14 like-list d-flex flex-wrap"> <a class="search-tag" href="/tags/717809/" target="_blank">抽取</a> <a class="search-tag" href="/tags/540614/" target="_blank">基于</a> <a class="search-tag" href="/tags/540122/" target="_blank">信息</a> <a class="search-tag" href="/tags/540341/" target="_blank">系统</a> <a class="search-tag" href="/tags/1456203/" target="_blank">实现</a> <a class="search-tag" href="/tags/540313/" target="_blank">研究</a> </ul> </div> <a class="detail-sidebar-gg d-block rounded" href="https://www.ttzyw.com/" target="_blank"><img src="https://www.wenku365.com/d/file/2021/09-08/8ae594f962021288bbd21ce8e5e2f6e6.jpg"></a> </div> </div> </div> <!--底部悬浮--> <div class="d-lg-none m-footer"> <div class="container d-flex justify-content-between align-items-center bg-white border-top flex-nowrap pr-3"> <div class="flex-1 pr-3 text-secondary d-flex align-items-center" style="line-height: 1"> <a class="text-center px-3 d-block mr-2" href="/"> <i class="iconfont d-block font-24 text-muted"></i> <p class="font-12 text-muted mb-0 mt-1">首页</p> </a> <div class="text-center px-3 mr-2" id="shareModal"> <i class="iconfont d-block font-24 text-muted"></i> <p class="font-12 text-muted mb-0 mt-1">分享</p> </div> <div class="text-center px-3 copyWebsite"> <i class="iconfont d-block font-24 text-muted"></i> <p class="font-12 text-muted mb-0 mt-1">客服</p> </div> </div> <button class="btn btn-danger px-4 py-2 flex-shrink-0" data-btn="downloadfile" data-mobile="true" data-id="33999017" data-price="1000" data-size="2.24 MB" data-page="62页" data-type="pdf" data-binddown="true" data-isold="new_content" data-vip="0" data-title="基于xml的web信息抽取系统研究与实现">下载本文档</button> </div> </div> <!--toast列表区域--> <div aria-live="polite" aria-atomic="true" class="toast-area"></div> <!--左侧悬浮框--> <!--预览弹窗--> <div class="modal m-fullscreen-modal" id="viewModal" tabindex="-1" role="dialog" aria-labelledby="viewModalLabel" aria-hidden="true"> <div class="modal-dialog modal-dialog-scrollable modal-dialog-centered"> <div class="modal-content pt-0"> <div class="modal-header"> <h5 class="modal-title text-ellipsis">暂无标题</h5> <button type="button" class="close" data-dismiss="modal" aria-label="Close"> <span aria-hidden="true">×</span> </button> </div> <div class="modal-body empty-box-2" data-target="#dataLoading"> <div id="viewImgBox"></div> <button class="btn" id="dataLoading" data-close="#viewModal"> </button> </div> </div> </div> <div class="view-modal-features"> <div> <a class="btn btn-light article-viewall" target="_blank"><i class="iconfont"></i></a> </div> <div> <a class="btn btn-light article-collection" tabindex="-1" role="button" aria-disabled="false" data-close="#viewModal"><i class="iconfont"></i></a> </div> <div> <a class="btn btn-light article-download" data-body="true" data-btn="downloadfile" data-dismiss="modal"><i class="iconfont"></i></a> </div> </div> </div> <!--举报弹窗--> <div class="modal fade m-fullscreen-modal" id="reportModal" tabindex="-1" role="dialog" aria-labelledby="reportModalLabel" aria-hidden="true"> <div class="modal-dialog modal-dialog-scrollable modal-dialog-centered"> <div class="modal-content pt-0"> <div class="modal-header"> <h5 class="mb-0">举报</h5> <button type="button" id="closeReportModal" class="close" data-dismiss="modal" aria-hidden="true">×</button> </div> <div class="modal-body"> <div class="modal-custom-box px-0 px-lg-4"> <form id="reportForm" data-logintype="normal"> <div class="d-flex mb-4 align-items-center"> <p class="require flex-shrink-0">举报原因</p> <label class="flex-grow-1"> <select class="custom-select" id="reportReason" name="title" class="rounded"> <option selected hidden disabled value="" class="text-secondary">请选择举报原因</option> <option value="涉及党政历史">涉及党政历史</option> <option value="歪曲党史、新中国史、改革开放史、社会主义发展史">歪曲党史、新中国史、改革开放史、社会主义发展史</option> <option value="文档内容质量低下无意义">文档内容质量低下无意义</option> <option value="内容中含有违法信息如(涉恐,色情,低俗等)">内容中含有违法信息如(涉恐,色情,低俗等)</option> </select> <div></div> </label> </div> <input type="hidden" name="id" value="33999017"/> <div class="d-flex mb-4 align-items-center"> <p class="require">联系方式</p> <label class="flex-grow-1"> <input type="text" placeholder="请输入您的手机号" id="reportContract" name="tel" class="rounded"> <div></div> </label> </div> <div class="d-flex align-items-center mb-4"> <p class="require">详细说明</p> <label class="flex-grow-1"> <textarea type="text" placeholder="请输入举报原因" id="reportDetail" name="content" class="rounded"></textarea> <div></div> </label> </div> <div class="mt-4 d-flex align-items-center justify-content-between" style="padding-left: 83px"> <button class="btn btn-primary submit mt-0 px-5 flex-shrink-0" style="width: auto" type="button">提交</button> <p class="mb-0 ml-3">内容无法转码请<button type="button" class="btn btn-sm btn-outline-primary ml-2" id="reEncode">点击此处</button></p> </div> </form> </div> </div> </div> </div> </div> <!--登录以及金币充足 支付弹窗--> <div class="modal fade m-fullscreen-modal" id="rechargeEnoughModal" tabindex="-1" role="dialog" aria-labelledby="rechargeEnoughModaLabel" data-backdrop="static" data-keyboard="false" aria-hidden="true"> <div class="modal-dialog modal-dialog-scrollable modal-dialog-centered"> <div class="modal-content pt-0"> <div class="modal-header"> <h5 class="mb-0">文档下载</h5> <button type="button" id="closeRechargeEnoughModal" class="close" data-dismiss="modal" aria-label="Close"> × </button> </div> <div class="modal-body"> <div class="px-3 py-2 bg-light"> <a href="" class="font-14 text-ellipsis-2 mb-0 text-dark">基于xml的web信息抽取系统研究与实现</a> </div> <div class="text-dark font-14 text-center mt-3"> 我的金币余额:<b class="text-danger user-balance">0.00</b></div> <div class="text-dark text-center mt-2 font-16">下载文档需要支付金币<b class="text-danger user-pay-money">10</b></div> <div class="mt-5 text-center"> <button class="btn btn-primary px-5 lianquanPay" data-id="33999017" data-price="10" data-page="62页" data-type="pdf" data-binddown="true" data-isold="new_content" data-vip="0" data-title="基于xml的web信息抽取系统研究与实现">确定支付并下载</button> </div> </div> </div> </div> </div> <!--移动端未登录 输入手机号弹窗--> <div class="modal fade m-half-fullscreen-modal custom-modal-dialog" id="rechargeUnLoginImportPhone" tabindex="-1" role="dialog" aria-labelledby="rechargeEnoughModaLabel" aria-hidden="true"> <div class="modal-dialog modal-dialog-centered"> <div class="modal-content"> <div class="modal-header w-100"> <h5 class="mb-0">请先输入手机号</h5> <button type="button" class="close" data-dismiss="modal" aria-label="Close">×</button> </div> <div class="modal-body"> <form> <label> <i class="iconfont text-secondary"></i> <input type="text" placeholder="请输入手机号" id="importPhone" name="phone"> </label> </form> <div class="mt-5 text-center"> <button class="btn btn-primary px-5" id="rechargeUnLoginSurePhone">确定</button> </div> </div> </div> </div> </div> <div id="mobilePayBox" class="mobile-pay-box"></div> <div id="closeAlipay" class="close-ali-pay">关闭</div> <footer> <div class="container d-none d-lg-block mb-4"> <div class="d-flex justify-content-between footer-nav"> <ul class="d-flex foot-nav"> <li> <h5>常见问题</h5> <a class="text-decoration-none help-nav-item" href="/help/wenti/upload/" data-name="关于上传" target="_blank">关于上传</a><a class="text-decoration-none help-nav-item" href="/help/wenti/xiazai/" data-name="关于下载" target="_blank">关于下载</a><a class="text-decoration-none help-nav-item" href="/help/wenti/qinquan/" data-name="关于侵权" target="_blank">关于侵权</a><a class="text-decoration-none help-nav-item" href="/help/wenti/fenxaing/" data-name="文档上传教程" target="_blank">文档上传教程</a> </li> <li> <h5>关于我们</h5> <a class="text-decoration-none help-nav-item" href="/help/about/wzjs/" data-name="网站介绍" target="_blank">网站介绍</a><a class="text-decoration-none help-nav-item" href="/help/about/gywm/" data-name="关于我们" target="_blank">关于我们</a><a class="text-decoration-none help-nav-item" href="/help/about/lxwm/" data-name="联系我们" target="_blank">联系我们</a> </li> <li> <h5>版权问题</h5> <a class="text-decoration-none help-nav-item" href="/help/banquan/bqsm/" data-name="版权声明" target="_blank">版权声明</a><a class="text-decoration-none help-nav-item" href="/help/banquan/qqcl/" data-name="侵权处理" target="_blank">侵权处理</a><a class="text-decoration-none help-nav-item" href="/help/banquan/mzsm/" data-name="免责声明" target="_blank">免责声明</a> </li> <li> <h5>协议条款</h5> <a class="text-decoration-none help-nav-item" href="/help/xieyi/yhxy/" data-name="用户协议" target="_blank">用户协议</a><a class="text-decoration-none help-nav-item" href="/help/xieyi/fwtk/" data-name="用户服务条款" target="_blank">用户服务条款</a><a class="text-decoration-none help-nav-item" href="/help/xieyi/ysbh/" data-name="用户隐私保护" target="_blank">用户隐私保护</a> </li> <li> <h5>网站导航</h5> <a class="text-decoration-none help-nav-item" href="/sitemaps.xml" data-name="网站地图" target="_blank">网站地图</a> <a class="text-decoration-none help-nav-item" href="/list.html" data-name="全部分类" target="_blank">全部分类</a> <a class="text-decoration-none help-nav-item" href="/sitemaps/index.html" data-name="资源地图" target="_blank">资源地图</a> </li> </ul> <div class="foot-qrcode d-flex"> <div> <div class="subsitute-bg"><img src="https://www.wenku365.com/d/file/2022/07-08/f23df57d987ef7ad9acb33fe5abf9854.jpg"></div> <p>关注公众号<br></p> </div> </div> </div> </div> <div class="footer-copyright"> <p><a href="/" target="_blank">天天文库</a>定位于知识共享平台,用户可以上传优质的文档内容,提供知识服务,本平台完成后续的宣传推广、内容分发、知识创收等工作,为更多的知识创作者创造价值。</p> <p>本平台严格对内容的质量进行把关,为了能够健康、平衡的发展。如果您的权利被侵害,请联系我们的客服进行举报。客服QQ:3074922707 欢迎举报。</p> <p>Copyright 2004-2023 <a href="https://www.wenku365.com/" target="_blank">wenku365.com</a> All Rights Reserved <a href="https://beian.miit.gov.cn/#/Integrated/index" rel="nofollow" target="_blank">闽ICP备15016911号-5 </a></p> <p>闽公网安备 <a href="http://www.beian.gov.cn/portal/registerSystemInfo?recordcode=35052402000320" rel="nofollow" target="_blank">35052402000320</a></p> <p> <a href="https://www.wenku365.com/zt.html" target="_blank">专题文集</a> <a href="https://www.wenku365.com/zt-90007.html" target="_blank">丨职业培训</a> <a href="https://www.wenku365.com/zt-90005.html" target="_blank">丨实用范文</a> <a href="https://www.wenku365.com/zt-90010.html" target="_blank">丨商业材料</a> <a href="https://www.wenku365.com/zt-90013.html" target="_blank">丨合同协议</a> <a href="https://www.wenku365.com/zt-90009.html" target="_blank">丨PPT专题</a></p> </div> </footer> <script> if (/Android|webOS|iPhone|iPod|mobile|BlackBerry|ucweb|SymbianOS/i.test(navigator.userAgent)) { var _hmt = _hmt || []; (function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?4632cf11732a8c1c3d1dc47558ae7444"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })(); } else{ var _hmt = _hmt || []; (function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?3b8c97f8bd7ac4a9ba9ae67ec48cab62"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })(); } </script> </body> <script src="//static.wenku365.com/wenku365/js/global.min.js?1.0.7"></script> <script src="//static.wenku365.com/wenku365/js/clipboard.min.js?1.0.7"></script> <script src="//static.wenku365.com/wenku365/js/jquery.treeview.js?1.0.7"></script> <script src="//static.wenku365.com/wenku365/js/jquery.share.min.js?1.0.7"></script> <script src="//static.wenku365.com/wenku365/js/common.min.js?1.0.7"></script> <script src="//static.wenku365.com/wenku365/js/downloadFile.js?1.0.7"></script> <script src="//static.wenku365.com/wenku365/js/loginWindow.js?1.0.7"></script> <script src="//static.wenku365.com/wenku365/js/windowRecharge.js?1.0.7"></script> <script src="//static.wenku365.com/wenku365/js/viewer.min.js?1.0.7"></script> <script src="//static.wenku365.com/wenku365/js/detail.js?1.0.7"></script> <script src='/wenku/onclick/33999017'></script> </html>