欢迎来到天天文库
浏览记录
ID:31975662
大小:2.73 MB
页数:104页
时间:2019-01-29
《web文本信息抽取和分类的的研究论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、摘要伴随着Intemet的飞速发展,Web上出现了海量的、异构的、半结构化的、动态的信息资源,并且在这些Web信息中有80%以上的信息是以Web文本的形式存在的。如何从这些浩如烟海的Web信息资源中寻找并获取有价值的信息和知识模式,已经成为信息处理领域的一个亟待解决的问题。Web文本分类可以有效的解决上述问题,它起源于ATC技术(自动文本分类技术),是Web文本挖掘的关键组成部分;Web文本分类可以提高用户进行网上信息搜索的效率,可以对搜索结果进行分门别类,帮助用户快速的对目标知识进行定位,并且能够从中抽取有价值的知识。本文首先介绍了文本自动分类的主要方法,
2、分析了WEB文档的特点,提出了WEB文本自动分类所要研究的两个技术层面:信息抽取和文本分类,研究了基于视觉的WEB文本抽取和基于支持向量机的多层次文本分类方法,并进行了WEB文本自动分类工具的总体设计,它主要包括网页采集、信息抽取、文本预处理和文本分类等功能模块,在以上研究的基础上最后提出了分类搜索引擎的设计。最后通过本文所设计的WEB文本自动采集和分类系统结合SQLServer2005TextMining对本文所提出的理论方法进行了实验,实验表明信息抽取比较准确、分类方法有较高的准确度和运行效率。关键词:网路蜘蛛信息抽取文本分类支持向量机分类搜索引擎ABS
3、TRACTAlongwiththerapiddevelopmentofIntemet,thereareabundant,isomeric,Semi—structuredanddynamicinformationresourcesonWeb.AmongtheseWebinformation,above80percentexistintheformofWebtext.HowtoseekandgainthevaluableinformationandknowledgemodelfromthesevastWebinformationresources,havealr
4、eadybecomethequestionurgentlyawaitedtobesolvedintheinformationprocessingdomain.ThequeStionsmentionedabovecarlberesolvedeffectivelybyWebtextclassification,whichoriginsfromATC(AutomaticTextClassification),andisthekeyconstituentofWebtextmining.Itcanclassifysearchresults,whichnotonlyen
5、hancestheefficiencyofsearchforWebusers,butalsoimprovestheabilityoflocalizationtogoalknowledge,andextractsthevaluableknowledge.Thisarticlefirstintroducedthetextclassificationmainmethod,hasanalyzedtheWEBdocumentscharacteristic,proposedtheWEBtextclassificationneedstostudytwotechnicals
6、tratificationplanes:Theinformationextractsandthetextclassification,studiedthemethodsofIEbasedonthevisionandmulti·leveltextclassificationbasedonSVM.WedesignedtheChinesewebtextcategorizationsoftwarewithwebspidermodel,Chinesewordsputtermodel,featureselectionmodelandmachinelearningmode
7、lincluded.AtlastwedrawanexperiencetotesttheaccuracyofthesemethodsusingtheClassificationSystemandSqlServer2005TextMining.Astheexperimentresultshow,thissoftwarehashighaccuracy.KeyWords:Spider;InformationExtraction;TextClassification;SVM;Classificationsearchengines创新点声明(硕士)本人声明所呈交的学位论
8、文是我个人在导师指导下进行的研究工作及取得的研究成果
此文档下载收益归作者所有