欢迎来到天天文库
浏览记录
ID:34809729
大小:2.09 MB
页数:57页
时间:2019-03-11
《基于本体deep+web数据源分类的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、rL摘要互联网按“深度”可以分为DeepWeb和SurfaceWeb。随着互联网的飞速发展,大量信息在我们的日常工作和生活中不断产生和积累。为了利用这些资源,尤其是DeepWeb资源,学界引入了DeepWeb数据集成问题的研究。而DeepWeb数据源的分类作为DeepW曲数据集成中的重要环节,需要更多关注和研究。本文针对DeepWeb数据源分类所涉及到的相关技术进行了研究,将本体应用到Web数据源的分类中,提出了相关的算法和模型。主要研究工作包括:(1)DeepWeb查询接口模式信息抽取技术研究。本文基于页面一表单模型,提出对页面进行内容文本特征和超链接的提取,同时对表单特征提取进行了规范。
2、之后进行预处理。(2)本体构建方法研究。本文给出了本体模型,结合知网和WordNet来构建了几个领域的本体,同时提出了新的权重计算方法。(3)基于本体的DeepWeb数据源分类方法。提出了在基于查询接口特征分类的同时,将本体引入DeepWeb数据源分类的方法。并改进了分层表单识别架构(HIFI)和权重计算方法,形成了基于本体的DeepWeb数据源分类算法。在实验平台Weka上分别用C4.5、贝叶斯分类方法、KNN方法、支持向量机四种方法进行对比实验,实验表明,基于领域本体的DeepWeb数据源分类比已有的单纯利用查询接口特征进行分类的分类效果更好,同时改进的权重计算方法以及改进的HIFI构架
3、对于分类准确性的提高具有较好的效果。关键词:深网;本体;分类;领域识别ABSTRACTTheIntemetcanbeclassifiedintoDeepWebandSurfaceWebbydepth.WiththerapiddevelopmentofIntemet,alargeamountofinformationisincreasinglygeneratedandaccumulatedinourdailyworkandlife.Inordertomakeuseoftheseresources,especiallytheDeepWebreSOurceS,academicinterestsin
4、仃oducetheresearchonDeepWebdataintegration.DeepWebdatasourcesclassification,astheimportantpartinDe印Webdataintegration,needsfurtherconcentrationandstudy.Inthispaper,theresearchisaboutthetechnologyoftheclassificationofDeepWebdataSOurces.OntologyisappliedtotheclassificationofWebdatasources.Algorithmsan
5、dmodelsareproposed.Themainworkincludes:(1)DeepWebqueryinterfacemodelinformationextractiontechnology.Basedonthepage—formmodel,itisnecessarytoextractthefeaturesofthecontenttextandhyperlinks,andregulatethefeatureextractionontheformatthesametime.(2)Inthisresearch,BascedOilthemodelwhichisproposedinthisp
6、aper,webuildseveralfieldsontologyusingHowNetandWordNet.Andnewmethodofweightingisproposed.(3)IntheOntology-basedclassificationmethodofDeepWebdatasources,weproposeontologyclassificationoftheintroductionofDeepWebdataSOurceS,basedonqueryinterfacefeatureclassification.HIFIisimprovedandnewweightingisprop
7、osed.Theformationofontology-basedclassificationalgorithmDeepWebdataSOurcescomestrue.UsingtheWeka,wedoSOmeexperimentsbasedonBayesian,KNN,SVMandC4.5.Bybuildingontology,theimprovedclassificationsleadtobetterth
此文档下载收益归作者所有