基于本体deep+web数据源分类的研究

基于本体deep+web数据源分类的研究

ID:34809729

大小:2.09 MB

页数:57页

时间:2019-03-11

基于本体deep+web数据源分类的研究_第1页
基于本体deep+web数据源分类的研究_第2页
基于本体deep+web数据源分类的研究_第3页
基于本体deep+web数据源分类的研究_第4页
基于本体deep+web数据源分类的研究_第5页
资源描述:

《基于本体deep+web数据源分类的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、rL摘要互联网按“深度”可以分为DeepWeb和SurfaceWeb。随着互联网的飞速发展,大量信息在我们的日常工作和生活中不断产生和积累。为了利用这些资源,尤其是DeepWeb资源,学界引入了DeepWeb数据集成问题的研究。而DeepWeb数据源的分类作为DeepW曲数据集成中的重要环节,需要更多关注和研究。本文针对DeepWeb数据源分类所涉及到的相关技术进行了研究,将本体应用到Web数据源的分类中,提出了相关的算法和模型。主要研究工作包括:(1)DeepWeb查询接口模式信息抽取技术研究。本文基于页面一表单模型,提出对页面进行内容文本特征和超链接的提取,同时对表单特征提取进行了规范。

2、之后进行预处理。(2)本体构建方法研究。本文给出了本体模型,结合知网和WordNet来构建了几个领域的本体,同时提出了新的权重计算方法。(3)基于本体的DeepWeb数据源分类方法。提出了在基于查询接口特征分类的同时,将本体引入DeepWeb数据源分类的方法。并改进了分层表单识别架构(HIFI)和权重计算方法,形成了基于本体的DeepWeb数据源分类算法。在实验平台Weka上分别用C4.5、贝叶斯分类方法、KNN方法、支持向量机四种方法进行对比实验,实验表明,基于领域本体的DeepWeb数据源分类比已有的单纯利用查询接口特征进行分类的分类效果更好,同时改进的权重计算方法以及改进的HIFI构架

3、对于分类准确性的提高具有较好的效果。关键词:深网;本体;分类;领域识别ABSTRACTTheIntemetcanbeclassifiedintoDeepWebandSurfaceWebbydepth.WiththerapiddevelopmentofIntemet,alargeamountofinformationisincreasinglygeneratedandaccumulatedinourdailyworkandlife.Inordertomakeuseoftheseresources,especiallytheDeepWebreSOurceS,academicinterestsin

4、仃oducetheresearchonDeepWebdataintegration.DeepWebdatasourcesclassification,astheimportantpartinDe印Webdataintegration,needsfurtherconcentrationandstudy.Inthispaper,theresearchisaboutthetechnologyoftheclassificationofDeepWebdataSOurces.OntologyisappliedtotheclassificationofWebdatasources.Algorithmsan

5、dmodelsareproposed.Themainworkincludes:(1)DeepWebqueryinterfacemodelinformationextractiontechnology.Basedonthepage—formmodel,itisnecessarytoextractthefeaturesofthecontenttextandhyperlinks,andregulatethefeatureextractionontheformatthesametime.(2)Inthisresearch,BascedOilthemodelwhichisproposedinthisp

6、aper,webuildseveralfieldsontologyusingHowNetandWordNet.Andnewmethodofweightingisproposed.(3)IntheOntology-basedclassificationmethodofDeepWebdatasources,weproposeontologyclassificationoftheintroductionofDeepWebdataSOurceS,basedonqueryinterfacefeatureclassification.HIFIisimprovedandnewweightingisprop

7、osed.Theformationofontology-basedclassificationalgorithmDeepWebdataSOurcescomestrue.UsingtheWeka,wedoSOmeexperimentsbasedonBayesian,KNN,SVMandC4.5.Bybuildingontology,theimprovedclassificationsleadtobetterth

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。