基于元数据的web信息提取方法研究

基于元数据的web信息提取方法研究

ID:32987640

大小:1.31 MB

页数:48页

时间:2019-02-18

基于元数据的web信息提取方法研究_第1页
基于元数据的web信息提取方法研究_第2页
基于元数据的web信息提取方法研究_第3页
基于元数据的web信息提取方法研究_第4页
基于元数据的web信息提取方法研究_第5页
资源描述:

《基于元数据的web信息提取方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、山西大学硕士学位论文基于元数据的web信息提取方法研究姓名:武琼申请学位级别:硕士专业:计算机软件与理论指导教师:郑家恒20030601摘要web信息提取是当前比较活跃的一个研究课题,但web数据的大量性,异构性和动态性,是web信息提取的一个桎梏。对于结构化的Web数据,已经有较为成熟的解决方法;而对于非结构化的Web数据,由于传统数据库的底层问题,不能用来处理非结构化数据,迫切希望能提出一种方法进行非结构化数据的处理。为了解决这个问题,很多研究者提出了为web数据建立元数据,可将非结构化数据变成结构化或半结构化数据。但由于web数据形式的多样性,很难为多样性的数据建立一种统一标准的元数据

2、。本为为web数据中的文本数据建立了一种DublinCore文本元数据表,将web文本这种非结构化数据结构化。Web文本元数据分为描述性元数据和语义性元数据,描述性元数据通过分析HTML源文件直接得到,本文的主要工作有以下四部分:l对HTML源文件进行分析,将标记流和文本流分开,根据标记流,提取题目元数据项:根据文本流将文本形式化为一个矩阵模型.在矩阵模型基础上提取文本的作者元数据项。2.利用模糊数学的相关知识,为文本建立了文本状态模糊集与模糊相似矩阵,由此可提取文本的主题关键字元数据项;采用文本分类基本思想,提取题材元数据项。3.为了提取内容元数据项,首先,利用模糊相似矩阵对冗长句处理,形

3、成内容侯选句WHJI:其次,在内容候选句WJHl中,利用模糊序贯决策论对冗长段进行处理,形成内容候选句WHJ2;最后.利用平面聚类和c均值聚类算法对内容候选句集WHJ2进行聚类,然后将每一类中的相关性较小的句子剔除.最后形成文本内容元数据项。4.试验结果表明:本系统对语义性元数据项填写取得很好效果。关键词:web信息提取、元数据、文本矩阵、平面聚类、C—均值聚类AB鼹RACTWebinformationex'打aefioniSacurrentlylovelyresearchfileld.butthemass.isomeranddynamicsofwebdataisad}塌cultofwebi

4、nformationexl删on.Wecarldividewebdataintotwokiads:structuraldataandunstrdctureddata.Wehavematurermethordstodealwiths订ucturaldata.However,because们ditionaldatabasebottomcallnotdealwithtmslructureddata,aweythatdealwithunsmacUIreddamneedbepresented。Manyscientistspresentwebmatedata{riordertoslovetheprobl

5、em.Webmet{adatacantransformunstructureddataintostructuraldata.ItisdiIlIculttoconstructametadatastandardforwebdata.ThispapercoastnaetaDublinCorem融tadataforwebtextdata.ThiskindofmetadatacanconvertwebtextdatawhichisunstructureddataintosⅡuctunlaldam.Inthispape‘WedivideDublinCoremetadataintotrac豫metad魅a

6、andcontentalmetadat&we鄙in妇ingmetadalabyHT池.1rhem硎yresearchofthispaperisfillingincontenlalmetadat色.(t)OnthebaseofHTIvlL。懿CanextractDC.fitle.InoⅨler耙exh'aetcomentalmetadetaWeeonslruetmatdxmodelforwebtext,bywhichDC.畦tleAndDC,creatercarlbefilledin.(2)Ontllebaseofmalfixmodelwecombinecorrelationalknowled

7、geoffaintmathtofillinDC。subjectandDC.type.(3)ExtractingDC.descdotionisadifficultofthispaper.Inorderto6IlinDC.descriptionWedividethreesteps.Firstly,WedealwithlengthyScrltenge$byfaintsimilarmatrixandformDC.de

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。