基于本体的自适应Web信息抽取方法研究.pdf

基于本体的自适应Web信息抽取方法研究.pdf

ID:51990462

大小:17.16 MB

页数:131页

时间:2020-03-21

基于本体的自适应Web信息抽取方法研究.pdf_第1页
基于本体的自适应Web信息抽取方法研究.pdf_第2页
基于本体的自适应Web信息抽取方法研究.pdf_第3页
基于本体的自适应Web信息抽取方法研究.pdf_第4页
基于本体的自适应Web信息抽取方法研究.pdf_第5页
资源描述:

《基于本体的自适应Web信息抽取方法研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、中国科学技术大学博士学位论基于本体的自适应Web信息抽取方法研究作者姓名:学科专业:导师姓名:完成时间:李传席模式识别与智能系统王儒敬研究员陈鹏副研究员二。一二年五月四日UniversityofScienceandTechnologyofChinaAdissertationfordoctor’SdegreeAdaptiveWebInformationExtractionMethodResearchBasedonOntologyAuthor’SName:ChuanxiLiSpeciality:Pattern

2、RecognitionandIntelligentSystemSupervisor:Prof.RujingWang,Assoc.Prof.PengChenFinishedtime:May4,2012中国科学技术大学学位论文原创性声明本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的成果。除己特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做的贡献均已在论文中作了明确的说明。作者签名:邋签字日期:刎2·{r、L}中国科学技术大学学位论文授

3、权使用声明作为申请学位的条件之一,学位论文著作权拥有者授权中国科学技术大学拥有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入《中国学位论文全文数据库》等有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。本人提交的电子文档的内容和纸质论文的内容相一致。保密的学位论文在解密后也遵守此规定。目么开口保密(——年)作者签名:兰基荤签字日期:婴!:坠茸导师签名:签字日期:出!三:兰:争,摘要互联网的快速发展产

4、生了海量的信息,由于Web页面的多样性和异构性,对这些的信息进行检索和处理受到很大的限制,而Web信息抽取则致力于将这些信息转化成结构化的数据,满足垂直搜索引擎和数据挖掘等相关应用。同时,为了实现语义网的目标,赋予Web意义,需要对Web上的内容进行标注,基于本体的信息抽取可以产生用于语义网的元数据标注信息,将Web信息转化成机器方便处理的数据,即语义网有效的数据。在农业领域,互联网上积累了丰富的农业相关信息资源,包括供求信息、价格信息、农业技术、市场动态、农业新闻、农业企业、农业视频等,但缺少一致的语义

5、表达形式,很难充分发挥这些资源的作用。此外,由于农业领域相关用户自身知识结构水平的限制,在获取所需要的信息时更加困难,而农业垂直搜索引擎则可以弥补这方面的不足,实现异构分散数据的集成,通过构建满足用户需求的专业搜索引擎,解决“三农”用户在面对海量农业Web资源时的信息获取瓶颈问题。本文以研究Web环境下基于本体的信息抽取方法为基础,为农业垂直搜索引擎(中国搜农)和农业数据挖掘应用提供有效的数据支持,服务于国家的农业信息化建设为目标,开展了相关的研究。论文的主要工作内容总结如下:(1)针对互联网£网页数据的

6、开放性、异构性、滨化性等特征,构建了一种基于本体的自适应Web信息抽取模型。模型采用模块化的结构搭建,实现抽取算法与领域本体知识之间的分离,以及模块功能的复用,方便系统功能的动态更新,减少信息抽取系统在跨领域移植时的开销。(2)针对传统方法在构建本体时需要大量的人工开销和维护困难等问题,发挥Web资源的作用,提出了一种基于Web的无监督本体构建方法。该方法通过查询Web获取领域本体相关的资源,结合句法分析技术实现本体的学习,可以解决传统方法构建本体时语料库在规模上的限制,自适应Web知识的演化。以提出的方

7、法为基础,构建了蛋白质交互关系本体。(3)针对语义网和LinkedData的发展需求,实现网页的元数据标注和挖掘不同数据之间的关系,提出了一种基于本体的命名实体关系抽取方法。通过分析命名实体之间关系表达的语法结构和关系表达词,实现关系的抽取,实验采用生物文献公共语料库对算法进行了检验,抽取蛋白质相互作用关系,并取得了满意的效果。提出的算法对抽取的句子实行单遍遍历,实现适应Web规模的文本关系抽取时的计算效率问题。摘要(4)针对AJAX技术的广泛使用,而传统的爬虫无法获取、分析和处理这些内容,我们提出了⋯一

8、种基于领域本体的多记录型AJAX数据抽取模型。该模型可以有效的发现网页中含有的动态~AX内容,在领域本体的指导下,实现对数据的抽取和语义标注。实验以农产品供求和价格实体数据为例,验证了抽取方法的有效性。(5)针对基于包装器或规则的方法在抽取单记录型HTML页面时,无法适应页面结构变化等不足,提出了一种采用统计学习方法实现的基于实体属性分类的单记录型Web页面信息抽取和标注模型。该模型对抽取内容的页面结构特征进行分析,通过构建相

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。