基于框架语义标注的web信息抽取技术研究

基于框架语义标注的web信息抽取技术研究

ID:32739826

大小:3.33 MB

页数:66页

时间:2019-02-15

基于框架语义标注的web信息抽取技术研究_第1页
基于框架语义标注的web信息抽取技术研究_第2页
基于框架语义标注的web信息抽取技术研究_第3页
基于框架语义标注的web信息抽取技术研究_第4页
基于框架语义标注的web信息抽取技术研究_第5页
资源描述:

《基于框架语义标注的web信息抽取技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、声明芦剐本人郑重声明:所呈交的学位论文,是本人在指导教师的指导下,独立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不包含其他个人或集体已经发表或撰写过的科研成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本声明的法律责任由本人承担。论文作者签名:量必~一目期:2垒壑j生么——一关于学位论文使用权的说明本人完全了解太原理工大学有关保管、使用学位论文的规定,其中包括:①学校有权保管、并向有关部门送交学位论文的原件与复印件;②学校可以采用影印、缩印或其它复制手段复制并保存学位论文;③学校可允许学位论文被查阅或借阅;④学校可以学

2、术交流为酱的,复制赠送和交换学位论文;⑤学校可以公布学位论文的全部或部分内容(保密学位论文在解密后遵守此规定)。签:名:鱼逝年一啉盈也L导师繇华兰塑。隰妒忠。毒.专’太原理工大学硕士研究生学位论文1.1问题提出的背景第一章引言随着Internct的快速发展,Intcrnct上的信息资源正以惊人的速度增长,越来越多的人们通过Internct发布信息、查找信息。web已经发展成一个全球的、巨大的、分布和共享的信息仓库。然而,这些信息资源无论是从物理上还是逻辑上多是以散落无序的状态存在于Intcrnet上,信息的获取存在诸多问题:首先,用户难以定位所需信息的网

3、络位置。现有的搜索引擎只能根据用户提交的关键字返回一组URL,为了获得所需的信息,用户必须逐一浏览对应的网页,采用人工定位方法获得最终信息。显然,现有的搜索引擎本身难以直接定位到用户所需要的信息,更谈上不上为这些信息增加语义。并且由于对查询关键词的依赖导致其准确率的低下。此外,这种基于网络爬虫的方式完全遗漏了大量隐藏在站点后台数据库中的信息资源。其次,随着人们对信息的需求日益增长,用户所需的信息往往须从多个不同的信息源获得,用户不得不以人工的方式一一定位这些信息源,逐个查询,再将查询结果以一定的方式合并、组织,过程繁琐且效率不高。.再次,包含所需的信息的

4、网页中充斥着大量的广告和无关链接,有用信息与无用信息混杂在一起,增加了信息获取的难度。因此,目前的信息获取方式难以满足用户日益增长的信息需求。为了应对信息爆炸带来的严重挑战;为了帮助人们在海量信息源中迅速找到真正需要的信息;为了让应用程序能直接利用网上的资源,都需要一种技术能自动从这些数据中提取出有用的信息,信息抽取技术正是在这种背景下产生的。1.2信息抽取研究的发展历史.信息抽取(InformationExtraction,缩写为IE)技术是一种面向具体任务的实用的文档理解技术。与复杂的自然语言理解技术不同,IE技术通常采用浅层的文档分折技术,提取出设

5、计者关注的特定主题或特定领域的信息。该技术适用于具有特定主题及相对确定的信息结构的文档如广告、新闻、数据库自然语言查询、特定领域的文本等等。信息抽取是一个以自由文本作为输入,产生结构化的输出数据的过程。这些数据可l太原理工大学硕士研究生学位论文直接向用户显示,也可作为自由文本信息检索的索引,或存储到数据库、电子表格中,以便于以后的进一步分析利用。从广义上讲,信息抽取的处理对象可以是文本、图像、语音、视频等多种形式的文件。但随着文本信息抽取的强势发展,特别是在美国国防高级研究计划局(DARPA)所资助的消息理解会议(MUC)以及后来由美国国家标准技术研究(

6、NIST)组织的自动内容抽取(ACE,AutomaticContentExtraction)评测对不同文本信息抽取系统组织统一评估后,信息抽取已被用来专指文本信息的抽取。信息抽取的目标是从HTML网页或文本中抽取出特定的事实信息(FactualInformation)。比如,从书店的货品栏记录中抽取出书名、类别、价格、作者、出版社等;从图书的内容简介中抽取出图书中具体包含的内容、作者背景信息、图书的评价、用途等等信息。通常,被抽取出的信息要以结构化形式描述,可以直接存入数据库,供用户●查询以及进一步进行集成分析。Web信息抽取,就是将web作为信息源的一

7、类信息抽取。它的主要任务就是如何将分散在Intemet上半结构化的HTML上的信息或非结构化的页面中隐含信息提取出来,并以更为结构化、语义更为清晰的形式表示,为用户在web查询数据,应用程序直接利用web中的数据提供便利。从自由文本中获取结构化的信息的研究最早开始于20世纪60年代中期,这被看作是信息抽取技术的初始研究,它以两个长期的、研究性的自然语言处理项目为代表。美国纽约大学开展LinguisticString的项目开始于60年代中期并一直延续到90年代。该项目的主要研究内容是建立一个大规模的英语计算语法,与之相关的应用是从医疗领域的光报告和医院出院

8、记录中抽取信息格式,这种信息格式实际上就是现在所说的模板。另一个相关的长期项目是

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。