基于本体的Web表格信息抽取技术的研究.pdf

ID：52883892

大小：337.09 KB

页数：5页

时间：2020-03-31

资源描述：

《基于本体的Web表格信息抽取技术的研究.pdf》由会员上传分享，免费在线阅读，更多相关内容在应用文档-天天文库。

1、第23卷第2期青岛大学学报(自然科学版)Vol.23No.22010年6月JOURNALOFQINGDAOUNIVERSITY(NaturalScienceEdition)Jun.2010文章编号:10061037(2010)02004705doi:10.3969/j.issn.10061037.2010.02.012基于本体的Web表格信息抽取技术的研究*袁鸿雁(沈阳职业技术学院计算机系,沈阳110045)摘要:将本体与和Web信息抽取技术相结合,将信息抽取的重点放在特定的领域,利用表格属性定位、识别表格结构生成启发式规则,可以大大提高信息抽取的准确

2、率。关键词:Web表格;本体;表格定位;表格结构识别中图分类号:TP391.13文献标志码:A[1]据统计,互联网上约有52%的Web页面包含表格。Web表格主要基于HTML,由于HTML只描述数据怎样显示而缺乏对数据本身的描述,再加上Web表格表现形式的复杂多样性,因此理解Web表格结构从中抽取出有效的信息就变得非常的困难,从Web表格中抽取信息也就成为Web信息抽取领域重要且有[2]价值的研究课题之一。BUY研究小组将表格的信息抽取划分为表格理解、数据整合、信息抽取三个部分。[3]通过理解表格结构,可以识别表格里的属性和取值。H.Chen等首次提出Web表格分析的过程分为表

3、格[4]定位、表格结构识别和属性–值对的提取,该文提出的算法相对较简单,但未给出实验结果。Tengli等提出了一个Web表格信息自动抽取系统的构造方法。在表格结构识别中,该系统通过样本表格学习属性的词汇信息,然后通过向量空间模型对待抽取表格的单元格进行模糊匹配,从而识别属性单元格所在位置,达[5]到定位属性和值的目的。这种方式的表格结构识别对领域知识依赖过强。王放等提出了一种基于本体的Web表格信息抽取技术,该方法通过对本体的学习和积累,对表格的结构识别提供指导。本文提出了一种[6]新的基于领域本体的Web表格信息抽取方法。该方法可实现元素级别和实例级别的模式匹配并且对网页结

4、构依赖很少,只要事先创建的应用领域ontology足够强大,系统就可以对该应用领域中的表格文本实现信息抽取,其中限定领域的思想提高了数据抽取的准确率。1Web表格信息抽取系统结构系统结构如图1所示。本系统对Web表格数据抽取工作分为3步进行:表格定位、表格结构识别、表格信息抽取。其工作过程为:待处理的包含表格的HTML文档首先进入表格定位模块,在此模块中滤除非数据表格和非用户感兴趣的数据表格等额外的信息,识别出满足要求的数据表格,然后进入表格结构识别模块,在该模块中识别出表格的展开方式和表格属性行(列)、数据单元格所在的位置,最后按照抽取规则完成表格的属性与本体中概念的映射,

5、抽取出所需要的数据,存入数据库中。由于HTML文档的获取以及本体的建立不是本文研究的内容,因此在本文中未涉及。图1系统总体结构图*收稿日期:20091003作者简介:袁鸿雁(1973),女,硕士,讲师,主要从事数据库系统及数据挖掘技术的研究。48青岛大学学报(自然科学版)第23卷2表格定位本文通过构造一些启发式规则和应用本体来定位及理解表格。[7]HTML页面中表格是由

元素标识的。在很多Web站点是商业站点,用

元素标识的除了称之为真表格的数据表格之外还包含导航栏、广告或其他站点的链接等其他用来进行页面布局的非数据[8]表格,非数据表格又被

6、称为假表格。另一种情况是并不是所有的Web页面中的数据表格都是感兴趣的,有时即便是一个领域相关的Web页面也可能包含几个内容跟研究领域无关的数据表格。为了识别给定Web页面中感兴趣的数据表格,首先分析Web网页并且把在该页面中的所有[9]元素用DOM树表示,树中的每个结点包含了一对标记间的所有的字符,结点的名字为对应标记的名字。已经知道要定位的表格信息存在于

结点之间的内容块中,所以只关心table结点。以图2所示的中文二手房网页为例,查看其源代码,一共得到24个table结点。为了方便说明,在每个结点都标上了序号,如第一个

7、le>结点,标注为。整个页面由四个区域构成,其中区域1包括4个

结点,区域2包含2个

结点,区域3包含11个

结点,也是我们研究的目标数据表格图2HTML页面区域17所在的区域,区域4包含7个

结点。通过对DOM树中table结点的依次遍历滤除非数据表格。在该过程中使用的启发式规则如下:规则1如果表格中包含

或
标记,则该表格是数据表格。规则2表格大小至少是3行3列。规则3如果表格中包含大量的超级链当前文档最多预览五页，下载文档查看全文侵权申诉  1 1 2 3 4 5 / 5  此文档下载收益归作者所有当前文档最多预览五页，下载文档查看全文版权提示下载文档温馨提示： 1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。 2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。 3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。 4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。相关文章更多 基于本体的web信息抽取及本体的构建实现研究基于本体的web信息抽取及本体的构建实现研究基于本体web信息抽取及本体构建实现与研究报告基于表格的web信息抽取基于本体论的web信息抽取new 基于本体web非规范知识处理中信息抽取技术的研究基于本体的web产品指标抽取技术研究基于本体的Web信息抽取及本体的构建实现研究基于本体的自适应Web信息抽取方法研究.pdf 基于信息量的Web表格信息抽取方法.pdf 相关标签表格抽取本体基于信息技术研究常见问题关于上传关于下载关于侵权分享文档赚钱教程关于我们网站介绍关于我们联系我们版权问题版权声明侵权处理免责声明协议条款用户协议用户服务条款用户隐私保护网站导航网站地图全部分类资源地图关注公众号天天文库站为“文档C2C交易模式”，即用户上传的文档直接卖给(下载)用户，本站只是中间服务平台，本站所有文档下载所得的收益归上传人(含作者)所有【成交的100%(原创)】。本站是网络服务平台方，若您的权利被侵害，侵权客服QQ：3074922707 欢迎举报。 Copyright 2004-2021 wenku365.com All Rights Reserved 闽ICP备15016911号-5 闽公网安备 35052402000320 专题文集丨职业培训丨实用范文丨商业材料丨合同协议丨PPT专题

基于本体的Web表格信息抽取技术的研究.pdf

基于本体的Web表格信息抽取技术的研究.pdf

相关文章

相关标签