基于WEB资源的信息抽取技术.doc

基于WEB资源的信息抽取技术.doc

ID:25527829

大小:69.50 KB

页数:6页

时间:2018-11-20

基于WEB资源的信息抽取技术.doc_第1页
基于WEB资源的信息抽取技术.doc_第2页
基于WEB资源的信息抽取技术.doc_第3页
基于WEB资源的信息抽取技术.doc_第4页
基于WEB资源的信息抽取技术.doc_第5页
资源描述:

《基于WEB资源的信息抽取技术.doc》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、基于WEB资源的信息抽取技术郭志红(上海交通大学情报研究所,上海200030) 摘要web资源含有大量的有用信息,但由于它们欠结构化,不能为传统的数据库型查询系统所利用。如何将这些信息抽取出来,转化成结构化信息,供其它信息集成系统所利用,成为该顶域的研究热点。本文介绍了一个简单的web信息抽取模型,对基于该模型的wrapper归纳技术进行了探讨,并描述了一个wrapper自动生成系统的原型。关键词信息抽取wrapper归纳技术自动生成原型系统TheTechnologyofInformationExtractionforWEBResourceGuoZ

2、hihong(InformationResearchInstitute,ShanghaiJiaotonguniversity,Shanghai200030) AbstractThereisplentyofusefulinformationinwebresource.Itcan'tbeusedbythetraditionaldatabasequerysystembecauseitisnotwell-structured.Recentlyconsiderableattentionhasbeenreceivedonhowtoextractitfromwe

3、bresourceandtransferittostructuredinformationthatcanbeusedbyotherinformationintegrationsystems.Thispaperpresentsasimplewebinformationextractionmodel,discussesthetechnologyofwrapperinductionbasedonthemodelanddescribesautomaticgenerationprototypesystemofwrapper.Keywordsinformati

4、onextractionwrapperinductionautomaticgenerationprototypesystem 引言   Internet是一个巨大的信息资源库,它上面有着各种各样的在线信息:天气预报,股票价格,商品目录,政府法规和税收政策,个人爱好,研究报告等等。所有这些web资源信息都有两个共同的特征:(1)文本内容以html形式发布。(2)通过浏览方式或基于格式的查询方式来实现对其内容的存取。由于html标记更关注字体大小,颜色,位置等,而文档的结构却隐含在这些标记中,故html页中的大量信息都是半结构化的。而基于这种半结构化信

5、息的查询,即web查询,与传统的基于结构化信息的数据库查询是不同的,其查询结果往往是互不相关的html页面,而且相同的查询往往得到的是不同的结果。故要直接查询页面上的精确信息显得十分困难。为了解决这个问题,需要针对各种类型的web资源集构建相应的wrapper,利用该wrapper去抽取html页中的半结构化信息,并转化成结构化数据,供其它信息集成系统利用。由于网上新资源的频繁加入,现存的资源格式又经常变化,手工构建wrapper将极其乏味而且容易出错。因此,开发出自动构建wrapper的技术及其系统则是该顶域的发展趋势。web信息抽取模型  一个

6、简单的web信息抽取模型可概括为:向特定资源库发出一个查询请求,得到相应的响应页,然后wrapper从响应页中抽取出所需要的信息,将其映射成相应的标记信息,如图1所示。 图中Q是以查询语言Q.构造的查询表达式,表达了用户所需要的信息。它可能是SQL或KQML语句,也有可能是CGI脚本参数所组成的语句。P为查询响应页,可以把它看成是ASCII字符集∑中的字符串,含有一个或多个所需信息的元组(例如,假设我们要抽取的信息为各个国家所对应的电话号码区域号,则具体的〈国家,区域号〉即为一个元组。它有两个属性:国家,区域号。形式地讲,一个元组可表达为一个具有k

7、个字符串属性的向量)S为特定的信息资源库,可以看成是一个将查询表达式转化成响应页P的函数。L为标记信息集,一个标记信息集L就是一个响应页中所要抽取的所有信息元组集合。其形式化表示如下所示:即该响应页中含有│L│>0个元组,每个元组具有K>0个属性。整数1≤k≤K是属性索引号,而整数1≤m≤∣L∣则是该响应页中的元组索引号,每个表示为一个单一的属性集。bm,k是第m个元组的第k个属性在该响应页中的起始位置,em,k则是它的结束位置。因此,第m个元组的第k个属性的值为该响应页中处于bm,k和em,k两个位置

8、点之间的字符内容。   W是一个Wrapper,是整个信息抽取模型的核心,可以将W看成是一个将响应页P映射成标记信息集L的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。