基于多知识的web网页信息抽取方法

ID：33478371

大小：292.53 KB

页数：4页

时间：2019-02-26

资源描述：

《基于多知识的web网页信息抽取方法》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、第22卷第9期小型微型计算机系统Vol122No192001年9月MINI-MICROSYSTEMSep.2001文章编号:100021220(2001)0921058204基于多知识的Web网页信息抽取方法朱明黄云蔡庆生(中国科技大学自动化系安徽合肥230027)摘要:从Web网页中自动抽取所需要的信息内容,是互联网信息智能搜取的一个重要研究课题.为有效解决网页信息抽取所需的信息描述知识获取问题,这里提出了一种基于多知识的Web网页信息抽取方法(简称MKIE方法).该方法将网页信息抽取所需的知识分为

2、二类.一类是描绘网页内容本身表示特点,以及识别各网页信息对象的确定模式知识;另一类则描述网页信息记录块,以及各网页信息对象的非确定模式知识.MKIE方法根据前一类知识,动态分析获得后一类知识;并利用这两类知识,最终完成从信息内容类似但其表现形式各异的网页中,抽取出所需要的信息.美大学教员论文网页信息抽取实验结果表明,MKIE方法具有较强的网页信息自动识别与抽取能力.关键词:半结构化数据;信息抽取;模式识别中图分类号:TP311文献标识码:A1引言式关系不大;另一类则是非确定性模式知识,它们与网页的具体

3、内容与表示格式联系较紧.抽取网页信息时,先利用前一类如何从Web网页中抽取出所需要的信息,已成为互联网知识,动态分析获得后一类知识;然后再利用这两类知识,完信息搜索与集成研究领域中一个重要的研究课题.这个新的成Web网页的信息抽取工作.研究课题,虽只有几年的研究历史,却已取得了许多重要的研与现有的网页信息抽取方法相比,MKIE方法具有以下究成果.其中具有代表性的网页信息抽取系统(或方法)就有:三个特点:〔1,2,3,4〕Whisk、Rapier、SRV、Stalker等.1.它将网页信息抽取所需知识分

4、为两类,即与网页实际Web网页是一种半结构化(semi2structured)文本串集内容表示关系不大的确定性模式知识,以及与网页实际内容〔1,2,3,4,5,6〕合,目前主要是利用Wrapper方法,从这些网页中抽表示联系较密的非确定性模式知识;取出所需要的信息文字.而这些从网页中抽取信息的Wrap22.它利用确定性模式知识,自己动态分析获得具体网页per,则主要是由信息模式识别知识和利用这些识别知识进行信息抽取所需的非确定性模式知识而无需用户参与,并最终信息抽取的代码组成.由于Wrapper信息模

5、式识别知识的获有效地利用这两类知识,完成网页信息抽取工作;取,是一个费时费力且需要较高智能的工作,因此目前Web3.用户根据自己对相关网页内容的了解,能够很容易地网页信息抽取研究工作的重点之一就是,探索如何能够较为给出网页信息抽取所需的确定性模式知识;而MKIE方法也容易的获得构造一个Wrapper所需信息模式识别知识的有将根据自己的抽取结果,自动更新修改所掌握的非确定模式效方法.知识.利用Wrapper技术方法抽取Web网页中有关信息,主要文章第二节将介绍MKIE方法,进行Web网页信息抽取存在以下

6、两个缺点:一、由于绝大多数网页信息抽取所需知识时的主要处理流程及其相关处理工作;第三节将以美国大学的表示,均与网页内容的具体表示格式密切相关,因此使得这教员论文网页的论文信息抽取作为具体示例,来帮助解释说类Wrapper方法很难适应互联网动态变化的特点;二、由于明MKIE方法中的知识表示与获取方法;最后一节则对本文大多数网页信息抽取所需知识均是由用户自己提供;即使采研究工作的总结.用了一些机器学习方法,也需要用户事先提供大量的学习示2主要处理流程例,尤其需要提供各种具有代表性的学习示例,方可学习获得有

7、效的信息抽取模式知识,因此这也使得这类Wrapper方法解决Web网页信息抽取问题的关键就是要解决Web网的实用性大受影响.页内容的理解问题.而充分准确地理解网页内容就需要掌握针对目前Web网页信息抽取方法存在的上述问题,我们大量的不同类型、层次的知识,有效获取并表达出这些知识,提出了一种基于多知识Web网页信息抽取方法(Multi其难度要远甚过解决具体Web网页信息抽取问题本身.因此KnowledgeInformationExtraction,简称MKIE方法).该方目前Web网页信息抽取问题解决方

8、法所涉及的信息模式描法的基本思想,就是将Web网页信息抽取所需知识分为两述知识均较为简单,且大多与网页内容具体表示风格密切相类,一类是确定性模式知识,它们与网页的具体内容与表示格关.由于Web网页内容表示形式变化多端,因此要使所设计收稿日期:2000207227基金项目:安徽省自然科学基金资助(项目编号:98312820)作者简介:朱明,副教授,主要研究方向为机器学习与数据挖掘,互联网智能信息技术等.黄云,硕士研究生.主要研究方向为互联信息智能处理.蔡庆

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 / 4



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于多知识的web网页信息抽取方法

基于多知识的web网页信息抽取方法

相关文章

相关标签