基于web的病毒信息抽取方法研究

基于web的病毒信息抽取方法研究

ID:33909716

大小:1.49 MB

页数:45页

时间:2019-03-01

基于web的病毒信息抽取方法研究_第1页
基于web的病毒信息抽取方法研究_第2页
基于web的病毒信息抽取方法研究_第3页
基于web的病毒信息抽取方法研究_第4页
基于web的病毒信息抽取方法研究_第5页
资源描述:

《基于web的病毒信息抽取方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、长春工业大学硕士学位论文基于Web的病毒信息抽取方法研究姓名:李洋申请学位级别:硕士专业:计算机应用技术指导教师:王红梅20070301丝查王些盔堂墅土堂鱼迨塞摘要随着Internet的迅猛发展,Web已经成为全球传播与共享科研、教育、商业和社会信息等最重要和最具潜力的巨大信息源。与传统的信息资源相比,Web上信息资源有着分布性、异构性、开放性、动态性和庞大性等特点,这些特点导致Web上数据的信息接口和组织形式各不相同、使得Web上的信息资源不能被有效的利用。因此出现了很多基于Web信息源的技术和应用,其中信息

2、抽取技术是当前研究的一个热点。信息抽取(InformationExtraction,IE)的目标是把文本里包含的信息进行结构化处理,变成表格一样的组织形式。输入信息抽取系统的是原始文本,输出的是固定格式的信息点。把信息点从各种各样的文档中抽取出来,然后以统一的形式集成在一起,这是信息抽取的主要任务。信息以统一的形式集成在一起的好处是方便检查和比较,能够对数据作自动化处理,从而实现用数据挖掘方法发现和解释数据模型。信息抽取技术并不试图全面理解整篇文档,只是对文档中包含相关信息的部分进行分析。从大量的文档中抽取需要

3、的特定事实是非常有用的。互联网上就存在着这么一个文档库,同一主题的信息通常分散存放在不同网站上,表现的形式也各不相同。若能将这些信息收集在一起,用结构化形式储存,其意义是非常重大的。本文实现了一种基于Web的快速从HTML页面中抽取病毒信息的方法,该方法将抽取信息按对象关系模型进行重组存放在数据库中,以支持查询及各种应用。将信息抽取过程划分为两个阶段:学习阶段和抽取阶段,学习阶段主要是利用少量的HTML样本页面,用户根据实际的需求和选定的HTML样本信息的具体情况定义模式信息,同时对样本页面进行适当的标记得到样

4、本记录,系统根据样本页面和样本记录形成抽取的知识库,该知识库包含抽取信息的抽取规则和关联规则;抽取阶段是根据学习阶段定义的模式信息,建立数据库,同时根据知识库对与样本页面相近的HTML页面进行信息抽取,将抽取出来的信息以数据库的方式存储和管理。这样抽取出来的信息符合用户的要求并且具有结构,因此抽取阶段既是信息抽取的过程,同时又是信息重构的过程。同时在抽取阶段中分为两个部分:抽取部分和集成部分。基于这种抽取方法的原型系统可直接应用于Web查询和搜索,也可用于其它应用的数据准备,抽取效果良好。关键词:HTML;模式

5、;信息抽取;包装器j耋壹王些厶芏亟土芏丝丝gAbstractAsInternetrapidlydeveloping,Webhasalreadybecomethemostimportantandpotentialinformationresourcesforglobalbroadcasting,sharingscienceandstudying.education,commercialandsocialinformation.Comparedwimthetraditionalinformationresource

6、s,InformationresourcesontheWebhasdistributed,heterogeneous,open,dynamicandsubstantialsexualcharacteristics.ThesefeaturesleadtothedatafromtheWebaredifferentfromthetraditionaldataatinterfaceandtheorganizational,andontheWebtheinformationresourcescannotbeusedeff

7、ectively.SoalotofWeb-1clasedSOUrCeofinformationtechnologyandapplicationsareexist,andinformationextractiontechnologyisahotresearch.ThegoalofInformationExtractionistostructuretheinformationcontainedinthetextofLane,turnthemintothesalneformoforganization.Informa

8、tionisimportedfromtheoriginaltext,andtheoutputformatoftheinformationisfixedpoint.Theinformationfromavarietyoffilesareextracted,andthenintegratedtogetherinaunifiedform.ThisisthemaintaskoftheInfor

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。