基于web的病毒信息抽取方法研究

ID：33909716

大小：1.49 MB

页数：45页

时间：2019-03-01

资源描述：

《基于web的病毒信息抽取方法研究》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、长春工业大学硕士学位论文基于Web的病毒信息抽取方法研究姓名：李洋申请学位级别：硕士专业：计算机应用技术指导教师：王红梅20070301丝查王些盔堂墅土堂鱼迨塞摘要随着Internet的迅猛发展，Web已经成为全球传播与共享科研、教育、商业和社会信息等最重要和最具潜力的巨大信息源。与传统的信息资源相比，Web上信息资源有着分布性、异构性、开放性、动态性和庞大性等特点，这些特点导致Web上数据的信息接口和组织形式各不相同、使得Web上的信息资源不能被有效的利用。因此出现了很多基于Web信息源的技术和应用，其中信息

2、抽取技术是当前研究的一个热点。信息抽取(InformationExtraction，IE)的目标是把文本里包含的信息进行结构化处理，变成表格一样的组织形式。输入信息抽取系统的是原始文本，输出的是固定格式的信息点。把信息点从各种各样的文档中抽取出来，然后以统一的形式集成在一起，这是信息抽取的主要任务。信息以统一的形式集成在一起的好处是方便检查和比较，能够对数据作自动化处理，从而实现用数据挖掘方法发现和解释数据模型。信息抽取技术并不试图全面理解整篇文档，只是对文档中包含相关信息的部分进行分析。从大量的文档中抽取需要

3、的特定事实是非常有用的。互联网上就存在着这么一个文档库，同一主题的信息通常分散存放在不同网站上，表现的形式也各不相同。若能将这些信息收集在一起，用结构化形式储存，其意义是非常重大的。本文实现了一种基于Web的快速从HTML页面中抽取病毒信息的方法，该方法将抽取信息按对象关系模型进行重组存放在数据库中，以支持查询及各种应用。将信息抽取过程划分为两个阶段：学习阶段和抽取阶段，学习阶段主要是利用少量的HTML样本页面，用户根据实际的需求和选定的HTML样本信息的具体情况定义模式信息，同时对样本页面进行适当的标记得到样

4、本记录，系统根据样本页面和样本记录形成抽取的知识库，该知识库包含抽取信息的抽取规则和关联规则；抽取阶段是根据学习阶段定义的模式信息，建立数据库，同时根据知识库对与样本页面相近的HTML页面进行信息抽取，将抽取出来的信息以数据库的方式存储和管理。这样抽取出来的信息符合用户的要求并且具有结构，因此抽取阶段既是信息抽取的过程，同时又是信息重构的过程。同时在抽取阶段中分为两个部分：抽取部分和集成部分。基于这种抽取方法的原型系统可直接应用于Web查询和搜索，也可用于其它应用的数据准备，抽取效果良好。关键词：HTML；模式

5、；信息抽取；包装器j耋壹王些厶芏亟土芏丝丝gAbstractAsInternetrapidlydeveloping，Webhasalreadybecomethemostimportantandpotentialinformationresourcesforglobalbroadcasting，sharingscienceandstudying．education,commercialandsocialinformation．Comparedwimthetraditionalinformationresource

6、s，InformationresourcesontheWebhasdistributed，heterogeneous，open,dynamicandsubstantialsexualcharacteristics．ThesefeaturesleadtothedatafromtheWebaredifferentfromthetraditionaldataatinterfaceandtheorganizational，andontheWebtheinformationresourcescannotbeusedeff

7、ectively．SoalotofWeb-1clasedSOUrCeofinformationtechnologyandapplicationsareexist，andinformationextractiontechnologyisahotresearch．ThegoalofInformationExtractionistostructuretheinformationcontainedinthetextofLane，turnthemintothesalneformoforganization．Informa

8、tionisimportedfromtheoriginaltext，andtheoutputformatoftheinformationisfixedpoint．Theinformationfromavarietyoffilesareextracted，andthenintegratedtogetherinaunifiedform．ThisisthemaintaskoftheInfor

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 45



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于web的病毒信息抽取方法研究

基于web的病毒信息抽取方法研究

相关文章

相关标签