xml与web数据挖掘

xml与web数据挖掘

ID:34408941

大小:79.12 KB

页数:3页

时间:2019-03-05

xml与web数据挖掘_第1页
xml与web数据挖掘_第2页
xml与web数据挖掘_第3页
资源描述:

《xml与web数据挖掘》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、2005/21 总第329期商业研究COMMERCIALRESEARCH文章编号:1001-148X(2005)21-0206-03XML与Web数据挖掘谢兰云(东北财经大学经济信息系,辽宁大连 116023)摘要:互联网时代,绝大多数信息都来自于Internet,数据挖掘的对象将更侧重于Web数据挖掘,但是Web页面上的信息并不适合进行数据挖掘。Web数据挖掘存在的种种问题,而XML的出现为解决这些问题提供了契机。关键词:Web数据挖掘;XML;数据库中图分类号:F224133    文献标识码:AXMLandWebDataMiningXI

2、ELan2yun(DepartmentofEconomicInformation,DongbeiUniversityofFinanceandEconomy,Dalian,Liaoning116023,China)Abstract:Ininternetera,alargeamountofinformationcomesfrominternetinwhichtheemphasisiswebdatamining1Buttherestillexistsomeproblemsinwebdatamining1However,XMLcanbeusedtos

3、olvetheseproblemsinpractice.Keywords:webdatamining;XML;database的Web页面中,而Web页面缺乏统一的结构,所以一、引言面向Web的数据挖掘目前所面临的主要问题包括如随着信息技术的迅猛发展,计算机在各行各业都下几个方面:得到了广泛的应用,特别是在一些如银行、保险等较(一)异构数据库环境早进行信息化的金融行业,其数据库或数据仓库中积从数据库研究的角度出发,Web网站上的信息也累了大量的数据,如何对这些数据进行利用,挖掘出可以看作是一个数据库,是一个更大更复杂的数据知识,提炼成资源,并

4、最终创造出效益,是决策支持库,Web上的每一个站点就是一个数据源,每个数据系统的重要工作。在进行决策支持过程中运用较多的源都是异构的,因而每一站点之间的信息和组织都不数据分析工具就是数据挖掘技术,特别是在电子商务一样,这就构成了一个巨大的异构数据库环境。如果时代,绝大多数信息都来自于电子商务平台,即In2想要利用这些数据进行数据挖掘,首先,必须研究站ternet,数据挖掘的对象将更侧重于Web数据挖掘,点之间异构数据的集成问题,只有将这些站点的数据但Web页面上的信息并不适合进行数据挖掘,解决都集成起来,提供给用户一个统一的视图,才有可能这一

5、问题已成为进行数据挖掘的当务之急。从巨大的数据资源中获取所需的东西。其次,还要解决Web上的数据查询问题,因为如果所需的数据不二、Web数据挖掘所面临的问题能很有效地得到,对这些数据进行分析、集成、处理所谓数据挖掘是应用一系列技术从大型数据库或就无从谈起。数据仓库的数据中提取人们感兴趣的信息和知识,这(二)半结构化的数据结构些知识或信息是隐含的、事先未知而潜在有用的,提Web上的数据与传统的数据库中的数据不同,传取的知识表示为概念、规则、规律模式等形式。而统的数据库都有一定的数据模型,可以根据模型来具Web数据挖掘就是从Web文件和Web活动

6、中筛选感体描述特定的数据。而Web上的数据非常复杂,没兴趣的、潜在的、有用的模式和隐藏信息。Web挖掘有特定的模型描述,每一站点的数据都各自独立设的对象,如文本、图形、图像等数据分散在大量不同计,并且数据本身具有自述性和动态可变性,因而收稿日期:2005-04-05©1995-2007TsinghuaTongfangOpticalDiscCo.,Ltd.Allrightsreserved.总第329期谢兰云:XML与Web数据挖掘·207·Web上的数据具有一定的结构性,但因自述层次的存XML格式就能被另一种数据源有效地识别。在,从而是一种非

7、完全结构化的数据,也称为半结构(三)数据存储格式不受显示格式的制约化数据,半结构化是Web上数据的最大特点。一般来说,一篇文档包括三个要素:数据、结构(三)解决半结构化的数据源问题以及显示方式。对于HTML来说,显示方式内嵌在数Web数据挖掘技术首要解决半结构化数据源模型据中,缺乏对数据结构的描述,对于应用程序理解文和半结构化数据模型的查询与集成问题。解决Web档内容、抽取语义信息都有诸多不便。而XML把文上的异构数据的集成与查询问题,就必须用一个模型档的三要素独立开来,分别处理。它将显示格式从数来清晰地描述Web上的数据,针对Web上的数据

8、半据内容中独立出来,保存在样式单文件(StyleSheet)结构化的特点,寻找一个半结构化的数据模型是解决中,这样如果需要改变文档的显示方式,只要修改样问题的关键所

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。