知识发现与数据挖掘

知识发现与数据挖掘

ID:23941260

大小:52.00 KB

页数:4页

时间:2018-11-11

知识发现与数据挖掘_第1页
知识发现与数据挖掘_第2页
知识发现与数据挖掘_第3页
知识发现与数据挖掘_第4页
资源描述:

《知识发现与数据挖掘》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、知识发现与数据挖掘内容提要:本文介绍了知识发现及其数据挖掘的发展历史,数据挖掘常用技术及应用。  【关键词】知识发现,数据挖掘  1、引言  随着数据库技术的成熟和数据应用的普及,人类积累的数据量正在以指数速度迅速增长。进入九十年代,伴随着因特X(Inter)的出现和发展,以及随之而来的企业内部X(Intra)和企业外部X(Extra)以及虚拟私有X(VPNVirtualPrivateationpoor)和“数据关在牢笼中”(datainjail),奈斯伯特(JohnNaisbett)惊呼“.它是一个反复的过程,通常包含多个相互联系的

2、步骤:预处理、提出假设、选取算法、提取规则、评价和解释结果、将模式构成知识,最后是应用。在实际,人们往往不严格区分数据挖掘和数据库中的知识发现,把两者混淆使用。一般在科研领域中称为KDD,而在工程领域则称为数据挖掘。  4、数据挖掘中常用技术  目前市面数据挖掘应用方面有着种类繁多的商品工具和软件,大致可以归纳为下列主要类型:  [1]传统主观导向系统:这是针对专业领域应用的系统。如基于技术分析方法对金融市场进行分析。采用的方法从简单的走向分析直到基于高深数学基础的分形理论和谱分析。这种技术需要有经验模型为前提。属于这类商品有美国的M

3、etastak,SuperCharts,CandlestickForecaster和oney等[2]传统统计分析:这类技术包括相关分析、回归分析及因子分析等。一般先由用户提供假设,再由系统利用数据进行验证。缺点是需经培训后才能使用,同时在数据探索过程中,用户需要重复进行一系列操作。属于这类商品有美国的SAS,SPSS和Stargraphis等。由于近年来更先进的DM方法的出现和使用,这些厂商在原有系统中综合一些DM部件,以获得更完善的功能。以上两种技术主要基于传统的数理统计等数学的基础上,一般早已开始用于数据分析方面。  [3]神经元

4、X络(NN)技术:神经元X络技术是属于软计算(Softputing)领域内一种重要方法,它是多年来科研人员进行人脑神经学习机能模拟的成果,已成功地应用于各工业部门。在DM(KDD)的应用方面,当需要复杂或不精确数据中导出概念和确定走向比较困难时,利用神经X络技术特别有效。经过训练后的NN可以想像具有某种专门知识的“专家”,因此可以像人一样从经验中学习。NN有多种结构,但最常用的是多层BP(backpropagation)模型。它已广泛地应用于各种DM(KDD)工具和软件中。有些是以NN为主导技术,例如俄罗斯的PolyAnalyst,美

5、国的BrainMaker,Neurosell和O成套软件中。其缺点是用它来分析复杂的系统诸如金融市场,NN就需要复杂的结构为数众多神经元以及连接数,从而使现有的事例数(不同的纪录数)无法满足训练的需要。另外由受训后的NN所代表的预测模型的非透明性也是其缺点,尽管如此,它还是广泛而成功地为各种金融应用分析系统所采用。  [4]决策树:在知识工程领域,决策树是一种简单的知识表示方法,它将事例逐步分类成代表不同的类别。由于分类规则是比较直观的,因而比较易于理解,。这种方法一般限于分类任务。在系统中采用这种方法的有美国的IDIS,法国的SIP

6、INA.英国的Clementinc和澳大利亚的C5.0.[5]进化式程序设计(Evolutionaryprogramming):这种方法的独特思路是:系统自动生成有关目标变量对其他多种变量依赖关系的务种假设,并形成以内部编程语言表示的程序。内部程序(假设)的产生过程是进化式的,类似于遗传算法过程。当系统找到较好地描述依赖关系的一个假设时,就对这程序进行各种不同的微小修正,生成子程序组,再在其中选择能更好地改进预测精度的子程序,如此依次进行,最后获得达到所需精度的最好程序时,由系统的专有模块将所找到的依赖关系由内部语言形式转换成易于为人

7、们理解的显式形式,如数学公式,预测表等。由于采用通用编程语言,这种主法在原则上能保证任何一种依赖关系和算法都能用这种语言来描述。这种方法的商用产品还只见诸俄罗斯的PolyAnalyst.据报导,它用于金融到医疗方面军的各种应用于,能获得者很好的结果。  [6]基于事例的推理方法(CBR—Casebasedreasoning):这种方法的思路非常简单,当预测未来情况或进行正确决策时,系统寻找与现有情况相类似的事例,并选择最佳的相同的解决方案,这种方法能用于很多问题求解,并获得好的结果,其缺点是系统不能生成汇总过去经验的模块或规则。采用这

8、种方法的系统有美国的PatternRecognition技术不可能是详尽的囊括,因为多年来数理统计分析以及AI与KE的研究提供了种类繁多特点各异的手段,DM开发人员完全可以根据不同任务加以选择使用,另外近年来在软计算(S

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。