外文翻译--中文

外文翻译--中文

ID:41516890

大小:180.00 KB

页数:8页

时间:2019-08-26

外文翻译--中文_第1页
外文翻译--中文_第2页
外文翻译--中文_第3页
外文翻译--中文_第4页
外文翻译--中文_第5页
资源描述:

《外文翻译--中文》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、本科生毕业设计(论文)第8页知识发现与数据挖掘从数据库中发现知识(KDD)是20世纪80年代末开始的。KDD一词是在1989年8月与美国底特律市召开的第一届KDD国际学术会议上正式形成的。KDD研究的问题有:定性知识和定量知识的发现;知识发现方法;知识发现的应用等。数据挖掘是知识发现中的核心工作,主要研究发现知识的各种方法和技术。知识发现(KDD)被认为是从数据中发现有知识的整个过程。数据挖掘被认为是KDD过程中的一个特定步骤,它用专门算法从数据中抽取模式。KDD是从数据集中识别出有效的、新颖的、潜

2、在有用的,以及最终可理解的模式的高级处理过程。其中“数据集”是事实F(数据库记录)的集合;“模式”是用语言L表示的表达式E,它所描述的数据是集合F的一个子集,它比枚举所有中元素更简单,称E为模式;“有效、新颖、潜在有用、可被理解”表示发现的模式有一定的可信度,应该是新的,将来有实用价值,能被用户理解。KDD过程下图所示。KDD过程可以概括为三部分:数据准备、数据挖掘、及结果的解释和评估。1.数据准备数据准备又可以分为3个子步骤:数据选取、数据预处理和数据变换。数据选取的目的是确定发现任务的操作对象,

3、即目标数据,是根据用户的需要从原始数据库中抽取的一组数据。数据预处理一般包括消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换(如把连续数值转换为离散型数据,以便于符号归纳,或是把离散型数据转换为连续型数据,以便于神经网络计算)等。本科生毕业设计(论文)第8页数据变换的主要目的是消减数据维数或降维,即从初始特征中找出真正有用的特征以减少数据挖掘时要考虑的特征或变量个数。2.数据挖掘数据挖掘阶段首先要确定挖掘的任务或目的,如数据分类、聚类、关联规则发现或序列模式发现等。确定了挖掘任务后,就要决

4、定使用什么样的挖掘算法。选择实现算法有两个考虑因素:一是不同的数据有不同的特点,因此需要用与之相关的算法来挖掘;二是用户或实际运行系统的要求,有的用户可能希望获取描述型的、容易理解的知识(采用规则表示的挖掘方法显然要好于神经网络之类的方法),而有的用户值是希望获取预测准确度尽可能高的预测型知识。选择了挖掘算法后,就可以实施数据挖掘操作,获取有用的模式。3.结果的解释和评估数据挖掘阶段发现出来的模式,经过评估,可能存在冗余或无关的模式,这时需要将其剔除;也有可能模式不满足用户的要求,这时则需要回退到发

5、现过程的前面阶段,如重新选取数据、采用新的数据变换方法、设定新的参数值,甚至换一种挖掘算法等。另外,KDD由于最终是面向人类用户的,因此可能要对发现的模式进行可视化,或者把结果转换为用户易懂的另一种表示,如把分类决策树转换为“if…then…”规则。数据挖掘仅仅是整个过程中的一个步骤。数据挖掘质量的好坏有两个影响要素:一是所采用的数据挖掘技术的有效性,二是用于挖掘的数据质量和数量(数据量的大小)。如果选择了错误的数据或不适当的属性,或对数据进行了不适当的转换,则挖掘的结果是不会好的。整个挖掘过程是一

6、个不断反馈的过程。比如,用户在挖掘途中发现选择的数据不太好,或使用的挖掘技术产生不了期望的结果。这时,用户需要重复先前的过程,甚至从头重新开始。可视化技术在数据挖掘的各个阶段都发挥着重要的作用。特别是在数据准备阶段,用户可能要使用散点图、直方图等统计可视化技术来显示有关数据,以期对数据有一个初步的了解,从而为更好地选取数据打下基础。在挖掘阶段,用户则要使用与领域问题有关的可视化工具。在表示结果阶段,则可能要用到可视化技术以使得发现的知识更易于理解。本科生毕业设计(论文)第8页KDD是在机器学习、计算

7、可视化、模式识别、统计学等多个学科的基础上发展起来的一门新兴的交叉学科。KDD与这些领域的技术密切相关,但又有一定的区别。下面简要讨论KDD与这些技术的比较。1.KDD与机器学习知识发现和机器学习都是从数据中提取知识的过程,但二者是有区别的。机器学习方法是计算机学和人工智能发展的产物,是采用人工智能技术来实现机器从客观世界中学习,而KDD是在没有明确假设的前提下去挖掘信息、发现知识,发现所有得到的知识具有潜在性、有效性和实用性三个特征;KDD是面向大规模数据库的,且数据来源是现实世界中存在的真实数据

8、,存在一定的缺失和噪音数据,而机器学习一般面向的是几百到几千条记录的数据,数据大多是经过专家挑选的,没有或较少出现缺失数据。2.KDD与数据库技术首先,KDD与目前数据库管理系统DBMS的作用是不同的。数据库管理系统的侧重点是把大量的数据组织起来。以方便用户进行存取和维护,并对数据的一致性和完整性进行约束。而KDD则侧重于对数据库中的数据进行分析,已得到有用的结果。再次,数据库中的数据库报表工具与KDD也是不同的,前者按用户提取数据库中的数据,进行简单的数据运算和处理

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。