2知识发现过程课件

2知识发现过程课件

ID:19898801

大小:319.50 KB

页数:56页

时间:2018-10-07

2知识发现过程课件_第1页
2知识发现过程课件_第2页
2知识发现过程课件_第3页
2知识发现过程课件_第4页
2知识发现过程课件_第5页
资源描述:

《2知识发现过程课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第二章知识发现过程与应用结构内容提要知识发现的基本过程数据库中的知识发现处理过程模型知识发现软件或工具的发展知识发现项目的过程化管理数据挖掘语言介绍2021/8/231DMKDSidesByMAO如何学习本章内容数据挖掘有广义和狭义两种理解。为了避免混淆,我们使用知识发现而把数据挖掘限制在上面所描述的狭义概念上。虽然不同企业会有不同的业务逻辑,解决问题的具体方法有所差异,但是它们进行知识发现的目的和基本思路是一致的。2021/8/232DMKDSidesByMAO如何学习本章内容本章首先对知识发现的基本过程进行分析,旨在从总体上掌握知识发现的基本步骤和技术。然后对目前比较流行的KDD过程处理

2、模型进行剖析,了解KDD系统的应用体系结构。通过对KDD系统的基本技术环境和主要部件功能分析,对KDD系统的体系结构有一个更深入的了解。在此基础上对KDD软件和工具进行归纳、举例和分析,帮助读者在实际应用中学会选择和使用相应的软件和工具。本章也对KDD系统项目的过程化管理、交互式数据挖掘过程以及通用的KDD原型系统进行讨论,使读者从软件项目管理角度来更好地理解KDD过程。最后对数据挖掘语言的类型和特点进行介绍。2021/8/233DMKDSidesByMAO知识发现是一个系统化的工作从源数据中发现有用知识是一个系统化的工作。首先必须对可以利用的源数据进行分析,确定合适的挖掘目标。然后才能着手

3、系统的设计和开发。完成从大型源数据中发现有价值知识的过程可以简单地概括为:首先从数据源中抽取感兴趣的数据,并把它组织成适合挖掘的数据组织形式;然后,调用相应的算法生成所需的知识;最后对生成的知识模式进行评估,并把有价值的知识集成到企业的智能系统中。2021/8/234DMKDSidesByMAO知识发现是一个系统化的工作一般地说,KDD是一个多步骤的处理过程,一般分为问题定义、数据抽取、数据预处理、数据挖掘以及模式评估等基本阶段。2021/8/235DMKDSidesByMAO问题定义阶段的功能KDD是为了在大量数据中发现有用的令人感兴趣的信息,因此发现何种知识就成为整个过程中第一个也是最重

4、要的一个阶段。在问题定义过程中,数据挖掘人员必须和领域专家以及最终用户紧密协作一方面了解相关领域的有关情况,熟悉背景知识,弄清用户要求,确定挖掘的目标等要求;另一方面通过对各种学习算法的对比进而确定可用的学习算法。后续的学习算法选择和数据集准备都是在此基础上进行的。2021/8/236DMKDSidesByMAO数据抽取与集成数据抽取与集成是知识发现的关键性工作。早期的数据抽取是依靠手工编程来实现的,现在可以通过高效的抽取工具来实现。即使是使用抽取工具,数据抽取和装载仍然是一件很艰苦的工作。2021/8/237DMKDSidesByMAO数据抽取与集成源数据库的选取以及从中抽取数据的原则和具

5、体规则必须依据系统的任务来界定。主要任务是设计存储新数据的结构和准确定义它与源数据的转换和装载机制,以便正确地从每个数据源中抽取所需的数据。这些结构和转换信息应该作为元数据(Metadata)被存储起来。2021/8/238DMKDSidesByMAO数据抽取与集成来自不同源的数据可能有模式定义上的差异,也可能存在因数据冗余而无法确定有效数据的情形。此外,还要考虑数据库系统本身可能存在不兼容的情况2021/8/239DMKDSidesByMAO数据清洗与预处理在开始一个知识发现项目之前必须清晰地定义挖掘目标。虽然挖掘的最后结果是不可预测的,但是要解决或探索的问题应该是可预见的。盲目性地挖掘是

6、没有任何意义的。如果所集成的数据不正确,数据挖掘算法输出的结果也必然不正确,这样形成的决策支持是不可靠的。因此,要提高挖掘结果的准确率,数据预处理是不可忽视的一步。对数据进行预处理,一般需要对源数据进行再加工,检查数据的完整性及数据的一致性,对其中的噪音数据进行平滑,对丢失的数据进行填补,消除“脏”数据,消除重复记录等。2021/8/2310DMKDSidesByMAO数据清洗与预处理数据清洗是指去除或修补源数据中的不完整、不一致、含噪音的数据。在源数据中,可能由于疏忽、懒惰、甚至为了保密使系统设计人员无法得到某些数据项的数据。假如这个数据项正是知识发现系统所关心的,那么这类不完整的数据就需

7、要修补。常见的不完整数据的修补办法有:使用一个全局值来填充(如“unknown”、估计的最大数或最小数)。统计该属性的所有非空值,并用平均值来填充空缺项。只使用同类对象的属性平均值填充。利用回归或工具预测最可能的值,并用它来填充。2021/8/2311DMKDSidesByMAO数据清洗与预处理数据不一致可能是由于源数据库中对同样属性所使用的数据类型、度量单位等不同而导致的。因此需要定义它们的转换规则,并在挖

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。