数据仓库课件1

数据仓库课件1

ID:44041491

大小:450.50 KB

页数:51页

时间:2019-10-18

数据仓库课件1_第1页
数据仓库课件1_第2页
数据仓库课件1_第3页
数据仓库课件1_第4页
数据仓库课件1_第5页
资源描述:

《数据仓库课件1》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第5章传统数据挖掘技术5.1传统的统计分析类数据挖掘技术5.2统计分析类工具5.3统计分析类工具的应用5.4统计分析类工具应用的问题练习5.1传统的统计分析类数据挖掘技术5.1.1统计与统计类数据挖掘技术1.统计与数据挖掘统计是数据收集和描述数学的一个分支。在统计中总是涉及到数据,并常常有足够多的数据使普通人无法明了其内在的含义。对于一般人而言,处理数以万亿计比特的数据,并要了解数据的意义并从数据中归纳出模式,其难度是十分明显的。因此,必须借助数学模型为手段,对这些数据进行归纳、推断和预测,寻找数据间的模

2、式。所谓数学模型,就是根据社会现象的内在、外在因素变量及其相互关系进行抽象和假设,构造一个或一组反映数量关系的数学方程式。利用数学模型,揭示事物的内部结构,分析变量之间的相互关系,进行统计推断和预测。统计推断分析一般需要借助统计数学模型完成,它是利用已有信息推断未知信息的过程。2.统计类数据挖掘技术统计类数据挖掘技术已经成为目前最成熟的数据挖掘技术。统计类的数据挖掘技术还包含一般数据库中的聚集函数、数据的度量、数据分布的图形、数据的趋势、数据的最近邻分析和数据的聚类等。5.1.2数据的聚集与度量技术常用的聚

3、集函数,例如,count()、sum()、avg()、max()、min()等数据中心趋势度量,可以采用算术平均值加权算术平均值。5.1传统的统计分析类数据挖掘技术,5.1.3柱状图数据挖掘技术,序号姓名年龄收入信用评价性别1王平62一般一般女2李力53一般差男3高洁47高一般女4李强32一般差男5李玲21高优良女6曾前27高一般男7武颖50低优良女8程勇46高优良男9牛兰27低优良女10高程68低优良男5.1.3柱状图数据挖掘技术,5.1.4线性回归数据挖掘技术,α=-β回归是研究自变量与因变量之间关系的

4、分析方法,其目的在于根据已知自变量来估计和预测因变量的总平均值。线形回归是最简单的回归形式。双变量回归将一个随机变量Y(称作响应变量)看作为另一个随机变量x(称为预测变量)的线形函数,即Y=α+βx(5.1)例:表5-2中给出一组年薪数据。P1325.1.5非线性回归数据挖掘技术,双曲线模型二次曲线模型对数模型三角函数模型指数模型幂函数模型修正指数增长曲线5.1.6聚类数据挖掘技术聚类(clustering)是将数据对象分组为多个类或簇(cluster)的数据挖掘技术,聚类分析方法作为统计学的分支,在其多年

5、的研究中主要集中在距离聚类分析上。这些方法已经在许多统计软件包中得到应用,例如SPSS和SAS统计软件包中均有聚类方法。,﹒.┇..··..··.·﹒.﹒.·﹒.﹒.﹒.﹒.﹒.﹒.﹒.┇..··..··.·﹒.﹒.·﹒.﹒.﹒.﹒.﹒.﹒.﹒.┇..··..··.·﹒.﹒.·﹒.﹒.﹒.﹒.﹒年龄80类别1类别2类别3﹒.·﹒..﹒.·.收入60000300001500001.聚类分析原理某房地产开发商对其客户数据进行聚类处理时发现,如果按照数据中的“年龄”和“收入”两个字段进行聚类处理,客户群可以分成三

6、个主要的类别:类别1是中低收入但是已经退休的老年人、类别2是较高收入的中年人、类别3是高收入的年轻人。除此以外,还有一部分数据散落在这三个类以外:高收入的中年人和低收入的年轻人。这些散落在外不能归并到任一类中的数据称为“孤立点”或“奇异点”。“孤立点”的数据与数据库中其他部分的数据不同或不一致,在这些“孤立点”数据中就可能隐藏着一些重要的信息。例如,在“欺诈分析”中,这些“孤立点”就可能意味着有欺诈行为存在。,在n维空间中应用聚类数据挖掘时,需要对数据之间的距离进行测量,这种距离的测量可以采用“欧几里得距离

7、”、“曼哈顿距离”和“明考斯基距离”公式进行。“明考斯基距离”定义为上述公式中,q值为1时,为“曼哈顿距离”;q值为2时,就是“欧几里得距离”。在聚类分析中,有的数据值要根据聚类需要给予较大的权重。加权“明考斯基距离”计算公式为:数据挖掘中经常采用的聚类方法主要有:分层聚类、划分聚类、密度聚类、网格聚类和模型聚类等。2.分层聚类分层聚类主要有两种类型:凝聚的层次聚类和分裂的层次聚类。前者是一种自底向上的分层聚类,即将每个对象都看作一个簇,然后合并这些原子簇为更大的簇,直至所有对象都在一个簇中或被某个终结条件

8、所结束,大多数分层聚类都采用这种方法处理。后者是自顶向下方法,首先将所有的对象都看成一个簇,然后逐渐细分成较小的簇,直至每个对象都自成一簇或被某个终结条件所结束。NumLabel新增率流失率numLabel新增率流失率1江苏0.520.309内蒙古0.160.082山东0.120.1210陕西0.360.103广东0.310.1111广西0.340.104海南0.390.1312吉林0.140.115辽宁0.10

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。