基于统计的特异数据挖掘方法

基于统计的特异数据挖掘方法

ID:24921065

大小:57.62 KB

页数:4页

时间:2018-11-17

基于统计的特异数据挖掘方法_第1页
基于统计的特异数据挖掘方法_第2页
基于统计的特异数据挖掘方法_第3页
基于统计的特异数据挖掘方法_第4页
资源描述:

《基于统计的特异数据挖掘方法》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、基于统计的特异数据挖掘方法摘要:特异数据挖掘的方法很多,但每种方法都有它的局限性,线性回归模型又是现实中应用较广泛的一种,因此本文提出了基于统计的数值和属性特异数据挖掘方法,不仅大大的提高了传统的挖掘方法的效率,还可以通过属性分析特异数据出现的原因。关键词:特异数据挖掘;线性回归模型;聚类分析分类号】TP3111引言特异数据是指在数据库中出现次数较少或跟其他数据之间的距离较远的一类数据[1]。它们中往往蕴含着重要的信息,因此如何更好的挖掘出这些数据并分析出现的原因,对人们从全局出发制定相关管理决策有至关重要的作用。而基于统计的挖掘方法是最早

2、的[1],但传统的方法需先假定数据集服从一个随机分布模型,但当数据的分布未知或者不符合标准的分布时,这些方法就失效了。在统计中,线性模型是最基本的模型,虽在现实中许多变量之间的关系是非线性的,但经过适当的变换后仍可以达到近似的线性关系,鉴于此,主要研究基于线性回归模型下的特异数据挖掘算法。2特异数据挖掘方法2.1多元线性回归模型[2]随机变量与其影响因素之间的多元线性回归模型用矩阵表示为,其中回归模型拟合程度的好坏取决于参数向量的估计值,而寻找参数向量的估计值,常用最小二乘估计法,得到回归参数的估计为。2.2基于聚类的数值特异数据挖掘方法当

3、回归模型拟合度较高时,可用因素的取值作为随机变量的属性值,且在没有异常数据干扰时,它们的效果是一致的,故如果两组数值的分析结果不一致,则必存在特异现象。聚类分析的主要目标是发现簇,而簇又可看作是特异数据(离群点)的补,故它可同时发现簇和特异数据。但不同的方法会得到不同的簇,因此传统的基于聚类的特异数据挖掘算法依赖于所有簇的个数和数据中特异数据的存在性。鉴于此,提出一种新的基于聚类的特异数据挖掘算法。算法的实现过程如图1:2.3属性特异数据挖掘方法基于聚类的数值特异数据挖掘方法对于特异数据出现的原因未能解释,需要进一步的通过属性特异挖掘去解释

4、。对于属性异常挖掘,主要通过高杠杆点集、拟合异常点和强影响点集三个角度挖掘,如图2中的A、B、C点分别为高杠杆点、拟合异常点和强影响点[3]。2.3.1高杠杆点集的挖掘方法2.3.2拟合异常点集的挖掘方法不与其余数据相适应的点称为拟合异常点。经验证,学生化残差服从自由度为的分布,故当时的点为拟合异常2.3.3强影响点集的挖掘方法对回归模型的参数估计值有较大影响的点称为强影响点,经验证,设第i个数据点的库克距离,故当时的点为强影响点。其中总之,属性特异数据挖掘方法的实现过程如图3:3小结线性回归模型在分析数据,寻找变量关系的应用中很广泛,具有

5、广阔的应用前景,本文提出的基于统计的特异数据挖掘方法大大的提高了传统的挖掘方法的效率,但它是在无偏估计的基础上进行研究的,因此今后可在有偏估计的基础上进一步研究。参考文献[1]Pang-NingTanMichaelSteinbachVipinKumar著.范明范宏建等译.数据挖掘导论[M].人民邮电出版社,2007[2]S.韦斯伯格著(Weisberg,S.),王静龙等译.应用线性回归[M].北京:中国统计出版社,1998.3[1]孙广山.线性回归模型影响分析及异常点的统计诊断[D].东北林业大学,2011[2]赵进文.复杂数据下经济建模与

6、诊断研究•科学出版社,2004

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。