一种对滑动窗口数据流聚类算法的混合差分研究

一种对滑动窗口数据流聚类算法的混合差分研究

ID:27246718

大小:66.62 KB

页数:5页

时间:2018-12-02

一种对滑动窗口数据流聚类算法的混合差分研究_第1页
一种对滑动窗口数据流聚类算法的混合差分研究_第2页
一种对滑动窗口数据流聚类算法的混合差分研究_第3页
一种对滑动窗口数据流聚类算法的混合差分研究_第4页
一种对滑动窗口数据流聚类算法的混合差分研究_第5页
资源描述:

《一种对滑动窗口数据流聚类算法的混合差分研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、一种对滑动窗口数据流聚类算法的混合差分研究摘要传统的滑动窗u数据流聚类算法在执行中存在聚类质量较差、效率较低的缺点,而基于混合差分进化的算法,将滑动窗口数据流聚类过程进行划分,一类是在线的时序窗口数据流特征向量生成,另一类是离线的聚类优化。对于在线式滑动窗n,其数据表现为微簇聚合更新与维护,可以通过粒子群算法,以离线微簇数据进行适应度计算,并将种群划分为优势了•种群和普通子种群,利用个体适应度值和平均适应度值来进行最优选择,采用迭代法来对个体进行进化,输出最优适应度值的聚类集合。本文采集自网络,本站发布的论文均是优质论文,

2、供学习和研究使用,文中立场与本网站无关,版权和著作权归原作者所有,如有不愿意被转载的情况,请通知我们删除已转载的信息,如果需要分享,请保留本段说明。关键词滑动窗口数据流混合差分进化聚类数据聚类分析是数据挖掘中的重要课题,也是通过对数据进行层次化模型分析,对指数级数据增长下的传统聚类算法的优化,以满足数据流处理的实时要求。比较经典的算法存CluStream,将数据流看作时序读取过程,在数据处理周期内完成聚类。数据流聚类算法是基于聚类半径的增长,数据聚类精度的提升对内存消耗过大而采用的优化算法,其优势在于构建数据流聚类在线、离

3、线框架,满足数据入点、流出点之间数据流处理需要,但巾于数据快照窗口的失效数据为实时更新,导致计算机负载过大。基于滑动窗门的数据流聚类算法,能够在占用窗口大小的次线性内存空问中,对数据记录分部展开进行聚类分析.一、数据流聚类算法基础概念明确对于混合差分进化下的滑动窗口数据流聚类算法的研究,主要通过在线过程的微簇生成和离线下的混合差分进化算法来实现。需要对相关概念进行界定。一是窗口快照。以某t时刻数据窗口跨度为P,在[t-p,p]时刻内的数据流为DBi为窗UB的一个快照,记作。对于时序滑动窗口,以快照窗口的数据流为顺序构成时序

4、数据流,记为SB,则某时序i的时序滑块窗口数据为:,如果窗口数为n,则时间跨度。对于时序衰减权系数的设定,假设某时刻t的时序窗门衰减权因子为?%'则,时序衰减权系数W(t)记作:;其中,v为数据流速,为当前滑动窗口吋间。对于数据流微簇的设定,将当前吋序滑动窗口的微簇计作CF,贝lj,对于数据集,(F,Q)表示为样本属性的一阶、二阶矩阵,流簇样本总数为n,则数据流达到时间为RT1,失效时间为RT2,滑动窗口大小为RW,则:;对于样本聚类权重系数的设定,当某时序数据流为SB,则待识别样本Y,隶属于类别的近邻样本总数为b则当前样

5、本总数为m,第j个近邻样本进行聚类时,样本聚类权秉系数记作1(j),则:,其中?%2表示为幂指数。对于聚类类别的判定函数,假设某数据集样本类别为,则待识别数据为Y,数据集近邻中属于类别的样本为,近邻样本总数为N,隶属于的近邻样本数为,待识别数据Y的第j个近邻样本的类别判别函数表示为:。二、混合差分滑动窗门数据流聚类算法(1)算法思想。从时序滑动窗U数据集的定义来看,,样本类别数为c,类别标识符为,则当前数据流为DB;假设时序窗口快照的数据集为,则待识别样本为,则满足两个过程:一是窗口快照中的数据为,则记作A[i],其中包含

6、(n+1)个数据元组;二是时序窗门更新所涉及的快照数据,其存储和失效数据的删除满足;当快照数据流被处理完后将对A[n+1]元组进行删除,令A[j]=A[j+l],则快照窗U的数据存储于A[j]。可见,对于混合差分算法下的滑动窗口数据流聚集算法的应用,主要从在线和离线两种过程中来完成。在不同数据流流速下,在线聚类是结合时序滑动窗门、快照窗门来对数据流的粒度和流速进行微簇特征向景存储,而离线聚类是对微簇特征向景的数据流粒度进行优化聚类。(2)在线聚类算法研究。对于微簇特征向量的生成主要依据DBSCAN算法来实现微簇的集合,其方

7、法如下:一是对微簇变量设置并初始化num=O;利用DBSCAN算法,假设对象p的簇半径(3)离线下数据流聚类优化研究离线下的微簇数据集聚类优化,主要采用混合差分进化算法来提升可执行性。先以粒子群算法为例,就进化算法进行改进。粒子群算法是粒子在空间维度下以特定速度飞行,其位置是动态调整的。假设某粒子群规模为M,空间维度为D,则第i个粒子在第d维空间的位置集合表示为:;粒子速度集合为:;个体位置优化集合:;种群全局位置优化集合为:;则粒子i在第(t+1)时刻的速度及位置更新策略为:;对于表示为粒子的加速系数,对于表示为[0,1

8、]区间内的随机数。从粒子群算法中进行全局最优迭代计算时,因计算量较大,粒子变化趋势变化趋缓,导致粒子活动降低,出现计算收敛难度;利用惯性系数来导入粒子群算法,从全局最优调节中来提升算法效率,其粒子速度更新机制为;利用最优算法,主要是满足对粒子速度求解是否最优进行判定,当前适应度函数值与上一时刻进行比较,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。