基于关联规则挖掘weka数据挖掘应用

基于关联规则挖掘weka数据挖掘应用

ID:32636696

大小:58.56 KB

页数:7页

时间:2019-02-14

基于关联规则挖掘weka数据挖掘应用_第1页
基于关联规则挖掘weka数据挖掘应用_第2页
基于关联规则挖掘weka数据挖掘应用_第3页
基于关联规则挖掘weka数据挖掘应用_第4页
基于关联规则挖掘weka数据挖掘应用_第5页
资源描述:

《基于关联规则挖掘weka数据挖掘应用》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、基于关联规则挖掘weka数据挖掘应用摘要:关联规则挖掘作为数据挖掘的一个重要方法,在许多数据挖掘领域得到应用。本文阐述了关联规则挖掘以及其关键算法,并针对具体的实例,描述了数据挖掘工具weka挖掘关联规则的过程。关键词:数据挖掘;关联规则挖掘;weka中图分类号:TP311.13文献标识码:A文章编号:1007-9599(2012)19-0000-021引言近年来,随着数据库应用和互联网的快速发展和普及,人们渐渐体会到到数据海洋的无边无际。面对如此巨大的数据资源,人们迫切需要一种新的技术和工具将这些数据转换成有用的知识与信息资源。数据挖掘(DataMining,简称DM)作为20

2、世纪末刚兴起的数据智能分析技术,由于其广泛的应用前景而备受关注,它可以从数据库,或数据仓库,以及其它各类型的数据源中,自动抽取或发现有用的知识和信息资源。数据挖掘是一个多领域交叉的研究和应用领域,其中包括了:数据库技术、人工智能、知识获取、知识系统、神经网络、信息检索等。数据挖掘的有关技术和方法包括:数据预处理、定性概念归纳、决策树分类方法、关联规则挖掘等。关联规则挖掘作为数据挖掘的重要方法,在许多数据挖掘应用领域得到运用。2关联规则挖掘关联规则挖掘就是从大量的数据中挖掘出有价值描述数据项之间相互联系的有关知识。例如:从大量的商业交易记录中发现有价值的关联知识就可帮助进行商品目录

3、的设计、交叉营销或帮助进行其它有关的商业决策。2.1关联规则挖掘的基本概念设1={订,i2,....,in}为数据项集合,D为与任务相关的数据集合,也就是一个交易数据库;其中的每个交易T是一个数据项子集,即TI;每个交易均包含一个识别编号TID,设A为一个数据项集合,当且仅当AT时,称交易T包含A。一个关联规则就是具有"A?B”形式的蕴含式;其中有Al,BI且AnB=?o规则A?B在交易数据集D中成立,且具有s支持度和c信任度。这也就是意味着交易数据集中有D中有s比例的交易T包含AUB数据项;且交易数据集D中有s比例的交易T满足“若包含A就包含B的条件”。具体描述是:suppor

4、t(A?B)=P(AUB),confidence(A?B)=P(A

5、B)o满足最小支持度阈值和最小信任度阈值的关联规则就称为强规则(strong)。通常为方便起见,都将最小支持度阈值简写为min_sup;最小信任度阈值简写为min_confo这两个阈值均在0%到100%之间。一个数据项的集合就称为项集(iternset);一个包含k个数据项的项集就称为k-项集。因此集合(computer,software)就是一个2-项集。一个项集的出现频度就是整个交易数据集D中包含该项集的交易记录数;这也称为是该项集的支持度(supportcount)o而若一个项集的出现频度大于最小支持度阈值

6、乘以交易记录集D中记录数,那么就称该项集满足最小支持度阈值;而满足最小支持度阈值所对应的交易记录数就称为最小支持频度(minimumsupportcount)o满足最小支持阈值的项集就称为频繁k项集(frequentitemset)o所有频繁项集的集合就记为LK[1]。2.2Apriori算法Apriori算法是挖掘产生布尔关联规则所需频繁项集的基本算法;它也是一个很有影响的关联规则挖掘算法。Apriori算法就是根据有关频繁项集特性的先验知识(priorknowledge)而命名的。该算法利用了一个层次顺序搜索的循环方法来完成频繁项集的挖掘工作。这一循环方法就是利用k-项集来产

7、生(k+1)-项集。具体做法就是:首先找出频繁1-项集,记为L1;然后利用L1来挖掘L2,即频繁2-项集;不断如此循环下去直到无法发现更多的频繁k-项集为止。每挖掘一层Lk就需要扫描整个数据库一遍。该算法利用了如下两个基本性质:1.任何频集的子集必定是频集;2.任何非频繁项集的超集必定是非频繁项集。连接步骤:为发现LK,可以将LK-1中两个项集相连接以获得一个LK的候选集合CK。设11和12为LK-1中的两个项集(元素),记号li[j]表示11中的第j个项;如liEk-2]就表示li中的倒数第二项。为方便起见,假设交易数据库中各交易记录中各项均已按字典排序。若LK-1的连接操作记

8、为LKT㊉LK-1,它表示若11和12中的前(k-2)项是相同的,也就是说若有:(11[1]=12[1]A-A(ll[k-2]=12[k-2])All[k-l]<12[k-l],则LK-1中11和12的内容就可以连接在一起。而条件ll[k-l]<12[k-l]可以确保不产生重复的项集。删除步骤:CK是LK的一个超集,它其中的各元素(项集)不一定都是频繁项集,但所有的频繁k-项集一定都在CK中,即有LKCKo扫描一遍数据库就可以决定CK中各候选项集(元素)的支持频度,并由此获得LK

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。