改进的隐私保护关联规则挖掘算法

改进的隐私保护关联规则挖掘算法

ID:46584656

大小:415.32 KB

页数:6页

时间:2019-11-25

改进的隐私保护关联规则挖掘算法_第1页
改进的隐私保护关联规则挖掘算法_第2页
改进的隐私保护关联规则挖掘算法_第3页
改进的隐私保护关联规则挖掘算法_第4页
改进的隐私保护关联规则挖掘算法_第5页
资源描述:

《改进的隐私保护关联规则挖掘算法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、万方数据Computer西画we砌gandApplications计算机工程与应用2010,46(8)133改进的隐私保护关联规则挖掘算法沈中林,崔建国SHENZhong-lin,CUIJian-guo中国民航大学计算机学院,天津300300CofiegeofComputerScience,CivilAviationUniversityofChina,Ti舳jin300300,ChinaE—mail:zlshenl63@163.tomSI-IENZhong-lin。CUIJian-guo.Impro

2、vedalgorithmofassociationrulemininginprivacypreserving.ComputerEngineer-ingandApplications,2010,46(8):133-136.Abstract:Theknowledgewhichispotentialandhiddenbehindlotsofdatacanbeminedinme.riBofdataminingtechnologyandpartoftheknowledgemayinfringepersonal

3、privacy,thenprivacyreservingindataminingisstudied.Firstly,aprivacyreservingassociationruleminingalgorithmcalledMASKwhichispresentedbyRizviisanalyzed.Secondly,MASKalgorithmisimprovedbydivide-nad-conquerslrategy.Timecomplexityanalysisandexperimentresults

4、howthattheimprovementofMASKalgorithmiseffective.Keywords:associationrule;privacypreserving;divide-and-conquerstrategy摘要:数据挖掘技术可以从收集到的大量数据集中挖掘出潜在的知识,这就可能把涉及到个人隐私的信息挖掘出来,从而产生了隐私保护下的数据挖掘。首先分析了国外学者Rizvi提出的隐私保护关联规则挖掘算法MASK,然后使用分治策略对MASK进行了改进。时间复杂度分析争实验结果均表明

5、,对MASK算法的改进是有效的。关键词:关联规则;隐私保护;分治策略DOI:10.3778/j.issn.1002—8331.2010.08.038文章编号:1002—8331(2010)08加133—04文献标识码:A中图分类号:TP3011引言数据挖掘是在大量的数据中挖掘出潜在的、有用的知识的过程【11。数据挖掘的恰当使用会挖掘出切实有用的知识,但是如果被恶意使用的话,就会泄露用户的隐私。—般来说,在数据挖掘领域,隐私被划分为两类:一类隐私是原始数据本身具有的。由于传统的数据挖掘技术是基于未加密

6、过的原始数据来进行的,也就是说必须将包含个人或企业隐私的原始数据交给数据挖掘者才能挖掘出有用的知识,如个人的家庭电话、银行账号、财产状况、信用等级等信息,这些信息一旦泄露的话,极可能会xC+A的生活产生不良影响。另一类隐私是原始数据所隐含的知识,如某公司优质客户的行为特征等规则,这些知识如果被别有用心的人非法获得,将会严重影响企业的核心竞争力闭。在1995年召开的第一届KDD会议上,隐私保护的数据挖掘就已经成为了一个专门的研究主题。1999年RakeshAgrawal在KDDl999上作了—场精彩的

7、主题演讲,他将隐私保护的数据挖掘作为未来的研究重点之—捌。自此以后,隐私保护的数据挖掘越来越得到人们的重视,迅速成为近年来数据挖掘领域研究的热点之一。文章介绍了Rizvi提出的MASK算法。MASK算法的评价标准为挖掘结果的准确度、隐私保护度和运行的隐私保护关联规则挖掘算法MASK,然后使用分治策略提出了改进的时间效率。时间复杂度分析和实验结果均表明,改进的MASK算法在准确度和隐私保护度与原MASK算法相同的前提下,运行时问效率得到了提高。2MASK算法介绍MASK(MiningAssociati

8、onswithSecrecyConstraints)算法由Rizvi提出闱。假定数据集为超市购物篮数据,所挖掘的数据集可以看作由0和1组成的二维稀疏布尔矩阵,1表示购买某件商品,o表示没有购买。为了保护输入数据集的隐私性,MASK算法采用概率歪曲的方法对原始数据集进行扰乱操作。—个o.1数据库元组可以看成—个随机向量壮ⅨJ,Xi=0或者1。对置进行歪曲操作得到l,越;XORi一-/,其中i是^的补,n是满足伯努利分布的随机变量,分布律为P(萨1)--p,P(泸o)=l

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。