基于hadoop平台的数据挖掘算法研究

基于hadoop平台的数据挖掘算法研究

ID:21838651

大小:5.90 MB

页数:98页

时间:2018-10-25

基于hadoop平台的数据挖掘算法研究_第1页
基于hadoop平台的数据挖掘算法研究_第2页
基于hadoop平台的数据挖掘算法研究_第3页
基于hadoop平台的数据挖掘算法研究_第4页
基于hadoop平台的数据挖掘算法研究_第5页
资源描述:

《基于hadoop平台的数据挖掘算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基 于(申请工学硕士学位论文)平台的基于Hadoop平台的数据数据挖掘算法研究挖掘算法研究范科培养单位:计算机科学与技术学院学科专业:计算机应用技术研究生:范科武 汉指导老师:薛胜军教授理 工 大 学2014年5月万方数据分类号密级UDC学校代码10497学位论文题目基于Hadoop平台的数据挖掘算法研究英文ResearchonDataminingalgorithmin题目Hadoopplatform研究生姓名范科姓名薛胜军职称教授学位博士指导教师单位名称计算机科学与技术学院邮编430063申请学位级别硕士学科专业名称计算机应用技术论文提交日期2014-04论文答

2、辩日期2014-05学位授予单位武汉理工大学学位授予日期答辩委员会主席李春林评阅人李春林邱奇志2014年4月万方数据独创性声明本人声明,所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。签名:日期:学位论文使用授权书本人完全了解武汉理工大学有关保留、使用学位论文的规定,即学校有权保留并向国家有关部门或机构送交论文的复

3、印件和电子版,允许论文被查阅和借阅。本人承诺所提交的学位论文(含电子学位论文)为答辩后经修改的最终定稿学位论文,并授权武汉理工大学可以将本学位论文的全部内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段保存或汇编本学位论文。同时授权经武汉理工大学认可的国家有关机构或论文数据库使用或收录本学位论文,并向社会公众提供信息服务。(保密的论文在解密后应遵守此规定)研究生(签名):导师(签名):日期万方数据武汉理工大学硕士学位论文摘要数据挖掘是针对大量的数据进行分析,以得出有价值信息的过程。随着社会信息化程度越来越高,移动网络设备骤增,产生了大量的数据信息,如何从

4、海量的数据中挖掘出有价值的知识,是数据挖掘技术所面临的主要问题之一。传统的数据挖掘很难满足现阶段大数据处理效率的要求,以Hadoop平台为代表的云计算技术应用解决了大数据挖掘的瓶颈。但是基于Hadoop平台的数据挖掘算法并行化研究仍然存在一些亟待解决的问题,例如,如何减少I/O损耗、如何设计更优的MapReduce任务、如何降低任务同步和通信的代价等等。为了解决这些问题,本文主要进行了以下研究工作:(1)本文分析了传统的KNN算法的执行流程,将其传统流程中的向量映射、计算距离、寻找K个相邻向量、确定类别的四个步骤,分别进行了MapReduce改造。在此基础之上,提

5、出了KNN算法基于Hadoop平台的并行化移植方案。而后对于方案中Job任务数过多,以及运算伪同步的缺陷进行了改进,最终提出了改进的并行化方案。改进的KNN算法并行化方案将MapReduce任务的个数由基本移植方案中的4次降低为2次,并利用了MapReduce自动排序的特性,提高了算法的执行效率;(2)本文分析了传统Apriori算法的执行流程,将其传统流程中的剪枝步、连接步、求取强关联规则以及相关程序控制等步骤,分别改造成合理的MapReduce模式,在此基础之上。提出了Apriori算法基于Hadoop平台的并行化移植方案。而后对于方案中的Job任务数过多,迭

6、代流程复杂等缺陷进行了改进,最终提出了改进的并行化方案。改进的Apriori算法并行化方案摈弃了剪枝优化迭代遍历的传统工作模式,并使得事务数据库的扫描次数由传统的不确定k(k>1)次减少至固定的2次;(3)为验证本文提出方案的合理性和正确性,本文搭建了Hadoop云平台,并在此环境中实现了KNN、Apriori算法的改进方案。对于改进的KNN算法并行化方案,实验观察了在不同计算节点数的情况下该算法的性能表现,最终证明了并行化改进后的KNN算法具有良好的扩展性;对于改进的Apriori算法并行化方案,实验处理了多个数据集,从最小支持度、项集阶数、数据量三个方面进行分

7、析,确定了并行化改进后的Apriori算法具有I万方数据武汉理工大学硕士学位论文良好的执行效率。关键词:云计算;Hadoop;数据挖掘;KNN;AprioriII万方数据武汉理工大学硕士学位论文AbstractDataminingistheprocessofcarryingoutmathematicalanalysistodrawvaluableinformationforlargeamountsofdata.Withthearrivaloftheinformationage,therapidlyincreasingmobilenetworkequipmentsh

8、avege

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。