基于hadoop多维时态数据挖掘模型的研究与应用

基于hadoop多维时态数据挖掘模型的研究与应用

ID:35056913

大小:2.79 MB

页数:66页

时间:2019-03-17

基于hadoop多维时态数据挖掘模型的研究与应用_第1页
基于hadoop多维时态数据挖掘模型的研究与应用_第2页
基于hadoop多维时态数据挖掘模型的研究与应用_第3页
基于hadoop多维时态数据挖掘模型的研究与应用_第4页
基于hadoop多维时态数据挖掘模型的研究与应用_第5页
资源描述:

《基于hadoop多维时态数据挖掘模型的研究与应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、ZhejiangSci-TechUniversity硕士专业学位论文ProfessionalMaster’sThesis中文论文题目:基于Hadoop多维时态数据挖掘模型的研究与应用英文论文题目:Multi‐dimensionoftemporaldataminingmodelbasedonHadoopplatform专业学位类别:全日制工程硕士专业学位专业学位领域:计算机技术作者姓名:张云龙指导教师:贾宇波教授完成日期:2015年12月23日浙江理工大学学位论文独创性声明本人声明所呈交的学位论文是本人在导师指导下进行

2、的研究工作及取得的研究成果。除了文中特别加从标注和致谢的地方外,论文中不包含其他人巴经发表或撰写过的研究成果,化不包含为获得浙江理工大学或其他教育机构的学位或证书而使用过的材料一。与我同工作的同志对本研究所做的任何贡献均氏在论文中作了明确的说明并表示谢意。'学位论文作者签名:心/乂/>?<。签字日期:年3月曰III学位论文版权使用授权书本学化论文作者完全了解浙江理工大学有权保留并向国家有关部口或机构送交本论文的复印痒和磁盘,允许论文被查阅和借阅。本人授权逝空垄主左坐可

3、L乂将学位论文的全部或部分内容编入有关数据库进行检索和传播,可於采用影印、缩印或扫描等复制手段保存、、汇编学位论文。(保密的学位论文在解密后适用本授权书)学位论文作者签著:C(签字日朔:年月J曰奎导师签名:\來則签字日期:年叫月曰浙江理工大学硕士学位论文基于Hadoop多维时态数据挖掘模型的研究与应用摘要随着信息技术与互联网技术的深入发展,全球数据量呈现出爆炸式增长。大规模数据集不仅具有时间特性,随着社会生活资料和生产资料日益繁杂,还具有明显的多维属性。如何真实的反应出现实世界中事物和事物

4、之间、事物的不同属性之间以及不同事物的不同属性之间的联系,从而挖掘出有效的、新颖的、潜在可用的模式和规则,具有重要的研究意义。数据挖掘是从规模庞大的、有噪声的数据中提取出数据内部规律的表现特征的方法和技术。面对海量的多维时态数据,传统的存储系统以及数据挖掘模式已经不能胜任其所面临的在效率、扩展性和成本等方面的挑战。云计算技术,特别是Hadoop平台以其扩展性强、性价比高、容错性好等优势给出了解决大数据挖掘的方案。结合Hadoop云计算平台,实现大规模多维时态数据的挖掘是本论文要进行研究的。首先,从时态数据入手,构造出多维时

5、态数据SDTE模型。总结归纳了时间相关的概念,以时间特性为中心,讨论了时态数据的多维性。从现实世界和数据库系统角度出发,结合时态数据的数值型序列、事务型序列以及事件性序列挖掘的研究,提出了并建立了统一规范的多维时态数据SDTE模型。其次,结合大规模数据挖掘和Hadoop技术平台,架构出基于Hadoop技术框架的大规模多维时态数据挖掘模型。模型采用分布式文件系统实现超大文件数据的存储和容错,同时使用MapReduce的编程模式进行并行计算。自顶向下分层分为动态交互层、业务应用层、数据挖掘层和分布式平台层。着重对数据挖掘层的数

6、据管理模块和并行化编程模块进了整合和优化。提出了Hive-HBase集成模型对HDFS进行操作,构建了通用性的并行化编程模型。然后,基于模型改进了关联规则FP-Growth算法并进行实验。基于对多维关联规则概念的研究,在FP-Growth算法的基础上对影响算法效率较大的求子条件模式基的算法进行改进,提出了FPCpb算法。并对FPCpb算法进行并行化。最后,搭建实验环境进行实验,依据评估标准对数据进行分析,验证了Hadoop多维时态数据挖掘模型的可行性以及FPCpb-Growth算法的高效性。关键词:多维时态数据挖掘;Had

7、oop系统;FPCpb-Growth算法;并行化编程I浙江理工大学硕士学位论文基于Hadoop多维时态数据挖掘模型的研究与应用Multi-dimensionoftemporaldataminingmodelbasedonHadoopplatformABSTRACTWiththefurtherdevelopmentofinformationtechnologyandInternettechnology,theglobaldatashowexplosivegrowth.Largedatasetsnotonlyhasthetim

8、echaracteristic,alongwiththesociallifeandproductiondataisincreasinglymultifarious,alsohastheobviousmulti-dimensionalattribute.Intherealworld,howtoreflec

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。