厦门大学数据库实验室mapreduce连接优化ppt课件

厦门大学数据库实验室mapreduce连接优化ppt课件

ID:27307881

大小:1.92 MB

页数:39页

时间:2018-12-01

厦门大学数据库实验室mapreduce连接优化ppt课件_第1页
厦门大学数据库实验室mapreduce连接优化ppt课件_第2页
厦门大学数据库实验室mapreduce连接优化ppt课件_第3页
厦门大学数据库实验室mapreduce连接优化ppt课件_第4页
厦门大学数据库实验室mapreduce连接优化ppt课件_第5页
资源描述:

《厦门大学数据库实验室mapreduce连接优化ppt课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、厦门大学数据库实验室MapReduce连接优化报告人:李雨倩导师:林子雨2014.07.26连接技术简介基于传统MapReduce的连接基于数据索引的连接基于改进MapReduce的连接连接技术比较连接操作广泛应用于日志分析、联机分析处理及数据分析处理等方面。如果提高大数据连接计算速度,则可提高数据分析效率和用户体验度。下表对现有的MapReduce连接技术进行了分类与对比。连接技术简介基于传统MapReduce的连接基于数据索引的连接基于改进MapReduce的连接基于传统MapReduce的连接这

2、类算法主要通过实现map函数、reduce函数及之间的数据流传递,来完成数据连接运算。对于这方面的研究主要集中于两表等值连接、两表非等值连接(又称θ连接)、两表相似度连接、多表等值连接(星型连接、链式连接)、多表非等值连接等问题。标准重分区算法welcometousethesePowerPointtemplates,NewContentdesign,10yearsexperience算法回顾标准重分区算法由一个MapReduce作业来完成连接运算。两个表的数据都由Mapper读入,根据查询条件进行过滤

3、intermediate,生成keyintermediate/valueintermediate对,其中key是待连接列的数值,valueintermediate则由用于标记数据来自哪个表的标签和记录值组成。在混洗过程中,具有相同连接值的数据会被分到同一个Reducer上。Reducer根据标签将数据分为两个集合,再完成连接运算。标准重分区算法在Reducer上需要将数据全部装载到内存中,可能会造成内存溢出。另外,当存在数据倾斜时,标准重分区算法容易造成数据分布不均,以及连接速度缓慢和计算资源分布不均

4、等问题。改进的标准重分区算法welcometousethesePowerPointtemplates,NewContentdesign,10yearsexperience算法回顾为了解决标准重分区算法需要占用较大内存的问题,改进的标准重分区算法进行了以下优化:生成keyintermediate/valueintermediate对时,keyintermediate值由待连接列的数值与表的标签共同构成,这样可以使一个表的数据都排在另一个表的前面。在混洗阶段,通过自定义的partition函数来使含有同一

5、连接值的数据仍然分到同一个Reducer上。在Reduce阶段,在内存中缓存较小的表,另一表以流式方式读入并进行连接操作。广播算法welcometousethesePowerPointtemplates,NewContentdesign,10yearsexperience算法回顾广播算法将待连接的两个表中较小的表以广播的方式传输到另一个表所在节点上,然后在该节点上进行连接操作。广播算法只需要一个无Reduce的MapReduce作业就可以完成,省去了数据混洗与排序的过程。当两表数据量相差很大时,广播算

6、法具有很高的效率。然而当待连接的两个表都很大时,广播算法效率很低。半连接算法welcometousethesePowerPointtemplates,NewContentdesign,10yearsexperience算法回顾半连接算法使用三个MapReduce作业来完成运算,第一个MapReduce作业生成第一个表S的连接值文件。第二个MapReduce作业利用前一步生成的连接值文件,采用类似广播算法的方法对第二个表R的数据进行过滤。第三个MapReduce作业利用过滤后的R表数据,采用广播算法进行

7、连接。分片半连接算法welcometousethesePowerPointtemplates,NewContentdesign,10yearsexperience算法简介分片半连接算法需要三个MapReduce作业来完成连接运算。第一个MapReduce作业对于表S的每一分片生成该分片的连接值文件。第二个MapReduce作业根据表S的每一分片的连接值与表R进行半连接,生成每一分片的连接文件。第三个MapReduce作业读入前一步生成的每一分片的连接文件,进行连接运算,生成最终结果。分片半连接算法半连

8、接存在的一个问题是:并不是过滤后的R中的每条记录都要和L(S)中的某分区做连接。分片半连接解决了这个问题。等值连接前面所介绍的标准重分区算法、改进标准重分区算法、广播算法、半连接算法、分片半连接算法均属于等值连接的算法,相对简单一些。非等值连接处理非等值连接时,由于不能预先知道两表值的分布情况,需要处理比等值连接更加复杂的问题。下面介绍一个利用一个MapReduce作业处理非等值连接操作的算法。非等值连接举例Considerajoinbetweendat

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。