spark streaming平台数据划分与放置策略研究

spark streaming平台数据划分与放置策略研究

ID:23518125

大小:1.38 MB

页数:61页

时间:2018-11-08

spark streaming平台数据划分与放置策略研究_第1页
spark streaming平台数据划分与放置策略研究_第2页
spark streaming平台数据划分与放置策略研究_第3页
spark streaming平台数据划分与放置策略研究_第4页
spark streaming平台数据划分与放置策略研究_第5页
资源描述:

《spark streaming平台数据划分与放置策略研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中文图书分类号:TP391密级:公开UDC:004学校代码:10005硕士学位论文MASTERALDISSERTATION论文题目:SparkStreaming平台数据划分与放置策略研究论文作者:陈诚学科:计算机科学与技术指导教师:梁毅副教授论文提交日期:2017年5UDC:004学校代码:10005中文图书分类号:TP391学号:S201407061密级:公开北京工业大学工学硕士学位论文题目:SparkStreaming平台数据划分与放置策略研究英文题目:RESEARCHONDATAPARTITIONINGANDPLACEMENTSTRATEGYOFSPARKSTREAMING论

2、文作者:陈诚学科专业:计算机科学与技术研究方向:计算机系统结构申请学位:工学硕士指导教师:梁毅副教授所在单位:信息学部(原计算机学院)答辩日期:2017年5月授予学位单位:北京工业大学独创性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。签名:陈诚日期:2017年5月19日关于论文使用授权的说明本人完全了解北京工业大学

3、有关保留、使用学位论文的规定,即:学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。(保密的论文在解密后应遵守此规定)签名:陈诚日期:2017年5月19日导师签名:梁毅日期:2017年5月19日摘要摘要SparkStreaming是大数据流式计算的最新进展,是建立在Spark引擎上的批量流式数据计算平台。它将流式计算看作一连串短小的Map/Reduce型的批处理作业,以获得较高的数据吞吐量和近实时的数据处理效率。数据划分和数据放置是SparkStreaming的两个核心工作阶段。数据划分将流式数据按照时间

4、序列划分为数据块;数据放置则选择计算节点将划分的数据块放置于计算节点,为最终的数据处理做好准备。现有的SparkStreaming中数据划分与数据放置分别采用的是静态数据划分策略和随机数据放置策略。静态数据划分无法适应流式数据负载动态波动的特征,导致系统计算能力无法合理充分利用;随机数据放置策略则无法适应批次数据处理作业在节点间获得的计算能力非对称的场景,降低了流式数据在各计算节点间并行处理的效率。针对上述问题,本文提了面向SparkStreaming平台的动态数据划分策略与动态加权数据放置策略。其中,数据划分策略采用近似一维搜索法动态寻求流式数据负载波动情况下的最优数据划分间隔,

5、以确保得到较好的数据批量处理性能;动态加权数据放置策略则依据节点的实际计算能力,为节点动态分配数据放置权重,使数据分布与作业在节点间所获得计算能力匹配。本文的主要贡献包括:1)面向SparkStreaming平台的动态数据划分策略DDPS。提出以近似一维搜索法构建动态数据划分模型,通过该模型分析数据划分间隔改变前后批次数据的处理情况,以反馈调节方式不断修正数据划分间隔,直至收敛于优化的数据划分间隔,使流式数据批量处理获得相对较好的运行性能。2)面向SparkStreaming平台的动态加权数据放置策略DWDPS。依据历史任务执行信息,以节点为粒度,构建了节点计算能力的评估模型;并依

6、据节点的相对计算能力设置节点数据放置权重;最终依据数据放置权重和节点的数据块保有量选择数据放置的目标节点,从而保障节点的计算能力与数据规模相匹配,提升流式数据的处理效率。3)原型系统实现及性能评测与分析。基于开源的SparkStreaming平台对动态数据划分策略与加权数据放置策略进行实现,并使用流式负载进行性能评测。测试结果表明,动态数据划分策略与静态数据划分等策略相比,批次数据的平均响应时间最大减少27.73%;动态加权数据放置策略与随机数据放置等策略相比,在存在资源竞争条件下批次数据平均处理时间最大减少23.5%。关键词:批量流式计算;SparkStreaming;数据划分;

7、数据放置-I-AbstractAbstractSparkStreaming,asthestateofartinthefieldofbigdatabatchstreaming,isanextensionoftheSparkengine.Therefore,thestreamcomputingcanbeconsideredasaseriesofshortMap/Reduce-stylebatchprocessingjobstoobtainhighdatathroughpu

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。