流式计算技术及应用

流式计算技术及应用

ID:79410694

大小:236.28 KB

页数:10页

时间:2022-02-12

流式计算技术及应用_第1页
流式计算技术及应用_第2页
流式计算技术及应用_第3页
流式计算技术及应用_第4页
流式计算技术及应用_第5页
流式计算技术及应用_第6页
流式计算技术及应用_第7页
流式计算技术及应用_第8页
流式计算技术及应用_第9页
流式计算技术及应用_第10页
资源描述:

《流式计算技术及应用》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、流式计算技术及应用研究报告学校代码:10248作者姓名:叶稳定学号:0第一导师:第二导师:学科专业:软件工程上海交通大学软件学院2016年5月1流式计算技术综述.流式计算技术概述.流式计算框架Storm的架构分析.流式计算框架SparkStreaming的架构分析Storm与SparkStreaming的架构对比2流式计算技术在实际项目中的应用目录错误!未定义书签。错误!未定义书签。错误!未定义书签。错误!未定义书签。错误!未定义书签。错误!未定义书签。基于流式计算框架SparkStreaming的数据实时处理应用的

2、系统架构..错误!未定义书签。基于复杂事件处理CEP匡架的数据实时处理应用的系统架构错误!未定义书签。基于其他流式计算框架的数据实时处理应用的系统架构错误!未定义书签。参考文献.错误!未定义书签。1流式计算技术综述流式计算技术概述流数据处理应用要求我们的系统可以接受大量的,不间断的数据称为流式数据。流裁据处理内存1•数捌流战就I数据存辩流式计算中,无法确定数据的到来时刻和到来顺序,也无法全部数据存储起来.因此,不再进行流式数据的存储,而是当流动的数据到来后在内存中直接进行数据的实时计算.如Twitter的Storm、

3、Yahoo的S4[6]就是典型的流式数据计算架构,数据在任务拓扑中被计算,并输出有价值的信息.对于无需先存储,可以直接进行数据计算,实时性要求很严格,但数据的精确度要求稍微宽松的应用场景,流式计算具有明显优势.流式计算中,数据往往是最近一个时间窗口内的,因此数据延迟往往较短,实时性较强。流式计算框架Storm的架构分析ApacheStorm[5],在Storm中,先要设计一个用于实时计算的图状结构,我们称之为拓扑(topology)0这个拓扑将会被提交给集群,由集群中的主控节点(masternode)[5]分发代码,

4、将任务分配给工作节点(workernode)执行。个拓扑中包括spout和bolt两种角色,其中spout发送消息,负责将数据流以tuple元组的形式发送出去;而bolt则负责转换这些数据流,在bolt中可以完成计算、过滤等操作,bolt自身也可以随机将数据发送给其他bolt。由spout发射出的tuple是不可变数组,对应着固定的键值对。Spark的设计思想是将流式计算分解成一系列短小的批处理作业,也就是把SparkStreaming的输入数据按照时间分成一段一段的数据,每一段数据都转换成Spark中的RDD然后在

5、Spark[6]内部对RDDS行处理操作,结果可以放到内存中继续处理或者存储到外部设备。流式计算框架SparkStreaming的架构分析SparkStreaming是核心SparkAPI的一个扩展,它并不会像Storm那样一次一个地处理数据流,而是在处理前按时间间隔预先将其切分为一段一段的批处理作业。Spark针对持续性数据流的抽象称为DStream(DiscretizedStream),一个DStream是一个微批处理(micro-batching)的RDD(弹性分布式数据集);而RDD则是一种分布式数据集,能够

6、以两种方式并行运作,分别是任意函数和滑动窗口数据的转换。DStreamOriginalDStre^m-TiarsfocmedSparSWnrni篇Storm将计算逻辑抽象为拓扑Topology,Spout是Topology的数据源,数据源可以是日志或者消息队列,也可以是数据库中的表等等数据,Bolt负责数据的整个传递方向,也叫消息处理者,Bolt可能由另外2个Bolt进行join得到,在Storm中数据流的单位就是Tuple(元组),这个Tuple可能是由多个Fields字段构成,每个字段都由Bolt定义,Storm

7、中工作进程叫做worker,一个Topology实际上实在多个worker中运行的,在集群中每个Spout和Bolt都是由多个Tasks(任务)组成的,对于宏观的节点,分为Nimbus主节点和Supervisor从节点,Nimbus通过Zookeeper管理集群所有的Supervisor,Storm提供很多配置来调整Nimbus、Supervisor进程和正在运行的Topology的行为。Storm与SparkStreaming的架构对比StormSparkDeliverySemanticsAlLeastOnceEx

8、actlyOk«wrthTnxteolEsacifyOnceExCpCillSOfTWtlrilufSCMLanoftStateManagementStatelessStatefulWrrteiitatetcslorageLatencySuib-SH&condSecondsDfipenchngonbdtchsizeLanguageSupport

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。