最新第8章-Storm基于拓扑的流数据实时计算系统PPT课件.ppt

最新第8章-Storm基于拓扑的流数据实时计算系统PPT课件.ppt

ID:62171030

大小:1.52 MB

页数:86页

时间:2021-04-20

最新第8章-Storm基于拓扑的流数据实时计算系统PPT课件.ppt_第1页
最新第8章-Storm基于拓扑的流数据实时计算系统PPT课件.ppt_第2页
最新第8章-Storm基于拓扑的流数据实时计算系统PPT课件.ppt_第3页
最新第8章-Storm基于拓扑的流数据实时计算系统PPT课件.ppt_第4页
最新第8章-Storm基于拓扑的流数据实时计算系统PPT课件.ppt_第5页
资源描述:

《最新第8章-Storm基于拓扑的流数据实时计算系统PPT课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第8章-Storm基于拓扑的流数据实时计算系统目录第1章 云计算与大数据基础第2章 云计算与大数据的相关技术第3章 虚拟化技术第4章 集群系统基础第5章 MPI—面向计算第6章 Hadoop—分布式大数据系统第7章 HPCC—面向数据的高性能计算集群系统第8章 Storm—基于拓扑的流数据实时计算系统第9章 服务器与数据中心第10章云计算大数据仿真技术CONTENTS第8章 Storm—基于拓扑的流数据实时计算系统第8章 Storm—基于拓扑的流数据 实时计算系统《云计算与大数据技术》8.1 Storm简介(1)Storm具有很好的容错性、扩展性

2、、可靠性和健壮性。Storm使用Zookeeper(Hadoop中的一个正式子项目,后被广泛使用的一种分布式协调工具)作为集群协调工具,当发现正在运行的Topology出错的时候,Zookeeper就会告诉Nimbus(Storm系统的主进程,负责分发任务等操作),然后Nimbus就重新分配并启动任务。在Storm中,Topology被提交后,在没有被手动杀死之前,它都将一直处于运行状态。这些措施都是为了保证该系统的容错性。Storm采用三进程架构—Nimbus、Supervisor、Zookeeper,无论是集群还是单机都只有这三个进程。当需要

3、在集群中新加入节点的时候,只需要修改配置文件和运行Supervisor和Zookeeper进程即可,扩展起来十分方便。另外,Storm采用消息传递方式进行数据运算,数据传输的可靠性至关重要。Storm系统中传递的消息,主节点都会根据消息的产生到结束生成一棵消息树。所以,消息从诞生到消亡的整个过程,它都会被跟踪。如果主节点发现某消息丢失,那么它就会重新处理该消息。正是因为有了容错性、可靠性的保障,该系统运行中体现出健壮性,不会出现轻易宕机、崩溃的现象。8.1 Storm简介(2)Storm并行机制灵活。 各个组件的并行数由用户根据任务的繁重程度自行

4、设定,如果该组件处理的任务复杂度高,耗费时间多,那么并行数目的设置就偏大些,相反地,并行数目的设置则偏小些。这样,拓扑中的每个组件就能很好地配合,最大化地利用集群性能,提高任务处理效率。(3)Storm支持多种语言。 Storm内部实现语言是Clojure,基于Storm开发的应用却可以使用几乎任何一种语言,而所需的只是连接到Storm的适配器。Storm默认支持Clojure、Java、Ruby和Python,并已经存在针对Scala、JRuby、Perl和PHP的适配器。更多的适配器将会随着应用的扩展变得更加地丰富。8.2 Storm原理及其

5、体系结构8.2.1 Storm编程模型原理Storm编程模型采用的是生活中常见的并行处理任务方式—流水线作业方式。Storm实现一个任务的完整拓扑如图8.1所示,在Storm中每实现一个任务,用户就需要构造一个这样的拓扑。该拓扑包含两类组件:Spout和Bolt。Spout负责读取数据源,Bolt负责任务处理。Storm处理一个任务,往往会把该任务拆分为几部分,分别由不同的Bolt组件来实现。这是流水线作业中实现并行和提升任务处理效率采用的方法。8.1 Storm编程模型Topology8.2.1 Storm编程模型原理比如,使用Storm处理单

6、词统计的任务(WordCount),该任务的拓扑如图8.2所示。spout组件负责读取要统计的数据源中的句子,split组件负责将接收到的句子拆分成单个的单词,把这些单词发送至count组件,count组件负责统计发送过来的单词出现的次数。图8.2 WordCountTopology8.2.1 Storm编程模型原理这样一个统计单词的任务就被拆分为三部分来操作,每部分可以根据任务的繁重程度来规划并行数目,各个组件的并行数没有明确规定。比如,可以设置spout并行数为2,split并行数为8,count并行数为12,如图8.3所示。图8.3Word

7、Count并行工作模式8.2.2 Storm体系结构Storm中因为没有使用文件系统,相比于Hadoop它的架构要简单得多。Storm依然采用的是主从架构模式,即有一个主进程和多个从进程。除了这两个进程以外,还有在主进程与从进程之间进行协调的进程Zookeeper。Storm的体系结构如图8.4所示。图8.4 Storm体系结构8.2.2 Storm体系结构知道了Storm是由三类进程组成,但是Storm的三进程部署到具体的集群上又是怎样的呢?因为主进程任务是负责分发任务和调度任务,在一个任务中只需要一个这种角色,所以主进程Nimbus只需要部署

8、到一个节点上。而工作机进程是负责实际的任务处理,那么一个集群有多少节点配置多少个工作机进程,这样才能最大限度地利用集群性能,所以Supe

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。