第七章分布式系统中容错技术

第七章分布式系统中容错技术

ID:16113503

大小:29.92 KB

页数:18页

时间:2018-08-08

第七章分布式系统中容错技术_第1页
第七章分布式系统中容错技术_第2页
第七章分布式系统中容错技术_第3页
第七章分布式系统中容错技术_第4页
第七章分布式系统中容错技术_第5页
资源描述:

《第七章分布式系统中容错技术》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第七章分布式系统中容错技术分布计算系统第七章分布式系统中容错技术分布计算系统区别于单机系统的一个特点是在分布式系统中存在着部分失效的情况。当分布式系统某个部件出现问题的时候就发生了部分失效。虽然部分失效对分布式系统的性能有一定的影响,但同时,它应该不会影响分布式系统中整个应用程序的正确执行。相反,在单机系统中,如果系统中的一个关键部件出现问题,整个应用程序就无法继续执行。分布计算系统的一个重要设计目标是当系统中出现部分失效的时候,系统应该能自动从失效中恢复过来,并且不会对整个系统的性能产生严重的影响。在这一章里,

2、我们要讨论分布计算系统中的容错技术。7.1分布式系统中的故障模型容错是计算机科学中一个重要的研究领域。这一节里我们首先介绍与故障处理有关的一些基本概念和分布计算系统中的故障模型。关于分布计算系统中容错的一些非常有用而详细的介绍可以参见文献[JALOTE,1994]。7.1.1基本概念分布计算系统应该是一个可信赖的系统(dependablesystem),容错是与可信赖系统紧密相联系的一个概念。分布计算系统的可信赖性(dependability)包括如下几个方面[KOPETZ,1993]:(1)可用性(availa

3、bility)。可用性反映的是系统随时可被用户使用的特性。也就是说,在任何给定的时刻用户都可以使用此系统正确地执行用户给定的任务。(2)可靠性(reliability)。可靠性指的是在错误存在的情况下,系统持续服务的能力。尽管可靠性和可用性容易混淆,但它们并不是同一个概念。可靠性反映的是一段时间的特性,而可用性反映的是某个时刻的特性。高可靠性系统能够持续运行一个相当长的时间而不会中断。如果一个系统,每个小时都有并且仅有1毫秒时间失效,那么它的可用性可达99.9999%,但是它仍然是一个高度不可靠的系统。同样地,如

4、果一个系统从来不崩溃,但是在8月份中,有两个星期的假期需要关机,这个系统是高可靠性的系统,但是它的可用性只有96%。(3)安全性(safety)。安全性指的是在系统出现暂时错误的情况下,不出现灾难性后果的能力。例如核电厂的控制系统和宇宙飞船的控制系统要求具有很高的安全性。(4)可维护性(maintainability)。可维护性指的是系统一旦出现故障,系统易于修复的能力。高可维护性的系统意味着具有高的可用性。对于高可维护性系统来说,要求它具有自动检测错误和自动修复的能力。(5)保密性(security)。保密性要

5、求系统资源不被非法用户访问。这方面的内容已经在第四章中作了介绍。系统失效指的是系统不能提供它所固有的服务功能。例如,分布式系统是为用户提供一系列服务的,但其中某一个服务或某些服务功能不能完全正确提供时,就说系统失效了。一般来说,从错误的时间特性来看,错误可分为暂时性的(transient)、间歇性的(intermittent)和永久性的(permanent)。暂时性的错误一旦发生之后就会消失,当相关的操作重复执行之后,错误就消失了。间歇性的错误是一会儿出现,一会儿又消失的错误,这种错误是十分令人烦恼的一种错误,因

6、为它十分难于诊断。永久性错误是一种持续性错误,这种错误一旦出现,将会长时间存在,直到出现错误的部件被修复为止。像集成芯片被烧坏、软件缺陷、磁盘磁头损坏等都是永久性错误。分布式系统中容错技术7.1.2基本的故障模型一个处于故障中的系统不能胜任它所应当提供的服务。在分布式系统中,系统不能胜任它所提供的服务意味着系统中的服务员,通信信道,或者二者都不能完全胜任它们所应当具有的服务功能。在分布式系统中,错误的检测往往很困难并且很复杂。例如一个失效的服务员可能不是由这个服务员本身的故障造成的。如果一个服务员只有依赖于其他的

7、服务员才能充分提供它所具有的服务功能,当一个服务员不能提供它所具有的某项服务或某几项服务时,错误可能是由该服务员本身造成的,也可能是由其他服务员间接引起的。分布式系统中的各部件的相互依赖性是很普遍的,例如一个硬盘错误可能会导致文件服务员不能提供正常的文件服务。如果这个文件服务员是一个分布式数据库系统的一个组成部分,那么这个数据库系统的正常工作就处于危险之中,可能会导致数据库系统中只有一部分数据是可以访问的。所以,了解分布式系统中常见的错误类型是十分必要的。按照不同的标准,有不同的划分故障类型的方法,Cristia

8、n、Hadzilacos和Toueg将分布式系统中故障划分为如表7.1.1所示的几种类型[CRISTIAN,1991;HADZILACOS,1993]。表7.1.1分布式系统中故障类型崩溃性故障(crashfailure)一般发生在服务员过早地停机。正常的情况下,一个服务员停机之前需要发送一些通告性信息,使得系统能够做一些相应的处理,例如重新启动例外一个服务员替换该服务员

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。