大数据分布式存储的冗余研究

大数据分布式存储的冗余研究

ID:31356888

大小:106.00 KB

页数:6页

时间:2019-01-09

大数据分布式存储的冗余研究_第1页
大数据分布式存储的冗余研究_第2页
大数据分布式存储的冗余研究_第3页
大数据分布式存储的冗余研究_第4页
大数据分布式存储的冗余研究_第5页
资源描述:

《大数据分布式存储的冗余研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、大数据分布式存储的冗余研究  摘要:随着分布式存储的广泛应用,分布式的冗余机制也越来越受关注。该文使用马尔可夫链模拟系统的集群状态,对典型的HDFS分布式存储的冗余做了详细的研究和分析,并由数学模型计算出系统的失效率。在保证系统数据安全的情况下,得出一个合理的数据备份数目。并且从理论和试验中证明了该设计可以达到预期的效果。  关键词:数据库;大数据;分布式存储;HDFS  中图分类号:TP311文献标识码:A文章编号:1009-3044(2016)19-0001-02  近年来,在大数据的环境下,数据的存储出现了许多新的需

2、求,关于数据的可靠性已经越来越被受到重视,所以数据的冗余已经成为研究的热点。现在的系统都是大规模并且需要时长时间稳定运行的,而信息的数量和可靠性正是现在大多是企业所要面临的问题和挑战,这就需要对系统的数据冗余程度的可靠性进行详细的分析和研究。而冗余的策略中备份数据的数目和系统的可靠性密切相关,如果设置太少,就会发生在突发情况下数据的丢失和不易恢复,如果备份设置太多,就会造成存储成本的提高和资源的利用不合理。将分布式存储系统建立模型,然后分析HDFS的冗余机制,在保证系统的可靠性的前提下,得出一个合理的备份数目。  1分布式

3、存储系统冗余模型6  分布式存储的可靠性是通过数据的冗余和存储节点的协作来保证的。分布式存储系统中的冗余机制可以调高数据的可靠性和系统的高可用性。是把同一数据存储在多不同的节点实现数据的可用性,就算是个别节点的数据丢失,剩余其他的节点也可以重构原有数据,其原理如图1所示。  复制是最简单的数据冗余策略。是将一个文件复制成多个备份然后分别存储到系统其他不同节点,一旦发生数据丢失,只要其中一个节点有备份,就可以完整的得到数据。一般来说,如果文件的复制的备份数目越多,数据的可用性和可靠性就越高。但是往往随着备份的数目的增加,会造

4、成硬盘利用率的下降,由于增加了数据的备份,也间接的调高了读写效率[1]。备份数目对系统的可用性影响很大,如果创建的太少就会发生数据丢失并且会造成数据热点,如果设置的太多则会造成存储成本的提高和磁盘空间的浪费。HDFS复制的默认数据备份数是3份,即在数据写入的时候,系统就会默认的复制成三份,然后根据一个备份机制分别存在不同的节点[2]。关于备份数目的影响因素:可以手动调整备份数目;备份所在节点存储空间不够就会发生备份块的丢失;如果备份的默认数目是3,但是节点数目低于3,就会发生数据快的备份数目不够的情况,一般来说,HDFS的

5、三份备份需要得三个节点。  分布式存储复制冗余的数据的结构与数据修复过程如图所示,图1中文件复制成S个备份,图2则显示即使有S-1个节点的数据失效,也能重构原文件。  所有的数据按照固定大小(默认的是64M或者是128M)划分成block,称为基本块,然后各节点会自动的再进行备份,得到的数据称为备份块。6  图3就是HDFS分布式存储系统的一个基本框架,图中绿色的数据块表示基本块,白色的数据块表示备份块,客户端1在读取数据块1的时候,会优先请求节点1提供的1的基本块,只有在读取失败后才会委托节点1提取在节点2,3,4中的备

6、份块。客户端2写入文件2,首先会在节点3写入基本块3,由节点3将基本块复制将备份存储在其他节点上。分布式存储系统包含许多能复制数据的存储节点,如果这些节点都是足够可靠,则整个系统就是可靠的[3]。而使用的HDFS就是默认的有三个备份,但是系统某些节点总会发生意外,出现故障,会从集群中撤离。对于撤离的节点,系统不再能从这些节点获得任何数据,如果只是一台发生故障,还不会影响整个集群,但是同时有多台服务器发生故障[4],就可能发生数据丢失的后果。一般来说,如果我们要对系统升级,一般会滚动重启,要么也是逐个节点数据转移下线,然后升

7、级再上线[5]。  集群的节点一般有三种状态,即在线、离线和死亡,分别用状态1、状态2和状态3表示,用包含这三种状态的马尔可夫链来模拟整个集群。假设单个节点都是从状态1开始,一般都是状态1和状态2的互相转换,最坏的状态是状态3。状态变换图如图4所示:  节点的在线时间t,离线时间都满足指数分布[6]。  使用马尔可夫链模拟[7]整个系统。假设在某个时间点,总共有n个备份,有k个可用备份,而剩下的n-k个备份是需要修复的。如果此时的系统有k个可用备份块,定义此时的系统状态为k,若k个可用备份中任何一个失效则系统转为状态k-1

8、,如果n-k个待修复备份中任何一个被修复则系统转为状态k+1。6  以下的图5模型是一个连续马尔可夫链,此时的系统有n个备份,定义系统节点是小的概率是kλ,定义系统节点修复的概率是(n-k)。状态0为起始态,表明没有任何可用备份,系统失效。  假定分布式存储系统节点数目是i个,那么i个节点上的备份全部失

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。