重复数据删除

重复数据删除

ID:40898875

大小:82.18 KB

页数:15页

时间:2019-08-10

重复数据删除_第1页
重复数据删除_第2页
重复数据删除_第3页
重复数据删除_第4页
重复数据删除_第5页
资源描述:

《重复数据删除》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、重复数据删除(De-duplication)1、Dedupe概述 De-duplication,即重复数据删除,它是一种目前主流且非常热门的存储技术,可对存储容量进行有效优化。它通过删除数据集中重复的数据,只保留其中一份,从而消除冗余数据。如下图所示。这种技术可以很大程度上减少对物理存储空间的需求,从而满足日益增长的数据存储需求。Dedupe技术可以带许多实际的利益,主要包括以下诸多方面: (1)满足ROI(投资回报率,ReturnOnInvestment)/TCO(总持有成本,TotalCost

2、ofOwnership)需求; (2)可以有效控制数据的急剧增长; (3)增加有效存储空间,提高存储效率; (4)节省存储总成本和管理成本; (5)节省数据传输的网络带宽; (6)节省空间、电力供应、冷却等运维成本。 Dedupe技术目前大量应用于数据备份与归档系统,因为对数据进行多次备份后,存在大量重复数据,非常适合这种技术。事实上,dedupe技术可以用于很多场合,包括在线数据、近线数据、离线数据存储系统,可以在文件系统、卷管理器、NAS、SAN中实施。Dedupe也可以用于数据容灾、数据传输

3、与同步,作为一种数据压缩技术可用于数据打包。Dedupe技术可以帮助众多应用降低数据存储量,节省网络带宽,提高存储效率、减小备份窗口,节省成本。 Dedupe的衡量维度主要有两个,即重复数据删除率(deduplocationratios)和性能。Dedupe性能取决于具体实现技术,而重复数据删除率则由数据自身的特征和应用模式所决定,影响因素如下表[2]所示。目前各存储厂商公布的重复数据删除率从20:1到500:1不等。高重复数据删除率低重复数据删除率数据由用户创建数据从自然世界获取数据低变化率数据

4、高变化率引用数据、非活动数据活动数据低数据变化率应用高数据变化率应用完全数据备份增量数据备份数据长期保存数据短期保存大范围数据应用小范围数据应用持续数据业务处理普通数据业务处理小数据分块大数据分块变长数据分块定长数据分块数据内容可感知数据内容不可知时间数据消重空间数据消重2、Dedupe实现要点 研发或应用Dedupe技术时应该考虑各种因素,因为这些因素会直接影响其性能和效果。 (1)What:对何种数据进行消重? 对时间数据还是空间数据进行消重,对全局数据还是局部数据进行消重?这是首先需要考虑的

5、因素,这直接决定着Dedupe实现技术和数据消重率。随时间变化的数据,如周期性的备份、归档数据,比空间数据具有更高的消重率,Dedupe技术在备份归档领域中被广泛应用。不难想象,全局范围内的数据重复率比局部范围数据要高,会获得更高的数据消重率。 (2)When:何时进行消重? 数据消重时机分为两种情形:在线消重和离线消重。采用在线消重模式,数据写入存储系统同时执行消重,因此实际传输或写入的数据量较少,适合通过LAN或WAN进行数据处理的存储系统,如网络备份归档和异地容灾系统。由于它需要实时进行文件

6、切分、数据指纹计算、Hash查找,对系统资料消耗大。离线消重模式,先将数据写入存储系统,然后利用适当的时间再进行消重处理。这种模式与前面一种刚好相反,它对系统资料消耗少,但写入了包含重复的数据,需要更多的额外存储空间来预先存储消重前数据。这种模式适合直连存储DAS和存储区域网络SAN存储架构,数据传输不占用网络带宽。另外,离线消重模式需要保证有足够的时间窗口来进行数据去重操作。总之,在何时进行消重,要根据实际存储应用场景来确定。 (3)Where:在何处进行消重? 数据消重可以在源端(Source

7、)或者目标端(Target)进行。源端消重在数据源进行,传输的是已经消重后的数据,能够节省网络带宽,但会占用大量源端系统资源。目标端消重发生在目标端,数据在传输到目标端再进行消重,它不会占用源端系统资源,但占用大量网络带宽。目标端消重的优势在于它对应用程序透明,并具有良好的互操作性,不需要使用专门的API,现有应用软件不用作任何修改即可直接应用。 (4)How:如何进行消重? 重复数据删除技术包含许多技术实现细节,包括文件如何进行切分?数据块指纹如何计算?如何进行数据块检索?采用相同数据检测还是采

8、用相似数据检测和差异编码技术?数据内容是否可以感知,是否需要对内容进行解析?这些都是Dedupe具体实现息息相关。本文主要研究相同数据检测技术,基于二进制文件进行消重处理,具有更广泛的适用性。3、Dedupe关键技术 存储系统的重复数据删除过程一般是这样的:首先将数据文件分割成一组数据块,为每个数据块计算指纹,然后以指纹为关键字进行Hash查找,匹配则表示该数据块为重复数据块,仅存储数据块索引号,否则则表示该数据块是一个新的唯一块,对数据块进行存储并创建相关元信息。这样,一个物理文

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。