重复数据删除技术详解手册(升级版)_第1页
重复数据删除技术详解手册(升级版)_第2页
重复数据删除技术详解手册(升级版)_第3页
重复数据删除技术详解手册(升级版)_第4页
重复数据删除技术详解手册(升级版)_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 重复数据删除技术 TT存储技术专题之重复数据删除技术 第 2 页 共 32 页 重复数据删除技术当前,不管是权威机构,还是众厂商,都非常看好重复删除技术。重复数据删除通过 有效地减少数据,消除备份成为降低数据存储成本的重要技术,成为大家关注的焦点。然 而,重复数据删除是否可以在你的存储设备下工作?你如何在海量的数据中应用重复数据 删除技术?本专题深入探讨重复数据删除技术,针对各种重复数据删除产中提出评估建 议。为什么需要重复数据删除?随着企业的数据量不断增长,大量的重复数据给存储带来严峻的挑战。重复数据删除 带来了多种好处。存储量减少,从而降低了存储成本。这意味着只需更少的磁盘和更低频 率的

2、磁盘采购。更少的数据同时也意味着备份更小。 重复数据删除迅猛发展 如何通过重复数据删除降低存储成本什么是重复数据删除?重复数据删除,也被称为智能数据压缩或单一实例存储。它是一种可以减小数据存储 需求的手段。本系列文章将介绍重复数据删除是如何工作的,重复数据删除技术的基本原 则和具体实现等相关问题,并列举一些该技术在实际应用中的例子。 TT存储技术专题之重复数据删除技术 第 3 页 共 32 页 重复数据删除是如何工作的? 确保重复数据删除的高可用性 重复数据删除技术如何缓解存储需求重复数据删除有哪些产品?重复数据删除还是一个新的市场,不同的厂商为客户提供了不同的产品,这也使得实 现重复数据删除

3、的方式变得多样化,而客户面临的则是困难的抉择。让我们来看一下不同 的重复数据删除产品及如何评估基于硬件的重复数据删除产品。 重复数据删除产品一览 如何评估基于硬件的重复数据删除产品 如何评估基于软件的重复数据删除产品重复数据删除技术比较重复数据删除和其他技术有很多相似点和不同点,在这一系列中我们将深入探讨 CAS 和重复数据删除,讨论它们的用途并总结这两种技术的优缺点;介绍压缩、重复数据删除 和加密的区别,比较和对照 in-band(带内 和 out-of-band(带外 两种重复数据删除方式,以 及它们各自存在的利弊。 CAS 和重复数据删除:归档双雄 压缩、重复数据删除和加密的区别 重复数

4、据删除 in-band VS out-of-band TT存储技术专题之重复数据删除技术 第 4 页 共 32 页重复数据删除迅猛发展存储经理们已经意识到了重复数据删除技术的诸多优点。Federal Reserve银行的存储架构师 Michael Thomas在最近的“存储决策大会”上说:“如今我是不会购买一个不具有重复数据删除的二级存储设备的。”其原因,是显而易见的。最新的虚拟磁带库 (VTL已经将重复数据删除技术作为一大 特点包括在内,据称通过删除重复冗余的备份数据,在存储空间上可以为用户提供 50:1的 压缩比。所节省下的每 GB 的成本是相当可观的。IDC. 的分析师 Robert A

5、matruda 认为,“随着重复删除的应用,现今 VTL 的经济性已 可以与磁带相比了,” GlassHouse Technologies公司数据保护服务部的副总裁 Curtis Preston 估计,一个中端磁带库每 GB 的成本估计在 4美元到 11美元之间,而无压缩或无 重复删除的磁盘每 GB 的价格大约在 3美元到 11美元,VTL 的供应商预测,对于保存期为一年的每周全面备份和保存期为十天的每日增量备 份,要保证数据在其生命期内的存储,每 TB 的数据将需要 53TB 的存储空间。随着存储 容量以这种速度增长,任何能够节省这笔资金的方式都会受到用户的欢迎。重复删除产品的推出,可以帮助

6、用户遏制这种增长速度。主要的厂商包括:Data Domain 、 Diligent Technologies、 ExaGrid 、 FalconStor Software、 Network Appliance(NetApp、 NEC 、 Quantum (昆腾、 Sepaton 和 Symantec (赛门铁克。 EMC Corp.公司 收购了 Avamar Technologies公司并计划在今年晚些时候将它的重复删除技术并入其备份 部门。 HDS 与 Diligent Technologies公司、 IBM 公司和 NetApp 一起合作开发重复删除产 品。Taneja Group.的创始

7、人及咨询分析师 Arun Taneja说:“重复数据删除的优点已经相当 明显了。”但是,他认为,重复数据删除采用的不同方式和所得到的压缩非常模糊。他警 告说,用户应该在自己的数据集下对产品进行彻底的测试。因为厂商更善于技巧性地实现 这些数字,而不应该理所当然地就认同接受。 TT存储技术专题之重复数据删除技术 第 5 页 共 32 页 摩托罗拉公司的 IT 基础架构师 Guna Shankar Selvaraj认为,他们对 Data Domain公司 的进行了评估,但是他发现他们还处在“非常早期的阶段”。Federal Reserve银行的 Thomas 说,在决定购买哪种产品之前,他将用六到八

8、个月的 时间来测试所有的重复数据删除产品。他说“我想知道 产品 有多少拷贝的索引需要保 存,以及如果它们被破坏后会发生什么 所有的一切都是非常重要的。”UIC Medical Center的企业存储架构师 Richard Dearmon关注则是在重复删除之后的数 据恢复问题。他说,“我想购买它,可我不清楚二级以及三级备份到底会发生什么。”普 遍而言,用户们很想对该技术进行评估,却仍然有很多的问题。一部分公司则已经采取了行动。 CitiStreet 使用 Sepaton 的 VTL 保存 50TB 的备份数 据,该产品的重复数据删除技术,使其备份集得到了 56:1的压缩比。公司对该产品进行了 两

9、个月的测试,最终决定在六月底之前将数据转移到该产品上。起初是有一些挑战,但在 Sepaton 公司的帮助下 CitiStreet 最终扫平了这些障碍。“他们的重复删除产品对于用户来 说就像一个黑匣子 -他们过来,打开一些开关,压缩了一些小文件。”不过, CitiStreet 公司的全球基础架构副总裁 Jeff Machols表示,现在的运行广告说的一样了。随着数据的 减少, CitiStreet 公司能够对数据进行更长期的保存,而不用担心磁带存储问题。“为了备 份和恢复,我们能够保持对有价值数据至少长达一年的在线存储。” Machols 说,“我们 不必担心要把数据转移到其他的存储介质上。”不

10、利的证据有一些证据可能会减慢重复删除的推广。用户关心重复删除、加密和压缩是如何以一 种协调的方式共同工作的。摩托罗拉公司的 Selvaraj 说,“有些时候这些特点会导致自相 矛盾 . 深入剖析你的数据,这一点是非常重要的,因为并不是所有的数据都能有效地进 行重复删除。”由于越来越多的存储采用在线进行,另一个关心的话题就是电力消耗的问题。有一个 用户告诉我们,最近由于电力消耗的问题,不得不关闭一些 Data Domain公司的设备。不 过,由于话题敏感,他要求隐去名字。 TT存储技术专题之重复数据删除技术 第 6 页 共 32 页该用户说,“产品的性能的确很棒···

11、;然后我们主管设备的家伙走进来说,要不你 把关掉什么,否则我只开始拔插头了 我们没电了。” Data Domain公司的该产品是最 后进入数据中心,最早从数据中心撤出的。“我们不得不重新使用磁带,以节省能量。” 在目前阶段,还不清楚面临的能源危机会对存储经理们产生多大的影响。但根据最近 一份 Gartner 报告,这个问题似乎涉及到到 IT 的所有部门。“到 2008年,目前 50%的数 据中心将不具备足够的电力和冷却能力来满足高密度设备的要求。” Gartner 说,到 2009年,全世界 70%的数据中心将面临能源成本将为第二大运行成本的问题。(作者:Jo Maitland 翻译:陈晶 来

12、源:TT 中国 TT存储技术专题之重复数据删除技术 第 7 页 共 32 页通过重复数据删除降低存储成本随着企业的数据量不断增长,大量的重复数据给存储带来严峻的挑战。举例来说:现在有一个大小为 10M 的 PPT 文件,要把它拷贝给 100个用户,这就需要 Exchange 服务 器有 1GB 的可用存储空间。当每周都要备份 1GB 的重复存储时,问题就会变得更加糟 糕。一年后,浪费的 1GB 空间最终会导致需要 52GB 的磁带备份或其他方式的备份存储。 近来新兴的重复数据删除正是为解决数据冗余问题应运而生的,它只将重复的文件、块或 位存储到实际的存储介质中。重复数据删除带来了多种好处。存储

13、量减少,从而降低了存储成本。这意味着只需更 少的磁盘和更低频率的磁盘采购。更少的数据同时也意味着备份更小。这些都将转化为较 少的备份窗口占用时间和更快的恢复时间目标 (RTO。更小的备份也延长了在虚拟磁带库 (VTL或虚拟档案库的保存时间。但是要使重复删除有效,数据必须被长期保存以便可以 产生一个可供重复删除使用的全面索引只保存一周的数据对于重复删除来说是毫无意 义的。重复删除的本质重复数据删除用以扫描数据中的重复内容,有时它也被称为智能压缩或单一实例存 储。在最简单的层次,重复删除寻找同一文件的多种备份,不过,它只对相同的的数据进 行处理,所以哪怕两个文件只有几比特数据的不同也会被其识别为两

14、个不同的文件。如今 的重复数据删除可以在更深的层次上寻找块或者位的重复实例,这使得它可以更好地节省 存储空间。事实上,当数据向备份、档案文件或者复制平台转移时,只有最初的数据实例 会被保存到磁盘上。随后的实例会用小标号来简单地注明并指向已经保存的重复部分。每一块的重复数据删除都通过“散列算法”进行处理,例如 MD5或者 SHA-1,有时 也会将二者同时使用。散列算法会为每一个数据块产生一个特定的散列值,并将它保存在 索引中。当处理另一个数据块时,其散列值将与已经编入索引中的其他散列值进行比较。 如果该值已经存在于索引中,新的数据块将会进行重复删除处理,不被保存。但会插入一 个指向已存在数据的“

15、标号”。专家指出重复数据删除的压缩比能够达到 10:1到 50:1。 TT存储技术专题之重复数据删除技术 第 8 页 共 32 页重复数据删除的部署 重复数据删除可以部署在硬件设备或软件产品中,而且每一种实施方式可能会有不同 的实现形式,因为厂商都想在这个新兴的技术市场中与众不同。重复删除可以通过 in-band (带内实施,在数据写入存储时完成重复数据的删除。 重复删除也可以通过 out-of-band (带外、作为独立或二级过程来实施。 In-band 处理效 率较高,但处理速度可能会稍慢一些,因为额外的处理需要更多的存储时间,从而导致备 份窗口占用更久的时间。 Out-of-band 处

16、理不会影响系统的性能 ,但它需要略多一些的磁 盘空间,并且在重复删除过程中可能引发磁盘冲突。专家建议,测试不同的重复删除方 式,看这些方式是如何在你的现实环境中工作的。基于硬件的实施需要更多的成本,但它们的性能确实会更好一些,而且也更易于部 署。硬件设备包括 Data Domain公司适用于分支机构的 DD410以及 DDX 系列的门阵列, 昆腾(Quantum 公司提供的 DXi3500和 DXi550。在选择哪种产品时,你必须确保这台 设备与现有的备份软件是兼容的,并且确保它能够支持现有的存储容量 (例如:需要能处 理 20PB 的容量 。重复删除也可以直接嵌入到存储产品中,例如:Dili

17、gent Technologies公 司的 ProtecTier VTL, ExaGrid Systems公司的网络附加存储 (NAS备份设备,美国 NEC 公 司的 HydraStor grid备分产品, Network Appliance(NetApp 公司的 NearSore R200和 FAS 的存储系统,以及 Sepaton 公司的 S2100-ES2 VTL。基于软件的重复删除通常工作于备份服务器 (源 而不是在备份目标 (存储系统 。它可 以减轻备份服务器和存储系统间的网络拥堵,并且通过广域网(WAN 进行备份工作, 尤其得心应手。重复删除软件包括 EMC 公司的 Abamar

18、产品和赛门铁克的 NetBackup 。基 于软件的重复删除与硬件相比成本会低很多,但是对每个系统的代理使用都必须被备份 对于 IT 公司来说这会增加管理和维护的负担。在考虑部署时,可扩展性是一个主要的关注问题。随着重复数据删除系统的不断扩 展,存储性能将如何相应地改变,对这一点的理解是非常重要的。例如,极其巨大的散列 索引表库可能会给系统性能造成负面的影响。当然,重复删除厂商都意识到了这个问题, 并开始着手解决性能扩展的问题。 (作者:Stephen J. Bigelow翻译:陈晶 来源:TT 中国 TT存储技术专题之重复数据删除技术 第 9 页 共 32 页重复数据删除是如何工作的?重复数

19、据删除,也被称为智能数据压缩或单一实例存储。它是一种可以减小数据存储 需求的手段。重复数据删除的处理过程是通过删除冗余数据,确保实际上只有第一个单一 实例数据被存储。而被删除的重复数据将由一个指向元数据的的指针所代替。重复数据删除可以对文件,块或者位进行操作。在基于文件的重复删除中,如果两个 文件完全相同,那么其中一个将作为备份文件被保存,而随后重复的文件将获取指向保存 文件的指针。但是基于文件的重复删除并不十分有效,因为哪怕文件只是更改了一个字 节,也会被作为另外一个不同的文件全部保存下来。基于块和位的重复删除,软件通过对文件进行比较,只保存每一块的单一重复部分。 如果文件更新,那么只有被更

20、改的数据才会被保存。这就是为什么基于块和位的重复删除 要比文件级的重复删除要有效率的多。块和位重复删除所能达到的压缩比是从 10:1到 50:1。重复数据删除的处理方式每一个数据块通过散列算法 (例如 MD5或者 SHA-1 为每一个数据产生一个特定的散 列值。将这个散列值与现有的散列值索引相比较,如果它已经存在于索引中,那么这个数 据就是重复的,不需要进行存储。否则,这个新的散列值将被添加到索引中,这个新的数 据也因此被存储。要使重复删除平台处理更精确,就需要更大的索引。例如,基于文件的重复删除只需 要一个百万大小或千万大小的单一散列值索引。相比之下基于块的重复删除会涉及到更多 的单一数据块

21、,这个数字通常会达到十亿级。这样精确的重复删除需要更强的处理能力以 便可以为其提供更大的索引。除非硬件的设计与对索引的要求相适应,否则随索引的不断 扩展,平台的性能将随之下降。一般而言,散列算法很少会将两个不同的数据块产生出相同的值。当这样的“散列碰 撞”发生时,系统就不会存储新的数据,因为系统看到同一个散列值已经存在。这被称为 TT存储技术专题之重复数据删除技术 第 10 页 共 32 页 “ false positive”(误报,会导致数据丢失。一些厂商结合不同的散列算法,以降低散 列碰撞的可能性。另一些厂商还会检查元数据来确认数据,从而避免散列碰撞。其他方式的数据删除 重复数据删除一般和

22、其他的数据删除技术一起使用,例如压缩和差分 delta 。数据压缩 技术已经问世约三十年之久,它将数学算法应用到数据中,以简化大容量或重复的文件部 分。差分 delta 通过只存储相对于原始备份文件被修改的部分,来减小存储总量。例如:一个大约包含 200G 数据的文件组,与原始备份相比可能只有 50M 的数据是被修改过的, 那么也只有这 50M 的数据会被存储起来。差分 Delta 一般用于基于广域网的备份系统,它 可以最大程度地利用带宽,从而减少备份窗口的工作时间。更快的备份速度和更短的恢复时间采用压缩比高达 30:1的重复数据删除技术, 300G 的数据只需要 10G 的磁盘空间。 显而易

23、见,这为我们节省了巨大的存储空间,因为我们不仅可以节省大量的磁盘空间,还 可以延长磁盘的保存期。重复数据删除还可以带来一些间接的便利。较少的数据存储使备份的速度更快,从而 减少了备份窗口的占用时间,同时也使恢复目标指针(RPOs 变得更小(更近,恢复 时间目标(RTOs 变得更快。磁盘存档平台可以相地的存储更多的文件。如果磁带作为 最终的备份对象,那么更小的备份只需要更少的磁带,从而降低介质的花费,减小磁带库 所占用的空间。对于一个虚拟磁带库(VTL 来说,降低磁盘存储空间的需求意味着在 VTL 上的备 份保存时间需更长。例如,一个普通的 VTL 大约可以保存备份 30天,然后将最旧的备份 转

24、移到磁带上保存,为之后的备份腾出磁盘空间。由于重复数据删除可以有效并显著地增 加磁盘空间, VTL 有可能将备份保存两年时间,从而大大地降低了对磁带系统的依靠。重复数据删除也可以加快远程备份、复制和灾难恢复处理过程。数据传输可以更快地 得以完成,使网络可以去处理其他的工作,传送更多的额外数据或者通过使用低速网络、 低价的广域网来降低成本。 (作者:Stephen J. Bigelow翻译:陈晶 来源:TT 中国 确保重复数据删除系统的高可用性在部署重复数据删除系统时,考虑其可伸缩性和可靠性很重要。随着存储容量和重复 数据删除粒度性的增加,系统性能需要保持在可接受性的水准之上。如果由于重复删除算

25、 法错误而产生数据损失,重复数据删除应能够不受影响。可伸缩性与散列冲突重复数据删除产品检测重复的数据元素,判断一个文件、块或比特是否和另一个文 件、块或比特相同。重复数据删除产品将每个数据元素用数学的 " 散列 " 算法来进行处理, 并得到一个名叫散列码的唯一的认证数。每个数字都被编译到一个清单,这个清单经常被 称为散列索引。当新的数据元素被处理时,它们所产生的散列码将和已经在索引表中的散列码相比 较。如果新的数据元素所得到的散列码和另一个已经在索引表中的散列码相同,那么这个 新数据将被认为是一个重复数据,将不被保存到磁盘 -只有一个很小的参照 " 存根 &quo

26、t; 能够相 联到已经被存储的同一数据。如果索引表中没有这个新的散列码,那么该数据元素将被认 为是新数据而被正常保存到磁盘中。即使这个数据不是和已保存的那个数据完全相同,这个数据元素还是可能会产生同样 的散列码。这就是误确认,或者称为散列冲突,这将导致数据丢失。有几种方法可以缓解 误确认。重复数据删除厂商可以选择在每个数据元素上使用多于一个的散列算法。例如, FalconStor 软件公司的虚拟磁带库(VTL 上的单实例存储(SIR 技术就用 SHA-1和 MD5算法来进行带外索引。这在很大程度上减少了误确认的机率。另一个选择就是使用 一个散列算法,但是在数据元素的比较上精确到比特单位。这两种

27、方法的共同问题是它们需要主机系统更多的处理能力,降低了索引效率,减缓 了重复数据删除进程。随着重复数据删除进程越来越粒化,所检验的数据块也越来越小, 索引变得更加庞大,而散列冲突的机率也随之增加,更加拖累了性能。 可伸缩性和加密另一个问题就是在一个公司的存储架构中,重复数据删除和传统的压缩及加密之间的 关系。普通的压缩是将冗余数据移出文件,而加密则是 " 打乱 " 数据,使得数据完全随机而 不可读。在数据存储中,压缩和加密都扮演着重要的角色,但是删除冗余数据可能影响重 复数据删除进程。如果加密或传统的压缩和重复数据删除一起被请求进行,那么编制索引 和重复数据删除应当先进行。

28、 (作者:Stephen J. Bigelow翻译:陈晶 来源:TT 中国 重复数据删除技术如何缓解存储需求数据如潮水般涌向企业。存储管理员不断努力地处理日益激增的数据,比如,文本、 声频、视频、图像,还有不断增加的大容量邮件附件。存储这些数据并不是最佳的解决方 案存储需要投入成本,大量的文件最终将会加重企业数据备份以及灾难恢复系统 (DR的负担。企业与其寻求更多的存储数据的不同方式,还不如转向数据删除技术,以存储更 少的数据。近来新兴的重复数据删除(Data De-duplication就是数据删减方案的重要一 环。本文将介绍重复数据删除技术的基本原则和具体实现等相关问题,并列举一些该技术

29、在实际应用中的例子。了解重复数据删除基本而言,重复数据删除就是减小存储空间的一种方式。它通过删除冗余数据,确保 只将单一的数据实例保存在存储介质中,比如,磁盘或磁带。删除的冗余数据将被一个指 针替而代之,指向保存的单一数据。有时候重复数据删除也被称为智能数据压缩或者单一 实例存储,通常是和其他的数据删减技术一起使用的。传统的压缩方式已经使用了将近三 十年,它将数学算法应用到数据,以简化大容量或重复的文件有效地将文件压缩变 小。与此相似的是,差分 delta 减小存储总量是通过比较重复的新旧文件,只存储修改过 的数据。将二者合二为一,就能非常有效地优化存储空间的使用。如果实施恰当,重复数据删除可

30、以降低对存储空间的大量需求,从而减少在磁盘上的 花费。更有效地利用磁盘空间,就能够延长磁盘保存期限,这样,提供了更好的恢复时间 目标 (RTO,更长的备份时间,并降低了磁带备份的需求。同时,重复数据删除还可以缩 减必须通过无线网络传送来实现远程备份、复制和灾难恢复的数据。重复数据删除主要是基于文件、块甚至是位进行操作的。相对而言,文件的重复删除 较易于理解如果两个文件完全相同,其中的一个文件备份将被保存,而随后与之重复 的文件将获取指向保存文件的指针。不过,文件重复删除并不最有效,因为哪怕文件只更 改了一个字节,也会被作为另外一个不同的文件全部保存下来。基于块和位的重复删除通 过对文件进行比较

31、,只保存每一块的单一重复部份。如果文件更新,那么只有更改的数据 才会被保存。这样,基于块和位的重复删除可以发挥更为有效的作用。 GlassHouse Technologies 公司主管数据保护的副总裁 W. Curtis Preston说,“在典型的存储环境中,它 (块重复删除 所节省的存储空间带来了巨大的差异”。其他的分析家指出重复删除技术的 压缩比能够达到 10:1到 50:1。不过,基于块和位的重复删除增加消耗,并且需要建立一个 更大的索引库去追踪独立的块。重复数据删除平台必须解决“散列冲突” (hash collisions的问题。每一个数据块通过 散列算法 (例如 MD5或者 SHA

32、-1 ,为每一个数据产生一个特定的散列值。然后,将这个 散列值与现有的散列值索引进行比较。如果它已经存在于索引中,那么这个数据就是重 复的,不需要进行存储。否则,这个新的散列值将被添加到索引中,这个新的数据也因此 被存储。一般而言,散列算法很少会将两个不同的数据块产生出相同的值。当这样的“散 列冲突”发生时,系统就不会存储新的数据,因为系统看到同一个散列值已经存在。这被 称为“ false positive”(错误的确定,会导致数据丢失。一些厂商结合不同的散列算 法,以降低散列冲突的可能性。另一些厂商还会检查元数据来确认数据,避免散列冲突。实施重复数据删除一般情况下,重复数据删除过程是在实际存

33、储系统的硬件中实施的,不过也可以在备 份软件中应用。基于硬件的实施往往更容易部署,主要是针对设备或存储系统的磁盘层面 缩减存储空间。基于软件的实施也可以缩减数据,但这种缩减是在备份服务器上完成的。 这使备份服务器和备份系统之间的带宽最小化,如果是远程的备份系统,效果其佳。 Enterprise Strategy Group的分析师 Lauren Whitehouse说:“当重复数据删除工作在数据源 时 -使得更少的数据在广域网、局域网和 SAN 之间传输,这可以使用户得到端对端的 便利”。然而,在一个新的备份应用中部署重复数据删除会使系统受到更多的干扰,因为 除了要安装新的备份引擎外,还要在必

34、须备份的系统中安装一个轻型的代理。如何部署重复数据删除还没有一个普遍的方法,由于环境和选择的产品不同,你得到 的结果也不同。必须注意的是,只有在涉及到长期保留,通常用于备份和归档工作时,重 复数据删除技术才有作用。短期的保留是毫无意义的,因为几乎没有重复的信息可以被删 除。 Preston 警告说重复数据删除厂商不应误导用户,他建议应该着重于产品的性能、容量 和成本等关键性问题上。根据你特定的环境,可以找出潜在的性能和压缩问题。他说:“比如说如果你正在备份地震资料或者医学影像资料 -这些数据可能很少存有重复。”通 过不同的备份和恢复方式,对重复数据删除平台进行相应的测试,就可以知道在现实环境

35、中重复数据删除是否有效。可扩展性是另一个令人关注的问题,特别随着重复数据删除不断增长性能方面的扩 展。随着之前的散列索引库逐渐变大,查询每一个块需要更多的时间时,性能的扩展可能 成为一个问题,不过 Preston 称之为 FUD(弄糟数据 市场手段。他说,“我所注意到的所 有厂商,目前或多或少都正在解决或将解决这个扩展性问题。”不过,他仍然建议客户自 己必须就这一问题与重复数据删除技术的销售商商讨,看看是否能解决关注的扩展性问 题。从管理的角度来看,重复数据删除应该不会造成明显的额外支出。“管理应该和一个 标准的 VTL虚拟磁盘库 旗鼓相当”。但如果需要安装多个重复数据删除设备,可能管理 方面

36、的支出会相应增加。重复数据删除的影响阿巴拉契亚和沿海地区的南卡罗来纳州的美丽景点吸引了旅游业和本地商业的发展。 广告、通信和宣传册已经新兴为主管公园、娱乐和旅游部门的重要资产。该部门由一家代 理公司负责促进旅游业的发展并维护一个贯通全州的、全面的公园系统。该公司原来使用 EMC 的 SAN (存储区域网络,总容量为 4TB ,其中的 1.2TB 的容量用于数据库和文件 的实际工作数据集, 2TB 在采用 DLT 技术之前用于磁盘的备份。像许多 IT 公司或其他机 构一样,该公司寻求多种方法想减轻其日益增加的存储介质和其他数据的要求。在比较若干重复数据删除厂商后,该公司最终选择了 Data Do

37、main公司的 430产品担 任磁盘备份的任务。 430产品将原来 SAN 网络中放置一旁的 2TB 取而代之为 2TB 的板载 存储。这种基于位的重复数据删除节省出了巨大的存储空间。该公司的系统管理员兼安全 员 Bernie Robichau说:“经过压缩和重复删除之后,我们大约只使用了 900MB 的磁盘空 间。”节省的空间大大节约了成本,而且也延长了备份在磁盘上的保留时间。“以前,如 果有人需要一个两周前的文件,我们很难从基于磁盘的备份中提供该文件,因为,我们无 法在分配容量为 2TB 的硬驱动器 (SAN上保存两组备份。” Robichau 说,“但现在,如果 有人需要三周前或六周前的

38、某个文件,即刻可取”。Robichau 说,相对而言,重复数据删除平台的安装快捷和简易,仅需要四小时左右的 时间就可以完成现场安装和基本的调试工作。公司目前使用的 CommVault System公司的 备份基础架构证明完全兼容 -备份代理仅仅指向新的设备,而不是指向 EMC SAN网络。 他说,“备份工作和以前没有两样,但和以前相比,我们占用的磁盘空间更少,备份保留 时间更长。” Robichau指出,虽说重复删除设备几乎可以不需要管理时间,但至少可以 减少高达 75%的磁带管理工作量,比如磁带的更换、清洗和存储。现在仅剩的磁带维护工 作就是:在周末进行全面备份并系统地将磁带保存到指定的地点

39、。目前还没有升级 430产品存储设备的迫切计划,主要精力更多地集中在灾难恢复上。 先前考虑的灾难恢复计划由于其复杂性被暂时搁置。但是, 430产品很容易实现复制,所 以, Robichau 希望在下个财年或以后,将 430产品复制到另一个完全一样的设备,彻底淘 汰备份磁带。“除了相同设备现场同步处理,并安放在远程地点之外,我们暂时还没有其 他计划。”总部设在丹佛的主机提供商的 Data393 有限责任公司正被庞大的客户数据所淹没。它 面临的挑战是:在保障数据保护业务的正常运行同时,必须保障其他服务的正常工作,例 如主服务器的维护,防火墙的维护以及载荷的平衡。但是,它的备份环境面临的挑战更为 严

40、峻:平均每个月要生成 20,000个备份,每个客户的保护数据从 20G 到 100G 不等。即使 拥有 4.5TB 的保护存储空间, Data393公司也只能维持大约两周的保存期。事情更棘手的 是,公司的 StorageTek L700和 L11000磁带库交由外包商管理,这需要在 Data393公司额 外配备一名全职工程师。但是,真正迫使 Data393公司采取行动的是不断持续的恢复问题。高级系统工程师 Steve Merkel说,“我们的备份成功率最低达到 70%左右 但是,经常出现的问题是, 我们无法在客户想要的当天提供备份。”磁带备份过程的不良性能也困扰着组织,备份窗 口占用时间往往超

41、过 18个小时。这些问题最终只能转化到增加客户的支持成本上来。显 而易见,对于 Merkel 来说,磁盘存储是达到可靠性和提升性能的关键,而重复数据删除 是节省存储空间以便能充分满足客户备份需要的重要手段。 Data393公司选择了 Avamar Technologies公司提供的 Axion 软件,运行在由 11台 Dell 2850s组成的工作组上,一共可以提供大约 10TB 的存储空间。实际的部署要求系统 升级,但 Merkel 说,在完成近 400台服务器上的代理安装和所需的数据迁移之后的短短 数日内,该系统就上线并投入运行。这个向重复数据删除的转变带来了许多显著的效益。 最为重要的是

42、满足了节省磁盘空间的要求。例如,在没有重复删除的情况下,无论是完全 还是增量备份,需要消耗 350GB 的空间保护客户 100G 的信息。在重复数据删除的帮助 下,实际所需的存储容量要小于保护客户数据的容量。“我们使用 7TB 左右的空间就可以 保护客户大约 8TB 左右的数据,” Merkel 说,“而且 在每日完整备份的前提下 可以包括 从两周到一年之内的任意时间段的保存期。”备份时间也缩短了,在有的情况下,以前需 要占用 18个小时的备份窗口可以减少到一个半小时之内,同时还可以将备份和恢复的成 功率提高至 98%或更高。以前两名全职工程师的需要量降低 75%,只需要一名全职工程师 的一半

43、。如今,通过重复数据删除, 4.5TB 的保护数据已经扩展到 7.6TB 左右。其中保护数据 中的约 2TB 复制到位于圣路易斯的容灾点一个较小的 Avamar 系统。 Data393公司继续使 用磁带作为长期的存档备份。 Merkel 预计,保护数据的量在可见的将来会翻番,但随之增 长的存储需求却会减少。重复数据删除技术的未来在短期内,业界的专家认为重复数据删除技术在灾难恢复中将扮演重要角色。通过复 制重复删除平台的数据到另一个远程站点来节省磁盘的存储空间。这减轻了来来回回移动 磁带的需要,尤其是在复制兆兆级的数据时,这一点就显得更有意义了。其他的分析师指出,在像 VTL 的“点产品”解决的

44、是备份窗口所面临的问题,而重 复数据删除则是解决存储容量的问题。“下一代的备份方案将对二者进行改进,” Lauren Whitehouse 说,“既能够删除来源于备份目标的数据,又能够提高通过 LAN/WAN到中央 磁盘仓库的数据传输效率。”现在,重复数据删除技术已经广泛应用于 VTL ,并将作为一 主要特征出现在传统的备份产品中。 (作者:Stephen J. Bigelow翻译:陈晶 来源:TT 中国 重复数据删除产品一览简言之,重复数据删除就是在一个存储系统中删除重复比特信息的过程。但作为一个 市场,它才刚刚起步,不同的厂商为想购买重复数据删除的客户提供了不同的产品,这也 使得实现重复数

45、据删除的方式变得多样化,而客户面临的则是困难的抉择。提供重复数据删除的厂商基本上可以分为两个阵营:In-line 和 Post-process 。 In-line 是指数据保存到二级存储系统前进行重复数据删除;而 Post-process 是指在数据备份处理 之后才进行重复数据删除。In-line 重复删除的优势是备份过程只需进行一次。 In-line 阵营的厂商认为,设备足够 强大时, Post-process 的重复删除会增加备份窗口的占用时间。但是 Post-process 重复删除 的优势在于,无需担心由于重复删除处理使 CPU 负担加重而导致备份服务器和二级存储 目标之间出现瓶颈。对

46、于这两个方案,专家警告说,客户不应该太关心磁盘的购买问题,尤其是在开始阶 段。 GlassHouse Technologies公司 . 数据保护服务部副总裁 W. Curtis Preston说:“通常有 这样一个误解:比如,用户听到他们只需要 1TB 就可以存储 10TB 的备份 然后他们就 会去购买 1TB 的磁盘,只意识到按照定义的理解,他们需要 10TB 作为初次备份之用。” 但实际上,只有在初次备份完成之后,才有可能去进行基于位的比较。厂商撇开 In-line 与 Post-process 的争论不谈,我们将进一步讨论它们之间的差异不同 的厂商及其不同的重复删除方式。Data Dom

47、ain Inc.是最早推出重复数据删除产品的公司,已有 750多个客户安装其产 品。它的产品既可以通过虚拟磁带库 (VTL,也可以通过 NAS 接口来实现,包括从适用于 分支机构的 DD410模型到容量高达千兆兆(PT 的 DDX 系列阵列。 Data Domain公司采 用 In-line 方式,采用 SHA-1算法,其专有的运算算法用于二级检查。它将比较索引储存 到高速非易失性 RAM 中。使用 Data Domain公司的产品,单个数据流可以达到每秒 110MB 。该公司宣称,它们正在努力开发一个集合所有性能的群集结构,预计可在明年推 出。Diligent Technologies公司通

48、过其产品 ProtecTier VTL来提供重复数据删除服务。该产 品也由 Hitachi Data Systems (HDS公司负责经销。 Diligent 通过在光前通道磁盘中保存比 较索引,进行 In-line 重复删除的处理。据称这样可以加快处理过程,不过,成本也可能增 加。和 Data Domain公司相比, Diligent 公司在重复删除的过程中使用其专有的散列算 法。公司称其产品性能指标要优于 Data Domain,传输率高达每秒 400MB 。 Diligent 和 Data Domain有着不同的市场定位 Diligent 主要针对高端客户,而 Data Domain则针

49、对 的是中端客户。 Diligent 称他们拥有 150个客户。Avamar , 成立于 1999年,去年被 EMC Corp.公司斥资 1.65亿美元并购。它是第一家被 大厂商收购的从事重复数据删除的公司。 Avamar 也使用 SHA-1算法, In-line 重复数据删 除。但与众不同的是,它在源机器 (备份服务器 上,而不是在备份目标上工作。它使用中 心控制节点来跟踪整个环境中的数据,并进行比较,但是重复删除却是先在每个服务器上 完成小块数据的处理,然后再通过网络传输给备份目标,。正因为如此, Avamar 公司的 重复删除除了可以减小在二级存储目标上的数据外,还可以减少网络堵塞。 A

50、vamar 公司 的重复删除产品需要更换整个备份系统。 EMC 称,已经计划在明年将其整合到 Legato 产 品家族和 VTL 中。ExaGrid Systems公司的 Post-process 型重复数据删除是作为其 NAS 备份产品的一部分 推出的。不像其他重复数据删除的产品, ExaGrid 的比较是基于字节,而不是位。据称, 这样可以简化散列表,具有更好的扩展性,减少基于位的碎片错误空间。 ExaGrid 的产品 也具有“内容识别”,这意味着其产品可以理解主要备份软件产品中常见的数据类型,从 而可以相应地找到重复的数据。FalconStor Software(飞康软件 公司旗下的 V

51、TL 和 IPStor 产品线所具有的单一实例 存储库(SIR 特点在市场上尚未成熟。它的 Post-process 产品使用 IPStor 虚拟化引擎和 SHA-1算法 (使用 MD5算法进行二次检查 ,为已备份到 VTL 、长期的归档数据创建一个 独立的重复删除存储库。 IBM 和 Sun Microsystems都是 VTL 产品的 OEM 厂商,但 IBM 不提供 SIR ,而 SUN 预计到今年年底才提供。 Quantum(昆腾 公司去年收购了 Advanced Digital Information Corp. (ADIC公司,融合 其技术,于十二月份推出 DXi3500和 DXi

52、550产品。这种基于 VTL 的 In-line 重复删除产 品使用的是属于 ADIC 子公司 RockSoft 的专利算法。在收购 ADIC 后,近来 Quantum 公司 将该重复删除技术作为一大特点纳入 StorNext 文件系统产品,并称这是一个功能一体化的 数据迁移和管理引擎。NEC Corp. of America是日本 NEC 的子公司,今年三月推出的 HydraStor 网格备份设 备,其重复数据删除技术是一大卖点。 Hydrastor 专有的重复删除技术, 亦称为 DataRedux ,消除了子文件级和传入数据流中的重复数据删除需求。在 HydraStor 的网格 结构中,控

53、制器随着容量的增加而增加,每个节点都与其他的任意节点相感知,这样减少 了 In-line 产品有时可能出现的性能和管理方面的问题。 NEC 称,可以减少存储量高达至 75%,而且性能不受影响Network Appliance(NetApp公司五月十五号宣布,经过第一季度在客户环境下进行的 Beta 测试,其 NearStore R200和 FAS 存储系统可以提供基于块的的重复数据删除技术。该 重复数据删除技术是 NetApp 公司基于由 SnapLock 产品发展为 A-SIS(先进单实例存储 产品开发出来的。 NetApp 使用其 Write Anywhere File Layout(WA

54、FL中的一项功能,将 A-SIS 加入到滤波器中。 WAFL 为存储的每个数据块计算出一个 16位的校验值。为了进行重 复数据删除,散列值将被存入数据库,这样相似的“重复候选”就能够被区分。这些数据 块将被一位一位地对比,如果它们是相同的,那么就删除新的数据块。 NearStore 的用户可 以得到免费授权并且在主存储上进行基于块的重复数据删除。这在重复数据删除技术中, 显得较独特。但是, Netapp 公司在关注起产品性能的同时,还需要在其 VTL 增加该功 能。Sepaton 公司的重复数据删除通过被称为 DeltaStor 的软件,在其产品 S2100-ES2 VTL上来实现的。该 Po

55、st-process 重复删除技术使用其专有的“内容识别”算法。 Sepaton 公司 称目前在重复数据删除领域具有一定的声望。其事实是,它采用了一种称之为“ forward referencing ”(前向参考的过程,不同于其他产品采用的“ reverse referencing”(反向参 考。反向参考是指,如果再次出现与原始数据相同的数据时,就将其用一个指向原始数 据的指针来代替;前向参考只写入最新版本的数据,使得原有的指针可指向最新版本。 Sepaton 称通过原封不动地保留最新的备份,这种方法可以更快地恢复数据,因为在一般 规则下,最近的备份是最有可能得到恢复的。Symantec (赛

56、门铁克 公司有一个产品可与 Aamar 媲美。这就是目前已经纳入到 NetBackup 软件中,叫做 PureDisk 的软件。与 Avamar 一样,该产品使用一个其专有的算 法在源机器上进行 In-line 重复数据删除。最新的 NetBackup 6.2版本支持 PureDisk 进行目 标磁带备份,并将 PureDisk 集成到 Backup Reporter的备份监控工具中。 6.2版还支持多个 PureDisk 服务器的故障转移。之前报道说,该公司在 6月份的公告中宣布 NetBackup 的 6.5版将进一步加强 NetBackup 和 PureDisk 之间的整合。(作者:Be

57、th Pariseau 翻译:陈晶 来源:TT 中国 如何评估基于硬件的重复数据删除产品基于硬件的重复数据删除产品能够减轻与基于软件的重复数据删除产品相关的处理负 担。重复数据删除的特性也可以嵌入到其他的数据保护硬件中,例如备份平台,虚拟磁带 库 (VTL系统,甚至是诸如网络附加存储 (NAS的一般目的的存储系统。这种方法一般并 不侧重于缩短备份窗口或恢复目标的时间,但用户通常可以达到更高的压缩水平,使可用 存储空间尽量最大化。in-band(带内 重复删除和 out-of-band(带外 重复删除的对比重复数据删除既可以通过 in-band 方式处理也可以通过 out-band 处理。 in

58、-band 的重复 数据删除是在数据被写入存储时进行的。 in-band 重复删除一般很有效率,因为它只运行一 次,虽然运行这个过程所需的额外能耗可能会延长备份窗口。out-of-band 重复数据删除是在数据被存储以后才开始进行的。这种方式不会影响备份 窗口,并且可以减少对 CPU 运行导致备份服务器和存储之间出现瓶颈的担心。但是, out-of-band 重复数据删除在重复数据删除处理过程中需要稍多一些的磁盘空间。而且, out-of-band 重复删除也许需要比实际备份窗口更长的时间。磁盘的争用则是另一个问题,当用户 在重复删除处理时访问存储,就会降低磁盘的性能。硬件重复删除的优缺点基于软件的重复删除侧重于在源上完成对冗余数据的删除,而基于硬件的重复删除则 强调存储系统自己完成的数据的删减。基于硬件的重复删除不会带来带宽的节省,这种节 省可能通过在源上进行重复删除来获得,但是它的压缩比更好,而且基于硬件的重复数据 删除产品只需要较少的维护。硬件重复数据删除设备的优点是高性能、可扩展性和相对无中断部署。备份软件通常 将专用的设备看作一类“磁盘系统”,完全不知道在表面下正在进行的重复删除处理。小 型企业或远程办公室往往会避免这种设备,因为他们的成本高于基于软件的重复删除,但 是它们对于企业级部署来说是理想的。 基于硬件的重复删除

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论