Simpana V10 重复数据删除-文档资料_第1页
Simpana V10 重复数据删除-文档资料_第2页
Simpana V10 重复数据删除-文档资料_第3页
Simpana V10 重复数据删除-文档资料_第4页
Simpana V10 重复数据删除-文档资料_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、重复数据删除方案 2013年7月2目录方案设计及最佳实践方案设计及最佳实践Simpana 10 第四代重复数据删除技术第四代重复数据删除技术重复数据删除基本知识重复数据删除基本知识 竞争分析竞争分析CommVault 重复数据删除技术重复数据删除技术3为什么要进行重复数据删除在服务器应用中有大量完全相同的数据块不同计算机中,有许多完全相同的文件,特别在虚拟机中有80%以上重复数据。在连续的全备份数据中,有70%-90%的重复数据在归档文件中,也有大量的数据块是相同的当进行集中数据备当进行集中数据备份和归档时,重复份和归档时,重复的数据块会导致存的数据块会导致存储费用快速上升,储费用快速上升,同

2、时也会占用数据同时也会占用数据传输带宽。传输带宽。4如何进行重复数据删除原数据集合逻辑视图物理存储重复数据删除重复数据删除节省大量磁盘空间!对需要存储的数据,以块为单位进行哈希比对,对已经存储的数据块不再进行存储,只是用索引来记录该数据块;对没有存储的新数据块,进行物理存储,再用索引记录,这样相同的数据块物理上只存储一次。通过索引,可以看到完整的数据逻辑视图,而实际上物理存储的数据却很少。重复数据删除的过程5源端“去重” 当数据从“源端”传输到“目标端”的过程中,在源端先对被传输的数据块进行哈希比对,如果该数据块先前已经被传输过,只需要传输哈希索引值;如果该数据块先前没有被传输过,就传输该数据

3、块,并记录该数据块的哈希值。 优点:优点:可节约传输带宽 缺点:缺点:要占用源端资源进行去重处理源端源端目标端目标端传送的是新数据块和老数据块的索引6目标端“去重”当数据从“源端”传输到“目标端”的过程中,把数据块传送到目标端,在目标端进行去重操作。优点:优点:不占用源端的资源缺点:缺点:不能节省传输带宽在目标端有两种处理方式:在线处理方式(In-Line):在数据块存储之前进行去重处理,优点是占用存储空间较少,缺点是要影响数据传输性能。后处理方式(Post-Processing):先把数据块存储在缓存中,等系统空闲时再进行去重处理。优点是不影响数据传输性能,缺点是需要额外的存储空间。备注:

4、CommVault同时支持源端和目标端去重;支持在线处理方式,也支持后处理方式(先备份到非去重拷贝,再辅助拷贝启用去重)源端目标端传送的都是数据块7压缩与去重 数据压缩数据压缩 针对单个文件 采用空值压缩或缩短高频数据表示值来缩小数据 15-20% CPU 开销 去重的补充手段 重复数据删除重复数据删除 跨文件消除冗余的重复数据块 每个相同的数据块只存储一次,后续的块以指针指向之前的物理数据块 “去重比”= (数据量) / (在磁盘上占用的空间). 不是最主要需要考虑的因素 压缩和重复数据删除都属于数据缩减技术 metadataFile data stream blocksCompressed

5、跨文件、备份集跨客户端、备份代理Week1 Week2 Week38目录方案设计及最佳实践方案设计及最佳实践Simpana 10 第四代重复数据删除技术第四代重复数据删除技术重复数据删除基本知识重复数据删除基本知识 竞争分析竞争分析CommVault 重复数据删除技术重复数据删除技术9* 支持源端和目标端去重-可在客户端或MA端进行压缩/哈希对比/加密 读取数据 压缩* 哈希比对* 加密*1与MA连接的本地磁盘IP共享NAS,多个MA之间可进行错误却换和负载均衡SAN共享磁盘存储开放的磁盘库Client Systems向向MA传送数据传送数据存储策略存储策略: 全局存储保留全局存储保留支持备份

6、和归档数据主副本主副本: 存储在磁盘上,保留存储在磁盘上,保留#天和周期天和周期 检查 DDB 对数据段编目 数据写入磁盘2MA 直接访问恢复 不需要读哈希表 支持GridStor备用访问路径4具有内容感知的数据块传输Content AlignmentSegment instance (hash)Content AlignmentContent AlignmentMeta-data, tags, indexesImagesDatabasesFilesSkipSkipSkip2ndLinknthLinkMA 相同的数据段越多 = 去重比越高 通过增加访问路径就能方便增加容量 介质库报告和报警简化

7、管理操作 磁盘阀值管理策略控制数据老化 (最少使用的老化)31stWriteCV 目录 (索引)DDB检查DDB,确保数据段的唯一性数据段映射到磁盘上的备份/归档数据块Archive File / Offsets写入到磁盘仅写入新的数据段Mount path(s)DASH COPYDDB 优化复制,创建容灾副本 支持去重到磁带5CommVault重复数据删除构架重复数据删除构架SSDBCheck-Level 1 (optional)客户端使用本地去重缓存SSDB判断数据块的唯一性Check-Level 2使用MA的DDB查找去重索引10DDB(重复数据删除数据库,Deduplication D

8、ataBase) 重复数据删除数据库存放着所有的数据块的hash签名,每一个存储策略拷贝都已一个自己的DDB。全局重复数据删除存储策略关联多个存储策略,共用一个相同的DDB 每一个DDB定义了一个独立的去重域 DDB 采用C-Tree数据库, 不影响性能的情况下最多可保存7.5亿条记录11DASH 拷贝 随处移动去重数据块描述描述优势优势使用使用DASH的方式能够更少的传输和处理已备的方式能够更少的传输和处理已备份数据,使得能够更快的创建去重拷贝。份数据,使得能够更快的创建去重拷贝。高健壮性高健壮性: 带宽控制、基于作业的复制,健壮的网络选项,hppts安全传输协议,自动重起,多流和报告影响小

9、影响小: 不需要数据重组,快速的异步拷贝变化数据块高性能:高性能: 适用于快速网络环境的读优化模式和基于窄带宽WAN环境 的网络优化模式,使得各 种环境都能高效传输数据。完整的拷贝管理选项完整的拷贝管理选项: 独立的拷贝保留时间、拷贝选择规则、作业过期控制、数据校验平台无关性:平台无关性: 可在不同的操作系统之间复制“在任何拷贝之间仅传输变化的数据块”DDB-3DC Copy 2Deep Copy 3Retain 365daysDDB-2Remote Copy 1DDB-1Retain 5 daysRetain 30 daysWindowsLinuxCloud / Recovery Site1

10、2DASH FULL 去重感知的合成全备SFRead and RehydrateDDBRehashWrite Synth Full MetadataUpdate Reference counts“标准合成全备标准合成全备”读取读取, 重组数据和再次去重重组数据和再次去重耗时长、MA资源消耗大只有新的数据才写到磁盘上合成全备会比常规的全备慢50%左右Week 1Week 2FInInInInInSF In10 12 hrs processingWeek 1Week 2SFEliminate ReadDDBWrite Synth Full MetadataUpdate Reference coun

11、tsFInInInInInSF InMinutes of processingDASH FULL 快速创建整合全备将磁盘读降到最低,省略数据重组和再次去重更新DDB索引信息,在磁盘上只写元数据大大加快合成全备的生成时间,从几个小时大大加快合成全备的生成时间,从几个小时缩短到几分钟缩短到几分钟13全局重复数据删除全局去重存储策略:多个存储策略拷贝共享同一个全局去重存储策略:多个存储策略拷贝共享同一个DDB(全局全局 = 多个存储策略拷贝多个存储策略拷贝)DDBBlock SizeCompressionGlobal Dedupe StoreRetentionGDPCopyStorage Polic

12、yRetentionGDPCopyStorage PolicyRetentionGDPCopyStorage Policy多个不同存储策略的去重拷贝使用相同的去重池作为备份目标,使用相同的DDB、磁盘库和去重属性,但保留周期可以不一样同一个全局去重存储策略可以关联独立存储策略的主拷贝和次级拷贝全局去重存储策略全局去重存储策略14去重到磁带-SILOSILO 是将重复数据删除池里的数据保持去重格式复制到磁带上,而不用将数据重组还原为完整的物理格式再写入磁带。这就意味着磁带和磁盘上保留的数据量一样,磁带和磁盘备份介质有相同的去重比。SILO to Tape将老数据保持去重格式从磁盘复制到磁带做长期

13、保留节约磁带空间老数据从磁盘上过期,为新的备份释放出空间节约磁盘空间SILO不适合短期的数据保留(几周)不适合短期的数据保留(几周)SILO 不适合恢复速度要求高的数据不适合恢复速度要求高的数据15目录方案设计及最佳实践方案设计及最佳实践Simpana 10 第四代重复数据删除技术第四代重复数据删除技术重复数据删除基本知识重复数据删除基本知识 竞争分析竞争分析CommVault 重复数据删除技术重复数据删除技术重复数据删除能力进一步提升 单个重删存储池容量和性能特性成本提高v715 TB30 TBv890 TB2 TB/hr*v9120 TB2.5 TB/hr*v9SSD240 TB5 TB/

14、hr*v102 nodes480 TB10 TB/hr*v10 SP44 nodesv1116 nodes17并行去重 重新定义企业级去重规模为满足大规模去重需求,把一组DDB及存储组合成一个集合,分段对齐,来获得最佳性能。这样做的优势是能线性增加去重规模,对企业级去重或全局去重设计至关重要。DDB-G250 Mount Paths 2TBMediaAgent-2 (Primary)DDB and Data Mover RoleDDB-G350 Mount Paths 2TBMediaAgent-3 (Primary)DDB and Data Mover RoleDDB-G450 Mount

15、Paths 2TBMediaAgent-4 (Primary)DDB and Data Mover RoleDDB-G150 Mount Paths 2TBMediaAgent-1 (Primary)DDB and Data Mover RoleStore 1Store 2Store 3Store 4Store 1Store 2Store 3Store 4全局并行存储全局并行存储 下一代网格存储:下一代网格存储:480TB分区 1分区 2分区 3分区 4容量、吞吐率、并发性倍增,同时能把多个存储整合到一个全局的逻辑存储池中容量、吞吐率、并发性倍增,同时能把多个存储整合到一个全局的逻辑存储池中1

16、20TB120TB120TB120TB18并行重删的优势 PB级级 并行重删提供PB级数据备份到普通磁盘的能力,随着并行重删网格中的节点增加可以线性的提升处理速度和数据容量。 高性能高性能 2节点并行重删网格能支持存储180-240TB的唯一数据,备份速度能达到4-5TB/小时,容量和性能是V9中单个重删节点的2倍。 高可靠高可靠 内置的故障切换能力能够使备份作业不间断,网格中即使有一个节点不可用,剩余的节点可以继续工作接管备份。故障节点在后台自动修复,然后加入网格继续工作。 大规模大规模 在低性能环境,可以结合多个重删节点提供高的重删容量。 如介质服务器部署在云中,由于低的IPOS存储性能,

17、每个重删节点容纳的数据量不大,但多个节点通过并行全局重删可以实现更大的重删规模。所以并行重删既可用于企业级环境也适用于云环境。19并行去重是如何工作的DDB-G250 Mount Paths 2-8TBMediaAgent-2 (Primary)DDB and Data Mover RoleDDB-G150 Mount Paths 2-8TBMediaAgent-1 (Primary)DDB and Data Mover RolePartition 1Partition 2Global Dedupe Store/Storage PolicyDataMoverDataMoverData tran

18、sferDDB Lookups212345561客户端根据GridStor 存储策略选择DataMover (MA), 发送数据到MA2DataMover使用内部算法来选择哪个分区来执行签名查找。如果所选的分区在其他MA上,就通过网络上进行查找。算法保证同一HASH值会到同一 DDB中比对 3如果数据已经存在,在所选择的分区中更新DDB,在MA访问的装载路径上更新元数据如果数据是新的,在所选择的分区DDB中插入签名,数据写入MA能存取的装载路径4在其他客户端重复类似过程,利用GridStor 选择不同的DM数据总是写到选定的DM,而签名查找则可能在任意的分区上执行5620并行去重具有内置恢复能

19、力 在不同分区间自动进行故障却换DDB-G250 Mount Paths 2-8TBMediaAgent-2 (Primary)DDB and Data Mover RoleDDB-G150 Mount Paths 2-8TBMediaAgent-1 (Primary)DDB and Data Mover RolePartition 1Partition 2全局去重存储策略全局去重存储策略DataMoverDataMoverData transfer21234561客户端用Gridstor 来选取Data MoverData Mover 选取适当的DDB分区来进行比对操作,并把数据写入所选的数

20、据路径中234客户端在Gridstor策略中选择替代的Data Mover 5替代的Data Mover 选择仍然有效的分区进行比对操作6根据比对的结果,替代的MA把数据写入自己的装载路径中一旦MA和分区重新上线,后续的作业将选择这个Data Mover,分区选择算法包含重建分区DDB Lookups21重删引擎报告22第4代重复数据删除 大幅提高性能、扩展性和可恢复性特点特点实现方式实现方式优势优势并行重删并行重删多个DDB分区一起工作来分担重删负载比V9单个重删存储池性能和规模提升2倍内置的故障预防内置的故障预防能力能力在多分区环境里,如果1个DDB不可用,在该DDB修复期间,其他DDB可

21、以临时顶替更弹性的操作,人工干预更少,避免单点故障优化的数据结构优化的数据结构为了提高的查找、插入和删除签名的速度,DDB表结构进行了改进显著的提升了数据过期和DDB重建操作DASH功能增强功能增强读优化DASH拷贝允许采用本地DDB缓存;DASH拷贝采用动态流分配磁盘读优化和网络优化优点相结合,进一步降低远程复制所需带宽;复制时采用动态流分配,在每个数据流上均匀分布数据,加快复制进度。增强的监控工具增强的监控工具图形界面中可监控主要的重删性能参数监控每个分区DDB查询和插入响应时间、连接数、签名数量;当达到性能阀值时会触发告警。WEB方式的报方式的报告告为重删域和每个分区提供Web方式的报告

22、以web报告方式来监控重删的性能自动容量控制自动容量控制达到性能阀值后,禁止在对应的存储策略上增加新的客户端防止重删环境超过推荐的限制,保持重删存储池性能4 节点并行重删节点并行重删4个DDB分区组成一个重删域4倍性能和规模提升后续功能后续功能23目录方案设计及最佳实践方案设计及最佳实践Simpana 10 第四代重复数据删除技术第四代重复数据删除技术重复数据删除基本知识重复数据删除基本知识 竞争分析竞争分析CommVault 重复数据删除技术重复数据删除技术24重删节点物理设计 设计可扩展的重删基础构架MediaAgentData MoverDDB Manager重删节点重删节点Spec X

23、64 OS 2CPU, Quad Core 32- 64 GB RAM Windows / Linux4 X 1 GigE OR10 GigE网卡网卡Ingest NetworkSAS/iSCSI/FCDedicated HBA/NICRAID 62-8 TB LUNsNAS (CIFS/NFS)Dedicated 10 GigE20 TB Volumes preferred磁盘库磁盘库Disk LibraryInternal 6Gb SASExternal 6Gb SASExternal 8 Gb FC10 GigE iSCSI with dedicated NIC15 K RPM Spin

24、dlesRAID 10SSD Drives for extended capacityDDB 卷卷DDB -G去重节点容量去重后数据DDB卷大小(推荐)特大规模(采用SSD/闪存卡)120TB1TB大规模60-90 TB1 TB中等规模30-60TB600 GB小规模不超过30T400 GBDual Quad Core CPUWindows/Linux as Dedupe Media Agents32 64 GB RAM服务器配置服务器配置25最佳实践-总则 在部署重复数据删除 策略之前先仔细规划方案构架和硬件环境。 设计存储策略时要充分考虑当前数据量和未来的增长。 启用重复数据删除时使用默认

25、的去重参数(源端去重、去重因子),默认值是通常场景中最优设置,一般不需要调整 加密数据的存储策略要和非加密数据存储策略分开。 重复数据删除和非重复数据删除数据分开放在不同的磁盘库里,这样可以准确的统计备份介质使用量和预测未来的磁盘使用量。 不同类型的数据采用不同的存储策略,同一个重复数据删除存储中保存相同类型的数据。 如果总的数据量小于10T,也可将不同类型的数据放在同一个重复数据删除存储。 并不是所有的数据都适合采用重复数据删除,如数据库的日志。为这些数据设置非重复数据删除存储策略。26数据库去重最佳实践默认推荐使用128K块大小,大容量数据库可采用256K或512K块大小。(一般不建议调整

26、)禁用软件压缩通过数据库代理备份数据库时,多数据流会降低去重比。对于备份速度不敏感的作业建议采用单数据流,提高去重比。对于需要用多数据流来提升备份速度的作业,去重比会降低,会更多的占用磁盘空间。数据库和日志分别使用不同的存储策略。数据库全备采用去重存储策略,数据库日志采用非去重存储策略。如果用户特别追求去重效果,建议在Oracle RMAN中使用BFS=1选项备份数据库dump文件,建议可以启用“Variable Content Alignment”DDB 相关最佳实践 Best Practices to minimize DDB failure and time to recoverDDB

27、故障原因操作指南非正常关闭主机非正常关闭主机服务没有全部关闭前,不要关闭主机电源禁用补丁更新完成后自动重启为主机配置冗余电源去重节点主机使用UPSDDB卷空间不足卷空间不足为DDB卷分配足够空间 配置DDB卷使用阀值(默认20%剩余空间)集群节点切换集群节点切换如果去重节点在集群中,非计划的切换可能会使DDB故障最佳实践操作指南提高提高DDB备份频率备份频率每4-6小时备份一次DDB有规律的数据过期有规律的数据过期数据过期时会从DDB中更改记录,在DDB修复中会重新执行过期动作数据过期的计划要和DDB备份的频率一致避免一次性大量的数据删避免一次性大量的数据删除除删除含大量备份数据的存储策略或是手动删除大量的作业会导致大量的数据过期DDB重建时如果需修复的DDB

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论