数据容灾备份解决方案_第1页
数据容灾备份解决方案_第2页
数据容灾备份解决方案_第3页
数据容灾备份解决方案_第4页
数据容灾备份解决方案_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 中国移动公司中国移动公司 ip 网管系统网管系统 性 数据容灾备份解决方案 veritas 公司北京办事处公司北京办事处 2020 年年 8 月月 15 日日 目 录 1系统需求分析系统需求分析.2 1.1系统建设目标.2 1.2需求简析.5 2高可用容灾方案设计高可用容灾方案设计.8 2.1 设计原则.8 2.2 方案概述.9 2.1.1ipnet 流量管理服务器及 netcool 汇总管理服务器“n+1” 冗余备份方式.10 2.1.2“n+1” 冗余备份方式.11 2.1.3n 节点循环备份方式.11 2.1.4软件安装.12 2.1.5netcool 网管服务器/pm 服务器、业务网

2、管服务器、precision 服务器容灾 .12 2.1.6功能配置说明.14 2.1.7visionary 应用服务器、netcool 报表服务器、ipnet 报表服务器容灾.15 3高可用容灾方案实现高可用容灾方案实现.15 3.1 软件功能解释.16 3.2 安装、配置过程.21 3.3 工作过程.22 3.4 方案分析.26 3.1.13.4.1 有关数据的量化分析及结果.26 3.1.2方案小结.27 4 4附附 录录.29 一、veritas 公司简介.29 二、veritas foundation suite .31 三、veritas cluster server .38 1系

3、统需求分析系统需求分析 1.1系统建设目标 建设本系统的目的是为中国移动公司 ip 网管系统建立一个全面的、整体的容 灾方案,最大限度地保证业务系统工作的连续性、可靠性。 常言道,“知己知彼,百战不殆”。要实现容灾,首先要了解我们的“敌人” 灾难。那么,哪些事件可以定义为灾难呢?典型的灾难事件是自然灾难,如火 灾、洪水、地震、飓风、龙卷风、台风等,还有其它如原先提供给业务运营所需的 服务中断,如设备故障、软件错误、电信网络中断和电力故障等等。此外,人为的 因素往往也会酿成大祸,如操作员错误、破坏、植入有害代码和恐怖袭击。现阶段, 由于我国很多行业正处在高速发展的阶段,很多生产流程和制度仍不完善

4、,加之缺 乏经验,这方面的损失屡见不鲜。事实上,我国 2003 年遭遇的“非典”,某种意 义上也是灾难。对此,我们认为需要做到两点:一是建立切实可行的应急机制,这 主要包含一套基于充分且清楚地将风险予以分类定义的业务持续计划,二是在危机 突然降临时,此计划能被有效执行。对于 it 系统,除了上述的灾难之外,与系统 相关的计划外宕机也可视作灾难。 对于 it 系统而言,在技术层面上,容灾需要考虑: * 数据版本保护 建立容灾的多版本保护底线(bottom line) * 实时数据保护 数据复制,近乎 0 的数据丢失,数据一致性 * 应用系统恢复 恢复时间(包括数据库恢复)、应用版本的一致性 (p

5、tf)等 * 网络系统恢复 数据访问点变化、建立新网络路径、动态路由(收敛时 间/稳定性) * 容灾切换决策 及时发现灾难(容灾系统管理)、容灾切换的损失和补 救办法 * 容灾切换过程 变更管理 同时,无论任何时候,备份都是非常重要的,并要定期测试备份的可靠性。 一种技术只能减少或防止某些类型的灾难的影响。除了简单或一成不变的应用,在 没有特别要求的情况下,尽量不要采用操作系统层面以上的数据复制技术。而没有 文档化的流程就相当于没有流程,没有流程的系统能够在要求时间内恢复完全靠运 气(通常不能)。另外,在通常情况下,it 系统相关的灾难备份方案设计都必须 考虑以下五大因素, 1,灾难类型 需要

6、考虑哪些灾难?怎样的灾难?会使业务中断多久? 2,恢复速度 灾难发生后需要多久来启动及运行系统?能否承受数天或数分钟的等待? 3,恢复程度 需要恢复每条记录和交易吗?可以使用上星期或昨天的数据吗?需要恢复一 切吗?有 不相关的文件吗?什么是合法隐含的要求?有少数的一组人输入交易吗?他 们可以重新输 入灾难期间丢失的交易吗?这些交易十分重要而不容许丢失吗? 4,可用的技术 必须结合考虑所选技术在本地区的适用性、实现条件以及在实施时是否受某 些现有条件的制约? 5,方案总体成本 实现灾难备份需要多少投资?不实现灾难备份会损失多少钱? 据国际标准 share78 的定义,灾难恢复解决方案可根据以下主

7、要方面所达到 的程度分为七级,即从低到高有七种不同层次的灾难恢复解决方案。可以根据企业 数据的重要性以及需要恢复的速度和程度,来设计选择并实现灾难恢复计划。这取 决于下列要求: 备份/恢复的范围 灾难恢复计划的状态 在应用中心与备份中心之间的距离 应用中心与备份中心之间是如何相互连接的 数据是怎样在两个中心之间传送的 有多少数据被丢失 怎样保证更新的数据在备份中心被更新 备份中心可以开始备份工作的能力 现已证明,为实现有效的灾难恢复,无需人工介入的自动站点故障切换功能 是一个必须被纳入考虑范围的重要事项。目前通用的异地远程恢复标准采用的是 1992 年 anaheim 的 share78,m0

8、28 会议的报告中所阐述的七个层次: 0 层- 没有异地数据(no off-site data) tier0 即没有任何异地备份或应急计划。数据仅在本地进行备份恢复,没有 数据送往异地。事实上这一层并不具备真正灾难恢复的能力。 1 层- ptam 卡车运送访问方式 (pickup truck access method) tier1 的灾难恢复方案必须设计一个应急方案,能够备份所需要的信息并将 它存储在异地。ptam 指将本地备份的数据用交通工具送到远方。这种方案相对来 说成本较低,但难于管理。 2 层- ptam 卡车运送访问方式+热备份中心 (ptam + hot center) tier

9、2 相当于 tier1 再加上热备份中心能力的进一步的灾难恢复。热备份中 心拥有足够的硬件和网络设备去支持关键应用。相比于 tier1,明显降低了灾难恢 复时间。 3 层- 电子链接 (electronic vaulting) tier3 是在 tier2 的基础上用电子链路取代了卡车进行数据的传送的进一步 的灾难恢复。由于热备份中心要保持持续运行,增加了成本,但提高了灾难恢复速 度。 4 层- 活动状态的备份中心 (active secondary center) tier4 指两个中心同时处于活动状态并同时互相备份,在这种情况下,工作 负载可能在两个中心之间分享。在灾难发生时,关键应用的恢

10、复也可降低到小时级 或分钟级。 5 层 两个活动的数据中心,确保数据一致性的两阶段传输承诺(two-site two-phasecommit)tier5 则提供了更好的数据完整性和一致性。也就是说,tier5 需要两中心与中心的数据都被同时更新。在灾难发生时,仅是传送中的数据被丢失, 恢复时间被降低到分钟级。 6 层- 0 数据丢失 (zero data loss),自动系统故障切换 tier6 可以实现 0 数据丢失率,被认为是灾难恢复的最高级别,在本地和远 程的所有数据被更新的同时,利用了双重在线存储和完全的网络切换能力,当发生 灾难时,能够提供跨站点动态负载平衡和自动系统故障切换功能。 1.2需求简析 对于 it 系统的容灾指标,我们可以通过下列参数表示: * 以恢复点为目标(rpo - recovery point object) 数据的完整性(无数据丢失) 数据的一致性(数据正确且可用) 以恢复时间为目标(rto - recovery time object) 中国移动公司的网管系统结构图如下: 可以看到在移动 ip 网管系统中,包含着众多的功能子系统,根据每个子系统 数据变化的频度以及在整个网管系统中所起到的作用,我们为每个子系统制定了符 合各自特色的 rpo 和

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论