版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、AutoSwitch灾备切换自动化方案白皮书二零一六年八月目 录第一章 综述31.1手工灾备切换的问题31.2AutoSwitch的价值3第二章 AutoSwitch灾备切换自动化系统52.1AutoSwitch技术特点52.2AutoSwitch功能架构92.3AutoSwitch系统原理122.4典型灾备系统切换过程14第三章 AutoSwitch部署架构和成功案例303.1部署架构303.2 配置要求303.3成功案例31第一章 综述1.1 手工灾备切换的问题灾备中心建设投入了大量人力、物力,但灾备切换往往还停留在手工进行灾备切换的阶段,灾难来临时灾备中心能否在规定的时间内完成切换、及时
2、恢复生产、发挥应有保障作用,还有很大的隐忧。主要原因有如下几个方面:1) 手工切换时间过长、难以达到RTO目标 由于灾备切换流程的繁琐、复杂,导致手工进行灾备切换至少需要很长时间才能完成灾,往往不能在规定的RTO内完成切换,实现保障业务连续性的目标。2)手工切换人为因素过多、切换经常失败 灾备切换流程繁琐、复杂,手工执行起来往往比较吃力,切换时需要操作的命令多、时间紧,操作员精神压力大导致手忙脚乱,人为出错的几率也就增大,实际操作中由于这样那样的原因往往导致切换失败,无法保证一次切换成功。3)缺乏演练、关键时刻不能发挥作用由于业务发展的需要、应用经常升级,有关配置、系统环境也随之需要做相应变化
3、,受限于保障生产的要求,无法及时进行灾备切换演练,导致不能尽快发现问题、灾备中心关键时刻能否发挥作用存在很大隐忧。总之,灾备切换依靠手工完成,不仅效率低,而且切换时间长,由于人为因素过多导致切换的成功率无法保证;公司的IT运维水平和故障应急处理能力难以提升、难以保障IT服务的持续性和主动规避不可预见的风险。1.2 AutoSwitch的价值1)减少人为因素、保证切换成功率灾备切换流程繁琐、复杂、冗长,以往操作员手工执行起来比较吃力,命令多、时间紧、操作员精神压力大,人为出错的几率也随之增大,一次切换的成功率无法保证。通过灾备自动切换系统替代人工操作,避免人为出错的概率,保证切换的成功率,原则上
4、只要系统环境正常,切换就会成功;达到即切即用的要求、保证业务的连续性。2)缩短切换时间、大大提高切换效率通过灾备自动切换系统替代人工操作,既减少了人工输入的时间、同时无依赖关系的多台系统可以并发处理,减少了不必要的等待,大大缩短了切换时间。 第二章 AutoSwitch灾备切换自动化系统灾备系统切换控制的范围涵盖企业的每个重要业务系统,包括主机、存储、数据库、中间件、DNS系统等等;切换过程涉及企业的众多部门,需要多部门、多岗位、多人配合协调才能完成;同时手工切换过程转换成自动化流程并不是简单将手工操作命令写成批处理命令,而是根据业务需要将切换流程固定下来,进行合理的优化,从而实现灾备切换的自
5、动化;在执行自动化切换的过程中,如果出现某个步骤异常,还需要有处理特殊故障的解决办法。要将灾备系统切换自动化完成,会面临上述的诸多挑战。由于灾备切换系统需要管理的各种资源关系复杂,应用系统之间依存性高,利用AutoSwitch灾备切换管理软件的流程管理可以清晰定义以上各种关系,简单友好的界面让用户对流程等一目了然,通过使用AutoSwitch灾备自动切换系统有力帮助用户保证灾备系统的服务质量、提高应对突发事件的能力。 2.1 AutoSwitch技术特点Ø 一键式灾备切换:一是按应用设计灾备切换流程,将切换时要做的工作先分阶段定义好,再在每个阶段中将要执行的命令统一写成脚本;二是灾备
6、切换作业调度完全自动化,在灾备切换时、能够从单一Web入口进入灾备自动切换控制台,只需一键启动灾备切换、所有命令自动执行,在命令执行过程中无需人工操作;通过将传统手工流程转变为全自动化操作流程,缩短了切换时间、提高了切换效率、降低了人工成本。 Ø 直观展示切换进度:灾备切换开始后, AutoSwitch展示切换进度和执行状态,操作员可以清楚地看到流程各个步骤是否执行完毕,实时监控切换进度。 一旦发生故障可以快速定位,并为操作员提供可操作的手工处理方案。Ø 支持人工干预、处理:切换出现故障或者需要人工干预时,灾备切换暂时停止,Web页面提供人工操作控制的交互入口,等待人工处理
7、后再继续自动处理后续流程。Ø 自动生成灾备操作手册(Runbook):AutoSwitch能够自动生成灾备操作手册,当业务流程发生变化需要修改相关切换流程时,在AutoSwitch系统里修改好相关的流程、命令,即可同步生成相对应的灾备操作手册,极大地方便了运维管理人员备案和实际操作人员理解灾备切换流程。Ø 支持演练环境:AutoSwitch支持演练环境,当应用系统升级或其它系统配置发生变化以后,可以在不影响生产的情况下及时演练、发现问题、保证灾备系统的可用性。Ø 内置常用管理脚本:Autoswitch系统内置了windows/unix/linux 操作系统、Ora
8、cle/Infomix等数据库、Weblogic/Websphere等中间件的常用操作脚本,可以在灾备切换的命令中直接调用。Ø 内置常用检查脚本:灾备切换过程中需要执行很多命令,如何判断这个命令执行是否成功,需要做相应的检查。比如,数据库启动后,究竟数据库是否能正常工作,需要做相应的检查,否则数据库启动过程中由于某种原因没有正常启动,执行过启动命令后,继续执行其它切换中的操作命令将会造成整个灾备切换的不成功,有可能给造成无法挽回的损失。Ø 系统成熟、可靠、稳定:整个灾备自动化系统由两台服务器组成主、备“灾备切换服务器”,可以保证7乘24 小时随时能够进行切换操作,保证切换的
9、成功率。AutoSwitch产品从08年中航信使用AutoSwitch 1.0保障灾备切换起到14年国家电网全国灾备中心使用AutoSwitch3.0,经过客户多年使用反馈和不断优化,产品已经为多个用户成功保障灾备切换和日常灾备演练,经过实践证明,产品非常成熟可靠稳定。2.2 AutoSwitch功能架构详细功能一览表:功能名称说明流程管理切换流程的创建和修改:支持图形可视化创建及修改流程。可按模板进行流程创建,提供版本管理、发布管理功能。支持批量创建流程、支持模板创建流程。切换流程的执行: 支持并发执行流程,可同时启动后台多个自动流程执行。 支持灵活的流程执行模式,在同一流程中提供正常执行(
10、按预定义)、全自动执行(人工转自动)及人工执行(自动转人工)三种模式,能灵活根据实际要求在多种模式之间进行自然切换。 对执行过程中产生的反馈信息进行及时的显示和记录,以便进行实时跟踪以及事后回溯分析。支持流程执行的定时设置功能,可根据需要在指定的时间点发起相应流程完成目标要求。支持基于流程级别的角色权限控制,可保证多角色下的流程安全操作。切换流程的人工交互:支持人工交互操作,切换中如果发生故障,可以在人工处理后继续自动处理后续流程。切换流程的故障处理:当流程执行过程中产生异常时,提供声音或图形界面报警,及时提醒人员在相应故障发送位置进行排障处理。架构支持软件支持中、英文,具备中英文的界面,帮助
11、,文档。界面布局清晰合理。支持多平台/多厂商环境。所管理的切换受控端可以分布于所有主流操作系统平台。支持以下操作系统(包括且不仅限于AIX、 HP-UX、Solaris、Linux和Windows Server等)。采用纯B/S(浏览器/服务器)架构,可随时通过浏览器远程管理。所管理的切换受控端支持代理Agent和非代理Agentless两种方式对业务主机、存储管理、DNS设备进行交互操作。所管理的切换受控端支持安装在WebLogic、Tomcat等各种Web和应用服务器上。支持手动或自动对部署在生产和灾备业务主机上的代理程序或脚本进行远程更新。报表功能提供内容包括但不局限于流程执行、用户信息
12、、故障信息等的报表系统,并具有报表导出功能,能够以网页或EXCEL等文件方式将报表导出并保存。审计功能所有的操作有详细的审计记录(包括命令行和图形的操作记录及作业记录)。能够显示各主要模块的运行状态,具有系统日志审计功能。演练功能支持在不影响生产的情况下及时演练、发现问题、保证灾备系统的可用性,能够根据演练中的问题进行分析,不断优化演练技术流程。扩展性通过界面配置即可完成新功能扩展。对于新开发的功能脚本,提供良好自定义支持,对灾备端环境配置信息的变更可以自动探测。具备灵活的横向扩展,从技术上来说,主控端可以无限制支持增加的受控端。可靠性1) 支持本地高可用方式部署。2) 软件本身具备数据同步功
13、能,当一方发生灾难时,另一方能立即在线进行接管控制,保证了平台7*24正常运行。易用性采用单一用户数据库权限系统,用户无需多次登录;能够从单一Web入口进入灾备自动切换控制台,无需人工逐一登录各主机进行操作。软件对失败或超时的流程提供异常原因分析,告知操作人员流程异常的原因,方便操作人员采取应对措施,故障处理与反馈提示均要友好且准确。展示界面1) 提供良好的人机界面,方便定义切换和管理流程;2) 通过图形界面方式实时展示切换信息,直观展示流程中各步骤的顺序关系;3) 以图标的颜色标示分步步骤的运行状态,流程图上能直观地反应流程上各节点的执行时间。4) 流程图能够定制流程间的依赖关系和多种制约关
14、系,以满足灾备系统操作人员使用需求。状态监控支持对所有Agent进行状态监控,保证流程可顺利执行。支持对系统登录状态进行记录,支持监控和管理工作负载异常,通过操作控制台创建生产运行时报告,帮助分析。能在流程执行界面中嵌入滚动日志,直观显示流程执行状态。人工处理支持人工处理环节,对于必须人工执行或判断的环节,由人工做出判断后,决定流程是否继续执行或终止;在自动切换过程中,如果某一个步骤的执行发生了故障,或者需要既定人工处理,操作人员可以根据图标颜色变化准确定位故障或人工处理的发生位置,并根据图标链接页面查询到该步骤的人工处理方案。 授权与访问控制支持对系统用户按角色或者角色组进行授权;支持对系统
15、功能提供角色级别的权限控制。2.3 AutoSwitch系统原理AutoSwitch服务器和应用服务器的交互主要有下面三种方式:Ø 在应用服务器上以root身份安装AgentAutoSwitch服务器通过Agent完成操作。Ø 在应用服务器上以普通用户身份安装AgentAutoSwitch服务器通过SSH登录到应用服务器完成操作。Ø 在应用服务器上不安装AgentAutoSwitch服务器通过SSH登录到应用服务器完成操作。2.4 典型灾备系统切换过程准备工作开始切换前,应确认当前环境满足切换要求。网络检查切换工作网络与所有服务器的网络联通,执行人可以登陆到每一台
16、服务器;切换系统服务器*.*.*.14到其他服务器的网络联通。切换系统检查主机主机身份切换系统进程检查*.*.*.14Server切换服务进程正常启动*.*.*.7Agent切换代理进程正常启动*.*.*.11Agent切换代理进程正常启动*.*.*.12Agent切换代理进程正常启动*.*.*.13Agent切换代理进程正常启动*.*.*.68Agent切换代理进程正常启动*.*.*.36Agent切换代理进程正常启动应用程序检查(切换方向 云南:à北京)云南部分程序检查:主机登陆用户检查*.*.*.16administrator有23个bat窗口启动*.*.*.7rootps -
17、ef|grep -i "com.zy.calc.CarMap"|grep -v grep检查:主应用进程正在运行*.*.*.11rootps -ef|grep -i "gateway"|grep -v grep检查:存在3个网关进程*.*.*.12rootps -ef|grep -i "gateway"|grep -v grep检查:存在3个网关进程*.*.*.13rootps -ef|grep -i "gateway"|grep -v grep检查:存在3个网关进程北京部分程序检查:主机登陆用户检查*.*.*.6
18、8rootps -ef|grep -i "com.zy.calc.MapCountControl|com.zy.calc.CarMap|AppSrv01 "|grep -v grep检查:主应用进程不在运行rootps -ef|grep -i "gateway5555"|grep -v grep检查:不存在网关进程GoldenGate同步检查:网关数据库和应用数据库状态正常:主机登陆用户检查*.*.*.68oraclesh tjyh_oracle_check_aix_10G.sh数据库人员检查输出结果*.*.*.36oraclesh tjyh_oracl
19、e_check_linux_11g.sh数据库人员检查输出结果*.*.*.8db2inst1sh /home/db2inst1/db2_check.sh 数据库人员检查输出结果*.*.*.12db2inst1sh /home/db2inst1/db2_check.sh数据库人员检查输出结果网关数据库和应用数据库的复制方向为:云南à北京主机登陆用户检查*.*.*.12oggsh gateway_yn_extract_status.sh数据库人员检查输出结果*.*.*.36oggsh gateway_bj_replicat_status.sh数据库人员检查输出结果*.*.*.8oggsh
20、 ztdb_yn_extract_status.sh 数据库人员检查输出结果*.*.*.68oggsh ztdb_bj_replicat_status.sh数据库人员检查输出结果2.4.2开始切换:云南à北京方向将云南网关服务器上的定时任务关闭主机登陆用户检查*.*.*.11rootcrontab -e 将gateway相关定时任务注释*.*.*.12rootcrontab -e 将gateway相关定时任务注释*.*.*.13rootcrontab -e 将gateway相关定时任务注释登陆自动化切换系统开始切换地址:*.*.*.14用户名/密码:admin/admin在左侧目录中
21、选择“自动化作业流”进入流程自动调度页面点击右上方的箭头图标,选择“执行作业流”在弹出窗口中选择要执行的切换流程,勾选后点击右上角的“确认”在提示信息窗口中点击“是”,开始切换可以看到刚才勾选的切换流程已经开始执行了点击作业流程图图标,进入流程图作业流程图各步骤颜色标示的说明:灰色:未执行;蓝色:正在执行(见向后两页图例)绿色:已经执行并成功;红色:需要人工处理。当前流程图中红色标示的人工处理步骤,需要以administrator登陆云南应用服务器*.*.*.16,关闭正在运行的23个窗口;在所有操作执行通过后,在人工步骤上点击右键,在菜单中选择“继续作业流程”该步骤将被修改为绿色完成状态系统
22、将自动执行后续操作其中,蓝色为正在执行的步骤云南网关程序停止并检查通过后,按顺序来到数据库及网络转向步骤其中:为人工步骤,需依照ogg中烟云南对北京切换化方案20150330.docx执行相应操作。在所有操作执行通过后,在人工步骤上点击右键,在菜单中选择“继续作业流程”该步骤将被修改为绿色完成状态系统将自动继续执行后续操作直至流程执行结束。自动切换流程中的错误处理在自动化切换流程中,如果自动执行过程中遇到异常情况,某一检查步骤不满足预定的期望条件,该步骤将转为红色标示,需要人工处理。例:处理方法如下:在该步骤上点击右键,在菜单中选择“作业执行详细情况”,将打开该步骤作业执行详细情况的页面在页面右上方选择标签“运行日志”,可以看到该步骤的执行结果,可作为判断并解决异常的参考信息。如有需要,也可在其他任意步骤上打开作业执行详细情况的页面作为参考。在参照结果判断异常并解决后,将所有“作业执行详细情况
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《工程伦理学》练习题集
- 荣华-水岸新城住宅小区二、三、四期项目报告书
- 随机梯度下降在大数据处理中的应用
- 福州2024年06版小学四年级下册英语第二单元测验试卷
- 人教版七年级英语下册期末复习易错点知识归纳
- 2024年绕线绞线设备项目投资申请报告代可行性研究报告
- 2024年AOI光学检测系统项目资金需求报告代可行性研究报告
- 强化社会监管-服务转型跨越-推动文化事业大发展大繁荣
- 2024年电表箱项目资金申请报告代可行性研究报告
- 2023年商用半导体投资申请报告
- 妇产科护士晋升述职报告
- 骨髓腔内输液(IOI)技术
- 建筑幕墙工程(铝板、玻璃、石材)监理实施细则(全面版)
- 小学数学与思政融合课教学设计
- 江西省南昌市民德学校2023-2024学年八年级上学期期中数学试题
- 2023年度学校食堂每月食品安全调度会议纪要
- 建筑门窗、幕墙安装工人安全技术操作规程
- 绿色高效百万吨级乙烯成套技术开发及工业应用-研究报告
- 项目部单机油耗分析报告
- 企业和银行合作情况报告
- 小学奥数 等量代换(含答案)
评论
0/150
提交评论