10月13日脱产培训xxxxvis双活实施方案_第1页
10月13日脱产培训xxxxvis双活实施方案_第2页
10月13日脱产培训xxxxvis双活实施方案_第3页
10月13日脱产培训xxxxvis双活实施方案_第4页
10月13日脱产培训xxxxvis双活实施方案_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、XVIS 双活实施方案非经本公司播。2014。 保留一切权利。技术,任何和个人不得擅自摘抄、本文档内容的部分或全部,并不得以传商标目录项目背景介绍4需求调研5工程勘测5业务需求5双活部署6基础网络环境搭建7SNS2124 端口规划71.1.2 GE 心跳网络互通9FC 互联网络互通10FC 交换机 zone 划分11FC 交换机单模级联端口 Buffer Credit 设置12VIS 四节点集群搭建12检测 GE 心跳链路是否连通12Disable 心跳交换机的 STP 功能13检测心跳网口工作速率是否正常13检查外部心跳网口的 IP 是否清除14检查心跳交换机网络限制要求14VIS 四节点

2、license 导入153.2.7 VIS一致15修改心跳模式为外部心跳模式15集群搭建完成16VIS 虚拟化和镜像配置16阵列侧划分仲裁盘给VIS 集群163.3.2 阵列侧划分数据盘和 DCO 盘给VIS 集群16配置仲裁盘17创建磁盘组17修改逻辑盘别名18创建卷18创建镜像193.4 VIS 双活配置193.4.1 确定 VIS 四个节点的归属站点193.4.2 配置双活站点20查询 VIS 可以接管的可用阵列20配置阵列到对应站点203.4.5 启用双活20查询配置信息21删除配置命令21设置优先存活站点21设置siteread 策略223.5 VIS 双活基本功能验证和可靠性验证2

3、24 案例234.1 VIS 心跳交换机开启 STP 协议,导致集群搭建失败234.2 双活场景,VIS 心跳端口速率协商不一致导致集群搭建过出现反复重启的现象24FC 交换机不设置 BB-credit buffer,导致单根单模光纤级联后实测带宽与理论带宽相差很大25双活场景,镜像故障修复后,镜像重同步速率缓慢25双活场景,主站点瘫痪业务中断恢复后,镜像关系无法修复271 项目背景介绍在X 以往的业务系统中,仅考虑本地容灾,即通过集群的双机系统(Cluster 或 HA)对业务应用提供保护,在一台服务器的软硬件发生故障时,将整个业务切换到后备服务器上。该方法很大程度上避免了服务器的单点故障,

4、提高了整个业务系统的可用性。但是,随着X 业务系统的发展,随着竞争的不断加剧,在一些重要的系统中,客户已经不满足于简单的本地保护。越来越多的客户提出了要求更高的系统可用性,要求实现真正的异地容灾保护。因为一旦出现异常情况,如火灾、水灾、雷击或某个方向线路故障等自然原因以及电源机器故障、人为破坏等非自然原因引起的,导致业务正常无法进行和重要数据的丢失、破坏,造成的损失将不可估量。因此,X 要求业务系统可以在发生上述将损失降到最低点。时快速恢复,全面的异地容灾保护方案,意味着除了要实现本地的切换保护外,更要实现数据的实时异地复制和业务系统(包括数据库和应用)的实时切换。2需求调研2.1 工程勘测经

5、过勘测,满足实施要求。2.2 业务需求此次数据中心建设承担局点的所有 IT 信息系统运行。具体信息如下:业务类型备注数据库sql server 2008库,所有的数据勘测项目结果备注机房温度机房湿度电源两地距离级联方式承载网信息3双活部署VIS 双活是将一个本地四节点 VIS 集群部署到两个站点,然后两个站点的 VIS 集群同时接管两个站点的阵列,将两个站点阵列的服务器集群。的逻辑盘创建镜像卷后提供给两个站点组网图:VIS 双活部署流程如下:3.1 基础网络环境搭建站点间网络环境的搭建与具体的网络规划项目,本文档不做详细描述。VIS 双活需要在网络规划及实施完成后,才可以进行部署,与双活相关的

6、网络内容包括以下 4 点:3.1.1 SNS2124 端口规划zhu SNS2124_1 端口规划表:端口号对接设备端描述1,1zhu_S5600TA主节点A 控 P01,2zhu_S5600TB主节点B 控 P01,3VIS0VIS 节点 0 的端口 01,4VIS1VIS 节点 1 的端口 01,5VIS0VIS 节点 0 的 P2 口,用于跟主机连接1,6VIS1VIS 节点 1 的 P2 口,用于跟主机连接1,71,81,91,10zhu_SQL01主 SQL2008 服务器1,111,121,131,14bei SNS2124_1 端口规划表:端口号对接设备端描述1,1zhu_S56

7、00TA主节点A 控 P11,2zhu_S5600TB主节点B 控 P11,3VIS0VIS 节点 0 的端口 11,4VIS1VIS 节点 1 的端口 11,5VIS0VIS 节点 0 的 P3 口,用于跟主机连接1,6VIS1VIS 节点 1 的 P3 口,用于跟主机连接1,71,81,91,10zhu_SQL01主 SQL2008 服务器1,111,121,131,141,151,161,171,181,191,202,1bei_S5600TA备节点A 控 P02,2bei_S5600TB备节点B 控 P02,3VIS2VIS 节点 2 的端口 02,4VIS3VIS 节点 3 的端口

8、02,5VIS2VIS 节点 2 的 P2 口,用于跟主机连接2,6VIS3VIS 节点 3 的 P2 口,用于跟主机连接2,72,82,92,10bei_SQL01备 SQL2008 服务器2,112,122,132,142,152,162,172,182,192,201.1.2 GE 心跳网络互通VIS 集群四个节点部署在两个站点,要保证四个节点的 4 个心跳 0 在一个 VLAN,四个节点的 4个心跳 1 在一个 VLAN。VIS 的心跳 0 是 5 号槽位的 P3 口,心跳 1 是 5 号槽位的 P1 口。以太网心跳组网图如下:1,151,161,171,181,191,202,1be

9、i_S5600TA备节点A 控 P12,2bei_S5600TB备节点B 控 P12,3VIS2VIS 节点 2 的端口 12,4VIS3VIS 节点 3 的端口 12,5VIS2VIS 节点 2 的 P3 口,用于跟主机连接2,6VIS3VIS 节点 3 的 P3 口,用于跟主机连接2,72,82,92,10bei_SQL01备 SQL2008 服务器2,112,122,132,142,152,162,172,182,192,203.1.3 FC 互联网络互通VIS 集群四个节点部署在两个站点,每个节点 1 号槽位 FC 接口卡的 P0 要互联,P1 口要互联。 要实现 P0 互联、P1 互

10、联,需要将两个站点的四个光纤交换机两两级联。交换机级联采用单模光纤级联,目前 4G 单模光模块采用光纤级联最大支持距离为 30KM,8G 最大支持 25KM,16G 最大支持 10KM。如果两个站点的光纤交换机采用 8G 的单模光模块级联,且距离超过了 25KM,那么就不可以使用 8G 单模光纤级联的方式了,只能采用波分设备进行级联。下图中光纤交换机 A 表示站点 1 的交换机 a 和站点 2 的交换机 a 级联后的设备,光纤交换机 B 表示站点 1 的交换机 b 和站点 2 的交换机 b 级联后的设备。3.1.4 FC 交换机 zone 划分双活方案 zone 划分采用两两划分的方式,即一个

11、 zone 中只包含一个启动器和一个目标器。如果服务器节点数量很多,采用两两划分 zone 的方式会有很多 zone,使用的方式。3.1.5 FC 交换机单模级联端口 Buffer Credit 设置在缓冲信用流协议(Buffer-Credit flow)中,发送端和目的端都设置了一个缓冲信用量(Buffer Credit)来规定在发送端没有收到目的端返回的确认帧的情况下能继续发送帧的数量。发送端拥有一个缓冲信用量的计数器,每次发送端向目的端发出一个帧时,该计数器就进行加1操作,即缓冲信用量加1。而目的端每次收到帧后,都会向发送端传回一个确认帧。发送端收到目的端传回的一个确认帧时,该计数器进行

12、减1操作,即缓冲信用量减1。当缓冲信用量达到设定值时,发送端将停止向目的端发送帧,直至收到目的端发出的确认帧进行信用量减 1 后才会继续发送。这种机制可以防止两端距离遥远而造成的帧丢失现象。根据两个站点之间的单模级联线路距离设置 FC 交换机单模级联端口的 buffer credit 值。3.2 VIS 四节点集群搭建分为两部分:环境检测、搭建集群。首先介绍环境检测部分:3.2.1 检测 GE 心跳链路是否连通在心跳的模式下,配置心跳口的IP,在CLI下使用vx命令检测8个心跳口是否互通;外部心跳口使用的是控制框5号槽位板载的GE接口卡的P1 和P3端口,P3端口心跳0配置一个网段、P1端口心

13、跳1配置一个网段,这样通过vx外部心跳连接图见1.1.1节。可以检测连接心跳0和心跳1 的网线是否连接错误。3.2.2 Disable 心跳交换机的 STP 功能检测心跳所经过的两站点之间的GE交换机STP功能是否enable,如果enable,需要disable。(生成树协议STP会将VIS集群搭建过协商节点号的数据滤掉,导致集群节点号协商失败,会出现集群搭建中多个节点号错乱、且有不断复位的现象)3.2.3 检测心跳网口工作速率是否正常检测心跳网口工作速率是否正常:在 ISM 界面或者 CLI 模式下查看心跳口的运行速率,必须为1000 Mbit/s。(每个端口的协商速率不一致,引起心跳包发

14、生阻塞,心跳报文响应时间超过 8 秒以上,从而导致心跳异常集群脑裂,会出现四节点上电过各节点不断复位的现象)3.2.4 检查外部心跳网口的 IP 是否清除前两步完成后,必须要清除心跳口的 IP 的配置,否则集群搭建必失败,可以通过清 DB 的方式将所有配置清空。(VIS 集群,无论使用的是心跳,还是外部心跳,心跳 IP 默认都是自动生成的,不需要用户配置心跳 IP,如果配置了心跳 IP,在开工过跳 IP 覆盖,导致集群节点开工失败)会将 VIS 自动生成的心3.2.5 检查心跳交换机网络限制要求要确定两个站点之间的 GE 网络设备是否会将心跳 IP 过滤掉(外部心跳 IP 的默认网段为 127

15、.127.11.0 和 127.127.12.0,思科交换机会将此网段的 IP 过滤掉),如果需要修改心跳 IP 的网段,使用命令 chgheartnet 修改心跳网段的 IP,心跳网段修改后,系统会提示系统重启,输入 “y”,重启系统。如:chgheartnet -i 10.252.0.0。注意:只需要指定前 16 位的 IP 网段,后 16 位的 IP 网段是系统默认生成的。心跳网段修改前:修改心跳网段 IP:心跳网段修改后:以上环境检测的五步是必须做,如果有任何一个检测项不通过,集群搭建必定失败。下面介绍集群搭建:3.2.6 VIS 四节点 license 导入搭建 VIS 四节点需要四

16、节点 license,在两套 VIS 上分别使用 showsys 命令获取各自的 ESN(ISM 界面或者 VIS 控制框前面板也可以获取),使用两个 ESN 申请四节点 license。申请的四节点 license 可以 VIS 四节点集群搭建前两套 VIS 分别导入,也可以在四节点搭建完成开工失败后再导入。3.2.7 VIS使用 show一致命令查看两个站点的 VIS 的是否一致,如果不一致,需要使用命令chg修改。3.2.8 修改心跳模式为外部心跳模式将两套 VIS 的心跳模式改为外部心跳模式。chgheartmode -m 13.2.9 集群搭建完成心跳模式改为外部心跳模式后,系统会提

17、示自动重启,重启后,四节点 VIS 集群搭建完成。3.3 VIS 虚拟化和镜像配置3.3.1 阵列侧划分仲裁盘给 VIS 集群在两个站点中任选一个站点的阵列划分 3 个 1G 的盘是两地三中心,需要三个站点的阵列各提供 1 块 1G 的仲裁盘给 VIS 集群作为仲裁盘(双活标准方案给 VIS 集群),在另外一个站点的阵列划分 3 个 100M 的盘给 VIS 集群作为业务恢复时使用的仲裁盘(当主站点完全瘫痪后,这 3个仲裁盘用来手动拉起业务,这 3 个预留的仲裁盘必须提前在备用站点划分好且给 VIS)。主站点阵列 3 个 1G 的仲裁盘:备站点阵列 3 个 100M 的预留仲裁盘:3.3.2

18、阵列侧划分数据盘和DCO 盘给 VIS 集群两个站点的阵列划分相同数量的数据和 DCO 盘给 VIS 集群。主站点阵列提供的用于创建镜像的数据和 DCO 盘:和 DCO 盘:备站点阵列提供的用于创建镜像的数据3.3.3 配置仲裁盘在 VIS 侧进行扫盘,使用 3 个主站点上来的 3 个 1G 的盘配置仲裁盘(注意:不要使用备站点上来的 3 个 100M 的盘)3.3.4 创建磁盘组创建磁盘组,将两个站点阵列上来的数据盘和 DCO 盘添加到该磁盘组中(注意:用作DCO 盘的逻辑盘选择“不保留数据”)3.3.5 修改逻辑盘别名更改逻辑盘组内逻辑盘的别名(便于管理与配置);3.3.6 创建卷注意选择

19、最大容量。3.3.7 创建镜像给卷添加镜像,添加镜像完成之后,等待镜像初始同步完成。(如果镜像同步缓慢,请检查 FC交换机单模级联端口的 buffer credit 设置是否正确,及 VIS 端镜像同步是否限速)VIS 双活配置确定 VIS 四个节点的归属站点登陆 VIS 的 ISM 界面,查看 VIS 四节点状态及四节点归属主备站点信息。(注:0 号框对应的是 0、1 节点;1 号框对应的是 2、3 节点。通过对比 ISM 界面上获取的控制框序列号和控制框前面板SN,可以分析出主备站点的 VIS 节点号)上的3.4.2 配置双活站点使用“settmirsite”将 VIS6600T 所有节点

20、分别配置到 A、B 两个站点,例如指定 0 和 1 节点归属于 A 站点,站点名称为 site_a,;配置指定 2 和 3 节点归属于 B 站点,站点名称为 site_b:3.4.3 查询 VIS 可以接管的可用阵列“showtmirarray”命令显示VIS6600T 当前接管的所有可用阵列:3.4.4 配置阵列到对应站点根据实际镜像业务和阵列的部署,将阵列配置到对应站点,并指定别名。如将两台阵列分别配置在 A、B 两个站点,且别名分别为“site_ZF_S5600T”和“site_XX_S5600T”。3.4.5 启用双活配置完站点后,“starttmir”启用证一边站点 VIS 可以继续

21、工作。双活。以便站点间平面中断后,可以进行 VIS 仲裁,保3.4.6 查询配置信息使用“showtmirconfinfo”查看配置结果。3.4.7 删除配置命令增加新的镜像阵列或调整原有镜像阵列的部署时有可能需要重新配置双活,重新配置前必须先“stoptmir”后才能重新完成上述几步的配置;另外,重新配置一个站点前也必须先“deltmirsite-a”或“deltmirsite -b”删除对应站点配置;如果“sitetmirarray”错误配置了某个阵列,可以使用 “deltmirarray”将其删除,然后重新配置。3.4.8 设置优先存活站点【可选配置】可以根据实际需要选择一个站点作为优先

22、级站点,即如果发生站点间心跳故障集群仲裁时,优先存活该站点。如选择 A 站点为优先站点:3.4.9 设置 siteread 策略【可选配置】可以根据实际需要适当提高读性能,设置逻辑盘组内所有镜像卷优先选择读本站点阵列。设置 siteread 策略,针对不同的磁盘组设置本地读策略。3.5 VIS 双活基本功能验证和可靠性验证双活部署完毕以后,需要对双活方案进行基本功能验证和可靠性验证。4案例4.1 VIS 心跳交换机开启 STP 协议,导致集群搭建失败现象描述两个站点的 VIS 的 IP 心跳,通过交换机 CE12808 互联,搭建过,出现集群中多个节点号错乱、且有不断复位的现象,无法构建 4

23、节点集群。可能原因1.首先排查心跳链路是否互通,结果为 VIS 的 4 个节点能互通,链路状态正常可达;2.通过抓包分析,发现 VIS 集群搭建初期的节点号协商帧(二层广播包)从交换机 CE12808 心跳 VLAN 的一个端口进入后,没有广播到心跳 VLAN 的其余端口,由此断定集群节点号协商帧被交换机过滤掉。3.排查交换机的配置,发现 CE12808 的 STP 协议是默认开启的,这种协议会将一些特殊的广播滤。由此出结论:VIS 采用外部心跳方式,连接 VIS 心跳端口的以太网交换机,不能开启 STP 协议。处理步骤步骤1: 由网络工程师在 CE12808步骤2: 重启 4 节点 VIS。

24、交换机中,关闭 VIS 心跳端口的 STP 协议;-结束建议与总结CE12808 交换机开启 STP 协议后,端口从 up 到端口正常转发,大概有 24 秒左右的时间,所以设备一上电成功就马上发送报文的话就会被阻塞掉。S5700 和 S5300 默认是不开启全局 STP 协议的。但是,大部分交换机(如 CE12808 等)默认是开启 STP协议的,用于防止环路,如果 VIS 的心跳连接在这些交换机中,一定要注意在交换机上关闭 VIS 心跳端口的 STP 协议。4.2 双活场景,VIS 心跳端口速率协商不一致导致集群搭建过出现反复重启的现象现象描述VIS 集群搭建过,出现集群四个节点接连不断重启

25、的现象。可能原因VIS 集群四节点接连不断重启,原因通常与心跳有关,已知场景导致 VIS 集群节点不断重启的情况有:连接两站点 VIS 的中间网络设备如果生成树协议 STP 开启,会将 VIS 集群节点协商报文过滤会导致节点协商失败,会出现节点不断复位的现象。在现网进行排查,排除了上述这种情况。将主站点的一套 VIS 下电,备站点的一套 VIS 可以启动成功,不会出现不断重启的现象,而将主站点的一个节点上电,这个节点会接连不断复位,进一步判断肯定是两个站点之间的心跳链路有问题,通过收集日志分析发现是由于主站点的四个心跳端口速率协商异常(1000M 的速率协商成了 100M),备站点的端口协商正

26、常,两端的心跳速率协商不一致会导致心跳报文发生阻塞,心跳响应时间超过 8 秒会导致集群脑 裂,出现节点不断复位的情况。处理步骤通过逐一排查交换机端口、VIS 心跳端口和连接网线,发现是网线质量问题,更换质量好的网线后,问题解决。建议与总结在搭建 VIS 四节点集群前,查看 8 个心跳端口的速率是否协商一致,如果不一致,需要排查原因且解决后,方可进行集群搭建。4.3 FC 交换机不设置 BB-credit buffer,导致单根单模光纤级联后实测带宽与理论带宽相差很大现象描述VIS 集群工作正常,两个数据中心网络相距 7.2km,采用 4 对 8G 25KM 的单模光模块级联,断开其中 3 对级

27、联线路,只保留一对线路,理论带宽应为 750MBps,但是实测带宽只有 220MBps,实测带宽远低于理论带宽。可能原因检查两个站点间级联交换机是否设置 BB_credit buffer,没有设置。处理步骤步骤1: 登录 FC 交换机,按照SNS2124&SNS2224&SNS2248 光纤交换机长距离传输 专项技术白皮书设置符合两个数据中心网络距离的 BB_credit buffer;错误!无效。步骤2: 在 FC 交换机中,查看同步带宽是否符合预期。-结束建议与总结SNS2124/SNS2224/SNS2248FC 交换机端口默认分配 8 个 Buffer Credit。在不同传输速率下,

28、8 个 Buffer Credit 支持的最远传输距离分别是:1 Gbps 速率支持 10 km 距离、 2Gbps 速率支持 5 km 距离、4 Gbps 速率支持 2 km 距离、8 Gbps 速率支持 1km 距离。交换机在没有 Extended Fabric License 的下,支持的最远传输距离为 10 km,超过10 km 时,交换机必须需要配置 Extended Fabric License。4.4 双活场景,镜像故障修复后,镜像重同步速率缓慢现象描述1、主站点和备站点各给 VIS 集群,在 VIS 上将这两个相同大小的配置镜像关系,服务器通过 VIS 下发业务会同时在两个站点

29、的阵列上下发业务。2、当备站点阵列故障,VIS 上镜像卷的业务不会中断,但是业务只会下发到主站点的阵列上,待备站点故障恢复后,需要修复镜像,VIS 主节点上修复镜像。3、镜像修复完成后,可以查看镜像的同步速率。4、100G 的,同步了 30 分钟,同步进度才到 35.79%,同步速度异常。可能原因1、查看 FC 交换机的单模级联光模块 buffercredit 设置,发现设置正常。2、在阵列侧开启性能,发现写 IO 带宽在 8MBit/s,在 VIS 上查看发现镜像已经限速,Mirror auto 状态为 ON,且 Throttle 为 100,表示镜像限速,需要将限速关掉。处理步骤1、在 C

30、LI 下使用命令将限速关闭,Mirror auto 状态为 OFF,且 Throttle 为 0,表示镜像没有限速。2、在阵列侧查看写 IO 带宽上升到 600MBit/s。-结束建议与总结:双活场景下镜像同步速度慢的原因,一般情况下,需要排查交换机级联端口的 buffer credit 设置和 VIS 本身镜像是否限速。4.5 双活场景,主站点瘫痪业务中断恢复后,镜像关系无法修复现象描述背景描述:标准的双活方案采用两地三中心的方式来部署 VIS 集群和仲裁盘,但有些局点没有第仲裁站点,只能将三个仲裁盘分布到两个站点:采用主站点两个仲裁盘,备站点一个仲裁盘;或者三个仲裁盘全部部署在主站点,这两

31、种部署方式的影响是一样的,当备站点全部瘫痪,业务不会中断;而当主站点全部瘫痪,业务会中断,但是业务中断后,可以在备站点通过手动替换仲裁的方式将业务拉起。在进行“单站点瘫痪(主站点瘫痪)”用例测试过遇到了一个问题-“故障逻辑盘变为 detach,脱离逻辑盘组,当恢复逻辑盘后使用各种办法都无法将这些盘挂接回逻辑盘组”。具体操作步骤和现象如下:1、下电主站点 VIS 和阵列,注意:下电主站点 VIS 和阵列前,要确保备站点的 3个用于拉起业务的预留的 100M 的仲裁盘已经给 VIS,且 VIS 可以正常扫到盘。2、VIS 集群四个节点全部故障,业务中断。3、待备站点的 VIS 启动完成(状态为 cvmtimeout,表示启动失败)。且备站点看不到仲裁盘信息。4、在 CLI 下使用 vxappend clrfen 命令清除仲裁,vxappend clearkey 命令清除 key值,然

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论