HCIE-Cloud云计算故障处理指导手册_第1页
HCIE-Cloud云计算故障处理指导手册_第2页
HCIE-Cloud云计算故障处理指导手册_第3页
HCIE-Cloud云计算故障处理指导手册_第4页
HCIE-Cloud云计算故障处理指导手册_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 DOCPROPERTY Product&Project Name DOCPROPERTY DocumentName 华为专有和保密信息版权所有 华为技术有限公司文档版本 DOCPROPERTY DocumentVersion 01 ( DOCPROPERTY ReleaseDate 2015-12) DOCPROPERTY Product&Project Name HCIE-Cloud云计算故障处理指导手册目 录 TOC o 1-3 h z u HYPERLINK l _Toc40384997 目 录 PAGEREF _Toc40384997 h 1 HYPERLINK l _Toc4038

2、4998 1 故障处理介绍 PAGEREF _Toc40384998 h 3 HYPERLINK l _Toc40384999 1.1 故障处理概述 PAGEREF _Toc40384999 h 3 HYPERLINK l _Toc40385000 1.1.1 什么是故障? PAGEREF _Toc40385000 h 3 HYPERLINK l _Toc40385001 1.1.2 故障处理流程 PAGEREF _Toc40385001 h 3 HYPERLINK l _Toc40385002 1.2 介绍 PAGEREF _Toc40385002 h 4 HYPERLINK l _Toc4

3、0385003 1.2.1 关于本 PAGEREF _Toc40385003 h 4 HYPERLINK l _Toc40385004 1.2.2 目的 PAGEREF _Toc40385004 h 4 HYPERLINK l _Toc40385005 1.3 拓扑 PAGEREF _Toc40385005 h 4 HYPERLINK l _Toc40385006 1.4 网络环境说明 PAGEREF _Toc40385006 h 6 HYPERLINK l _Toc40385007 1.4.1 网段划分说明 PAGEREF _Toc40385007 h 6 HYPERLINK l _Toc4

4、0385008 1.4.2 RH2288H V3服务器4网卡组网 PAGEREF _Toc40385008 h 7 HYPERLINK l _Toc40385009 1.4.3 交换机配置示例 PAGEREF _Toc40385009 h 8 HYPERLINK l _Toc40385010 2 FusionCompute故障处理 PAGEREF _Toc40385010 h 9 HYPERLINK l _Toc40385011 2.1 故障分类 PAGEREF _Toc40385011 h 9 HYPERLINK l _Toc40385012 2.2 目的 PAGEREF _Toc40385

5、012 h 10 HYPERLINK l _Toc40385013 2.3 一:虚拟机无法通信 PAGEREF _Toc40385013 h 10 HYPERLINK l _Toc40385014 2.3.1 故障现象 PAGEREF _Toc40385014 h 10 HYPERLINK l _Toc40385015 2.3.2 可能原因 PAGEREF _Toc40385015 h 10 HYPERLINK l _Toc40385016 2.3.3 定位思路 PAGEREF _Toc40385016 h 10 HYPERLINK l _Toc40385017 2.3.4 故障处理 PAGE

6、REF _Toc40385017 h 10 HYPERLINK l _Toc40385018 2.3.5 验证结果 PAGEREF _Toc40385018 h 11 HYPERLINK l _Toc40385019 2.4 二:VRM通信异常故障 PAGEREF _Toc40385019 h 11 HYPERLINK l _Toc40385020 2.4.1 故障现象 PAGEREF _Toc40385020 h 11 HYPERLINK l _Toc40385021 2.4.2 可能原因 PAGEREF _Toc40385021 h 11 HYPERLINK l _Toc40385022

7、2.4.3 故障处理 PAGEREF _Toc40385022 h 11 HYPERLINK l _Toc40385023 2.4.4 验证结果 PAGEREF _Toc40385023 h 17 HYPERLINK l _Toc40385024 3 FusionAccess故障处理 PAGEREF _Toc40385024 h 18 HYPERLINK l _Toc40385025 3.1 故障分类 PAGEREF _Toc40385025 h 18 HYPERLINK l _Toc40385026 3.2 目的 PAGEREF _Toc40385026 h 18 HYPERLINK l _

8、Toc40385027 3.3 一:虚拟机发放失败 PAGEREF _Toc40385027 h 19 HYPERLINK l _Toc40385028 3.3.1 故障现象 PAGEREF _Toc40385028 h 19 HYPERLINK l _Toc40385029 3.3.2 故障定位 PAGEREF _Toc40385029 h 19 HYPERLINK l _Toc40385030 3.3.3 故障处理 PAGEREF _Toc40385030 h 20 HYPERLINK l _Toc40385031 3.4 二:WI无法显示虚拟机列表 PAGEREF _Toc4038503

9、1 h 20 HYPERLINK l _Toc40385032 3.4.1 故障现象 PAGEREF _Toc40385032 h 20 HYPERLINK l _Toc40385033 3.4.2 故障定位 PAGEREF _Toc40385033 h 20 HYPERLINK l _Toc40385034 3.4.3 故障处理 PAGEREF _Toc40385034 h 25 HYPERLINK l _Toc40385035 3.5 三:虚拟机无法登录故障 PAGEREF _Toc40385035 h 25 HYPERLINK l _Toc40385036 3.5.1 故障现象 PAGE

10、REF _Toc40385036 h 25 HYPERLINK l _Toc40385037 3.5.2 故障定位 PAGEREF _Toc40385037 h 26 HYPERLINK l _Toc40385038 3.5.3 故障处理 PAGEREF _Toc40385038 h 27 HYPERLINK l _Toc40385039 3.5.4 验证结果 PAGEREF _Toc40385039 h 27 HYPERLINK l _Toc40385040 4 FusionCloud故障处理 PAGEREF _Toc40385040 h 27 HYPERLINK l _Toc4038504

11、1 4.1 故障分类 PAGEREF _Toc40385041 h 27 HYPERLINK l _Toc40385042 4.2 目的 PAGEREF _Toc40385042 h 28 HYPERLINK l _Toc40385043 4.3 一:外部网络删除失败 PAGEREF _Toc40385043 h 29 HYPERLINK l _Toc40385044 4.3.1 故障现象 PAGEREF _Toc40385044 h 29 HYPERLINK l _Toc40385045 4.3.2 故障定位 PAGEREF _Toc40385045 h 29 HYPERLINK l _To

12、c40385046 4.3.3 故障处理 PAGEREF _Toc40385046 h 29 HYPERLINK l _Toc40385047 4.3.4 验证结果 PAGEREF _Toc40385047 h 29 HYPERLINK l _Toc40385048 4.4 二:云硬盘删除失败 PAGEREF _Toc40385048 h 29 HYPERLINK l _Toc40385049 4.4.1 云硬盘的实现原理 PAGEREF _Toc40385049 h 29 HYPERLINK l _Toc40385050 4.4.2 故障现象 PAGEREF _Toc40385050 h 3

13、1 HYPERLINK l _Toc40385051 4.4.3 故障定位 PAGEREF _Toc40385051 h 31 HYPERLINK l _Toc40385052 4.4.4 故障处理 PAGEREF _Toc40385052 h 31 HYPERLINK l _Toc40385053 4.5 三:云主机发放失败故障 PAGEREF _Toc40385053 h 32 HYPERLINK l _Toc40385054 4.5.1 云主机实现原理 PAGEREF _Toc40385054 h 32 HYPERLINK l _Toc40385055 4.5.2 故障定位 PAGERE

14、F _Toc40385055 h 32 HYPERLINK l _Toc40385056 4.5.3 故障处理 PAGEREF _Toc40385056 h 33 HYPERLINK l _Toc40385057 5 附录 PAGEREF _Toc40385057 h 42 HYPERLINK l _Toc40385058 5.1 导入环境变量 PAGEREF _Toc40385058 h 42故障处理介绍故障处理概述什么是故障?故障是系统不能执行规定功能的状态。通常而言,故障是指系统中部分元器件功能失效而导致整个系统功能恶化的事件。设备的故障一般具有五个基本特征:层次性、传播性、放射性、延时

15、性、不确定性等。故障处理流程故障处理总体流程主要分为四个过程:故障信息收集、故障判断、故障定位、故障排除。故障信息收集故障信息是故障处理的重要依据,系统维护人员应尽可能多的收集故障信息。故障判断排除故障之前,系统维护人员根据收集的故障详细信息,对故障范围和类型进行判断。故障定位故障定位是指从众多可能原因中找出故障原因的过程。通过一定的方法或手段分析、比较各种可能的故障成因,不断排除非可能因素,最终确定故障发生的具体原因。以下是故障定位的常用方法:在管理界面查看告警信息在管理界面查看监控信息是否正常查询操作日志,分析操作过程是否有误在管理界面检查数据配置是否正确观察设备指示灯状态是否正常故障排除

16、故障排除是指根据不同的故障原因清除故障的过程。故障排除包括检修线路、修改配置数据、重启相关进程、重启服务器等。确认故障是否被排除通过查询设备状态、查看设备指示灯和告警等方法确认系统已正常运行,并进行相关业务调测以确保业务正常。记录故障处理过程故障排除后应记录故障处理要点,给出针对此类故障的防范和改进措施,避免同类故障再次发生。介绍关于本本主要介绍FusionCompute,FusionAccess,FusionStorage Block,FusionCloud故障处理,了解故障处理方法和故障处理流程,学习如何处理故障。目的理解故障处理的思路掌握FusionCompute故障处理方法掌握Fusi

17、onAccess故障处理方法掌握FusionStorage Block故障处理方法掌握FusionCloud故障处理方法拓扑华为考试中心HCIE-Cloud环境由5台华为RH2288H V3服务器搭建而成,服务器之间使用1台华为S5700交换机进行连接。地区部、供应商、HALP可以参考该指南搭建HCIE-Cloud环境。如下华为考试中心HCIE-Cloud环境网络拓扑图。华为考试中心HCIE-Cloud环境主要包含8大云计算产品解决方案,具体部署如下:解决方案所在主机部署形式FusionCloud 6.3 控制节点RH2288H V3_1 RH2288H V3_2RH2288H V3_3Fus

18、ionCloud Deploy自动部署FusionSphere OpenStack控制节点。FusionCloud 6.3 计算节点RH2288H V3_4FusionCloud Deploy自动部署FusionSphere OpenStack计算节点。ManageOne运维面(OC)RH2288H V3_1 RH2288H V3_2RH2288H V3_3主备OperationCenter以虚拟机形式自动部署在FusionSphere OpenStack控制节点上。ManageOne运营面(SC)RH2288H V3_1 RH2288H V3_2RH2288H V3_3主备ServiceCe

19、nter以虚拟机形式自动部署在FusionSphere OpenStack控制节点上。ManageOne部署面(管理侧)RH2288H V3_1 RH2288H V3_2RH2288H V3_3主备CloudOpera以虚拟机形式自动部署在FusionSphere OpenStack控制节点上。FusionStorageRH2288H V3_1 RH2288H V3_2RH2288H V3_3RH2288H V3_4主备节点FusionStorage Manager以虚拟机形式自动部署在FusionSphere OpenStack控制节点上;4个节点(Openstack控制节点和计算节点)全部

20、加入FusionStorage集群。FusionCloud 6.3 eBackup ServerRH2288H V3_5为节省物理服务器,此处主备eBackup Server以虚拟机形式部署在服务器虚拟化环境中。(生产环境中必须采用物理机部署)FusionCloud 6.3 云服务虚拟机RH2288H V3_1 RH2288H V3_2RH2288H V3_3主备云服务虚拟机LVS、Nginx、NTP、Haproxy、APIGateway、TaskCenter、DNS等以虚拟机形式自动部署在FusionSphere OpenStack控制节点上。FusionComputeRH2288H V3_

21、5单节点VRM以虚拟机形式部署在服务器虚拟化环境中。FusionAccessRH2288H V3_5单节点ITA/GaussDB/HDC/WI/License、vAG/vLB、AD/DNS/DHCP以虚拟机形式部署在服务器虚拟化环境中。服务器虚拟化eBackupRH2288H V3_5单节点eBackup以虚拟机形式部署在服务器虚拟化环境中。(生产环境中必须采用物理机部署)RainbowRH2288H V3_5单节点Rainbow以虚拟机形式部署在服务器虚拟化环境中。FusionCloud DeployRH2288H V3_6FusionCloud Deploy节点采用物理机部署,此处为临时使

22、用,在FusionCloud 6.3安装完成后可删除或与其他待部署环境共用。网络环境说明网段划分说明网段类型VLAN ID网段网关备注BMC20/2454存储平面21/2454管理/业务平面22/2454External_OM22/2454External_API23/2454Internal_Base24/24/20(系统默认提供,不建议修改)external_relay_network25/24用户网络26/24用户网络27/24public_service28/2454dmz_service29/2454dmz_tenant30/2454heartbeat31/2454注:以上网段的详细

23、说明,请参考配套的产品安装手册,这边仅作概要例举。RH2288H V3服务器4网卡组网如下图是6台RH2288H V3服务器网卡组网图。服务器BMC管理平面网络:所有服务器BMC网口单独连接。管理/业务平面网络:除FusionCloud Delopy节点外,所有RH2288H V3服务器的eth0、eth1绑定为主备模式,承载管理、业务及其他网络流量。存储平面网络:除FusionCloud Delopy节点外,所有RH2288H V3服务器的eth2、eth3绑定为主备模式,承载存储流量。FusionCloud Deploy节点只使用1个10GE的eth0网口,并与Internal Base、

24、External API以及External OM平面互通,实现与外部环境(例如执行机PC)、待部署环境网络的互通。在安装部署任务未完成前,FusionCloud Deploy节点的其他网口请勿连线。交换机配置示例服务器BMC管理网络Vlan 20interface GigabitEthernet0/0/1port link-type hybridport hybrid pvid vlan 20port hybrid untagged vlan 20管理/业务网络Vlan 2231interface GigabitEthernet0/0/13port link-type hybridport

25、hybrid pvid vlan 24port hybrid tagged vlan 22 to 23 25 to 31port hybrid untagged vlan 24FusionCloud Deploy节点eth0口所连网络interface GigabitEthernet0/0/18port link-type hybridport hybrid tagged vlan 22 to 24存储网络Vlan 21interface GigabitEthernet0/0/31port link-type hybridport hybrid tagged vlan 21注:以上配置仅供参考

26、,请根据实际情况配置,例如Hybrid模式可更换为Trunk,详细配置命令请参考相应的交换机配置文档。FusionCompute故障处理故障分类FusionCompute提供的故障处理故障大类故障子类故障名称常见故障处理用户虚拟机故障虚拟机蓝屏SUSE虚拟机网卡不可用Ubuntu10.04及以上版本操作系统中uvp-monitor进程未启动Windows Server 2003虚拟机绑定USB 2.0设备后,虚拟机黑屏或关机失败SUSE 10虚拟机不能正常使用USB 2.0设备SUSE11 SP2 32bit多网卡虚拟机无法获取到网关重启或关闭主机网络服务后,主机网络异常虚拟机同时绑定SCSI

27、磁盘和IDE磁盘时无法正常启动本地磁盘的ext4文件系统损坏虚拟机内存数值显示异常跨主机通信的虚拟机间通信带宽过低虚拟机重启后网络不通管理节点故障单个VRM虚拟机故障单个VRM物理节点操作系统故障主机操作系统故障操作维护类故障FusionComute无法获取监控数据主机管理网络配置与交换机不匹配异常掉电再上电后,任务长时间无响应网络数据残留导致添加主机失败高斯数据库分区使用率超过95%,导致FusionCompute无法登录卷删除成功后解关联或销毁数据存储失败使用虚拟化SAN存储的主机异常重启交换机开启STP功能导致添加主机失败Tools故障Windows下安装Tools时弹出警告提示Wind

28、ows下安装Tools时异常中止应急处理管理节点故障主备VRM虚拟机操作系统同时故障主备VRM物理节点操作系统同时故障共享存储的VIMS文件系统损坏部件更换-部件更换策略更换主机拆卸/增加/更换物理网卡目的本主要介绍FusionCompute故障处理,了解故障处理方法和故障处理流程,学习如何处理故障。FusionCompute故障处理一:虚拟机无法通信二:VRM通信异常故障一:虚拟机无法通信故障现象配置了静态IP地址和网关的虚拟机在重启后出现网络不通,VNC登录该虚拟机查看网络配置,发现网关丢失。可能原因虚拟机的计算机名与网络中其他虚拟机计算机名相同,在网络中注册IP地址时导致冲突。定位思路对

29、于Windows虚拟机,VNC登录虚拟机,在“开始菜单”右键单击“计算机”,选择“管理”,在计算机管理中选择“计算机管理(本地) 系统工具 事件查看器 Windows日志 系统”中查看日志,其中存在级别为“错误”的日志信息,描述为虚拟机的计算机名不能注册到某IP地址,因为另一个IP地址已经占用该计算机名。对于Linux虚拟机,VNC登录该虚拟机,查看网卡配置,发现网卡的网关丢失。故障处理判断虚拟机操作系统类型。 Windows虚拟机,执行步骤 2。 Linux虚拟机,执行步骤 7。(Windows虚拟机操作以Windows 7操作系统为例)使用VNC登录虚拟机,在“开始菜单”右键单击“计算机”

30、,选择“属性”。 在右侧单击“更改设置”。弹出“系统属性”窗口。在“计算机名”页签单击“更改”。弹出“计算机名/域更改”对话框。修改计算机名为环境中唯一的计算机名,然后单击“确定”。 重新设置计算机的网卡属性。处理完毕。(Linux虚拟机操作以SUSE操作系统为例)使用VNC登录虚拟机,执行vi /etc/hostname命令以VI编辑器打开主机名配置文件。 对于Red Hat操作系统,需要先执行echo HOSTNAME=$hnOld $mountpath/etc/sysconfig/network命令将原主机名写入配置文件,然后执行vi /etc/sysconfig/network命令以V

31、I编辑器打开主机名配置文件。按“i”进入编辑模式,修改“HOSTNAME”的值为全网段唯一的名称。 按“ESC”并输入:wq保存修改。 执行vi etc/syscionfig/network/route命令以VI编辑器打开网关配置文件。 按“i”进入编辑模式,修改“default”后的值为正确的网关。 按“ESC”并输入:wq保存修改。 验证结果在虚拟机侧ping网关,是否可达。在交换机侧ping虚拟机地址,是否可达。若都可达,问题解决。二:VRM通信异常故障故障现象系统运行过程中,出现以下故障现象。 VRM主备部署时,单个VRM虚拟机故障,且重启该虚拟机后业务仍无法恢复。出现“ALM-15.

32、1002000 主备间节点心跳故障”告警。VRM主备部署时,单个VRM虚拟机所在主机异常下电。主机重新上电后切换该VRM虚拟机为VRM主节点,可打开FusionCompute登录界面,但无法登录。可能原因VRM虚拟机文件系统被破坏。故障处理查询故障VRM节点的信息登录FusionCompute。 若出现“现象描述”中第三种情况,此时无法登录FusionCompute,则需要重启故障VRM所在主机,待主备VRM倒换后,再登录FusionCompute。在“监控 告警”页面,找到生成的“ALM-15.1002000 主备间节点心跳故障”告警,查看该告警的附加信息并记录该故障节点的IP地址。 选择“

33、虚拟机和模板”。 在“虚拟机”页面,通过虚拟机的IP地址找到故障VRM虚拟机。 查看并记录故障VRM虚拟机所属的主机。 在“主机”页签,通过主机名称找到故障VRM虚拟机所在主机。 查看并记录该主机的IP地址。修改主机配置使用“PuTTY”,登录故障VRM节点所在主机。以“gandalf”用户,通过管理IP地址登录。执行以下命令,并按提示输入“root”用户的密码,切换至“root”用户。 su - root执行以下命令,防止系统超时退出。 TMOUT=0执行以下命令,修改VRM监控配置。 cd /opt/galax/eucalyptus/usr/share/eucalyptussh vrm_m

34、onitor.sh set显示如下信息,表示VRM监控配置修改成功。 set VM_RECOVER_TIME succeed重新安装故障VRM虚拟机在FusionCompute中,使用VNC方式登录故障VRM虚拟机。 挂载光驱,选择“FusionCompute V100R006C10RC1SPC001_VRM.iso”。 此处不勾选“立即重启虚拟机,安装操作系统”。使用“PuTTY”,登录故障VRM虚拟机所在主机。以“gandalf”用户,通过管理IP地址登录。执行以下命令,并按提示输入“root”用户的密码,切换至“root”用户。 su - root执行以下命令,防止系统超时退出。 TMO

35、UT=0执行以下命令,设置故障VRM虚拟机从光驱启动。 /opt/galax/NCclient ncModifyBoot VRM虚拟机ID cdrom执行以下命令,强制重启故障VRM虚拟机。 /opt/galax/NCclient ncRebootVM VRM虚拟机ID 1例如:/opt/galax/NCclient ncRebootVM i-00000001 1重新安装VRM虚拟机。 安装之前,请记录VRM虚拟机原有的IP地址、主机名和用户密码,重新安装时,这些信息需要与原有的保持一致。卸载光驱在虚拟机“硬件”页签中,单击“光驱”。 在光驱页面,单击“卸载光驱”。弹出提示框。单击“确定”。完

36、成卸载光驱。是否使用智能网卡? 是,执行恢复VRM虚拟机的规格步骤否,执行检测和恢复网卡乱序步骤。检测和恢复网卡乱序使用“PuTTY”,登录故障VRM虚拟机所在主机。以“gandalf”用户,通过管理IP地址登录。执行以下命令,并按提示输入“root”用户的密码,切换至“root”用户。 su - root执行以下命令,防止系统超时退出。 TMOUT=0执行以下命令,查询VRM虚拟机的Domain ID。 xl list回显如下类似信息,其中“ID”列显示的值为虚拟机的Domain ID。Name ID Mem VCPUs State Time(s)Domain-0 0 3584 2 r 19

37、1256.0i-00000002 1 3071 2 -b 125717.7i-0000000D 33 16383 2 -b 27127.6执行以下命令,查询VRM虚拟机的eth0网口是否已乱序。 xenstore-ls -f | grep vif/Domain ID/0/bridge例如:xenstore-ls -f | grep vif/33/0/bridge显示如下类似信息,如果显示信息中包含“br.1.pg.1”,说明网卡没有乱序,否则说明网卡已乱序。/local/domain/0/backend/vif/33/0/bridge = br.1.pg.1恢复VRM虚拟机的规格故障前VRM虚

38、拟机的规格,可在FusionCompute中VRM虚拟机的“硬件”页签中查询。使用“PuTTY”,登录新安装的VRM节点。以“gandalf”用户,通过管理IP地址登录。执行以下命令,并按提示输入“root”用户的密码,切换至“root”用户。 su - root执行以下命令,防止“PuTTY”超时退出。 TMOUT=0执行以下命令,进入/opt/galax/vrm/tomcat/script目录。 cd /opt/galax/vrm/tomcat/script/执行以下命令,运行配置脚本。 sh modifyVrmNodeMemory.sh 命令参数命令参数的取值范围如下: 表1 管理虚拟机

39、配置脚本数据参数说明取值样例命令参数虚拟机规格的参数。取值范围: S:虚拟机规格为2个CPU、3GB内存 M:虚拟机规格为4个CPU、5GB内存 L:虚拟机规格为8个CPU、8GB内存 XL:虚拟机规格为12个CPU、16GB内存 XXL:虚拟机规格为20个CPU、30GB内存S例如:sh modifyVrmNodeMemory.sh S回显如下信息,表示执行成功。modify vrm java heap successmodify OM java heap successmodify Portal java heap successmodify gaussdb spec success执行以

40、下命令,重启节点。 reboot配置主备关系重新安装VRM节点后,需要手动配置该节点主备关系。判断故障节点之前是否做过磁盘扩容操作。 是,执行虚拟机扩容步骤。否,执行步骤37“为VRM虚拟机扩容”部分,对磁盘分区空间进行扩容。 使用“PuTTY”,登录之前运行正常的VRM节点。以“gandalf”用户,通过管理IP地址登录。执行以下命令,并按提示输入“root”用户的密码,切换至“root”用户。 su - root执行以下命令,防止系统超时退出。 TMOUT=0执行以下命令,停止软件监控进程。 service had stop使用“PuTTY”,登录新安装的VRM节点。以“gandalf”用

41、户,通过管理IP地址登录。执行以下命令,并按提示输入“root”用户的密码,切换至“root”用户。 su - root执行以下命令,防止系统超时退出。 TMOUT=0执行以下命令,配置新安装的VRM节点为备节点。 sh /opt/galax/gms/common/ha/configHA.sh -m slave -l 本节点管理IP地址 -p 对端节点管理IP地址 -L 本节点名称 -P 对端节点名称 -f 浮动IP地址 -g 仲裁IP地址 例如:sh /opt/galax/gms/common/ha/configHA.sh -m slave -l -p -L VRM01 -P VRM02 -

42、f -g 在之前运行正常的VRM节点,执行以下命令,判断该节点是否为默认主节点。 cat /opt/galax/data/ha/hainfo | grep dftmode查看执行结果,dftmode的值是否为primary。 是,执行步骤 49。否,执行步骤 46。在新安装的VRM节点上,执行以下命令恢复默认主节点HA配置。 sh /opt/galax/gms/common/ha/InitPrimary.sh回显“Init HA successfully.”,表示执行成功。执行如下命令,检查软件监控进程是否运行。 service had status 执行如下命令,启动软件监控进程。 serv

43、ice had startFusionCompute的数据业务是否部署到独立的Oracle数据库? 是,执行步骤 50。否,执行步骤 52。在新安装的VRM节点上,执行以下命令切换目录。 cd /opt/galax/vrm/tomcat/script/db_shift执行以下命令,切换为oracle数据库。 sh switchDbToOracle.sh -mode slave -dbtype oracle -ipaddress IP地址-port 端口-instance实例名或sh switchDbToOracle.sh -mode slave -dbtype oracle -ipaddres

44、s IP地址 -port 端口 -service 服务名其中,“IP地址”:访问Oracle服务器的IP地址。 “端口”:访问Oracle数据库的端口号。 “实例”或“服务”:Oracle数据库中已创建的实例或服务。执行该命令大约耗时20秒。显示如下信息,表示执行成功。 Switch DB to Oracle successed!在之前运行正常的VRM节点,执行以下命令启动软件监控进程。 service had start等待约1分钟,执行以下命令,查看主备状态。 service had query显示如下信息,表示主备状态正常。dNODE ROLE PHASE RESS VER START

45、NODE ROLE PHASE RESS VER START ha2(VRM02) active Actived normal V100R001C01 2014-11-06 14:11:27ha1(VRM01) standby Deactived normal V100R001C01 2014-11-06 14:10:31恢复VRM备节点NTP服务新安装的VRM节点需要执行此操作。在FusionCompute上选择“系统管理 系统配置 时间管理”,记录NTP服务器的IP地址。 使用“PuTTY”登录主VRM节点,并切换至“root”用户。 执行以下命令,获取时区信息。 cat /etc/sys

46、config/clock | grep TIMEZONE显示如下信息:TIMEZONE=Asia/Beijing使用“PuTTY”登录恢复后的VRM节点,并切换至“root”用户。 执行以下命令,为恢复后的VRM节点配置NTP服务。 perl /opt/galax/gms/common/config/configNtp.pl -ntpip NTP服务器1的IP地址,NTP服务器12的IP地址,NTP服务器12的IP地址 -cycle 6 -timezone 时区信息 -force true例如:perl /opt/galax/gms/common/config/configNtp.pl -nt

47、pip -cycle 6 -timezone Asia/Beijing -force true显示如下信息:excute configNtp.pl begin.Shutting down network time protocol daemon (NTPD)excute configNtp.pl success修改ftppatchuser帐户的密码如果故障之前已经修改过VRM节点的ftppatchuser帐户的密码,则需要在VRM节点恢复后修改它的ftppatchuser帐户密码,以保证主备VRM节点的密码一致。故障之前是否修改过VRM节点的ftppatchuser帐户的密码? 是,参考修改f

48、tppatchuser帐户密码修改恢复后的VRM节点的ftppatchuser帐户密码。 否,无需处理,跳转至下一步。还原主机配置使用“PuTTY”,登录备VRM节点所在的主机。以“gandalf”用户,通过管理IP地址登录。执行以下命令,并按提示输入“root”用户的密码,切换至“root”用户。 su - root执行以下命令,防止系统超时退出。 TMOUT=0执行以下命令,还原VRM监控配置。 cd /opt/galax/eucalyptus/usr/share/eucalyptussh vrm_monitor.sh reset显示如下信息,表示VRM监控配置还原成功。reset VM_

49、RECOVER_TIME succeed配置告警上报和单点登录功能如果系统已配置单点登录和告警上报功能,VRM虚拟机恢复后,需重新配置该虚拟机(另一台VRM虚拟机无需重新配置)。配置FusionCompute告警上报。 配置单点登录。验证结果检查系统状态在FusionCompute中,查看“ALM-15.1002000 主备间节点心跳故障”告警是否已自动清除。 处理完毕。FusionAccess故障处理故障分类FusionCompute提供的故障处理故障大类故障子类故障名称常见故障处理用户虚拟机登录故障使用IE9浏览器无法登录WI使用IE8浏览器登录WI,界面图标布局不协调TC方式登录虚拟机输

50、入正确用户名密码后不能登录客户端无法登录虚拟机用户虚拟机使用故障虚拟机蓝屏虚拟机宕机虚拟机桌面屏幕闪烁SC方式登录虚拟机无法输入文字U盘目录下没有“新建”选项插入USB设备提示安装驱动程序插入USB设备时,提示“光盘设备使用之前须格式化”重大故障处理基础架构服务器故障系统启动时无法挂载分区DHCP服务器故障新增AUS配置失败ITA服务不可用目的本主要介绍FusionAccess故障处理,了解故障处理方法和故障处理流程,学习如何处理故障。FusionAccess故障处理一:虚拟机发放失败二:WI无法显示虚拟机列表三:虚拟机无法登录故障一:虚拟机发放失败故障现象现场发放虚拟机失败,提示连接HDC失

51、败,请检查HDC组件是否正常,在FA界面上也有HDC服务异常的告警,如下图为发放虚拟机失败报错。故障定位通过VNC登录HDC虚机查看各组件服务状态,执行命令 “service HDCService status”,系统显示HDC服务处于Exception状态,需要重启。执行命令”service HDCService start” 命令重启HDC服务;HDC服务可以正常启动。 再次查询HDC服务状态,系统显示服务正常。登陆到FA portal上清楚告警,约5分钟后告警重现。再次使用命令“service HDCService status” 查看该节点的HDC服务状态,HDC服务处于Excepti

52、on状态。再次重启后发现约10S后,服务Exception。查看/var/FusionAccess/HDC/tomcat下catalina.out日志,发现为内存不足支撑java运行,报错如下,让查看/opt/HDC/hs_err_pid129899.log查看/opt/HDC/hs_err_pid129899.log日志,显示swp内存为“0”如下图:由于现场测试环境内存不足,HDC虚拟机配置的内存4G,java运行时调用虚拟机内存,默认需要2G内存,虚拟机可用内存为0.76G左右,导致java无法正常运行。故障处理重启HDC虚拟机。再次发放虚拟机成功。二:WI无法显示虚拟机列表故障现象机房

53、异常掉电,重新上电后,通过WI登录虚拟机,提示“获取虚拟机列表失败”,再登录FusionAccess提示连接数据库异常。故障定位通过VNC登录HDC虚机查看各组件服务状态,数据库服务显示异常,如下图:尝试切换到gaussdba用户,执行start数据库服务失败,提示不能启动服务,报错如下:根据提示收集数据库的日志,查看gs_ctl-current.log日志只有2017-01-18 14:41:18的日志,之后的日志没有打印再查看带时间的日志,最后一个为gs_ctl-2017-01-05_094228.log,日志中报错为“could not write to log file: No spa

54、ce left on device”,如下图:再登录HDC虚拟机,执行df -h查看/var/目录使用为100%,如下图:通过执行查找大文件的命令du -sh * | sort -n显示为/var/ftpsite目录占用空间8.4G,如下图:在cd /var/ftpsite目录查看为FusionAccess_1目录下的备份文件占用8.4G空间,如下图,为各组件上传的备份文件:经确认为现场是单节点部署,在该节点上部署了BackupServer存放备组件的备份数据。故障处理将/var/ftpsite/ FusionAccess_1目录下的备份数据备份一份到本地后,将该目录下的文件删除。在su ga

55、ussdba 用户下,重启数据库服务:gs_ctl restart 。三:虚拟机无法登录故障故障现象在FusionAccess中批量下发链接克隆虚拟机,有部分虚拟机无法启动【告警信息】:无故障定位选择其中一个故障虚拟机,登录FusionCompute界面,找到这个虚拟机,记下虚拟机ID、虚拟机所在主机。 使用putty登录VRM浮动IP,切换到root账户, 执行如下命令,查询母卷和模版卷的URL。其中,“i-00000210”为故障虚拟机IDpsql vrm galax -W SingleLOUD!1 -c select vol_url from tbl_Vs_volume where vo

56、l_id in (select link_clone_parent from tbl_vs_volume where vol_id in (select volume_id from tbl_vm_volume where instance_id=i-00000210 and volume_type=NORMAL_VOL) or vol_id in (select TEMPLATE_SYS_VOL_ID from tbl_Vs_volume_gloden_master where vol_id in (select link_clone_parent from tbl_vs_volume wh

57、ere vol_id in (select volume_id from tbl_vm_volume where instance_id=i-00000210 and volume_type=NORMAL_VOL); 记下步骤2中回显的两个URL。Putty登录虚拟机所在主机,切换到root账户,执行命令diff URL1 URL2,对比母卷数据与模版卷是否有差异。若回显提示“Files URL1 and URL2 differ”,说明该虚拟机组的母卷与模版卷有差异。 确认虚拟所在数据存储开启了xcopy故障处理验证结果FusionCloud故障处理故障分类范围类别故障诊断云服务管理面故障诊断

58、弹性云服务器网络故障诊断(Type I)弹性云服务器存储故障诊断硬件故障硬件故障资源池故障FusionCompute故障FusionSphere OpenStack故障Service OM故障云管理故障ManageOne故障eSight故障云服务和公共组件故障弹性云服务故障镜像服务故障弹性伸缩故障云硬盘故障对象存储服务故障虚拟私有云故障灾备服务故障安全服务故障消息通知服务(全量版)故障消息通知服务(精简版)故障LVS故障Nginx故障HAProxy故障TaskCenter故障SDR故障CCS故障API Gateway故障RTS故障目的本主要介绍FusionCloud故障处理,了解故障处理方法和

59、故障处理流程,学习如何处理故障。FusionCloud故障处理一:外部网络删除失败二:云硬盘删除失败三:云主机发放失败故障一:外部网络删除失败故障现象故障定位故障处理验证结果二:云硬盘删除失败云硬盘的实现原理云硬盘逻辑架构云硬盘组件详情组件类型组件名称详情云服务ConsoleECS UI提供EVS管理控制台。云服务ServiceAPI Combination作为EVS服务端,接收EVS管理控制台请求,并调用FusionSphere OpenStack组件。公共组件API Gateway第三方应用通过API Gateway调用EVS接口。CCSCloud Configuration Servic

60、e,即云配置服务,是基于私有云提供接入云资源的云服务,为EVS提供配置磁盘类型服务。SDR生成计量、计费话单供EVS使用。资源池Cinder为运行的实例提供持久块存储的服务。在EVS服务里主要用于在存储设备上创建卷,并将卷挂载给虚拟机。Nova管理计算实例的服务。在EVS服务里主要用于获取虚拟机上的卷信息,并下发命令给Cinder。管理域IAM为EVS提供身份识别和访问管理。eSight提供性能监控和告警。云硬盘的业务流1.在EVS管理控制台上申请资源。2.组合API将请求分发到Cinder。3.Cinder根据申请存储资源的策略在存储池创建卷。4.ECS将块存储挂载到虚拟机。5.Nova通知

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论