




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、FusionCloud运维故障处理指南技术创新,变革未来FusionCloud是物理分散、逻辑统一、业务驱动、云管协同、业务感知的数据中心解决方案,可支持企业或机构业务的持续发展,能满足对业务全生命周期的管理。了解和掌握FusionCloud的故障处理方法,可以更好的部署和维护企业云计算环境。学完本课程后,您将能够:FusionCloud故障分类FusionSphere OpenStack日志查看虚拟机故障处理存储故障处理网络故障处理ManageOne ServiceCenter节点故障处理典型案例分析常见的服务异常处理思路FusionCloud高危操作FusionCloud故障分类Fusio
2、nSphere OpenStack日志查看虚拟机故障处理存储故障处理网络故障处理ManageOne ServiceCenter节点故障处理典型案例分析常见的服务异常处理思路FusionCloud高危操作FusionCloud 系统架构Region1FusionSphere计算节点3rd party vSphere对象存储Hadoop:FusionInsight 文件存储防火墙负载均衡监控管理CESCloudEye Service日志管理CTS:CloudTrace ServiceCeilometer消息通知SMNOpenstack API基础设施层3rd party 云服务服务目录扩展服务AP
3、I基础服务API公共服务API运维日志监控/性能告警容量单点登录运维管理员运营统一认证服务市场服务注册统一认证运营 API运维 APIConsole集成系统运维界面Keystone计量信息日志/监控/告警数据SDR话单:Service Detail Record3rd 短信/邮件Mail/SMSAPI 网关3rd party 计费资源池层云服务层管理域分布式存储对象存储服务器服务器组织/Project服务目录&控制台SSO弹性云服务器 控制台块存储服务控制台虚拟私有网络服务控制台私有镜像服务控制台安全服务控制台混合云服务控制台HDS服务控制台ADS服务控制台容器服务控制台对象存储服务控制台文件
4、存储服务控制台交换机ECSEVSSFSVPCOracle服务ELBIMSNovaCinderManilaNeutronGlanceHDSVMware云服务 安全服务(6个服务)灾备服务(5个服务)VPNOpenstack控制节点 MppDB:LibrA3rd party OracleADSOBS公共服务RDS混合云服务公有云(HWS)FusionInsight服务器LibrA服务器vSphere服务器Oracle服务器任务中心TaskCenter云备份云容灾IronicBMSSAP HANAvFWEIPSGASvAPP容器服务灾备服务控制台FusionCloud故障概览FusionCloud故
5、障虚拟机故障存储故障网络故障主机及主机组故障openstack服务故障ManageOne ServiceCenter节点故障处理FusionCloud故障分类FusionSphere OpenStack日志查看虚拟机故障处理存储故障处理网络故障处理ManageOne ServiceCenter节点故障处理典型案例分析常见的服务异常处理思路FusionCloud高危操作FusionSphere日志目录汇总服务服务包含的组件日志类型日志存储具体路径nova操作日志/var/log/fusionsphere/operate/nova-apinova-api运行日志/var/log/fusionsph
6、ere/component/nova-apinova-conductor/var/log/fusionsphere/component/nova-conductornova-scheduler/var/log/fusionsphere/component/nova-schedulernova-compute/var/log/fusionsphere/component/nova-computenova-console/var/log/fusionsphere/component/nova-consolenova-novncproxy/var/log/fusionsphere/component
7、/nova-novncproxynova-network/var/log/fusionsphere/component/nova-networkfc-nova-compute001/var/log/fusionsphere/component/fc-nova-compute001vmware-nova-compute001/var/log/fusionsphere/component/vmware-nova-compute001组件启停日志/var/log/fusionsphere/component/novaControlFusionSphere日志目录汇总服务服务包含的组件日志类型日志存储
8、具体路径cindercinder-api操作日志/var/log/fusionsphere/operate/cinder-api运行日志/var/log/fusionsphere/component/cinder-api组件启停日志/var/log/fusionsphere/component/cinder-apiControlcinder-scheduler运行日志/var/log/fusionsphere/component/cinder-scheduler组件启停日志/var/log/fusionsphere/component/cinder-schedulerControlcinder
9、-volume运行日志/var/log/fusionsphere/component/cinder-volume组件启停日志/var/log/fusionsphere/component/cinder-volumeControlcinder-volume-vrm001运行日志/var/log/fusionsphere/component/cinder-volume-vrm001组件启停日志/var/log/fusionsphere/component/cinder-volume-vrm001Controlcinder-volume-vmware001运行日志/var/log/fusionsph
10、ere/component/cinder-volume-vmware001组件启停日志/var/log/fusionsphere/component/cinder-volume-vmware001ControlFusionSphere日志目录汇总服务服务包含的组件日志类型日志存储具体路径neutron操作日志/var/log/fusionsphere/operate/neutron-apineutron-server运行日志/var/log/fusionsphere/component/nutron-serverneutron-sriov-nic-agent/var/log/fusionsph
11、ere/component/nutron-sriov-nic-agentneutron-evs-agent/var/log/fusionsphere/component/nutron-evs-agentneutron-reschedule/var/log/fusionsphere/component/nutron-rescheduleneutron-metadata-agent/var/log/fusionsphere/component/nutron-metadata-agentneutron-dhcp-agent/var/log/fusionsphere/component/nutron-
12、dhcp-agentneutron-l3-agent/var/log/fusionsphere/component/nutron-l3-agentneutron-servicechain-agent/var/log/fusionsphere/component/nutron-servicechain-agentneutron-metering-agent/var/log/fusionsphere/component/nutron-metering-agentneutron-openvswitch-agent/var/log/fusionsphere/component/nutron-openv
13、switch-agentneutron-netmap-nic-agent/var/log/fusionsphere/component/nutron-netmap-nic-agentneutron-vc-vswitch-agent/var/log/fusionsphere/component/nutron-vc-vswitch-agent001组件启停日志/var/log/fusionsphere/component/neutron/FusionSphere日志目录汇总服务服务包含的组件日志类型日志存储具体路径glanceglance操作日志/var/log/fusionsphere/oper
14、ate/glance-api运行日志/var/log/fusionsphere/component/glance-api运行日志/var/log/fusionsphere/component/glance-registry组件启停日志/var/log/fusionsphere/component/glanceControlswiftswift-proxy运行日志/var/log/fusionsphere/component/swift-proxyswift-store/var/log/fusionsphere/component/swift-store组件启停日志/var/log/fusion
15、sphere/component/swiftControlrabbitmqrabbitmq-server运行日志/var/log/fusionsphere/component/rabbitmqrabbitmq-client运行日志/var/log/fusionsphere/component/rabbitmq-clientkeystonekeystone操作日志/var/log/fusionsphere/operate/keystone-api/运行日志/var/log/fusionsphere/component/keystone组件启停日志/var/log/fusionsphere/com
16、ponent/keystoneControl/gaussdbgaussdb运行日志/var/log/fusionsphere/component/gaussdb组件启停日志/var/log/fusionsphere/component/gaussdbControl/ntpntp-server运行日志/var/log/fusionsphere/component/ntp-server/ntp-client/var/log/fusionsphere/component/ntp-client/查看日志信息使用putty/Xshell/SecureCRT等工具,通过SSH登录CPS反向代理执行以下命令
17、,导入环境变量source set_env选择鉴权方式举例:查看nova-api运行日志cat /var/log/fusionsphere/component/nova-apizgrep * xxxxzgrep volume_id *|grep ERRORFusionCloud故障分类FusionSphere OpenStack日志查看虚拟机故障处理存储故障处理网络故障处理ManageOne ServiceCenter节点故障处理典型案例分析常见的服务异常处理思路FusionCloud高危操作虚拟机创建流程APIFusionStorageFusionStorage volume-driverH
18、uawei SAN StorageHuawei volume-driverVRM volume-driverCNAVRMUVPKVMglanceOpenStacknova-apiOpenStacknova-conductorOpenStacknova-computeFC driverOpenStackcinder-apiOpenStackcinder-schedulerOpenStackcinder-volumeswiftUDSlibvirt driverFC集群IAMOpenStacknova-schedulerNeutron+AC1. 鉴权4.5 挂载卷4.2 选择主机3.2 选择主机3.
19、3 创建卷3.6 创建LUN4.6 创建虚拟机4.4 更新port信息4.1 任务管理3.4 获取镜像信息3.5 下载镜像并作格式转换多路径映射LUN到主机3. 创建卷APIAPI2. 创建port和EIP3.1 创建卷4. 创建虚拟机4.3 创建虚拟机创建虚拟机故障点服务异常Nova服务异常Cinder服务异常Neutron服务异常其他服务异常网络问题网络配置错误Neutron组件异常存储问题存储对接失败资源不足存储网络配置错误其他问题flavor问题rabbitmq服务异常可用分区问题镜像问题用户租户权限其他问题虚拟机故障分析看错误提示任务中心的错误提示看告警查看系统告警按告警帮助步骤处理
20、看日志查看FusionSphere日志搜索日志关键错误根据日志提示处理FusionCloud故障分类FusionSphere OpenStack日志查看虚拟机故障处理存储故障处理网络故障处理ManageOne ServiceCenter节点故障处理典型案例分析常见的服务异常处理思路FusionCloud高危操作创建卷流程APIFusionStorageFusionStorage volume-driverHuawei SAN StorageHuawei volume-driverVRM volume-driverglanceOpenStackcinder-apiOpenStackcinder-
21、schedulerOpenStackcinder-volumeswiftUDSFC集群IAM鉴权选择主机创建卷创建LUN获取镜像信息下载镜像并作格式转换创建卷API创建卷存储问题定位定界分层结合openstack场景存储组网及业务流程,总结存储问题定位定界分层:存储设备对接配置存储管理平面网络存储数据平面网络存储多路径卷挂载关系VMVMVMVolumeVolumeVolumeMultipath/UltraPathCinder-VolumeHuawei/HP DriverStorage data 1eth2eth3trunk0eth1eth04Data PortController PortLU
22、NLUNLUNStorage Device (OceanStor V3)Physical NetworkSSH/Rest5123ISCSI/FCOEHBA存储对接问题排查点存储对接配置排查点Blockstorage-driver角色部署Cinder-volume服务状态Cinder-scheduler存储资源刷新Cinder-volume日志排查创建卷测试blockstroage-driver 角色部署商用环境中volume_driver_ratio值为3,表示对接一个存储需要3个物理服务器部署cinder-volume模块的blockstroage-drive,通过如下命令查询cps tem
23、plate-params-show -service cinder cinder-volume|grep volume_driver_ratio如下所示的配置需要在6个节点上部署blockstroage-drive角色可以执行如下命令查看角色与节点的分布:cps host-list|grep -B2 blockstorage-driver 检查cinder-volume服务状态使用cinder service-list命令进行查询,其中cinder后端存储名称 对应的状态是up表示对接正常(举例中后端存储名称分别为StorageManager01,StorageManager02),每个后端存
24、储都会启动一个cinder-volume服务,尝试多次观察,对应cinder-volume服务都为up状态。cinder service-list 检查cinder-scheduler资源刷新状态观察cinder-scheduler后端存储信息刷新状态,检查pool_name 资源池名称、total_capacity_gb总容量信息与磁阵上对应状态进行比较确认对接输入的资源池等信息正确。tail -f /var/log/fusionsphere/component/cinder-scheduler/cinder-scheduler.log回显如下:2016-08-25T21:00:21.614
25、+08:00 localhost cinder-scheduler DEBUG pid:103502 GreenThread-138258 tid:53414160 req-4f3dd7f7-28ef-46f3-a1c7-d140eccc3942 host_manager.py:468 update_service_capabilities Received volume service update from cinderStorageService01: uTier_support: True, uio_workload: 0, uQoS_support: True, upools: uS
26、martCache: True, uQoS_support: True, uthick_provisioning_support: True, uhuawei_vvol_support: True, uallocated_capacity_gb: -9139, utotal_capacity_gb: 2816.0, uthin_provisioning_support: True, ufree_capacity_gb: 2298.0, uprovisioned_capacity_gb: 518.0, upool_name: uStoragePool002, ureserved_percenta
27、ge: 0, umax_over_subscription_ratio: 1.0, uSmartTier: True, uvolume_backend_name: uStorageService01, udriver_version: u1.1.0, ureserved_percentage: 0, uvendor_name:uHuawei, ustorage_protocol: uiSCSI检查cinder-volume资源刷新状态正常场景会显示资源刷新信息,异常场景会显示对接错误原因。 tail -f /var/log/fusionsphere/component/cinder-volum
28、e/cinder-volume.log 回显如下:2016-08-25T21:08:21.739+08:00 localhost cinder-volume DEBUG pid:102428 MainThread tid:57459888 hw_manager.py:53 update_service_capabilities Calculate the io_workload result, capabilities: Tier_support: True, io_workload: 0, QoS_support: True, driver_version: 1.1.0, volume_ba
29、ckend_name: StorageService01, reserved_percentage: 0, pools: SmartCache: True, allocated_capacity_gb: -9139, QoS_support: True, pool_name: StoragePool002, huawei_vvol_support: True, thick_provisioning_support: True, thin_provisioning_support: True, free_capacity_gb: 2298.0, provisioned_capacity_gb:
30、518.0, total_capacity_gb: 2816.0, reserved_percentage: 0, max_over_subscription_ratio: 1.0, SmartTier: True, vendor_name: Huawei, storage_protocol: iSCSI 使用ps aux命令检查cinder-volume进展状态是否正常; 如果进程正常,且发现Cinder-volume中无日志更新,可以使用重启进程命令:cinder-volumeControl -A RESTART指定后端存储创建卷测试如果卷可以正常创建说明存储对接正常,否则表示对接存在问题
31、,命令参考: cinder extra-specs-list cinder create 10 -volume-type san002 -name testConect cinder list 对接问题排错思路Cinder-volume状态是否正常cinder-volume,cinder-schedule资源刷新是否正常常见存储对接类问题定界思路主要通过如下两点1. 排查cinder-volume模块日志,通过报错关键字确认对接具体问题2. 通过使用对接账户登陆V3存储DeviceManager Portal, 排查存储Portal登录报错如用户被锁定,已达最大用户数,密码错误等。排查是否时间
32、不同步检查Openstack Cinder后端存储对接配置界面的资源池或RAID组信息是否配置正确,同时登陆存储设备管理Portal查看存储上的实际配置与Openstack中一致开始问题解决修改错误配置时间同步存储管理、数据平面网络问题排查具体现网网络排查可根据现网不同的组网、网络设备及排查经验进行排查物理服务器RH2288H交换机存储网络存储设备物理服务器上执行ping 临时IP 交换机执行:interface Vlanif 存储Vlan ID ip address 临时IP 子网掩码commitping 存储设备IP undo interface vlanif xx commit 存储设备
33、IP IPSAN场景1.排查端口链接状2.判断目标服务器IP是否可达FC/FCOE场景1.查看主机与存储连接情况IPSAN场景1.检查目标存储控制面IP可达2.检查目标存储数据面IP可达3.检查多路径软件是否正常FCOE场景1.检查服务器端HBA卡状态及物理主机侧WWN号2.检查服务器本端HBA卡与远端存储设备FC端口是否连接正常3.华为多路径软件命令查看存储数据面网络是否正常FusionCloud故障分类FusionSphere OpenStack日志查看虚拟机故障处理存储故障处理网络故障处理ManageOne ServiceCenter节点故障处理典型案例分析常见的服务异常处理思路Fusi
34、onCloud高危操作网络虚拟化虚拟机虚拟接口虚拟连接虚拟端口虚拟网络Neutron的管理对象面向租户的逻辑网络控制租户视图VS服务提供者视图租户视图服务提供者视图服务器1服务器2服务器3Network ANetwork BHypervisorHypervisorHypervisor虚拟机网络VM1VM2NetworkRouterPort对象Subnet对象Network对象/24OVS类型网络分层定位定界 VMPhysnet1(ovs)tap0trunk1trunk0NIC2NIC3vNIC012333RH服务器NIC44抓包点1:虚拟机内部网卡抓包点2:虚拟机后端网卡(tap设备)抓包点2
35、:服务器物理网卡(eth或bond)排查交换机网络抓包点4:交换机接口trunk/eth-trunk排查虚拟机内部网络排查OVS虚拟化网络故障可能现象:虚拟机获取不到IP虚拟机不通qvm0Tap0 qvm0均为FusionSphere虚拟网口,只有开启安全组的前提下,才会有qvm0口FusionNetDoctor工具FusionNetDoctor是面向运维人员的,虚拟网络领域基于PING包的断流检测定界工具。工具在FusionCloud系统部署时默认在管理虚拟机中安装运行,在出现虚拟网络断流故障时由运维人员、用户登录使用进行断流定界。用户进行具体流量定界时,工具将动态推送脚本和tcpdump工
36、具到目标节点运行抓包流程,只抓取报文头部进行断流定界分析,并收集节点流量分析结果后直接显示给用户,不做数据保存。当租户虚拟机间的网络不通时,运维人员通过FusionNetDoctor工具的Web页面查询,就能故障位置进行快速定界。 检测功能核心能力功能业务流量限制检测结果一检测结果二检测结果三vm虚机查询虚机网络配置信息查询虚机网络拓扑异常信息汇总详细信息汇总vm间断流检测同vpc内虚机间流量有背景流量流量网络拓扑流量检测路径排查建议EIP流量检测EIP业务访问不通有背景流量流量网络拓扑流量检测路径排查建议EIPping探测EIP业务访问不通无背景流量流量网络拓扑流量检测路径排查建议VPN流量
37、检测VPN业务访问不通有背景流量流量网络拓扑流量检测路径排查建议VPNping探测VPN业务访问不通无背景流量流量网络拓扑流量检测路径排查建议ELB流量检测外部网络访问ELB业务不通有背景流量流量网络拓扑流量检测路径排查建议ELB流量检测VPC内访问ELB业务不通有背景流量流量网络拓扑流量检测路径排查建议断流检测工具-使用流程示例(虚机信息查询)支持多种方式查询:IP、name、ID详细信息汇总详细信息导出到文件,方便后续定位虚机关联网络拓扑示意断流检测工具-适用场景(VM间断流检测)-TYPE IL2层流量转发路径同主机L2层跨主机L2层跨AZ间L2层断流检测工具-适用场景(VM间断流检测)
38、-TYPE IL3层流量转发路径同主机L3层跨主机L3层跨AZ间L3层断流检测工具-使用流程示例(VM间断流检测)虚拟机IP作为输入,自动关联对应ID虚机关联网络拓扑示意流量检测路径列表详细信息导出到文件,方便后续定位工具根据检测结果给出初步排除建议导出文件显示流量路径详细信息,用于问题定位点击可查看反向流量检测结果断流检测工具-适用场景(VPN断流检测)VPN上行流量VPN下行流量(有L2GW)VPN下行流量(无L2GW)断流检测工具-使用流程示例(VPN断流检测)断流检测工具-使用流程示例(VPNping探测)断流检测工具-适用场景(EIP断流检测)EIP上行流量EIP上行流量断流检测工具
39、-使用流程示例(EIP断流检测)断流检测工具-使用流程示例(EIP ping探测)断流检测工具-适用场景(ELB断流检测)融合ELB东西向上行流量融合ELB东西向下行流量断流检测工具-适用场景(ELB断流检测)融合ELB南北向上行流量融合ELB南北向下行流量断流检测工具-使用流程示例(ELB断流检测)断流检测工具-使用流程示例(ELB断流检测)故障案例:虚拟机不通故障现象VNC登录虚拟机,可以正常登录。在虚拟机上查询到已经获取到了IP,但是通信异常,无法ping通网关。故障定位ssh登录反向代理,导入环境变量nova interface-list ,查看端口是否activeneutron ne
40、t-show ,查到所走的物理平面和vlan idneutron port-show ,找到虚拟机所在的主机idhost-list |grep host-id,找到主机的登录IPcat /usr/bin/ports_info | python -m json.tool,在登录主机执行后找到对应的物理网卡,下图显示nic0和nic1组bond为trunk0,对应物理网卡为eth0和eth1,最后走物理平面pthsnet1排查单板的物理网卡对应在交换机上的口有没有放通使用的VLAN;找实验室管理员确认,如果确认放通,继续排查;否则请管理员将虚拟机所在主机的vlan放通。故障原因物理网卡对应在交换机
41、上的口未放通使用的VLANFusionCloud故障分类FusionSphere OpenStack日志查看虚拟机故障处理存储故障处理网络故障处理ManageOne ServiceCenter节点故障处理典型案例分析常见的服务异常处理思路FusionCloud高危操作ManageOne ServiceCenter节点故障故障描述:数据库主节点实例正常,数据库备节点实例复制状态异常。可能原因:服务器网络中断。备数据库复制错误。预期角色与实际角色不符。故障倒换后数据冲突(GTID)。“binlog”被清理导致复制中断。人为对备数据库进行写操作,导致数据冲突。复制状态错误表 (1)错误码中文说明可能
42、原因处理建议101数据库实例所在节点DOWN,或实例DOWN。对应数据库节点未启动。对应数据库实例未启动,或数据库节点磁盘空间满。主备节点网络通信异常。结合实例编号的运行状态(UP/DOWN),查看该实例所在主备数据库节点是否都启动。查看数据库实例是否启动,检查数据库启动日志。检查主备节点通信是否正常。102数据库实例角色错误,出现双主。人为对主备实例所在节点设置忽略节点。请确认设置忽略节点原因后,再通过switchtool.sh取消。103数据库实例角色错误,出现双备。人为对主备实例所在节点设置忽略节点。请确认设置忽略节点原因后,再通过switchtool.sh取消。104数据库实例角色错误
43、,角色与ZK上的不符合。人为对主备实例所在节点设置忽略节点。请确认设置忽略节点原因后,再通过switchtool.sh取消。Catchup复制延迟。短时间有大量数据库写操作导致复制处理延迟。Redis正在进行数据全同步。观察一段时间,如果还未恢复或经常出现复制延迟,请联系DBA定位。MySQL备实例的show slave status出现Seconds_Behind_Master0。Redis备实例的info命令出现aof_rewrite_in_progress/rdb_bgsave_in_progress/loading。复制状态错误表 (2)错误码中文说明可能原因处理建议200MySQL主
44、备实例网络通信异常。备实例和主实例的IO通信异常,对应MySQL的IO线程异常(Slave_IO_Running是NO)。查看主数据库实例是否启动,主实例所在节点是否磁盘满,或者主备实例节点是否可以相互通信。 如果是网络原因导致的故障,修复服务器网络;如果主实例未启动,请参考101状态码处理方式处理;如果主实例所在节点磁盘满,请清理磁盘后,请执行如下操作: 停止后再启动故障实例的主实例。观察一段时间,如果还未恢复,使用手工方式重建备数据库实例。通过在备实例执行show slave status查看具体MySQL错误码,收集具体的错误信息。210MySQL备数据库实例的SQL线程异常Slave_
45、SQL_Running是NO。人为用超户dbuser对备实例违规进行写操作。使用dbsvc_adm中一键式重建备命令修复。211MySQL主备模式:备数据库实例比主数据库实例的数据GTID多。人为用超户dbuser对备实例违规进行写操作。使用dbsvc_adm中一键式重建备命令修复。212MySQL双主模式:GTID有数据冲突。MySQL最近发生故障倒换。前有部分数据未复制到备实例,倒换后原来主实例有数据冲突。使用dbsvc_adm中一键式重建备命令修复。213MySQL主备模式:异常倒换数据冲突。MySQL配置文件“my_f”中“sync_binlog”和“innodb_flush_log_
46、at_trx_commit”的值没有配置为1。故障倒换前数据同步到备数据库,但是还没有在主数据FusionCloud故障分类FusionSphere OpenStack日志查看虚拟机故障处理存储故障处理网络故障处理ManageOne ServiceCenter节点故障处理典型案例分析常见的服务异常处理思路FusionCloud高危操作典型案例一:发放虚拟机失败问题描述:某局点已完成FusionCloud 6.3基本平台搭建工作,并完成FusionCloud镜像制作、规格创建、网络VPC预设置等准备工作,但发放虚拟机时报错,提示发放失败。告警信息在SC上并无任何告警信息。故障处理经分析定位,发现
47、在ServiceOM上主机组并未打标签,导致在ManageOne SC设置“规格”页签上,其规格标签值无法与后端主机组进行对应;当下发虚拟机时,系统无法通过规格的标签值找到对应的主机组资源,最终下发虚拟机失败。规格标签值设置界面故障处理主机组标签值设置界面建议与总结在FusionCloud 6.X版本内,主机组标签与规格标签需要严格对应,缺一不可典型案例二:业务VM无法访问问题描述:在ServiceOM 运维portal上会发现某些虚拟机状态是Error,某些虚拟机在使用过程中突然业务中断,某些虚拟机不能登录、某些虚拟机出现卡死、蓝屏、黑屏、OS故障等。 业务影响:虚拟机上部署的业务中断。 故
48、障预判故障预判:虚拟机内部故障(OS故障、卡死、蓝屏、黑屏)主机故障(下电)网络故障(internal_base)后端存储故障物理服务器硬件故障紧急变更紧急变更: 虚拟机迁移、重启 主机重启,主机上电 主备接入交换机手动倒换 网卡主备模式或者负载均衡时倒换,或者down掉某个网口 主备存储交换机手动倒换 存储链路重新插拔处理思路虚拟机故障开始判断虚拟机状态?是否为Error状态error,触发HA机制和软件狗机制(自动重启恢复)主机心跳是否正常主机是否下电,或者故障VNC登录是否正常管理平面网络是否正常触发虚拟机HA机制VNC登录正常用户虚拟机无响应业务平面网络是否正常管理网络异常故障点是否上
49、报存储链路故障告警存储网络平面是否正常业务网络异常故障点是否使用FusionStorage存储存储网络异常故障点物理存储故障点FusionStorage故障点问题定位解决CDEBFGA故障点为:A. 业务网络故障;B. 存储网络或者存储链路故障;C. 管理网络异常故障;E. 物理存储设备故障;F. 物理主机故障;G. 虚拟机内部故障(卡死,蓝屏,黑屏,OS故障);故障点分析可能故障点一:虚拟机OS故障,蓝屏,卡死等故障可能故障点二:业务平面网络故障,大面积虚拟机无法访问可能故障点三:管理网络故障,大面积虚拟机无法访问故障案例三:Nova服务异常故障现象:告警台上有组件故障告警,后台执行命令发现
50、为nova组件异常(即Nova无法提供服务)虚拟机生命周期的业务流无法进行,“nova service-list” nova服务异常FM portal界面上显示虚拟机状态未知,如下图所示故障影响:与虚拟机生命周期相关的系列操作无法进行,影响严重。日志收集确认服务异常的节点,在fs后台导入环境变量之后,执行nova service-list如果state的收集方法:将相应主机上的up变成down,说明该服务异常,需要登录对应的节点收集日志,查询节点ip的方法:cps host-list|grep host-control1ssh 到该主机上,收集日志目录章节中的nova日志目录下的文件拷贝到/h
51、ome/fsp目录下面,然后修改文件权限,然后将日志拷贝到首节点,使用工具WinSCP工具,将日志拷贝出来(注意:每个故障节点都要收集)故障定位ssh到异常服务的主机上,打开日志: vi /var/log/fusionsphere/component/novaControl/novaControl.log按shift+g到文件最后,然后向上搜索关键字ERROR,找到最近的错误信息发现日志中报错为“start nxup failed. cant find upservice”,表示开启了存储多路径,而存储多路径包没有安装。解决方案解决方案安装存储多路径软件若不需要存储多路径,关闭存储多路径开关F
52、usionCloud故障分类FusionSphere OpenStack日志查看虚拟机故障处理存储故障处理网络故障处理ManageOne ServiceCenter节点故障处理典型案例分析常见的服务异常处理思路FusionCloud高危操作Nova服务异常处理思路主机系统故障Nova服务异常组件故障时间不同步进程卡死或不写心跳打开存储多路径开关,没有安装多路径软件Rabbitmq连接异常或者消息队列占满Nova-compute依赖的服务异常Nova依赖的组件故障处理主机故障处理故障组件同步时间手动重启服务安装存储多路径软件修复rabbitmq服务or根据告警台的73401告警,进行告警处理根据
53、日志中具体报错,修复依赖服务参照其他组件故障的修复方法修复Glance服务异常处理思路组件故障Glance服务异常处理DNS配置错误时间不同步告警Swift空间不足根分区空间不足处理主机故障修改DNS配置同步时间扩容swift手动删除根分区一些不用的文件Cinder-volume服务异常处理思路Cinder-volume 服务异常处理后端存储配置错误(人为修改)Cinder-volume节点时间不一致Cinder-volume启动脚本执行异常存储管理平面网络异常存储设备资源池&RAID配置排查时间同步多路径软件包安装检查网络是否正常SSHtelnetping多路径开关配置Cinder相关进程挂
54、死处理思路卷及快照相关操作无响应CPS命令检查cinder状态正常无告警产生使用cinder service-list查询服务正常检查cinder-volume日志无更新重启cinder-volume进程GaussDB异常恢复处理思路数据库异常Gaussdb分区占满两套AZ网络冲突主机系统故障扩容Gaussdb分区进行网络隔离恢复安装/备份RabbitMQ服务套异常恢复Rabbitmq无法提供服务资源隔离杀进程消息流控73401告警调整资源隔离配额排查消息堆积,水位线值是否合理启停服务恢复某一个单板服务异常,其他单板服务正常检查IP冲突keystone处理思路Haproxy或者DNS配置错误K
55、eystone异常Keystone组件故障告警Gaussdb组件故障告警时间不同步告警根分区空间不足告警修改Haproxy或者DNS配置重启故障keystone实例Gaussdb应急预案同步时间手动删除根分区一些不用的文件FusionCloud故障分类FusionSphere OpenStack日志查看虚拟机故障处理存储故障处理网络故障处理ManageOne ServiceCenter节点故障处理典型案例分析常见的服务异常处理思路FusionCloud高危操作FusionCompute禁用操作类别操作风险严禁主备管理节点频繁手动倒换。频繁主备倒换将导致业务中断。严禁将Windows 7、Win
56、dows Server 2008的系统盘作为用户盘挂载到操作系统为Windows 7和Windows Server 2008的虚拟机上。有可能损坏系统引导分区,导致系统启动失败,但系统盘的数据不会丢失。严禁在系统正常运行时在主机上执行service network restart命令重启主机的网络进程。可能导致主机故障、业务发放失败、虚拟机启动失败。禁止在主机上使用ifup命令启动网卡、使用ifdown命令禁用网卡。本操作可能会导致主机的管理、存储等平面不通。在FusionCompute对接FusionSphere OpenStack场景下,禁止在主机节点上通过Linux命令修改主机名称。在主
57、机节点上通过linux命令修改主机名称,可能会造成新启动的虚拟机网卡无法正常通信。除资料中有明确的操作指导外,禁止在FusionCompute上执行虚拟机相关操作,例如: 创建虚拟机、启动虚拟机、停止虚拟机、删除虚拟机、迁移虚拟机、绑定磁盘、解绑定磁盘、添加网卡、删除网卡等。操作可能带来虚拟机网络业务不通或FusionSphere OpenStack与FusionCompute计算资源不一致。FusionSphere OpenStack禁用操作类别操作风险缩小逻辑分区的容量逻辑分区上的数据不可用,系统运行异常。不能删除用户角色用户角色的删除,将导致用户不能调用OpenStack API。不能删
58、除内置用户内置用户为FusionSphere OpenStack服务间互相访问认证所必须的账号,删除后将导致FusionSphere OpenStack服务不可用。禁止同时下电或复位一个以上的控制节点控制节点服务不可用。不允许登录到主机上执行service network restart或service network stop命令,重启或停止网络服务。导致登录主机上的网络配置数据丢失,网络不可用。可以通过重启FusionSphere OpenStack OM禁用操作类别操作风险业务操作类严禁主备管理节点频繁手动倒换。频繁主备倒换将导致业务中断。配置更改类禁止业务运行期间通过FusionSph
59、ere OpenStack OM界面修改时区、夏令时。将会导致FusionSphere OpenStack OM业务不可用。禁止业务运行期间通过FusionSphere OpenStack OM界面强制同步时间。将会导致FusionSphere OpenStack OM服务重启。禁止通过非FusionSphere OpenStack OM界面方式修改时区、夏令时。将会导致FusionSphere OpenStack OM时区混乱。禁止业务运行期间修改FusionSphere OpenStack OM时间。运行期手工修改将导致FusionSphere OpenStack OM业务不可用。裸金属服
60、务器禁用操作类别操作风险禁止在裸金属服务器实例发放、初始化、添加磁盘、删除磁盘、删除实例过程中,对裸金属服务器执行非查询类操作,如上、下电操作。可能会导致裸金属服务器相应的业务操作失败。禁止在裸金属服务器实例发放后添加端口或创建端口组。可能会导致裸金属服务器网络中断。禁止在裸金属服务器实例发放、初始化、删除过程中修改Provision网络信息。可能会影响裸金属服务器实例的发放、初始化、删除操作,导致操作失败。VMware禁用操作类别操作风险除资料中有明确的操作指导外,禁止在VMware上执行虚拟机相关操作,例如: 创建虚拟机、启动虚拟机、停止虚拟机、删除虚拟机、迁移虚拟机、绑定磁盘、解绑定磁盘
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 电商聚区办公楼转让居间
- 二零二五年度北京市通信中心绿色环保装修服务合同
- 光伏发电规划报告
- 公务用车辆管理系统
- 低空经济发展行动计划
- 营养学饮食指南阅读题
- 房车项目可行性研究报告
- 智能家居网络系统
- 中光能光伏发电
- 建筑设计咨询服务合同
- “三级”安全安全教育记录卡
- 爱莲说-王崧舟
- SolidWorks入门教程(很全面)PPT课件
- 2020飞山景区旅游开发运营方案实操手册
- 环境工程概预算(ppt)
- 新旧会计科目对照表
- 医用耗材超常预警和评价制度
- 4S店三表一卡标准模板
- 【校本教材】《身边的化学》高中化学校本课程
- 性格色彩培训-团队培训必备
- 【教学设计】审定新北师大版六年级下册数学《图形的运动》教学设计
评论
0/150
提交评论