FusionCube+6.0+日常操作维护(数据库)+01_第1页
FusionCube+6.0+日常操作维护(数据库)+01_第2页
已阅读5页,还剩62页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2022/12/9FusionCube6.0数据库场景日常操作维护目标学完本课程后,您将能够:掌握FusionCube的日常操作维护的内容方法掌握FusionCube备份与恢复的方法掌握FusionCube设备更换的方法掌握FusionCube应急处理的方法掌握FusionCube的日志管理方法目录日常操作维护资源与管理硬件管理告警与性能系统备份与恢复设备更换应急处理日志管理日常操作维护一览表维护项目检查项正常状态维护周期检查系统监控项监控实时告警实时告警无新增告警。每天监控系统资源系统资源无新增告警。无状态异常。可用资源足够。每天监控物理资源物理资源无新增告警。无状态异常。可用资源足够。每天监控虚拟资源虚拟资源无新增告警。无状态异常。可用资源足够。每天检查系统健康状态检查系统健康状态健康检查报告无“不合格”检查项。每周检查设备故障信息故障列表列表中没有新增故障信息每周检查硬件运行状态硬件设备指示灯指示灯显示正常每周检查备品备件备品备件库房环境符合储存环境要求每月检查系统监控项监控实时告警实时告警无新增告警。每天具体的操作步骤参见GPI文档中的日常维护章节日常操作维护一览表具体的操作步骤参见GPI文档中的日常维护章节检查设备运行环境温湿度温度:10℃~35℃湿度:8%RH~80%RH每月空气质量符合运行环境中对空气质量的要求每月防尘情况无明显尘土附着每月管理系统帐号修改系统内各常用登录帐号的密码根据用户需要定期修改密码,确保系统帐号的高安全性每半年高危操作(操作维护类)Page6类别风险等级操作风险规避措施重大操作观察项目恢复管理节点数据★★操作不当,可能导致部分管理数据丢失。请使用正确时间点的备份数据,严格按照“管理员指南”的“系统备份与恢复>数据恢复”操作进行。操作前观察是否存在未恢复的异常告警。FusionStorage非单副本场景下,给存储刀片或者服务器进行下电或者重启★★★操作不当,可能会导致用户业务性能下降,甚至用户业务中断、数据丢失。--通过命令方式对FusionStorage的各种配置参数进行修改★★★可能会导致用户业务性能下降甚至中断,用户数据混乱。请严格按照“管理员指南”进行。-高危操作(配置变更类)Page7类别风险等级操作风险规避措施重大操作观察项目修改系统时间★★★操作不当导致系统业务失效。禁止系统运行期修改FusionCubeCenter时间。观察是否存在未恢复的异常告警。修改时区★★★操作不当导致服务重启,所有业务不可用。禁止系统运行期通过FusionCubeCenter界面修改时区,请在没有业务操作的情况下修改。观察FusionCubeCenter界面的时间是否和时区相同。强制同步时间★★★同步过程会导致服务重启,所有业务不可用。禁止系统运行期通过FusionCubeCenter界面强制同步时间。观察系统时间是否正确。修改时间服务器★★短时间内频繁修改会导致时钟源设置不生效。请勿在短时间内频繁修改。修改前确认操作的必要性。若必须修改且修改后产生告警,需要根据告警帮助进行调整后的处理。观察是否存在未恢复的异常告警。系统管理员操作维护界面介绍—首页系统首页主要显示系统的整体状态信息,包括告警统计信息,设备状态,存储池的使用情况等;此外,在首页上,包括常用操作的链接,如数据卷管理,业务网络配置,性能统计,用户管理等。资源管理操作—存储FusionCube融合基础设置采用FusionStorage分布式存储软件将服务器的本地硬盘组成一个逻辑的资源池,通过存储池给各个业务虚拟机提供逻辑盘的存储能力。系统在初始化时会自动接入FusionStorage存储,一般不需要设置对接操作。在某些故障维护场景下可以人工接入;点击接入的FusionStorage存储,可以查看当前存储池的使用情况;用户可以通过页面提供的跳转功能,打开存储设备的管理页面做进一步的操作;FusionStorage块服务-存储池支持显示系统中所有的存储池,目前最大支持128个池。

支持显示存储池的状态,使用空间的监控,包括使用容量、剩余容量,以及使用率。

支持显示存储池的配置信息,以及存储池的硬件统计。FusionStorage状态判断:显示正常,且状态未显示“数据迁移”,则表示该存储池状态正常显示正常,且状态显示“数据迁移”并有进度条,则表示该存储池有存储节点故障或进行了扩容的操作,上层业务可正常运行

显示异常,则表示该存储池处于异常状态,上层业务不能正常运行FusionStorage块服务-硬盘拓扑通过拓扑图显示存储池中服务器、磁盘的信息以及状态,支持可视化的故障恢复FusionStorage块服务-VBS在系统中的计算节点部署块客户端服务(启动VBS进程),用来访问存储资源。

支持查看块客户端的挂载信息。FusionStorage块服务-卷管理

卷是对存储空间的逻辑划分,存储池的存储空间不能被主机识别。只有将存储池中的存储空间划分为多个逻辑单元(卷),并将卷映射给主机或主机组后,主机才能使用分配给它的存储空间。

目前规格支持每个存储池最大65000个卷,最大支持128万个卷。每个主机最多挂载512个卷FusionStorage集群-硬件将系统中所有的服务器集中管理,支持查看服务器的软件安装状态,角色等信息;支持针对存储节点设置维护模式,方便对服务器进行恢复故障处理。

支持查看服务器的进程、端口状态。绿色表示正常,红色表示异常,显示“查询失败”,可能是该节点管理平面网络配置有问题,或FSA有问题。Page15FusionStorageLicense导入FusionStorage8.x进行了license控制。安装好系统后,根据《FusionCube6.0.1license使用指南》操作,从FusionCube生成license并导入FusionStorage中FusionStorage块服务-iscsi服务

安装过程中,如果已经开启了iSCSI功能则无需在配置存储资源阶段再执行该任务。在默认情况下iSCSI功能是关闭的,若要使用iSCSI功能需要先开启iSCSI功能并添加iSCSI监听的IP地址和端口。FusionStorage集群-控制集群

支持查看控制集群状态;支持查看元数据存储方式:物理硬盘或系统盘分区资源管理操作—物理计算在数据库场景下,该页面显示当前用于部署数据库的节点信息,包括用于数据库业务平面的网口,ip,网关及Vlan信息等;用户可以根据业务需要点击页面上的“网络配置”调整网络,如IP信息,网口负载模式等;资源管理操作—物理计算通过创建卷,并挂载到数据库节点,可以对数据库提供共享存储的能力;通过批量创建卷,批量挂载和卸载卷,可以简化用户对数据卷的管理操作;用户挂载,卸载卷,用户可以根据需要动态调整数据库的存储;目录日常操作维护资源与管理硬件管理告警与性能系统备份与恢复设备更换应急处理日志管理硬件管理操作—机箱系统初始化或者扩容后,机框信息会自动保存到FusionCubeCenter中,用户无需手工接入;用户可以查看E9000机框的在机房的位置信息,管理板IP信息,并可以根据需要修改机框名称;点击某个机框名称,可以查看机框内的硬件的详细信息,包括服务器槽位,风扇,电源,以及相关告警;硬件管理操作—服务器系统初始化或者扩容后,服务器信息会自动保存到FusionCubeCenter中,用户无需手工接入;用户可以查看服务器在机房的位置信息、以及服务器的状态、管理IP、BMCIP信息等;点击某个服务器名称,可以查看服务器硬件的规格信息,包括型号,IP,主板信息以及相关的告警等;硬件管理操作—交换机对于E9000形态,系统初始化后,交换板信息会自动保存到FusionCubeCenter中,用户无需手工接入;对于机架和arm形态,交换机是外置机框的,需要人工进行交换机的接入;接入交换机输入交换机位置信息,SNMP接入信息即可完成接入;点击某个交换机名称,可以查看交换机硬件的规格信息,包括型号,IP,端口信息以及相关的告警等;目录日常操作维护资源与管理硬件管理告警与性能系统备份与恢复设备更换应急处理日志管理告警—告警列表用户可以通过该页面查看系统告警,并根据告警帮助及时排除系统故障;用户可以根据需要清除某条告警或者屏蔽掉,不在界面显示;点击某个告警的左边箭头,可以查看该告警的详细信息;告警—告警设置用户可以设置将某些告警邮件通知,方便维护人员及时收到告警信息;设置告警邮件通知时,可以根据关注的告警的级别进行通知;告警—告警统计用户可以查看某个时间段的某些级别的top告警,了解系统在该段时间的健康状况,根据需要调整系统资源,降低系统故障的概率;性能—历史KPI用户可以查看某个时间段的历史KPI,了解系统在该段时间的健康状况,根据需要调整系统资源,降低系统故障的概率;性能—TOP统计用户可以在该页面查看系统整体的性能指标,包括TOPN的指标,查看到系统哪些部分资源情况占用比较高,根据查看的情况可以及时做出调整。目录日常操作维护资源与管理硬件管理告警与性能系统备份与恢复设备更换应急处理日志管理系统管理—系统配置信息Page31提供系统基本配置信息的概览和详细配置信息导出的功能。系统管理—时间管理用户可以设置FusionCube系统的外部时钟源及时区信息,使得系统与客户的业务系统时间保持一致;当前支持将FusionCube物理服务器及管理节点的时间保持一致;系统配置—邮件服务器配置邮件服务器后,告警邮件通知功能才可正常使用。告警邮件通知功能可根据用户需求及时将产生的告警以邮件形式推送至指定邮箱。系统管理—eService配置Page34eService是IT产品线的远程维护专家系统,由远程服务前端和远程服务中心协同工作。配置后能够7*24小时全天候监控客户设备告警,并自动通知华为技术服务人员及时帮助客户解决问题。系统配置—SNMP管理站Page35通过配置SNMP管理站,可将系统中的告警和监控信息上报给第三方系统。使第三方系统能够管理系统中的告警和监控。系统配置—系统超时时间Page36当会话空闲时间达到会话超时时长后,当前浏览器会自动注销当前登录用户,以增强系统安全性。系统配置—系统LOGOPage37自定义系统界面显示的LOGO图片。若图片修改后未生效,则需关闭浏览器,并清空缓存后重新登录系统。。系统配置—证书管理Page38管理设备CA证书,保证系统与设备通信时的业务安全性。权限管理—用户管理管理员可以创建用户,并设置相应的角色,操作员和审计员不能创建用户系统默认提供管理员,操作员和审计员三种用户角色;管理员可以创建用户;操作员可以做除权限管理外的大部分操作;审计员主要是查看系统相关信息,不能修改系统状态;权限管理—角色管理查看角色拥有的操作权限,以便于创建用户时选择对应的角色。权限管理—密码策略系统提供密码策略,管理员可以根据客户的要求进行设置,以满足各种安全要求;权限管理—域认证信息系统提供了第三方AD域认证方式,以方便客户统一的用户认证管理;任务与日志—任务中心当前系统提供了一下任务中心管理的功能,对系统中的任务进行统一的管理和监控,如备份任务,更新虚拟化环境任务等。任务与日志—操作日志用户可以通过操作日志查看那些用户做了什么操作,方便问题定位。系统维护—扩容当系统容量不够时,通过扩容功能,可以给系统添加新的硬件资源。系统自动发现新加入的服务器,用户选择需要扩容的服务器,根据向导进行设置,完成扩容动作;通过扩容进度的详细信息,用户可以了解具体的进度信息以及失败时的具体原因;系统维护—健康检查通过健康检查,可以快速了解系统的健康状况。它包括FCC的检查以及各节点/mm板/交换板的硬件版本检查。系统维护—日志收集日志收集功能可以将系统中各节点上的日志信息汇总起来,并支持下载导出,避免了手动一个一个登录节点去收集信息,有利于问题的快速定位。系统维护—下电系统Page48支持用户对系统中的所有节点进行一键式下电。当系统上电后,存储服务没有正常启动时可使用启动存储服务功能。目录日常操作维护备份与恢复设备更换应急处理日志管理系统管理—管理数据备份用户可以对FusionCubeCenter的管理数据,包括数据库,配置文件等信息进行备份,当系统故障时可以及时恢复;备份数据可以上传到第三方服务器上,防止服务器故障时数据丢失;备份策略备份场景:维护工程师在对系统进行重大操作(如升级、重大数据调整等)前,为了保证各部件在出现异常或未达到预期结果时可以及时进行数据恢复,将对业务的影响降到最低,需要提前对管理节点的数据进行备份。总体备份策略以及注意事项如下:支持对关键数据(数据库以及关键的配置文件)进行手动备份和自动备份。自动备份时间默认为凌晨02:00(可配置),建议各部件自动备份时间保持一致,以避免恢复时因数据不一致导致的系统异常。备份文件保留份数默认为7份(可配置)。建议保留份数按如下规则设置:当存储空间为30G时,建议保留份数为1~7份。当存储空间为60G时,建议保留份数为1~14份。当存储空间大于60G时,建议不超过30份。考虑到系统的可靠性,不建议选择系统内部的虚拟机或物理服务器作为第三方备份服务器。配置了第三方备份服务器的系统建议通过FusionCubeCenter界面手工备份各部件的管理节点数据。否则,请通过命令行的方式备份。自动或手动备份遇到管理节点发生倒换时,会导致备份失败,建议遇到此情况,根据备份失败的告警帮助进行操作。重新尝试备份。Page51备份路径Page52部件备份类型存放路径(手工备份)存放路径(自动备份)FC2本地备份FC2节点的“/opt/gmbackup/db/manualbk/”FC2节点的“/opt/gmbackup/db/”第三方备份Linux系统:“FTPS服务配置的路径/CloudComputing/gmbackup/manual/”Windows系统:“FTPS服务配置的路径\CloudComputing\gmbackup\manual\”Linux系统:“FTPS服务配置的路径/CloudComputing/gmbackup/”Windows系统:“FTPS服务配置的路径\CloudComputing\gmbackup\”详细的备份恢复操作参见GPI文档中的备份恢复章节说明:FusionCube仅提供FusionCubeCenter(FC2)部件的管理数据的备份,对于FusionStorage节点管理数据请参见相关部件的备份恢复指导进行设置和操作;恢复场景以及注意事项Page53恢复场景:在对系统部件进行重大操作(如升级、重大数据调整等)后,系统有可能出现异常或未达到预期结果。此时,需要对其进行回退,回退过程中需要进行数据恢复操作。注意事项:所有部件必须使用同一天(且尽可能备份时间相近)的备份数据进行恢复,否则可能造成业务和操作失败。当业务正常时需要恢复数据,建议手动备份最新管理数据后,再执行恢复数据操作。否则会丢失从备份时刻到恢复时刻之间的管理节点数据。数据恢复前,建议确保已无正在执行的系统操作。包括资源集群的创建、扩容、减容,配置系统管理子网,服务器上下电、重启等。数据恢复时请勿执行系统操作。数据恢复前,建议用户检查是否有用户手动配置的汇聚交换机信息,如有则需进行手动备份。若有备份服务器管理员,请联系备份服务器管理员进行第三方备份服务器上的相关操作。优先选择使用已备份到本地的数据进行恢复。在无法使用该数据进行恢复时,才选择使用已备份到第三方备份服务器的数据进行恢复。当配置系统管理子网后需要恢复数据时,需使用配置子网后的最新备份数据进行恢复。恢复操作Page54部件恢复命令FC2restoreFC2-f/opt/gmbackup/db/manualbk/备份文件名FSMshDataRecovery.sh/opt/dsware/manager/backup/备份文件名恢复流程需要各个节点使用同一时刻的备份文件同时恢复,具体的恢复流程如右图所示,恢复命令如下图所示,详细的操作请参见GPI手册中管理节点备份恢复章节的介绍。开始停止所有管理进程恢复FSM数据恢复FC2数据启动所有管理进程恢复交换机/交换板配置检查恢复结果结束目录日常操作维护备份与恢复设备更换应急处理日志管理部件更换FusionCube包含不同类型的硬件设备,包括服务器、存储系统和交换设备。当硬件设备发生故障,更换新的硬件设备,需要用到部件更换功能,根据部件更换时是否对业务有影响,分为以下两种情况:对业务有影响时:参考FusionCube产品文档进行更换操作,并恢复业务。对业务无影响时:参考对应产品文档进行硬件拆卸和安装操作,无需恢复业务。下面只列举E9000刀片服务器支持的更换部件,机架、ARM等可参考产品文档。Page56硬件型号支持更换的部件是否影响业务更换策略E9000服务器机框是需下电并拆卸服务器。更换前需实施业务保护措施,更换后需恢复业务。刀片需下电后再更换服务器。更换前需实施业务保护措施,更换后需恢复业务。CPU、内存、网卡、RAID卡NVDIMM、SSD卡、SATADOM需下电并拆卸服务器。更换前需实施业务保护措施,更换后需恢复业务。SMM板支持热插拔。SMM板支持1+1冗余及主备倒换功能。更换后需设置IP地址,并对设备进行重确认。交换XCUB需下电更换。更换后需对设备进行重确认。交换XCUD否支持热插拔。更换一块XCUD对系统正常运行无影响。硬盘支持热插拔。更换一块硬盘对系统正常运行无影响。若出现双盘故障,请参见应急处理。电源模块支持热插拔。配置多个电源模块时,更换一个电源模块对系统正常运行无影响。风扇模块支持热插拔。配置多个风扇模块时,更换一个风扇模块对系统正常运行无影响。部件更换(以SNA节点更换举例)Page57操作步骤使用PUTTY登录FSM主节点,使用dswareTool对故障服务器设置FSM维护模式使用默认账号密码,使用浏览器登录BMC,对故障服务器进行下电根据《用户指南》,更换CPU/内存/主板,并把服务器插回框内(主板)使用浏览器登录MM910IP地址,在机箱设置>网络设置>Node更改BMCIP地址为原来的IP地址使用浏览器登录故障节点BMC,查看部件信息(主板)若BIOS为Romely平台,在BIOS中关闭CPUSpeedStep、CState及恢复硬盘为第一启动项SNA可选)使用浏览器登录FSM浮动IP,查看资源池>概览,检查故障节点是否被踢出存储池;若已被踢出存储池,参考《容量指南》对存储池进行扩容使用PUTTY登录FSM主节点,使用dswareTool对故障服务器取消FSM维护模式更多详细的操作步骤,参见GPI文档中的描述目录日常操作维护备份与恢复设备更换应急处理日志管理应急处理的界定以及分类应急处理界定在设备出现重大故障时,最短时间内进行业务恢复的处理定义为应急处理操作。所谓重大故障,是指发生突然、影响面广、涉及范围大、并可对网络的安全运行与服务质量造成严重后果的设备或网络故障,如双节点故障。应急处理分类应急处理分类如表1所示。Page59故障子类故障名称管理节点故障主备FusionCubeCenter同时故障

硬件设备故障FusionStorage两块磁盘同时故障

两个服务器同时故障

两块交换板或者交换机机同时故障详细的应急处理操作,参见GPI文档中的应急处理章节应急处理原则以及处理流程应急处理原则应急处理以快速恢复设备的正常运行与业务的提供为核心,提前进行学习和演练,提高应急处理的效率。以客户业务尽快恢复,对客户影响最低为原则。在此前提下,进行问题定位恢复和数据收集。维护人员在上岗前必须接受必要的应急处理培训,学习判断重大故障的基本方法、掌握处理重大故障的基本技能。在重大故障的处理过程中,维护人员应及时联系华为公司客户服务中心或华为公司驻当地办事处,以便能够快速获取华为公司的技术支持。当维护人员完成重大故障的处理以后,应该及时采集与本次故障有关的设备故障告警信息,并将相关的故障处理报告、设备告警文件、日志文件等发送给华为公司进行分析与定位,以便华为公司能够更好地为客户提供售后服务。业务快速恢复原则业务恢复应综合考虑相应操作恢复业务成功的可能性和相应操作时间代价。参考的操作排序如下:

耗时比较短,成功可能性比较大的操作。耗时比较短,成功可能性比较小的操作。耗时比较长,成功可能性比较大的操作。Page60应急处理日常准备Page61类别要求设备级备份主备用设备要求:定期进行数据一致性检查,以及运行状态检查,确保应急时能够接管业务。负荷分担设备要求:定期进行负荷评估,评估业务单平面运行性能评估,确保单点故障业务可以全部由另一个设备接管。(可选)容灾容灾局及相关切换准备。备件关键设备需要常备备件。日常告警清理日常告警需要及时处理,确保没有未确认的活动告警,避免出现问题时,信息混乱,影响事故处理中的判断决策。基本信息维护人员需要准备以下基本信息:组网信息设备基础信息软件列表网络设备IP地址信息业务信息备件信息远程维护信息相关接口人人员要求

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论