版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、H3C VCFC网络产品日常维护手册目录 HYPERLINK l _bookmark0 第1章 日常维护建议2 HYPERLINK l _bookmark1 VCFC产品日常维护建议2 HYPERLINK l _bookmark2 VCFC产品运维建议2 HYPERLINK l _bookmark3 第2章 维护操作指导5 HYPERLINK l _bookmark4 H3C VCFC产品日常维护操作指导5 HYPERLINK l _bookmark5 H3C VCFC产品季度维护操作指导6 HYPERLINK l _bookmark6 H3C VCFC产品年度维护操作指导7 HYPERLIN
2、K l _bookmark7 第3章 维护记录表格8 HYPERLINK l _bookmark8 H3C VCFC软件安装质量检查表8 HYPERLINK l _bookmark9 H3C VCFC产品日常维护值班日志9 HYPERLINK l _bookmark10 H3C VCFC产品季度维护记录表11 HYPERLINK l _bookmark11 H3C VCFC产品年度维护记录表13 HYPERLINK l _bookmark12 H3C VCFC产品突发问题处理记录表15 HYPERLINK l _bookmark13 硬件更换及软件升级记录表16 HYPERLINK l _bo
3、okmark14 故障处理记录表17 HYPERLINK l _bookmark15 第4章 VCFC维护监控功能18 HYPERLINK l _bookmark16 运维概览18 HYPERLINK l _bookmark17 控制器信息20 HYPERLINK l _bookmark18 虚拟网络信息20 HYPERLINK l _bookmark19 控制器日志22 HYPERLINK l _bookmark20 设备信息22 HYPERLINK l _bookmark21 Openflow跟踪22 HYPERLINK l _bookmark22 信息导出23 HYPERLINK l _
4、bookmark23 物理网元信息23 HYPERLINK l _bookmark24 NFV网元状态24 HYPERLINK l _bookmark25 虚拟端口状态25 HYPERLINK l _bookmark26 第5章 VCFC日志诊断收集25 HYPERLINK l _bookmark27 日志信息25 HYPERLINK l _bookmark28 SYSLOG功能27 HYPERLINK l _bookmark29 诊断信息28 HYPERLINK l _bookmark30 第6章 VCFC后台信息查看29 HYPERLINK l _bookmark31 查看系统CPU29
5、HYPERLINK l _bookmark32 查看系统内存30 HYPERLINK l _bookmark33 查看系统硬盘31 HYPERLINK l _bookmark34 控制器关键进程和端口号状态检查326.4.1 查看系统CPU 32 HYPERLINK l _bookmark35 SDNC进程的状态检查32 HYPERLINK l _bookmark36 SDNA进程的状态检查33 HYPERLINK l _bookmark37 Postgresql数据库进程的状态检查33 HYPERLINK l _bookmark38 Zookeeper进程的状态检查33 HYPERLINK
6、l _bookmark39 6.4.6 2181端口状态检查34 HYPERLINK l _bookmark40 6.4.7 9172端口状态检查35 HYPERLINK l _bookmark41 6.4.8 6633端口状态检查35 HYPERLINK l _bookmark42 检查操作系统以及keystore中hostname与ip映射关系是否正确36 HYPERLINK l _bookmark43 检查操作系统用户与用户组是否修改37 HYPERLINK l _bookmark44 检查VCFC系统日志数量级38 HYPERLINK l _bookmark45 第7章 VCFC巡检3
7、8 HYPERLINK l _bookmark46 7.1 VCFC集群数据一致性检查38关键词:SDN、VCFC、 系统维护摘要:此指导书用于指导H3C VCFC的日常维护使用,主要描述用户维护部门周期性(每天、每周、每月、每年)对H3C VCFC进行健康性检查的相关事项。适用对象:本文档适用于维护H3C VCFC的工程师缩略语:缩略语英文全名中文解释SDNSoftware defined Networking软件定义网络VCFCVirtual Converged FrameworkController虚拟融合架构控制器第1章 日常维护建议维护范围:日常维护主要涉及的范围是虚拟网元以及物理网
8、元以及管理维护系统的监控(VCFC控制台)。维护手段:巡检、优化、处理投诉、保障等VCFC 产品日常维护建议尊敬的用户:感谢您使用H3C公司的VCFC产品。系统运行的正常、稳定是我们共同的愿望,为了我们共同的目标,请您重视以下建议并参照日常维护建议指导书进行必要的日常维护。1、VCFC产品的使用涉及到多种业务知识,应安排受过专业培训的专人进行日常维护。2、保持机房清洁干净,防尘防潮,防止虫鼠进入。3、每天参照H3C VCFC日常维护指导书中内容对设备进行例行检查和测试,并记录检查结果。4、用于系统管理、设备维护和业务操作的用户名和口令应该严格管理,定期更改,并只向特定相关人员发放。5、严禁向设
9、备维护终端和WEB客户端主机装入业务无关软件,严禁用设备维护终端和WEB客户端主机玩游戏。维护终端和WEB客户端主机应该定期杀毒。6、遇有不明原因告警,请迅速与代理商工程师或者H3C公司服务热线联系(400-8100504/800-8100504)。7、调整线缆一定要慎重,调整前要作标记,以防误接。8、对设备硬件进行操作时应戴防静电手腕。9、对设备进行复位、改动业务数据之前做好备份工作。10、在对设备版本进行升级前,请详细阅读版本说明书中的升级指导,并全面备份相关配置。VCFC产品日常的维护工作内容主要有季度巡检、故障处理、投诉处理、网络整改、 通信保障等。季度巡检:定期对所有WLAN站点进行
10、一次现场巡检,对巡检时发现的问题现场进行 处理并登记。故障处理:主要通过网管系统发现故障并根据故障性质进行处理。用户投诉:用户投诉要求在接到投诉后一定时限内赶到现场进行处理,处理完要求回访客户进行故障恢复确认。网络优化:针对客户投诉、会议保障以及站点性质变化所作的较大的网络调整。通讯保障:当有重大事情时会要求运维人员进行现场保障通信设备的稳定性。VCFC 产品运维建议1、确认所使用的软件版本。2、准备用于安装软件的服务器硬件资源。3、按照方案要求预留地址资源,并完成基础网络配置和连通性检查。4、确保服务器能够访问Internet,并完成操作系统的安装和安全更新。5、按照设计的网络拓扑进行线路连
11、接,保证线路质量和走线方式符合要求。6、根据开局设计的网络建设方案,进行各项配置并测试功能是否符合预期。VCFC以其特殊性,在使用维护过程中需要关注许多方面,并以负责任的态度履 行注意事项:确保服务器安装于物理服务器而非虚拟机上,并确保硬件资源(CPU、内存、硬盘)不低于产品安装指导书中的最低要求建议服务器配置NTP服务,这对后期维护工作中定位问题至关重要。2、设备运维巡检及问题处理方式(1)定期检查设备VCFC配置台上相关信息,根据相关异常指示对问题进行定位状态类型及标识状态说明控制器状态显示控制器的角色及运行状态:蓝色:处于正常 Active 状态的控制器灰色:处于异常 Down 状态的控
12、制器Leader*:集群中的主 Leader 控制器Leader:集群中的备 Leader 控制器Member:集群中的 Member 控制器集群状态 active:控制器处于正常 active 状态集群状态 down:控制器处于异常 down 状态配置恢复状态 true:控制器处于配置已经恢复状态配置恢复状态 false:控制器处于配置未恢复状态S1020V 连接状态连接:与 Region 内两台控制器均建立了连接单连接 :只与 Region 中一台控制器建立了连接未连接:未能与控制器建立连接物理网元连接状态Active:物理网元处于激活状态Inactive:物理网元处于未激活状态虚拟端口状
13、态UP:虚拟端口处于正常状态DOWN:虚拟端口处于非正常状态(2)定期检查设备Openflow相关信息,确认设备与控制器之间Openflow连接是否正常Openflow 连接状态Master:当前 Openflow 主连接Slave:当前 Openflow 备连接Idle:当前 Openflow 未连接Equal:当前 Openflow 连接未选举出主备(3)VCFC需要以集群方式运行,组网中应避免单点故障引起集群分裂或控制器与网元之间openflow断连(4)VCFC需要检查License的有效期,避免因为临时License过期导致业务中断。第2章 维护操作指导H3C VCFC 产品日常维护
14、操作指导维护类别维护项目操作指导参考标准外部环境检查电源(直流/交流)查看电源监控系统或测试电源输出电压。电压输出正常,电源无异常告警。温度(正常0 35)检查机房的灰尘含量。每平方米灰尘颗粒数量3104(3天内桌面无可见灰尘)注:灰尘粒子直径5 m直观判断:三天内桌面无可见灰尘为好湿度(正常2080)测试机房温度。温度范围:0-35;建议为15-25。机房清洁度(灰尘含量)测试相对湿度。相对湿度:20%-80%(无冷凝)其他状况(火警、烟尘)查看消控系统告警状态消控系统无告警;服务器运行状态检查查看系统CPU参照本指导书第6章节服务器CPU利用率不得大于80%查看系统内存参照本指导书第6章节
15、内存利用率不得大于80%查看系统网卡聚合状态参考本指导书第6章节聚合状态正常查看系统硬盘参照本指导书第6章节硬盘空间利用率不得超过90%查看VCFC相关进程状态参照本指导书第6章节相关进程运行正常软件运行状态检查查看控制器状态在【运维监控-控制器信息】中查看控制器状态控制器状态显示Active:查看S1020V连接状态在【运维监控-虚拟网络信息】中查看vSwitch的连接状态连接状态显示正常,无断开连接的图示:查看物理网元连接状态在【承载网络-物理网元】中查看物理网元的状态设备状态显示Active:查看NFV网元连接状态在【承载网络-VNF 网元】中选择“NFV 资源”,在VNF资源列表中点击
16、“资源节点列表”标识,查看节点状态NFV节点状态显示Active:查看NGFWM网元连接状态在【承载网络-VNF 网元】中选择“NGFW资源”,在资源列表中点击 “资源节点列表” 标识,查看节点状态NGFWM节点状态显示Active:查看告警日志(建议部署syslog服务器进行日志监控)在【运维监控-系统日志】中查看是否存在error及以上级别的日志无error及以上级别的系统日志查看License状态在【控制器-license管理】中查看是否有license不可用或者数量不足的情况无不可用license/数量型license数量足够H3C VCFC 产品季度维护操作指导维护类别维护项目操作指
17、导参考标准软件维护查看控制器状态参见日常维护指导参见日常维护指导查看S1020V状态参见日常维护指导参见日常维护指导查看物理网元状态参见日常维护指导参见日常维护指导查看NFV网元连接状态参见日常维护指导参见日常维护指导查看NGFWM网元连接状态参见日常维护指导参见日常维护指导查看告警日志参见日常维护指导参见日常维护指导季度维护更改VCFC所在服务器的操作系统密码参照操作系统的命令行使用指导更改VCFC登录密码在【控制器-系统管理-用户配置】中修改管理员密码如存在云平台,修改VCFC登录密码后,需要相应修改云平台中VCFC插件配置的VCFC密码查看License状态在【控制器- license管
18、理】中查看是否有license不可用或者数量不足的情况无不可用license/数量型license数量足够查看软件数据一致性使用第7章节提供的巡检脚本无数据不一致服务器负载情况(CPU/内存/硬盘) 检查参照操作系统的命令行使用指导机柜清洁检查观察机柜内部和外部的清洁状况。机柜表面清洁,机框内部灰尘不得过多,否则必须清理。值班电话状态检查值班电话拨入、拨出情况(1)值班电话可顺利拨入; (2)值班电话可顺利拨出;(3)话机工作正常;H3C VCFC 产品年度维护操作指导维护类别维护项目操作指导参考标准接地、地 线、电源 线、业务线缆连接检查地阻检查使用地阻仪测试地阻。联合接地地阻小于1欧姆。地
19、线连接检查检查机柜接地线与局方地线排连接是否安全可靠。各连接处安全、可靠无腐蚀。地线无老化。地线排无腐蚀,防腐蚀处理得当。电源线连接检查检查电源线与局方电源连接是否安全可靠。各连接处安全、可靠无腐蚀。电源线无老化。业务线缆连接及布放检查业务线缆是否与设备及配线架连接牢靠,业务线缆标识清晰。各连接处安全、可靠无腐蚀。布线整齐、清洁、标识清晰。电源检查UPS电源检查检查UPS的输出电压是否稳定;在市电断电之后UPS是否继续稳定供电;(1)UPS的输出电压稳定(2)市电断电之后UPS的继续稳定供电第3章 维护记录表格H3C VCFC 软件安装质量检查表工程名称局点主要设备合同号客户联系人电话序号准备
20、项目要求安装质量备注良好需改进1设备软件的运行状态能够访问集群IP能够快速打开VCFC UI配置台,操作无明显卡顿2查看VCFC运维概览视图视图中控制器、虚拟网元、物理网元状态均正常3软件安装环境要求使用物理服务器4服务器硬件要求符合产品的版本说明书要求5不合格项目合计6计划整改完成日期检查人员( 施工方):客户:年月日H3C VCFC 产品日常维护值班日志日期:年月日值班时间:时时至交班人:接班人:维护类别维护项目维护状况备注维护人设备运行环境电源(直流/交流)正常正常不温度(正常035)正常正常不湿度(正常2080)正常正常不机房清洁度(灰尘含量)好差其他状况(火警、烟尘)正常正常不VCF
21、C运行状态检查查看操作系统运行情况正常正常不查看VCFC告警信息正常正常不查看控制器状态正常正常不查看S1020V连接状态正常正常不查看物理网元状态正常正常不查看NFV网元连接状态正常正常不查看NGFWM网元连接状态正常正常不查询/导出日志正常正常不业务操作检查抽检业务连通性正常正常不故障情况及其处理遗留问题班长核查H3C机密,未经许可不得扩散第 PAGE 11页, 共42页2018-01-09H3C VCFC 产品季度维护记录表维护周期 :年月日至年月日维护类别维护项目维护状况备注维护人软件维护查看控制器状态正常不正常查看S1020V连接状态正常不正常查看物理网元连接状态正常不正常查看NFV
22、网元连接状态正常不正常查看NGFWM网元连接状态正常不正常更改VCFC登录密码完成未完成管理网连通性检查正常不正常抽检业务连通性正常不正常机柜清洁检查正常不正常值班电话状态正常不正常发现问题及处理情况记录遗留问题说明班长核查H3C VCFC 产品年度维护记录表维护周期 :年月日至年月日维护类别维护项目维护状况备注维护人接地、地线、电源线、业务线缆连接检查地阻检查正常正常不地线连接检查正常正常不电源线连接检查正常正常不业务线缆连接及布放检查正常正常不电源检查UPS电源检查正常正常不操作系统检查检查操作系统CPU、内存、硬盘正常正常不发现问题及处理情况记录遗留问题说明班长核查H3C VCFC 产品
23、突发问题处理记录表发生时间:解决时间:值班人:处理人:问题类别:VCFC软件问题操作系统问题服务器硬件问题客户端问题电网供电/UPS问题接地或电源连接问题设备安装问题操作问题其他(温度、湿度、鼠害、电磁干扰等)不可抗力(洪水、飓风、地震等)其他设备设备名称: 生产 厂家:设备名称: 生产 厂家:设备名称:生产 厂家:故障描述:处理方法及结果:硬件更换及软件升级记录表更 换 /升级原 因原服务器名称/软件版本新服务器名称/软件版本数量日期执行人故障处理记录表修 改 人修 改 时 间修 改 原 因修改内容第4章 VCFC 维护监控功能通过运维监控功能可以查看H3C VCF控制器和SDN网络的运维信
24、息,如下图:运维概览运维概览通过图示的方式展现了当前SDN网络的概要信息。通过运维概览可以直观地了解当前控制器状态、虚拟网络概要信息以及日志统计信息,如下图:在控制器视图中可以看到各成员的角色信息与状态信息,如果成员处于down状态需要进一步确认原因。在日志视图中显示的日志的统计图,可以通过点击下方图标显示或隐藏指定类型的日志信息,除提示类型的日志外,其他类型的日志都需要关注,检查系统是否发生了异常。在虚拟网络视图中显示了Network、Subnet、vRoute和Port的数量和状态的统计图信息,蓝色为活动状态,运行正常,灰色为非活动状态,通过点击下方的图标按钮,可以显示或隐藏指定状态的信息
25、。处于非活动状态的元素需要进一步确认原因(虚机未上电、网络不通、配置问题或软件bug等)。控制器信息用于查看控制器的集群和Region配置信息、成员的运行角色和状态、openflow 的连接数等信息,如下图:如果成员状态处于“down”状态,在“备注”栏中会给出提示信息,提示信息说明了成员处于down状态的原因,提示信息及说明如下:虚拟网络信息/虚拟化主机状态以图形的方式显示Controller和vSwitch的连接情况以及vSwitch上端口连接信息,最多显示10个vSwitch与控制器的连接关系。通过连线能够看到vSwitch与主备控制器的断开连接状况。在“虚拟网络/计算域/主机”页面,显
26、示了当前vSwitch信息情况,选择具体“虚拟交换机桥”。其中,主用控制器:当前控制此vSwitch的VCF控制器的IP地址和状态。备用控制器:与此vSwitch相连的第二个控制器,当主用控制器出现故障时,将有备用控制器对此vSwitch进行控制。虚拟交换机桥的“连接状态”,包括连接、无连接和配置不可用三种状态。控制器日志操作日志:操作日志记录的是用户进行的系统操作、配置更改等事件。系统日志:系统日志用于通知用户控制器运行的内部事件。VCF控制器的系统日志管理模块为用户提供了查看系统日志信息、标记系统日志信息的功能。下图为系统日志界面,图中用红色框住的按钮为日志标记按钮,用于标记已经被确认过的
27、日志,例如:系统日志中产生了一条告警日志,经处理问题解决或确认为非问题,将该条日志标记为已知,这样方便区分后续新增的日志。控制器的日志可点击下图中导出按钮导出到本地。设备信息VCF控制器的设备信息页面为用户提供了查看网络设备的概要、端口、流表及组表信息的功能。当发生转发类问题时,可以在该页面查看vSwitch的端口状态是否为live或流表是否存在等信息。Openflow 跟踪OpenFlow跟踪是在集群当前Leader上抓取指定OpenFlow设备的OpenFlow协议报文。当前Leader会将抓取请求同步到该OpenFlow设备连接的控制器,控制器将抓取结果发送到当前Leader上,用户可以
28、在当前Leader上看到抓取结果。信息导出该功能用于将汇总信息、控制器信息、虚拟网络信息和流表信息导出到文件。该功能是为用户提供控制器运行情况的统计数据,用于制作报表。物理网元信息在物理网元页面中可以查看物理设备的状态信息、所属的Region、VTEP-IP等信息,详细如下图:物理网元信息:用于查看所有的物理网络设备,设备类型分别为:网关设备:即物理网关设备,该类型设备可以负责原始以太网报文的VXLAN封装和解封装,处理不同VXLAN之间的报文通信,同时数据中心内部网络与外部网络的报文通信也需要通过网关设备,主要以高性能物理交换机为主。可以加入到网关组中,作为网关组的成员设备。网关服务设备:即
29、物理网关服务设备(如多业务安全网关、负载均衡器等),该类型设备可以旁挂在网关组边上,作为网关组的服务设备。接入设备:即物理接入设备,该类型设备可以负责原始以太网报文的VXLAN封装和解封装,VLAN报文与VXLAN报文之间的映射和转发,主要以物理交换机为主。可以作为不支持VXLAN设备的接入设备。Underlay物理设备:一种OpenFlow设备,目前用于探测两个VXLAN隧道端点之间的Underlay网络路径。NFV 网元状态该功能用于查看NFV Manager连接信息和已创建的NFV资源,并可以对NFV Manager 连接信息进行配置。NFV资源即软件网络功能虚拟化资源,包括NFV Ma
30、nager创建的虚拟网关、vFW、vLB等相关信息。资源类型如下: VSR:表示该资源提供的是网关服务。vFW:表示该资源提供的是防火墙服务。vLB:表示该资源提供的是负载均衡服务。页面信息如下:点击资源节点列表可以看到组成相应NFV资源的NFV网元节点的详细信息。如下图:网元状态为“active”,表示处于激活状态,可以正常工作;如果状态为“Inactive”,表示处于非激活状态,不能工作。将鼠标指针放在“Inactive”上会提示导致非激活状态的原因,提示信息及说明如下:虚拟端口状态在“虚拟网络/虚拟端口”页面中可以查看用户已配置的虚拟端口信息,包括名称、计算域、租户,IP、MAC,所在主
31、机的管理IP、VTEP IP和状态等,如下图:第5章 VCFC 日志诊断收集日志信息操作日志记录的是用户对集群进行的系统操作、配置更改等事件,例如应用操作(加载、启动、停止和卸载应用)、配置修改、集群配置等。进入运维监控/操作日志页面,可以查看所有的操作日志,包括每个操作的时间、用户、IP地址、操作描述、操作结果和失败原因,用户可以根据这个对每项操作进行审计和核查。系统日志用于通知用户控制器运行的内部事件。控制器的系统日志管理模块为用户提供了查看系统日志信息、标记系统日志信息的功能。进入运维监控/系统日志页面,可以查看所有的系统日志,包括每个日志的级别、时间、IP地址、主题和内容,用户可以根据
32、这个实时监控集群内部发生的各种事件,并对一些异常的事件及时进行故障恢复。日志说明请参考H3C官网“日志手册”,其中包含“系统日志”和“操作日志”的说明。异常日志举例:OpenFlow设备与控制器断开连接集群成员退出集群SYSLOG 功能进入控制器/系统管理/配置管理,点击系统日志,可以进行系统日志相关的配置,包括发送级别,Syslog日志服务器IP地址和端口号等,配置完成后会把系统日志以syslog协议形式发送给配置的syslog server端。进入控制器/系统管理/配置管理,点击操作日志,可以进行操作日志相关的配置,包括发送级别,Syslog日志服务器IP地址和端口号等,配置完成后会把操作
33、日志以syslog协议形式发送给配置的syslog server端。诊断信息控制器的诊断日志可以通过UI界面导出,如下图:第6章 VCFC 后台信息查看查看系统 CPU登录控制器的后台,查看CPU使用情况,正常情况下服务器CPU利用率不得大于80%。查看系统内存登录控制器的后台,查看内存使用情况,正常情况下内存利用率不得大于80%。查看系统网卡聚合状态登录控制器后台,查看网卡bond情况,正常情况如下: roothlw-vcfc01:# cat /proc/net/bonding/bond0Ethernet Channel Bonding Driver: v3.7.1 (April 27, 2
34、011)Bonding Mode: fault-tolerance (active-backup) Primary Slave: NoneCurrently Active Slave: eth0 MII Status: upMII Polling Interval (ms): 100 Up Delay (ms): 0Down Delay (ms): 0Slave Interface: eth0 MII Status: upSpeed: 10000 Mbps Duplex: fullLink Failure Count: 1Permanent HW addr: 8c:dc:d4:17:3b:70
35、 Slave queue ID: 0Slave Interface: eth1 MII Status: upSpeed: 10000 Mbps Duplex: fullLink Failure Count: 5Permanent HW addr: 8c:dc:d4:17:3b:74 Slave queue ID: 0查看系统硬盘登录控制器的后台,查看硬盘使用情况,正常情况下硬盘空间利用率不得超过90%。控制器关键进程和端口号状态检查查看 VCFC 操作系统防火墙和 SELinux 状态登录控制器后台,查看防火墙状态,确保防火墙已经关闭: Ubuntu系统iptable进程默认关闭:roothl
36、w-vcfc01:# service iptables status iptables: unrecognized service使用如下命令查看iptable规则: roothlw-vcfc01:# iptables -list Chain INPUT (policy ACCEPT)targetprot opt sourcedestinationACCEPTudp-anywhereanywhereudpdpt:domainACCEPTtcp-anywhereanywheretcpdpt:domainACCEPTudp-anywhereanywhereudpdpt:bootpsACCEPTtc
37、p-anywhereanywheretcpdpt:bootpsCentOS系统可以使用如下命令查看防火墙状态: rootlocalhost # systemctl status firewalld.service firewalld.service - firewalld - dynamic firewall daemonLoaded: loaded (/usr/lib/systemd/system/firewalld.service; disabled) Active: inactive (dead)通过如下配置文件查看SELinux是否关闭:rootlocalhost # cat /etc
38、/selinux/config | grep -v # | uniq SELINUX=disabledSELINUXTYPE=targetedVCFC SDNC 进程的状态检查Sdnc是主要的业务进程,控制器的业务都在这个进程上。登录控制器的后台,执行service sdnc status,查看sdna进程状态,有输出而且是start/running状态,表示进程状态正常。rootlocalhost # service sdnc status sdnc start/running, process 3765VCFC SDNA 进程的状态检查Sdna相当于sdnc进程的管理者。登录控制器的后台,
39、执行service sdna status, 查看sdna进程状态,有输出而且是start/running状态,表示进程状态正常。rootlocalhost # service sdna statussdna start/running, process 3746Handshake进程的状态检查Hangshake是region之间的保活进程。登录控制器的后台,执行service handshakestatus,查看handshake进程状态,有输出而且是start/running状态,表示进程状态正常。rootlocalhost # service handshake status hands
40、hake start/running, process 3728VCFC Postgresql 数据库进程的状态检查Postgresql是控制器使用的数据库进程。登录控制器的后台,执行service postgresql status,查看postgresql进程状态,有输出而且是running状态,表示进程状态正常。rootlocalhost # service postgresql status postmaster (pid3342) is running.VCFC Zookeeper 进程的状态检查Zookeeper是集群保活、通信、选举的进程。登录控制器的后台,执行ps -ef |
41、grep zookeeper | grep -v grep,查看zookeeper进程状态,有输出而且显示结果中包含关键字“zookeeper”,表示进程状态正常。rootlocalhost # ps -ef | grep zookeeper | grep -v grepsdn 7322 3814 0 Dec05? 00:04:57 /usr/lib/jvm/java- openjdk/bin/java -Dzookeeper.log.dir=/opt/sdn/zookeeper/bin/./log - Dzookeeper.root.logger=INFO,ROLLINGFILE -cp/o
42、pt/sdn/zookeeper/bin/./build/classes:/opt/sdn/zookeeper/bin/./build/ lib/*.jar:/opt/sdn/zookeeper/bin/./lib/slf4j-log4j12- 1.6.1.jar:/opt/sdn/zookeeper/bin/./lib/slf4j-api- 1.6.1.jar:/opt/sdn/zookeeper/bin/./lib/netty- 3.2.2.Final.jar:/opt/sdn/zookeeper/bin/./lib/log4j- 1.2.15.jar:/opt/sdn/zookeeper
43、/bin/./lib/jline- 0.9.94.jar:/opt/sdn/zookeeper/bin/./lib/gcmonitor- 1.0.0.jar:/opt/sdn/zookeeper/bin/./zookeeper- 3.4.5.jar:/opt/sdn/zookeeper/bin/./src/java/lib/*.jar:/opt/sdn/zookeepe r/bin/./conf: -Xms512m -Xmx3072m -Xmn128m -XX:+DisableExplicitGC - XX:+CMSParallelRemarkEnabled -XX:MaxGCPauseMil
44、lis=100 - XX:+UseConcMarkSweepGC -XX:CMSFullGCsBeforeCompaction=0 - XX:+UseCMSCompactAtFullCollection -XX:CMSInitiatingOccupancyFraction=70-XX:ParallelGCThreads=24 -verbose:gc -XX:+PrintGCApplicationStoppedTime-XX:+PrintGCTimeStamps -XX:+PrintGCDetails - Xloggc:/opt/sdn/zookeeper/zoo-gc.log -XX:+Use
45、GCLogFileRotation - XX:NumberOfGCLogFiles=3 -XX:GCLogFileSize=100M -Xdebug - Xrunjdwp:transport=dt_socket,address=8788,server=y,suspend=n - Dcom.sun.management.jmxremote - Dcom.sun.management.jmxremote.local.only=false org.apache.zookeeper.server.quorum.QuorumPeerMain/opt/sdn/zookeeper/bin/./conf/zo
46、o.cfgVCFC Region 通道检查检查region通道,登录控制器后台,执行netstat -ant | grep 9170,正常应该数据都是0,如果长时间有较大数据表明存在拥塞rootlocalhostlogs# netstat -ant | grep 9170tcp6 00192.168.47.32:9170:*LISTEN32-33的数据通道tcp6 0 329504 (send-Q) 192.168.47.32:55305 192.168.47.33:9170 ESTABLISHEDkeep-alivetcp6 00192.168.47.32:52474192.168.47.3
47、3:9170ESTABLISHED33-32的数据通道tcp6 316940(Recv-Q) 0192.168.47.32:9170 192.168.47.33:38770 ESTABLISHED对于 VMWARE 主机 Overlay 环境,VMK 口是否大量发送 port status 消息根据日志分析,日志中出现了大量的vmk 口的增删portstatus 消息(约80w 次),截至3月31日日志上已经没有异常portstatus消息。后续需要定期查看下VSM模块的诊断信息,确认不在有反复增删vmk口portstatus消息。查看方法:集群ip登录控制器,点击“控制器/系统管理/诊断信息
48、”,点击“导出”选择所有控制器导出控制器诊断信息(可以选择最近日期)。解压导出的压缩包文件,进入“logs/vsm/”目录,可以查看日期分包的log(格式log_2017-10-01)和最近的log.log,选择需要查看的log,搜索关键字“localPortStatusMsgProc”查看local口的portstatus消息。搜索关键字“process Region Msg”查看控制器收到的region消息。如果日志中有大量包含关键字的信息,(例:整个日志计数在10000以上或者1 分钟出现5次以上)则说明local口有异常。对于 VMWARE 主机 Overlay 环境,检查 ESXI
49、主机是否存在多个 VMK 口检查主机连接状态是否正常,如连接正常,尽量不要在ESXI主机上重启网络服务(防止主机管理口发生切换)。如果连接不正常,需要重新配置vds来恢复。VCFC 2181 端口状态检查2181端口是Zookeeper监听客户端连接的端口号,登录控制器的后台,执行netstat-anp | grep 2181,查看2181端口状态,如下所示,2181端口处于LISTEN状态且本地2181服务端口通信正常,表示2181端口状态正常。rootlocalhost # netstat -anp | grep 2181tcp00 :2181:*LISTEN10096/javatcp00
50、 :1:54334:1:2181 ESTABLISHED 9530/javatcp00 :1:2181:1:54334 ESTABLISHED 10096/javaVCFC 9172 端口状态检查9172端口是Handshake监听客户端连接的端口号,登录控制器的后台,执行netstat-anp | grep 9172,查看9172端口状态,如下所示,9172端口处于LISTEN状态且本地9172服务端口通信正常,表示9172端口状态正常。rootlocalhost # netstat -anp | grep 9172tcp00 :9172:*LISTEN9515/javatcp00 :fff
51、f:127.0.0.1:39796:ffff:127.0.0.1:9172 ESTABLISHED 9530/javatcp00 :ffff:127.0.0.1:9172:ffff:127.0.0.1:39796 ESTABLISHED 9515/javaVCFC 6633 端口状态检查6633端口是OpenFlow协议端口号,登录控制器的后台,执行netstat -anp | grep 6633,查看6633端口状态,如下所示,6633端口处于LISTEN状态且本地6633服务端口通信正常,表示6633端口状态正常。rootlocalhost # netstat -anp | grep 66
52、33tcp00 :6633:*LISTEN9530/javatcp00 :ffff:192.168.100.62:6633:ffff:192.168.99.125:24589 ESTABLISHED9530/java tcp00 :ffff:192.168.100.62:6633:ffff:192.168.205.67:63449 ESTABLISHED9530/java检查操作系统以及 keystore 中 hostname 与 ip 映射关系是否正确1、查看VCFC keystore证书中使用的ip字段,使用keytool -list -v -keystore/opt/sdn/admin/
53、keystore | more,密码为skyline, 查看标红部分CN的字段ip rootlocalhost # keytool -list -v -keystore /opt/sdn/admin/keystore | moreEnter keystore password: Keystore type: JKS Keystore provider: SUNYour keystore contains 1 entry Alias name: serverkeyCreation date: Jan 5, 2017Entry type: PrivateKeyEntry Certificate c
54、hain length: 1 Certificate1:Owner: CN=127.0.0.1, OU=H3C SDN Controller, O=H3C, L=Palo Alto, ST=CA, C=CAIssuer: CN=127.0.0.1, OU=H3C SDN Controller, O=H3C, L=Palo Alto, ST=CA, C=CA2、查看当前系统hostname对应ip是否与第一步查询CN字段ip一致,使用命令hostname -i | cut -d -f 2进行查询rootlocalhost #hostname -i | cut -d -f 2:1 127.0.0.13、不一致的情况下,需要修改/etc/hosts或者当前的hostname,保证映射出来的ipv4地址和步骤1中的CN字段一致A.V
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论