某省CMnet网络维护细则_第1页
某省CMnet网络维护细则_第2页
某省CMnet网络维护细则_第3页
某省CMnet网络维护细则_第4页
某省CMnet网络维护细则_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、XX省CMNET网络维护细则XX省CMNET网络维护总概一、 中国移动数据网是中国移动通信网一个重要组成部分,主要为数据业务GPRS,WAP,移动梦网等提供接入、承载服务。承载网络质量直接决定了这些服务的等级,因此,承载网络CMNET无故障运行是各种业务正常运行的关键,数据网络维护也成为网络维护的重要组成。二、 为了使设备处于最佳的运行状态,保证用户业务能够保持在较高水平,特制定该细则,为维护人员提供一个完备的、可行的方法,通过该维护细则实施方法的指导,提高维护人员对数据承载网络维护的认识。三、 XX省CMNET骨干网设备主要采用CISCO,JUNIPER,EXTREME等厂家设备,网络拓扑结

2、构划分为骨干层、汇接层、接入层三部分,因此对处于不同网络层的设备提出了日检、定期检测的要求。不仅避免重大障碍发生后故障恢复时间较长,而且做到故障及时发现、及时处理,异常网络行为实时监控。四、 CMNET网设备系统维护工作的基本任务及主要工作内容: 保证设备的完好,设备的电气性能、机械性能、维护技术指标及各项服务指标符合标准。网络通信通畅,端口、链路运行正常,路由高效精简。迅速准确地排除各种通信故障,保证通信畅通。保证各种业务接入质量,提高承载网络服务质量。负责新设备、扩容设备的入网质量把关,谨防新的网络设备引起网络异常。一、CMNET维护网元要素1骨干层设备:西北各省市IP数据CMNET的汇接

3、点,包括:路由器M160,CISCO7507;交换机CISCO40032汇接层设备:XX省各地市IP数据CMNET接入点,包括:路由器M40I,CISCO3640;交换机BlackDiamond6808;域名解析服务器3接入层设备:XX省各地市数据业务接入,包括:路由器M20 ,AXC-632,470;交换机:SUMMIT48二、CMNET设备日常维护1设备物理环境检测为设备的运行提供了较好的物理环境,符合机房设施工作要求,清洁运行环境减少了粉尘对系统的影响,正常温度、湿度保证系统正常运行,物理线路标识清晰,有利于维护,故障排除。检测的内容主要包括:机柜清洁,设备温度、湿度符合要求,电源正常,

4、线缆的整洁有序,标签清晰完整,接口牢固无松动2设备状态检测路由器部分:(1) 路由引擎物理状态是路由器正确计算路由表,数据包快速转发的基础,最直接的表现为温度、湿度,LED面板显示正确。具体要求:温度小于60摄氏度,LED面板能够无误反映当前的系统各个单板的运行状态,包括散热风扇工作状态,系统工作温度,运行状态(2) 路由引擎运行状态:对路由引擎的监控主要针对内存、CPU因为其他不正常的网络行为而导致系统负荷增加,对网络拓扑的变化协议不能正确、及时的做出计算,影响网络收敛,导致网络拥塞,所以DRAM占用率应该小于60%,CPU利用率小于65%(USER,BACKGROUD,KERNEL,INT

5、ERRUPT,IDLE等综合指标反映了CPU占用的主要原因,根据这些指标可以得到排除故障的着手点),系统运行时间反映了网络协议运行的稳定性,并且提供了系统上次重新启动的时间,有助于分析整个网络配置的合理性,平均负荷计算统计值提供了一个量化的指标,如果大于60%就需要分析当前造成系统负荷的原因(3) 交换控制板物理状态:交换控制板主要负责对接口板的控制,对所有转发数据包的存储,转发信息条目的维护,正常的温度,提高该板无故障运行时间,LED面板状态直接显示的当前运行状态,提供相应指标。(4) 交换控制板运行状态:TOTAL CPU DRAM占用率反映对转发条目计算、储存能力,BUFFER占用率表示

6、存储数据包的能力,对于不同的数据包分别存储于不同的BUFFER,提高转发能力,启动/运行时间分析用于网络异常导致控制板重新启动时间(5) 接口板物理状态:温度,运行状态指示灯(6) 接口板运行状态:ONLINE信息,逻辑端口显示,CPU DRAM 占用率,TOTAL SDRAM占用率,I/O管理信息,接口板启动时间,接口板运行时间。根据这些信息可以直接分析当前局向对系统的影响,及时调整用户的策略,增加带宽或者分担用户流量(7) 接口模块运行状态:155MPOS端口链路传输协议,GE端口链路传输协议,在线状态;通过检测这些协议,及时发现网络对端的行为,及时通知对端修改配置,目前POS,GE等端口

7、,都为设备的主要传输接口,保证这些端口正常尤为重要,通过分析各端口状态,可直接定位传输问题,端口问题。(8) 散热风扇工作状态(9) 电源模块正常。由于电源不稳定,导致系统不断反转,不仅严重影响设备的运行,而且导致应用协议不能正确计算路由表,无法同步网络信息库,如果系统无告警时,这种故障难以发现。(10) 日志记录检查:系统日志、告警日志、异常告警日志;通过检查日志很直观的反映了设备运行当中产生的问题,有助于直接解决问题,对经常性的告警进行分析,可以总结出优化系统的方法,避免同一问题在其他设备上的发生交换机部分: (1) 系统主控器物理状态:系统负载告警指示灯,主备工作状态,温度指示告警,风扇

8、运行状态,电源工作状态;系统主控物理状态直接反映了系统的运行状况,通过观察指示灯,就可以大体了解系统运行状态(2) 系统主控器运行状态:CPU管理信息,告警记录方式,MEM内存占用率;通过分析数据就可以大致了解系统目前的工作状态,反映出当前系统运行稳定等级。(3) 交换控制板:工作状态指示灯;直观指示转发主控器的运行状态(4) 接口板物理状态:告警指示灯,运行指示灯;直观指示出接口板工作状态,单工/双工模式,10M/100M自适应,数据包的转发繁忙程度(5) 接口板运行状态:状态信息,UTP端口使用信息,端口模块配置方式,端口配置模式。通过统计状态能够得到准确的数据包收发,及时排除端口故障(6

9、) 电源工作状态,指示主备电源状态(7) 散热风扇工作状态(8) 日志检测,日志全面记录了设备端口物理故障,引起系统进程、端口模块,重新启动的原因,受到外部攻击的记录,根据日志记录及时调整各种策略减少CPU负载(9) VLAN功能正常工作,减少整个设备遭受广播包影响的范围,避免广播风暴,减少所有设备CPU负荷处理压力,对网络正常运行有深远的意义DNS域名解析服务器:(1) DNS网络接口工作正常,可排除网络软件应用协议层问题(2) DNS进程运行状态:进程的启动表明服务可用,能够为网络提供可用的服务(3) DNS配置文件:确认配置文件正确性(4) 服务器CPU负载:DNS服务正常工作CPU负荷

10、小于65%(5) 系统日志:察看系统进程故障及其他安全方面记录网络质量测试: (1) 监控省网各节点到汇接节点时延、链路完好性:通过端到端测试直接反映各地市至汇接节点的链路状态,丢包率应小于5%,延时应小于200ms,带宽占用率小于60%(2) 监控省网各节点到骨干节点时延、链路完好性:省网汇接节点到骨干完好率保证省内数据业务正常,要求丢包率应小于5%,延时应小于200ms,带宽占用率小于60% (3) 监控省网各节点到GRE路由器时延、链路完好性:WAP业务是通过各地市的M20的GRE端口与西安CISCO3640建立隧道而实现的,运行OSPF协议形成WAP域,链路完好保证业务正常工作。要求丢

11、包率应小于5%,延时应小于200ms,带宽占用率小于60% (4) 测试域名解析功能完好,解析时延 三、CMNET定期检测1、分析骨干接口流量统计值:INPUT BYTE,OUTPUT BYTE,造成输入错误类型统计(FRAMING封帧错误线路问题,RUNT数据包小于64字节广播风暴引起,GIANT巨大帧需要调整MTU,CRC网络质量问题),造成输出错误原因类型统计(CARRIER转换由载波丢失引起,DROP网络丢弃数据包,可能由于端口处理能力不足引起),每百万数据包坏包率应小于5%2、分析汇接接口流量统计值:INPUT BYTE,OUTPUT BYTE,造成输入错误统计(FRAMING,RU

12、NT,GIANT,CRC),造成输出错误原因类型统计(CARRIER转换,DROP),每百万数据包小于5%3、检查骨干接口链路状态:链路协议启动、链路类型,链路协议状态:确定链路运行所必备条件,检测SDH传输SECTION,LINE,PATH完好率,PPP协议的LCP,IPCP状态4、检查汇接接口链路状态:链路协议启动、链路类型,链路协议状态:确定链路正常运行必备条件,检测SDH传输SECTION,LINE,PATH完好率,PPP协议的LCP,NCP状态5、分析省内路由状态: (1) SUMMIT48与M20的OSPF协议状态,网络信息数据库正常,OSPF协议接口启动状态,OSPF协议邻居状态

13、,OSPF协议运算统计,OSPF路由表ENTRY正确性(2) M20与M40之间IS-IS协议状态,链路状态数据库,ISIS邻居启动状态,ISIS协议接口启动状态,ISIS协议SPF算法统计,ISIS协议统计(3) M40,CISCO 7507与M160之间BGP协议状态,BGP邻居的状态,BGP协议SESSION建立状态,OPEN,UPDATE,WITHDROW,KEEPALIVE等协议维护数据包发送状态(4) 路由循环,链路负载均衡,北京国际出口、上海、广东出口链路状态,时延,检测XX省网到出口链路状态,使用PING,TRACEROUTE等网络测试工具发现出现问题路由,对出口流量统计6、分

14、析省内交换机VLAN划分,端口分配,SPANNING TREE 启动状态,调整SPANNING TREE 根状态,三层路由启动状态,网络信息描述数据库,OSPF协议接口启动状态,OSPF协议邻居状态,OSPF协议统计,OSPF路由表ENTRY正确性7、检查各地市私有、公有IP地址使用情况,异常流量分析;WAP、GRPS分配网段更改情况,GRE端口状态及隧道启动状态,私网内部OSPF协议的运行状态,网络信息描述数据库,OSPF协议接口启动状态,OSPF协议邻居状态,OSPF协议运算统计,OSPF路由表ENTRY正确性8、路由器、交换机软件版本情况,检查数据配置有效性,删除不必要数据配置,及时清理

15、磁盘文件,删除过时或没用的局数据文件和进程,保证磁盘空闲空间大于磁盘空间20%四、系统备份1、路由器备份:(1) 配置文件备份:确保当前备份文件及时更新,不慎修改运行文件引起系统故障要求恢复及时快速,通过对比当前运行文件和备份配置文件优化路由(2) 系统文件备份:确保启动BOOT盘坏,可及时利用备份文件制作系统启动盘(3) 镜像盘同步:保证双路由引擎系统配置文件一致2、交换机备份:(1) 配置文件备份:确保当前备份文件及时更新,不慎修改运行文件引起系统故障要求恢复及时快速,通过对比当前运行文件和备份配置文件优化路由(2) 系统文件:确保启动BOOT盘坏,可及时制作系统启动文件,并且倒回系统启动

16、文件3、DNS备份:主要配置文件,确保及时恢复域名解析功能五、业务测试目前承载网络业务较少,因此能够集中精力加大对WLAN,GPRS,专线用户等数据业务测试,通过测试保证业务可用性,及时发现网络问题,业务测试有:1、 GPRS业务互联端口状态,链路协议启动,端口出错率的统计分析、延时、丢包率,路由备份切换:根据网络流量及时调整路由状态,互联链路故障及时发现、解决,确保业务正常使用,2、 WLAN业务互联端口状态,链路协议启动,端口RESET原因,统计分析延时、丢包率3、 专线业务互联端口状态、延时、丢包率六、告警及故障处理网络故障发生是不可避免的,引起故障原因呈现多样性,主要为设备硬件故障、软

17、件内部BUG、用户行为、外部人为破坏,管理,操作错误等,通过制定告警及故障级别定义,处理方法,可以提高故障排除效率,另外在发现潜在制造故障因素,避免故障发生都有一定的意义。故障级别定义:1、严重故障:各地市SUMMIT48与M20路由器链路阻断,将会导致专线业务,WAP业务全部阻断;各地市M20与汇接路由器M40链路阻断,各地市数据业务全部阻断;XX省M40与M160骨干端口阻断,XX省数据业务全部阻断2、一般故障:各地市SUMMIT48个端口链路阻断,只影响端口业务;各地市 M20链路阻断;端口链路非正常恢复启动;由于端口处理板处理能力下降,导致端口重新启动3、其他故障,如由于疏忽错误配置数

18、据影响其他业务正常使用,新增业务部分实现;数据设备普通告警,业务尚可使用,部分用户使用受到影响故障处理:1、严重故障发生后当地运行维护部门与班组必须立即采取必要措施,保证系统运行和通信电路及早回复,避免事故扩大2、严重故障发生后必须立即逐级上报,直至集团公司网络部,严重故障解决后向上级主管部门书面汇报。3、严重故障发生后,当地运行维护部门应立即查清故障原因,落实防范措施,确定故障性质和责任4、 严重故障当事班组应填写故障报告,由主管领导填写意见,故障发生后三天内报上级主管部门5、 一般故障发生后,当地维护部门应按照故障处理流程立即采取措施及时处理,处理结束后做好相关记录6、 其它故障发生后,及

19、时分析问题所在,尽快解决防止故障升级,必要时恢复到原来配置故障的记录故障的记录有助于以后类似故障发生,借鉴原来方法及时处理问题,同时也可以在故障恢复后根据故障现象,导致故障的因素分析致因,排除相关设备隐患,故障的记录对于细致维护工作,提高维护人员水平,具有重要意义。1. 设备故障记录内容应包括故障现象、故障类型、故障起始时间、故障修复时间、故障历时、故障原因分析及解决情况、故障处理情况及责任分析、故障处理人及联系电话等。2. 汇总统计时应根据故障类型,对各类问题进行汇总。对涉及设备质量方面的问题,应及时向有关部门报告。 3. 定期对故障现象和处理情况进行汇总统计,分类各种统计信息,解决方法。表

20、一 cmnet日常检测表 检测日期: 检测人员:检测项目 检测内容 检测结果 备注路由器检测(核心路由器520, 节点路由器520,专线路由器630)硬件系统检查告警面板状态设备端口和模块运行状态设备CPU负荷,MEM占用监测路由器端口流量是否拥塞与网络连通性局数据的维护管理磁盘空间的维护管理检查系统资源可用性交换机检测 (核心交换机6808, 节点交换机40)硬件系统检查、面板状态检查端口状态vlan功能检测检查网络连通性域名解析服务器系统CPU,MEM占用率检查检查端口状态系统LOG检测NAMED进程运行状态表二 备份登记表备 份 登 记 表 编号 备份日期开始时间结束时间设备名称CMnet 软件版本操作人备份文件名称*juniper.conf (*为地市名)备份情况记录分别进入西安及各地市的路由器及交换机进行系统备份blackdiamond I: upload config 211.137.130.38blackdiamond II:upload config 211.137.130.38summit48 :upload config 211.137.130.38

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论