版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
提升端到端业务质量的措施和手段研究2013年10月云南公司王锦华内容简介一、IP承载网维护工作特点三、网络层面端到端研究二、理解“端到端”的三个维度四、“规划、建设、维护”端到端研究五、跨专业“业务端到端”研究特点一:重要,安全要求高特点二:业务接入量大、割接多特点四:规范、标准、精细特点三:跨专业多,支撑力度高IP专网工作特点一、IP承载网维护工作特点二、转变维护思路,将“设备维护”转变为“端到端业务质量保障”。形成“规划、建设、维护、优化”横向沟通和“业务、承载、传输跨专业联动”纵向沟通模式。一、根据IP承载网的网络地位以及业务特点,要求我们做到“精细化”、“可靠性”、“安全性”管理。云南公司形成了“两手段”(资源库+自主开发的智能维护管理系统)、“一流程”(规范繁多的业务接入申请)的精细化工作模式。业务类型多,业务质量要求高,有效支撑未来大数据的业务演进“端到端”维护管理思路跨专业、跨产品、跨厂家,综合性高,维护难度大日常各类业务接入CE需求多,割接频繁,数据操作多各类业务接入具有标准化、一致性,数据规范严格,工作精细二、理解“端到端”的三个维度4打造优质、高效的精品“IP承载”网络规划-建设-维护端到端2跨专业“业务端到端”31、网络流量评估分析模型、CE业务接入原则及评估模板——提供计划部门指导规划;2、制定工程实施规范,例如标签要求、板卡布放原则等——提供工程部门指导工程实施。3、业务接入现场检查细则——提供分公司指导业务开通现场督导。1网络层面端到端IP专网1、“两手段”:完善资源记录库(资源信息及行为记录)+自主开发的“智能维护系统”(定期采集、自动分析);2、“一流程”:高效的业务接入流程及规划模板《业务接入CE资源申请单》;3、建立设备级、网络级、业务级三级维护模式,建立各级维护管理、ping检测机制;4、端到端业务流量模型及分析。1、编写“告警监控指导手册”、“派单原则”、“告警标准化整治”、监控培训——指导监控专业;2、与传输专业联动,优化并整理全省各级链路;3、与业务侧联动,支撑业务侧分析(如手机上网分析、SCTP端到端分析等)。转变传统的“设备维护”模式为“以业务为导向、端到端、全程全网”维护模式。IP专网维护为基点跨部门、专业联动业务质量为核心三、网络层面端到端研究三、网络层面端到端研究——(一)两手段CE面板资源信息全网各级链路传输信息全省各地市详细拓扑信息业务端到端归属信息(如SGSN-BSC归属,MGW-MSS归属等)
软件版本信息割接操作内容及过程记录CE日常业务变更操作记录各类业务接入申请及资源规划记录故障总统计一览表故障案例库及故障报告记录备件记录清单巡检记录等1、完善的资源记录及更新实现全网各级链路ping测试配置采集、对比分析IP地址管理、查询、路由查询全网CE端口状态检查(光功率、CRC增长分析、端口信息(MTU、光模块、协商情况、up/down信息等))其他信息:vrrp状态、vlan信息、流量信息等通过使用该系统,为日常工作提供快速、便捷的各类查询,例如,CE资源规划时可快速查询可用资源
;已将该系统推广至监控、地市维护人员使用。2、自主研发的“IP承载网质量可视化智能维护系统”IP承载网精细维护管理“两手段”IP地址管理CE资源信息查询链路质量Ping测……
拓扑信息
配置信息CE端口各类状态检查传输电路安全业务接入信息形成精细化维护管理1、完善的资源记录及更新——资源信息CE面板信息各地市拓扑信息全网各级链路传输信息业务端到端归属信息全网CE局址、槽位、板卡、模块配置及使用情况;CE各使用端口接入业务信息;vlan、VRRP号信息端口模式、使用情况;规划时间、业务接入时间等。全网拓扑各地市CS域及PS域拓扑(明确到CE下挂网元信息)与承载网相连各业务系统拓扑(GPRS、IMS、CMNET等)全网BR-CR、BR-BR、BR-AR、AR-AR、AR-CE、CE-网元各级物理链路信息(跨局传输、同局楼间、裸纤);各级电路传输实际配置带宽信息CS域MGW-MSS间归属信息、PS域SGSN-BSC/RNC归属信息、MSS/SGSNPool信息等;设备级管理链路级管理网络级管理业务级管理电子文档记录管理资源信息内容:1、完善的资源记录及更新——行为记录割接操作内容及过程记录CE日常业务变更操作记录各类业务接入申请及资源规划记录故障总统计一览表故障案例库及故障报告记录备件记录清单巡检记录等除了IP地址资源、设备信息资源等的记录,我们形成了将日常工作内容分门别类记录在案的精细化管理方式,确保数据操作追溯可查、信息更新及时完备,也便于为今后工作提供经验参考。主要包括:资源库2、自主开发的“IP承载网智能维护系统”本系统主要包括:主程序、数据库、客户端三部分。其中主程序可在省公司使用,完成数据采集、分析、ping测等。数据库用来存储主程序采集到的数据,主要保存设备信息、端口信息、IP地址信息等。客户端用来访问数据库,主要提供查询功能,供分公司和相关专业同事使用。该系统基于VC++6.0及MFC开发,使用CSocket类来telnet设备,同时考虑将来程序的移植性,在代码编写上,尽量使用STL中的模板类和函数,避免使用MFC自带函数。数据采集数据分析查询询IP地址管理配置检查全网IP地址统计IP地址查询(归归属、所属业业务网元,已已使用和未使使用)IP地址冲突检测测CRC增长VRRP状态端口利用率(50%)提示光功率分析判判断其它查询检查配置是否否保存全网CE的配置信息检查汇聚路由由与黑洞路由由是否一一对对应标杆运营端口利用率端口信息VRRP信息、vlanif信息当前配置Bfd-sessionPing测试Ping测CE-AR链路质量Ping测CE至网元的互互联及业务务地址“IP承载网智能能维护系统统”五大功能能本系统主要要功能包括括:数据采集、、配置检查查、数据分分析及查询询、IP地址管理、、ping测等。功能介绍及及应用场景—数据采集1、端口利用率率:后台程序序执行disintbrief,对返回的的脚本进行行处理,提取分析析并呈现端端口、端口状状态、端口口利用率信息;2、端口信息:通过后台台程序的加加工处理,,将端口下下的关键信信息(对应应设备上执执行disintport后的信息中中的关键内内容),包包括端口描描述、IP地址、CRC、出入流量量、收发光光功率、协协商结果((双工并方方式、协商商带宽)、、光模块类类型、端口口最大带宽宽等信息提提取并呈现现。3、当前配置:后台执行discu,对返回的设备配置置信息进行行加工处理理,提取““端口信息、vpn信息、sub地址、静态路由表表、前缀列列表”关键等等。此步骤骤得到的信信息主要是是供“IP地址管理””和“ping测试”功能能使用。4、VRRP:后台执行行disvrrp,对返回的脚脚本进行分分析处理,,主要为““vrrp状态检测””和“ping测”提供数数据。本系统主要要功能包括括数据采集集、配置检查、数据分析析、IP地址管理、、设备信息息查询、ping测;1、例如检查查“标杆应用:子接口下配置置statisticenable”,可以根据配配置,先找找出未配置置统计功能能的子接口口,再进行行逐条添加加,极大提提高工作效效率3、检查配置是否保存存,程序依次在设备上上执行compareconfig,根据返回回结果找出出未保存配配置的设备。2、依据prefix列表中的汇汇聚地址,,判断是否否该汇聚地地址配置了了黑洞路由由。功能介绍及及应用场景—配置检查1、CRC增长分析:该项工作作需要统计计所有物理理端口信息息,分别采采集两次设设备端口信信息,即可可判断CRC增长情况。。2、端口利用率率高于阈值值:通过执行行disintbrief,将返回的信信息进行分分析,输出出端口利用用率高于50%的端口。3、Vrrp状态异常检检测:当网元以vrrp接入CE时,可能存在在vrrp状态异常。通过disvrrp采集到vrrp信息,判断断是否存在双双主(奇数数和偶数平平面的vrrp状态均为master)、initialize等异常状况况。4、端口收光异异常:根据hedex不同端口收收光要求,,对各种类类型端口的的收光进行行判断,是是否超出范范围。功能介绍及及应用场景—数据分析1、IP地址查询::如果输入的的IP不带掩码,,则取缺省省值32,这里查询询到的IP为与全网中中IP地址存在包包含或被包包含或相等等的地址((说明一下下,任意两两段IP地址段只存存在包含、、被包含和和相等关系系,不存在在交集),,同时可以以输出该段段IP地址剩余可可用的IP地址。已用用地址和可可用地址是是不存在冲冲突的,可可以用“冲突检测功能”进行检测。以信令地址()为例,可可查询到在在现网中已已被用的地地址和剩余余可用的IP地址。该功能可用用于IP地址规划、查询网元元接在哪对对CE下等。功能介绍及及应用场景—IP地址管理2、冲突检测:业务接入入地址规划划时,难免存在笔笔误等原因因会导致IP地址存在相相互包含或或相等,可可先对该IP地址段集合合进行分析析,挑出冲冲突的地址址段。这样样确保规划划的IP不冲突,但但需和现网网进行比较较,判断是是否和现网网IP冲突。10.30.0.160/2910.30.0.128/26BSC与MSS7冲突10.30.0.168/2910.30.0.128/26BSC与MSS7冲突10.30.0.176/2910.30.0.128/26BSC与MSS7冲突10.30.0.224/2910.30.0.192/26BSC与MSS7冲突10.30.0.232/2910.30.0.192/26BSC与MSS7冲突10.30.0.240/2910.30.0.192/26BSC与MSS7冲突10.31.114.33/3210.31.114.32/28同为GA的业务地址10.31.114.34/3210.31.114.32/28同为GA的业务地址10.31.114.35/3210.31.114.32/28同为GA的业务地址10.31.114.36/3210.31.114.32/28同为GA的业务地址10.31.114.37/3210.31.114.32/28同为GA的业务地址10.31.114.38/3210.31.114.32/28同为GA的业务地址10.31.114.49/3210.31.114.48/28同为GA的业务地址10.31.114.50/3210.31.114.48/28同为GA的业务地址10.31.114.51/3210.31.114.48/28同为GA的业务地址10.31.114.52/3210.31.114.48/28同为GA的业务地址10.31.114.53/3210.31.114.48/28同为GA的业务地址10.31.114.54/3210.31.114.48/28同为GA的业务地址10.33.22.0/3010.33.22.0/26mgc-urp3与vlan10冲突10.33.84.0/3010.33.84.0/25urp5-mgw与vlan10冲突1、ping测试是对链路质量量检测最简简单且可靠靠的方法,,根据采集集到的配置置,生产自自动ping测表格(手手动生成一一方面不完完整,其次次网络频繁繁变更,不不可能每次次都手动生生成),形形成ping测命令,登登陆到设备备上,执ping测行指令,,实现自动动ping测。以CE-AR测试为例::功能介绍及及应用场景—PING测试1、CE面板信息查查询:选择择相应CE后,即显示示出CE局址、可用用的vrid(virtualrouterid)和设备面板板信息,包包括端口信信息、IP地址信息等等端口参数数。2、汇聚和明明细IP查询:在选选择CE后,就可以以进行prefix查询。该功能用于于填写向集集团申请割割接的需求求单,避免免反复登陆陆设备,查查看prefix等信息。也也可查询该该CE,某个业务务所使用地地址的情况。功能介绍及及应用场景——其他查询举举例三、网络层层面端到端端研究——(二)业务务接入CE资源申请流流程三、网络层层面端到端端研究——(三)流量量模型分析析方法IP承载网的双双平面组网网方式、协协议的cost值规划设计计、以及BFD及FRR等技术、路路由快速收收敛配置等等,保证了了任意一条条或以上链链路中断时时,业务流流量能快速速地进行备备用链路切切换,而不不影响用户户感知。因因此,当网网络中节点点或链路故故障,或业业务侧发生生倒换等原原因改变了了原先的流流量模型,,正常来说说都不应该该影响业务务。但我们们的维护工工作中,仍仍多次遇到到因异厂家家设备对接接、网络隐隐患问题、、配置错误误等致使网网络流量模模型改变时时发生业务务影响的故故障。所以,网络络维护人员员应熟知各各种情况下下的流量模模型。图1CE1为主用业务务端到端流流量模型图2CE1为主用且CE1-AR1间故障时业业务端到端端流量模型型图2CE1为主用且AR1-BR1间故障时业业务端到端端流量模型型故障案例一一——曲靖CE-AR间传输带宽宽配置缺失失引起的流流量拥塞问问题(1)【问题描述】曲靖所有BSC原都归属于于昆明CE5/6下挂的SGSN3。因SGSN3负荷较高,,GPRS核心网进行行了调整,,将曲靖部部分BSC调整至归属属昆明CE5/6下挂挂的的SGSN14,之之后后发发现现曲曲靖靖全全市市所所有有BSC业务务流流量量均均上上涨涨30%。且且曲曲靖靖公公司司反反映映调调整整前前几几个个月月全全市市的的数数据据业业务务流流量量提提升升不不大大,,用用户户手手机机上上网网感感知知较较差差。。调调整整后后,,曲曲靖靖PS域数数据据流流量量整整体体提提升升了了30%左右右,,且且用用户户手手机机上上网网感感知知提提升升。。【问题题分分析析】为了了分分析析曲曲靖靖PS域数数据据业业务务流流量量发发展展与与GPRS核心心网网侧侧归归属属SGSN调整整之之间间的的关关系系,,进进一一步步发发现现潜潜在在的的问问题题,,优优化化全全市市数数据据业业务务,,省省公公司司IP专业业与与GPRS核心心网网专专业业共共同同参参与与排排查查。。排排查查过过程程如如下下::1、流流量量模模型型分分析析::GPRS专业业首首先先根根据据调调整整前前后后BSC归属属的的SGSN3及SGSN14进行行了了检检查查分分析析,,未未发发现现异异常常。。IP承载载网网进进行行了了部部分分BSC调整整归归属属前前后后BSC-SGSN的流流量量模模型型分分析析,,分分别别如如下下::部分分BSC归属属调调整整前前,,曲曲靖靖所所有有BSCGB业务务均均归归属属到到昆昆明明SGSN3。因因SGSN3及BSC的GB业务务均均是是通通过过VRRP协议议以以主主备备方方式式接接入入本本站站点点CE,华华为为SGSN3的主主用用板板卡卡接接入入奇奇数数CE5,备备用用板板卡卡接接入入偶偶数数CE6,但但CE上配配置置的的该该VRRP组主主用用为为CE6,备备用用为为CE5;曲曲靖靖CE1/2上为为每每台台BSC配置置一一个个单单独独的的VRRP组,,且且每每个个VRRP组的的主主用用均均为为CE1,备备用用均均为为CE2。故故SGSN-BSC上下下行行流流量量路路径径不不同同::调整整的的部部分分BSC-SGSN3流量量模模型型下行行流流量量方方向向::华为为SGSN3—昆昆明明CE5—昆昆明明CE6—昆昆明明AR2—昆昆明明BR2—曲曲靖靖AR2—曲曲靖靖CE2—诺诺西西BSCxx。上行行流流量量方方向向:诺西西BSCxx—曲曲靖靖CE1—曲曲靖靖AR1—昆昆明明BR1—昆昆明明AR1—昆昆明明CE5—华华为为SGSN3。部分分BSC归属属调调整整后后,,调调整整过过的的BSC归属属到到昆昆明明SGSN14(流流量量模模型型如如图图二二)),,而而未未被被调调整整的的BSC仍归归属属到到SGSN3(流流量量模模型型仍仍为为图图一一))。。因因SGSN14的主主用用板板卡卡接接CE5,备备用用板板卡卡接接CE6,且且配配置置的的VRRP组CE5为主主用用,,CE6为备备用用;;曲曲靖靖CE1/2上为为每每台台BSC配置置一一个个单单独独的的VRRP组,,且且每每个个VRRP组的的主主用用均均为为CE1,备备用用均均为为CE2。故故此此时时SGSN-BSC间上上下下行行流流量量路路径径一一致致,,具具体体为为::下行行流流量量方方向向::华为为SGSN14—昆昆明明CE5—昆昆明明AR1—昆昆明明BR1—曲曲靖靖AR1—曲曲靖靖CE1—诺诺西西BSCxx。上行行流流量量方方向向:诺西BSCxx—曲靖靖CE1—曲靖靖AR1—昆明明BR1—昆明明AR1—昆明明CE5—华为为SGSN14。2、链路路检查查:IP专业经经从BSC至SGSN做端到到端各各链路路排查查,发发现在在曲靖靖AR2-PS域CE2间GE链路有有丢包包。从从CE上持续续观测测该链链路,,发现现忙时时流量量最大大为15%(且该该链路路两端端互ping测试有有严重重丢包包),,忙时时另一一平面面曲靖靖CE1-AR1平均流流量为为12%,由此此按照照每链链路1G带宽计计算,,忙时时曲靖靖GB业务流流量为为270M左右((不考考虑传传输开开销等等)。。初步步怀疑疑因链链路质质差引引起CE2-AR2间丢包包。为为了先先恢复复数据据业务务,考考虑先先将曲曲靖AR2-CE2间的下下行流流量((上行行都走走了奇奇数平平面))也调调整至至AR1-CE1奇数平平面。。调整整方法法是修修改曲曲靖AR2-CE2间的ospfcost值从10调整为为10000。此修修改后后观察察双平平面流流量,,在曲曲靖AR2-CE2间流量量逐渐渐减少少的故障案案例一一——曲靖CE-AR间传输输带宽宽配置置缺失失引起起的流流量拥拥塞问问题(2)过程中中对该该链路路进行行持续续ping测试,,发现现该链链路在在流量量小于于5%以后直直到无无流量量承载载情况况下,,链路路不再再丢包包,从从而证证明曲曲靖AR2-曲靖CE2整条传传输链链路上上无故故障点点,链链路质质量正正常。。此时时曲靖靖CE1-AR1承载了了曲靖靖的所所有GB流量,,利用用率为为42%左右,,即曲曲靖忙忙时正正常流流量应应为400M以上,,与之之前双双平面面承载载时总总流量量为270M左右相相比,,流量量立即即上涨涨了130M以上,,该原原因即即为曲曲靖进进行部部分BSC调整后后整体体PS流量上上升30%的原因因。但之后后再将将该链链路cost值改回回10后,流流量倒倒回AR2-CE2链路并并到一一定值值时又又开始始丢包包,并并且最最大流流量值值只能能到达达15%(即130M左右))后无无法上上涨((曲靖靖忙时时正常常流量量应为为400M以上,,而丢丢包时时双平平面相相加只只有200多M流量被被传送送,流流量丢丢失严严重))。至至此,,我们们推断断,该该问题题点在在于曲曲靖AR2-CE2间实际际配置置的传传输带带宽可可能仅仅为155M左右((因为为流量量最高高只能能到15%,即150M左右)),未未达到到最初初网络络规划划建设设时需需求的的带宽宽1GE。故当当该链链路流流量未未达到到155M瓶颈时时我们们无法法发现现该问问题,,在2012年曲靖靖PS域数据据业务务发展展过程程中该该链路路上流流量超超过155M带宽限限制时时出现现拥塞塞及严严重丢丢包,,进而而影响响了用用户手手机上上网体体验。。【问题解解决】找到了了问题题症结结点为为曲靖靖CE2-AR2间传输输带宽宽配置置问题题,经经核实实,因因CE2与AR2为异局局址,,中间间经过过了曲曲靖本本地网网传输输SDH系统,,在CE入网之之初,,本地地传输输并未未按规规划需需求配配置为为1GE带宽,,而只只配置置了一一个VC4,即155M,进而而留下下了隐隐患。。曲靖靖本地地网重重新对对AR2-CE2间调度度配置置新的的传输输OTNGE电路,,解决决了流流量受受限问问题。。经后后续流流量倒倒回测测试,,此时时AR2-CE2间流量量达到到28%以上。。故障案案例一一——曲靖CE-AR间传输输带宽宽配置置缺失失引起起的流流量拥拥塞问问题(3)故障案案例二二——诺西Flexi-BSCGb上下行行流量量路径径不一一致时时闪断断问题题(1)【问题描描述】2012年春节节节前前网络络评估估中发发现承承载GPRS核心网网(SGSN/GGSN)的昆昆明CE1及CE5上行至至昆明明AR1的流量量带宽宽利用用率已已超过过70%以上((峰值值达到到100%),为为保证证用户户手机机上网网感知知,1月18日凌晨晨对部部分SGSN的GB流量((通过过vrrp协议实实现主主备接接入))从奇奇数CE疏导至至偶数数CE上行((修改改vrrp优先级级,该该调整整是IP网中最最常见见的一一种流流量疏疏导方方式))。调调整过过的SGSN对应的的红河河、曲曲靖、、玉溪溪三地地市的的诺西西BSC侧的GB入流量和出出流量不对对称(图1),此后发现三三个地市部部分诺西BSC出现业务闪闪断,GB-link闪断告警量量突增。图1调整的SGSN与地市BSC间GB流量上下行行不一致【故障分析】1、当SGSN与BSC之间的上下下行流量路路径相同时时,上述地地市所有BSC与SGSN间GB业务均正常常;当上下下行流量路路径不一致致时,部分分BSC业务闪断故故障出现。。2、承载网为为双平面组组网,提供供负荷分担担的同时也也起到路由由和业务的的主备保护护,CE下挂业务网网元均以主主备方式((配置VRRP组,如本例例的BSC及SGSN均通过主备备方式接入入,CE上提供VRRP虚网关)接接入CE。因此当某某一链路中中断时有冗冗余备份链链路提供倒倒换和保护护,且业务务应该实现现毫秒级别别的切换,,不影响用用户感知。。所以BSC与SGSN之间的GB业务双向路路由怎么变变化都不应应该受影响响。3、分析告警警发现,当当双向路由由不一致的的情况出现现时,大多多数BSCGB业务未受影影响,出现现业务闪断断故障的均均是诺西flexi-BSC,所以初步步定位为型型号flexi-BSC与SGSN之间的上层层协议(TCP层以上)是否存在兼兼容性问题题。【故障处理】业务应急恢恢复:通过修改改CE上配置的VRRP协议优先级级的方式,,将SGSN(主用上行行到偶数平平面)对应应的玉溪、、红河、曲曲靖三个地地市15台flexi型号BSC的上行主用用也调整到到偶数CE,形成图3-14流量模式,,暂时规避避GB-link闪断问题。。分析定位::1、当进行流流量路径调调整,或网网络中某链链路故障时时,均可能能出现Gb业务(其他他类型的VPN业务也一样样)上下行行路径不一一致的情况况。故1中的调整不不能根本解解决问题。。需要进一一步排查flexi-BSC与CE对接兼容性性问题。云云南共有82台flexiBSC,占比诺西西全网BSC的29.6%,本次将调调整部分SGSN主备后涉及及双向流量量路径不一一致的15台flexiBSC也调整了主主备,占该该版本的18.3%。因此以这这15台BSC为排查对象象。2、为定位问问题,于夜夜间选取红红河BSC进行故障重重现。情况况与第一次次调整时一一致,当将将红河flexiBSC上行的主用用调回奇数数CE后,故障立立即重现,,并及时抓抓取CE侧及BSC侧日志信息息。GB链路是PCU发送一个单单播的NSIP_ALIVE报文到SGSN。对NSIP_ALIVE报文的回应应是由SGSN发送一个单单播的NSIP_ALIVE_ACK报文到PCU来维持的。。GB链路闪断是是因为PCU暂时收不到到由SGSN发出的NSIP_ALIVE_ACK报文。从BSC侧日志可发发现NSIP_ALIVE_ACK有丢失,如图2所示图3将涉及的flexi-BSC的上行主用用调至偶数数CE图2BSC测日志故障案例二二——诺西Flexi-BSCGb上下行流量量路径不一一致时闪断断问题(2)分析得知::Gb上行流量通通过BSC内连接CE1的SWU2流出(如下下图4中黄色虚线线),下行行流量通过过与CE2连接的SWU3流入。SWU2、SWU3均为BSC内嵌的二层层交换机ESB24,且部署了了广播抑制制功能,其其学习PCU的MAC地址表aging-time为5分钟,而CE的MAC地址aging-time为20分钟(一般般路由器的的默认值,,各厂家一一致)。由上述,在在上下行路路径非对称称模型下,,flexiBSC内ESB24间mac地址表存在在5分钟更新时时间到而删删除的情况况,且因为为BSC内部署了广广播抑制功功能,故此此时ESB24上mac地址表消失失。当CE2在20分钟更新时时间到后发发一次ARP请求(mac地址请求))报文到BSC内PCU时,SWU3才回送一个个Arpreply报文到CE2,所以SWU3的MAC地址表每20分钟才更新新一次。期期间存在一一段时间内内无mac地址表的情情况,导致致下行流量量流入SWU3后因查询不不到mac地址表而丢丢包,进而而引起Gb业务闪断。。故障案例二二——诺西Flexi-BSCGb上下行流量量路径不一一致时闪断断问题(3)图4BSC内部结果解决思路::对于上下行行流量非对对称与ESB24的DLF广播抑制功功能存在冲冲突,在此此流量模型型下为保证证flexiBSCGb业务正常,,可以采用用如下两种种方案:1)屏蔽ESB24的DLF广播抑制功功能。但是是由此将给给网络带来来很大的安安全隐患,,存在广播播泛洪现象象,从而占占用大量不不必要带宽宽,同时造造成PCU的负荷冲击击,影响设设备的正常常工作;诺诺西不推荐荐使用。2)设置SWU中的Mac-aging-timer大于或等于于CE上的MAC-aging-timer,此方案理理论上可行行,但是没没有经过测测试,建议议先在某台台BSC上经过测测试验证证后再大大规模修修改使用用。【处理结果果】将flexiBSC的mac地址表更更新时间间aging-time由5分钟改为为20分钟,以以避免5分钟计时时到mac地址表被被删除,,又因BSC内广播抑抑制功能能而导致致ESC24无法学习习到mac地址,造造成目的的不可达达而丢包包。因昆明的的flexi型号BSC归属的SGSN组成了pool,且pool内只有一一台SGSN与昆明BSC有上下流流量不一一致情况况,其余余两台未未修改SGSN主备接入入的仍与与BSC间为双向向路径一一致,此此情况下下,昆明明的flexiBSCGB链路会有有告警,,但业务务不受影影响。故故首先选选取昆明明三台flexi-BSC进行修改改测试,,观察一一周未重重现告警警。其次次再选取取曲靖及及红河flexi-BSC修改aging-time并测试验验证,故故障未重重现。之之后对全全网flexi-BSC修改aging-time为20分钟,并并上报集集团建议议全国规规避。【案例点评评】网络拓扑扑如果要要发生变变化,建建议事先先通知各各业务厂厂家,进进行拓扑扑评估,,验证和和可行性性测试,,测试通通过后方方可在现现网进行行应用。。故障案例例二——诺西Flexi-BSCGb上下行流流量路径径不一致致时闪断断问题(4)四、“规划、建建设、维维护””端到端端研究Gb/Iu-ps上行流量量方向::Gb/Iu-ps下行流量量方向::Gi/GN流量出/入流量方方向:组网说明明:IP承载网按按双平面面+对称冗余余组网,,业务网网元以主主备方式式或负荷荷分担方方式接入入CE,从而实实现双平平面流量量的主备备保护及及流量分分担。以2/3G手机上网网流量分分析为例例:通过过分主用用上行、、主用下下行、备备用上行行、备用用下行四四个链路路方向,,以及无无线侧、、核心网网侧、骨骨干网侧侧几个维维度分析析IP专网对手手机端到到端上网网业务流流量及网网络配置置需求。四、规划划、建设设、维护护端到端端研究——网络流量量评估方方法模型型全网各级级链路峰峰值流量量分析1、BSC、RNC接入CE流量分析析(主用用平面))BSC接入CE方式:各各厂家BSC基本以1+1主备方式式双上行行接入CE1/2。RNC均以1G+1G光口或2G+2G光口以““负荷分分担方式式”接入入CE对,即各各RNC接入CE总带宽为为2G或4G。通过提取取一定时时间内BSC/RNC至CE的链路峰峰值流量量,计算算各地市市PS域业务量量大小。。以BSC的计算为为例(RNC同理),,如图::一)地市市无线接接入侧分分析2、无线侧侧各地市市2/3G总流量分分析及其其对CE-AR带宽的利利用率((主用平平面)1)各地市市2/3G上行峰值值流量和和:统计计各地市市2/3G上行峰值值流量总总和,图图左图2中的蓝色色曲线,,最大的的为昆明明CE3,为407.71Mbps,其次是是大理158.82Mbps。流量占占用CE出口至AR的带宽利利用率均均未超过过15%。即CE-AR属于轻载载。2)各地市市2/3G下行峰值值流量和和:统计计各地市市2/3G下行峰值值流量总总和,图图左图3中的蓝色色曲线,,最大的的为昆明明CE3,为941.42Mbps,其次是是曲靖898.25Mbps。流量占占用CE出口至AR的带宽利利用率均均未超过过45%。考虑扩容容。二)GPRS核心网接入侧侧分析目前全省共有有4对CE用于GPRS核心网元接入入各类业务((含GB/IU/GI/GN/PCC等),为昆明明CE1/2及玉溪CE3/4(诺西GPRS)、昆明CE5/6及CE11/12(华为GPRS)。CE对同时接入本本地AR对及通过FW(防火墙)接接入CMNET。1、各CE下挂SGSN的2/3G总流量及其占占用CE至AR带宽情况分析析提取9、10月中多次采集集CE-SGSN的峰值最大值值,计算出各各CE下挂SGSN的Gb/IU总流量,并用用此流量值计计算其对CE-AR带宽的占比,,CE-AR链路均处于轻轻载。链路带宽Mbps下行流量Mbps上行流量Mbps下行带宽利用率%上行带宽利用率%昆明CE1-AR1100001517.16568.8715.175.69昆明CE2-AR2100001509.51202.9015.102.03昆明CE5-AR110000855.41311.708.553.12昆明CE6-AR2100001230.80355.4712.313.55昆明CE11-AR1100003095.221044.7130.9510.45昆明CE12-AR210000609.62162.916.101.63玉溪CE3-AR1100001116.85331.5711.173.32玉溪CE4-AR2100000.0115.770.000.16二)昆明玉溪溪GPRS核心网接入侧侧分析2、CE至防火墙(GI/GN流量分析)链路带宽Mbps入峰值流量(下行/Mbps)出峰值流量(上行/Mbps)下行带宽利用率%上行带宽利用率%昆明CE1-FW10000283361428.336.14昆明CE5-FW200003406193317.039.665昆明CE11-FW10000333282833.328.28玉溪CE3-FW2000010663575.331.785昆明CE2-FW100000000昆明CE6-FW200000000昆明CE12-FW100000000玉溪CE4-FW200000000提取9、10月中多次采集集峰值最大值值,各CE至防火墙的上上、下行流量量及带宽利用用率如表中所所示。按照目前带宽宽配置,链路路均处于轻载载。注:因防火墙墙特性配置,,GI流量只通过奇奇数平面CE-FW疏导,故偶数数CE-FW的流量几乎为为0.3、无线侧与核核心网侧上、、下行流量比比较在前面分析数数据的基础上上,选取9、10月中同时段峰峰值流量数据据,归纳计算算出:(1)全省16地市无线侧BSC/RNC的Gb/IU上、下行峰值值总流量,((2)昆明、玉溪溪GPRS核心网侧SGSN的Gb/IU上、下行峰值值总流量。对比无线侧及及核心网两侧侧流量值基本本吻合。
下行峰值流量Mbps上行峰值流量Mbps核心网侧Gb/IU总流量9934.572993.91无线侧全省Gb/IU总流量10286.232669.36流量分析的意意义:通过网网络流量分析析和评估,后后端部门推动动前端部门,,指导规划建建设,支撑前前端运营;另另外从维护方方面也能预警警网络带宽瓶瓶颈问题,及及时扩容,保保障网络平稳稳。维护、优化规划、建设流量分析支撑、指导自查、预警总结:五、跨专业“业务务端到端”研研究五、跨专业“业务务端到端”研研究——1、支撑监控监控人员专业人员编写告警监控控指导手册每周将更新的的CE设备面板信息息同步至监控控每季度一次培培训及时处理监控控人员反馈的的告警及故障障问题CE设备配置访问问权限账号给给监控人员,,并教授常用用的简单查询询指令培训指导、监控前前移故障咨询、转转交处理五、跨专业“业务务端到端”研研究——2、“传输-承载-业务”联动配配合CS域或PS域各类业务端端到端互通,,需基于业务务侧上层运用用数据(例如如SCTP路径可达)、、IP层路由可达、、物理层链路路可用等。因因此,在核心心网或无线网网业务发生告告警或故障时时,应根据实实际的影响范范围和告警内内容,从业务务层面、IP网层面、传输输层面进行端端到端联合分分析。转变维维护思路,建建立从各专业业的孤立维护护转变为以业业务端到端感感知、全程全全网为导向的的维护模式。。以业务侧日常常常见的一大类类告警为SCTP路径不可达告告警为例,分析发现主要要为以下几种种情况之一::1)因传输故障障导致IP承载网省干链链路闪断引起起的网元端到到端SCTP不可达;2)因某一网元元侧异常引起起的到对端网网元及涉及的的pool内网元间SCTP不可达。3)IP承载网CE设备板卡等故故障或转发异异常引起的业业务闪断。根据日常发生生过的大量SCTP路径不可达告告警处理方式式,根据由业业务网元—IP承载网—传输输从上而下、、由点到面的的处理思路,,总结出处理理步骤如下::案例分析——大量异局址多多个地市网元元上报SCTP路径不可达告告警问题(1)【问题描述】2013年7月30日下午14:53监控室反映核核心网网管监监控平台上报报大量SCTP路径失败告警警(SCTPPATHFAILURE),告警网元元涉及多个地地市的MSS及MGW。告警条目达达582条。15:11继续发生德宏宏多个MGW上报SCTP路径失败告警警,告警量达达152条。此类告警警为业务网元元常见的一类类告警(包括括CS域及PS域业务),其其特性为:同同一时间点出出现大面积大大量同类型告告警,涉及不不同地市不同同CE下挂的多个网网元,均为SCTP路径失败告警警。此类告警警为信令链路路闪断告警,,对话音业务务无影响。部分告警截图图如下:图一、两个时间点网网元告警信息息【原因分析】根据告警内容容和范围,因因为同一时间间点上报的告告警涵盖红河河、楚雄、德德宏、临沧、、版纳、普洱洱、曲靖、昆昆明等多个地地市的软交换换网元,且涉涉及的MSS不是同一个POOL内,由此可初初步判断,该该告警原因可可能是IP承载网省干AR-BR间链路闪断引引起。【处理过程】IP承载网专业检检查BR、AR上日志信息,,重点查看核核心网元两次次出SCTP告警时间点时时的链路是否否闪断。根据据日志信息可可知,14:53分BR1-玉溪AR1链路闪断10S,15:11分BR1至丽江AR1、保山AR1、怒江AR1、德宏AR1,BR2至大理AR2、迪庆AR2等共6条省干链路出出现过10S左右闪断。因因BR1/2各地市AR1/2均为省干一平平面OTN及省干二平面面SDH双平面承载,,故未造成整整个地市的脱脱网和业务中中断,只是影影响单边信令令SCTPlink中断。昆明BR1/2上日志信息如如下图二所示示。图二、昆明BR1、BR2上链路闪断日日志信息从链路同时闪闪断信息,及及BR、AR设备上并未其其他异常情况况可判断,两两次时间点链链路闪断应该该都是由于传传输故障或环环路倒换引起起。故联合传传输专业进行行排查处理。。核对IP承载网闪断链链路与传输侧侧告警时间点点如下:BR1:玉溪-高新省干二平平面SDH:Jul3014:53:59.245丽江-高新省干一平平面OTN:Jul3015:11:41.355保山-高新省干一平平面OTN:Jul3015:11:41.442怒江-高新省干一平平面OTN:Jul3015:11:41.474德宏-高新省干一平平面OTN:Jul3015:11:41.520BR2:大理-枢纽省干一平平面OTN:Jul3015:11:40.405迪庆-枢纽省干一平平面OTN:Jul3015:11:40.489经传输专业排排查,明确造造成IP承载网多个地地市链路闪断断进而导致业业务侧SCTP链路告警的原原因为:1、二平面SDH承载部分:高高新-玉溪闪断,与与传输二平面面波分西南环环线路光功率率突然降低,,又立刻恢复复,致传输出出现业务倒换换,时间与承承载网链路闪闪断时间相符符合。2、一平面OTN承载部分:7个地市承载网网链路闪断,,与一平面昆昆明禄劝到玉玉溪元谋间光光功率突然降降低,又立刻刻恢复,致传传输出现业务务倒换,时间间与承载网链链路闪断时间间相符合。案例分分析——大量异异局址址多个个地市市网元元上报报SCTP路径不不可达达告警警问题题(2)【故障总总结】此次告告警由由传输输线路路上出出现光光功率率突然然劣化化导致致IP承载网网链路路闪断断引起起。IP承载网网路由由器检检测到到相应应SDH信号劣劣化和和误码码告警警从而而导致致链路路中断断,之之后传传输侧侧光功功率恢恢复路路由器器随即即便检检测到到性能能恢复复,从从而链链路自自动恢恢复,,闪断断时间间大约约为10S。对于于业务务层面面,因因为SCTP为ms级别的的检测测机制制,且且各厂厂家的的业务务网元元对于于检测测时间间的设设置不不一致致,故故相对对于检检测较较敏感感的诺诺西网网元便便出现现大量量信令令SCTP链路失失败告告警,,但对对具体体的话话音、、数据据业务务无影影响,,不影影响用用户感感知。。3、IP承载网网BR及AR设备检检测到到传输输的SDH信号有有告警警,因因此在在设备备端产产生PRDI(远端端劣点点指示示)、、BER(bit错误告告警))等告告警、、同时时将对对应接接口down,进而而引起起多地地市CE下挂的的多台台核心心网元元检测测SCTP路径失失败告告警。。【案例点点评】“SCTP路径不不可达达告警警”在在日常常监控控中较较为常常见。。通常常IP承载网网各级级链路路(CE-AR、AR-BR间)闪闪断均均可能能导致致端到到端的的网元元如MGW-MSS、BSC/RNC-SGSN产生SCTP告警,,加上上MSS、SGSN等网元元的通通过pool组网的的特性性,故故只要要两个个网元元间配配置有有SCTPLink的都将将同时时检测测到SCTP路径失失败,,造成成每次次告警警量都都很大大的现现象((一般般为几几百条条至上上千条条告警警)。。此类告告警基基本对对业务务无影影响,,也不不可能能避免免。但但可以以通过过各专专业的的优化化、建建立并并完善善告警警处理理联动动机制制来进进行优优化。。关于于传输输故障障或倒倒换引引起的的IP承载网网链路路闪断断问题题,只只可优优化不不可避避免。。论证证如下下:通常传传输侧侧发生生倒换换,正正常情情况下下可以以在50ms内完成成倒换换,而而与之之连接接的IP承载网网路由由器((BR、AR)设备备上均均配置置200ms延时((集团团统一一配置置),,所以以路由由器应应该不不会有有任何何感知知才对对,但但是日日常维维护中中却常常见到到传输输正常常倒换换但路路由器器设备备仍发发生端端口down的情况况。因因此我我们会会提出出如下下疑问问:案例分分析——大量异异局址址多个个地市市网元元上报报SCTP路径不不可达达告警警问题题(3)1)传输输是否否能够够保证证每次次都是是在50ms内倒换换成功功?2)数通通设备备是否否真的的延时时了200ms才倒换换?3)两者者开始始倒换换的时时间是是否相相同??4)两者者切换换的条条件是是否一一致??根据我我们进进行的的大量量的传传输倒倒换测测试验验证、、原理理分析析、路路由器器与传传输对对接测测试等等(可可参考考章节节),最最终确确认两两者切切换的的条件件不一一致::数通通设备备由于于底层层芯片片比较较敏感感,而而且只只需要要感知知本接接口的的信息息,所所以可可以判判断LOS,LOF以及各各种误误码,,反应应比较较快,,但是是传输输设备备倒换换的条条件是是主备备链路路的光光功率率差达达到5db,这样样就需需要底底层芯芯片获获取光光功率率信息息,而而且还还需要要两路路进行行比较较,这这其中中涉及及到一一些电电路的的放大大以及及比较较等操操作,,需要要消耗耗一定定的时时间,,而且且在倒倒换过过程中中,肯肯定是是先出出现误误码,,光功功率降降低5db需要延延迟一一段时时间才才能感感知到到,这这样一一来传传输开开始倒倒换的的时间间就会会慢于于数通通设备备,我我们假假设慢慢的时时间为为t1,传输输倒换换需要要的时时间为为t2,而数数通设设备设设置的的延时时为t3,如果果t1+t2大于t3,那么么数通通设备备就会会感知知到端端口down。这是是由多多种设设备互互联的的不同同
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年卫星发射与运营服务协议
- 节约用水考核评价体系
- 2024年人力资源管理合同意见书
- 购物中心玻璃幕墙抗震改造方案
- 2024年兼职会计工作合约
- 二年级下册数学导学案-7 万以内数的认识第11课时 整百、整千数加减法(1)|人教新课标
- 2023-2024学年六年级下学期数学二 比和比例《观察与思考-图形的放大与缩小》教案
- 2021-2022学年四年级下学期数学《鸡兔同笼》(教案)
- 一年级下册数学教案-1.2 读数 写数 北京版
- 2024年光伏电站项目施工与环保监管合同
- 幼儿园大班绘本《小熊不刷牙》 优质课件
- 部编版语文二年级上册 12 坐井观天 (教学设计)(表格式)
- 防水工考试题库及答案
- 私家菜园认领及配套照管服务合同
- 跨文化商务交际学习通超星课后章节答案期末考试题库2023年
- 二年级数学上册第七单元认识时间-学习任务单-第一课时
- 矿领导现场带班制度
- 动物疫病防治员(高级)理论考试复习题库大全-下(判断题)
- 肝胆外科科室现状调研总结与三年发展规划汇报
- 玉米密植精准调控高产技术-李少昆农科院作物所
- 人工智能介绍英文版【优质PPT】
评论
0/150
提交评论