




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
十二月232012年全省运行县公司建维部主任培训材料——重大故障管理目录集团重大故障最新要求近期省内外重大故障-2-重大故障定义和上报流程重大故障定义重大业务故障重大设备故障TD网络重大故障重大故障话音业务数据业务互联互通业务无线网数据网承载网传输网网管网核心网电源空调业务平台NODEBRNCRNC告警分类告警专业告警定义重大业务故障话音业务本地网话音业务超过3万用户话音通信中断,且持续超过20分钟。(对应工信部较大事故定义)互联互通业务在一个本地网范围内,不同基础电信业务经营者的网间电话通信双向全阻持续超过20分钟(新电信=电信固话+CDMA,新联通=联通+原网通固网,该处全阻的含义是到新电信、新联通或铁通全部中断才算重大故障)。(对应工信部较大事故定义)重大设备故障无线网1、BSC阻断超过60分钟。2、一个本地网(地市)内40个(含)以上基站同时阻断3小时,或120个(含)以上基站同时阻断超过1小时。核心网任意移动TDM端局/关口局、MSCServer、MGW、HLR设备发生阻断。传输一干的波分或者SDH设备故障导致系统发生倒换超过6小时(含6小时)数据由于各种原因,造成IP承载网AR单节点发生故障退出服务,且设备故障历时超过60分钟。造成IP承载网AR双节点发生故障退出服务,且设备故障历时超过30分钟。TD网络重大故障无线网1、RNC阻断超过60分钟2、一个本地网(地市)内40个(含)以上TD基站同时阻断3小时,或120个(含)以上TD基站同时阻断超过1小时。易发重大故障集团管理流程省内管理流程重大故障上报流程关键词:时效要求高、上报信息全、核算方法准、总结报告精重大故障通知重大故障逐级上报重大故障处理跟踪重大故障记录重大故障处理结果通报重大故障总结故障处理关键点—完整跟踪闭环针对故障完整闭环过程合理角色分工,提升信息沟通和故障处理效率监控人员重大故障发现总体信息发布省公司信息接口协调资源、总体指挥对口外部发布接口组织编写重大故障报告维护设备故障抢修专业线条上报协作重大故障报告编写监控协调指挥快速抢修维护人员管理人员重大故障管理思路变化2012年集团将下发最新的重大故障评估办法事前事中事后及时发现,快速恢复不在同一个地方跌掉一切尽在掌握②对故障反应出来的日常维护水平进行考核。①不仅只考核监测上报,对故障处理过程进行考核。特点:③考核指标细化、量化。重大故障发现避免基础工作落实不到位,导致故障发现不及时的情况故障工单上报达到重大故障标准后1小时内主动上报集团,不得瞒报工单填写要求按照规范具体要求填报故障信息初步核实对工单中错填和漏填项退回省端修改,对退回修改次数进行考核新增要求:应避免如下原因造成未及时发现重大故障的情况:维护人员擅自屏蔽告警、告警派单不及时、对告警派单未督办。要求:重点考核时限,以及不得有意瞒报、误报故障信息。要求:应准确填写故障标题、重大故障定义编号,如实填写故障时间等各项信息,准确描述故障现象和主要告警信息,并概要说明故障原因和业务影响情况。要求:工单上报内容退回修改次数不得超过3次,直至工单上报内容准确无误事前事中事后事前:重大故障发现和上报流程规范重大故障阶段上报对影响较严重的故障,严格要求阶段上报。重大故障阶段处理避免因基础工作落实不到位,导致故障处理延误的情况。重大故障消除上报按照规范具体要求填报消障信息和业务核算表;对及时性、错填和漏填项进行考核。新增要求:对影响业务的严重故障必须阶段上报,应包含故障主题、故障原因、业务影响、当前处理措施或进展。要求:应避免出现处理人员能力不足、处理步骤明显不合理等原因造成故障延误的情况要求:应在故障消除后30分钟内在EOMS上报消障信息,应准确填写各项时间信息、故障原因、业务影响情况事中:重大故障阶段处理、消障上报规范事前事中事后新增重大故障报告上报
重大故障消障上报后48小时之内按规范中要求的格式通过EOMS上传。重大故障报告审核规范中对各字段填写要求进行严格定义,应准确无误填写。重大故障原因考核对重大故障最终确定的原因进行分析,考核人为误操作等不合理原因。新增要求:故障报告上传一定要及时,如遇EOMS网管问题应及时联系集团要求:应按照模板中格式要求填写各项信息,不得出现漏填、错填现象,原因、过程等内容应填写详实。要求:应透彻分析故障原因并准确上报。对人为重大故障严格考核。事后:重大故障报告上报规范和原因项考核新增事前事中事后集团重大故障上报考核要求变化情况2012年集团公司下发最新重大故障考核主要涉及到“重大故障误报”、“重大故障发现及时性”等10个方面,主要变化有:不仅考核监测上报,对故障处理过程进行考核。要对核故障反应出来的日常维护水平进行考核。新增了四项考核项目,分别为重大故障误报情况、网管告警有效性、重大故障阶段上报、故障原因评估。考核指标更加细化、量化,其中重大故障工单准确度、故障报告质量的考核分值比例较大,为15分。10分10分10分10分10分15分5分5分10分15分新增新增新增新增从今年上半的重大故障上报的情况看,在重大故障误报、工单上报准确性、阶段上报、故障报告等方面均有不同省公司存在问题,我省需重点关注上述环节。集团公司对下列情况有明确的要求:对重大故障瞒报、漏报情况实施一票否决制,每发现一例,当月重大故障上报考核为零分。对重大故障发生后被评估为人为操作、架构不合理等因素造成的,将予以扣分。对重大故障的网管准确性提出了较高的要求,且考核分值为10分。考核类别考核指标名称指标要求指标分值上半年其他省公司存在的问题重大故障发现和上报重大故障误报情况考核重大故障误上报、原因误报、业务影响情况误报等情况(新增考核)满分101、四川公司在MSCPool故障中上报业务影响情况不准确2、广西公司HLR重启故障中,在故障原因核实、信息交接、故障信息上报存在不准确、不认真的情况,并多次更改上报口径重大故障发现及时性考核以下原因导致故障发现不及时的情况,如:维护人员擅自屏蔽告警、告警派单不及时、对告警派单未督办等满分10
网管告警有效性考核重大故障发生时,网管系统是否呈现相应告警信息(特殊情况例外)(新增考核)满分10
重大故障工单上报及时性重大故障工单是否及时上报到总部满分10
重大故障工单上报准确度重大故障上报工单的字段信息是否规范、准确无误满分15青海公司在故障发生时间、业务影响时间、故障专业、原因类别等信息填报错误重大故障阶段处理、消障重大故障阶段上报情况考核重大故障是否有阶段上报、上报质量(新增考核)满分10江苏公司在上报MGW退服的重大故障中,上报信息效率较低重大故障消除上报情况考核省公司消障信息上报情况满分5
重大故障业务、故障恢复时长考核省公司恢复业务、完全处理所有故障点的能力,避免因基础工作落实不到位,导致故障处理延误的情况满分5
重大故障报告和原因重大故障报告质量重大故障报告上报的效率和信息准确度满分15江苏SCP34阻断重大故障、四川达州GS1重启重大故障、青海光缆故障导致SDH倒换超过6小时重大故障、广西北海光缆中断导致SDH倒换超过6小时重大故障的故障报告质量较差故障原因评估项对人为故障和网络架构不合理引发的故障进行扣分,例如人为误操作、割接、升级方案不完备、网络架构不合理造成的故障(新增考核)满分101、青海公司在割接条件不完备的情况下割接导致AR双节点推出服务的重大故障2、上海公司BSC故障处理中,由于厂家调测人员错误连接至现网BSC进行操作,导致BSC业务全阻。集团重大故障上报考核要求变化情况目录集团重大故障最新要求近期省内外重大故障-15-重大故障定义和上报流程2012年1-8月共发生全国共发生73起重大故障。主要集中因为自然灾害引起的重大故障,请及时关注天气,提前预防。2010年共发生重大故障145起,比2009年111起增加30.63%。2011年共发生重大故障106起,相比2010年减少26.90%,重大故障数大幅减少,且无上报工信部故障。全国重大故障概述全国重大故障原因分类故障原因分类统计:2011年按故障原因分类:自然灾害40起,系统原因29起,外部人为/施工29起,环境7起,内部人为1起。2012年前8个月按故障原因分类:自然灾害40起,系统原因17起,外部人为/施工9起,环境1起,传输1起,外部原因4起。2011年和2012年前四月份,传输重大故障占比均超过50%。故障原因分类统计:2011年按按故障系统分类:传输54起,无线31起,交换10起,环境6起,数据3起,互联互通1起,网管故障1起。2012年前8个月按故障原因分类:传输17起,无线37起,交换8起,互联互通4起,IP承载网4起,数据2起。全国重大故障系统分类全省达到重大故障标准原因分类故障原因分类统计:2011年按故障原因分类:自然灾害0起,系统原因30起,外部人为/施工4起,环境0起,内部人为10起。2012年前10个月按故障原因分类:光缆/尾纤4起,系统原因23起,外部人为/施工1起,原因不明1起。2011年和2012年前10月份,无线故障占比均超过45%。故障原因分类统计:2011年按按故障系统分类:传输20起,无线20起,交换3起,动力1起。2012年前10个月按故障原因分类:传输10起,无线16起,交换3起。全省达到重大故障标准系统分类在集团对重大故障管理日趋严格,网络维护难度日趋加大的背景下,应从三个方面避免重大故障发生,提升应对能力。固本强基应急处理做好日常运行维护,杜绝因基础工作不到位(如组网不合理)而导致的重大故障,从根本上避免重大故障发生。应制定好应急处理预案,一旦发生重大故障,应秉承集团“先抢通业务”的思路,及时消除业务影响,尽快处理故障。网调管控加强施工和操作管理,严格执行相关规范,杜绝人为误操作或割接导致的重大故障。省内关注重点符合重大故障定义集中1-10月全省共发生重大故障29起,达到上报标准2起。其中BSC/RNC阻断故障16起,达到60分钟标准1起。交换机宕机故障1起,任意移动TDM端局/关口局、MSCServer、MGW、HLR设备发生阻断。标准1起。重大故障发生频繁符合重大故障定义集中符合重大故障定义集中1月14日凌晨,阜阳界首阿尔卡特BSC37补丁加载失败,导致该BSC下业务受阻。4:15开始进行倒回操作。5:35至9:12完成该BSC下19个基站的割接。8:12后更换MT120板卡并在BSC侧对SM_ADAPT(BSC到TC管理通道)重新激活后抢通1条信令链路,业务逐步恢复。9:12将剩余MT120全部更换后故障恢复。13:20将割接基站全部倒回,业务正常。故障原因不明,期间共产生用户投诉17件。重大故障处理耗时过长重大故障业务影响核算不熟悉每月进行的重大故障演练上报单中,业务核算均存在明显错误,有的地市公司上报单中无业务核算。加强网络容灾保障,降低重大故障对业务的影响加强省内外的故障经验交流宣贯,尽量减少已知设备缺陷影响加强重大故障应急预案日常演练,提升实战能力理顺内部流程,协调资源做到重大故障的快速上报、快速抢修重大故障管理短板提升全省目前存在问题湖南长沙CSGS3退服重大故障分析业务受影响情况核查:退服设备1台:CSGS3,时间为9:01-10:04,逐步恢复时间10:04-10:27受影响设备3台:MGW7/8/11,时间为9:01-9:20上述设备下辖的18个BSC下的业务均受到影响,其中10个因为有MSCPOOL组网,部分业务受到影响受影响用户数5.2万投诉486起(工单23张,相关咨询463起)MGW7MGW8MGW11CSGS3CSGS2CSGS1BSC…BSC有8个BSC没有进入POOL,业务完全阻断…有10个BSC进入了POOL,业务未完全阻断,但由于实际配置给CSGS1/2的A接口电路数远远低于配置给CGGS3的A接口电路数,因此其对业务的挽救作用非常有限橙底网元受到影响23故障全程回放(1)24时间故障情况集团公司省公司地市公司监控监控处理调度处理5日16:01开关电源故障,蓄电池开始放电,业务未受影响未发现告警因为动环监控系统吊死,告警未正常上传——开关电源产生了输出电流为0的告警,但省公司动环监控系统未正常呈现,导致其未被及时发现未处理5日17:57无告警无告警————维护人员轮询发现告警,根据经验认为是误告警,错误的将其屏蔽5日18:16省端无告警,未上传集团发现动环监控体系处于吊死状态,对其重启。但此时告警已处于屏蔽状态,未上报——告警处于屏蔽状态——6日2:32无告警(省端告警为二级,未上传集团)电源放电至48V产生告警,派单给地市维护人员(3人),未派单给地市网络调度,且未跟进督办维护人员处理情况——调度人员未收到工单,未能及时督办维护人员维护人员正在睡觉,未及时受理工单,6日7:43蓄电池持续放电,CSSSA2产生欠压告警,业务未受影响CSSSA2产生电源提供故障告警,派单省公司督办发现CSSSA2告警,并收到集团工单。通知交换维护人员、地市调度交换维护人员确认为电源问题,没有做进一步工作通知地市维护人员地市维护人员确认开关电源确实出现了问题,赶往故障机房,并通知了中兴技术支持人员故障全程回放(2)时间故障情况集团公司省公司地市公司监控监控处理调度处理6日8:06蓄电池继续放电,业务未受影响————————动力维护人员确认电源确实存在问题后,解出了对告警的屏蔽6日8:08开关电源重现输出电流为0的告警,派单省公司督办开关电源重现输出电流为0的告警,派单给动力室和长沙公司动力管理人员开始调度维护人员处理并督办通知维护人员处理维护人员已在赶往故障机房的途中6日8:34————————维护人员到达故障机房,对故障设备进行处理,由于设备和故障的特殊性,未能解决问题6日9:00————————中兴技术支持人员赶到机房,开始处理电源故障6日9:01CSGS3、MGW7/8/11受到影响,其下所辖业务部分阻断发现CSGS3、MGW7/8/11等网元不可达告警,派单省公司督办发现CSGS3、MGW7/8/11等网元不可达告警,派单并电话通知交换室交换维护人员确认故障发生,赶往故障现场,并通知地市维护、厂家技术支持赶往——地市维护人员赶往故障现场6日9:12电源告警消除电源告警消除交换维护人员仍在赶往故障现场的途中,MGW7/8/11自动重启成功,CSGS3自动重启不成功,业务仍未恢复——经中兴技术支持和地市维护人员处理,电源故障消除,供电恢复25故障全程回放(3)时间故障情况集团公司省公司地市公司监控监控处理调度处理6日9:45CSGS3受到影响,MGW7/8/11已自动重启,CSGS3下辖业务部分阻断————交换维护人员赶到故障现场,经过分析判断后,重启交换机,第一次未成功,后倒入7月4日备份包后再次重启成功————6日10:04CSGS3重启成功,业务逐步恢复————CSGS3的不可达告警开始逐步消除,但测试发现通话仍较困难,检查交换机上发现部分信令单元存在异常状态,于是对CSGS3的部分信令模块陆续进行闭塞/解闭塞操作————6日10:27业务完全恢复————系统完全恢复正常————26故障暴露出来的主要问题1、中兴设备设计不妥是引起电源故障,并导致故障处理时长较大的根本原因2、长沙公司一线维护人员责任心不强,擅自屏蔽告警,严重影响了故障的发现3、省监控对告警监控和督办的不到位,派单规则配置错误,延误了故障的发现和处理4、省公司缺乏针对动环故障的跨专业联动机制,加上交换专业维护人员响应速度和处理效率不高,导致故障历时较长,影响业务时间较长27淮南光缆中断故障业务受影响情况:·
5月1日12:54淮南因多条光缆中断,累计导致29个2G基站、33个TD基站退服,累计退服时长约8小时21分钟。·
18:22至铁通业务全阻累计时长43分钟。5月3日15:50受损光缆全部修复。·故障期间引发WLAN投诉2件,网络覆盖5件,个人宽带业务102件。28光缆阻断拓扑图:故障全程回放(1)29时间故障情况省公司处理情况地市公司处理情况1日12:54淮南本地网光缆中断,导致淮南2G基站退服18个,3G基站退服7个。12:59发现问题,立即通知地市维护人员,淮南运维部副主任(时任主任电话未接),省公司相关科室领导和管理员。发送预警短信。并要求淮南发布客服公告。淮南传输班长前往现场,但淮南运维部领导及带班领导未及时赶赴现场。1日14:51淮南本地网光缆中断,导致淮南2G基站退服18个,3G基站退服7个。传输科领导在接到汇报后,指示其下井操作前必须与省公司确认省干全网状态(当天省干北环有一点中断,系统运行在备用路由上),同时了解了抢修情况,并将这些情况向胡总作了汇报。淮南传输班长到达现场后,电话向省公司传输科领导汇报:接入光缆被鞭炮炸断,入井修复可能会造成省干光缆中断。1日15:57淮南本地网光缆中断,导致淮南2G基站退服18个,3G基站退服7个。省公司传输管理员督促淮南运维部领导赶赴现场,并于16:05到达现场,开始协调指挥淮南公司进行抢修。协调其他施工队进行支援。并于16:34电话淮南总经理要求支援。淮南现场抢修人员较少,无领导在场,仅传输班长带领几名代维人员进行抢修。光缆受损严重,光缆标识不清,携带光缆不足。光缆抢修工作进度较慢。1日16:45淮南本地光缆中断有增加,同时至铁通1互联互通光缆中断。TD退服基站增加10个,2G退服基站增加4个。再次确认故障影响情况,并预警该故障已接近集团公司TD网重大故障标准,并向网络部领导汇报。但没有及时跟踪故障原因,不了解光缆中断的现场情况。抢修人员入井修复光缆,踩坏受损光缆,导致故障影响面扩大。没有了解业务的影响面,将现场的真实情况汇报省公司。故障全程回放(2)30时间故障情况省公司处理情况地市公司处理情况1日17:08省干A/B/C平面出现断纤,淮南本地又新增加光缆中断。省监控中心及时将新增告警通知淮南运维部副主任、传输科长。由于现场光缆烧毁严重,而且多个施工队在抢修,导致又有新的损坏光缆被踩断。现场无法掌控故障的影响面。1日17:10TD基站退服数量为24个立即启动重大故障上报流程,发布预警短信。网络部领导致电淮南领导,抓紧抢通业务,确保不出现重大故障。17:47传输科立即派发抢修队伍协助淮南公司抢修光缆,于20:00到达故障现场。由于现场光缆烧毁严重,而且多个施工队在抢修,导致又有新的损坏光缆被踩断。淮南分公司未及时发现重大故障并进行重大故障上报。1日18:22淮南又有新增光缆受损,淮南DM1/2至铁通方向阻断和淮南确认为抢修故障引起,立即按重大故障上报流程进行上报。18:24网络部领导致电交换科长和互通管理员启动应急预案,并向公司范总进行汇报。准备重大故障上报材料,并积极与集团沟通。由于现场光缆烧毁严重,而且多个施工队在抢修,导致又有新的损坏光缆被踩断。1日19:04淮南DM1/2至铁通业务恢复。但目前2G退服基站为29个,TD退服基站为33个。将相关情况及时通知领导。19:00网络部范总、李总助赶赴淮南,20:25到达淮南,并现场指挥维护人员进行抢修。18:39,传输管理员指挥淮南传输班长协调铁通公司进行调纤。故障全程回放(2)31时
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年CPMM考后总结试题与答案
- 针对性CPSM考试试题与答案解析
- 数学 第四册(五年制高职) 课件 第三章 圆锥曲线
- 种群数量变化的生态学原因试题及答案
- 2025年装订活动及印刷用附件合作协议书
- 细胞内钙的调控作用试题及答案
- 细胞生命周期的研究动态试题及答案
- 电商设计的口碑与社交影响力试题及答案
- 2024年CPSM考试轻松拿证试题及答案
- 统编版语文五年级下册第1课《古诗三首》精美课件
- GB/T 24456-2009高密度聚乙烯硅芯管
- GB 6222-2005工业企业煤气安全规程
- 幼儿园惊蛰来了课件
- 转包违法分包等违法行为认定查处管理办法讲座课件
- PLM解决方案与NX培训教材课件
- 部编版六年级下册道德与法治全册优秀课件
- 【精选】方剂学解表剂练习题
- 英语沪教版小学五年级下册Unit6优质课课件1
- 误吸的护理应急预案
- 法制宣传教育小报
- 上海西郊国际农产品展示直销中心贵州馆入驻方案
评论
0/150
提交评论