中国电信无线网络应急指导册_第1页
中国电信无线网络应急指导册_第2页
中国电信无线网络应急指导册_第3页
中国电信无线网络应急指导册_第4页
中国电信无线网络应急指导册_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、中国电信无线网络应急指导手册中国电信股份网络运营部二零一二年十一月1概述应急处理是一种突发性情况下实施的维护工作,是在网络或设备发生紧急事 故、严重影响用户使用时为迅速恢复业务、 排除故障而进行的一系列故障处理措 施.本手册为应急处理框架,以设备故障、应急容灾、信令拥塞三类场景为例, 提出三类事件发生时的处理原那么,为各省编制本省应急预案提供参考.各省在制 定省应急预案时应充分考虑本省实际情况,在本指导手册中三类场景根底上进行 适度扩展,以应对可能发生的突发性网络问题.本文同时提供华为、中兴、阿朗设备厂家的设备紧急故障处理指导手册及部 分省份应急预案作为参考.2无线网络紧急故障定义紧急故障是指

2、发生忽然、影响面广、涉及范围大,严重影响用户使用感知并 可对网络的平安运行与效劳质量造成严重后果的设备或网络事故.根据紧急故障影响范围,无线网络紧急故障简称“紧急故障可分为 3个级别:故障级别故障定义A+级1移动无线网络设备故障导致通信阻断超过 5万户*小时;2BSC/RN宕机或全阻;A级130个及以上基站退服同一故障源;220个及以上基站退服,持续60分钟及以上同一故障源;3无线网络网管系统瘫痪B级1移动无线网络设备故障导致通信阻断超过 3万户*小时;210个及以上基站退服同一故障源;310个及以上基站退服,持续60分钟及以上同一故障源4无线网络网管系统运行异常指系统性能下降,严重影响 网络

3、监控和数据配置等.3应急处理预案要求各省应针对不同的场景分别制定相应的无线网络应急处理预案简称“应急 预案,以指导紧急故障发生时的应急处理工作.紧急故障处理时应遵循应急处理预案的各项要求. 应急预案包括应急处理组织结构、应急处理上报流程、应急处理方法等.4 应急处理组织及流程应急通信处理工作坚持统一指挥、分级负责、严密组织、密切协同、快速反 应、保证有力的原那么.4.1.1 应急处理小组组织架构根据紧急故障影响范围、发生原因、处理流程、分公司组织结构等,应急处 理小组可包括责任单位、协作单位、支撑单位、设备厂家成员等多方,其中责任 单位为无线维护相关部门,协作单位为核心网含电路域和 / 或分组

4、域、业务 平台、传输、动力等相关维护专业以及客服、网监等相关部门.应急处理小组中 各单位、部门应责任明确, 参与应急处理小组的单位及部门均应指定负责人和接 口人,以保证应急处理过程中各环节工作的落实.4.1.2 紧急故障上报要求故障发生时,应根据故障影响程度范围将故障上报至相关单位和部门的负责 人,上报的方式包括短信、邮件、 等,上报的内容包括故障发生点、故障发 生时间、故障影响范围、预计修复时间等内容.上报要求如下:到达B级故障时,故障发现部门或人员以 方式通知故障处理值班人员及 其维护主管.并通过短信方式通知应急处理小组各成员.到达A级故障时,故障发现部门或人员以 方式通知故障处理值班人员

5、及 其维护主管,由维护主管通过 方式通知客服部门,并协助客服部门进行 客户投诉拦截及安抚工作.到达A+级故障时,除以上上报要求外,还应在故障发生时,立即上报集团网 运部,并在故障处理过程中及时汇报处理进展情况,故障处理完成一周内向 集团网运部提交故障处理报告.4.1.3应急处理流程流程中各环节的责任部门由各省根据实际组织架构确定,以下流程供参考.中国电信无线网络应急恢复处理流程1、目的明确中国电信无线网络紧急重大故障的应急恢复处理流程,界定部门责任,标准处理,缩小影响范围及时长, 提升处理效率.2、适用范围中国电信各级分公司无线网络紧急重大故障的应急恢复处理.3、流程/流程说明NOC发现或者受

6、理紧急重大故障0000号受理客户申告开始31网管告警网络指标严重恶化重大、紧急事件无线中央收单紧急、重大故障?故障上报一般故障处理结束否相关部门、相关厂家技术支撑成立多方应急处理小组按要求上报4备件、应急通信车?应急任务完成?需要技术支撑?应急处理资源需求?故障修复?测试评估、指标监控评估是否通过?应急处理结果归档、上报1相关备件、应急通信车入库结束派单到尢 营中线网络运 二心故障预处理5 应急处理方法以下以设备故障, 应急容灾, 信令拥塞三个场景为例, 介绍应急处理的过程 和方法.场景一、设备故障,是指无线网络设备的单板、背板机框等故障,以及附属 设备动力、传输、电源等原因引起设备无法正常运

7、行的故障.场景二、应急容灾,主要针对自然灾害冰灾,台风,火灾,地震,洪灾、 战争、突发事件等应急情况下造成的主设备故障且短期内无法恢复时的应急处 理.场景三、信令拥塞, 是指由于突发的不可预知的事件引发的信令冲击, 引起 的全局或者局部的话务、 信令拥塞, 设备局部资源如信令处理板件、 背板带宽资 源、声码器资源无法正常运行,主要表达为相关处理板件CPU占用率过高、 业 务接通率下降、用户感知明显变差、甚至可能引发大面积网络瘫痪的情况.应急处理包括日常准备、应急处理、处理评估三局部内容.日常准备包括备品备件、应急工具、应急资料、应急设备数据等的准备. 应急处理包括针对不同场景启动相应预案的条件

8、、实施方法步骤. 处理评估包括故障原因的分析、故障影响范围、影响程度、故障恢复情况的 评估等.5.1 应急日常准备日常准备工作的好坏是应急处理成功的关键, 日常工作中, 应注意以下工作 内容:做好应急预案中所涉及资源的配备,应急资料及时更新 每年应不定期进行应急处理演练,以保证应急处理流程畅通,应急维护人员 操作熟练.根据不同场景预案, 日常准备的应急资源、 资料也不同, 本文列举上述三个 场景中重要的应急资源及资料的准备5.1.1 设备故障应急处理日常准备5.1.1.1 备品备件备品备件用于运营设备发生故障时故障部件的更换,包括主设备单板板件、 机框等备件,主设备硬件板件应注明型号、版本情况

9、、数量、存放地点等信息. 备品备件应定期进行测试,保证备件的完好.5.1.1.2 维护检查工具维护检查工具是故障设备检修中需要使用的工具, 分为通用工具和厂家专用 工具,通用工具主要有扳手、十字起、梅花起等,厂家专用工具指厂家设备维护 专有的硬、软件工具.5.1.2 应急容灾处理日常准备应急容灾应提前做好容灾组网规划,包括 VIP站点信息、应急专用传输通道 的规划以及应急容灾方案实施时需要启用的数据配置脚本的预制作等.5.1.2.1 容灾组网规划容灾组网是指主设备主要指BSC/PCF/A等发生重大的、短期内不可恢复 故障时,紧急将主设备治理下的VIP站点割接到其它主设备时的组网情况.容灾 组网

10、规划时应以当前地市无线网络组网结构为根底, 建立容灾主设备的组网备份 关系.容灾组网要求如下:优先考虑异地异机房异楼层的设备灾备.根据每个主设备下 VIP 站点数量、容灾资源如板卡、传输冗余情况建立 灾备关系.5.1.2.2 VIP 站点信息VIP站点是应急处理时优先保证的站点.日常工作中应建立 VIP站点信息库, 信息库包括本省地市所有主设备所包含 VIP站点数、覆盖区域、等级批次等信息. VIP站点覆盖范围应到达原覆盖区域的80流右,VIP站点占原总基站数的15%以上 VIP站点的等级规划原那么: 一级,党政军所在区域的覆盖站点 二级,广覆盖站点 三级,高话务站点 四级,传输节点站点5.1

11、.2.3 应急专用通道应急专用通道是原主设备发生重大灾害后,VIP基站割接到灾备主设备时在 灾备主设备上需要启用的应急通道,包括传输通道及相关板件.在应急事件发生时,为了使应急恢复尽可能的快速、 涉及操作部门人员最少、 涉及数据量最小, 日常应在灾备主设备上预留机框、 板卡、传输等相关冗余资源, 该局部资源日常不承载业务,只应用于应急事件发生后承载 VIP站点业务.在条件允许情况下,建议应急专用通道配备如下: 灾备主设备业务框每框配备 1 对固定槽位及相应板件作为应急专用 为每个一至三级VIP基站配置应至少保证2个2M的传输资源,四级站点 可视传输情况配置1个2M资源.5.1.2.4 应急数据

12、应急数据是指在应急方案实施中需要启用的数据配置、 参数等,本文所涉及 场景的应急数据包括传输端口数据、VIP站点的CI数据,邻区数据,计费数据等. 为减少应急方案实施时参与人员、 参与部门的沟通协调时间以及处理时间, 相关 数据尽可能提前规划,动态更新,并在日常业务中不被占用.应急数据配置要求如下:1. 传输端口数据提前规划并预留.2. 提前规划应急专有的 CI 段,提交至核心网侧提前做好相关数据.3. 确定 VIP 基站站点后,做好邻区数据,方案实施后,要及时进行路测优 化邻区数据.4. 根据VIP站点规划,应考虑分时分区计费用户的计费优惠, 核心侧做好相 关计费数据脚本.5.1.3 信令拥

13、塞处理日常准备主设备发生信令拥塞时, 要最快最有效减少主设备的业务冲击. 减轻业务冲 击可以在业务平台、核心网包括电路域和分组域、无线侧入手,可视引起信 令拥塞的具体原因确定有效的方法. 无线侧最直接有效的手段是对选定的基站进 行关闭,减少接入业务量,以缓解主设备的信令拥塞状况.关闭基站操作对用户的影响较大,因此应优先考虑关闭BSC/PCF/A边界区域 基站,边界区域基站关闭后仍不能有效降低话务时,再逐批关闭高话务站点.日常工作中应及时维护边界区域站点信息以及高话务站点信息, 高话务站点 根据TOP表进行排序并定期更新.5.1.3.1 BSC/PCF/AN 边界区域基站信息根据BS区域地理位置

14、选择BSC/PCF/A边界区域站点,该局部站点覆盖区域 应能被相邻BS站点覆盖,在边界区域基站关闭后,相邻 BSC/PCF/AI站点能够有 效吸收话务.5.1.3.2 TOP 站点针对每个BSC/PCF/AN应根据近三个月话务情况确定筛选出 TO站点,并制 作关闭基站的批处理脚本. 当信令拥塞事件发生时, 视信令拥塞紧急程度情况确 定采用提前制作的脚本还是另选择当前时间 TOP10占点.当信令处理单元均值处于 80%以下、持续时间在 10分钟以内,可以重选确定当前TOP1站点当信令处理单元均值到达 80%、且持续时间超过 10分钟,那么启用提前准备的 高话务T0P1站占点.5.2 应急故障处理

15、应急处理过程中,应严格根据“先抢通、后分析、三不离故障未处理完成 不离开现场; 故障处理完成后, 没有验证完全修复不离开现场; 故障未查清原因 不离开现场.的原那么进行故障处理.对于重大灾害、 网络或设备等原因造成的通信阻断, 处理过程中应注意优先 保证重点基站和/或重要区域,遵循先语音后数据、先2G业务后3G业务、先信令 后话务的处理原那么.对于信令拥塞类紧急故障或者事件, 应在保证设备平安稳定运行的前提下尽 可能保证业务的畅通性, 在保证业务畅通的根底上提升业务质量. 在处理时应优 先考虑“控,即先将故障网元局部局部或全部关闭,再逐步逐批的有步骤的放 开话务,在业务疏通过程中实时进行业务测

16、试, 同时在业务完全恢复后及时组织 力量分析问题原因,提出改良方案,完善相关预案.5.2.1 设备故障的应急处理5.2.1.1 设备故障应急触发条件主设备故障影响用户使用,或者大面积基站故障、到达B级及以上紧急故障, 应启动设备故障应急处理流程.5.2.1.2 设备故障处理及保证原那么发生设备故障时可以根据设备厂家提供的技术手册进行修复, 采用的方法主 要包括更换硬件、倒换主备用板、硬件复位重启、恢复备份数据等方法.良好的日常维护治理是设备应急故障处理的根底,日常要注意以下几方面: 按要求配备备板备件,专人负责治理,保证故障发生时备件的快速到位 定期进行关键数据的备份工作,并做好备份数据的验证

17、割接、数据更改等网络调整工作后要及时更新备份数据 定期进行主备用倒换测试 重大活动、节假日等来临前,要进行设备重要板件的例测及倒换测试.5.2.2 应急容灾处理原那么5.2.2.1 触发条件由于自然灾害, 设备自身故障等原因, 造成主设备发生故障, 或故障影响达 到A+级时、预计白天712时5小时以内或夜间07时8小时以内无法恢复 时,应启动应急容灾预案.5.2.2.2 应急容灾处理原那么各省根据本省地市组网、 设备机房位置、冗余资源等条件确定应急容灾预案, 应急容灾应考虑灾备方式、灾备业务、灾备区域、灾备数据、灾备测试优化、灾 后恢复等因素.容灾组网容灾组网要求异机房灾备,对于有2个以上BS

18、C/PCF/A且位于不同机房的本 地网,优先考虑本地异机房灾备;本地网所有BSC/PCF/A在一个机房内或者只有 一个BSC/PCF/AN应采取省内异地容灾组网.各省根据实际网络情况规划本省的 容灾组网.容灾组网主要有以下二种方式:1. 1+1灾备方式本地网的BSC/PCF/A分布于不同位置的机房,且冗余资源可以满足为其他 BSC/PCF/A一对一备份条件,那么可采取1+1互备方式,组网示意图如下:机房机房二该种方式结构简单,便于维护治理,在网所有主设备都能有足够冗余资源独 立承载灾害主设备的所有VIP基站话务2. 1+2灾备方式当某一个BSC/PCF/A下VIP站点数量较多,单一备用BSC勺

19、应急通道等资源不 足时,可采用2个或多个BS为灾害BSC/PCF/A进行灾备,灾害BSC/PCF/A下VIP 站点根据应急通道资源情况,分别割接到不同的备份BSCt, 1+2灾备方式示意图 如下:BSC3灾备业务的保证优先保证语音业务,在资源足够的情况下,可保证数据、短信等业务.5.2.3 信令拥塞处理5.2.3.1 信令拥塞应急启动条件单位板件的BHC到达标称值根据各厂家设备单板标称规格及评估算法,具 体参考?中国电信集团无线网络设备BS平安加固方案?、信令处理板件CP占用 率均值持续 15分钟到达 80%以上时,应启动信令拥塞应急预案.5.2.3.2 信令拥塞故障处理原那么发生信令拥塞时应

20、首先要保证设备的平安稳定运行, 同时尽可能的保证业务 的畅通性,在业务畅通根底上再考虑业务质量.在执行时可采取以下方法: 进行业务流控限制,包括:1. 修改寻呼策略,缩减寻呼范围,降低寻呼数量2. 在短信中央限制群发短信,减少短信重发次数 根据设备信令处理板件的备件条件,紧急扩容无线信令处理部件,扩容操作 时应不中断现有业务.采取以上举措仍无法降低设备负荷,可采取先关闭边界区域站点再关闭T0P1站点的方式逐步减少业务流量当CP占用率下降到60%下时,尽快进行接通率等相关测试,同时密切关注 话务量情况及CP占用率变化情况,逐步逐批的有步骤的放开话务,执行业务疏 通中 “控过程的逆过程.5.3 应急故障处理效果评估在业务恢复后应进行应急处理效果评

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论