服务水平管理和服务水平协议_第1页
服务水平管理和服务水平协议_第2页
服务水平管理和服务水平协议_第3页
服务水平管理和服务水平协议_第4页
服务水平管理和服务水平协议_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、更圈服务水平管理和服务水平协议(sla)2007-09-20 08:04:37标签:sla卷送到技术期1本文描述而向高可用性网络的服务水平管理和服务水平协议(sla)。它包括服务水平管理的 成功因素以及帮您评估成功与否的性能指标。木文以一个国际性的网络详细描述遵从高可用性 业务工作组确定的最佳方案指导原则的sla,作者:汪潮服务水平管理概述网络公司一直以來都通过构建坚实的网络基础设施及主动处理每个业务问题來满足不断扩展的 网络耍求。当业务异常屮断时,公司将构建新流程、管理功能或基础设施來防止此类故障再次 发牛。然而,由于快速变更及口益増氏的可用性要求,我们现在需要改进模式来预先防止意外 故障并

2、快速修复网络。许多服务供应商和企业一直都试图更好地定义服务水平以便实现商业卜i 标。关键成功因素sla的关键成功因素用来定义支持成功构建可获得的服务水平及维护sla的主要要素。要成 为合格的关键成功因素,流程或流程步骤必须可以改进sla质虽并从整体i:提高网络的町用 性。关键成功因素还应具备可测量性,以便使金业能够判断:与定义的程序相比,它所取得的 成功程度。性能指标性能指标提供了公司测量关键成功因素的机制。您通常需要每丿j审查一次,以确保服务水平定 义或sla运行良好。网络运行小组及必要的工具组可实邇以下测量标准。注意:对于没有sla的公司,我们建议您同时实施服务水平定义、服务水平审核及测量

3、标准。 性能指标包括:记录的服务水平左义或sla,包括町用性、性能、主动业务应答时间、排障目标及问题升级等。月度网络服务水平审核会议,审核对服务水平的执行情况并实施改进。性能指标测量标進,包括可川性、性能、按优先级划分的业务应答时间、按优先级划分的排障 时间以及其他可测量的sla参数。服务水平管理流程面向服务水平管理的高级別流程主要包括两组:1. 定义网络服务水平2. 创建并维护sla实施服务水平管理实施服务水平管理包括十六步,分为以下两个主要范畴:定义网络服务水平一步骤1-6创建并维护sla 步骤7-16定义网络服务水平网络管理人员需要定义支持、管理并测量网络的主要规则。服务水平为所有网络人

4、员提供日标 并可用作整体业务质呈的测虽标准。您也可将服务水平定义用作网络资源预算工具以及投资于 更高服务质量的证据。它们还提供评估供应商及运营商的表现的方法。如果没有服务水平定义和测量,公司不可能制定明确的目标。服务是否满意由用户决定,在应 用、服务器/客户机运行或网络支持方面并无明显差距。由于企业对最终结果没有把握,因此很 难作预算。最终,网络公司在提高网络及支持模式方面都趙向于选择被动应答,而非主动预防 的方式。我们建议采取以下步骤來构建并支持服务水平模式:分析技术目标及限制因素。确定可用性预算。创建详细记录关键应用网络特征的应用资料库。定义可用性、性能衡量标准及通用术语。创建服务水平定义

5、,包括可用性、性能、业务应答时间、排障平均时、故障检测、升级门限及 上报途径。收集测量标准并监控服务水平定义。第1步:分析技术目标及限制因素开始分析技术目标和限制因素的最佳力式是集体讨论或研究技术目标与耍求。因为这些人都有 特定的业务目标,所以有时这有助于要求其他it技术人员参与讨论。技术目标包括可用性级 别、吞吐量、抖动、延迟、应答时间、可用性要求、新特性的推出、新应用的推出、安全性、 可管理性及成本等。随片,公司应研究限制因素,以便使用可用资源实现这些h标。您可为毎 个日标创建带有对限制因素解釋的工作表。最初看似大多数日标都无法实现。随后划分日标的 优先级或降低对仍可满足商业要求的日标的期

6、望值。例如,您制定的可用性级別可能是99.999%,或每年5分钟的故障停机时间。实现这-目标 存在大量限制因素,如碾件的单点故障、远程位置中的故障硬件的平均修复时间(mttr)、运 营商可靠性、预先故障检测、高变更率及当前网络容量限制等。因此,您需要将这个冃标调节 到更加易于实现的级别。下个章节中介绍的可用性模式可帮您制定现实的目标。您可能也考虑在限制因素相对较少的网络领域提供可用性。当网络公司公布业务的町用性标准 时,公司中的各业务部门可能发现无法接受这个级别的可用性。这自然而然引发对sla的讨论, 或为可满足商业要求的模式进行投资/做预算。确定所冇限制因素或风险的工作包括要实现技术h标。根

7、据实现理想h标的最大风险或影响方 面划分限制因索的优先级。这可帮助公司确定网络改进计划的优先顺用,并确定解决限制因素 的难易程度。限制因素分三类:网络技术、故障恢复能力和配置生命周期方案,包括:规划、设计、实施和运行当前的话务负载或应用行为网络技术、故障恢复能力及配置限制因素是指与当前技术、硬件、链路、设计或配置相关的任 何限制因索或风险。技术限制因素指技术本身造成的任何限制。例如,当前没有一种技术允许 冗余网络环境屮实现少于1秒的聚合时间,血这恰恰是维持整个网络上的话音连接的关键。另 一个例子是数据通过地面链路时的原始速度,大约是1 00英里/毫秒。网络硕件故障恢复能力风险调查应集屮在换件拓

8、扑、分级体系、模块化、冗余、mtbf及定义 的路径这儿方面。网络链路限制因索应强调企业网络链路及运行商连接。链路限制因索可能包 括链路冗余和多样性、媒介限制、布线基础设施、本地环路连接性以及长距离连接性。设计限 制因素与网络的物理或逻辑设计相关,包括从为设备可用空间到路由协议实施的可扩展性等各 个方面。您应在配置、可用性、可扩展性、性能及容量方面考虑所有协议和媒介设计。动态主 机配置i办议(dhcp)、域名系统(dns)、防火墙、协议转换及网络地址转换等网络业务限 制因素也应列入考虑之列。牛命周期方案定义用于实现解决方案的统-部署、检测和修复故障、防止容量或性能问题以及 配宜一-致性和模块化的

9、网络流程和管理。您需要认真考虑这个领域,因为专业技术和流程通常 是导致不可用性的最人影响因素。网络生命周期指规划、设计、实施和运行周期。在每个阶段 中,您都必须了解性能管理、配置管理、故障管理及安全性等网络管理功能。思科nsa高可 用性服务部(has)提供网络生命周期评佔服务,确定与网络生命周期方案相关的当前网络可 用性限制因素。当前的话务量或应用限制因素只是指当前话务和应用的影响。不幸的是,许多应用都带有大量需耍慎重管理的限制因素。当前应用的抖动、延迟、吞吐量及 带宽要求通常带有许多限制因素。编写应用的方式也可能产生一些限制因素。汇编应用资料库 可帮您更好地了解这些问题;下文将介绍这一特性。

10、研究当前的可用性、话务、容量及性能还 可帮助网络管理人员了解当前的服务水平目标及风险。这一工作常通过名为网络基准制定的流 程来完成,该流程可帮您定义规定时段内(通常是一个月)的平均网络性能、可用性或容量。 这些信息通常用于容量规划和趋势分析,但也可用来了解服务水平问题。下面的工作表使用了上述目标/限制因素方法來实现防止安全性攻击或拒绝服务攻击(dos)的 目标。您也可使用该工作表來决定可最大限度地减少安全性攻击的业务范围。风险或限制冈素限制因素类型潜在形响可用的dos检测工a无法检测出全部dos攻击类型。技术/故障恢驗能力不具备对告警做出相应所需的人员和流程。生命周期方楽高当前网络接入策略未扔

11、执行。生命周期方案一般如果利用帯宽拥來來发动攻击,则当前的低帯宽互联网连接成为限制因索.网络容股一般帮助防止攻击的当前安全性配宙不完善。技术/故障恢s:能力一般第2步:确定可用性预算可用性预算是期望在定义的两点间出现的、理论上的网络可用性。准确的理论信息可在多个方面发挥作用:公司可将其视为内部可用性冃标,并4能够立刻定义偏离并进行补救。网络规划人员可使用这些信息來确定系统的可用性,以确保设计满足商业要求。造成不可用性或故障停机的因素包括软硬件故障、电源和环境问题、链路或运营商故障、网络 设计、人为错误或缺乏流程等。在评估网络的整体可用性预算时,您必须严格评估上述的所有 参数。如杲公司冃前正在测

12、量可用性,则可能不需要可用性预算。用可用性测虽标准作为基准來评估 服务水平定义使用的当前服务水平。然而,您可将二者进行对比,以便了解潜在的理论可用性 与实际测量结果间的差距。可用性指产品或业务在需耍时投入运行的可能性。参见以下定义:a. 可用性-1-(总的连接中断时间)/ (总服务连接时间)总和(业务中断期问受影响的连接数量x业务屮断时间)/ (运行的连接数量x运行时 间)b. 不可用性1 由以下因素造成的可用性或总的连接中断时间:软硬件故障、电源和环境问题、链路和运营商故障、网络设计、用户错谋及流程故障等。c.硬件可用性首先需要研究的领域是潜在硬件故障及其对不可用性的影响。要确定这方而的影响

13、,公司应了 解所有网络组件的mtbf以及mttr,以确泄两点间的路径中所有设备的潜在硬件问题。如果 网络采用模块化和分级体系结构,则儿乎任意两点间的硕件可用性都是相同的。mtbf信息可 用于所有思科组件,并且可根据请求、向木地客户经理提供。cisco nsa has项h还使用一 种工具來帮助确定硬件可用性及网络路径,即使在系统屮存在模块冗余、机底兀余及路径冗余 时也可以使用这种工具。硕件可靠性的一个主要因素是mttr。公司应评估它们修复故障哽件 的速度。如果公司未制定备用方案,只依赖于标准cisco smartnet?协议,则潜在的评估 碾件更换时间为24小时。在带有核心冗余但不带有接入。冗余

14、的典型lan环境中,适当的可用性是99.99%,平均修复时间是4小时。d. 软件可用性下一个需要研究的领域是软件故障。出于测量的目的,思科将软件故障定义为由软件错误引发 的设备冷启动。思科已经开发出许多流程来帮助了解软件的可川性;然而,更新的版本尚需一 段时间进行测量,并且我们认为它的可用性不及一般的部署软件。ios 11.2版(18)等一般部 署软件经测量,证明具备99.9999%的可用性。这个数字是基于修复时间为六分钟(路由器重 新装载的时间)的思科路由器的实际冷启动次数來计算的。采用不同版木的公司,可用性将随 着复杂性的增加、互操作性的增强以及排障时间的缩短略有降低。采用最新软件版本的公

15、司, 不可用性将有所提高。不可用性的分配也相当广泛,这意味着客户将感觉到很高的不可用性或 接近一般部署版本的可用性。e. 环境和电源的可用性您还必须考虑环境和电源的可用性问题。环境问题与将设备保持在特泄的运行温度范闱内的冷 却系统的故障相关。当温度人人超过技术指标时,许多思科设备只是停止运转,而不会损害所 有硕件。出于可用性预算的冃的,您必须将电源考虑在内,因为它是造成本领域中不可用性的 主要原因。虽然电源故障是造成网络不可用性的車要原i大i,但对它的讨论还是受到限制,这是因为无法进 行准确的、理论匕的电源分析。企业必须基于所在地区的经验、电源备份功能以及实施的流程, 对其设备的电源可用性的人

16、约测量结果进行评估,以确保为所冇设备提供具备一致质量的电源。 基于保守的估计,我们可以认为配备了备用发电机、不间断供电电源(ups)系统并采用合格电 源实施流程的企业,可实现高达六个九(99.9999% )的可用性,而未配备这些系统的金业, 其可用性仅为99.99%,或者说每年有36分钟的故障停机时间。当然,您可根据公司的观察 或实际数据来调整这些数值,使具更真实地反映金业的具体悄况。f. 链路或运营商故障链路和运营商故障是影响wan环境屮的可用性的主要因素。切记:wan环境只是同企业网 络遭遇同样可用性问题的其他网络,包括:软硬件故障、用户错误及电源故障等。许多运营商网络都已经开始对系统进行

17、可用性预算,但获得这些信息并不容易。切记,运营商 的可用性保证级别很少基于或根木不基于实际町用性预算。这些保证级别有时只是用來提高运 营商知名度的营销和销售方法。在某些情况下,这些网络还公布看似相互突出的可用性统计数 据。切记,这些统计数据町能只适用于完全冗余的核心网络,而不作为导致不可用性的因素(不 可用性由本地环路接入引起),本地环路接入才是wan网络中不可用性的主要因素。对wan环境进行可用性评估应基于实际的运营商信息以及wan连接的冗余级别。如果公司 拥有多个大楼入口设施,冗余木地环路供应商、同步光网络(sonet)本地接入、以及分布在 多个地区的兀余长途运营商,则wan的可用性将得到

18、明显增强。电话业务是wan环境中、非兀余网络连接相当准确的可用性预算。使用类似于木文所描述的 可用性预算方法进行测量,电话业务的端到端连接的可用性预算大约为99.94%。这种方法业 己成功应用于数据环境屮,结杲妹本相同,目前正被用作服务供应商有线网络屮分组有线规程 的预算。如果将该数值用丁完全兀余的系统,则我们可以假定,wan可用性会接近99.9999%。 当然,由于成本及可用性问题,冃前很少有哪家公司部署了分布在多个地区且完全冗余的wa n系统,所以应使用适当的判断方法测定这种功能。lan环境中不太可能发生链路故障,然而,规划人员可能希望假定连接器断开或松动会引发短 时间的故障停机。对lan

19、网络而言,保导的可用性估计约为99.9999%,或大约30秒故障 停机/年。g. 网络设计网络设计是影响可用性的另一个主要因素。不可扩展的设计、设计错误及网络聚合时间都会対 口j用性产生负面影响。注意:出于本文的目的,我们将在下面的篇幅屮描述不可扩展的设计或设计错误。网络设计被限定在可测量的数值上(基于网络中导致话务重新路山的软硕件故障)。这些数值 通常被称作“系统故障切换时间”,并且是系统屮自治愈协议功能的影响因素。使用与系统计算相同的方法便可计算可用件。然而,它只有在网络故障切换时间满足网络应用 要求时才有效。如果故障切换时间町以接受,则不把它计算在内。如果故障切换时间不能接受, 则计算时

20、必须将其考虑在内,例如:佔计或实际的故障切换时间为30秒的环境中下的i p话 音(volp)o在这个例子屮,用户只是挂断电话,并有可能重新拨叫。用户肯定会将这30秒看 作是非可用时段,但在可用性预算时却未加考虑。根据系统故障切换时间来计算不可用性时要若眼于理论的软破件可用性以及冗余路径,因为故 障切换将出现在这个领域。您必须了解可能发生故障并导致冗余路径中出现故障切换的设备数 量,这些设备的mtbf以及故障切换时间。一个简单的例子就是,兀余的相同设备屮,每台设 备的mtbf为35433小时,故障切换时间为30秒。用35, 433除以8766 (年平均小时数, 包括闰年),我们可以看出该设备每四

21、年出现一次故障。如果使用30秒作为故障切换时间, 我们便可以假设:由于故障切换,每台设备每年平均停机7.5秒。山于用户可能会跨两条路径, 因此需要将此结果乘以2,即:每年15秒。当以秒/每年进行计算时,这个简单系统中由于故 障切换引起的町用性的计算结果为99.99999785%。由于町能出现故障切换的网络屮的冗余 设备数量,在其他环境中,这个数字可能还要略高些。h. 用户错误和流程用户错误和流程可用性问题是造成金业和运营商网络中不可用性的主要原因。约80%的不可 用性问题是由于无法检测错误、变化故障及性能问题造成的。公司在制泄可用性预算时,不愿意接受用八错误和流程引发的不可用性是英他所有理论上

22、的不 可用性的四倍这一实施,然而,各种证据一致表明,这种情况存在于许多环境屮。下而我们将 详细阐述不可用性的这个方面。由于您无法从理论上计算由用户错误和流程引发的不可用性数量,我们建议您在制定企业力求 完美的可用性预算时不将其考虑在内。但企业必须了解其流程和专业技术水平中现在所面临的 可用性风险。透彻地了解了这些风险及抑制因素之后,网络规划人员便有可能将这些问题引发 的一定数虽的不可用性考虑在内。cisco nsa has项目深入研究了这些问题,并可帮助企业 了解由于流程、用户错误或专业技术问题引发的不可用性。i. 制定最终的可用性预算您可将以前定义的所有领域的可用性和乘来决定整个可用性预算。

23、这种方法通常适用于任意两 点间的连接相类似的同机种环境,如:分级体系模块化lan环境或分级体系标准wan环境等。 这下面的例子中,为分级体系模块化lan环境确定了可用性预算。该环境为所有网络组件都配 备了备用发电机和ups系统,并对电源进行适当的管理。企业未使用voip,也不希望将软件 故障切换时间考虑在内。佔算结果如下:两个端点间的硕件路径口j用性二99.99%使用gd软件可靠性作为基准的软件可用性=99.9999%带有备用系统的环境和电源可用性二99.999%考虑lan环境屮的链路故障的可用性=99.9999%未将系统故障切换时间计算在内的可用性二1 00%认为不存在用户错误和流程缺陷的可

24、用性二100%企业希望达到的最终可用性预算是:0.9999 x 0.999999 x0.999999 x 0.999999 = 0. 999896,或99.9896%的可用性。如果我们将用户或流程错误引发的潜在不町用性考虑在内, 并假设其引发的不可用性是技术因素引发的町用性的四倍,则最终口j用性预算是99.95% o 对这个例子的分析使我们了解到,lan可用性在99.95%与99.989%z间。现在,这些数值 能够用作网络公司的服务水平目标。可以测量系统中的可用性并确定上述六个领域分别引发的 不可用性百分率來计算其他数值。这使公司能够对供应商、运营商、流程和人员进行适当评估。这些数值也可用來设

25、置业务期望值。如果您对99.95%与99.989%之间的可用性不满意,w 投资更多资源來获得理想的可用性级别。网络管理人员了解毎个特定可用件级别的故障停机时间将大有帮助。计算任何可用性级別的年 故障停机时间(分钟)的公式如下:故障停机(分钟)/年=525600 (可用性级别x 5256)如果可用性级别是99.95%,则结果是525600c (99.95 x 5256),或者和当于222.8分 钟的故障停机。对于上述可用性定义,这等于网络中所有业务连接的平均故障停机时间。第3步:创建应用资料库应用资料库可帮助网络公司了解并定义每个应用的网络服务水平要求。这有助于确保网络支持 每个应用要求及整体网

26、络业务。当应用或服务器组指出网络存在问题时,应用资料库述可用作 网络服务支持的pifii基准。最后,应用资料库可将性能及可用性等应用要求与真实的网络业务 口标或当前限制因索进行对比,来调节网络业务日标,使其与商业要求保持一致。这不仅对服 务水平管理很重耍,而且对整个网络设计也相当重耍。每次向网络中添加新应用时都应创建应用资料库。您还可能需要在it应用部门、服务器管理 部门以及组网部门间达成协议,以便为现有及全新业务创建应用资料库,完成用于商业应用及 系统应用的应用资料库。商业应用可能包括电子邮件、文件传输、web浏览、医疗图象处理或 制造等。系统应用可能包括软件分发、用户鉴权、网络备份及网络管

27、理等。网络分析员及应用或服务器支持应用小组应负责创建应用资料库。新应用可能耍求使用协议分 析程序以及具备延迟模拟功能的wan模拟程序來适当地划分应用要求的特征。这有助于确定 必要带宽、应用可用性的最大延迟及抖动要求。只要您具备所需服务器,便可在实验室环境中 开展这项工作。在voip等其他情况下,包括抖动、延迟及带宽在内的网络要求会很好地公布, 且无需再进行实验室测试。应用资料库应包括以下项日:应用名称应用类型新应用业务重要性可用性要求使用的协议和端口估计的用户带宽(kbps)用户数量和位置文件传输要求(包括时间、虽及端点)网络故障停机影响延迟、抖动及可用性要求应用资料库的h标是了解应用的商业耍

28、求、业务关键性以及带宽、延迟及抖动等网络要求。此 外,网络公司还应了解网络故障停机的影响。在某些情况下,您可能需耍重启应用或服务器, 这将大幅度延长总的应用故障停机时间。完成应用资料库后,您可将所有网络功能进行对比, 并帮助调节网络服务水平,使其与商业和应用要求相一致。第4步:定义可用性及性能标准町用性及性能标准为企业制定业务期望值。可根据不同网络区域或特定应用进行定义这些标准。 还町以确泄往返延迟、抖动、最大吞吐量、带宽承诺及总体可扩展性等方面的性能。此外,为 了制定业务期望值,企业还应谨慎定义毎个业务标准,以便使致力于网络工作的用户及it t 作组能够全而了解业务标准以及他们与应川或服务器

29、管理要求的关系。用户及it工作组还应 了解如何测量业务标准。以询服务水平定义步骤的结果可以帮助制定标准。这时,网络公司应明确了解当前网络所面临 的风险和限制因索及应用行为,并进行理论上的可用牲分析或制定可用性基准。定义业务标准适用的地理区域或应用领域,可能包括园区lan、本国wan、外联网及合作伙 伴连接等。在某些悄况下,企业在和同区域内的服务水平fi标可能仃所不同。这对企业或服务 器供应商来说并不罕见。这时,它们通常基于各自的业务要求制定不同的服务水平标准。这些 在同一-地理区域或服务区域中的标准肓金牌、银牌和铜牌z分。立义业务标准参数。可用性及往返延迟是最常见的网络业务标准。根据需耍,还可

30、以包括最人 吞吐量、最低带宽承诺、抖动、接受的错误率以及可扩展性功能。当审核用于测量方法的业务 参数时要特别谨慎。无论参数是否包扌舌在sla中,公司都应考虑出现问题或业务不-致性时, 如何测量并证明业务参数的可行件。完成对业务领域和业务参数的定义后,您可使用以前步骤获得的信息来构建业务标准图。企业 还需要定义可能使用户和it工作组产生混淆的区域。例如,往返ping的最长应答时间与在远 程位置单击回车键启动特定应用的最长应答时间有很大区别。下表列出了美国采用的性能冃标:嵌络区域可用性目标耸理方法平均网络应答时间目标可接受的最常应答时间应答时间管理方法lan99.99%受影响的用户时间5亳秒内10

31、亳秒往返ping应答wan99.9%受影响的用户时间100 z秒内(往返ping)150花穆往返ping应答关锂wan及外联99.95%受形响的用户时间100电秒内(往返ping)150毫枚0返pi ng .应答第5步:定义网络业务这是实现基木的服务水平管理的最后一步;它定义您实施川于实现服务水平目标的被动/主动流 程和管理功能。最终文件通常被称作“运行支持计划”。人多数应用支持计划只包括被动支持耍 求。在高可用性环境中,公司必须考虑采用主动的管理流程,以便在网络故障发生前对其进行 隔离并加以处理解决。总的来说,最终文件应:描述用于实现服务水平目标的被动和主动流程介绍业务流程的管理方式介绍测量

32、业务目标和业务流程的方式本部分将描述许多服务供应商和企业均需考虑的主动和被动业务立义的实例。构建服务水平定 义的日标是创建满足可用性及性能日标的业务c为了实现上述日标,公司必须构建业务,并谨 记当前的技术限制因素、可用性预算及应用资料库。特别是,公司应定义并构建始终能够在可 用性模式规定的时间内快速确定并排除故障的业务。公司还必须定义町快速识别并解决潜在业 务问题的业务,如果忽略这些问题,将对可用性及性能产生负而影响。实现理想的服务水平非-朝一夕z事。专业水准低、当前流程限制或人员不合格等缺点将妨碍 公司实现理想的标准或日标,即使在完成对以前业务步骤的分析后也是如此。没有一种方法可 将所需服务

33、水平与理想目标准确匹配。为了适应现实情况,公司应测量业务标准及用于支持业 务标准的业务参数。如杲没有达到业务目标,公司应利用业务测量标准來帮助了解问题。在许 多情况下,可适当增加预算以改进支持业务,并使这些改进功能成为实现理想业务h标的必耍 条件。金业可能会逐步进行多次调节(包括业务h标或业务定义),以使网络业务耳商业要求 保持一致。例如,当目标远远高1*99.9%可用性时,企业口丁能只实现了 99%的町用性。在服务及支持测 暈标准方面,企业代表发现硬件替换约需耍24小时,远远高出放初的估计的4小时。此外, 企业还发现主动管理功能受到忽视且故障的冗余网络设计没有及时修复。企业发现的问题还有 缺

34、乏实施改进的员工等。因此,考虑降低当前服务目标后,企业便投资购买实现理想服务水平 所需的其他资源。业务定义应同时包括主动和被动支持定义。被动定义规定企业如何解决根据 用户投诉或网络管理功能屮确定己经发生的问题。主动定义描述企业如何确定并解决潜在的网 络问题,包括修复故障的“备用”网络组件、错误检测、容虽门限问题及升级问题等。以下提供 主动与被动服务水平定义实例。被动服务水平定义以下的服务水平领域通常'使用帮助台数据库统计数据述行测量并定期审计。下表显示企业故障 严重程度的实例。请注意:此表不包扌舌处理新业务请求的方式,这项工作可通过sla或次他应 用资料库编制及性能假设分析來完成

35、76;如果通过相同的支持流程进行处理,新业务请求可以数 据严重级别5。严更级别1严重级别2严重级别3严垂级别4网络功能的丢失或降级对业务造成严垂妙响.可能需耍运行应变措施严重的业务形响lan用户或槪务器部分停机严虫的wan站点故障停机某些特定的网络功能丢失或降级,如:冗园区lan故障停机;5-99名用户受到影响对企业无业务影响的功能査询余丢失等国内wan站点故障停机或故障园区lan性能盘到矽响lan冗余丢失国际wan站点故障停机严更彫响性能完成问题严重性级別定义z后,定义或研究创建业务应答定义的支持流程。总的来说,业务应 答肚义耍求釆用分级支持结构,以及帮助台软件支持系统來利用故障票跟踪问题。

36、同时还应为 每个优先级故障的应答时间和解决时间、按优先级划分的呼叫数量以及应答解决质虽制定测量 标進。定义支持流程可帮助定义公司内部每个支持级别的卜i标及其任务与责任。这冇助于公司 了解用于每个支持级别的资源要求及专业技术水平。下表举例说明了分级支持结构及其问题解决指导原则。支持级别职贲目标专职帮助台支持第1级支持解决40%的入局呼叫接听支持电话.发放故障票.15分钟内解决何题、记录故障票并上报到第2级支持队列监控.网络管理.工作站管理笫2级支持为确定的软件故障发放故障票在第2级解决所的呼叫实施对呼叫负贲,直到排障为止必须立刻为笫2级提供优先级为1的全部故障所需的支持第3级支持不直接对故酹负责

37、同意在s3解决期限内帮助解决所仔第2级未排除的故障下一步是确定业务应答及排障业务定义。它为如何快速排障(包括硬件更换在内)制定了目标。 为这个领域制定卜i标是非常重要的,因为业务应答及恢复时间首会接影响网络的可用性。问题 解决时间也要与可用性预算保持一致c如果在制定可用性预算时未将大量高严重级别的故障考 虑在内,则公司随片将需开展大量t作來了解此类故障的根源及可能的弥补方法。详见卜表:问题严重级别帮助台应答笫2级应答现场笫2级硕件史换解决问題1立刻上报到第2级.网络运行部经理5分钟2小时2小时4小时2立刻上报到第2级.网络运行部经理5分钟4小时4小时8小时31 5分钟2小时12小时24小时36

38、小时415分钟4小时3天3夭6夭除业务应答及业务排障外,还需制立上报规眾。上报表有助于确保将可用资源集屮用于解决严 重影响业务的问题。总的來说,如果分析员集中精力解决问题时,他们很少重视利用其他资源 来解决问题。定义何时需要其他资源冇助于促进管理层对问题的认识,并冇助于促成未来的主 动测量或预防性测量。详见下表:过去的时间严庾级别1严蛍级别2严莹级别3严莹级别4网络运行部经理.第3级支持.联网5分紳部主管及时通知网络运行部经理.第3级支及时通知网络运行济经理.第3级支持、1小时持、联网部主管联网部主骨上报副总裁、及时通知主任及网络运2小时行部经理向副总裁、主管.运行部经理、第3上报副总裁.及时

39、通如主管及网络运行4小时级支持提交根源分析.向ceo通知部经理未排除的故障24小时网络运行部经理5天网络运行部经理迄今为止,服务水平定义始终集中在运行支持部门如何在问题发生后对其采取被动措施上。运 行部门多年前便制定出了包括上述相似内容的运行支持计划。然而,该方案屮忽略了部门如何 识别问题以及他们将识别哪些故障等内容。比较成熟的网络公司试图制定预先确定的网络问题 百分率目标來解决这个问题,而不是通过用户故障报告或投诉來被动地确泄故障。下表列出了公司对主动支持功能和被动支持功能的整体测星目标。网络领域主动故障识别率彼动故障识别率lan80 %20 %wan80 %20 %这为确定更多的主动支持定

40、义开了一个好头,因为它测量起來很简单、也很容易,尤其在主动 检测工具可自动生成故障票。这述有助于将网络管理工具/信息集中用于主动排障,而不是在 故障发生后被动地查找根源。然而,这种方法的主要问题在于它无法定义主动支持要求。这通 常会造成主动支持管理功能间的差距并导致更大的可用性风险。主动服务水平定义更全面的制定服务水平泄义方法包括,更详细地解釋如何7 x 24全天候地监控网络,以及运行部门如何7 x 24全天像对已定义的网络管理站(nms)门限做出响应。鉴于管理信息站(m ib)数量的不确定性以及提供ml b的网络管理信息数量与网络的运行情况相关,因此这看上 去是-项无法完成的任务。同时,完成

41、这项任务需大量资源且代价非常高昂。不幸的是,这些 缺点大大妨碍了我们对主动业务定义的实施,而这种实施从本质上来说非常简单轻松,且只适 ffltuf用性或性能风险极人的网络。如果公司随后看到了基木主动业务定义的价值,那么只耍 采用分阶段实施的方法,就可以逐渐添加更多变量,但不会对业务产生重大影响。所有运行支持方案屮均应包括第一个领域的主动业务泄义。该业务圧义只是简单阐述运行部门 如何识别不同网络区域屮的网络或链路故障并对此做出响应。没有这个定义(或管理支持), 公司可能遇到支持不稳定、无法达到用户期望等问题,最终会降低网络可用性。下表显示了公司如何针対链路/设备故障制定服务定义。该实例中的企业在

42、每天的不同时段及网 络区域方而有着不同的通知和响应要求。网络设备或紐怡故障 检测方法5x8通知7x24通知5 x 8川障7 x 24排障自动向负责lan的人员发noc在15分钟内派出 立刻研究并排除优先级1和2的 snmp设备和链路蛇noc创建故障宗、向负贵核心lan岀寻呼、lan负贾人员为lan分析员、根据业务应答故障、优先级3和4的故障丼队询陷阱lan的人员发出导呼核心lan队列创建故障栗定义解决问題等候次日上午捋除白动向负责wan的人员noc在15分钟内派出 立刻研究并排除优先级1和2的 禺内snmp设备和徒路轮noc创建故障票、向负责发出寻呼、wan负责人wan分析员、根据业务应故障、

43、优先级3和4的故障排队wan询陷阱wan的人员发岀寻呼.员为核心wan队列创建答定义排障等候次日上午扌ii:除故障栗自动向负资合作伙伴的人noc在15分钟内派出合作立刻研究并排除优先级1和2的 snmp设备和链路轮noc创建故障宗、向负责员发出寻呼,合作伙伴负外联网伙伴分析员、根据业务应答故障、优先级3和4的故障丼队询陷阱合作伙伴的人员发:出寻呼责人员为合作伙伴队列创定义排障等候次日上午样除建故障票其余的主动服务水平定义可分成两类:网络错误和容虽/性能问题。只有少数网络公司拥有这两 个领域的服务水平泄义。i大i此,这些问题常被忽视或无法得到统-处理。这对某些网络环境的 影响可能不大,但高可用性

44、环境一般都需要一致的主动业务管理。网络公司希望实现主动业务主义的原因很多,主要是他们尚未基于可用性风险、可用性规划及 应用问题对主动业务定义进行耍求分析,致使主动业务泄义的耍求及优势不明确,这主耍是因 为需要更多的资源。第二个原因是要平衡能够利用现有及新定义的资源来实施的主动管理数量。但牛成这些告警就 可能对可用性或性能产牛严重影响。您还必须考虑事件关联管理或流程,以确保不就同样的问 题生成多个主动故障票。最后一个原因在于:创建一组全新的主动告警经常会牛成以前未检测 出的初始信息流。运行部门必须为解决这些故初问题以及增加短期资源做好准备,以便解决这 些以前未检测出的问题。第一类主动服务水平定义

45、是网络错误。网络错误还可细分为系统错误(包括软硕件错误)、协 议错误、媒介控制错误、進确性错误及环境警告。制定服务水平定义首先要要大体了解如何检 测出此类问题、市谁负责解决问题以及故障的影响。必耍时在服务水平定义中添加特定的信息 或问题。您可能还需要在以下领域开展更多工作以确保成功定义:笫1、2和3级支持的责任利用运行部门能够仃效开展的主动工作量来平衡网络管理信息的优先级按要求进行培训以便确保支持人员可以肓效地处理定义的告警确定事件关联方法以确保不为同样的问题牛成多个故障票记录特定信息或告警,以帮助识别属于第1级支持级别的事件发生任何优先级0 1和2的故障审核何題、创建故蹄票并在新问题出现或何

46、发生100名起笫3优先级(或更髙故障題需要特别注意时派山人员解决任何第0> 1和2优先级别的故障的发生审垓问题、创建故障票并在新问题出现或问 发生100多总优先级3 (或史窩)的故障题需要特别注意时派出人员解决对新何题创建故障票并派逍相关人员解决任何信息问题输入或输出错決对新问題创建故障票并派山第2级支持人任何链路上.毎5分钟山现一次钳i吴员解决问题下表是用于网络错误的服务水平实例,帮助您明确了解谁负责发送丄动网络故障告警、如何确 定故障以及故障影响。根据上文所述,公司尚需开展更多工作以确保成功。故障类型检测方法门限采取的行动每天都使用系统fl志査肴程序审核系软件故障(枚件造成的故障停机

47、统日志信息发生任何优先级0、1和2的故障审査问题.创建故障票并在新问题出现或问发生100多超优先级3 (或更商的故障題需要特别注慰时派出人员解决由第2级支持完成礎件故障 < 硕件适成的故障停机统h志信息任何第0、1和2优先级别的故障的发生审核问题、创建故障栗并在新问题出现或问 发生100名起优先级3 (或更高的故障題需要特别注意时派迥人员無决侮天都使用系统日志査看程序审核系由第2级支持完成使用系统日志資看程序每日审核系统协议错谋(只适用f ip路由协议)日志信息由笫2级支持完成使用系统日志查看程冷毎日审核系统 媒介控制故障(只限于fddi、日志信息pos及快速以太网)由笫2级支持完成使用

48、系统fi志査看程序每h审核系统 环境倍息(电游和温度日志倍息由第2级支持完成毎五分钟进行一次snmp轮询准确度错谋<»输入错谋)noc受理的门限事件另一类主动服务水平是性能及容量。真正的性能和容暈管理包括例外悄况管理、基准制定与趋 势分析以及假设分析。服务水平定义只定义需要调查或更新的性能及容量的例外门限以及平均 门限。随后,可以以某种方式将这些门限应用到三种牲能和容量管理流程中。容量及性能服务水平定义町细分成儿个类別:网络链路、网络设备、端到端性能及应用性能。 制定这些领域的服务水平定义需要具备与设备容量、媒介容量、qos特征及应用要求的特定领 域相关的渊博技术知识。出于这个

49、原因,我们建议网络设计师通过供应商输入的信息制定与性 能和容量相关的服务水平定义。与网络错谋相似,为容量和性能制立服务水平定义首先应人体了解如何检测此类故障、由谁负 责排障以及故障的影响。必耍时向服务水平泄义中添加特定的信息或问题。您可能还需耍在以 下领域开展更多工作以确保成功:明确了解应用性能要求棊于业务耍求及总成木,对公司重耍的门限值进行深入的技术研究预算周期以内和以外的升级要求第1、2和3级支持的责任利用运行部门能够有效开展的主动丁作虽平衡的网络管理信息的优先级及危急程度 按要求进行培训以便确保支持人员了解信息或告警,并可冇效地处理所定义的悄况 确定爭件关联方法以确保不为同样的问题生成多

50、个故障票 记录特定信息或告警,以帮助识别属于第1级支持的事件下表是面向链路使用情况的服务水平定义实例,帮助您明确了解谁负责发送丄动网络故障告警、 如何确定故障以及故障影响。公司仍需开展上面定义的更多工作以确保成功。朋络领域/媒介检测方法门限采収的行动园区lan骨干及分m傩路五分钟进行一次snmp轮询毎五分钟的使用率为50%向性能和容虽电子邮件别名发送电子邮件通向性能电产邮件别名发送电子邮件通知国内wan链路五分钟进行次snmp轮询毎五分钟的使用率为75%安排工作组评估qos要求或为审:复出现的故障制定刃级计划向性能和容疑电子邮件别名发送业j'邮件通外联网wan m五分钟进行-次snmp

51、轮询每五分钟的使用率为65%安排工作组评佔qos耍求或为塑复出现的故 障制定升级计划卜 表给出了设备容量和件能门限的服务水平定义,以确保您创建对防止出现网络故障或町用牲问题有意义、很有用的门限。这是一个罪常垂耍的领域,i大i为未检测出的设备控制板资源问题可对网络造成严重影响。设备主耍信息门限采収的行动兀分钟内的cpu使用率门瞅是cisco 7500cpu、内存、显卡cisco 2600cpu、内存.五分钟进行次snmp轮就面向cpu的rmon通知五分钟进行次snmp轮询向性能和容量电子邮件别名工作组发送电 75%,邂j 99% 时,利用 rmon子邮件通知以便解决间题或制定升级计划 发出通知五

52、分钟内的内存使用率rmon cpu为99% 发放故隔票并向笫 门限是50%、显卡使用率门限是2级支持人员发送寻呼99%五分钟内的cpu使用率门限是 向性能和容就电子邮件别名工作组发送电7 5 %五分钟内的内存使用率i、j限尹邮件通知以便解决问题或制定升级计划是50%背板使用率门限是50%向性能和容量电f邮件别名工作组发送电catalyst ?5000背板使用情况、内存五分钟进行一次snmp轮询内存使用率门限是75%了邮件通知以便解决问题或制定升级计划ughtstream?1010 atmcpu.内存五分钟进行次snmp轮询switchcpu使用率门限是65%内存便用率门限是50%向性能和容量电

53、子邮件别名工作组发送电f邹件通知以便触决问题或制定升级计划下表给出了端到端性能和容量的服务水平定义。这些门限值一般基于应用要求,但也可用于指示某类网络性能或容量问题。因为测量网络屮任意两点间的性能需耍大量资源并会带来人量的网络开销,所以大多数有性能服务水平的公司都只创建少数性能定义。这些端到端的性能问题也可能出现在链路或设备容量门限屮。我们建议根据地理位置制眾一般定义。必耍时需添加一些关键站点及链路。网络领域/媒介测坦方法门限采取的行动始终保证10-秒或更短的往返响应 向性能和容最电子邮件別名工作组发送园区lan不会出现问題电了邮件通知以便無决问题或制定h级时间或国内wan链路旧金山到东京旧金

54、山到布鲁塞尔很难测量整个lan伫计划向性能电子邮件别爼工作组发送电子邮 目前只便用互联网监视器(i pm和icmp回声完五分钟内平均往返应答时何为75吨件通知以便评佔qos要求或为重貝山成从sf到ny以及从sf到芝加哥的測量现的故障制定升级计划向性能电子邮件别名工作组发送电子邮 目前只使用互联网监视器(i pm)和icmp回声完五分钟内平均往返应答时间为250-亳件通知i.以便评估qos要求或为重复出成从旧金山到布魯瘙尔的测u现的故障制定升级计划向性能电子邮件别名工作组发送电子邮目前只使用互联网监w (i pm和icmp回声完五分钟内平均往返应答时间为175%件m.以便泮估qos耍求或为成从旧

55、金山到布鲁塞尔的测量现的故障制定升级讣划服务水平泄义的最示一个领域是应用性能。因为服务器本身的性能和容量町能是应用性能的最人影响因索,所以应用件能的服务水平定义通常由应用或服务器管理部门制定。网络公司可通 过为应用性能创建服务水平定义获得巨人收益,因为:服务水平定义及测量有助于消除部门间的冲突。如果已为关键应用配过了 qos并将其他话务视为可选,则每个应用的服务水平定义都非常重 要。如果您选择创建并测量应用性能,最好不耍测量服务器木身的性能。这将有助丁将网络故障与 应用或服务器故障区分开来。使用运行在思科路由器上的探针或系统可用性代理软件以及控制 数据包类型及测量频率的i pm控制。下表给岀了

56、用于应用性能的简单服务水平定义。应用门限采取的行动企业资源规划(erp)应用tcp 端口 1529布鲁窒尔到sf使用i pm测册端口 1529往返性能来完成从向性能电子邨件别名工作纽发送电子邮五分钟内平均往返应答时间为1 75-布曾塞尔到旧金山的测虽,布曾起尔网关到件通知.以便评估问题或为乘圮出现的问亳秒sfo网关2题制定升级计划客户支持应用向性能电子邮件別名工作纽发送电子邮使用i pm测就端口 1 702往返性能來完成从五分钟内平均往返应答时何为250tcp 端 口 1702件通知,以便评估问題或为龜复出现的问 悉尼到旧金山的测虽悉尼网关到sfo网关1临秒悉尼到sf题制定升级计划rp应用tcp 端口 1529东京到sf使用i pm测址端口 1 529往返性能来完成从向性能电子邮件别名工作组发送电子邮五分钟内平均往返应答时间为200布魯窸尔到旧金山的测挺布鲁塞尔网关到件通知,以便评估问逆或为重炭出现的问亳秒sfo网关2题制定升级计划第6步:收集测定标准和监控服务水平定义木身并无多大价值,只冇在企业收集测定标准和监控

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论