服务水平管理和服务水平协议_第1页
服务水平管理和服务水平协议_第2页
服务水平管理和服务水平协议_第3页
服务水平管理和服务水平协议_第4页
服务水平管理和服务水平协议_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

服务水平管理和服务水平协议(SLA)服务水平管理概述

网络公司一直以来都通过构建坚实的网络基础设施及积极解决每个业务问题来满足不断扩展的网络规定。当业务异常中断时,公司将构建新流程、管理功能或基础设施来防止此类故障再次发生。然而,由于快速变更及日益增长的可用性规定,我们现在需要改善模式来预先防止意外故障并快速修复网络。许多服务供应商和公司一直都试图更好地定义服务水平以便实现商业目的。

关键成功因素

SLA的关键成功因素用来定义支持成功构建可获得的服务水平及维护SLA的重要要素。要成为合格的关键成功因素,流程或流程环节必须可以改善SLA质量并从整体上提高网络的可用性。关键成功因素还应具有可测量性,以便使公司可以判断:与定义的程序相比,它所取得的成功限度。

性能指标

性能指标提供了公司测量关键成功因素的机制。您通常需要每月审查一次,以保证服务水平定义或SLA运营良好。网络运营小组及必要的工具组可实行以下测量标准。

注意:对于没有SLA的公司,我们建议您同时实行服务水平定义、服务水平审核及测量标准。

性能指标涉及:记录的服务水平定义或SLA,涉及可用性、性能、积极业务应答时间、排障目的及问题升级等。月度网络服务水平审核会议,审核对服务水平的执行情况并实行改善。性能指标测量标准,涉及可用性、性能、按优先级划分的业务应答时间、按优先级划分的排障时间以及其他可测量的SLA参数。服务水平管理流程

面向服务水平管理的高级别流程重要涉及两组:

1.定义网络服务水平

2.创建并维护SLA

实行服务水平管理

实行服务水平管理涉及十六步,分为以下两个重要范畴:定义网络服务水平—环节1-6创建并维护SLA—环节7-16定义网络服务水平

网络管理人员需要定义支持、管理并测量网络的重要规则。服务水平为所有网络人员提供目的并可用作整体业务质量的测量标准。您也可将服务水平定义用作网络资源预算工具以及投资于更高服务质量的证据。它们还提供评估供应商及运营商的表现的方法。

假如没有服务水平定义和测量,公司不也许制定明确的目的。服务是否满意由用户决定,在应用、服务器/客户机运营或网络支持方面并无明显差距。由于公司对最终结果没有把握,因此很难作预算。最终,网络公司在提高网络及支持模式方面都趋向于选择被动应答,而非积极防止的方式。

我们建议采用以下环节来构建并支持服务水平模式:分析技术目的及限制因素。拟定可用性预算。创建具体记录关键应用网络特性的应用资料库。定义可用性、性能衡量标准及通用术语。创建服务水平定义,涉及可用性、性能、业务应答时间、排障平均时、故障检测、升级门限及上报途径。收集测量标准并监控服务水平定义。第1步:分析技术目的及限制因素

开始分析技术目的和限制因素的最佳方式是集体讨论或研究技术目的与规定。由于这些人都有特定的业务目的,所以有时这有助于规定其他IT技术人员参与讨论。技术目的涉及可用性级别、吞吐量、抖动、延迟、应答时间、可用性规定、新特性的推出、新应用的推出、安全性、可管理性及成本等。随后,公司应研究限制因素,以便使用可用资源实现这些目的。您可为每个目的创建带有对限制因素解释的工作表。最初看似大多数目的都无法实现。随后划分目的的优先级或减少对仍可满足商业规定的目的的盼望值。

例如,您制定的可用性级别也许是99.999%,或每年5分钟的故障停机时间。实现这一目的存在大量限制因素,如硬件的单点故障、远程位置中的故障硬件的平均修复时间(MTTR)、运营商可靠性、预先故障检测、高变更率及当前网络容量限制等。因此,您需要将这个目的调节到更加易于实现的级别。下个章节中介绍的可用性模式可帮您制定现实的目的。

您也许也考虑在限制因素相对较少的网络领域提供可用性。当网络公司公布业务的可用性标准时,公司中的各业务部门也许发现无法接受这个级别的可用性。这自然而然引发对SLA的讨论,或为可满足商业规定的模式进行投资/做预算。

拟定所有限制因素或风险的工作涉及要实现技术目的。根据实现抱负目的的最大风险或影响方面划分限制因素的优先级。这可帮助公司拟定网络改善计划的优先顺序,并拟定解决限制因素的难易限度。限制因素分三类:网络技术、故障恢复能力和配置生命周期方案,涉及:规划、设计、实行和运营当前的话务负载或应用行为网络技术、故障恢复能力及配置限制因素是指与当前技术、硬件、链路、设计或配置相关的任何限制因素或风险。技术限制因素指技术自身导致的任何限制。例如,当前没有一种技术允许冗余网络环境中实现少于1秒的聚合时间,而这恰恰是维持整个网络上的话音连接的关键。另一个例子是数据通过地面链路时的原始速度,大约是100英里/毫秒。

网络硬件故障恢复能力风险调查应集中在硬件拓扑、分级体系、模块化、冗余、MTBF及定义的途径这几方面。网络链路限制因素应强调公司网络链路及运营商连接。链路限制因素也许涉及链路冗余和多样性、媒介限制、布线基础设施、本地环路连接性以及长距离连接性。设计限制因素与网络的物理或逻辑设计相关,涉及从为设备可用空间到路由协议实行的可扩展性等各个方面。您应在配置、可用性、可扩展性、性能及容量方面考虑所有协议和媒介设计。动态主机配置协议(DHCP)、域名系统(DNS)、防火墙、协议转换及网络地址转换等网络业务限制因素也应列入考虑之列。

生命周期方案定义用于实现解决方案的统一部署、检测和修复故障、防止容量或性能问题以及配置一致性和模块化的网络流程和管理。您需要认真考虑这个领域,由于专业技术和流程通常是导致不可用性的最大影响因素。网络生命周期指规划、设计、实行和运营周期。在每个阶段中,您都必须了解性能管理、配置管理、故障管理及安全性等网络管理功能。思科NSA高可用性服务部(HAS)提供网络生命周期评估服务,拟定与网络生命周期方案相关的当前网络可用性限制因素。

当前的话务量或应用限制因素只是指当前话务和应用的影响。

不幸的是,许多应用都带有大量需要慎重管理的限制因素。当前应用的抖动、延迟、吞吐量及带宽规定通常带有许多限制因素。编写应用的方式也也许产生一些限制因素。汇编应用资料库可帮您更好地了解这些问题;下文将介绍这一特性。研究当前的可用性、话务、容量及性能还可帮助网络管理人员了解当前的服务水平目的及风险。这一工作常通过名为网络基准制定的流程来完毕,该流程可帮您定义规定期段内(通常是一个月)的平均网络性能、可用性或容量。这些信息通常用于容量规划和趋势分析,但也可用来了解服务水平问题。

下面的工作表使用了上述目的/限制因素方法来实现防止安全性袭击或拒绝服务袭击(DoS)的目的。您也可使用该工作表来决定可最大限度地减少安全性袭击的业务范围。风险或限制因素限制因素类型潜在影响可用的DoS检测工具无法检测出所有DoS袭击类型。技术/故障恢复能力高不具有对告警做出相应所需的人员和流程。生命周期方案高当前网络接入策略未加执行。生命周期方案一般假如运用带宽拥塞来发动袭击,则当前的低带宽互联网连接成为限制因素。网络容量一般帮助防止袭击的当前安全性配置不完善。技术/故障恢复能力一般第2步:拟定可用性预算

可用性预算是盼望在定义的两点间出现的、理论上的网络可用性。准确的理论信息可在多个方面发挥作用:公司可将其视为内部可用性目的,并且可以立刻定义偏离并进行补救。网络规划人员可使用这些信息来拟定系统的可用性,以保证设计满足商业规定。导致不可用性或故障停机的因素涉及软硬件故障、电源和环境问题、链路或运营商故障、网络设计、人为错误或缺少流程等。在评估网络的整体可用性预算时,您必须严格评估上述的所有参数。

假如公司目前正在测量可用性,则也许不需要可用性预算。用可用性测量标准作为基准来评估服务水平定义使用的当前服务水平。然而,您可将两者进行对比,以便了解潜在的理论可用性与实际测量结果间的差距。

可用性指产品或业务在需要时投入运营的也许性。参见以下定义:

a.可用性

¨1-(总的连接中断时间)/(总服务连接时间)

¨1-[总和(业务中断期间受影响的连接数量X业务中断时间)]/(运营的连接数量X运营时间)

b.不可用性

1-由以下因素导致的可用性或总的连接中断时间:软硬件故障、电源和环境问题、链路和运营商故障、网络设计、用户错误及流程故障等。

c.硬件可用性

一方面需要研究的领域是潜在硬件故障及其对不可用性的影响。要拟定这方面的影响,公司应了解所有网络组件的MTBF以及MTTR,以拟定两点间的途径中所有设备的潜在硬件问题。假如网络采用模块化和分级体系结构,则几乎任意两点间的硬件可用性都是相同的。MTBF信息可用于所有思科组件,并且可根据请求、向本地客户经理提供。CiscoNSAHAS项目还使用一种工具来帮助拟定硬件可用性及网络途径,即使在系统中存在模块冗余、机底冗余及途径冗余时也可以使用这种工具。硬件可靠性的一个重要因素是MTTR。公司应评估它们修复故障硬件的速度。假如公司未制定备用方案,只依赖于标准CiscoSMARTnet?协议,则潜在的评估硬件更换时间为24小时。在带有核心冗余但不带有接入。

冗余的典型LAN环境中,适当的可用性是99.99%,平均修复时间是4-小时。

d.软件可用性

下一个需要研究的领域是软件故障。出于测量的目的,思科将软件故障定义为由软件错误引发的设备冷启动。思科已经开发出许多流程来帮助了解软件的可用性;然而,更新的版本尚需一段时间进行测量,并且我们认为它的可用性不及一般的部署软件。IOS11.2版(18)等一般部署软件经测量,证明具有99.9999%的可用性。这个数字是基于修复时间为六分钟(路由器重新装载的时间)的思科路由器的实际冷启动次数来计算的。采用不同版本的公司,可用性将随着复杂性的增长、互操作性的增强以及排障时间的缩短略有减少。采用最新软件版本的公司,不可用性将有所提高。不可用性的分派也相称广泛,这意味着客户将感觉到很高的不可用性或接近一般部署版本的可用性。

e.环境和电源的可用性

您还必须考虑环境和电源的可用性问题。环境问题与将设备保持在特定的运营温度范围内的冷却系统的故障相关。当温度大大超过技术指标时,许多思科设备只是停止运转,而不会损害所有硬件。出于可用性预算的目的,您必须将电源考虑在内,由于它是导致本领域中不可用性的重要因素。

虽然电源故障是导致网络不可用性的重要因素,但对它的讨论还是受到限制,这是由于无法进行准确的、理论上的电源分析。公司必须基于所在地区的经验、电源备份功能以及实行的流程,对其设备的电源可用性的大约测量结果进行评估,以保证为所有设备提供具有一致质量的电源。

基于保守的估计,我们可以认为配备了备用发电机、不间断供电电源(UPS)系统并采用合格电源实行流程的公司,可实现高达六个九(99.9999%)的可用性,而未配备这些系统的公司,其可用性仅为99.99%,或者说每年有36分钟的故障停机时间。当然,您可根据公司的观测或实际数据来调整这些数值,使其更真实地反映公司的具体情况。

f.链路或运营商故障

链路和运营商故障是影响WAN环境中的可用性的重要因素。牢记:WAN环境只是同公司网络遭遇同样可用性问题的其他网络,涉及:软硬件故障、用户错误及电源故障等。

许多运营商网络都已经开始对系统进行可用性预算,但获得这些信息并不容易。牢记,运营商的可用性保证级别很少基于或主线不基于实际可用性预算。这些保证级别有时只是用来提高运营商知名度的营销和销售方法。在某些情况下,这些网络还公布看似互相突出的可用性记录数据。牢记,这些记录数据也许只合用于完全冗余的核心网络,而不作为导致不可用性的因素(不可用性由本地环路接入引起),本地环路接入才是WAN网络中不可用性的重要因素。

对WAN环境进行可用性评估应基于实际的运营商信息以及WAN连接的冗余级别。假如公司拥有多个大楼入口设施,冗余本地环路供应商、同步光网络(SONET)本地接入、以及分布在多个地区的冗余长途运营商,则WAN的可用性将得到明显增强。

电话业务是WAN环境中、非冗余网络连接相称准确的可用性预算。使用类似于本文所描述的可用性预算方法进行测量,电话业务的端到端连接的可用性预算大约为99.94%。这种方法业已成功应用于数据环境中,结果基本相同,目前正被用作服务供应商有线网络中分组有线规程的预算。假如将该数值用于完全冗余的系统,则我们可以假定,WAN可用性会接近99.9999%。当然,由于成本及可用性问题,目前很少有哪家公司部署了分布在多个地区且完全冗余的WAN系统,所以应使用适当的判断方法测定这种功能。

LAN环境中不太也许发生链路故障,然而,规划人员也许希望假定连接器断开或松动会引发短时间的故障停机。对LAN网络而言,保守的可用性估计约为99.9999%,或大约30秒故障停机/年。

g.网络设计

网络设计是影响可用性的另一个重要因素。不可扩展的设计、设计错误及网络聚合时间都会对可用性产生负面影响。

注意:出于本文的目的,我们将在下面的篇幅中描述不可扩展的设计或设计错误。

网络设计被限定在可测量的数值上(基于网络中导致话务重新路由的软硬件故障)。这些数值通常被称作“系统故障切换时间”,并且是系统中自治愈协议功能的影响因素。

使用与系记录算相同的方法便可计算可用性。然而,它只有在网络故障切换时间满足网络应用规定期才有效。假如故障切换时间可以接受,则不把它计算在内。假如故障切换时间不能接受,则计算时必须将其考虑在内,例如:估计或实际的故障切换时间为30秒的环境中下的IP话音(VoIP)。在这个例子中,用户只是挂断电话,并有也许重新拨叫。用户肯定会将这30秒看作是非可用时段,但在可用性预算时却未加考虑。

根据系统故障切换时间来计算不可用性时要着眼于理论的软硬件可用性以及冗余途径,由于故障切换将出现在这个领域。您必须了解也许发生故障并导致冗余途径中出现故障切换的设备数量,这些设备的MTBF以及故障切换时间。一个简朴的例子就是,冗余的相同设备中,每台设备的MTBF为35433小时,故障切换时间为30秒。用35,433除以8766(年平均小时数,涉及闰年),我们可以看出该设备每四年出现一次故障。假如使用30秒作为故障切换时间,我们便可以假设:由于故障切换,每台设备每年平均停机7.5秒。由于用户也许会跨两条途径,因此需要将此结果乘以2,即:每年15秒。当以秒/每年进行计算时,这个简朴系统中由于故障切换引起的可用性的计算结果为99.99999785%。由于也许出现故障切换的网络中的冗余设备数量,在其他环境中,这个数字也许还要略高些。

h.用户错误和流程

用户错误和流程可用性问题是导致公司和运营商网络中不可用性的重要因素。约80%的不可用性问题是由于无法检测错误、变化故障及性能问题导致的。

公司在制定可用性预算时,不乐意接受用户错误和流程引发的不可用性是其他所有理论上的不可用性的四倍这一实行,然而,各种证据一致表白,这种情况存在于许多环境中。下面我们将具体阐述不可用性的这个方面。

由于您无法从理论上计算由用户错误和流程引发的不可用性数量,我们建议您在制定公司力求完美的可用性预算时不将其考虑在内。但公司必须了解其流程和专业技术水平中现在所面临的可用性风险。透彻地了解了这些风险及克制因素之后,网络规划人员便有也许将这些问题引发的一定数量的不可用性考虑在内。CiscoNSAHAS项目进一步研究了这些问题,并可帮助公司了解由于流程、用户错误或专业技术问题引发的不可用性。

i.制定最终的可用性预算

您可将以前定义的所有领域的可用性相乘来决定整个可用性预算。这种方法通常合用于任意两点间的连接相类似的同机种环境,如:分级体系模块化LAN环境或分级体系标准WAN环境等。

这下面的例子中,为分级体系模块化LAN环境拟定了可用性预算。该环境为所有网络组件都配备了备用发电机和UPS系统,并对电源进行适当的管理。公司未使用VoIP,也不希望将软件故障切换时间考虑在内。估算结果如下:两个端点间的硬件途径可用性=99.99%使用GD软件可靠性作为基准的软件可用性=99.9999%带有备用系统的环境和电源可用性=99.999%考虑LAN环境中的链路故障的可用性=99.9999%未将系统故障切换时间计算在内的可用性=100%认为不存在用户错误和流程缺陷的可用性=100%公司希望达成的最终可用性预算是:0.9999X0.999999X0.999999X0.999999=0.999896,或99.9896%的可用性。假如我们将用户或流程错误引发的潜在不可用性考虑在内,并假设其引发的不可用性是技术因素引发的可用性的四倍,则最终可用性预算是99.95%。

对这个例子的分析使我们了解到,LAN可用性在99.95%与99.989%之间。现在,这些数值可以用作网络公司的服务水平目的。可以测量系统中的可用性并拟定上述六个领域分别引发的不可用性百分率来计算其他数值。这使公司可以对供应商、运营商、流程和人员进行适当评估。这些数值也可用来设立业务盼望值。假如您对99.95%与99.989%之间的可用性不满意,可投资更多资源来获得抱负的可用性级别。

网络管理人员了解每个特定可用性级别的故障停机时间将大有帮助。计算任何可用性级别的年故障停机时间(分钟)的公式如下:

故障停机(分钟)/年=525600—(可用性级别X5256)

假如可用性级别是99.95%,则结果是525600。(99.95X5256),或者相称于222.8分钟的故障停机。对于上述可用性定义,这等于网络中所有业务连接的平均故障停机时间。

第3步:创建应用资料库

应用资料库可帮助网络公司了解并定义每个应用的网络服务水平规定。这有助于保证网络支持每个应用规定及整体网络业务。当应用或服务器组指出网络存在问题时,应用资料库还可用作网络服务支持的书面基准。最后,应用资料库可将性能及可用性等应用规定与真实的网络业务目的或当前限制因素进行对比,来调节网络业务目的,使其与商业规定保持一致。这不仅对服务水平管理很重要,并且对整个网络设计也相称重要。

每次向网络中添加新应用时都应创建应用资料库。您还也许需要在IT应用部门、服务器管理部门以及组网部门间达成协议,以便为现有及全新业务创建应用资料库,完毕用于商业应用及系统应用的应用资料库。商业应用也许涉及电子邮件、文献传输、Web浏览、医疗图象解决或制造等。系统应用也许涉及软件分发、用户鉴权、网络备份及网络管理等。

网络分析员及应用或服务器支持应用小组应负责创建应用资料库。新应用也许规定使用协议分析程序以及具有延迟模拟功能的WAN模拟程序来适本地划分应用规定的特性。这有助于拟定必要带宽、应用可用性的最大延迟及抖动规定。只要您具有所需服务器,便可在实验室环境中开展这项工作。在VoIP等其他情况下,涉及抖动、延迟及带宽在内的网络规定会很好地公布,且无需再进行实验室测试。应用资料库应涉及以下项目:应用名称应用类型新应用业务重要性可用性规定使用的协议和端口估计的用户带宽(kbps)用户数量和位置文献传输规定(涉及时间、量及端点)网络故障停机影响延迟、抖动及可用性规定应用资料库的目的是了解应用的商业规定、业务关键性以及带宽、延迟及抖动等网络规定。此外,网络公司还应了解网络故障停机的影响。在某些情况下,您也许需要重启应用或服务器,这将大幅度延长总的应用故障停机时间。完毕应用资料库后,您可将所有网络功能进行对比,并帮助调节网络服务水平,使其与商业和应用规定相一致。

第4步:定义可用性及性能标准

可用性及性能标准为公司制定业务盼望值。可根据不同网络区域或特定应用进行定义这些标准。还可以拟定往返延迟、抖动、最大吞吐量、带宽承诺及总体可扩展性等方面的性能。此外,为了制定业务盼望值,公司还应谨慎定义每个业务标准,以便使致力于网络工作的用户及IT工作组可以全面了解业务标准以及他们与应用或服务器管理规定的关系。用户及IT工作组还应了解如何测量业务标准。

以前服务水平定义环节的结果可以帮助制定标准。这时,网络公司应明确了解当前网络所面临的风险和限制因素及应用行为,并进行理论上的可用性分析或制定可用性基准。定义业务标准合用的地理区域或应用领域,也许涉及园区LAN、本国WAN、外联网及合作伙伴连接等。在某些情况下,公司在相同区域内的服务水平目的也许有所不同。这对公司或服务器供应商来说并不罕见。这时,它们通常基于各自的业务规定制定不同的服务水平标准。这些在同一地理区域或服务区域中的标准有金牌、银牌和铜牌之分。定义业务标准参数。可用性及往返延迟是最常见的网络业务标准。根据需要,还可以涉及最大吞吐量、最低带宽承诺、抖动、接受的错误率以及可扩展性功能。当审核用于测量方法的业务参数时要特别谨慎。无论参数是否涉及在SLA中,公司都应考虑出现问题或业务不一致性时,如何测量并证明业务参数的可行性。完毕对业务领域和业务参数的定义后,您可使用以前环节获得的信息来构建业务标准图。公司还需要定义也许使用户和IT工作组产生混淆的区域。例如,往返ping的最长应答时间与在远程位置单击回车键启动特定应用的

最长应答时间有很大区别。下表列出了美国采用的性能目的:网络区域可用性目的管理方法平均网络应答时间目的可接受的最常应答时间应答时间管理方法LAN99.99%受影响的用户时间5毫秒内10毫秒往返ping应答WAN99.9%受影响的用户时间100毫秒内(往返ping)150毫秒往返ping应答关键WAN及外联网99.95%受影响的用户时间100毫秒内(往返ping)150毫秒往返ping应答第5步:定义网络业务

这是实现基本的服务水平管理的最后一步;它定义您实行用于实现服务水平目的的被动/积极流程和管理功能。最终文献通常被称作“运营支持计划”。大多数应用支持计划只涉及被动支持规定。在高可用性环境中,公司必须考虑采用积极的管理流程,以便在网络故障发生前对其进行隔离并加以解决解决。总的来说,最终文献应:描述用于实现服务水平目的的被动和积极流程介绍业务流程的管理方式介绍测量业务目的和业务流程的方式本部分将描述许多服务供应商和公司均需考虑的积极和被动业务定义的实例。构建服务水平定义的目的是创建满足可用性及性能目的的业务。为了实现上述目的,公司必须构建业务,并谨记当前的技术限制因素、可用性预算及应用资料库。特别是,公司应定义并构建始终可以在可用性模式规定的时间内快速拟定并排除故障的业务。公司还必须定义可快速辨认并解决潜在业务问题的业务,假如忽略这些问题,将对可用性及性能产生负面影响。

实现抱负的服务水平非一朝一夕之事。专业水准低、当前流程限制或人员不合格等缺陷将妨碍公司实现抱负的标准或目的,即使在完毕对以前业务环节的分析后也是如此。没有一种方法可将所需服务水平与抱负目的准确匹配。为了适应现实情况,公司应测量业务标准及用于支持业务标准的业务参数。假如没有达成业务目的,公司应运用业务测量标准来帮助了解问题。在许多情况下,可适当增长预算以改善支持业务,并使这些改善功能成为实现抱负业务目的的必要条件。公司也许会逐步进行多次调节(涉及业务目的或业务定义),以使网络业务与商业规定保持一致。

例如,当目的远远高于99.9%可用性时,公司也许只实现了99%的可用性。在服务及支持测量标准方面,公司代表发现硬件替换约需要24小时,远远高出最初的估计的4小时。此外,公司还发现积极管理功能受到忽视且故障的冗余网络设计没有及时修复。公司发现的问题尚有缺少实行改善的员工等。因此,考虑减少当前服务目的后,公司便投资购买实现抱负服务水平所需的其他资源。业务定义应同时涉及积极和被动支持定义。被动定义规定公司如何解决根据用户投诉或网络管理功能中拟定已经发生的问题。积极定义描述公司如何拟定并解决潜在的网络问题,涉及修复故障的“备用”网络组件、错误检测、容量门限问题及升级问题等。以下提供积极与被动服务水平定义实例。

被动服务水平定义

以下的服务水平领域通常使用帮助台数据库记录数据进行测量并定期审计。下表显示公司故障严重限度的实例。请注意:此表不涉及解决新业务请求的方式,这项工作可通过SLA或其他应用资料库编制及性能假设分析来完毕。假如通过相同的支持流程进行解决,新业务请求可以数据严重级别5。严重级别1严重级别2严重级别3严重级别4严重的业务影响

LAN用户或服务器部分停机

严重的WAN站点故障停机网络功能的丢失或降级对业务导致严重影响,也许需要运营应变措施

园区LAN故障停机;5-99名用户受到影响

国内WAN站点故障停机

国际WAN站点故障停机

严重影响性能某些特定的网络功能丢失或降级,如:冗余丢失等

园区LAN性能受到影响LAN冗余丢失对公司无业务影响的功能查询或故障完毕问题严重性级别定义之后,定义或研究创建业务应答定义的支持流程。总的来说,业务应答定义规定采用分级支持结构,以及帮助台软件支持系统来运用故障票跟踪问题。同时还应为每个优先级故障的应答时间和解决时间、按优先级划分的呼喊数量以及应答解决质量制定测量标准。定义支持流程可帮助定义公司内部每个支持级别的目的及其任务与责任。这有助于公司了解用于每个支持级别的资源规定及专业技术水平。下表举例说明了分级支持结构及其问题解决指导原则。支持级别职责目的第1级支持专职帮助台支持

接听支持电话、发放故障票、15分钟内解决问题、记录故障票并上报到第2级支持解决40%的入局呼喊第2级支持队列监控、网络管理、工作站管理

为拟定的软件故障发放故障票

实行

接听第1级、供应商的电话,并上报到第3级支持

对呼喊负责,直到排障为止在第2级解决所有呼喊第3级支持必须立刻为第2级提供优先级为1的所有故障所需的支持

批准在SLA解决期限内帮助解决所有第2级未排除的故障不直接对故障负责下一步是拟定业务应答及排障业务定义。它为如何快速排障(涉及硬件更换在内)制定了目的。为这个领域制定目的是非常重要的,由于业务应答及恢复时间直会接影响网络的可用性。问题解决时间也要与可用性预算保持一致。假如在制定可用性预算时未将大量高严重级别的故障考虑在内,则公司随后将需开展大量工作来了解此类故障的根源及也许的填补方法。详见下表:问题严重级别帮助台应答第2级应答现场第2级硬件更换解决问题1立刻上报到第2级,网络运营部经理5分钟2小时2小时4小时2立刻上报到第2级,网络运营部经理5分钟4小时4小时8小时315分钟2小时12小时24小时36小时415分钟4小时3天3天6天除业务应答及业务排障外,还需制定上报规定。上报表有助于保证将可用资源集中用于解决严重影响业务的问题。总的来说,假如分析员集中精力解决问题时,他们很少重视运用其他资源来解决问题。定义何时需要其他资源有助于促进管理层对问题的结识,并有助于促成未来的积极测量或防止性测量。详见下表:过去的时间严重级别1严重级别2严重级别3严重级别45分钟网络运营部经理、第3级支持、联网部主管1小时及时告知网络运营部经理、第3级支持、联网部主管及时告知网络运营部经理、第3级支持、联网部主管2小时上报副总裁、及时告知主任及网络运营部经理4小时向副总裁、主管、运营部经理、第3级支持提交根源分析,向CEO告知未排除的故障上报副总裁,及时告知主管及网络运营部经理24小时

网络运营部经理5天网络运营部经理迄今为止,服务水平定义始终集中在运营支持部门如何在问题发生后对其采用被动措施上。运营部门数年前便制定出了涉及上述相似内容的运营支持计划。然而,该方案中忽略了部门如何辨认问题以及他们将辨认哪些故障等内容。比较成熟的网络公司试图制定预先拟定的网络问题百分率目的来解决这个问题,而不是通过用户故障报告或投诉来被动地拟定故障。

下表列出了公司对积极支持功能和被动支持功能的整体测量目的。网络领域积极故障辨认率被动故障辨认率LAN80%20%WAN80%20%这为拟定更多的积极支持定义开了一个好头,由于它测量起来很简朴、也很容易,特别在积极检测工具可自动生成故障票。这尚有助于将网络管理工具/信息集中用于积极排障,而不是在故障发生后被动地查找根源。然而,这种方法的重要问题在于它无法定义积极支持规定。这通常会导致积极支持管理功能间的差距并导致更大的可用性风险。

积极服务水平定义

更全面的制定服务水平定义方法涉及,更具体地解释如何7x24全天候地监控网络,以及运营部门如何7x24全天候对已定义的网络管理站(NMS)门限做出响应。鉴于管理信息站(MIB)数量的不拟定性以及提供MIB的网络管理信息数量与网络的运营情况相关,因此这看上去是一项无法完毕的任务。同时,完毕这项任务需大量资源且代价非常高昂。不幸的是,这些缺陷大大妨碍了我们对积极业务定义的实行,而这种实行从本质上来说非常简朴轻松,且只合用于可用性或性能风险极大的网络。假如公司随后看到了基本积极业务定义的价值,那么只要采用分阶段实行的方法,就可以逐渐添加更多变量,但不会对业务产生重大影响。

所有运营支持方案中均应涉及第一个领域的积极业务定义。该业务定义只是简朴阐述运营部门如何辨认不同网络区域中的网络或链路故障并对此做出响应。没有这个定义(或管理支持),公司也许碰到支持不稳定、无法达成用户盼望等问题,最终会减少网络可用性。

下表显示了公司如何针对链路/设备故障制定服务定义。该实例中的公司在天天的不同时段及网络区域方面有着不同的告知和响应规定。网络设备或链路故障检测方法5x8

告知7x24

告知5x8

排障7x24

排障核心LANSNMP设备和链路轮询陷阱NOC创建故障票、向负责LAN的人员发出寻呼自动向负责LAN的人员发出寻呼、LAN负责人员为核心LAN队列创建故障票NOC在15分钟内派出LAN分析员、根据业务应答定义解决问题立刻研究并排除优先级1和2的故障、优先级3和4的故障排队等候次日上午排除国内

WANSNMP设备和链路轮询陷阱NOC创建故障票、向负责WAN的人员发出寻呼自动向负责WAN的人员发出寻呼、WAN负责人员为核心WAN队列创建故障票NOC在15分钟内派出WAN分析员、根据业务应答定义排障立刻研究并排除优先级1和2的故障、优先级3和4的故障排队等候次日上午排除外联网SNMP设备和链路轮询陷阱NOC创建故障票、向负责合作伙伴的人员发出寻呼自动向负责合作伙伴的人员发出寻呼,合作伙伴负责人员为合作伙伴队列创建故障票NOC在15分钟内派出合作伙伴分析员、根据业务应答定义排障立刻研究并排除优先级1和2的故障、优先级3和4的故障排队等候次日上午排除其余的积极服务水平定义可提成两类:网络错误和容量/性能问题。只有少数网络公司拥有这两个领域的服务水平定义。因此,这些问题常被忽视或无法得到统一解决。这对某些网络环境的影响也许不大,但高可用性环境一般都需要一致的积极业务管理。

网络公司希望实现积极业务定义的因素很多,重要是他们尚未基于可用性风险、可用性规划及应用问题对积极业务定义进行规定分析,致使积极业务定义的规定及优势不明确,这重要是由于需要更多的资源。

第二个因素是要平衡可以运用现有及新定义的资源来实行的积极管理数量。但生成这些告警就也许对可用性或性能产生严重影响。您还必须考虑事件关联管理或流程,以保证不就同样的问题生成多个积极故障票。最后一个因素在于:创建一组全新的积极告警经常会生成以前未检测出的初始信息流。运营部门必须为解决这些最初问题以及增长短期资源做好准备,以便解决这些以前未检测出的问题。

第一类积极服务水平定义是网络错误。网络错误还可细分为系统错误(涉及软硬件错误)、协议错误、媒介控制错误、准确性错误及环境警告。制定服务水平定义一方面要要大体了解如何检测出此类问题、由谁负责解决问题以及故障的影响。必要时在服务水平定义中添加特定的信息或问题。您也许还需要在以下领域开展更多工作以保证成功定义:第1、2和3级支持的责任运用运营部门可以有效开展的积极工作量来平衡网络管理信息的优先级按规定进行培训以便保证支持人员可以有效地解决定义的告警拟定事件关联方法以保证不为同样的问题生成多个故障票记录特定信息或告警,以帮助辨认属于第1级支持级别的事件下表是用于网络错误的服务水平实例,帮助您明确了解谁负责发送积极网络故障告警、如何拟定故障以及故障影响。根据上文所述,公司尚需开展更多工作以保证成功。故障类型检测方法门限采用的行动软件故障(软件导致的故障停机)天天都使用系统日记查看程序审核系统日记信息

由第2级支持完毕发生任何优先级0、1和2的故障

发生100多起优先级3(或更高)的故障审查问题、创建故障票并在新问题出现或问题需要特别注意时派出人员解决硬件故障(硬件导致的故障停机)天天都使用系统日记查看程序审核系统日记信息

由第2级支持完毕任何第0、1和2优先级别的故障的发生

发生100多起优先级3(或更高)的故障审核问题、创建故障票并在新问题出现或问题需要特别注意时派遣人员解决协议错误(只合用于IP路由协议)使用系统日记查看程序每日审核系统日记信息

由第2级支持完毕发生任何优先级0、1和2的故障

发生100多起第3优先级(或更高)故障审核问题、创建故障票并在新问题出现或问题需要特别注意时派出人员解决媒介控制故障(只限于FDDI、POS及快速以太网)使用系统日记查看程序每日审核系统日记信息

由第2级支持完毕任何第0、1和2优先级别的故障的发生

发生100多起优先级3(或更高)的故障审核问题、创建故障票并在新问题出现或问题需要特别注意时派出人员解决环境信息(电源和温度)使用系统日记查看程序每日审核系统日记信息

由第2级支持完毕任何信息对新问题创建故障票并派遣相关人员解决问题准确度错误(链路输入错误)每五分钟进行一次SNMP轮询

NOC受理的门限事件输入或输犯错误

任何链路上、每5分钟出现一次错误对新问题创建故障票并派出第2级支持人员解决问题另一类积极服务水平是性能及容量。真正的性能和容量管理涉及例外情况管理、基准制定与趋势分析以及假设分析。服务水平定义只定义需要调查或更新的性能及容量的例外门限以及平均门限。随后,可以以某种方式将这些门限应用到三种性能和容量管理流程中。

容量及性能服务水平定义可细提成几个类别:网络链路、网络设备、端到端性能及应用性能。制定这些领域的服务水平定义需要具有与设备容量、媒介容量、QoS特性及应用规定的特定领域相关的渊博技术知识。出于这个因素,我们建议网络设计师通过供应商输入的信息制定与性能和容量相关的服务水平定义。

与网络错误相似,为容量和性能制定服务水平定义一方面应大体了解如何检测此类故障、由谁负责排障以及故障的影响。必要时向服务水平定义中添加特定的信息或问题。您也许还需要在以下领域开展更多工作以保证成功:明确了解应用性能规定基于业务规定及总成本,对公司重要的门限值进行进一步的技术研究预算周期以内和以外的升级规定第1、2和3级支持的责任运用运营部门可以有效开展的积极工作量平衡的网络管理信息的优先级及危急限度按规定进行培训以便保证支持人员了解信息或告警,并可有效地解决所定义的情况拟定事件关联方法以保证不为同样的问题生成多个故障票记录特定信息或告警,以帮助辨认属于第1级支持的事件下表是面向链路使用情况的服务水平定义实例,帮助您明确了解谁负责发送积极网络故障告警、如何拟定故障以及故障影响。公司仍需开展上面定义的更多工作以保证成功。网络领域/媒介检测方法门限采用的行动园区LAN骨干及分派链路五分钟进行一次SNMP轮询

核心及分派链路上的RMON例外陷阱每五分钟的使用率为50%

通过例外陷阱实现90%的使用率向性能和容量电子邮件别名发送电子邮件告知

安排小组组解决问题或制定升级计划国内WAN链路五分钟进行一次SNMP轮询每五分钟的使用率为75%向性能电子邮件别名发送电子邮件告知

安排工作组评估QoS规定或为反复出现的故障制定升级计划外联网WAN链路五分钟进行一次SNMP轮询每五分钟的使用率为65%向性能和容量电子邮件别名发送电子邮件告知

安排工作组评估QoS规定或为反复出现的故障制定升级计划下表给出了设备容量和性能门限的服务水平定义,以保证您创建对防止出现网络故障或可用性问题故意义、很有用的门限。这是一个非常重要的领域,由于未检测出的设备控制板资源问题可对网络导致严重影响。设备重要信息检测方法门限采用的行动Cisco7500CPU、内存、显卡五分钟进行一次SNMP轮询

面向CPU的RMON告知五分钟内的CPU使用率门限是75%,达成99%时,运用RMON发出告知五分钟内的内存使用率门限是50%、显卡使用率门限是99%向性能和容量电子邮件别名工作组发送电子邮件告知以便解决问题或制定升级计划RMONCPU为99%,发放故障票并向第2级支持人员发送寻呼Cisco2600CPU、内存、五分钟进行一次SNMP轮询五分钟内的CPU使用率门限是75%五分钟内的内存使用率门限是50%向性能和容量电子邮件别名工作组发送电子邮件告知以便解决问题或制定升级计划Catalyst?5000背板使用情况、内存五分钟进行一次SNMP轮询背板使用率门限是50%

内存使用率门限是75%向性能和容量电子邮件别名工作组发送电子邮件告知以便解决问题或制定升级计划LightStream?1010ATM

switchCPU、内存五分钟进行一次SNMP轮询CPU使用率门限是65%

内存使用率门限是50%向性能和容量电子邮件别名工作组发送电子邮件告知以便解决问题或制定升级计划下表给出了端到端性能和容量的服务水平定义。这些门限值一般基于应用规定,但也可用于指示某类网络性能或容量问题。由于测量网络中任意两点间的性能需要大量资源并会带来大量的网络开销,所以大多数有性能服务水平的公司都只创建少数性能定义。这些端到端的性能问题也也许出现在链路或设备容量门限中。我们建议根据地理位置制定一般定义。必要时需添加一些关键站点及链路。网络领域/媒介测量方法门限采用的行动园区LAN无

不会出现问题

很难测量整个LAN基础设施始终保证10-毫秒或更短的往返响应时间或向性能和容量电子邮件别名工作组发送电子邮件告知以便解决问题或制定升级计划国内WAN链路目前只使用互联网监视器(IPM)和ICMP回声完毕从SF到NY以及从SF到芝加哥的测量五分钟内平均往返应答时间为75-毫秒向性能电子邮件别名工作组发送电子邮件告知,以便评估QoS规定或为反复出现的故障制定升级计划旧金山到东京目前只使用互联网监视器(IPM)和ICMP回声完毕从旧金山到布鲁塞尔的测量五分钟内平均往返应答时间为250-毫秒向性能电子邮件别名工作组发送电子邮件告知,以便评估QoS规定或为反复出现的故障制定升级计划旧金山到布鲁塞尔目前只使用互联网监视器(IPM)和ICMP回声完毕从旧金山到布鲁塞尔的测量五分钟内平均往返应答时间为175-毫秒向性能电子邮件别名工作组发送电子邮件告知,以便评估QoS规定或为反复出现的故障制定升级计划服务水平定义的最后一个领域是应用性能。由于服务器自身的性能和容量也许是应用性能的最大影响因素,所以应用性能的服务水平定义通常由应用或服务器管理部门制定。网络公司可通过为应用性能创建服务水平定义获得巨大收益,由于:服务水平定义及测量有助于消除部门间的冲突。假如已为关键应用配置了QoS并将其他话务视为可选,则每个应用的服务水平定义都非常重要。假如您选择创建并测量应用性能,最佳不要测量服务器自身的性能。这将有助于将网络故障与应用或服务器故障区分开来。使用运营在思科路由器上的探针或系统可用性代理软件以及控制数据包类型及测量频率的IPM控制。

下表给出了用于应用性能的简朴服务水平定义。应用测量方法门限采用的行动公司资源规划(ERP)应用

TCP端口1529

布鲁塞尔到SF使用IPM测量端口1529往返性能来完毕从布鲁塞尔到旧金山的测量,布鲁塞尔网关到SFO网关2五分钟内平均往返应答时间为175-毫秒向性能电子邮件别名工作组发送电子邮件告知,以便评估问题或为反复出现的问题制定升级计划RP应用

TCP端口1529

东京到SF使用IPM测量端口1529往返性能来完毕从布鲁塞尔到旧金山的测量布鲁塞尔网关到SFO网关2五分钟内平均往返应答时间为200-毫秒向性能电子邮件别名工作组发送电子邮件告知,以便评估问题或为反复出现的问题制定升级计划客户支持应用

TCP端口1702

悉尼到SF使用IPM测量端口1702往返性能来完毕从悉尼到旧金山的测量悉尼网关到SFO网关1五分钟内平均往返应答时间为250-毫秒向性能电子邮件别名工作组发送电子邮件告知,以便评估问题或为反复出现的问题制定升级计划第6步:收集测定标准和监控

服务水平定义自身并无多大价值,只有在公司收集测定标准和监控是否成功时才干体现出价值。在定义关键服务水平的过程中要定义其测定办法和报告方式。测定服务水平可拟定公司是否在实现目的,还可以拟定导致可用性和性能问题的主线因素。此外,在选择服务水平定义的测定方法时,还要考虑到定义的目的。有关更多信息请参阅“制定和维护服务水平协议(SLA)”。

监控服务水平需要定期召开总结会议以对业务进行阶段性的讨论,通常每月召开一次这样的会议。讨论内容涉及所有测定标准以及这些标准是否与目的一致。假如存在不一致,找出问题的主线因素,并进行改善。讨论内容还应涉及目前的计划和具体案例的进展情况。

制定和维护服务水平协议

服务水平定义是抱负的组成部分,由于它有助于在整个公司范围内建立一个统一的服务质量和提高可用性。下一步是作为一项改善成果的服务水平协议,这是由于通过这一步可以将公司目的和成本规定直接与业务质量相协调统一。然后,合理计划的服务水平协议可以作为一种模式来提高效率、质量,并通过保持清楚的业务网络维护和故障排除过程来协调用户与支持部门之间的关系。

服务水平协议具有以下几方面的优点:服务水平协议建立了双方业务责任制,也就是说,用户和应用部门对网络业务都有责任。假如双方不采用行动来为具体业务建立一个服务水平协议;或不与网络部门就业务影响问题进行交流,那么,双方事实上对所发生的问题都有责任。服务水平协议有助于拟定标准工具和满足业务规定所需的资源。不通过服务水平协议来拟定工作人数和所使用的工具通常只能人为地估计。在这种情况下,从事某一业务的工作人员也许过剩并导致过多支出;也也许局限性而导致无法满足公司目的的规定。调整服务水平协议有助于实现最优化的合理分派。

以文献形式存在的服务水平协议提供一个更简朴准确的方法来拟定业务级别的盼望值。

定义了业务级别之后,我们推荐采用以下环节来编制服务水平协议:

7.满足服务水平协议的必要条件。

8.拟定服务水平协议所涉及的有关各方。

9.拟定业务组分。

10.了解用户业务需求和目的。

11.拟定每个部门所需的服务水平协议。

12.选择服务水平协议的格式。

13.成立服务水平协议工作组。

14.召开工作组会议并草拟服务水平协议。

15.商讨服务水平协议。

16.测定和监控服务水平协议是否符合规定。第7步:满足服务水平协议的必要条件

IT服务水平协议编制领域的专业人士拟定了服务水平协议成功的3个必要条件。遗憾的是,不能满足这些客观规定的公司在服务水平协议的进程中也许会碰到问题,这些公司还应考虑服务水平协议流程中的潜在问题。假如联网部门可以定义满足基本业务规定的业务级别,即使未执行服务水平协议,也不会带来害处。

以下是服务水平协议流程的必要条件:公司必须具有面向业务的文化。公司必须将用户需要放在首位,还要遵守优先权自上而下的业务承诺以完全了解用户需要和想法。

进行用户满意度调查,并开展以用户为中心的业务计划。

此外一个业务指标是公司将公司目的拟定为业务或用户支持满意度。这种情况是很普遍的,这是由于,IT部门现在与整个公司的成功密切相关。

由于服务水平协议流程重要是基于用户需要和公司需求来改善业务,所以服务文化就显得格外重要。假如公司在过去未执行这一环节,那么在进行服务水平协议方面的工作时会有一定的难度。所有IT活动必须以用户和业务计划为中心。公司的远景规划或工作说明必须与用户和业务计划相一致,然后为涉及服务水平协议在内的所有IT活动指引方向。经常出现的情况是,公司已部署好网络来满足特定规定,而联网部门却看不到目的或后续业务的需求。在这种情况下,已经为网络事先做好了预算,这种预算也许远远高于或远远低于当前的需要,从而导致最终的失败。

在用户和业务计划与IT活动相一致的情况下,联网部门可以更容易地与新业务应用的部署、新业务和其他业务需求保持一致。业务关系和实现公司目的的共同关注焦点都非常清楚,并且所有部门都团结协作。您必须努力满足服务水平协议流程和协议方面的规定。一方面必须要努力掌握服务水平协议流程以编制有效的协议。

另一方面,必须遵循协议的业务规定。不要奢望无需每个参与者的投入和承诺就能建立一个具有高效力的服务水平协议。这种承诺还必须来自管理部门和与服务水平协议流程有关的所有人员。

第8步:拟定服务水平协议所涉及的有关各方

公司级网络服务水平协议在很大限度上依赖于网络单元、服务器管理单元、帮助台支持、应用单元和用户需求。通常情况下,服务水平协议流程涉及到每个领域的管理部门。在公司指定基本的被动支持服务水平协议时,此方案起到很好的作用。规定更高可用性的公司在服务水平协议流程中也许需要技术支持以解决这方面的问题(如:可用性预算、性能限制、应用信息管理和积极管理能力)。对于积极管理服务水平协议方面的问题,我们建议成立一个由网络设计师和应用设计师组成的技术小组。技术支持小组可以对网络可用性和运营能力、实现具体目的所需要的资源进行非常准确的计算。服务供应商的服务水平协议通常不需要用户的参与,这是由于,编制服务水平协议的唯一目的是获得超过其他服务供应商的竞争优势。在某些情况下,上层管理以高可用性和高性能级别来编制这些服务水平协议以宣传服务,并为内部员工提供内部目的。其他供应商将注意力集中在改善可用性的技术方面上,他们通过编制内部测定和管理的高效业务级别定义来实现这一点。在其他情况下,这两方面的努力会同时发生,但没必要结合在一起,或为了同一目的而进行。

服务水平协议中所涉及各方的选择将基于服务水平协议的目的。也许的一些目的如下:实现被动支持业务目的通过定义积极的服务水平协议来获得最高级别的可用性宣传或推销一种服务产品第9步:拟定服务单元

重要业务和支持服务水平协议通常由许多部分组成,其中涉及支持级别、测定办法、服务水平协议调和的上报途径和总体预算事宜。

用于高可用性环境的业务单元应涉及积极业务定义和被动目的。

其他具体内容涉及以下方面:现场支持正常工作时间和非工作时间的服务程序优先权定义,涉及问题类型、最迟解决问题的时间、解决问题的最长时间和上报程序。按重要限度排列的所支持产品或业务专业技术盼望支持、性能级别盼望值、状态报告和故障解决方案的用户责任地理或业务单元支持级别问题和规定故障管理方法和程序(呼喊跟踪系统)帮助台目的网络故障监测和业务响应网络可用性测定和报告网络容量、性能测定和报告冲突解决程序为执行服务水平协议提供资金网络应用或服务的服务水平协议可根据用户组规定和业务重要性而有其他规定。网络部门必须仔细听取这些业务规定并开发适合整体支持结构的专门解决方案。公司不应将重要业务只针对于某些个人或部门,这一点非常重要,因此对总体支持文化的适应也就很重要。在多数情况下,这些附加规定可以纳入“解决方案”类中。这样的例子涉及基于业务需求的白金级、金级和银级解决方案。有关具体业务需求,请参阅以下示例。

注意:为了维护和改善统一的业务文化,支持结构、上报途径、帮助台程序、测定和优先权定义在很大限度上应是相同的。宽带规定和burst(突发)能力性能规定服务质量规定和定义建立解决方案标准的可用性规定和冗余度监控和报告规定、方法和流程为应用和业务单元升级标准为满足预算外规定融资或交叉付费办法。例如,您可认为WAN站点连接创建解决方案类别。向站点提供具有双路T1业务的白金级解决方案。由不同的运营商分别提供一条T1线。站点应配置2个路由器以保证T1或路由器发生故障时站点不会发生停机现象。金级业务有2个路由器,但是将使用备份“帧中继”。该解决方案在停机时段内提供有限的宽带。银级解决方案只有一个路由器和一套载波业务。针对不同优先级别考虑这些解决方案以拟定故障票。.假如停机规定优先级为1或2的故障票,有些公司也许需要白金级或金级解决方案。用户公司然后可以投资购买所规定的业务级别。下表说明了提供3种业务级别的公司,这些级别基于外联网连接的业务需求。解决方案白金级金级银级设备WAN连接冗余路由器核心站点备份冗余路由器无设备

冗余WAN冗余T1连接,多载波具有“帧中继”备份的T1连接无WAN冗余宽带规定与突发Burst具有用于burst(突发)的负载共享冗余T1非负载共享“帧中继”(只用于关键业务应用);“帧中继”64K(只用于CIR)最多为:T1性能一直为100.ms往返响应时间或小于此值。响应时间100ms或小于盼望值的99.9%响应时间100ms或少于盼望值的99%可用性规定99.99%99.95%99.9%停机时帮助台优先权优先权1:重要业务服务故障优先权2:会影响业务的服务故障优先权3:

业务连接故障第10步:了解客户业务需求和目的

此环节给予服务水平协议编制人员很大的信任。通过了解各种业务组的需求,初期的服务水平协议文献更接近于业务需求和希望的结果。设法了解用户业务停机带来的损失,估计生产力、收入和用户信誉方面的损失。请牢记,即使只是和几个人的连接也可以严重地影响到收入。在这种情况下,保证用户理解也许发生的可用性和性能方面的风险,从而使公司更好地理解所需要的业务等级。假如缺少这一步,会有许多用户只是规定百分之百的可用性。

服务水平协议编制人员还应了解业务目的和公司发展速度以便适应网络升级、工作量和预算。了解将要使用的应用程序也很有帮助。公司最佳是有每个应用程序的应用信息文献,假如没有,考虑一下是否可以相应用程序进行技术评估以拟定与网络有关的问题。第11步:拟定每个部门所规定的服务水平协议

重要支持服务水平协议应涉及重要业务单元和功能组的规定,如网络运营、服务器运营和应用程序支持组。这些组应基于业务需求和它们在支持过程中所起的作用来给拟定。考虑多方面规定尚有助于建立一个公平的整体支持解决方案而不偏向或优先考虑特定部门的需求。这有助于支持部门为各个组提供最佳的服务,这是一种支撑公司整体服务文化的方案。例如,用户也许坚持他的应用在公司范围内是最重要的,而事实上,该应用故障所带来的停机损失在收入、生产力减少和用户信誉方面大大小于其他部门的应用。

公司内不同的业务部门将有不同的规定。网络服务水平协议的一个目的应是实现一种可适应不同业务级别的总体格式。这些规定通常是:可用性、服务质量、性能和平均修复时间。在网络服务水平协议中,这些变量通过以下方法来进行解决:为各业务应用分派不同优先级来调整服务质量,针对各种网络问题的平均修复时间来定义帮助台优先顺序,开发有助于解决各种可用性和性能规定的解决方案标准。一个加工公司的简朴解决方案示例如下表所示(可在可用性、服务质量和性能方面添加信息):业务部门应用故障损失停机时的故障优先权服务器和网络规定加工公司资源规划高1最高冗余度用户支持客户服务高1最高冗余度工程文献服务器,专用集成电路设计中2局域网核心构件冗余度销售文献服务器中2局域网核心冗余度第12步:选择服务水平协议的格式

服务水平协议的格式可根据部门或公司的规定不同而有所变化。下面是一个推荐的网络服务水平协议示例的要点:协议目的协议有关方协议目的所提供的服务和所支持的产品帮助台服务和呼喊跟踪用于定义平均修复时间的基于业务影响的故障严重性定义用于定义服务质量的关键业务优先权根据可用性和性能规定定义的解决方案类别培训规定容量规划规定上报规定报告提供的网络解决方案新解决方案规定不受支持的产品和应用情况业务策略工作时间提供的支持非工作时间支持的定义假期业务内容联系电话号码工作量预测投诉解决业务授权标准用户和部门安全责任故障管理程序呼喊开始(用户和自动呼喊)第一级响应和呼喊修复率呼喊跟踪和历史记录呼入方责任故障诊断和呼喊关闭规定网络管理故障监测和业务响应故障解决类别或定义遗留故障解决上报策略故障转移责任严重故障和意外情况呼喊解决服务质量目的质量定义测定定义质量目的根据故障优先权开始解决故障前的平均等待时间根据故障优先权来解决故障的平均时间根据故障优先权来更换硬件的平均时间网络可用性和性能管理容量管理扩容质量报告人员配备和预算.人员配备模式运营预算协议维护一致性审阅时间表性能报告和审阅报告测定标准的调整定期服务水平协议更新批准附件与正表呼喊流程图上报标准网络解决方案标准报告示例第13步:成立服务水平协议工作组

下一步是拟定服务水平协议工作组的成员,其中涉及小组领导。工作组可以涉及用户、业务单位或职能部门经理或各地区的代表。这些人员向各自的工作组报告服务水平协议方面的问题。经理和关键服务水平协议单元的决策人应加入该组。参与人员可以涉及管理和技术两方面的人员,这些人有助于定义与服务水平协议相关的技术问题和作出IT.级别的决策(即,帮助台部门经理、服务器运营部经理、应用部经理和网络运营部经理)。

网络服务水平协议工作组还应由应用推广部和业务部代表组成,以在网络服务水平协议方面达成一致,此协议涉及多个应用和业务部门。工作组有权对网络的重要业务进程、业务、可用性和单个业务的性能规定进行安排。这方面的信息将用于为各种会影响业务的故障类型创建优先权,为网上的重要业务分派优先级,并创建基于业务规定的将来标准联网解决方案。第14步:召开工作组会议和草拟服务水平协议

工作组应一方面编制工作组章程。章程应规定服务水平协议的目的、计划、和时间框架。接下来,工作组将编写具体工作计划,并拟定计划表和编写及执行服务水平协议的时间表。该工作组还应编写根据支持标准测定支持级别的报告程序。最后一步是编写服务水平协议草案。

联网服务水平协议工作组最初应每周召开一次见面会以编写服务水平协议。编写并批准服务水平协议后,工作组可以每月甚至每季度召开一次会议以对服务水平协议进行增补。

第15步:商讨服务水平协议

编写服务水平协议的最后一步是最后协商和签订。这一步涉及如下内容:审阅草案商讨内容编辑和修订文献获得最后批准在最后版本送交管理部门审批之前,审阅草案、商讨内容和修订的工作可以反复进行多次。

.从网络部经理的角度来看,商讨可以测定的预期结果是相称重要的。

设法吸引其他相关部门的人员来支持性能和可用性协议。这还涉及质量定义、测定方法定义和质量目的。请记住,增长业务相称于额外开支。保证用户组了解增长级别的业务将收取费用,并由用户自己拟定这是否是关键业务需求。您可以很容易地执行服务水平协议诸多方面的成本分析(如:硬件更换时间)。

第16步:测定和监控服务水平协议是否符合规定

测定服务水平协议是否符合规定和报告结果是服务水平协议流程的重要方面,由于这有助于保证长期的连续性和结果。我们通常建议,服务水平协议的任何重要组成部分都是可测定的,并在执行服务水平协议前拟定对的的测定办法。然后每月召开用户和支持部门间的会议以审核测定办法、找出问题的主线因素,并提出解决方案以满足或超过业务级别规定。这有助于改善服务水平协议流程,使它现代质量改善计划相似。

对于公司内管理部门是如何评估服务水平协议及其整体业务级别管理,以下小节提供了更多的具体信息。

业务级别管理性能指标

业务级别管理性能指标将业务级别作为一种衡量成功的方法来提供监控它的机制。这使公司可以对业务问题作出快速反映,并对影响业务或业务环境中的停机损失问题有一个更清楚的理解。假如没有测定业务级别定义,将对以前完毕的工作产生悲观的影响,这是由于公司被迫处在被动局面。没有人会说服务真好,相反,会有很多用户说服务满足不了规定。因此,业务级别管理性能指标是业务级别管理的重要条件,这是由于它提供方法来充足了解现有服务级别,并根据当前问题进行调整。这是提供积极支持和改善质量的基础。当公司对问题进行主线分析并改善质量时,这将是提高可用性、性能和所提供服务的质量的最佳途径。例如,考虑以下实例。

某公司收到越来越多的投诉说网络经常出现长时间的故障。通过测定可用性,该公司发现重要问题是一小部分WAN站点。更进一步的研究发现大部分问题出现在这以小部分WAN站点上。公司发现问题并解决了这个问题。公司然后拟定可用性的业务等级目的,并与用户组签订协议。后来的故障测定过程根据服务水平协议的不适应性而变得不久。人们因此认为网络部门是具有很强的专业作风和技术的队伍,是公司的财产。该部门很自然地从被动变为积极,并有助于公司提高经济效益。遗憾的是,今天的大多数联网部门的业务级别定义很有限,并无性能指标。结果是,他们用大量的时间用来应付用户投诉或故障,而不是积极找出主线因素并开发满足业务需要的网络服务。

通过以下服务水平协议性能指标来拟定业务级别管理进程的成功与否:以文献形式存在的业务级别定义或服务水平协议,服务水平协议涉及可用性、性能、被动业务响应时间、故障解决方案目的和问题上报程序。性能指标测定标准,其中涉及可用性、性能、各优先权的业务响应时间,各优先级的解决时间和其他可测定的服务水平协议参数审阅业务级别执行情况和整改工作的每月网络业务级别管理睬议以文献形式存在的服务水平协议或业务级别定义

第1个性能指标只是具体说明服务水平协议或业务级别定义的文献。业务级别定义的首要目的应是可用性和性能,由于这是重要的用户需求。

第2个目的很重要,这是由于它们有助于定义可用性或性能级别的实现途径。例如:假如公司具有挑战性的可用性和性能目的,则防止发生故障和在出现故障时快速解决将非常重要。

.第2个目的有助于定义实现盼望可用性和性能级别所需的进程。

被动辅助目的涉及:各呼喊优先权的被动业务响应时间故障解决目的或

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论