Compuware应用性能管理观_第1页
Compuware应用性能管理观_第2页
Compuware应用性能管理观_第3页
Compuware应用性能管理观_第4页
Compuware应用性能管理观_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Compuware应用性能管理观摘要:端至U端应用性能管理(End-to-endApplicationPerformanceManagement简称APM)指的是一种IT服务方法,包括识别、区分优先次序以及解决影响业务应用的性能和可用性问题。APM正在变得越来越重要,因为终端用户依赖日益复杂的应用来实现关键业务交易。应用性能低下将降低生产力,影响客户满意度,并有损IT声誉,进而导致成本攀升、收入减少、IT变得效率低下一一这些问题通常比可用性问题更加严重。端至U端应用性能管理(End-to-endApplicationPerformanceManagement简称APM)指的是一种IT服务方法,

2、包括识别、区分优先次序以及解决影响业务应用的性能和可用性问题。APM正在变得越来越重要,因为终端用户依赖日益复杂的应用来实现关键业务交易。应用性能低下将降低生产力,影响客户满意度,并有损IT声誉,进而导致成本攀升、收入减少、IT变得效率低下一一这些问题通常比可用性问题更加严重。传统的监测解决方案通常无法识别和解决应用性能问题的根源。事实上,最近在终端用户体验监测、依赖性映射和相关性方面的最新进展,已让IT运行经理能够更有效地监测和解决不满足服务水平的问题。这些技术帮助提高对整个网络、服务器(分布式和大型主机)和其它应用层的可视性,借助技术分析因果关系,从业务的角度确定哪些响应该优先进行。实际上

3、,即使基础架构测量指标仍然提供主要的故障和容量数据,强调重点也已从基础架构测量指标变成了业务测量指标。我们将撰写一系列应用性能管理最佳实施的文章,从问题和事件管理的视角剖析APM。问题和事件管理是APM的两个核心ITIL(信息技术基础架构库,简称ITIL)流程。事件管理(IncidentManagemenX是当IT出现问题的时候解决它们,作为对服务质量降低的一种响应。事件管理的目标是恢复服务,对业务造成尽可能小的影响。问题管理(ProblemManagement强调识别和消除问题的根源。它通过改变服务和APM解决方案,增加了服务质量改进的概念。本文将首先概括地讲述APM设计、实施和运营的基本要

4、素,将端到端APM作为一个流程来进行探讨。一、APM设计APM解决方案通常是作为草根、基础架构监测实践开始的,由IT机构的某个独立业务部门实施,缺乏一致的目标。例如,网络团队可能要部署一个开源网络工具,以获得基础网络的可视性,而web服务器团队则可能会从一个主流的服务器厂商那里部署一个服务器监测工具。然而,自上而下地设计一个APM方案要切合实际得多。使用这种方法,您先设想结果,然后将它应用于您选择的解决方案组件。您如何着手开始呢?在ITIL的世界里,最终支持服务级别协议(servicelevelagreementm称SLA)的运行级另U目标(operationalleveltarget,简称O

5、LT)是一个好的起点;这些将已经解决了预期的业务产出和成本限制,并且应该实现一个高水平的设计。不与ITIL相关?您仍然能够采用适合您需求的部分最佳实施。从与业务部门讨论、理解业务目标开始,确定APM预算,使用对应用交付基础架构的理解和它的性能敏感性,并草拟一个方案。您很可能想把这个作为一个练习,测试什么可能会出错,尽可能广泛地扩展范围;成本和其它的实际考虑将很快专注于这一设计。您当然不会是第一个采取这种方法的人,您可充分利用与供应商的关系、用户群和咨询合作伙伴,来理解类似尝试可能会有的成功和失败。公司高层提供的资源支持和参与对于任何APM项目的成功都是至关重要的,因为这将要求来自多个IT部门的

6、积极支持。更重要的是,这些部门对于项目的业务价值要有一致的理解,因为他们每个都可能会面对新的企业可视性(他们在高管仪表板上的测试指标),对某些东西失去控制(应对问题的新流程),或者放弃一个最受欢迎的工具。开始一个小型的APM项目,选择一个战略性的应用,为业务所有者和IT机构阐明价值,大多数机构将会从中受益。这样一个项目的成功,将能够被一个更全面、收益更明显的解决方案利用。然而,我们大多数人并不是从临时拼凑开始设计APM解决方案;我们已经拥有许多一直服务于我们的目的的基础架构工具。那么,是什么将一系列“结合平台的"(platform-aligned)工具车变成APM解决方案的呢?尽管对

7、于这个问题可能会有许多技术回答,但是,这里有两个最重要的主题:?业务一致性(businessalignment)。全新的主要设计目标仍然应该从注重业务产出开始。对业务来说,重要的将是终端用户的体验一一这个可通过性能和可用性进行测量。曲目关性和故障隔离(correlationandfaultisolation)o对根源的可视性,是将基础架构提升至APM、真正理解基础架构测量指标如何影响业务生产力的关键。很容易明白诸如终端用户体验(end-userexperience简称EUE)和基础架构测量指标等业务相关的测量指标的相关性为何如此重要。将终端用户体验到的性能问题与基础架构测量指标结合起来,隔离主

8、要的根源,这能让IT小组快速准确地专注于问题的起源,同时避免对不相关的组件采取行动。通过适当的阈值调整,这为持续业务改进奠定了基础。同样地,通过EUE的相关性,以及受影响的用户数量和所在位辂、每天交易的次数和业务价值,可以找到问题对业务的影响。通过一系列基础架构工具构建APM解决方案,会带来集成和相关性方面的挑战;您需要对主要的单一供应商(single-vendor解决方案进行评估权衡,因为供应商和定制化的多供应商(multi-vendor)解决方案构建和交付了集成。对于更小一些的部署,定制化的解决方案可能会更省钱,但是对于较大的实施,可扩展性和维护方面的考虑将会迅速改变价格。在设计流程里,保

9、持对终端用户交易响应时间的专注很重要。这有两个原因。第一,性能分析和问题解决是为更好的了解以业务为导向的环境并提出重要意见。尽管在传统上,基础架构测量指标是满足事件和问题管理的数据,但是,这些基础测量指标和它们的阈值驱动警报在没有业务相关性的情况下能够变得几乎毫无意义。例如,对于一个2M广域网连接来说,75%的利用率究竟是好还是坏呢?一个被报告的交易性能问题是由SAN里长度为8的测量磁盘阵列引起的吗?当应用的性能降级时,这些组件级的测量还将总会被突出?其次,从对业务影响的角度来说,IT能够优先对事件作出响应是有价值的,它代表了向业务一致性迈出的重要一步。同样重要的是,与技术和IT资源的成本相关

10、的设计限制。许多APM项目不成功,是因为缺少关注和支持,因为无法维持这一解决方案、无法适应基础架构的变化并无法定义基于真实世界反馈的流程。二、APM实施一一将解决方案转变为运行基线对于任何APM实施来说可能是最重要的技术成功因素之一。基线确定了服务的正常运行,为设定警报起点提供了参考,并提供了有价值的趋势和容量规划信息,因为它们是真实的数据。通常,APM解决方案会动态地为一些被观察到的测量指标构建基线;经过数天或数星期,这些基线趋于一个正常的定义。对于其它的测量指标,您很可能想要基于一段时间内的观察手动设定基线。将这些基线作为参考点,然后您就能够确定性能阈值;当测量违反了特定的行为准则时,警报

11、就会产生。至少在最初的时候,这些阈值很可能以一个超出基线的比例被设定。例如,当页面性能从基线降低25%的时候,就会引发一个警报。这些引发也很可能基于一个模板或一套规则被设定,能够包括更复杂的逻辑;再例如,当磁盘写队列在60秒内超出2至少5次的时候。重要的、需要考虑的是哪些指标被监测,使用什么阈值;大多数的APM工具提供多种多样的测量选项,深入的显示出能够被分散甚至误导的水平值。缺省值或特定平台的模板可能通过APM解决方案厂商、软件/硬件厂商、系统集成商或用户社区获得。然而,无论是什么资源,确定这些阈值是否适用于您的特定环境都是非常必要的。尽管这一决定部分地能够在实施期间作出,但是大多数阈值的改

12、进都是在运行期间实现的。对于最后,我们应该关注最终由EUE测量驱动的相关性能力有效的相关性来说,最重要的是理解依赖性或交易在系统里经过的路径。它也建议要注意测量时间。当然,不是所有的指标都能够被连续评估,因此有些是在一段时间内进行取样。这是一种检测普遍性问题的有效方法。然而,间歇的问题本质上可能会是短暂的,以至于它们在取样期间被隐藏起来。尽管这些通常只会带来更小的业务影响(因为它们以更小的频率影响更少的用户),但是它们本质上更难解决。交易“跟随"(following)通常通过贴标签一一可能对特定的环境是合适的,然而,暂时缩短的取样间隔时间为解决间歇问题提供一种更通用的方法。一个实现强

13、大APM配辂的明智方法是,在前生产测试实验室实施关键APM监测组件,这样您就能够观察到一系列系统负载上的正常行为,这对于设辂基线是非常有用的。通常,您将会找到性能的瓶颈。知道哪些测量指标表明了该瓶颈的根源和它发生的阈值,这是一个理解依赖性并积极配辂生产监测阈值的理想办法,而且其带来的影响也很小。三、APM运行一一持续的服务改进成功的运行需要在稳定性和持续的服务改进(CSI)之间保持平衡。对许多企业来说,仅仅只有在故障发生并严重威胁到业务的时候,CSI才会成为一个项目。一旦该问题得到解决,这一概念又会立即被抛到脑后,直到下一个重大故障发生的时候才会被再次记起。一个更周全的CSI方法将在事件和问题

14、管理方面带来明显的改善,帮助IT机构更好地解决和预防问题的发生。正如之前提及的,APM成功的关键一一既确保业务一致性,又能解决问题一一在于相关性。一个强大的CSI流程强调去改进被监测到的并找到更合适的阈值。考虑一个APM的实施,终端用户体验和基础架构指标要能被监测。当事件发生的时候一一无论这个事件是由EUE警报引起的,还是因为一个实际白终端用户一一IT人员都要将这一事件和它的根源关联起来。确认并修正敏感性或瓶颈一一至少暂时要做到这点。如果瓶颈指标数据没有被监测到,那么,无论如何也要开始对APM进行明显改进来监测它。如果瓶颈指标数据被监测到了,那也要着手改进去调整警报阈值,因此下一次警报能够在用

15、户抱怨之前就识别到问题。成报可能是被动的一一超过某一阈值的用户正在经历性能问题一一也可能是主动的一一超出阈值给出了一个尽早的警告:如果用户继续这么做的话,他将会出现性能问题。最终,持续的服务改进应该不止是通过改善APM解决方案的质量来改进业务服务的水平。它可能意味着,通过拨出额外的资源或者对资源的使用给予优先考虑来控制资源,以致瓶颈将不再发生。分配符合业务策略的网络质量,增加一个SAN,或卸载一个专门服务器上的流程,这些都是例子。四、作为流程的APM与事件和问题管理类似,APM本身能够被作为一种流程来考虑,因此也适合持续改进。在六西格玛DMAIC(定义、测量、分析、改进和控制)模式下,既可考虑

16、用于实施APM解决方案,又能够考虑作为一种解决问题的一致方法。定义(Define):首先而且最重要的是,您必须界定问题。对于APM解决方案的设计来说,这一定义始于业务需求,而且是经常能够被扩展。然而,对于响应问题来说,这一步则反其道而行之,将问题的定义严格限定于它最简单的核心因素。测量(Measure:这一步专注于收集相关的诊断信息,忽略不相关的或分散的数据。与EUE测量的相关性,对于实现确定的故障域隔离和最终根源分析的主要目标来说至关重要。可重现的问题允许更好的相关性。分析(Analyze:该流程的核心步骤包括解释数据。通常,APM解决问题流程的目标是对一个问题进行“选疗”(triage)识

17、别故障域并对该结论提供支持性证据。这一步实现了持续的服务改进;相关的故障能够被用于改进阈值设辂,并作为修正系统设计的输入数据。改进(Improve);领域专家与更大的团队合作确定改进选项来解决事件或问题。这一流程应该分开。当然,主要的业务目标是解决问题以重新恢复服务,但是从持续服务改进的角度来看,改进APM解决方案也很重要。APM工程师应该评估正确的指标是不是正在被监测到,这些指标是不是相关、能够提供正确的故障域信息。控制(Control):最后一步是最容易被忽视掉的;可是没有它,您将会发现,有时候对于同一个问题,您一直在重复着前面的4个步骤。从业务角度来说,这是系统结构发生变化的地方一一增加

18、资源或对项目逻辑作出改变以避免对限制的敏感,这些限制导致了问题的产这一一应该被考虑到。从APM的角度来说,考虑调整警报阈值和规则,从而提供一个对将来问题的提前警报,这样就能在业务受到影响之前采取相应的行动。五、总结随着当今的业务应用日益变得分布和独立,Gartner已经为APM确定了4个“维度”。我们已经在不同程度上讨论了这些维度,在此总结如下:?体马叙(experience:捕捉应用或服务的终端用户体验?依赖,性(dependency:发现并模式化应用的拓扑结果?深潜(deepdiv©:捕捉与依赖的组件相关的丰富统计数据?剖析(profiling):跟踪整个基础架构内的交易流成功的APM解决方案将在应用环境中能够有效地解决这

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论