IT运维与管理高峰论坛演讲刘静_第1页
IT运维与管理高峰论坛演讲刘静_第2页
IT运维与管理高峰论坛演讲刘静_第3页
已阅读5页,还剩94页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、编号:时间:2021年x月x日书山有路勤为径,学海无涯苦作舟页码:第99页 共99页2008IT运维与管理高峰论坛演讲?刘静刘静:非常荣幸今天有机会在这里跟大家一起探讨一IT服务管理的实践。实际上从IT服务管理的发展来看,大家在做各种各样的实践,包括在建设按照ITLI的最佳实际,结合国内的实际情况来建设相关的相关管理流程,而且不断地使这样的管理流程走向更加成熟。即使是这样,我们仍然发现,好象持续在做这些管理流程的一些实施的话,在我们整个的过程当中仍然碰到了困难。比如说我们很难看到一个跟业务相关的视图,比如说我们说在支持IT业务的运维和发展,我们怎么样看到跟IT业务相关视图以及业务的可持续化,是

2、我们很难解决的问题。如何利用自动化的驱动来降低整个的费用,提高服务的提供和整个服务的质量,保证快速地实施。以及面临现在不管是应用环境还是IT自身的架构建设也好,我们面临了不断更新的技术和服务的发展。在面临这样的服务和技术发展的时候,如何进行创新?我们今天的内容就IT服务管理的一些实践跟大家交流。首先,这是大家都很熟悉的Gartner关于IT成熟度的模型,从目前我们国内的用户来讲,大家都处在一些被动式的管理,有一部分用户在于主动式或者是面向服务的管理,或者是第二层次、第三层次做了工作。比如说主动的监控,尝试做一些容量和能力的规划方面的工作。我们来看,从我们最终的IT的管理怎么样去面向IT服务的管

3、理来讲的,IBM的服务管理提出三个主要的思想,第一个主要的思想是怎么样实现一个可视化,这是我们在一开始谈到的问题。如何能够把IT跟我们业务之间的关系,以及对业务之间的支持,我们能够用可视化的方式看到,能够评估、测量,并且能够支持我们日常的运维。第二个方面,我们把它总结为可控化,我们怎么样去了解我们现在所有的IT的资产,在这些IT的资产如何来支持我们日常的运维,以及IT的资产我们如何去对它做一个更重复地使用,和对他进行一个更高效地利用,从而减轻我们的成本和提高我们的服务质量,并且降低在管理过程当中的风险。第三个问题是自动化,在自动化这点上,我们不是说要有什么样的产品,或者是在IT管理建设服务某一

4、个点上实施自动化,帮助我们提高效率。从自动化来讲,不管是可视化、可控化都贯穿在整个管理的过程当中。自动化我们提供流程的自动化怎么实现,包括实现运维我们做自动化的部署、监控,在整个监控的方面,怎么样去实施自动化,来提高我们的生产效率。首先从可视化这个目标来讲,我们需要去洞察业务,我们需要去了解,现在的业务的状态是什么,我们的IT是怎么样去支持我们的业务的,直接能够从我们的IT业务的支持上面看到可交付的目标。从我们的解决方案来讲,我们需要提供实时的视图和实时的dashboard,包括我们从业务合规、运维整个了解现在资产的管理所需要的可用性,以及这个可用性是不是很好地实现了我们的业务目标。在我们的右

5、边是给了大家一些可视化的视图,后面我们就这些可视化的内容进行展开沟通。第二个部门可控化,刚才已经谈到了主要的核心思想是我们怎么样能够提供一个完善的控制,能够去了解到我们的现有的IT资产以及如何对我们的IT资产进行优化的利用。在讲到可控化这部分,大家会想是不是讲我们IT资产的管理,以及从ITLI来讲,更侧重于CMDB这样的管理,从后面整个运维的角度来讲,可控化对IT资产、CMDB的管理,不是在资产本身提供一个高效地利用率、管控也好,实际上对我们的运维过程怎么样实现可视化,怎么样把纷繁复杂的基础架构的事件、问题能够可视化变成业务影响。它在这部分来讲,提供了非常好的业务的技术支持。最后是自动化,将敏

6、捷性融入到我们的运维当中,帮助我们快速地实现运维的目标。刚才我们从IBM服务管理三个比较核心的思想和观点,从我们的实践来讲,大家会想到我们现在面临的是非常复杂的IT的架构。在我们这张图下面,大家可能看到的是在我们下面的这部分,不管是从我们的主机、开放平台、应用、网络、语音、传输等等整个IT的基础架构。这是我们现在面临的,从IT的视角看。从业务视角看的话,我所需要的是一个业务的交付,从银行业来看,我需要的是网上银行能够提供我们所承诺的服务级别,能够在我们用户所期望,业务目标所定义的一些响应时间也好,是在指标之内对我们广大的用户,是对业务的用户提供服务。我们现在IT和业务之间,我们怎么样来建立这种

7、联系,以及怎么样实现运维,这是我们给出的一个实践的模型。在这样实践的模型当中,主要的部分是三个层次,在金字塔模型最上端,是我们的业务所要实施的整个业务的管理。在中间的层次是一个会聚的运维的管理。下面这个层次来讲,是我们熟悉地传统IT的管理领域。我们定义为一个技术的专业领域的管理,包括对应用、网络、主机、安全、开放平台、存储等等的各个支持我们的IT基础架构的整个环境的各个专业领域的管理。我分了两部分探讨,一部分我们会侧重于在讲,根据我们现在运维的环境,我们怎么样在基础架构的层次做技术领域的专业的管理。另外一部分,探讨怎么样面向业务服务的管理。首先,我们从大家非常熟悉的领域开始,面向一个专业技术领

8、域的管理。当我们回到各个专业技术领域,回到网络、应用、存储等等这些领域的时候,我们来看这个领域当中,我们的运维目标是什么。可能作为一个网络部门的领导、员工来讲,我们似乎是说很难去把我们的网络跟业务之间做一个非常好的很一致、完全的对应。因为网络支持着很多的应用的运行,和我们商业的运行,在这样的情况下,我们从我们的运维目标来看,作为我们系统专业的领域,我们的运维目标是什么。在这个地方,我们总结了两个方面的运维目标。首先,运维目标是要保证我们的系统可用性。一谈到可用性,大家会谈到,我们怎么样去实现一个高可用性,我的可用性的能力是什么。这个地方我们定义是我们系统的可用性目标是满足我们的业务要求的。其次

9、从运维的角度来讲,我们有非常重要的目标是在整个系统的生命周期的建设过程当中,如何利用这样科学的数据的分析,来支持整个系统的持续地发展。这是从技术的专业领域来讲的运维目标,从现在不管是国内、国外,大家在技术领域的专业的管理领域里面,大家的一些成功的实践来讲,我们主要分为下面四个方面。第一个方面我们去提供了一个可视化地监控,或者说我们提供了可视化的视图。第二个方面是提供一个很坚固的事件基础,这是非常核心的一部分。参考业务影响关系定义鼓掌分类或级别,以及我们要采取什么措施尽量减轻或者是消除、预防这些能带来的影响。第三个方面是对所专注的这个基础架构领域,它的运行的数据全面的分析,这些分析是我们要定义哪

10、些我们的KPI。这些KPI它的运行的绩效是怎么支撑业务的。第四个是建立流程化的管理平台,支持运维灵活的要求。从这个层次来讲,包括我们跟国内很多的用户来做一些运维方面的工作,在建设的过程当中有很深的体会,有可能你建了非常好的网络管理系统、主机管理系统、存储管理系统或者是其他基础架构的管理子系统。但是会发现,这个系统很难在良性的环境下做持续地更新地满足我们的运维要求。实际上这方面通常存在的问题是我们只是构建这个技术平台,我们并没有去对如何让这个技术平台保证我们的业务目标,实现我们的IT运维目标这方面做相关的制度、流程化的支持,去使这个技术平台如何最大限度地去发挥它的作用。首先是建立一个坚固的事件基

11、础,从技术平台来讲,我们是怎么样能够去众多的基础架构事件当中进行高效地处理。根据我们的经验,在一个类似于一个省的规模的网络当中,即使仅仅是网络的一个专业领域一天的事件量,大概是在几十万条左右。这是我们很多用户一起建设当中做的统计数据,如何让这几十万条的数据发生之后,实际上真正影响到运维、影响到业务事件的氛围并不多。我们怎么样在这些事件当中抽取出对我们业务真正有影响的事件,并对其进行处理。所以这方面我们特别强调如何建立一个坚固事件的基础,在一个平台上,能够以高效地方式对它进行处理。在建立事件基础,事件量非常大,如果所有的事件都原始移过来都不行,这样的话,许多进行事件的自动压缩。我想强调,这样的压

12、缩是不是可以从企业的需求出发做定制,不是说把原来的丢掉了进行压缩。建立坚固事件的基础还有一部分是我们不需要说某个交换机的某个交换端口宕了,我们会进行什么影响,我们从事件分析、关联机制也好,我们需要从最基础的IT事件告诉我们。比如说是某一个营业部发生了中断,这样的信息会比某一个断口出现了端口宕这样的信息。不管是对于IT来讲,怎么判断优先级,以及业务来讲,都要有可视化。从我们的目标来讲,尽可能地采集更多的事件,但是从纷繁复杂的事件进行分析,告诉我们真正跟业务相关联的事件是什么,这些跟业务关联产生的事件,才是我们运维过程当中需要核心地处理和解决的问题。这是第一个方面建立一个坚固的事件基础。第二个方面

13、,我们怎么样从我们各个基础当中做性能的分析支持我们的性能管理、后续的容量规划能力上的管理。这个地方举了两个例子,一个是基于基线的性能分析,不是每一个单次、单点的分析,而是从我们整个的业务历史表现看。比如说金融业来讲,像网银的表现,每周一到星期天,以及每天的Array点到5点,整个的流量变化趋势是不一样的。我们通过基线的分析,我们怎么样去获得优化现在系统的容量,以及现在的系统容量是否能够支持业务不断增长的需要。在性能分析这部分,我们要进行一个预测,我们要从单独的组件,和整个业务应用组件的组合里面,我们分析现在提供的容量和性能是不是能够满足我们整个业务增长的需要。然后大概会在什么点的时候,如果当我

14、们的业务增长到什么规模,我现在的IT基础架构要进行扩容和升级,这样的话,我们做预先的计划,避免当业务的快速增长,而使我们的IT系统造成对业务增长的瓶颈。第三个实践方面来讲,怎么样去了解我们整个的IT的资产包括我们的网络、应用、应用之间的关系等等,包括网络之间的关系,从而对我们整个的IT资产实施控制,并为优化地使用提供一个基础。这是一些例子,关于IT的资产的报表。我们要去了解我们当前的使用率是多少,是不是有闲置的,是不是我们的容量。这部分的话,我们会去协同我们刚才谈到的容量的分析,为我们规划未来IT的服务对业务的支撑能力提供基础。第四个方面,从子系统的管理来讲,是怎么样建立一个流程化的平台,使大

15、家日常运维的工作可以在流程化的平台上来进行一个可效的实施,所有的运维人员都会定义他的运维角色和运维的职责,最后通过流程化的平台去履行他运维上的一些要求。这是一些视图的呈现,下面还有一个视图。在这个地方,前面我们的演讲里面也听到了我们怎么样对一些绩效等等进行考量,现在我们看到的视图,整个故障发生持续状态的实时的视图。我们再回忆一下刚才谈到金字塔的服务模型,刚才我们讲了最基础的一部分,也就是说整个IT专业领域的管理,以及在这个专业领域管理上的运维目标。有两点,一个是怎么样保证整个系统的可控性。第二个是对系统进行评估和分析规划未来的发展。另一方面除了两个运维目标来讲,跟大家分享了一些在国内的建设当中

16、,我们比较多的四个方面的实践,建立一个可视化的视图,以及建立一个非常好的事件的基础,进行性能和容量的分析。最后是说建立流程化的平台保证运维可以在一个企业所要求的一些制度的环境下面进行非常良好地运行。在后面这部分内容里面,我们会讲我们上面的两层。刚才这部分,我们更多地去看怎么样做基础架构的运维,后面来讲,我们偏重于怎么样把基础架构的运维跟我们的业务目标来进行结合,最终为我们的业务来服务。现在大家看到的这张总结的片子,是说我们对整个会聚管理,就刚才中间的这层,实际上当我在讲基础架构的各个专业子系统的管理的时候,大家有一些疑问了,网络只看网络的,系统只看系统的,应用只看应用的,存储只看存储的,谁来看

17、业务,谁来对整个的业务目标负责,以及保证IT运维真正是实现业务目标的,所以我们要做后面的事情。第一步我们所谈到的是做一个会聚的运维管理,在这个管理里面,不管是网络的、存储的、主机的开放平台、系统、应用、语音等等各个环境子系统的数据,实际上是需要送到会聚的平台,由会聚的平台进行处理,最终实现业务目标建立我们的服务模型来服务。在这个会聚的平台里面,我们在这个地方也总结了它的一些运维目标。这个时候,我们要做集中的IT运维管理,不再是网络看网络、系统看系统,网络和系统的运维人员在整个体系当中变成了二线,在一线来讲,我们要看整个IT的状态,以及对当前的IT的运维来进行一个快速响应。在这方面来讲,我们也总

18、结了一些成功的建设实践,是建立一个整合的事件平台,这个时候不是面向专业的子领域的,是面向整个基础架构的整合平台,以及如何进行一些可视化的方式来去看现在的IT基础架构的状态,以及现在业务的运行状态。基于我们现在所谈到的一个刚才讲了基础架构自身的管理问题,会聚的运维平台,我们最终是要实现一个更高的目标是怎么样进行一个业务服务的管理。在这个地方来讲,我们现在看到这张图跟大家看到基础架构管理的图非常类似。最下面是我们整个基础架构的内容,在基础架构的内容来讲,我们要通过一些基础手段对整个数据进行采集,包括依赖关系的采集、事件性能的采集、数据的采集,其他第三方的数据的采集。不管是从业务部门看可视化的视图,

19、还是业务部门来看关注的不仅仅是我们IT提供的指标,可能还包括业务的基础指标,比如说当前的环境下,某一个核心的业务吞吐量是什么。所以大家会看到,我们在整个体系管理的时候,大家可以认为,前面两部分是谈IT的数据,这边的数据不仅仅是来自IT系统自身的数据,还会来自于业务系统的数据。这些数据搜集到之后,我们需要对他们进行服务关联和服务化。我们怎么样建立可视化的视图,它的一些详细的情况是什么,业务人员所关注的业务的指标、当前的状态是什么,IT运维的主管领导所关心的运维指标是什么,以及详细的运维人员关注的运维信息又是什么,我们怎么样去获得,怎么样去处理,最终保证我们去实现我们的服务管理的最终的目标。在这里

20、,我给了大家一个事例,这个事例看起来是从一个事件的角度我们尝试去关注一个基础架构的问题,怎么样跟我们的业务进行关联的。在这个事例当中,我们看到最上面的事件,从基础架构搜集过来的事件,是发生在一个服务器的名字叫做ERP-APP-01是利用率超高的事件,这是原始的。我们忽略了中间很多传统的事件,看到最后,可视化的系统告诉了我们什么样的信息。他告诉我们CPU使用率超高的事件,导致了应用服务器速度的下降,而应用服务器是ERP的关键组件,它又支持了应用,最后,实际上还在告诉你一些结论,因为CPU应用服务的下降,导致超过了1个Min的损失,即使是这样的事件。先不看对整个高层领导有影响,业务人员最后只关注这

21、一点,我的影响是什么。但是对我们的IT运维人员来讲,这样的信息非常有意义。我们看到了这些信息我们怎么做我们运维的优先级的划分,我们肯定是能做出来的。这个PPT里面讲了怎么样从第一步到我们现在所看到的业务信息的一步中间的一些过程,因为时间的关系不详细做解释,怎么样做规范化、丰富、怎么样从外部的数据当中获得关联,最终从一个简单的信息告诉我们业务影响的关系,怎么样去做不是我们今天的重点,如果有机会以后希望能够跟大家做一些详细地细节地沟通。我们实际上已经从一个事例的角度来看了一下IT的基础架构跟业务之间关联关系地一角。我们怎么样来建立一个IT的基础架构跟IT之间的关联,首先要了解一件事情,现在大家看到

22、左下角基础架构正在发生什么事情,我们知道发生了什么事情之后,我们需要采取什么样的行动做解决,以及这些事情是如何影响到了业务。我们把这样的一个从基础架构的事件的发生到对业务的影响,以及实现我们整个业务管理的目标,我们把它分解为6个步骤,或者是叫做6大方面可能会更合适。第一部分是监控,监控所要实施的主要的目标是如何去获知基础架构现在发生了什么。第二个步骤是体验,我除了从监控的这个角度上能够获取这样的数据之外,我还要知道我们现在的一些应用的最终的用户,他对整个应用的体验是什么,很有可能从基础架构看网络、主机等设备都是好的,但是有一个问题,用户访问这个业务访问不了,或者是非常慢。第二个来讲,我们怎么样

23、看最终用户或者是IT的应用,我们的业务的用户他的体现。第三个部分是他们之间的依赖关系,大家回忆一下我讲的例子,从简单的CPU超标的事件,到我们整个业务详细的信息。这块来讲,如果没有跟业务依赖关系的关联我们是没有办法实现的。这部分来讲,有一部分非常重要的是依赖关系,除了支持可视化的分析之外,还在支持其他方面。第四大方面非常重要的是业务指标,哪些业务指标是被关注的,以及IT的基础架构的事件问题,IT对业务指标的影响是什么。第五个非常大的方面是视图,在视图里面分为两种,一种是面向业务的,另外一种是从IT的运维来看的运维的视图。第六步我们叫做行动,包括我们在刚才讲的三化当中,非常重要的最后的一化自动化

24、。我对这6个步骤给大家做一个更详尽地分解。第一个步骤是监视我们服务的基础架构,这个服务架构内容里面就包括我们事件从终端用户来讲,安全、网络等等过来的基础事件。最终通过服务架构监控可以看到我们右边的视图。大家看到我右边的视图服务模型已经出来了,这块对基础架构的监控你所能够看到的只是右上角视图的左边的部分,只能看到发生了什么,不能准确获知发生的信息跟我们整个业务之间的关系是什么。现在大家认为业务模型这部分对大家来讲是不可见的。第二个步骤来讲,衡量用户体验,主动的探测和主动的用户体现仿真去获得我们用户体现的数据。第三个步骤来讲,看到整个服务的依赖关系,第一个步骤我们只是看到了这张图的左边的这部分,I

25、T的基础架构发生了什么,而这张,我们做到这样的步骤来讲,实际上整个基础架构之间的关系,不仅仅是物理连接关系。而是他们怎么样支撑我们的应用关系、业务关系,我们可以建立出这样的服务模型。当我们建立这样的服务模型之后,我们的基础架构发生的事情就可以跟我们的服务模型进行匹配了。第四个步骤当中,我们去看跟我们业务相关的关键的性能的指标,在查看这些关键性能指标里面,我需要强调的是一个是我们从IT的角度看我们的应能指标,还要从业务来看,包括吞吐量。有一些用户做了这样的工作,包括当前的IT基础架构的性能指标,跟用户的数据基础指标像吞吐量、在线交易量,放在一起做分析,去看IT基础架构的指标是怎么样对用户的业务指

26、标产生影响的。第五个方面来讲,我们这些数据都有了,我们怎么样通过非常好的可视化的方法来提供我们服务的视图。在这里给了大家一些服务视图的事例,这是不同层次的视图。我们看到了全局的视图,告诉了我们整个子系统的状态和应用的状态。每个子系统内部的状态,像这样的一些视图来讲,更偏向于IT运维的视图。我当前的事件是什么,以及当前的事件对我们应用的影响情况是什么。这是基于服务的一些视图,我们IT环境当中帮助台的情况,服务水平的合规情况,以及详细的整个接触架构关系的报表情况等等。这是最后一步实施自动化,我需要再强调一下,自动化不仅仅是我们很容易去理解的自动部署、自动容量、自动探测,实际上自动化是说在我们整个I

27、T服务管理当中,是贯穿始终的,你会发现会贯穿于各个部门的,在其他五个方面都会出现。最后,可能我就再做一下总结,刚才我们主要是从三个层面,首先介绍了IBM服务管理的三个方面,还有刚才讲到的可视化、可控化、自动化等等三个方面。还有一部分,从整个基础架构管理到IT服务管理渐进的层次来讲,给大家介绍了在IT服务管理的一些实践,大家有其他的问题,在会议之后可以进行进一步地沟通。非常感谢大家的宝贵时间,谢谢。劉靜:非常榮幸今天有機會在這裡跟大傢一起探討一IT服務管理的實踐。實際上從IT服務管理的發展來看,大傢在做各種各樣的實踐,包括在建設按照ITLI的最佳實際,結合國內的實際情況來建設相關的相關管理流程,

28、而且不斷地使這樣的管理流程走向更加成熟。即使是這樣,我們仍然發現,好象持續在做這些管理流程的一些實施的話,在我們整個的過程當中仍然碰到瞭困難。比如說我們很難看到一個跟業務相關的視圖,比如說我們說在支持IT業務的運維和發展,我們怎麼樣看到跟IT業務相關視圖以及業務的可持續化,是我們很難解決的問題。如何利用自動化的驅動來降低整個的費用,提高服務的提供和整個服務的質量,保證快速地實施。以及面臨現在不管是應用環境還是IT自身的架構建設也好,我們面臨瞭不斷更新的技術和服務的發展。在面臨這樣的服務和技術發展的時候,如何進行創新?我們今天的內容就IT服務管理的一些實踐跟大傢交流。首先,這是大傢都很熟悉的Ga

29、rtner關於IT成熟度的模型,從目前我們國內的用戶來講,大傢都處在一些被動式的管理,有一部分用戶在於主動式或者是面向服務的管理,或者是第二層次、第三層次做瞭工作。比如說主動的監控,嘗試做一些容量和能力的規劃方面的工作。我們來看,從我們最終的IT的管理怎麼樣去面向IT服務的管理來講的,IBM的服務管理提出三個主要的思想,第一個主要的思想是怎麼樣實現一個可視化,這是我們在一開始談到的問題。如何能夠把IT跟我們業務之間的關系,以及對業務之間的支持,我們能夠用可視化的方式看到,能夠評估、測量,並且能夠支持我們日常的運維。第二個方面,我們把它總結為可控化,我們怎麼樣去瞭解我們現在所有的IT的資產,在這

30、些IT的資產如何來支持我們日常的運維,以及IT的資產我們如何去對它做一個更重復地使用,和對他進行一個更高效地利用,從而減輕我們的成本和提高我們的服務質量,並且降低在管理過程當中的風險。第三個問題是自動化,在自動化這點上,我們不是說要有什麼樣的產品,或者是在IT管理建設服務某一個點上實施自動化,幫助我們提高效率。從自動化來講,不管是可視化、可控化都貫穿在整個管理的過程當中。自動化我們提供流程的自動化怎麼實現,包括實現運維我們做自動化的部署、監控,在整個監控的方面,怎麼樣去實施自動化,來提高我們的生產效率。首先從可視化這個目標來講,我們需要去洞察業務,我們需要去瞭解,現在的業務的狀態是什麼,我們的

31、IT是怎麼樣去支持我們的業務的,直接能夠從我們的IT業務的支持上面看到可交付的目標。從我們的解決方案來講,我們需要提供實時的視圖和實時的dashboard,包括我們從業務合規、運維整個瞭解現在資產的管理所需要的可用性,以及這個可用性是不是很好地實現瞭我們的業務目標。在我們的右邊是給瞭大傢一些可視化的視圖,後面我們就這些可視化的內容進行展開溝通。第二個部門可控化,剛才已經談到瞭主要的核心思想是我們怎麼樣能夠提供一個完善的控制,能夠去瞭解到我們的現有的IT資產以及如何對我們的IT資產進行優化的利用。在講到可控化這部分,大傢會想是不是講我們IT資產的管理,以及從ITLI來講,更側重於CMDB這樣的管

32、理,從後面整個運維的角度來講,可控化對IT資產、CMDB的管理,不是在資產本身提供一個高效地利用率、管控也好,實際上對我們的運維過程怎麼樣實現可視化,怎麼樣把紛繁復雜的基礎架構的事件、問題能夠可視化變成業務影響。它在這部分來講,提供瞭非常好的業務的技術支持。最後是自動化,將敏捷性融入到我們的運維當中,幫助我們快速地實現運維的目標。剛才我們從IBM服務管理三個比較核心的思想和觀點,從我們的實踐來講,大傢會想到我們現在面臨的是非常復雜的IT的架構。在我們這張圖下面,大傢可能看到的是在我們下面的這部分,不管是從我們的主機、開放平臺、應用、網絡、語音、傳輸等等整個IT的基礎架構。這是我們現在面臨的,從

33、IT的視角看。從業務視角看的話,我所需要的是一個業務的交付,從銀行業來看,我需要的是網上銀行能夠提供我們所承諾的服務級別,能夠在我們用戶所期望,業務目標所定義的一些響應時間也好,是在指標之內對我們廣大的用戶,是對業務的用戶提供服務。我們現在IT和業務之間,我們怎麼樣來建立這種聯系,以及怎麼樣實現運維,這是我們給出的一個實踐的模型。在這樣實踐的模型當中,主要的部分是三個層次,在金字塔模型最上端,是我們的業務所要實施的整個業務的管理。在中間的層次是一個會聚的運維的管理。下面這個層次來講,是我們熟悉地傳統IT的管理領域。我們定義為一個技術的專業領域的管理,包括對應用、網絡、主機、安全、開放平臺、存儲

34、等等的各個支持我們的IT基礎架構的整個環境的各個專業領域的管理。我分瞭兩部分探討,一部分我們會側重於在講,根據我們現在運維的環境,我們怎麼樣在基礎架構的層次做技術領域的專業的管理。另外一部分,探討怎麼樣面向業務服務的管理。首先,我們從大傢非常熟悉的領域開始,面向一個專業技術領域的管理。當我們回到各個專業技術領域,回到網絡、應用、存儲等等這些領域的時候,我們來看這個領域當中,我們的運維目標是什麼。可能作為一個網絡部門的領導、員工來講,我們似乎是說很難去把我們的網絡跟業務之間做一個非常好的很一致、完全的對應。因為網絡支持著很多的應用的運行,和我們商業的運行,在這樣的情況下,我們從我們的運維目標來看

35、,作為我們系統專業的領域,我們的運維目標是什麼。在這個地方,我們總結瞭兩個方面的運維目標。首先,運維目標是要保證我們的系統可用性。一談到可用性,大傢會談到,我們怎麼樣去實現一個高可用性,我的可用性的能力是什麼。這個地方我們定義是我們系統的可用性目標是滿足我們的業務要求的。其次從運維的角度來講,我們有非常重要的目標是在整個系統的生命周期的建設過程當中,如何利用這樣科學的數據的分析,來支持整個系統的持續地發展。這是從技術的專業領域來講的運維目標,從現在不管是國內、國外,大傢在技術領域的專業的管理領域裡面,大傢的一些成功的實踐來講,我們主要分為下面四個方面。第一個方面我們去提供瞭一個可視化地監控,或

36、者說我們提供瞭可視化的視圖。第二個方面是提供一個很堅固的事件基礎,這是非常核心的一部分。參考業務影響關系定義鼓掌分類或級別,以及我們要采取什麼措施盡量減輕或者是消除、預防這些能帶來的影響。第三個方面是對所專註的這個基礎架構領域,它的運行的數據全面的分析,這些分析是我們要定義哪些我們的KPI。這些KPI它的運行的績效是怎麼支撐業務的。第四個是建立流程化的管理平臺,支持運維靈活的要求。從這個層次來講,包括我們跟國內很多的用戶來做一些運維方面的工作,在建設的過程當中有很深的體會,有可能你建瞭非常好的網絡管理系統、主機管理系統、存儲管理系統或者是其他基礎架構的管理子系統。但是會發現,這個系統很難在良性

37、的環境下做持續地更新地滿足我們的運維要求。實際上這方面通常存在的問題是我們隻是構建這個技術平臺,我們並沒有去對如何讓這個技術平臺保證我們的業務目標,實現我們的IT運維目標這方面做相關的制度、流程化的支持,去使這個技術平臺如何最大限度地去發揮它的作用。首先是建立一個堅固的事件基礎,從技術平臺來講,我們是怎麼樣能夠去眾多的基礎架構事件當中進行高效地處理。根據我們的經驗,在一個類似於一個省的規模的網絡當中,即使僅僅是網絡的一個專業領域一天的事件量,大概是在幾十萬條左右。這是我們很多用戶一起建設當中做的統計數據,如何讓這幾十萬條的數據發生之後,實際上真正影響到運維、影響到業務事件的氛圍並不多。我們怎麼

38、樣在這些事件當中抽取出對我們業務真正有影響的事件,並對其進行處理。所以這方面我們特別強調如何建立一個堅固事件的基礎,在一個平臺上,能夠以高效地方式對它進行處理。在建立事件基礎,事件量非常大,如果所有的事件都原始移過來都不行,這樣的話,許多進行事件的自動壓縮。我想強調,這樣的壓縮是不是可以從企業的需求出發做定制,不是說把原來的丟掉瞭進行壓縮。建立堅固事件的基礎還有一部分是我們不需要說某個交換機的某個交換端口宕瞭,我們會進行什麼影響,我們從事件分析、關聯機制也好,我們需要從最基礎的IT事件告訴我們。比如說是某一個營業部發生瞭中斷,這樣的信息會比某一個斷口出現瞭端口宕這樣的信息。不管是對於IT來講,

39、怎麼判斷優先級,以及業務來講,都要有可視化。從我們的目標來講,盡可能地采集更多的事件,但是從紛繁復雜的事件進行分析,告訴我們真正跟業務相關聯的事件是什麼,這些跟業務關聯產生的事件,才是我們運維過程當中需要核心地處理和解決的問題。這是第一個方面建立一個堅固的事件基礎。第二個方面,我們怎麼樣從我們各個基礎當中做性能的分析支持我們的性能管理、後續的容量規劃能力上的管理。這個地方舉瞭兩個例子,一個是基於基線的性能分析,不是每一個單次、單點的分析,而是從我們整個的業務歷史表現看。比如說金融業來講,像網銀的表現,每周一到星期天,以及每天的Array點到5點,整個的流量變化趨勢是不一樣的。我們通過基線的分析

40、,我們怎麼樣去獲得優化現在系統的容量,以及現在的系統容量是否能夠支持業務不斷增長的需要。在性能分析這部分,我們要進行一個預測,我們要從單獨的組件,和整個業務應用組件的組合裡面,我們分析現在提供的容量和性能是不是能夠滿足我們整個業務增長的需要。然後大概會在什麼點的時候,如果當我們的業務增長到什麼規模,我現在的IT基礎架構要進行擴容和升級,這樣的話,我們做預先的計劃,避免當業務的快速增長,而使我們的IT系統造成對業務增長的瓶頸。第三個實踐方面來講,怎麼樣去瞭解我們整個的IT的資產包括我們的網絡、應用、應用之間的關系等等,包括網絡之間的關系,從而對我們整個的IT資產實施控制,並為優化地使用提供一個基

41、礎。這是一些例子,關於IT的資產的報表。我們要去瞭解我們當前的使用率是多少,是不是有閑置的,是不是我們的容量。這部分的話,我們會去協同我們剛才談到的容量的分析,為我們規劃未來IT的服務對業務的支撐能力提供基礎。第四個方面,從子系統的管理來講,是怎麼樣建立一個流程化的平臺,使大傢日常運維的工作可以在流程化的平臺上來進行一個可效的實施,所有的運維人員都會定義他的運維角色和運維的職責,最後通過流程化的平臺去履行他運維上的一些要求。這是一些視圖的呈現,下面還有一個視圖。在這個地方,前面我們的演講裡面也聽到瞭我們怎麼樣對一些績效等等進行考量,現在我們看到的視圖,整個故障發生持續狀態的實時的視圖。我們再回

42、憶一下剛才談到金字塔的服務模型,剛才我們講瞭最基礎的一部分,也就是說整個IT專業領域的管理,以及在這個專業領域管理上的運維目標。有兩點,一個是怎麼樣保證整個系統的可控性。第二個是對系統進行評估和分析規劃未來的發展。另一方面除瞭兩個運維目標來講,跟大傢分享瞭一些在國內的建設當中,我們比較多的四個方面的實踐,建立一個可視化的視圖,以及建立一個非常好的事件的基礎,進行性能和容量的分析。最後是說建立流程化的平臺保證運維可以在一個企業所要求的一些制度的環境下面進行非常良好地運行。在後面這部分內容裡面,我們會講我們上面的兩層。剛才這部分,我們更多地去看怎麼樣做基礎架構的運維,後面來講,我們偏重於怎麼樣把基

43、礎架構的運維跟我們的業務目標來進行結合,最終為我們的業務來服務。現在大傢看到的這張總結的片子,是說我們對整個會聚管理,就剛才中間的這層,實際上當我在講基礎架構的各個專業子系統的管理的時候,大傢有一些疑問瞭,網絡隻看網絡的,系統隻看系統的,應用隻看應用的,存儲隻看存儲的,誰來看業務,誰來對整個的業務目標負責,以及保證IT運維真正是實現業務目標的,所以我們要做後面的事情。第一步我們所談到的是做一個會聚的運維管理,在這個管理裡面,不管是網絡的、存儲的、主機的開放平臺、系統、應用、語音等等各個環境子系統的數據,實際上是需要送到會聚的平臺,由會聚的平臺進行處理,最終實現業務目標建立我們的服務模型來服務。

44、在這個會聚的平臺裡面,我們在這個地方也總結瞭它的一些運維目標。這個時候,我們要做集中的IT運維管理,不再是網絡看網絡、系統看系統,網絡和系統的運維人員在整個體系當中變成瞭二線,在一線來講,我們要看整個IT的狀態,以及對當前的IT的運維來進行一個快速響應。在這方面來講,我們也總結瞭一些成功的建設實踐,是建立一個整合的事件平臺,這個時候不是面向專業的子領域的,是面向整個基礎架構的整合平臺,以及如何進行一些可視化的方式來去看現在的IT基礎架構的狀態,以及現在業務的運行狀態。基於我們現在所談到的一個剛才講瞭基礎架構自身的管理問題,會聚的運維平臺,我們最終是要實現一個更高的目標是怎麼樣進行一個業務服務的

45、管理。在這個地方來講,我們現在看到這張圖跟大傢看到基礎架構管理的圖非常類似。最下面是我們整個基礎架構的內容,在基礎架構的內容來講,我們要通過一些基礎手段對整個數據進行采集,包括依賴關系的采集、事件性能的采集、數據的采集,其他第三方的數據的采集。不管是從業務部門看可視化的視圖,還是業務部門來看關註的不僅僅是我們IT提供的指標,可能還包括業務的基礎指標,比如說當前的環境下,某一個核心的業務吞吐量是什麼。所以大傢會看到,我們在整個體系管理的時候,大傢可以認為,前面兩部分是談IT的數據,這邊的數據不僅僅是來自IT系統自身的數據,還會來自於業務系統的數據。這些數據搜集到之後,我們需要對他們進行服務關聯和

46、服務化。我們怎麼樣建立可視化的視圖,它的一些詳細的情況是什麼,業務人員所關註的業務的指標、當前的狀態是什麼,IT運維的主管領導所關心的運維指標是什麼,以及詳細的運維人員關註的運維信息又是什麼,我們怎麼樣去獲得,怎麼樣去處理,最終保證我們去實現我們的服務管理的最終的目標。在這裡,我給瞭大傢一個事例,這個事例看起來是從一個事件的角度我們嘗試去關註一個基礎架構的問題,怎麼樣跟我們的業務進行關聯的。在這個事例當中,我們看到最上面的事件,從基礎架構搜集過來的事件,是發生在一個服務器的名字叫做ERP-APP-01是利用率超高的事件,這是原始的。我們忽略瞭中間很多傳統的事件,看到最後,可視化的系統告訴瞭我們

47、什麼樣的信息。他告訴我們CPU使用率超高的事件,導致瞭應用服務器速度的下降,而應用服務器是ERP的關鍵組件,它又支持瞭應用,最後,實際上還在告訴你一些結論,因為CPU應用服務的下降,導致超過瞭1個Min的損失,即使是這樣的事件。先不看對整個高層領導有影響,業務人員最後隻關註這一點,我的影響是什麼。但是對我們的IT運維人員來講,這樣的信息非常有意義。我們看到瞭這些信息我們怎麼做我們運維的優先級的劃分,我們肯定是能做出來的。這個PPT裡面講瞭怎麼樣從第一步到我們現在所看到的業務信息的一步中間的一些過程,因為時間的關系不詳細做解釋,怎麼樣做規范化、豐富、怎麼樣從外部的數據當中獲得關聯,最終從一個簡單的信息告訴我們業務影響的關系,怎麼樣去做不是我們今天的重點,如果有機會以後希望能夠跟大傢做一些詳細地細節地溝通。我們實際上已經從一個事例的角度來看瞭一下IT的基礎架構跟業務之間關聯關系地一角。我們怎麼樣來建立一個IT的基礎架構跟IT之間的關聯,首先要瞭解一件事情,現在大傢看到左下角基礎架構正在發生什麼事情,我們知道發生瞭什麼事情之後,我們需要采取什麼樣的行動做解決,以及這些事情是如何影響到瞭業務。我們把這樣的一個從基礎架構的事件的發生到對業務的影響,以及實現我們整個業務管理的目標,我們把它分解為6個步驟,或

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论