云数据中心整体规划方案_第1页
云数据中心整体规划方案_第2页
云数据中心整体规划方案_第3页
云数据中心整体规划方案_第4页
云数据中心整体规划方案_第5页
已阅读5页,还剩106页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

云数据中心整体规划方案云数据中心整体规划方案议程第1部分云数据中心发展趋势1.1数据中心发展趋势1.2云数据中心的必要性和成熟度台阶(模型)1.3云数据中心对基础架构和运营能力的要求概述第2部分云数据中心对运营管理能力的要求第3部分国外数据中心案例分享

第4部分国内数据中心案例分享第5部分成熟度分析及实施路线图议程第1部分云数据中心发展趋势2013年-2014数据中心行业趋势分析2013年的数据中心技术体现出两大动向:“硬件重构”和“软件定义”。硬件重构解决了资源“Scale”的问题,软件定义数据中心则是为了“Auto”的目标。AWS从IBM手上以更高的要价赢得CIA之战中,可以赢在“Scale”和“Auto”。在这一过程中,开始出现两个泾渭分明的阵营:以Google、Facebook以及国内BAT为代表的互联网企业发起了“硬件重构”运动,列如OCP和天蝎项目;另外则是以传统企业市场为主,希望以“软件定义”的方式整合数据中心。两个阵营都有同样的目标:希望通过重新整合来解决数据中心的规模扩展和自动化运维,降低固定资产投资规模和高昂的运营成本。趋势OCP项目:Facebook基于俄勒冈州的新型数据中心成果,推动了OCP项目的成立国外互联网企业传统企业:运营商、金融行业和大型央企等在前几年虚拟化基础上,向“资源池”大踏步迈进传统企业天蝎项目:

由“BAT”

(百度、阿里

巴巴和腾讯)

三家推动的天

蝎项目推出整

机柜服务器方

案。百度的

“CloudRack

”可以看做天

蝎1.0进化版国内互联网企业2013年-2014数据中心行业趋势分析2013年的数据中心软件定义数据中心概述软件定义的数据中心(SDDC)是一种针对IT基础设施一种架构方法,扩展虚拟化的概念,抽象,资源池化和自动化所有数据中心的资源和服务,实现IT即服务。在软件定义的数据中心,“计算,存储,网络,安全和可用性服务被汇集,以软件交付,并通过智能的,策略驱动的软件进行管理。软件定义的数据中心通常被认为作为弹性,高效的云计算的必要基础设施基础和支撑。定义软件定义数据中心由虚拟化发展而来,概念源于软件定义网络(SDN),目前还处于初期阶段。软件定义的数据中心在2012年由当时的VMware首席技术官史蒂夫Herrod提出,并成为当年《计算机经销商新闻》2012年度十大数据中心故事。起源许多厂商,包括VMware都在积极开发软件定义数据中心的方法论其他厂商,正在开发实现SDDC的组件和标准,如Cisco,Ctrix,Dell,HP,IBM,BMC等.大型服务提供商,如亚马逊能够通过自动化带来的效率受益,被认为是最有可能全面部署软件定义的数据中心的组织发展软件定义的数据中心,包含针对三类资源的定义:计算资源(SDC)网络资源(SDN)存储资源(SDS)和,三类非功能性需求:管理自动化高度灵活性业务弹性和快速恢复特征注:摘自《维基百科》软件定义数据中心概述软件定义的数据中心(SDDC)是一种针对云数据中心与传统数据中心传统数据中心:各类信息化资源在设计阶段已经确定交付形态的运营方式云化数据中心:从X86服务器虚拟化开始,到存储虚拟化和网络虚拟化等,部分资源在运行阶段通过“云资源管理平台”以“软件定义”的方式进行交付的运营方式云数据中心:所有资源在运行阶段通过“云资源管理平台”以“软件定义”的方式进行交付的运营方式云数据中心vs传统数据中心云数据中心指以软件定义方式提供基础架构设施服务,和以SaaS方式提供应用及数据服务的新型数据中心。在很长一段时间内,纯粹的“云数据中心”在传统企业内将不会出现,但部分领域以“软件定义”方式或“SaaS”方式交付服务的“云化数据中心”将成为未来若干年的主流形态。定义云数据中心与传统数据中心云数据中心vs传统数据中心云数据基础架构能力要素分析–机柜

机架基础架构的演变:从左侧的共享电源、散热、管理(如天蝎V1.0),到右侧的全模块化资源(池化计算、池化内存、存储)。百度CloudRack接近中间的状态,但互联技术仍然是传统的以太网。天蝎项目中对机柜提出了前端全维护和后端供电的模式,对大规模机柜管理提供了很大的便捷性。计算资源虚拟化技术传统数据中心机柜只是服务器的载体,而在云数据中心以目前的态势分析,越来越多的互联网企业会采用机柜封装网络、存储和服务器资源,以整体的形式交付计算资源。国外互联网企业甚至更为激进的把CPU和内存解耦,直接存放在机柜内。国内互联网公司则相对保守的选择中间道路。对于传统企业,国内互联网企业的道路值得参考。概述基础架构能力要素分析–机柜计算资源虚拟化技术传统数据中心基础架构能力要素分析–计算资源

根据定义,具有两种类型的Hypervisor:Type1和Type2。其中,Type1被称为Baremetal裸金属架构,而Type2被称为Hosted寄居机构。除此之外,HardwarePartitioning硬件分区方式的作用也很想一个Hypervisor,其实它就是运行在Firmware层次的Hypervisor,提供了硬件分割资源的虚拟化方式。计算资源虚拟化技术计算资源的虚拟化存在两个主要方向,一个是互联网企业为主的“多合一”技术,是为了解决海量的数据和海量的访问需求而把大量X86服务器整合起来提供服务;另一个是传统企业为主的“一拆多”技术,主要是为了提高资源利用率。概述基础架构能力要素分析–计算资源计算资源虚拟化技术计算资源基础架构能力要素分析–网络资源

时下数据中心的趋势有两个:网络虚拟化和软件定义网络(SDN)。网络虚拟化和软件定义网络都需要对数据中心的网络架构做出新的要求,推动硬件和软件的发展。基于CISCO大二层网络环境下,通过扩展IS-IS路由协议实现二层路由,虚机迁移时,服务配置随即更新,保证了虚机迁移前后IP与MAC地址保持一致。通过大二层本身协议TTL值可以有效避免环路。通过跨设备链路捆绑支持,实现链路负载功能。计算虚拟化对网络提出了新的挑战课题:

由于云计算IaaS设计理念是把基础架构资源集中形成“池”,通过动态调度和装配给应用系统提供支持,因此云计算引入对网络环境提出了新的需求和挑战。基础架构能力要素分析–网络资源时下数据中心的趋基础架构能力要素分析–存储资源EMC的ViPR2013年5月,EMC以软件定义存储作为主体,借用“SDN”的概念诠释了第一个冠以“SDS”名号的产品。HP的VSA

惠普的VSA来自2008年被HP公司收购的iSCSI厂商,是业内较早在传统企业领域实现“SDS”的存储方案,是目前全球许可证出货量最大的虚拟化存储产品IBM的SVC

SVC全称“SANVolumeController”,是一款“带内”存储虚拟化产品。主流存储厂商Vmware的SDS2014年上半年预计发布其第一版vSAN产品,正在规划VVOL产品。微软

的SDS微软推出了StorageSpace产品,迈出了其企业级存储虚拟化的尝试Nutanix的SDS

作为硅谷新兴的创业型企业,Nutanix推出的“NX”系列产品,较好符合机架安装的“SDS”。挑战者GFS/HDFS和AmazonS3基于Google实践而开源化后的架构Hadoop,是一个分布式计算框架,其中HDFS作为分布式文件系统是其核心组件之一。

Amazon的S3是除了Google之外的另一个成功实现的云计算框架。这两家互联网在云计算领域的先行者都通过自身实践提出了较为成功的、目前被广泛接受的分布式存储体系。互联网相比互联网企业积极实践的分布式存储方案,主流IT厂商在企业网领域通过把各类存储设施整合后通过“软件定义”的方式提供统一的存储服务的“融合存储”概念。其中,惠普处于相对领先地位,而Vmware和微软的“SDS”刚起步,EMC也要考虑现有业务仍处于收购相关公司积累“软实力”的阶段。所以“SDS”相比“SDC”存在较大的成熟度差距,还有待观察。概述基础架构能力要素分析–存储资源主流存储厂商挑战者互联网相第1部分云数据中心发展趋势1.1数据中心发展趋势1.2云数据中心的必要性和成熟度台阶1.3云数据中心对基础架构和运营能力的要求概述第2部分云数据中心对运营管理能力的要求

第3部分国外数据中心案例分享

第4部分国内数据中心案例分享第5部分成熟度分析及实施路线图议程第1部分云数据中心发展趋势议程为什么要向云数据中心转型云数据中心是软硬件资源的集合,包括各类主机、存储、网络、设备和中间件、数据库等平台软件,提供了动态供应资源的能力,是企业级IT基础设施崭新的应用形式,在云计算环境下是推动基础架构转型的重要推手之一,对于加强资源管控、实现成本领先具有重要意义。概述云数据中心建设总体目标降低IT总拥有成本资源池模式相比传统模式,资源利用率可提高3倍以上,整体IT总成本可降低30%;增强业务可用性总成本降低的前提下,资源池中业务稳定性与可靠性可相当于甚至超过高端设备能够达到的水平;提升业务响应能力提高研发测试效率,缩短资源响应周期,加快业务响应速度;降低运维成本运维门槛的降低和运维水平的提升,使有限的人力资源可更多的投入到业务创新中。提升业务响应能力增强业务可用性降低运维成本降低IT总拥有成本构建具备柔性、弹性特征的IT基础设施架构为什么要向云数据中心转型云数据中心是软硬件资源的集合,包括各云数据中心成熟度模型通过每个组成部分的每个能力要素的成熟度情况,可以对云数据中心的整体成熟度进行综合分析。结合云计算相关技术的发展和业界实践经验,可将整体成熟度分解为以下五个台阶。成熟度模型云数据中心成熟度模型通过每个组成部分的每个能力要素的成熟度情云数据中心成熟度评估指标体系云数据中心成熟度的KPI分为宏观指标和微观指标两大类,共七项。宏观指标主要用来衡量和体现绩效和成本能力,关注快速交付和稳定运行能力;微观指标则主要用来衡量各类技术要素的实现水平。成熟度KPI资源池化比例:资源池内设备台数占数据中心总设备台数的比例;服务化比例:资源池内,通过资源池服务目录获得的资源数量占所有获得资源数量的比例;可被调度资源比例:资源池内,可被调度资源数量占整体资源数量的比例;X86虚拟化比例:虚拟化的CPU数量占资源池内所有服务器CPU数量的比例;标准化比例:标准化环境占整体环境的比例;自动装配比例:资源池内,可被自动装配设备数量占整体设备数量的比例;资源弹性比例:资源池内,所有应用在平均值下所需的资源总量占所有应用在峰值情况下所需资源总量的比例。证券公司证券公司云数据中心成熟度评估指标体系云数据中心成熟度的KPI分为宏观国内云数据中心成熟度对标通过对业界先进资源池建设案例的调研分析,结合KPI评估,得到各资源池的成熟度台阶,具体如下图所示。成熟度模型保险公司南基地国网设计目标移动分公司国有银行国网当前国内云数据中心成熟度对标通过对业界先进资源池建设案例的调研分云数据中心的投资回报分析根据对某证券、电信设备制造商、移动某省分公司、华为和四大国有银行之一进行分析,云数据中心建设可以从以下几个方面获益。概述平均节省33%硬件投资服务器硬件节省平均节省50%的X86机房空间,折合成30%机房总空间机房空间节省平均节省50%电力费用运行费用(电力)每千台服务器池化后节省7个人员编制运维人工节省80%池化后被盘活,每年15%的新应用,12%左右退役应用,其所占资源已不再重复投资提高资源利用率降低设备闲置率云数据中心的投资回报分析根据对某证券、电信设备制造商、移动某议程第1部分云数据中心发展趋势1.1数据中心发展趋势1.2云数据中心的必要性和成熟度台阶(模型)1.3云数据中心对基础架构和运营能力的要求概述第2部分云数据中心对运营管理能力的要求

第3部分国外数据中心案例分享

第4部分国内数据中心案例分享第5部分成熟度分析及实施路线图议程第1部分云数据中心发展趋势符合“软件定义”数据中心的功能框架在传统企业环境下,“软件定义”的云数据中心(或者“云化”数据中心)需要具备三大核心能力:基础架构的“软件定义”能力,符合“软件定义”能力的数据中心运营管理能力和满足“软件定义”的安全管理能力。本节针对这三个方面的核心能力相比传统数据中心提供一个概述,后面的章节将主要围绕着“运营管理能力”展开。概述基础架构能力

主要落实在各类资源的虚拟化能力之上,同时核心网络架构能够支持动态调度。运营管理能力

“资源和服务封装”能力是云数据中心所特有的管理能力,同时CMDB和“资源操作”需要匹配虚拟化的动态环境。其他部分跟传统需求一致。安全管理能力

云数据中心在安全领域存在较大变化,主要是动态网络环境和动态资源环境下对传统固定边界的安全控制手段提出了新的挑战。适合传统企业“软件定义数据中心”功能框架异构环境封装层计算资源存储资源网络虚拟化资源网络基础架构机房环境设施资源服务封装层资源操作管理层日常运维管理层信息化运营管理层安全与合规管理层用户服务门户运营管理门户信息化统一访问层运营管理能力基础架构能力符合“软件定义”数据中心的功能框架在传统企业环境下,“软件定“软件定义”数据中心–计算资源要素分析计算资源是“软件定义”数据中心的核心构成要素。传统企业与互联网企业最大差异体现在两个方面,其一是规模效应远远不如互联网动辄10万台的服务器数量,其二是技术力量的投入远少于互联网企业,且有限资源更多需要向业务系统和数据服务等领域倾斜。所以传统企业在“计算资源”领域更多的需要依靠厂商力量,但技术路线选择上又要避免被厂商所绑定概述硬件重构:借鉴“天蝎项目”提出的整机架服务器构造方式,建立企业级的X86资源池硬件设施虚拟化层:采用成熟厂商提供的虚拟化方案,列如X86领域的VMware,小型机领域的“微分区”和vPar

等X86物理服务器:基于企业应用的自身特点,需要保留少量

X86物理服务器,并通过异构环境封装层封装成单一资源池,对上层应用和用户提供统一的资源服务供给公有云:需要拥有整合“公有云”供给的能力“软件定义数据中心”的计算资源异构环境封装层计算资源存储资源网络虚拟化资源网络基础架构机房环境设施资源服务封装层资源操作管理层日常运维管理层信息化运营管理层安全与合规管理层用户服务门户运营管理门户信息化统一访问层“软件定义”数据中心–计算资源要素分析计算资源是“软件定“软件定义”数据中心–存储资源要素分析存储资源相比计算资源离“软件定义”还存在相当的差距,只能在现有产品基础上从“异构环境封装层”实现对各类存储的封装和服务化工作。同时对于OLAP类的应用可以适当考虑基于Hadoop技术的“分布式存储”的尝试。概述X86虚拟化池:跟踪Vmware的技术路线,逐步向vSAN和VVOL方向靠拢。传统中、高端存储:跟踪EMC和HP的最新存储虚拟化技术的进展,同时在现有存储环境中发挥“云平台”的异构环境封装能力OLAP应用和大数据:建议考虑基于Hadoop技术框架,尝试大数据理念下的“分布式”存储方案的落地实现。“软件定义数据中心”的存储资源异构环境封装层计算资源存储资源网络虚拟化资源网络基础架构机房环境设施资源服务封装层资源操作管理层日常运维管理层信息化运营管理层安全与合规管理层用户服务门户运营管理门户信息化统一访问层“软件定义”数据中心–存储资源要素分析存储资源相比计算资“软件定义”数据中心–网络资源要素分析SDN是“软件定义”数据中心概念的启蒙者,但SDN在目前还处于初期阶段,技术成熟度还有待验证,同时大量现有网络设施投资如何在SDN环境下得到保护依然是个很大的问题。所以在传统企业领域,网络大二层和网络设备虚拟化、配置自动化等手段不失为当前阶段的可选项。概述网络基础架构:如果需要实现应用与基础架构的真正松耦合,在运行阶段根据应用系统对资源的需求进行动态分配,且虚拟化池的宿主机数量超过200台规模,则需要考虑网络大二层的改造。如果只是现有应用环境的虚拟化,或者说服务器、存储设备等事先放置在固定的VLAN中,则无需考虑网络大二层的改造。网络虚拟化资源:通过网络虚拟化能力的实现,可以提供虚拟防火墙、动态VLAN划分、网络设备动态设置等功能“软件定义数据中心”的网络资源异构环境封装层计算资源存储资源网络虚拟化资源网络基础架构机房环境设施资源服务封装层资源操作管理层日常运维管理层信息化运营管理层安全与合规管理层用户服务门户运营管理门户信息化统一访问层“软件定义”数据中心–网络资源要素分析SDN是“软件定“软件定义”数据中心–运营管理能力要素分析在“软件定义”数据中心环境下,运营管理能力的变化主要体现在三个方面:一是资源服务和异构环境封装能力,二是配置信息(CMDB)如何适应动态环境,三是资源监控如何适应虚拟化环境的要求。在底层适应这三方面变化,并进行封装后,在运营管理层和运维管理层跟传统数据中心没有特别的区别。概述资源服务封装能力:把原来由技术专家所完成的安装部署工作自动化,然后以简单明了的方式提供服务界面给用户异构环境封装能力:把各类异构设施封装成“原子”服务,提供给服务封装层。列如,把所有存储资源封装成“块设备”等配置信息(CMDB):能够管理动态变化的虚拟化环境,并且管理资源与用户的供给关系资源监控和操作:能够适应虚拟化环境的监控要求,同时能够对虚拟化和物理环境进行操作“软件定义数据中心”的运营管理能力异构环境封装层计算资源存储资源网络虚拟化资源网络基础架构机房环境设施资源服务封装层资源操作管理层日常运维管理层信息化运营管理层安全与合规管理层用户服务门户运营管理门户信息化统一访问层“软件定义”数据中心–运营管理能力要素分析在“软件定义”BMC

提出的BSM框架服务成本管理财务规划及预算控制与合规供应商管理容量优化性能及可用性管理应用性能管理中间件管理数据库管理存储管理事件及影响管理仪表盘与分析服务目录蓝图服务模型CMDB/CMS策略应用自动化服务器自动化网络自动化桌面自动化企业排程及工作流自动化主机自动化自动发现和依赖关系数据库自动化需求及资源管理问题管理服务请求管理资产管理变更/发布管理服务水平管理事件管理知识管理调度云计算生命周期管理有一致性的部署业务服务——贯穿应用、数据库、虚拟化、服务器、网络及客户端请求、变更及支持业务服务管理IT需求、资源及预算确保合规与法规遵从发现、建模并设计服务以支持可具一致性服务交付联邦数据并调度工作流,以实现有效服务交付与高效运行主动预警式的发现IT问题并快速解决BMC提出的BSM框架服务成本管理财务规划及预算控制与议程第1部分云数据中心发展趋势第2部分云数据中心运营管理能力2.1运营管理能力2.2数据中心运维管理能力2.3资源与服务的封装能力2.4资源操作管理能力2.5信息化统一门户2.6运营管理的全局数据支撑能力……议程第1部分云数据中心发展趋势IT运营管理的核心命题–把IT当做业务来管理不管是传统数据中心还是云(化)数据中心,IT运营的核心命题都不会变。云(化)数据中心通过“软件定义”的方式在基础架构层面提供了“柔性”和“弹性”,使得资源利用率大大提升;同时通过自动化运维手段,降低运维成本。其核心价值在于以低于原来的成本提供同等质量的IT服务概述从信息技术的角度来说,各企业面临的问题其实是相同的:对信息技术的需求是什么?需要多少投资?和竞争对手相比,这些投资是合算的吗?……..IT投入并不能直接产生效益,而是通过IT服务支持经营决策和业务发展的途径产生效益,间接实现IT的产出。这种特点决定了:业务部门:用业务收入或者经营利润决定采购多少

IT服务(Chargeback平衡需求与投入的矛盾)IT运营部门:用IT服务水平、IT投入和行业标杆相比衡量IT绩效(平衡积分卡综合衡量IT运营水平)IT运营管理的核心命题–把IT当做业务来管理不管是IT运营管理的核心手段–“量化”管理让IT投入能够匹配IT的价值,避免IT变成一个“成本黑洞”,需要一套行之有效的过程管控体系和绩效衡量体系。很多企业都有管理制度和流程,也有很多指标,但结果往往并不理想,其原因在于缺乏匹配自身组织成熟度的实施路线图。概述有效的过程管控和绩效衡量体系运营管理体系的实施路线图IT运营管理的核心手段–“量化”管理让IT投入能够围绕服务指标和组织成熟度落实IT运营管理能力决策层管控层操作层服务质量和资源配置合理性执行力指标操作层OLAIT价值围绕业务价值、优化服务成本在有限IT投入基础上,通过指标化的衡量手段,把重要资源配置到最为重要的IT业务服务领域,保证成本的价值最大化服务目录体系框架服务标准与规范角色职责匹配成本核算与控制可视化管理、精准决策通过指标衡量的方式,影响团队的行为模式;通过指标衡量,决定人财物的合理配置固化规范、增强协同能力通过操作级衡量指标,提供对操作规范落地能力、团队协同能力和协同效率、专业运维单位的工作效率和工作效能的全面衡量发现问题、解决问题的能力通过“可用性管理”、“容量管理”、“容灾管理”和“安全管理”等四个管控流程,实现对日常运作过程的监测,保证过程可控、规范,同时从指标衡量角度推动持续优化容灾管理可用性管理容量管理需求管理安全管理架构管理开发测试管理变更发布管理配置管理操作管理监控管理故障管理问题管理知识管理围绕服务指标和组织成熟度落实IT运营管理能力决策层管控层服务目录是落实指标导向运营管理的基石服务目录包含业务服务目录和技术服务目录两部分概述业务服务目录涵盖向用户和各部门交付的支撑业务功能和流程的各项IT服务。技术服务目录包括实现业务服务所需的IT基础设施和相关支持、保障、管控服务。将所有日常运维活动按4个一级分类,30个二级分类、130个三级分类进行分类管理。服务目录是落实指标导向运营管理的基石服务目录包含业务服务目录基于服务目录的指标体系概述服务目录的作用:基于业务系统/维护团队来规范日常维护活动;对日常维护工作排程;管理业务系统的健康水平和风险水平;平衡管理成本和服务水平。需各团队的配合:以可用性管控、容量管控、灾备管控作为三条主线来关联运维活动。服务经理和流程经理肩负总体管控的角色。“一外三内”的架构:“一外”指业务层从服务用户和投资方的角度(运维中心之外)展现服务现状。“三内”在执行层、管控层、决策层三个层面体现服务管理体系。概述业务层基于业务系统,八大服务指标从四方面体现当前服务状况。操作层基层执行层。将所有日常运维活动按4个一级分类,30个二级分类、130个三级分类进行分类管理。管控层中层管控层。以可用性管控、容量管控、灾备管控这三条主线串起所有相关活动,形成三个管控维度。决策层从系统当前的风险度、成本水平、健康度三个方面解释当前服务水平的原因,为运维中心领导做决策提供信息支持。基于服务目录的指标体系概述服务目录的作用:基于业务系统/维护服务指标衡量框架在服务目录的设计阶段,实现了从SLA到OLA的指标分解,但对于这些指标在日常运维工作中如何使用,仍需要一个完整的体系,因此本节将主要来说明基于这些指标的体系框架及使用说明概述对SLA的衡量就好比一个人生病了,就会到医院看病,医生就会进行相应的检查,那这些检查的项目就是我们的OLA,至于要检查哪些项目是依据相应的病症而定,也就是SLA到OLA的分解,最终根据检查结果再对症下药,尽快恢复。对健康度和风险度的衡量就好比对一个人进行体检,检查是全面的,也就是说这个人还没有明显病症,但是通过日常全面检查及时发现可能存在的一些隐患,并采取相应的措施(可能需要药物治疗,可能是要主要锻炼身体),避免生病。对服务成本的衡量则是根据个人病史(病症及医生诊断结果)和体检结果进行汇总分析,并结合个人实际情况(例如经济状况,工作状况等)来决定如何进行改善,增强个人体质,保证不生病。服务指标衡量框架在服务目录的设计阶段,实现了从SLA到OLA服务指标衡量框架概述(续)针对8个SLA指标都已经定义了相应的计算公式,数据来源,同时对于每个应用服务的这个8个SLA指标也制定了不同的标准。通过系统或者报表的方式对SLA进行计算,并比较计算结果和既定标准。当某个SLA的结果超出标准要求时,就需要基于SLA到OLA的分解进一步分析潜在的原因:是技术问题还是日常运维问题?并根据分析结果制定相依的解决方案使SLA达标。业务服务指标衡量健康度衡量某个业务系统的应用和基础设施的技术使用情况和当前状态:通过监控工具对技术指标进行监控并与阀值进行比较衡量对系统的应用和系统所采用的架构进行评估衡量对系统采用的工具化程度进行评估衡量风险度衡量某个业务系统的日常运维活动的执行情况:对每个系统必要的活动进行定义,每个活动都对应1个或多个OLA对活动的OLA进行计算衡量健康度和风险度衡量将业务服务指标的衡量结果,健康度和风险度衡量的结果进行汇总后,从技术和运维活动的角度对某个业务服务(系统)进行分析基于分析结果,进行服务成本(包括人力,资金和资源)进行合理的决策服务成本决策分析服务指标衡量框架概述(续)业务服务指标衡量健康度和风险度衡量指标衡量的使用场景–系统风险度的衡量系统风险度是针对当前涵盖的管理框架下(可用性管理&容量管理&灾备管理)的各管理领域的活动完成情况进行衡量的指标,即对每个活动的OLA进行统计和衡量。它反应了日常运维工作的执行是否正常,从而确保运维风险最低。概述OLA评分标准衡量对象上线检查故障处置变更成功率变更后的故障率解决及时率…………实际/目标得分<=80%080%~100%1>=100%2衡量权重指标衡量的使用场景–系统风险度的衡量系统风险度是针对当前指标衡量的使用场景–系统健康度的衡量系统健康度是针对支撑系统所使用的软硬件基础设施的技术参数进行评估和考核的指标,它可以实时反应当前系统运行的状态是否正常。概述OLA评分标准衡量对象Unix系统Oracle数据库CPU利用率内存利用率临时表空间空闲率…………实际/目标得分<=80%080%~100%1>=100%2衡量权重指标衡量的使用场景–系统健康度的衡量系统健康度是针对支撑指标衡量的使用场景–服务成本的衡量服务成本是保证IT投入产出比的重要衡量指标,IT运营组织比较合理的管理成本方式是跟行业内类似规模和成熟度的企业进行行业对标,了解自己的运维效率,进而可以有针对性的提升成本优化的工作概述运营成本的衡量主要分成三个部分,资源利用率、保障措施成本和投入运维的人力成本。服务成本衡量的主要方式是行业对标,通过对标可以找到与行业内领先企业的差距,然后推动优化措施,提升运维效率。若干行业对标数据:服务请求处理成本:8-12件/每人天服务器维护成本人保:20台/人交行:11台/人中行北数:12.5台/人建行北数:12.5台/人服务器容量匹配度:1–1.5年行业对标数据服务

成本资源

利用率服务器容量匹配度保障措施成本存储容量匹配度监控成本自动化工具成本人力成本服务请求处理成本服务器维护成本指标衡量的使用场景–服务成本的衡量服务成本是保证IT指标衡量的应用场景场景示例核心的SLA均达标,但存在技术和运维风险,问题分析如下:

部分批量任务进程出现超时,主机的CPU利用率高,日常巡检和日志清理的工作不及时。网银的SLA1和SLA3被打破,同时健康和风险也出现红色告警,问题分析如下:网银出口流量较大,服务器的CUP和内存利用率高;缺乏有效的处理预案价值分析,故障处理不及时。第三方存管:运行正常,经过分析:目前系统资源冗余度较大:如CPU利用率,内存利用率等。统筹上述三个系统的表现和问题分析,可以有针对性的制定相应的改进措施:在整个预算规划中,可以考虑减少第三方存管的资源投入,加大对核心和网银的资源投入,解决目前遇到的技术问题。针对核心:调整巡检和日志清理的频率,资源允许的情况下,可以考虑增加一定的人员投入。针对网银:需要增加故障处理人员,并加强二线人员的分析和总结能力,提升处理预案价值,从而帮助一线处理人员提升处理能力。SLA1SLA2SLA3SLA4SLA5SLA6SLA7SLA8健康度风险度核心网银第三方存管指标衡量的应用场景场景示例核心的SLA均达标,但存在技术和运运营管理落地实现要素分析

–合理科学的运营管理流程框架云数据中心管理框架是在传统数据中心管理模式的基础上,继承与发展出的一套适合云数据中心的运营管理模型。管理框架服务交付:云数据中心相比传统数据中心资源和应用服务的自助化和自动化程度高出很多,而且此时所谈的服务交付更多是已经被规格化、产品化后的标准内容。运维管理:云数据中心的资源和应用都服务化了,所有应用上线过程其实是一个新服务发布的过程,或者是一个服务内容调整的过程,这比传统数据中心纯粹站在应用发布的视角会有明显变化。资源操作:基于云数据中心的技术应用特点增加了“资源供应与分配管理”、“资源部署/回收管理”和“动态管理”的内容。资源管理:是在配置管理基础上扩展而来,是云数据中心的特色之一,存在一些资源池化数据中心的特色,增加“软件资产管理”,“服务开通管理”和“镜像管理”等资源池环境下独特的管理模块。服务规划:完成如何将云数据中心的资源进行封装,并设计符合用户要求的服务。信息安全:安全管理的内容跟传统数据中心没有差别,但资源池环境的安全技术跟传统数据中心存在很大差别。运营管理落地实现要素分析

–合理科学的运营管理流程框架运营管理落地实现要素分析

–合理的组织设置服务治理

针对多数据中心环境,需要考虑服务治理模式的合理设置,重点在于以下若干方面的考虑:总分模式的考虑。现代应用环境相比过去变的越来越复杂,所以从应用服务角度需要在所有数据中心之上设置统一管理的职能在云化环境中,资源管理与传统环境发生比较重大的变化,需要统一考虑全局的资源管理职能服务治理模式岗责和资源配备岗位设置合理,责任界面清晰,避免重复、缺失或者职责不清情况;各类岗位资源配比合理。岗责设置和资源配备符合云化数据中心的组织形态

按照云化的进展和组织成熟度,选择合适的组织形态,并对未来多活环境下的组织形态开展预研工作。合理的组织形态版本上线时,需要填写大量的二维表,这些数据是否可以直接导入到CMDB中,如果CMDB中有数据,是否可以引用。上线29步,有大量的重复的表格

“云”的环境不仅要求基础架构需要拥有“柔性”和“弹性”,同时对运营组织也存在同样的要求。合理的服务治理模式、合理的

IT二级部门设置和清晰的岗责是保证组织“柔性”和弹性的关键。概述运营管理落地实现要素分析

–合理的组织设置服务治理模式岗运营管理落地实现要素分析

–运维工具的支撑“监控平台”:构建整个IT监控架构,实现集中事件管理,并为面向业务的监控管理打下基础。“流程平台”:整合并标准化运维的日常工作,将日常的工作规范,并透明化。“展现及运营平台”:建设统一运营分析平台和统一门户展现平台将有效增强数据利用和展示效果。“自动化操作平台”:完成对整个IT操作的集中管控和自动化。“云资源管理平台”:将各种资源池化进行纳管,提供统一的云资源管理服务。“配置管理数据库”:记录完整的、准确的IT环境中各组件的信息和彼此间的关联关系,作为唯一、可信的数据源,为周边系统提供支撑数据。基于业界公认的BSM(业务服务管理)框架进行规划按照“五台一库”的功能区域进行规划工具框架运营管理落地实现要素分析

–运维工具的支撑“监控平台”:议程第1部分云数据中心发展趋势第2部分云数据中心运营管理能力2.1运营管理能力2.2数据中心运维管理能力2.3资源与服务的封装能力2.4资源操作管理能力2.5信息化统一门户2.6运营管理的全局数据支撑能力……议程第1部分云数据中心发展趋势云(化)数据中心运营管理流程框架

–运维管理作用是有效组织运维人员完成预定任务运维管理主要为数据中心提供两种核心能力:一是提供了一套任务框架,二是提供了基于岗责的协同方案。管理框架服务交付:云数据中心相比传统数据中心资源和应用服务的自助化和自动化程度高出很多,而且此时所谈的服务交付更多是已经被规格化、产品化后的标准内容。运维管理:云数据中心的资源和应用都服务化了,所有应用上线过程其实是一个新服务发布的过程,或者是一个服务内容调整的过程,这比传统数据中心纯粹站在应用发布的视角会有明显变化。资源操作:基于云数据中心的技术应用特点增加了“资源供应与分配管理”、“资源部署/回收管理”和“动态管理”的内容。资源管理:是在配置管理基础上扩展而来,是云数据中心的特色之一,存在一些资源池化数据中心的特色,增加“软件资产管理”,“服务开通管理”和“镜像管理”等资源池环境下独特的管理模块。服务规划:完成如何将云数据中心的资源进行封装,并设计符合用户要求的服务。信息安全:安全管理的内容跟传统数据中心没有差别,但资源池环境的安全技术跟传统数据中心存在很大差别。云(化)数据中心运营管理流程框架

–运维管理作用是有效组运维管理流程的能力要素分析

–合理的管理流程目标运维管理的核心在于每个流程都隐含明确管理目标,而不能仅仅当成日常任务的工作流。流程设计、岗责厘定、衡量指标和考评等,都需要围绕着管理目标而定。同时,运维流程也需要把人与工具贯穿成一体以完成这个流程设定的目标。概述已知故障,并已固化处理预案已知故障,但未固化处理预案未知故障,风险故障管

理目标故障管理的持续闭环:一次系统:对已知故障的快速识别,并通过固化的、标准化的预案进行故障恢复,实现对故障的快速响应。二次系统:对已经识别故障进行分析形成规则,对故障恢复方案形成针对性恢复预案,并归入故障和预案知识库。三次系统:对故障相关的所有告警和工单数据进行挖掘,并发现规律,实现对故障发生的预测,将故障发现从故障指标的识别提前到相关故障发生前的系统状态。数据中心故障管理的目标:对已知故障形成固化的、标准化的处理预案,加速故障恢复;增强对未知故障的识别和预测能力,持续将未知转化为已知。运维管理流程的能力要素分析

–合理的管理流程目标运维管理决策层管控层操作层绩效分析和决策执行力管理风险管理操作过程标准化绩效驱动持续优化指标汇总分析风险驱动持续优化生产力衡量生产效率衡量组织风险流程风险技术风险合规风险决策风险规避分析风险

分析风险分析和决策流程环节工单分类表单规范状态和代码角色和职责流转控制流程操作规范流程上下文流程信息交互流程集成规范管理规范组织持续优化流程持续优化技术持续优化管控持续优化持续优化管理执行力

管控规范风险管控规范风险侦测和管控执行力侦测和管控管控标准化执行力指标输出风险侦测指标输出开单管控流转管控操作管控超时管控运维管理流程的能力要素分析

–三层指标体系决策层管控层操作层绩效分析执行力管理风险操作过程标准化绩效驱管理流程衡量指标示例决策层管控层操作层投诉管理流程整体有效性工单及时率工单解决率重开单率工单满意率工单合规率操作有效性派单质量合格率工单平均流转次数质检点合规率管控有效性管理告警次数管理告警处理及时率持续优化有效性同类投诉量的趋势投诉发起问题的重开单率个人/组工作效率个人/组工单处理及时率个人/组解决率个人/组转单率个人/组工单新建/处理量个人/组工作质量个人/组重开单率个人/组工单满意率个人/组工单合规率个人/组派单质量合格率个人/组知识积累个人/组知识提交量个人/组知识被使用量个人/组知识评价围绕业务价值衡量本管理流程目标是否达成,或者达成程度如何衡量本管理流程执行过程与规范相比是否存在偏差,并分析是规范问题、执行问题、岗责问题还是人员问题通过对人员/组的衡量,促进期望的行为模式,同时提升流程过程中团队协同能力管理流程衡量指标示例决策层管控层操作层投诉管理流程整体有效性云(化)数据中心环境下岗位与职责的变化分析资源规划岗:是原有的项目组资源规划角色转变而来,把过去分散的各项目资源规划岗位统一为资源池的整体规划岗位。根据业务要求规划资源池的服务内容、容量、功能、可用性等管理目标,制定资源池发展规划;资源审批岗:根据服务对应的资源审批策略,审核资源的需求申请内容、业务要求、资源池状况等批准或拒绝资源的申请;资源池管理岗:完成资源池生命周期管理,包括资源池日常管理、资源池资源运行分析等任务,具体划分为X86资源池管理岗、小型机资源池管理岗、存储资源池管理岗、标准化介质管理岗四个管理角色;资源管理岗:是原有资产管理岗提升而来,完成池中资源的生命周期管理,任务有资产接收、资产出入库、资产上架上电、资产调拨、资产盘点、资产下架、资产报废等;云平台管理岗:保障云平台的稳定运行和日常管理,实现的任务包括:用户管理、组织机构管理、权限管理、操作审计等。云数据中心运营岗位图云(化)数据中心环境下的运营组织和管理体系将产生很多变化,必然要对传统数据中心环境的运营岗位进行优化改进以适应新的要求。岗责云(化)数据中心环境下岗位与职责的变化分析资源规划岗:是原有云(化)数据中心运营管理工具框架

–运维管理平台在工具框架中的定位和集成关系灵活定制能力图形化的表单定制器流程引擎三层指标端到端监控表单自定义字段的支撑OLA管理功能跨流程OLA监控能力集成能力通知接口监控平台接口自动化操作平台接口云平台接口CMDB集成接口作为运维管理的重要支撑,ITIL管理流程平台需要具备多种技术能力,才能很好支撑前述的IT业务流程三层指标监控、灵活定制和各类相关集成的能力要求。工具框架云(化)数据中心运营管理工具框架

–运维管理平台在工具框议程第1部分云数据中心发展趋势第2部分云数据中心运营管理能力2.1运营管理能力2.2数据中心运维管理能力2.3资源与服务的封装能力2.4资源操作管理能力2.5信息化统一门户2.6运营管理的全局数据支撑能力……议程第1部分云数据中心发展趋势服务和资源封装能力分析

–云资源管理平台的价值定位云资源管理系统基础环境基础架构平台软件业务应用云资源管理平台的价值定位标准化标准化、柔性、弹性标准化、柔性、弹性标准化、模块化服务封装、资源装配、调度、资源封装、自动化部署和自动化配置服务封装能力在“软件定义”数据中心中起到“大脑”和“总控”的作用。在BMC云(化)数据中心运营管理框架中,云资源管理平台承担着“服务封装”的功能定位。同时,在“存储”和“网络”未达到真正的“软件定义”阶段,云平台也执行部分“资源封装”的作用。概述服务和资源封装能力分析

–云资源管理平台的价值定位云资源云资源管理平台核心能力要素分析异构资源适配和封

装能力资源服务装配能力全局资源调度能力资源规划支撑能力云资源管理平台具备四大核心能力要素,分别是:封装和适配范围:可适配的资源种类与数量装配能力:预定义的服务模型种类与复杂程度调度策略:能够支撑的调度策略种类容量规划:预定义的容量预测算法、图形化工具的种类和能力云资源管理平台能力模型侦测能力云资源管理平台对下适配封装各种类型的资源,形成资源的“原子”服务;对上提供多种多样的、面向用户的资源服务,是“软件定义”数据中心服务能力的集中体现。概述云资源管理平台核心能力要素分析异构资源资源服务全局资源资源规BMC云平台资源封装和调度能力一览作为云资源管理平台核心能力之一的异构资源适配、封装、调度和自动化部署能力,BMC的云资源管理平台能够提供传统企业内存在的主流基础架构设施概述X86物理服务器X86虚拟化平台VmwareHyper-VXenKVM小型机IBM和HP物理机IBM微分区HPvPar和nParIBMHMC和SDAIXNIMHP-UXIgnite

计算资源AmazonWebServices(EC2,VPC)Savvis(APIv1.5)Terremark(APIv2.14)OpenStack(APIv2.0)HadoopAPI外部资源Oracle数据库(单机版和Rack版)WeblogicWebsphereTomcat

…平台软件资源EMC中端、高端存储设施HP中端、高端存储设施HPStorageEssentials思科网络设备华三网络设备华为网络设备网络资源BMC云平台资源封装和调度能力一览作为云资源管理平台核心能云(化)数据中心运营管理流程框架

–云资源管理平台覆盖的管理流程和任务云资源管理平台覆盖云(化)数据中心运营管理流程框架中各个层次的管理流程和任务,实现针对各类资源池端到端的资源封装和服务自动化交付。管理框架服务交付:云数据中心相比传统数据中心资源和应用服务的自助化和自动化程度高出很多,而且此时所谈的服务交付更多是已经被规格化、产品化后的标准内容。运维管理:云数据中心的资源和应用都服务化了,所有应用上线过程其实是一个新服务发布的过程,或者是一个服务内容调整的过程,这比传统数据中心纯粹站在应用发布的视角会有明显变化。资源操作:基于云数据中心的技术应用特点增加了“资源供应与分配管理”、“资源部署/回收管理”和“动态管理”的内容。资源管理:是在配置管理基础上扩展而来,是云数据中心的特色之一,存在一些资源池化数据中心的特色,增加“软件资产管理”,“服务开通管理”和“镜像管理”等资源池环境下独特的管理模块。服务规划:完成如何将云数据中心的资源进行封装,并设计符合用户要求的服务。信息安全:安全管理的内容跟传统数据中心没有差别,但资源池环境的安全技术跟传统数据中心存在很大差别。云(化)数据中心运营管理流程框架

–云资源管理平台覆盖的云(化)数据中心运营管理工具框架

–云资源管理平台在工具框架中的定位和集成关系云平台功能服务目录服务审批流程资源创建和部署性能侦测与资源调度容量规划资源监控集成关系配置库和配置管理流程平台监控平台Portal统一访问控制对外API对应用和PaaS层提供资源服务类API对运营分析提供数据访问API云资源管理平台是对云资源服务提供端到端管理的工具平台,内部集成服务目录、审批流程、监控和容量等功能,同时也与其他管理平台提供了集成关系工具框架云(化)数据中心运营管理工具框架

–云资源管理平台在工具云资源管理平台功能框架展现层:各种用户角色与云资源管理系统的交互界面,实现基于角色的统一工作台,并且完成数据的汇聚和综合展现;服务交付:根据用户的请求匹配合适的资源,按照服务装配模型组装资源完成用户的请求;资源开通层:通过封装屏蔽底层资源的差异性,向上提供统一、标准化的调度接口,完成策略引擎的调度任务;适配器层:对不同资源类型、虚拟化方案提供各自的驱动接口,实现资源的纳管;资源池管理层:实现资源池和资源的生命周期管理,并完成服务目录的创建与发布;服务运行管理层:通过自动化的组件实现主动式的运行态管理,保障云资源管理系统稳定运行。云资源管理平台在逻辑上分为以下6个层次:展现层、服务交付层、资源开通层、适配器层、资源池管理层和服务运行管理层等,总共21个功能组件。概述云资源管理平台功能框架云资源管理平台在逻辑上分为以下6个层次云资源管理平台功能组件架构云资源管理平台在逻辑上分为以下6个层次:展现层、服务交付层、资源开通层、适配器层、资源池管理层和服务运行管理层等,总共21个功能组件。概述云资源管理平台功能组件架构云资源管理平台在逻辑上分为以下6个云服务目录服务目录框架由三级结构组成,分别是:服务种类:目录结构的最高层次,代表了某一种类的服务,例如规格化硬件资源服务、软件资源服务、应用类服务等;服务产品线:具有某一类共同属性的服务产品逻辑集合,服务产品线内的服务产品在资源类型、服务内容等方面都存在一致性;服务产品:资源池面向用户提供的具体服务内容,确保用户可以直观了解关于资源池服务以及其详细信息的准确描述。服务目录是资源池蓝图规划,说明了资源池的组成方式,描述了各类资源池能够提供哪些服务,是云资源管理平台服务封装能力的体现。概述云服务目录服务目录框架由三级结构组成,分别是:服务目录是资源云服务目录示例服务种类服务产品线服务产品服务属性服务选项规格化硬件资源服务X86虚拟机服务低配1(2C4G)部署区域:开发测试生产灾备资源等级要求高性能高密度能耗管理经济运行普通运行安全要求安全等级防病毒要求命名规范高可用性要求多台机器部署在不同的物理机上要求多台机器部署在不同的交付单元上独占要求CPU和内存独占IO通道独占操作系统产品型号Windows2008Windows2003RedHatLinux版本补丁参数配置要求CPU主频集群预装组件JDK.NETFramework账号和权限设置特殊监控要求低配2(2C8G)中配1(4C8G)中配2(4C16G)中配3(4C32G)高配1(8C16G)高配2(8C32G)对服务目录的描述包含可使用本服务的用户范围、适用的服务方式、所支持的业务流程、以及对用户承诺的服务级别和服务质量(SLA)等。为了实现更灵活的服务目录,对每一项服务产品提供服务属性(服务本身的属性、靠自身资源就可以完成)和服务选项(需要借助外部的资源、对资源进行补充的选项)。概述云服务目录示例服务种类服务产品线服务产品服务属性服务选项规格云服务目录(续)为了快速满足业务系统对资源池提出的更多能力要求,服务目录在云资源管理系统落地实现中突出柔性概念,能够快速组装资源池软硬件提供的能力,封装为新的服务目录产品,发布给业务部门和用户使用,从而实现了服务目录的持续改进、紧跟业务发展变化。概述服务种类服务产品线服务产品服务属性服务选项应用类服务企业门户系统服务企业门户系统系统功能测试环境安全要求安全等级防病毒要求防火墙策略命名规范安全策略高可用模式本地数据备份本地应用备份同城数据备份同城应用备份异地数据备份异地应用备份部署模式统一版本部署组件变更部署调度策略高可用策略软件资源要求(限定的软件资源服务目录种类和个数)硬件资源要求(规格化硬件资源服务服务目录的种类和个数)软硬件连接关系应用版本应用配置参数应用入口DNS同步身份信息IP、主机名、账号权限特殊监控要求企业门户系统性能测试环境企业门户系统小型省生产环境企业门户系统中型省生产环境企业门户系统大型省生产环境云服务目录(续)为了快速满足业务系统对资源池提出的更多能力要议程第1部分云数据中心发展趋势第2部分云数据中心运营管理能力2.1运营管理能力2.2数据中心运维管理能力2.3资源与服务的封装能力2.4资源操作管理能力2.5信息化统一门户2.6运营管理的全局数据支撑能力……议程第1部分云数据中心发展趋势云(化)数据中心运营管理流程框架

–资源操作管理覆盖的管理流程和任务资源操作管理涵盖了资源监控、计划性自动化作业执行、变更作业自动化执行和故障自动恢复作业等四项管理任务。管理框架服务交付:云数据中心相比传统数据中心资源和应用服务的自助化和自动化程度高出很多,而且此时所谈的服务交付更多是已经被规格化、产品化后的标准内容。运维管理:云数据中心的资源和应用都服务化了,所有应用上线过程其实是一个新服务发布的过程,或者是一个服务内容调整的过程,这比传统数据中心纯粹站在应用发布的视角会有明显变化。资源操作:基于云数据中心的技术应用特点增加了“资源供应与分配管理”、“资源部署/回收管理”和“动态管理”的内容。资源管理:是在配置管理基础上扩展而来,是云数据中心的特色之一,存在一些资源池化数据中心的特色,增加“软件资产管理”,“服务开通管理”和“镜像管理”等资源池环境下独特的管理模块。服务规划:完成如何将云数据中心的资源进行封装,并设计符合用户要求的服务。信息安全:安全管理的内容跟传统数据中心没有差别,但资源池环境的安全技术跟传统数据中心存在很大差别。云(化)数据中心运营管理流程框架

–资源操作管理覆盖的管云(化)数据中心运营管理工具框架

–资源操作管理平台在工具框架中的定位和集成关系集中监控管理平台业务影响分析业务监控应用监控平台软件监控服务器监控存储监控网络监控自动化管理平台作业调度管理系统作业自动化执行管理业务作业自动化执行管理故障自动恢复作业服务请求作业变更作业资源操作管理在工具框架中具体由集中监控管理平台和自动化管理平台两部分组成。工具框架云(化)数据中心运营管理工具框架

–资源操作管理平台在工集中监控管理

–面向业务的端到端的监控提供基于应用服务的Dashboard,从业务服务视角(比如银行中使用交易代码)进行监控,展现业务服务的健康度。当业务服务健康度存在问题是,提供向下钻取应用架构和系统组件层面的问题定位和诊断服务。当前的监控不再是针对单个基础架构组件、网络线路或者应用本身的监控。更多是的关注业务流程、业务角度概述集中监控管理

–面向业务的端到端的监控提供基于应用服务的D集中监控管理

–面向业务的端到端的监控当前的监控不再是针对单个基础架构组件、网络线路或者应用本身的监控。更多是的关注业务流程、业务角度概述第二层钻取,提供应用层面的故障分析视图,帮助用户定位到应用系统。集中监控管理

–面向业务的端到端的监控当前的监控不再是针对集中监控管理

–面向业务的端到端的监控当前的监控不再是针对单个基础架构组件、网络线路或者应用本身的监控。更多是的关注业务流程、业务角度概述第三层钻取,提供应用系统组件层面的故障分析视图,帮助用户定位到具体的平台软件或者硬件组件的故障。集中监控管理

–面向业务的端到端的监控当前的监控不再是针对从管理框架之运营操作管理看自动化工具的需求从资源操作的业务目标看,典型场景有业务作业运行、应用更新、系统部署上线、基础架构检查、灾备切换、信息采集更新等等;从操作属性看,大体分为系统作业自动化执行管理和业务作业自动化调度管理。作业调度自动化技术(WLA)运维自动化技术(ITPA)以“完成运维操作”为核心获取管理对象的细粒度信息对管理对象进行细粒度的操作完成重复性的操作衔接标准化流程流转以“完成业务作业运行”为核心管理作业调度管理作业时序/互斥行为干预作业运行优化作业运行时间开销概述资源操作资源部署/回收管理动态管理服务器资源存储资源网络资源软件资源变更操作计划操作任务调度管理从管理框架之运营操作管理看自动化工具的需求从资源操作的业务目三种类别的系统化作业系统/网络/应用运维操作自动化基础支撑性技术能力典型场景资源部署,如裸机安装、虚拟机部署系统加固补丁分发、固件升级应用发布典型场景配置浏览配置备份配置修正系统/网络/应用巡检合规审计其它标准化操作典型场景支撑其它管理过程,如资源部署、监控平台中的自动修复支撑IT服务化、自助化、移动化,如自助式帐号重置支撑流程流转流水线化,如自动校验审批等流程接驳服务端到端部署&应用发布系统作业分成三种:系统级作业自动化、部署及应用发布自动化和其他支撑性自动化作业的自动化执行管理。概述三种类别的系统化作业系统/网络/应用运维操作自动化基础支撑性作业应用场景举例系统巡检系统配置浏览系统配置采集系统配置修正系统合规审计常规或定期系统操作系统部署系统补丁分发系统加固管理软件分发/更新……系统团队使用场景网络巡检网络配置采集网络配置备份网络合规审计常规或定期网络操作网络设备升级……网络团队使用场景应用巡检应用配置浏览应用配置采集应用配置修正应用合规审计常规或定期应用操作应用更新/发布应用补丁分发……应用团队使用场景集中认证-授权控制安全扫描/巡检安全合规审计密码修改/重置……安全团队使用场景资源部署/回收软件/应用部署资源变更服务流程接驳……云计算支撑使用场景服务请求自动化故障恢复数据服务自动化……流程支撑使用场景从运维团队角度,提供了多种应用场景供太保参考。作业自动化可以从整体上提升系统监控度,同时降低运维成本。概述作业应用场景举例系统巡检系统团队使用场景网络巡检网络团队使用运维自动化收益参考数据华为在实施运维自动化工作后的收益分析:概述OS、DB帐号开销户从全手工操作转为自动化,每个帐号开设3分钟,20台服务器花费60分钟,自动化开销户后,开设20个帐号约需要20分钟,效率提升66%修改验证OS、DB、NET、ST、RSC、INFRA等口令,目前全手工操作,修改30个口令并验证约需要60分钟,实现自动化后时间减少为10分钟,效率提提升83%对每个本地语音网关ping本地广域网出口路由器、ping远端网关、检查本地网关到远端路由及本地网关的配置等,每月需要30分钟/节点,全球252个节点,实现自动健康检查,缩短到5分钟/节点新业务上线从1周缩短到2小时效率提升服务器:管理员比例从45:1提高到125:1

实施变更的能力提高超过100倍成本缩减

300多项工作进行了标准化,确保符合配置规范和安全规范,变被动救火为主动防范Root账号回收,通常都已不需要root口令,需要时走流程申请不用登陆到系统上进行操作,在平台上直接图形化批量操作,减少手工误操作的风险基于角色的权限控制和操作审计功能大大提高了对变更的控制能力和可追溯性一级事件从10个/月减到1个/月漏洞修复的周期缩短90%合规检查覆盖的设备从30%提高到100%巡检合规率从10%提高到超过95%风险控制运维自动化收益参考数据华为在实施运维自动化工作后的收益分析:作业调度自动化(WLA)的典型服务场景业务批量作业驱动、衔接业务批量作业运行&干预灾备切换调度调度编排、仿真&优化统一操作调度&日历物理管理员、调度员、操作员、应用人员虚拟私有云应用系统及基础架构数据工厂数据仓库单点控制统一调度超越监控智能管理作业生命周期管理关联业务服务管理BMCControl-M作业调度自动化系统确定作业对业务服务的影响自动化可视化规范化集中化作业调度自动化(WLA)的典型服务场景业务批量作业驱动、衔接作业调度自动化Dashboard指标:作业执行成功率作业执行及时率作业执行时长出发错误工单量也关注这些指标的变化趋势作业调度自动化的决策看板主要关注作业的成功率、执行率及处理效率等指标。如下是某客户的作业调度自动化平台的决策看板示例。概述作业调度自动化Dashboard指标:作业调度自动化的决策看议程第1部分云数据中心发展趋势第2部分云数据中心运营管理能力2.1运营管理能力2.2数据中心运维管理能力2.3资源与服务的封装能力2.4资源操作管理能力2.5信息化统一门户2.6运营管理的全局数据支撑能力……议程第1部分云数据中心发展趋势云(化)数据中心运营管理工具框架

–信息化统一门户在工具框架中的定位和集成关系信息化统一门户是运营管理者关心的整体绩效指标的采集、计算和展现平台,包括:业务服务SLA系统健康度系统风险度服务成本信息化统一门户也是数据中心运维管理者关心的衡量系统运行状况、流程执行状况指标的各类

OLA指标的采集、计算和展现平台,包括:集中监控展现业务影响分析展现管理活动OLA,等信息化统一门户给IT运营管理者和运维管理者对运营状况和绩效指标提供了一站式访问入口,可以大大增强IT管理的透明度和可视化程度工具框架云(化)数据中心运营管理工具框架

–信息化统一门户在工具管理可视化的关键是展现对象化和展现层次化。BMC基于国内外数据中心管理解决方案建设经验,总结了如下的展现逻辑框架:业务运行状况基础架构运营信息分析与报表管理综合管理信息交易量交易成功率交易响应时间值班信息变更管理任务信息公告管理可用性视图可用性指标视图统一告警管理视图业务服务影响分析性能分析视图机房环境视图统计分析报表关联分析报表钻取报表资源管理资源可视化展现资源容量及消费情况分析容量管理基础设施容量分析及预测业务容量分析及预测成本管理服务成本分析使用用户收费管理合规管理应用合规分析基础设施合规分析流程合规分析运行态业务高峰态年终态应急态灾备演练态管理可视化及统一展现管理可视化的关键是展现对象化和展现层次化。BMC基于国内外CIODashboardCIODashboard系统运行健康状况展现示例大屏展示内容管理类信息业务服务影响事件性能网管信息信息中心日常运维工作的管理信息,包括变更计划事件工单值班信息流程KPI公告发布从业务角度反映系统运行情况,包括业务影响模型业务量统计信息业务量变化曲线批量任务运行信息反映应用系统、主机、开放平台等IT基础设施的运行情况,包括系统状态视图事件仪表盘主机和开放性能指标仪表盘反映网络的运行情况,包括网络运行状态视图网络事件仪表盘网络性能仪表盘系统运行健康状况展现示例大屏展示内容管理类信息业务服务影响事

BMC在中行尝试多屏统一的解决方案,通过统一的展示控制平台控制管理信息在不同设备—大屏、PC机、移动终端的显示内容和显示形式。不仅实现了满足不同管理需求的多元化展示,同时实现了展示内容在不同终端的统一管理。机房等基础设施运行状况展现待修改BMC在中行尝试多屏统一的解决方案,通过统一的展示控制平台议程第1部分云数据中心发展趋势第2部分云数据中心运营管理能力2.1运营管理能力2.2数据中心运维管理能力2.3资源与服务的封装能力2.4资源操作管理能力2.5信息化统一门户2.6运营管理的全局数据支撑能力……议程第1部分云数据中心发展趋势云(化)数据中心运营管理流程框架

–配置管理覆盖的管理流程和任务云数据中心管理框架是在传统数据中心管理模式的基础上,继承与发展出的一套适合云数据中心的运营管理模型。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论