政务云运维管理规范20121122( 试行)_第1页
政务云运维管理规范20121122( 试行)_第2页
政务云运维管理规范20121122( 试行)_第3页
政务云运维管理规范20121122( 试行)_第4页
政务云运维管理规范20121122( 试行)_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

PAGE16引言政务云运维管理规范遵循ISO20000和ITSS的基本准则,针对政务云的技术构成方式、服务供应特征、服务评价方式,通过基本标准框架下的扩充形成,规范政务云运维活动中涉及的各类实体,以及这些实体间的相互关系。组成运维服务管理体系的实体包括运维服务管理对象、运维活动角色及运维管理组织结构、运维服务管理流程、运维服务支撑系统和运维服务五个要素。政务云运维管理规范范围本部分规定了政务云运维管理的要素、流程和主要内容。本部分适用于规范政务云运维活动中涉及的各类实体,以及这些实体间的相互关系。术语和定义以下术语和定义适用于本部分。术语政务云在电子政务领域以云计算模式提供服务的各类云平台的统称。运维服务运维服务是指运维服务供应商或运维部门综合利用各种IT运维支撑工具提供的确保IT基础设施和应用系统正常、安全、高效、经济运行的服务。本部分中规范的运维服务包括IT基础设施运维服务、IT应用系统运维服务、安全管理服务、网络接入服务、内容信息服务以及综合管理服务。运维服务管理流程运维服务管理流程是指为了支持运维服务的实现和提供,以确定的方式执行或发生的一系列有规律的行动或活动。运维服务支撑系统参与运维的各方为支持运维服务目标所使用的信息化工具,是支撑运维服务实施的平台。配置管理数据库configurationmanagementdatabase包含每一个配置以及配置项之间重要关系的详细情况的数据库。[ISO/IEC20000-1:2005,定义2.5]工作说明书statementofwork合同的重要附件之一,详细规定了合同双方在合同期内应完成的工作,如项目范围、工作描述、进度表、风险、需方责任等。服务级别协议servicelevelagreement服务提供商与顾客之间签署的记录了服务和约定服务级别的协议。[ISO/IEC20000-1:2005,定义2.13]外部事件externalevents为服务对象运行提供支撑的、协议获得的、不可控、非自主运维的服务资源(例如互联网、市电、租赁的机房等等)中断引发的事件。系统事件systemevents在运维对象范围内的、自主管理或运维的系统资源服务中断引发的事件。安全事件securityevents由于安全边界破坏、安全措施或安全设施失效,造成的安全等级下降或信息被非法盗用等需方(数据中心)利益被侵害的事件。缩略语CMDB ConfigurationManagementDatabase 配置管理数据库SOW StatementOfWork 工作说明书SLA ServiceLevelAgreement 服务级别协议APU AuxiliaryPowerUnits 辅助动力装置ATS AutomaticTransferSwitch 电源快速切换装置UPS UninterruptedPowerSupply 不间断电源VPN VirtualPrivateNetwork 虚拟专用网QOSQualityofServices服务质量ISO InternationalOrganizationforStandardization 国际标准化组织IT InformationTechnology 信息技术ITIL InformationTechnologyInfrastructureLibrary IT基础架构库

政务云运维管理要素框架政务云运维服务管理由运维活动角色及运维管理组织结构、运维服务支撑系统、运维管理对象、运维管理流程和IT运维服务等五个要素组成,其主要内容及其相互关系如下图所示。图1政务云运维管理框架政务云业务运维活动角色及运维管理组织结构政务云业务运维活动角色是指从事运维活动的所有组织、部门或者具体工作人员,一般包括运维服务提供者、运维服务使用者、以及运维服务管理者三类角色。各类角色在运维活动中所构成的组织形式构成了运维管理组织结构。政务云业务运维服务支撑系统运维服务支撑系统是支撑运维管理组织中各运维角色按照规定的运维流程开展运维活动的信息化系统。一方面,运维服务支撑系统支持运维服务提供者对运维服务管理对象进行管理,以实现运维服务的能力;另一方面,支持运维服务提供者按照商定的服务级别协议方便地向运维服务使用者提供运维服务;同时,要支持运维服务管理者对整个运维服务的考核、监督和评估。

政务云业务运维管理对象运维服务管理对象主要包括基础设施、物理资源、虚拟资源、数据、平台资源、应用资源、用户和IT供应商。广义概念下,有时也将组织内部从事IT运维活动的部门和人员作为运维服务管理对象。图2政务云运维管理对象政务云业务运维管理流程运维服务管理流程是指联系运维服务提供者、运维服务使用者以及运维服务管理者之间开展规范化协同工作的机制和方法。完整的运维服务管理流程应该覆盖运维服务的规划、设计、运行和持续改进等各个环节,本规范主要针对支撑运维服务运行阶段的相关流程。运维服务管理流程的信息化可借助运维服务支撑系统得以实现。政务云运维管理的流程如图3所示。图3政务云运维管理流程政务云业务IT运维服务IT运维服务是运维服务提供者向运维服务使用者提供的服务产品,相关的运维服务质量应该可度量,服务提供方式应该符合规定的流程。在本部分中规范的运维服务包括云设施运维服务、基于云的应用系统运维服务、云安全管理服务、支持政务云网络接入服务、内容信息服务以及其他综合管理服务。运维服务的自动化实施需要依靠运维服务支撑系统。联系运维服务提供者、运维服务使用者以及运维服务管理者之间开展规范化协同工作的机制和方法。完整的运维服务管理流程应该覆盖运维服务的规划、设计、运行和持续改进等各个环节,本规范主要针对支撑政务云运维服务运行阶段的相关流程。运维服务管理流程的信息化可借助政务云运维服务支撑系统得以实现。政务云系统运维计算资源池服务实施对象和活动对象为分布式的虚拟计算资源(虚拟机、虚拟机监控器(Hypervisor)、虚拟计算资源池(ResourcePool))集群,充分利用集群汇聚的强大威力,对海量数据做分布式的处理快速的完成数据分析工作。集群的维护特点是集中管理,集中控制,集中运维,有效监控,提前预警感知,为计算系统的正常而有序的运行提供坚实的基础。例行操作监控虚拟计算资源监控主要监控虚拟计算资源的运行状况变化趋势及其指标。具体见表1,包括但不限于:表1服务对象监控内容虚拟计算资源虚拟机监控器CPU负荷虚拟机监控器磁盘IO负荷虚拟机监控器内存负荷虚拟机监控器网络IO负荷虚拟机监控器网络链路状态监控虚拟机监控器服务进程监控虚拟机监控器计算资源分配监控虚拟机监控器系统日志异常监控计算资源池资源分配监控虚拟机CPU负荷虚拟机磁盘IO负荷虚拟机内存负荷虚拟机网络IO负荷预防性检查对于虚拟计算资源预防性的检查,包括:虚拟计算资源故障的提前预警,系统运行趋势的分析,安全日志的分析等。虚拟计算资源的预防性检查参见表,包括但不限于:表2虚拟计算资源预防性检查表服务对象性能检查脆弱性检查虚拟计算资源检查虚拟机监控器CPU使用峰值情况检查虚拟机监控器内存使用峰值情况检查虚拟机监控器文件系统空间使用情况检查虚拟机监控器IO读写情况检查虚拟机监控器网络流量情况等检查虚拟机的资源分配情况检查计算资源池的资源分配情况与分配策略检查物理服务器关键硬件部件是否存在故障检查计算资源池资源分配是否超过预定阀值当前虚拟机监控器版本是否安装相关风险补丁检查虚拟机监控器服务进程的健康状态检查虚拟机监控器文件空间使用是否达到预定阀值检查虚拟机监控器系统数据安全防护设置是否满足要求检查虚拟计算资源安全隔离有效性常规作业对虚拟计算资源的常规作业参见表,包括但不限于:表3虚拟计算资源常规作业表服务对象常规作业内容虚拟计算资源更换损坏的硬件虚拟机监控器软件升级日常的可靠性计划制定与演习脚本维护制作虚拟机快照虚拟机手工迁移虚拟机资源配置更改虚拟机备份、克隆与恢复虚拟机的维护包括创建虚拟机,并进行启动、停止、删除、回收等操作虚拟资源池的扩容与资源再分配制作与升级标准虚拟机模板虚拟机映像维护虚拟机转换虚拟资源的访问控制与权限管理制作系统运行状况报告响应支持事件驱动响应:针对虚拟计算资源所依赖的硬件,网络及软件故障而进行的响应,包括但不限于a)解决物理服务器故障b)解决物理网络设备故障c)解决虚拟机监控器软件故障或者缺陷d)虚拟机紧急迁移e)虚拟资源池紧急扩容服务请求响应:根据应用系统运行需要或需方、服务相关方的请求,而进行的响应服务,包括但不限于:a)数据备份与恢复b)虚拟机备份与恢复c)系统扩容d)虚拟机供应e)虚拟机迁移、回收、变更f)虚拟资源池变更g)虚拟资源池的高可用配置、计划实施与演练h)报表清单优化改善适应性改善根据应用系统的要求,进行改善a)虚拟计算资源CPU、内存容量、硬盘容量、网络的调整b)虚拟计算资源迁移c)虚拟机监控器资源调度的算法增强性改善根据应用的特点和发展要求,以及数据量处理能力要求进行升级,扩容等a)物理服务器计算能力扩容b)物理服务器内存扩容c)物理服务器网络吞吐能力扩容d)虚拟计算资源高可用性增强与演练e)虚拟计算资源容错机制增强与演练f)虚拟计算资源备份恢复测试预防性改善根据对虚拟计算资源的运行记录和趋势的分析发现潜在的隐患而进行的改进作业,包括但不限于:a)根据系统监控得到的信息替换可能存在问题的内存,CPU,硬盘,网络设备等b)根据系统的压力增长趋势主动对物理服务器的数量进行必要的扩容c)根据系统的发展趋势对网络系统采取必要的扩容咨询评估通过对虚拟计算资源的运行记录、运行趋势进行分析,根据应用系统的特点和运行需求,提出物理计算设备、虚拟机监控器、虚拟计算资源池、虚拟机的改进建议和方案。存储资源池服务实施对象和活动服务实施对象是通过虚拟化建立大规模的分布式虚拟存储资源(虚拟存储卷、存储资源池、服务控制器),提供安全、可靠、实时、高吞吐的数据存储。虚拟化存储集群集中管理、集中运营、集中维护,以更小的硬件资源和人力资源投入,提供更坚实的存储平台。例行操作监控虚拟存储资源监控主要监控各软硬件的运行状况和指标。具体内容参见表4,包括但不限于:表4虚拟存储资源主要监控内容服务对象监控内容虚拟存储资源服务控制器CPU负载情况服务控制器内存消耗情况服务控制器整体数据吞吐带宽、IOPS、响应时间和请求队列时间服务控制器后端数据吞吐带宽、IOPS、响应时间和请求队列时间服务控制器间数据吞吐带宽、IOPS、响应时间和请求队列时间服务控制器cache利用情况存储资源池分配策略与空间使用情况虚拟存储卷访问吞吐率、IOPS、响应时间和请求队列时间仲裁控制点(磁盘、服务器等)健康性服务控制器前后端IO链路服务控制器后端分布式物理存储健康性服务控制器各服务网络端口监听情况服务控制器服务进程的运行状态服务控制器日志预防性检查在监控服务的基础上,对虚拟存储资源进行预防性检查,包括:性能检查、脆弱性检查。对虚拟存储资源的预防性检查参见表5,包括但不限于:表5虚拟存储资源预防性检查表服务对象性能检查内容脆弱性检查内容虚拟存储资源检查服务控制器下列场景的数据吞吐带宽、IOPS、响应时间和请求排队时间-整体-后端-控制器间检查虚拟存储卷访问吞吐率、IOPS、响应时间和请求队列时间检查各服务控制器cache利用率,做为后端存储优化依据检查存储资源池分配策略与空间使用率检查虚拟存储卷后端存储的性能匹配检查服务控制器日志检查用户请求的错误率检查所有服务所接受的请求错误率检查服务控制器冗余度检查服务仲裁控制点健康性检查服务控制器微码版本检查存储资源池分配策略避免过度分配检查控制器存储虚拟化软件版本一致性检查虚拟存储资源授权的全局性和统一性检查数据副本数检查数据保存的出错率检查数据传输的出错率检查数据副本的一致性统计数据恢复的时间常规作业对虚拟存储资源的常规作业参见表6,包括但不限于:表6虚拟存储资源常规作业表服务对象常规作业内容虚拟存储资源SAN拓扑,端口,Zoning配置维护服务控制器配置备份和恢复虚拟存储资源划分虚拟存储资源权限设置扩充存储资源池容量制定和实施异构存储资源池数据快照,镜像,容灾计划存储资源池内数据在线迁移数据分层管理维护数据副本数资源使用情况统计用户使用情况统计服务控制器软件升级更换损坏硬件日志文件分析和备份响应支持事件驱动响应针对虚拟存储资源的软、硬件故障而进行的响应服务,包括但不限于:a)解决存储虚拟化软件缺陷或故障;b)解决服务控制器宕机、重启、死机等;c)解决服务控制器前后端网络故障;d)数据恢复;e)硬件损坏更换;服务请求响应根据应用系统运行需要或需方、服务相关方的请求,而进行的响应服务,包括但不限于:a)数据统一备份;b)数据容灾计划制定,实施与演练;c)数据访问性能优化;d)数据在线迁移;e)数据分级存储,降低存储成本;f)新增主机分配存储空间;g)现有主机存储空间调整;h)主机端多路径软件的安装配置。优化改善适应性改进根据应用系统特点和运行需求,对虚拟存储资源进行调整,包括但不限于:a)服务控制器内存、数量和磁盘数量、容量间的配比;b)根据数据生命周期,进行存储资源分层调整;c)数据存储平衡算法调整;d)服务控制器前后端网络(SAN或IP)端口吞吐速率的调整。增强性改进根据应用系统的特点和运行需求,通过对虚拟存储资源的运行记录、趋势的分析,对存储设备进行调整、扩容或升级,包括但不限于:a)存储容量增加;b)服务控制器数量增加;c)服务控制器内存容量增加;d)服务控制器CPU增强;e)服务控制器前后端网络(SAN或IP)端口增加;f)存储虚拟化软件升级。预防性改进根据对虚拟存储资源的运行记录、趋势的分析,结合应用系统的需求,发现存储设备的脆弱点,有针对性地进行改进性作业,包括但不限于:a)收集磁盘空间的使用情况,及时清理垃圾数据或增加存储设备容量;b)监控负载情况,必要时增加硬件数量,或提高硬件规格;c)监控硬件出错率,替换存在问题的硬件;d)服务控制器微码升级;e)存储虚拟化软件升级。咨询评估通过对虚拟存储资源的运行记录、运行趋势进行分析,根据应用系统的特点和运行需求,提出处理或改进的建议和方案。网络资源池服务实施对象和活动运维对象是虚拟网络资源(虚拟网卡、虚拟网络资源池、虚拟机网络)和网络设备,基本活动包括例行操作、响应支持、优化改善、咨询评估。例行操作监控重点是对虚拟网络资源的运行状态、运行性能、资源使用分配情况进行监控,以便了解其是否满足运行要求。监控应当采用合适的装备与手段,分配专门人员定期或全时段进行监控。对虚拟网络资源的监控内容参见表7,包括但不限于:表7虚拟网络资源监控内容表运维对象监控内容虚拟网络资源虚拟网络资源的健康状态虚拟网络资源池分配状况虚拟网络资源的链路状况如端到端时延变化、链路端口工作稳定性、链路负载百分比虚拟网络资源配置变动监控虚拟网络资源操作日志监控虚拟网络资源安全事件监控预防性检查应在监控服务的基础上,对虚拟网络资源进行预防性检查。包括:性能检查、脆弱性检查。对虚拟网络资源的预防性检查内容参见表8,包括但不限于:表8虚拟网络资源预防性检查内容表运维对象性能检查内容脆弱性检查内容虚拟网络资源检查虚拟网络资源健康状态检查虚拟网络资源CPU使用峰值情况检查虚拟网络资源内存使用峰值情况检查虚拟网络资源端口的吞吐率检查虚拟网络资源链路的健康状况,包括IP包传输延时、IP包丢失率、IP包误差率、无效IP包(包括攻击性IP包、欺骗性IP包、垃圾IP包等)检查虚拟网络资源的链路冗余度要求虚拟网络资源使用度和调度情况评估虚拟网络资源可用性周期性检查虚拟网络资源安全事件周期性整理分析常规作业虚拟网络资源的常规作业内容参见表9,包括但不限于:表9运维对象常规作业内容虚拟网络资源虚拟网络资源配置备份及存档监控虚拟网络资源日志备份及存档虚拟网络资源日志数据分析与报告生成虚拟网络资源配置变更文件的审核虚拟网络资源配置变更的操作虚拟网络资源配置变更的记录响应支持事件驱动响应针对虚拟网络资源故障引起的业务中断或运行效率无法满足正常运行要求,而进行的响应服务,包括但不限于:a)故障定位;b)虚拟网络资源更换;c)中断、连通网络连接;d)关闭、启动端口;e)更改、恢复配置;f)停止、启动进程;g)虚拟网络资源重新调配。服务请求响应根据应用系统运行需要或需方、服务相关方的请求,而进行的响应服务,包括但不限于:a)增加、降低虚拟网络资源网络接入数量或速率;b)更改虚拟网络资源配置;c)启动、关闭端口或服务;d)更换、更新或升级虚拟网络资源硬件或软件;e)调配虚拟网络资源。优化改善适应性改进根据应用系统特点和运行需求,对虚拟网络资源进行调整,包括但不限于:a)设备或链路负载调整;b)安全策略调整;c)监控对象覆盖范围调整;d)路由策略调整;e)局部交换优化;f)局部冗余优化;g)虚拟网络资源调配。增加性改进根据应用系统的特点和运行需求,通过对虚拟网络资源的运行记录、趋势的分析,对虚拟网络资源进行调整、扩容或升级,包括但不限于:a)虚拟网络资源调整,如CPU、内存、端口的调配、扩容回收b)虚拟网络资源网络架构变动;c)网络架构容量变化,如网络子系统的增减等;d)系统功能变化,如新增安全系统、新增审计系统等;e)路由协议应用及部署调整;f)整体安全策略收紧;g)虚拟网络资源冗余优化。预防性改进根据对虚拟网络资源的运行记录、趋势的分析,结合应用系统的需求,发现虚拟网络资源的脆弱点,有针对性地进行改进性作业,包括但不限于:a)配置参数优化,例如虚拟网络资源的VLAN、QoS、ACL、带宽等;b)部署路由策略情况下端到端选路变化、端口流量变化、路由条目变化咨询评估咨询评估服务包括但不限于:a)(整体或局部)虚拟网络资源实际负荷与承载能力分析;b)(整体或局部)虚拟网络资源预期负荷与承载能力分析与建议;c)(整体或局部)虚拟网络资源架构变动分析与建议;d)(整体或局部)虚拟网络资源路由策略变动分析与建议;e)(整体或局部)虚拟网络资源安全策略变动分析与建议;f)(整体或局部)虚拟网络资源配置调优分析与建议等。机房基础设施、软件和数据机房基础设施、软件和数据等与传统数据中心运维方式一致,参照国标送审稿《信息技术服务运行维护第4部分:数据中心服务规范》。传统数据中心与云计算数据中心的服务内容区别云计算是目前国内外广泛关注的一项技术和应用,它具有大规模、虚拟化、高可靠、高扩展和通用、按需服务等特点。云计算与数据中心相结合,是未来一段时间数据中心发展的趋势。云计算数据中心与传统数据中心在运维对象、服务内容等方面存在差异,如下表所示。表10传统数据中心与云计算数据中心服务内容的主要差异运维对象服务内容传统数据中心机房基础设施从以下视角开展例行操作、响应支持、优化改善和咨询评估:1.单一设备运行维护;2.以网络关联其他设备及基础设施的运行维护;3.以应用系统关联设备及基础实施的运行维护。网络及网络设备服务器及存储软件数据围绕数据及时性、可用性、完整性、安全性开展的例行操作、响应支持、优化改善和咨询评估服务。云计算数据中心虚拟资源(包括网络资源、计算资源和存储资源等)围绕资源健康状况、使用情况和调度情况开展的例行操作、响应支持、优化改善和咨询评估服务。软件围绕软件提供、软件定制、本地化或统一部署、统一维护等开展例行操作、响应支持、优化改善和咨询评估服务。平台围绕平台运行、组件服务、个性化定制、场景式服务和统一管理等开展例行操作、响应支持、优化改善和咨询评估服务。数据基于虚拟资源,依托软件、平台开展的满足数据及时性、可用性、完整性、安全性要求的例行操作、响应支持、优化改善和咨询评估服务。运维服务报告总则运维服务实施中,供方应按要求进行服务报告编制、提交。服务报告通常分为常规报告、事件报告和专题报告三类。常规报告常规报告包括的种类:提交分为定时、非定时,其内容包括但不限于:报告名称、报告周期;需方、供方相关信息;服务综述;服务对象(机房基础设施、网络、硬件、软件、数据),包括但不限于:服务内容;服务完

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论