版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、云数据中心IT运维管理解决方案 目 录 TOC o 1-3 h z u HYPERLINK l _Toc468367035 1.运维平台技术架构 PAGEREF _Toc468367035 h 4 HYPERLINK l _Toc468367036 2.运维平台详细技术方案 PAGEREF _Toc468367036 h 5 HYPERLINK l _Toc468367037 2.1.资源配置管理(CMDB) PAGEREF _Toc468367037 h 5 HYPERLINK l _Toc468367038 2.1.1.配置数据建模 PAGEREF _Toc468367038 h 5 HY
2、PERLINK l _Toc468367039 2.1.2.配置数据采集 PAGEREF _Toc468367039 h 7 HYPERLINK l _Toc468367040 2.1.3.配置数据维护 PAGEREF _Toc468367040 h 11 HYPERLINK l _Toc468367041 2.1.4.配置数据应用 PAGEREF _Toc468367041 h 16 HYPERLINK l _Toc468367042 2.2.集中监控管理 PAGEREF _Toc468367042 h 20 HYPERLINK l _Toc468367043 2.2.1.基础资源监控 PA
3、GEREF _Toc468367043 h 20 HYPERLINK l _Toc468367044 2.2.2.应用性能监控 PAGEREF _Toc468367044 h 26 HYPERLINK l _Toc468367045 2.2.3.用户体验监控 PAGEREF _Toc468367045 h 42 HYPERLINK l _Toc468367046 2.2.4.统一告警管理 PAGEREF _Toc468367046 h 51 HYPERLINK l _Toc468367047 2.3.操作自动化 PAGEREF _Toc468367047 h 52 HYPERLINK l _T
4、oc468367048 2.3.1.自动化平台 PAGEREF _Toc468367048 h 53 HYPERLINK l _Toc468367049 2.3.2.运维自动化场景 PAGEREF _Toc468367049 h 58 HYPERLINK l _Toc468367050 2.3.3.运维自动化整合 PAGEREF _Toc468367050 h 60 HYPERLINK l _Toc468367051 2.4.运维管理流程 PAGEREF _Toc468367051 h 60 HYPERLINK l _Toc468367052 2.4.1.服务台 PAGEREF _Toc468
5、367052 h 61 HYPERLINK l _Toc468367053 2.4.2.服务目录 PAGEREF _Toc468367053 h 62 HYPERLINK l _Toc468367054 2.4.3.ITSM流程 PAGEREF _Toc468367054 h 64 HYPERLINK l _Toc468367055 2.4.4.巡检管理 PAGEREF _Toc468367055 h 66 HYPERLINK l _Toc468367056 2.4.5.知识库 PAGEREF _Toc468367056 h 67 HYPERLINK l _Toc468367057 2.4.6
6、.业务流程引擎 PAGEREF _Toc468367057 h 68 HYPERLINK l _Toc468367058 2.5.运维分析与展示 PAGEREF _Toc468367058 h 69 HYPERLINK l _Toc468367059 2.5.1.运维可视化展示 PAGEREF _Toc468367059 h 69 HYPERLINK l _Toc468367060 2.5.2.运维数据分析 PAGEREF _Toc468367060 h 72 HYPERLINK l _Toc468367061 2.6.运维管理门户 PAGEREF _Toc468367061 h 73 HYP
7、ERLINK l _Toc468367062 2.6.1.内部运维门户 PAGEREF _Toc468367062 h 73 HYPERLINK l _Toc468367063 2.6.2.运维门户网站 PAGEREF _Toc468367063 h 74 HYPERLINK l _Toc468367064 2.6.3.移动运维应用 PAGEREF _Toc468367064 h 75 运维平台技术架构根据云数据中心运维业务特点及技术要求,我方提供全方位的运维管理解决方案,实现数据中心运维管理所需的资源配置管理、监控、可视化展示、运维流程及对服务交付能力。平台架构设计配置管理库(CMDB)CM
8、DB实现对数据中心所有IT资源的配置信息管理,保证数据中心中配置项的完整性和精准性,构建运维管理元数据,并为监控、运维流程提供资源数据。集中监控管理系统提供云数据中心基础资源、业务应用、用户体验全方位监控,同时提供集中的监控告警管理及监控性能数据展示。 运维自动化管理系统提供面向于服务器运维自动化,提升运维操作效率、降低人工操作风险。运维管理流程系统提供基于ITIL的规范化运维管理流程,建立基于服务目录的对外服务交付过程,同时支持面向于云资源自动化交付管理。可视化展示与分析系统提供美观形象的可视化展示平台,帮忙运维管理人员准确掌握IT运行态势与运维服务水平。运维管理门户提供了运维管理门户网站、
9、个人工作台等形式的面向外部最终用户自服务及内部人员人性化的运维界面。此外,平台还预留多种标准接口及开放的接口体系,实现和第三方系统的功能或数据集成对接,包括云管理平台、PKI认证、短信系统、邮件系统等。运维平台详细技术方案资源配置管理(CMDB)配置数据建模内置基于业务视角的分层弹性模型,通过可视化建模,灵活动态扩展模型,满足用户的实际个性化管理需求。同时内置传统+互联网的弹性模型,符合最佳配置实践,在电信、金融、能源、政府、互联网、物联网等领域有广泛的应用。系统提供动态的配置模型构建,基于面向对象技术,能够实现资产配置模型的灵活构建,满足不同用户的实际管理需求。数据建模能够实现资产配置模型的
10、灵活构建,针对不同的用户环境和管理需求,灵活、快速、精准的搭建资产配置模型,管理人员可以依据自身管理需要快速构建资产、配置项以及关联关系。可以通过人工自由拖拽创建属性,或套用不同配置模板来创建并约束属性,摆脱了死板的分类法,能够弹性快速适配各种应用场景:系统提供文本、数值、日期、附件、图片等类型的数据类型,支持通过简单拖拽、勾选等方式进行模型与资源表单的设计。CMDB数据建模配置建模能力包括资产配置项建模、关系建模以及字典目录管理和配置表单管理。字典管理是资产配置模型建立的基础,它定义了资产配置模型的基本组成属性,系统支持字典的定义功能,能够根据不同场景的管理需要,灵活定义、修改字典目录。配置
11、项属性字典管理系统还系统支持配置项关联关系的建立,并支持配置数据项类别及实例图标的自定义功能,使配置展现更图形化。配置关系展示配置数据采集系统支持多种资产配置信息的发现和收集手段,包括:配置自动发现、人工录入、批量导入、第三方系统的集成接口等。配置发现系统支持如各种网络设备、服务器、操作系统、数据库、中间件和业务应用系统等软硬件信息以及关联关系的自动发现采集外,系统还面向云计算,能够适应虚拟化环境,支持对云资源的发现和采集,以符合用户的管理需要和未来技术发展趋势。在用户提供IT 基础架构帐户信息的情况下,可发现详细的配置属性,而如果未提供准确的帐户信息,也可发现基本的节点类型,便于进一步调整发
12、现策略。发现方式可采用但不限于如下方法:可以启用定时发现,用于根据所设间隔时间周期性的进行自动发现;可以使用多个SNMP参数、Telnet参数、SSH参数进行发现;可以设置过滤条件用于在发现过程中屏蔽一些不想管理的设备和子网;可以设置是否网段内逐个扫描,以全面发现设备(适用于路由和网段发现);可以设置发现后的设备自动加入的设备分组。配置发现配置数据收集维护利用了多种技术手段来保证各个来源的数据准确性和完整性,系统支持向导式发现配置功能,支持ICMP、TCP、SNMP、WMI、Telnet、SSH、CCLI、Http、DNS、JDBC、JMX、VMWare、libvirt、XenAPI等多种协议
13、来实现配置信息的自动发现,用户可以通过发现配置向导来实现发现范围、发现参数的设置,构建合理的配置发现策略,同时支持将发现结果导入到配置管理库中。自动发现配置发现过程系统提供简洁直观的发现进度,实时显示当前发现进度、发现状况概要,用户可以直接观察发现过程,在发现过程中提供实时的发现信息反馈,并支持停止操作。在发现过程中,系统能够对当前发现的资源数量按照类别进行分享统计和展现,用户可以直观了解当前发现了多少类、多少个资源信息。对于发现日志,系统支持日志的过滤展现,能够按照过滤规则向用户展现调试、信息、警告、错误4个级别的日志信息,便于后期对配置的发现情况进行回顾和分析。发现结果当发现完成或者用户终
14、止发现时将进入浏览发现结果界面,浏览并分析发现结果,以决定后续动作,对于发现结果可以放弃并重新发现,也可以放入CMDB中进行管理。系统支持以列表的形式来展现配置发现结果,包括IP、类型、名称等信息,并能够对发现结果进行过滤,提供配置项详情的查看(包括自身和子部件的配置信息)。配置发现结果对于发现结果支持导出,能够通过EXECL导出并保存。下方是Linux服务器自动发现的配置属性。自动发现属性(Linux)配置项批量导入为了方便使用和维护,系统支持配置项信息的EXECL格式导入和导出功能,可以根据管理需要,选定所需的配置项进行导出;同时也可以将编辑好的EXECL文件直接导入到系统中,实现配置信息
15、的批量导入。数据批量导入第三方数据集成系统支持通过与第三方系统集成实现配置数据的导入。如与华为云平台进行集成获取云资源的配置信息。与第三方系统集成获取配置数据配置数据调和从不同采集源获取到相同的资源数据时,系统能够识别并合并,并与配置库中标准数据进行比对,判断是否产生变化,如果产生变化则产生差异报告,并发出通知告知管理员进行变更审核,避免出现重复或不一致的配置信息。配置调和配置调管理界面配置数据维护数据维护主要针对采集入库的数据进行综合管理,包括数据调和、分区管理、审核管理以及权限管理。配置分区管理系统支持数据分区管理,能够按照用户的地域、组织机构分布等因素对配置项进行分区,建立不同的管理域,
16、各机构分别管理自己管辖范围内的配置。系统采用建立配置维护圈、社交协作化的思路,通过文化引导和规范约束结合的方法,促进配置维护圈的活跃、保证配置准确率,激发用户内在动力来做好配置维护。主要有圈子管理、人工配置维护、仓库数据的认领、配置评论、配置审核以及配置的动态展示等。支持按数据维护职责建立独立的数据维护工作区,各工作区对各自团队负责管理的资源进行认领并负责对该数据的维护管理。CMDB维护圈创建资源数据认领资源数据认领支持数据维护者根据自身维护需要创建过滤标签,快速查阅自身所关心的配置数据;数据过滤标签(视图)建立支持对配置数据开放式的评论、点赞,提升数据维护的积极性与团队协作。数据开放式的评论
17、、点赞配置审核管理配置数据的变更生效由工作区负责人审核决定,确保变更的快捷有效。变更审核时支持查看配置数据变化报告。配置数据变更审核支持对工作区内所有资源的数据变化时,可实时通知数据的订阅者或第三方系统,并告知变化内容。数据变化通知配置变更跟踪系统支持实时数据跟踪功能,能够跟踪配置和资产的当前状态信息,针对配置管理,系统能够支持配置项的版本跟踪和维护,当配置项产生新的版本时,系统能够自动跟踪、记录、更新并保存原始版本记录,对于存在多个版本的配置信息,系统还支持版本之间的比较。配置数据变更动态针对资产管理,系统能够实时跟踪资产的当前生命状态,如库存、使用、报废等,还可以将配置项作为资产进行跟踪,
18、以反映该配置项作为资产时的状态。数据跟踪的设定,支持父子继承,即某一父类被设置为跟踪时,其下所有子项均被设置为跟踪,也可以人工调整为个别项不跟踪。配置权限管理数据维护工作区拥有独立的团队成员管理权限,支持成员增加、删除;维护工作区团队成员管理系统将权限分为功能权限和资源权限,实现对配置项更加细颗粒度的管控。1、资源权限:系统资源权限包括配置、资产以及工单、知识等,可以对应一组数据项集合。2、功能权限:资源操作权限针对资产和配置管理,分别进行授权管理,授权角色具备对资产或配置的操作和浏览权限。配置数据应用配置应用场景管理支持按应用场景建立配置数据应用区,支持从统一配置库当中选择所需的配置数据,并
19、支持基于配置数据标签进行数据的批量导入。配置数据应用区创建基于数据标签和配置数据导入数据应用区中,不仅能查看配置项数据,还能根据管理创建所需要的配置关系,同时也查看到其他团队所创建的配置关系。配置关系展示数据应用区可以被监控系统、运维流程等模块进行调用,用于各类配置数据应用场景分析。配置数据查询系统提供了全文检索的能力,能够对所有配置信息通过全文检索的方式进行数据查询。全文检索支持对配置信息的附件信息进行检索,同时系统还提供了最近搜索记录功能,能将最近、常用的搜索的关键字进行记录,通过点击快速进行检索。数据全文检索能力配置与流程关系管理系统支持和流程进行关联,一方面可以直接从配置项发起相关流程
20、工单,如事件、变更等;另一方面由变更流程引起的配置项变化,再变更流程工单完成时自动进行变更审核;对于和配置项相关的工单,在浏览配置项时均可查看其所关联的工单信息,如该配置项发生过哪些事件工单、有哪些变更等。用户还可以通过在配置管理界面直接发起运维工单,就该配置项开启流程运转。配置项与工单关联配置关系管理产品支持完善的配置关系管理,提供直观的关系列表和可视化视图,通过配置关系管理,可以帮助管理人员快速了解该配置项与其他配置项之间的关联关系,从而帮助管理人员快速评判该配置项的重要程度和依赖关系。配置关系展示当该配置项出现故障能够快速评判其影响范围及影响程度。集中监控管理要求能够实现对现有的网络设备
21、、主机/虚拟机、数据库、中间件、存储、业务应用等各类云资源的监控管理,提供面向业务应用用户体验监测能力,并提供故障告警、性能数据、监控展示的集中化管理。基础资源监控系统支持面向网络设备、服务器硬件、存储设备等物理资源的监控与预警。针对应用的监控系统采用监控代理的方式实现监控,在云数据中心环境下,建议将监控采集代理内置至虚拟机模板当中,将可在虚拟化机被创建时,就可以实现该虚拟机上所有基础应用资源的监控。分布式部署架构设计网络设备监控系统支持对Cicso、H3C、华为等主流厂商的网络设备监控,实现对网络设备性能的监控与预警。服务器硬件监控系统对IBM、DELL、HP、华为、浪潮、联想等国内外主流品
22、牌的服务器硬件监控,支持通过IPMI协议实现监测,监控指标包括:服务器电流、传感器风扇、传感器状态、传感器温度、服务器电流、服务器电源功率等。存储监控监控系统支持对主流存储设备的监控,包括:HP、IBM、EMC、华为、HDS、Netapp等,技术手段包括:SMI-S、SNMP。IBM存储监控指标包括:存储阵列、物理磁盘、存储池、控制器、存储卷、存储卷组。EMC存储监控指标包括:存储池、物理磁盘、网络文件系统共享信息、网络文件系统、CIFS共享信息、CIFS服务、文件系统。HP存储监控指标包括:磁盘阵列、控制器、物理磁盘、存储池、存储卷。DELL存储监控指标包括:组基本信息(存储池、快照、卷)、
23、成员信息(阵列设备、控制器)、磁盘信息、控制器信息、通道卡信息、网络状态等。华为存储监控指标包括:存储设备、物理磁盘、逻辑磁盘(即存储卷)、控制器、电源、风扇、RAID、端口。若设备支持,支持监控设备环境参数,如温度、风扇、电源电压等。并能支持基于SNMP Trap、Syslog方式接收存储设备主动告警。虚拟化监控系统支持对VMWare、KVM、Xen等虚拟化平台的监控管理。IaaS云管理平台监控系统支持通过与IaaS云管理平台进行对接实现云资源监控,VMWare、Openstack(华为云、浪潮云、曙光云等)、阿里云等云平台监控。Docker虚拟化监控除虚拟化及IaaS云平台监控之外,同时支
24、持对新兴的Docker监控。Docker监控操作系统监控可监测众多的服务器操作系统,包括:Windows、Debian、Ubuntu、CentOS、Redhat、Mac OSX、Fedora、CoreOS、AIX、HP-UNIX;可自动监测服务器的各类性能指标,包括:CPU、RAM、磁盘、负载、文件系统、网络、监测、服务等指标;操作系统监测可自动监测服务器重要事件,包括:Windows Event、Syslog;可监测一些常见的系统服务,包括:HTTP、DNS、TCP、SSH、SNMP、WMI;中间件监控系统支持对各类中间件进行监控:Web服务中间件,包括:Apache、Tomcat、IIS、
25、Nginx、JBoss、Lighttpd、Weblogic、Websphere;中间件监测缓存中间件,包括:Redis、Memcached;消息中间件,包括:ActiveMQ、RabbitMQ、Kafka;大数据中间件,包括: etcd、HAProxy、Elasticsearch、Hadoop(HDFS、MapReduce、Zookeeper);数据库监控系统支持传统关系型数据库与NoSQL数据库的监控:可监测各类传统关系数据库,包括:MySQL、PostgreSQL、SQLServer、DB2、Oracle、Sysbase、InformixMysql监测可监测各类NoSQL数据库,包括:Ca
26、ssandra、MongoDBCassandra 数据库监控MongoDB 数据库监控大数据(Hadoop)监控当前云数据中心在大数据方面发展势头明显,大数据云成为云数据中心的主要研究方向之一,同时也是云数据中心与实战结合的关键点。在大数据云的建设方面Hadoop技术占据的重要角色,运维系统支持面向Hadoop核心组件(HDFS、MapReduce、Yarn、Zookeeper)及内部消息中间件(RibbitMQ)的监控。大数据监控架构应用性能监控APM采用最新流行的NOSQL架构,通过协议分析、指标运算和阈值处理三大引擎的处理,实时生成业务系统各环节的Apdex、吞吐量、平均响应时间、错误数
27、、成功率五大指标。在上层展现上,通过交易总览、业务运行视图、服务节点监控视图等多种方式,全方位可视化展现业务系统和关键交易性能。APM产品架构应用拓扑发现系统自动解析网络镜像数据,获取7层业务调用结构,通过内部自学习自动发现服务组件、服务组件之间的连接性和访问关系。基于自学习能力的应用拓扑自动发现基于应用系统的监测分析需求,可以有选择性选取相应范围的应用服务对象生成自动反映真实的业务架构和服务性能应用监控中心APM能够提供业务的真实服务路径,以业务应用拓扑为视角,以业务拓扑图、时序图的形式可视化展现各服务组件、环节的运行状态。这有助于运维人员准确掌控分布式业务架构。这是在IT基础架构之上观察业
28、务系统运转的全新方法,非常直观,而且具有全局视角,对故障域定位非常有益。使用业务仪表板编辑功能,可以通过简单的拖拽功能将发现的服务节点快速定义到整体运行视图当中。借助业务仪表板的设计思路,用户可以将基于SOA架构的应用系统抽象成为具体的应用服务路径,并借此获得业务系统的端到端性能管理可视性。借助拖拽式的时间轴回溯技术,在业务拓扑图基础上可视化展现近期业务的总体变化趋势和告警状态。业务应用拓扑业务交易监测系统从5大关键指标,到交易渠道、类型、结果等维度,进行全样本实时分析,支持互联网和传统交易的混合场景,跟踪业务交易的运行态势,准确扑捉交易级隐患,并进一步进行单笔业务的端到端交易链跟踪。交易总览
29、视图交易总览视图以时序图形式,配合最直观的红黄绿三色,你能够实时发现核心系统的吞吐量和告警状态。交易总览视图全局业务运行态势大屏展现自定义关键业务交易系统支持通过Lua代码实现对七层提取的业务数据,如URL路径、业务参数自定义关键交易。关键业务交易定义完成后,系统即能支持Apdex、交易量、平均响应时间、成功率、错误数5大指标最近一小时指标项的实时汇总统计和趋势图。灵活的关键业务自定义能力关键业务一小时运行趋势错误交易监控系统支持错误交易监控,能够完整记录交易发起时间、交易号、交易类型客户端IP、服务端IP、返回码、响应时间、交易结果。错误交易列表同时能够详细查看到错误交易的详细信息。错误交易
30、详情交易多维统计可以从交易类型、交易渠道、返回码、服务器IP、客户端IP五大维度进行实时统计分析,实时跟踪特定维度的交易量、平均响应时间、成功率。多维统计慢交易定位所有超过4T的交易将被自动标识为慢交易。系统支持所有慢交易过程的记录与可视化展现,帮助开发人员快速定位慢的环节。慢交易跟踪慢交易图形化定位应用性能监测作为关键业务的底层支撑,服务组件的性能指标非常重要。系统可以实时监控服务组件的整体吞吐量、平均响应时间、错误数、成功率。可以为每个服务组件设置独立的告警阈值。除监控某服务组件的应用性能指标外,还可以查看任意时刻服务组件运行的SQL语句、HTTP请求等详细信息。服务节点列表监控应用性能一
31、小时变化趋势HTTP监控WEB SERVICE监控SQL监控错误明细查询应用体验监测用户使用WEB应用都是一种自助行为,不断优化设计最终用户体验,是互联网应用一个永恒的主题。APM能够为该类优化提供依据。终端用户体验跟踪平均响应时间是衡量最终用户体验的重要指标之一,APM以此为依据形成应用性能指数。通常来说,吞吐量和平均响应时间往往存在正相关,系统以分钟频次自动跟踪记录应用系统访问量、平均响应时间及应用性能指数。同样,系统也实时跟踪关键交易的访问情况。你能够即时监测“下单”的平均响应时间、访问次数、成功率。系统采用先进的时间轴拖拉技术,可以快速对一个月数据进行回放。终端用户体验跟踪浏览器体验跟
32、踪随着智能手机、平板的大力发展,现在通过移动互联网访问的用户越来越多。APM可以帮助你从浏览器种类、设备类型、操作系统三个角度,按天监测其应用性能指数、独立访问数、吞吐量、平均响应时间、并发用户数等主要指标。当观察到某种设备类型访问量很高,但用户体验指数很差时,你就需要立即安排人员对该类设备适配。浏览器、设备、操作系统多纬度体验分析(1)浏览器、设备、操作系统多纬度体验分析(2)浏览器、设备、操作系统多纬度体验分析(3)浏览器、设备、操作系统多纬度体验分析(4)页面体验跟踪传统的网站分析能够也提供页面访问排名,但APM扩展了页面排名的方法,现在你可以根据用户体验、平均响应时间、用户数、访问量、
33、错误数来进行排名。这些信息可用于系统的调优。系统支持基于页面维度分析用户访问体验指数(APDEX),系统列出最差TOPN排名,明确最需要优化的页面。页面体验跟踪(APDEX)系统支持分析最慢访问页面的TopN排名,明确最需要优化的页面。页面体验跟踪(系统响应时间)系统支持分析错误最多的页面的TopN排名,明确最需要优化的页面。页面体验跟踪(系统错误数)系统支持分析成功率最低的页面的TopN排名,明确最需要优化的页面。页面体验跟踪(访问成功率)区域体验跟踪按区域查看不仅对于互联网应用至关重要,对于大型分支机构的单位也很重要,它是强化渠道体验管理的重要依据。APM提供了按用户体验、平均响应时间、用
34、户数、访问量、错误数来优化渠道体验的方法。系统支持基于地域维度分析用户访问体验指数(APDEX),系统列出最差TOPN排名,明确最需要优化的页面。区域体验跟踪(APDEX)系统支持分析最慢访问页面的TopN排名,明确最需要优化的页面。区域体验跟踪(用户响应时间)系统支持分析最慢访问页面的TopN排名,明确最需要优化的页面。区域体验跟踪(吞吐量分布)用户体验监控WEB性能监控在应用开发测试环境中,采用各类浏览器开发调试工具无法提供真实清晰可靠的性能数据,原因是测试环境中,受限于网络条件、运营商、地域、浏览器种类,无法预知的浏览器性能问题和前端代码的兼容性问题,因此在真实用户使用环境中,对真实用户
35、的浏览器性能和兼容性优化变得非常重要。浏览器性能监控须以操作为导向,了解在大样本用户的情况下,用户在各类操作场景下操作响应情况。浏览器性能总体分析浏览器响应的快慢是影响用户体验的关键因素,在早期的浏览器中,由于没有提供性能监控的接口或者接口没有形成规范,导致浏览器的性能测试变得异常困难,需要开发人员使用侵入式的JavaScript代码检测DOM事件的发生时间,加重了开发者与测试人员的负担,还有可能因为检测代码本身的潜在问题影响页面的性能,不同的浏览器对Javascript、CSS渲染能力、HTML5规范支持差异较大。W3C Web性能工作小组与各浏览器厂商都已认识到性能对于web开发的重要性,
36、为了解决当前性能测试的困难,W3C推出了一套性能API标准,各种浏览器对这套标准的支持如今也逐渐成熟起来。这套API的目的是简化开发者对网站性能进行精确分析与控制的过程,最终实现性能的提高。W3C性能工作小组规范簇利用W3C这套API的规范,可以精确的提供浏览器性能总体分析能力。目前部分规范还在草案过程中,由于性能分析的重要性,在Web性能应用较多的是Navigation.Timing和Resource.Timing,各大浏览器厂商支持得最好。除了监测浏览器的性能外,还需要监控用户的行为,找出用户行为与响应时间的关系,并提供Apdex指数判断当前应用一段时间的应用性能趋势;可以按照浏览器、操作
37、系统、运营商、地域等角度分析慢操作数的分布情况,并提供排名显示哪些浏览器版本、或操作系统版本性能最差。按地理位置展现访问情况 操作响应时间分析针对已标记的页面和页面元素,需支持按照页面重定向、链接、表单提交、Ajax请求等不同操作类型自动进行聚合,并提供操作响应时间分析:访问分析分析的内容包括但不限于以下指标:操作平均响应时间平均用户可操作时间操作数网络时间URL重定向时间DNS时间TCP时间服务端时间请求时间回应时间客户端时间DOM加载时间DOM处理时间页面渲染时间吞吐量Ajax响应时间请求时间回应时间回调时间不满意用户抽样针对操作慢的用户,提供用户抽样的能力,了解其所在的区域、使用的浏览器
38、类型及版本、运营商、分辨率、终端类型等信息。提供图形化的界面对不满意用户进行响应时间分解能力,包括Unload、Redirect、TCP、Request、Response、DOM、Page Rendering等各个阶段耗时;提供不满意用户的资源加载信息,包括Js、图片、样式、XHR请求等各类资源的加载时间。浏览器加载时间线JS错误监控错误情况总体分析提供浏览器端JS错误总体分析能力,显示当前应用JS错误次数与操作次数的关系;可以按照浏览器、操作系统、运营商、地域等角度分析JS错误的分布情况,并提供排名显示哪些浏览器版本、或操作系统版本错误发生最频繁。错误总览视图错误分析提供JS错误聚合能力,把
39、相同类型的错误统一聚合处理,统计其发生的次数并提供解决状态的管理能力。错误列表视图针对发生JS错误的用户,提供用户抽样的能力,了解其所在的区域、使用的浏览器类型及版本、运营商、分辨率、终端类型等信息,了解错误发生的规律。提供图形化的界面对错误用户进行分析,定位错误信息的详情,并定位到堆栈的行和列;错误分析视图错误堆栈分析用户行为监控用户会话总体分析提供用户会话的总体分析能力,显示当前应用用户会话数与操作次数的关系;可以按照着陆页、操作系统、运营商、地域等角度分析会话的分布情况,并提供排名显示哪些浏览器版本、或操作系统版本使用的用户最多。用户会话分析用户会话追踪分析提供用户的聚合能力,把同一个用
40、户的会话信息进行统一的聚合处理,提供列表式展现,能查看最后一次访问的用户。真实访问用户列表视图提供真实用户属性接入API,把系统访问的用户相关属性如Email、部门、姓名等真实情况接入到监控系统中,提供时间线分析最近一段时间用户的访问行为,具体可以分析每一天用户在什么时间什么页面与什么页面元素产生了什么类型的交互。真实用户接入API及数据模型可视化埋点通过自动化跟踪用户与页面的交互过程,自动全量采集各页面及操作的相关指标。可视化埋点需提供完全可视化的操作界面,支持标记站点中关键的页面和页面元素。对于页面标记而言,支持按照通配符定义URL匹配的规则,便于对单个或页面组进行定义;对于元素标记而言,
41、自动识别其唯一性,并可以附加文本条件确保其唯一性,支持对元素命名并指定其所属的页面或页面组。基于系统自动化采集各页面和操作的相关指标,可以对历史数据进行即时呈现,允许在标记的同时展现某个页面或页面元素的历史趋势。“埋点”界面统一告警管理对告警事件进行统一的处理和分析,将IT环境中产生的异构、复杂且关联的事件信息通过集中的处理平台进行格式化、过滤、归并和关联分析,并将处理结果发送给管理人员,帮助管理人员对各种事件进行有效的分析和后续处理。统一告警台支持对各类监控系统告警的集中处理与预警,包括:事件过滤、压缩、归并、升级等告警事件处理。告警事件处理过程事件标准化:标准化的过程也是一个事件接收的过程
42、,统一事件平台可以接收各类标准的SNMP TRAP/SYSLOG的告警事件,同时也可以根据指定接口接收事件。平台对所有接收的事件进行格式化、标准化。事件过滤:如果不是用户关心的事件或不能通过事件过滤器,则该事件会被丢弃,从而节省大量的处理时间和存储空间。用户可在管理控制台上建立过滤规则、修改过滤规则以及删除过滤规则等。事件压缩:在该阶段确定同一事件是否巳发生多次、是否是重复事件、重复事件发生多少次才可以进入下一个处理过程、事件优先级别设定等。事件丰富:可以从外部文件或者CMDB获取相关信息对事件进行丰富,使事件信息描述能够更加详细、清晰和易于理解,比如:定位并增加告警的设备负责人和地理位置信息
43、。事件关联:确定该事件是否是某一事件关联定义的一部分,如是,是否关联事件巳发生。如关联事件发生,则产生相应的服务可用性报警。同时,统一事件平台可以借助CMDB影响关系进行事件关联推导。事件通知:当接收到告警事件后,可以支持短信、邮件、声音等通知机制,及时通知管理人员。操作自动化建设运维自动化软件,将系统巡检、环境自动化部署、应用发布、运维操作等作业等实现自动化。把过去人工的执行转为自动化的计算机操作,提供运维操作效率,并规范操作,减少人工误操作带来的风险,从而降低IT运维成本,提升IT运维质量。按照逻辑内容,操作自动化应包括资源发现、操作管理、编排管理、作业管理及作业执行调度,实现运维自动化任
44、务。自动化平台资源管理操作自动化平台需要提供资源配置的自动发现能力,将发现的资源信息存储到资源库,应具备所资源配置自动发现能力,能自动收集所纳管主机和所部署服务的配置信息,内置标签和自定义标签能力,以便快速查找定位资源。另外,系统需要能通过服务集成接口将自动发现的资源配置信息同步给配置管理库(CMDB),以便实现配置统一管理。文件仓库系统需内置文件仓库,并内置常用的标准安装文件和镜像。支持用户自行上传添加文件,也支持文件直接下载。自动化操作系统支持面向:软件应用安装、例行巡检、常规作业、响应支持、优化改善等运维工作操作自动化脚本库,也可以根据操作管理要求通过脚本创建各种原子操作,脚本可支持Py
45、thon、Shell和Windows的批处理脚本。云数据中心各层资源自动化运维操作场景如下:资源层技术方式自动化操作场景L6业务系统自动化代理应用部署L5系统应用(数据库、中间件等)自动化代理软件安装、参数调整、配置采集、服务启停、L4操作系统自动化代理服务启停、参数调整、配置采集、文件管理、账号管理、系统关机与重启、L3IaaS云平台API资源启停、模板管理、参数调整、配置采集L2虚拟化层API资源启停、参数调整、资源销毁、配置采集L1服务器硬件IPMI服务器启停、状态与性能巡检、配置采集作业管理系统具备可视化流程编排的能力,通过资源、操作、文件仓库三者结合实现面向运维场景的作业编排能力,支
46、持参数输入及多样化结果输出。作业任务支持多主机分布式并发执行,可高效执行编排作业,能详细记录作业执行过程,可动态查看作业执行过程,可按执行目标主机回放查阅执行日志。自动化总览系统还提供了全局作业总览,直观呈现了自动化作业的各方面情况,包括管理了多少资源、做了那些操作,操作的状态以及重点作业任务的当前执行情况等,方便管理层了解IT环境中运维自动化和任务执行情况:作业总览运维自动化场景应用安装部署系统支持数据库(Oracle/Oracle RAC、Mysql、DB2、MongoDB等)、中间件(Weblogic、Apache、Tomcat、Ngix等)、应用(Web应用)的安装部署。应用软件部署系
47、统巡检系统支持对各类资源进行自动化的巡检,及时发现资源的运行参数和状态,自动化巡检通过编写相应的脚本,获取相应的参数,并生成相应的巡检结果报告。合规检查支持依据公安部的安全管理规范及风险预警制定自动化作业,实现自动化合规检查。故障自愈系统支持通过对脚本的编排,单发生复合预设规定的故障信息是,支持手工或条件触发故障自动恢复作业,实现对故障的自动恢复。运维自动化整合同时运维自动化平台与监控系统、CMDB、流程系统可以实现整合。:与监控系统:为监控系统提供自动操作API,实现自动排障能力。与配置管理库:将自动发现的资源同步给配置库,同时提供接口实现基于配置库的集中操作。与流程系统:流程中心提供自动操
48、作API,实现运维流程的自动化执行。运维管理流程运维服务管理的目的是通过规范服务流程和技术服务工作,建立一套标准的运维服务流程,围绕事件管理、问题管理、变更管理、配置管理、发布管理等ITIL最佳实践内容,实现IT运维服务的流程化、标准化管理。通过建立并完善知识库,实现知识共享,从而提高信息服务效率和用户满意度。运维服务流程全景图服务台IT运维工作面临的问题纷繁复杂,很难及时作出合理的安排运维流程管理,从而引发重点事件的遗漏,影响了事件解决的速度和质量。值班服务台是IT运维人员与业务部门或用户之间的唯一接口(SPOC,Single Point of Contact),包括值班信息、通知公告、待办
49、工单、告警监控等功能。值班人员借此集中受理用户的服务申告,查看IT系统故障,从而帮助IT运维人员及时、准确地掌握各类事件告警,使用简便的操作进行后续处理。服务台服务目录服务目录定义了技术部门能够提供什么样的服务,并能够按照商业目标和需求定义这些服务,如服务的时效性、质量等,并通过服务协议来进行约束,从而保证业务部门能够按照约定好的协议享受相关技术服务。通俗的来说,如果把IT服务商比喻成一个餐厅,那么这个餐厅的菜单就是服务目录,技术部门呈现给客户是的服务目录(菜单),客户来点菜,这就是服务产品化,通过服务目录,可以使技术部门知道自己能够提供哪些服务,使IT客户清楚自己能够享受什么样的服务,它是基
50、于运维服务商本身的,但是又面向广大客户的。系统支持电子化服务目录管理,能够根据用户实际管理需要,定义服务项目、服务目录以及服务目录的各项属性。服务目录管理典型的服务目录包括:一级目录二级目录服务请求管理技术分析服务请求咨询请求常规数据提取服务请求紧急数据提取服务请求紧急业务调整服务请求常规业务调整服务请求报障管理操作系统故障报修网络线路报障服务硬件设备报障服务应用系统故障主机系统运维数据迁移服务系统虚拟化服务主机系统安全评估服务灾难备份的方案服务器存储整合服务系统性能优化服务IT工程师常驻服务网络技师外派高级网络工程师外派中级网络工程师外派远程IT服务系统优化网络安全网络系统运维网络监控网络组
51、建网络规划企业桌面支持电脑及外设维护ITSM流程事件管理事件工单流程是负责解决IT服务的突发事件、问题、投诉和客户请求等的运维流程,其主要目标是事件的调查分析、跟踪监督、记录、服务恢复、终止和归类,力求在最短的时间内处理故障和恢复IT服务运作,尽量避免或减少事件对客户造成影响,提高客户满意度。通过对事件的管理可以快速响应用户请求,解决突发事件(包括:服务请求、重大突发事件、所有其他事件),从而保证优良的服务水准。系统支持定义事件请求的模版,同时支持通过模版自动创建事件请求;此外,能够支持从电话、WEB等途径接受事件。事件工单问题管理问题工单流程是一个变被动为主动的管理流程,通过寻找故障的根本原
52、因并进行解决减少生产环境中类似突发事件的发生,将业务系统内部缺陷导致的负面影响降到最低限度。通过问题管理流程,由专家分析相关事件,选定频率高、影响大的事件,进行原因分析;然后生成变更请求、变通方法或建议的预防性措施来防止类似事件的再次发生。问题工单流程就是要找到故障的根本原因、设计解决方案、排除隐患、彻底排解故障根源,以挖掘问题、表达问题、归结问题、处理问题为基线的系统的问题管理方法,其最终目的是保持IT环境的稳定。系统中问题管理模块的主要功能是完成问题(包括事件升级生成的问题、主动创建的问题等)的申报、初步审核、分派、处理、关闭,以及问题的统计和查询等。问题工单变更与发布管理变更和发布工单流
53、程将通过统一的方法和步骤来管理和控制所有对业务系统环境有影响的变更活动。通过执行标准变更流程,对所有导致变更的操作进行正确评估和实施,从而维护IT生产环境的完整性,稳定性,降低风险。变更和发布工单实现所有IT基础设施和应用系统的变更,对维护过程中信息系统基础架构和服务所作出的各种改变,如增补、移除等进行控制,对所有要求的变更进行分类,评估变更请求的风险、影响和业务收益,并对变更进行记录。以最小的干扰实现变更,确保采用严格受控的方式对变更进行评估、批准、实施和评审。变更来源包括事件、问题和外部强制性要求的被动反应,或者是主动寻求提高服务效率和效果的需要,通过某些配置项或服务的变更,可以向用户提供
54、更为优质的服务。变更与发布工单服务请求管理支持服务请求受理、处理、退回、升级、提交、评价的基本流程,支持协同处理,并满足在核心节点、各关键节点相关角色间的顺畅流转;流程可根据实际需要自定制。流程同时能与服务目录进行对接。服务请求流程支持全过程直观展示,支持关键环节的邮件通知、短信通知,提供手工通知、督办提醒手段。服务请求流程支持与知识库联动,提供辅助信息,支持直接转化为知识。巡检管理巡检工单流程是指对IT环境中网络和系统的日常运行维护工作进行管理,是信息系统运维中周期性的、相对固定的日常维护作业的管理。其主要目的是规范日常作业计划、作业内容、规范维护人员行为、为人员考核提供基础数据。巡检工单流
55、程承担应用系统日常巡检、计划任务完成情况检查、数据备份与恢复、磁盘空间管理、建立新用户、管理用户口令等日常运作管理任务;并定时对机房基础设施、服务器、存储备份和网络等硬件设备进行人工或自动巡查,记录基本运行参数。系统提供灵活的巡检管理和自定义功能,能够根据用户不同的管理制度和管理环境设计符合实际需求的巡检管理制度和作业模板,一般来说,巡检管理主要包含三个环节,首先制定巡检计划,其次安排人员按照计划执行电子巡检,此外,考虑到客观环境的不确定性,建立临时巡检管理,以应对各种突发事件,确保日常巡检和特殊巡检均得到有效执行。新建作业工单知识库IT服务管理的目的不仅仅是规范、记录、管理工作,而且要帮助各级支持人员提高技能水平,简化IT服务任务,降低对具体个人技能的依赖程度。这些需要通过知识经验的积累和共享来完成,遵循“录入审批发布”的管理流程,实现运行知识的有效共享。支持根据知识库分类的统计和权限分配,并支持对知识库信息的全文检索。知识检索业务流程引擎系统运维流程管理充分遵循ITIL管理理念,符合WFMC国际标准,具有流程灵活跳转的特性,支持流程自定义,经过简单的定制配置,能够通过拖拽实现流程自定义功能,定义流程跳转、流程环节的执行人、流程环节的执行优先程度等。协调组成工作流的四大元素,即人员、资源、事件、状态,推动工作流的发生、发展、
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论