2022年软件系统平台运维服务技术方案_第1页
2022年软件系统平台运维服务技术方案_第2页
2022年软件系统平台运维服务技术方案_第3页
2022年软件系统平台运维服务技术方案_第4页
2022年软件系统平台运维服务技术方案_第5页
已阅读5页,还剩180页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、软件系统平台运维服务技术方案目录 TOC o 1-5 h z HYPERLINK l bookmark6 o Current Document 1系统运行管理方案5 HYPERLINK l bookmark8 o Current Document 1监控管理5 HYPERLINK l bookmark64 o Current Document 1.2运维管理49 HYPERLINK l bookmark90 o Current Document 2项目实施管理过程94 HYPERLINK l bookmark92 o Current Document 1总体计划94 HYPERLINK l b

2、ookmark94 o Current Document 2.2项目计划94 HYPERLINK l bookmark96 o Current Document 2.2. 1获取约定94 HYPERLINK l bookmark98 o Current Document 2. 2.2编制项目计划94 HYPERLINK l bookmark100 o Current Document 2.2.3项目跟踪95 HYPERLINK l bookmark102 o Current Document 2.3软件开发96 HYPERLINK l bookmark104 o Current Documen

3、t 2. 3.1组织标准软件项目生命周期研发项目 97 HYPERLINK l bookmark106 o Current Document 2. 3.2组织标准软件项目生命周期工程项目 99 HYPERLINK l bookmark108 o Current Document 2. 3.3组织标准软件项目生命周期维护项目103 HYPERLINK l bookmark110 o Current Document 2.4项目执行与控制104 HYPERLINK l bookmark112 o Current Document 2.5项目验收与结束106 HYPERLINK l bookmark

4、114 o Current Document 2. 5. 1系统投入使用验收106 HYPERLINK l bookmark116 o Current Document 2. 5.2系统初验107 HYPERLINK l bookmark118 o Current Document 2. 5.3系统终验107 HYPERLINK l bookmark120 o Current Document 2. 5.4项目结束108 HYPERLINK l bookmark122 o Current Document 2.6项目文档资料108 HYPERLINK l bookmark124 o Curre

5、nt Document 2.7软件配置管理109 HYPERLINK l bookmark126 o Current Document 2. 7. 1配置管理计划109 HYPERLINK l bookmark128 o Current Document 2. 7.2基线库管理109 HYPERLINK l bookmark136 o Current Document 2. 7.3配置管理实施流程112 HYPERLINK l bookmark160 o Current Document 2.8质量保证116 HYPERLINK l bookmark162 o Current Document

6、 2.&1参与制订和评审项目的软件项目计划、标准和规程116 HYPERLINK l bookmark164 o Current Document 2.8.2制订项目SQA计划117 HYPERLINK l bookmark166 o Current Document 2.&3评审工作产品117 HYPERLINK l bookmark168 o Current Document 2.&4过程审核1172.8.5 SQA报告机制118 HYPERLINK l bookmark172 o Current Document 2.9风险管理118 HYPERLINK l bookmark174 o

7、Current Document 2.9.1风险管理约定118 HYPERLINK l bookmark176 o Current Document 2. 10项目总体进度安排119 HYPERLINK l bookmark178 o Current Document 11本项目存在的风险分析和控制方法120 HYPERLINK l bookmark180 o Current Document 3系统功能测试和质量保证方案121 HYPERLINK l bookmark182 o Current Document 1 概述121 HYPERLINK l bookmark184 o Curren

8、t Document 3.2质量管理内容122 HYPERLINK l bookmark192 o Current Document 3.3质量管理责任分配122 HYPERLINK l bookmark200 o Current Document 3.4质量保证措施124 HYPERLINK l bookmark214 o Current Document 3.5类似项目案列128 HYPERLINK l bookmark216 o Current Document 4系统性能及压力测试方案129 HYPERLINK l bookmark218 o Current Document 1系统性

9、能129 HYPERLINK l bookmark224 o Current Document 4.2系统结构及流程130 HYPERLINK l bookmark232 o Current Document 4.3性能测试环境131 HYPERLINK l bookmark234 o Current Document 4.4性能压力测试132 HYPERLINK l bookmark258 o Current Document 4.5测试过程及结果描述136 HYPERLINK l bookmark266 o Current Document 4.6测试报告137 HYPERLINK l b

10、ookmark268 o Current Document 4.7类似项目案例138 HYPERLINK l bookmark270 o Current Document 5培训计划和培训方案139 HYPERLINK l bookmark272 o Current Document 1核心业务支撑系统培训方案139 HYPERLINK l bookmark274 o Current Document 5.2高级培训139 HYPERLINK l bookmark294 o Current Document 5.3初级培训144 HYPERLINK l bookmark314 o Curren

11、t Document 6上线实施方案1481 前言149 HYPERLINK l bookmark318 o Current Document 6.2组织与安排149 HYPERLINK l bookmark320 o Current Document 6.3总体计划150 HYPERLINK l bookmark322 o Current Document 6.4应急处理151 HYPERLINK l bookmark324 o Current Document 7系统和数据迁移方案152 HYPERLINK l bookmark326 o Current Document 1 TCIS数据

12、库生产环境152 HYPERLINK l bookmark328 o Current Document 7.2创建表空间153 HYPERLINK l bookmark330 o Current Document 7.3 用户154 HYPERLINK l bookmark332 o Current Document 7.4数据迁移具体流程1557.5类似项目案例156 HYPERLINK l bookmark334 o Current Document 8系统交付部署和验收方案156&1系统部署方案156 HYPERLINK l bookmark350 o Current Document

13、&2项目验收方案158 HYPERLINK l bookmark364 o Current Document & 3验收需提交的交付物清单162 HYPERLINK l bookmark370 o Current Document & 4类似项目案列164 HYPERLINK l bookmark372 o Current Document 9系统上线后续服务165 HYPERLINK l bookmark398 o Current Document 10格式12技术条款偏离表170格式12技术条款偏离表170 HYPERLINK l bookmark400 o Current Documen

14、t 11格式13业务需求与解决方案应答对应表177 HYPERLINK l bookmark402 o Current Document 格式13业务需求与解决方案应答对应表17712格式13业务需求与解决方案应答对应表180格式13业务需求与解决方案应答对应表1801系统运行管理方案1.1监控管理监控管理主要是通过对被管对象的配置数据、性能数据、告警数据的统 一采集,实现对IT基础设施、应用软件以及业务的监控,主动发现被管对象 当前的故障或告警信息并进行处理,保障xxxIT系统的稳定运营。1.1.1 IT基础设施监控IT基础设施监控是指对xxx所有主机、数据库、中间件、网络、存储、 备份等设

15、备及软件进行统一监控,及时发现平台类的告警。1统一采集与控制根据XXX移动核心系统运维监控管理平台技相关的要求,本期IT基础设 施监控数据采集的范围包括各种设备的告警、性能、配置数据。采集范围包括但不限于:IT基础设施监控的管理范围包括xxx所有生产环境的IT基础设施,包括但不限于以下IT基础设施对象:支持类型主机IBMHPSUNPC Server(Windows/Linux)数据库Orac1eSybaseDB2SQLServerInfornixMySq1存储EMCIBMSUNHPHDS网络设备思科华为北电等防火墙fortigate思科netscreen 等中间件WeblogicTuxedoB

16、ES等websphereTomcat备份veritas 等本系统提供的采集代理主要包括:主机设备监控代理、数据库库监控代理、 中间件监控代理、网络设备监控代理、日志监控代理、存储、备份采集代理。主机设备釆集代理:主要通过shell、操作系统命令对主机的性能信息、 配置信息、告警信息进行采集。如CPU使用率、内存使用率、SWAP交换分区 使用率、文件系统使用率、磁盘10等性能信息;主机名、地址、型号、CPU 信息、内存信息、操作系统版本、逻辑卷、内置盘等信息;主机状态、主机内 置盘状态、主机网卡状态、主机Cluster状态、关键进程状态等故障信息;数据库采集代理:主要通过SQL对数据库的字典和视

17、图的查询封装,查 看数据库相关的配置信息、性能信息、告警信息采集。配置信息主要包括:数 据库名、版本信息、归档方式、共享内存大小、表空间大小、数据文件或设备 名等信息。性能信息主要包括:共享内存使用率、数据缓存读命中率、表空间 使用率、表空间读写次数、数据文件读写次数、数据库锁数量、数据库用户会 话数等。告警信息主要包括:数据库状态、表空间状态、死锁等故障信息。中间件采集代理:中间件的类型主要但不限于WEBLOGIC. TOMCAT . WEBSPHERE、TUXEDO、BES 等。主要通过 JMX 对 WEBLOGIC. TOMCAT; PMI 对 WEBSPHERE; TUXEDO自带管理

18、命令对TUXEDO进行监控,通过探测对TUXEDO服 务的可用性进行监控。网络设备釆集代理:主要通过SNMP协议轮询、TRAP两种方式釆集网络设备(路由器、交换机、防火墙等)的配置、性能、告警信息。SNMP轮询方式:通 过SNMP轮询方式,周期性的轮询相关MIB信息(包括公有MIB信息和厂商私 有MIB信息),获得相应的配置数据、性能数据o SNMP Trap方式:通过监听SNMP Trap端口,实时接收来自于网络设备的Trap消息,经过消息预处理后,生成 告警数据。配置数据主要包括设备型号、设备CPU大小、设备内存大小、设备 缓存大小、IP地址等信息;性能数据主要包括设备CPU利用率、设备內

19、存利用 率、设备缓存利用率、端口误码率、端口丢包率等;告警信息主要包括网元状态、 设备端口状态、网络链路状态、域名解析服务、NTP服务状态、IP地址重复等 故障信息。日志监控代理:主要通过对日志文件的关键字进行全量或者增量的检索, 当发现异常关键字时,及时产生信息点,通过分析处理,产生告警,及时通知 用户。存储设备釆集代理:对存储设备进行配置、性能、告警数据的釆集。配置信 息:存储阵列标识、类型、容量、RAID方式、磁盘、主机通道卡、磁盘适配卡 等信息;性能信息主要包括:磁盘10速率、LUN的10速率、磁盘10读写频 率、LUN的10读写频率、CACHE读命中率、CACHE写命中率等;告警信息

20、主要 包括存储阵列状态、硬盘物理状态、硬盘逻辑状态、存储CACHE状态、磁盘适配 卡状态、主机通道卡状态等故障告警信息。备份设备釆集代理:主要采集设备CPU大小、设备内存大小、介质(池) 空间大小、备份服务进程状态、备份结果、磁带库设备机械状态、备份CPU占 用率、备份内存占用率、介质(池)的剩余空间、磁头距最近一次清洗时间等。数据采集图:运维监控管理平台数据采集原理信息点釆集模板界面化配置根据监控对象可灵活配置改对象需要监控的信息点、采集频率等信息, 并支持模板的远程下发、更新。采集代理远程下发、启停与集中监控可在下发采集模板时同步下发采集代理并进行友好的下发过程的可视化 能力,下发后可自动

21、启动采集代理。提供集中的采集设备监控代理运行监控界面,便于维护人员实时监测各 个代理的运行情况,并提供便捷的重启、模板和代理程序更新功能。图:采集代理监控wifitit!t停*111*#你命It X三二三三三三三采集代理组件化封装根据不同的监控对象和采集方式的差异化,对目前的监控代理进行组件化封装:主机设备监控代理数据库库监控代理中间件监控代理网络设备监控代理日志监控代理存储设备监控代理备份设备监控代理-aw-=itnaiorico:_js-.Swry用主机冊&界叱机jdPH5H|BWI ,:、4墨8tCFB 匕.JRPi9JiD LJ即曲mT j5-. 农 “giMSut q FM _;0”

22、,01 件齐itHwwCetasiSeIZ anSil4eIZ sSR刖E3 *WSyDIV!maD itSBtTMKJ图:采集模板下发Q下发实时信息-叭皿!。” Internet Explorer匚|冈localhost正在生成SunOS的监控模板生成成功!正在下发SunOS的监控模板正在连接 192.168. 70.121连接成功! TOC o 1-5 h z soil0X86_SunOS_teinplate, xml模板文件下发完毕! 正在下玮后台相矣文件/ agentDir/ agent / sunPl at forro/MntMoni t or Agent, j ar 文件下发完 毕

23、!正在下玮后台相关文件/ agentDir/ agent / sunPl at form/st artMntMoni t or Agent sh件下发 完毕!MntMoni t or Agent. jar正在启动正在TELNET列 192.168. 70.121TELNET到 192.168. 70.121 成功,正在登录君卡功 7F春朴千砂書求图:模板及代理下发进度提示殛 r Funs a h刍01 示 9 i-tt.123*5a4t tare qi23ei?IX8Sflj|WkM.$5O5jwwwhMX 從tonflxMj! 1x4X34GBAX4SHEfts州ZUB1 $oSat*4s粧

24、MXMWftXSSwiUi图:模板下发日志可追溯冢値11$坯:运口austf主机名6*用比必歹占用比If采删间n5unO5192 1S 70 I2t2DM30M1D-!7f3 34a楼下寂曲图:采集代理集中管控告警处理告警处理是针对来自IT基础设施的告警信息进行统一处理,以便快速确 认故障,缩短排障时间,为及时恢复系统运行打下良好基础。包括:告警定位、 告警过滤、重复告警压缩、告警信息丰富、告警前转、告警操作等。告警定位告警定位是通过对告警信息的查看确定故障可能发生的位置。【主要功能】告警故障定位应与被管对象和被管对象关联关系相结合,应能建立告警 列表展示信息中相关元素和被管对象之间的关系。对

25、于一个告警,可根据这个关 系自动确认发生告警的被管对象,进而查看与被管对象关联的其它对象情况。可以对被管对象的最小粒度进行定位,如应用资源和关键业务点。5HtXtlX*BJCWI23E14!XHW2H2g?0 MSiaI2012 0M9 :30:00皿如冋:20120119JIXiEtise:9Kta0oRW Ct“r r iwrip:nnr) 门 YH 1W1 rg0o图:告警前转告警操作告警操作主要包括告警确认、告警清除、告警级别调整、转事件单等。【主要功能】支持根据告警对象、告警级别、告警类别、告警时间等属性设置自动转事件单的规则。可提供可视化的转事件单规则编辑功能;图:告警派单可提供根

26、据告警的属性字段设置自动确认规则的功能,并能根据自动确认 规则对符合条件的告警进行自动确认,告警确认需要提供灵活的过滤规则,应 能够通过组合不同的告警信息字段设置告警过滤规则。sjzzw11的CPU使用率为:2躍过40%,产生重要吿警,谙关告警刷新告警确认告窖清除告警升级告警批量确认告警扌II故陣牟28.208.86bill_14CPU使用率为:2超过40%,产生重要告警,诸关注,图:告警确认可提供根据告警的属性字段设置自动清除规则的功能,并能根据自动清 除规则对符合条件的告警进行自动清除;可提供可视化的自动清除规则编辑功能, 并且能够对清除的告警设置告警清除标志。护B护告警刷新 告警确认 告

27、警酒除 告警升级 吉警批星确认 告警批| 告警派 故陰单 修改阀 订阅规28.208.86如口啲CPU使用率为:2躍过40%,产生重要告虽详细信图:告警清除根据系统告警已发生时长、告警发生次数方面发生的变化,重新调整告警级别,保证根据正确的告警系统处理的正确性。图:告警升级性能处理性能数据计算与汇总对预处理后的数据进行必要的计算、汇总形成所需的性能指标。处理后的性能数据保存到数据库中,供分析和呈现使用,性能数据的保留时间可配置。针对部分不需要保留较长时间的性能数据,在统计汇总后,可将历史数据进 行清理,减少系统对存储空间的浪费。(批注:与技术规范”预处理完成后的数 据的保留时间,应该根据不同的

28、数据类型进行区分”要求呼应起来)5nrrt mtn 魁”Wf t MJMmewMoes录 1h股血 IA otf EEMZ # Hliau BSLDtWR.CJMLa1 .Q nxui ns/5 m匕ataai it“.mi wmi exm ita m10AMMU/ M*KI:1 W91M怡of f卑1住 H“图:指标计算规则性能数据阀值预警性能数据反映了系统及应用的运行状况,是判别被管资源运行是否正常的 关键数据。性能数据一旦超出预先设定的阀值时,可及时触发性能阀值越限告 警,该告警称为性能阀值告警。提供基于应用系统性能指标趋势数据的分析处理功能,实现性能预警,并 为分析优化工作提供必要的依

29、据。提供设定、查询、修改、删除性能阀值的工具,针对统一性能指标,可设 多个阀值进行分级告警。性能阀值告警的内容应能比较全面地描述该性能数据超出阀值的情况,方 便分析、排除事件。-,系统旧SS(BSS/i+费系扬磺件(HW呼台设备(SRV漏务 ( PCS),计费系统销账应用服务蓟(yCPU( CPU)/cpu基础信息关注角邑关.联关系展示模板健庚度权重菩理健康度评分規则書g管童T实例名称吿善级别风臬值实例畑实例类型第用操作1 0CPUS闲率預警5洱10%)重要甘誓3吐效对象2 0CP咗闲率預警口0%20%)一般告警3己生效对象配置删除3 0CP咗闲率預劃0-珈)严垂甘警3己生效对象图:性能数据阀

30、值预警 性能数据梯度预警系统提供梯度告警的功能,也就是两个时间点的性能数据差值如果超过了 门限,则应该上报告警。这种告警不同于性能数据的阀值告警,性能数据的阀 值告警只是对一个时间点上的性能数据设定了门限,而梯度告警则是对两个时 间点的性能数据的差值设定了门限。梯度告警能够迅速发现性能数据的异常变 化。用户lM点公山-1 ooxM-*MCO.OOftiUtaEMnMii 88 8C9Kannwt osQD QOK3k#aeo0 OBT&0.(0卄IB1加$91 BT-a m事.Ng g3 -ST40 g二图:性能数据梯度预警性能数据汇总统计为了性能数据分析和呈现,以及事件的分析,系统应能定期生

31、成统计数 据。通过分析历史指标的情况,预测未来的发展,提升管理层次,达到面向服 务品质的管理。CPU CPU)开朋间2012-03-19 10 08 51结束时间 2012-03-22 10 08 51査询画导出OOB).e W10010 0011:0012:0013 0014:0015:0016 0017:0018:0019 0(一申弔车Kpu)咅汽cpu占聶HlKpu)空悄车Kpu)|图:CPU汇总拓扑处理拓扑图的生成可支持手工配置或导入,也可通过系统自动发现并注册实现,以上几种方式都是以CMDB为基础,进而获取每个节点在拓扑图中的位置和 它们间的依存关系,从而构建出整个IT运营网路,通过

32、实时刷新拓扑图,可反 映出当前网络中节点的最新状态,帮助运维人员从宏观上对对整个IT支撑系统 的运行情况有直观的掌握,进一步提高运维的效率。拓扑管理通过CMDB对象实例树,可方便的对拓扑图中的节点,及节点间的关系进行 维护,系统支持对节点的增加、删除、修改属性,状态及更改不同节点间的依 附关系等。呼e s K3” J -(Flm10 ” n 二 iw i(2j计g彌EMXA ”m讪I)一fflm1 1LHF:. 11722* JOB .971X231*3HF8 29G RO 2a11事申- 0谀打护A事一82 九135 21-208 图:网络拓扑拓扑监测拓扑监测是根据拓扑模型,对在模型上定义的

33、关键节点,节点关键性能、 质量指标数据进行实时监控,将业务系统运行中出现的告警、预警信息直观呈 现在拓扑模型中,来实现对应用系统运行状态的专题式监控,及时发现用户关 注的异常。支持通过拓扑图关联到应用节点详细信息页面,可根据时间段来查询该节点的告警信息列表,进而进行相关告警处理如告警确认、告警级别调整、告警清除等操作;支持通过拓扑图关联到应用节点详细信息页面,可根据时间段来查询该节 点的历史指标数据,以表格或走势图的方式展现,支持业务指标数据导岀功 能,导出格式包括但不限于文本、EXCEL等文件格式;拓扑视图支持定时无闪烁刷新功能,刷新频率不宜过高,以不影响系统性 能和展现效果为基准,也不宜过

34、低,否则无法达到监测的实时性要求。4 9*6”Q4OCflMOBMMm -血E ixmeem(BS)BHitM一 mID _ysi 河”_ iri22229 亦*flID1削w132.61H45w 】WrIE口“*IEDIBW1$20077m :32.ZXBJCI0.V3a_ IT仪QB 20$依-1EG _VHMUMS usasea-fl)BMaiiMSfll零-申鼻-鼻承-冷20邮-e八一 J 5車m.Z9tH9 4壬2 炖 1图:拓扑监测应用拓扑以IT系统内的业务类型作为索引来组织被管资源的业务拓扑结构。典型的 业务拓扑图是一个树型结构,实现业务与IT基础设施关联关系的直观展现。系 统提

35、供方便的图形化配置修改工具,允许管理维护人员灵活修改相关联资源等基 本配置信息。以下以某电信运维监控管理平台拓扑处理为例:“OCSfttVCMFltiit卜廳W nmrff!QlRA*lQ0ooWl*1HI30QaCRMMWffflwr:RMS时上*虹工WMit川農X書&OCSffABMSLZM3t.U图:操作控制截面图1.1.2应用软件监控应用软件监控是通过对XXX的各IT应用(进程池、进程、接口和数据文件、 日志等)进行监控,及时发现系统应用软件的异常,并确定故障原因,进行故障 定位和处理,保证应用软件正常运行,提高IT应用软件运行管理水平。1进程监控提供对应用进程的监控管理,确保系统可靠

36、、稳定地运行。支持对各进程运 行状态进行监视,能够实时查看进程名称、进程号、进程启动路径、进程状态、 进程说明信息等相关运行信息。当进程异常终止时,能够生成相应告警。在UNIX操作系统上,经常出现由于资源竞争而导致死锁的一些进程,从操 作系统的进程状态上看这些进程是正常的,但从业务功能角度,这些进程实际已 处于僵死状态,因为它们已不能处理任何业务逻辑。运维监控管理平台支持对进 程日志是否增长等方式发现僵死进程并告警。xSttltS次测间主矶名魚用户名你无u?內衿CPV(M1G430I 无 AMlHITPrceptSLP03211605 oqmplfM00e0000无値 2drecvSU0321

37、1U5 wijfipl000000010432 &驱硼 5recv$LPW211M5 wRfwi0000000无eeta业每无伯2入摩W211M5wxjeet0000000104W无0畑皿我愉StP0211605 “qgwx.Mtl0000000超増位业为1043C3 无羽靈SU03211605 叩和*XjMt0000000104JC5 无第乂wratftedb5LP0321160500000001G43Q2 无UMM2骏整fOcmefSIP03211605咒 XjMt0000000图:进程监控图系统支持对某一时刻的进程状态进行记录拍照,在后续时刻发现与拍照记录 不一致时,可按拍照状态复原;发

38、现进程运行状态与拍照状态不符时的及时告警, 通知运维人员。2进程池监控进程池监测是指对若干个具有相关性的应用进程进行集中管理监控,进程池 的主要作用是在有多个客户端并发请求时提高服务器的处理效率。系统能够进程池的配置信息进行管理,包括最大进程数量、最小进程数量 以及进程池对应的日志文件。系统能够通过进程池所应当包含的进程数量等性能数据的处理与分析, 及时发现进程池的异常情况,保障系统正常运行,并为分析优化工作提供 必要的依据。在性能数据处理过程中,保证处理的完整性和连续性。当岀现异常情况时,应能够生成相应告警并转发对应处理人员。3文件积压监控对应用系统间文件类传输接口进行积压监控,及时发现进程

39、异常和接口异常。2. 4应用服务监控提供对中间件的应用服务和ORACLE的job进行监控,当中间件的应用服务 异常,或者0RACLE的job异常时,能够生成相应告警。5侦听监测可集中监测CRM、服务开通等系统后台侦听的运行状态信息,当侦听异常时, 系统可提供集中的操作功能,重启目标侦听进程。ntwwt於蹄1/TlDri*w/i*S9Uief/rifyiiK r0wi pl4正寓/TtltlVt3Z010-0?-14 ZQ vr/isl*i(/riafecicMeK八w t4正第txn/T1E32010-W-K 20 40 0003诅行ZTtld*!应0010-0-K 20 0 00 04/TI

40、Dfpi4正第32010-0-K 20 0 000耐火哎uae.t wi5/Tlri. 10-0-| 20 luf/fpl4正第iMUe2010-014 20 000K3X丘 Mj&sa.t 8旳T/TlDrrtr/iBd*9rAblM rprti*i Nxn/TtldVifzoimia 20 U正第Ue2010-0-K 20 vr/im1iCAriMp yepf Uf Usxn/TUdVCmaow-w 20 x,如|4正策谊行ZTJg3zwseia so oooMfag性 UASSJt fi旳U/TdDnvtt7iM*x,r/2X*Zz0r14正冨stn/TUd*(10-0-|4 20 0

41、00 0t&.u ;KXiaeifl12/TtltOrpM正第itn32010-0-K 20 8 00 0tfeigf?Um13正第/TldVltZOIO-O-14 Z0 U正第/TtlefriCm2010-0-K E 8 00 0Mfcugf? llj&BWt 6 旳1$A*lWutAritfii4正冨注行ZTlT*lZ01SW 20 0 00 0Bftl知KKff&怕ie/TlOr*(r/isUufAriftprtKf iZMr*Pr4正第址仃ZT】gtM2010-0-K 000Mfcu好伶Ifii)19/Teldl-|4 -I4 20 0 2MlK7B51003)1(H-14 TO 0

42、i3皿zww$00201(HF-K :0 0 4-14 20 0 ebSY2正葛rWMT-14 n 8 if52S0020l0-0-|4 JO 0 IW5IS00siOW ro 819ct5T1zwra5VblcwM00201(H-U :0 0 10reiJEWr5lZ00zoiok n 8 11cr5T.gr9TUcrv5lK002010-K 10 0 12er5TMrW$TM003010-14 ro 0 I13zwZZ002010-W-K 20 0 Mr*0Kr9rd12003)10-|4 Tt) 0 119K0正*f012002010-W-K 20 0 iecr0Y2 iITaraflV

43、.Mzwr9Vt4“四莎12002010-W-K 20 0 10XX1200Z0l0- lwMlZWxvtBli012002010-W-I4 0 0 MfWVtet4 Vt n4f2fm41fwSB0K*0i9R929tmet a tAseuxfNr*w4BrSI92toeeit(mR02Mmoie A -hmg0vatcar . CM& w0MitOMi .cUmJB0Xitoftca. UULJttftitll畑Ean0 xattait0 丄 倉住fVra3B0tatoi图:各接口服务响应性能对比监测Mtr b 0尺2*1图:接口服务响应性能趋势分析(分时及历史分析)1.1.3业务监控业务

44、监控主要是对XXX业务受理、充值缴费、停复机等端到端的客户感知 度强的业务流程进行监控,主动发现这些业务流程中影响客户感知度的因素, 如开通时长、充值可用性等,并不断优化系统,逐步提升内外部客户的满意度。业务监控主要包括对业务建模、业务运营指标实时监控、业务运营质量分 析、业务可用性探测等。1业务建模业务活动模型的要素包括业务关键点、业务指标、关键点间的关联关系, 业务活动模型是指通过对业务进行梳理,建立业务过程模型描述关键点间的逻 辑关系,并以过程模型为基础描述业务关键点与指标的关系,关键点间的关联 关系。构成业务关键点、业务指标、关键点间关联关系的多维关系模型。业;!x业侈嚟图:业务建模图

45、业务活动建模釆用从业务活动监控需求出发、至上而下的方法,建模从过程 上大体可以分为以下几个步骤:梳理需求、建立过程模型、建立关键点与指标的 关系、建立关键点间的关联关系。业务过程建模业务过程建模首先通过对关键业务的流程梳理,确定业务处理过程中的监测 关键点,以业务处理过程的视角描述关键点之间的关系,形成业务处理过程模型。 然后根据监测需要建立相应的监测指标体系,指标通过对业务基础数据的抽取和 计算,来体现业务关键点的业务状态。业务过程建模的方法:7业娄购关联关系,厂z贰一丿J06W*KCTT曲Qrvw*aSID 131Q向 g* QQ *S3BCflG* : J/ 1图:业务建模过程图建立关键

46、点与指标的关系根据过程模型,遵照规范化思想建立关键点与业务指标之间的关联关系。对于所抽取的业务过程关键点,抽取关键业务指标,如业务处理量、积 压量、处理效率及业务准确性指标,抽取的关键业务指标能够对关键点的业务处 理状态进行直观准确反映。建立关键点与指标的关系包含以下内容:在每个关键流程点上,根据需求模型,抽取关键业务指标,指标包括基 础的KPT指标和综合性的KPI指标,指标要落实在具体的关键点上;关键点指标的抽取从关键点本身的监控需求出发,也要兼顾关键点间的 关联关系,考虑到对整个业务过程的监控分析需求;定义相关业务指标的采集周期、维度、采集方式、方法,从业务监控的 需求和业务实际情况出发进

47、行综合考虑,在尽量体现业务活动监控实时 性要求的同时,也要充分评估对生产系统的影响。标;1 riHMh HEWy Am0 X .pf JMa El w旧*:X1 * V2MW.CjKOFIJM.M.TKOCOFTRJCAl厂Xa ? mxmM 识63nwHswa二* -urnrv uftwsiorw (tsmm fww rrwW M Bm描述不同关键点同类指标间的关联关系,形成整个业务过程的监控分析 要素;描述关键点与整个过程同类指标间的关联关系。追al标 2/Z业雷2/业為W4系 关 Sr 关A图:业务建模关联关系图业务支撑关系建模业务支撑关系建模主要是指对业务与模块、业务与底层的IT基础设

48、施以及 应用之间的关系进行梳理,建立业务的支撑关系模型,描述不同层次之间的物理 和逻辑支撑关系,从而把业务的可用性和业务状态,与支撑业务的模块以及底层 IT基础设施和应用的状态关联起来,构成业务与模块的支撑关系模型以及业务与 应用、IT基础设施支撑关系的模型。业务支撑关系建模主要包括支撑关系模型管理、指标聚合规则管理、告警影 响规则管理、告警关联规则管理等。支撑关系模型管理关系模型管理是以数据模型的方式在系统中建立业务与应用及IT基础设施 的关系模型,并在系统中以模型的方式进行存储。关系模型管理支持如下功能:O在配置数据库(CMDB)中完成配置项关系建立时,能够将关联关系模型自动传递到业务支撑

49、关系模型中,以便实现模型自动生成功能。能够实现业务支撑关系模型的增加、刪除、修改等基本管理功能。个 能够提供图形化界面新建、编辑、删除构成业务支撑关系模型的各类监控对 象,如服务器、中间件等监控对象。O能够在业务支撑关系模型中设置监控对象的指标过滤规则,以便将与业务有关的指标信息在模型中呈现出来。O能够在业务支撑关系模型中设置监控对象的指标告警过滤规则,以便将这些 影响业务状态的告警信息加载到模型中,过滤规则能够灵活的基于告警事件 的不同字段进行设置,并能够基于多个字段组合设置过滤规则。*尸 Wb*1 wzwrwMl討“*5图:业务建模关联关系图3. 2业务数据采集数据釆集功能统一走统一采集与

50、控制模块。针对端到端业务数据的采集,本产品主要提供两种数据采集方式:(DJSON文件方式:由被监控业务系统按照运维监控管理平台的约定要求, 定时生成JSON文件信息点,并主动ftp到运维监控管理平台指定的采集目录, 由运维监控管理平台负责实时解析、预警、入库;(2) JDBC方式:由业务系统提供特定权限的数据库访问用户,运维监控管 理平台通过JDBC使用该用户连接到业务系统数据库,利用JOB并通过SQL语句 或者存储过程实现对业务数据的定时采集。3. 3业务运营指标监控业务运营指标监测是通过业务监控视图将业务运行中的各个关键点的业务 指标数据以及支撑业务的底层IT基础设施和应用的性能指标数据加

51、载到业务模 型上,并对这些指标数据进行预警分析生成告警数据,将告警状态呈现在业务模 型中,来实现对业务运行状态的实时监测。业务运营指标监测按照功能可以划分为:业务过程指标监测、业务支撑关系 监测。业务过程指标监测业务过程指标监测是指根据业务过程模型对各关键点上定义的关键业务指 标以及整个业务过程的关键质量指标数据进行监控,如订单处理失败率、平均处 理时长等数据,并对这些业务数据进行预警分析生成告警信息,将告警状态呈现 在业务过程模型中,来实现对业务流程运行状态的实时监控,及时发现业务流程 中出现的异常。业务过程指标监测功能应以业务监控视图的方式展现。业务监控视图应可以针对不同的业务构建出不同的

52、视图。业务监控视图能够提供拓扑图的方式来呈现具体的业务流程图,包括业 务流程、关键点以及关键点间的关系等信息。业务关键点上应可以实时展现该关键点所关联指标的即时数据,包括基 本监测指标数据以及根据基本监测指标运算出来的聚合指标数据。如: 指标A为新装开户工单开机成功数,指标B为新装开户工单开机失败 数,则聚合指标C新装开户开机工单失败比例=B/(A+B) o能够实时展现反映该业务流程整个过程的关键业务质量指标数据。该指 标数据一般由各个业务关键点同类指标聚合得到。比如整个业务过程的 业务处理时长为各个关键点业务处理时长的加和。指标应具备预警机制,当某个指标的当前值超出了预警阀值,系统能够 自动

53、生成业务告警信息,通过短信、声音、邮件、网站列表等方式主动 通知业务人员或者相关维护人员及时解决问题。反映到业务过程模型 上,则该指标所属的关键点能够以不同的颜色展示不同级别的告警,当 该告警事件被清除后,系统应能自动将该关键点恢复成正常颜色。业务过程指标监测应具备单实例监测以及总量监测的功能,单实例监测 主要是指监测的业务指标对象为单个实体,如监测订单处理时长指标, 则需要监控具体每一个订单的处理时长;而总量监测是指监测的业务指 标对象为多个实体的总量数据,并不需要细分到单个实体,如订单平均 处理时长指标、订单受理失败量等。单实例监测和总量监测是通过监测 指标采集数据的属性来区分的。业务关键

54、点详细页面可根据时间段来查询该关键点的告警信息列表,系 统支持自动和手工进行告警确认、告警级别调整、告警清除等操作。业务关键点详细页面支持根据时间段来查询各关键点业务指标在该段时 间内的数据,以表格或走势图的方式展现,支持业务指标数据导出功 能,导出格式包括文本、EXCEL等文件格式。业务监控视图支持定时无闪烁刷新功能,刷新频率不宜过高,否则影响 系统性能和展现效果,也不宜过低,否则无法达到业务过程监测的实时 性要求。业务支撑关系监测业务支撑关系监测是指根据业务支撑关系模型对业务以及支撑该业务的业 务模块、底层IT基础设施和应用的状态进行监控,并对这些业务数据进行预警 分析生成告警信息,将告警

55、状态呈现在业务支撑关系模型中,根据定义的业务影 响规则来实现对业务的影响性分析。O支持以拓扑图的方式分别呈现业务与业务模块之间的支撑关系模型和业 务与底层IT基础设施以及应用的支撑关系模型。O业务支撑关系监测是通过业务监控视图来呈现的,系统能够提供图形界 面,灵活的定义业务监控视图,在定义过程中,应可以选择视图呈现的 元素、背景颜色、父节点显示层次、子节点显示层次等。O能够将彩响业务的性能指标信息加载到对应的监控对象中。能够灵活的设置告警引起的监控对象可用性状态规则,可用性状态应至 少包括可用、劣化、不可用等状态,并能针对不同的可用性状态设置不 同的展现颜色。能够将可用性状态加载到对应的监控对

56、象中。O能够根据告警关联规则实现告警的关联过滤。在业务监控视图或告警列 表中,当多个被管对象均触发告警时,系统可根据告警关联规则,找到 多个告警信息中的根源告警并突出显示,并能展示各告警信息之间的衍 生关系以实现告警的根源发现。O应能根据业务影响规则来判断当底层IT基础设施以及应用出现故障时 将会对哪些业务产生什么级别的影响。O监控对象详细页面可根据时间段来查询该元素的告警信息列表,系统支 持自动和手工进行告警确认、告警级别调整、告警清除等操作。O业务监控视图支持定时无闪烁刷新功能,刷新频率不宜过髙,否则影响 系统性能和展现效果,也不宜过低,否则无法达到业务监测的实时性要 求。3. 4业务运营

57、质量分析业务运营质量分析是在业务建模和业务运营指标监测的基础上对业务过程的状态变化情况进行跟踪,对各关键点指标数据以及业务过程关键质量指标数据通过异动、趋势、对比、构成等分析方法来实时或准实时地发现业务异常,及 时掌握业务运营质量,并对业务未来变化趋势进行预测,提前发现业务可能出现 的问题并及早做出预防措施,找出影响业务的主要因素,解决问题。可以考虑的分析方法包括:异动分析:通过对当前业务指标数据与历史指标数据或业务指标预测数据的 对比,发现业务活动的异常,作为业务问题进一步分析的出发点趋势分析:对关键业务指标的历史数据进行特定周期的趋势分析,反映关键 业务环节业务活动质量的变化趋势& 00%

58、7.00%& 00%5. 00%4.00%3.00%2. 00%1.00%0. 0熊富 135791113151719 2123 252729 时间t-处円坏山妃玫处円I辛亠处丹3卩”熄处丹17纟:图:趋势分析示意图对比分析:业务流程中,有些关键点的指标之间有相似的变动趋势,可以通过比对指标之间的变化趋势,发现某个指标的异常变化构成分析:业务流程中,有些指标之间有构成关系,可以根据业务经验发现 基本一致的构成比例,如构成比例曲线发生异常,则应及时展开分析图:构成分析示意图3. 5全流程可用性探测全流程可用性探测是通过模拟客户端运行全流程业务的过程以及模拟外部 系统调用服务的过程,以界面、短信、

59、服务调用等方式针对全流程业务进行探测, 从而对业务可用性状态、响应时间及其他指标进行实时监视。全流程可用性探测使用业务建模中已经设置好的业务流程顺序,采用仿真 Socket、Http. WebService.短信、客户端程序等数据交易的方式直接对全业务 过程发起模拟探测,模拟产生业务交易并分析交易最终结果,从而发现关键业务 流程潜在的性能和可用性问题,建立预警机制,并通过系统监测生成告警事件。通过分析探测结果,发现关键业务流程中潜在的性能及可用性问题;同时建 立预警机制,生成可用性探测告警事件。通过模拟端到端的请求,替代传统的人工检查,弥补系统监控管理的缺陷, 先于系统使用者找出业务流程的隐患

60、。探测用例管理探测用例管理提供对探测用例和探测动作的定制、修改、删除。每个探测用 例包含若干探测动作,每一个探测动作表示探测时对相应服务接口发起一次服务 请求,针对每一探测动作都要记录其探测结果,并对毎个探测结果依照参照标准 进行判断分析出告警。对用例管理功能如下:1)能设置并保存对不同服务接口、页面发起探测的频率、发起时间等探 测操作参数;2)一个用例可包含若干个动作属性,可根据每个动作的执行结果决定后 续的触发动作或终止用例;3)每个用例均可支持定时调度和手工调度两种方式。定时调度按照配置 的探测频度和时间要求,发起探测动作;手动调度则可根据需要发起即时探测 动作。手动调度功能可在某个时间

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论