




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、技术方案目录录2目1.运维软件的.91.1.运维管理的三个转变91.2.智慧运维给用户的价值101.2.1.落实等级化管理101.2.2.落实管理经验积累111.2.3.从数据挖掘实现隐患分析121.2.4.支持持续管理建设131.3.智能运维的特色功能141.3.1.智能拓扑141.3.2.智能. 151.3.3.智能基线151.3.4.智能策略161.4.项目效益分析171.4.1.管理效益171.4.2.实现绿色模式171.5.北塔软件公司介绍181.5.1.创新181.5.2.大量优质案例192/91技术方案1.5.3.参与标准制订191.5.4.服务能力191.5.5.竞争力192.
2、整体技术方案介绍202.1.建设目标202.1.1.建设思路202.1.2.建设内容202.2.方案介绍212.3.方案详细介绍222.3.1.平台介绍222.3.1.1.分布式器232.3.1.2.运行摘要242.3.1.3.日常运维252.3.1.3.1.运维等级管理252.3.1.3.2.停机检修管理262.3.1.3.3.软件操作审计272.3.2.智能运维引擎272.3.2.1.运用等级概念实现差异化管理272.3.2.2.学习基线实现业务异常. 282.3.2.3.智能策略实现管理实例落地282.3.3.系统智能运维303/91技术方案2.3.3.1.预置智维管理方案302.3.3
3、.2.智维. 302.3.3.3.智维越界提醒策略312.3.3.4.客户化分析策略定制322.3.4.故障管理322.3.4.1.告警管理332.3.4.1.1.便捷的规则设置332.3.4.1.2.高效的告警提醒机制332.3.4.1.3.清晰的告警. 342.3.4.2.知识库管理352.3.5.网络管理352.3.5.1.网络拓扑管理352.3.5.1.1.拓扑生成352.3.5.1.2.拓扑图展现362.3.5.1.3.个性化拓扑362.3.5.1.4.结果展现直观362.3.5.1.5.界面美观362.3.5.1.6.操作便捷372.3.5.2.UPS 管理382.3.5.2.1.
4、性能382.3.5.2.2.内容384/91技术方案2.3.5.3.网络配置管理382.3.5.4.网络管理报表392.3.6.系统类管理392.3.6.1.主机管理392.3.6.1.1.标准主机日志管理412.3.6.2.数据库管理422.3.6.2.1.Oracle-RAC 管理452.3.6.3.中间件管理462.3.6.4.标准应用管理492.3.6.5.设备性能分析502.3.6.6.系统报表512.3.7.虚拟化管理522.3.7.1.呈现虚拟化对象健康性522.3.7.2.预防容量枯竭542.3.7.3.保障容量有效使用542.3.7.4.明细容量分配552.3.7.5.发现和
5、解决性能瓶颈552.3.7.6.虚拟机性能分析562.3.7.6.1.智能运维策略572.3.7.6.2.虚拟机可删除592.3.8.管理605/91技术方案2.3.8.1.设备硬件状态管理602.3.8.2.空间使用管理612.3.8.3.设备性能管理622.3.9.业务管理632.3.9.1.透明展现业务关系632.3.9.2.综合评价业务健康642.3.9.3.业务视角管理基础设施642.3.10.机房管理662.3.10.1.机房布线管理682.3.10.2.机房可视化巡检682.3.11.报表与分析692.3.11.1.性能趋势分析692.3.11.2.基础管理报表692.3.11.
6、3.快速报表定制702.3.12.专项运维702.3.12.1.设备性能管理712.3.12.2.线路性能管理712.3.13.将来可扩展管理项722.3.13.1.系统巡检732.3.13.2.数据快照分析743.项目管理766/91技术方案3.1.项目总则763.2.项目组织机构763.2.1.组织架构保证763.2.2.稳定763.3.项目进度计划773.4.项目范围内容773.5.项目实施地点783.6.项目进度管理783.7.项目合同变更管理783.8.项目质量管理793.9.服务内容803.10.项目管理803.11.项目交付成果804.实施方案834.1.实施计划安排844.2.
7、技术支持要求844.2.1.实施团队资质844.2.2.培训854.2.3.知识转移和交付854.3.验收854.3.1.到货验收857/91技术方案4.3.2.系统验收864.3.2.1.验收目的864.3.2.2.验收范围864.3.2.3.期望目标864.3.2.4.验收报告875.售后服务885.1.服务. 885.2.服务内容885.2.1.升级服务885.2.2.标准支持服务895.2.3.现场巡检服务906.附录:季度巡检报告样稿918/91技术方案1. 运维软件的1.1. 运维管理的三个转变近年来,国内 IT 应用系统建设经历了基础硬件环境建设、系统应用建设、数据大集中阶段等多
8、个阶段。面对业务部门对信息支撑能力要求日益提高,信息部门管理工作也逐步从大建设、大发展阶段进化到精细化管理阶段,从过去强调网络建设、应用建设和系统建设,逐步认识到增强管理能力的重要性。传统的运维管理虽然具备一定的设备管理能力,但从实践中有发现了很多弊端。这些弊端包括管理设备究竟该管那些关键指标(KPI)?确定 KPI 后运维管理给出的具体数值又代表什么含义?设备是正常的?故障的?还是只是需要注意下?最痛苦的是用户会发现管设备节约的人力都投入到使用运维管理系统中,那么运维管理系统带给用户的价值在哪里呢?综上所述,传统运维管理软件的弊端必然带来新的,这种趋势包含以下三个方向:1)人工运维向自动智能
9、运维转变传统运维工作是以人工处理为主,通过各种专业的人对系统进行检查的方式来发现系统中存在的问题。随着系统复杂性和建设规模不断增大,各种复杂设备对人的要求越来越高。初级的运维管理系统应运而生,这类系统是以“工具”的形式出现,即“我不知道该看什么指标,该管什么设备,反正我都可以管,具体怎么管用户定”。系统投运后,大量的工作都需要用户完成,转变不外乎从登录设备操作改变到登录运维系统进行操作。这样的运维管理系统一旦部署,用户的工作量并没有任何改变,对这类管理系统最大体会就是难用。因此,用户也迫切希望建设具有自动管理能力,更像一个高水平的“管家”帮助用户全方位的各类系统的运行状况,及时给出异常提醒和操
10、作建议。2)阀值管理向趋势管理转变阈值管理也是传统运维管理系统的特征。通过设置设备运行的固定阈值,来界定设备处于正常和故障两种状态。然而事实上,阀值管理很难对实际的运维管理工作有指导意义。这是因为由于各类设备都承载了各种业务,由于每个用户实际业务不同,即便完全相同的设备的运行指9/91技术方案标也呈现出不同的负载变化。另外运维管理系统的价值体现是“防患于未然”,采用固定阈值的结果是两个,要么设备故障了才告警,要么一堆告警而设备完全正常。这两种会导致用户处理各种故障或者对故障提醒麻木。这些都导致运维管理的价值没有体现。因此真正的管理应遵循设备本身的实际运行状态情况,“贴身”描绘出各个设备各个时间
11、段的性能变化情况,并根据变化情况建立跟踪曲线,通过跟踪曲线可以真正建立趋势管理视角,依据设备运行数据变化情况来做趋势分析和,准确把握设备处于健康状态、亚健康状态和“生病”状态。所以趋势管理才是用户真正需要的运维管理。3)通用平台向全面开放的专属平台转变虽然大多数用户建设信息系统时采用的设备、技术都有相似性,但是系统的复杂性、耦合性、环境多样性都导致每个用户的运维管理重点与难点是存在较多的差异。这种差异既有实际环境中带来的各种现实问题,也有不同发展阶段不同运维要求带来的实际问题。这些都要求运维管理系统提供全面、深入的管理能力同时还需要具备开放性,能够根据用户自身运维经验提供“私人专属”的定制运维
12、策略能力,将用户历史的运维经验,目前的管理重点都通过智能运维策略自动实现,真正实现即兼顾全面的综合运维管理要求又能充分兼顾用户个性化运维诉求。综上所述,以大量 KPI 库为,以阈值管理来区别设备正常或者故障,以通用标准为诉求点的旧运维管理系统已经越来越难以适应用户管理要求。具备自动学习功能,可以完整学习各类设备日常运行状况,根据基线数据自动运维,主动汇报设备异常,可以根据用户真实管理要求进行定制策略智慧运维管理平台将成为用户选择的主流。1.2. 智慧运维给用户的价值1.2.1.落实等级化管理管理上划分优先级是被普遍认可的方式,优先级划分能实现管理投入的合理分配,对于运维管理同样适用,通过对按照
13、所在业务重要度区分其对应的管理等级,比如关乎生产系统的资源划分成一级,内部办公系统相关划分成设备;对于一级设备意味着更为密集的数据采集和更低的阈值,对于异常更为敏感,故障处理上要求更为严格,后期的管理数据统计需要单独列项统计。10/91技术方案常规运维软件中仅仅是对于将管理对象简单的划分了不同等级,仅是为了界面上进行统计,没有落实到具体运维过程中;真正落地的等级化管理必须要做到如下几点:u按照业务划分管理u实现对于不同等级不同的周期和阈值u对于不同等级定义不同等级和处置方案u对于不同等级进行不同角度的统计和报表分析u能便捷的调整等级,并应用相应等级的管理规则智慧运维平台以等级为进行管理区分,内
14、置不同等级的管理解决方案,从下到上贯彻等级化,差异化管理模式。1、预置不同的指标方案和策略,落实差异化方式,按需提供技术基础,同时为大节点管理提供理论可能;2、预置不同等级的不同风险阈值的设定,落实差异化管理和要求;3、为高级别设备自动生成统计报表,使用户能方便的关注报表数据;4、支持方便的界面等级显示方式,在不同界面均能方便的区分不同的等级,便于管理视野的日常落地。1.2.2.落实管理经验积累从本世纪初,企业用户开始重视 IT 环境的运维管理,10 多年的运维历程造就了一批运维的同时,长期的运维工作也促成企业用户总结处理其具有自身业务特色的管理方法,这些方法包11/91技术方案括大到流程的本
15、地化,小到具体管理指标的定义;如何实现此类管理经验的落实呢?智慧运维平台提供处置知识管理,通过对用户日常故障处置方法的收集,经验积累,自动反馈到相同故障的处置过程中。通过系统提供的智能策略机制,将用户对于某些异常分析的人工方式自动化,比如对于主机高负载的排查,一般的操作逻辑是确定主机负载超过风险阈值情况是偶发还是一直存在,然后分析每一次出现高负载的进程是否一致,通过人工智能找到具体的异常进程,关闭该进程或者卸载相关软件,同时对于该进程的设定,达到事前;智慧运维平台通过策略实现这一系列动作,包括对历史多点对比,对于进程的,异常进程的智能,乃至告警的建议;通过策略体制调用系统的各项零散功能,将用户
16、问题分析方式,快速自动化。1.2.3.从数据挖掘实现隐患分析传统运维领域,的关注点在于即时状态的,能对于异常的即时、准确通知;而随着厂商技术的不断提高,设备的告警越来越少,特别是一些新建机房,可能一也不能没有几个告警,难道运维就不再重要了吗?恰恰相反,当设备故障减少后,正好为 IT 运维创造价值提供了客观条件,IT 运维需要将的时间和精力放在挖掘实例数据,发现业务隐患,提高业务运行效率。12/91技术方案智慧运维平台提供了强大的历史能力,可以实现 45 万 KPI 的指标数据不压缩1 年;同时提供详尽灵活的数据分析工具,可以实现单设备 1 年、1 季度、1 月、1 周整体趋势分析,从历史层面分
17、析出业务运行规律,方便的发现业务运行异常;多指标相对分析,实现管理对象的纵向比较,找到影响具体的异常指标集。通过对历史分析,为管理方式改进提供基础数据,贴合业务指标变化的规律,整合人力,实现关键时段重点关注的优先级理念;为用户年度管理数据的统计提供可能,配合北塔快速报表开发能力,使符合用户管理实践的事后报为可能。智慧运维平台贯彻时段管理的理念,提供了拓扑上整体的 CPU 趋势分析,对近几周的整体性能均值做比较,便于发现业务的偏离情况;使用历史作为检测阈值,实现更为合理的业务使用情况;提供整体高低负载分析,实现整体回顾,合理评价。1.2.4.支持持续管理建设智慧运维平台以平台化架构设计,可以灵活
18、定制用户管理需求,实现用户管理的可持续化建设;智慧运维平台为用户多种开发集成方式包含如下几种技术实现:u 增加具有用户独有设备的管理,通过合作开发,智慧运维平台可以集成用户自行开发的方式,融入智慧运维平台中进行统一的管理;13/91技术方案u整合具有本特色的管理指标集,实现下级的快速部署,和统一化管理;u用户管理经验的策略化,实现用户先进管理分析方式的自动化处理;u报表定制,快速导入报表模板,实现客户报表的快速实现和更新,使用户报表的变更不再成为运维软件的痛苦;使用户的管理意志在软件中得到持续体现。1.3. 智能运维的特色功能1.3.1.智能拓扑系统采用北塔先进的、且得到近 5000 个现场验
19、证的发现算法,智能发现网络设备和设备间的真实线路,准确而快速的完成拓扑的构建。网络拓扑能清晰展现网络的关系,自动布局;并能提供“圆形”“树形”多种拓扑展现方式,便于用户根据业务关系快速调整到用户需要的展现方式,同时将管理对象的实时性能和告警信息通过图标的不同状态展现给用户。智慧运维平台拓扑管理不仅是,拓扑结构的展现方式,更是用户的智能帮手;于业务承载的主机,系统同样提供了系统拓扑,不仅提供全局状态界面,同时也讲拓扑图作为全局分析工具,实现对于管理对象增长趋势的全域分析,包含对全域设备的 CPU 业务应用情况的分析,整体智能分析业务上一段时间内使用的整体趋势变化,以红、黄、绿作为不同区段的显示,
20、使用户能清晰辨识历史增长异常。14/91技术方案1.3.2.智能是运维管理的基础,只有实现了稳定和准确,用户才能管理,当的量和的正确性得不到保证,运维只能是理论而已。研发的新一代智能平台 DGO,该平台实现智慧运维平台采用北塔,容错功能,扩展功能,与设备相关的取值事项均有该平台完成。u均衡命令:该平台通过智能,智能分配被管理对象的口令,忙闲配合,实现保证数据取值的前提下,对于设备的最小;u智能错误处置:平台通过智能,对于被管理对象取值异常进行智能,避免由于网络突发异常造成的出错误报和频繁造成的设备;uDGO 提供丰富的扩展接口,可方便的接入用户自行开发的探针,实现用户管理对象的便捷增加。1.3
21、.3.智能基线传统运维关于被管对象“警戒值”,而一旦超过警戒值意味着一定程度的“损失”已经发生,有没有办法在提前一点发现风险呢?有多种,通过业务基线的偏离异常就是其中一种。智慧运维平台能根据历史自动生成基线,并可按照业务变化规律,形成以日基线、周基线的数据对比,一旦实时数据大于基线比对点一定范围,即生成智维,便于分析;当出现多次越界后,系统主动通知用户,提示运维风险。15/91技术方案基线方式的引入,降低了用户对于“警戒值”的识别难度,使设置符合用户业务实际的阈值成为简单、可执行的事情;同时基线的方式,符合用户周期性业务稳定的实际情况,真正落实用户对于业务风险检测。1.3.4.智能策略智慧运维
22、平台引入策略管理概念,架构上为策略提供各个功能的调用接口,方便的实现软件各种处理逻辑的协同处置;方便实现用户对于管理方法的落地。策略的分为触发、分析、处置三个部分,通过全面的智能运维,实现对于各项关键节点的智维,包含单点、多点触发;多单指标历史分析、多指标对比分析等方式,实现合理结论的分析,以提示、告警通知、自动报表的各项输出方式给出用户最终处置建议。系统预置多款智能策略,实现全面检测、智能、全面分析;包含对所有智维规则的策略,越界次数警示;包含对 CPU 负载过高的深入分析策略,可实现一站式,异常进程的分析识别。智慧运维平台支持快速策略定制,便于用户实现个性化管理需求,落实符合管理实践的自动
23、化分析。16/91技术方案1.4. 项目效益分析自动智慧运维平台的上线将实现管理和两方面的效益:1.4.1.管理效益自动智慧运维平台的上线可带来如下运维管理效应:u透明化管理:通过对信息的透明化实现对信息的统一和智能管理,实现自动化的信息和管理能力。u主动运维:即时的故障告警帮助管理即时了解安全和运行隐患,实现真正的事前管理,变为主动。u全面降低误操作可能:运维管理和安全都从手动的方式转变为系统自动、安全、可以跟踪的行为,手动的方式大量减少将极大降低误操作的可能性,极大增加信息化设施的稳定性。u提高效率:系统提供易用易操作的、处理、分析关联分析能力,快速帮助运维管理了解问题、分析问题、问题、辅
24、助管理解决问题,提高处理问题的效率,为信息化的可靠运行保驾护航。u综合分析能力:总体把握,提高效益,信息各个环节对业务的影响,提高信息设施质量和降低运维管理工作强度,最终为提高科技部的价值服务。1.4.2.实现绿色模式通过实施自动智慧运维平台将会带来非常大的和回报。我们来算一笔帐,我们在网络中采用了自动智慧运维平台后将产生什么样的。自动智慧运维平台可以实现对所有网络、主机的安全和运维工作 7*24 小时不间断自动,代替以往人工检查的方法。按照 200 个管理对象预计,每个对象运行情况检查大约需要 10 分钟;全部检查一遍需要约 83.2 工时。以每天系统运行情况检查一遍,每工时/人按 15 元
25、计算,每年可以节省人力成本约 455520 元。17/91技术方案自动智慧运维平台上线后,随着运维管理水平的提高,整个信息系统故障的解决时间会缩短,并且由于管理水平的提高,信息系统非计划停机时间也会减少,提高业务部门满意度,提升行业形象,为用户带来短期和长期的效益无法估量。自动智慧运维平台将带来如下的绿色模式:u系统可以减少运行维护的日常巡检工作强度,可以合理安排。u北塔的性能数据和处理办法预计可以减少大量的运算服务器和设备。u系统对信息系统运行和安全隐患进行评估,减小了信息系统故障造成的科技部系统中断影响面,按评估结果进行故障排查。1.5. 北塔软件公司介绍上海北塔软件(简称北塔软件)是专业
26、从事 IT 运维管理研发、销售、咨询和服务的高新技术软件企业,致力于为中国用户提供从网络管理、IT 基础架构管理到业务服务管理的全面优质解决方案。通过优质的解决方案,北塔软件不断拓展各个行业用户,累计取得超过 5000 家用户的规模应用。这些规模应用让北塔软件的不断改进,始终处于运维行业领先水平。2014 年北塔软件登陆国内新三板市场,为公司持续良性发展奠定坚实基础。北塔软件也深知服务对用户的重要性,在所有省会城市都建立了专门的服务团队,由此建立了最大的运维管理技术服务团队,为用户提供更快捷、更周到的服务。1.5.1.创新北塔立内运维管理实际需要,研发,坚定不移走创新,形成了完全符合国内用户使
27、用体验的专业 IT 运维管理。完整覆盖网络、主机、数据库、中间件、应用、业务、机房、虚拟化、等各个 IT 设备领域。通过北塔专业的研发团队,向用户提供丰富的支撑和精细化的指标管理能力,完全满足用户对各种 IT 设备的管理要求。随着北塔业务的不断发展,北塔收获了超过 23 个著作权,3 个发明专利,承担和地方科研项目,这些都是北塔强大的研发实力的体现。18/91技术方案1.5.2.大量优质案例北塔软件深知用户的需求所在,秉承“为用户创造价值”的服务,持续完善和贯彻符合国际标准的项目管理和质量管理体系。多年来,已在、电力、石油、教育、传媒、企业等各行业开展实践应用,协助用户提升了 IT 运维管理水
28、平,并以高品质、高性价比赢得了用户的广泛信任。目前,已有超过 5000 家的用户使用北塔软件系列 IT 运维管理。1.5.3.参与标准制订2010 年,北塔软件加入 ITSS(服务标准工作组)。作为副组长成员,肩负行业责任感,参与了研究并建立服务标准体系,制定服务领域的相关标准等方面工作,并积极投身于规范和引导服务业的发展历程中。1.5.4.服务能力公司总部设于上海,现有员工超过 300 人,在上海、北京、广州、成都、西安、沈阳设有六大和服务中心,在三十几个主要城市均设有分支机构和常驻,为用户提供高效、快捷的本地化服务和支持。1.5.5.竞争力北塔软件不断加大研发、技术、服务和等方面的投入,强
29、化以”研发、技术、创新“三大实力为主的竞争力,紧跟技术的发展与用户的需求,不断为广大用户提供高性价比的与服务,帮助用户创造价值,持续站在国内同领域的巅峰位置。19/91技术方案2. 整体技术方案介绍2.1. 建设目标2.1.1.建设思路结合国内外信息化管理平台发展特点,信息化现状和用户实际需求,自动智慧运维平台主要从以下两个方面进行建设:l建设全面的基础设施管理本次管理平台需要提供全面的基础设施管理,这些管理内容包括网络设备、设备、服务器(含小机)、数据库、中间件、标准应用等设备。在管理设备的基础上还包括对 IP 地址管理、设备配置管理、服务器硬件管理、进程管理等内容。通过全面的基础设施管理,
30、能够建设一个具备全面和精细的管理平台。l建设自动智慧运维管理平台全面基础管理之上,通过自动学习,跟踪设备运行状态,自动建立设备“健康”。依据设备的运行状态学习,建立全面的数据基线,基于自动运维理念,自动对设备的运行异常进行提醒。异常提醒的同时还同步给出操作建议。整个系统还能做到开放运维,可以将用户的运维经验通过智能策略的方式加入到运维管理平台,更好满足用户“私人定制”系统的要求。2.1.2.建设内容具体建设内容如下:u系统平台,包括管理平台、智能运维引擎和多用户支持引擎。u网络管理,包括网络设备管理、网络拓扑管理、网络性能管理、网络配置管理等内容。u应用管理,包括服务器管理、数据库管理、中间件
31、管理和标准应用管理,建设系统拓扑图、主机日志管理等内容。u虚拟化管理,包括宿主机管理、虚拟机管理、虚拟化性能管理、虚拟化容量管理和虚拟化拓扑管理。20/91技术方案u 告警管理,包括建设设备运行基线、异常提示、处置经验管理和智能巡检等内容。u 报表管理,包括网络管理、应用报表和虚拟化面各类运行报表、故障报表等统计信息,还包括对网络和应用的数据快照功能。2.2. 方案介绍在目前这个 IT 技术大发展的,各行各业越来越倚重 IT 作为生产平台,各种新技术运用使业务运行更便捷的同时,业务 IT 系统的运维部门带来的巨大的。随着企业发展,IT 运维部门也在不断的摸索最佳运维方式,逐渐形成了一些具有企业
32、特色的运维经验和问题分析方式,而业界的运维软件往往无法实现对于企业运维方式的很好兼容,导致IT 部门无法将管理理论转化成最佳生产力,提高管理效率,降低运维成本。北塔 BTSO(Betasoft Smart Operation & Maintenance,北塔智慧运维平台)作为北塔软件最新一代的运维管理软件,秉承北塔多年管理经验结合平台化开发方式,在满足用户对于基本状态和性能无人值守及实时展示的基本运维需求的同时,智能抓取关键性能数据,根据预置策略进行数据分析和联动处置;同时提供强大的平台能力和开发能力,能将用户个性化的分析方式和处置方式快速实现策略化,以期实现用户管理效率的最大化提升。
33、21/91技术方案2.3. 方案详细介绍2.3.1.平台介绍BTSO 采用平台化设计,以 DGO(Data Gather Ocean)为平台,基础平台构建功能平台;以告警、报表、智能运维、license强大的功能平台;具体的管理作为基于平台的管理功能,具备以接口为中心的设计模式。系统提供强大的扩展能力,支持管理能力的自由扩展:u平台支持用户个性化程序的快速兼容,实现管理指标的快速扩展;u服务器支持无缝扩展,支持多个器同时部署;u支持管理策略的快速扩展,实现用户管理方式落地;u支持用户个性化报表的快速扩展,实现各种具备企业特征报表数据和展现方式。22/91技术方案2.3.1.1. 分布式器对于包
34、含多个分支机构的企事业,由于分支机构之间的网络,单一的器已经不能覆盖,为此 BTSO 提供可扩展的广域网器,最多支持 20 个分支机构的分布部署,对于分支和总部之间的线路要求降到最低,可用 1M 的带宽,并支持广域网等线路稳定性较差的环境,并支持加密方式;u器具有的处理功能,在器完成自行的发现工作。u在部署完成后,可进行自由扩展器数量;u支持对于固定器的管理对象进行禁访设置,规避由于管理对象本身协议的造成业务影响;23/91技术方案2.3.1.2. 运行摘要对于一款软件来说,其最大的价值是能替代运维(值班员)实现不间断的,当系统成为用户的必备管理工具时,每次进入系统有一个概要性的说明,成为软件
35、的必要。运维主管登陆一次即可综合性的显示了 24 小时内的系统运行变化趋势,通过列出了运维重点关注内容;通过对本界面的阅读,可快速掌握最近 24 小时的运维概况,实现运维工作的快速衔接。u当前实时运维状况,需要重点关注当前还处于告警状态的最近需要的停机计划虚拟化环境目前的整合密度,概要性反映虚拟利用的有效性u最近 24 小时运维系统的设置变动,便于用户了解“未”时段的重要的变动统计重要的方式变动统计已恢复的告警信息u了解昨日关键指标波动最大的 5 个,便于本日重点分析24/91技术方案主机 CPU 波动分析网络设备 CPU 波动统计线路流量均值波动统计2.3.1.3. 日常运维在运维过程中,运
36、维系统在进行规律性监测,但是由于业务上的定期整修、环境的变化,管理要求的提高均需要运维管理对于系统运维工作进行干预操作,为了更好的实现日常运维的各项管理,BTSO 提供日常运维菜单,为用户提供场景化工作,包括对现行方式的查看、对智维巡查过程的关注、调整计划,审计运维配置修改过程。2.3.1.3.1.运维等级管理等级管理是实现差异化管理的一个具体,按照不同等级实现不同的方式是等级管理的具体落实;作为等级管理的主要页面,全局显示了所有等级的设备数量,以及不同等级的方式,包含智维规则、告警规则;同时设备的管理优先级不是固定不变的,本界面为用户提供了快速等级切换的统一配置功能。25/91技术方案2.3
37、.1.3.2.停机检修管理停机检修是每个企业中不可避免的运维场景,检修时段的是没有意义,而且会导致相关误告警;BTSO 将停机作为基本运维场景,用户可以按照在系统中制定停机计划,比如网络设备停机、主机停机,系统自动根据关联关系对于相关联的线路和承载软件自动列入计划。计划执行前,系统可以以邮件、多种方式通知管理员做好相关保存备份工作。计划执行时,系统自动相关设备与软件的告警项目;计划结束后,系统自动启用告警;相关统计中自动将停机内容进行去除,以设备正常进行计算。同时提供了 admin 账号补填停机计划的过程,此项过程为了保障由于临时性停机过程,而出现的错误统计现象。26/91技术方案2.3.1.
38、3.3.软件操作审计BTSO 用于评价 IT 环境中的各个管理,为了体现公平合理,相关的评价规则的设置需要得到,所以提供了软件操作审计,为管理者能清晰的查阅到对于设置变更、规则变更、报表规则变更的情况,强大的搜索系统,为用户异常操作提供助力。2.3.2.智能运维引擎2.3.2.1. 运用等级概念实现差异化管理运用等级概念实现差异化管理 BTSO 精选各类管理对象的关键状态、性能指标,以不同管理等级为数据集,实现一个等级的一个管理方案,包含预置智维检测指标、预置报表、预置策略检测等;实现加入即可的简单运维方式。BTSO 也支持用户根据业务系统的重要性,将管理上相同重要性的不同管理对象设置为同一等
39、级,性新设、修订管理指标集合,修订密度、阈值,指定性处置策略,在不同等级间实施差异化管理;27/91技术方案图:智维引擎工作示意2.3.2.2.学习基线实现业务异常在日常运维管理务管理的复杂性要远高于设备管理的复杂性,它不是简单的表现为好坏、通断,而是更复杂为可用性问题,可用性也是由一批关键指标的,但指标的正常与否,不能简单地以固定阈值来对比,要结合真实业务情况的波动来。BTSO 提供智能基线方式,支持智能基线的自动学习,通过对正常状态下指标的“历史表现”,加以调整后作为基准线,与以后同样时段的实时指标做对比,如果误差在范围内,那么判定为正常,否则为越界,越界次数越多,会导致系统的可用性严重下
40、降,情况下导致系统不可正常使用;以此作为业务异常的;系统提供日、周两种基线方式,周基线的形成是以前几个稳定的周历史数据为基础,通过智能算法,将相同时间点的多个数据,归并成一个基准数据,并以此为方式形成周基线。使用基线时,将实时数据和基线相同时间点进行比对,实现周一和周末的区别、上午 8 点和下午 4点的业务区别。2.3.2.3. 智能策略实现管理实例落地BTSO 将运维数据产生且具有固定分析和处理逻辑的运维方法,归类为智能策略需要处28/91技术方案理的方法;通过策略的应用,可以进一步提高运维效率和运行成效。BTSO 内置了众多的智维策略,提供标准的管理实例落地,通过客户化开发实现用户处理经验
41、的快速落地;系统对于所有管理指标均可实现基础分析方法,当发现异常后,及时了解该异常指标的管理意义和影响范围,以及历史情况,这样将原本专业性过强的指标一下子拉进到可理解可运维的角度;系统对于主机类两个重要问题“负载过高”“内存泄露”进行了专项分析,这两个问题特征,进程分析,进一步造成这两个问题的具体业务进程,为用户解决系统问题提供有数据、有结论的;系统对于数据的性能问题“内核延迟”“设备延迟”做了专项分析,另外对于集群、宿主机、虚拟机、数据的 24 个关键性能指标提供自动分析,当发现异常越界比例过高时,系统会主动以专题性分析报告的方式告知用户,列出历史分析数据,便于用户更深入了解问题本质 ,同时
42、给出了具体解决这个问题的方案,从而使用户在第一时间能将影响范围缩到最小;通用指标越界策略,如同上述数据库指标一样,通过对于历史数据的分析回顾,智能分析出指标与历史基准(具体风险阈值的差异),主动提示用户异常风险,并同时告知该指标的意义以及异常的处理建议;该策略可覆盖所有类型的指标,包括主机、网络、数据库等,用户也可通过该策略关注业务相关的特殊指标,以完成策略的本地化应用;29/91技术方案图:异常情况分析与处理建议2.3.3.系统智能运维传统系统的方式为告警,但是面对设备日趋完善,管理对象超过阈值的告警越来越少,如何实现运维价值的最大化呢?这是摆在运维管理主管面前的最大课题。北塔公司结合用户运
43、维实际情况,发现运维价值最大化的方式有如下方面:u通过事前隐患智能分析,主动排除,即时通知,将故障发生概率降到最低;u对于部分故障实现自动化分析和处置,缩短故障处置周期,避免损失扩大化;u落实每个运维主管的对于自身企业的个性化管理要求;BTSO 适时推出了智能运维管理,为用户落实如上 3 点诉求,提供管理功能。2.3.3.1.预置智维管理方案BTSO管理方式就是智能化管理,智能化的理论基础是北塔十几年的运维经验和几千家用户的管理实践,为把这些管理方案推送到用户现场,BTSO 提供了智能运维模板。智维模板按照管理等级,预置了不同管理对象的管理方案,方案包含如下技术点:u内置监测方案,包含指标的多
44、寡,具体指标的周期、监测阈值,便于对系统自行巡检相关数据;u提供了预置告警规则给用户进行选择,用户可以根据业务管理实践的不同启用相应的告警管理规则;u提供常见管理报表,并生成高级别对象的管理报表。通过上述智维模板,使软件无需复杂配置,安装就能对进行基础运维。2.3.3.2. 智维对于预置方案,BTSO 不仅提供自动检测过程,也提供了前端巡查功能,使用户能实时了解到智维的实时动态;对于智维巡查结果,以方式存在,此类并整描述了故障或异常,所以 BTSO 推荐以统计角度进行评价,以越界比例作为观测的切入点。同时系统提供详尽智维分析工具,包含智维信息的统计、智维异常分布、历史值检查等,结合此类工具实现
45、异常的关联分析和确认。30/91技术方案2.3.3.3. 智维越界提醒策略BTSO 预置多种预置策略,基础策略是对于内置方案的提醒策略,对于智维越界,当系统发现内置检测指标,越界超出安全频率后,主动推送到页面前端,通知管理员,系统发现了异常。提示内容中包含最近 3 日,发生异常的次数并且给出该指标的历史曲线;同时给出该指标的详细定义,清晰的列明,该指标是什么,异常后影响什么,一般的解决方案是什么。同时可对该指标进行快速设置告警,便于后期管理中,出现了相同问题后能通过、邮件通知离线用户。31/91技术方案2.3.3.4. 客户化分析策略定制BTSO 的智能策略基于平台化接口体系,作为软件的,其可
46、以调用 BTSO 软件的各个方面,包含基础数据的,指标的计算,各类对象的综合分析,并可以实现通知、报表、下发等处置策略的调用。北塔软件基于 BTSO,通过合作开发的模式,可以实现用户管理策略的自动化,使每个用户能使用上“贴心”的运维软件。2.3.4.故障管理对管理对象按照预置的风险阈值进行检测,并实时通知到管理员处,是运维系统必备功能,也是传统上运维软件的价值所在;而在传统上故障管理在应用上经常会遇到如下问题:u设置告警的范围选择,用户总是期望无死角,但是所有 KPI 的高频必然导致管理设备的异常负载增加,这要求运维厂商能提供合理的告警范围推荐;u告警规则的自动设置,往往用户对于告警的规则和检
47、测标准时一致的,如何实现相同标准的推广,这要求运维软件对于规则设置的易用性;u告警的经验如何总结和继承,告警处理经验能得到及时,并能在下次出现同问题时,即时推送,便于有效提高故障处置效率。32/91技术方案BTSO 系统提供了灵活的告警设置、精确的告警检测,多样告警推送方式、简单的告警经验积累方式,实现用户有效及时得到故障信息。2.3.4.1. 告警管理2.3.4.1.1.便捷的规则设置告警永远是运维中最基础的功能,对于运维而言,总是期望告警不产生,那样意味着系统正稳定运行;为了给用户提供这个可靠的信息,BTSO 提供便捷的告警设置实现大面积的监管设置;在设置界面为重点指标实现详尽的指标说明,
48、使用户面对具体技术指标能更为合理的进行配置。u系统提供多种预置告警规则u支持以 IP 为方式,为未纳入管理设备规则化的告警规则u支持为某一个存在的对象为样本,批量设置进程、硬盘的子对象的告警u支持以 IP 网段方式和等级方式显示告警的设置u支持以多种通知方式,灵活给不同的u支持对告警通知内容恢复内容的自定义,满足用户对于业务化通知内容的实现2.3.4.1.2.高效的告警提醒机制BTSO 为了让用户能快速识别告警信息,以不同颜分不同的告警等级,并在运行摘要和页面框架中重点突出显示。用户登陆系统均可了解昨日告警的处理情况,目前发生且需要处理的告警数量,同时可以看到具体告警实时条目。以及本日的停机计
49、划,为一天的工作提供基础信息。当长期打开页面时,系统通过框架上的颜别显示不同的等级告警,使值班能快速了解到具体的告警展现。同时系统提供、邮件方式,为线下管理员提供最及时的告警信息。33/91技术方案2.3.4.1.3.清晰的告警为了使告警信息更为有效,系统提供灵活、清晰的告警历史界面,界面中列出了不仅列举了历史告警的各个字段,同时给出告警统计分析信息,为用户以告警角度对现有对象的信息进行评价。u系统提供告警时长、和累计次数为索引条件统计,为用户提供这个维度出现告警最多的管理对象和具体异常点;u提供重复告警统计,以及统计时段内最长、平均、累积的告警时长,为用户提供告警规则有效性评估u提供处置经验的编辑功能,为用户快速积累处置经验提供管理,下一次相同问题出现时,提供处置参考;34/91技术方案2.3.4.2. 知识库管理用户在长期的运维过程中,一般均会有一些管理预案,但是如何实现管理经验的长期积累呢?BTSO 提供处置知识库,通过对处置预案的积累,出现问题后能快速实现信息传导,将处置预案真正落实到实际操作过程中。2.3.5.网络管理2.3.5.1. 网络拓扑管理2.3.5.1.1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 单位维修电合同范本
- 劳动合同范本world
- 厂区场地土建合同范例
- 【课件】新的实验-实验艺术材料的拓展与艺术呈现+课件-2024-2025学年高中美术湘美版(2019)美术鉴赏
- 短视频制作内容为王的时代如何选题
- 科技推动下的大学校园环境治理进步
- 社交媒体在医疗领域的应用及其对青少年的影响
- 科技产品生产中的工艺优化策略
- 科技新纪元电子竞技产业发展前沿解读
- 胃肠息肉病人护理
- 售后服务组织结构及岗位职责
- 2024年度工业自动化设备维护保养及上门维修合同3篇
- 2025年公司总经理年终总结工作报告
- 安徽省“江淮十校”2024届高考化学一模试卷含解析
- 图书外借服务计划
- 软考系统集成项目管理工程师教程完整版
- 网络工程师(软考)考试(重点)题库300题(含答案解析)
- 统编版八年级语文上册第六单元作业设计
- 危险性较大的分部分项工程清单和安全管理措施范文
- 中建通风与空调施工方案
- 2025届高三历史二轮复习教学计划
评论
0/150
提交评论