【案例】自动智慧运维管理平台售前技术方案_第1页
【案例】自动智慧运维管理平台售前技术方案_第2页
【案例】自动智慧运维管理平台售前技术方案_第3页
【案例】自动智慧运维管理平台售前技术方案_第4页
【案例】自动智慧运维管理平台售前技术方案_第5页
已阅读5页,还剩85页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

****自动智慧运维管理平台技术方案第页********自动智慧运维管理平台技术方案目录TOC\o"1-5"\h\z\u167861.运维软件的变革 8143181.1.运维管理的三个转变 8163711.2.智慧运维给用户的价值 9220911.2.1.落实等级化管理 9309721.2.2.落实管理经验积累 10196921.2.3.从数据挖掘实现隐患分析 1155061.2.4.支持持续管理建设 12177281.3.智能运维的特色功能 13218831.3.1.智能拓扑 13211441.3.2.智能采集 13279681.3.3.智能基线 14217541.3.4.智能策略 15280751.4.项目效益分析 1538891.4.1.管理效益 1557001.4.2.实现绿色经济模式 16293851.5.北塔软件公司介绍 16107311.5.1.自主创新 17308831.5.2.大量优质案例 17249781.5.3.参与标准制订 17212961.5.4.服务能力 17138301.5.5.核心竞争力 17285792.整体技术方案介绍 18166092.1.建设目标 1896232.1.1.建设思路 18138432.1.2.建设内容 18125382.2.方案产品介绍 19170582.3.方案产品亮点 19123522.4.方案详细介绍 20170492.4.1.产品平台介绍 2028961.分布式采集器 223901.综合展示 2326748.运行摘要 2328663.日常运维 2422031.1.运维等级管理 2519358.2.制度化运维检巡检 2523327.3.重点应用实时控 2725859.4.每日运维工作交接 2817231.5.每周智维隐患分析 291264.6.停机检修管理 3031025.7.软件操作审计 30176502.4.2.智能运维引擎 3111349.运用等级概念实现差异化管理 312472.自主学习基线实现业务异常监控 327398.智能策略实现管理实例落地 3228792.专项智维方案快速实现问题排查 33248502.4.3.系统智能运维 3421446.预置智维管理方案 3423248.智维事件监控 3525135.智维越界提醒策略 352246.客户化分析策略定制 36267112.4.4.故障管理 3629524.告警管理 3710813.1.便捷的规则设置 3716150.2.高效的告警提醒机制 3720543.3.清晰的告警查询 3830811.知识库管理 39197622.4.5.系统类管理 391886.主机管理 393637.服务器硬件管理 4131561.数据库管理 432607.Oracle集群管理 462632.中间件管理 4713839.标准应用管理 5022323.主机拓扑管理 51195332.4.6.日志管理 52208942.4.7.网络管理 532368.网络拓扑管理 5327469.1.拓扑生成 5319260.2.拓扑图展现 5330300.3.个性化拓扑 5415519.4.监控结果展现直观 5422945.5.界面美观 547979.6.操作便捷 5529962.设备性能分析 5519306.网络配置管理 5676872.4.8.无线管理 57194322.4.9.IP地址簿管理 5872402.4.10.虚拟化管理 5931626.呈现虚拟化对象健康性 604433.预防容量枯竭 611865.保障容量有效使用 6218859.明细容量分配 6330488.发现和解决性能瓶颈 6311462.1.虚拟机性能分析 6316074.2.智能运维策略 6426823.判断虚拟机可删除 6679692.4.11.存储管理 678658.存储设备硬件状态管理 678311.存储空间使用管理 6826765.存储设备性能管理 69316542.4.12.业务拓扑管理 696651.透明展现业务关系 7011021.综合评价业务健康 706872.业务视角管理基础设施 7127879.构建用户感知和基础设施的关系 72130792.4.13.数据拓扑管理 7223962.4.14.机房管理 74128662.4.15.报表与分析 76482.预置报表 773004.定制报表 7915599.数据快照分析 7921052.性能趋势分析 806166.基础管理报表 8029689.系统巡检报表 8123535.快速报表定制 83259502.4.16.用户与权限 83103803.北塔BTSO智能运维平台的亮点和实施效果 8556993.1.实现对IT资源的整体监控 85261813.2.使IT运维成为具备自主学习能力的智能运维 8511771.以数据运维为方法的智能运维 8526136.自动识别主机高负载原因 8611442.主动捕获主机内存泄露主机 8630207.自动识别数据库指标波动异常,实现基线管理 8617657.及时发现网络性能瓶径,并给出解决建议 874317.业界首创关联式展现的系统拓扑图 8757423.3.能够提供运维经验积累策略,实现知识的传承 88202133.4.实现透明化的管理效果 88314553.5.支持国产应用,扩展应用支持范围 8889753.6.实现运维管理的协同管理 88249323.7.数据支持实现专业化分析 89运维软件的变革运维管理的三个转变近年来,国内IT应用系统建设经历了基础硬件环境建设、系统应用建设、数据大集中阶段等多个阶段。面对业务部门对信息支撑能力要求日益提高,信息部门管理工作也逐步从大建设、大发展阶段进化到精细化管理阶段,从过去强调网络建设、应用建设和系统建设,逐步认识到增强管理能力的重要性。传统的运维管理虽然具备一定的设备管理能力,但从实践中有发现了很多弊端。这些弊端包括管理设备究竟该管那些关键指标(KPI)?确定KPI后运维管理给出的具体数值又代表什么含义?设备是正常的?故障的?还是只是需要注意下?最痛苦的是用户会发现管设备节约的人力都投入到使用运维管理系统中,那么运维管理系统带给用户的价值在哪里呢?综上所述,传统运维管理软件的弊端必然带来新的变革,这种变革趋势包含以下三个方向:人工运维向自动智能运维转变传统运维工作是以人工处理为主,通过各种专业的人对系统进行检查的方式来发现系统中存在的问题。随着系统复杂性和建设规模不断增大,各种复杂设备对人的要求越来越高。初级的运维管理系统应运而生,这类系统是以“工具”的形式出现,即“我不知道该看什么指标,该管什么设备,反正我都可以管,具体怎么管用户自己定”。系统投运后,大量的工作都需要用户自己完成,转变不外乎从登录设备操作改变到登录运维系统进行操作。这样的运维管理系统一旦部署,用户的工作量并没有任何改变,对这类管理系统最大体会就是难用。因此,用户也迫切希望建设具有自动管理能力,更像一个高水平的“管家”帮助用户全方位的监控各类系统的运行状况,及时给出异常提醒和操作建议。阀值管理向趋势管理转变阈值管理也是传统运维管理系统的核心特征。通过设置设备运行的固定阈值,来界定设备处于正常和故障两种状态。然而事实上,阀值管理很难对实际的运维管理工作有指导意义。这是因为由于各类设备都承载了各种业务,由于每个用户实际业务不同,即便完全相同的设备的运行指标也呈现出不同的负载变化。另外运维管理系统的核心价值体现是“防患于未然”,采用固定阈值的结果是走向两个极端,要么设备故障了才告警,要么一堆告警而设备完全正常。这两种极端会导致用户被动处理各种故障或者对故障提醒麻木。这些都导致运维管理的核心价值没有体现。因此真正的管理应遵循设备本身的实际运行状态情况,“贴身”描绘出各个设备各个时间段的性能变化情况,并根据变化情况建立跟踪曲线,通过跟踪曲线可以真正建立趋势管理视角,依据设备运行数据变化情况来做趋势分析和预测,准确把握设备处于健康状态、亚健康状态和“生病”状态。所以趋势管理才是用户真正需要的运维管理。通用平台向全面开放的专属平台转变虽然大多数用户建设信息系统时采用的设备、技术都有相似性,但是系统的复杂性、耦合性、环境多样性都导致每个用户的运维管理重点与难点是存在较多的差异。这种差异既有实际环境中带来的各种现实问题,也有不同发展阶段不同运维要求带来的实际问题。这些都要求运维管理系统提供全面、深入的管理能力同时还需要具备开放性,能够根据用户自身运维经验提供“私人专属”的定制运维策略能力,将用户历史的运维经验,目前的管理重点都通过智能运维策略自动实现,真正实现即兼顾全面的综合运维管理要求又能充分兼顾用户个性化运维诉求。综上所述,以大量KPI库为核心,以阈值管理来区别设备正常或者故障,以通用标准为诉求点的旧运维管理系统已经越来越难以适应用户管理要求。具备自动学习功能,可以完整学习各类设备日常运行状况,根据基线数据自动运维,主动汇报设备异常,可以根据用户真实管理要求进行定制策略智慧运维管理平台将成为用户选择的主流。智慧运维给用户的价值落实等级化管理管理上划分优先级是被普遍认可的方式,优先级划分能实现管理投入的合理分配,对于运维管理同样适用,通过对资源按照所在业务重要度区分其对应的管理等级,比如关乎生产系统的资源划分成一级,内部办公系统相关资源划分成二级设备;对于一级设备意味着更为密集的数据采集和更低的阈值,对于异常更为敏感,故障处理上要求更为严格,后期的管理数据统计需要单独列项统计。常规运维软件中仅仅是对于将管理对象简单的划分了不同等级,仅是为了界面上进行统计,没有落实到具体运维过程中;真正落地的等级化管理必须要做到如下几点:按照业务划分管理资源实现对于不同等级资源不同的监控周期和预警阈值对于不同等级资源定义不同预警等级和处置方案对于不同等级资源进行不同角度的统计和报表分析能便捷的调整等级,并应用相应等级的管理规则智慧运维平台以等级为核心进行管理区分,内置不同等级的管理解决方案,从下到上贯彻等级化,差异化管理模式。预置不同的指标采集方案和策略,落实差异化采集方式,按需采集提供技术基础,同时为大节点管理提供理论可能;预置不同等级的不同风险阈值的设定,落实差异化管理和考核要求;为高级别设备自动生成统计报表,使用户能方便的关注报表数据;支持方便的界面等级显示方式,在不同界面均能方便的区分不同的等级,便于管理视野的日常落地。落实管理经验积累从本世纪初,企业用户开始重视IT环境的运维管理,10多年的运维历程造就了一批运维人员的同时,长期的运维工作也促成企业用户总结处理其具有自身业务特色的管理方法,这些方法包括大到流程的本地化,小到具体管理指标的定义;如何实现此类管理经验的落实呢?智慧运维平台提供处置知识管理,通过对用户日常故障处置方法的收集,经验积累,自动反馈到相同故障的处置过程中。通过系统提供的智能策略机制,将用户对于某些异常分析的人工方式自动化,比如对于主机高负载原因的排查,一般的操作逻辑是确定主机负载超过风险阈值情况是偶发事件还是一直存在,然后分析每一次出现高负载的进程是否一致,通过人工智能找到具体的异常进程,关闭该进程或者卸载相关软件,同时对于该进程的设定预警,达到事前预警;智慧运维平台通过策略实现这一系列动作,包括对历史记录多点对比,对于进程的记录,异常进程的智能判断,乃至告警的建议;通过策略体制调用系统的各项零散功能,将用户问题分析方式,快速自动化。从数据挖掘实现隐患分析传统运维领域,更多的关注点在于即时状态的监控,能对于异常的即时、准确通知;而随着厂商技术的不断提高,设备的告警越来越少,特别是一些新建机房,可能一个月也不能没有几个告警事件,难道运维就不再重要了吗?恰恰相反,当设备故障减少后,正好为IT运维创造价值提供了客观条件,IT运维需要将更多的时间和精力放在挖掘实例数据,发现业务隐患,提高业务运行效率。智慧运维平台提供了强大的历史记录能力,可以实现45万KPI的指标数据不压缩存储1年;同时提供详尽灵活的数据分析工具,可以实现单设备1年、1季度、1月、1周整体趋势分析,从历史层面分析出业务运行规律,方便的发现业务运行异常;多指标相对分析,实现管理对象的纵向比较,找到影响具体的异常指标集。通过对历史记录分析,为管理方式改进提供基础数据,贴合业务指标变化的规律,整合人力资源,实现关键时段重点关注的优先级理念;为用户年度管理数据的统计提供可能,配合北塔快速报表开发能力,使符合用户管理实践的事后考核报为可能。智慧运维平台贯彻时段管理的理念,提供了拓扑上整体的CPU趋势分析,对近几周的整体性能均值做比较,便于发现业务的偏离情况;使用历史记录作为检测阈值,实现更为合理的业务使用情况监控;提供整体高低负载分析,实现整体回顾,合理评价。支持持续管理建设智慧运维平台以平台化架构设计,可以灵活定制用户管理需求,实现用户管理的可持续化建设;智慧运维平台为用户多种开发集成方式包含如下几种技术实现:增加具有用户独有设备的管理,通过合作开发,智慧运维平台可以集成用户自行开发的采集方式,融入智慧运维平台中进行统一的管理;整合具有本单位特色的管理指标集,实现下级单位的快速部署,和统一化管理;用户管理经验的策略化,实现用户先进管理分析方式的自动化处理;报表定制,快速导入报表模板,实现客户报表的快速实现和更新,使用户报表的变更不再成为运维软件的痛苦;使用户的管理意志在软件中得到持续体现。智能运维的特色功能智能拓扑系统采用北塔先进的、且得到近5000个现场验证的发现算法,智能发现网络设备和设备间的真实线路,准确而快速的完成拓扑的构建。网络拓扑能清晰展现网络的关系,自动布局;并能提供“圆形”“树形”多种拓扑展现方式,便于用户根据业务关系快速调整到用户需要的展现方式,同时将管理对象的实时性能和告警信息通过图标的不同状态展现给用户。智慧运维平台拓扑管理不仅是,拓扑结构的展现方式,更是用户监控的智能帮手;针对于业务承载的主机,系统同样提供了系统拓扑,不仅提供全局状态监控界面,同时也讲拓扑图作为全局分析工具,实现对于管理对象增长趋势的全域分析,包含对全域设备的CPU业务应用情况的分析,整体智能分析业务上一段时间内使用的整体趋势变化,以红、黄、绿作为不同区段的显示,使用户能清晰辨识历史增长异常。智能采集采集是运维管理的基础,只有实现了采集稳定和准确,用户才能管理,当采集的量和采集的正确性得不到保证,运维只能是理论而已。智慧运维平台采用北塔自主研发的新一代智能采集平台DGO,该平台实现自主采集,自主容错功能,独立扩展功能,与设备相关的取值事项均有该平台完成。均衡采集命令:该平台通过智能控制,智能分配被管理对象的采集口令,忙闲配合,实现保证数据取值的前提下,对于设备的压力最小;智能错误处置:平台通过智能判断,对于被管理对象取值异常进行智能判断,避免由于网络突发异常造成的采集出错误报和频繁采集造成的设备压力;DGO提供丰富的扩展接口,可方便的接入用户自行开发的采集探针,实现用户管理对象的便捷增加。智能基线传统运维关于被管对象“警戒值”,而一旦超过警戒值意味着一定程度的“损失”已经发生,有没有办法在提前一点发现风险呢?答案有多种,通过业务基线的偏离判断异常就是其中一种。智慧运维平台能根据历史记录自动生成基线,并可按照业务变化规律,形成以日基线、周基线的数据对比,一旦实时数据大于基线比对点一定范围,即生成智维事件,便于分析;当出现多次越界后,系统主动通知用户,提示运维风险。基线方式的引入,降低了用户对于“警戒值”的识别难度,使设置符合用户业务实际的阈值成为简单、可执行的事情;同时基线的方式,符合用户周期性业务稳定的实际情况,真正落实用户对于业务风险检测。智能策略智慧运维平台引入策略管理概念,架构上为策略提供各个功能的调用接口,方便的实现软件各种处理逻辑的协同处置;方便实现用户对于管理方法的落地。策略的分为触发、分析、处置三个部分,通过全面的智能运维监控,实现对于各项关键节点的智维,包含单点、多点触发;多单指标历史记录分析、多指标对比分析等方式,实现合理结论的分析,以提示、告警通知、自动报表的各项输出方式给出用户最终处置建议。系统预置多款智能策略,实现全面检测、智能判断、全面分析;包含对所有智维规则的普世策略,越界次数警示;包含对CPU负载过高的深入分析策略,可实现一站式,异常进程的分析识别。智慧运维平台支持快速策略定制,便于用户实现个性化管理需求,落实符合管理实践的自动化分析。项目效益分析自动智慧运维平台的上线将实现管理和经济两方面的效益:管理效益自动智慧运维平台的上线可带来如下运维管理效应:透明化管理:通过对信息资源的透明化实现对信息资源的统一监控和智能管理,实现自动化的信息资源监控和管理能力。主动运维:即时的故障告警帮助管理人员即时了解安全和运行隐患,实现真正的事前管理,变被动为主动。全面降低误操作可能:运维管理和安全手段都从手动的方式转变为系统自动、安全、可以跟踪的行为,手动的方式大量减少将极大降低误操作的可能性,极大增加信息化设施的稳定性。提高效率:系统提供易用易操作的监控、处理、分析一体化关联分析能力,快速帮助运维管理人员了解问题、分析问题、定位问题、辅助管理人员解决问题,提高处理问题的效率,为信息化的可靠运行保驾护航。综合分析能力:总体把握资源,提高效益,能及时判断信息资源各个环节对业务的影响,提高信息设施质量和降低运维管理人员工作强度,最终为提高科技部的核心价值服务。实现绿色经济模式通过实施自动智慧运维平台将会带来非常大的收益和回报。我们来算一笔帐,我们在网络中采用了自动智慧运维平台后将产生什么样的收益。自动智慧运维平台可以实现对所有网络、主机的安全和运维工作7*24小时不间断自动监控,代替以往人工检查的方法。按照200个管理对象预计,每个对象运行情况检查大约需要10分钟;全部检查一遍需要约83.2工时。以每天系统运行情况检查一遍,每工时/人按15元计算,每年可以节省人力成本约455520元。自动智慧运维平台上线后,随着运维管理水平的提高,整个信息系统故障的解决时间会缩短,并且由于管理水平的提高,信息系统非计划停机时间也会减少,提高业务部门满意度,提升行业形象,为用户带来短期和长期的经济效益无法估量。自动智慧运维平台将带来如下的绿色经济模式:系统可以减少运行维护人员的日常巡检工作强度,可以合理安排人员。北塔的性能数据和事件处理办法预计可以减少大量的运算服务器和存储设备。系统对信息系统运行和安全隐患进行评估,减小了信息系统故障造成的科技部系统中断影响面,按评估结果进行故障排查。北塔软件公司介绍上海北塔软件股份有限公司(简称北塔软件)是专业从事IT运维管理产品研发、销售、咨询和服务的高新技术软件企业,致力于为中国用户提供从网络管理、IT基础架构管理到业务服务管理的全面优质解决方案。通过优质的解决方案,北塔软件不断拓展各个行业用户,累计取得全国超过5000家用户的规模应用。这些规模应用让北塔软件的产品不断改进,始终处于运维行业领先水平。2014年北塔软件成功登陆国内新三板市场,为公司持续良性发展奠定坚实基础。北塔软件也深知服务对用户的重要性,在全国所有省会城市都建立了专门的服务团队,由此建立了全国最大的运维管理产品技术服务团队,真诚为用户提供更快捷、更周到的服务。自主创新北塔立足国内运维管理实际需要,独立自主研发,坚定不移走自主创新之路,形成了完全符合国内用户使用体验的专业IT运维管理产品。产品完整覆盖网络、主机、数据库、中间件、应用、业务、机房、虚拟化、存储等各个IT设备领域。通过北塔专业的研发团队,向用户提供丰富的产品支撑和精细化的指标管理能力,完全满足用户对各种IT设备的管理要求。随着北塔业务的不断发展,北塔收获了超过23个产品著作权证书,3个发明专利证书,承担国家和地方科研项目,这些都是北塔强大的研发实力的体现。大量优质案例北塔软件深知用户的需求所在,秉承“为用户创造价值”的服务宗旨,持续完善和贯彻符合国际标准的项目管理和质量管理体系。多年来,已在政府、电力、银行、石油石化、教育、传媒、企业等各行业开展实践应用,协助用户提升了IT运维管理水平,并以高品质、高性价比赢得了用户的广泛信任。目前,全国已有超过5000家的用户使用北塔软件系列IT运维管理产品。参与标准制订2010年,北塔软件加入ITSS(国家信息技术服务标准工作组)。作为副组长成员,肩负行业责任感,参与了研究并建立信息技术服务标准体系,制定信息技术服务领域的相关标准等方面工作,并积极投身于规范和引导信息技术服务业的发展历程中。服务能力公司总部设于上海,现有员工超过300人,在上海、北京、广州、成都、西安、沈阳设有六大营销和服务中心,在全国三十几个主要城市均设有分支机构和常驻人员,为用户提供高效、快捷的本地化服务和支持。核心竞争力北塔软件不断加大研发、技术、服务和人才等方面的投入,强化以”研发、技术、创新“三大实力为主的核心竞争力,紧跟技术的发展与用户的需求,不断为广大用户提供高性价比的产品与服务,帮助用户创造价值,持续站在国内同领域的巅峰位置。整体技术方案介绍建设目标建设思路结合国内外信息化管理平台发展特点,针对信息化现状和用户实际需求,自动智慧运维平台主要从以下两个方面进行建设:建设全面的基础设施管理本次管理平台需要提供全面的基础设施管理,这些管理内容包括网络设备、无线设备、网络安全设备、服务器(含小机)、数据库、中间件、标准应用等以及机房内的温湿度探针、UPS设备、空调设备、门禁、烟感、水浸、摄像头等设备。在管理设备的基础上还包括对IP地址管理、设备配置管理、服务器硬件管理、进程管理等内容。通过全面的基础设施管理,能够建设一个具备全面和精细的管理平台。建设自动智慧运维管理平台全面基础管理之上,通过自动学习,跟踪设备运行状态,自动建立设备“健康档案”。依据设备的运行状态学习,建立全面的数据基线,基于自动运维理念,自动对设备的运行异常进行提醒。异常提醒的同时还同步给出操作建议。整个系统还能做到开放运维,可以将用户的运维经验通过智能策略的方式加入到运维管理平台,更好满足用户“私人定制”系统的要求。建设内容具体建设内容如下:系统平台,包括管理平台、智能运维引擎和多用户支持引擎。网络管理,包括网络设备管理、网络拓扑管理、网络性能管理、网络配置管理等内容。无线管理,包括无线设备管理、无线拓扑管理、无线性能管理等内容。应用管理,包括服务器管理、数据库管理、中间件管理和标准应用管理,建设系统拓扑图、主机日志管理等内容。存储管理,包括对存储设备(磁盘阵列、光纤交换机等)的设备状态、性能管理,以及各个磁盘、控制器的状态监管,并提供存储容量分析策略,实现主动分析,透明化监控;虚拟化管理,包括对虚拟机中心、文件夹、数据中心、集群、宿主机、资源池、vApp等资源的全面管理和资源性能的智维分析。机房管理,包括对温湿度探针、UPS设备、空调设备、门禁、烟感、水浸、摄像头、机柜等机房设备管理,提供机房的综合展现。告警管理,包括建设设备运行基线、异常提示、处置经验管理和智能巡检等内容。报表管理,包括网络管理、应用报表和虚拟化三方面各类运行报表、故障报表等统计信息,还包括对网络和应用的数据快照功能。方案产品介绍在目前这个IT技术大发展的时代,各行各业越来越倚重IT作为生产平台,各种新技术运用使业务运行更便捷的同时,给业务IT系统的运维部门带来的巨大的挑战。随着企业发展,IT运维部门也在不断的摸索最佳运维方式,逐渐形成了一些具有企业特色的运维经验和问题分析方式,而业界的运维软件往往无法实现对于企业运维方式的很好兼容,导致IT部门无法将管理理论转化成最佳生产力,提高管理效率,降低运维成本。北塔BTSO(BetasoftSmartOperation&Maintenance,北塔智慧运维平台)作为北塔软件最新一代的运维管理软件,秉承北塔多年管理经验结合平台化开发方式,在满足用户对于基本状态和性能无人值守及实时展示的基本运维需求的同时,智能抓取关键性能数据,根据预置策略进行数据分析和联动处置;同时提供强大的平台能力和后台开发能力,能将用户个性化的分析方式和处置方式快速实现策略化,以期实现用户管理效率的最大化提升。方案产品亮点BTSO系统以自动学习、自动分析、自动运维诠释智能运维的运维方法。自动学习:实现用户环境数据的学习,结合内置检测指标体系,建立具有用户特征的常态健康标准;自动分析:实时监控用户各项运维指标,结合指标变化特征,通过诸如单指标越界比例、多指标组合判断、历史趋势变化等方法自动判断数据异常情况,主动提醒;自动运维:提供处置方案的提醒,用户处置程序的调用等多种方案,实现异常问题的及时处理和运维。BTSO系统在落实智能化的运维方法的基础上,同时注重运维可视化的实现,实现运维过程可视、可控;机房可视化:实现用户从物理结构角度的监控管理,从真实展示效果入手,可快速定位到接口问题信息;业务可视化:BSM图形实现业务关系和业务状态的信息可视性;巡检可视化:通过图表方式,实时显示巡检过程,及时显示每一个巡检项的检测结果;动态显示巡检执行情况;数据可视化:提供灵活定制的界面,多种大数据展现界面,使用运维管理的个性化展示要求足。方案详细介绍产品平台介绍BTSO采用平台化设计,以DGO(DataGatherOcean)为数据采集平台,基础采集平台构建功能平台;以告警、报表、智能运维、license构成强大的功能平台;具体资源的管理作为基于平台的管理功能,具备以接口为中心的设计模式。系统提供强大的扩展能力,支持管理能力的自由扩展:采集平台支持用户个性化采集程序的快速兼容,实现管理指标的快速扩展;采集服务器支持无缝扩展,支持多个采集器同时部署;支持管理策略的快速扩展,实现用户管理方式落地;支持用户个性化报表的快速扩展,实现各种具备企业特征报表数据和展现方式。分布式采集器对于包含多个分支机构的企事业单位,由于分支机构之间的网络隔离原因,单一的采集器已经不能覆盖,为此BTSO提供可扩展的广域网采集器,最多支持20个分支机构的分布部署,对于分支和总部之间的线路要求降到最低,可用1M的带宽,并支持广域网等线路稳定性较差的环境,并支持加密方式;采集器具有独立的采集处理功能,在采集器完成自行的发现工作。在部署完成后,可进行自由扩展采集器数量;支持对于固定采集器的管理对象进行禁访设置,规避由于管理对象本身监控协议的造成业务影响;综合展示BTSO提供的个性首页能帮助用户个性化定制首页和大屏投影,提供灵活定制的界面,能够进行多种大数据展现界面,完全满足运维管理的个性化展示要求。运行摘要对于一款监控软件来说,其最大的价值是能替代运维人员(值班员)实现不间断的监控,当系统成为用户的必备管理工具时,每次进入系统有一个概要性的说明,成为软件的必要。运维主管每日登陆一次即可综合性的显示了24小时内的系统运行变化趋势,通过列出了运维人员重点关注内容;通过对本界面的阅读,可快速掌握最近24小时的运维概况,实现运维工作的快速衔接。当前实时运维状况,需要重点关注当前还处于告警状态的资源最近需要的停机计划虚拟化环境目前的整合密度,概要性反映虚拟资源利用的有效性最近24小时运维系统的设置变动,便于用户了解“未在线”时段的事件重要的资源变动统计重要的监控方式变动统计已恢复的告警信息了解昨日关键指标波动最大的5个资源,便于本日重点分析主机CPU波动分析网络设备CPU波动统计线路流量均值波动统计日常运维在运维过程中,运维系统在后台进行规律性监测,但是由于业务上的定期整修、环境的变化,管理要求的提高均需要运维管理人员对于系统运维工作进行干预操作,为了更好的实现日常运维的各项管理,BTSO提供日常运维菜单,为用户提供场景化工作入口,包括对现行监控方式的查看、对智维巡查过程的关注、调整监控计划,审计运维配置修改过程。运维等级管理等级管理是实现差异化管理的一个具体手段,按照不同等级实现不同的监控方式是等级管理的具体落实;作为等级管理的主要页面,全局显示了所有等级的设备数量,以及不同等级的方式,包含智维规则、告警规则;同时设备的管理优先级不是固定不变的,本界面为用户提供了快速等级切换的统一配置功能。制度化运维检巡检巡检管理是IT运维制度的必要组成部分,通过巡检制度保障日常系统是被监控的,传统巡检是通过手工查询获得,而北塔的智能巡检是基于依托系统强大的采集能力实现定期巡查和报告生成,极大程度上提高日常运维效率。巡检任务的建立支持以业务、自定义组合为输入的巡检任务建立方式,支持以某一个业务或同一类型以同一个巡检报告样式、同一个时间点进行巡查;巡检任务支持巡检模板方式,为企业已经生产的巡检规范快速应对到巡检任务提供快捷应用,用户仅需把巡检对象(业务、对象)纳入到巡检任务中,系统自动配对相应的巡检指标要求;同时支持将已经执行的个性化巡检任务提升成企业巡检模板。系统支持提供日、周、月、不定周期多种巡检方式,其中日、周、月为周期巡检,一个周期内可以执行多次巡检任务;周期巡检是将多次巡检在同一个统计报表中进行统计查询;系统支持特殊时段的巡检工作,比如国庆假期的特殊巡检,此类巡检为短时段内,以日为巡检基础单元的巡检任务;同时提供此不定周期巡检的巡检周期报表。为巡检过程透明化提供了数据基础,而透明化巡检过程,可以使异常的识别更为清晰;每一次巡检结果均使用颜色方式显示巡检结果,红色表示巡检异常,绿色显示巡检正常;通过文字说明当前巡检结果状态;系统应该提供此次巡检任务的健康度评价,以及每一个巡检项目的当前值和巡检检测值的情况。系统支持对巡检任务的立即执行和重点保障业务的不间断巡检工作,通过“立即巡检”“持续巡检”,可以发现巡检工作,并在视图中进行显示。完成巡检后,可以以表格方式查询当前本次巡检的统计结果;对于具体的巡检指标,系统应该提供企业自身处置方案的定制,可以通过定制+加载方式实现对于巡检异常的快速处理,作为一种处置策略,延续北塔智维运维中自动处理的一贯思路,在用户现场规范设定的前提下,可以扩展成对于主机的关闭进程、上联端口关闭等自动运维操作;延续企业日常传统运维要求,巡检报表具备一定的范式,要求系统生成的巡检统计报表可以按照用户要求定制,并且能无缝纳入到系统中。重点应用实时控对于工程师日常监控来说,故障管理是突发情况,而关键业务、指标的监控是常态管理要求,为了满足工程师对于重点应用质保的监控要求,系统提供了自定义首页功能,该功能提供基于角色的个性展示功能,用户可以自行选择不同管理重点指标以及展现方式,以便完成一图完成所有重点监控;系统能够为展示要求提供数据支撑,能为自定义布局提供技术支撑,管理展现提供数据支撑。系统至少提供TOP表格、TOP柱状图、性能曲线图、单值图等多种展示方式;支持对于所有数值型数据的统一排序、历史记录展示;结合日常管理需求,可以实现诸如骨干线路监控总图、关键应用监控视图的管理要素。除了所以采集范围内的指标外,也支持通过sql、ssh、snmp等方式扩展业务指标的显示;系统能够提供基于一个角色同时查看和配置多张视图的能力,每张视图可以新窗口打开,为用户日常监控展示提供便利性。每日运维工作交接运维软件7*24小时在后台运行,运维人员无需长期打开软件前台。但是当用户一段时间下线后,需要快速了解在离开的时间就运维工作有什么发生了,后续有什么继续处理的;这也是BTSO运行摘要为用户带来的管理价值;系统提供历史发生重要事件,便于用户了解管理方案有何变化:提供昨日管理对象范围的变化,列出具体哪些对象被新纳入了管理范围提供昨日管理规则的变化,列出哪些智维规则、告警规则发生了变动提供昨日告警恢复清单,列出了哪些告警事件被处理;系统提供当前重要事件提醒,便于用户了解当前运维工作急需处理的事项:提供当前未恢复告警清单提供本日需要停机设备清单提供昨日性能增长异常的设备,便于找到性能优化的抓手;每周智维隐患分析BTSO自动对管理对象进行数据收集,用户进行数据对比分析,系统也提供智维分析的周统计,智能的挖掘系统的问题隐患。提供本日/周/月系统运行概要信息:目前管理的总数量,本周运维巡检的次数本周执行智能诊断的次数本周生成的报表数量提供各个管理类型的运维巡检情况:本周运行健康趋势如何,如果问题增多则需要关注;提供为什么问题增多的具体表现,包含本周巡检问题最多的指标,以及问题最多的设备;包含本周巡检问题最多的设备,以及这个设备的问题指标;停机检修管理停机检修是每个企业中不可避免的运维场景,检修时段的监控是没有意义,而且会导致相关误告警;BTSO将停机作为基本运维场景,用户可以按照在系统中制定停机计划,比如网络设备停机、主机停机,系统自动根据关联关系对于相关联的线路和承载软件自动列入计划。计划执行前,系统可以以邮件、短信多种方式通知管理员做好相关保存备份工作。计划执行时,系统自动屏蔽相关设备与软件的告警项目;计划结束后,系统自动启用告警监控;相关统计中自动将停机内容进行去除,以设备正常进行计算。同时提供了admin账号补填停机计划的过程,此项过程为了保障由于临时性停机过程,而出现的错误统计现象。软件操作审计BTSO用于评价IT环境中的各个管理资源,为了体现公平合理,相关的评价规则的设置需要得到控制,所以提供了软件操作审计,为管理者能清晰的查阅到对于资源设置变更、监控规则变更、报表规则变更的情况,强大的搜索系统,为用户定位异常操作提供助力。智能运维引擎运用等级概念实现差异化管理运用等级概念实现差异化管理BTSO精选各类管理对象的关键状态、性能指标,以不同管理等级为数据集,实现一个等级的资源一个管理方案,包含预置智维检测指标、预置报表、预置策略检测等;实现资源加入即可监控的简单运维方式。BTSO也支持用户根据业务系统的重要性,将管理上相同重要性的不同管理对象设置为同一等级,针对性新设、修订管理指标监控集合,修订监控密度、阈值,指定针对性处置策略,在不同等级间实施差异化管理;图:智维引擎工作示意自主学习基线实现业务异常监控在日常运维管理中,业务管理的复杂性要远高于设备管理的复杂性,它不是简单的表现为好坏、通断,而是更复杂为可用性问题,可用性判断也是由一批关键指标构成的,但指标的正常与否,不能简单地以固定阈值来对比,要结合真实业务情况的波动来判断。BTSO提供智能基线监控方式,支持智能基线的自动学习,通过对正常状态下指标的“历史表现”,加以调整后作为基准线,与以后同样时段的实时指标做对比,如果误差在允许范围内,那么判定为正常,否则为越界,越界次数越多,会导致系统的可用性严重下降,极端情况下导致系统不可正常使用;以此作为业务异常的监控;系统提供日、周两种基线方式,周基线的形成是以前几个稳定的周历史数据为基础,通过智能算法,将每日相同时间点的多个数据,归并成一个基准数据,并以此为方式形成周基线。使用基线时,将实时数据和基线相同时间点进行比对,实现周一和周末的区别、上午8点和下午4点的业务区别。智能策略实现管理实例落地BTSO将围绕运维数据产生且具有固定分析和处理逻辑的运维方法,归类为智能策略需要处理的方法;通过策略的应用,可以进一步提高运维效率和运行成效。BTSO内置了众多的智维策略,提供标准的管理实例落地,通过客户化开发实现用户处理经验的快速落地;系统对于所有管理指标均可实现基础分析方法,当发现异常后,及时了解该异常指标的管理意义和影响范围,以及历史情况,这样将原本专业性过强的指标一下子拉进到可理解可运维的角度;系统对于主机类两个重要问题“负载过高”“内存泄露”进行了专项分析,针对这两个问题特征,联合进程分析,进一步定位造成这两个问题的具体业务进程,为用户解决系统问题提供有数据、有结论的原因定位;系统对于数据存储的核心性能问题“内核延迟”“设备延迟”做了专项分析,另外对于集群、宿主机、虚拟机、数据存储的24个关键性能指标提供自动分析,当发现异常越界比例过高时,系统会主动以专题性分析报告的方式告知用户,列出历史分析数据,便于用户更深入了解问题本质,同时给出了具体解决这个问题的方案,从而使用户在第一时间能将影响范围缩到最小;通用指标越界策略,如同上述数据库指标一样,通过对于历史数据的分析回顾,智能分析出指标与历史基准(具体风险阈值的差异),主动提示用户异常风险,并同时告知该指标的意义以及异常的处理建议;该策略可覆盖所有类型的指标,包括主机、网络、数据库等,用户也可通过该策略关注业务相关的特殊指标,以完成策略的本地化应用;图:异常情况分析与处理建议专项智维方案快速实现问题排查系统提供场景化工具用于对专项问题的分析,从而复杂问题的简单化排查,系统在常见操作界面提供快速操作入口,便于用户能快速调用并解决故障。系统预置多个智维分析方案,并支持快速开发,插件化导入,实现用户分析场景的快速集成。系统支持对于服务器和客户端链路质量的快速分析,仅需输入服务器和客户端的IP地址即可计算两端的接入设备和中间的网络传输连续,并可对相关链路进行传输质量分析,并辅以借助本地服务器对两端延时的测试,从而分析出网络访问缓慢的瓶颈点。系统支持对于冲突IP的快速定位,在外部获得IP冲突信息后,仅需输入冲突IP,就可以定位到当前使用者以及被冲突IP接入位置,从而快速处理。系统智能运维传统系统监控的访问方式为告警,但是面对设备日趋完善,管理对象超过阈值的告警越来越少,如何实现运维价值的最大化呢?这是摆在运维管理主管面前的最大课题。北塔公司结合用户运维实际情况,发现运维价值最大化的方式有如下方面:通过事前隐患智能分析,主动排除,即时通知,将故障发生概率降到最低;对于部分故障实现自动化分析和处置,缩短故障处置周期,避免损失扩大化;落实每个运维主管的对于自身企业的个性化管理要求;BTSO适时推出了智能运维管理,为用户落实如上3点诉求,提供管理功能。预置智维管理方案BTSO核心管理方式就是智能化管理,智能化的理论基础是北塔十几年的运维经验和几千家用户的管理实践,为把这些管理方案推送到用户现场,BTSO提供了智能运维模板。智维模板按照管理等级,预置了不同管理对象的管理方案,方案包含如下技术点:内置监测方案,包含采集指标的多寡,具体指标的采集周期、监测阈值,便于对系统自行巡检相关数据;提供了预置告警规则给用户进行选择,用户可以根据业务管理实践的不同启用相应的告警管理规则;提供常见管理报表,并生成高级别对象的管理报表。通过上述智维模板,使软件无需复杂配置,安装就能对资源进行基础运维。智维事件监控对于预置监控方案,BTSO不仅提供后台自动检测过程,也提供了前端巡查功能,使用户能实时了解到后台智维的实时动态;对于智维巡查结果,以事件方式存在,此类事件并不完整描述了故障或异常,所以BTSO推荐以统计角度进行评价,以越界比例作为观测的切入点。同时系统提供详尽智维分析工具,包含智维信息的统计、智维异常分布、历史值检查等,结合此类工具实现异常的关联分析和确认。智维越界提醒策略BTSO预置多种预置策略,基础策略是对于内置监控方案的提醒策略,对于智维越界事件,当系统发现内置检测指标,越界事件超出安全频率后,主动推送到页面前端,通知管理员,系统发现了异常。提示内容中包含最近3日,发生异常的次数并且给出该指标的历史曲线;同时给出该指标的详细定义,清晰的列明,该指标是什么,异常后影响什么,一般的解决方案是什么。同时可对该指标进行快速设置告警,便于后期管理中,出现了相同问题后能通过短信、邮件通知离线用户。客户化分析策略定制BTSO的智能策略基于平台化接口体系,作为软件的核心,其可以调用BTSO软件的各个方面,包含基础数据的采集,合成指标的计算,各类对象的综合分析,并可以实现通知、报表、下发等处置策略的调用。北塔软件基于BTSO,通过合作开发的模式,可以实现用户管理策略的自动化,使每个用户能使用上“贴心”的运维软件。故障管理对管理对象按照预置的风险阈值进行检测,并实时通知到管理员处,是运维系统必备功能,也是传统上运维软件的核心价值所在;而在传统上故障管理在应用上经常会遇到如下问题:设置告警的范围选择,用户总是期望监控无死角,但是所有KPI的高频监控必然导致管理设备的异常负载增加,这要求运维厂商能提供合理的告警范围推荐;告警规则的自动设置,往往用户对于告警的规则和检测标准时一致的,如何实现相同标准的推广,这要求运维软件对于规则设置的易用性;告警的经验如何总结和继承,告警处理经验能得到及时记录,并能在下次出现同问题时,即时推送,便于有效提高故障处置效率。BTSO系统提供了灵活的告警设置、精确的告警检测,多样告警推送方式、简单的告警经验积累方式,实现用户有效及时得到故障信息。告警管理便捷的规则设置告警永远是运维中最基础的功能,对于运维人员而言,总是期望告警不产生,那样意味着系统正稳定运行;为了给用户提供这个可靠的信息,BTSO提供便捷的告警设置实现大面积的监管设置;在设置界面为重点指标实现详尽的指标说明,使用户面对具体技术指标能更为合理的进行配置。系统提供多种预置告警规则支持以IP为方式,为未纳入管理设备规则化的告警规则支持为某一个存在的对象为样本,批量设置进程、硬盘的子对象的告警支持以IP网段方式和等级方式显示告警的设置支持以多种通知方式,灵活的通知给不同的人员支持对告警通知内容恢复内容的自定义,满足用户对于业务化通知内容的实现高效的告警提醒机制BTSO为了让用户能快速识别告警信息,以不同颜色区分不同的告警等级,并在运行摘要和页面框架中重点突出显示。用户每日登陆系统均可了解昨日告警的处理情况,目前发生且需要处理的告警数量,同时可以看到具体告警实时条目。以及本日的停机计划,为一天的工作提供基础信息。当长期打开页面时,系统通过框架上的颜色区别显示不同的等级告警,使值班人员能快速了解到具体的告警展现。同时系统提供短信、邮件的通知方式,为线下管理员提供最及时的告警信息。清晰的告警查询为了使告警信息更为有效,系统提供灵活、清晰的告警历史查询界面,界面中列出了不仅列举了历史告警的各个字段,同时给出告警统计分析信息,为用户以告警角度对现有对象的信息进行评价。系统提供告警时长、和累计次数为索引条件统计,为用户提供这个维度出现告警最多的管理对象和具体异常点;提供重复告警统计,以及统计时段内最长、平均、累积的告警时长,为用户提供告警规则有效性评估提供处置经验的编辑功能,为用户快速积累处置经验提供管理入口,下一次相同问题出现时,提供处置参考;知识库管理用户在长期的运维过程中,一般均会有一些管理预案,但是如何实现管理经验的长期积累呢?BTSO提供处置知识库,通过对处置预案的积累,出现问题后能快速实现信息传导,将处置预案真正落实到实际操作过程中。系统类管理主机管理主机管理以波浪图方式显示所有主机的全局信息,以图形化方式显示主机的常用管理参数。包含如下信息:详细的主机基本管理参数单个系统的CPU、内存增长趋势单个系统的业务流量变化趋势单个系统存储空间实时和变化情况同时可对统计范围内的主机进行详细的实时分析数据,便于用户关联分析出需要重点关注的主机:以实时CPU利用率的主机排行实时内存利用率的主机排行实时连续运行时间的主机排行各个操作系统的存储空间已使用情况分析,给出使用率最高的20个设备最近30天以CPU为评价指标的高负载和低负载设备列表提供主机一体化显示,按照不同的操作系统进行数据分类,系统提供基础信息、运行信息、进程管理、事件与告警、硬件信息等各类管理信息:以关联方式显示主机上的承载数据库、中间件、标准应用的实时状态图形化列出重点监控的硬件、日志、CPU性能、磁盘信息的实时信息对于CPU性能、网卡等重要参数的最近3天数据分析支持主机进程的实时展示分析对进程列表支持数据快照分析,支持列表数据定时导出;实现对进程的变化分析主机系统支持对于HP、Dell、IBM三个厂商的硬件状态监控,支持对于温度、风扇、磁盘、CPU、内存、电源等重要主机硬件的状态监控;BTSO智能翻译硬件各个状态,将复杂的各个硬件运行状态,转化成运维监控的异常正常状态;便于用户快捷的设置硬件异常监控告警。服务器硬件管理系统支持以IPMI方式为主体监控方式的硬件管理,IPMI方式属于主板层面的监控,是以带外管理模式监控服务器的硬件状态,支持各类国产厂商的服务器,包括联想、曙光等。带外管理模式可以在服务器操作系统无法启动时,感知到具体的设备异常,避免用户在定位服务器问题时需要打开机箱的麻烦,从而实现真正的远程运维;对于硬件服务器的监控,系统从异常状态和开机时长两个维度为用户进行全局归类,支持各项存在异常状态的服务器进行分类查询,实现在大量服务器管理场景下的快速问题定义;在服务器管理中开始时长也是一个重要管理指标,通过开机时长可以快速判断服务器是否稳定运行;硬件管理通过表格展示硬件IP和OS对应关系,同时分组展现各个硬件组件的实时状态;点击硬件IP可以查看硬件监控详情,点击OSIP可以查看当前关联操作系统的状态,以便了解承载应用的可用性;服务器硬件管理需要在被管对象处配置单独的管理IP,监控产品支持一个服务器上通过虚拟化方式加载多操作系统的部署方案。支持通过操作系统和服务器硬件的关联管理;服务器硬件管理以IPMIV2.0为基础,支持服务器生产厂商、启用时长的系统资产属性的获取,同时监控电源、电压、温度、风扇各类传感器的监控。结合添加硬件传感器可以实现功率监控的特殊监控要求;同时监控系统日志信息,可以查询到各类硬盘状态、插卡热插拔、系统启动等系统底层信息。数据库管理数据库专项管理支持对所有数据库的统一分析和处理;BTSO支持Oracle(含OracleRAC)、SQLSever、DB2、MYSql、sybase、infomix、达梦等各版本的数据库监控;数据库管理操作系统管理为基础,实现主机和数据库协同管理。数据库增加方式支持手工增加和批量导入模式;支持用户以模板为基础修改的资产清单的导入。支持对于管理信息的统计,包含授权点使用情况,各个数据库状态分布、各类型数据库熟练统计、数据库等级统计。支持对于各个数据库实时运行状态的实时统计,包含数据库会话数、死锁数实时排行。在数据库技术层面主要对表空间大小和会话数、缓存信息、锁信息进行重点监管;系统以图形化方式显示了各个关键指标,使管理者能快速了解数据库状态。同时鉴于数据库与主机的不可分割性,系统强调关联分析:主机列出数据的实时告警状态,所在主机主要性能,主机上目前数据库相关的进行列表实时情况。依托于所在主机的日志管理,支持对于数据库应用日志的监控,比如oracle中alert_<instance>.log文件监控,可以获取对ORA-27072等常见错误日志的实时监控。SQLserver管理从运行状态、运行信息、资源使用、日志、作业、后台告警几个角度进行管理,对于运行信息涉及会话、事务、锁对象、闩对象、缓存器多个管理要素的核心运行数据,资源使用结合操作系统资源和分配资源内容进行管理,包含CPU、内存、进程、磁盘空间、网络带宽使用;同时提供数据文件的日增量,便于了解业务增长规律;DB2管理从运行状态、运行信息、表空间、进程状态、资源使用等几个维度重点切入,运行信息涉及应用连接、缓存、数据库缓存池IO信息、锁信息等多个管理要素的核心运行数据,资源使用涉及操作系统相关的CPU、内存、应用已分配日志空间的管理;Mysql管理从运行状态、运行信息、资源使用、事件等几个角度进行重点切入,运行信息涉及响应时间、缓存、IO、连接、锁对象等多个管理要素的核心运行数据,资源使用结合操作系统资源和分配资源内容进行管理,包含CPU、内存、进程、磁盘空间、网络带宽使用;同时提供数据文件的日增量,便于了解业务增长规律;Sybase管理从运行状态、运行信息、资源使用、作业等几个角度进行重点切入,运行信息涉及响应、会话、缓存、事务、锁对象、磁盘读写等多个管理要素的核心运行数据,资源使用结合操作系统资源和分配资源内容进行管理,包含CPU、内存、进程、磁盘空间、网络带宽使用;同时提供数据文件的日增量,便于了解业务增长规律;达梦(DM)数据库管理通过运行状态、运行信息、资源使用等多个角度进行管理切入,运行信息涉及会话、缓冲区、网络、线程、磁盘IO、锁对象、文件IO、数据缓冲区等多个管理要素的核心运行数据;informix管理通过运行状态、运行信息、日志文件、配置信息等多个角度进行管理切入,运行信息涉及块、扩展数据块、高可用数据复制状态、锁对象、会话等多个管理要素的核心运行数据。Oracle集群管理Oracle集群(RAC)作为常见的oracle部署方式,结构复杂,管理能力要求高;BTSO通过图形化展示方式,将RAC的结构清晰展现给用户,同时列出重点性能信息,帮助企业用户能初步定为RAC系统的关键异常状态。BTSO支持oracle版本的集群体系,通过与部署主机、承载实例、控制软件的分层管理实现清晰架构。通过整体方式显示各个承载系统的性能,通过对各承载系统CPU、内存、物理IO情况的分析,清晰的展现出各个承载系统的负载均衡情况。支持对承载主机、实例、clusterware的一体化信息查看。对于clusterware应用软件性能做了细致分析,如上图,BTSO通过对GCS性能、融合写比例、IO、实例会话四个方面,以对比方式监控不同的实例,从而帮助用户判断出节点负载是否均衡;为规划调整提供对比数据。中间件管理中间件管理对通用定义中间件的管理,包含了应用服务器、消息中间件的管理,支持MQ、webologic、websphere、Tongweb、IIS、Domino、Easerver、Jboss、Apache、tomcat、Tuxedo的非集群管理;实现用户对于中间件的基本状态和承载业务的基本状态监管。支持对于管理信息的统计,包含授权点使用情况,各个中间件状态分布、各类型中间件数量统计、中间件等级统计。MQ管理:对于MQ管理系统中重点关注所在主机性能和通道、队列信息。同时提供特别关注功能,记录用户业务相关的通道和队列信息。websphere管理线程、事务信息、虚拟机信息,同时显示实际承载业务的链接信息。weblogic管理重点关注中间件自身性能和承载业务链接应用的信息。BTSO支持最近24小时数据展现,使用户更为清晰了解性能变化情况。Tongweb管理通过对中间件运行状态和运行数据、配置信息的监控实现运维,其中运行数据涉及堆内存、非堆内存、Java虚拟机、线程信息、class信息、垃圾收集器、ORB线程池、JDBC连接池、web应用、servlet、EJB池的核心运行指标;Tuexdo管理通过对中间件运行状态和运行数据、配置信息的监控实现运维,其中运行数据涉及客户端、消息队列、服务信息、服务器信息的核心运行指标;Tomcat管理通过对运行状态和JVM信息、连接器信息的监控实现运维,其中连接器部分涉及线程、和请求信息的核心运行指标;Apache管理通过对运行状态和性能指标的监控实现运维,其中关键的指标包含访问次数、业务流程、活动进程数等该类指标均可通过基线方式实现运行异常变化的监管;Domino管理通过运行状态和性能、配置指标等监控实现运维,其中性能指标涉及服务运行情况、服务器任务、服务器信息、服务器硬盘、复制情况、邮件情况、服务器内存的核心运行指标。IIS管理通过对总体IIS服务站点的监控实现运维,其中涉及IIS的运行状态、连接信息、服务器性能等多方面的核心运行指标;JBoss管理通过状态和运行信息的监控实现运维,其中运行信息涉及EJB、EJB3、JDBC、JVM、servlet、线程池、web应用、缓存、JMS、请求、会话、log4j能等多方面的核心运行指标。EAserver管理通过对运行状态和运行信息的监控实现运维,主要涉及服务器状态、连接信息、网络读写、连接缓存信息等多个方面的核心运行指标。标准应用管理标准应用管理支持文件传输应用(ftp)、网页服务(http)、邮件服务(pop3、smtp)、Aspnet、dhcp、DNS、Exchange2003\2007、JVM、LDAP的监控。支持加密传输协议,包括Sftp、https的监控。支持对于管理信息的统计,包含授权点使用情况,各个数据库状态分布、各类型数据库熟练统计、数据库等级统计。支持图形化方式显示应用的承载主机状态和应用的基本性能信息。主机拓扑管理系统拓扑以主机为核心,展现了所有承载的数据库和中间件、标准应用之间的实时状态监控,为主机监控提供全景视图;系统自动生成并智能布局,无需人工调整。系统拓扑提供清晰的展现方式:提供网段不同颜色表示方式,不同主机按照其操作类型图标显示,从主机出发关联数据库与主机的关系。系统通过不同的颜色区分管理对象的实时性能层级,BTSO提供了主机经典性能指标,并以红、黄、蓝代表其主机实时性能;提供根据业务需要性能负载调整设置功能;提供主机关键性能指标的实时显示;系统以闪烁的图标反映,重点提醒用户该资源发生了告警;同时以弹出框显示告警的具体对象信息;系统提供自定义拓扑方式,可通过对不同业务拓扑主机的自定义归类,实现单独业务的聚焦关注。拓扑图不仅反映单个设备的状态,同时提供关联数据排行,为问题定位增加信息参考:提供以故障作为评价方式的综合评分,整体了解系统的整体运行健康情况;提供主机CPU实时TOPN排行,分析主机性能最高的设备,便于用户重点监控;提供主机连续运行时间TOPN,分析主机异常开关系统的变化;提供数据库会话数TOPN,分析数据库实时运行状态。拓扑图不仅作为展现工具,同时可作为主机管理的分析工具:系统提供各种全局性变化趋势分析,包括CPU涨幅分析、内存涨幅分析、流量涨幅分析、存储周期涨幅分析;通过对管理范围内的所有的主机进行全局分析,以不同的颜色区别显示主机对于CPU的增长区间;提供CPU、内存、流量、存储的趋势分析,通过环比分析,区分出运行趋势的异常;如CPU趋势分析,给出前4天日均值,以及动态变化曲线。日志管理日志是所有IT应用反映内部异常和状态的重要记录方式,日志反馈的异常相对于标准网管协议的信息更为及时和完整,日志的主流协议包括文本日志、syslog、trap等,实际运行中还有很多设备厂商、软件厂商仅提供trap方式或文本方式记录关键状态,本版本通过对日志采集能力的扩展,实现监控对象的扩展和告警信息的处理日志管理支持文本日志、SNMPtrap,Syslog方式的监控,提供日志信息按照既定模板转换成管理指标,根据指标的业务属性可以进行历史记录、实时显示、告警等方式的管理。对于文本日志的监控,支持操作系统、数据库、中间件、用户应用在内的任意文本日志的监控,以客户端方式实时监控文本日志的IO写入变化,监控文本日志关键信息的上传。支持最大到10G的日志文件支持windows、linux系统上的以文本方式存储的日志文件支持自定义文本日志所在路径支持日志秒级监控周期支持日志指标的告警通知。对于syslog、trap的日志,系统预置常见mib信息指标定义,直接通过添加管理对象即可trap日志监控和告警。支持各厂商自行定义trap信息的指标化转化,实现部分国产厂商仅通过trap指标的设备型号支持。网络管理网络拓扑管理拓扑生成BTSO可以自动根据北塔特有的拓扑生成算法,快速搜索整个网络内的网络设备,智能分析网络拓扑结构,自动勾画出整个网络的真实物理拓扑图,真实反映整个网络的构成状况。BTSO除拓扑生成之外,还支持拓扑添加功能,在保留原有拓扑图的基础上,搜索新的网络设备,并自动添加到网络拓扑图上。拓扑算法快速、准确。内部采用北塔特有的拓扑算法,并融合了CDP算法、NDP等多种常用算法。确保能够快速、准确的自动生成物理拓扑图;支持跨广域网分布式部署拓扑引擎。可将各引擎的拓扑搜索结果上传到中心进行汇总,创建出一张完整的拓扑图,实现统一展现。设备厂商支持广泛,能够支持100多厂家的1600多种型号设备,且能支持多厂商的设备组成的“混合”网络。拓扑图展现网络拓扑图可从全局的角度出发,帮助运维管理人员实时了解整个网络当前的运行状况,主动告诉用户关注点应在哪里,网络架构是否合理,有无网络瓶颈,设备和流量有无异常等,动态告诉用户可能的故障隐患,达到透明化、事前管理目的。个性化拓扑为了同时满足不同用户间的个性化需求,BTSO提供了灵活的拓扑图复制功能,可为不同用户提供单独的展现页面。用户可以根据自己的偏好设置自己的个性化拓扑图,且不同的用户之间没有任何影响。监控结果展现直观可以通过红、黄、绿等不同颜色表示网络设备和线路负载压力的评估状况,并可以调整设备和线路的变色阈值;可以通过不同颜色的告警图标,显示各个网络设备的告警触发情况;可以为拓扑图上的每台设备、每条线路设置中文名称,添加注释,方便进行管理。界面美观提供背景图的更换设置功能,可自由选择精美的图片作为拓扑图的背景;提供了灵活设备图标的拖拽功能,可以自由设定图标的摆放位置;提供设备图标大小自适应功能,可以根据连接线路的数量自动调整设备图标大小;提供拓扑图的放大、缩小功能,可以将拓扑图调整到合适的展现尺寸;提供大屏展现功能,可以在大屏投影的情况下提供友好的显示效果;最突出的是网络拓扑图中连接线路的线型选择方案异常丰富,主要包含:直线、直角折线、斜角折线、合并线等多种不同线型,并可在同一张拓扑图中同时存在多种线型。操作便捷提供鹰眼功能,可以总揽全局,并快速的浏览、移动拓扑图;提供便捷的缩略图标、拓扑图创建和维护功能;提供多种常用管理工具:服务端Ping、SNMP测试、Web管理等,可供用户直接调用;提供快捷的设备实时信息查看功能,可以快速的查看指定设备的MAC表、ARP表、路由表、端口信息表等内容。设备性能分析对当前网络设备的CPU和MEM负载进行排名查看,并可进一步查看指定设备的性能负载历史记录。可及时了解当前负载较高的网络设备,在问题苗头出现的时候,及时进行处置,保障网络不间断的平稳运行。网络配置管理BTSO提供了一个对交换机、路由器配置管理的平台,此功能对IT网络系统的关键设备的运行参数进行监控,通过TFTP方式进行相关信息的备份,并且在当所选的设备的相关配置信息发生变动时能够及时进行告警,帮助管理人员能够及时分析问题,排除问题等。特点如下:支持TFTP方式支持自定义配置文件的备份时间间隔和备份数量支持智能对比分析。对于多份备份文件,可以进行对比,显著展现增加、修改、删除的内容。无线管理无线管理是有线网络的扩展,通过对无线AC这个特殊设备的业务层取值,获得AC下所连AP的关系、AP的性能信息、接入用户信息,将无线终端纳入到管理系统中;BTSO支持有线路由、交换设备和AC、AP的同一拓扑展现要求,拓扑图上提供无线设备的CPU、内存等基础性能动态展示;对于AC设备在具备基本网络设备的管理信息的基础上,增加在线AP数等无线模块特有管理指标。BTSO支持AP和上联接入交换机的关联关系的自动识别和构建,以此为基础自动构建出终端-AP-上联交换机-AC的无线传输线路。BTSO能提供无线传输线路的关键节点性能诊断,从而快速定位终端无法上网或者网速慢的原因。诊断路径至少包含如下信息:AC:状态、关键性能、上联端口性能上联交换机:状态关键性能、AP接入端口状态、端口带宽利用率AP:状态、关键性能、wlan总流量终端:上线时间等;BTSO提供AC、AP的关键指标详情界面,针对不同厂商AC设备提供原厂管理软件的跳转等功能。IP地址簿管理IP地址簿管理是基于企业网络中对于有线网络接入终端有规划管理要求的应用,通过本管理模块能实现对于异常接入设备(非规划范围内IP、设备)的检测和快速处理;IP地址簿管理分为2个管理层次,第一个层次是实时识别终端的接入位置,为终端故障提供快速问题定位提供信息支撑。系统自动发现被管网络上的活动IP地址及其对应的硬件地址,并定位其接入被管网络的位置(交换设备及端口),能在网络拓扑图定位显示,便于用户跟踪、掌握网络终端的使用和分布情况,分析网络事件的影响度,实现对网络上IP地址的上线、下线以及分布(定位)进行分析、追溯和统计。IP地址簿管理的第二个层次是对于终端接入的异常监控,通过规划(到部门)和分配(到终端)建立可接入的白名单,对于每一个新接入终端进行判断并对异常接入行为(未按规划和分配要求进行接入)进行告警。IP地址规划应该和业务管理所匹配,应该按照部门进行IP准入的设置,同时可以为每一个规划终端设置其管理属性。对于期望网络中常见的来宾网段,实现动态分配,仅作检测和记录,不作为告警处理;对于多部门内部构建子网的情况,提供多管理域方式,解决IP冲突问题;IP地址簿通过分布式采集引擎支持更大规模的网络拓扑,对数据进行本地处理以减少传输数据量;引入管理域概念,支持不同网络区域(多采集引擎)之间独立进行IP地址规划;优化数据采集策略,自动根据网络设备的连接状态调整采集密度减少无效采集:支持大型网络多管理域

IP地址定位、规划管理

;支持在拓扑图上同时定位多个IP地址的物理链接位置支持现场用户根据具体的现场定位需求,合理调整定位扫描范围、调节定位速度支持用户IP规划导入、规划使用情况监视、未用IP地址回收规划池支持快速IP地址扫描,查询IP使用分布情况虚拟化管理虚拟拓扑管理支持VMwarevSphere和CritixXenServer的虚拟拓扑管理。vSphere虚拟化拓扑在展现上分成资源区和呈现区,资源区采用vCenter主机和集群的目录树结构,展现虚拟中心、文件夹、数据中心、集群、宿主机、资源池、vApp的层级关系。呈现区主要展现宿主机、虚拟机、数据存储、虚拟网络的连接关系、性能、状态和告警信息,并且虚拟机与虚拟网络间线路展现真实的网络性能,另外提供查看集群的性能状况;同时支持宿主机、虚拟机、数据存储、虚拟网络的连接关系手动和自动更新,支持宿主机、虚拟机、数据存储、虚拟网络、集群性能、状态信息的自动更新。XenServer虚拟化拓扑在展现上分成资源区和呈现区,资源区采用XenServer主机和资源池的目录树结构,展现虚拟中心、资源池、宿主机的层级关系。呈现区主要展现资源池、宿主机和虚拟机的层级关系、性能、状态和告警信息;支持资源池、宿主机、虚拟机状态信息的自动更新。虚拟化拓扑还提供了辅助功能,主要包括:关联信息:提供整合密度和管理对象的统计信息。快捷功能:提供查询管理对象关联的管理规则和最后生成拓扑的结果,提供查看集群、宿主机、虚拟机、数据存储性能的TOP10。详细信息:可通过双击鼠标方式,查看宿主机、虚拟机、数据存储、集群的一体化信息。呈现虚拟化对象健康性虚拟化拓扑图以颜色变化展现管理对象以及虚拟机与虚拟网络间的状态和性能,红色表示需要特别关注,可能会出现致命的风险;黄色表示需要进行关注,暂时没有致命风险;绿色表示正常。对于集群、宿主机、数据存储、虚拟机提供了更全面的信息查看,在虚拟化拓扑中,双击这些管理对象图标,即可查看到一体化详细信息。如下图宿主机中能查看到硬件的状态等信息。预防容量枯竭对于预防容量枯竭,既要能让用户了解到当前容量使用情况,同时也需要让用户了解到将来容量使用情况,使得当前和将来的容量风险都可控,这样才能做到真正预防的效果。容量使用:系统根据当前的CPU、内存、数据存储空间使用情况,预测可部署虚拟机数量,并用黄色或红色提醒用户哪些虚拟化环境只能创建少量或不能创建新的虚拟机。容量预防:系统分别呈现CPU、内存、数据存储当前使用情况,预测可使用时间,预测将来1个月、2个月、3个月以及1年的使用大小。对于可使用时间,系统用黄色或红色提醒用户哪些虚拟化环境按照当前使用增长趋势只能使用较短时间;对于将来1个月、2个月、3个月以及1年的使用大小,用户可根据显示的大小,进行投资评估等用途。保障容量有效使用为提高容量有效使用,BTSO虚拟化管理提供了专门“容量回收”功能。并分成四种场景统计可回收的虚拟机以及自动统计可回收的容量大小,这四种场景包括:未运行虚拟机回收、虚拟机快照回收、计划下线到期回收、空闲虚拟机回收,用户根据条件点击“查询”或直接打开页面方式

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论