




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
自动智慧运维管理平台 8 1.2.2.落实管理经验积累 1.4.项目效益分析 1.5.1.自主创新 1.5.5.核心竞争力 2.1.建设目标 2.2.方案产品介绍 2.3.方案产品亮点 20 20 2.综合展示 23.运行摘要 23 24 25 .3.重点应用实时控 27.4.每日运维工作交接 28.5.每周智维隐患分析 29.6.停机检修管理 .运用等级概念实现差异 33 .智维事件监控 .智维越界提醒策略 .告警管理 .1.便捷的规则设置 .2.高效的告警提醒机制 .3.清晰的告警查询 .知识库管理 .主机管理 .服务器硬件管理 41.数据库管理 43 46.中间件管理 47.标准应用管理 .主机拓扑管理 2.4.6.日志管理 .1.拓扑生成 .3.个性化拓扑 .设备性能分析 2.4.8.无线管理 2.4.9.IP地址簿管理 .明细容量分配 .2.智能运维策略 67.存储设备硬件状态管理 2.4.15.报表与分析 .预置报表 77.定制报表 .系统巡检报表 2.4.16.用户与权限 3.2.使IT运维成为具备自主学习能力的智能运维 86 86 3.4.实现透明化的管理效果 现出不同的负载变化。另外运维管理系统的核心价值体现是“防患于未然”,采用固定阈值的结果是走向两个极端,要么设备故障了才告警,要么一堆告警而设备完全正常。这两种极端会导致用户被动处理各种故障或者对故障提醒麻木。这些都导致运维管理的核心价值没有体现。因此真正的管根据变化情况建立跟踪曲线,通过跟踪曲线可以真正建立趋势管理视角,依况来做趋势分析和预测,准确把握设备处于健康状态、亚健康状态虽然大多数用户建设信息系统时采用的设备、技环境多样性都导致每个用户的运维管理重点与难点是存在较多的差异。这种来的各种现实问题,也有不同发展阶段不同运维要求带来的实际问题。这供全面、深入的管理能力同时还需要具备开放性,能够根据用户自身运维经定制运维策略能力,将用户历史的运维经验,目前的管理重点都管理上划分优先级是被普遍认可的方式,优先级划分能实现管理投入的合理分配,对于运维管理同样适用,通过对资源按照所在业务重要度区分其对应的管理等级,分成一级,内部办公系统相关资源划分成二级设备;对于一级设备意味常规运维软件中仅仅是对于将管理对象简单的划分了不同等级,仅是为了界面上进行统计,没◆按照业务划分管理资源◆实现对于不同等级资源不同的监控周期和预警阈值◆对于不同等级资源定义不同预警等级和处置方案◆对于不同等级资源进行不同角度的统计和报表分析◆能便捷的调整等级,并应用相应等级的管理规则智慧运维平台以等级为核心进行管理区分,内置不同等级的1、预置不同的指标采集方案和策略,落实差异化采集方式,按需采集提供技术基础,同时为4、支持方便的界面等级显示方式,在不同界面均能方便的区分不同的等级,便于管理视野的从本世纪初,企业用户开始重视IT环境的运维管理,10多年的运维历程造就了一批运维人员的同时,长期的运维工作也促成企业用户总结处理其具有自身业务特色的管理方法,这些方法包括大到流程的本地化,小到具体管理指标的定义;如何实现此类管理经验的落实呢?智慧运维平台提供处置知识管理,通过对用户日常故障处置方法的收集,经验积累,自动反馈到相同故障的处置过程中。通过系统提供的智能策略机制,将用户对于某些异常分析的人工方式自动化,比如对于主机高负载原因的排查,一般的操作逻辑是确定主机负载超过风险阈值情况是偶发事件还是一直存在,然后分析每一次出现高负载的进程是否一致,通过人工智能找到具体的异常进程,关闭该进程或者卸载相关软件,同时对于该进程的设定预警,达到事前预警;智慧运维平台通过策略实现这一系列动作,包括对历史记录多点对比,对于进程的记录,异常进程的智能判断,乃至告警的建议;通过策略体制调用系统的各项零散功能,将用户问题分析方式,快速自动化。传统运维领域,更多的关注点在于即时状态的监控,能对于异常的即时、准确通知;而随着厂商技术的不断提高,设备的告警越来越少,特别是一些新建机房,可能一个月也不能没有几个告警事件,难道运维就不再重要了吗?恰恰相反,当设备故障减少后,正好为IT运维创造价值提供了客观条件,IT运维需要将更多的时间和精力放在挖掘实例数据,发现业务隐患,提高业务运行效率。智慧运维平台提供了强大的历史记录能力,可以实现45万KPI的指标数据不压缩存储1年;同时提供详尽灵活的数据分析工具,可以实现单设备1年、1季度、1月、1周整体趋势分析,从历史层面分析出业务运行规律,方便的发现业务运行异常;多指标相对分析,实现管理对象的纵向比多指标对比实现问题确认Ont比例1*1院自由扩展局视角1.3.智能运维的特色功能系统采用北塔先进的、且得到近5000个现场验证的发现算法,智能发现网络设备和设备间的用户根据业务关系快速调整到用户需要的展现方式,同时将管理对象的实智慧运维平台拓扑管理不仅是,拓扑结构的展现方式,更是承载的主机,系统同样提供了系统拓扑,不仅提供全局状态监控界面,同时体智能分析业务上一段时间内使用的整体趋势变化,以红、黄、绿作为不同采集是运维管理的基础,只有实现了采集稳定和准确,用户才能管理,当◆均衡采集命令:该平台通过智能控制,智能分配被管理对象的采集口令,忙闲配合,实现◆智能错误处置:平台通过智能判断,对于被管理对象取值异常进行智能判断,避免由于网◆DGO提供丰富的扩展接口,可方便的接入用户自行开发的采集探针,实现用户管理对象的有办法在提前一点发现风险呢?答案有多种,通过业务基线的偏离判断异常就是其中一种。智慧运维平台能根据历史记录自动生成基线,并可按照业务的数据对比,一旦实时数据大于基线比对点一定范围,即生成智维事件,便于分析;当出现基试卖型历史记录方式设置:偏离设置篇07天0000M08天00时间Y冀02天0000简单、可执行的事情;同时基线的方式,符合用户周期性业务稳定智慧运维平台引入策略管理概念,架构上为策略提供各个功能的调用接口,方便的实现软件各种处理逻辑的协同处置;方便实现用户对于管理策略的分为触发、分析、处置三个部分,通过全面的智能运维监控,实现对于各项关键节点的智维,包含单点、多点触发;多单指标历史记录分析、多指标对比分析等方式,实现合理结论的分系统预置多款智能策略,实现全面检测、智能判断、全面分析;包含对所有智维规则的普世策略,越界次数警示;包含对CPU负载过高的深入分析策略,可实现一站式,异常进程的分析识别。智慧运维平台支持快速策略定制,便于用户实现个性化管理需求,落实符合管理实践的自动化◆透明化管理:通过对信息资源的透明化实现对信息资源的统一监控和智能管理,实现自动◆全面降低误操作可能:运维管理和安全手段都从手动的方式转变为系统自动、安全、可以跟踪的行为,手动的方式大量减少将极大降低误操作的可能性,极大增加信息化设施的稳◆提高效率:系统提供易用易操作的监控、处理、分析一体化关联分析能力,快速帮助运维2.1.建设目标◆存储管理,包括对存储设备(磁盘阵列、光纤交换机等)的设备状态、性能管理,以及各自动分析:实时监控用户各项运维指标,结合指标变化特征,通过诸如单指标越界比例、多指标组合判断、历史趋势变化等方法自动判断数据异常情况,BTSO系统在落实智能化的运维方法的基础上,同时注重运维可视化的实现,实现运维过程可视、可机房可视化:实现用户从物理结构角度的监控管理,从真实展示效果入手,可快速定位到接口业务可视化:BSM图形实现业务关系和业务状态的信息可视性;巡检可视化:通过图表方式,实时显示巡检过程,及时显示每一个巡检项的检测结果;动态显示巡检执行情况;数据可视化:提供灵活定制的界面,多种大数据展现界面,使用运维管理的个性化展示要求足。2.4.方案详细介绍早果第接口里数据流基础网络口操作系统国主机硬件数据库08中间件标准应用■存储设备扩展内容业务管理oAPP服务器主机APP网络APP存储APP虚拟APP 十平台接口层APRn服务总线注册服务器历史数据存储数据库采集服务器采集服务器◆当前实时运维状况,需要重点关注◆了解昨日关键指标波动最大的5个资源,便于本日重点分析.日常运维oo22Q0Q1Q4Q1Q6Q1Q1Q0Q回澳段命中0Q内在中排府0Q1Q2Q1Q0Q2Q告督等级同隔(分钟3检1Q0Q比审闭值检测4Q0Q3QQ0Q1Q0指标异常范围巡检状态SNMP访问状态正常检的统计结果;对于具体的巡检指标,系统应该提供企业自身处置方案的定制,可以通过定制+加载方式实现对于巡检异常的快速处理,作为一种处置策略,延续北塔智维运维中自动处理的一贯思路,在用户现场规范设定的前提下,可以扩展成对于主机的关闭进程、上联端口关闭等自动运维操作;延续企业日常传统运维要求,巡检报表具备一定的范式,要求系统生成的巡检统计报表可以按照用户要求定制,并且能无缝纳入到系统中。.3.重点应用实时控对于工程师日常监控来说,故障管理是突发情况,而关键业务、指标的监控是常态管理要求,为了满足工程师对于重点应用质保的监控要求,系统提供了自定义首页功能,该功能提供基于角色的个性展示功能,用户可以自行选择不同管理重点指标以及展现方式,以便完成一图完成所有重点监控;系统能够为展示要求提供数据支撑,能为自定义布局提供技术支撑,管理展现提供数据支撑。89kbps系统至少提供TOP表格、TOP柱状图、性能曲线图、单值图等多种展示方式;支持对于所有数值型数据的统一排序、历史记录展示;结合日常管理需求,可以实现诸如骨干线路监控总图、关键应用监控视图的管理要素。00计O0母项本补填作机计划补填任务1)创建停机计划(溪试任务5)创建像机计划测试任务4)增创建体机计划阅试任务3)创建作机计划测试任务2)创建伴机计划(阅试任务1)共10条*页--智能规则--智能基线.自主学习基线实现业务异常监控时,将实时数据和基线相同时间点进行比对,实现周一和周末的区别、上午8点和下午4点的业.智能策略实现管理实例落地⊗内存增量定位-发现意⊗内存增量定位-发现意在在仰内存出露I当看该主机内存m露捕湿第略java.exe(pio22232)内为利用率最近24小时皮化趋系统经过对主机:2008.123在2014-8-161530-2014-8-171530的所向进程做了职样分析,发现如下进程.专项智维方案快速实现问题排查21to由冲突冲突P定位分析c00232323;技术使用人:事四.预置智维管理方案.智维事件监控.智维越界提醒策略指标越界处理指标越界处理融发时间:2015-09-0512.08:00×ocalcollect/2[DGOagent]资源网绍总流量指标,最近4小时出现了48次越界,越界次数该指标最近72小时变化趋势如下:.客户化分析策略定制.告警管理◆支持以多种通知方式,灵活的通知给不同的拓扑管理专项管理故障管理报表统计基础设置0当前重要事件絮急告警总数高级告警总数中级告警总数低级告警总数Windows63[w服务器NO163]08月03日16时59分24秒检则到213.使用率是100%。Windows64[w服务器N0164]08月03日16时59分24秒检测倒213213.213.164w服务器NO164]CPU使用率是100%。Windows62[w服务使用率是100%08月03日16时59分24秒08月03日16时58分53秒运行摘要智能运维北塔演示项目-服产品管理妖1用户在长期的运维过程中,一般均会有一些管理预案,但是如何实现管理经验的长期积累呢?正落实到实际操作过程中。@@O⊙①O⑩①④①⑩◎①②主机管理以波浪图方式显示所有主机的全局信息,以图形化方式显示主机的常用管理参数。包◆详细的主机基本管理参数◆单个系统的业务流量变化趋势◆单个系统存储空间实时和变化情况同时可对统计范围内的主机进行详细的实时分析数据,便于用户关联分析出需要重点关注的主◆以实时CPU利用率的主机排行◆实时内存利用率的主机排行◆实时连续运行时间的主机排行◆最近30天以CPU为评价指标的高负载和低负载设备列表2及流量VO及磁盘管理度G交换区主要端口状态⑦⑦HP-HOST-3F7D9FG6硬件信息查看更多>风扇磁盘异常2总数6详情CPU温度异常2总数6系统支持以IPMI方式为主体监控方式的硬件管理,IPMI方式属于主板层面的监控,是以带外管理模式监控服务器的硬件状态,支持各类国产厂商的服务器,包括联想、曙光等。带外管理模式可以在服务器操作系统无法启动时,感知到具体的设备异常,避免用户在对于硬件服务器的监控,系统从异常状态和开机时长两个维度为用户进行存在异常状态的服务器进行分类查询,实现在大量服务器管理场景下的快速问Oe硬件IP可以查看硬件监控详情,点击OSIP可以查看当前硬件监控其他传感器状态:正常时间PhysicalSecurity#0200814413004.1313004.13230021.1730021,174juOOOOO0数据库专项管理支持对所有数据库的统一分析和处理;BTSO支持Oracle(含OracleRAC)、SQLSever、DB2、MYSql、sybase、infomix、达梦等各版本的数据库监控;数据库管理操作系统管理为基础,实现主机和数据库协同管理。数据库增加方式支持手工增加和批量导入模式;支持用户以模板为基础修改的资产清单的导入。支持对于管理信息的统计,包含授权点使用情况,各个数据库状态分布、各类型数据库熟练统计、数据库等级统计。支持对于各个数据库实时运行状态的实时统计,包含数据库会话数、死锁数实时排行。数昌库度权点数和管理数量数昌库度权点数和管理数量被管理景福片设备分布授权点数30台已纳入管理数20台5授权点数已纳入管理数在数据库技术层面主要对表空间大小和会话数、缓存信息、锁信息进行重点监管;系统以图形化方式显示了各个关键指标,使管理者能快速了解数据库状态。内存占用*01/0401/0501/0601/0701同时鉴于数据库与主机的不可分割性,系统强调关联分析:◆主机列出数据的实时告警状态,所在主机主要性能,主机上目前数据库相关的进行列表实◆依托于所在主机的日志管理,支持对于数据库应用日志的监控,比如oracle中alert_<instance>.log文件监控,可以获取对ORA-27072等常见错误日志的实时监控。22所在主机性能CPU占用率内存占用率使用数:1.82G8.Oracle集群管理#件态:检功目◎.中间件管理同时提供特别关注功能,记录用户业务相关的通道和队列信息。1接总数内存占用*连接名称操作状态:通道代理状态020类型websphere管理线程、事务信息、虚拟机信息,同时显示实际承载业务的链接信息。1 内存占用总数: 13点10分17点10分21点10分1点10分5点10分9点10分30pool200000线程池WebC1小SamplesDerbyJ08CProviderJDBC连接池SampesDerby数数iletransteritietransferw00URLswasPerffoolservlet/pertser000岩岩性能信息最近24小时JAVA虚拟机堆使用情况最近24小时线程地堆使用情况线程总数:23已使用:15可使用:8请术队列长度:0.标准应用管理11手机号码:1316261132613点26分17点26分21点26分1点26分.主机拓扑管理3430.2.4.7.网络管理.网络拓扑管理.设备性能分析内存From六月22,2006To七月10.2007三可及时了解当前负载较高的网络设备,在问题苗头出现的时候,及时进行处置,保障网络不间断的平稳运行。.网络配置管理配置内容比较配置内容比较设备IP《上一个不同点下一个不同点>》4、取数端口5、线路类型11nt6、上行带宽7、下行带宽9、确认:两端设备授权修改10、关闭:返回列表直观显示变化内容取数端口上行带宽下行带宽备注确认:两端设备授权修改关闭:返回列表中文名称也BTSO提供了一个对交换机、路由器配置管理的平台,此功能对IT网络系统的关键设备的运行参数进行监控,通过TFTP方式进行相关信息的备份,并且在当所选的设备的相关配置信息发生变动时能够及时进行告警,帮助管理人员能够及时分析问题,排除问题等。特点如下:◆支持自定义配置文件的备份时间间隔和备份数量AC:AC011AP:1051-721f-0880121.用户诊断:1c91-484a-542b76天18小时42分钟28◆支持大型网络多管理域IP地址定位、规划管理;◆支持在拓扑图上同时定位多个IP地址的物理链接位置◆支持用户IP规划导入、规划使用情况监视、未用IP地址回收规划池◆支持快速IP地址扫描,查询IP使用分布情况en软0虚拟拓扑管理支持VMwarevSphere和CritixXenServer的虚拟拓扑管理。vSphere虚拟化拓扑在展现上分成资源区和呈现区,资源区采用vCente现宿主机、虚拟机、数据存储、虚拟网络的连接关系、性能、状态和告警信息,并且虚拟机与虚拟存储、虚拟网络的连接关系手动和自动更新,支持宿主机、虚拟机、数据存储录树结构,展现虚拟中心、资源池、宿主机的层级关系。呈现区主要展现机2CPU使用率:91.77%内存使用率:87.34%空间使用率:85.19%连续运行时间:64天7小时60.名称:0IP地址:0状况:已连接i基础信息容量使用网卡性能运拟机数据存储告警宿主机名称:1Ping检测状态:正常维护模式vCenterAPI取数状态:正常Ping响应时问:4ms连续运行时间:6天21小时53分健康状况电压状态内存状态电源状态版本:VMwareESXi5.5.0bulld-1设备型号:1BMSystemx-[79466CPU类型:Intel(R)Xeon(R)CPUX5650@2.6已配置容错:否 2 已启用 已禁用备注:虚拟化管理员.预防容量枯竭辞:种朝筛3计司弱(28)中二3242102145中心二机2741硅25 书位11中0-1220用信息:-T工醛时加被张进行台算,味住计味-E时内面要使移融难F构拥XPL9的0个月0显年置55年6个月月 月练期图望年100:187200:10s00辉耳:1507n相中4二二120龄02836.明细容量分配预留CPUO0r)限制CPU(9Xz)预留内存(W3)限制内存(B)已使用空间(G)88630842950842.发现和解决性能瓶颈总CPU(MHz)预留CPU(MHz)总内存(MB)预留内存(MB)1办公100000虚拟机CPU使用率超过:85%,就绪超过:1500(ms),为保障虚拟机性能:1.检查每台虚拟机上已正确安装VMwareTools.VMwareTools安装运行信息可查看快捷功能一2、提高该虚拟机CPU分配份颜或预留合理CPU,有关预留值可多照需求值大小,有关集群中虚拟机预留值与HA接入控制策略合理性,完成设置后请选挥对应集群进行分析。有关虚拟机CPU预留值可查看快捷功能→>虚拟机容量预留信息3、分配给该虚拟机合理的容量(虚拟CPU数目为执行工作负载所需数目),当前物理总CPU:4、如该虚拟机所承载的宿主机不在DRS集群中,可将该宿主机添加到DRS集群中。如果该虚拟机所承载的宿主机在DRS集群中,该集群可增加宿主机,并将一个或多个虚拟机迁移到新宿主机上:5.如果有条件,可提升宿主机物理CPU或内核指标越界处理停用vSphere数据存储内核延迟监测停用个关键指标。一个叫kernellatenaey(指标名称:内核延迟),一个叫daviclataney(指标名称:设备延迟)。本除暗由检则慢pheredatasteref盘内核延迟vSphere数据存储设备延迟监测启用停用个关键指标,一个叫krmalateney(指标名称:内核延迟),一个叫dwielLatney(指标名称:设备延迟)。本策略由检测Spher。datator的盘设备延迟◆查看影响面的方法。◆性能变化曲线图。◆解决此问题的方法。vSpherevSphere数据存储设备证迟监测在4小时内设备延迟达到累计腔发8次情兄,数缩存取设备题迟偏高,将影响宿主机上各虚权机中各种应用的及带存体图标)··查看影响该盘近24小时设备冠起简值:45ms均值:13ms曲斑图如下:有关该数据存储关联的宿主机和虚拟机.判断虚拟机可删除应用测试机操作系统:MicrosoftWindowsServer2003(32位)O当前版本.存储设备硬件状态管理.存储空间使用管理2s服务器设备信息服务器设备信息O.透明展现业务关系.综合评价业务健康◆支持评价基础指标作为预警阈值,在界面中以不同颜色图标显示,以示对业务的影响;■部检器的响度设置两告Windows192.1082,60.数据刷新时刻:10:s⁵共5系统可支持多种布局方式,将基础设置提升到业务视角,便于实现用户业务的统一监控视图,可将用户业务按照本地业务表示系统正常MAIL业务服务器业务服务器产中心交换机流量采集器业务名称:集团0A业务业务上传流量:5.62Mb/s显示业务详情显示业务详情业务上传流量:2.60业务下载流量:8.66Mb/s当前访问IP数:21显示业务详情显示业务详情业务上传流量:2.98Mb/s业务下载流量:12.68Mb/s当前访问IP数:18显示业务详情显示业务详情2.4.14.机房管理机房管理以3D机房拓扑为平台,集成显示各项机房管理对象,实时显示各项关键参数,使机动环设备动环设备西北角温湿度探针温度混度东南角温湿度探针温度浸度大门口温湿度探针严度浸度东北角温湿度探针温度湿度监控数据是一般宝贵的财富,不仅仅能实现前期运维成绩的考核统计,也可数据分析实现管理方法的改进,BTSO提供强大的报表数据处理能力,可根据用户要求定制不同的个性化报表;同
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度意外伤害保险纠纷调解协议
- 二零二五年度学生自愿就餐食品安全与营养教育合作协议
- 二零二五年度搬家运输服务与家具组装及拆除合同
- 二零二五年度医院病房及公共区域消毒保洁合同
- 二零二五年度员工离职辞退协议书模板
- 2025年度汽车销售返利激励合同
- 2024年欧洲高等教育领域报告中文版
- 2025年度生态修复工程款抵押合同
- 电工基本知识
- 口腔操作培训计划
- 结核病知识讲座计划
- 年产十万吨酸奶工厂设计说明书
- 《12露天矿测量》培训课件
- 如何处理压力和焦虑
- 依法治企知识讲座课件
- 《我和书的故事》作文指导课件
- 肾穿刺术后护理查房
- sEE基金会-环保行业:2023中国环保公益组织现状调研报告
- 小脑肿瘤护理查房
- 五星级酒店人员编制图
- 管理会计学:作业成本法
评论
0/150
提交评论