![机房IT运维技术方案1.0_第1页](http://file4.renrendoc.com/view2/M00/09/21/wKhkFmYaMu2AWovlAAMuopRY7uE281.jpg)
![机房IT运维技术方案1.0_第2页](http://file4.renrendoc.com/view2/M00/09/21/wKhkFmYaMu2AWovlAAMuopRY7uE2812.jpg)
![机房IT运维技术方案1.0_第3页](http://file4.renrendoc.com/view2/M00/09/21/wKhkFmYaMu2AWovlAAMuopRY7uE2813.jpg)
![机房IT运维技术方案1.0_第4页](http://file4.renrendoc.com/view2/M00/09/21/wKhkFmYaMu2AWovlAAMuopRY7uE2814.jpg)
![机房IT运维技术方案1.0_第5页](http://file4.renrendoc.com/view2/M00/09/21/wKhkFmYaMu2AWovlAAMuopRY7uE2815.jpg)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
工程综述工程背景随着社会经济及科学技术的飞速开展,计算机网络的逐渐普及,XXX〔建设单位〕作为行业的领先者在IT建设方面投入大量的资金,建立起多种的业务系统,为企业的长远开展提供源动力及运营保障。伴随着XXX〔建设单位〕业务系统的不断增加,IT硬件和软件应用的也不断增涨,其环境复杂,多系统、多数据库和多应用平台、多厂商网络及系统设备的网络运行环境,使网络维护难度成几何倍数的增长,系统管理人员的工作压力越来越大。在XXX〔建设单位〕网络系统的日常管理中,IT根底设施的故障和性能监控是很重要的一个环节,它是网络系统稳定、可靠的保证。如果XXX〔建设单位〕的网络失效或运行状态不佳,数据流就会受到阻塞,关键数据就不能得到有效共享,导致各项业务工作效率的下降,XXX〔建设单位〕对外提供的社会效劳及内部企业运行流程都将受到影响。为保证网络畅通,网管人员需要对XXX〔建设单位〕现有网络设备、链路和多种操作系统的效劳器进行7X24的监测,降低网络管理工作的复杂性,提高网络管理的工作效率。需求分析IT管理现状随着XXX〔建设单位〕业务系统的不断完善,XXX〔建设单位〕缺少统一IT综合监控管理平台,网络运维人员经常是在故障发生后,才能去进行处理,工作处于被动状态。由于缺少及时有效了故障发现工具,需要花费很长时间去寻找和诊断故障,极大地影响了工作效率。缺少直观的业务效劳拓扑功能,应用系统的监测和管理显得非常繁琐。无法对各种应用系统进行有效的监测管理,如何不断提高各种业务系统的效劳质量,是XXX〔建设单位〕系统管理人员急需解决的问题。网络运维人员急需建立起一套IT统一综合监测管理平台及时把握其业务系统的健康运行情况,对网络运行状态进行趋势分析,做到及时防范、及时告警、及时处理,需要对网络设备、效劳器系统资源及应用软件的运行状况进行实时监测。形成对网络的集中、统一的管理,从而在整体上把握各业务系统运行性能。存在的问题目前XXX〔建设单位〕的IT管理主要面临以下问题:网络管理的覆盖范围缺乏缺乏统一的网络管理平台IT系统运维的状态无法全景的展现作为网络管理员,必须有效地了解网络中数据传输是否正常、效劳器以及网络设备是否过载运行、应用系统是否可以正常使用、局域网内部以及局域网与互联网的连接是否正常、局域网是否受到非法者的攻击、用户之间的数据传输是否正常等等,同时,在遇到网络时断时续、网络内部用户不能正常上网等网络故障时,必须能快速定位故障点并将其排除。由于网络之间的数据传输的不透明性,管理手段落后,没有统一的网络管理平台,无法实时掌握整体IT环境的运行状态,管理模式分散,无法了解整个IT环境的变化,经常性的造成“一叶障目、不见泰山”的运维管理局面。网络管理人员很难及时准确了解IT资源运行趋势、网络运维的瓶颈、突发事件的故障点等问题,造成事故处理过程冗长,无法满足现代化IT运维工作的整体要求。网络性能得不到充分发挥。由于没有网络性能方面的管理工具,网管人员不能对网络进行有效的调整和优化。机房动力环境运行监测薄弱对机房场地的动力环境集中监控薄弱,需对机房动力系统(包括主要配电设备、UPS电源监控)、环境系统(机房专用精密空调系统、漏水系统、温湿度)、保安系统(门禁)以及消防系统等实行完善的监控和控制功能,能对发生的各种事件都结合机房的具体情况非常务实的给出处理信息,提示值班人员进行操作。实现机房设备的统一监控,智能化实时声光、短信、报警〔声光报警器连接至保安监控室〕,实时记录事件;减轻机房维护人员负担,有效提高系统的可靠性,清理事件关系,实现机房可靠的科学管理。1)供配电系统通过由精密配电系统厂家提供的数字电表、通讯协议及智能通讯接口实时监视机房市电三相电压、电流,频率、功率因数、有功功率等。一旦供配电系统工作状态不正常,系统会实时报警,告知值班人员。2)UPS系统对机房内UPS进行故障诊断,对UPS内部整流器、逆变器、电池、旁路、负载等各部件的运行状态进行实时监视,一旦有部件发生故障,系统会自动报警。3)空调设备通过由空调厂家提供的通讯协议及智能通讯接口对机房的精密空调〔艾默生〕进行全面诊断监控。对空调内部的压缩机、风机、冷凝器、加湿器、去湿器、加热器等部件实时进行监视。一旦部件发生故障,系统会直观地在画面上显示出来并报警。4)漏水检测系统漏水检测系统采用带漏水感应线的漏水探测器,对五楼机房内空调的四周进行漏水检测。一旦有漏水发生,系统会实时告警,把报警信息告知值班人员及有关人员。5)温湿度检测在机房不同位置安装温湿度传感器,其输出连接到工控模块,可实时地监测现场温湿度状况,一旦温湿度超出设定范围,系统会弹出报警画面以及声光报警并发出短信,把报警信息告知值班人员及有关人员。6)机房门禁系统机房玻璃隔断门和防火门加装电子门禁系统,可保存出入记录并供查询,门禁系统需单独配电,当有紧急消防报警时,可通过发送系统电平信号,控制门锁的空开,使其断电,门锁翻开。对于XXX〔建设单位〕这个集生产业务网络和电子政务外网混合组网并且跨越多省市县等地区的广域计算机网络系统来讲,如果没有一个有效而集中的工具进行管理和分析网络的运行趋势,找到隐藏的性能瓶颈,IT运维的容量管理缺乏数据支撑,网络系统管理的长期规划缺乏数字依据,将难以保证网络及各项业务应用的顺利运行。工程建设目标本次IT综合监控管理平台的建设,我们最终实现以下管理目标:建设全面的监控管理平台,消除监控死角。XXX〔建设单位〕信息技术中心的各个系统采用了多个厂家的网络设备、效劳器、中间件、数据库、存储设备、虚拟化、硬件监控,因此本工程首先要解决的问题是通过建设全面的监控管理平台将目前各个业务系统中的各种设备、软件、业务应用均能够纳入到监控平台中来。消除管理对象之间的差异,消除管理软件的差异,对各种不同数据来源统一处理、统一展现、统一用户登录、统一权限控制。建设看得见的IT运维模式,网络运行透明化。IT综合管理平台应建立全景拓扑的展示模式,将用户的业务视图、网络视图、应用视图、虚拟化视图和存储视图融合在一起,完整展现用户统一的IT架构,让用户一览众山小,全局掌握IT系统整体的运行情况。建设开放、具有良好扩展性的IT管理平台。IT综合监控管理平台应具有很好的开放性,具备跟相关系统的集成能力。监控管理平台应具有良好的扩展性,不仅可以满足现阶段XXX〔建设单位〕系统管理的需要,未来,随着XXX〔建设单位〕业务的不断开展,监控功能添加,或管理节点数量增加时,IT综合监控管理平台也可以很好满足XXX〔建设单位〕的需求。IT综合监控管理平台效益分析到达自动化运维模式:IT综合监控管理平台建设完成后,可以将日常IT运维中大量的重复性工作,由过去的手工执行转为自动化操作,从而减少乃至消除运维中的延迟,实现“零延时”的IT运维。全天候自动巡检与及时报警实现了IT运维的“全天候无人值守”,大大降低IT运维人员的工作负担。自动化运维不仅仅是代替人工操作,更重要的是深层探知和全局分析,帮助用户在现有条件下实现性能与效劳最优化,同时保障投资收益最大化。使网络运维人员从繁重的日常巡检、关注IT资源细节运行状态的工作中解脱出来,做到故障的提前预测、及时告警、精确定位,提高XXX〔建设单位〕的信息中心的运行管理水平和效劳保障能力。降低管理随机性和盲目性:IT综合监控管理平台建设完成后,实时监控网络运行状态、记录网络运行数据,当被管理对象的运行状态发生变化时,超过预定义的阈值就会产生事件;如果该事件满足故障级别定义,那么会产生故障报警。将为XXX〔建设单位〕的网络管理提供详实的运行数据,网管员可以根据运行状态记录及事件告警,对关键业务的关键问题进行有针对性的处理,真正做到网络运行管理的把握全局、突出重点,从而保证XXX〔建设单位〕核心业务系统连续、稳定的运行。同时为网络运维的管理者提供真实网络运行报告,为下一步网络的的规划、建设提供数据支撑;形成网络的建设、维护工作以业务为中心,全力保障XXX〔建设单位〕利润中心的业务系统稳定运行,减少管理的随机性和盲目性,为XXX〔建设单位〕业务的长远开展献计献策、保驾护航。总体分析总体需求通过对目前IT系统环境和管理现状的分析,我们需要建设一套统一的网络、业务系统监测和机房动力环境监测平台,这个平台应该包括以下的管理需求:基于统一、集中的管理体系,统一的数据处理和展现,统一的告警平台。统一的数据处理和展现,消除各个监控工具之间各自为政、系统管理员在各个界面间频繁切换的情况,摆脱旧监控工具的数据和事件的现状,统一在新的监控平台中实现,并通过统一的展现界面进行展现。统一的告警平台,将所有告警纳入监控管理监控平台,并通过短信、邮件和桌面客户端统一告警。将建立全景视图,用户的业务视图、网络视图、应用视图、虚拟化视图、存储视图和动力环境视图融合在一起,完整展现用户统一的IT架构。实时掌握整体IT环境的运行状态,并且通过线路和设备的颜色、指标可以清楚的看到整个IT环境的变化,采用的技术成熟、先进,并具有较强的集成性和可扩充性的管理平台。建立CMDB关系网,全景展现网络设备、虚拟架构、SAN架构、效劳器、应用的关联与配置关系、动力环境的运行状况,快速精确定位故障源头,完成事件的深入关联分析。易于使用和维护。统一的中文界面,浏览器管理方式,可以多人同时通过浏览器进行访问和操作。解放人力,依靠智能化技术化的管理手段,降低故障发生率,降低维护本钱,并同时提高维护效率。对主机系统资源的占用比拟少的情况下,实现对各种效劳器(Linux、AIX、Windows2003等)监控管理。包括主机硬件、操作系统、文件系统、进程和应用等。主机监控的重点是对操作系统关键指标,如CPU、内存、进程、文件系统等进行全面的监控管理,要求不仅能够在状态改变或性能指标超越门限值时生成告警,同时还应该提供实时和历史的性能数据展现,并能够保存历史性能数据,以形成统计分析报表。各种数据库〔Oracle,Sqlserver等〕监控管理,包括数据库的重要配置参数以及运行状况的监控。主要关注数据库的关键指标,如SGA使用率、表空间占用情况、锁竞争和使用情况、缓冲区命中率等。其它应用的监控管理。比方IIS,Tomcat,Weblogic监控,重点保证效劳的可用性和性能。实现对存储架构的管理。可以实现对光纤通道交换机、存储阵列、磁带库、HBA卡等存储资源的全面监控实现对虚拟化的管理。可以对Vmware的VCenter、DataCenter、Cluster、ESXi效劳器、虚拟机进行监控,针对虚拟化系统提供了性能、可用性、配置的监控。直观展现虚拟化系统的状态,以及被虚拟主机的可用性。实现IT资源管理和业务系统的关联,可以从业务的视角进行IT管理。当某台主机或者应用发生问题、产生告警时,系统管理员可以在第一时间发现该设备影响了哪个应用的正常运行。实现动力环境运行的可视化管理,包括主要配电设备、UPS电源监控、环境系统(机房专用精密空调系统、漏水系统、温湿度)、保安系统(门禁)以及消防系统等运行状况的管理和控制。实现自动化巡检。能够根据预设时间点,对监控资源的实时运行数据进行提取,形成报表,代替手工巡检。统一的报告和报表,多台设备性能比拟,支持多种格式导出,柱图、XY坐标、饼图、折线图,定期的运维报告等等机房设备统计序号产品名称规格型号品牌数量12345678功能需求具备事件管理功能当被管理对象的运行状态发生变化时,超过预定义的阈值就会产生事件。如果该事件满足故障级别定义,那么会产生故障报警。系统提供告警管理功能,应包含两局部,一局部为“当前告警”,指当前正在发生的,还没有解决的告警;另一局部为“历史告警”,指已经解决或自恢复的告警。这两局部都应支持查询功能,并支持将查询的告警内容导出为其他格式〔如EXCEL、PDF〕的文件。系统提供告警事件的处理功能。主要记录报警发生的时间、事件信息、事件分类、处理状态、处理评注及建议等功能,使运维管理人员清楚了解系统故障的处理状态,及时掌握系统运行的故障和警报,及时进行处理,保障系统的正常、稳定运行。灵活、直观的管理视图操作人员可以根据自己管理的需要,灵活定制管理视图。例如,业务人员可以定制业务视图、网络管理人员可以灵活定制全景拓扑图、管理员可以灵活定制首页展示内容等。监控系统控制台提供远程访问功能。提供统一的管理和展现页面。在系统管理范围内的所有主机、应用系统、存储架构、虚拟架构、中间件以及应用系统都可以按照多种方式进行展现,并且在展现视图中以明显的颜色来表示被管资源的状态、主要性能信息以及当前的告警状态等。系统提供的视图,要求分层次地展现所有应用系统所涉及的所有被管理资源,并在视图中动态反映被管资源的性能、告警、配置等方面的变化。提供对重要资源的特殊展现视图,对重要的效劳器、数据库、中间件等资源,实现可视化监控管理视图,可支持全屏,以实时动态的方式,用不同颜色和动态效果,醒目的展现当前该资源的运行情况。在全景拓扑的管理将用户的业务视图、网络视图、应用视图、虚拟化视图和存储视图融合在一起,完整展现用户统一的IT架构,需支持多个子拓扑的双击关联操作,可以定义展现指标,对用户关注的数据直接展示。提高拓扑的可操作性,适合复杂拓扑结构的个性化排布,满足不同用户对拓扑美学和行业习惯的要求可通过建立多种业务视图的方式对拓扑资源进行查看,实现对网络运行环境的全盘掌控。提供业务效劳综合展现界面,可将业务用户、应用系统、IT资源形成有效的影响度关联视图,并支持以大屏方式展现,一目了然地了解当前应用系统的运行状态、用户影响范围以及相关IT资源的运行情况等。灵活的查询功能系统应能对系统各类信息进行灵活查询,并能将结果以文本列表、图形方式〔直方图、曲线图、面积图等〕显示、打印或转存为Excel、PDF报表方式输出。信息查询应能够对信息的单项内容条目设置查询条件,也能够对主要的条目进行组合过滤查询,在用户设置如时间、日期等查询条件时,应能提供对输入内容的合法性检查功能。可自行指定需要查询的IT资源以及指标名称,按需产生对应的查询操作。严格的权限控制具备监控各个应用系统用户和角色授权管理机制,对于不同角色,可以设置对被监测设备与被监测业务的读取和操作权限。并记录用户对系统的访问过程,对于非法访问、滥用授权及时报警,确保应用系统的平安。并且,由于监控管理平台自身是集中统一的监控管理中心,因此应提供较高的平安保障。提供多种告警方式各类告警信息均报送到统一的报警平台上。提供多种告警策略和告警方式,须提供短消息、邮件、页面告警等方式。管理人员可以根据自己的需要定制告警方式。采用基于角色的处理和分发机制,根据告警事件类型分发给相应运维人员,结合完整的事件处理流程,确保各种事件和故障信息的快速、有效解决,要求对报警能够过滤并能够按照应用系统关联多个事件,以防止报警风暴的产生。完善的报表工具系统应能够对各种查询结果进行某一维度的统计分析,并能将统计分析以结果文本列表、图形方式〔直方图、曲线图、面积图等〕或报表方式显示、打印或转存为Excel、PDF报表方式输出,报表须采用中文格式。报表功能应具有报表生成的灵活性和呈现的多样性,并能够根据用户需要进行报表自定义,以适应用户不断变化的需求,并可通过报表模板的方式实现。系统应提供操作员增加、编辑自动生成报表任务的功能,能够确定任务自动执行时间,以及对任务队列进行查询、删除等管理操作。系统自动生成的报表可基于系统已有的报表模板,自动生成任务中包括一个或多个报表模板,以及用户预设的报表生成条件。IT统一综合监测管理平台建设方案IT运维管理平台IT运维系统价值IT运维系统能够辅助IT部门进行如下工作:IT部门具有对IT资产和配置的掌控能力。需要对每一个IT组件的配置,以及IT组件之间,IT组件与业务应用之间的关系进行梳理,形成配置的逻辑关系,并形成配置基线。IT部门对IT系统具有整合管理能力。IT系统本身是一个有机的整体,各个系统之间围绕着业务形成了关联和互动,所以对于IT系统的监测和管理也应当是整体全面的,使IT部门始终保持对IT系统完整巡视的能力。IT应用效劳运行状态的感知能力。IT系统的建设是围绕着业务应用进行的,所以针对业务应用应当具有可用性的统计,以及容量的负载统计。IT运维流程的管控能力。IT部门通过IT运维流程管理,使得IT运维工作变得更加标准,但同时需要对运维流程本身的效率和效能进行监控,以便能够管理运维流程。同时IT部门需要的是一个系统化的管理体系,而不是割裂的,独立的运维流程。IT运维系统架构IT运维系统通过四个层面的功能实现完整的IT运维管理。配置管理层面:实现对IT组件及其配置的识别,并形成具有逻辑关系视图的配置管理数据库〔CMDB〕和配置基线。在配置管理层面形成了对上层流程的信息支持,并通过上层的变更管理流程形成对配置管理数据库〔CMDB〕的管控。整合管理层面:依据配置管理数据库〔CMDB〕的逻辑信息,对IT系统进行整合监测,形成完整的IT系统事态管理〔EventMgmt〕。IT系统的整合管理包括:网络系统、效劳器主机系统、数据库及中间件系统、存储系统。业务效劳管理层面:依据配置管理数据库〔CMDB〕的逻辑信息,形成组织机构的业务应用与IT组件的支撑关系,同时依靠IT组件的整合管理数据,完成对业务应用的可用性状态感知和容量管理。流程管理层面:在具有了配置管理数据库〔CMDB〕的根底上,可为IT部门提供依据ISO\IEC20000标准的IT运维管理体系,为用户形成“效劳支持中心”和“效劳交付中心”。IT运维管理成熟度模型通过IT运维管理模型的规划逐步提升对IT系统运维的效率和质量:阶段一初始阶段:没有自动化工具进行监测,IT系统故障依靠技术人员发现。对于故障的处理、配置的变更等没有明确的流程定义。阶段二被动阶段:强化主动监控,实现集中管理。通过实施对IT系统的集中自动化监控,提高了对IT系统故障监测的效率帮助定位故障。通过建立“事态管理管理流程”快速恢复系统运行。阶段三主动阶段:标准运行管理,有序开展IT运维。通过建立“知识和问题管理流程”共享运维经验,完善知识库。通过建立“变更管理流程“和”发布管理流程“防止或降低因为人为操作因素而导致的故障,从而形成对IT根底设施的主动保障流程。阶段四面向效劳阶段:形成面向业务效劳的IT效劳管理。通过对业务应用的优先级设置,确定效劳响应的标准,以确保最关键的业务得到最大程度的保障。通过对业务应用的可用性管理,当系统资源〔如效劳器、网络等〕发生故障时,能快速定位受影响的业务区域。。通过对业务应用的容量管理,对IT系统资源〔如效劳器、网络等〕进行合理利用。阶段五价值阶段:IT部门与业务部门的协作改善了业务流程。IT运维管理系统解决方案IT运维管理解决方案,围绕人、流程、技术为核心,进行整体规划、分步实施:人:关注人员角色的定位和职责划分。流程:逐步建立基于流程化的工作机制,提高运维工作标准性,提高IT效劳交付质量。技术:以IT系统监测技术为依托,强化集中监控,提高运维效率。通过四个主要功能模块,采用里程碑式的方法,逐步实现完整的IT运维管理:IT资产及配置管理:对IT资产和配置有掌控能力。IT根底设施的事态整合管理:对IT系统有整合管理能力。业务效劳管理:对IT业务应用的运行状态和容量有感知能力。运行维护:以流程为根底进行运维工作,对运维流程有管控能力。IT系统资产及配置管理IT系统资产及配置管理的目标和价值IT系统资产及配置管理的目标:定义并控制效劳和根底架构的组件,并维护准确的配置信息。IT系统资产及配置管理的价值:通过识别IT系统的资产和配置,为自动化监测IT系统提供有关IT根底架构配置的准确信息,从而反映了哪些IT组件出现故障将会影响哪些业务和客户的信息。通过配置管理数据库为事态管理管理、问题管理、变更管理和发布管理等运维流程提供了的运作根底。由于配置管理数据库中记录了IT组件和业务应用系统之间的逻辑关系,所以配置管理数据库是业务效劳管理的根底。计量组织和效劳中所使用的所有IT资产和配置项的价值。IT系统资产及配置管理概述IT环境是一个蕴含众多依存关系的高度复杂环境,而这些依存性正日益成为关乎组织成败的重要因素。在IT运维的过程中需要一个精确的“地图”。IT运维人员可以通过电子表格和拓扑等文件对IT系统的配置进行了记录,例如、共有多少台效劳器,哪些应用安装于哪些效劳器,网络中共有多少个VLAN等。这对于IT运维人员会带来两个挑战:对于IT系统的配置通过手动记录的方式,工作量很大,如何保证准确性,同时如何保证这些配置文件能够与未来的变更保持同步。在出现需要配置信息的时候,例如、当故障出现需要排错或需要判断某个系统变更是否可行时,都需要配置信息作为故障根源和变更影响度判断的依据。而通过查阅文件形式的记录将会降低信息查阅的效率。在IT效劳管理中,配置管理的任务就是提供精确的系统根底结构信息。而IT系统资源配置管理数据库〔CMDB〕由于存储了组织机构里用于提供和管理IT效劳的细节信息。因此,实施IT系统资源配置管理数据库〔CMDB〕是配置管理的核心。IT运维系统方案中的IT系统资产及配置管理模块,通过自动识别形成的配置管理数据库首先极大提高了配置管理数据库的构建效率及识别的准确度,同时在今后需要配置管理信息的时候可以做到联动查询。IT运维能否满足业务运作的要求很大程度上取决于支持IT运维的IT根底架构的配置及运行情况。配置管理数据库不仅保存IT根底架构中特定组件的配置信息,而且还包括各配置项相互关系的信息。配置管理数据库需要根据变更实施情况将进行不断的更新,以保证配置管理中保存的信息总能反映IT根底架构的现实配置情况,以及配置项之间的相互关系。IT系统资产管理和配置管理的区别:IT系统资产管理主要面向资产类信息的管理,而配置管理主要面向运维信息的管理。IT运维系统应当同时具备以下两类信息的整合管理。IT系统资产管理中记录了IT组件以及IT设备的资产属性,例如、IT组件的生命周期、购置价格和维护费用信息、IT组件的位置等。IT配置管理中记录了该IT组件在运维过程中的一系列运维属性,例如、IT组件与IT组件之间的关系、IT组件的故障处理记录、IT组件的变更记录、IT组件的发布记录、IT组件的软硬件配置等。IT运维系统资产及配置管理的具体功能IT运维系统资产及配置管理的范围IT运维系统资产及配置管理的范围包括:各个生命周期中的IT组件,包括:在线使用中的、备件、保修、订购及开发中的。各个生命周期中的IT效劳,例如、各类业务应用系统。与IT效劳有关的人员和机构,包括:IT效劳的客户和供给商,以及IT部门。与IT效劳运维有关的文档,包括:受控文档、质量文档、手册等。IT组件的识别与控制IT组件是一系列构成组织机构IT系统的根本元素,例如数据库系统、效劳器、路由器。根据组织机构的具体情况一个IT组件的定义可以是一个完整的系统〔包括所有硬件、软件和文档〕,也可能是一个模块或较小的硬件组件。IT运维系统可实现40%到80%的IT组件自动识别和归类。IT组件识别步骤:发现IP网段配置信息如下列图,首先在向导中配置可用于管理和收集信息的SNMP团体名,根据实际情况可配置多个SNMP团体名,系统可自动匹配共同体名称。如下列图,通过从“网关为起点学习”或“手动指定起点学习”,IT运维系统将自动发现网段配置信息,从而确定IT系统的管理范围。同时系统支持手动填写网段地址。IT组件识别步骤:识别IT组件及类型如下列图,系统可自动发现IT组件,并识别和归类IT组件类型,以便确定对IT组件的监测方式。IT组件识别步骤:识别IT组件配置如下列图,将IT组件的软硬件配置进行获取,形成历史基线。同时与新获取的IT组件配置进行比对,以便发现IT组件软硬件配置变化。IT组件识别步骤:识别IT组件关系自动化识别IT组件关系,将提高IT组件关系准确度和构建配置管理数据库的效率。通过识别IT组件关系,形成配置管理的根底关系数据。IT组件关系为两局部:物理关系:“组成关系”、“连接关系”、“使用关系”。逻辑关系:“复制关系”、“涉及关系”、“被用于关系”。如下列图,自动识别IT组件关系及配置。如下列图,图形化呈现IT组件配置及关系。手动添加IT组件IT运维系统在支持自动化构建配置管理数据库的同时也支持手动添加IT组件,并配置相应的管理凭证和类别。运维相关配置项的管理在IT系统中除了硬件和软件设施以外,还有“文档”、“IT运维中的角色”、“组织机构”等,同样需要管理。管理IT运维相关文档文档管理是针对文档创立和管理的过程,用以确保效劳特性、管理政策、方案被适时的、恰当的描述,以便控制和管理与质量体系有关的文档资料,确保对质量管理体系有效运行起重要作用的各个场所都能得到和使用相应体系文档的有效版本。IT运维的角色管理角色的定义:角色是人员和职责的集合,根据需要,一个角色可以包含多个人员,也可以一个人员承当多个角色的任务。角色与IT业务效劳:由于角色定义了明确的职责〔职责由任务和任务的周期组成〕,所以根据效劳目录的需要,一个IT业务效劳可以由一个或多个角色共同承当支撑运维工作。例如、某人即是网络二线小组的成员,同时又是组织运维知识管理的负责人。IT运维系统中设置了技术职能角色和流程管理两类角色。组织机构管理组织机构:根本包括效劳实体和用户两大类。效劳实体是专门对应某功能模块效劳的一个人或者一个团队。用户是IT效劳的最终使用者,用户不参与IT系统的具体运行维护工作而更加关注IT系统的使用性和功能,例如:财务部、人力资源部。图形化呈现IT组件及关系配置项关系:配置管理中表达业务系统与IT环境的关系,业务系统之间的关系,在业务系统变更的时候能够直观的指导会影响到那些其他的系统。IT根底设施的整合监测管理IT根底设施整合监测的目标和价值IT根底设施整合监测管理的目标:通过实时的监测IT效劳健康状况并进行前瞻的预警及报警,以降低效劳事故和系统事件的所造成的影响。IT根底设施整合监测管理的价值:整合的管理IT系统运行状态,为IT部门提供整体IT系统的完整信息。通过自动化监测,提高对IT系统中潜在和存在的故障侦测效率,缩短处理事态管理的时间。监测信息为事态管理管理和问题管理提供客观依据。IT根底设施整合监测概述IT系统是由各个相互独立且有相互依赖的技术模块组成,这些技术模块包括效劳器主机、网络系统、平安系统、中间件及应用系统、数据库及文件系统、存储系统等。面对异构化的IT环境,更加需要整合的管理,既一个管理平台监测整体IT系统,打破异构IT系统管理壁垒。IT根底设施整合监测的具体功能网络系统管理IT运维系统支持对国内外的主流产品的自动化监测、具体包括:H3C、Tippingpoint、CiscoPIX/ASA、天融信、Fortinet、StoneSoft、Juniper/Netscreen、MicrosoftISA、CheckPoint/Nokia、Extreme、网域神州、F5、Radware、FoundryServerIron/Broadcade等。网络拓扑管理可通过拓扑的方式对网络进行管理,在拓扑中呈现每条链路的畅通和网络协议的运行状态是表达网络整体运行状态的关键指标。如下列图,通过拓扑图可呈现各个区域IT组件的连通及运行状态。如下列图,在拓扑图上可快速统计当前的故障信息、IT组件负载信息、线路负载信息,并以TopN的形式排列。如下列图,拓扑图的IT组件可按照实际业务情况进行合并成为“区域”概念。IT运维系统可针对“区域”进行Vlan配置、VTP配置、STP配置的分析。如下列图,在形成了“区域”的网络中,分析Vlan配置。为便于更加直观的呈现IT系统状态,根据IT系统的规模大小,用户可创立拓扑子图,并进行切换或链接。如下列图,将局部效劳器和网络设备组合成为拓扑子图,并可进行切换或链接。网络设备相关端口的流入流量、流出流量、流出速率、流入速率,端口利用率、端口丢包率、端口误码率。监控的信息可以按照天、周、月、年等方式以图形和报表的方式展示。终端接入管理IT运维系统支持对终端内部接入的监测,能够发现接入近来的无线控制器和集线器。同时通过设置终端合法性,可识别接入网络的外部设备。如下列图,可图形化呈现终端接入情况。网络设备管理网络设备的管理可对每台网络设备的控制层面、转发层面、根底环境层面进行管理。控制层面的处理能力:CPU利用率、内存利用率、防火墙等网络平安设备的连接数。数据层面的转发能力:链路的带宽利用率、丢包率、错包率、CRC校验错误包率、网络协议的运行性能等。设备的根底环境:温度、电源、风扇。效劳器主机系统管理IT运维系统本身支持对Windows效劳器系统和Linux及Unix效劳器系统的监测。同时通过各类报表,可以进行容量的趋势分析,查询系统的性能瓶颈。操作系统监控参数:效劳器系统的连通性:监测网络设备是否可连通,连通的耗时。效劳器系统的处理能力:监测网络设备的CPU、内存、磁盘容量、磁盘性能,每秒的平均读取数,及当前队列数。效劳器系统的效劳能力:监测网络设备的效劳支撑系统能力和重要进程是否存在,进程[进程运行实例数,占CPU、内存量,线程数,I/O读写、句柄数]。备注:本文仅罗列了根本的监测参数,具体监测内容请见详细指标。数据库系统监控IT运维系统的数据中心管理模块用于帮助用户保证Oracle、IBMDB2®、Microsoft™SQLServer、Sybase、IBMInformix™效劳器的可用性和最优性能。消除数据库管理员(DBA)时常遇到的决定监控什么、如何监控、如何解释监控结果并给出对策等难题,给DBA留出更多时间来关注更复杂、重复率更低的任务。数据库系统的根本监测参数:数据库系统监视器Oracle、MSSQLServer、MySQL、DB2、Sybase、Informix事务/秒、事务数数据库内存占用率缓冲池命中率连接数/会话数游标数接受字节速率、发送字节速率连续工作总秒数用户连接数批注请求数/秒数据库文件对磁盘的占用率锁的数量平均锁等待时间数据库增量表空间增长率、表空间利用率数据库访问平安备注:本文仅罗列了根本的监测参数,具体监测内容请见详细指标。中间件及应用系统管理IT运维系统支持对中间件系统和应用系统的监测管理,具体包括对:WebSphere系统、WebLogic系统、Tuxedo系统、IIS系统、Apache系统、Exchange系统、Mirapoint系统、Lotus系统的可用性。局部中间件系统的根本监测内容:层面监视器中间件及应用平台能力层面WebSphere[JVM内存使用率、CPU利用率、用户会话及相关信息、EnterpriseJavaBeans、ThreadPool、JavaDatabaseConnectivityPool]IIS[总用户数、每秒用户访问数、每秒接收字节数、每秒发送字节数、当前用户数、当前连接数、锁总数]Tomcat[连接响应时间、传输字节速率、每秒请求数、以用内存、剩余内存、内存总数]Apache[连接响应时间、CPU负载、每秒传输字节、每个请求传输字节数、正常运行持续时间、被访问次数、活动线程数、非激活线程数、每秒请求数]IBMWebSphere[连接响应时间、CPU负载、每秒传输字节、每个请求传输字节数、正常运行持续时间、被访问次数、活动线程数、非激活线程数、每秒请求数]Exchange[系统平台[用户连接数、动态连接数、活动线程数、工作队列线程数、地址堆栈长度]Mirapoint[UCE、每秒接收邮件数、发送邮件数、垃圾邮件数、病毒邮件数、队列数、内存、温度、Touch、CPU、POP连接数、SMTP连接数、SSL连接数、活动数、写入延迟、读取延迟、]WebLogic[WebLogicopenedsockets、WebLogic当前JVM堆中内存状况、WebLogic运行状态、WebLogic性能]Tuxdeo[Serverstatus、完成的transaction数]备注:本文仅罗列了根本的监测参数,具体监测内容请见详细指标。日志中心日志的收集和分析工作是IT运维人员的重要维护手段,而在整个IT系统中一套统一的日志收集平台是提高效率和及时性的至关重要的工具。日志是一种工业标准的功能,允许一个设备通过IP网络把通告信息传递给日志效劳器。在日志整合方案中,IT运维系统即是统一的日志存贮中心,也是分析中心。通过收集IT系统中各个IT组件的日志,IT运维系统会自动进行优先级的归类和趋势的分析。IT运维人员需要通过根据优先级的趋势开展来进行相应的动作,例如:严格审核来自网络设备的配置命令日志,如果有“系统不可用”级别的日志那么应当立即检查相应的IT组件和IT效劳的工作情况。信息中心可以根据重点的IT组件或者IT效劳以及以往的经验,进行自定义的日志策略的设置。自定义日志策略设置可以包括“IP”,”关键字”,“优先级”,“报警动作”,“紧急度”,“优先级”字段。IT运维人员可以通过IT运维系统查看自定义的日志策略趋势分析。在对日志归类策略进行方案和配置后,应当对配置后的重要策略编辑报警功能。例如当某一重要效劳器出现了Emergency级别的日志信息,那么IT运维系统立即触发故障管理系统并触发报警系统,使得IT运维人员第一时间得知该系统问题。快速比对分析和统计IT运维系统支持对网络接口的流量、效劳器性能的快速分析比对,协助IT运维人员分析IT组件的性能比对。如下列图,IT运维系统支持对接口流量的快速统计比对。如下列图,IT运维系统支持对IT组件按照CPU使用率、内存使用率等进行的快速排列。如下列图,IT运维系统支持对多台效劳器主机的性能进行比对:报表提供统计分析和决策支持报表系统是协助IT运维人员周期性统计IT系统总体运行能力趋势的功能模块,为IT部门提供统计分析和决策支持。统计报表能够自动的按照日、周、月、年生成报告,报告的监测器范围可以任意指定。全面的展示监测目标的运行情况和统计信息,为系统扩容和企业决策提供科学的依据。IT系统巡检针对IT系统的主动巡检工作是信息中心IT运维人员必备的日常运维工作之一,而在巡检的过程中,往往寻找异常信息或者故障是占用时间最多的内容,并且根据组织机构人员及工作职责不同,很难保障每一次的巡检工作都完全按照既定的巡检标准准确的被执行。IT运维系统的巡检职能可以辅助IT运维人员巡检工作,以到达提高效率,降低错误的效果。如下列图,每一次的巡检工作都是由IT运维人员手动发起的,IT运维系统可以清晰的记录巡检的工作执行情况并形成分析报告。阀值配置根据IT组件及业务运行的实际情况制定相应的阈值,当IT组件在运行过程中指标超过规定的阈值后,系统进行多种方式的报警。IT运维系统提供用户根据系统的性能和效劳级别管理对阀值进行设定:错误阀值:反映如果所收集到的数据与该阀值匹配那么反映用户系统已出现严重故障,用户看到此状态应立即解决此类问题。告警阀值:反映如果所收集到的数据与该阀值匹配那么反映用户系统已出现故障的趋势,当用户看到此状态应进行关注并采取适当措施。正常阀值:反映如果所收集到的数据与该阀值匹配那么反映用户系统此时正常,用户只需要在报告系统中关注该阀值的趋势。在不增加操作复杂度的同时,保障阀值配置的灵活度,IT运维系统提供了多种阀值配置的方式。如下列图,批量配置单个IT组件的阀值策略。如下列图,批量配置一组IT组件的阀值策略。如下列图,配置单个配置项的阀值策略。故障预警和告警模块故障报警旨在将业务以及全网产生的故障作为事件报告给IT管理员,使IT的健康状态第一时间被管理员发现,而并非客户或者友邻部门。监控数据收集的频率直接影响到数据收集的有效性,同时也很大程度关系到IT运维系统的负载。为保证对IT系统数据收集的有效性,在IT运维系统中我们可以对每一个监测器的轮询间隔做自由定制,单位最密可达1分钟/次。建议对链路流量等对时间敏感的数据信息采用每分钟一次的收集方式,对磁盘容量等对时间不敏感的数据信息采用30分钟或者更长的时间进行收集。故障告警IT运维系统系统提供如下几种报警方式:短信:目前支持移动、联通网关、小灵通短信网关和短信发送终端。报警通过短信的方式发送。实时性好,送达性强,能够满足大多数用户的需求。邮件:报警通过电子邮件的方式发送给用户。此方法的特点是本钱低,操作方便,但用户接收电子邮件的时间不固定,不能保证报警消息的实时送达。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年01月上半年四川绵阳市安州区面向区内考调机关事业单位工作人员30人笔试历年典型考题(历年真题考点)解题思路附带答案详解
- 税法(第5版) 课件 曹越 第17章 环境保护税;第18章 城市维护建设税与教育费附加
- 2025届高考【应试策略】生物
- 《植物生长记录》课件
- 《论文的格式要求》课件
- (高清版)DB37∕T 3032-2017 化妆品中苯菌灵和多菌灵的测定 液相色谱-串联质谱法
- 《销售技巧篇》课件
- 《高而基复合体》课件
- 《面料基础知识》课件
- 2025至2031年中国手持式家用吸尘器行业投资前景及策略咨询研究报告
- 口腔颌面外科学 功能性外科
- 脊椎动物学知识点归纳各纲特征
- 光伏支架安装工程质量验收记录完整
- 波普解析PPT质谱教案资料
- GB/T 27476.5-2014检测实验室安全第5部分:化学因素
- 一级医院基本标准1
- 霍乱病例分析课件
- 金属非金属矿山重大生产安全事故隐患判定标准课件
- 四年级上册数学课件-一般应用题 全国通用(共26张PPT)
- 体检报告单入职体检模板
- 银行基本技能(第2版)电子教案
评论
0/150
提交评论