版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
机房运行维护工作建议书为加强********单位数据中心机房各系统的运行维护和管理工作,保证系统长期稳定、高效运行。根据**************信息化工作管理规定,编制适合于******机房运维方案。.运维现状分析******数据中心机房目前由*******部门管理,由指定的外协公司承接基本运维工作,其职能限定于出入安全、配件管理、设备管理、运行物理环境管理。对于设备本身及其运行维护、软件运行维护等工作,仍由各个供应商按项目签订的协议提供免费服务,目前这些免费服务大部分处于过期或者即将到期的状态。目前机房运维没有涵盖桌面终端、大楼综合布线、楼层配线间与设备间等,未构成一个完整的运维体系。故障连带现象多方运维导致机房出现中断或者服务不良的情况时有发生。********公司机房由于始终未能受到规范统一的运维管理,加上机房作为数据核心,由各种外部单位组成的运维团队无论在数据安全性、人员责任感、技术全面性等方面,都难以保持机房的持续性运转。我们没有精确的数据来说明机房的运行情况,这也是目前运维工作尚未达标的一种表现,同样,这也导致我们对现状无法进行精确描述。但是,通过一些现象仍然可以发现机房运维工作应该大幅度改进。具体原因不详,但由于机房服务器大部分无法接通,成都地区的二级单位网络依赖的DHCP服务无法使用等现象持续多个小时,发现晚,响应慢。上班时间网速慢具体原因不详,但简单归结为SEP或者人多并不能完全的解释网速慢的问题,由于网络是信息化建设的基础,充分发挥机房内部与外部的资源是运维工作的重要职责。服务意外退出当虚拟机系统开始引入后,我们时常发现挂载在虚拟机系统上的一些服务器无故宕机且不知道任何原因,当用户需要使用时,由于无法自动恢复,影响正常工作。不易寻找责任人机房是一完整的整体,涉及到环境、网络、服务器、存储、操作系统、数据库、应用软件等,当一个故障发生时,难以判定故障原因,而目前机房是各个外协单位各施其责,最终造成故障排除时间缓慢,相互推诿的情况时有发生。半自动化运维现状目前许多企业的IT运维已经实现从人工运维到计算机管理,但延展咨询在同客户的交流中发现其中很多企业的IT运维管理还只是处在“半自动化”的运维状态。因为这种IT运维仍然是等到IT故障出现后再由运维人员采取相应的补救措施。这些传统式被动、孤立、半自动式的IT运维管理模式经常让IT部门疲惫不堪,主要表现在以下三个方面:运维人员被动、效率低在IT运维过程中,只有当事件已经发生并已造成业务影响时才能发现和着手处理,这种被动“救火”不但使IT运维人员终日忙碌,也使IT运维本身质量很难提高,导致IT部门和业务部门对IT运维的服务满意度都不高。目前绝大多数的企业IT运维人员日常大部分时间和精力是处理一些简单重复的问题,而且由于故障预警机制不完善,往往是故障发生后或报警后才会进行处理,,使到IT运维人员的工作经常是处于被动“救火”的状态,不但事倍功半而且常常会出现恶性连锁反应。缺乏一套高效的IT运维机制目前许多企业在IT运维管理过程中缺少自动化的运维管理模式,也没有明确的角色定义和责任划分,使到问题出现后很难快速、准确地找到根本原因,无法及时地找到相应的人员进行修复和处理,或者是在问题找到后缺乏流程化的故障处理机制,而在处理问题时不但欠缺规范化的解决方案,也缺乏全面的跟踪记录。缺乏高效的IT运维技术工具随着信息化建设的深入,企业IT系统日趋复杂,林林总总的网络设备、服务器、中间件、业务系统等让IT运维人员难以从容应对,即使加班加点地维护、部署、管理也经常会因设备出现故障而导致业务的中断,严重影响企业的正常运转。出现这些问题部分原因是企业缺乏事件监控和诊断工具等IT运维技术工具,因为在没有高效的技术工具的支持下故障事件很难得到主动、快速处理现在随着IT运维管理工作的复杂度和难度的大大增加,仅靠过去几个“运维英雄”或“技术大拿”来包打天下已经行不通了,企业开始需要运用专业化、标准化和流程化的手段来实现运维工作的自动化管理。因为通过自动化监控系统能及时发现故障隐患,主动的告诉用户需要关注的资源,以达到防患于未然。例如,全天候自动检测与及时报警能实现IT运维的“全天候无人值守”,大大降低IT运维人员的工作负担。而且,通过自动化诊断能最大限度地减少维修时间,提高服务质量。因此,对于越来越复杂的IT运维来说,将纯粹的人工操作变为一定程度的自动化管理是一个重要发展趋势。规范制度不健全IT系统三分建、七分管,运维管理十分复杂,技术要求高,涉及范围广,实施难度大,突出有“三难”。职责难明IT系统运维管理离不开使用、建设、运维三方的共同努力。不能将所有运维责任归于运维部门,运维部门与其他部门相互配合程度低,导致运维人员压力大,处理事务多。哪些由使用部门负责,哪些由运维部门负责,难有明确的职责界定。资料难全网络设备价格和系统集成复杂度不断降低,部门自建“网中网”、“小系统”现象愈加普遍,资料准确性和完整性不断降低,给清查设备和排查故障带来很大困难,运维部门掌控系统资源越来越难,运维管理资料难求完整绩效难估运维部门有个“两难”境界:系统问题越多,工作量越多,但有人认为维护水平越低;维护水平越高,问题越少,但别人认为工作量越少。运维部门绩效评估难以用业务部门类似的指标来衡量,不能受到公平评估。因此运维人员积极性越来越低,人员流失率高。.总体目标机房运维管理规范化、流程化、制度化鉴于最终用户对信息化服务持续性供应的要求,******数据中心机房运维工作急需由被动式变更为主动式,针对以下内容进行规范化管理,确保其持续运行时间与工作性能满足生产需求。机房环境,包括温度、湿度、供电、防雷、消防、承重等;机房设备,包括服务器、交换机、存储、网络安全、通讯等设备;机房链路,包括骨干光缆、机房跳线、收发与中继等;机房应用软件的运行监控,包括门户、办公、生产、财务、网络等应用软件等;机房软性资源,包括IP地址、VLAN等。对于以上各个项目类别,基本上都包括监察、报警、故障排除、优化等工作,由于应用软件等受到供应商的限制,其故障排除与优化往往只能由供应商提供,但对其运行进行实时监控仍然是机房运维职责范围内的工作。统一管理和集中授权机房运维目前存在的诸多问题,导致工作较为混乱,职责不清,相互推诿时有发生,这与运维本身所需要的快速排除事故,综合性根本性的解决潜在问题的要求是不一致的。除了技术上需要一个中央平台以外,显然管理上也应该形成一个统一的运维团队,这个团队应该对机房内各项内容都承担相应的职责,这种职责是深入的,而不仅仅是简单的遇到事故时一个通知者的角色。设备厂商、应用软件开发商都是在不断变化中的,而运维管理团队却是不变的。地研院信息中心认为,运维管理团队应该保障运维行为的合理性。不允许在事故排除、问题诊断、持续改进的过程中,出现互不承担责任,尤其在一些业务交叉点上;对运维配置项的识别方法是统一的,工作单、知识库等的格式是标准一致的;对石油钻探行业的知识理解是一致的,包括不同应用的重要性等级、不同部室数据的安全性等级等;团队内应共同对运维服务工作的推进承担责任;内部区分不同的安全等级,比如管理员账号与密码属于高安全级,而外部人员的工作则是适度授权的。在业务与管理上达到集中统一的要求后,就形成了“******数据中心机房运维一体化”的工作模式,由于这种模式加强了运维内部凝聚力,因此易于在运维流程、技术等方面进行持续改进,从而不断提高********公司在信息化运维工作上的能力,也就为********公司信息化建设解除了后顾之忧。那么,我们再看一看现在的现状,可以反射出多方运维所形成的一些后果。集中监控平台机房是公司的信息化核心,无论是应用服务、核心网络、骨干链路,都将牵动全公司的信息化使用。而机房的软硬件通常都是由不同的渠道采购的,这就造成了多厂商与多供应商共同维护的局面,由于不同厂商有不同的管理平台,不同集成商有不同的运维方式,运维队伍良莠不齐,在运维的及时性、有效性、安全性上,都无法满足********公司的业务需要。事实上,我们需要如下所述的一个平台。统一而且固化可执行的流程,保证无论何人来都可以按标准执行,以减少运维风险;集中的监控预警系统,通过集成机房环境、网络、服务器等系统,任何系统出现故障,都将在第一时间发现并报警,同时,管理人员也只需在一个统一门户上进行操作管理,而无需面对各种各样的管理体系,在减缓学习曲线的同时也提高运维品质;1)集中的知识库,知识包括历史实施过程、技术方案、原始资料等,由于运维的延续性非常重要,因此,具有高度参考价值的历史运维资料是一笔相当宝贵的财富;2)集中的运维队伍管理;3)统一规范的基础配置项数据库。4)只有通过一个中心平台,封装不同厂商与集成商所提供的不同内容,最终达到运维工作可执行,业务延续而不受到厂商或者集成商的过度牵制。5)但是,业务上或者说技术上只是提供了一个系统,而运维要落地仍然需要各类人员来完成,那么,保证运维工作的实施与落地就需要统一的管理。运维自动化首先,IT运维流程自动化能够提高流程的可控性,可以基于业务需求来制定个性化的流程,使企业领导有机会看见他们的业务流程,对企业流程有一个深刻的分析和理解,进而改造和优化流程。其次,IT运维流程的自动化能提高透明度。因为随着业务需求的变化可能会有多个版本出现,手工流程的不透明将会给流程定制和优化带来相当大的困难,而自动化流程可以使用户能够一目了然的看到整个流程的各个节点运转情况,自动化工具潜移默化地提升业务保障能力。再者,运维系统实行了自动化监控以后,通过工具自动监控对人的工作是一种减负,也是一种降低成本的表现。.建设方案******数据中心机房的运维是一个整体化的工作,无论在电信、金融等信息化程度较高的行业,都是由一个运维团队来承担运维工作,鉴于行业信息安全的需求,通常是由一个内部服务机构进行统一管理,外协单位辅助来统一开展工作。地研院信息中心作为距离******数据中心机房较近,信息化人员有一定运维经验,有足够的意愿为******数据中心机房运维提供良好的支持,目前地研院信息中心与一些有经验的外协单位通力合作,正在努力向ISO/20000标准所要求的运维服务规范化流程化的方向前进,并根据自身对机房运维工作的理解,已经开发出一些流程与制度,为机房运维奠定足够的基础。自顶向下设计机房运维涉众自顶向下牵系到各个层面的诉求,******数据中心机房的运维是一种分层次的服务,整个运维过程将会涉及多类人员。根据********公司的现状与实际情况,我们分析以下人员将构成整个运维生命周期中的干系人,并行使各自的角色权利。终端用户终端用户是我们的最终客户,具满意度是我们运维工作是否良好的主要评判标准。终端用户不局限于大楼内的办公用户,也包括骨干网络联通的对端用户、机房服务器上各类应用的使用者、集团公司的远程网络管理者,等等。终端用户也是运维费用的承担者,我们的职责就是让其满意度逐步提升。内部服务管理部门公司信息管理部作为内部服务管理部门,承担了保证终端用户满意度的责任。由于内部服务管理部门承担了大量的管理工作,再承担运维服务工作事实上不具有可行性。因此,信息管理部应承担运维的管理工作,包括选择运维工作承担单位、审批管理流程、传递集团公司管理规范或者制定公司内部的企业规范,等等内部服务管理部门也是运维费用的评定方与支付方,为整个运维工作履行管理职责。运维承接单位地研院将作为运维工作的承接单位,将贯彻落实服务管理部各项指标,并为终端用户提供服务界面。运维承接单位必须是中石油内部单位,其一是由于信息安全的要求,其二是为了更好的遵循企业规范,其三是不断提升内部队伍的运维水平。运维承接单位本质上还是一个内部服务单位,在一些技术与业务无法支撑的情况下,需要外部协作单位提供运维技术工作的支撑。外部协作单位外部协作单位为运维工作提供了附加的人力资源与技术专家服务,是整个运维工作的重要组成部分,其通常会承担实际工作的执行者角色。作为外部协作单位,必须遵守公司的规范与要求,并按需提供相应的数据资料与过程文档。由于机房的技术复杂性,外部协作单位可能不只一家,这些外协单位将由运维承接单位进行统一的管理,形成统一的运维团队。供应商与厂商供应商与厂商,包括软件与硬件,这两部分都需要他们提供配件服务与修复服务,无论在免费服务期还是收费服务期,这些商家都属于运维体系中的一部分。供应商与厂商,也包括一些项目研究与测试阶段的参与者,这些商家也必须遵守机房相应的管理规定采用自底向上与自顶向下相结合******数据中心机房运维目前处于一种被动式的工作状态,距离主动式运维还有很长一段距离,这是由于各个运维单位没有标准的工作流程与数据规范,导致基础数据极度欠缺,这些工作目前都必须一步一步通过坚实的工作来逐渐补充和完善。同时,我们不能将运维工作简单当作一个软件系统或者平台,我们必须要按照ITILv3等国际标准,结合********公司实际,制定自已的标准,这样展开工作才有章可循,有法可依。按照这自底向上与自顶向下结合的原则,我们建议采用如下步骤来实施******数据中心机房运维。建设运维团队运维团队的建设主旨,就是满足运维工作的PDCA循环,结合内部与外部工作人员,构建一个良性的不断自我成长的运维生态圈。由于对IT运维的不够重视,很多企业并没有建立良好的运维团队来系统而规范的进行运维管理,这在一定程度上引发了IT运维人员的流失,使得企业的IT运维无法在质量上得到最大限度提升。止匕外,随着企业IT应用的深入,运维已无法单纯依靠几个“运维先锋”以及“技术大鳄”来解决。运维专业化的细分,需要企业能够充分了解IT运维以及运维人员的特性,才能让运维人员在合适的细分空间不断进行运维经验的积累,从而提升运维质量。而这恰恰是很多企业无法正视的问题,运维中总是采取消极应对的态度,使得众多“运维先锋”以及“技术大鳄”也因为受重视程度不够等诸多原因选择离开。在运维管理中,团队质量直接影响着服务质量,只有持续投入管理精力,建立相应晋升培训机制方能确保较高的服务水平和较稳定的服务质量。我们将在后续章节详解我们的运维团队组成计划,由于工作都是由人开展的,所以这是最急迫的工作,也是******数据中心机房运维工作的重要部分。由于中石油属于国家战略行业,我们必须在考虑到人员技术性的同时,也要考虑到内外部人员的信息安全性。建立规章制度加强IT系统运维制度建设事半功倍,通过运维工作制度化,全面落实各项管理责任,可有效保证IT系统的安全、稳定、可靠运行。随着IT系统在各行各业的迅猛普及,IT部门工作重点,逐渐由系统建设转向运维管理,确保IT系统高效稳定运行、提高服务水平成为重心。近年来,IT系统运维管理发展了一些先进理论方法,诸如以ITIL为核心的IT服务管理十大流程、IT外包等,推进了信息化服务水平的提高。但是,对于IT系统规模较小、功能简单的单位来说,运维部门人力弱,经费投入少,运用实施这些理论办法存在着较大的难度。因此,解决运维管理“三难”问题,惟一的办法就是建立较为完整的运维管理制度,形成一套职责、流程和指标,做到事事有章可循、有规可依。根据********的实际情况,参照行业内的一些经验,我们已经拟定了一些规章制度的初稿,可以在后续章节中看到。不过仍需要在实践过程中不断改进,以适应我们的实际情况。采集基础配置项数据库******数据中心机房运维的基本工作欠缺较多,尤其是在基础数据方面,一直难以提供一份完整的资料,对运维工作的开展造成巨大的障碍。配置项管理数据库即CMDB,通过识别、控制、维护,检查企业的IT资源,从而高效控制与管理不断变化的IT基础架构与IT服务,并为其它流程,例如事故管理、问题管理、变更管理、发布管理等流程提供准确的配置信息。随着IT技术的进步与发展,企业的IT环境越来越复杂。数量庞大、品种繁多的IT设备很难被有效的管理,更不用说管理以这些IT设备为基础的各种IT服务。同时,企业白IT环境在不断变化,如何评估某个设备或服务发生的事故或变更所造成的影响,以及如何为其它流程提供IT资源当前准确的配置信息都是企业面临的重大挑战。CMDB正是为了解决以下这些问题而诞生的。信息整合如何将众多IT设备、IT服务、甚至使用它们的部门与人员整合在一个完整的库中?这样整合的信息将使有效与高效的管理IT设备与服务成为可能。可自动发现各种主机、网络设备、应用。同时支持全网发现、指定子网、指定配置项三种发现方式。关系映射如何将硬件、软件以及IT服务之间的物理和逻辑关系映射可视化?使得IT人员可以看到其互相之间的依赖关系,并确定该IT组件对客户带来的潜在影响。若IT人员可以实时看到其对公司或客户业务的影响,将大大有助于提高IT服务水平。展示IT资源、部门、人员之间的关联关系,实现关联关系的定义与维护。CMDB不仅仅存储IT资源的属性与关联关系,还自动关联IT资源与其发生过事故、问题、变更、发布。流程支持如何为其它IT运维流程提供准确的IT设备、IT服务的配置信息(包括当前设备或服务发生过的事故、问题、变更、发布等信息)对服务台、事故管理、问题管理、变更管理、发布管理来说,准确的配置信息将极大的提高流程的运作效率。在服务台、事故、问题、变更、发布流程中,均可以快速查看当前流程涉及到的IT资源的全面、准确的信息。软件库与硬件库如何保证应用到IT环境的软件与硬件均是经过授权与测试的?这是保证IT环境质量与提供稳定IT服务的前提条件。通过支持DSL(DefinitiveSoftwareLibrary,最终软件库)与DHS(DefinitiveHardwareStore最终硬件库),保证在发布管理中使用的软件与硬件均是通过授权与测试的。CMDB是IT运维的一个关键,但是因为每个企业对CMDB的要求都会有些差别,因此CMDB的灵活性很重要。********公司机房的配置项虽然不比电信或者互联网应用服务商,但由于其具有远比电信、互联网应用的复杂性,在分析、采集CMDB资料时,将面临更多的挑战。研发********运维平台******数据中心机房运维,如果仍然延续大量的人工,规章制度、业务流程难以落地,执行时容易偏离,大量基本数据无法采集或者采集困难,造成好的运维理念最终仍然无法贯彻。随着信息时代的持续发展,IT运维已经成为IT服务内涵中重要的组成部分。面对越来越复杂的业务,面对越来越多中¥化的用户需求,不断扩展的IT应用需要越来越合理的模式来保障IT服务能灵活便捷、安全稳定地持续保障,这种模式中的保障因素就是IT运维(其他因素是更加优越的IT架构等)。从初期的几台服务器发展到庞大的数据中心,单靠人工已经无法满足在技术、业务、管理等方面的要求,那么标准化、自动化、架构优化、过程优化等降低IT服务成本的因素越来越被人们所重视。其中,自动化最开始作为代替人工操作为出发点的诉求被广泛研究和应用。IT运维从诞生发展至今,自动化作为其重要属性之一已经不仅仅只是代替人工操作,更重要的是深层探知和全局分析,关注的是在当前条件下如何实现性能与服务最优化,同时保障投资收益最大化。自动化对IT运维的影响,已经不仅仅是人与设备之间的关系,已经发展到了面向客户服务驱动IT运维决策的层面,IT运维团队的构成,也从各级技术人员占大多数发展到业务人员甚至用户占大多数的局面。因此,IT运维自动化是一组将静态的设备结构转化为根据IT服务需求动态弹性响应的策略,目的就是实现IT运维的质量,降低成本。可以说自动化一定是IT运维最高层面的重要属性之一,但不是全部运维团队的最低配备满足PDCA循环运维团队的构成与职责分配是******数据中心机房运维是否能够达到预期目标的一种保障,根据********公司的组织结构与信息化建设现状,结合ISO/20000标准,我们以一个完整的PDCA循环作为建立团队组织构成的依据,建立一个完整成体系的运维队伍。以上图示表达了整个团队的基本配备情况,每个环节都承担相应的职责不可或缺,在图中并未表达在机房运维过程中可能出现的供应商与厂商人员,但一旦出现,也同样纳入团队的管理规程中,并形成相应的制度与评估考核体系。客服人员客服工作人员是与用户沟通的主要渠道之一,需具备一定的话术要求和基本技能。要保障7x24小时的不间断服务质量,需要至少4名员工进行轮班工作,人员需求量相当较大。鉴于******数据中心机房目前的运行需求,可以安排2名客服人员轮值,每日12小时,其余时间由驻点运维工程师提供客服服务。根据实际运行情况进行人员调整。运维工程师运维工程师是一线工作人员,包括驻点工程师和移动工程师,运维工程师是与用户交流的零距离界面,沟通的主要渠道之一,需具备一定的话术要求和基本技能。1)接受工作任务单,登记处理过程与结果2)现场故障排除3)远程故障排除4)提出流程改进建议5)每日工作汇总6)提供技术知识与业务知识积淀7)协助用户工作,提供技术支援运维工程师属于一线员工,在接人待物、沟通以及基本技术水准都需要达到一定的要求。运维工程师在排除故障或者技术支援的时候,必须严格按流程进行,对于无法解决的问题,需要通知客服中心,加派或者另派技术专家协助。******数据中心机房运维目前需要2—4名工程师轮班,这些人员可能由运维承接单位与外部协作单位共同组成。行为督查员行为督查员的主要工作是检验流程的符合度与运维最终效果,同时也起到一个工作过程监管的作用,形成运维工作持续改进的依据。1)检查工作流程的执行情况,派发工作整改单2)实施客户满意度调查3)实施客户新的需求调研4)工作检查情况汇总5)统计运维KPI指标,提供改进依据6)运维质量保证体系的内部评审目前,行为督查员同时承担了劳动监察与客户反馈的双重角色,作为PDCA循环中“检查”这一重要环节,行为督查肩负了为运维工作持续改进提供量化依据的职责。行为督查员需要1-2人,无需轮班。技术专家作为运维工作的核心,技术专家将承担对整个运维技术、流程、规范的制定与改进工作,同时,当一线人员遇到难以解决的问题时,技术专家会从二线转为一线,为用户排除故障。1)制定与改进运维流程与规章制度2)协助运维工程师解决技术难题3)研制新的服务内容4)追踪问题及解决方案5)研发运维自动化产品6)研发运维配套软件7)维护配置数据库技术专家是一个团队,通常根据各自熟悉的业务,分为多种技术专家。技术专家通常集中办公,按需提供技术支撑保障。技术专家是PDCA循环中计划的制定者,也是改进的实施者,承前启后,并且为工程师和用户提供专业的技术支持,是整个团队的灵魂。目前,在******数据中心机房运维的专家团队中,需要机房环境、IT设备、数字网络、操作系统与数据库、软件研发方面的专家,由于各能一人多项,所以专家人数约在3—5人左右不等。文档管理员文档管理员是为了保证运维工作受控,建立企业知识库,提高运维水平所必须配备的。文档管理员一方面是实现了纸质文档与电子文档的归类以便于查询,另一方面则是整理出知识形成知识库。1)收集运维过程文件,分类归档2)收集外来文件,分类归档3)电子档案的历史版本管理4)维护运维知识库5)业务资料查询6)文档规范化管理******数据中心机房运维的文档管理员需要1名专职或者兼职人员。管理人员为了团队的管理与实际工作的扩展,可能还需要增加一些人员配备,以便于工作的开展。这些人员通常可以在前述角色中寻找人员兼任。1)运维团队总负责人,主要进行管理工作,调配人员2)运维管理人员,负责运维工作中的日常管理,跟协助配全等工作。其中运维团队总负责人可能会由运维承接单位的人员兼任。自动化建设自动化建设根据(基础设施类、业务系统类、应用能力类)进行划分。提供自动告警提供短信、邮件和声光等手段通知监控人员。监控人员可以看到业务系统实时的未处理告警数目、告警详情。并可以对告警进行故障预判,系统会记录下告警的处理过程,对有通用性的解决方案可以归入知识库。建立集中日志动态监控和分析系统,为了提升故障综合分析的能力、通过关联关系分析故障原因;提供特定场景的监控分析,比如重点商品的下载性能、VIP用户的使用性能分析等等;并快速响应新的、甚至是自定义的监控和分析需求。通过可视化的界面从业务系统内部构成的角度,即通过拓扑关系来对告警进行展示和处理,通过业务系统的构成配置,可以把业务系统的各个组成部分,各部分之间的联系通过图形化界面的方式直观展示。当其中某一点发生告警时,相应的部分将会有颜色变化,监控人员可以看到该告警可能影响的业务,从而有针对性的加强监控。现有自动化软件及远景也随着信息化的管理********也迈向自动化的设计及管理,现集团公司、各机关也在运用自动化的工作及软件,如SEP、安全监控软件、包括辅助办公软件等。为完善更高运维要求,做到IT运维的自动化监控和管理平台。总之,实现IT运维自动化管理是指通过将IT运维中日常的、大量的重复性工作自动化,把过去的手工执行转为自动化操作。自动化是IT运维工作的升华,IT运维自动化不单纯是一个维护过程,更是一个管理的提升过程,是IT运维的最高层次,也是未来的发展趋势。运维工具简介NagiosNagios是一款开源的免费网络监视工具,能有效监控Windows、Linux和Unix的主机状态,交换机、路由器等网络设置,打印机等。在系统或服务状态异常时发出邮件或短信报警第一时间通知网站运维人员,在状态恢复后发出正常的邮件或短信通知。Nagios可以监控的功能有:1)监控网络服务(SMTP、POP3、HTTP、NNTP、PING等);监控主机资源(处理器负荷、磁盘利用率等);2)简单地插件设计使得用户可以方便地扩展自己服务的检测方法;3)并行服务检查机制;4)具备定义网络分层结构的能力,用"parent”主机定义来表达网络主机间的关系,这种关系可被用来发现和明晰主机宕机或不可达状态;5)当服务或主机问题产生与解决时将告警发送给联系人(通过EMail、短信、用户定义方式);6)可以定义一些处理程序,使之能够在服务或者主机发生故障时起到预防作用;7)自动的日志滚动功能;8)可以支持并实现对主机的冗余监控;9)可选的WEB界面用于查看当前的网络状态、通知和故障历史、日志文件等。PUPPETpuppet是一种Linux、Unix、windows平台的集中配置管理系统,使用自有的puppet描述语言,可管理配置文件、用户、cron任务、软件包、系统服务等。puppet把这些系统实体称之为资源,puppet的设计目标是简化对这些资源的管理以及妥善处理资源间的依赖关系。puppet采用C/S星状的结构,所有的客户端和一个或几个服务器交互。每个客户端周期的(默认半个小时)向服务器发送请求,获得其最新的配置信息,保证和该配置信息同步。每个puppet客户端每半小时(可以设置)连接一次服务器端,下载最新的配置文件,并且严格按照配置文件来配置服务器。配置完成以后,puppet客户端可以反馈给服务器端一个消息。如果出错,也会给服务器端反馈一个消息。开发puppet是为了让系统管理员可以相互交流和共享成熟的工具,避免重复的劳动.通过以下两个特性来实现这一目标:1)提供一个简洁的但是强大的框架来完成系统管理任务2)系统管理任务可以描述成puppet语言,因此可以相互分享代码,就像分享其他语言的代码一样,比如python,c等3)因此,作为系统管理员的你可以更快的完成工作,因为你可以用puppet来处理所有的管理细节,甚至你还可以下载其他管理员的puppet代码来让你的工作完成的更快。CACTICacti是通过snmpget来获取数据,使用RRDTool绘画图形,而且你完全可以不需要了解RRDTool复杂的参数。它提供了非常强大的数据和用户管理功能,可以指定每一个用户能查看树状结构、host以及任何一张图,还可以与LDAP结合进行用户验证,同时也能自己增加模板,功能非常强大完善。界面友好。Cacti的发展是基于让RRDTool使用者更方便使用该软件,除了基本的SNMP流量跟系统资讯监控外,Cacti也可外挂Scripts及加上Templates来作出各式各样的监控图。Cacti是用php语言实现的一个软件,它的主要功能是用snmp服务获取数据,然后用rrdtool储存和更新数据,当用户需要查看数据的时候用rrdtool生成图表呈现给用户。因此,snmp和rrdtool是cacti的关键。snmp关系着数据的收集,rrdtool关系着数据存储和图表的生成。Mysql配合PHP程序存储一些变量数据并对变量数据进行调用,如:主机名、主机ip、snmp团体名、端口号、模板信息等变量。自主软件工具研发目前,地研院正在与外部相关公司共同组成研发队伍,在充分了解市场已有产品(如北塔、摩卡等)的优势与缺点后,结合中石油与********自身的实际情况,研发符合需要的运维软件工具。目前正在研发和计划研发的内容包括:1)工单系统,跟踪任务流程,实现在线的知识采集、客户反馈,由此来固化操作流程、收集运维数据2)基本配置项数据库系统,整理机房运维的资源与对象,是运维工作基础中的基础3)知识库系统,是业务知识与技术流程固化的重要手段4)运维数据统计分析系统5)中央运维门户平台,集成各个不同厂商的运维或者监控系统的数据,并采用门户的方式集中呈现目前我们已经在开展一些工作,如工单的创建与跟踪,以逐渐规范运维的管理工作。.运维实施运维规范流程我们遵循ISO/20000的标准规范提出的十大流程,其中一线员工通常提供巡检、排障、技术支持等工作,是客户可见的部分,而客服中心、专家、督查、后勤等角色,与客户也会有接触,但其核心工作是不可见的。鉴于流程与表单是运维服务工作的核心组成部分,在此我们以数个规范流程作为示例,表述在ITILv3和ISO/20000的指导思想下,如何结合******数据中心机房运维的实际需求,开发满足自身需要的操作流程。服务分工厅P服务模块内容描述提供方
1机房环境根据标准规范,对机房环境进行检查,是否防潮防尘地研院,外协2机房卫生对机房卫生检查,是否到处是垃圾地研院,外协3UPS检查UPS情况地研院,外协,;商4综合布线、网络检查各电缆线、光纤、网线等是否启损坏地研院,外协5机房供电制冷设施保证机房供电与制冷正常工作地研院,外协,;商6设备上架与更换操作设备上架实施,被放置位置的列柜、机架等地研院,外协7系统安装根据需求对设备操作系统规范安装地研院,外协应用系统根据需求对系统的应用系统的维护地研院,外协8现场软件升级业务维护方负责对旧版本、低版本的软件升级操作地研院,外协,;商9现场故障诊断对出现的问题进行分析、诊断地研院,外协10电话远程支撑对驻点工作人员不能处理的的问题进行给予协助地研院,外协
技术支撑对疑难问题的技术分析、探讨、总结解决问题外协,厂家11问题管理系统负责对日常故障的统计与分析、总结地研院,外协12门禁管理决责对外来人员的登记管理地研院,外协4.1.2.设备上架流程设备上架的流程,首先需求方提起需求申请,发起工单到运维服务台,填写需求中请表,相关领导审核通过后,流程提交到运维部门,到上架实施,上架验证,日常维护需求甘「
架申请匕加印诗书资源申请表审相椅
直不通过结束上非
流程需求甘「
架申请匕加印诗书资源申请表审相椅
直不通过结束上非
流程贯博串核上架实施三常运维
投入等工作。流程说明1)需求方提出新增服务器的需求。2)服务台派发工单,判断上架设备的类型,让申请需求都填写申请表,并将申请资源发给资产管理员。3)物理服务器由资产管理员指定特定物理位置组织人员服务器上架(安装电源线、网线)4)维护人员按需求安装操作系统。5)把回单回执给需求方。6)资产管理员更新资产列表。7)由需求方自于安装应用软件。8)软件运行正常后,由运维中心按需求进行安全检查。9)试运行正常,投入生产,纳入IT监控、业务监控、投入维护工作。设备申请如服务器、网络上架需要申请人或者申请部门填写设备申请表,得到签字同意后方可按照流程继续进行。资源核查本阶段主要包括以下工作需求确认与资源检查。申请部门填写的《设备资源申请表》,设备申请部门各表单所填写的客户信息、设备信息必须一致,经部门经理审核后,与《设备上架申请书》一并提交至运维部门备档管理,并对需求进行归口管理。资料检查包括被分配的资源信息进行核对,详情见《设备验收上架表》,如检查合格后,需要签字确认,运维部分需存档。上架实施资源申请到位后,则执行上架实施工作,上架实施前,由维护人员发起上架实施工单至服务台,服务台进行记录,纳入到工单系统。对信息事件进行备档处理。上架后,需要维护人员根据上架信息表进行补充工单信息,包括上架位置、电源接口,所占U数据,上架时间,上架人员,维护人员等,并且需要需求方与设备方签字确认签字上架完毕后,即完结工单。上架信息归档维护中心根据已经上架的设备信息进行整理归档,上架信息表是对服务器已经上架后的确认信息表,保证上架设备信息的完备性,便于运维资产信息管理。纳入日常运维从设备上架之日起,确定了责任部门及运维部分,就按照运维流程开始日常维护工作,包括日常巡检、故障处理、优化建设、作业计划等。
过程表单********设备上架申请书“目名称玦系人联系电话听属部门工作邮箱申请时间上架时间注:如特殊需求内容为加急或临时(测试),则上架时间和申请时间间隔不得超过规定时间。需求事项1.加急上架(不超过规定时限);2.临时上架(需给出卜架时间);3.其他需求原因及操作内容:
卜备内容设备型号大小(U数)服务器配置数量,产加IP需求核定功耗j权归属上架进机房人员姓名电话身份证号码姓名电话身份证号码姓名电话身份证号码姓名电话身份证号码申请部门经理签字:工维部经理意见:备注:k务器类型请假根据客户自己的服务器类型在相应位置做如下标记设备需求与《******数据中心机房设备申请表》内容相对应******数据中心机房设备申请表“目名称使用周期编号申请事由,请内容顷目类型□4^^申请环境口正式环境口小型口测试环境,备加,备型号「请数量
设备编号、他物资申请人(签名):申请人单位:年月日审核人意见:审核人(签名):年月日(注为确保******数据中心机房运维规范化、流程化、局效化、及上线应用稳定,控制项目应用上线质量,提高成功发布率,运维需依据项目新上线(流程控制)进行上线。注:“中大型”项目必须填写此表,并以纸张形式走申请流程,书前签字确认,并且交由档案部备纸质管理;“小型”项目填写此表后,以电子邮件系统审批确认,生成电子备档;设备验收上架表时间厂商防伪查询是口否口
设备型号是口否□合格证后口无口序列号/服务号设备类型服务器交换机/路由器防火墙存储设备□□□□设备配置参数设备包装清单设备上架计划书上架时间上架人员上架位置设备开机测试质保周期工程监理(签字)乙方承包商(签字)甲方人员(签字)备注上架信息表:艮务器名称确认检查上架服务器名称,型号,占用空间大小,额定功率。.上架服务器在试验台上电,是否能正常开机;能正常开机进入第三步,.机房工作人员检查机柜空余空间,空余PDU插座。.符合机柜安全用电、空余空间、空余PDU插架服务器在此机柜。.安装服务器完毕后,在此服务器贴标签(使用单位,维护单位,安装日期),电源线贴标签(使用了哪个PDU插座)。.特殊情况:机柜空间满,不能安装服务器。机柜空间有余量,但用电超过机柜安全用电,建议不在此机柜安装。机柜空间有余量,PDU插座用完,服务器用电在机柜安全用电范围内,机房工“号,率佥电情况听在机房听在列柜听在U数听占U数PDU插座艮务器标签.更用单位隹护单位"装日期作人员向管理中心申请,能否在增加一个PDU,台匕土的玉口日攵奥/¥士九[山木台匕+的玉门DmI小上日日,装人员日匕工日加此服力皿><双仕此,/、甘匕1日加PDU,此服务器不能安装在此。返回到第三步。饶认人员6.机房工作人员记录此次上架情况在表单中。云桌面管理机关个人(调入、借用、项目合作)等相关人员需要新增云终端时,由所在人员的综合科在《协同办公系统》填写《********公司桌面云终端申请表》,并由所在部门主管领导审批后,报送机关事务办及信息管理部,由机关事务办发放物理终端设备,信息管理部负责数据配置,运维组负责云桌面实施。云桌面申请流程1)由业务需求者发起云桌面申请需求2)使用者填写业务申请单模版通过OA系统提交至部门文书审核3)部门文书审核通过后流程转至部门领导审批。4)部门领导审批通过后流程转至信息管理部。5)信息管理部审批通过后,流程转至运维组及机关事务办6)运维实施制作虚拟桌面,同时机关事务办发放设备及制卡7)最后申请者进行确认与验证云资源申请书1)云桌面申请表要包括使用信息,及申请业务简介及所需资源信息等。2)申请中根据员工编号时行唯一索引。3)申请信息需由申请人部门领导、信息管理部签字4)审核通过后,运维组需保存申请表进行备档云桌面撤销流程若工作人员已申请桌面云资源因工作调动、离职或其它原因,致使资源闲置,需提出桌面资源注销申请。并由所在部门填写《机关办公用户资源回收表》,由注销所在存储资源并系统回收,并走云资源撒销流程。1)部门提交离职人员名单,提交至部门领导审批。2)审批通知后流程转至信息管理部审批3)信息管理部审批审核通过后,流程转至机关事务办,机关事务办时行对变更人员确认是否归还设备各IC卡4)机关事务办确认后,由运维组进行实施,注销虚拟桌面云桌面统一安装1)云桌面安装由运维部指定运维工程师负责安装与事件协调2)云桌面安装应该根据云桌面数据配置规范进行默认需求安装3)如申请者有特殊需求,填写申请表,备注清楚需求安装的需求信息4)云桌面分配要符合安全基线要求,保证数据安全、信息安全、系统安全、帐户安全5)安装完成后,运维工程师需要填写工单信息,包括详细步骤及安装说明等信息6)工单完成后更新日常知识库内容云桌面信息归档云桌面回单完成后,由指定运维中心档案角色负责云桌面信息管理,便于信息检索与更新,包括日常版本信息、变更等。操作系统规范流程为避免救火式运维服务,运维工作面对以后膨胀的业务量,须要有一套完善的操作系统安装规范,从而降低人力、物力、财力成本,达到高性能运维服务,此外建立此安装规范,对于知识的继承达到了极好的效果web服务器操作系统安装前需做详细调研,以便运维部门完善地规划和安装服务器。服务器安装操作系统前需调研规划如下方面:1)服务器物理硬件配置规划2)需要进行安装的操作系统以及版本3)是否集成虚拟化,以及虚拟化主机的相关硬件资源分配4)登陆用户和口令管理5)所需业务以及相关应用6)网络、域名以及IP规划7)计算机的域规划8)备注相关联的业务、虚拟机、服务器之间的网络联系以及链路数据9)服务器硬件配置调研以及操作系统、虚拟机规划安装基于windows的操作系统,服务器磁盘至少分成三个区,用途分别为系统分区、安装软件分区、数据备份分区,每个分区格式大小根据服务器空间而定,类型必须为NTFS。Linux自定义分区(注意:一定把下列分区安装到第一块默认盘上面)分区:
分区名大小说明Swap内存x2虚拟磁盘空间/2G根目录/usr5G安装应用程序/var5G临时文件存放,日志等/boot100M系统引导文件/home余下全部存储用户数据根据运维要求,各目录要按照统一目录规范进行配置与管理。对于windows操作系统安全策略与帐号策略都应按照********服务器运维规范«********服务运维安全基线》进行配置。对于Linux安全策略,如root登录漏洞等,必须修改配置文件进行保护。日常行为准则1)必须注意环境卫生。禁止在机房内吃食物,抽烟,随地吐痰;对于意外或工作过程中弄污机房地板和其他物品的,必须及时采取措施清理干净,保持机房无尘洁净环境2)定期检查工作区操作终端的运行状况3)定期对办公区和的桌椅进行清洁和消毒4)机房用品要各归其位,不能随意乱放5)注意检查机房的防晒,防水,防潮,维持机房温度在摄氏20~24度6)机房工作人员应有义务安全和小心使用机房的任何设备,仪器等物品,在使用完毕后应将物品归还并存放于原处,不应随意摆放7)对于使用过程中损坏,遗失的物品应汇报登记,并对责任人追究相关责任8)未经上级领导同意,不允许向他人外借或提供机房设备和物品运维制度二匕■监控值班制度********中心机房运维建立7x24小时监控值班制度2)机房监控人员在值班时间内要坚守岗位,集中精力。要求监控值班人员对告警系统实时监控,并对设备和各业务系统使用情况进行巡视和测试,机房监控人员若发现异常情况,应立即处理,并及时上报。异常情况包括但不限于:日常巡检异常(如设备指示灯异常、资源占用超过阀值、平台业务系统宕机、业务链接失效等)、IT监控系统告警、机房环境恶化、硬件故障、大量客户投诉等3)监控人员必须遵守业务和障碍处理的流程,准确迅速地处理业务和障碍,不得以任何理由推诿、拖延、隐瞒故障4)监控人员必须及时、准确、完整地填写值班日志和交接班记录等各种规定的记录文档5)监控人员不得随意关闭设备告警,不得人为切断和私人占用业务电话,不得做与工作无关的事情6)监控人员必须按时完成作业计划和上级交办的其它事项7)监控人员必须严格遵守通信纪律、安全保密制度和其它各项规章制度交接班制度1)交接班必须准时,接班人未到岗,交班人不得离岗2)交接班内容:统合布线、障碍情况,备品备件、文件资料、工具仪表,相关通知,上级批示以及需由接班人继续处理的问题3)交接方法:交接班人员应将交接内容逐项检查核实并确认无误,在值班交接班日志上签字后,交班人方可离岗。并由维护主管定期审核交接内容4)交接班过程中发生障碍或事故,应暂停交接,以交班人员为主,接班人协助共同处理,直至障碍或事故消除,或处理告一段落后再继续交接5)因漏交或错交产生的问题,由交班人员承担责任;因漏接或错接而产生的问题,由接班人承担责任;交接双方均未发现的问题,由双方承担责任丝日常维护制度1)设备要清洁干净,防尘防潮2)系统软件维护要求禁止在服务器上安装和运行与工作无关的软件软件维护须由专人负责,并严格做好日常维护工作软件版本更新(升级)、软件的修改必须遵守先审批后执行的原则检查当前运行的系统是否为最新版本,及时更新操作系统需要的补丁程序包采取防病毒措施并定期查毒、杀毒3)数据维护要求禁止随意改动数据,如果要修改数据,必须要获得主管人员的同意,并且修改前要做好数据备份,修改后要做好修改记录,并在一周内确认设备运行正常维护人员应及时清理磁盘文件和数据库空间,删除过时或无用的数据和文件,应随时保证磁盘空闲空间>20%和数据库空间充足4)系统备份要求各业务维护平台负责制定备份计划,备份时间分为日备份、周备份、月备份备份数据选择磁盘、磁带或光盘存储,同时采取在线和离线存储方式。介质需用标签注明备份内容、备份时间在做系统割接、版本升级、参数变更之前,必须进行相关系统、数据配置的备份,以便在变更失败时及时恢复每季度检查一次备份数据的有效性5)系统安全要求平台设备口令要求专人负责,对于root用户密码,要求至少每月修改一次,并建档备查平台要求具有容灾系统,每半年或重大通信保障任务之前进行倒换测试每季度对平台进行安全扫描和巡检6)维护人员要求维护人员要求专人专岗,不得兼做与本职工作无关的其它事务维护人员要求技术过硬,全面深入掌握所维护系统的系统架构和技术细节所有维护人员,必须7X24小时手机开机,若手机故障或较长时间(2小时以上)进入无信号区,应及时告知上级主管人员联系方式,维护人员对于未接听的工作电话,必须在20分钟内回拨七二节假日工作制度1)在重要法定假日前一周内须开展安全巡检2)巡检内容包括但不限于:桌面、综合布线、机房环境、硬件设施、操作系统、数据库、磁盘阵列、应用软件、配置数据、数据备份
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2022年大学轻工纺织食品专业大学物理下册期末考试试题A卷-含答案
- 石河子大学《中学历史课程标准与教材分析》2022-2023学年第一学期期末试卷
- 石河子大学《遥感数字图像处理》2023-2024学年第一学期期末试卷
- 一抹红的诗句
- 石河子大学《习近平总书记关于教育的重要论述研究》2023-2024学年第一学期期末试卷
- 石河子大学《生药学实验》2021-2022学年第一学期期末试卷
- 石河子大学《基础素描》2023-2024学年第一学期期末试卷
- 沈阳理工大学《专业创新课程-嵌入式计算机产品案例》2023-2024学年期末试卷
- 沈阳理工大学《信号与系统》2021-2022学年第一学期期末试卷
- 沈阳理工大学《人工智能实例与应用》2023-2024学年期末试卷
- 手机棋牌平台网络游戏商业计划书
- 学校体育与社区体育融合发展的研究
- 医疗机构高警示药品风险管理规范(2023版)
- 一年级体质健康数据
- 八年级物理(上)期中考试分析与教学反思
- 国家开放大学《财政与金融(农)》形考任务1-4参考答案
- 2023银行网点年度工作总结
- 工厂反骚扰虐待强迫歧视政策
- 计算机教室(微机室)学生上机使用记录
- Photoshop(PS)教学课件:第6章调色
- FAI首件检验报告
评论
0/150
提交评论