数据中心基础设施智能运维白皮书_第1页
数据中心基础设施智能运维白皮书_第2页
数据中心基础设施智能运维白皮书_第3页
数据中心基础设施智能运维白皮书_第4页
数据中心基础设施智能运维白皮书_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据中心基础设施智能运维白皮书数据中心基础设施智能运维白皮书数据中心基础设施智能运维白皮书 PAGE 8 PAGE 9Introduction简介当前大部分数据中心的运维安全依赖于富有经验、训练有素的运维团队,部分成熟的数据中心已经开发出完善的运维流程和培训体系,并用以减小偶发事件及人员变动对运维安全的冲击,少数先进的数据中心已经在寻求通过数字化、智能化手段来保障数据中心运维安全的可持续性。本白皮书划分了从传统运维到智能化运维的 5 个阶段,以及每个阶段的典型特征,一 方面,数据中心的管理人员可以根据这些信息明确当前所处的阶段,以及演进和优化的目标。另一方面,对于处在传统运维阶段的团队,本白皮

2、书介绍了数据中心基础设施可用性管理全景及对应的数字化, 智能化措施,利用这些信息,运维团队能更好地规范运维管理,制定智能化运维升级的计划,并能指导运维团队从传统运维向智能运维转型,在智能化运维工具的帮助下,实现运维更高效、更安全并可持续的业务目标。数据中心智能运维演进运维流程图 1 展示的是运维从传统运维到智能运维的阶段演进,横坐标是智能化进展,纵坐标指的是运维流程的完备和复杂度,在传统运维阶段,智能化手段不多,运维安全主要依靠运维团队的经验和技能,管理的可持续性则依赖流程制度,和不断完善培训体系,随着流程制度的不断完善,运维效率会有所降低,但随着运维团队对流程制度熟练应用后,效率会有所恢复,

3、在传统运维阶段,存在几个潜在的误区:1、对运维团队或者个人的过度依赖,往往导致熟练流程建设及经验积累;2、对流程的僵化使用,最终会导致运维团队对流程失去耐性,而导致实际运维操作完全偏离流程本身,因为运维团队需要讲流程跟实际情况结合,在不影响流程节点结果输出的情况下匹配实际情况,做到这一点需要运维团队具备丰富的运维经验;3、一些经验丰富、流程制度成熟的运维团队往往会陷入过于自满的误区,错误排斥任何智能手段,拒绝对运维效率改善的建议,固执的认为效率提升必然影响到运维安全。智能运维阶段,会通过数字化、智能化手段不断的固化和简化流程,“云化”运维专家,自动化手段取代人力等, 大幅提升运维效率,运维安全

4、不受影响甚至更安全,智能运维不仅能解决当前数据中心运维人力短缺的困境,还能通过对流程、经验和技能的不断固化、优化来彻底摆脱数据中心运维对人和团队的依赖。传统运维智能运维运维演进智能化程度图 1五大运维阶段为了定义清楚传统运维、智能运维的变化和演进,这里划分了 L0L5 阶段,并详细定义了每个 Level 的典型特征:人工运维规范运维规范运维数字运维自动运维完全自动运维L0L1L2L3L4L5无标准化流程无培训体系个人承担职责运维质量无法评估标准化流程但僵化有培训体系依赖核心骨干运维质量评估难,可持续性差流程成熟完备重视培训体系部分的借助自动化工具运维质量有保障,重视团队建设,可持续流程电子化并

5、持续优化数字技术全面应用,AI 主导部分关键工作运维质量可评估,不再依赖人和团队基础设施实现自动运维运维效率达到极致基础设施资源自动跟 IT 及云业务协同自动感知、自动调整,故障自动闭环智能预测业务需求,智能协同数据中心无人值守L0手工运维无标准运维流程,依赖个人或团队的经验,运维质量无法评估L1规范运维已经形成标准化流程,可以通过培训等手段对运维团队循环赋能,但普遍存在部分流程过于僵化, 或部分实践游离于流程之外的问题,运维效率较低,对团队及核心骨干的依赖度很高,运维质量评估难,自动化程度较低,使用的监控、自动控制等系统辅助运维L2成熟运维运维流程趋于成熟,运维质量有较好的保障,但运维效率不

6、高,重视运维团队的建设,团队能力通常有较好的延续性,但无法自主优化;辅助系统较为完备,部分核心子系统具备自动化能力L3数字运维在 L2 的能力基础上,通过信息技术数字化运维活动,管理和驱动运维流程的执行,且基于大数据分析能持续优化,运维质量可以准确评估,运维效率大幅提升;关键子系统如,配电和制冷实现自动运维,基础设施资源能够感知 IT 及云业务需求变化并完成闭环管理,AI 等机器智能在节能、故障预测等特定领域取代人类智能L4自动运维基础设施实现自动运维,不再需要单独的基础设施工程师,通常由 IT 工程师兼职,基础设施运维效率达到极致,运维流程复杂度大幅下降,基础设施资源能够根据IT 及云业务需

7、求变化动态调整, 机器智能全面覆盖运维工作L5完全自动运维基础设施自动感知及预测 IT 及云业务自动做出最佳调整,对于可能的业务故障闭环自动化管理, 真正实现数据中心无人运维基础设施运维全景物理安全进出登记机房巡检权限审视Hosting 授权刷卡记录存储介质记录钥匙审视物理安全 CP可用性管理机房巡检基础设施巡检设备维保风险自动管理重大检修应急演练设备全生命周期容量管理可视化IT 上架管理容量需求管理供应商管理评价管理合同管理沟通管理服务报告综合管理综合报表统计机房运维报告机房需求管理ITSM 系统对接微服务化框架域权限管理移动 APP 架构基础设施运维涵盖了几大块工作:物理安全管理、基础设施

8、可用性管理、机房容量管理、供应商管理及综合管理,其中可用性管理是运维最主要的工作,包括了大部分日常活动,如巡检、设备定期维保、风险管理、检修和应急演练等数据中心数字运维平台 运维活动的数字化、智能化实践运维数字化是指对运维流程、人的活动、执行结果的数字化,通过数字化可以规范人的行为,降低人误操作导致的风险, 可以通过模板及任务的自定义及不断扩展来持续优化运维流程,有了全程数字记录,对执行结果不仅是可视,还可以对结果进行分析,根据分析结果来优化运维管理,例如:电子巡检“数据中心运维人员定期会对机房进行巡检,检查机房安防、消防、空调、配电等是否正常,机房有无异味等内容,传统运维使用纸质表格对巡检项

9、打勾或叉,以及相关备注。纸质巡检不方便查阅,很难做出优化分析,电子巡检数字化所PlanDo有流程和人的活动,能够监督 IT 运维人员执行情况,并给出用户最关注的分析建议,如巡检执行情况、执行效率、完成进度等。通过 DCIM+APP 的方式,实现日常巡检的规范化和电子化。电子巡检通过系统自动执行 PDCA 循环,实现运维过程的移动化、标准化、可ActionCheck视化、可优化:任务管理(Plan):系统提供日常巡检任务模板,管理员可根据模板设计任务名称、巡检内容、巡检路线、巡检频次等,并通过任务单的方式下发给巡检工程师。APP 巡检(Do):巡检 APP 支持问题快速记录、支持现场拍照、支持一

10、键上传巡检报告。按时发起巡检任务,包括每天定时巡检及每周定时巡检;发送短信或邮件进行提醒;巡检人用自己的账号登陆手机 App;获取当前巡检设备类型信息;根据设备类型信息,通过 DCIM 自动获取设备关键指标实时信息,跟设备面板显示示数做确认即可,对于一些重要设备状态或运行参数进行拍照,设备的巡检结果实时上传后台,后台会利 AI 技术自动比对分析,确认巡检结果是否合格。任务执行检查(Check):巡检执行情况及质量检查图 4 巡检任务总览模板及任务优化(Action):优化巡检模板或者调整巡检任务,如根据实际情况动态调整巡检频次,或对 UPS 巡检增加检查项等。自动风险闭环管理在传统模式下,风险

11、主要来自人工输入,数字运维风险识别除了通过监控系统发现、专家组织识别外,在运维活动中会自动识别风险,自动触发风险管理,如电子巡检中发现的不遵从项,可以直接产生一项风险(规则在巡检模板中定义),这样可以给运维团队带来最大的好处:运维安全依赖 DCIM 系统,而不像传统模式下完全取决于运维团队的技能和责任心。图 5 风险总览图 6 风险闭环流程故障预测性维护AI 在基础设施运维活动中有广阔的应用前景,特别是在设备故障预测方面,有效的样本数据结合人工经验能够快速训练出较高准确度的故障预测模型,通过对设备故障的预测,可以把例行的巡检、保养变成更有针对性的运维活动,随着预测准确率的不断提升,最终可以取消日常的人工运维。DCIMAI 训练平台模型导入声音 / 输出波形 /温升曲线训练采集器声音传感市电变压器配电谐波三相 / 铁芯温度环境温度三相电流 / 电压 / 功率 / 负载率负载输出波形音视频采集图 7如图 7 是一个典型的对供电链路进行AI 故障预

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论