2023信息技术 云计算 云操作系统智能运维技术要求_第1页
2023信息技术 云计算 云操作系统智能运维技术要求_第2页
2023信息技术 云计算 云操作系统智能运维技术要求_第3页
2023信息技术 云计算 云操作系统智能运维技术要求_第4页
2023信息技术 云计算 云操作系统智能运维技术要求_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

信息技术云计算云操作系统智能运维技术要求IIII11目 次前 言 III1范围 12规范性引用文件 13术语和定义 14云操作系统智能运维概述 1云操作系统智能运维框架 2云操作系统智能运维流程 2云操作系统智能运维团队 35智能运维技术要求 35.1监控管理 35.2告警管理 35.3日志管理 35.4配置管理 45.5健康巡检 45.6根因分析 45.7动态阈值检测 45.8趋势预测 45.9智能决策 55.10故障预测 55.11故障诊断 55.12故障自愈 5信息技术云计算云操作系统智能运维技术要求范围日志管理、配置管理、健康巡检、根因分析、无阈值检测、趋势预测等内容。本文件适用于云服务提供者建立云操作系统智能运维体系和云服务客户评价云操作系统的智能运维能力。规范性引用文件(包括所有的修改单适用于本文件。GB/T32400-2015 术语和定义GB/T32400-2015界定的术语和定义适用于本文件3.1云操作系统cloudoperatingsystems云操作系统是构架于计算、存储和网络等物理资源之上,对其资源使用虚拟化技术进行资源抽象,并对物理资源和虚拟化资源进行统一调度和运维的基础软件。3.2智能运维intelligentoperationsandmaintenance型运维方式。云操作系统智能运维概述式检查及基于AI的方法解决甚至自动执行。233云操作系统智能运维框架要包括物理机、虚拟/图1云操作系统智能运维框架云操作系统智能运维流程云操作系统智能运维的线上应用一般分为模型训练和在线处理两个流程。模型训练针对历史///模型训练,生成检测模型、预测模型、故障模型等模型。在线处理过程针对线上实时数据通过阈值/断等过程,最后完成通知告警、故障自愈、优化建议等操作。图2云操作系统智能运维流程云操作系统智能运维团队IT开发工程师工程师,以下介绍三种角色分工:运维专家,具有丰富的运维领域知识和运维难题的解决能力。负责提供运维场景的特征,标准化不同场景下的运维工作,对复杂的运维问题给出最终决策;人工智能IT用机器学习知识构建智能运维模型并对模型进行不断优化,并提供实施建议;将算法模型集成到线上系统等。智能运维技术要求监控管理智能能力从海量监控数据中发现问题。云操作系统智能运维的监控管理能力要求应包括:支持主机资源的状态监控和性能监控,包括CPU、存储、网络、内存等;支持虚拟机的状态监控和性能监控,包括CPU、存储、网络、内存等;支持容器的状态监控和性能监控,包括CPU、存储、网络、内存等;支持实时监控数据的查看,支持历史监控数据的查询;支持监控数据的图形化展示和统计分析;支持监控数据的大屏展示,可显示平台整体信息;提供实时与离线数据处理与清洗;支持数据接入、清洗与计算的任务化管理,如任务配置、任务调度、任务监控等;支持多类型数据存储,包括且不限于结构化/类数据存储、图数据存储等;告警管理支持告警项的告警规则设置;支持告警阈值展示,宜支持通过页面进行设置;支持三种以上的告警级别划分,如中度、严重、紧急等;支持告警事件列表的展示,可查询到当前和历史的活动告警;支持已产生告警的确认操作,应支持告警的关闭设置;支持单个资源级别的通知设置,可针对不同的资源设置通知方式和联系人;支持告警通知,包括界面、邮件、短信等。日志管理55位异常日志。云操作系统智能运维的日志管理能力要求应包括:支持系统日志、模块日志等运行日志的采集和集中索引;支持用户操作日志的采集,可按用户名、操作类型等筛选展示;支持通过关键词检索相关日志;支持以文件形式导出日志。支持分布式存储;支持数据查询功能(如按时间维度、对象、实例、关键字等)配置管理云操作系统智能运维的配置管理能力应支持可视化配置,如CPU超分配置、超时策略、数据备份与恢复的配置等。健康巡检能机型全面检查,的到平台的整天健康状况。云操作系统智能运维的健康巡检能力要求应包括:支持资源状态和性能的一键巡检,支持导出巡检报告;支持服务状态的一键巡检,支持导出巡检报告。根因分析根因分析是指将当前条件与过去采集到的结构化/非结构化数据模式进行匹配的复杂分析方法,根因分析的目标是尝试定位一个系统错误的问题根源。云操作系统智能运维的根因分析能力要求包括:应支持运行时状态因果关系构建;宜支持基于谱分析和图搜索的细粒度根因定位。动态阈值检测态阈值检测能力要求包括:无监控模型;测等;应支持文本的异常检测,应支持基于正则的文本内容异常检测;宜支持基于文本条数的无监督检测,可检测出日志暴增等异常;应支持检测非周期性指标(如CPU,DISKIO等)突增,突降等异常行为;/删除模型等;趋势预测趋势预测是通过对IT云操作系统智能运维的趋势预测能力要求应包括:支持基于多种算法的资源使用预测,可包括arima、stl、holt-winters等;支持基于多种算法的容量的预测,可显示多久后可达到使用阈值;支持基于多种算法的性能指标预测;支持对指标数据的周期性、趋势性、增长性、节假日等特性异常的识别;支持无需经过长时间历史数据积累的数据异常检测;智能决策层提供决策建议。云操作系统智能运维的智能决策能力要求宜包括:支持根据不同的策略(使用率、定时、智能预测)实现卷容量的自动扩容;支持调度配置,可基于告警、事件等触发的相应调度。故障预测能运维的故障预测能力要求包括:应支持基于SMAART数据的磁盘故障预测,可提前2周预测磁盘故障;宜支持基于算法的网络故障预测,可提前预测网络故障。CPU、内存使用率等;应提供预警规则配置,实现故障预警(如固定阈值的预警,基于预测结果的规则预警等;故障诊断故障诊断指通过对系统故障现场数据(工单数据等运行数据应支持基于人工故障库的故障诊断;宜支持基于关联关系的根因告警分析,包括频率算法、举例算法等;宜支持告警收敛规则自学习;宜支持多维度告警收敛模型的挖掘;关系,推荐引起异常根因的指标、维度组合;应支持产生多个可能

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论