




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
人工智能+智能运维平台解决方案大数据云平台——用人工智能点亮您的IT数据人工智能+智能运维平台解决方案全文共48页,当前为第1页。1.从人工到人工智能2.用人工智能点亮您的IT数据3.迈出AIOps的第一步目录Contents人工智能+智能运维平台解决方案全文共48页,当前为第2页。Part1从人工到人工智能人工智能+智能运维平台解决方案全文共48页,当前为第3页。当前运维和业务团队面临的困境不是没有数据,而是数据太多不是不想分析,而是无从下手人工智能+智能运维平台解决方案全文共48页,当前为第4页。人少、事多、责任大运维人员IT设备和数据过去:运维十到几十台设备IT运维现状运维人员IT设备和数据目前/未来:运维设备数量10倍-100倍增长人工智能+智能运维平台解决方案全文共48页,当前为第5页。IT运维现状基础架构:云化应用:微服务化双态数据中心:传统架构+互联网架构全新架构-系统复杂运维对象:网络、主机、OS、存储、中间件、各类业务应用数据多样化:日志、指标、告警、时间
…运维对象、数据激增依赖工程师技能经验跨部门运维,责任界定困难业务的支撑对排障时效性要求更高排障困难-排障周期长人工智能+智能运维平台解决方案全文共48页,当前为第6页。IT运维面临的挑战无法统一管理,快速查询无法满足企业合规需求查询难分析难对比难人员利用率低故障根源定位难成本高,效率低业务投诉多,系统风险高数据管理故障定位数据分析运维成本依赖专家手动运维人工智能+智能运维平台解决方案全文共48页,当前为第7页。从人工到人工智能挖掘海量数据的业务价值统一大数据分布式处理技术智能算法与机器学习业务系统将要发生什么?主动响应的预防预测性管理降低系统低效对业务的影响多种分散独立监控工具专业化专家型人才业务系统已经发生了什么?被动响应的故障恢复性管理人工运维AIOps人工智能+智能运维平台解决方案全文共48页,当前为第8页。什么是AIOpsAIOps,即基于人工智能的IT运维(ArtificialIntelligenceforITOperations),是由Gartner定义的IT运维管理新类别。AIOps将服务管理、性能监测、自动化结合在一起,以实现持续洞察和改进的目标,并由大数据和机器学习技术进行支撑。机器学习大数据平台AIOps商业价值监测(观察)服务管理(交互)自动化(行动)持续察洞持续洞察持续洞察From
Gartner’s
Report人工智能+智能运维平台解决方案全文共48页,当前为第9页。AIOps的四个核心能力AIOps对海量数据进行存储通过智能算法在数据提取时和存储后进行分析从不同的数据源中获取数据对海量数据进行高效访问人工智能+智能运维平台解决方案全文共48页,当前为第10页。AIOps的技术栈可视化机器学习算法分析计算大数据数据源事件日志监控工单任务全量,海量,多样性,复杂性IT数据集中统一管理,历史数据存储,实时数据存储数据建模,模式识别,趋势识别,故障隔离智能化选择,异常检测,异常定位,根因分析算法自我修改演进,新算法创建多维度,个性化,角色化,场景化展示数据清洗,去重,过滤,关联,生成新数据人工智能+智能运维平台解决方案全文共48页,当前为第11页。AIOps的核心价值故障发现故障规避故障止损故障修复异常检测异常定位根因分析异常预测人工智能+智能运维平台解决方案全文共48页,当前为第12页。AIOps将在5-10年内成为ITOM的主流技术From
Gartner’s
Report人工智能+智能运维平台解决方案全文共48页,当前为第13页。Part2用人工智能点亮您的IT数据人工智能+智能运维平台解决方案全文共48页,当前为第14页。OneAPM智能运维平台解决方案服务器数据存储数据网络数据应用数据用户体验数据流量数据日志数据交易数据任意IT数据OneAPMAIOps大数据实时多维分析机器学习大规模事务处理海量数据实时接入服务分析深度挖掘场景可视化多维指标告警数据建模人工智能+智能运维平台解决方案全文共48页,当前为第15页。OneAPM智能运维平台的五个能力层次发现接入存储整合梳理关联智能分析多维展示从哪里来到哪里去IT数据人工智能+智能运维平台解决方案全文共48页,当前为第16页。如何从IT数据中获得洞察?人工智能算法与分析篇人工智能+智能运维平台解决方案全文共48页,当前为第17页。结合领域知识的人工智能算法人工智能算法聚类、决策树、随机森林、卷积神经网络运维领域知识异常检测、多维分析、根因分析、故障预测行业运维经验金融、运营商、互联网、政府、大型企业AIOps人工智能+智能运维平台解决方案全文共48页,当前为第18页。OneAPM人工智能算法与分析平台基础数据层机器学习算法层RMDB事件指标日志工单作业监控MQNoSQLTSDBHDFSMPPDBARIMA卡尔曼时序数据分解Holt-Winters奇异谱变换(SST)DiDDBSCANPearson关联分析J-MeasureTwo-sample
testAprioriFP-Growth分类聚类决策树逻辑回归DNNCNNLSTM/RNNNLPAIOps算法层指标分布预测指标聚类KPI联动分析KPI事件关联日志事件序列提取日志事件模板提取技术能力层数据源异常标记单指标异常检测多指标异常检测关联分析故障拓扑图故障树根因分析调用链告警压缩单故障止损灰度版本止损配置优化成本分析容量规划资源调度发现问题定位问题解决问题其他应用层自适应异常检测多维异常问题定位故障根因分析异常预测人工智能+智能运维平台解决方案全文共48页,当前为第19页。什么是KPI异常检测KPI(KeyPerformanceIndicator):用于反映服务的健康程度。如:服务请求数、拒绝数、响应时间、流、订单等如:服务CPU、内存、络、磁盘等KPI异常行为:潜在的风险、故障、bugs、攻击......KPI异常检测:用于识别KPI时序曲线上的异常行为。及早发现风险,防止其发展为故障及时发现故障,进行止损、诊断和修复运维的重要基础人工智能+智能运维平台解决方案全文共48页,当前为第20页。OneAPM自适应KPI异常检测的特点普适性检测算法动态基带算法,适用更多不同特点曲线基于迁移算法学习,自动适配场景变化依据反馈,对算法和参数进行优选,减少人工干预对比14种常用检测算法,准确度排名第一算法自我容错场景动态适配异常精准检测人工智能+智能运维平台解决方案全文共48页,当前为第21页。OneAPM自适应KPI异常检测结果展示某大型互联网公司的KPI检测效果人工智能+智能运维平台解决方案全文共48页,当前为第22页。什么是多维分析关键指标属性1属性2……属性n交易时间、失败率、闪退率、销售额、订单数、PV、转化率、用户数、用户增速、留存率、投诉率......运营商、省份、城市、移动设备类型、软件版本号、移动端模块、浏览器版本、无线网络参数、服务器端模块、后台负载、用户年龄、用户性别......发现业务“关键指标KPI”瓶颈,为正确决策提供依据。例:“响应时间”在什么条件下会慢?人工智能+智能运维平台解决方案全文共48页,当前为第23页。OneAPM多维异常问题分析的特点自动识别瓶颈条件基于决策树分析,从大量多维度数据中,自动确定影响属性基于历史数据的AB测试,在历史数据中对比实验组和对照组的性能差别,预测可能的优化方案效果预测优化效果便捷的可视化系统,人员可对过程和结果进行核对,排除可能的干扰数据,重新分析,得到正确结果过程和结果可视化人工智能+智能运维平台解决方案全文共48页,当前为第24页。OneAPM多维异常问题分析结果展示人工智能+智能运维平台解决方案全文共48页,当前为第25页。IT数据梳理与关联篇人工智能+智能运维平台解决方案全文共48页,当前为第26页。通过数据模型(Data
Module)梳理IT数据CPU利用率%数据库服务错误数数据库服务请求数数据库平均响应时间数据库死锁率内存空闲率%存储空闲率%数据库连接池利用率%数据库服务健康指数JDBCSNMP数据库实例操作系统主机应用指标及阈值接口/协议依赖关系/拓扑数据模型Data
Module人工智能+智能运维平台解决方案全文共48页,当前为第27页。开箱即用的数据模型和自定义扩展应用服务器关系型数据库存储操作系统Web服务器虚拟化应用性能管理用户体验管理开箱即用扩展自定义新增指标及阈值新增接口/协议修改依赖关系/拓扑自定义指标及阈值自定义接口/协议自定义依赖关系/拓扑数据模型Data
Module人工智能+智能运维平台解决方案全文共48页,当前为第28页。深度挖掘多个指标对于服务质量的影响服务分析深度挖掘人工智能+智能运维平台解决方案全文共48页,当前为第29页。海量数据处理与存储篇人工智能+智能运维平台解决方案全文共48页,当前为第30页。海量IT数据处理的挑战数据规模高并发总量大种类多样格式各异毫秒级延时秒级处理响应逻辑复杂实效人工智能+智能运维平台解决方案全文共48页,当前为第31页。海量IT数据处理平台指标、交易、详情指标、事件历史大数据服务API网关搜索服务消息服务交易关联/拼接服务/异常检测服务等历史数据处理实时数据处理数据采集器数据采集器数据采集器指标、事件、日志、交易、详情、流量业务交易、指标、告警、详情时间序列实时数据服务指标、事件、日志、交易、详情、流量业务交易、指标、告警、详情数据接入数据处理数据存储AgentSNMPECHOIPMISDKFLOWLOG开发运维业务人工智能+智能运维平台解决方案全文共48页,当前为第32页。海量IT数据处理平台的能力OneAPMAIOps实时数据管理Streamingdatamanagement历史数据管理Historicaldatamanagement指标数据管理Metricdataingestion
文本数据管理Documenttextingestion
日志数据管理Logdataingestion流量数据管理Wiredataingestion通过NLP(自然语言处理)技术,对人类可读文档进行解析从网络上直接捕获的数据包,兼容多种网络协议任何软硬件设备生成的日志数据,并为访问分析建立索引对实时数据进行标准化和索引化,以时间尺度实时展示数据吸纳海量多样化历史数据,并进行索引和持久存储直接捕获和使用数值型数据,例如时间序列数据人工智能+智能运维平台解决方案全文共48页,当前为第33页。全栈IT数据发现与接入篇人工智能+智能运维平台解决方案全文共48页,当前为第34页。全栈IT数据的采集范围监控对象采集数据IT系统客户端数据库虚拟化
中间件SaaS传统架构业务层应用软件层基础设施层业务系统云架构硬件设备PaaSIaaS交易业务流程浏览器移动APP应用/微服务应用代码数据库服务中间件服务网络流量包日志虚拟化网络主机机房环境交易量交易金额交易成功率页面加载时间浏览器类型用户IP页面加载错误率CDN质量应用响应时间应用吞吐量应用错误率单个服务响应时间单个服务吞吐量单个服务错误率交易错误率交易处理时间……APP页面响应时间APP崩溃率APP网络请求时间APP
H5页面性能JVM内存利用率服务器时延SQL语句执行时间连接池数量缓冲区命中率告警……虚拟机数量主机数量CPU利用率内存利用率丢包率平均建链时间网络流量磁盘可用容量电源处理器配置项……业务逻辑IT资产库CMDB人工智能+智能运维平台解决方案全文共48页,当前为第35页。全栈IT数据的采集方式日志采集模拟拨测SDK/API字节码探针网络流量采集基础监控协议IT数据SNMP、IPMI、WMI、SMI-S、JMX、GlassFish、JDBC、SSH、Telnet等Java、.Net、PHP、Python、Ruby、Node.js、Andriod、iOS等Rsyslog、NXlog、Kafka、SDK、Restful
API等SFLOW、NETFLOW、IPFIX、SPAN、RSPAN、ERSPAN等StatsD、Web
Service、JSON等URL、Host、Port、HTTP、RTSP、RTMP等人工智能+智能运维平台解决方案全文共48页,当前为第36页。IT数据采集方式的选择采集方式适用场景基础监控协议IaaS、PaaS层,服务器、网络、存储、操作系统、中间件、数据库、应用进程,物联网传感器等网络及协议可达的IT资源状态和可用性指标数据采集网络流量采集提取网络包中携带的网络性能、用户体验、应用性能、交易等数据日志采集收集系统、应用、业务等日志,进行事件、告警、交易等任意可标识信息的采集分析字节码探针浏览器、移动APP用户体验数据采集,探针兼容的(Java、.Net、PHP等解释型语言开发)应用系统的代码性能数据采集,应用调用链路追踪数据采集模拟拨测通过定时任务模拟用户访问和系统调用,主动探测应用服务的可用性指标采集SDK/API可根据数据采集(任意数据、任意格式)需要,在应用开发过程中调用SDK和接口采集数据人工智能+智能运维平台解决方案全文共48页,当前为第37页。与已有ITOM工具的对接JDBC,SNMP
TRAP,Web
Service,……OneAPMAIOps人工智能+智能运维平台解决方案全文共48页,当前为第38页。如何从IT数据中获得洞察?多维数据场景展示篇人工智能+智能运维平台解决方案全文共48页,当前为第39页。面向场景的多维数据分析和可视化场景化和可视化封装什么人什么时间什么问题如何处理人工智能+智能运维平台解决方案全文共48页,当前为第40页。面向不同场景的多维仪表盘人工智能+智能运维平台解决方案全文共48页,当前为第41页。面向不同场景的多维指标告警人工智能+智能运维平台解决方案全文共48页,当前为第42页。面向不同人员的场景可视化示例人工智能+智能运维平台解决方案全文共48页,当前为第43页。OneAPM智能运维平台解决方案的特点10亿+条事件分析,单服务器处理时间小于10秒快85%数据存储压缩比,每秒处理十万条记录,仅需一台4核普通配置虚拟机低多指标联动分析,针对不同人员的场景可视化展现炫全栈、全量数据采集,覆盖所有IT数据全无需外部专用数据库,数据存储没有时间限制无TCO,行业中最低总体拥有成本廉10分钟辅助根因分析,提升排障效率准自研大数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2找春天(教学设计)-2024-2025学年语文二年级下册统编版
- Starter Module 4Unit 3教学设计-2023-2024学年外研版七年级英语上册
- 8 灯光 教学设计 -2024-2025学年语文六年级上册(统编版)
- 九年级体育 走 基本体操教学设计1
- 《五 变废为宝》(教学设计)-2023-2024学年三年级上册综合实践活动粤教版
- 4《试种一粒籽》第一课时 教学设计-2023-2024学年道德与法治二年级下册统编版
- 2017-2018学年北师大版七年级生物下册12.3 激素调节 教学设计
- 2023八年级物理下册 第八章 力与运动第1节 牛顿第一定律 惯性第1课时 牛顿第一定律教学设计 (新版)教科版
- 22《读不完的大书》第一课时 教学设计-2024-2025学年语文三年级上册统编版
- 供水特许经营权协议书5篇
- 财产保险实务-教案项目1、2走进财产保险、企业财产保险
- 外科学教学课件:结、直肠与肛管疾病
- 2022年广东高考政治真题及答案
- 化学动力学基础(二)课件
- 工会维护劳动领域政治安全10项长效机制
- IATF16949-过程审核检查表-(含审核记录)-
- 10KV供配电系统设计答辩
- 陕西省二级以上医院信息
- 实验室安全检查记录表
- 环境信息系统的GIS基础 01讲 GIS导论
- DCS集散型控制系统安装调试施工方案
评论
0/150
提交评论