




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Cloudwiz智能化 IT运维分析平台云兴维智AIOPS PLATFORM第1页01企业介绍第2页企业介绍云兴维智(北京)科技有限企业是一家高科技软件企业,致力于为企业数据中心和在线系统提供新一代高智能运维服务软件。企业研发设计高性能,高可靠性,高适用性,可大规模运行数据系统,并在此基础上引入数据分析和人工智能以提供市场上领先自动运维功效和处理方案。企业是由数位长久在美国硅谷一线互联网高科技企业工作海归技术教授和在中国著名高科技企业从事市场销售高管合作创建。当前在美国和中国北京都设有企业。第3页团体介绍Cloudwiz教授团体创始团体有多年微软、Twitter、亚马逊、eBay著名互联网企业
2、里建造和运维大数据系统经验,累计超出50年从业经验,负责超出60万台服务器节点设计和运维工作。关键业务 运维大数据平台,让客户能够高效、智能和自动运维 IT 服务器和应用。致力于故障定位时间缩短90%, down机时间降低80%,节约成本50%以上技术应用 关键技术已应用于中国铁路集团总企业、国家电网及众多互联网企业融资 取得国内一线投资机构如联想投资。第4页现有客户国家电网上汽集团思百吉集团第5页02IT运维现实状况与挑战第6页背景介绍在线企业和云服务商运维故障噩梦: 冰山一角信誉声誉收益10月22日、26日、30日,AWS谷歌 App Engine,苹果 iCloud先后出现故障11月18
3、日微软Azure 11小时故障 年 5 月, 6 月支付宝阿里云先后出现故障年2月28日 亚马逊S3 5个小时故障6月工商银行大面积瘫痪 1 小时 年 5 月 28 日携程旅行网 12 小时系统瘫痪年1月19日 推特 10个小时故障, 损失7%市值=10亿美金第7页领域发展IT系统运维发展历程:简单运维工具/APM成为过去,智能运维引领未来当前大部分企业运维状态AIOps (Algorithmic IT Operations)把机器学习、人工智能应用在运维领域ITILIT运维管理网管AIOps智能运维应用业务运维监控未来企业运维状态第8页人少、事多、责任大运维人员IT设备和数据 过去:运维十到
4、几十台设备IT运维现实状况运维人员IT设备和数据当前/未来:运维设备数量10倍100倍增加第9页IT运维现实状况基础架构:云化应用: 微服务化双态数据中心:传统架构+互联网架构全新架构-系统复杂运维对象:网络、主机、OS、存放、中间件、各类业务应用数据多样化:日志、指标、告警、时间 运维对象、数据激增依赖工程师技能经验跨部门运维,责任界定困难业务支撑对排障时效性要求更高排障困难-排障周期长第10页IT 运维面临挑战 无法统一管理,快速查询 无法满足企业合规需求 查询难 分析难 对比难 人员利用率低 故障根源定位难 成本高,效率低 业务投诉多,系统风险高数据管理故障定位数据分析运维成本依赖教授手
5、动运维第11页03Cloudwiz 智能运维大数据平台第12页产品定位网络系统:NPM客户端用户体验:APM SDK私有云,企业数据中心数据采集移动App网银客户端客户端手机银行客户端电商网站公共网络动力环境系统动环数据日志数据业务数据流程数据网络数据关键业务系统:日志服务客户端 关键信贷支付结算网银ITIL/ITOM可视化展现后台配置管理智能运维管理平台标准数据接口智能分析监控预警数据采集、管理操作系统数据库、中间件应用业务系统ITIL/ITOMCloudwiz:服务器端运维数据、智能分析、监控、管理第13页问题处理优化数据管理自动化数据分析快速故障定位运维提升业务后盾故障自动恢复推荐处理方
6、案第14页问题处理 宕机 重大故障,系统不可用 系统性能大幅下降快速定位故障快速发觉问题根源和处理方案排障定位自动检测系统评测 自动发觉异常和隐患 梳理不合理系统配置和架构安全隐患:端口攻击,DDOS自动异常检测,架构梳理 健康指数 拓扑总览KPI指标评测系统整体态势评测故障快速定位排除,防患于未然第15页标准化产品功效对报警及异常事件,主动利用模式识别找出关联指标和事件,快速定位问题。整合日志分析进行诊疗。对日志进行聚类,对比和规律挖掘,突出有问题日志。提供专业运维知识库。自反馈学习进行故障根源定位。实时分析诊疗教授汇报智能发觉问题分析数据时域频域,找出历史规律,自动发觉异常。全方面覆盖全部
7、数据,无需设定固定阈值。长久分析诊疗资源预测、容量规划:消耗趋势,规划资源,提供采购计划指标聚类分析,帮助运维人员熟悉系统特征。提供教授汇报,优化系统、配置、架构,提升性能,发觉隐患教授处理方案教授现场或远程视频咨询,定制贴身服务专业团体代客运维全方位数据整合整合网络、服务器、操作系统、数据库、中间件、业务应用指标、日志、事件。整合APM、NPM、BSM厂商和产品数据。第16页支持常见服务系统清单编号种类编号种类1系统2数据库1.1Windows Server2.1Oracle1.2Linux 2.2Db21.3Aix2.3Sql server1.4Hp unix2.4mysql1.5Dock
8、er2.5postgresql1.6JVM, GC2.6MongoDB2.7Redis2.8memcached3大数据平台4中间件3.1Hadoop4.1Websphere3.2Hbase4.2Weblogic3.3Hive4.3Tuxedo3.4Spark4.4Apache3.5Storm4.5Tomcat3.6Kafka4.6Jboss3.7Flume4.7NGINX3.8Zookeeper4.8IIS3.9Elasticsearch4.9Rabbit-MQ5应用服务4.10Exchange Server5.1其它专门数据搜集和监控能力: 1、进程运行状态 2、服务及端口响应 3、各类日志
9、搜集 4、各类运维事件:布署、配置、改变 5、任何新或定制服务:产品采取插件定制模式,快速定制,2-5天第17页产品价值专业人做专业事大幅提升运维效率,一样预算创造更多业绩运维经验和技术积累在我系统里,不怕牛人跑,不怕新人不上手低成本取得国际先进运维水平降低故障发生,增加营收运维不成为企业业务和产品迭代瓶颈对企业价值对CTO/运维总监价值第18页总体功效数据整合全方面管理性能监控数据业务数据日志数据网络数据机器学习智能分析异常自动检测关联分析故障诊疗拓扑结构和配置KPI提取和整体健康评判处理方案故障排除方案推荐系统自动恢复容量分析预测安全布署流程基于Hadoop大数据平台及数据服务运维知识库及
10、自反馈学习全方位监控 智能分析排障 优化处理方案 最好用运维工具第19页多维度运维数据整合关联系统、应用指标日志,业务文件事件智能运维处理分析系统第20页智能处理方案 自动发觉异常当代IT系统指标众多,运维人员难以及时在其中发觉问题隐患当代IT系统结构复杂,运维人员难以准确推测出关键指标走势和正常范围问题和痛点处理方案利用大数据算法分析指标历史数据,计算数据正常范围和预测趋势机器自动标注异常点,能够灵活设置报警用户标注和自反馈算法提炼更精准算法模型第21页智能处理方案 快速故障定位定位问题:指标关联算法定位问题于某个服务和节点分析问题:日志关联整合、聚类、对比分析获取更多信息,发觉故障根源处理
11、问题:不停完善和获取反馈知识库提供处理方案推荐第22页智能处理方案 容量分析和预测展现资源使用现实状况算法自动计算和预测未来不一样时间点资源使用情况为企业提前规划采购计划存放空间、内存、CPU消耗现实状况及预测第23页智能处理方案 专业支持,教授汇报和方案汇聚海内外云计算、互联网教授,从业十多年,曾就职于著名互联网企业,硅谷和海归回国。一流专业服务,提供现场或电话咨询,实时支撑客户各项技术需求。提供教授汇报,优化IT云架构系统、服务配置、提升性能。提供最新稳定版本推荐,提供各大数据服务间匹配版本规范。第24页总体架构模块化设计,标准数据读写接口,利于整合、融入生态系统展现层业务逻辑层数据存放数
12、据处理层数据采集层总览综合展现数据处理中间件探针操作系统应用服务器(Tomcat,Weblogic)中间件(Redis, Mysql)热数据缓存业务数据业务探针网络网络系统探针CPUJVM硬件环境及系统监控I/O磁盘内存值班管理处置流程运维管理事件管理配置管理应用健康健康评判资源计划时序型数据库智能分析运维服务故障分析朔源自动问题检测标准数据接口时序型数据库分布式海量存放系统日志挖掘运维知识库运维管理门户三方数据源ITSM其它分应用展现日志搜集器标准数据接口第25页探针架构运行环境(Execution Runtime)Agent 平台主程序MainLoopFileWatcherSender T
13、hreadRead/Write QueueCollector ThreadParserUAgent升级配置Process WatcherMysql collectorWeblogic CollectorHBase CollectorInit.dBuildDeployBatch Deploy第26页04Cloudwiz 部分功效展示第27页 统一监控 总览(高管驾驶舱)快速判断系统健康,关键信息一览无遗第28页统一监控 由粗到细系统服务机器进程第29页统一监控 由粗到细系统服务机器进程第30页统一监控 由粗到细第31页统一监控 指标监控(各种服务,各种指标)第32页统一监控 日志监控(全文搜索)
14、第33页智能报警 全方面,灵活 第34页智能分析 故障溯源(学习故障历史反馈,直接溯源根因) 第35页智能分析 关联分析(关联指标,事件,日志) 第36页智能分析 日志分析(日志聚类,日志对比) 第37页智能分析 运维知识库(专业知识传承共享) 第38页05Cloudwiz 案例第39页电网大数据平台各种服务及系统案例:国家电网大数据平台HBaseHiveHadoopTomcatZookeeperStormSparkMySQLCentOSKafkaFlume第40页案例:国家电网大数据平台客户HBase每过3-4天全方面死机,只能重启,严重影响业务挖掘日志,发觉死机前HBase节点出现长时间停
15、顿,被zookeeper服务器误诊为此节点死亡匹配知识库,找出原因为HBase节点进行内存Swap,而更深层次原因为服务器时钟漂移提出处理方案供客户选择客户采纳提议进行实施,彻底排除故障目标一:为国家电网智能电网战略提供不间断、稳定大数据计算平台问题和挑战:主要存放服务HBase 每隔几天会出现宕机,因为宕机经常发生在午夜,运维人员不能及时得到报警,造成大数据平台长达数小时停运,直接影响平台上运行分析工作。因为不能排查问题根源,此问题不停发生。处理:指标、日志整合分析查找故障根源,知识库推荐处理方案。问题完全处理。配置报警规则,及时发觉问题。第41页服务器上CPU使用率被自动探测出有异常升高,
16、如红点所表示,cpu.usr在22:00 - 00:00和9:00左右25%,而平时普通在8%。需要找出原因。案例:国家电网大数据平台目标二:在运维国家电网大数据计算平台过程中,及时发觉、查找并处理可能造成重大问题误操作、误配置等运维问题。问题和挑战:怎样及时发觉问题并在短时间内发觉根源,对任何运维团体都是一个极大挑战。处理:指标智能关联分析能够辅助运维人员快速查找故障根源第42页Cloudwiz 系统自动查找和匹配出相关联指标,提供故障根源推断案例:国家电网大数据平台目标二:运维国家电网大数据计算平台过程中及时发觉、查找并处理可能造成重大问题误操作、误配置等运维问题。问题和挑战:怎样及时发觉
17、问题并在短时间内发觉根源,对任何运维团体都是一个极大挑战。处理:指标智能关联分析能够辅助运维人员快速查找故障根源第43页选择hbase.regionserver.server.writeRequestCount对比cpu.usr。两条曲线非常吻合。说明cpu升高是因为hbasewrite数量增加引发。客户马上意识到最近一个修改造成写操作会增加。经过修改以后,cpu正常下来。案例:国家电网大数据平台目标二:运维国家电网大数据计算平台过程中及时发觉、查找并处理可能造成重大问题误操作、误配置等运维问题。问题和挑战:怎样及时发觉问题并在短时间内发觉根源,对任何运维团体都是一个极大挑战。处理:指标智能关
18、联分析能够辅助运维人员快速查找故障根源。第44页上图是可用磁盘空间实时数据。下列图是统计趋势线。依据趋势,当前可用磁盘空间49GB在62天后用完。用户能够及时安排应急方案和设备采购计划案例:国家电网大数据平台目标三:有效地进行国家电网大数据计算平台日常运维工作,优化架构,及时升级到最新且稳定版本以排出已知问题。问题和挑战:对运维团体技术要求很高,普通团体较难在短时间内到达,致使运维面临瓶颈处理:Cloudwiz 教授团体能够与客户专业团体协同工作,帮助客户技术团体快速成长,或者完全接手客户运维工作。教授汇报提供专门针对客户系统贴身诊疗和优化技术汇报。第45页案例:国家电网大数据平台大数据系统不
19、一样服务最正确版本和版本间依赖性推荐、演进方案目标三:有效地进行国家电网大数据计算平台日常运维工作,优化架构,及时升级到最新且稳定版本以排出已知问题。问题和挑战:对运维团体技术要求很高,普通团体较难在短时间内到达,致使运维面临瓶颈处理:Cloudwiz 教授团体能够与客户专业团体协同工作,帮助客户技术团体快速成长,或者完全接手客户运维工作。教授汇报提供专门针对客户系统贴身诊疗和优化技术汇报。第46页案例:国家电网大数据平台教授汇报优化系统、配置、架构,提升性能目标三:有效地进行国家电网大数据计算平台日常运维工作,优化架构,及时升级到最新且稳定版本以排出已知问题。问题和挑战:对运维团体技术要求很
20、高,普通团体较难在短时间内到达,致使运维面临瓶颈处理:Cloudwiz 教授团体能够与客户专业团体协同工作,帮助客户技术团体快速成长,或者完全接手客户运维工作。教授汇报提供专门针对客户系统贴身诊疗和优化技术汇报。第47页案例:中国铁路集团总企业应用系统测试应用系统:售后管理系统(到站)、售后管理系统(上门)安装布署:生产环境使用产品:大数据平台、应用健康分析目标系统概况第48页案例:中国铁路集团总企业应用系统目标一:提供整体应用系统运维监控。对整个应用系统从上到下(应用,中间件,系统)运行状态进行实时可视化监控, 帮助运维人员对整个系统一目了然。问题和挑战:应用系统服务种类多,运维数据起源多,
21、包含各系统吐出来指标、日志、业务文本文件等。内部团体担负日常运维工作,没有余力进行研发。处理:Cloudwiz 专长于对服务器端各指标、日志及业务数据进行搜集、展现、整合和关联分析,进行快速交付。1. 性能监控数据:系统参数监控第49页案例:中国铁路集团总企业应用系统目标一:提供整体应用系统运维监控。对整个应用系统从上到下(应用,中间件,系统)运行状态进行实时可视化监控, 帮助运维人员对整个系统一目了然。问题和挑战:应用系统服务种类多,运维数据起源多,包含各系统吐出来指标、日志、业务文本文件等。内部团体担负日常运维工作,没有余力进行研发。处理:Cloudwiz 专长于对服务器端各指标、日志及业
22、务数据进行搜集、展现、整合和关联分析,进行快速交付。2. 采集业务数据业务数据文件: 统计文件上传状态,进行解析$ cat /viz/oneAPM_data/Log/fcheck_-09-08.txt 0:01 -Wait 文件0 ,06 文件1, TCP 连接32. 0:02 -Wait 文件0 ,06 文件0, TCP 连接5.正在上传文件数量等候上传文件数量TCP链接数量业务数据文件解析展示: 统计文件上传状态第50页案例:中国铁路集团总企业应用系统目标一:提供整体应用系统运维监控。对整个应用系统从上到下(应用,中间件,系统)运行状态进行实时可视化监控, 帮助运维人员对整个系统一目了然。
23、问题和挑战:应用系统服务种类多,运维数据起源多,包含各系统吐出来指标、日志、业务文本文件等。内部团体担负日常运维工作,没有余力进行研发。处理:Cloudwiz 专长于对服务器端各指标、日志及业务数据进行搜集、展现、整合和关联分析,进行快速交付。3、转化日志数据:解析格式化日志文件,提取监控指标 dell_server_1# tail -f access.log82 - - 07/Sep/:09:46:00 +0800 GET /dell/codebase/jq1.7/jquery-1.7.2.js HTTP/1.1 304 0 83 - - 07/Sep/:09:46:00 +0800 GET
24、 /dell/wxzy/wxd.jsp?orderno=80906808312 HTTP/1.1 200 083 - - 07/Sep/:09:27:59 +0800 POST /dell/input_serviceaction HTTP/1.1 301 0 访问客户IP访问时间访问类型访问结果转化日志数据展示:第51页案例:中国铁路集团总企业应用系统目标二:提升运维效率,帮助运维人员发觉指标规律并进行异常提前预警。问题和挑战:数据种类多,数据量大,运维人员难以手工完成上述任务。处理:Cloudwiz主动智能运维功效,自动利用历史数据进行数据挖掘, 发觉规律并预测系统运行指标, 提前发觉异常问
25、题并报警。基于大数据分析异常自动检测报警问题发觉:业务文件上传出现堵塞这个点比平时这个时刻值高出很多,表示这个时刻文件上传数比平时高这两个点比规律值低出很多,表示这个时刻文件上传数比平时低第52页案例:中国铁路集团总企业应用系统目标二:提升运维效率,帮助运维人员发觉指标规律并进行异常提前预警。问题和挑战:数据种类多,数据量大,运维人员难以手工完成上述任务。处理:Cloudwiz主动智能运维功效,自动利用历史数据进行数据挖掘, 发觉规律并预测系统运行指标, 提前发觉异常问题并报警。问题发觉:服务器负载不均衡,外部服务访问在不一样服务器节点上不均衡第53页案例:中国铁路集团总企业应用系统目标二:提升运维效率,帮助运维人员发觉指标规律并进行异常提前预警。问题和挑战
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2023年金融理财工作报告
- 2024年盐源县县属国有企业招聘真题
- 工程模板租赁合同范本
- 2024年南阳市市属事业单位考试真题
- 2024年辽宁省省属事业单位考试真题
- 2024年河南省驻马店财经学校招聘真题
- 2024年广安市华蓥市人民医院招聘真题
- 杨梅山抵押合同范本
- 离婚协议正版用几号字体的(2025年版)
- 工地监控定购合同范本
- 人工智能技术与知识产权保护
- 2025-2030便利店行业市场发展现状及发展前景与投资研究报告
- 信息技术与小学教育教学融合
- 产品设计研发费用统计表
- 提高教学管理质量校长讲话:“2574”工作实施思路!即两大抓手五项重点任务七个落实环节四个质量目标
- 2025届广东省深圳市高三年级第一次调研考试历史试题
- 清理报废渔船合同范本
- 《基于西门子S7-1200PLC的四层电梯控制系统设计》8900字
- 生产安全事故应急演练评估报告模版
- 退伍军人心理培训课件
- 政治-湖南省长郡二十校联盟2025届新高考教学教研联盟高三第一次联考(长郡二十校一联)试题和答案
评论
0/150
提交评论