Cloudwiz智能运维产品介(技术)_第1页
Cloudwiz智能运维产品介(技术)_第2页
Cloudwiz智能运维产品介(技术)_第3页
Cloudwiz智能运维产品介(技术)_第4页
Cloudwiz智能运维产品介(技术)_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Cloudwiz智能化IT运维分析平台云兴维智AIOPS

PLATFORM01公司介绍公司介绍云兴维智(北京)科技有限公司是一家高科技软件公司,致力于为企业数据中心和在线系统提供新一代高智能运维服务软件。公司研发设计高性能,高可靠性,高适用性,可大规模运行的数据系统,并在此基础上引入数据分析和人工智能以提供市场上领先的自动运维功能和解决方案。公司是由数位长期在美国硅谷一线互联网高科技公司工作的海归技术专家和在中国的知名的高科技企业从事市场销售的高管合作创立。目前在美国和中国北京都设有公司。团队介绍Cloudwiz专家团队创始团队有多年微软、Twitter、亚马逊、eBay知名互联网公司里建造和运维大数据系统的经验,合计超过50年的从业经验,负责超过60万台服务器节点的设计和运维工作。核心业务运维大数据平台,让客户能够高效、智能和自动运维IT服务器和应用。致力于故障定位时间缩短90%,down机时间减少80%,节省成本50%以上技术应用核心技术已应用于中国铁路集团总公司、国家电网及众多的互联网公司融资获得国内一线投资机构如联想的投资。现有客户国家电网上汽集团思百吉集团02IT运维的现状与挑战背景介绍在线企业和云服务商的运维故障噩梦:冰山一角信誉声誉收益2010年10月22日、26日、30日,AWS谷歌AppEngine,苹果iCloud先后出现故障2014年11月18日微软Azure11小时故障2015年5月,6月支付宝阿里云先后出现故障2017年2月28日亚马逊S35个小时故障2013年6月工商银行大面积瘫痪1小时2015年5月28日携程旅行网12小时的系统瘫痪2016年1月19日推特10个小时故障,损失7%市值=10亿美金领域发展IT系统运维发展历程:简单的运维工具/APM成为过去,智能运维引领未来目前大部分企业运维状态AIOps(AlgorithmicITOperations)把机器学习、人工智能应用在运维领域ITILIT运维管理网管AIOps智能运维应用业务运维监控未来企业运维状态人少、事多、责任大运维人员IT设备和数据过去:运维十到几十台设备IT运维现状运维人员IT设备和数据目前/未来:运维设备数量10倍-100倍增长IT运维现状基础架构:云化应用:微服务化双态数据中心:传统架构+互联网架构全新架构-系统复杂运维对象:网络、主机、OS、存储、中间件、各类业务应用数据多样化:日志、指标、告警、时间

…运维对象、数据激增依赖工程师技能经验跨部门运维,责任界定困难业务的支撑对排障时效性要求更高排障困难-排障周期长IT运维面临的挑战无法统一管理,快速查询无法满足企业合规需求查询难分析难对比难人员利用率低故障根源定位难成本高,效率低业务投诉多,系统风险高数据管理故障定位数据分析运维成本依赖专家手动运维03Cloudwiz智能运维大数据平台产品定位网络系统:NPM客户端用户体验:APMSDK私有云,企业数据中心数据采集移动App网银客户端客户端手机银行客户端电商网站公共网络动力环境系统动环数据日志数据业务数据流程数据网络数据关键业务系统:日志服务客户端核心信贷支付结算网银……ITIL/ITOM可视化展现后台配置管理智能运维管理平台标准数据接口智能分析监控预警数据采集、管理操作系统数据库、中间件应用业务系统ITIL/ITOMCloudwiz:服务器端运维数据、智能分析、监控、管理问题解决优化数据管理自动化数据分析快速故障定位运维提升业务后盾故障自动恢复推荐解决方案问题解决-宕机

-重大故障,系统不可用-系统性能大幅下降快速定位故障快速发现问题根源和解决方案排障定位自动检测系统评测-

自动发现异常和隐患-梳理不合理系统配置和架构-安全隐患:端口攻击,DDOS自动异常检测,架构梳理-

健康指数-拓扑总览-KPI指标评测系统整体态势评测故障快速定位排除,防患于未然标准化产品功能对报警及异常事件,主动利用模式识别找出关联指标和事件,快速定位问题。整合日志分析进行诊断。对日志进行聚类,对比和规律挖掘,突出有问题的日志。提供专业运维知识库。自反馈学习进行故障根源定位。实时分析诊断专家报告智能发现问题分析数据的时域频域,找出历史规律,自动发现异常。全面覆盖所有数据,无需设定固定阈值。长期分析诊断资源预测、容量规划:消耗趋势,规划资源,提供采购计划指标聚类分析,帮助运维人员熟悉系统特性。提供专家报告,优化系统、配置、架构,提升性能,发现隐患专家解决方案专家现场或远程视频咨询,定制贴身服务专业团队代客运维全方位数据整合整合网络、服务器、操作系统、数据库、中间件、业务应用的指标、日志、事件。整合APM、NPM、BSM厂商和产品的数据。支持的常见服务的系统清单编号种类编号种类1系统2数据库1.1WindowsServer2.1Oracle1.2Linux2.2Db21.3Aix2.3Sqlserver1.4Hpunix2.4mysql1.5Docker2.5postgresql1.6

JVM,GC2.6MongoDB

2.7Redis

2.8memcached3大数据平台4中间件3.1Hadoop4.1Websphere3.2Hbase4.2Weblogic3.3Hive4.3Tuxedo3.4Spark4.4Apache3.5Storm4.5Tomcat3.6Kafka4.6Jboss3.7Flume4.7NGINX3.8Zookeeper4.8IIS3.9Elasticsearch4.9Rabbit-MQ5应用服务4.10ExchangeServer5.1……

其他专门的数据收集和监控能力:

1、进程运行状态

2、服务及端口响应

3、各类日志收集

4、各类运维事件:部署、配置、变化

5、任何新的或定制服务:产品采用插件定制模式,快速定制,2-5天产品价值专业的人做专业的事大幅提高运维效率,同样的预算创造更多业绩运维经验和技术积累在我系统里,不怕牛人跑,不怕新人不上手低成本获得国际先进的运维水平减少故障发生,增加营收运维不成为公司业务和产品迭代的瓶颈对公司的价值对CTO/运维总监

的价值总体功能数据整合全面管理性能监控数据业务数据日志数据网络数据机器学习智能分析异常自动检测关联分析故障诊断拓扑结构和配置KPI提取和整体健康评判解决方案故障排除方案推荐系统自动恢复容量分析预测安全部署流程基于Hadoop的大数据平台及数据服务运维知识库及自反馈学习全方位监控+智能分析排障+优化解决方案=最好用的运维工具多维度运维数据整合关联系统、应用指标日志,业务文件事件智能运维处理分析系统智能解决方案–自动发现异常现代IT系统指标众多,运维人员难以及时在其中发现问题隐患现代IT系统结构复杂,运维人员难以准确推测出关键指标的走势和正常范围问题和痛点解决方案利用大数据算法分析指标历史数据,计算数据正常范围和预测趋势机器自动标注异常点,可以灵活设置报警用户标注和自反馈算法提炼更精准的算法模型智能解决方案–快速故障定位定位问题:指标关联算法定位问题于某个服务和节点分析问题:日志关联整合、聚类、对比分析获取更多信息,发现故障根源解决问题:不断完善和获取反馈的知识库提供解决方案推荐智能解决方案–容量分析和预测展现资源使用现状算法自动计算和预测未来不同时间点的资源使用情况为企业提前规划采购计划存储空间、内存、CPU的消耗现状及预测智能解决方案–专业的支持,专家报告和方案汇聚海内外云计算、互联网专家,从业十数年,曾就职于著名互联网公司,硅谷和海归回国。一流的专业服务,提供现场或电话咨询,实时支撑客户各项技术需求。提供专家报告,优化IT云架构系统、服务配置、提升性能。提供最新的稳定版本推荐,提供各大数据服务间匹配版本规范。总体架构模块化设计,标准数据读写接口,利于整合、融入生态系统展现层业务逻辑层数据存储数据处理层数据采集层总览综合展现数据处理中间件探针操作系统应用服务器(Tomcat,Weblogic)中间件(Redis,Mysql)热数据缓存业务数据业务探针网络网络系统探针CPUJVM硬件环境及系统监控I/O磁盘内存值班管理处置流程运维管理事件管理配置管理应用健康健康评判资源计划时序型数据库智能分析运维服务故障分析朔源自动问题检测标准数据接口时序型数据库分布式海量存储系统日志挖掘运维知识库运维管理门户\三方数据源ITSM其他分应用展现日志收集器标准数据接口探针架构运行环境(ExecutionRuntime)Agent平台主程序MainLoopFileWatcherSenderThreadRead/WriteQueueCollectorThreadParserUAgent升级配置ProcessWatcherMysqlcollectorWeblogicCollectorHBaseCollectorInit.dBuildDeployBatchDeploy04Cloudwiz部分功能展示统一监控–总览(高管驾驶舱)快速判断系统健康,关键信息一览无遗统一监控–由粗到细系统服务机器进程统一监控–由粗到细系统服务机器进程统一监控–由粗到细统一监控–指标监控(多种服务,多种指标)统一监控–日志监控(全文搜索)智能报警–全面,灵活智能分析–故障溯源(学习故障历史反馈,直接溯源根因)智能分析–关联分析(关联指标,事件,日志)

智能分析–日志分析(日志聚类,日志对比)智能分析–运维知识库(专业知识传承共享)05Cloudwiz案例电网大数据平台的各种服务及系统案例:国家电网大数据平台HBaseHiveHadoopTomcatZookeeperStormSparkMySQLCentOSKafkaFlume案例:国家电网大数据平台客户HBase每过3-4天全面死机,只能重启,严重影响业务挖掘日志,发现死机前HBase节点出现长时间停顿,被zookeeper服务器误诊为此节点死亡匹配知识库,找出原因为HBase节点进行内存Swap,而更深层次的原因为服务器时钟漂移提出解决方案供客户选择客户采纳建议进行实施,彻底排除故障目标一:为国家电网的智能电网战略提供不间断的、稳定的大数据计算平台问题和挑战:主要存储服务HBase每隔几天会出现宕机,因为宕机经常发生在半夜,运维人员不能及时得到报警,造成大数据平台长达数小时的停运,直接影响平台上运行的分析工作。因为不能排查问题根源,此问题不断发生。解决:指标、日志整合分析查找故障根源,知识库推荐解决方案。问题完全解决。配置报警规则,及时发现问题。服务器上CPU使用率被自动探测出有异常升高,如红点所示,cpu.usr在22:00-00:00和9:00左右25%,而平时一般在8%。需要找出原因。案例:国家电网大数据平台目标二:在运维国家电网大数据计算平台过程中,及时发现、查找并解决可能造成重大问题的误操作、误配置等运维问题。问题和挑战:如何及时发现问题并在短时间内发现根源,对任何运维团队都是一个极大的挑战。解决:指标的智能关联分析能够辅助运维人员快速查找故障根源Cloudwiz系统自动查找和匹配出相关联的指标,提供故障根源推断案例:国家电网大数据平台目标二:运维国家电网大数据计算平台过程中及时发现、查找并解决可能造成重大问题的误操作、误配置等运维问题。问题和挑战:如何及时发现问题并在短时间内发现根源,对任何运维团队都是一个极大的挑战。。解决:指标的智能关联分析能够辅助运维人员快速查找故障根源选择hbase.regionserver.server.writeRequestCount对比cpu.usr。两条曲线非常吻合。说明cpu的升高是由于hbase的write数量增加引起的。客户马上意识到最近一个修改导致写操作会增加。经过修改以后,cpu正常下来。案例:国家电网大数据平台目标二:运维国家电网大数据计算平台过程中及时发现、查找并解决可能造成重大问题的误操作、误配置等运维问题。问题和挑战:如何及时发现问题并在短时间内发现根源,对任何运维团队都是一个极大的挑战。解决:指标的智能关联分析能够辅助运维人员快速查找故障根源。上图是可用磁盘空间的实时数据。下图是统计的趋势线。根据趋势,目前可用磁盘空间49GB在62天后用完。用户可以及时安排应急方案和设备采购计划案例:国家电网大数据平台目标三:有效地进行国家电网大数据计算平台的日常运维工作,优化架构,及时升级到最新且稳定的版本以排出已知的问题。问题和挑战:对运维团队的技术要求很高,一般团队较难在短时间内达到,致使运维面临瓶颈解决:Cloudwiz的专家团队能够与客户的专业团队协同工作,帮助客户的技术团队迅速成长,或者完全接手客户的运维工作。专家报告提供专门针对客户系统的贴身诊断和优化技术报告。案例:国家电网大数据平台大数据系统不同服务最佳版本和版本间依赖性推荐、演进方案目标三:有效地进行国家电网大数据计算平台的日常运维工作,优化架构,及时升级到最新且稳定的版本以排出已知的问题。问题和挑战:对运维团队的技术要求很高,一般团队较难在短时间内达到,致使运维面临瓶颈解决:Cloudwiz的专家团队能够与客户的专业团队协同工作,帮助客户的技术团队迅速成长,或者完全接手客户的运维工作。专家报告提供专门针对客户系统的贴身诊断和优化技术报告。案例:国家电网大数据平台专家报告优化系统、配置、架构,提升性能目标三:有效地进行国家电网大数据计算平台的日常运维工作,优化架构,及时升级到最新且稳定的版本以排出已知的问题。问题和挑战:对运维团队的技术要求很高,一般团队较难在短时间内达到,致使运维面临瓶颈解决:Cloudwiz的专家团队能够与客户的专业团队协同工作,帮助客户的技术团队迅速成长,或者完全接手客户的运维工作。专家报告提供专门针对客户系统的贴身诊断和优化技术报告。案例:中国铁路集团总公司应用系统测试应用系统:售后管理系统(到站)、售后管理系统(上门)安装部署:生产环境使用产品:大数据平台、应用健康分析目标系统概况案例:中国铁路集团总公司应用系统目标一:提供整体应用系统的运维监控。对整个应用系统从上到下(应用,中间件,系统)的运行状态进行实时可视化监控,帮助运维人员对整个系统一目了然。问题和挑战:应用系统服务种类多,运维数据来源多,包括各系统吐出来的指标、日志、业务文本文件等。内部团队肩负日常运维的工作,没有余力进行研发。解决:Cloudwiz专长于对服务器端的各指标、日志及业务数据进行收集、呈现、整合和关联分析,进行快速交付。1.性能监控数据:系统参数监控案例:中国铁路集团总公司应用系统目标一:提供整体应用系统的运维监控。对整个应用系统从上到下(应用,中间件,系统)的运行状态进行实时可视化监控,帮助运维人员对整个系统一目了然。问题和挑战:应用系统服务种类多,运维数据来源多,包括各系统吐出来的指标、日志、业务文本文件等。内部团队肩负日常运维的工作,没有余力进行研发。解决:Cloudwiz专长于对服务器端的各指标、日志及业务数据进行收集、呈现、整合和关联分析,进行快速交付。2.采集业务数据

业务数据文件:记录文件上传状态,进行解析$cat~/viz/oneAPM_data/Log/fcheck_2016-09-08.txt0:01---->Wait文件[0],06文件[1],TCP连接[32].0:02---->Wait文件[0],06文件[0],TCP连接[5].

正在上传文件数量等待上传文件数量TCP链接数量业务数据文件解析展示:记录文件上传状态案例:中国铁路集团总公司应用系统目标一:提供整体应用系统的运维监控。对整个应用系统从上到下(应用,中间件,系统)的运行状态进行实时可视化监控,帮助运维人员对整个系统一目了然。问题和挑战:应用系统服务种类多,运维数据来源多,包括各系统吐出来的指标、日志、业务文本文件等。内部团队肩负日常运维的工作,没有余力进行研发。解决:Cloudwiz专长于对服务器端的各指标、日志及业务数据进行收集、呈现、整合和关联分析,进行快速交付。3、转化日志数据:

解析格式化日志文件,提取监控指标[dell_server_1]#tail-faccess.log82--[07/Sep/2016:09:46:00+0800]"GET/dell/codebase/jq1.7/jquery-1.7.2.jsHTTP/1.1"304083--[07/Sep/2016:09:46:00+0800]"GET/dell/wxzy/wxd.jsp?orderno=80906808312HTTP/1.1"200083--[07/Sep/2016:09:27:59+0800]"POST/dell/input_serviceactionHTTP/1.1"3010

访问客户IP访问时间访问类型访问结果转化日志数据展示:案例:中国铁路集团总公司应用系统目标二:提升运维效率,帮助运维人员发现指标规律并进行异常的提前预警。问题和挑战:数据种类多,数据量大,运维人员难以手工完成上述任务。解决:Cloudwiz的主动智能运维功能,自动利用历史数据进行数据挖掘,发现规律并预测系统的运行指标,提前发现异常问题并报警。基于大数据分析的异常自动检测报警问题发现:业务文件上传出现堵塞这个点比平时这个时刻的值高出很多,表示这个时刻的文件上传数比平时高这两个点比规律值低出很多,表示这个时刻的文件上传数比平时低案例:中国铁路集团总公司应用系统目标二:提升运维效率,帮助运维人员发现指标规律并进行异常的提前预警。问题和挑战:数据种类多,数据量大,运维人员难以手工完成上述任务。解决:Cloudwiz的主动智能运维功能,自动利用历史数据进行数据挖掘,发现规律并预测系统的运行指标,提前发现异常问题并报警。问题发现:服务器负载不均衡,外部服务访问在不同服务器节点上不均衡案例:中国铁路集团总公司

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论