京东云自动化运维体系构建_第1页
京东云自动化运维体系构建_第2页
京东云自动化运维体系构建_第3页
京东云自动化运维体系构建_第4页
京东云自动化运维体系构建_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

京东云自动化运维体系构建郑永宽京东云资深架构师个人简介华中科技大学硕士2011

~2016:百度自动化运维平台项目经理分布式任务调度系统数据传输系统百度部署发布系统2016

~今:

京东云运维平台负责人京东云自动化运维体系构建6年自动化运维平台研发运营经验目录监控系统介绍总结与展望01概要介绍02 基础组件介绍03 部署系统介绍0405京东云

能力输出到技术赋能京东云技术赋能运营 营销大数据仓储人工智能配送 客服智慧供应链售后 金融智慧物流京东能力输出物流电商金融保险京东公有云平台京东能力+云平台=赋能客户作为京东集团能力的对外输出窗口,2016年4月正式发布京东云运维平台

为京东云保驾护航传统运维基础场景关键问题可用性(稳定性)效率:研发、运维、测试的全环节效率成本运维场景部署变更故障管理环境维护网络管理资源管理监控管理备份管理安全京东云运维新挑战对内保障京东云自身系统稳定性对外保障SaaS用户业务稳定性提升用户交付效率精细化运维体验基础设施运维业务系统运维定制化用户运维京东云运维平台

为京东云保驾护航京东云运维平台概览RoadMapSaaS化运维平台完善监控部署系统构建客户端体系构建基础组件构建实例应用系统产品线二级部门公司京东云基础云云主机云硬盘技术保障部运维工具ArkLoadInstance1Instance2CDN基础组件

服务与资源管理APP实例名字服务主机服务树与名字服务示意图服务树业务组织架构信息全流程机器管理角色管理与基于角色的权限控制其他meta数据JD

Naming

Service(名字服务)维护实例-App-主机之间的对应关系服务关联关系管理服务解耦合ControlTower对指定的一批机器,按照指定策略,执行指定命令批量执行基于服务树和JNS指定账号策略并发控制:并发度、串并行容错控制:失败阈值、超时阈值扩展性业务端统一API插件化可追溯任务记录单机日志基础组件

分布式任务调度实时数据计算调度spark计算的能力基于JNS的范围圈定丰富的算子支持基础组件

监控数据平台时序数据存储

TSDB热点数据redis存储多机房部署,数据热备,高可用读写分离,高效稳定自动抽样,查询自适应路由范围圈定数据接收分机房Spark

计算Puller-A

Spark-Job-A

Kafka-topic-APuller-B

Spark-Job-B

Kafka-topic-B存储 报警下游JNS调度策略Nginx->sparkAMysql->sparkB

App1->sparkAApp2->sparkB加减乘除TopN

分位值……querysaver数据接收Interface数据抽样Metric-metaEs-clientredis-client分机房部署ESRedis-FreshRedis-MetaEs-client redis-clientInterface自适应路由 查询格式转换API基础组件

客户端体系构建统一Agent管控ifrit:托管Agent升级功能类puppet方式,定期获取更新列表Agent存活守护资源超限守护具备分级发布能力公有云/私有云/混合云的部署解决方案客户端的挑战:全部机器、各种功能Agent多机器环境复杂(磁盘、链接库、安全认证、隔离环境)定期守护(自我守护不行,外部守护)资源限制(cpu/fd/mem/日志)分级发布一体化应用部署管理平台

云翼(skywing)编译构建镜像管理镜像发布服务管理资源管理流量接入日志管理运维工具构建

应用部署系统核心诉求跨平台混合云管理采用网络负载接口的抽象和多平台适配技术手段实现私有云、公有云和各种虚拟化平台。如VMware、OpenStack、物理机资源的统一接入管理。帮助用户实现统一的运维管理体验。灵活定制容器,降低企业成本以租户为单位实现,资源隔离,权限分配,资源配额管理。相比传统数据中心物理机或者虚拟机,云翼轻松实现资源容器化,从而提升资源利用率,降低企业成本简化运维,轻松实现DevOps通过统一操作入口,同时通过对特定的

运维场景定制化的支持,实现一键部署、一键添加监控,一键上下游关联关系解

耦,使得运维简单高效同时可统一收集应用实例的日志,能够快速查询和检索,帮助快速定位问题。一键伸缩,轻松应对业务爆发可以管理任意规模的应用。不管是10还是1000个实例,都可以在轻松实现弹性扩展。一键扩展应用实例,从而轻松应对业务的爆发式增长需求。自动容错,服务不掉线可自动为宕机服务器上运行的容器重新

迁移并生成容器资源,保障业务不掉线,高可靠运行。这也就意味着您不用再为

一两台服务器的宕机,而经历一个不眠

之夜。容器实例服务健康检查,服务意外故障,自动拉起,做到服务故障自愈。全生命周期,一站式服务实现开发-测试-部署-运维-运营的服务全生命周期管理,轻松实现持续集成,提升研发部署效率同时支持服务编排,针对微服务场景提供特定优化功能实现功能亮点部署:支持构建包和镜像两种部署,轻松支持物理机、虚拟机和容器(Docker)资源;服务和资源管理:基于NS

的自动化服务和资源管理,研发无需关心APP下实例的变更多环境管理:支持测试、预发、线上环境分离,同时支持分级发布日志:支持日志订阅与分析流量:支持ContainerLB支持秒级回滚,止损效率高运维工具构建

智能监控系统监控标准抽象为基础监控、存活性监控、性能监控、应用监控四级,指导用户什么是一个

‘全’的监控全链路监控解决采集从机器、网络、域名到常见的开源软件;支持聚合计算,告警处理,预案平台等跨云部署解决通过代理方案,支持私有云、公有云、混合云等不同的基础设施部署进行联动跟部署方案进行结合,上线过程无告警;事件流图,告警时方便知道是否是上线导致多环境支持多环境支持,包括linux、Windows操作系统,支持docker,物理机,虚拟机等核心诉求

缩短异常生命周期MTTR– See->know->act智能监控功能实现功能亮点采集手段丰富,功能覆盖全面多种异常检测策略同环比/突升突降数值/字符串报警多维度分析能力,精准发现问题报警功能丰富支持报警合并支持报警回调,故障自愈丰富的数据展示功能,定制化DashBord支持性能– 10w+机器(容器)量级数据采集实时处理数据展示数据抽象pullerKafka&sparkadaptorqueryES

&redissaverDashbord 报警展示 事件流图API推送实时聚合计算时序数据存储sender报alert

警通judge 路ESproxy异常事件数据挖掘关联分析根因推荐MetaDB预案止损采集Agent 外部探测机器 端口 自定义 语意 方法网络 进程 日志 死机 环境业务数据JNS 机器 网络 域名 应用…离线处理京东云监控体系

全链路监控解决方案业务实践机器监控自动采集,支持物理机、虚拟机、容器采集项全:Cpu/mem/disk/net/load/swap/system支持一键搜图检查机器连通性默认的报警配置智能监控-基础监控告警计算(阈值)cpu空闲率cpu.idle<10%磁盘使用率disk.free<10%内存使用率mem.usable<10%网卡使用率net.use.percent>80%机器连通性等于1进程存活查看进程存活情况资源消耗情况端口存活报警推荐程序假死报警关注平响,资源消耗等智能监控

-

存活监控告警计算(阈值)进程不存在proc.status

!=

1进程资源占用proc.cpu

>

2端口不存活Port.status

!=

1四大黄金指标:流量、错误码、平响、容量采集方式日志监控(类似logstash,命名正则)自定义输出(脚本、http,约定格式)报警推荐流量(同环比)错误码/容量(恒定阈值)平响(突升突降、恒定阈值)智能监控

性能监控1:支持命名正则提取2:支持运营商/省份转换3:支持公式计算4:支持字典转换5:支持数值分桶用户侧黑盒监控外网域名监控(模拟全国各地用户访问)整体和分运营商/省份访问情况自定义方式

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论