大数据云原生运维平台实践_第1页
大数据云原生运维平台实践_第2页
大数据云原生运维平台实践_第3页
大数据云原生运维平台实践_第4页
大数据云原生运维平台实践_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

⼤数据云原⽣运维平台实践

⽬录

contents背景与挑战云原⽣演进路线⼤数据云原⽣运维平台实践123

PART1背景与挑战业务背景:超⼤规模集群运维

8⼤数据产品-----MaxComputeFlinkHologresDatahubPAI---DataWorksEMRElasticsearch-

国内-

海外-

专有域

10+数据中⼼1K+

集群----集群规模差异⼤集群技术差异⼤全托管半托管-

物理机-

虚拟机-

容器100K+

节点业务挑战:有限的资源

vs

增⻓的需求VS稳定性•

⼤量升级变更与稳定性管控冲突•

单机故障在⼤规模集群中的必然性•

集群复杂性带来的监控难度与故障恢复难度成本效率•

⽤户需求超过资源供给能⼒•

资源需求的峰⾕变化导致的闲置浪费•

⼤量琐碎⽤户咨询影响⼯作效率•

⽆法清晰定义运维团队活动的价值

PART2云原⽣演进路线演进历史:

云原⽣发展时间线从集装箱发展史看云原⽣容器化变迁1956年

理想六号卸货时间

7天

15⼩时

(下降90%)1921年美国纽约铁路运输总公司集装箱物流体系2013年Docker

容器镜像(container)打包2014年Kubernetes发布,以Pod作为最⼩调度单位PodInfra

ContainerContainer

AContainer

BVolumeNodePodPodPodPodPodNodePodPodPodPodPodNodePodPodPodPodPodNodePodPodPodPodPod云原⽣体系进程从集装箱发展史看云原⽣容器化变迁1956年

理想六号1921年2013年Docker

容器镜像(container)打包2014年Kubernetes发布,以Pod作为最⼩调度单位Container

AContainer

BVolumePodPodPodPod

Pod

Node集装箱物流体系

Pod

Pod

Pod

Pod

Pod

NodeNodePodPodPodPodPodNodePodPodPodPodPod云原⽣体系进程美国纽约铁路运输总公司

卸货时间

7天

15⼩时

(下降90%)

集装箱物流体系促使了全球化贸易,

云原⽣体系会给我们来带

Pod

么?

Infra

Container什什么是云原⽣应⽤?云原⽣应⽤

⼗⼆要素

代码库(Code

base)⼀份基准代码,多份部署

依赖关系(Dependencies)显式声明并隔离依赖关系

配置(Config)在环境中存储配置

后端服务(Backing

services)把后端服务当做附加资源构建、发布和运⾏(Build,

release,

run)

完全独⽴的构建和运⾏阶段

进程(Processes)

基于⼀个或多个⽆状态进程运⾏端⼝绑定(Port

binding)通过端⼝绑定提供服务

并发(Concurrency)通过进程模型扩展

易处理(Disposability)通过快速启动和优雅停⽌来最⼤程度地提⾼健壮性环境等价(Dev/prod

parity)保持开发和⽣产环境的

⼀致性

管理进程(Admin

processes)

后端管理任务当作⼀次

性进程运⾏

⽇志(Logs)将⽇志处理作为事件流云原⽣化的开发模式

开发-

在测试云原⽣环

境验证容器镜像

(Dockerfile)-

集成并验证第三

⽅helm包

构建-

容器化构建作业(Job)-

构建时从远程仓库拉

取源码

部署-

OAM标准模型部署-

运维特性trait市场-

helm包更新部署

云原⽣架构

云原⽣理念交付监测管理控制运营服务云原⽣⼯程能⼒沉淀

PART3⼤数据云原⽣运维平台实践云原⽣运维平台

为了提效、解耦⽽整合在云原⽣控制平⾯上的中间组织,能够为不同运维产品提供公共资源。们在上⽹的时候,建⽴、维护、释放与⽹络间的链路时,都是通过控制平⾯来完成的。运维平台为了提效、解耦⽽整合的中间组织,能够为不同运维产品提供公共资源。

控制平⾯释义:

控制平⾯是相对于数据平⾯⽽⾔的。最初的控制平⾯概念

来⾃于通信领域。⽐如:“传输信令信息的叫做控制平⾯,控

制平⾯上承载的是⽤户和⽹络的交互控制信息。例如,我⼤数据运维平台云原⽣运维平台演进

PaaS平台服务

SaaS运维应⽤交付团队管理集群管理应⽤管理监测事件中⼼告警分析⻛险巡检异常诊断故障统计k8s

apiserverkubelet

节点kubelet

节点kubelet

节点kubelet

节点kubelet

节点kubelet

节点kubelet

节点kubelet

节点管理变更管理存储管理预算管理控制智能⾃愈弹性伸缩编排均衡运营质量运营成本运营效率运营服务运维搜索⾃助答疑

IaaS基础设施前端⼯程框架

appmanager

多集群部署

路由⽹关Helm包适配部署

发现服务kaniko镜像构建

鉴权服务OAM标准模型

应⽤脚⼿架trait运维特性市场运维应⽤多元化平台服务标准化基础设施归⼀化实践1:

企业应⽤交付

PaaS平台服务

SaaS运维应⽤交付团队管理集群管理应⽤管理监测事件中⼼告警分析⻛险巡检异常诊断故障统计k8s

apiserverkubelet

节点kubelet

节点kubelet

节点kubelet

节点kubelet

节点kubelet

节点kubelet

节点kubelet

节点管理变更管理存储管理预算管理控制智能⾃愈弹性伸缩编排均衡运营质量运营成本运营效率运营服务运维搜索⾃助答疑

IaaS基础设施前端⼯程框架

appmanager

多集群部署

路由⽹关Helm包适配部署

发现服务kaniko镜像构建

鉴权服务OAM标准模型

应⽤脚⼿架trait运维特性市场运维应⽤多元化平台服务标准化基础设施归⼀化收集需求应⽤设计应⽤开发应⽤测试应⽤部署实践1:

企业应⽤交付

-

利⽤云原⽣技术快速构建应⽤技术栈-

⽀持企业按照⾃身需求对应⽤交付流程进

⾏深度定制改造-

引导企业在云原⽣模式下开发迭代演进---Trait

通常由应⽤运维⼈员定义和维护,⽽不需要应⽤开发⼈员参与,应⽤开发⼈员对

Trait

可能⽆感知,减轻了应⽤开发⼈员的负担;Trait

将云原⽣应⽤程序的⼀些通⽤运维属性从应⽤配置中剥离出来,⼤⼤提⾼了运维逻辑的可复⽤性;应⽤

Trait

组合前进⾏运维特性检查,可以有效防⽌配置冲突和⽆法预期的情况发⽣;实践1:

企业应⽤交付

OAM模型标准化

ApplicationConfiguration

Component

Component

Trait

Trait实践2:

健康管理体系

PaaS平台服务

SaaS运维应⽤交付团队管理集群管理应⽤管理监测事件中⼼告警分析⻛险巡检异常诊断故障统计k8s

apiserverkubelet

节点kubelet

节点kubelet

节点kubelet

节点kubelet

节点kubelet

节点kubelet

节点kubelet

节点管理变更管理存储管理预算管理控制智能⾃愈弹性伸缩编排均衡运营质量运营成本运营效率运营服务运维搜索⾃助答疑

IaaS基础设施前端⼯程框架

appmanager

多集群部署

路由⽹关Helm包适配部署

发现服务kaniko镜像构建

鉴权服务OAM标准模型

应⽤脚⼿架trait运维特性市场运维应⽤多元化平台服务标准化基础设施归⼀化实践2:

健康管理体系

故障异常

告警

⻛险事件

持续⼀定时间的⽤户使⽤异常。

⽤户侧使⽤体感下降(包括不可⽤或性能下降)。

某些功能处于⾮预期状态,需要⽴即处理。

某些数值⼀定程度偏离基线,提醒运维同学关注。某个时间点对于某个⾏为的客观描述,没有好坏之分。

PaaS平台服务

SaaS运维应⽤交付团队管理集群管理应⽤管理监测事件中⼼告警分析⻛险巡检异常诊断故障统计k8s

apiserverkubelet

节点kubelet

节点kubelet

节点kubelet

节点kubelet

节点kubelet

节点kubelet

节点kubelet

节点管理变更管理存储管理预算管理控制智能⾃愈弹性伸缩编排均衡运营质量运营成本运营效率运营服务运维搜索⾃助答疑

IaaS基础设施前端⼯程框架

appmanager

多集群部署

路由⽹关Helm包适配部署

发现服务kaniko镜像构建

鉴权服务OAM标准模型

应⽤脚⼿架trait运维特性市场运维应⽤多元化平台服务标准化基础设施归⼀化实践3:

变更管理实践3:

变更管理变更检测变更检测变更检测第⼀批:

观察30分钟第⼆批:

观察10分钟第三批:

观察5分钟

…----指定时间窗⼝⾃动执⾏按实体分批执⾏批次间稳定性观察⾮预期变更⾃动停⽌/报警/回滚

PaaS平台服务

SaaS运维应⽤交付团队管理集群管理应⽤管理监测事件中⼼告警分析⻛险巡检异常诊断故障统计k8s

apiserverkubelet

节点kubelet

节点kubelet

节点kubelet

节点kubelet

节点kubelet

节点kubelet

节点kubelet

节点管理变更管理存储管理预算管理控制智能⾃愈弹性伸缩编排均衡运营质量运营成本运营效率运营服务运维搜索⾃助答疑

IaaS基础设施前端⼯程框架

appmanager

多集群部署

路由⽹关Helm包适配部署

发现服务kaniko镜像构建

鉴权服务OAM标准模型

应⽤脚⼿架trait运维特性市场运维应⽤多元化平台服务标准化基础设施归⼀化实践4:

智能⾃愈闭环实践4:

智能⾃愈闭环系统检测告警分析

⼀例智能⾃愈闭环流程示意异常诊断-

巡检任务-

异常检测-

检测出告警

-

关联分析

-

报警压缩

-

分析出异常

-

根因分析-

诊断出新异常异常诊断

决策执⾏-

诊断树-

诊断出根因

-

恢复作业

-

变更通知

PaaS平台服务

SaaS运维应⽤交付团队管理集群管理应⽤管理监测事件中⼼告警分析⻛险巡检异常诊断故障统计k8s

apiserverkubelet

节点kubelet

节点kubelet

节点kubelet

节点kubelet

节点kubelet

节点kubelet

节点kubelet

节点管理数据运维智能运维作业管理控制智能⾃愈容量维持弹性伸缩运营质量运营成本运营效率运营服务运维搜索⾃助答疑

IaaS基础设施前端⼯程框架

appmanager

多集群部署

路由⽹关Helm包适配部署

发现服务kaniko镜像构建

鉴权服务OAM标准模型

应⽤脚⼿架trait运维特性市场运维应⽤多元化平台服务标准化基础设施归⼀化实践5:

运维低

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论