阿里云化架构创新之路_第1页
阿里云化架构创新之路_第2页
阿里云化架构创新之路_第3页
阿里云化架构创新之路_第4页
阿里云化架构创新之路_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、阿里云化架构创新之路双11的技术挑战与突破云化架构演进的背景统一调度和混部的挑战Pouch容器和容器化的进展云化架构和双11的未来技术路线双11的技术挑战双11的技术挑战,互联网级的规模,企业级的复杂度,金融级的稳定性,数十倍的业务峰值9次双11交易额增长280倍,交易峰值增长800多倍,系统复杂度和大促支撑难度以指数级攀升双11峰值的本质是用有限成本去最大化的提升用户体验和整体吞吐能力,用合理的代价解决峰值发挥规模效应,持续降低单笔交易成本以提升峰值能力,为用户提供丝般顺滑的浏览和购物体验双11的技术突破Service2Service3Service4APP2APP3APP4APP1APP5

2、Service6Service5Service7CacheDB1DB2Service1应用层服务层存储层扩展性问题分布式架构异地多活稳定性问题限流降级全链路压测新的技术挑战成本、效率云化架构演进背景双11只有一天,过后资源利用率不高,隔年会形成较长时间的低效运行资源整体弹性能力不足,运维体系差异大,各版块无法平滑复用每个版块有不同的Buffer池,在线率、分配率、利用率无法统一通过云化架构提升整体技术效率,提高全局资源弹性复用能力拉通技术体系,降低大促和日常整体成本,双11单笔交易成本减半垂直化运维体系IDC网络 服务器业务层ECS集群云机房基础运维SigmaFuxiCloud Open AP

3、I集群管理应用运维/规模化运维计算产品运维云产品交付运维Online ServiceStateful Service资源分配资源调度Big Data AnalyticsBig Data AnalyticsBig Data AnalyticsBig Data AnalyticsOnline ServiceStateful Service资源管理集群运维资源管理在线服务集群计算任务集群集团机房集群运维资源管理集群运维技术全面云化,逐层重构升级,弹性复用资源,全局统一调度,在线服务和计算任务混部统一运维部署、资源分配的标准,提高调度效率,容量自动交付,全面容器化充分发挥云计算的弹性能力,减少自采基础

4、设施投入,建设混合云,一键建站集群管理和调度系统SigmaCIDeployOperationSigmaMasterNCNCApi ServerPouchPouchSigmaSlaveNCDC1AgentPersistent StoreImageManagerDistribut eCMDBIPAMUCPHostBossSchedulerAlgorithm/MLAlikernel始于2011年,以调度为中心的集群管理体系面向终态的架构设计;三层大脑合作联动管理Go语言重构,17年兼容Kubernetes API,和开源社区共同发展0层计算业务域在线业务域基础设施调度优化在线服务资源调度器(Sigm

5、a)计算任务资源调度器(Fuxi)DB交易广告中间件搜索在线二级业务调度统一Agent计算集群在线集群混部集群统一资源视图统一管控计算框架计算业务IDC网络物理机IPAM资源额度故障维修监控报警合并资源池,提升在线率、分配率去Buffer,空间维度优化弹性分时复用,时间维度优化,共节省超过5%的服务器资源发挥了统一调度、集中化管理的优势,释放规模效益下的红利Sigma与Fuxi混部架构SigmaSlaveRunCRunVFollow the OCI standardsNon-prod JobsJOBJOBProd JobsPouchRunLXCLevel0- AgentFuxiSlaveLev

6、el0-DataFuxiMasterSigmaMasterLevel0- ControllerPouchPouch在线服务生命周期长/定制策略复杂/时 延敏感;计算任务生命周期短/大并发高 吞吐/时延不敏感通过Sigma和Fuxi完成在线服务、计算任务各自的调度,计算共享超卖通过零层相互协调资源配比做混部决策,通过内核解决资源竞争隔离问题架构非常灵活,一层之间共享状态调 度,一层之上定制二层调度阿里混部始于2014年,已大规模铺开混部关键技术内核资源隔离CPU HT资源隔离:Noise Clean内核特性,解决超线程资源争抢问题CPU 调度隔离:CFS基础上增加Task Preempt特性,提

7、高在线服务调度优先级CPU 缓存隔离:CAT,三级缓存(LLC)通道隔离(Broadwell及以上)内存隔离:CGroup隔离/OOM优先级;Bandwidth Control实现带宽隔离内存弹性:在线闲置时计算突破memcg limit;在线需要内存时计算及时释放网络QoS隔离:TC增强,管控金牌;在线银牌;计算铜牌,分级保障带宽混部关键技术在线集群管理应用画像,装箱调度亲和互斥、任务优先级稳定性优先、利用率优先应用自动伸缩、分时复用整站快速扩缩、弹性内存 计算任务调度+ODPS弹性内存分时复用动态内存超卖无损降级、有损降级M em o ryN etION etC apacityD iskI

8、OD iskC apacityC P US ig m a S laveS ig m a S laveS ig m a S lave混合部署-引入计算任务提升日常资源效率CPU平均利用率10% - 40%,延迟敏感类应用RT影响5%混部集群规模数千台,经过双11交易核心链路规模化验证为日常节省超过30%的服务器,明年会扩大10倍部署规模混合部署-分时复用进一步提升资源效率计算扩容 在线缩容计算扩容 在线缩容时间空间维度优化结合弹性分时复用, 平均CPU利用率提升 至60%以上/alibaba/clusterdata混合部署-降低大促成本日常 3:7 + 计算超卖0%30%磁盘 HDD在线独占xx

9、台混部xxxx台计算独占xxxx台资源隔离交易 1K有状态独占1W计算任务CPU 3CPU 70%内存内存 70%资源分配混部业务网络 67%CPU 50%内存 50%磁盘 HDD在线独占xx台混部xxxx台计算独占xxxx台资源隔离CPU 50%内存 50%网络 33%资源分配混部业务网络 67%CPU 50%内存 50%磁盘 HDD在线独占xx台混部xxxx台计算独占xxxx台资源隔离CPU 50%内存 50%网络 33%资源分配交易 1W有状态独占1W计算任务网络 67%网络 33%超卖超卖压测 + 大促非峰值 5:5大促峰值 计算全停 5:5混部业务交易 1W有状态独占1W计算任务通过

10、部分计算任务短时间降级,空闲资源支持双11交易峰值1小时快速拉起完整站点,大幅降低了双11整体成本Pouch简介本意育儿袋,隐喻贴身呵护应用始于2011年,基于LXC,线上大规模应用2015年初开始吸收Docker镜像和标准Pouch容器结合AliKernel,大幅增强能力Pouch发展路线容器的要素-内部应用运维视角有独立IP能够ssh登陆独立的的文件系统资源隔离使用量和可见性手工Hack实现容器要素虚拟网卡,网桥sshdChroot (pivot_root)CGroup,Namespace引入LXC(Linux Container)内核可见性隔离Patch内核磁盘空间配额Patch阿里容器

11、技术T4引入Docker标准Pouch定位Swarm编排工具Kubernetes阿里编排工具运行时dockerrkthyperdPouchCRI隔离性标准兼容runVrunlxc富容器兼容性基础设施CNICSI容 器 监 控 与 智 能 运 维容 器 平 台 安 全runC规模化Pouch架构cri- containerdrunCrunlxclxcfspouchdg R P CC R IC N Ilib netw o rkC S IP odnam espaceultro nceph/pangusto rag eP 2 Pb rid ge hostm acvlannam espacenetw o

12、 rkcontainerS ig m ascheduling co- lo catio nPouch化进展规模:2017年双11百万级容器 在线业务100%容器化 计算任务开始容器化拉平异构平台的运维成本覆盖业务BU:蚂蚁金服天猫、淘宝合一集团(优酷)菜鸟&高德&UC广告(阿里妈妈)阿里云专有云中间件、数据库覆盖场景:多种编程语言DevOps运维体系Pouch开源计划孵化开源发布版本2017.11.19正式开源 与生态共建2018.03.01发布第一个大版本2017.10.10宣布开源外部开发者内测孵化/alibaba/pouch推动容器领域发展和标准成熟,给业界提供差异化有竞争力的选择方便传

13、统IT企业利旧,同样享受容器化带来的运维效率优势方便新IT企业享受规模化、稳定性和多标准兼容的优势存储计算分离远端计算存储不受网络长传带宽限制大集群减少跨网络核心对穿流量有状态服务的存储计算分离网络架构升级、25G、overlay在线 服务计算在线任务服务计算 任务SigmaFuxiStarLogSlaveSlaveAgentAgent在线存储Linux计算存储桥头堡Sigma MasterFuxi Master计算存储在线 服务计算在线任务服务计算 任务SigmaFuxiStarLogSlaveSlaveAgentAgent离线数据缓存LinuxSigmaMasterFuxi Master在

14、线存储混合云弹性架构基于编排的业务接入,灵活适配多种业务类型分钟级整单元扩缩容,秒级巡检,确保交付可靠性降低资源持有时间和非online时间,提升弹性效率双11全面使用阿里云基础设施,8小时快速构建全球最大混合云双11云化架构运维体系业务层 混部资源管理单机运维账号权限命令通道监控报警在线服务集群计算任务集群集团机房ECS集群云机房基础运维SigmaFuxiCloud Open API集群管理在线服务/规模化运维计算产品运维云产品交付运维Online ServiceBig Data AnalyticsOnline ServiceStateful ServiceOnline ServiceBig

15、 Data AnalyticsStateful ServiceBig Data AnalyticsOnline ServiceOnline ServiceOnline ServiceStateful ServicePouch容器资源调度弹性效率资源效率IDC网络服务器datacenter as a computer,多个数据中心像一台计算机一样来管理,可以跨多个不同的平台来调度业务发展所需的资源构建混合云以极低成本拿到服务器,解决有没有的问题,通过弹性分时复用和混部大幅提升资源利用率,解决好不好的问题真正实现弹性资源平滑复用、任务灵活混合部署,用最少服务器、最短时间、最优效率完成容量目标通过云

16、化架构使双11新增IT成本下降50%,使日常IT成本下降30%,带来容器、调度和集群管理领域的技术价值爆发Sigma Agility定位兼容Kubernetes架构和标准阿里内部调度、容器、运维 领域优势技术产品化提供企业级容器应用管理能力,提高企业IT效率优势混合云资源管理和建站灵活的调度策略和算法与阿里云生态无缝集成经过双11大规模场景检验Based on Kubernetes and Yarn 混部(Co-location)混合云架构弹性伸缩资源调度应用管理混部Co-location公有云ECS私有云SLBLBNASPanguBare Metal在线服务PaaSACSEDAS计算任务PaaSEMRK8S APIYarn APIYarn APIK8S APISigma AgilitySigma Agility ConsoleEIPVPCVM资源+服务+数据 编排Network

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论