2022云栖大会倚天专场演讲实录:倚天开启云原生算力新时代_第1页
2022云栖大会倚天专场演讲实录:倚天开启云原生算力新时代_第2页
2022云栖大会倚天专场演讲实录:倚天开启云原生算力新时代_第3页
2022云栖大会倚天专场演讲实录:倚天开启云原生算力新时代_第4页
2022云栖大会倚天专场演讲实录:倚天开启云原生算力新时代_第5页
已阅读5页,还剩80页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

•云栖精选Cl丽里乒•云栖精选J ALIBABACtOUOOfVflOTfRCOMMUNITY倚天开启云原生算力新时代2022云栖大会倚天专场演讲实录卷首语2021年云栖大会上,阿里云发布自研的基于Armv9架构的倚天710芯片,这是一款云原生处理器,无超线程概念,用户可以享受物理核的极致性能体验。随后,阿里云推出了采用倚天710芯片的倚天云服务器,超强实例、极致性能,在阿里巴巴集团内部及外部客户的试用效果都非常好。2022年的11月,我们再聚杭州云栖大会,并通举办倚天专场的技术分享,全方位展示倚天云服务器在云原生时代的性能表现。在产品层面,来自阿里云的架构师将系统、深度而又全面地介绍倚天云服务器背后的技术奥秘,包括芯片架构设计、硬件架构设计、软件优化实现方案以及七大场景下的性能收益等;来自安谋科技(ArmChina)的技术专家也将从Arm架构出发,分享Neoverse生态与软件迁移实践。在应用实践上,既有阿里云自身在视频云原生业务新范式的探索,数据库RDS在技术演进方面的实践总结,也有北京科学智能研究院的嘉宾分享倚天云服务器在材料研发这一科学计算场景下的适配与调优、万核级别的算例验证。在迁移实践上,阿里云程序语言与编译器方面的技术专家将从迁移工具支持、一键式调优、软件管理以及跨架构迁移实践等方面,介绍倚天平台全栈应用性能优化与迁移最佳实践,同时也将发布开箱即用的智能优化方案和面向开发者的倚天ECS开发指南。倚天"利剑出鞘”,破晓来袭,关于"倚天ECS云服务器"更多内容,邀您移步正文品读。目录TOC\o"1-5"\h\z一、 揭秘ECS倚天实例背后的技术 5\o"CurrentDocument"二、 Neoverse生态与软件迁移 20\o"CurrentDocument"三、阿里云倚天710实例助力ABACUS新实践 36四、 基于倚天的视频云原生业务新范式 46\o"CurrentDocument"五、 RDSOn倚天ECS的技术演进 56六、 倚天平台全栈应用性能优化与迁移最佳实践 62一、揭秘一、揭秘ECS倚天实例背后的技术 5一、揭秘ECS倚天实例背后的技术作者:张先国,阿里云弹性计算高级架构师11月15日,阿里云ECS倚天实例正式开始商业化。此前,阿里巴巴在2022云栖大会上宣布,阿里云未来两年20%的新增算力将使用自研CPU。11月5日,云栖大会"倚天开启云原生算力新时代"专场上阿里云弹性计算高级架构师张先国作为分享嘉宾,带来了题为《云原生算力新时代:倚天ECS技术揭秘》的主题分享,本文根据该演讲整理而成。阿里云弹性计算高级架构师张先国1.背景:算力需求暴涨、摩尔定律失效当前,企业云上业务需求趋势正在大幅增长,算力需求呈"爆炸式"递增。直播/短视频行业每天有上亿用户产出UGC视频内容发布在不同平台,产生百万核级视频编码算力需求和高业务成本。基因/制药行业涉及到的分子动力学模拟、基因序列对比、蛋白结构分析,原来以实验为主,今天计算机模拟为主,从原子-分子单位的行为进行计算,消耗大量的算力。电商行业从流量为主转变为精益化运营过程中所需的AI推理、大数据画像,智能精准推荐对真力需求也越来越旺盛。以AI为代表的真力规模每三个半月就会翻一倍。AlibabaXIPSAmk云栖大会应用趋势算力需求爆炸直播/短视频基因/制药电商手游/云游戏UGC指数级増长分子动力学大数据圖像/智能推荐实时计算编紹码负载直播/短视频基因/制药电商手游/云游戏UGC指数级増长分子动力学大数据圖像/智能推荐实时计算编紹码负载80%百万核高负載、多并行,万核集群Hadoop集群,AI推理高性能渲染然而,在算力需求暴涨的同时,摩尔定律演进速度却在减慢,硬件技术进步的红利见底。如今,每迭代一代CPU,服务器和数据中心的功耗和成本攀升,每千瓦芯片功耗在生命周期内带来上万美金的成本;硬件和芯片的成本也在逐代上涨。在云这类面向多租户的场景下,超线程(HT)架构的问题逐渐暴露出来,面对一些高密计算任务时很难满足业务需求,共享内存与物理核的机制导致租户之间处理任务可能需要相互排队,导致性能大幅下降;或者互相干扰的情况导致性能波动。技术挑战摩尔定律减速■尔定律减■处理■■■■代功耗、成本■升功,■代上■•大致据计H.AI推理’视!0.SS.■尔定律减■处理■■■■代功耗、成本■升功,■代上■•大致据计H.AI推理’视!0.SS.科学计!I,力密■业务比■増长•单vCPg帷提升H•单,务器核数扩廣降速•毎年服务88功耗上漆25%,10K$/kw•礎件和芯片成本上左如何能在实现高性能(减少干扰)的同时实现低功耗、低成本?我们认为,以此前的技术方案,无法解决业务需求和痛点,需要设计一款云原生芯片,结合现有的阿里云软硬件架构,才能更好地解决客户应用的需求。我们先来看下结果:在编解码的场景下,ECS倚天实例和传统实例相比,实现了80%的性价比提升,数据库场景、AI推理场景、大数据场景也都分别有着30%、70%、50%的性价比有效提升。目前,ECS倚天实例已应用于阿里巴巴集团核心业务,并服务科学研究、智能手机行业和多家知名互联网公司。2021年双11期间,天猫双11核心交易系统平滑迁移至倚天710云实例,算力性价比提升30%;汇量科技广告推理业务使用倚天710云实例,性能和网络带宽双双提升,性价比提升40%以上。2."倚天"利剑出鞘:软硬一体的云原生ECS架构ECS倚天实例是如何实现大幅的性价比提升的?我们从不同ECS产品架构层面,包括:云原生处理器倚天710、云计算基础设施处理器CIPU、云原生应用优化方案ECSBooster等不同层面,给大家分享。•倚天710:高性能、低功耗我们先来看下倚天710处理器在设计上,是如何解决上述问题的。从芯片层面看,主要影响应用性能的四大要素包括ALU(逻辑计算单元)、Cache、主频、加速指令。首先,倚天710单颗CPU即实现了128核的高密度设计,高规格实例可以实现线性的性能增长;同时处理器无超线程概念,避免了性能争抢的问题:独享物理核,性能更强劲;独享Cache,应用缓存更高效。

x86架构是两个VCPU/HT共享一个物理核,1份ALU(算术逻辑运算单元)。ECS倚天实例采用的是独享物理核心方式,这可以让算力密集的计算指令不必排队、不必争抢,计算速度更快。在Cache维度,过去两个vCPU/HT共享一二级缓存,相互争抢,性能波动较为严重。采用倚天CPU独享Cache的设计,让vCPU之间相互不影响,为重负载计算带来更高性能。•影响算力性能的关键因素,除了核的资源,还有主频大家知道为什么多数Web.App.DB的生产业务CPU使用率的安全水位线是50%,日常水位低于30%吗?以下图中的视频编码为例,并发超过4路后,性能下降40%;再加上前面说到的核争抢问题,如果客户的实际业务超过50-60%水位,关键生产应用将响应放慢,客户感知卡顿甚至超时问题。因此需要将CPU使用率安全水位压低,牺牲成本保证安全,浪费了另外50%资源。背后的原因是x86功耗大,高算力负载很容易造成功耗过大,温度上升,因此采用降频规避,进而影响了性能。而倚天710的功耗是主流x86的1/6,没有任何降频问题。同时也推荐倚天的安全水位可以提高到70-80%,减少资源浪费。在云上多租户共用平台,即使用户运行低负载应用,也存在相互影响的风险,倚天彻底解决了此问题。下图展示的案例就可以看到,在视频编解码四路以上时,代表倚天的橙色部分基本保持恒定,x86则会降低幅度40%。■963、9.59咼密计算主频更稳定aAlibabaIXIPSARIk云栖大会-多任务高负荷场景,倚天性能线性度表现更好,支持高负栽运行•低功耗设计,无需降频控制TDP-典型场景:EncodingforX264FPSPervCPUYitian710视频编码科学计算■963、9.59咼密计算主频更稳定aAlibabaIXIPSARIk云栖大会-多任务高负荷场景,倚天性能线性度表现更好,支持高负栽运行•低功耗设计,无需降频控制TDP-典型场景:EncodingforX264FPSPervCPUYitian710视频编码科学计算Al推理9.6312.7511.978.57 7.357.02一9.59—C8y-x264数据压境值得一提的是,倚天710还针对特定算法场景进行了加速与优化。比如像NEON、SVE等矢量计算技术,可以让单条指令处理更长的数据,可以大幅提升机器学习、视频编码和高性能计算等场景性能;另外,倚天实例还支持BF16和INT8,在机器学习场景下,大幅提升计算效率,为客户提供更多选择。

以CIPU为中心的架构:高密、稳定、强劲除了芯片本身能力,为了实现降本增效,倚天ECS实例基于云原生的硬件架构设计。传统的服务器常常设计为2路或4路,通过多NUMA互连的方式提升整机CPU密度,让一个OS调度更多CPU算力,却也增加了复杂度。在这种架构下,随着核数增加,网络和存储IO也快速翻番,还要保持跨NUMAcache一致性,导致应用性能下降;同时也带来爆炸半径过大的问题,在云计算场景下,多路的设计会让局部硬件故障的影响范围更大。阿里云采用云原生的思想重新设计。倚天710CPU单颗CPU即实现了128核的高密度设计,同时以CIPU为中心的硬件架构,通过CIPU连接2颗或者更多倚天的芯片,去NUMA方案下实现整机核密度更高,避免了跨NUMA带来的性能下降,同时由整机的高密度带来了成本下降,使得倚天实例更有竞争力。同时,多单路的硬件机型设计,爆炸半径减半,产品更稳定。此外CIPU硬件本身也是创新性的设计,通过将虚拟化与IO转发等数据面卸载到专用硬件上进行加速,消除了原来虚拟化损耗与性能争抢,并大幅加速了IO,也会使得整体性能更高;VPC环境下支持弹性RDMA加速能力,相比TCP时延降低70%以上。AlibabaXIPSARIk云栖大会基于CIPU的倚天ECS硬件架构VM实例KCAK:底层物理机架构设计以CIPU为fit心,通理CIPU连接2噸简天VM实例KCAK:底层物理机架构设计以CIPU为fit心,通理CIPU连接2噸简天CPU,歷机e«256core,未来更高机柜豊度■:采用1U紧凌设计,空间降低50%,低功耗CPU,部署密度翻倍硬件架构以CIPU为核心系统架构•■炸半径减半:独立05,独立PCB,降低彩炸半径,软硬件故建互不影响,保隆产品稀定性。・NUMA互连第■:采用独立双节点型设计方案,舞决CPU之阍Cache-致性等难题CIPU:200G吞吐,ENI和ESSD性能更高eRDMA:VPC环境支持RDMA,比TCP时延降低一半NVMe:采用NVMeESSD云盘,时延降低10%ECSBoosterECSBooster是阿里云在倚天实例上提供的软件性能优化方案,通过网络中断优化、操作系统优化、应用层优化等技术,针对web、APP、数据库等主流场景进行优化,运行在倚天实例上阿里云PaaS产品的性能获已经实现得显著性能收益,相信也能给客户业务场景带来明显受益。AlibabaXIPSAmk云栖大会ECSBooster加速倚天全场景应用Yuan开箱即用曾能优化应用配置加速AutoconfigureECSBooster加速倚天全场景应用Yuan开箱即用曾能优化应用配置加速Autoconfigure软件加速Lib/Source•AliyunECSBooster:云主机应用加速助推器,IE助应用实现•于网卡、OS、CPU.Lib庠的智能优化,实现应用性能捷升3.全场景性能大幅提升11月15日,ECSG8y(倚天实例)将正式上线,产品规格覆盖1-128核,全面搭载eRDMA加速能力,可以大大提升软件性能。AlibabaXIPSAmk云栖大会ECSG8y产品11月15H±AlibabaXIPSAmk云栖大会ECSG8y产品11月15H±线实例规格:包括C8y/R8y/G8y•可用区K:北上杭…•开放可购:11月15日vCPU内存GB■■/MlGb/s月場收发J5PP5eRDMA胃卡MIPS(Gbtt/s)ecs.g8y.sma11141-10SO1i万m方V*M6ecs.gBy.large282-109012方八1方1.5/IA6ecs.Qfiy.xUrge416>1010014万/II方2/SM6cc$.g8y.2xUrge932WO16015J5/H75ecs.g8y.4xlarge166410-1630018J5/11J55/SS6ec$.g8y.8xl4rge3212816SOO1158ecs.g8y.16xl4rge64256321000130方16ecs.g8y.32x成ge128256642000150万ECSG8y(倚天实例)有着性能卓越、生态丰富,绿色降本三个方向的业务价值,其中关于性能收益及增长方面有着很好的数据表现。前文说到的云原生处理器和创新的硬件架构,最终在应用上有哪些性能收益?我们从Web、App、Media、DB、大数据、科学计算、AI推理等七个最广泛场景来看产品性能表现。•Web场景:综合性能提升30%Web场景是互联网中应用场景最多、消耗服务器资源最多的场景。为了解决移动场景流量和体验问题,服务端常常采用网页压缩方案节约带宽。但压缩算法非常消耗CPU算力和时间,导致队列中多客户请求时延变长。AlibabaXIPSARIk云栖大会Web场景性能收益•Webserver:高并发,求下的的安全和体验CIPUS吐大时延低.■全.体验I ,据压■倚天ECS性能收益150%•Webserver:高并发,求下的的安全和体验CIPUS吐大时延低.■全.体验I ,据压■倚天ECS性能收益150%40«30%20%llllllllll0%WebGW*p«cheNolcjsSccwy测试环填说明:,ECS:G8y.2xlargevsG7.2xlarge•Software:Alinux3.2104(kernelS.10).Geel0.2.1.Glibc2.32Nginxl.20.1,NodeJSI8.2.0,PHP7.4.Apached2.4.37,NodeJS18J2.0,DPDK20.11.S•測试方法:AB分场贖采用ECSBooster智能优化(対比攻例同等优化)倚天拥有独立CPU物理核,结合SVE指令加速,单VCPU数据压缩性能翻倍,前面提到的体验影响减半。Web场景包括Nginx、Apache、NodeJS、PHP等排名靠前的应用,倚天实例对比阿里云G7系列实例,综合性能提升30%左右。阿里云防火墙CFW已经实现倚天ECS迁移。CFW为客户业务提供安全防护,需进行大量正则表达规则进行扫描,消耗大量算力,影响业务性能。采用独享物理核的ECS倚天实例,实现安全和体验收益兼得。在不同正则匹配性能优势分别为23%、40%、28%。

aAlibabaXIPSARd云栖大会应用案例-云防火墙性能提升28%-边界防火■性能收益:安全正则匹配、安全引擎・阿里云防火■:边界/NAT/VPC/主机防护僑天ec5-边界防火■性能收益:安全正则匹配、安全引擎・阿里云防火■:边界/NAT/VPC/主机防护僑天ec5性純收益测试•ECS:G8yvsG7,8xldrgeonAliyunCloudFirewall•App编程语言性能:多数性能提升40%不管是编译型语言C、Go等还是无需编译的语言Java、Python等,都很好的平滑兼容ARM架构,我们可以看到,使用开源的Benchmark进行测试,应用运行在ECS倚天实例上获得的性能提升多数有40%。6?Alibaba4PSAR4云栖大会编程语言基础性能・常用编程语言都已经完,支持ARM-多种编程语言主要Benchmark性能收益构樓方式•云上编译:YitianECSG8y・埃下编译:ARM模拟器编译俺天ECSttK4SAC/C*» javaPHPJavaScript Gotong PythonAppProgramLanguage测试环HI说明:ECS:G8yvsG7.2xlarge(8vcpu,32gmemory)Software::Alinux3.2104(kernel5.10),GcclO.2.1,glibc2.32,PHP7.4,J0K11.Python3.10•优化原生开除benchmark无优化•编解码场景:20-40%性能提升短视频和直播是如今最火热的应用,UGC时代内容指数级增长,编解码算力消耗也随之增长。如今最流行的H.264算法速度快,节约算力,但是编码后的文件更大,

消耗更多存储和带宽。H.265可以很好解决此问题,使用比重快速增长,但多消耗1倍算力成本。无论是在哪种场景下,倚天的视频编解码性能均比x86实例更高,成本更低。如图,上述两类视频编码规范的编码器X.264、X.265运行在ECS倚天实例上,都收获了20-40%性能提升;这个过程中我们进行了大量矢量指令优化,使性能大幅提高,优化软件可以向客户输出。AlibabaXIPSARIk云栖大会媒体编码开源软件性能-媒体编码综合场景MediaencodingPerformance-X265点播场■X265vod:32CinstanceAverage■-媒体编码综合场景MediaencodingPerformance-X265点播场■X265vod:32CinstanceAverage■C8y-x265-optX264live:32Cveryfasm发路散111IIIIIIIIIIIIIIII/『w,■C8y-x264■C7-X264测试环埴说明:物理核■SVE2II物理核■SVE2IIlnt8MMSoftware:Alinux3.2104(kernelS.10>,GcclO.2.1,glibc2.32.X264-opt,X265-opt•优化:ECSBooster曾能优化•数据库场景:10-30%性能提升数据库场景下,运行在ECS倚天实例上,相较与G7实例,开源软件Redis、Memcached有30%性能优势,MySQL和PGSQL有10-20%性能优势。阿里集团电商业务所使用的Tair数据库也已经迁移到倚天平台,协议上兼容Redis,性能是开源Redis数据库的3倍。Tair支撑了多年天猫双11大促,有强大的缓存能力,需要把数据缓存到内存,消耗Memory资源。我们采用倚天强大的算力优势进行数据压缩,让内存成本降低60%,叠加倚天实例自带的eRDMA加速能力,可以提升吞吐量80%,时延降低15%以上。目前基于ECS倚天实例的Tair产品已经上线,大家可以在云上使用。

ClAlibabaXIPSARIk云栖大会应用案例-阿里云Tair性价比提升20%+-倚天ECS多场景性能收益--倚天ECS多场景性能收益APPTair性能收益requestL—TL_rrJL-jtJ100%80%60%40%eRDMAonCIPU20%Ta,,DB@@@®0%ECSPipelinedAPPTair性能收益requestL—TL_rrJL-jtJ100%80%60%40%eRDMAonCIPU20%Ta,,DB@@@®0%ECSPipelined合data^ip独享物理核・TawJI多核技术.能,有效利用倚天710的多核心优势,线性提升软件住能・通过Pipline的优化,在并发■越大的场■下,更好发挥ARM忧勢,效率更高、谓求时延优势更明显Yitian710ODR5x8•说明:对比Yitian710ODR5x8•说明:对比ECSG8y对比G7买例gKS画:"""也—©fESSD«t««» DO"S*»«載警湖存储QgKS画:"""也—©fESSD«t««» DO"S*»«載警湖存储Q3硅90昏■Datasource(E)日志IDCCIKAa«aa«xJ^MLTALAU^dnudlO" • •use(存H分70%60%50%40%30%20%10%0%BigData平滑迁移ARM并发计算性能高TCO降低si试鼻境说an:ECS:G8yvsG7,ESon4xlarge.HiveonSxlarge.others2xlargeSoftware:Allnux3,JDK11.Hadoop3.3.1+Spark3.2-Hilve3.1+ES7.12,Fllnk1.13.2•优化部分场It釆用ECSBooster方案优化化)大数据场景:20-60%性能提升在需要消耗大量I。、大量计算以及高内存带宽的大数据场景中,ECS倚天实例由于拥有独立物理核、Cache更大、网络时延更低等特点,运行Spark应用性能收益20%以上,搜索ElasticSearch和流计算Flink场景性能收益达到40%和60%。上述大数据开源软件,直接编译即可在倚天实例上运行,欢迎大家试用。ClAlibabaIXIPSARA云栖大会大数据方案和收益-大数据场景整体架构・性能更高,-大数据场景整体架构備天ECS性陡收益MapReduceitB引備天ECS性陡收益科学计算:20%以上性能提升在科学计算等场景下,相比于同规格x86云实例,运行在倚天实例上的基因、制药,汽车领域等方面的算法都有20%左右的收益,我们近期有两个伙伴测试分子动力学和EDA应用,甚至实现了性能翻倍。这主要是由于科学计算场景使用的主要是物理核资源,倚天实例与同规格的x86实例相比,核物理核数量是后者的两倍,计算性能更高。阿里云弹性高性能计算平台E-HPC.弹性伸缩等云上工具已经支持ARM平台,主要科学算法也都可以平滑兼容。aAlibabaXIPSARd云栖大会科学计算场景并行计算调度・同规格ECS,倚天2倍物理核.计■效率更高高性能■理Core并行计算调度・同规格ECS,倚天2倍物理核.计■效率更高高性能■理Core丰富的算法支持测试孫境说明:•ECS:C8yv■度,■■■■ARMeRDMA/NVM•■肘延技术计算可祝化

■度,■■■■ARMeRDMA/NVM•■肘延技术• AI推理:性能提升1倍AI场景算力消耗增长飞快,成本占比急剧上升。推理场景下典型的搜推广客户都无法接受下调精度(影响模型准确度)降本。阿里云弹性计算团队和达摩院合作,推出了HIE-Engine动态量化方案,利用倚天实例的INT8加速能力,可将RestNet和Bert场景性能提升1倍,且精度没有损失。•■天710•■天710有128个物瓊羸一个NUMA节点64Z竅—CM»fVU•针对简大710的特性.始于月里达・院自研iE-Engme)R璋引・iS打性赡忧化3EMonnx«K«it.M8TF.TensoMow丹Honnxff揍工Honnx®方覆壁炮100%茶旨aAlibabaIXIPSARIk云栖大会Al推理场景优化方案•发挥AJ大710定点计鼻优劣•精度和FP32相同4.降低碳排放、降低成本对于企业客户来说,除了业务性能表现,IT碳排放和成本也很重要的一环。今天的这款倚天处理器,可以在CPU负载30%的情况下,每VCPU功耗比x86降低6倍,整机功耗降低60%以上。碳排放也等比降低。全国IDC年耗电量约2000多亿度,相当于两个三峡大坝的发电量,采用倚天实例进行替换,可以省下一整个三峡的电量。功耗=芯片主板功耗“艮务器PUExIDCPUE•成本支出:企业支出服务器占比最髙毎瓦计算性能毎瓦计算性能18个月提升T9;降低功耗和碳排JS•定价优恵:尙天ECS产品C8y、G8y.R8y定价更优,帮助企业降本除了绿色低碳,企业还能降低IT成本,大家可以看图中的定价,倚天实例对比最新一代主售实例定价是30%、23%、22%的降本幅度,将技术收益让利给客户。使用这款产品会获得更好的性价比。在前面提到的七大主要应用场景,平均性价比(性能H价格)收益可达50-80%oAlibaba/IPSARIk云栖大会控制TCO利器-典型场景性价比厩场.平s价比•场■■佳匹就实伽燮■平均性成本不分成用釆。能优化5.丰富的软件生态及应用案例下图为ARM服务器软件生态,包括主流OS、编程语言、Lib库、开源应用。这些软件我们都做过使用和测试,可以做到无需修改代码即可运行。迁移文档、迁移工具等方案可以点击这里。

目前在阿里云产品中,RDS、容器、PAI、视频云等多款PaaS产品接入倚天ECS;阿里集团电商业务也使用了倚天ECS,有效支撑阿里618、99大促以及双11大促多个活动。外部有短视频、Web、游戏、广告等客户提前使用了新产品。67AlibabaIXIPSARA云栖大会应用案例阿里云产品onYitianECS•目已经有多款PaaS产品和操作系统等适配偷天阿里云产品onYitianECS•目已经有多款PaaS产品和操作系统等适配偷天ECS产品,即开即用,屛最生态差异.-达■院语音推理业务上境基于倚天的PAI品,性能对比之前使用的C7实例高22%,性价比收益高70%+.篥团业务onYitianECS•倚天ECS实例已经有效支庫阿里618、99大促以及双11压测専多个活动,涉及电商、數据库、存储等多个业务场景,其中龟商核心交易糸统CPU利用率降低近20%,提供了优异的性能和障定性衰现。客户业务onYitianECS-x短视频客户,基于自身业务測试视频编解码场貝,性能收益高达30%以上,性价比收益高达80盼.•丫广吿企业,广告推理J8务精排模块,通过使用倚天实例提升CPU性能和内网带赏,单机成本降低15-20%,综合性价比提升40%以±,已SWX干核.最后总结一下关键词。•技术关键词倚天710云原生处理器(独立物理核、重新定义CPU水位)、CIPU为中心的硬件架构(业界最高密度、NUMAless提高稳定性、硬件加速)、ECSbooster方案(加速应用性能)。•关键数字性能提升30%以上,性价比提升50%;节约用电1个三峡。再次感谢各位见证硬核技术的倚天专场,今天倚天的一小步,将是改变未来IT历史、改变云计算浪潮的一大步,感谢大家!点击这里,查看ECS倚天实例产品详情页。二、二、Neoverse生态与软件迁移 六、倚天平台全栈应用性能优化与迁移最佳实践作者:李三红,阿里云程序语言与编译器技术总监2022年11月5日,"倚天开启云原生算力新时代”专场在杭州•云栖大会D馆云栖科创SHOW场举行,阿里云程序语言与编译器技术总监李三红发表了《倚天平台全栈应用性能优化与迁移最佳实践》的主题分享,本篇内容根据该演讲整理而成,主要分为四个部分:1) 倚天ECS应用生态全景2) 全栈应用性能优化实践3) 跨架构迁移4) 重要发布阿里云程序语言与编译器技术总监李三红1.倚天ECS应用生态全景目前,倚天ECS支持丰富的开源生态。

AlibabaIXIPSARIk云栖大会倚天ECS-丰富开源生态支持Compiler/Toolchainbinutilsos/蠣库glibcdpdkopenssLjemalloc容器/虚拟化LanguageRuntimeOpenJDKGraalVM夕pythonAsdcAlibabaIXIPSARIk云栖大会倚天ECS-丰富开源生态支持Compiler/Toolchainbinutilsos/蠣库glibcdpdkopenssLjemalloc容器/虚拟化LanguageRuntimeOpenJDKGraalVM夕pythonAsdc^GO・》ubuntu榻签CentOS,RedHatEntarpris*LinuxKubernetesContainersdockerHypervisor在开发者工具方面,倚天ECS支持GCC、LLVM等编译器,以及Java(OpenJDK,GraalVM)、Python等语言;在OS/基础库方面,倚天ECS支持glibc、dpdk、jemalloc,OpenSSL等基础库,以及ubuntu等OS;在容器/虚拟化方面,支持安全容器、Kubernetes(K8S)、Docker,KVM等等。6?Alibaba.XIPSARA云栖大会倚天ECS-应用生态全景Toolchain&LanguageOpenAnolisAnolisOS创新LTS版AlibabaCloudLinuxMiddleware&WorkloadsVirtuatization&.Toolchain&LanguageOpenAnolisAnolisOS创新LTS版AlibabaCloudLinuxMiddleware&WorkloadsVirtuatization&.ContainerAlibabaCloud

CompilerAlibabaDragonwell如上图所示,从应用生态全景看倚天ECS的支持。在操作系统方面,倚天ECS支持OpenAnolisAnolisOS创新LTS版,以及其定制版AlibabaCloudLinux;在虚拟化&容器方面,倚天ECS支持DragonflyHypervisor,ACK,以及阿里云沙箱容器袋鼠;在工具链和语言方面,倚天ECS支持AlibabaCloudCompiler(LLVMbased),

AlibabaDragonwell、NoslateAnode、APython;在中间件和工作负载方面,倚天ECS支持MySQL、FUnk、TensorFLow,Spark等等。问题与挑战QI(Function):应用如何平滑迁移倚天ECS?§§I软件栈适配:OS,基础库,开源库/框架,应用多架构管理:迁移支持,软件版本,集群管理§§Q2(Performance):倚天ECS上,应用可以获得多大的收益?性能优化:软件栈基础组件优化,二/三方库优化,通用负载优化调优支持:工具,最佳实践使用倚天ECS,大家比较关心的问题有两个。应用如何平滑迁移倚天ECS?OS、编译器、基础库,开源组件是否能提供更好的适配?是否有工具支持迁移?迁移之后,是否有优秀的云原生管理软件?多架构的软件版本又如何管理?倚天ECS上,应用可以获得多大的收益?应用能跑多快?倚天ECS通过软件栈基础组件优化,二/三方库优化,以及通用负载优化,最终实现全栈性能优化。通过相关工具,以及最佳实践,也支持客户场景应用调优。2.全栈应用性能优化实践倚天ECS全栈应用优化应用运行时/编译器AlibabaCloudLinux碇ECS工具支持•Profiling-driven・算法、实现优化应用运行时/编译器AlibabaCloudLinux碇ECS工具支持•Profiling-driven・算法、实现优化KeenTuneEMT4JPerf(x)Jjfa基础软■版本推荐-OS,编译器版本优化・软硬件协同优化-硬件加速/AlibabaCloudLinux(3)/AlibabaCloudCompiler(13)/AlibabaDragonwell(ll)(全栈视角)方法学Outsideinapproach(建立性能基线)Layeredapproach(Bottomup或者Topdown)同时使用A和B

如上图所示,全栈应用优化主要包括倚天ECS、操作系统、编译器/运行时、以及应用。实现全栈优化方法主要有两种,即Outsideinapproach和Layeredapproach。其中,Outsideinapproach是阿里云基于真实的Workload建立基线,然后基于基线进行迭代优化。在分层优化方面,阿里云的操作系统团队、编译器团队、中间件团队,以及PaaS团队等,围绕倚天710芯片进行各自的分层优化。举个例子:我们结合倚天架构的特点,对特定的操作系统和编译器版本进行的协同优化。目前,阿里云推荐的基础软件版本有AlibabaCloudLinux(3)、AlibabaCloudCompiler(13)、AlibabaDragonwe((11)。应用工具支持包括KeenTune、EMT4J、Jifa、Perf(x)。aAlibaba!XIPSARIK云栖大会AlibabaCloudLinux-倚天ECS高适配操作系统开箱即用、工单支持、十年维护有效支撑阿里云数据庫,容器服务等云产品历经阿里双11场景历练从硬件,内核,编译器,运行时,应aAlibaba!XIPSARIK云栖大会AlibabaCloudLinux-倚天ECS高适配操作系统开箱即用、工单支持、十年维护有效支撑阿里云数据庫,容器服务等云产品历经阿里双11场景历练从硬件,内核,编译器,运行时,应用全栈优化,大幅提升性能逐步向花蜥社区,以及上游社区开源max优化特性...首次完成全面支持倚天710(ARMv9)大规横实践全栈优化开源生态围绕倚天ECS,AlibabaCloudLinux有四个特点。OpenAndis龙蜥社区△ANCK5.10内債♦Anolis8.6UpstreamLinux内核+生芯AlibabaCloudLinux首次完成全面支持倚天710,实现开箱即用、工单支持、十年维护。AlibabaCloudLinux历经阿里双11场景历练,有效支撑阿里云数据库,容器服务等云产品。AlibabaCloudLinux作为基座,我们从硬件,内核,编译器,运行时,做了全栈应用优化,大幅提升性能。

4)AlibabaCloudLinux逐步向龙蜥社区,以及上游社区开源。AlibabaIXIPSARIk云栖大会AlibabaCloudCompiler-C/C++编译器套件面向倚天710芯片优化面向阿里云产品,服务云上客户・更好的支持SVE指令-基于倚天710芯片微架构调优•倚天710芯片上最新C++20特性支持:Coroutine,Modules等・一套编译器、支持x64,AArch64两种架构・更快的构建、编译速度,相比GCC15-40%构建加速・更多易用的编译优化,相比GCC取得5-15%性能提升接下来,讲一讲C/C++编译器套件AlibabaCloudCompiler。AlibabaCloudCompiler面向倚天710芯片,进行了全面优化。能够更好地支持SVE指令;团队基于倚天710芯片进行微架构调优;倚天710芯片上最新C++20特性支持:Coroutine,Modules等等。除此之外,AlibabaCloudCompiler面向阿里云产品,服务云上客户。一套编译器,同时支持X64,AArch64两种架构;支持更快的构建、编译速度,相比GCC提升15%至40%构建加速;更多易用的编译优化,相比GCC取得5%至15%的性能提升。AlibabaIXIPSARIk云栖大会AlibabaDragonwell-解锁倚天Java力量SPECjbb2015-GCthroughputSPECjbb2015-ThroughputSPECjbb2015-GCthroughputSPECjbb2015-Throughput 26%~coresAlibabaAcustomizeddownstreamofOpenJDKwithfreeLTS:Dragonwellhttp://dragonwell-jdk.io/AlibabaDragonwell的中文名是"龙井”,于2019年开源。如上图所示,在倚天芯片上,AlibabaDragonwell在不同版本间进行迭代优化,相比SPECjbb2015吞吐量提升了58%。在多核情况下的性能,更好地保证扩展性。^2AlibabaXIPSARA云4S大会KeenTune:—键式专家调优g8y.xlarge.g8y.4xlarge.vm规格g8y.2xlargeg8y.xlarge.g8y.4xlarge.vm规格g8y.2xlargeHg8y.8xlarge■KeenTuneKeenTuneHOME:http://keentune.ioOpenAnolisSIG:/sig/keentune接下来,讲一讲一键式调优工具KeenTune。KeenTune可以将云上不同的业务场景和VM规格,进行更好的组合,形成最佳的性能调优profilesoKeenTune可以一键式全栈调优内核参数、应用配置等。倚天ECS基础软件优化概览编译优化FDO/PGOLTO

并发优化WeakMemory多线程(CAS,Lock)如上图所示,倚天ECS基础软件进行了大量优化,主要有四个方向,即WorkloadProfilingDriven优化、架构差异优化、编译优化、以及并发优化。WorkloadProfilingDriven方面,我们根据负载特点,针对性地使用代码大页、XPS、内核调度、ext4fastcommit等技术进行优化。架构差异方面,主要有TLBi、新指令集、CodeCache、寄存器等方面的优化。其中,在新指令集方面,并发多线程是现代化通用负载的典型特征。LSE指令在多核情况下,能够有效提升通用负载的性能。•编译优化方面,使用了FDO/PGO、LTO等这些传统的编译器优化技术。•并发优化方面,阿里云在JAVA虚拟机领域,做了大量的WeakMemory优化,也做了CAS、Lock等多线程优化。如上图所示,倚天ECS在数据库,BigData,Web多项场景达到了20%以上的性能提升。在C++的RDS-MySQL场景,性能提升了33%;在Java的Fink场景,性能提升了30%;在Web-tooling/Node.js场景,性能提升了43%;在PHP的WordPress场景,性能提升了20%。3.跨架构迁移接下来,讲一讲跨架构迁移方案的全软件生命周期支持。目前,阿里云跨架构迁移方案覆盖了源码、构建、测试、生产上线的全流程的跨架构支持。

AlibabaIXIPSARIk云栖大会跨架构迁移-全软件生命周期支持-跨架构编译・X64->AARCH64•生产参数检查-软件版本检查•问题排查工具支持-跨架构编译・X64->AARCH64•生产参数检查-软件版本检查•问题排查工具支持•BuildSanity检查-软件版本依赖检查-代码扫描-健康性检査-基础库支持-兼容性检査-开源库/框架支持•用户在sourcecode阶段,可以用工具去检查架构上的兼容性、健康性问题。•在构建阶段,我们可以帮助用户跨架构编译,支持优化的基础库、开源库、框架的集成。•在测试阶段,阿里云沉淀了大量的实践案例,可以帮助用户进行BuildSanity检查,以及软件版本依赖检查。•在生产阶段,支持用户进行生产参数检查、软件版本检查,以及线上问题排查的工具支持。6?Alibaba.XIPSARA云栖大会ACK-多CPU架构管理只eo<:>DevOpsArmNodePoolX86NodePoolAliyunContainerRegistry(ACR)/PullByArchitecture-一个ACK集群同时管理x86节点池和Arm节点池-使用多架构容器镜像Runtime自动根据本地CPU类型拉取合适的镜像-阿里云镜像仓库ACR全面支持多架构镜像•Deploy/Statefulset/Daemonset等无需任何修改•业务在x86和Arm间平滑迁移和配置流量MutllArchImagesACKCluster上图是ACK面向多CPU架构的管理图。一个ACK集群同时管理x86节点池和Arm节点池。阿里云镜像仓库ACR全面支持多架构镜像。在ACK云原生环境里,它会根据CPU架构的不同,自动管理和拉取匹配当前CPU架构的镜像。除此之外,用户业务可以在x86

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论