云原生十大经典案例解读2024版_第1页
云原生十大经典案例解读2024版_第2页
云原生十大经典案例解读2024版_第3页
云原生十大经典案例解读2024版_第4页
云原生十大经典案例解读2024版_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2024/目录01 茶百道 奶茶上云,原生的更好喝 04作者:伯衡、望宸OUDNATIVE02 Rokid 当Rokid遇上函数计算 作者:王彬、姚兰天、聂大鹏ALIBABA极氪 ARMS助力极氪提效服务应急响应,为安全出行保驾护航 21作者:比扬04 创米数联 支撑“千万设备日活”的创米数联7年微服务架构演进之路 30作者:金兆旭、十眠05 美洽 对比5个开源网关项目,这家SaaS企业如何统一网关架构 36作者:古建国06 高德 阿里云函数计算FC助力高德广告投放系统架构升级 42作者:赵庆杰、林雪清、杜玲玲、王壁成07 TimHortons 轻松构建全栈观测,从容应对咖啡产业竞争 50作者:郭皛璠08 杭州亚运 高光回眸:阿里云容器服务如何全面助力精彩亚运 56作者:刘佳旭谢乘胜贤维ES09 阿里影业 容灾切换时间减少99%,“云边协同”如何提升影演服务效率与稳定性 61作者:神蚕、鹤劼CASESTUDI10 TCL TCL拥抱云原生,实现IT成本治理优化 69作者:行疾01018连接上下游供应链、以保障丝滑购买体验的数字化系统。茶百道成立于2008年,起初,茶百道坚持一步一个脚印,用了8年时间门店数量也只有100家。转折点发生在2018年,在这一年,茶百道正式开放全国性加盟,准备用规模来换市场。202020224字化系统成功云原生化的演进历程。ITSaaS城、外卖系统、加盟招募等;验;障。POS数字化要能助力好茶鲜做数字化要能支持加速拓客数字化要能对企业的经营起到降本增效的作用

OMS、WMSTMS一体的供应链信息化、自动化技术系统,实现了库存、订单、运输资源、到店服务等全链路数字化转型。在提高运送质量的同时,做到信进行再升级。BCK8sK8sACKECI,ACKECI,30s3000Pod,提升闲置资源利用率,算50%;通过ACK,茶百道有效降低了在节点、集群、应用上的日常维护、安全防护等方面的投入,全面提升供应链体系和运营中心的运营效率。二.数字化要能支持加速拓客7000330&&B(

MSE和应用实时监控服务ARMS3道标准流程。降低发版过程中的风险MSE茶百道目前日活订单超百万,很多店面是24小时营业。技术团队核心目标就是提升拓客效率、0频繁的迭代和发布,三方服务依赖多,线上故障风险增高;服务间调用关系复杂,线上出现问题后,较难快速发现和定位故障;全渠道接入全覆盖的营销场景,难以预期的突发流量,导致保障难度加大。MEenesPodPodMSErefkngres1ngress快读定位线上故障指标数据准确度与采样率难以平衡。P99缺少高阶告警能力。M故障排查手段单一。开源APM工具主要基于备丰富SRE

通过ARMS5050%。系统防护,应对突发流量ACKECIMSEMock三.数字化要能支持加速拓客运: 求承到参发流程规则制定: 保持定制灵助完成构建和发布DocerflDevOps工作流程落featureDevOps工作流程方四.迁移和实施过程

整体方案设计完成产品选型后,结合业务上云需求,我们明确了整体系统架构和切换方案。第一步,优先迁移业务层应用:K8sACK行业务验证及压测。第二步,测试验证通过后,开始生产系统流量迁移:MSE业务架构设计实施过程-架构统计POC//DNS进行负载均NgnxtreafixngressNGECS搭建了K8s集群,RDeiTDBRbbitMQKafka实施过程-PoC测试PoCPTS实施过程-生产系统切换通过POCARMSD五.总结IT

迁移计划当当02AR设备在使用时,根据定位服务,锚定在场景中的位置,根据位置的不同会显示不同的空间内容,达到扩展现实场景的效果。Rokid2014Rokid自然语言处理、计算机视觉、光学显示、芯片平台、硬件设计等多领域研究,将前沿的AlARAlARRokidAirPro这款ARRokid已和全国百余家博物馆和景区达成合作,给游客穿越时空,身临其境的非凡参观体验。一.架构革新的必要性Rokid在AR2012年GoogleGlass阔的想象空间深深震撼了RokidGlassAR技术一定会得到更广泛的应用。Rokid三维建图:制作展陈导览的第一步是取景,通过设备获取场地的真实布景,然后通过算法处理,进行三维建模,之后可以经过创作器进行下一步的内容创作。场景创作:在三维建模生成的视频流上创作,通过Web3D渲染引擎,将创作内容与场景紧密AR设备使用时,形成一体化的体验效果。

三维建图,场景创作,场景体验三个场景都涉及到了的图像处理,需要大量的GPU资源。其中三维建图属于离线任务,在构建展陈模型时,需要将整个展陈场所的视频内容进行预处理,是三个场景中消耗算力最大的部分;场景创作需要配合创作软件,GPU资源主要来自开发机器;场景体验在设备真实运行时提供实时服务,主要功能是定位服务,对服务的实时性要求很高。GPURokidECSGPU1ECSGPU3RokidCPUGPU处理时间得到了不错的提升。在并发资源方面,RokidGPUECI,ECS,ECIECIECIECIECI处,主要问题总结如下:01ECIECI定的精力,带来了一些额外的运维工作。需要一个系统维持任务的调用关系,在上一个步骤完成后,拉起下一个步骤的任务继续运行。在运行过程中,会存在异常情况,排查下来,有时是因为申请的计算资源规格过小导致计算负载较高,有时是存储异常或存储空间写满,还有些情况是程序本身性能瓶颈。对于程序的整体监控缺乏,使得出现问题时不能第一时间发现,发现有异常排查过程不够直观,需要通过多种工具获取运行指标分析。GPUECI效率。为了解决上面问题,Rokid2Rokid3ARMSPrometheus,GrafanaECISLS,Rokid14Rokid经过一段时间的调研使用,函数计算的各项能力都能够很好的满足Rokid使用场景。二.函数计算的出现恰逢其时设施,只需编写并上传代码或镜像。函数计算会准备好计算资源,弹性地、可靠地运行任务,并提供日志查询、性能监控和报警等功能。函数计算提供CPU,GPU的算力,秒级计维护调度,负载,重试,异步回调等组件,提供了开箱即用,用完即走,按量付费的极致ServerlessGPU

底层依托阿里云的大计算池,提供近乎无限的计算资源,通过阿里云的cGPU技术,可将GPUGPU启动完毕后对外提供服务。热启动启动)。Rokid的三维建图场景是离线任务,单个视频的处理时间也在分钟级,对于秒级别的启动时延完全可以接受。在三维建图任务接入函数计算后,RokidECIGPURokidRokidRokid接入函数计算后,Rokid的云产品技术架构如下:函数计算资源利用率监控图如下,从监控图可以看出,在有任务进入时,GPU计算利用率可以达到60%甚至接近100%。

三.体验与架构的妥协ServerlessRokidRokid也就是需要实时提供定位服务的模块,函数计算还是存在了一定的问题。函数计算在第一次拉起实例资源时,会存在1s(热启动)~20s(冷启动)的启动时间,这个时间对于实时定位服务模块是不可接受的,实时定位是在使用者身处展陈场地时,ARAR1s在成本和服务质量之间,RokidECIECIECI以此达到体验和成本的平衡。GPUGCPU100msGPUCPUCPU1/10,在保证实时能力的情况下,大大降低了资源成本。GPU版本的预留能力预计年底上线。场景体验采用ECI后,Rokid的业务架构图如下:极氪极氪2103ARMS响应,为安全出行保驾护航20213,20214001。极氪是一家以智能化、数字化、数据驱动的智能出行科技公司,秉承用户带来极致的出行体验。2023410010氪速度”的展现,也是对“中国速度”最好的诠释。为了保障好极氪汽车业务的快速发展和用户体验,技术团队除了保持高效的功能迭代的同2023行面向极数BI业务的数字化稳定性治理建设。20 Rokid 云原生十大经典案例四.出色的效果和进一步的期待RokidGPUECI2023/2ECS40%,更为重要的是,通过实时的并发处理,大大减少了子任务的排队时间,加快了整个任务的完成时间。下一步,Rokid对于函数计算的GPU预留实例还是非常期待,期待函数计算能够尽快上线,这样Rokid内部可以将整个的GPU算力都迁移到函数计算,达到架构的统一。经过展陈展览项目的实践,RokidServerlessServerless,Iaas供的原生能力,简单,快速的定位,解决问题。Rokid3dServerlessBIBIBIBIBI“X“X“X二.项目落地时面临的挑战和需求云原生浪潮下,ServerlessBIServerlessServerlessServerless01如何覆盖和收敛从基础设施到业务应用监控的全链路告警事件01从前台业务数据、用户体验,到后台应用服务性能,再到云服务及基础资源,即系统资源层、云服务应用层、业务监控层,虽然针对不同的服务模块都有对应监控,构建了相对完善的指标监控体系,但由于微服务化后的服务模块众多、依赖复杂,很有可能因为某个组件的异常或不可用导致整条链路产生大量冗余告警,形成告警风暴,从而造成运维团队

疲于应付海量告警信息,并且非常容易遗漏真正用于故障排查的重要消息。因此,针对海量持续告警信息,如何进行告警合并,在保证不错过02如何构建统一的报警体系、通报机制和跨团队应急协同机制02系统资源层、云服务应用层、业务监控层,为了监控这些复杂的ITPrometheus、Grafana、Skywalking、阿里云云监控、阿里云ARMS等,以获取更全面的监控数据和更好的了解运行状态和性能表现。然而多种监控系统的并存带来的其中一个显著问题是告警信息的分散,不同的监控系统产生不同的告警信息,通过不一致的方式通报给告警处理人,而告警的排查通常需要多个团队共同合作进行处理,纵横交错的告警处理增加了人员响应的复杂性和工作量,疲于应付的程度往往远超出了告警处理人员的日常负荷。03如何规范故障等级定义、应急处置流程和故障管理体系03业务可用率是一套业务系统可靠性、维修性和维修保障性的综合反映。AvailabilityMTBF/(MTBFMTTR),通常业界习惯用N999.9%(3-9availability),99.999%(5-9aailabiity),系统出现故障的停机时间直接反映了业务可用率。如何定义一套适用于极氪自身业务的故障等级定义、应急处置流程和故障管理体系将是保障极氪对外承诺的业务可用率的重要支撑手段。通过建立可以有效降低故障发生的几率,缩短故障的MTTR,最终使故障造成的0。04SLA04如何查看过去一段时间系统发生了哪些告警,哪类告警占比较高;制定了值班机制,但无法衡量值班人员告警处理的效率,如何确保值班机制的执行效果;一个服务在多个系统中配置了多个告警,无法从服务的维度来查看告警的处理效率,查看服务的SLA;在针对性的系统优化后告警占比是否降低,告警的持续时间占比是否得到改善。这些都是在日常运维过程中衡量告警的处理效率和服务的稳定性面临的典型问题。这些重要数据都需要完善的数据报表和统一的大盘来呈现。三.基于ARMS的企业级应急响应解决方案ARMSBI其中按照极氪现行推广的应急响应机制,全团队事件接手率显著提升,告警平均认领耗时(MTTA)大幅降低,告警平均恢复耗时(MTTR)明显缩短,跨团队协同效率得到有效提升。以下重点介绍下整体方案中围绕“告警、接手”两项落地的“以事件为中心的告警全生命周期管理”解决方案。

采用ARMS智能告警建设统一的告警事件管理中心极氪技术团队根据自身业务属性使用了多种监控系统,例如阿里云应用监控ARMS日志服务SLS、Zabbix、Prometheus、GrafanaARMSARMS遇到的诸多问题。01接入不同格式的告警。01ARMSPomthes数据结构来描述告警。通过高度可扩展的键值对来描述告警,这样就可以非常灵活的对告警内容进行扩展从而接入不同的数据源产生的告警。通过告警集成的字段映射能力,即可将自定义的告警内容中的关键信息ARMSARMS、阿里云日志服务SLS、Zabbix、Prometheus、Grafana02告警等级统一定义。02告警处理人员需要根据不同的告警等级执行不同的应急处理过程。按照P0、P1、P2、P303事件和告警的归一化管理。03多告警事件源通过集成的方式统一到ARMS智能告警,通过统一的事件一份通知对象、一套通知策略、一致的告警管理模式,满足极氪统一的告警事件中心需求。

通过认领告警的消息广播可以让群成员之间明确的知道当前告警是谁在处理。有些告警触发属于预期内的行为,且不会造成业务影响,但是又不能直接关闭告警。这种情况下可以通过屏蔽告警来降低告警通知的打扰。基于极氪使用的企业微信建设便捷高效的ChatOps掌上运维能力ChtpsChtOps沟通。极氪内部使用企业微信作为办公协同工具,ARMS

关注告警后,会将被关注告警的状态变更以短信的形式推送给关注人。对于重大故障的情况下,团队负责人可以通过关注告警的能力实时订阅关注告警处理的进展,从而为指挥决策提供数据支撑。关闭告警并在群聊中发送一个告警关闭的通知,被关闭的告警状态会变成已恢复。中对告警进行管理。

同时为了方便极氪告警值班人员快速知悉告警通告情况,防止群消息过多被忽略,告警通知@ARMS@IMIM

源于ITIL理念且适用于极氪组织架构和业务属性的事件管理体系BI/和恢复进展,定时播报,更新告警处理情况。

ARMS智能管理提供排班管理功能,告警通知可以按照运维人员的值班邮件或企微消息的方式发送至对应的值班人员,而不会打扰到非值班时间的运维人员。告警值班人员再根据事件管理标准流程进行告警接手和处置。通过设置通知策略,可以制定针对告警事件的匹配规则。当匹配规则被触发时,系统会以指定的通知方式向通知对象发送告警信息,以提醒通知对象采取必要的问题解决措施。通知策略中可以选择排班表,匹配到的接手率,防止值班人员遗漏告警,还可以在配置重复通知策略,当告另外极氪的事件管理流程规定告警必须值班人员干预和接手,哪怕告警已经自动恢复。ARMS智能告警提供了告警手动恢复的能力,当告警事件在告警集成中设置的自动恢复时间内都没有再触发,告警不会自动恢复,必须人工干预调整状态。满足极氪对值班人员接手率考核和度量的要求。对于长期未解决的告警,可以选择升级通知来提醒值班人员及时解决。在通知策略中添加升级策略后,系统会以指定的通知方式向处理人发送告警信息,以提醒处理人采取必要的问题解决措施。极氪的事件管理流程规定长期未处置的告警需要进行两层升级,一层到业务部门主管,再一层到应急指挥主管。通过这种方式也是为了尽可能提高告警接手率,降低告警处理和恢复时长。

测试数据大盘示意图四.后续合作的方向和规划极氪全业务推行的数字化稳定性治理正在如火如荼的进行着,整体应急响应效率得到大幅提升的同时,也挖掘了更多的能够进一步提升效率的需求点,阿里云云原生可观测团队将继续跟大数据团队在提升告警规则配置效率和进一步缩短告警恢复时间上深度合作共建。灵活、自定义的ARMSGrafana应急响应数据大盘如果没有数据报告和持续运营,那么对现状的了解就会充满了模糊和不确定性,事件管理对整体业务的提升就没法落到实处。客观的数据虽然不能替代沟通和观察,但是通过数据共享和信息的可视化,能够有效的促进共识的达成,大家都能够共同的看到和了解数据变化和现状,促进相互协作。ARMS智能告警默认提供历史告警总览和告警处理效率两张数据大盘,大盘提供了告警统计、告警趋势、MTTx指标、人员效率等一系列告警度量数据,这些数据存储在默认的Prometheus实例中。极氪则根据自身运维诉求基于原始数据在ARMSGrafana服务中配置了自定义的应急响应度量大盘,包括值班状态、告警概览、告警接手情况和MTTx指标等,帮助运维团队能够实时了解业务告警状态及应急处置情况,大幅提升了应急响应效率。

近期ARMS智能告警新发布的静态阈值推荐、告警数预测、区间检测和告警规则测试等能力将借助智能化的手段帮助极氪进一步提升告警规则配置效率。同时ARMS智能告警新增支持行动集成,提供函数计算FC和自定义Webhook的行动集成能力,基于行动集成提供的可执行的任务能够作为告警快速止血的预案,对于具有确定性特征的告警,能够提供快速的止血恢复手段,可以有效缩短实际的告警恢复时长。业务系统的稳定性和应急响应效率,是品牌口碑和用户体验的基石,阿里云将坚定不移的为客户提供极致“稳定、安全、性能、成本”的产品和方案,助力客户业务再攀高峰。77042021123115055001600500IOTIOT的性能和安全挑战。本文将为您一一道来创米是如何应对这些挑战的。云计算时代的蹒跚学步2016frontendAPI等容器弹性伸缩策略来应对动态的海量线上流量。自此创米数联在云计算时代踏上了探索服务容器化的第一步。

2019APPAPPAPP4RegionACKProKubernetesACKSpringCloud、Eureka索,我们发现当前的混合架构存在着不稳定、上线部署风险大以及高人力维护成本等问题。2021DevOpsSpringCloudSpringCloudAlibaba,NacosEureka,EurekaApolloApolloApolloNacos初版上线时,考虑到注册中心和配置中心的高可用性、热升级、成本、NacosMSENacos没有出现可用性问题。全链路流量治理APPHTTPMQTTHTTP2PushHTTPrpc因此,创米云服务的流量治理整体较为复杂。我们曾考虑过采用侵入式IstioServiceMesh的方案治理流量。然而,前者在当前百万级别设备消息的情况下性能严重受限,后者由于设备消息链路较长、打标较多,导致实现全链路灰度时配置文件实现较为复杂,而且EnvoyMSE微服务治理。APIMSE及线上灰度部署。我们使用多域名加DNS的业务网关新路由进行测试,保证服务重构后的安全上线。我们利用多K8sK8snamespacenamespacenamespacepod

不同环境间出现的资源异常导致基线环境不可用的情况。基线环境和灰度环境同属不同命podK8sfeaturebugfeatureBeta100%MSEDNSAPPMSEAPI100%安全发布。在设备消息业务的流量治理的推进过程中,为了解决无法拦截消息请求的问题,我们首先将消息总线拆分为控制器和路由器两部分。控制器监听各个通道的消息后仅对消息进行打标签和分类,然后通过异步HTTP请求经由统一的路由器转发到各个服务中。我们将路由器服务定义为流量治理的入口,从而解决了消息无法治理的问题。然后,我们使用统一的全链路灰度对打标签后的HTTP请求进行蓝绿和灰度的流量治理,并将其分发到指定的命名空间的指定服务中进行消息处理。MSEHelmack-onepilotMSEIstio版本的迭代过程中的安全发布。

SkywalkingAgent,并ElasticSearchSLSlogstore决了多个项目中的接口性能问题。ARMSACK、ARMSACKPro、ARMSGrafanaDashboard,它们提供了相当完善的集群、Node、PodGrafanaDashboard用来关注其他部分指标。创米云服务为了快速预警,设置了云产品、SLSK8s免线上损失。无损下线逻辑图podMSE微服务治理提供了无损上下线及服务预MSE微服务治理的无损上下线,并调整对应服务的就绪新启动Pod的预热流量分布

稳定性评估与演练

CI/CDDevOpsDevopsGitlabCodeUpCI/CDJenkinsCI/CDRegionRegion、多云项目的多条流水线,实现了从K8sWebHook,根据自动化测试结果报告,评估每次服务版本发布是否满足安全规范。对于线上环境稳定性评估,创米云服务选用了混沌工程的方式来检验服JavaOOM、缓存击穿、网络延迟、K8sPod资源、K8sAZHA

SLSRequestId异SpringCloudGatewayReactive写LocationCPUSkywalking。我们将SkywalkingSLSThreadLocal

未来展望未来创米云服务将业务网关逐渐转型为云原生网关+WASM插件方案,代替繁重的SpringCloudGateway业务网关,进一步提升网关性能、灵活性和可扩展性,并接入现有可观测体系。我们将继续致力于创新和技术升级,为用户提供更优质的产品体验。对比5个开源网关项目,对比5个开源网关项目,05找到一个统一网关,能够一次性解决流量网关和业务网关的路由转发需求;支持路由规则热更新,解决WebSocket连接在路由更新或网络抖动时产生的重连风暴;致力于帮助企业获客、销售和服务场景的效率提升。目前,美洽全链路产品已经服务超过40多条业务线使用了了不同编程语言,在微服务化演进的路上困难重重;历史架构使用多个流量转发中间件导致流量路径冗长、复杂且故障排查困难(LB+OpenResty+Nginx+Caddy+SpringCloud-Gateway);WebSocket长连接服务在多重路由层上不支持热更新,维护成本高。历史架构的流量拓扑图

APIWAF可视化统一网关的后台操作,让普通员工也能上手;多云架构下私有化部署支持。方案横向对比通过对目前市面上流行的网关产品进行详细的横向对比,再结合美洽对统一网关的需求目标,我们从对比的表格当中,看到了Higress所带来的最佳对比结果。同时美洽重点关注的几个点:K8SIngressWebSocketNacos由配置热更新、WASM为什么选择Higress

控制面和数据面解耦是一种很好的设计模式,把管理控制逻辑和运行处理逻辑分开,这样可以更好地管理和扩展系统。面向多云架构友好Higress:MSE2021SaaS相比自建同吞吐的网关,整体成本是更低的,因此我们在阿里云上直接使用了这款产品。HigressK8sCRD

Console负责管理和Gateway负责处理请求,灵活可扩展,互不干扰;整个系统的性能和可用性可以得到很好的保障;即使控制面出现问题,数据面仍然可以继续处理请求,反之亦然。Higress,Nacos容易上手的后台Dashboard原生支持K8sIngress

2021MSE云原生网关时,就已经对网关的控制台使用QAHigress,MSE产品的交互保持一致,团队使用很快便上手了。美洽从2021年便已经全面迁移到Kubernetes进行资源调度,遇到最大的困难是历史的网关中间件,在容器化的架构里面,各种水土不服,要么需要借助Nginx-Ingress-Controller,SLB还必须云原生的。2021MSESaaSNginxMSENgxinConfigurationMSENacosK8S80%大部分容器化服务路由转发全部迁移到了云原生网关上。这带来的收益就包括:SLBPod;ECSNginxOpenRestyCaddy服务发现和服务治理,以及各个服务当前的健康状态都以可视化的Dashborad呈现出来;

JWTAuthKeyRateLimit,HMACAuthDetectWAF功能有涉及。控制面和数据面解耦的架构

熔断限流采用Helm在K8snode上一键部署helmrepoaddhigress.iohelmrepoaddhigress.io<https://higress.io/helm-charts>helminstallhigresshigress.io/higress-nhigress-system--create-namespace完全替代了Nginx、OpenResty、Caddy、SLB-Intranet彻底解决WebSocket断线重连问题

2BSaaS影响其他客户正常使用的情况,这时我们需要针对客户规模对单个客户的API并发上限做灵HigressKeyRateLimit经验总结美洽的智能客服产品侧使用了WebSocket进行长连接保持和消息通信,所以非常依赖网NginxOpenResty或者变更失败带来的瞬时断联是极其痛苦的。

HigressSaaS统一流量网关+业务网关能力,实现了给企业降本,为研发增效;为云原生架构提供很好的基座,在异构语言服务化层面排除了网络通信难题;路由热更新、无损升级、可视化Console、开放的插件、基于Kubernetes和Istio,给技术演进带来了更多的可能性。HigressNginxReloadGateway,reloadWebSocketServerPodHigress

HigressHigress广告投放系统架构升级06原系统服务器占用较多,依赖链路较长,每次扩容,依赖服务也需相应扩容,造成资源占用较多。2023回家看看父母亲;心心念念的旅行终于可以成行了。按照高德的估计,202320222022如何在短时间内快速完成春节出行的备战准备工作,保障系统在春节流量高峰下平稳运行,让民众出行所必需的导航等信息服务访问可以丝般顺滑,成为了摆在技术人员眼前的迫切事情。要在流量变化很大的情况下保障系统平稳运行,同时做到降本增效,怎么做到呢?ServerlessFCServerlessServerless算资源,不用担心资源是否足够,经济成本大幅下降、研发和运维效率明显提升。Serverless顺畅完成。2022FC放系统实现架构升级的。一.业务背景

二.技术选型人群命中功能人群命中功能,本质可以归结为检索某个元素是否在一个集合中的问题。bloomfilter进行解决。bloomfilterhashRedisbf(bloomfilter)golang,JavabloomfilterRedisfilter)RedisbfRedis此节省下来。什么是RTARTA是一种实时的广告程序接口,通过发挥媒体与广告主双方的数据、模型能力,实现实时的广告优选;RTA是一种接口技术,更是一种策略导向的投放能力。广告媒体通过高德的RTA接口,来询问是否要投广告,RTA的服务通过查询高德自己的人群信息,返回投放结果。这样媒体投放广告可以更精准。

数据同步目前圈人平台的数据更新有4种类型:在线、实时、离线单次、离线周期。目前的圈人策略都是基于离线人群进行圈定。后续虽然有可能使用在线和实时的情况,不过由于RTA广告圈定的人群一般较大,实时人群的变化的比例较低,且媒体端均有缓存,实UDFRedis

高性能要求Serverless化

RTA广告投放系统作为为外部媒体提供相关服务的系统,具有大流量,延迟要求高的特点,ServerlessFC值控制在SLA为什么要Serverless化通过重新划分应用和平台的界面,Serverless使得业务可以专注自身业务逻辑,人人都可以快速开发出一个稳定、安全、弹性、可扩展的分布式应用成为可能。

三.落地方案系统架构RedisbfIDRedis如何实现Serverless化新的技术选型里,引擎服务需要访问Redis。这是一个有着高频存储访问的系统如何Serverless化的问题。

特点:

去除网关,减少链路长度数据压缩,减少内存占用系统Serverless化,实现实时弹性和免运维,加快应用迭代速度ServerlessFaaS+BaaS。FaaS:FunctionasaService,函数即服务,一般是各种后端微服务。BaaS:BackendasaService,FaaSServerlessIOPS/阿里云提供Redis企业版服务,集群架构版本提供多种实例规格,支持最高2G总带宽,6000万的QPS。支持调整实例的架构、规格等,以满足不同的性能和容量需求。可实现无感扩缩容。可以满足引擎服务Serverless化之后对存储的要求。而FaaS是目前后端微服务Serverless化最常见的技术选型。阿里云函数计算FC是Forrester测评认定的全球领先的函数计算产品,在公有云和集团内都积累了丰富的应用Serverless化经验,是合适的选择。

请求调度FCFCQPS请求处理所需的系统耗时要控制在平均值小于2ms,P99值小于10msFC

资源交付Serverless台需要将空闲的资源自动释放掉。FC续优化了资源管理的实现。Serverless新底座:神龙裸金属+安全容器FCDocker存在容器逃逸存等这样的安全问题,为了保证安全性,一台宿主机只会部署一个租户的FCFC为了实现实时弹性,当函数的请求到达函数计算FC的前端机之后,前端机会找调度节点

独立的资源管控K8sPodServerlessFCPodFCPod为了保证高可用和横向可扩展,调度节点采用分区架构同一个用户/函数的请求映射在连续的分片区域内单函数请求可跨越多个分片,横向扩展调度节点(Partitionworker)通过心跳向分片管理器(Partitionmaster)汇报分片和节点状态Partitionmaster通过移动/分裂/合并分片进行负载均衡调度100万函数,单函数最大峰值20万TPS,调度延时小于1ms任何节点故障,请求会被路由到其他Partitionworker上,对可用性无影响FC2ms,P9910ms。

毫秒级资源交付速度K8s,ServerlessK8sFCFCPod高可用FCregionK8sK8sK8sFC据业务的特点,进行统一调度,从而把成本进一步的降低。多机房部署系统采用三单元部署,保证外部媒体都可以就近访问,降低网络时延。交付SLAFCFCFCFCburstFC突增实例数:可立即创建的实例数(默认300);实例增长速度:超过突增实例数后每分钟可增加的实例数(默认每分钟300)。以上参数为可调整。

四.业务效果Serverless系统变得更加弹性、健壮和易于维护,取得了很好的业务效果。下图展示了在一个调用量快速增长的场景下函数计算FC的流控行为:五.展望2022ServerlessFCServerlessServerless,Serverless0707

试微服务化,采用了以Dubbo为核心的微服务技术架构。微服务架构将应用分解的同时,1964,TimHortonsTimHorton60年的发展,TimHortons已成为全球著名咖啡连锁品牌。在英BrandFinance25TimHortons2019,TimHortons2023TimsTims20237,Tims700+40+并1000,Tims将全球品牌力与本土创新加速融合,逐渐走通了一条独有的可持续增长路径。Tims2021TimsTimsTims一.云原生化带来的技术红利

二.云原生带来的可观测挑战但随着容器化、微服务化逐渐深入,云原生化带来的运维挑战与痛点驱动Tims天好咖啡运维团队构建更加精细与完整的运维可观测能力:业务稳定性驱动:如何保障业务可用性?作为拥有海量客户的餐饮品牌,Tims可用造成的业务损失,可能大于微服务架构本身带来的架构红利。TimsTims链路之间无法关联,多个告警可能关联的是同一条完整链路的上下游服务,运维团队对于告警或故障的判断可能被误导或反复排查。2021TimsK8sCI/CDACK的标准化界面很好的解决了容器的高密部署以及系统运维问题,极大的降低了人工运维和资源成本。为了更好的满足快速迭代、稳定发布诉求,2022年Tims天好咖啡对已有业务系统开始尝研发效能驱动:全面提升研发效能与代码质量TimsCodereview进行量化评估及巡检。构建运维巡检机制:先于客户发现问题随着业务规模愈发增大,为了提供更稳健的服务与更优质的用户体验,TimsIT&&问题、定位问题的运维巡检闭环,做到技术驱动用户体验与业务优化。

三.解决方案落地TimsTims地域,又通过不同网络运营商进行接入,甚至存在复杂第三方依赖,包括CDN、第三方统计因此,TimsARMS、首次渲JSAPIJS在云原生改造开始前,由于各个服务系统相对简单,TimsZabbixZabbix无法再满足更加丰富的可观测需求。Tims围绕业务增长规划全链路可观测体系针对运行态,从前台业务数据、用户体验,到后台应用服务性能,再到云服务及基础资源,即系统资源层、云服务应用层、业务监控层,构建全链路可观测体系,及时发现、定位、解决影响业务与用户体验的故障与瓶颈。避免“自下而上”产生的后台问题,浪费团队时间与精力。同时,借助链路、日志、指标等不同类型指标的融合,提升预警的及时性与准确性,并有效提升故障排查效率。可观测驱动研发效能提升作为领先的技术团队,Tims天好咖啡将DevOps理念与流程引入日常研发流程中,尤其是系统经过云原生改造后,TimsARMSARMS前端监控与应用监控,TimsAPI

针对容器及中间件云服务,TimsPrometheusGrafanaPrometheus版获取ARMSGrafana在建立可观测体系过程中,能够更早发现问题并提示的告警体系是非常重要的环节,TimsARMSInsight」结合的方案进行日常告警配置。ARMSInsightARMS6Tims,TimsTims面助力精彩亚运面助力精彩亚运08202319ACKACR等通过高效稳定、极致弹性、安全智能等能力的输KubernetesACKKubernetesACK2023GartnerForresterACR正如体育精神体现出的进步与超越一样,阿里云容器服务也在不断向极致的能力发起挑战。在这次亚洲瞩目的体育盛会服务保障中,容器服务专业版ACKPro,容器镜像服务企业版ACREE,都凭借出色的发挥,为更多上层的项目应用构建和运行提供强大的能力基座,更向世界证明了来自中国的云原生基石能力。下面让我们一起回顾阿里云云原生容器服务ACK和ACR是如何助力精彩亚运的。

AGIS(GMS)、成绩发布系统(RDS)和赛事支持系统(GSS),支撑56个竞赛场馆及信息技1045系统汇集,以打印分发、信息发布、数据接口等不同模式向外界呈现。如此核心的系统需要系统具有极高的稳定性和高可用性,不容任何差错。凭借ACK稳如磐ACKAZACKDMZ/Trusted(DMZ/TrustedACR0。20237ACKACKACK稳定性源于大规模实践经验沉淀:ACKK8s全面的支持。ACKACR618业务,具有丰富的阿里电商场景的极限压力锤炼经验。K8s性功能。ACREE产品集成全链路高可用、DevSecOps安全交付链能力,稳定支撑月均镜像拉取数十亿次,服务数千家企业级客户在生产环境深度使用。二.极致弹性、极致高可用,保障亚运一站通杭州第19届亚运会组委会推出的国际大型综合性运动会史上首个一站式数字观赛服务平台,通过运用区块链、大数据、人工智能等高新技术,对接数字城市各类资源,整合亚运城市1.19亿,日均访问人次超过1亿,累计访问人次超过60亿。部分关键应用包括:

集群外弹性: 集群内部资源弹性耗尽之后,将开始外部弹性,方案包括弹节点和弹ECI容器。利用阿里云资源快速弹性ECIPod,可实现分钟级创建万量Pod的能力。通过配置ECIPod拉取ACR镜像缓存,实现ECIPod秒级启动。集群通过安装ACREE按需加载、P2P分发套件,解决集群大规模应用部署时出现的流量洪峰问题,享受极致的弹性体验。办树立了标杆作用,ACKACR亚运PASS赛事查询线上火炬传递

“亚运PASS”整合景区入园、文博场馆预约、公共交通出行等各类应用场景,为游客提供“一码通行”的便捷服务。赛事查询整合赛事日程、竞赛项目、亚运场馆等信息,为用户提供比赛成绩展示、亚运奖牌榜、亚运场馆查询等赛事一体化服务。10045

三.亚运一站通的后台服务正是基于ACK集群构建,在赛会全程安全、稳定、可靠,顺利完成保障亚运服务精彩、高效运行的任务。ACKACREEC///合的弹性策略:集群内弹性:

Pod。

智能化底座支撑了亚运会的多种智能化服务,其中,“亚运钉”是杭州亚组委和钉钉联合打造的全球首个大型体育赛事一体化智能办赛平台,为十万赛事工作人员提供服务。60 杭州亚运

云原生十大经典案例

阿里影业 2931025频会议数超过5000次。亚运期间,近十万工作人员通过亚运钉实现了在线扁平化沟通协同。此外,亚运钉还能支持汉英日泰等13种语言的实时翻译,方便不同国家工作人员的相互交流。作为统一的业务协同平台,亚运钉接入了行政审批、气象服务、会议服务、医疗服务等各293高效便捷地满足亚运在筹办和运行阶段所出现的新业务流程。奥运等大型体育赛事提供经验参考。ACKServerlessServerlessContainerK8sECIACKServerlessAIACREE全球同步能力助力亚运钉高质量、高效率地交付业务应用,实现全链路云原生应用发布。通过将ACREECI/CD

容灾切换时间减少9协同”如何提升影演服务效率与09 少朋友都有着切身的感受。路向数字化和智慧化变革。服务ACK@Edge实现了一套面向影演现场服务场景的云边端一体混合云架构,通过对海量20236四.展望20202022本次亚运会中,阿里云ACK和ACR再次深度参与到赛事项目和活动中,稳如磐石地承担了亚运信息系统AGIS、亚运一站通、亚运钉等核心项目,为体育赛会带来了业界领先的云原生技术、产品和服务,与阿里云各个产品线通力协作顺利完成了亚运会的支持和保障工作。未来,阿里云ACK和ACR也会在即将举办的巴黎奥运会中提供服务保障,我们将持续构建安全、稳定、性能、成本持续优化的云原生技术能力和稳如磐石的服务品质,促进阿里云的科技之光与五环之光交相辉映,帮助全球更多行业、企业加化数字化转型进程。几点,还需要尽量降低成本。构,解决现有瓶颈与未来扩展问题:云边协同便捷:随着云计算、边缘计算和物联网等技术的快速发展,对于协同工作的需求也在不断增长。云边协同可以充分利用这些先进技术,为用户提供更高效、便捷的协同体验。

二.阿里影业基于ACK@Edge的云边协同IoT架构实践为现场提供高可用、高性能、高扩展的现场服务。ACK@Edge面向大规模边缘计算场景,ACK@EdgeKubernetes非侵入方式增强方式支持边缘计算场景下的应用统一生命周期管理和统一资源调度,帮助企业专注于容器化应用的开发与管理。高效数据处理:

数据已成为企业和组织最重要的资产之一。伴随电影演出数据量呈现爆炸式增长,这使得对数据的存储、处理和分析需求也随之增。云边协同可以帮助用户更好地管理和利用这些数据资源,云边协同可以跨越地域和时区的限制,提高工作效率。低时延:大幅降本:

在电影演出现场,对数据处理和反馈的实时性要求非常高。云边协同可以通过边缘计算技术,实现数据在本地设备的快速处理,降低延迟,满足实时性需求。云边协同可以在本地设备上进行部分数据处理,减少数据在网络中的传降低硬件投入成本以及硬件运输成本。

图1:阿里云边缘容器服务ACK点提供存储、网络、安全、监控、日志等能力;在集群管理方面,APIserverFlannel提供API定性。ACK@Edge目前已经广泛应用于CDN、实时音视频云服务、在线教育、交通、智慧城市、智慧工业、IoT、物流、水利、能源、农业等场景。阿里影业的现场换验云边端协同架构使用ACK@Edge作为底层云原生边缘基础设施调度的托管底座,利用ACK@Edge提供的边缘自治、边缘管理、服务运维等能力来支撑云控边、边自治的设计原则。图2:阿里影业云边协同解决方案整体架构ACK&EdgemasterACK&Edge的边缘自治能力保证现场节能够保证正常地进行验票、换票等操作,此外,通过ACK&Edge的可观测能力,对现场服务节点进行监控、告警等以提

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论