FFA2023云原生专场资料汇总_第1页
FFA2023云原生专场资料汇总_第2页
FFA2023云原生专场资料汇总_第3页
FFA2023云原生专场资料汇总_第4页
FFA2023云原生专场资料汇总_第5页
已阅读5页,还剩198页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

阿里云开源大数据Serverless平台负责人 ServerlessFlink正式上线集团实时计算统一到BlinkServerlessFlink正式上线集团实时计算统一到BlinkFlink资源管理2.0《Yarn和K8s分层混部》Flink资源管理3.0《基于K8s原生混部》Flink资源管理1.0《大规模实时任务调度》Flink资源管理1.0《大规模实时任务调度》WebServerTopiaAgentFlink流任务Flink批任务混部机器NodeManager混部机器TopiaServerResourceCalculatorPlAllocationServiceAPIServer WebServerTopiaAgentFlink流任务Flink批任务混部机器NodeManager混部机器TopiaServerResourceCalculatorPlAllocationServiceAPIServer AOPAOP:tensorflowonFlink非混部机器非混部机器ResourceManagerAgentAgent存储存储AppManagerTaskManagerDispatcherTaskManagerAppManagerTaskManagerDispatcherTaskManagerStatefulSetJobManagerDeploymeJobManagerDeploymentTaskManagerDispatcherJobManagerRestServerJobMasterTaskManagerTaskManagerDeployer-AppLifecycleJobManagerTaskManagerTaskManagerTaskManagerTaskManagerTaskManagerDispatcherJobManagerRestServerJobMasterTaskManagerTaskManagerDeployer-AppLifecycleJobManagerTaskManagerTaskManagerTaskManagerTaskManagerJobManagerJobManager2K8sApiServer21ClicommandJobManagerJobManager -AppLifecycle1.trytocontendperiodicallyrenew2.publishaddress3.retrieveandwatchJobManager(Leader)...1.trytocontend3.retrieveandwatchJobManager(Standby) 1.trytocontendperiodicallyrenew2.publishaddress3.retrieveandwatchJobManager(Leader)...1.trytocontend3.retrieveandwatchJobManager(Standby) CheckpointsTaskManager JobGraphsBlobFilesJobManagerConfigMap•LeaderaddressDispatcherConfigMap•LeaderaddressRestServerConfigMap•LeaderaddressResMngrConfigMap•Leaderaddress4.filereferences3.retrieveandwatch4.filereferencesTaskTaskManagerperiodicallyrenew3.retrieveandwatch1.trytocontend3.retrieveandwatchClusterConfigMap•JobManagerleaderaddressperiodicallyrenew3.retrieveandwatch1.trytocontend3.retrieveandwatchClusterConfigMap•JobManagerleaderaddressTaskManagerTaskManager1.trytocontendJobManager(Leader)JobManagerConfigMapJobManager(Leader)JobManagerConfigMap...JobJobManager(Standby)3.retrieveandwatch3.retrieveandwatchCheckpointsCheckpointsBlobFilesJobGraphsFlinkKubernetesOperator保证资源APIServer节点实时指标Koordinator基于负载均衡的调度优先级抢占DeschedulerKubelet保证资源APIServer节点实时指标Koordinator基于负载均衡的调度优先级抢占DeschedulerKubeletAllocationUsageKoordinator:JMTMTMJMTMTMTMJMJMTMTMJMTMTMTMJM JMTM TMTMTMTM弹性资源保证资源 JMTMJMJMNamespace-3NamespaceNamespace-3Namespace-2VirtualCluster:/kubernetes-sigs/cluster-api-provider-nested/tree/main/virtualclusterVPCEndpointVPCEndpointServicecn-Beijing-1/…AZ1AZ2AZ3VPCEndpointVPCEndpointServicecn-Beijing-1/…AZ1AZ2AZ3SG-WorkloadsAgent…SG-Workloads …SG-Workloads …SG-SystemAgentVirtualVirtualClusterBSG-Systemimageimageimageimageimageimage(PrivateLink)(PrivateZone)(PrivateLink)(PrivateZone)…………TenantBTenantAAgent…FullyManagedDataPlaneKafka…TenantBTenantAAgent…FullyManagedDataPlaneKafka……PortalPortalAccount,SellingAPIGatewayCloudManagerConsoleawsus-west-1/…ReadRead(S3/GCS/AzureBlobStorage)VirtualClusterBVirtualClusterAServerlessKubernetesVirtualClusterBVirtualClusterAServerlessKubernetescn-hangzhou/…9StarRocksVirtualClusterE神龙裸金属节点BringYourOwnCloudBringYourOwnCloudManagedManagedKubernetesSyncStatus 0.1系列发布0.2系列发布0.3系列发布对外开源诞生于阿里云诞生于阿里云Standalone部署正式捐赠给ASF贡献/使用的企业:小米/Shopee/网易/丁香园/携程/BIGO/B站/ebay/Kyligence/AWS/微博/小红书/阿里/蚂蚁/米哈游/B站/VIVO/LinkedIn/BOSS/同城旅行/知乎/亚信…服务端•集群状态管理客户端•管理当前作业的Shufflemeta•Pushes/Fetchesshuffledata00001112200001112200Rescale121130ForwardBroadcastForwardRebalance000134ReducePartition详细流程整体流程详细流程独立部署独立部署21:19:4421:20:0121:19:4421:20:0121:19:5321:19:53worker:workerisstopped.worker:Regusterworkersuccessfuy.•顺手来个starJ/apache/incubator-celeborn•FlinkHybridShuffle•Flink+ReducePartitionjarjar业提交侧问题提交侧问题优化举措优化举措回调状态与提交日志共享存储构造集群IDapp-{时间戳}-作业数据库ID挂载共享存储检查资源配额p个拒绝提交p个拒绝提交否资源配额下申请流程是否是否满足资源是例如:http://例如:http://ostream-flink.oppoer.me/app-1699843678-22841/job-1http://ostream-flink.oppoer.me/xxxxxx/一job-2job-3apiVersionapiVersion:networking.k8s.io/v1metadata:name:kafka-ingressannotations:kubernetes.io/ingress.class:"nginx"nginx.ingress.kubernetes.io/rewrite-target:/$2spec:rules:-host:"ostream-flink.oppoer.me"paths:path:/app-1699843678-22841(/|$)(.*)backend:service:运运异常点r1.LostTaskmanager,已经下线的TM通过日志平台查询收集的容器日志。2.PendingTaskmanager,尚未注册的TM通过k8sAPI查看Pod的调度的event查看调度日志作业必须等到完整资源就位才会部署task缺乏响应外部资源变化的接口,无法有作业必须等到完整资源就位才会部署task缺乏响应外部资源变化的接口,无法有效应对弹性伸缩的需求支持算子固定最大并发支持算子固定最大并发支持响应外部资源变化的接口支持响应外部资源变化的接口资源就位速度慢,先解析成资源就位速度慢,先解析成支持扩缩的时候不丢不重支持扩缩的时候不丢不重支持创建不同规格的支持创建不同规格的TM预计算Taskmanager的数接口伸缩参数强clinetAdaptiveSchedule是rescaleTaskExecutorescaleTaskExecutorcancelTasksgoToRestartingcancelTasksgoToRestarting长>依据作业拓扑中每个算子真实的负载来决定其真实的并行度。target_parallelism=scale_factor*cuuenrt_parallelism指标名称(单位:条/秒)算子的目标负载(target_load)(current_true_processing_capacity)其值可以通过(current_processing_capacity*target_load)/current_load得到;(target_data_processing_capacity):算子的伸缩因子(scale_factor)target_data_processing_capacity/current_true_processing_capacitybackpressure1%backpressure1%40/((100/0.75)0.5)=0.262 2......>在平台提供了用户开启弹性伸缩的前端页面,也给出了常用的默认设置>如下图所示,在CPU利用率大于70%并持续5分钟的时候,开启扩容,在CPU利用率小于30%并持续5分钟的时候,支持的规则支持的规则üset'table.exec.source.force-break-chain'='tr1.支持以插件的方式,加载作业归档的实现。归档方式更加灵活,不在限于hdfs1.支持以插件的方式,加载作业归档的实现。归档方式更加灵活,不在限于hdfs2.改netty-web为spring-bot,提升访问性能3.Suspend状态也可以归档。4.真正running之前的异常也支持归档历史服务插件化历史服务插件化作业历史作业历史异常接入异常接入gpt/cubefs/compass资源诊断,参数调优异常诊断,解决方案王世涛|货拉拉大数据实时离线平台负责人陈海晴|货拉拉大数据海外实时平台负责人 •torrent任务状态机增加资源申请状态••torrent任务状态机增加资源申请状态•operator使用推拉模式进行状态同步•使用k8s的taints,nodeSelector,nodeAffinity进行约束task-state-managercrd-manager基础服务节点组基础服务基础服务节点组基础服务X86节点组任任核心任任 •任务日志采集•任务指标采集•f任务ui可视化•任务日志采集•任务指标采集•f任务ui可视化•operator指标采集•torrent指标采集task-log-appenderalarm-gatewaytask-rulealarm-gateway metrics-serviceflink-task•多种指标辅助任务运维•使用历史统计指标进行缩容•多种指标辅助任务运维•使用历史统计指标进行缩容•使用历史统计指标高峰来临前扩容•单任务缩容下,联动处理其他任务task-scheduletask-restarttask-cronsystem-ruletask-scheduletask-restarttask-cronsystem-ruletask-computetask-rule状态状态观测性存储服务flink-taskmigrate-managermigrate-ruleflink版本升级migrate-quota协调资源状态观测性存储服务•制定和自动推进迁移计划•使用可视化工作流编排单任务迁移流程•迁移流程考虑任务稳定性和集群资源使用率hbase-rsb•支持hbase-rsb•支持mem/rocksdb-cache•支持redis/hbase-remote-state•支持remote-statecrudremote-state-managerflink-sql-gateway•支持mem/rocksdb-cache加速•支持mem/rocksdb-cache加速•支持mem/rocksdb/remote多层存储reloadmem-cache(k,v)rocksdb-cache(k,v)mem-cache(k,v)•支持根据状态特性使用不同的模式•支持mem/rocksdb缓存参数调整remote-state-backendjdbc•支持多集群rsbremote-state-backendjdbc•支持多集群rsb管理•支持状态crud•支持状态修改管控remote-state-managermetadata-serviceflink-sql-gateway-service反序列化udfflink-stateful-function-service序列化udftask-tm-operatortask1-tm-operator•task-tm-operatortask1-tm-operator•支持多集群•支持和原生模式切换datametadatatask1-tm-operatorrsb-clienttask1-tm-operatorrsb-client•支持多集群•使用version托管cptask2-tm-operatorhbase-remote-state-backendmetadatatabletask-state-locationtable1:taskid1cf:operatorversion:cp1,cp2,cp3table2:taskid2cf:operatorversion:cp1,cp2,cp3,cp4remote-stateremote-stateflink-stateful-funciton-service更好的资源隔离更精准的压测任务效果更便捷的镜像管理稳定性更短的cp周期(hbase-remote-state)更快的state-rescala...•收敛重复请求,比如增加分区操作...•增加缓存能力,比如纬表加载flink-stateful-function...更快的缩容 更大的资源池(在离线)成本更高效使用多机器间硬件资源 remote-state更精细化的TTL,减少无效TTL的占用更少重复的状态/指标存储flink-taskstate-backendredis/hbase业务指标flink-taskremote-statebackend service•支持redis指标和状态共享•支持hbase指标和状态共享陈政羽|ApacheFlink/StreamPark FlinkKubernetesOperator是一款云原生应用,其主要功能是管理、检测和监控Flink作业的部署状态。在没有Operator的情况下,用户需要对Flink的部署流程有一定的了解才能完成完整的业务开发,包括启动集群、部署作业和升级作业。当在这些过程中出现问题时,用户必须对Flink有相对深入的了解,才能解户的这些繁琐流程,其主要目标是实现这些流程的自动化,让用户无需关心内部细节即可完成Flink作业的作业全自动运维基于K8S云原生环境作业根据负载自动调整并行度用户可以使用Kubernetes命令行工具定义一个Flink作业资署状态和作业运行状态apiVersion:/v1beta1metadata:namespace:defaultname:basic-examplespec:image:flink:1.17flinkVersion:v1_17flinkConfiguration:taskmanager.numberOfTaskSlots:"2"jobManager:resource:cpu:1taskManager:resource:cpu:1job:jarURI:local:///opt/flink/examples/streaming/StateMachineExample.jarparallelism:2state:running社区用户诉求:作业自动调优的目标比较

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论