爱奇艺AI推理平台演进和实践_第1页
爱奇艺AI推理平台演进和实践_第2页
爱奇艺AI推理平台演进和实践_第3页
爱奇艺AI推理平台演进和实践_第4页
爱奇艺AI推理平台演进和实践_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

爱奇艺A推理平台演进和实践张俊钦爱奇艺深度学习平台研究员背景介绍AIAI总结与展望背景介绍AI在爱奇艺的应用场景AI业务的归类CV/NLP搜索/广告/推荐爱奇艺ACV/NLP搜索/广告/推荐爱奇艺AI推理平台从离线模型训练到模型部署高可用离线离线上线 延迟

在线

弹性扩缩容监控告警

稳定性爱奇艺深度学习平台总体架构ApplicationsApplications…分发播放标注生产创作DataPlatformAlgorithmStoreAIDataPlatformAlgorithmStoreAIasaService数据样本分析训练平台推理平台工作流&Orchestration

Mesos KubernetesAIFrameworksTensorFlowAIFrameworksTensorFlowPytorch…InfrastructureInfrastructureCPU/GPU公有云网络存储AI推理平台架构演进I架构演进V1自定义镜像容器化部署支持V1自定义镜像容器化部署支持IPV2抽象环境模型独立版本管理新支持多版本服务发现V1自定义推理镜像将模型封装到镜像,推送到DockerRegistyDocker容器化部署绑定VIP,对外提供HTTP服务模型版本升级通过更新镜像和重启容器ImageImageI对外服务PryV1优点可以自定义复杂的前后处理逻辑可以封装多个相互关联AI模型的推理缺点推理镜像环境依赖和训练环境难对齐大部分是Python代码封装,推理效率比较低V2抽象深度学习框架环境平台提供各个框架版本的容器镜像模型文件独立管理S3模型加载和版本升级S3S3IS3I对外服务VIPV2Step1: Step2: Step3:上传模型文件S3

S3创建一个模型A

选择对应的镜像和实例规格88CPU20GMEM1GPU2Step4:通过平台创建Endpont服务,S3容器中爱奇艺爱奇艺AI推理平台Step5:容器启动时S3模型文件,然后加载模型AA对外服务PS3径到容器,并逐个重启V2优点推理服务只依赖于模型文件支持模型优化,提高推理效率缺点模型更新时版本不统一TCPV3模型版本动态热更新S3模型多版本管理可以同时服务模型的多个版本,支持回滚服务发现支持Consul服务发现爱奇艺AI推理平台爱奇艺AI推理平台服务发现S3V3Model表示某一个AI模型,一个逻辑的模型名称,并不包括任何模型实体文件ModelVersion表示某个Model的一个具体版本,指向一个具体的模型文件一个Model下可以包含多个模型版本,版本号必须是自增的ServingSetVersion当前服务的模型版本集合,包含一个或多个ModelVesionEndpoint一个推理服务,包括一个或多个容器实例,每个实例服务相同的模型版本V3lAl

Step3:

gtnn

模型版本 当前期望lAlAnV2… ModelA的V2和VnVn-1VnEndpoEndpointrV2VnrV2Vn

Step5:

Step4:

执行升级接口,HTTP请求到每个容器Step1:上传模型S3

模型版本直接下载模型版本然后加载V3模型版本滚动升级MoModelAlnV1V2…V10V11V12服务版本Step2:服务版本

SevingSetv1MMlAMlASevingSetv2MMlAMlA XGBoostFM机器学习模型在TensoFlowSeving的基础上增加了XGBoostFM/iqiyi/xgboost-sevingANN将HNSW算法封装成TensoFlowOP加入到训练和推理服务在TensoFlow中训练索引导出模型,部署推理服务CTRTFEmbedding矩阵拆分出来独立部署增加远程EmbeddinglookupOPAI推理平台落地优化实践指标监控服务内部的延迟,QPS等监控指标自动扩缩容根据监控指标变化进行动态扩缩容跨地区模型下载优化其他地区的推理服务从北京地区下载AI模型请求限流让推理服务在高负载下仍然可以降级服务模型热更新请求毛刺优化模型热更新期间,客户端请求超时毛刺优化使用Brpcbvar增加服务内部的延迟,QPS等监控指标bvar4支持定时的扩缩容Sch支持定时的扩缩容ScheduedRue对特定指标的变化进行动态扩缩容使指标保持在指定范围(range)内Rue对特定指标的变化进行动态扩缩容使指标尽可能接近并小于指定目标(target)TargetTrackRue对指标的变化进行提前预测,并根据预测结果提前进行扩缩容PredctRueV2VnV2VnS3在中西部地区的推理服务需要从北京地区下载模型当实例数量过多,模型较大时对带宽压力比较大,时间过长北京地区北京地区中西部地区EndpointDockerDockerV2模型下载模型上传Vn增加下载代理,通过智能DNS重定向代理分片多线程下载,本地缓存EndpointDockerV2VnDockerV2VnVn

代理DNS

北京地区上传线上业务在高峰期出现服务过载不断重启的情况GRPCServerOOMGRPCServerquotaquotapPoPoFoWok从队列GRPC消息quotaGRPC线程数量resourcequotaDoWok开始GRPC创建一个新的WokeTheadDoWok开始GRPC新线程模型热更新会出现短暂的客户端请求超时现象(称之为毛刺现象)通过Wrp来预热模型使用Joc

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论