硅基流动高性能低成本的大模型推理云实践-陈凯_第1页
硅基流动高性能低成本的大模型推理云实践-陈凯_第2页
硅基流动高性能低成本的大模型推理云实践-陈凯_第3页
硅基流动高性能低成本的大模型推理云实践-陈凯_第4页
硅基流动高性能低成本的大模型推理云实践-陈凯_第5页
已阅读5页,还剩74页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2024-08•••••••••供给侧加速进化的大模型••••••••1./visualizations/the-rise-of-generative-ai-large-language-modelske-chatgp2.https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard,2024年8月15日检索。••••••••1.https://openrouter.ai/rankings,2024年8月15日检索。2./100-gen-ai-apps/,2024年8月15日检索。•供给侧加速进化的大模型••••••••而昂贵的硬件资源3./blog/mastering-llm-techniques-inference-optimization/4.https://youtu.be/hMs8VNRy5Ys••••••••大模型推理挑战:本身是一个慢而昂贵的任务1./cocktailpeanut/status/18158766344924573192./market/list••••••••1.https://artificialanalysis.ai/models2.https://www.aidancooper.co.uk/how-to-beat-proprietary-llms3./cocktailpeanut/status/1815876634492457319••••••••大模型推理挑战:模型推理优化兼具理论和工程难点••••••••1./2./1962.html1./blog/reduce-cold-start-time-llm-inference••••••••1./en-us/msoffice/forum/all/cannot-access-onenote-notebooks-error-message/8525998a-f8cd-4251-aee6-080b1b7be3d12./tensorflow/tensorflow/issues/193473./t/coredump-when-registering-a-dispatched-operator-in-c-with-cuda-backend-only/170415•供给侧加速进化的大模型••••••••••••••••••••••••••••••••1./visualizations/the-rise-of-generative-ai-large-language-models-llms-like-chatgpt/••••••••对话助理类对话助理类程序生成类数据分析类视频生成类图片处理类语音生成类模型管理模型部署模型调优模型推理标准模型部署模型快速启动模型动态扩张模型业务监控MaaSceepseelResourcesInferenceFrameworkPaaSlangfuseServiceText2SQLcomfyUIFrameworkLangSmithAsAServiceComfyUIAsAServiceC-)Alibabacloud图片处理类语音生成类模型管理模型部署模型调优模型推理标准模型部署模型快速启动模型动态扩张模型业务监控MaaSceepseelResourcesInferenceFrameworkPaaSlangfuseServiceText2SQLcomfyUIFrameworkLangSmithAsAServiceComfyUIAsAServiceC-)Alibabacloud••••••••对话助理类对话助理类程序生成类数据分析类视频生成类图片处理类语音生成类模型管理模型部署模型调优模型推理标准模型部署模型快速启动模型动态扩张模型业务监控MaaSceepseelResourcesInferenceFrameworkPaaSlangfuseServiceText2SQLcomfyUILangSmithAsAServiceFrameworkComfyUIAsAServiceC-)Alibabacloud图片处理类语音生成类模型管理模型部署模型调优模型推理标准模型部署模型快速启动模型动态扩张模型业务监控MaaSceepseelResourcesInferenceFrameworkPaaSlangfuseServiceText2SQLcomfyUILangSmithAsAServiceFrameworkComfyUIAsAServiceC-)Alibabacloud••••••••••••••••1./NVIDIA/cutlass/issues/6812./pytorch/pytorch/blob/main/torch/distributed/_tensor/README.md3.YuanJ,LiX,ChengC,etal.Oneflow:Redesignthedistributeddeeplearningframeworkfromscratch[J].arXivpreprintarXiv:2110.15032,2021.••••••••优势场景举例高性能核心引擎:优势场景举例服务层模型层X推理层框架层芯片层超低时延、超高吞吐、超长上下文模型的深度优化核心机制创新推理框架算子优化••••••••优势场景举例高性能核心引擎:优势场景举例服务层模型层X推理层框架层芯片层超低时延、超高吞吐、超长上下文模型的深度优化核心机制创新推理框架算子优化••••••••1./Oneflow-Inc/oneflow/pull/40582./a/share/jishuboke/54.html3./p/4430262614./p/341059988••••••••高性能核心引擎:大语言模型推理端到端优化服务层服务层模型层X模型层X推理层框架层芯片层芯片层••••••••高性能核心引擎:大语言模型推理端到端优化服务层推理层推理层框架层框架层芯片层芯片层LuoheS,HongyiZ,YaoY,etal.KeeptheCostDown:AReviewonMethodstoOptimizeLLM'sKV-CacheConsumption[J].arXivpreprintarXiv:2407.18003,2024••••••••高性能核心引擎:大语言模型推理端到端优化服务层服务层模型层模型层静态batch,静态batch,等batch所有请求结束推理层框架层框架层芯片层1./blog/continuous-batching-llm-inference2.YuGI,JeongJS,KimGW,etal.Orca:Adistributedservingsystemfor{Transformer-Based}generativemodels[C]//16thUSENIXSymposiumonOperatingSystemsDesignandImplementation(OSDI22).2022:521-538••••••••高性能核心引擎:大语言模型推理端到端优化服务层模型层X推理层框架层芯片层使用大小模型的投机解码使用大小模型的投机解码••••••••高性能核心引擎:大语言模型推理吞吐和时延优化整体时延最高降低63%整体时延最高降低63%吞吐最高提升2.5倍消费级GPU吞吐最高提升1.7倍消费级GPU吞吐最高提升1.7倍••••••••AppsText-to-Image模型优化Diffusers,ComfyUI,SD-WebUIAppsText-to-Image模型优化Diffusers,ComfyUI,SD-WebUI屏蔽底层差异适配算法模型高性能文生图核心引擎Onediff虚拟机OneFlowCompile••••••••高性能核心引擎:文生图加速优化某同类加速组件基准(PyTorch)文生图核心引擎某同类加速组件1.https://www.felixsanz.dev/articles/ultimate-guide-to-optimizing-stable-diffusion-xl••••••••文生图加速三倍SDXL生图端到端耗时(越低越好)43.532.521.50.50参数:Imagesize1024*1024,batchsize,steps30,onA10080GB400WGPU43.532.521.50.50PyTorch(Diffusers0.24)TensorRTPyTorch(Diffusers0.24)TensorRT9.0••••••••主要功能文生图核心引擎其他方案更短模型转换时间即插即用,无需做模型转换需要转换模型格式更短加速预热耗时约1分钟(SDXL)10分钟以上更短LoRA切换耗时主要功能文生图核心引擎其他方案更短模型转换时间即插即用,无需做模型转换需要转换模型格式更短加速预热耗时约1分钟(SDXL)10分钟以上更短LoRA切换耗时数百毫秒分钟级别更少LoRA显存占用数十~数百MB级别支持更多加速算法8Bits量化、DeepCache、LCM等NAGB级别••••••••对话助理类对话助理类程序生成类数据分析类视频生成类图片处理类语音生成类模型管理模型部署模型调优模型推理标准模型部署模型快速启动模型动态扩张模型业务监控MaaSceepseelResourcesInferenceFrameworkPaaSlangfuseServiceText2SQLcomfyUIComfyUIAsAServiceFrameworkLangSmithAsAServiceC-)Alibabacloud图片处理类语音生成类模型管理模型部署模型调优模型推理标准模型部署模型快速启动模型动态扩张模型业务监控MaaSceepseelResourcesInferenceFrameworkPaaSlangfuseServiceText2SQLcomfyUIComfyUIAsAServiceFrameworkLangSmithAsAServiceC-)Alibabacloud••••••••推理服务上云:1.ScalingAIModelsLikeYouMeanIt./blog/scaling-ai-model-deployment2.秒级启动万个容器,如何实现容器镜像的“加速冲刺”?/article/udgzur869oab9iuruoyn3.LiH,YuanY,DuR,etal.{DADI}:{Block-Level}ImageServiceforAgileandElasticApplicationDeployment[C]//2020USENIXAnnualTechnicalConference(USENIXATC20).2020:727-740.•

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论