大模型时代的分布式推理平台_第1页
大模型时代的分布式推理平台_第2页
大模型时代的分布式推理平台_第3页
大模型时代的分布式推理平台_第4页
大模型时代的分布式推理平台_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Xinference:大模型时代的分布式推理平台秦续业未来速度CEOLLM

推理概述AttentionisAllYou

NeedGPT

架构EmbeddingDecoderSampling简化成三个步骤LLM

推理概述EmbeddingDecoderSamplingToken

Embedding将

token

id

转成词向量PositionalEmbedding将位置信息加到编码中LLM

推理概述EmbeddingDecoderSampling计算量最大的一个步骤,主要是

attentionLLM

推理概述EmbeddingDecoderSamplingLLM

推理概述EmbeddingDecoderSamplingGreedy

searchBeam

search…Top-KTop-PLLM

优化技术Optimizations:KVCacheLLM

优化技术Optimizations:PagedAttentionLLM

优化技术Optimizations:Continuous

BatchingLLM

优化技术Optimizations:Speculative

DecodingLLM

推理后端高吞吐最好兼容性工作在端侧LLM

模型下载LLM

推理LLM

推理生产部署

个人部署

PromptTemplatesModelCachingUtilsModel

ManagementRESTful

APIResourceManagementThird-partyIntegrationMonitoringXinferenceisallyour

need多模型:汇集约80种开源模型,如GLM4、百川、Llama3、qwen2,还可以自由扩展自定义模型多硬件:支持

NVIDIA、Intel

多种硬件平台,按需选择高性能:使用多

backend

和投机采样等优化技术,大幅提升吞吐量,降低推理延迟低门槛:模型即服务,支持本地/云端部署等多种部署模式,降低开发和运维成本;支持从modelscope、huggingface

OpenCSG

下载模型Xinferenceisallyour

needXinferenceisallyour

needDify中唯一一个支持所有特性的模型供应商模型√√√√√DashboardPython

ClientRESTful

APIResponseOpenAI

SDK第三方集成(langchain、llama_index、Dify、FastGPT、chatchat…)模型和资源管理XinferenceserverApplicationsAPIrequestWebUIrequestrequestGPUGPUGPUCPUllamaResource

Poolllamachatglmgte-largechatglmvllmtensorRT-llmScalabilityScaleUp单机多卡(1张3090

与2张3090的数据对比),线性增长,throughput

随着卡的增加而线性增长,

latency

随着卡的增加线性降低ScalabilityScaleOut多机多卡(一台

A10G

显卡机器与两台A10G

显卡机器),throughput

随着机器的增加而线性增长,

latency

随着机器的增加线性降低。Xinference企业版案例1,NVIDIA

和昇腾混合部署某券商Xinference

提供了异构调度能力,将各种类型硬件纳管Xinference屏蔽了底层硬件的差异用户无需感知硬件不同,GPUvs.NPU透明的优化技术,对

NVIDIA

和昇腾使用不同的优化技术各种常见AI开发工具直接对接LangchainDify难点和优势NVIDIA

拥有了相对完备的生态,国产适配有相当大的难度Xinference对底层算子进行了适配,利用continuous

batching,整体吞吐提升3倍。得益于Xinference

底层的Xoscar

异构算力调度,用户对

NVIDIA还是国产芯片是透明的用户可以更加专注在业务侧案例2,构建企业私有化的AI平台Xinference

作为

AI

基础平台大语言模型包括多模态Embedding、rerank

模型企业旧模型模型使能平台知识库Agent提示词管理等其他功能联系我们GitHub:/xorbitsai/inferenceDocumentation:

https://inference.readthedocs.io/en/latest/麦思博(msup)有限公司是一家面向技术型企业的培训咨询机构,携手2000余位中外客座导师

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论