黄武伟:小米大模型端侧部署落地探索-2024-10-新势力_第1页
黄武伟:小米大模型端侧部署落地探索-2024-10-新势力_第2页
黄武伟:小米大模型端侧部署落地探索-2024-10-新势力_第3页
黄武伟:小米大模型端侧部署落地探索-2024-10-新势力_第4页
黄武伟:小米大模型端侧部署落地探索-2024-10-新势力_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

小米大模型端侧部署落地探索小米/大模型算法工程师 02LLM端侧部署的挑战 03 03相关技术探索 04总结与展望在终端设备上直接运行和处理人工智能算法隐私和安全:所有数据的存储和计隐私和安全:所有数据的存储和计算都在本地完成,避免了数据传输到云端可能带来的安全风险。可靠性:端侧AI减少了对网络连接的依赖,即使在网络不稳定或断开的情况下也能正常工作,提高了系统的鲁棒成本效益:端侧A成本效益:端侧AI减少了对云端计算资源的需求,有助于降低成本,特别是在大规模部署时更为明显。个性化服务:端侧AI可以根据用户的具体使用习惯和偏好提供更加个性化的服务,增强用户体验。小米为什么做端侧AIl轻量化、本地部署是小米大模型技术主力突破方向l小米的端侧设备数量大LLM端侧部署的挑战存储差异存储差异服务器GPU手机计算能力数百TFLOPS的算力(如相对较低大容量显存有限的内存和存储(通常几个GB到十几GB)功耗设计用于高功耗环境,散热要求高低功耗设计,优化能效带宽A100显存带宽接近1.6TB/sNPU约70G/s6B模型6B模型模型分片?推理速度对于母语读者,平均阅读速度通常在300至500个字每分钟。(50+字/s)快速阅读者或经过训练的读者可以达到500至700字每分钟,甚至更高。(100+字/s)相关技术探索大模型推理时延减少计算量减小数据搬运•投机推理移除神经网络中不重要的权重,或者完全移除这些权重对应的神经元连接。非结构化剪枝结构化剪枝半结构化剪枝结构化剪枝目前硬件支持最友好剪层剪Head剪枝校准目标:加mask训练模型,优化一般的Sheared-Llama会剪深度和•损失较大•KVcache压缩不足l剪枝+少量恢复训练超越相同大小的预训练模型l简单但很重要,这个结论让剪枝有了意义我们的结构设计有以下特点:3)参数量相近时,KVcache显著减小剪枝效果结构搜索•在深度学习领域,量化是将浮点数值转化为定点数值的方法。优点存储开销带宽开销(显存->SRAM)计算开销量化反量化量化反量化−z)·s影响量化精度的几个因素•量化位宽•量化粒度•量化范围量化中权重的Outlier对于精度影响较大[0.1,0.2,3.6]->[0,0,4]消除权重中的异常值![0.1,0.2,0.6]->[0,0.2,0.6]消除权重中的异常值!数值分布范围缩小,量化相对容易!参数弥补•逐行量化参数,适当调整未量化的权重来弥补造成已经量化参数的损失量化方法选择上注意的问题结合硬件特性额外计算和存储开销•对于每个通道的minmax进行放缩•使用MSEloss获得最优的放缩系数•将权重和激活中难量化的值进行等价转移操作大模型推理的两个阶段预填充KVcache自回归1)每次前向计算只生成一个词2)LLM前向需要大量的数据访问和搬运解决方案:投机推理•充分利用算力•减少带宽压力•一次前向生成多个tokens投机推理的流程解码候选采用原LLM对解码候选做并行验证,保留符合输出条件的部分生成投机词通过:Attentionmask•采样和验证融合

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论