小米语音识别端到端系统升级之路_第1页
小米语音识别端到端系统升级之路_第2页
小米语音识别端到端系统升级之路_第3页
小米语音识别端到端系统升级之路_第4页
小米语音识别端到端系统升级之路_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

准确率提升的同时服务容量翻倍--

小米语音识别端到端系统升级之路范利春小米集团技术委员会 AI实验室目录小米小爱业务中的语音识别方案端到端语音识别系统升级中的极致的响应速度和准确率优化GPU使用效率提升的动态Batch优化GPU使用效率提升的半精度浮点推理优化背景小米公司的印象背景小米公司的印象背景小米6.99亿链接到IOT平台的智能设备包括小米汽车、手机、音箱、电视、手表、手环、生态链产品等涵盖了6161款支持语音交互的产品「人车家全生态」背景语音识别:小爱语音交互的入口语音识别ASR唤醒KWS语义理解NLP结果满足SKILL语音合成TTS语音文字小爱同学背景如何降低云端服务成本?如何提升语音识别的准确率?降本增效识别内容覆盖60+个垂域每天识别约2.7亿条来自小爱智能助手的语音大模型时代,用户对智能助手的预期提升说法多种多样,更偏口语化P1.

小米小爱业务中的语音识别方案小米语音方案传统语音架构声学训练语言训练训练复杂声学数据语言数据声学模型语言模型准确率低解码算法语音建模帧率高成本高昂解码算法相对复杂小米语音方案端到端语音架构联合建模准确率高节省算力离线部署传统语音架构小米语音方案encoder-decoder结构的端到端语音识别小米语音方案建模粒度大帧率低时序建模有大量Blank可以跳过P2.

端到端语音识别系统升级中的极致的响应速度和准确率优化关键实践1关键实践1:极致的响应速度和极致的性能基于Zipformer的encoder-decoder结构的端到端语音识别关键实践1:极致的响应速度和极致的性能基于Zipformer的encoder-decoder结构的端到端语音识别《ZIPFORMER:AFASTERANDBETTERENCODERFORAUTOMATICSPEECH

RECOGNITION》《SUBLLM:

A

Novel

Efficient

Architecturewith

Token

Sequence

Subsampling

for

LLM》关键实践1:极致的响应速度和极致的性能流式端到端识别Fig.

1Fig.

2性能平衡具体方案:

Chunk模式解码效率具体方案:

Input/output

cache关键实践1:极致的响应速度和极致的性能/

坑1

/

尖峰滞后关键实践1:极致的响应速度和极致的性能流式端到端方案带来的尖峰滞后现象尖峰滞后现象解决方案(a)解决方案(b)《TrimTail:Low-LatencyStreamingASRwithSimplebutEffectiveSpectrogram-LevelLength

Penalty》关键实践1:极致的响应速度和极致的性能流式端到端方案带来的尖峰滞后现象解决方案(c)解决方案(d)《DELAY-PENALIZEDTRANSDUCERFORLOW-LATENCYSTREAMING

ASR》关键实践1:极致的响应速度和极致的性能/

坑2

/

内置语言模型关键实践1:极致的响应速度和极致的性能端到端系统下的热词注入米家个人设备管理 座舱显示屏上的内容关键实践1:极致的响应速度和极致的性能基于syllable建模,提升热词能力建模粒度大音节建模语音识别解码架构图关键实践1:极致的响应速度和极致的性能速度和极致性能优化小结关键实践1:极致的响应速度和极致的性能Zipformer算法尖峰前移个性化识别手机、音箱、电视句错相对下降20%P3.

GPU使用效率提升的动态Batch优化关键实践2关键实践2Batch推理优化GPU交互:线程内串行,线程间并行,每个线程独享一个流T4服务器:高峰时段CPU14%

+

GPU80%特征提取AM[2]推理解码“今天天气”GPU特征提取AM推理解码“播放音乐”thread

1:thread

N:…

…关键实践2Batch推理优化特征提取AM推理解码“今天天气”GPU特征提取AM推理解码“播放音乐”thread

1:thread

N:…

……83462112345678123人满发车超时发车P4.

GPU使用效率提升的半精度浮点推理优化关键实践3关键实践3为什么使用半精度浮点NVIDIA

T4高通芯片关键实践3半精度浮点的范围/wiki/Half-precision_floating-point_formatfp16的取值范围是

5.96e-8

~

65504溢出精度损失关键实践3从模型层面解决溢出的模块LayerNorm替换成L1LayerNorm《Towards

Fully

8-bit

Integer

Inference

for

the

Transformer

Model》关键实践3从模型层面解决溢出的模块Softmax

Attention替换成PolyAttn《Towards

Fully

8-bit

Integer

Inference

for

the

Transformer

Model》关键实践3改进模型训练手段:对模型参数进行截断FP16溢出问题LossvarmaxminWER方案similarity1w3.04632.7325.18-57.244.54%-97.60%1w-CLAMP23.04333.548.91-8.544.64%【mean-3*var,mean+3*var】99.50%1w-CLAMP32.99842.7937.3117-7.67674.39%【mean-1,

mean+1】99.09%关键实践3进一步定位溢出的OP按Module查:查看每个模块的输入输出数值是否超出FP16范围的数按OP查:查看每个算子的输入输出数值是否超出FP16范围导出时候对溢出的处理在溢出的算子或者模块前进行scale;这些scale在L1LayerNorm之后会消失(仅需对μ进行scale);关键实践3torch.matmul(q/FP16_SCALE,

k/FP16_SCALE)FP16精度定位问题(两台显微镜)解决问题(三把手术刀)按Module查限制参数训练Operation

Scale按Operation查Module替换param.clamp_(mean-3*var,

mean+3*var)LayerNorm替换成L1LayerNormSoftmax

Attention替换成PolyAttn半精度浮点推理优化总结案例总结总结端到端建模GPU并行度优化FP16推理优化Zipformer算法尖峰前移个性化识别Module替换限制参数训练Operation

Scale独立线程模型推理人满发车超时发车案例总结手机、音箱、电视句错下降20%IDC

服务器容量提升100%成果麦思博

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论