深度学习案例教程 课件 第9章 语音识别_第1页
深度学习案例教程 课件 第9章 语音识别_第2页
深度学习案例教程 课件 第9章 语音识别_第3页
深度学习案例教程 课件 第9章 语音识别_第4页
深度学习案例教程 课件 第9章 语音识别_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

语音识别原理以及模型第一节

语音识别原理语音识别,也被称为自动语音识别(AutomaticSpeechRecognition,ASR),其目标是将人类的语音转换为文字。从语音识别的应用方式来看,语音应用经常被分为离线语音识别和实时在线语音识别两大类。语音识别介绍第一节

语音识别原理声音的产生第一节

语音识别原理Phoneme(音位,音素)Grapheme(字位)Word(词)Morpheme(词素)bytes语音识别的基本单位第一节

语音识别原理语音特征处理第一节

语音识别原理预处理话音检测与断句音频场景分析识别引擎(语音识别的模型)工程调度&异常处理语音识别的流程第二节

语音识别发展历史20世纪50年代。三个BellLabs的研究人员开发了一个叫做"Audrey"的系统用来识别数字,并且只能识别固定的某个人说的数字.语音识别历史演变第二节

语音识别发展历史20世纪80年代HMM开始崭露头角一直到21世纪,HMM在语音识别领域一直独占鳌头.语音识别历史演变第二节

语音识别发展历史1997年:长短期记忆网络LSTM。2007年:由CTC训练的长短时记忆网络开始在特定的应用上超过传统的语音识别方法。2015年:谷歌的语音识别声称通过CTC训练的长短时记忆网络,使得自己的语音识别性能戏剧性的上升了49%。2017年:微软研究者在电话录音语音识别任务中,到达了人类历史的里程碑。语音识别历史演变通常,

语音识别过程大致分为两步:

第1步,

首先对语音信号提取特定的声学特征,

然后对声学特征进行“学习”或者说是“训练”。第2步是“识别”,

根据识别系统的类型选择能够满足要求的识别方法,

采用语音分析方法分析出这种识别方法所要求的语音特征参数,

按照一定的准则和测度与系统模型进行比较,

通过判决得出识别结果.语音识别过程第三节

传统语音识别方法语音识别过程第三节

传统语音识别方法通常,

在进行语音识别之前,

需要根据语音信号波形提取有效的声学特征.语音识别特征提取第三节

传统语音识别方法语音识别特征提取第三节

传统语音识别方法声学模型在语音特征与音素之间建立映射关系,

即给定模型后产生语音波形的概率,

其输入是语音信号经过特征提取后得到的特征向量序列。声学模型整个语音识别系统中最重要的部分,

只有学好了发音,

才能顺利和发音词典、语言模型相结合得到较好的识别性能.通常使用GMM-HMM来作为声学模型。语音识别声学模型第三节

传统语音识别方法在深度学习中,对语音识别的处理一般使用seq2seq结构的模型,而seq2seq结构有LAS、CTC、RNN-T、MoChA等。深度学习语音识别模型第四节

深度学习语音识别方法LAS模型是一个seq2seq的结构的模型。由三部分组成:1、Listen(encoder)部分可以使用多种网络结构,主要作用是进行注意力机制和过滤噪声等工作。2、Attend就是一般的Attention结构,由encoder的输出和decoder(RNN)上一时刻的输入变换后经过点乘或相加得到。3、Spell(decoder)一般是RNN(LSTM)结构,这部分可以认为是模型中的LanguageModel。LAS模型第四节

深度学习语音识别方法1.encoder端将输入数据转化为高维隐层嵌入2.Attention过程:将decoder上一时刻的输出和encoder的每个输出分别做match得到每个encoder输出的权重参数,然后对权重参数进行softmax,最后将权重参数作为权重对隐藏层参数进行加权求和得到语义变量。3.将上一步的语义变量作为decoder(RNN)当前时刻的输入传入decoder,并将decoder结果作为LAS当前时刻的输出返回。LAS模型过程第四节

深度学习语音识别方法在LAS中,常用以下技术来优化模型性能1.downsampling(下采样)2.Beamsearch3.AttentionLAS模型关键技术第四节

深度学习语音识别方法CTC(ConnectionistTemporalClassification)模型,主要用来解决输入序列和输出序列难以一一对应的问题,和LAS相比,CTC能够实现实时识别的功能。CTC模型第四节

深度学习语音识别方法CTC模型的构造方式如下:首先,模型先通过一个encoder结构将输入的token转化为一个高维隐层嵌入,然后对于每一个token的输出使用一个分类器(全连接网络)进行分类,最终的到每个token对应的预测结果。CTC模型原理第四节

深度学习语音识别方法RNN-T网络在RNA网络的基础上使每个输入token可以连续输出多个结果,当每个token输出符号时,RNN网络再开始接受下一个token。RNN-T模型第四节

深度学习语音识别方法(MoCha)MonotonicChunkwiseAttention。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论