基于非均匀MCE准则的DNN关键词检测系统中声学模型的训练

上传人：众*** IP属地：上海上传时间：2022-09-02 格式：DOC 页数：5 大小：18.50KB 积分：18 举报 版权申诉

全文预览已结束

 下载本文档

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、基于非均匀MCE准那么的DNN关键词检测系统中声学模型的训练基于非均匀E准那么的DNN关键词检测系统中声学模型的训练自2022年以来，深度学习已经成为机器学习的一个重点研究领域，而且现已在许多方面获得了卓越进展。而在语音识别领域，基于深度学习的方法也随即应用而生，特别是在声学建模上，深度神经网络DeepNeuralNetrk，DNN已经可以替代高斯混合模型Gaussianixturedel，G，并和隐马尔科夫模型Hiddenarkvdel，H结合而推出了DNN-H混合模型，在实际应用中获得了很高的识别率1。当前的关键词检测Spkenterdetetin，STD系统通常是利用大词汇量连续语音识别

2、器largevabularyntinuusspeehregnitin，LVSR来对搜索语音解码产生关键词假设，再通过将输入语音转换为文本形式；基于此，关键词检测系统就可以利用文本搜索的一些技术，但其与文本搜索不同的那么是关键词检测多会利用lattie来表示语音识别结果2-3。在语音识别中，常常都是采用不同的区分性训练准那么来减小语音识别的词错误率rdErrrRate，ER，著名的区分性训练准那么主要有EiniulassifiatinErrr4、IaxiuutualInfratin5、PEiniuPhneErrr6和EiniurdErrr6。在关键词检测任务中，关注的重点只是预定义的关键词是否被

3、检测到。至于与目的关键词无关的词，针对其所获的检测结果却并不重要。Fu等人提出利用非均匀E准那么，并开展了运用至语音识别中的尝试7-8。eng等人针对传统G-H模型利用非均匀E准那么来推进关键词检测的研究，也就是通过在声学建模阶段利用非均匀E准那么来进展区分性训练，进步了关键词检测系统的性能9。研究表本文由论文联盟.Ll.搜集整理明，区分性训练可以改善DNN系统的性能10。hen等人在非均匀准那么的根底上，利用基于keyrd-bstedsBRstate-leveliniuBayesrisk准那么来训练关键词检测中的DNN-H模型，同时再通过在声学模型训练阶段对定义的关键词进展加重来进步模型对关

4、键词的建模才能，结果即获得了ATVAtualTerEightedValue1.7%-6.1%的提升11。在此，立基于对传统G-H模型之上，相较于非均匀sBR准那么而言，非均匀E准那么可以利用AdaBst来调整关键词权重系数，而非均匀sBR准那么的权重系数却是固定的，因此非均匀E准那么要比非均匀sBR准那么获得更佳效果12。从这一结论出发，本文即将文献9中所提出的非均匀E准那么引入到关键词检测的DNN声学建模阶段，在DNN的参数调整过程中，通过对关键词进展一定程度的侧重来进步DNN-H模型对关键词的建模才能。1基于非均匀E准那么的关键词DNN声学模型训练1.1DNN-H声学模型DNN-H模型利用

5、DNN替代G提供LVSR中H状态的后验概率。特别的，表示语句r时刻t的观测变量，DNN对H状态s的输出可以通过sftax激活函数来计算：1其中，表示状态s对应的输出层的激活值，识别器通常利用伪对数似然来计算后验概率：2式中，表示从训练数据中计算得到的状态s的先验概率。网络训练可以通过利用反向传播算法来优化给定的目的函数而获得实现。更经常地，DNN-H声学模型主要利用穿插熵rss-entrpy作为目的函数，优化那么主要利用随机梯度下降方法来进展处理和操作展开。1.2基于E准那么的区分性训练区分性训练中，E训练准那么是常用的一种。该准那么以最小化经历错误率为目的4，在语音识别中，令Xrr=1，R为

6、训练集中的R个句子，r为句子Xr所对应的标注，是特定的假设空间，对某个假设的判别函数可以定义为：3其中，和分别表示声学模型和语言模型得分，表示声学模型因子，误分类度量通常采用：4误分类度量的符号反映了给定声学模型参数，句子的分类正确或者错误程度。经过对上式运用sigid函数进展平滑，目的损失函数可以表示为：5其中，表示sigid函数，目的函数表示针对训练集的经历损失。1.3关键词检测的非均匀E准那么非均匀准那么的区分性训练是基于某些识别单元可能比其他单元携带更多重要信息的假设9，其目的不是最小错误率而是最小错误损失，最小错误率不区分不同的错误。训练过程中的关键词识别错误比非关键词识别错误代价更

7、大。在DNN系统中，对某一帧t，定义帧级判别函数为：6其中，i是状态编号，是给定Xr和假设标签的后验概率，研究中只关注关键词是否在标签或假设中出现，定义错误损失函数为语句r在时刻t的损失，关键词检测的非均匀E准那么的目的函数为：7为了对公式7进展优化，同时与普通的E准那么进展比照，并推导出非均匀E与普通E准那么优化的不同，进而采取有效的方法来优化非均匀E准那么的目的函数，即对公式7进展求导：8其中，分别表示标注和假设的帧后验概率，将非均匀E准那么的导数与原来的E准那么进展比照，实际使用中，为了便于计算，通常令并忽略，详细公式为：9可以看到，非均匀E与普通的E方法的一个区别是，普通E对单个句子是

8、不变的。另一个区别是非均匀的错误损失函数，错误损失函数是加在每一帧上的，为了便于计算非均匀E目的函数并有效优化参数，在此采用了普通E的固定值而不是变化值，目的函数近似为：10错误损失函数定义为：11其含义是，假设当前训练实例的标注是关键词，错误损失定义为K1；假设对当前训练实例，关键词出如今假设中错误损失定义为K2；当关键词既未出如今标注又未出如今假设空间时，错误损失定义为1。K1、K2应该都大于1，这样在模型训练阶段才可以对关键词进展侧重。公式11中的错误损失函数在不同的迭代中对同一帧赋予一样的错误损失，当使用较大的错误损失时可能会导致过训练。与普通的E相比，非均匀的E相当于对每一帧根据进展

9、了重采样，因此，可以考虑采用基于bsting的方法。AdaBst方法在每次迭代时均会根据错误率调整错误损失13，因此可以将AdaBst方法运用到非均匀E准那么中。训练启动时会使用较大的K1和K2来初始化错误损失函数，这些值会根据识别器的性能进展调整9。详细算法总结如算法1所示。2实验结果与分析本文设计了一系列的实验来研究前述的非均匀E准那么的DNN声学模型区分性训练，主要研究不同的K1、K2值对关键词检测系统性能的影响。本实验所使用的语料库来自于国家863朗读语料库，其中约100个小时的数据用来训练DNN-H模型的识别器，约10个小时的数据用作关键词检测的搜索集。实验的基线系统由开源的语音识别

10、工具Kaldi建立14，关键词检测系统的评测利用NISTpenKS15提供，关键词检测系统的评价主要通过ATV来计算15-16，其数学描绘如下：12其中，K是关键词数目，Nissk是漏检的关键词数，NFAk是检测到的虚警数，T是测试集的时间长度以秒计，是为999.9的常数。本文进展了非均匀E准那么的训练，迭代次数为4，不同的K1、K2和下系统ATV值如表1所示。分析可知，较大的K1和K2可以获得较高的性能，但衰减因子会导致波动。表1基于非均匀E准那么关键词检测实验结果Tab.1Resultsfnn-unifrriteriabasedSTD方案K1K2ATV基线LE-0.6153AdaBst非均匀E准那么550.30.7265550.50.7237550.70.7213770.30.7276770.50.7268770.70.72733完毕语本文在DNN声学模型的参数训练阶段，通过利用非均匀的E准那么对关键词进展侧重，由此进步了DNN-H模型对关键词的建模才能。采用AdaBst算法，可以解决过训练的问题。研究结果说

人人文库> 全部分类> 专业文献 > 学术论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

基于非均匀MCE准则的DNN关键词检测系统中声学模型的训练

文档简介

温馨提示

最新文档

评论

基于非均匀MCE准则的DNN关键词检测系统中声学模型的训练

文档简介

温馨提示

最新文档

评论

相关文档