版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第12章基于深度学习CNN模型的语音识别目录12.1语音识别系统设计12.2语音信号预处理及特征提12.2.1语音信号预处理12.2.2MFCC特征提取12.3构建语音识别模型12.3.1构建卷积神经网络模型12.3.2识别模型训练12.4语音识别模型检验12.1语音识别系统设计语音识别系统一般包含学习和识别两个过程。图12-1语音识别系统功能图(1)数据收集和准备。(2)对语音信号进行预处理。包括语音信号分帧、预加重、提取语音信号的MFCC特征等操作。(3)构建语音信号训练集。将收集的语音信号进行预处理,按照帧的时间顺序和特征值转换成二维图像。(4)选择卷积神经网络(CNN)模型结构。(5)模型构建。在深度学习框架中构建语音识别模型,包括输入层、卷积/循环层、全连接层等组件,并选择适当的激活函数。(6)模型训练。将数据集划分为训练集、验证集和测试集。使用训练集对模型进行训练,使用验证集对模型进行模型调优,监控模型在训练集和验证集上的性能。(7)模型评估。使用测试集对模型进行评估,计算准确率、WER(WordErrorRate)等性能指标。语音处理技术与深度学习相结合的识别过程:(1)获取待识别语音信号。(2)对待识别的语音信号进行与学习过程相同的预处理,包括包括语音信号分帧、预加重、提取语音信号的MFCC特征等操作,按照帧的时间顺序和特征值转换成二维图像。(3)使用训练好的模型对新的语音图像进行识别。(4)部署和应用。(5)误差分析和改进。(6)用户界面设计(可选)。12.2语音信号预处理及特征提取基本原理(1)语音信号预加重预加重的主要目的是为了使语音信号的频谱变得平坦。值取的是0.97,(2)分帧(2)将n个采样点结合在一起作为一个观测点位,成为一帧。为了解决相邻两帧变化过大的问题,相邻帧之间会有一段重叠区域,重叠区域的大小为n的值的二分之一或三分之一。(3)加窗加窗的意思就是加汉明窗,把汉明窗与每一帧相乘,以增加帧的连续性。的值为0.9<<1.0,本模块中基本原理式中,X(n)为语音信号,N为傅里叶变换点数。(4)快速傅里叶变换得到语音信号频谱上的分布。W(n)公式如下实现步骤实现步骤如下:①获取语音信号;②语音信号预加重;③语音信号分帧;④语音信号加窗;⑤语音信号快速傅里叶变换。12.2.2MFCC特征提取基本原理(1)三角带通滤波器作用是使频谱更平滑,并消除谐波,增强原语音的共振峰。滤波器的公式为:(2)计算经过滤波器组后的语音信号对数能量公式如下:式中(3)通过离散余弦变化(DCT)得到MFCC特征MFCC特征提取步骤MFCC特征提取步骤如下:①获取语音信号;②语音信号预加重;③语音信号分帧;④语音信号加窗;⑤语音信号快速傅里叶变换;⑥语音信号的频谱数据通过三角带通滤波器;⑦三角带通滤波器输出结果对数运算;⑧对数运算结果进行离散余弦变换得到MFCC特征矩阵;⑨根据MFCC特征矩阵值把特征矩阵转换为图像。效果展示提取MFCC特征后,需要将特征矩阵转换为图像组成训练集来进行训练。图12-2一条语音MFCC特征图像12.3构建语音识别模型12.3.1构建卷积神经网络模型(神经网络有十三层,步骤如下:①第一层为卷积层,filters为32,卷积核3*3,步长为1,padding为same。激活函数ReLU()激活,加入Dropout避免过度拟合;②第二层为卷积层,filters为32,卷积核3*3,步长为1,padding为same。激活函数ReLU()激活;③第三层为池化层,池化层进行MaxPool2d()取最大值,核的大小为2*2;④第四层为卷积层,filters为64,卷积核3*3,步长为1,padding为same。激活函数ReLU()激活,加入Dropout避免过度拟合;⑤第五层为卷积层,filters为64,卷积核3*3,步长为1,padding为same。激活函数ReLU()激活;⑥第六层为池化层,池化层进行MaxPool2d()取最大值,卷积核2*2,加入Dropout避免过度拟合;⑦第七层为卷积层,filters为128,卷积核3*3,步长为1,padding为same。激活函数ReLU()激活,加入Dropout避免过度拟合;⑧第八层为卷积层,filters为128,卷积核3*3,步长为1,padding为same。激活函数ReLU()激活;⑨第九层为池化层,池化层进行MaxPool2d()取最大值,卷积核2*2,加入Dropout避免过度拟合;⑩第十层为卷积层,filters为128,卷积核3*3,步长为1,padding为same。激活函数ReLU()激活,加入Dropout避免过度拟合;
第十一层为卷积层,filters为128,卷积核3*3,步长为1,padding为same。激活函数ReLU()激活;第十二层为池化层,池化层进行MaxPool2d()取最大值,卷积核1*1,加入Dropout避免过度拟合;第十三层为卷积层,filters为128,卷积核3*3,步长为1,padding为same。激活函数ReLU()激活,加入Dropout避免过度拟合;第十四层为卷积层,filters为128,卷积核3*3,步长为1,padding为same。激活函数ReLU()激活;第十五层为池化层,池化层进行MaxPool2d()取最大值,核的大小为1*1;第十六层为Reshape层,调整为(200,3200),加入Dropout避免过度拟合;第十七层为全连接层,共有128个神经元,并且加入Dropout(0.3)避免过度拟合;第十八层为全连接层,共有49个神经元,并且使用Softmax激活函数进行转换,经全连接层分类后输出为49个类别。将卷积神经网络保存到Model中,并且为其定义损失函数以及优化器。12.3.2识别模型训练模型训练的步骤如下:①获取训练集的路径;②加载数据集,统计数据集中数据总数;③设置batch_size的大小,计算出保存的步数;④调用训练的模型函数,模型为上步创建的卷积神经网络模型;⑤将训练出的结果数据保存在模型中,给识别过程使用。12.4语音识别模型检验语音识别步骤语音识别步骤如下:①获取待识别语音;②语
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 出口石油产品2024年度运输合同
- 电气设备安装与保护04合同
- 二零二四年度网络安全维护合同:网站防护与数据安全协议
- 泵站设备融资租赁合同(二零二四年)
- 二零二四年度广告牌清洗承包合同
- 二零二四年度彩钢房安全评估与拆除安装合同
- 二零二四年度网络安全审查服务合同
- 2024年度数据管理与保护合同
- 第七章2024年度商标使用许可合同
- 房东房屋租赁合同范本
- 军用飞机科普知识讲座
- 《住宅室内装饰装修管理办法》
- 江西版(赣美版)小学六年级美术上册期末复习知识点
- 人工智能在医疗服务中的应用
- 中学落实重点学生管理和教育机制的工作方案
- 一 《活动策划》(教学课件)-【中职专用】高二语文精讲课堂(高教版2023·职业模块)
- 初中数学与小学数学的不同
- 区块链技术在信息安全管理中的应用
- 国网应急物资保障预案
- 化工原理模拟试题
- 设备安装调试方案
评论
0/150
提交评论