版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第12章基于深度学习CNN模型的语音识别目录12.1语音识别系统设计12.2语音信号预处理及特征提12.2.1语音信号预处理12.2.2MFCC特征提取12.3构建语音识别模型12.3.1构建卷积神经网络模型12.3.2识别模型训练12.4语音识别模型检验12.1语音识别系统设计语音识别系统一般包含学习和识别两个过程。图12-1语音识别系统功能图(1)数据收集和准备。(2)对语音信号进行预处理。包括语音信号分帧、预加重、提取语音信号的MFCC特征等操作。(3)构建语音信号训练集。将收集的语音信号进行预处理,按照帧的时间顺序和特征值转换成二维图像。(4)选择卷积神经网络(CNN)模型结构。(5)模型构建。在深度学习框架中构建语音识别模型,包括输入层、卷积/循环层、全连接层等组件,并选择适当的激活函数。(6)模型训练。将数据集划分为训练集、验证集和测试集。使用训练集对模型进行训练,使用验证集对模型进行模型调优,监控模型在训练集和验证集上的性能。(7)模型评估。使用测试集对模型进行评估,计算准确率、WER(WordErrorRate)等性能指标。语音处理技术与深度学习相结合的识别过程:(1)获取待识别语音信号。(2)对待识别的语音信号进行与学习过程相同的预处理,包括包括语音信号分帧、预加重、提取语音信号的MFCC特征等操作,按照帧的时间顺序和特征值转换成二维图像。(3)使用训练好的模型对新的语音图像进行识别。(4)部署和应用。(5)误差分析和改进。(6)用户界面设计(可选)。12.2语音信号预处理及特征提取基本原理(1)语音信号预加重预加重的主要目的是为了使语音信号的频谱变得平坦。值取的是0.97,(2)分帧(2)将n个采样点结合在一起作为一个观测点位,成为一帧。为了解决相邻两帧变化过大的问题,相邻帧之间会有一段重叠区域,重叠区域的大小为n的值的二分之一或三分之一。(3)加窗加窗的意思就是加汉明窗,把汉明窗与每一帧相乘,以增加帧的连续性。的值为0.9<<1.0,本模块中基本原理式中,X(n)为语音信号,N为傅里叶变换点数。(4)快速傅里叶变换得到语音信号频谱上的分布。W(n)公式如下实现步骤实现步骤如下:①获取语音信号;②语音信号预加重;③语音信号分帧;④语音信号加窗;⑤语音信号快速傅里叶变换。12.2.2MFCC特征提取基本原理(1)三角带通滤波器作用是使频谱更平滑,并消除谐波,增强原语音的共振峰。滤波器的公式为:(2)计算经过滤波器组后的语音信号对数能量公式如下:式中(3)通过离散余弦变化(DCT)得到MFCC特征MFCC特征提取步骤MFCC特征提取步骤如下:①获取语音信号;②语音信号预加重;③语音信号分帧;④语音信号加窗;⑤语音信号快速傅里叶变换;⑥语音信号的频谱数据通过三角带通滤波器;⑦三角带通滤波器输出结果对数运算;⑧对数运算结果进行离散余弦变换得到MFCC特征矩阵;⑨根据MFCC特征矩阵值把特征矩阵转换为图像。效果展示提取MFCC特征后,需要将特征矩阵转换为图像组成训练集来进行训练。图12-2一条语音MFCC特征图像12.3构建语音识别模型12.3.1构建卷积神经网络模型(神经网络有十三层,步骤如下:①第一层为卷积层,filters为32,卷积核3*3,步长为1,padding为same。激活函数ReLU()激活,加入Dropout避免过度拟合;②第二层为卷积层,filters为32,卷积核3*3,步长为1,padding为same。激活函数ReLU()激活;③第三层为池化层,池化层进行MaxPool2d()取最大值,核的大小为2*2;④第四层为卷积层,filters为64,卷积核3*3,步长为1,padding为same。激活函数ReLU()激活,加入Dropout避免过度拟合;⑤第五层为卷积层,filters为64,卷积核3*3,步长为1,padding为same。激活函数ReLU()激活;⑥第六层为池化层,池化层进行MaxPool2d()取最大值,卷积核2*2,加入Dropout避免过度拟合;⑦第七层为卷积层,filters为128,卷积核3*3,步长为1,padding为same。激活函数ReLU()激活,加入Dropout避免过度拟合;⑧第八层为卷积层,filters为128,卷积核3*3,步长为1,padding为same。激活函数ReLU()激活;⑨第九层为池化层,池化层进行MaxPool2d()取最大值,卷积核2*2,加入Dropout避免过度拟合;⑩第十层为卷积层,filters为128,卷积核3*3,步长为1,padding为same。激活函数ReLU()激活,加入Dropout避免过度拟合;
第十一层为卷积层,filters为128,卷积核3*3,步长为1,padding为same。激活函数ReLU()激活;第十二层为池化层,池化层进行MaxPool2d()取最大值,卷积核1*1,加入Dropout避免过度拟合;第十三层为卷积层,filters为128,卷积核3*3,步长为1,padding为same。激活函数ReLU()激活,加入Dropout避免过度拟合;第十四层为卷积层,filters为128,卷积核3*3,步长为1,padding为same。激活函数ReLU()激活;第十五层为池化层,池化层进行MaxPool2d()取最大值,核的大小为1*1;第十六层为Reshape层,调整为(200,3200),加入Dropout避免过度拟合;第十七层为全连接层,共有128个神经元,并且加入Dropout(0.3)避免过度拟合;第十八层为全连接层,共有49个神经元,并且使用Softmax激活函数进行转换,经全连接层分类后输出为49个类别。将卷积神经网络保存到Model中,并且为其定义损失函数以及优化器。12.3.2识别模型训练模型训练的步骤如下:①获取训练集的路径;②加载数据集,统计数据集中数据总数;③设置batch_size的大小,计算出保存的步数;④调用训练的模型函数,模型为上步创建的卷积神经网络模型;⑤将训练出的结果数据保存在模型中,给识别过程使用。12.4语音识别模型检验语音识别步骤语音识别步骤如下:①获取待识别语音;②语
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 44571-2024人造革合成革试验方法游离异氰酸酯含量的测定
- GB/T 44685-2024印刷机械油墨干燥及固化装置能效评价方法
- 礼服商业机会挖掘与战略布局策略研究报告
- 化妆用漂白剂脱色剂产品供应链分析
- 腰包商业机会挖掘与战略布局策略研究报告
- 医用软化水产品供应链分析
- 塑料旅行袋产业链招商引资的调研报告
- 个人资产保险索赔评估行业市场调研分析报告
- 书籍装订用布产业链招商引资的调研报告
- 编码和解码装置和仪器产品供应链分析
- 智能制造专业群人才培养战略定位及专业结构优化调整论证报告
- DB37T 3811-2019 仿生鱼饵-行业标准
- 组织行为学教案英文版
- 非婚生育子女情况声明
- 汽轮机主油箱系统(课堂PPT)
- 数据管理制度
- 减速器拆装实训教案
- 氢氧化钠安全技术说明书(共2页)
- 投标优惠条件承诺书
- 精通版五年级英语上册Unit4单元测试卷(含听力材料及答案)
- 中俄跨界水体水质联合监测方案
评论
0/150
提交评论