




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1,卷积神经网络研究及其在基音检测中的应用,答 辩 人 :黄志强 指导老师:何立强教授 张学良副教授,2,目录,一、选题意义及研究现状 二、神经网络与卷积神经网络 三、CNN-ACF-DP基音检测方法 四、对比实验 五、总结与展望,3,基音检测的意义及研究现状,一、选题的意义及研究现状,语音是人类生产生活中使用最多的一种交流媒介,被广泛用于智能人机交互领域。 语音信号处理技术中,有一个非常重要的语音参数,基音频率(基频),代表声带振动的频率。 从语音中提取基频就叫基音检测,4,基音检测的意义及研究现状,常用的基音检测方法有ACF、AMDF、倒谱法及其变形,2011年Jin方法和2014年PEF
2、AC方法。 常用的基音检测方法在低信噪比环境下性能急剧下降,一、选题的意义及研究现状,5,CNN的发展及研究现状,神经网络是神经科学与计算机科学结合的产物。 神经网络的研究几经起落,直到2006年,深度学习提出,深度神经网研究兴起。 Hubel和wiesel通过对猫的视觉系统的实验,提出了感受野的概念。基于视觉神经感受野的理论,有学者提出CNN,一、选题的意义及研究现状,6,CNN的发展及研究现状,深度学习在语音识别、图像识别等领域摧枯拉朽,一、选题的意义及研究现状,国际会议、期刊等涌现大量深度学习的文章,CNN被引入很多领域,知名高科技公司都在深度学习领域加大投入,7,神经网络起源,二、神经
3、网络与卷积神经网络,8,神经网络-训练过程,二、神经网络与卷积神经网络,9,神经网络-训练理念(梯度下降,各变量满足如下公式,求vjk的梯度,求wij的梯度,二、神经网络与卷积神经网络,10,BP - 梯度下降的规律,一条连接权重的更新量为连接中前层神经元的输出乘以后层神经元的输入和的Err,对于末层神经元,输出错误定义为,对于非末层神经元,输出误差如Err(y)由与其相连的后层神经元的输入误差Err(Z)加权求和得到,一个神经元的输入误差Err(Y)与输出误差Err(y)满足公式,二、神经网络与卷积神经网络,11,BP算法的规律,二、神经网络与卷积神经网络,12,卷积神经网络,卷积神经网络是
4、神经网络的一种变形 卷积神经网络与神经网络的主要区别就是CNN采用了卷积和子采样过程。 神经生物学中局部感受野的提出(1962)催生了卷积的思想。 卷积减少了CNN网络参数,子采样减少了网络参数,权值共享大大减少的CNN网络参数。但是CNN具备深层结构,二、神经网络与卷积神经网络,13,局部感受野,二、神经网络与卷积神经网络,14,卷积神经网络的一般结构,二、神经网络与卷积神经网络,15,卷积,卷积核kernal在inputX图中从左向右,从上至下每次移动一个位置,对应位置相乘求和并赋值到OutputY中的一个位置,二、神经网络与卷积神经网络,16,子采样(pooling,子采样通常有两种形式
5、。均值子采样和最大值子采样,子采样可以看做一种特殊的卷积过程,二、神经网络与卷积神经网络,17,CNN训练中的三次卷积过程,尾部NN训练的三个过程,特征抽取器完成三次卷积,二、神经网络与卷积神经网络,18,前向卷积过程,二、神经网络与卷积神经网络,19,错误信号传播,二、神经网络与卷积神经网络,20,权重更新,二、神经网络与卷积神经网络,21,编码实现CNN,我们采用了6w张手写数字图片作为训练集,用1w手写数字图片作为测试集。 经过100次迭代,在训练集上得到99.51%的准确率,在测试集上得到98.8%的准确率,二、神经网络与卷积神经网络,22,本文的基音检测模型 CNN-ACF-DP,三
6、、CNN-ACF-DP基音检测方法,23,CNN特征选取,本文的CNN模型的输入是语音的频谱特征,三、CNN-ACF-DP基音检测方法,24,特征选择,三、CNN-ACF-DP基音检测方法,25,CNN输出定义,人的发声基频约为80Hz到460Hz,使用如下公式将该范围内连续的pitch合理地离散化到71个区间,三、CNN-ACF-DP基音检测方法,添加一个无基音状态对应CNN的72个输出,26,本文CNN网络结构描述,三、CNN-ACF-DP基音检测方法,27,CNN的基音预测结果,一段带噪语音的真实基频,CNN预测出来的基频分布,三、CNN-ACF-DP基音检测方法,28,ACF过程,三、
7、CNN-ACF-DP基音检测方法,K=32,33.200,29,CNN与ACF融合,我们将CNN的预测结果以乘积的形式附加到ACF特征中。 将CNN末层神经元的输出乘以ACF特征中对应的维度并作为对应维度的新值。 得到CNN-ACF的167+1=168维特征,三、CNN-ACF-DP基音检测方法,30,动态规划,在每一帧的167个状态中,我们挑选出3个概率最高的峰值作为该帧基频的候选项。最后我们利用动态规划对连续语音计算出收益最大路径作为最终的基音序列。 动态规划的收益定义为,三、CNN-ACF-DP基音检测方法,最大受益的路径,31,模型效果,ACF,三、CNN-ACF-DP基音检测方法,A
8、CF+CNN,ACF+CNN+DP,对比实验,实验数据:Chinese National Hi-Tech Project 863 NOISEX-92 训练数据: (male 50 + female 50)*6 noises 0db,对比试验:三种语音 三种方法 三种方法:1. Jin (2011) 2. PEFAC (2014) 3. CNN(CNN-ACF-DP) 三种语音:1 训练用说话者训练用噪声 2 训练用说话者新噪声 3 随机说话人随机噪声,四、对比实验,33,对比语音,四、对比实验,评价指标,基音检测率(detection rate , DR,错误决策率(voicing decis
9、ion error , VDE,四、对比实验,35,实验结果,四、对比实验,36,CNN训练用说话人,CNN 训练用噪声,CNN 新噪声,四、对比实验,37,CNN训练用说话人的基音检测,对于特定说话人训练的CNN模型,在相同说话人语音混合新噪声的条件下,取得了明显优于Jin方法和PEFAC方法的VDE和DR。 说明本文训练的模型对噪声的类型不敏感,对训练集中出现的说话人具有良好的识别能力,四、对比实验,38,随机说话人随机噪声,四、对比实验,39,工作总结,本文从数学角度分析推导了NN和CNN的工作原理,总结了BP算法中误差传播和权重修改策略。首次提出用切割小图训练共权NN的思想,解释了CNN中卷积过程。 基于此思想,实现了CNN算法,用手写数字识别问题进一步说明了该思想的准确性。 本文将基音检测视为一个分类问题,将CNN和传统ACF方法融合并结合DP得到CNN-ACF-DP基音检测方法。 本文的CNN-ACF-DP方法和Jin、PEFAC进行多角度实验对比。本文的方法完胜Jin方法,在训练用说话人的基音提取问题中也优于PEFAC方法,五、总结与展望,40,创新点,用切割小图的思想解释卷积,并基于此解释CNN特征抽取部分的训练过程。 首次将卷积神经网络运用于基音提取,五、总结与展望,41,展望,由于作者的学识和时间有限,本文采用使用的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 买房有物业合同范本
- bt合同ppp合同范本
- 企业人事聘用合同范本
- 出租保安服装合同范本
- 单位购仪器合同范本
- 先打款后开票合同范本
- 协议付款合同范例
- 上门宴席服务合同范本
- 东莞企业劳务合同范本
- 儿童游泳班合同范本
- 2025年企业法务顾问聘用协议范本
- 教育部人文社科 申请书
- 无菌手术台铺置的细节管理
- 《康复评定技术》课件-第五章 运动控制
- 议论文8(试题+审题+范文+点评+素材)-2025年高考语文写作复习
- 【理特咨询】2024生成式人工智能GenAI在生物医药大健康行业应用进展报告
- 2025新人教版英语七年级下单词默写表(小学部分)
- 2025年春新外研版(三起)英语三年级下册课件 Unit6第1课时Startup
- 2025江苏苏州高新区狮山商务创新区下属国企业招聘9人高频重点提升(共500题)附带答案详解
- 《蒙牛集团实施财务共享过程中存在的问题及优化建议探析》8800字(论文)
- 平抛运动的经典例题
评论
0/150
提交评论