基于深度学习的单通道语音分离开题报告课件_第1页
基于深度学习的单通道语音分离开题报告课件_第2页
基于深度学习的单通道语音分离开题报告课件_第3页
基于深度学习的单通道语音分离开题报告课件_第4页
基于深度学习的单通道语音分离开题报告课件_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于深度学习的单通道语音分离研究生学位论文开题报告选题背景及意义01研究现状02主要研究内容和基本方案03研究计划与要求05目录已具备的科研条件0401:课题名称基于深度学习的单通道语音分离课题来源:导师国家自然科学基金项目选题背景01语音在漫长的人类历史中一直充当最重要的信息交流方式之一。自20世纪以来,随着信息科学技术的不断发展,语音不再局限于人和人之间短距离交流的场景,而是拓展至更复杂的领域,由此催生了语音技术的发展。语音技术主要有两种应用场景,第一种是利用电话、手机等设备的人和人之间的远距离语音通话,而第二种则是随着计算机和互联网技术发展,而逐渐出现的智能设备的人机语音输入和交互。选题

2、背景01尽管语音输入在这些场景有着极大的优势,但是在实际应用中,目标说话人的语音通常处于复杂的声学环境中,受到各种其他信号的干扰,包括自然界的风声雨声和动物叫声、机器运行噪声、回声混响,以及其他说话人的语音等(主要研究内容分离两个人混合语音)。人类在先天进化和后天适应的过程中,能够对这些干扰信号进行过滤,并关注于想收听的语音。但是机器不行。选题背景01但是对于机器就必须设计一套有效的语音分离系统,用于克服干扰信号的影响。否则,对于语音通话,收听者需要花费更多精力过滤干扰信号,影响使用体验,甚至可能错听和漏听重要信息,而对于人机语音输入,干扰信号会严重降低智能设备的识别性能使其对人类的命令产生错

3、误的识别结果,进而做出错误的反馈。因此,克服干扰信号的影响并分离出目标语音,对于语音技术的实际应用有着重要的地位。选题意义01在语音通话中,多数情况下麦克风采集的原始目标语音信号会被其他信号干扰,在民用领域,说话人在商场、餐厅、车站和会议厅等公共场所的语音通常会被背景噪声干扰,影响收听者的听感和理解准确度。在公安的监测侦听领域,犯罪嫌疑人在通话时通常会小心谨慎,使其声音尽可能地隐匿于周围的环境噪声中,提高监测难度。而在军用领域,坦克、飞机等驾驶员的通话语音一般会被发动机产生的巨大噪音所淹没,而军事通信对语音内容异常敏感,因此需要保证收听内容尽可能准确无误。另一方面,在人机语音输入和交互中,智能

4、设备通常在各种复杂的声学环境中使用,比如智能音箱在接收用户语音指令时常常会被客厅的电视机声音或其他人的语音等无关声音所干扰,使得识别率下降,从而做出错误的反馈影响使用体验,此时就需要语音识别对采集的原始语音信号做前端处理语音分离,提高识别率。在法庭和会议等场所,以及智能手机的语音助手中,语音分离同样作为语音转写或识别系统的预处理模块,将各声源信号预先分离,改善后端系统的识别结果。选题意义01研究现状02计算机听觉场景分析: Wang等人提出了计算听觉场景分析( Computational Auditory Scene Analysis,CASA)方法利用人工设计的频域分割和组合规则,将每个幅度

5、谱的时频域单元以时频域掩蔽的形式划分给各声源,从而实现目标语音和干扰信号的分离。非负矩阵分解:基于非负矩阵分解的语音分离方法,假设语音信号和干扰信号的幅度谱可以各自用一组信号基表示,通过数据驱动的方式学习到目标语音和干扰语音信号各自的信号基后,在分离阶段再利用这些训练好的信号基对混合语音进行分解,提取目标语音的权重分量并重构出目标语音。基于深度学习:可以利用其有效的网络模型和庞大的数据量对干扰信号与目标语音间的复杂依赖关系进行建模与训练,进而提升其对不同种类信号的泛化能力,所以能够取得优于传统方法的分离性能。对于语音分离任务我们通常的处理流程如下图所示。我们首先需要一个混合的语音信号,这个混合

6、语音信号通常包含两到三个人的语音信号。然后,对于时频域的语音分离我们需要将时域的语音信号进行短时傅里叶变换(STFT),将时域信号转换为时频域信号。为什么需要进行STFT,对于时频域的信号特征更容易提取,更容易去做一些语音特征提取的操作,例如MFCC等。此外,对于经过STFT 的时频域信号很容易的通过逆傅里叶变换(iSTFT)恢复为时域信号。同时,频域本质是把信号分解到每个子带空间上,每个空间里面性质稳定,可以理解为频率恒定。因此,这解释了为什么一开始大家在做语音分离任务是都是在时频域上进行的。基于频域的语音分离直接对时域语音信号的波形点进行操作,而对于时域的语音分离我们搭建一个encoder

7、-decoder 的端到端的模型即可。基于时域语音分离(2019年出现)主要研究内容03MFCC:mel频率倒谱系数主要研究内容03CMVN:倒谱均值方差归一化已具备的科研条件0401学习了语音处理课程,并阅读了大量的英文的相关文献,有一定的理论基础。02目前正在学习深度学习,搭建了基于pytorch的深度学习框架,并能成功运行代码。有一定的实验结果。研究计划与要求05阅读国内外文献,掌握相关理论知识,关注语音分离的前沿动态,并自己动手写代码。撰写并投递期刊文章,总结阶段性学习成果提出自己的创新点,进行合理改进。进行实验,分析实验结果和数据。撰写毕业论文,总结研究生阶段的学习和研究成果。2019年12月

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论