鼾声与语音的时频区分特征毕业答辩通信课件_第1页
鼾声与语音的时频区分特征毕业答辩通信课件_第2页
鼾声与语音的时频区分特征毕业答辩通信课件_第3页
鼾声与语音的时频区分特征毕业答辩通信课件_第4页
鼾声与语音的时频区分特征毕业答辩通信课件_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、鼾声与语音的时频区分特征Page 2本次演示的结构安排 课题准备 设计思路系统的过程实现实验结果和总结 出现的问题的探讨12345Page 3 1.1 课题的背景与意义课题背景研究意义鼾声是一种异常的呼吸音,由病变或睡眠姿势不对所引起。由于鼾声与许多疾病息息相关,在呼吸暂停综合征(OSAHS)等疾病的诊断上有着重要作用。针对现有鼾声诊断由于其他语音信号干扰造成的不足,人们越来越多的先通过语音信号处理录音再用计算机辅助分析。本次毕业设计提出运用matlab的语音端点检测技术,最大程度的区分出说话声,排除其在鼾声提取过程中的干扰,为鼾声的准确分析提供有效的技术支持。Page 4 1.2 课题研究现

2、状和思考频域参数方法近年来,随着人工智能的兴起,也可以通过支持向量机等模式识别的方式实现鼾声与说话声的精确区分。时域参数方法通过声学特征的自然成因差异来实现二者的区分。语音信号的识别经过前人在鼾声的时域特征上的分析,总结出了其在时域特征上的规律,我们可以通过这些使时域方法实现进一步的设计与应用。思考Page 5 2 设计思路录音样本大样本分析小样本分析预处理实验结果统计语音信号提取时域分析频域分析 本次设计主要运用鼾声和说话声在时域中持续时间的不同来实现时域方法上的准确区分。Page 6 3 系统的过程实现每段大样本时间为10分钟;每段小样本时间为5s-10s录音样本通常为整晚睡眠录音,一般持

3、续7-8小时matlab软件限制,正常情况下不能超过30分钟的音频读取分割所用软件:goldwave录音样本的选取与分割录音样本的选取与分割Page 7 3.2 小样本分析预加重 提升信号的高频部分,使其频谱变的平坦保持在低频到高频的整个频带中,能用同样的信噪比求频谱,以便于频谱分析或声道参数分析。加窗分帧语音信号具有短时平稳特性采用汉明窗、汉宁窗、矩形窗等,汉明窗低通特性较好分帧虽然可以采用连续分段的方法,但一般要采用交叠分段的方法,这是为了使帧与帧之间平滑过渡,保持其连续性帧移帧长的比值一般取为01/2帧长的选择:帧长为200,帧移100Page 8 3.3 语音信号提取端点检测参数常用参

4、数为短时能量及短时过零率,方法为双门限法本次课题仅对声音信号进行研究,对端点检测精度要求不高,仅用短时能量进行端点检测端点检测过后,语音信号需大于短时能量的某一门限方能进行提取选取无声段的语音信号进行短时能量统计,选取合适的门限值。门限值最后为0.01。Page 9Page 10 语音提取算法流程Page 11 3.4 时域区分方案选定时域区分通常依靠声音的语音学规律和特征从已有的研究成果看鼾声呼气段和吸气段通常持续3s。一般的鼾声检测若只检测到吸气段,吸气段通常持续2s。根据此规律确定鼾声和说话声的区分特征Page 12 3.5 具体方案设计完成连续语音提取单一连续语音时长介于1-2.5s为

5、鼾声三个具体判定参数的选取 第一个为鼾声和说话声的平均时长,记为average,定义公式为: 第二个为鼾声和说话声持续时间处于1s-2s之间的声音与总时长的比率,记为cm,定义公式为: 第三个为鼾声和说话声持续时间处于 1s-2s的连续帧个数占总帧数的比率,记为cm1,定义公式为: 其中av为单一语音持续时间为1s-2s长度的平均值,sumt为单一语音持续时间1s-2s长度的和,nu为单一语音的总个数其中t为处于1s-2s的单一语音持续时间的总长其中,nut为处于1s-2s的连续时长的帧个数,nuf为总帧数。Page 13 三个参数各自的统计结果Page 14 最终方案选定统计结果看出,三个参

6、数在鼾声和说话声中都具有一定区分度,经过门限值的选取,用三个参数分别对小样本鼾声和语音信号进行判定测试。发现三者的判定率都没有达到预期效果。平均持续时间对鼾声判定率不高,原因由于夜晚人睡眠状态不稳定,持续时间有长也有短。时间百分比对说话声判定率不够高,原因由于不同人说话声长短有异。帧数百分比虽然区分准确率高,但由于区分区间徘徊在26%28%之间,区分度不高。综上所述,由于三个参数鼾声普遍大于说话声,选取三个特征的和作为最终判定结果,记为tsum。Page 15 tsum小样本结果统计Page 16 4 实验结果和总结4.1 时域分析参数判定结果统计选取参数为单一语音持续时间为1-2s时的三个所

7、求特征值之和,记为tsum,此时tsum=1.2为鼾声,tsum1.2为说话声,否则为无声段Page 17 4.2 统计结果分析 tsum的对鼾声的判定准确率为97.5%,识别说话声的准确率为95%,总识别率为96.25%。说话声判定为鼾声由于说话人声中有一部分特殊语音,持续时间较长。如笑声,叫声等。鼾声判定为说话声原因则较为复杂,最多见的原因为人在不同的睡眠时段鼾声持续时间有细微差别,而人与人之间的鼾声持续时间也不同,另一种原因则是该样本来源人为呼吸暂停综合征的患者,且病情较重。此类患者的鼾声除了要根据单个鼾声持续时间进行判断为外,还要辅助以每个鼾声之间的间隔时间进行区分,与持续时间相似的规

8、律。间隔时间为2-5s。Page 18Page 19 4.3 关于频域分析结论 1.常用频域参数语音识别的方法 多个频域参数提取,组成高维参数后进行模式识别 mfcc(mel域复倒谱系数)、lpcc(线性预测倒谱系数)等高维参数配合自身差分或其他参数进行模式识别 2.常用模式识别方法:支持向量机、隐马尔科夫模型、矢量量化等 本次课题采用mfcc及支持向量机。mfcc参数提取流程图Page 20 4.4 频域参数区分未完成原因分析所选样本数量不够,并在截取样本时没有完全排除重复截取的可能性,使训练样本区分度不高,训练后的模型无法对测试样本进行有效分类选取mfcc参数的语音帧数过小,并没有取所有帧

9、作为训练参数,使得训练数据量不够多,可能影响了模型最后的区分能力对核函数模型的选取并不妥当,由于未能理解支持向量机的具体分类过程和核函数各参数的作用。在分类过程中,没有很好的选取核函数并及时对核函数的中间参数进行调整。样本帧数模型参数Page 21 4.5 频域区分方案的选定4.5.1 频域参数选定准备工作语音信号作为随机信号不存在能量谱,但由于短时平稳特性,可以对每一帧做短时傅里叶变换。频域参数所用样本为小样本,和时域一样,先进行预处理和语音信号提取,然后对每一帧进行短时傅里叶变换,计算器能量,得出能量谱Page 22Page 23 4.5.2 频域区分参数的选定由图中可以看出,鼾声的谱能量

10、大多集中于低频部分,而说话声的谱能量在1-1000hz之间都有分布。计算谱能量后,确定一个频率阈值,鼾声中该频率之后的谱能量加权比上该频率之前谱能量加权的比值较小,而说话声较大,以此可以用来区分鼾声和语音。通过统计,确定该频率为240Hz。区分的比值为1.6。Page 24 4.5.3 最终统计结果从图中看出,鼾声单独的判定准确率为0.675,说话声为0.7,整体准确率为0.6875Page 25 4.6 实验结论用于大样本区分大样本中每一样本长度为10分钟,从七小时的夜晚录音中选取大样本中混有说话声、鼾声、无声段及杂声(由于未涉及杂声分类,此时杂声可能为鼾声,可能为说话声)。Page 26 结果展示Page 27Page 28 最终八小时的判定统计结果 前15分钟为语音段中间全为鼾声段最后10分钟语音段 从图中可以看出,在本次八小时录音中,实验程序可以较好的判定出语音段和鼾声段的位置,并能反应病人打鼾时的间隔和状态。Page 2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论