基于malab的口鼻音声学分析平台的设计与实现_第1页
基于malab的口鼻音声学分析平台的设计与实现_第2页
基于malab的口鼻音声学分析平台的设计与实现_第3页
基于malab的口鼻音声学分析平台的设计与实现_第4页
基于malab的口鼻音声学分析平台的设计与实现_第5页
全文预览已结束

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于malab的口鼻音声学分析平台的设计与实现

0鼻音度的研究随着科学技术的进步和先进仪器的出现,音学研究开始向先进设备的研究发展。在声音生理研究中,语音采集采用气流压计、肌肉电技术、超声波成像技术和高速数字成像技术。鼻流计、电子动态采样水位计、磁铁采样水位计、嘴唇水位数据处理、磁共振成像、ct三维成像、高速磁共振噪声成像等。声音学科的前身逐渐接近语音产生的声音和生理特征的生物机制。这种多学科的全球研究的重点是“多模声音模型”的多学科研究。使用鼻流计对发音过程中鼻音程度的研究,始于上世纪末.国外有许多关于鼻音度的研究,多用于临床医学研究,用于语言学方面的较少.相关的研究有:Seaveretal(1991),测试了北美四个地区148名正常北美人的鼻音度;Leeperetal(1992),报道了加拿大的讲英语和法语双语的鼻音度;结论分析方面,证明了鼻音度具有区分正常人鼻腔共鸣和鼻音功能的特异性,以及男女鼻音度受生理结构不同,表现出差异.普遍认为,女性在阅读句子时表现出更多的鼻音.国内实验语音学起步较晚以及受限于昂贵的实验设备,目前鼻流计多用于医学角度,研究腭裂的临床评估和训练,在语音研究方面主要有:香港大学言语听觉专业教TaraL.Whitehill对讲14个广东话的正常女性的鼻流量作了测量.台湾的江荣山等几位学者用11个普通话字句作为言语测试句,对106名患者鼻腔共鸣作了相关测试.华东师范大学主编的《言语障碍的评估与矫治》一书,介绍了鼻流计检测正常人群的鼻流量.本文中使用的鼻流计(Nasometer6400)是根据采集到的鼻音和口音能量比值建立鼻流量,并通过定量分析的方法进行鼻音的相关研究,除了用于腭裂、运动性言语障碍、听力障碍、腭修复、功能性的鼻音问题等嗓音病变和语音矫正外,还可以提取各种不同的参数用于言语产生的生理研究.1口鼻流信号采集方法1.1口鼻流信号采集设备口鼻流计由阿拉巴马州伯明翰大学开发研制,1986年从美国key公司引进,此后鼻流计就成为评估和治疗病人鼻音问题的国际标准的临床工具,广泛地应用于记录和显示有关鼻音的声学参数、定量分析、矫正腭裂病人、运动言语混乱、听觉损伤、功能性鼻音问题.本位使用的NasometerⅡ(6400)在最初版本Nasometer的基础上发展的最新的软硬件版本.该仪器操作简单,佩戴时口腔和鼻腔的中间有分隔板,麦克风分别安装在声音隔板的顶部和底部,以便在发声过程中更好地采集口音和鼻音.头戴式麦克风的设计克服了侵入式及手持面罩式仪器在发音过程中消音的缺点,在佩戴过程中不但能够实时地进行听觉和视觉的反馈,也便于使用者对仪器进行清洗消毒.1.2口鼻流信号采集方法口鼻流信号的采集既可以选用设备自带的采集软件,也可以用普通的录音软件(例如Audition),录制为双通道信号,第一通道为口音信号,第二通道为鼻流信号.鼻流计自带的信号采集软件可以通过实时的界面进行参数提取,包括鼻音度参数提取、口鼻能量统计、语音回放,并通过自带文本进行腭裂病人的鼻音矫正等相关功能,鼻流量的计算结果显示在窗口的坐标轴中,横轴表示时间,纵轴表示鼻音度(0%~100%).该软件可以读取NSP和WAVE两种格式的语音文件,缺点是参数比较单一,不具有批量处理功能.2河口流量规划进行鼻流信号研究的参数主要包括口音能量、鼻流能量、时长、鼻音度、口音共振峰、鼻音共振峰和基频等参数.2.1计算公式en首先对口音和鼻音信号进行分帧,然后按帧进行短时能量和短时平均幅度计算,计算公式如下:En=∑n=0N−1x2n(m)En=∑n=0Ν-1xn2(m)(短时能量),(1)Mn=∑n=0N−1|xn(m)|Μn=∑n=0Ν-1|xn(m)|(短时平均幅度).(2)2.2组合后的信号为了便于比较单个麦克风采集的语音信号和口鼻音组合后的信号(ON-signal),我们定义如下ON-signal=O-signal+N-signal.(3)2.3鼻音程度量化算鼻音能量占整个能量的百分比称为鼻流度,值的大小代表发音时鼻音程度的高低.同样是按帧进行计算,公式如下:NR=NP/(NP+OP)*100%.(4)NR为鼻音度(nasalanceratio),NP为鼻音能量,OP为口音能量,音段鼻音度主要提取平均值、最大值、最小值、拟合二次项系数、斜率和截距等参数,用来量化鼻音程度类型.2.4共振峰的估计以信号处理的观点来看,口腔和鼻腔的结合会在频谱上产生零点,因此传统的全极点模型也并不能适当地描述鼻音程度.另外鼻音度强的音会使第一共振峰频率以上的能量有大幅衰减的现象发生,所以这也是普通信号处理中的难点.利用全极点模型分别计算口音和鼻音的共振峰,可以精确地表示出口音共振峰和鼻音共振峰,也可用来做共鸣腔的模拟.从算法上来看,用LPC估计共振峰有两条途径:一条是求根法,即首先用LPC分析计算出预测系数(即预测误差滤波器A(z)的系数),然后求出A(z)的根,这些根正是声道频率特性的极点,由这些极点即可计算出共振峰的频率和带宽.另一条途径是选峰法,即首先用LPC分析方法求出语音谱包络,然后搜索包络上的局部最大值,对应的便是共振峰.2.5传统有表现为自相关的自相关函数基频参数代表着语言学意义的声调,但在发音过程中声调的高低会略微影响发音器官的变化,进而由共鸣腔的变化引起鼻音和口音能量的分布变化,从言语产生的角度解释声调与鼻音度之间的关系.算法采用传统的短时自相关函数,公式如下:Rn(j)=xn(m)ω(n-m)xn(m+j)ω(n-m-j),0≤j≤p.(5)式中Rn(j)表示时刻n所对应的自相关函数,自变量j表示自相关函数滞后时间,下标n表示短时自相关函数是对第n段语音算出的.显然n的取值应该每10~20ms变化一次,即每隔一帧时间才计算一次自相关函数(共有p+1)个.2.6音段之间的过渡传统的实验语音学对音段之间的协同发音有过大量的研究,鼻音度在协同发音中也有很强的表现.为了能够更好地研究鼻音度在音段之间的过渡,我们根据鼻音度的变化,定义了音段稳定段和过渡段时长,稳定段是指发音器官从前一个音的位置快速运动到当前位置后,再从当前位置快速运动到后一个音的位置前的运动平缓段.语音过渡段也可以称为是语音非平稳段,通常发生在元音与辅音的交界处,或者语速较快时的辅音段,在发音时,这些过渡段的发音能量远小于邻近元音的能量.3口鼻音信号分析软件为更深入地对口鼻音信号进行研究,我们在Windows平台下用Matlab编写了口鼻音信号分析软件,用来对采集到的信号进行有针对性的分析、标记以及相关参数的提取、保存,其主要功能包括:双通道wav文件的读取;信号进行标记;标记的自动保存以及带标记语音文件的读取;计算并保存时长和幅度等相关参数;wav文件的批处理等.3.1时域和频域处理主要完成以下功能:1)用wavread()函数读取双通道信号后,对口音和鼻音信号按帧分别计算能量,绘制能量图.2)对口鼻音信号用FFT实现从时域到频域的转换,并用宽带三维语图显示,横轴表示时间,纵轴表示频率,颜色深浅度表示能量.3)基本的信号时域处理功能,例如信号的放大、缩小、剪切、保存等.3.2平滑滤波过程由于计算出来的鼻音度信号带有很多细微的高频噪声,对其进行了低通平滑滤波.滤波器采用零相位数字滤波filtfilt(b,a,x).filtfilt调用filter函数,通过将输入数据前向和反向处理,以完成零相位数字滤波,滤波的过程如图2所示.3.3waat软件的编码编码语音学标记可以有效地去表征(describe)和区分(distinguish)不同的元音和辅音的鼻音度,以及音段之间的鼻音度过渡.本标注符号系统包括平行的四个层级,具体如下:第一层——拼音层(PY),描述音节对应的汉语拼音;第二层——声调类型层(SD),0(轻声),1(阴平),2(阳平),3(上声),4(去声);第三层——音节类型层(YJ),1元音;2辅音+元音;3元音+辅音;4辅音+元音+辅音;5辅音+元音+元音第四层——音位及过渡层(YW),描述不同音段所对应的音位以及音位之间的过渡.具体标注时可以采用praat软件,优点是不用自己编写程序,缺点是必须处理wav文件为单通道(信号为鼻音度)wav文件,然后再进行标注,提取参数时,编写praat脚本;另外一种方法是自己编写标注交互程序,可以多通道显示,并保存带标记信息的wav文件,这样使用起来比较方便,缺点是程序编写复杂.图3为praat对音节“can”鼻音度信号进行标记的示意图.3.4存储模块3.4.1waa文件的格式将录制好的双通道信号打开后,自动计算鼻音度和组合语音信号,随时可以保存为四通道的按国际RIFF标准定义的wav文件,第一通道为口音信号,第二通道为鼻音信号,第三通道为语音信号,第四通道为鼻音度信号.3.4.2标记参数的读取标记打完后,可以将带标记的语音信号按实验室自己的格式保存为带参数的四通道的wav文件.所有的标记参数都按国际RIFF标准定义,保留在原始wav文件的后面.以后每次打开该文件,标记就直接显示在信号之上,便于进行复查.3.5ban参数数据结构平台中针对所有参数设计了一套提取程序,实现对提取参数的wav文件进行批量处理,能够直接把带处理文件夹中所有打过标记的wav文件的参数数据直接读取到xls文件中.表1为音节ban的数据结构表,包括五部分:稳定段b,过渡段b-a,稳定段a,过渡段a-n,稳定段n,分别提取每一部分的相关参数.为了便于统一数据格式,每一音段的口音能量(OP)、鼻音能量(NP)、鼻音度(NR)、口音第一共振峰(OF1)、口音第二共振峰(OF2)、鼻音第一振峰(NF1)、基频(F0)均按照音段实际时长内插30个数据点,D为音段时长,“can”参数数据结构设计如表1所示.4“东南角”的四声信号分析图用Matlab开发口鼻流信号分析平台.该平台共有5个通道,分别是:口音信号、口音语图、鼻流信号、鼻流语图、鼻音度.该平台

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论