版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
南京邮电大学
通信与信息工程学院
第2章语音信号处理的基础知识语音发音及感知系统语音信号生成的数学模型语音基本概念和参数语音信号的数字化和预处理2.1语音发音及感知系统语音发音系统语音是由肺部呼出的气流通过在喉头至嘴唇的各种作用而发出的。(1)把肺部呼出的直气流变为音源;(2)对音源其共振和反共振作用,使其带有音色;(3)从嘴唇或鼻孔向空间辐射的作用;声门:声带之间的部分,开启或闭合,其开闭一次的时间为基音周期(倒数为基音频率);男性:50~250Hz,女性:100~500Hz声道:从声门到嘴唇的呼气通道;发浊音时,声门处气流冲击声带产生振动,通过声道响应变为语音。发清音时,声带不振动。2.1语音发音及感知系统语音听觉系统分为听觉外周和听觉中枢两部分。听觉外周(外耳、中耳、内耳、蜗神经):完成声音的采集、频率分解、声能转换功能;听觉中枢(位于听神经以上):加工和分析声音,包括感知声音的音色、音调、声强、判断方位等。2.1语音发音及感知系统语音听觉系统外耳:对声音感知中起着声源定位以及声音放大作用;中耳:进行声阻抗变换;听小骨对声音进行线性或非线性传递;内耳:主要构成器官是耳蜗,是听觉的受纳器,把声音通过机械变换产生神经发放信号。2.1语音发音及感知系统人耳听觉特性基底膜的频率响应分布多通道滤波器实现人类能够听到的声音频率为20~20000Hz,强度为-5~130dB。耳蜗基底膜具有时频分析仪的功能,将复杂信号分解为各种频率分量。可由一组伽马通滤波器实现,每个滤波器模拟基底膜不同部位最大位移处的响应。2.1语音发音及感知系统人耳听觉掩蔽效应掩蔽效应:在一个强信号附近,弱信号变得不可闻。最小可听阈曲线:在安静环境下,人耳对各种频率声音可以听到的最低声压(人耳对低频率和高频率不敏感,在1kHz附近最为敏感)。由于位于1kHz频率的掩蔽声存在,使听阈曲线发生了变化,本可以听到的三个被掩蔽声,变得听不到了。
在掩蔽声附近发生了掩蔽效应。同时掩蔽:强信号和弱信号同时出现。频率靠的越近,掩蔽声越强,掩蔽效应越明显。短时掩蔽:强信号和弱信号不同时出现。又分为后向掩蔽和前向掩蔽。语音发音及感知系统语音信号生成的数学模型语音基本概念和参数语音信号的数字化和预处理2.2语音信号生成的数学模型语音信号的数字模型U(z)是激励信号,浊音时U(z)是声门脉冲,即,斜三角脉冲序列的z变换;清音时,U(z)是一个随机噪声的z变换。V(z)是声道传递函数,可用声管模型或共振峰模型来描述。R(z)为辐射模型,一般为一阶高通形式。模拟了语音发音系统!2.2语音信号生成的数学模型激励模型
G(z)是一个低通滤波器。浊音激励模型可表示为以基音周期1/F0为周期的单位脉冲序列E(z)激励G(z),得到的U(z)是一个周期斜三角脉冲串:发清音时,可以模拟成随机白噪声(均值为0,方差为1,在时间或幅度上为白色分布的序列)。发浊音时,由于声带不断张开和关闭,将产生间歇的脉冲波。首先,单个脉冲波(斜三角波)的时频域波形(g(n),G(z))如下:2.2语音信号生成的数学模型声道模型(共振峰模型)把声道视为一个谐振腔,共振峰为腔体的谐振频率。一般地,元音用前3个共振峰表示,而对于较复杂的辅音或鼻音,需要用到前5个以上的共振峰。(实际中需要求出每个浊音/清音的共振峰频率、带宽、幅度等参数)级联型:传递函数V(z)为全极点模型,结构简单,适用于一般浊音。并联型:传递函数V(z)加入了零点,结构复杂,适用于非一般浊音以及大部分清音。2.2语音信号生成的数学模型声道模型(共振峰模型)混合型:将上述二者结合。研究表明,口唇端辐射在高频较为显著,在低频端时影响较小,所以辐射模型R(z)是一阶类高通滤波器的形式。辐射模型语音发音及感知系统语音信号生成的数学模型语音基本概念和参数语音信号的数字化和预处理2.3语音基本概念与参数基本参数声压与声强:(1)声压、有效声压、声压级(SPL);(2)声强、声强级(IL);(3)声压与声强的关系;响度:声音的响亮程度频率与音高:音高是以人的主观感受来评价所听到的声音高低2.3语音基本概念与参数时域波形浊音[ou](B段),[e](D段)的波形具有明显的周期性,且振幅较大,它们的周期与声带振动的频率有关,即为基音周期清音[s](A段),[k](C段)的波形类似于白噪声,振幅很小,没有明显的周期性2.3语音基本概念与参数频域特性浊音[ou]的频谱,可以看出其基音频率为300Hz,与时域波形一致。另外可以看出其共振峰(频谱中的凸起点)。清音频谱峰点之间的间隔是随机的,没有周期分量2.3语音基本概念与参数语谱图表示语音频谱随时间变化的波形。纵轴为频率,横轴为时间,任一给定频率成分在给定时刻的强弱作用用相应点的灰度浓淡来表示。--声纹(反映说话人特性)横杠:与时间轴平行的深黑色带纹,对应于短时谱中的共振峰,从横杠对应的频率和带宽可确定共振峰频率带宽。竖直条:与时间轴垂直的一条窄黑条,每个竖直条相当于一个基音,条纹的起点对应声门脉冲的起点,条纹间的距离表示基音周期。乱纹:清音语谱图表现为乱纹。语音发音及感知系统语音信号生成的数学模型语音基本概念和参数语音信号的数字化和预处理2.4语音信号的数字化和预处理语音信号的数字化包括:放大及增益控制、反混叠滤波、采样、A/D转换及编码。(1)预滤波:抑制输入信号各频率分量中频率超出fs/2的所有分量,以防止混叠干扰;抑制50Hz的电源工频干扰。其常为带通滤波器:上截止频率为3400Hz左右,而下截止频率为60~100Hz。(2)A/D转换:会引起量化误差(量化后信号与原信号之间的差值,又称为量化噪声);通常采用12位的A/D转换器。数字化的反过程:从数字化语音中重构语音波形,通常在D/A后加一个平滑滤波器,对重构的语音波形的高次谐波其平滑作用,以去除高次谐波失真。语音信号的预处理包括:预加重、加窗、分帧等。2.4语音信号的数字化和预处理语音信号的预处理包括:预加重、加窗、分帧等。为什么要预加重和去加重?语音信号低频段能量大,高频段能量小,而接收机鉴频器输出的低频噪声小,高频噪声大;造成信号低频信噪比大,而高频信号比小,使高频传输困难
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 医疗垃圾管理
- 第一课件网教学
- 肝硬化腹水护理个案
- 英制管螺纹尺寸表
- 室内设计的理念
- 数学科学学院-复旦大学
- 失业证明模板-20220420225234
- 《奥赛讲座生物化学》课件
- 一下美术知识课件
- 消防演练培训记录表格
- 叉车工安全技术交底书
- 市场营销职业规划生涯发展报告
- translated-(2024.V1)NCCN临床实践指南:心理痛苦的处理(中文版)
- 外国新闻传播史 课件 第十章 俄罗斯地区的新闻传播事业
- 《民用建筑项目节能评估技术导则》
- (2024年)《口腔医学美学》课件
- 七年级英语下册读写综合专项训练
- 门诊护患沟通技巧(简)
- 放射性物质的标志与标识
- 2024年传染病培训课件
- 肿瘤科护理培训总结报告
评论
0/150
提交评论