语音的产生机理教学提纲_第1页
语音的产生机理教学提纲_第2页
语音的产生机理教学提纲_第3页
语音的产生机理教学提纲_第4页
语音的产生机理教学提纲_第5页
已阅读5页,还剩123页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、语音的产生机理内容内容历史历史2.语音产生机理语音产生机理 3.语音特征语音特征4.系统架构系统架构5.引言引言1.引言u声音是携带信息的极其重要的媒体(20)u声音是通过空气传播的一种连续的波,叫声波,也具有反射、折射和衍射现象。u声音信号是由许多频率不同的分量信号组成的复合信号。复合信号的频率范围称为带宽带宽。u带宽为20Hz20kHz的信号称为音频(audio)信号,可以被人的耳朵感知。u声音是时基类媒体。u说的是什么内容?说的是什么内容?u是谁在说话?是谁在说话?u计算机去说话?计算机去说话?u怎么把话说好?怎么把话说好?语音识别语音识别声纹识声纹识别别文语转文语转换换说话水平评估说话

2、水平评估u说的是什么语言?说的是什么语言? 语种识别语种识别引言引言语音处理研究的基本内容语音处理研究的基本内容引言引言uSpeaker, or voice, recognition is a biometric modality that uses an individuals voice for recognition purposes. u说话人识别(声纹识别)是一项根据语音波形中反映说话根据语音波形中反映说话人生理和行为特征的语音参数人生理和行为特征的语音参数,自动识别说话人身份的技术。uIt is a different technology than “speech recogni

3、tion”, which recognizes words as they are articulated, which is not a biometric.u声纹识别利用的是语音信号中的说话人信息,而不考虑语音中的字词意思,它强调说话人的个性说话人的个性;而语音识别的目的是识别出语音信号中的言语内容,并不考虑说话人是谁,它强调共性。引言引言uThe speaker recognition process relies on features influenced by both the physical structure of an individuals vocal tract and

4、 the behavioral characteristics of the individual.u声音是个复杂的信号,说话人有关的差异是声道在解剖学上的差异和后天的说话习惯差异的综合的结果。在说话人识别中,所有的这些差异都可以被用来区别不同的用户。u它涉及到说话人发音器官上的个性差异、发音声道之间的个性差异、发音习惯之间的个性差异等不同级别上的差异。u说话人识别是交叉运用心理学、生理学、语音信号处理、模式识别、统计学习理论和人工智能的综合性研究课题。引言引言u说话人识别的特殊优势l对用户干扰少,易被用户接受l最经济的方法之一,输入设备造价低廉 l语音获取非接触,具备卫生方面的安全性l适用基

5、于电信网络的应用中 u因此,说话人识别研究具有巨大应用前景引言引言u声纹分析技术的应用领域:l信息查询领域的应用l在电话交易的应用l在PC以及手持式设备上面的应用l在保安系统以及证件防伪中的应用l与二维条码技术相结合的防伪应用挑战挑战u说话人的发音经常与环境、情绪、健康状态有密切关系。u语音信号或者称为“声纹(voiceprint)”与指纹(fingerprint)不同,指纹是静态的、固定不变的生理特性,而说话人特征具有长时变动特性,会随时间、年龄的变化而变化。u如感冒、声道管疾病,都有可能使发出的声音改变。u情绪变化也是一个因素,大声喊叫的时候,声道的形状显然同正常状态有很大的不同。挑战挑战

6、u声音往往是可以模仿的,还可以预先录制起来,如何区别真假声音也是很头痛的事情。特别是对于远程电话身份认证,不能采用同用户的其他特征相结合的办法。挑战挑战u线路传输所带来的线路噪声,包括不同线路噪声情况可能不同、同一线路在不同时期噪声情况也会不同,噪声的处理也很有难度。u噪声可能导致语音信号在整个时域空间上的污染,甚至有可能也对频域特征造成污染,这就给提取出正确的反映说话人的特征,造成了很大的困难。内容内容历史历史2.语音产生机理语音产生机理 3.语音特征语音特征4.系统架构系统架构5.引言引言1.历史历史u以人们的语音作为身份认证的手段,据说是从1660 年英国查尔斯一世之死的判决开始的,首次

7、利用语音作为推断犯人作案的线索。u其后随着技术的发展,电话克服了距离的障碍,录音手段克服了时间的障碍,从而使得对语音的说话人个性的分析得到了关注。历史历史u从1937 年开始,以C. A. Lindbergh 先生的儿子拐骗事件为开端,对语音的说话人个性开展了科学的测量和研究。u1945 年,美国贝尔实验室的R. K. Pooter 发明了语音频谱图,能把所谓的声纹(voiceprint)动描述出来。u1962 年,贝尔实验室的L. G. Kersta 第一次介绍了采用上述方法进行说话人识别的可能性。u1966 年,美国法院第一次采用此方法进行了取证。历史历史u原先的说话人识别,往往是用视觉来

8、判断声音频谱图,或者用听觉判断是谁的声音。u随着计算机的发展,自动说话人识别(ASR)的研究得到了迅速的发展。u自动说话人识别是指利用计算机技术,不需要人们的干预,自动的进行身份认证。内容内容历史历史2.语音产生机理语音产生机理 3.语音特征语音特征4.系统架构系统架构5.引言引言1.语音的产生机理语音的产生机理u众所周知,发声从肺部挤出空气开始,空气通过振动声带造出振动波。由于这个振动波在自声带到口为止的“3个箱子”各自振动,进一步强化共振,最终构成声音。u这3个箱子是“咽头”、“口腔”、和“鼻腔”。在制造语音的3个箱子中,口腔扮演了重要的角色。因为通过舌头能够改变空间的容积。如果容积改变,

9、则发音也改变了,3个频率的组合产生声音。 语音的产生机理语音的产生机理u语音产生器官l发声器官语音合成n肺、气管、喉(包括声带)、咽、鼻、口。它们共同形成一条形状复杂的管道l声带和声门n喉与气管的接口处称为声门l声道n其中喉以上的部分称为声道,随着发出语音的不同其形状是变化的语音的产生机理语音的产生机理u产生语音的能量,绝大多数来源于正常呼吸时肺部呼出的稳定气流l有极少数语种,如某些非洲语言,是利用吸气气流来发音的u声带最重要的发声器官l既是一个阀门又是一个振动部件l呼吸时左右两声带打开(声门开)l在说话的时候合拢,肺部气流经气管形成冲击“打开-闭合-打开-闭合-”声门,从而冲击声带产生振动,

10、然后通过声道响应变成语音声道调制声道调制u声道l咽、口腔和鼻腔l从声门延伸至口唇的非均匀截面的声管,约17cmu功能l谐振腔:放大某一频率而衰减其他频率分量n谐振频率:由每一瞬间的声道外形决定,又称为共振峰,是声道的重要声学特征语音的频率性质语音的频率性质u音调周期/基音周期l声门开启-闭合一次的时间即振动周期u基频l基音周期的倒数,声带振动的基本频率u音调l声带振动的频率(即基音)决定了声音频率的高低,频率快则音调高,否则音调低l人的基音范围n70350HZ,儿童和青年女性偏高,男性偏低语音的产生机理语音的产生机理u浊音(voiced sounds):声道打开,声带在先打开后关闭,气流经过使

11、声带要发生张驰振动,变为准周期振动气流。浊音的激励源被等效为准周期的脉冲信号。l如发/U/、/d/、/i/等音u清音(unvoiced sounds):声带不振动,而在某处保持收缩,气流在声道里收缩后高速通过产生湍流,再经过主声道(咽、口腔)的调整最终形成清音。清音的激励源被等效为一种白噪声信号。l如发/音u爆破音(plosive sounds):声道关闭之后产生压缩空气然后突然打开声道所发出的声音。l如发/ t/音时发声过程小结发声过程小结u人的发声过程包括两个步骤l声门/声带产生不同频率的声音n准周期气流脉冲或白噪声l声道对声源的调制作用 激励过程(声门)调制过程(声道)语音辐射语音的产生

12、机理语音的产生机理u肺中的空气受到挤压形成气流,气流通过声门(声带)沿着声道(由咽、喉、口腔等组成)释放出去,就形成了话音。u 气流、声门可以等效为一个激励源,声道可以等效为一个时变滤波器(共振峰)。u 话音信号具有很强的相关性(长期相关、短期相关)。语音的产生机理语音的产生机理语音信号的产生数学模型语音信号的产生数学模型u激励模型u声道模型u辐射模型激励模型激励模型u激励模型非常复杂u声门脉冲模型l浊音n声带振动,声门脉冲n如:斜三角形脉冲串u随机白噪声l清音n声带不振动,随机白噪声内容内容历史历史2.语音产生机理语音产生机理 3.语音特征语音特征4.系统架构系统架构5.引言引言1.声纹识别

13、流程声纹识别流程图1 说话人识别模型 声纹识别系统的组成声纹识别系统的组成u声纹识别系统主要包括两部分,即声纹识别系统主要包括两部分,即特征检测特征检测和和模模式匹配式匹配。l特征检测特征检测的任务是选取唯一表现说话人身份的有效且稳的任务是选取唯一表现说话人身份的有效且稳定可靠的特征定可靠的特征.l模式匹配模式匹配的任务是对训练和识别时的特征模式做相似性的任务是对训练和识别时的特征模式做相似性匹配。匹配。 特征特征uSpeech samples are waveforms with time on the horizontal axis and loudness on the vertical

14、 access. Voice Sample: The voice input signal (top of image) shows the inputloudness with respect to the time domain. The lower image (blue) depicts thespectral information of the voice signal. This information is plotted bydisplaying the time versus the frequency variations特征特征u特征提取是指用各种模拟和数字处理技术、运

15、用软件和硬特征提取是指用各种模拟和数字处理技术、运用软件和硬件的手段,处理语音信号,选择和提取表征语音信号的特件的手段,处理语音信号,选择和提取表征语音信号的特征。征。u特征提取特征提取的任务是提取并选择对说话人的声纹具有的任务是提取并选择对说话人的声纹具有可分性可分性强、稳定性高强、稳定性高等特性的声学或语言特征。与语音识别不同,等特性的声学或语言特征。与语音识别不同,声纹识别的特征必须是声纹识别的特征必须是“个性化个性化”特征,而语音识别的特特征,而语音识别的特征对说话人来讲必须是征对说话人来讲必须是“共性特征共性特征”。u较好的特征,应该能够有效地区分不同的说话人,但又能较好的特征,应该

16、能够有效地区分不同的说话人,但又能在同一说话人语音发生变化时保持相对的稳定;不易被他在同一说话人语音发生变化时保持相对的稳定;不易被他人模仿或能够较好地解决被他人模仿问题;具有较好的抗人模仿或能够较好地解决被他人模仿问题;具有较好的抗噪性能。噪性能。 u特征提取的信息来源是说话人所说的话,其语音信号中既包含了说话人所说的话的信息,也包含了说话人的个性信息,是话音特征和个性特征的混合体。u目前还没有将说话人的个性特征从所发语音的语音特征中分离出来的较好办法,从而给有效的特征提取带来了很大的难度。u所有提取出来的特征向量中,虽然在一定程度上表征了说话人的个性特征,不可避免的包含有特定话音的特征。语

17、音信号分析方法分类语音信号分析方法分类u时域特征l直接从时域信号计算得到,反应了语音信号时域波形的特征。n如短时平均能量、短时平均过零率、共振峰、基音周期等。u频域及倒谱域特征l由时域信号进行频谱变换得到,反映语音信号的频域特性n包括傅里叶频谱、倒谱以及利用了语音信号的时序信息的时频谱u听觉特征l不直接对声道模型进行研究,而是从人类听觉系统对语音的感知特性来刻画语音信号的特征n如感知线性预测(PLP)分析u 根据所分析的参数类型,语音信号分析可以分成时域分析和变换域(频域、倒谱域)分析。其中时域分析方法是最简单、最直观的方法,它直接对语音信号的时域波形进行分析,提取的特征参数主要有语音的短时能

18、量和平均幅度、短时平均过零率、短时自相关函数和短时平均幅度差函数等。短时分析技术短时分析技术u语音信号是非平稳时变信号l语音信号的特性是随时间而变化的u幸运的是具有短时平稳性l短时间范围内其特性基本保持不变(缓慢变换),即短时相对平稳准平稳过程u短时分析技术l即在对语音信号进行分析时,将语音信号分为一段一段,利用平稳信号的分析方法对每一分段进行处理l每一分段成为一“帧”:一般1030ms为一帧u短时分析的不足l对语音识别,应采用HMM来分析,以处理语音信号的瞬变和非平稳特性语音信号的预处理语音信号的预处理 u 在对语音信号进行数字处理之前,首先要将模拟语音信号s(t) 离散化为s(n). 实际

19、中获得数字语音的途径一般有两种,正式的和非正式的。u 正式的是指大公司或语音研究机构发布的被大家认可的语音数据库,非正式的则是研究者个人用录音软件或硬件电路加麦克风随时随地录制的一些发音或语句。u 语音信号的频率范围通常是3003400Hz,一般情况下取采样率为8kHz即可。u 有了语音数据文件后,对语音的预处理包括:预加重、加窗分帧等。语音信号的预加重处理语音信号的预加重处理 u 预加重目的:为了对语音的高频部分进行加重,去除口唇辐射的影响,增加语音的高频分辨率。可通过一阶FIR高通数字滤波器来实现:1( )1H zz 设设n时刻的语音采样值为时刻的语音采样值为x(n) ,经过预加重处理后经

20、过预加重处理后的结果为的结果为 ( )( )(1)y nx nx n高通滤波器的幅频特性和相频特性如下高通滤波器的幅频特性和相频特性如下 预加重前和预加重后的一段语音信号时域波形预加重前和预加重后的一段语音信号时域波形 预加重前和预加重后的一段语音信号频谱预加重前和预加重后的一段语音信号频谱 语音信号的加窗处理语音信号的加窗处理 u 由于发音器官的惯性运动,可以认为在一小段时间里(一般为10ms30ms)语音信号近似不变,即语音信号具有短时平稳性。这样,可以把语音信号分为一些短段(称为分析帧)来进行处理。 说话人识别(说话人识别(9/149/14)语音信号的分帧实现方法:u 采用可移动的有限长

21、度窗口进行加权的方法来实现的。一般每秒的帧数约为33100帧。u 分帧一般采用交叠分段的方法,这是为了使帧与帧之间平滑过渡,保持其连续性。前一帧和后一帧的交叠部分称为帧移,帧移与帧长的比值一般取为01/2。 u图3.3给出了帧移与帧长示意图。 u加窗常用的两种方法:u矩形窗,窗函数如下:其它 010 1)(Nnnw汉明汉明(Hamming)窗,窗函数如下窗,窗函数如下 0.540.46 cos 2 /1 0( ) 0 nNnNw n其它,u矩形窗及其频谱如下u汉明窗及其频谱如下思考:思考:两种窗效果有何异同?两种窗效果有何异同?加窗方法示意图:加窗方法示意图: 窗长的选择窗长的选择 一般选取一

22、般选取100200。原因如下:。原因如下: 当窗较宽时,平滑作用大,能量变化不大,当窗较宽时,平滑作用大,能量变化不大,故反映不出能量的变化。故反映不出能量的变化。 当窗较窄时,没有平滑作用,反映了能量的当窗较窄时,没有平滑作用,反映了能量的快变细节,而看不出包络的变化。快变细节,而看不出包络的变化。 语音信号的分帧处理,实际上就是对各帧进行语音信号的分帧处理,实际上就是对各帧进行某种变换或运算。设这种变换或运算用某种变换或运算。设这种变换或运算用T 表示,表示,x(n)为输入语音信号,为输入语音信号,w(n)为窗序列,为窗序列,h(n)是与是与w(n)有关的滤波器,则各帧经处理后的输出可以表

23、示为:有关的滤波器,则各帧经处理后的输出可以表示为: ( ) ()nmQT x m h nm几种常见的短时处理方法是:几种常见的短时处理方法是:22 ( )( )( )( )T x mxmh nw n,nQ1.对应于能量;对应于能量; ( ) sgn ( ) sgn (1)( )( )T xmxmxmhnwn,2.,nQ对应于平均过零率;对应于平均过零率; ( )( ) () T xmxmxm kh nw n w n k,3.nQ对应于对应于自相关函数自相关函数 ;短短时平均能量时平均能量 u1短时平均能量定义u定义n时刻某语音信号的短时平均能量En为: )()( )()()1(22nNnmm

24、nmnwmxmnwmxE当窗函数为矩形窗时,有当窗函数为矩形窗时,有 )() 1(2nNnmnmxEu若令 u则短时平均能量可以写成:u u )()(2nwnh )()()()(22nhnxmnhmxEmn x ( n ) x 2 ( n ) E n h ( n ) ( . ) 2 图 3.7 语音信号的短时平均能量实现方框图 2. En特点:特点:En反映语音信号的幅度或能量随时间缓反映语音信号的幅度或能量随时间缓慢变化的规律慢变化的规律 。3. 窗的长短对于能否由短时能量反映语音信号的幅窗的长短对于能否由短时能量反映语音信号的幅度变化,起着决定性影响。度变化,起着决定性影响。 如果窗选得很

25、长,如果窗选得很长,En不能反映语音信号幅度变化不能反映语音信号幅度变化。 窗选得太窄,窗选得太窄,En将不够平滑。将不够平滑。 通常,当取样频率为通常,当取样频率为10kHz时,选择窗宽度时,选择窗宽度N=100200是比较合适的。是比较合适的。u不同矩形窗长N时的短时能量函数 u 短时平均能量的主要用途如下:u 1)可以作为区分清音和浊音的特征参数。u 2)在信噪比较高的情况下,短时能量还可以作为区分有声和无声的依据。u 3)可以作为辅助的特征参数用于语音识别中。uMATLAB的具体实现如下 :u1、用Cooledit读入语音“我到北京去”。u2、将读入的语音文件wav保存为txt文件,设

26、置采样率为8kHz,16位,单声道。u3、把保存的文件zqq.txt读入Matlab。ufid=fopen(zqq.txt,rt); x=fscanf(fid,%f);ufclose(fid);u4、对采集到的语音样点值进行分帧。3.4 短时平均短时平均幅度函数幅度函数 为了克服短时能量函数计算为了克服短时能量函数计算x2 ( m ) 的缺点,的缺点,定义了短时平均幅度函数定义了短时平均幅度函数:mnmnwmxM )(| )(| x ( n ) Mn w ( n ) 图 3.9 短时平均幅度 |x ( n )| | . | Mn与与En的比较:的比较: 1. Mn能较好地反映清音范围内的幅度变

27、化;能较好地反映清音范围内的幅度变化; 2. Mn所能反映幅度变化的动态范围比所能反映幅度变化的动态范围比En好;好; 3. Mn反映清音和浊音之间的电平差次于反映清音和浊音之间的电平差次于En。 短时平均幅度函数随矩形窗窗长短时平均幅度函数随矩形窗窗长N变化的情况变化的情况短时平均过零率短时平均过零率 u1. 定义u 在离散时间语音信号情况下,如果相邻的采样具有不同的代数符号就称为发生了过零。单位时间内过零的次数就称为过零率。短时平均过零率的定义为 sgnsgn1sgnsgn1*nmZx mx mw nmx nx nw n 10120 nN w n N 其它1( )0 sgn( )1( )0

28、 x n x n - x n及 在上式中,用在上式中,用1/2N 作为幅值,是考虑了对该窗口范作为幅值,是考虑了对该窗口范围内的过零数取平均的意思围内的过零数取平均的意思。 u 考虑到w(n-m)的非零值范围为n-m0,即mn,以及 n-mN-1,故mn-N+1,因此短时平均过零率可以改写为:nNnmnmxmxNZ)1(|1-sgnsgn| 21 sgnsgn1sgnsgn1*nmZx mx mw nmx nx nw n (定义式)(定义式)u2. 实现短时平均过零率 Nn x(n) Sgnx(n) 1 一阶差分 sgnxn -sgnxn-1 低通滤波 h(n)=w(n) -1 +1 图图 3

29、.11 语音信号的短时平均跨零数语音信号的短时平均跨零数 Sgn . 取绝对取绝对值值 . . 女声女声“我到北京去我到北京去”的短时平均过零次数的变化曲线的短时平均过零次数的变化曲线:u3. 应用u 清音过零率高,浊音过零率低。u 局限性:浊音和清音重叠区域只根据短时平均过零率不可能明确地判别清、浊音。 清音清音 浊音浊音 0 10 20 30 40 50 60 70 80 每每 10ms 内的过零数内的过零数 过零率概率分布过零率概率分布 端点检测端点检测u 端点检测目的:从包含语音的一段信号中确定出语音的起点及结束点。u 有效的端点检测不仅能使处理时间减到最少,而且能抑制无声段的噪声干扰

30、,提高语音处理的质量。时域特征时域特征u短时平均能量lN为分析窗的宽度,St(n) 表示第t 帧中第n个采样点的信号值u短时平均过零率过零率过零率tS(t)One frame20msOne frame20ms时域特征时域特征u能量和过零率参数的缺点l对于说话人和背景噪声的鲁棒性较差u目前时域参数多用在语音的预处理上l如端点检测,判断语音的开始与结束l也有人把它作为模型参数进行使用频域分析频域分析u为什么要进行频域分析?l稳态语音的生成模型由线性系统线性系统组成,其被一随时间做周期变化或者随机变化的源所激励激励,因而系统输出频谱频谱反映了激励与声道频率响应特性反映了激励与声道频率响应特性l语音信

31、号的频谱具有非常明显的语音语音、声学声学意义,可以获得重要的语音特征,如共振峰n共振峰是指在声音的频谱中能量相对集中的一些区域n共振峰不但是音质的决定因素,而且反映了声道(共振腔)的物理特征。l声音在经过共振腔时,受到腔体的滤波作用,使得频域中不同频率的能量重新分配,一部分因为共振腔的共振作用得到强化,另一部分则受到衰减,得到强化的那些频率在时频分析的语图上表现为浓重的黑色条纹。由于能量分布不均匀,强的部分犹如山峰一般,故而称之为共振峰。n在语音声学中,共振峰决定着元音的音质 广义频域分析广义频域分析u广义频谱分析l频谱l倒频谱l功率谱l频谱包络u常用频谱分析方法l傅里叶变换法l线性预测法l带

32、通滤波器组法频域分析频域分析u基本工具傅里叶变换l标准傅里叶变换n适用于周期、平稳随机信号n不适合于非平稳的语音信号u短时傅里叶变换l短时谱,有限长度的傅里叶变换n即对某一帧语音进行傅里叶变换n窗选语音信号的标准傅里叶变换l特别适用于“语音分析和语音合成”n因为其可以精确的恢复语音波形反卷积问题定义反卷积问题定义u语音信号的产生模型l线性非移变系统的输出,即声门激励信号和声道冲激响应的卷积lA = L * Ru问题l已知A,如何求解L和R?l解卷(反卷积)n由卷积结果求得参与卷积的各个信号分量反卷积方法反卷积方法u倒谱倒谱(同态同态)分析分析u线性预测分析同态分析同态分析u基本思路,三步走:l

33、Z变换: 卷积信号乘积信号l对数运算:乘积信号加性运算l逆Z变换: 得到满足加性的时域信号时域信号u分析得到的逆Z变换结果称为复倒频谱lComplex Cepstrumn倒谱 u同态分析/同态滤波/倒谱分析 Spectrum倒谱倒谱(同态同态)分析应用分析应用u倒谱分析可以得到某些参数的近似表示l声门激励的基音周期基音周期n声门的振动特征l区分浊音与清音浊音与清音n浊音:声带振动,声门开闭n清音:声带不振动l声道响应的共振峰频率共振峰频率n声道(咽、口腔和鼻腔)特征反卷积方法反卷积方法u倒谱(同态)分析u线性预测分析线性预测分析线性预测分析线性预测分析概况概况u线性预测 Linear Pred

34、iction, LPl1947年,维纳首次提出l1967年,板仓等人应用于语音分析和合成中lLP是首次得到成功实用的语音分析技术u功能l估计基本的语音参数n包括基音、共振峰、谱、声道面积函数l用于低带宽传输和存储语音u优势l精确估计参数;参数少但可以有效而准确的表示语音波形及其频谱性质;速度快,效率高。线性预测分析线性预测分析基本思路基本思路u基本概念l一个语音的采样可以用过去若干个语音采样的线性组合来逼近u分析思路l通过使实际语音采样实际语音采样和线性预测采样线性预测采样之间差值的平方和达到最小值,即进行最小均方误差最小均方误差的逼近,能够决定唯一的一组线性预测系数21minarg*Nnnn

35、tss线性预测分析线性预测分析基本思路基本思路线性预测分析线性预测分析模型模型u将信号看作某一模型(系统)的输出l将语音生成的激励、声道和辐射模型激励、声道和辐射模型全部谱效应简化为一个时变的数字滤波器时变的数字滤波器l用模型参数来描述信号,其参数包括:n浊音/清音判决,浊音基音周期增益常数,数字滤波器参数等语音信号的线性预测分析语音信号的线性预测分析u求解数字滤波器的参数参数和增益常数增益常数的过程即语音信号的线性预测分析u输出LPC, LP coefficientsl线性预测系数:参数、增益常数u注意l语音信号具有时变性,所以系数的预测同样要按帧进行按帧进行线性预测系数线性预测系数(LPC

36、)的计算方法的计算方法u问题转化l最后问题转化求解线性方程组求解线性方程组的问题uLPC的计算方法l自相关法l格型法n引入正向预测/反向预测的概念l协方差矩阵法n对协方差矩阵进行特征分解LPC+倒谱倒谱 = LPCCu基于LP的倒谱分析lLPC是语音信号的基本表示参数,可以变换为其他形式的参数u在求得LPC 后,使用下面的递推公式可以计算出该帧语音的LPC 倒谱(LPCC)系数基于基于LPC 的倒谱系数的倒谱系数LPCC.)2() 1 (31) 1 ()2(32) 3() 3() 1 () 1 (21)2()2() 1 () 1 (ttttttttttttLPCLPCCLPCLPCCLPCLP

37、CCLPCLPCCLPCLPCCLPCLPCC基于基于Mel频率的倒谱频率的倒谱MFCCu生理支持l根据人类听觉系统的特性,人耳分辨声音频率的过程犹如一种取对数的功能,基于此,出现了Mel 频率的倒谱系数(MFCC)nMFCC: Mel-Frequency Cepstrum Coefficientsu特点lMFCC 比LPCC 更能反映听觉特性,在语音识别系统中有着广泛的应用,是目前公认的性能最好的特征参数之一Mel-频率频率u目的l模拟人耳对不同频率语音的感知u人的耳朵由外耳、中耳和内耳构成,起重要作用的是内耳耳蜗。对于不同的声音频率,耳蜗内的基底膜运动的幅度也不同。通常在几百赫兹以上的声音

38、信号,频率沿基底膜是对数分布的;几百赫兹以下是线性分布的。通过耳蜗处理,把时域语音信号分解成在不同的空间轴位置上有不同频率特性的信号,这就是耳蜗的频率分解。Mel-频率频率u人类对不同频率语音有不同的感知能力l1kHz以下,与频率成线性关系l1kHz以上,与频率成对数关系uMel频率l将频谱转换到基于Mel频标的非线性频谱l在Mel频域内,人对音调的感知能力为线性关系n如果两段语音的Mel频率差两倍,人在感知上也差两倍Mel-频率频率u公式:u频率Mel-频率: 1125ln 1/700B fff- 频率B- Mel-频率Mel-频率频率(Hz)MFCC计算过程计算过程u计算流程:DFT时域信

39、号线性谱域Mel滤波器组LogDCTMel谱域对数谱域MFCCMel带通滤波带通滤波u利用D 个三角带通滤波器分别与离散谱St(k) 做卷积,其中三角滤波器的中心频率和边界频率与相应的Mel频标对齐(带宽在Mel标度上是相等的)倒谱系数计算倒谱系数计算u求出每个频段的对数能量输出l三角滤波器的输出u最后用DCT将这些系数变换到倒谱域u倒谱系数的维数l通常取DCT系数的前12维声学特征小结声学特征小结u短时平均能量/幅度/功率u短时平均过零率u线性预测系数(LPC)uLPC倒谱特征(LPCC)uMel 倒谱参数(MFCC)内容内容历史历史2.语音产生机理语音产生机理 3.语音特征语音特征4.系统

40、架构系统架构5.引言引言1.说话人识别(说话人识别(10/1410/14)u说话人识别模型主要有三类:l基于模板的模型:nK-NN (K近邻法)nDTW(动态时间规整)nVQ(矢量量化)l随机模型:nGMM(高斯混合模型)(高斯混合模型)nHMM(隐马尔可夫模型)l基于人工神经网络的模型nNN(神经元网络)nSVM(支持向量机)说话人识别(说话人识别(11/1411/14)Feature 1Feature 2: class-A point: class-B point: point with unknown classCircle of 3-nearest neighborsThe point

41、 is class B via 3-NNR.K近邻法近邻法 (K-NNR):1. 对给定的点找到前K个最近的邻居. 2. 对这K个最近的邻居通过投票法决定这个特征点属于哪个类.说话人识别(说话人识别(12/1412/14)一维高斯混合模型一维高斯混合模型二维高斯混合模型二维高斯混合模型说话人识别(说话人识别(13/1413/14)三维高斯混合模型三维高斯混合模型说话人识别(说话人识别(14/1414/14)情感和情感语音(情感和情感语音(1/7)u普通心理学/现代心理学u简明牛津英语词典从心理学的角度给情绪下的定义是:“情绪是一种不同于认知或意志的精神上的情感或感情。”u情绪(emotion)

42、是人对客观事物的态度和体验。这是从最广泛的意义上给情绪下的定义。情绪是人(包括动物)所具有的一种心理形式心理形式。它与认识活动不同,具有主干的体验形式(如喜怒悲剧惧等感受色彩)、外部表现形式(如面部表情),以及独特的生理基础(如皮层下等部位的特定活动)。情感和情感语音(情感和情感语音(2/7)u情绪可以分为基本情绪和复合情绪,口语中情绪表达一般不强烈,更多的是复合情绪而不是某一种基本情绪。目前用的最多的基本情绪分类为:害怕、生气、高兴、难过、惊害怕、生气、高兴、难过、惊讶、厌恶讶、厌恶。情感和情感语音(情感和情感语音(3/7)u研究热点l情感语音库l情感语音分析l情感语音识别l情感语音合成应用

43、的语义、行为音素、词语、韵律特征提取发音系统参数信息表达信息理解语言系统语言系统神经系统转换神经肌肉映射耳蜗运动声道系统产生语音分析语音语音理解过程语音产生过程语音产生语音理解生理过程语音产生语音理解生理过程图1 中性语音“你是个好人”的语音特征 情感和情感语音(情感和情感语音(4/7)u语音信号中的情感特征l基音频率l发音持续时间l能量l韵律结构l音质l 世间的问题, 原来极复杂的,可以用极简单的事例, 加以说明情感和情感语音(情感和情感语音(5/7) 情感与语音参数之间的关系情感与语音参数之间的关系 汉语汉语语速语速稍快稍快较快,但较快,但有时较慢有时较慢稍慢稍慢很快很快非常慢非常慢平均音

44、高平均音高非常高非常高很高很高稍低稍低非常高非常高非常低非常低音高范围音高范围很宽很宽很宽很宽稍窄稍窄很宽很宽稍宽稍宽音节基频音节基频高线变化高线变化陡峭,在重陡峭,在重读音节处读音节处平滑,上平滑,上升变化升变化下降变化下降变化正常正常宽,下降宽,下降终端变化终端变化音节基频音节基频低线变化低线变化没有太多变没有太多变化化平滑,上平滑,上升变化升变化下降变化下降变化正常正常下降终端下降终端变化变化音强音强较高较高较高较高较低较低正常正常较低较低音质音质有呼吸声,有呼吸声,胸腔声调胸腔声调有呼吸声,有呼吸声,响亮响亮共鸣声共鸣声不规则发不规则发声声嘟囔的胸嘟囔的胸鸣声鸣声清晰度清晰度焦急焦急正

45、常正常模糊模糊准确准确正常正常情感和情感语音(情感和情感语音(6/7)情感和情感语音(情感和情感语音(7/7)u传统说话人识别面临挑战l中性语音l低层的短时声学特征u人机交互中情感计算的加强u说话人发声状态的情感变异l语速l音高l音长u因此,需要情感鲁棒说话人识别模型 内容内容情感和情感语音情感和情感语音2.情感与说话人识别情感与说话人识别3.说话人识别技术说话人识别技术1.情感语音对说话人识别系统性能影响(情感语音对说话人识别系统性能影响(1/41/4)识别率识别率情感语音对说话人识别系统性能影响(情感语音对说话人识别系统性能影响(2/42/4)与训练语音的文本相关性文本的情感建模方式得分选

46、择策略情感语音对说话人识别系统性能影响(情感语音对说话人识别系统性能影响(3/43/4)u训练文本的情感l对于中性语音,诱发情感信息l对于情感语音,更好地表达情感l情感语料越多越好,但是情感语料的增加破坏了系统的友好性,一般每种情感可录10s;u与训练语音的文本的相关性l文本内容丰富,文本相关的系统性能要好情感语音对说话人识别系统性能影响(情感语音对说话人识别系统性能影响(4/44/4)u建模方法l情感语料充足时,单独为每个说话人的每种情感建立一个说话人模型u得分选择策略l在无法自动识别情感状态的情况下,可采用取最高得分策略建设抗情感变化的说话人系统的对策(建设抗情感变化的说话人系统的对策(1/21/2)u前台诱发用户l通过文本提示框n训练时,提供文本内容丰富,文本情感丰富文本内容丰富,文本情感丰富的语料n测试时,提供文本相关文本相关的语料建设抗情感变化的说话人系统的对策(建设抗情

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论