语音信号处理总复习资料.doc_第1页
语音信号处理总复习资料.doc_第2页
语音信号处理总复习资料.doc_第3页
语音信号处理总复习资料.doc_第4页
语音信号处理总复习资料.doc_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Ch1 绪论1.1 语音信号处理概述一、语音、语音信号处理的名词解释1、语音:是语言的声学表现,是声音和意义的结合体,是相互传递信息的重要手段,是人类最重要、最有效、最常用和最方便的交换信息的形式。2、语音信号处理:是研究用数字信号处理技术对语音信号进行处理的一门学科,它是一门新兴的学科,同时又是综合性的多学科领域和涉及很广的交叉学科。二、语音学的名词解释(集中备课) 语音学:是研究言语过程的一门科学,它包括三个研究内容:发音器官在发音过程中的运动和语音的音位特性;语音的物理特性;以及听觉和语言感知。1.2 语音信号处理的发展概况一、语音编码、语音合成、语音识别名词解释(参见大纲)1、语音编码:语音编码技术是伴随着语音信号的数字化而产生的,目前主要应用在数字语音通信领域。2、语音合成:语音合成的目的是使计算机能像人一样说话。3、语音识别:语音识别是使计算机判断出所说的话得内容。Ch2 基础知识2.2 语音产生的过程一、语音、清音、浊音1、语音:声音是一种波,能被人耳听到,振动频率在20Hz-20kHz之间。语音是声音的一种,它是由人的发音器官发出的、具有一定语法和意义的声音。语音的振动频率最高可达15kHz左右。2、人类生成语音过程可分为神经和肌肉的生理学阶段和产生语音波、传递语音波的物理阶段。3、浊音、清音:语音由声带振动或不经声带振动来产生,其中由声带振动产生的音统称为浊音,而不由声带振动产生的音统称为清音。浊音中包括所有的元音和一些辅音,清音包括另一部分辅音。二、语音的产生过程:空气从肺部排出形成气流。空气通过声带时,如果声带是紧绷的,则声带将产生张弛振动,即声带周期性地开启和闭合。声带开启时,空气流从声门喷射出来,形成一个脉冲;声带闭合时相应于脉冲序列的间歇期。三、基音周期、基音频率基音周期:声带开启和闭合一次的时间即振动周期称为音调周期或基音周期。基音频率:基音周期的倒数称为基音频率,简称为基频。四、浊音、清音、爆破音的激励源对于浊音、清音和爆破音来说,激励源是不同的,浊音语音是位于声门处的准周期脉冲序列,清音的激励源是位于声道的某个收缩区的空气湍流,而爆破音的激励源是位于声道某个闭合点处建立起来的气压及其突然释放。五、共振峰的概念(参见大纲)1、共振峰名词解释:声道是一个分布参数系统,它是一个谐振腔,有许多谐振频率,称为共振峰,它是声道的重要声学特征。2、共振峰的公式:Fn=(2n-1)c/4L(会运用公式进行计算,填空、选择)3、谐振点间的间隔不同,但平均仍然大约为每1KHz有一个谐振点。4、共振峰特性,决定信号频谱的总轮廓,或称谱包络。语音的频率特性主要是由共振峰决定的。声道的共振峰特性决定所发声音的频谱特性(音色)。5、头三个共振峰最重要。2.3 语音信号的特性一、语音的物理属性(集中备课) 语音的物理性质包括音质、音调、音强、音长等特性。语音是人的发音器官发出的一种声波,具有声音的物理属性。音质是一种声音区别于其他声音的基本特征;音调指声音的高低,取决于声波的频率:频率高则音调高,频率低则音调低;响度是指声音的强弱,又称音量,它是由声波震动幅度决定的;声音的长短也称音长,它取决于发音持续时间的长短。二、音素、音节、单词、句子的基本概念以及它们之间的关系(集中备课)(1)音素是语音的最小、最基本的组成单位,音素都有其独立的各不相同的发音方法和发音部位,它是使听者能区别一个单词和另一个单词的声音的基础。(2)音节是最小的语言片段,一个音节由一个或几个音素组成。(3)单词是由音节结合而成的更大单位,是有意义的语言的最小单位。(4)句子是单词的进一步组合。三、汉语的特点是:音素少、音节少。汉语中的音节即字音由声母、韵母和声调按一定方式构成,即声、韵、调三个因素构成。四、语音的时间波形和频谱特性(集中备课)(答题关键点抓住:时域卷积,频域相乘)1、元音的时间波形如图2-2所示(P10)特点:其声门波形为脉冲序列,脉冲之间的间隔为基音周期,用g(t)表示。2、声道的输出如图2-3所示(P11)特点:是g(t)与冲激响应h(t)的卷积,其中,每个高峰代表一个新的声门脉冲的起点,它们之间的间隔等于声门脉冲的周期。3、元音信号的频谱如图2-6所示(P12)特点:g(t)的频域为G(f),冲激h(t)的频域表示为H(f),输出的频谱为G(f)H(f),如图2-6所示。其中虚线称为谱包络,其形状是由H(f)和G(f)的包络乘积得到的。五、清音和浊音的频谱特性 清音和浊音的波形有很大的不同。清音的波形类似于白噪声,具有很弱的振幅;元音(浊音)具有明显的准周期性,并具有较强的振幅。它们的周期对应的频率就是基音频率。如果考察其中一个周期,还可以大致看出其频谱特性。2.4 语音信号产生的数学模型一、语音信号的数字模型(集中备课)语音信号数字模型的概念:语音信号被看成是线性时不变系统(声道)在随机噪声或准调周期脉冲序列激励下的输出。在满足这样的假设条件下,产生了语音信号的基本数字模型,是语音处理技术的基础。二、浊音、清音激励源1、发不同性质的音时,激励的情况是不同的,大致分为两类:(1)发浊音时,此时气流在通过绷紧的声带时,冲激声带产生振动,使声门处形成准周期性的脉冲串。声带绷紧的程度不同时,振动频率也不同,这个频率就是音调频率,其倒数为音调周期。不同人的音调周期是不同的,男子大,女子小,老人大,小孩低。(2)发清音时,此时声带松弛而不振动,气流通过声门直接进入声道。2、语音信号的产生模型P16(重点注意,框图中有些符号visio软件中没有,这个框图就自己补充上吧!)三、语音信号数字模型的组成等(集中备课)1、语音信号数字模型由激励模型、声道模型和辐射模型组成。2、声道模型包括声管模型和共振峰模型。3、共振峰模型又可分为级联型、并联型和混合型。特点:(1)级联型比较简单,可用于描述一般的元音。级联的级数取决于声道的长度。(2)腔体具有反谐振特性时可采用并联结构,它比级联复杂,每个谐振器的幅度要独立控制。(3)混合型是将级联型和并联型结合起来的、较完备的一种共振峰模型。该模型能够根据不同性质的语音进行切换。四、语音信号数字模型的框图:(P21 图2-18,自己补充)图中,清/浊音开关模拟了加在声道上的激励的改变情况:当开关接在浊音位置时,激励源是准周期脉冲序列发生器,其重复频率由基音频率来确定;当开关接在清音位置时,激励源是随机噪声发生器。2.5 语音感知一、 语音感知1、人耳听到声音后,经过大脑的处理才能变成确定的含义,这就是对语音的感知。2、人耳能听到的声音,频率范围在16Hz-16kHz之间,年轻人的上限可以延伸至20kHz,老年人则衰退到10kHz。二、声音的三要素(集中备课)声音可以用幅度、频率和相位三个物理量来描述,但相对于人耳的感觉,声音的描述有其三要素,即:响度、音调和音色。1、响度:响度是人耳对声音强弱程度的主观反应,响度取决于声音的幅度,主要是声压的函数,但和频率和波形也有关,单位是宋(sone)。人耳对30004000Hz的声音感觉最灵敏。2、音调:也称音高,是一种主观心理量,是人耳对声音频率高低的感受,即与声音的频率有关。音调与声音频率是近似的对数关系,单位是美(mel)。3、音色:也叫音质,反映了声音属性。人根据音色在主观感觉上区别具有相同响度和音调的两个声音。三、听觉掩蔽:人类听觉中存在一种现象,即两个音同时存在时,一个声音有可能受到另一个声音的干扰或压制,即一个音被另一音掩盖,这称为听觉掩蔽。Ch3 时域分析3.1 概述一、为什么时域分析要采用短时分析技术(大纲)(集中备课)1、短时分析技术的基本概念:语音信号是一种随时间而变化的信号,可能是浊音激励也可能是清音激励,浊音的基音周期以及信号幅度等语音特性也都随时间变化,但这种变化是缓慢的,在一小段短时间内10-30ms,语音信号近似不变。于是,我们把变化的语音信号分成一些相继的短时间段来处理。而每一段时间段具有固定的特性,这种方法称为“短时”处理方法。短时方法是用平稳信号的处理方法处理非平稳信号的关键。2、语音信号分析的分类(1)根据所分析的参数不同,语音信号分析可分为时域、频域、倒谱域。(2)将语音的特征表示和提取方法分为模型分析法和非模型分析法。模型分析法包括共振峰模型分析和声管模型分析;非模型分析法包括时域分析法、频域分析法及同态分析法。3、语音信号特点:(1)表示语音信号比较直观、物理意义明确;(2)实现起来比较简单、运算量少;(3)可以得到语音的一些重要参数。3.2 数字化和预处理一、取样和量化(集中备课)1、为了将原始的模拟信号转换为数字信号,必须经过取样和量化两个步骤,从而得到在时间和幅度上均离散的数字语音信号。2、取样是将时间上连续的语音信号离散化为一个样本序列。根据取样定理,当取样频率大于两倍信号带宽时,取样过程不会丢失信息,且从取样信号中可以精确地重构原始信号的波形。3、量化是指将取样后得到的样本序列的幅度再离散化,量化过程是将整个幅度值分割为有限个区间,将落入同一区间的样本赋予相同的幅度值。 4、常见语音的采样频率(1)电话带宽语音(长途通信、移动通信、卫星通信)取样率为8kHz;(2)实际语音信号处理,取样率为10kHz;(3)为实现更高质量的语音合成,取样率提高到15-20kHz。二、量化噪声的概念及特点(集中备课)1、量化噪声:量化后信号值与原信号之间的差值称为量化误差,即量化噪声。2、量化信噪比的计算公式:SNR(dB)=6.02B-7.2三、语音信号系统框图(为什么要进行预处理)(集中备课)系统框图:P26 图3-4(1)反混叠滤波器的作用:它是一个具有良好截止特性的模拟低通滤波器,主要是为了防止混叠失真和噪声干扰。(2)平滑滤波器的作用:对重构的语音波形的高次谐波起到平滑作用,以去除高次谐波失真。3.3 短时能量分析一、语音信号的能量分析:语音信号的能量分析是基于语音信号能量随时间有相当大的变化,特别是清音段的能量一般比浊音段的小得多。能量分析包括能量和幅度两个方面。二、直角窗和海明窗(集中备课)1、不同的窗口选择将决定短时能量特性,即窗口的形状和长度。2、直角窗和海明窗的比较(大纲)(1)从窗口形状上:海明窗的带宽大约是同等宽度矩形窗带宽的2倍。此外,海明窗在通带外的衰减比矩形窗小得多,而且通带与阻带的起伏比较小。直角窗的谱平滑较好,但波形细节丢失,海明窗刚好相反。(2)从窗口长度上(窗口选择原则):选择太大,则短时能量随时间变化就很小,不能充分反映语音信号的幅度变化;而选择得小,即选择等于或小于一个基音周期时,将按照信号波形的细微变化而起伏不定,以致短时能量不够匀化和平滑。因此,折衷考虑的值,在通常情况下,当取样频率为10KHz时,=100-200被认为是合适的。三、短时能量的概念及其结论(集中备课)短时平均能量反映了语音能量随着时间缓慢变化的规律。它的主要用途有:1、可以区分清音段和浊音段;2、可以区分声母与韵母的分界、无声和有声的分界、连字的分界等。3、作为一种超音段信息,用于语音识别中。3.4 短时过零分析一、过零分析、过零率和平均过零数的名词解释(大纲)1、过零分析是语音时域分析中最简单的一种,对于离散时间信号的相邻两个取样值具有不同的符号时,便出现“过零”现象。单位时间过零的次数叫作“过零率”。2、平均过零数Z:单位时间内的过零数(Z=2f0/fs过零/样本)。二、短时平均过零数的实现(集中备课)1、实现框图:(P32 图3-12,自己补充) 2、文字描述:首先对语音信号序列x(n)进行成对的查对采样以确定是否发生过零,若发生符号变化,则表示有一次过零;而后进行一阶差分计算,再求绝对值,最后进行低通滤波。三、短时过零分析的用途(包含清音、浊音的各自特点,集中备课)1、短时平均过零数可以用来区分清音和浊音。发浊音时,语音能量约集中于3kHz以下。而发清音时,多数能量集中在较高的频谱上。浊音具有较低的平均过零数,而清音时具有较高的平均过零数。可见P33的图3-132、利用短时平均过零数还可以从背景噪声中找出语音信号,用于判断寂静无语音和有语音的起点和终点位置。四、P33图3-14说明的问题是什么(集中备课) 由图可见,这三句话的平均过零数变换都很大,高平均过零数对应于清音,低平均过零数对应于浊音;但是清音和浊音的变化非常明显。因而,短时平均过零数可用于清音和浊音的大分类上。3.5 短时相关分析一、短时自相关分析得到语音信号有何特点和用途(大纲)1、对于浊音语音来说,短时自相关函数具有明显的峰值且呈周期分布,而对于清音来说,则没有很强的自相关周期峰,其性质类似于噪声。2、短时自相关函数是语音信号时域分析的重要参量。它有两个用途,一是判断清/浊音,并估计浊音的基音周期;二是它的傅里叶变换是短时谱。 3、短时平均幅度差函数(AMDF)能够替代自相关函数进行语音分析,基于语音的浊音具有准周期性。注:短时能量分析、短时过零分析和短时相关分析都能够用来区分清/浊音。Ch4 短时傅里叶分析4.1 概述一、傅里叶分析在信号分析与处理中的地位与作用 在语音信号处理中,傅里叶表示在传统上一直起主要作用。其原因一方面在于稳态语音的产生模型由线性系统组成,此系统被一随时间作周期变化或随机变化的源所激励,因而系统输出频谱反映了激励与声道频率响应特性。另一方面,语音信号的频谱具有非常明显的语言声学意义,可以获得某些重要的语音特征。同时,语音的感知过程与人类听觉系统具有频谱分析功能是密切相关的。二、短时傅里叶分析的重要性。短时傅里叶分析是分析缓慢时变频谱的一种简便方法,是用稳态分析方法处理非稳态信号的一种方法,在语音处理中是一个非常重要的工具。三、分类从广义上,语音信号的频域分析包括频谱、功率谱、倒谱、频谱包络分析等。常用的频域分析方法有带通滤波器组法、傅里叶分析、线性预测分析等。4.2 短时傅里叶变换一、短时傅里叶变换的定义(集中备课)语音信号可以认为是局部平稳的,所以可以对某一帧语音进行傅里叶变换,即短时傅里叶变换,定义为:离散的短时傅里叶变换,令, 二、短时傅里叶变换的两种解释(集中备课) 一是标准傅里叶变换的解释,二是滤波器的解释。三、标准傅里叶变换解释1、与序列的傅里叶变换相同,短时傅里叶变换随着作周期变化,周期为2。2、窗口序列具有的特性:(1)频率分辨率高,即主瓣狭窄、尖锐;(2)通过卷积,在其他频率成分产生的频谱泄漏少,即旁瓣衰减大。3、海明窗与直角窗(矩形窗)对浊音语音的频谱分析比较它们在基音谐波、共振峰结构以及频谱具有相似性,但其频谱间也具有差别。(1)是基音谐波尖锐度增加,这是因为矩形窗频率分辨率较高;(2)矩形窗较高的旁瓣产生了一个类似于噪声的频谱。因此,在语音频谱分析中极少采用矩形窗。窗口宽度与短时傅里叶变换特性之间的关系,即用窄窗可得到好的时间分辨率,用宽窗可得到好的频率分辨率。四、滤波器的解释(P47的图4-4和图4-5的a图)1、第一种形式的滤波器为低通滤波器;第二种形式的滤波器为带通滤波器。低通滤波器的解释形式是:在输入端进行调制,乘以相当于将的频谱从移到零频处,为窄带低通滤波器;带通滤波器的解释形式是:在输出端进行调制,此时先对信号进行带通滤波,滤波器的单位函数响应为,而调制后输出的是中心频率为的短时谱。4.3 短时傅里叶变换的取样率一、时间取样率、频域取样率和总取样率的相关概念1、时间取样率2B=2fs/N 直角窗2B=4fs/N 海明窗2、频域取样率为使恢复的时域信号不产生混叠失真,需满足条件LN(取样频率L取样点N)。3、总取样率SR(单位是Hz)SR=时域取样率*频域取样率=2B*L=2BLSR=2fsL/N 直角窗SR=4fsL/N 海明窗4.4 语音信号的短时综合一、语音的短时综合两种经典的方法是:滤波器组求和法和快速傅里叶变换求和法。滤波器组求和法见P51的图4-7输出信号为滤波器组中每个通带输出信号的总和,在恢复时这些通带信号被移回到原来的中心频率上。Ch5 同态滤波(同态信号处理)及倒谱分析5.1 概述一、根据语音信号的产生模型,可以将其用一个线性非时变系统的输出表示,即看做是声门激励信号和声道冲激响应的卷积。二、为了分离加性组合信号,常采用线性滤波方法;而为了分离非加性组合信号,常采用同态滤波技术。5.2 同态信号处理的基本原理一、同态信号处理的概念同态信号处理就是将非线性问题转化为线性问题来处理,按处理的信号可分为乘积同态处理和卷积同态处理。二、同态信号处理的实现框图、基本原理(要掌握公式的推导P57)任何同态系统都可以表示为三个同态系统的级联,框图如图5-2所示。即同态系统可分解为两个特征系统和一个线性系统。在同态系统的组成中第一个系统以若干信号的卷积作为输入,并将它变换成对应输出的相加性组合。第二个系统是一个普通的线性系统,服从叠加定理。第三个系统是第一个系统的逆变换,即它将信号的相加性组合反变换为卷积组合。特征系统和逆特征系统如图5-3所示。推导公式详见P57的(5-1)(5-8)共8个公式,自行补充。5.3 复倒谱和倒谱一、复倒谱和倒谱的概念复倒谱:是一个时域序列,我们称是的复倒谱域,简称为复倒谱倒谱:与复倒谱类似,如果和分别是和倒谱,并且;那么的倒谱为。5.4 两个卷积分量复倒谱的性质一、一个周期冲激的有限长度序列,其复倒谱也是一个周期冲激序列,并且长度Np不变,只是序列变为无限长度序列。二、声道冲激响应序列复倒谱的性质1、是双边序列,存在于-n。2、是衰减序列。3、随|n|增大而衰减的速度至少比1/|n|快。4、如果x(n)是最小相位序列,即极零点均在z平面单位圆内,此时只在n0时有值,即是因果序列。最小相位信号序列的复倒谱是因果序列。5、如果x(n)是最大相位序列,即极零点均在z平面单位圆外,此时只在n0时有值,为左边序列。最大相位信号序列的复倒谱是左边序列。5.5 避免相位卷绕的算法一、避免相位卷绕求复倒谱的方法包括:微分法、最小相位信号法、递推法。Ch6 线性预测分析(LPC)6.1 概述一、线性预测分析的基本概念线性预测分析的基本概念是,一个语音的抽样能够用过去若干个语音抽样的线性组合来逼近。通过使实际语音抽样和线性预测抽样之间差值的平方和(在一个有限间隔上)达到最小值,即进行最小均方误差的逼近,能够决定唯一的一组预测系数。线性预测分析参数包括LPC参数、PARCOR参数及LSP参数。6.2 线性预测分析的基本原理一、线性预测模型采用全极点模型的原因全极点模型最易于计算,对全极点模型作参数估计是对线性方程组的求解过程;有时无法知道输入序列;人的听觉对于那种只能用零点来表示的频谱陡峭谷点是迟钝的;如果不考虑鼻音和摩擦音,那么语音的声道传递函数就是一个全极点模型。二、全极点模型非鼻音浊音语音极零点模型鼻音和摩擦音三、1、LPC谱的特点是对于浊音信号谱在谐波成分处的匹配效果要远比谐波之间好得多。2、LPC谱对其他谱的优点是可以很好地表示共振峰结构而不出现额外的峰起和起伏。6.4 线性预测分析的解法(1)一、线性预测的经典解法有两种,一种是自相关法,一种是协方差法,另外还有格型法。二、自相关法和协方差法的比较1、就信号的特性而言,自相关法适用于平稳信号,而协方差法适用于非平稳信号。2、自相关法对摩擦音能给出比较好的结果,而协方差法对于周期性语音可以给出比较好的结果。3、自相关函数需加窗,求得的预测系数精度不高,而协方差法无需加窗,计算精度较高,但稳定性得不到保证。4、自相关法用定点运算有其优点,更适合于硬件实现;而协方差法的一个困难在于对中间量的比例运算。6.5 线性预测分析的解法(2)一、反射系数的概念 在声管模型中,声道被模拟成一系列长度不同,截面积为Ai的声管的级联,ki规定了声波在各声管段边界处的反射量;而这里的每一个格型网络就相当于一个小声管段,ki反映了第i节格型网络处的反射,故称k1-kp为p级格型滤波器的反射系数。二、格型法的优点与自相关法和协方差法相比较,格型法具有的优点是:1、反射系数可被直接用于计算预测系数,格型滤波器的级数等于预测系数的个数。2、滤波器的不稳定会导致输出语音信号无规律地振荡。格型法的稳定性可由其反射系数的值来判定。三、格型法的求解正向格型法、反向格型法、几何平均格型法、伯格法、协方差格型法。6.6 线性预测分析应用LPC谱估计和LPC复倒谱一、 线性预测分析(LPC)的阶数P的选取原则(大纲)首先要保证有足够的极点来模拟声道响应的谐振结构,但P值达到12-14后,若进一步增加则误差改善很小。二、线性预测分析中,帧长度N线性预测分析中,分析帧长度N同样重要,N尽可能小有好处,在LPC线性方程组求解中,计算量都与N成正比。但谱估计的精度随N的增加而提高。通常取N为2-3个基音周期长度。Ch7 矢量量化VQ7.1 概述一、量化可以分为两类:标量量化和矢量量化。二、矢量量化VQ的基本概念矢量量化是将若干个取样信号分成一组,即构成一个矢量,然后对此矢量一次进行量化,即作为一个整体进行量化。三、矢量量化的理论依据与优越性(大纲)根据仙农信息论可以得出,矢量量化总是优于标量量化,且矢量维数越大性能越优越。因为矢量量化有效利用了矢量中各分量间的各种相互关联的性质。采用矢量量化技术对信号波形数据进行压缩,可以获得非常高的压缩比。7.2 矢量量化的基本原理一、矢量量化的过程(VQ的基本原理)(大纲)将语音信号波形的K个样点的每一帧,或有K个参数的每一帧参数,构成K维空间中的一个矢量,然后对这个矢量进行量化。原理框图见P95图7-27.3 失真测度一、失真测度必须具备的几个特性必须在主观评价上有意义;必须是易于处理的;平均失真存在且可计算;易于硬件实现。7.4 最佳矢量量化器和码本的设计一、在矢量量化器的最佳设计中,重要的问题是如何划分量化区间和确定矢量量化。矢量量化器最佳设计的两个条件是:最佳划分和最佳码书。二、几种初始码书的生成方法包括:随机选取法、分裂法、乘积码书法。三、维数:K1,大小为M1的码书 维数:K-K1,大小为M2的码书得到一个:维数:K,大小为M1*M2的码书7.5 降低复杂度的矢量量化系统一、矢量量化器的研究主要是围绕着降低速率、减少失真和降低复杂度展开的。速率、失真和复杂度是矢量量化器的三个关键问题。 三、降低复杂度的设计方法包括两类:无记忆的矢量量化器和有记忆的矢量量化器。四、无记忆的矢量量化器和有记忆的矢量量化器的概念及区别无记忆的矢量量化器是指量化每一个矢量时都不依赖于此矢量前面的其他矢量,即每一个矢量都是独立量化的。有记忆的矢量量化器与无记忆的矢量量化器不同,它是量化每一个输入矢量时,不仅与此矢量本身有关,而且也与其前面的矢量有关。五、无记忆的矢量量化系统包括树形搜索的矢量量化系统和多级矢量量化系统。有记忆的矢量量化分为反馈矢量量化和自适应矢量量化两类。Ch9 基音检测分析9.1 基音检测一、基音检测的重要性和难点(大纲) 基音的提取和估计是语音信号处理中十分重要的一个问题,准确地检测语音信号的基音周期对于高质量的语音分析与合成、语音压缩编码、语音识别和说话人确认等具有重要意义。在低速率语音编码中,准确的基音检测是非常关键的,它直接影响到整个系统的性能。二、基音检测的三个研究方面1、稳定并提取准周期性信号的周期性方法;2、因周期混乱,采取基音提取误差补偿的方法;3、消除声道影响的方法。三、基音检测的三种方法:波形估计法、相关处理法和变换法。1、波形估计法包括:并行处理法、数据减少法、过零数法;2、相关处理法包括:自相关法、SIFT法、AMDF法;3、变换法:倒谱法、循环直方图。P118表9-1重点看四、清/浊音判断的辅助参量1、语音信号能量2、过零数3、自相关函数4、线性预测系数五、常用的几种基音检测方法包括:自相关法、并行处理法、倒谱法、简化逆滤波法。9.2 共振峰估值一、共振峰估计中存在的问题1、虚假峰值2、共振峰合并3、高基音语音二、几种常用的提取共振峰特性的方法1、带通滤波器组法2、离散傅立叶变换3、倒谱法4、LPC法三、浊音和清音时DFT谱特性比较1、浊音时DFT得到的频谱受基频谐波的影响,最大值只能出现在谐波频率上,因此共振峰测定误差较大。2、清音时此时信号具有随机噪声的特点,其频谱不具有离散谐波特性,但其包络基本上反映了声道的特性。对其频谱进行线性平滑而得到谱包络,并用一个峰值搜索算法来确定峰值。四、浊音和清音时倒谱法检测效果对比1、浊音时,若频谱包络的变换和基音峰值的变换在倒谱域中的间隔足够大,则前者容易识别。2、清音时,声门激励序列具有噪声特性,其倒谱没有明显峰值,且倒谱分布于从低倒谱域到高倒谱域的很宽的范围之内,因而在低倒谱域对声道响应的信息产生了影响。五、倒谱法难以解决的两个问题1、并不是所有的谱峰都为共振峰2、带宽的计算六、LPC法进行共振峰估计的两个方案1、求根法2、LPC谱估计七、LPC法的优点和缺点优点:1、通过对预测多项式的分解能够精确地决定共振峰的频率和带宽。2、能很好的表示共振峰结构而不出现额外的峰起和起伏。3、额外的极点一般容易排除。缺点:用一个全极点模型逼近语音谱,对于含有零点的某些音来说,根反映了极零点的复合效应,因而无法区分这些根是相应于零点还是极点,或完全与声道的谐振极点有关。Ch10 语音编码(1)波形编码+声码器技术10.1 概述一、语音编码的目的语音编码的目的是在保持可以接受的失真的情况下尽可能少的比特数表示语音。三、传输码率(数码率)的概念 是指传输每秒语音信号所需的比特数,也称为数码率。四、语音压缩编码需要在保持可懂度与音质、降低数码率和降低编码过程的计算代价三个方面折中。五、语音信号数字传输的优点P1351、信道引起的噪声和失真可基本消除;2、保密性好;3、便于存储和选取及其他处理;4、便于和其他数字信号一起传输、交换等;六、语音编码的两类应用1、语音信号的数字传输2、语音信号的数字存储七、语音编码的分类1、波形编码:针对语音波形进行编码,而尽量保持输入波形不变,即恢复的语音信号基本上与输入语音信号波形相同。这类编码将语音信号作为一般的波形信号处理,具有适应性强、语音质量好等优点。2、声码器技术:先对语音信号进行分析,提取出参数,对参数进行编码,在解码后由这些参数重新合成重构的语音信号,使得到的信号听起来与输入语音相同,而不是对语音信号的波形直接处理,因而恢复信号与原信号不必保持波形相同。10.2 语音信号的压缩编码原理一、语音压缩的必要性(大纲)语音编码的目的是在保持可以接受的失真情况下,采用尽可能少的比特数表示语音。如果对语音直接数字化,则传输或存储语音的数据量太大。为了降低传输或存储的费用,必须对其压缩。二、语音压缩的两个基本依据对语音进行压缩编码的基本依据有两个。一个是从产生语音的物理机理和语言结构的性质来看,语音信号中存在较大的冗余度。第二个依据是利用人类听觉的某些特性。三、冗余度的概念分客观冗余和主观冗余。客观冗余包括:1、语音信号样本间相关性很强;2、浊音语音段具有准周期性;3、声道的形状及其变化比较缓慢;4、传输码值的概率分布式非均匀的。其中前三种冗余度由语音信号的产生机理所决定,最后一种冗余度与所采用的编码方法有关。主观冗余包括:1、人的听觉生理-心理特性对于语音感知的影响存在听觉掩蔽现象;2、人的听觉对低频端比较敏感,对高频端不太敏感;3、人耳对语音信号的相位变化不敏感;4、人耳听觉特性对语音幅度分辨率是有限的。四、语音压缩编码需考虑的因素1、输入语音信号的特点;2、传输比特率的限制3、对输出重构语音的音质要求五、语音通信质量的分类语音通信中语音质量分为四等(质量越来越差,带宽越来越小):1、广播质量2、长途电话质量3、通信质量4、合成质量六、两种压缩编码方式:波形编码和声码器的比较1、波形编码的目的是在给定传输比特率下,使重构误差最小,采用信噪比作为评定标准。声码器音质的好坏由主观评价,缺乏客观依据。2、波形编码的语音质量好,但降低比特率困难。声码器语音的自然度、可懂度差,受噪声和误码的影响大,算法复杂。10.3 脉冲编码调制及其自适应一、脉冲编码调制(PCM)包括均匀PCM和非均匀PCM。二、PCM的定义 将语音变换成与其幅度成正比的二进制序列,并用脉冲对采样幅度进行编码,称为脉冲编码调制。三、均匀PCM中,信噪比与量化字长的关系 SNR(dB)=6.02B-7.2四、非均匀PCM1、基本思想:对大幅度的样本使用大的,对小幅度的样本使用小的;在接收端按此还原。2、两种非均匀量化的方法:A律和律。我国采用的是A律;美国采用的是律。五、为什么语音信号采用非均匀量化(集中备课) 均匀量化有一个缺点,在信号动态范围较大而方差较小时,其信噪比将下降,由于语音信号大量集中在低幅度上,因而,可利用非均匀量化,这种量化在低电平上量化阶梯最密集,可达到最大信噪比。六、自适应PCM(APCM)1、原理:它是使量化器的特性自适应于输入信号的幅值变化,或使量化器的增益G随着幅值而变化从而使量化前信号的能量为恒定值。2、按自适应参数的来源划分,自适应量化分为前馈和反馈两种。 3、原理框图(一个是匹配自适应,一个是G匹配自适应,如图10-6所示)10.4 预测编码调制PC及其自适应一、预测编码1、定义:在接收端,使用与发送端相同的预测器,就可恢复原信号。这种编码方式称为预测编码。2、预测编码分为:差分脉冲编码调制DPCM和增量调制DM。二、短时预测和长时预测短时预测:利用比较相邻的相本值的预测,是频谱包络的预测。长时预测:基于基音周期的预测,是频谱细微结构的预测。三、噪声整形的概念 能使噪声谱随语音频谱的包络变化,则语音共振峰的频率成分就必然会掩盖量化噪声,这种技术称为噪声整形。10.5 自适应差分脉冲编码调制(ADPCM)及自适应增量调制(ADM)一、DPCM、ADPCM和APPDPCMDPCM(差分脉冲编码调制):对相邻样本间的差信号进行编码,可谋求信息量的压缩,这种编码方式称为DPCM。ADPCM(自适应差分脉冲编码调制):采用自适应量化及高阶自适应预测的DPCM。在ADPCM的基础上加上基音预测器的量化编码系统,称为APPDPCM(带有自适应基音周期预测的差分脉冲编码调制)。见图10-14二、ADPCM的国际标准 采用ADPCM作为长途传输中的一种新的国际通用语音编码方案。这种ADPCM可达到标准64kbit/sPCM的语音传输质量,并具有很好的抗误码性能。 三、增量调制(DM)定义 DM是一种特殊简化的DPCM,是一种极限情况,只用1bit的量化器。最大的特点是简单,易于实现。五、斜率过载和颗粒噪声1、斜率过载:在DM中,与量化阶梯相比,当语音波形幅度发生急剧变化时,译码波形不能充分跟踪这种急剧变化而必然产生失真,称为斜率过载。2、噪声颗粒:在没有输入语音的无声状态时,或者是信号幅度为固定值时,量化输出都将呈现0、1交替的序列,而译码后的波形只是的重复增减,这种噪声称为颗粒噪声。自适应增量调制ADM是克服斜率过载和颗粒噪声最理想的方法。六、自适应增量调制ADM的定义根据输入语信号的幅度或方差变化的信息自适应的改变值。即:在语音信号的幅度变化不大时,取较小的值以减小颗粒噪声;在语音信号幅度变化大时,取较大的值以减小斜率过载失真。10.6 子带编码(SBC)一、频域编码的两个基本原则1、通过合适的滤波或变换,在频域上得到数目较少、相关性较小的分量,从而提高编码效率;2、接受者所感知的失真信息是用来提高语音编码的性能。二、子带编码的概念与实现 SBC也称为频带分割编码,是在频域上寻求语音压缩途径的编码方法。它不对信号进行直接变换,而是首先使用带通滤波器组将语音信号分割成若干个子带,用调制的方法对滤波后的信号进行频谱平移变成低通信号,再利用奈奎斯特速率对其进行取样,最后进行编码处理。三、SBC的优点 SBC的优点是对应于人的听觉特性,可以比较容易地考虑噪声的抑制:即各子带可以选用不同的量化参数以分别控制其信噪比,满足主观听觉的要求。量化噪声只能出现在各被分割的频带内,对其他频带没有任何影响,可以较轻易地控制噪声谱。四、正交镜像滤波法QMF的特点:上子带滤波器的频率响应是下子带滤波器频率响应的镜像。10.7 自适应变换编码(ATC)一、变换编码TC、自适应变换编码ATC的基本概念(大纲)变换编码是一种优秀的高质量的语音压缩编码方法,它将时域的语音信号变换到频域,变换后的数值表示信号中不同频率分量的强度,然后将这些变换系数按照比特分配的结果进行量化编码。自适应变换编码是一种变换编码,它与SBC一样,也是在频域上寻求语音压缩的途径,是在频域上分割信号的编码方式,但比SBC增加了相当大的自由度。这种方法是对信号进行正交变换以降低信号相邻样本间的冗余度。二、DCT和KLT的定义及比较DCT:离散余弦变换KLT:简称为卡洛变换DCT具有的优点:1、DCT与KLT相比,频域变换明确,与人的听觉频率分析机理相对应,容易控制噪声的频率范围。2、DCT提供的性能一般在KLT的1-2dB之内,KLT计算量大。3、DCT运算量少、数据量少,无需传输特征矢量。4、DCT比DFT变换效率高。5、DCT与DFT相比,在端点取出波形的影响较小,在频域区的畸变小。Ch11 语音编码(2)声码器技术及混合编码11.1 概述一、语音参数编码、声码器的基本概念1、语音参数编码通过对语音信号的参数进行提取及编码,力图使重建语音信号具有尽可能高的可懂度,即保持原语音的语意。这类编码的优点是编码率低,可低至2.4kbit/s以下。2、参数编码的基础是语音产生的数学模型。实现参数编码的器件称为声码器,主要用于窄带信道的语音通信。3、为了充分发挥声码器的性能而必须的三个重要因素:(1)去掉语音波形中的冗余部分,提取对于听觉所需的重要参数。(2)对参数进行有效编码。(3)根据编码的参数,尽可能忠实地将语音还原出来。11.2 声码器的基本结构一、声码器的基本结构及实现过程1、声码器的基本结构包括分析和合成两部分。2、实现过程:语音信号经过分析得到谱包络和基音以及清浊音判别,编码后送入信道传输;在接收端,压缩后的语音由合成器加以恢复。二、声码器的局限1、由于声道滤波器阶数有限,因而合成的语音的频谱精度收到一定限制。2、浊音激励是规则的准周期脉冲,含有语音中将会出现的人为规则的特性。3、采用了清浊音二元判决,或产生纯粹的清音,或产生纯粹的浊音,与实际的语音有区别。4、语音合成模型中参数更新的速率受到限制。5、语音合成器中的激励源只有两个,每次只能产生一个音。三、目前常用的声码器包括:通道声码器、共振峰声码器和LPC声码器。11.5 线性预测声码器一、LPC参数的变换和量化包括:反射系数、对数面积比和预测多项式的根。二、为什么要对反射系数进行量化对反射系数的研究表明,各反射系数幅度值的分布是不相同的:k1和k2的分布是非对称,对于多数浊音信号,k1接近于-1,k2接近于+1;而较高阶次的反射系数k3、k4等趋向于均值为零的高斯分布。此外,反射系数的谱灵敏度也是非均匀的,其值接近于1时,谱的灵敏度越高,此时反射系数很小的变化将导致信号频谱的较大偏移。上面的分析表明,对反射系数的值在(-1,+1)区间作线性量化是低效的,一般都是进行非线性量化。11.6 混合编码一、混合编码的概念(大纲) 混合编码是波形编码和声码器两种优点的结合:既利用了语音生成模型,通过对模型中的参数进行编码,减少了波形编码中被编码对象的动态范围或数目;又使编码的过程产生接近原始语音波形的合成语音,以保留说话人的各种自然特征,提高了合成语音质量。二、混合编码包括:多脉冲线性预测声码器(MPLPC)和码激励线性预测编码(CELP)。前者是使用一个数目有限、幅度和位置可调整的脉冲序列作为激励源;后者是使用一个波形码矢量作激励源,它通常从高斯白噪声序列构成的码本中选取。三、MPLPC与CELP的特点1、MPLPCMPLPC具有LPC和ADPCM的预测编码结构,采用感知加权进行设定,通过改进激励模型提高LPC的性能,采用几个脉冲作为一个语音帧的激励信号;脉冲数量事先选好,但需考虑复杂性和语音音质。2、CELPCELP的目的是将MPLPC中使用的混合编码方法扩展到低比特范围,它是中低速率编码中最成功的一种方案,它以高质量的合成语音及优良的抗噪声和多次转接性能,在9.6kbit/s以下的速率中得到了广泛的应用。两者的区别:CELP是从矢量激励码本中选择激励信号,然后激励合成系统产生最优合成声音。而MPLPC是通过一个迭代算法,在给定脉冲总数的情况下,寻找能产生最优合成语音的脉冲位置和幅度。 CELP和MPLPC的区别仅在于激励部分是不同的。11.7 各种语音编码方法的比较及语音编码研究方向一、波形编码和声码器优缺点的比较在波形编码中,利用语音振幅的分布特性对波形作PCM量化处理,当数码率为64kbit/s时能获得高质量的语音。利用波形相关性及频谱特性,可将数码率压缩到24-32kbit/s。进一步利用音调结构的同时,若进行噪声整形,可以压缩到9.6kbit/s左右,如果数码率继续降低,则语音质量将急剧恶化。 对于声码器,数码率可降低到虽然信息量很多,但由于在性能方面存在着本质上的极限,所以合成语音质量远不如波形编码。在4.8-9.6kbit/s的范围内,将波形编码和声码器的优点结合,可得到MPLPC等。具体参见P170图11-1二、声码器的比较具体参见P170图11-211.8 语音编码的性能指标和质量评价一、语音编码的基本性能指标包括编码速率和顽健性。编码速率:又称比特率,是指一个编码器的信息速率。顽健性:通过取多种不同来源的语音信号进行编码解码,并对输出语音质量进行比较测试得到的一种指标。二、编码器的质量评价方法,包括主观评价法和客观评价法。客观评价准则:信噪比和谱失真测度。主观评价准则:通过人的感觉器官来测试。三、可懂度与自然度语音编码后,其再生语音质量包括可懂度和自然度。可懂度:是衡量语音中的字、单词和句的可懂程度,反映了对语音输出内容的识别程度。自然度:指语音听起来有多自然,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论