语音信号处理第10讲_第1页
语音信号处理第10讲_第2页
语音信号处理第10讲_第3页
语音信号处理第10讲_第4页
语音信号处理第10讲_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、9.1 9.1 概述概述9.2 9.2 语音信号压缩编码的原理和压缩系统评价语音信号压缩编码的原理和压缩系统评价9.3 9.3 语音信号的波形编码语音信号的波形编码9.4 9.4 语音信号的参数编码语音信号的参数编码9.5 9.5 语音信号的混合编码语音信号的混合编码语音编码(语音编码(Speech CodingSpeech Coding)在语音通信及人类信息交流中)在语音通信及人类信息交流中占有举足轻重的地位。对语音信号的模拟传输持续了近一个占有举足轻重的地位。对语音信号的模拟传输持续了近一个世纪,目前,正逐渐被数字系统所取代。世纪,目前,正逐渐被数字系统所取代。信源信源编码信道编码调制传输

2、通道解调信道解码信源解码信宿(用户)噪声本章研究的内容数字传输系统模型数字传输的优缺点:数字传输的优缺点:优点:传输多样化,低成本且保密性强,频率利用更加有效优点:传输多样化,低成本且保密性强,频率利用更加有效缺点:直接采用缺点:直接采用A/DA/D转换技术进行编码会导致转换技术进行编码会导致传输或存储的语音数据传输或存储的语音数据量巨大,增加成本,必须对其进行压缩。量巨大,增加成本,必须对其进行压缩。编码技术的编码技术的目的目的:减少传输码率或存储量,提高传输或存储:减少传输码率或存储量,提高传输或存储的效率。的效率。码率 = 取样频率 x 量化位数 x 通道数目 例: 电话语音 =8k x

3、 8b x 1 = 64kbps =8kB/s=28MB/h 传输码率:传输每秒钟语音信号所需要的比特(bit:二进位制信息单位)数,也成为数码率降低数据量的编码,称之为压缩编码。同样的信道容量能降低数据量的编码,称之为压缩编码。同样的信道容量能够传输更多路的信号,如果存储的话,只需要较小容量的够传输更多路的信号,如果存储的话,只需要较小容量的存储器。存储器。对数字语音进行数据压缩的目的: 提高通信/存储效率 降低通信/存储成本语音压缩的原因:声音信号中包含有大量的冗余信息 邻近样本之间有很大的相关性 周期之间的相关性 基音之间的相关性 长时(几十秒)自相关性 话音间歇(静音)压缩编码需要在压

4、缩编码需要在保持可懂度和音质保持可懂度和音质、降低数码率降低数码率、降低编降低编码码过程的计算代价这过程的计算代价这3 3方面进行折衷。方面进行折衷。信源信源编码信道编码调制传输通道解调信道解码信源解码信宿(用户)噪声本章研究的内容数字传输系统模型信源编码和信道编码都是信息科学的重要分支。信息编码:主要解决有效性问题,通过对信源的压缩、扰乱、加密等一系列处理,力求用最少的数码率传递最大的信息量,使信号更适宜传输和存储信道编码:主要解决可靠性问题,即尽量使处理过的信号在传输的过程中不出错或者少出错,即使出了错也要能自动检错和尽量纠错信源编码的分类:波形编码参数编码 波形编码力图使重建后的语音时域

5、信号的波形与原语音信号波形保持一致特点:适应能力强、话音质量好,但需要编码速率高 参数编码又称“声码器技术”,它根据对声音形成机理的分析,在以重建语音信号具有足够可懂性的原则上,通过建立语音信号的产生模型,提取代表语音信号特征的参数来编码,波形上并不一定与原始信号匹配(共振峰声码器和线性预测声码器都是典型的参数声码器)特点:编码速率低,但语音质量差混合编码:结合波形编码和参数编码的优点而产生,突破了两者的界限,应用更广区别在于重建的语音时域信号是否在波形上尽量与原始信号一致波形编码器的话音质量高,但数据率也很高。音源编码器的数据率很低,产生的合成话音音质有待提高。混合编码器使用音源编码器和波形

6、编码器技术,数据率和音质介于二者之间。语音编码性能指标主要有比特速率、时延、复杂性和还原质量。极低低中码率码率(kb/s)1 2 4 8 16 32 64优 良 中 差 坏语音质量语音质量模型编码(源编码)混 合 编码波 形 编码从信息论的角度看,信源编码的一个主要目的就是解决数据压缩问题。(数据压缩=信源编码)语音压缩的基本原理:语音信号编码为二进制数字序列,最简单的方法是对其直接进行A/D变换。只要取样足够高,量化每个样本的比特数足够多,就可以保证解码恢复的语音信号有很好的音质,不会丢失有用信息,但是直接数字化所需的数码率太高,导致传输信道难以承受,必须对语音信号进行压缩编码压缩编码的基本

7、依据:语音信号的冗余度和人的听觉感知机理语音信号的冗余度:语音信号的冗余度:多种冗余度并存,可分别从时域或频域来描述多种冗余度并存,可分别从时域或频域来描述u存在的时域冗余度:存在的时域冗余度:幅度非均匀分布;幅度非均匀分布;语音信号样本间的相关性很强;语音信号样本间的相关性很强;浊音语音段具有准周期性;浊音语音段具有准周期性;声道的形状及其变化比较缓慢;声道的形状及其变化比较缓慢;静止系数(语音间隙,本身就是一种冗余)静止系数(语音间隙,本身就是一种冗余)u存在的频域冗余度:存在的频域冗余度:非均匀的长时功率谱密度;非均匀的长时功率谱密度;语音特有的短时功率谱密度;语音特有的短时功率谱密度;

8、人的听觉感知机理:即利用人类听觉的某些特点,主要表现在:人类听觉系统具有掩蔽效应,一个单音的声级越高,对其周围频率声音的掩蔽作用越强可抑制与信号同时存在的量化噪声;人耳对不同频段声音的敏感程度不同,人的听觉对低频段比较敏感(浊音的周期和共振峰集中在低频端)强的低频音能妨碍同时存在的高频音;人耳对语音信号的相位变化不敏感;语音编码的关键技术:线性预测法(常用技术):基于全极点模型假设,采用时域均方差最小准则来估计模型参数,其出发点在于跟踪波形的产生过程,而不是波形本身,传送的是反映整个过程变化的参数。合成分析法:将综合器引入编码器,使之与分析器相结合,在编码器中生成和译码器端完全一致的语音。将合

9、成语音与原始语音相比较,根据一定的误差原则,来调整计算各个参数使得两者之间的误差最小。感觉加权滤波器:根据人耳的掩蔽效应来设计的,采用最小均方误差准则来评定合成语音质量是否为最优。通过引入一个频域的感觉加权滤波器W(z)来衡量语音之间的误差:语音压缩系统的性能指标和评测方法:语音编码研究的主要问题是如何在给定的编码速率下获得尽可能好的高质量语音,同时减小编码的时延及算法的复杂度,衡量一种语音压缩编码算法的主要指标包括:编码速率、语音质量、顽健性、计算复杂度和算法的可扩展性等。编码速率(又称比特率):指一个编码器的信息速率。中码率(816kbit/s);低码率(2.48kbit/s);超低码率(

10、小于2.4kbit/s);编码器的顽健性:是通过取多种不同来源的语音信号进行编码解码,并对输出语音质量比较测试得到的一种指标编码器时延:用单次编码所需要的时间来表示(对系统通信质量有很大的影响)误码容限:通常要求编码器在1%的误码率下仍能提供可用的输出语音。语音压缩系统的性能指标和评测方法:此外,语音质量作为衡量语音编解码技术的关键指标,其质量分为:广播级:宽带高音质语音信号网络或电话级:语音质量与模拟语音信号相当通信级:语音质量有所下降,但有较高的自然度和话者识别度合成级:能保证一定的语音质量,但自然度和话者识别度下降语音压缩系统的性能指标和评测方法:评价:主观和客观评价主观评价:清晰度评价

11、:测试中,针对音节以下语音测试单元,判断正确的百分比可懂度评价:测试中,针对音节以上语音测试单元,评听人每次听-对韵字中的某个音,然后判断所听到的音是哪个字,全部评听人判断正确的百分比就是可懂度音质评价: 平均意见得分(MOS)从绝对等级评价法发展而来,用于对语音整体满意度或语音通信系统质量进行评价得分得分质量级别质量级别失真级别失真级别5优(excellent)不察觉4良(good)刚有察觉3中(fair)有察觉且稍觉可厌2差(poor)明显察觉且可厌但可忍受1劣(bad)不可忍受语音压缩系统的性能指标和评测方法:主观评价注意事项:主观测试,都需要遵循3个原则 要保证足够的说话者,要求他们的

12、声音特征非常丰富,能够代表实际用户中的绝大部分 要求有足够多的数据,在理论上,人数和数据越多越好,可以用方差作为判断样本数的尺度 对于大部分编码器来说,清晰度和品质测试应该都做,但很悦耳的质量较好的语音可以不做清晰度测试客观评价:(1)时域测度定义为被测系统的输入语音与输出语音在时域波形比较上的失真度(信噪比(SNR)是一种最简单的时域客观评价失真测度,通常有合成语音信噪比、加权信噪比、平均分段信噪比等)瞬时性能的变化用短时信噪比(STSNR)(2)频域测度就是谱失真测度,如对数谱距离测度、LPC倒谱距离测度、巴克谱测度等都是经常用于语音质量客观评价。(测度计算结果越小,说明语音质量越好) 2

13、02010lgMnMnsnSNRs ns n210200*10lg*MLnMinsi MnSEGSNRLs i Mns i Mn波形编译码器算法比较简单,容易实现,低延迟,压缩效率不高,数据速率在16 kbps以上,声音质量相当好,通用性好,适用于任意类型的数字声音,很成熟,有一系列国际标准:CCITT G.711 PCM 64kb/sCCITT G.721 ADPCM 32Kb/sCCITT G.726 ADPCM 48, 32, 24, 16 Kb/s已广泛应用于电话语音的中继线传输波形编码遵循时间量化和抽样定理(1)对连续的语音信号在时间轴的离散间隔点上进行波形抽样,完成时间量化(2)抽

14、样信号在时间域上离散化后在有限时间段内为有限个值,此时,其幅度仍为连续变量(3)时间量化是通过抽样保持电路完成的编码过程:对数变换(压缩编码)F(n)低通滤波 (LPF)Xa(t)x(n)A/D(13位)取样(8kHz)X(n)码率104 kbps码率 8位 x 8k64 kbps模拟声音信号输入防失真滤波器波 形编码器量化器PCM样本采样输入样本值采样输入样本值量化器一旦确定后,量化间隔就固定下来,不随输入语音信号的幅度变化而变化 对小信号采用小的量化间隔,对大信号 采用大的量化间隔,这样可以用较少的 位数编码 对大信号来说,虽然绝对量化误差较大,但是(1)大信号出现的机会不多(2)信噪比(

15、相对误差)与小信号是一致的,对总的话音质量影响不大目的 : 适应听觉的非线性特性;压缩数据。采用的方法:对数PCM编码北美和日本等地区( 律压扩算法)ln 1( )sgn( )ln 1xFxxG.711 标准目的 : 适应听觉的非线性特性;压缩数据。欧洲和中国大陆等地区( A律压扩算法)1( )sgn( ),0 1ln1ln1( )sgn( ), 11lnAAA xFxxxAAA xFxxxAAG.711规定的A律和m律脉冲编码调制采用的是非线性量化,在64kbit/s速率话音质量能够达到网络等级在脉冲编码调制方法中,对样值采用34位编码就可以使对方能够听懂,但是噪音比较大,在脉冲编码调制通信

16、中,通常采用8bit编码补充说明:应用于数字声音的编辑处理(多媒体计算机)应用于声音的传输(通信): 长途电话 (8 KHz x 8 bit x 1), 时分多路复用TDM (time-division multiplexing) 应用于全频带数字声音的表示/存储: CD-DA(CD唱片),DAT (44.1 KHz x 16 bit x 2)G.721 标准自适应脉冲编码调制(APCM)能随信号幅度的大小自动地改变量化阶距的编码制式。p根据输入样本幅度的大小来改变量化阶大小,使得量化前后的能量为恒定值(关键参数:量化间隔Dn和量化增益G(n))。p可以是瞬时自适应,即量化阶的大小每隔几个样本

17、就改变,也可以是音节自适应,即量化阶的大小在较长时间周期里发生变化。改变量化阶距的方法: 前向自适应APCM 后向自适应APCM量化器 Q样本值量化阶适配器自适应APCM编码输出自适应脉冲编码调制(APCM)能随信号幅度的大小自动地改变量化阶距的编码制式。改变量化阶距的方法: 前向自适应APCM:根据未量化的样本值得均方根值来估计输入信号的电平,以此来确定量化阶距的大小,并对其电平进行编码作为边信息(Side Information)传送到接收端 前向自适应预测用于分帧处理的情况,一般采用全极点预测器,对语音信号逐帧提取LPC系数,作为线性预测系数 特点:使用原始信号提取预测系数,精度较高,预

18、测的效果好,但需要将预测系数用边信息传送到接收端的解码器,用以减小差值信号量化的有效比特数,延时较大自适应脉冲编码调制(APCM) 后向自适应APCM:根据从量化器刚输出的过去样本中提取量化阶信息,这种自适应能在收发两端自动生成量化阶,不需要传送边信息后向自适应预测利用量化后的信号提取预测信号,避免了前向自适应预测的缺点,但由于存在量化噪声,预测系数的提取精度受到一定的影响。前向和后向自适应脉冲编码调制的区别:p前向自适应的量化间隔和增益是通过对输入信号估计而得到的p后向是有估计编码器或者量化器输或者出来决定量化间隔自适应预测编码(APC)利用线性预测改进编码器中的量化器性能,即:在接收端,只

19、要使用与发送端相同的预测器,就可以恢复原信号,基于这种原理的编码称为预测编码,而当预测系数是自适应随语音信号变化时,称为自适应预测编码。优点:能够改善信噪比语音数据流一般为1020ms相继的帧,而预测系数与预测误差一起传输;接收端,预测器系数控制的逆滤波器再现语音(1)增量调制对语音信号的信息用最低限度的一位来表示的方法。1)判别下一个语音信号值与当前的信号值相比是高还是低2)如果高则给定编码“1”,如果低则给定编码“0”3)在接收端,用接收的脉冲串控制,信号就可以用升降的阶梯波形来逼近根据过去的样本去估算下一个要量化编码的样本信号幅度有多大,这个值称为预测值,编码器仅对实际信号值与预测值的差

20、进行量化编码差分脉冲编码调制的思想是,根据过去的样本去估算下一个样本信号的幅度大小,这个值称为预测值,然后对实际信号值与预测值之差进行量化编码,从而就减少了表示每个样本信号的位数效果:量化位数可以显著减少,从而降低了总的码率与 PCM的区别:PCM是直接对采样信号进行量化编码;DPCM是对实际信号值与预测值之差进行量化编码,存储或者传送的是差值而不是幅度绝对值,这就降低了传送或存储的数据量。此外,它还能适应大范围变化的输入信号。 PCM在量化间隔上的矛盾:为适应大的幅值要用大的量化间隔,而提高信噪比要用小的间隔自适应差分脉冲编码调制技术(是利用样本与样本之间存在的信息冗余度来进行编码的一种数据

21、压缩技术)原理: 声音信号具有很强的相关性,可从已知信号来预测未知信号, 即使用前面的样本预测当前的样本,实际样本值与预测值之间的误差往往很小。 利用自适应的思想改变量化阶的大小,即使用小的量化阶(step-size)去编码小的差值,使用大的量化阶去编码大的差值 6阶自适应线性预测, 4位的自适应量化器, 输出码率: 8k x 4 = 32 kbps量化器 Q13位自然码的数字语音样本_线性预测器逆量化器 Q -1+预测值差值重建信号ADPCM编码输出编码输出量化阶适配器自适应( 4 位 )PCM话音质量 4.5级ADPCM话音质量 4.34级,码率降低一倍(32 kbps)。ADPCM应用:

22、数字语音通信多媒体应用中的语音(解说词)PCM,DPCM都是不对输入信号频带做任何分割的前提下,在时域中进行的处理,这种编码方式称为整带时域编码。SBC是将语音信号划分为多个频带,然后对每个频带的参数进行编码基本原理:利用带通滤波器(BPF)把声音信号按频率范围划分成几个组成部分(子频带,子带)低频部分能量较集中,量化精度要高,取样频率可稍低高频部分是摩擦音、噪音,量化精度可低些,但取样频率要稍高不同子频带作不同的ADPCM编码处理,然后再复合在一起子带编码的特点:(1)分割的子带信号分别进行了频谱平移(对频谱平移后的子带进行量化、编码这类编码方式称为频谱编码,频谱编码将信号分解成不同频带分量

23、的过程去除了信号的多余度,得到一组不相关的信号)(2)对不同的子带合理分配比特数,能分别控制各子带的量化电平数目以及相应的重建信号的量化误差,使误差谱的形状适应人耳听觉特性,得到更好的主观听觉质量(3)由于语音的基音和共振峰主要集中在低频段,所有对低频段采用较多的比特数来表示样值,而高频段则采用较少的比特数(4)SBC的另一个优点是各个子带内的量化噪声相互独立,避免输入电平较低的子带信号被其他子带的量化噪声所淹没语音信号的参数编码参数编码(源编码)的设计思想 分析人的发声器官的结构及语音生成的原理, 建立语音生成的物理(数学)模型, 编码时:从话音波形信号中提取生成该话音的参数; 解码时:根据语音生成模型,使用这些参数合成原始话音。提取语音生成参数语音生成模型(编码器)语音参数数字语音使用参数合成语音语音生成模型(解码器)重建的语音声码器线性预测声码器LPC模型= (a1, a2, a3, a4, a5, a6, a7, a8, a9, a10, G, V/UV, T)脉冲序列发生器随机噪声发生器基音周期T(声带振动)(声带不振动)UV(清音)V(浊音)H(z)声 道 参 数a1 a2 a3 a10.语音(声道滤波器)s(n)增益G

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论