数字通信第三章语音信号的压缩编码课件_第1页
数字通信第三章语音信号的压缩编码课件_第2页
数字通信第三章语音信号的压缩编码课件_第3页
数字通信第三章语音信号的压缩编码课件_第4页
数字通信第三章语音信号的压缩编码课件_第5页
已阅读5页,还剩177页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第3章

语音信号的压缩编码1第3章

语音信号的压缩编码1补充:1、数据压缩简介PCM音频流的码率是采样率值×采样大小值×声道数bps。

采用PCM脉冲编码调制的数字电话的数码率为64kb/s;

视频:如320×233窗口中,以25帧/秒速度播放1分钟颜色数为8bit的视频信号,其数据量为:

320×233×8×25×60/(8×1024×1024)

≈107(M)

对一首长约4分钟的歌曲采样,将其存储在磁盘上,以CD音质的WAV格式抽样,抽样率为44.1kHz,即每秒钟接收44100个值,立体声,每次抽样数据为16位(2字节),则这首歌占的空间为:44100x2声道x2字节x60秒x4分钟=40.4MB

如果下载传输率为56kbps,则下载时间为:40.4x106x8/56x103x60=96分钟

即使是1M的宽带网也需5分钟以上。2补充:1、数据压缩简介PCM音频流的码率是采样率值×采一、无损压缩以香农第一定理作为理论基础,即在一定的概率模型下,无损压缩的编码长度不可能小于信息熵。Shannon编码->Fano->Huffman编码Ziv和Lempel于1977年发表题为“顺序数据压缩的一个通用算法”的论文,提出了LZ77算法。LZ算法被认为是字符串匹配的算法。例如:在一段文本中某字符串经常出现,并且可以通过前面文本中出现的字符串指针来表示。当然这个想法的前提是指针应该比字符串本身要短。例如,在上一段短语“字符串”经常出现,可以将除第一个字符串之外的所有用第一个字符串引用来表示,从而节省一些空间。一个字符串引用通过下面的方式来表示:1.唯一的标记2.偏移数量3.字符串长度类似字典中的页码和行号代替文章中每个单词应用:PKZIP、WinZIP、WinRAR、gzip等压缩工具3一、无损压缩以香农第一定理作为理论基础,即在一定的概率模型下二、有损压缩香农第三定理-限失真信源编码定理如果在压缩这一类图像数据时允许改变一些不太重要的像素值,或者说允许损失一些精度我们就有可能在压缩效果上获得突破性的进展。

在压缩通用数据时,我们绝不会容忍任何精度上的损失,但在压缩和显示一幅数码照片时,如果一片树林里某些树叶的颜色稍微变深了一些,看照片的人通常是察觉不到的通过在用户的忍耐范围内损失一些精度,我们可以把图像(也包括音频和视频)压缩到原大小的十分之一、百分之一甚至千分之一,这远远超出了通用压缩算法的能力极限。->退一步海阔天空4二、有损压缩香农第三定理-限失真信源编码定理42.1JPEG在图像压缩领域,著名的JPEG标准是有损压缩算法中的经典。JPEG以离散余弦变换(DCT)为核心算法,通过调整质量系数控制图像的精度和大小。对于照片等连续变化的灰度或彩色图像,JPEG在保证图像质量的前提下,一般可以将图像压缩到原大小的十分之一到二十分之一。如果不考虑图像质量,JPEG甚至可以将图像压缩到“无限小”。52.1JPEG在图像压缩领域,著名的JPEG标准是有损YUV颜色模式->RGB图像数据结构一般采用的采样比例是2:1:1或4:2:2。采样后图像数据量将压缩为原来的一半。DCT(DiscreteConsineTransform)是将图像信号在频率域上进行变换,分离出高频和低频信息的处理过程。然后再对图像的高频部分(即图像细节)进行压缩,以达到压缩图像数据的目的。变换后得到一个频率系数矩阵,其中的频率系数都是浮点数。频率系数量化->整数。质量因子的选取值过大,可以大幅度提高压缩比,但是图像质量就比较差;反之,质量因子越小(最小为1),图像重建质量越好,但是压缩比越低。编码采用两种机制:一是0值的行程长度编码;二是熵编码(EntropyCoding)。6YUV颜色模式->RGB图像数据结构一般采用的采样比例是2:2.2mp3人耳感受声音的频率范围是20Hz-20kHz,MP3截掉了大量的冗余信号和无关的信号,编码器通过混合滤波器组将原始声音变换到频率域,利用心理声学模型,估算刚好能被察觉到的噪声水平,再经过量化,转换成Huffman编码,形成MP3位流。MP3音频压缩包含编码和解码两个部分。编码是将WAV文件中的数据转换成高压缩率的位流形式,解码是接受位流并将其重建到WAV文件中。72.2mp3人耳感受声音的频率范围是20Hz-20kHz,在MP3编码中,输入的数字音频信号即PCM采样信号进入子带滤波器组后,被分成32个子带信号MDCT(改进离散余弦变换)把子带的输出在频域里进一步地细分成18个频线,这样共产生576个频线.然后利用心理声学模型计算出子带信号的信掩比,根据这些信掩比决定分配给576个频线的比特数,分别对他们进行比特分配和可变步长量化.量化后的样值再经过无失真的哈夫曼编码,以提高编码效率,并与比特分配和量化产生的边信息一起组成一帧数据.MP3编码的一帧数据包括两个组,每组有576个频线和与他们相关的边信息,边信息被存储在每一帧的帧头中.对这样一帧一帧组成的比特流,MP3解码器可以独立的进行解码,而不需要额外的信息了.8在MP3编码中,输入的数字音频信号即PCM采样信号进入子本章内容自适应差值脉冲调制32kbps增量调制32kbps子带编码16kbps矢量量化编码*1.2kbps参数编码4.8kbps以下把数码率低于64kbps的语音编码方法称为语音压缩编码技术。9本章内容自适应差值脉冲调制32kbps把数码率低于64kb第1节DPCM学习提纲(1)差分脉冲编码调制原理和方框图,差值信号、预测信号、重建信号的含义,差分脉冲编码调制的编码增益;(2)线性预测原理,极点预测和零点预测的基本概念和物理意义;(3)自适应预测和自适应量化的基本概念和物理意义。10第1节DPCM学习提纲(1)差分脉冲编码调制原理和方框图一、DPCM的基本原理一般PCM对样值信号编码都是按照样值幅度独立进行,每一编码码组允许的信号动态范围就是原信号的动态范围,它比较大,需要较多编码位数。任何信号,不论语音或图像,采用直接采样-量化-编码的方式进行编码,都会发现码组之间具有很强的相关性.由于相关性的存在,传输数据中存在大量不需要传输的信息,称为冗余.11一、DPCM的基本原理一般PCM对样值信号编码都是按照样值差值脉冲编码调制(DPCM)就是考虑利用信号相关性找到可以反映信号变化特征的一个差值进行编码。(通过预测和差值编码方式来减少冗余,实现数据压缩的目的)

编码:对信号实际值和预测值的差值进行量化编码并传输.译码:接收端将接收到的差值和恢复的预测值相加得到此次采样值.由于只传输动态范围较小的差值,所以编码的码组不需太长,在DPCM中,一般采用4位.数码率为8k*4bit=32kbps1.差值脉冲编码调制(DifferentialPulseCodeModulation

)的概念12差值脉冲编码调制(DPCM)就是考虑利用信号相关性找到可以反1)预测:

指当知道有冗余性(相关性)信号的一部分时就可以对其余部分进行推断和估计。(通过前几次的样值来预测后一次的样值)假如有一个信号x(t),用速率1/TS进行采样,那么在时刻t=nTs,我们可以掌握此前N个样值序列

x(nTs-Ts),x(nTs-2Ts),……x(nTs-NTs)

根据前N个样值对x(nTs)进行预测,定义为:Wi----------加权常数,可为常数或变量------x(nTs)的预测值。131)预测:假如有一个信号x(t),用速率1/预测过程可用横截滤波器实现14预测过程可用横截滤波器实现14所谓差值脉冲编码就是对真正样值x(nTs)与以过去样值为基础得到的估计值之间的差值进行量化和编码。在每个抽样时刻到来时,滤波器输出将会给出下一个样值的预测值。注意:预测值与实际值并不相同。15所谓差值脉冲编码就是对真正样值x(nTs)与以过去样值为基础2、DPCM的系统原理框图

后向序贯自适应预测算法量化后的差值输入端抽样信号接收端重建信号预测信号DPCM输出码字差值162、DPCM的系统原理框图后向序贯自适应预测算法量化编码器和译码器中的预测器应完全相同。DPCM的总量化误差定义为根据原理框图:所以有DPCM系统总量化误差只和差值信号的量化误差有关。图3.1.3说明了预测原理17编码器和译码器中的预测器应完全相同。根据原理框图:所以有举例:4-DPCM系统编码器量化器特性试分别画出的c(n)波形编码器特性18举例:4-DPCM系统编码器量化器特性试分别画出线性预测网络可分为极点预测器和零点预测器两种(1)极点预测器(即采用重建信号进行的预测)3.极点与零点预测P88图3.1.4设发送系统预测器传递函数为P(Z)19线性预测网络可分为极点预测器和零点预测器两种3.极点与零点预式中是一组预测系数。由于重建滤波器传递函数只有极点没有零点,故称为全极点预测器.20式中是一组预测系数。由于重建滤波器传(2)零点预测器(即采用重建信号进行的预测)P89图3.1.5重建滤波器的传递函数只有零点没有极点,称为全零点预测器。21(2)零点预测器(即采用重建信号进行的预测)P89(3)极零点预测器(把零点和极点预测器组合起来)P89图3.1.6有零点有极点,称为极零点预测器22(3)极零点预测器(把零点和极点预测器组合起来)P89图3系统信噪比定义为:==预测器增益量化器的量化信噪比GP<1GP>1预测器有增益加预测器后反而不利4.预测增益23系统信噪比定义为:==预测器增益量化器的量化信噪比GP<1G要使信号总信噪比大,就要使预测增益大,也就是使差值d(n)减小,增加预测的准确性;同时还要求降低e(n),达到最佳量化.只有采用自适应系统,才能得到最佳性能。有自适应系统的DPCM称为ADPCM(自适应差值脉码调制)24要使信号总信噪比大,就要使预测增益大,也就2二、自适应量化1、最佳量化

用均方误差D衡量量化器对x带来的损伤使D最小的量化特性为最佳量化特性y(n)有N个可能的取值,可变为25二、自适应量化1、最佳量化25说明:1)最佳判决电平在相邻量化电平中心上2)量化电平在相应间隔的功率密度函数的重心上26说明:1)最佳判决电平在相邻量化电平中心上26高斯分布,非均匀量化器最佳值N=8xkoptykopt00.2640.510.7561.051.3441.7482.15227高斯分布,非均匀量化器最佳值N=8xkoptykopt00.介绍以下两种方式:

1)前向自适应量化:严格根据输入方差确定量化器分级判决电平{xk}与量化器的量化电平{yk}值,称为前向自适应。这种方法在实时系统不易实现。2.自适应量化自适应量化指量化器的量化间隔(阶距)能随信号的瞬时值作自适应调整,以达到最佳量化。为使量化器始终处于最佳状态或接近最佳状态,量化器参数(量化电平{yk}、分级判决电平{xk}、量阶)能够自适应差值信号d(n)变化。28介绍以下两种方式:2.自适应量化282)后向自适应量化根据前一时刻的输出数字码C(n-1)或量化器输出值{y(n-1)}来确定本次{x(n)}与{y(n)},称为后向自适应。Jayant提出的一码字后向自适应算法:根据离量化器最近的Rbit码字,确定现在的量阶(n)。已知:下一量阶(n-1)时刻幅度I的函数,与此时量化电平有关现在量阶292)后向自适应量化已知:下一量阶(n-1)时刻幅度I的函数为解决误码扩散问题,因此采用修正式:-------衰减因子(抗误码因子)

-------量化间隔调整因子图3.1.8R=3M10.9M20.9M31.25M41.7530为解决误码扩散问题,因此采用修正式:1、最佳线性预测器

预测器具有一组预测系数,,怎样选择这一组数据,使预测值更接近实际值,使差值功率E[d2(n)

]最小,实现GP和SNR的最大,是最佳预测器所要解决的问题。三、自适应预测311、最佳线性预测器三、自适应预测311)一阶固定线性预测假定一阶预测,即,321)一阶固定线性预测322)二阶固定预测器

除去之外,二阶预测的误差总比一阶预测的小332)二阶固定预测器除去之外,二阶预测的误8KHz抽样的语音信号的相关系数p01.00p10.79p20.38p30.05p4-0.08p5-0.16348KHz抽样的语音信号的相关系数p01.00p10.79p2求偏微分,并令为零3)N阶最佳线性预测

最佳线性预测器是均方预测误差最小的预测器,可获得最大预测增益GP和最大信噪比。35求偏微分,并令为零3)N阶最佳线性预测35所以得到一组线性方程36所以得到一组线性方程36

差值信号在预测系数取最佳值时最小,有最佳预测增益37差值信号在预测系数取最佳值时最小,有最佳预测4)GP与预测阶数的关系预测通常要选用前多少次的样值来参与,见下图

当阶数大于2时,最佳预测增益就趋于饱和,饱和值一般为6-12dB384)GP与预测阶数的关系当阶数大于2时,最佳2、自适应预测为了获得最大的预测增益,通常采用自适应预测方式,预测系数在预测过程中实时调整.前向自适应预测算法后向序贯自适应预测算法最佳预测系数是根据量化后的编码数据x(n)进行估值,可以快速修正系数。如果由一个样值至一个样值逐个修正则称为序贯后向自适应预测。推导过程:搜索底部顶点的过程(利用梯度),图3.1.10392、自适应预测为了获得最大的预测增益,通常采用自适应梯度算法梯度法中,按样值顺序逐个重新调整n时刻给定的矢量h(n),每次的调整量正比于梯度估值的负数。均方差期望梯度估值矢量调整步长,常数40梯度算法梯度法中,按样值顺序逐个重新调整n时刻给定均四、32kbit/s的ADPCM编译码系统ADPCM主要改进:量化器和预测器均采用自适应方式,使量化器和预测器的参数能随输入信号的统计特性自适应于最佳或接近于最佳参数状态。ADPCM编译码器原理框图P9941四、32kbit/s的ADPCM编译码系统ADPCM主要改进自适应量化自适应预测(6个零点和2个极点)编码器42自适应量化编码器42译码器43译码器433.2增量调制M443.2增量调制M44单元概述

增量调制可以看成是DPCM的一种特例。简单增量调制存在斜率过载问题和颗粒噪声问题,因而演变出自适应增量调制和音节压扩自适应调制。45单元概述增量调制可以看成是DPCM的一种特例。45单元学习提纲

(1)简单增量调制(ΔM)原理,预测信号、重建信号、量化器输出电平、量化噪声、斜率过载的概念;(2)简单增量调制抽样周期、量阶与信号的关系;(3)ADM、CVSD原理;

46单元学习提纲(1)简单增量调制(ΔM)原理,预测信号、重1、简单增量调制的原理

M可以看成是DPCM的一种特例,也称为1bit量化的差值编码。量化器把预测差值d(n)仅量化成+1或-1,预测器常用一阶预测,用积分器实现。

它只用一位二进制码表示幅度量化,这一位码表示的是前后抽样值的变化趋势(增加或减小,称为增量),故称为增量调制。为减小量化误差,增量调制必须采用比PCM高很多的抽样频率。471、简单增量调制的原理M可以看成是DPCM的一编码电路如图所示:1)预测:取前一次的重建值,a1=1,称为一阶预测器。48编码电路如图所示:1)预测:取前一次的重建值,a1=1,称为2)量化

若差值信号d(n)大于零(本次样值大于预测值)若差值信号d(n)小于零(本次样值小于预测值)492)量化若差值信号d(n)小于零(本次样值小于预测值)495050显然,可看作和的累加和。因为得到3)重建信号51显然,可看作和增量调制的基本思想是用一个阶梯波去逼近一个模拟信号,如图所示。如果抽样频率足够高,台阶电压足够小,则阶梯波形近似为,而上升台阶和下降台阶的二进制代码分别用“0"和“1"表示。52增量调制的基本思想是用一个阶梯波去逼近一个模拟信号,如图所示4)如要求准确跟踪x(n),需要满足M存在斜率过载问题:当采样周期决定的固有斜率/TS比输入信号的斜率小时,固定量阶的积分跟不上输入信号幅度变化时,将产生斜率过载或过载噪声.534)如要求准确跟踪x(n),需要满足在信号变化比较缓慢的区域内,编码后得到的序列会是“1”和“0”交替变化的,这种现象称为颗粒噪声。失真的大小与信号的性质、量阶大小、抽样频率有关。54在信号变化比较缓慢的区域内,编码后得到的序列会是“1斜率过载失真波形55斜率过载失真波形555)其接收解调原理图如:565)其接收解调原理图如:562、数字压扩自适应增量调制

简单增量调制有两大问题1、信号频率高,量阶相对小,量化跟不上变化,产生过载失真。2、信号频率低,量阶相对大,产生量化失真(颗粒噪声)。572、数字压扩自适应增量调制简单增量调制有两大问题5改进方法1、自适应方式使量阶的大小随信号幅度瞬时压扩,称为瞬时压扩增量调制ADM。阶距信息无论在发送端还是在接收端,都是从码字序列中提取的,其大小由自适应逻辑部分控制,即码字信号经阶距逻辑系统后调整的大小。图3.2.3p为c(n)和c(n-1)二者的函数P114图3.2.458改进方法阶距信息无论在发送端还是在接收端,都是2、阶距大小随输入信号的音节而变,称为连续可变斜率增量调制音节:指信号幅度包络的变化周期,对于语音信号,就是音量变化的周期。音节压扩:使量阶∆(n)随着每个音节时间间隔内的信号平均斜率变化,称为连续可变斜率增量调制CVSD。

592、阶距大小随输入信号的音节而变,称为连续可变斜率增量调制音比较器:使带限的语音信号与预测滤波器输出的预测信号之间产生一个误差信号量化器:阶距受一音节压扩器的控制。压扩器:检测到连续3个或4个1或0的码元,产生一个V伏脉冲,激励音节滤波器;否则无脉冲预测器:一个在16Hz以上具有3dB衰减的积分器CVSD原理图CVSD主要组成部分60比较器:使带限的语音信号与预测滤波器输出的预测CVSD原理图61611、检测编码输出信号的连“1”或连“0”,连“1”过多或连“0”过多,说明信号的斜率大。2、将所检出的脉冲送入平滑电路(积分器,时常数为5-20ms),产生一缓慢变化电压,这个电压与语音信号的平均斜率成正比。3、将这个电压对输入脉冲串进行调幅,当连码多导致平滑电路输出电平高(输入信号斜率大),调幅器输出信号大,扩张了量化电平。CVSD原理图621、检测编码输出信号的连“1”或连“0”,连V---编码器产生了3个或4个连续1或0码元时,自适应逻辑的输出电压值V1---加到V上的一个恒定电压,以保证最小阶距不是零

β—音节滤波器的系数算法公式:63V---编码器产生了3个或4个连续1或0码元时,数字压扩增量调制对信噪比的改进情况如图所示64数字压扩增量调制对信噪比的改进情况如图所示64四、子带编码65四、子带编码65单元学习提纲

(1)子带编码原理;(2)子带传输速率的计算;(3)子带的划分方法;(4)正交镜象滤波器

66单元学习提纲(1)子带编码原理;661、子带编码原理子带编码(SBC,Sub-bandCoding)是一种在频率域中进行数据压缩的方法。在子带编码中,首先用一组带通滤波器将输入信号分成若干个在不同频段上的子带信号;然后将这些子带信号经过频率搬移转变成基带信号,再对它们在奈奎斯特速率上分别重新取样。每个子带取样后的信号经过单独的自适应PCM编码,并合并成一个总的码流传送给接收端。

671、子带编码原理子带编码(SBC,Sub-band编码器APCM工作原理图68编码器APCM工作原理图68在接收端,首先把码流分成与原来的各子带信号相对应的子带码流,然后解码、将频谱搬移至原来的位置,最后经带通滤波、相加,得到重建的信号。解码器69在接收端,首先把码流分成与原来的各子带信号相对应的子带码流,对每个子带分别编码的好处(1)可以利用人耳(或人眼)对不同频率信号的感知灵敏度不同的特性,在人的听觉(或视觉)不敏感的频段采用较粗糙的量化,从而达到数据压缩的目的。

例如:音调和共振峰,用较小的量化阶、较多的量化级数,即分配较多的比特数来表示样本值。而话音中的摩擦音和类似噪声的声音,通常出现在高频子带中,用较大量化阶距,分配较少的比特数。70对每个子带分别编码的好处(1)可以利用人耳(或人眼)对不同频(2)每个子带使用独立的量化阶距,这就可以避免能量较小的频带内的信号被其他频带中的量化噪声所掩盖。(3)通过频带分裂,各个子带的取样频率可以成倍下降。16kbpsSBC26.5kbpsADPCM9.6kbpsSBC19kbpsADMMp3编码器71(2)每个子带使用独立的量化阶距,这就可以避免能量较小的2、传输速率在子带编码中,若各个子带的带宽ΔWk是相同的,则称为等带宽子带编码,否则,称为变带宽子带编码。假设每个子带波形抽样为fsk,每个抽样用Rk比特编码,则总的传输速率等于每个子带的编码比特率的总和。在等带宽子带编码中式中W为总带宽,单位是赫兹;M为子带的数目722、传输速率在子带编码中,若各个子带的带宽ΔWk是相同的,则由于第k个子带的抽样率为,则总传输速率简化为:上式为等带宽分割时的传输率。如果将总比特数表示为则这是全带编码时的传输速率表示式,R为对全带采样编码时的平均比特数。73由于第k个子带的抽样率为,则总传输速率简化例题一个4子带的SBC系统,子带分别为[0~800],[800~1600],[1600~2400],[2400~3200],如果忽略同步码的边带信息,子带的比特分配分别为3,2,1,0比特/样值,求总的传输速率和全带采样时的平均比特数。74例题一个4子带的SBC系统,子带分别为[0~800],[80正交镜象滤波器(QMF)是数字滤波器中的一种特殊的新型滤波系统,它由一个低通滤波器和一个与其正交的镜象高通滤波器构成,其最大优点是在对信号进行滤波选抽分解和反滤波插值重构时不会产生因频率混叠而带来的信号失真。由于分割频带所用的滤波器不是理想的滤波器,经过分带、编码、译码后合成的输出音频信号会有混迭效应。采用正交镜象滤波器来划分频带,混迭效应在最后合成时可以抵消。3、正交镜象滤波器75正交镜象滤波器(QMF)是数字滤波器中的一种特殊的新型QMF简化的幅频特性

76QMF简化的幅频特性76图中,用QMF把全带音频信号分割成两个等带宽子带。hH(n)和hL(n)分别表示高通滤波器和低通滤波器,它们组成一对正交镜象滤波器。这两个滤波器也叫做分析滤波器。用正交镜象滤波器分割频带的子带编译码简化框图。77图中,用QMF把全带音频信号分割成两个等带宽子带。hH(n)4、子带的划分下面以语音子带编码为例说明其过程。音频频带的分割可以用树型结构的式样进行划分。首先把整个音频信号带宽分成两个相等带宽的子带:高频子带和低频子带。然后对这两个子带用同样的方法划分,形成4个子带。这个过程可按需要重复下去。用这种办法可以产生等带宽的子带,也可以生成不等带宽的子带。P121图3.3.6784、子带的划分下面以语音子带编码为例说明其过程。音频频子带编码存在的问题是编解码的延时比较长,约在几十~100ms之间,这主要是滤波器组的延时造成的,这种延时对于一些通信系统是不能接受的,因此子带编码主要用于声频存储、数字声广播以及一些允许延时较长的电话传输系统中。79子带编码存在的问题是编解码的延时比较长,约在几十~100ms六、参数编码80六、参数编码808181单元学习提纲

(1)了解语音信号模型的相关概念;(2)理解线性预测声码器的基本原理;(3)了解LPC声码器的缺点

82单元学习提纲(1)了解语音信号模型的相关概念;821、语音信号模型1)浊音:又称声音。声带在气流的作用下准周期地闭合或开启,从而在声带中激励起准周期的声波。具有明显的准周期特性。浊音信号的能量主要集中在各基音的谐波频率附近,而且主要集中于低于3KHz的范围内。P126不同语音是由于发音器官中的声音激励源和口腔声道的形状不同引起的。根据激励源和声道模型的不同,语音主要分为

浊音和清音。831、语音信号模型1)浊音:又称声音。声带在气流的作用下准2)清音:气流速度达到某一临界速度时,会引起湍流,此时声带不震动,声道被噪声状随机波激励,产生较小幅度的声波,其波形与噪声很像。清音信号没有准周期性,能量主要集中在比浊音更高的频率范围内。P127语音学中,将发音时声带振动的音称为浊音(又称有声),声带不振动的音称为清音(又称无声)。3)共振峰:声道频率特性对应的谐振点叫做共振峰频率。共振峰出现在浊音频谱中。P1274)语音信号发生模型P127

842)清音:气流速度达到某一临界速度时,会引起湍流,此时声带不2、线性预测声码器1)语音信号分析合成的定义:以语音模型为基础,在发端分析提取表征音源和声道的相关特征参数,通过量化编码将这些参数传输到收端,在收端再应用这些特征参数重新合成为语音信号的过程。852、线性预测声码器1)语音信号分析合成的定义:852)LPC声码器的基本原理清音模型简化为由白色随机噪声激励;浊音为准周期脉冲序列,周期为基音周期Tp在发端,对语音信号样值s(n)逐帧进行线性预测分析,并作相应的清/浊音判决和基音提取。分析前预加重是为了加强语音谱中的高频共振峰,使语音短时谱及线性预测分析中的余数谱更加平坦,从而提高预测模型参数{ai}估值的准确度。线性预测大多采用自相关法。采用汉明窗。862)LPC声码器的基本原理清音模型简化为由白色随机噪声激励;LPC声码器方框图自信道入译码合成器反预加重合成语音87LPC声码器方框图自信道入译码合成器反预加重合成语音873、LPC声码器的缺点1)损失了语音自然度2)降低了方案的可靠性3)易引起共振峰位置失真4)带宽估值误差大883、LPC声码器的缺点1)损失了语音自然度88第三章总结自适应差值脉冲调制(1)差分脉冲编码调制原理和方框图,差值信号、预测信号、重建信号的含义,差分脉冲编码调制的编码增益;(2)线性预测原理,极点预测和零点预测的基本概念和物理意义;(3)自适应预测和自适应量化的基本概念和物理意义增量调制(1)简单增量调制原理,本地译码信号、重建信号、量化噪声、斜率过载的定义;(2)简单增量调制量化信噪比与抽样频率、输入信号频率的关系;(3)数字压扩自适应增量调制改善增量调制动态范围的原理;89第三章总结自适应差值脉冲调制89子带编码(1)子带编码原理;(2)子带传输速率的计算参数编码线性预测声码器的基本原理;90子带编码90作业P1291.2.3DPCM/ADPCM/ADM/CVSD/SBC/LPC声码器原理方框图,包括发送端和接收端91作业P1291.2.391第3章

语音信号的压缩编码92第3章

语音信号的压缩编码1补充:1、数据压缩简介PCM音频流的码率是采样率值×采样大小值×声道数bps。

采用PCM脉冲编码调制的数字电话的数码率为64kb/s;

视频:如320×233窗口中,以25帧/秒速度播放1分钟颜色数为8bit的视频信号,其数据量为:

320×233×8×25×60/(8×1024×1024)

≈107(M)

对一首长约4分钟的歌曲采样,将其存储在磁盘上,以CD音质的WAV格式抽样,抽样率为44.1kHz,即每秒钟接收44100个值,立体声,每次抽样数据为16位(2字节),则这首歌占的空间为:44100x2声道x2字节x60秒x4分钟=40.4MB

如果下载传输率为56kbps,则下载时间为:40.4x106x8/56x103x60=96分钟

即使是1M的宽带网也需5分钟以上。93补充:1、数据压缩简介PCM音频流的码率是采样率值×采一、无损压缩以香农第一定理作为理论基础,即在一定的概率模型下,无损压缩的编码长度不可能小于信息熵。Shannon编码->Fano->Huffman编码Ziv和Lempel于1977年发表题为“顺序数据压缩的一个通用算法”的论文,提出了LZ77算法。LZ算法被认为是字符串匹配的算法。例如:在一段文本中某字符串经常出现,并且可以通过前面文本中出现的字符串指针来表示。当然这个想法的前提是指针应该比字符串本身要短。例如,在上一段短语“字符串”经常出现,可以将除第一个字符串之外的所有用第一个字符串引用来表示,从而节省一些空间。一个字符串引用通过下面的方式来表示:1.唯一的标记2.偏移数量3.字符串长度类似字典中的页码和行号代替文章中每个单词应用:PKZIP、WinZIP、WinRAR、gzip等压缩工具94一、无损压缩以香农第一定理作为理论基础,即在一定的概率模型下二、有损压缩香农第三定理-限失真信源编码定理如果在压缩这一类图像数据时允许改变一些不太重要的像素值,或者说允许损失一些精度我们就有可能在压缩效果上获得突破性的进展。

在压缩通用数据时,我们绝不会容忍任何精度上的损失,但在压缩和显示一幅数码照片时,如果一片树林里某些树叶的颜色稍微变深了一些,看照片的人通常是察觉不到的通过在用户的忍耐范围内损失一些精度,我们可以把图像(也包括音频和视频)压缩到原大小的十分之一、百分之一甚至千分之一,这远远超出了通用压缩算法的能力极限。->退一步海阔天空95二、有损压缩香农第三定理-限失真信源编码定理42.1JPEG在图像压缩领域,著名的JPEG标准是有损压缩算法中的经典。JPEG以离散余弦变换(DCT)为核心算法,通过调整质量系数控制图像的精度和大小。对于照片等连续变化的灰度或彩色图像,JPEG在保证图像质量的前提下,一般可以将图像压缩到原大小的十分之一到二十分之一。如果不考虑图像质量,JPEG甚至可以将图像压缩到“无限小”。962.1JPEG在图像压缩领域,著名的JPEG标准是有损YUV颜色模式->RGB图像数据结构一般采用的采样比例是2:1:1或4:2:2。采样后图像数据量将压缩为原来的一半。DCT(DiscreteConsineTransform)是将图像信号在频率域上进行变换,分离出高频和低频信息的处理过程。然后再对图像的高频部分(即图像细节)进行压缩,以达到压缩图像数据的目的。变换后得到一个频率系数矩阵,其中的频率系数都是浮点数。频率系数量化->整数。质量因子的选取值过大,可以大幅度提高压缩比,但是图像质量就比较差;反之,质量因子越小(最小为1),图像重建质量越好,但是压缩比越低。编码采用两种机制:一是0值的行程长度编码;二是熵编码(EntropyCoding)。97YUV颜色模式->RGB图像数据结构一般采用的采样比例是2:2.2mp3人耳感受声音的频率范围是20Hz-20kHz,MP3截掉了大量的冗余信号和无关的信号,编码器通过混合滤波器组将原始声音变换到频率域,利用心理声学模型,估算刚好能被察觉到的噪声水平,再经过量化,转换成Huffman编码,形成MP3位流。MP3音频压缩包含编码和解码两个部分。编码是将WAV文件中的数据转换成高压缩率的位流形式,解码是接受位流并将其重建到WAV文件中。982.2mp3人耳感受声音的频率范围是20Hz-20kHz,在MP3编码中,输入的数字音频信号即PCM采样信号进入子带滤波器组后,被分成32个子带信号MDCT(改进离散余弦变换)把子带的输出在频域里进一步地细分成18个频线,这样共产生576个频线.然后利用心理声学模型计算出子带信号的信掩比,根据这些信掩比决定分配给576个频线的比特数,分别对他们进行比特分配和可变步长量化.量化后的样值再经过无失真的哈夫曼编码,以提高编码效率,并与比特分配和量化产生的边信息一起组成一帧数据.MP3编码的一帧数据包括两个组,每组有576个频线和与他们相关的边信息,边信息被存储在每一帧的帧头中.对这样一帧一帧组成的比特流,MP3解码器可以独立的进行解码,而不需要额外的信息了.99在MP3编码中,输入的数字音频信号即PCM采样信号进入子本章内容自适应差值脉冲调制32kbps增量调制32kbps子带编码16kbps矢量量化编码*1.2kbps参数编码4.8kbps以下把数码率低于64kbps的语音编码方法称为语音压缩编码技术。100本章内容自适应差值脉冲调制32kbps把数码率低于64kb第1节DPCM学习提纲(1)差分脉冲编码调制原理和方框图,差值信号、预测信号、重建信号的含义,差分脉冲编码调制的编码增益;(2)线性预测原理,极点预测和零点预测的基本概念和物理意义;(3)自适应预测和自适应量化的基本概念和物理意义。101第1节DPCM学习提纲(1)差分脉冲编码调制原理和方框图一、DPCM的基本原理一般PCM对样值信号编码都是按照样值幅度独立进行,每一编码码组允许的信号动态范围就是原信号的动态范围,它比较大,需要较多编码位数。任何信号,不论语音或图像,采用直接采样-量化-编码的方式进行编码,都会发现码组之间具有很强的相关性.由于相关性的存在,传输数据中存在大量不需要传输的信息,称为冗余.102一、DPCM的基本原理一般PCM对样值信号编码都是按照样值差值脉冲编码调制(DPCM)就是考虑利用信号相关性找到可以反映信号变化特征的一个差值进行编码。(通过预测和差值编码方式来减少冗余,实现数据压缩的目的)

编码:对信号实际值和预测值的差值进行量化编码并传输.译码:接收端将接收到的差值和恢复的预测值相加得到此次采样值.由于只传输动态范围较小的差值,所以编码的码组不需太长,在DPCM中,一般采用4位.数码率为8k*4bit=32kbps1.差值脉冲编码调制(DifferentialPulseCodeModulation

)的概念103差值脉冲编码调制(DPCM)就是考虑利用信号相关性找到可以反1)预测:

指当知道有冗余性(相关性)信号的一部分时就可以对其余部分进行推断和估计。(通过前几次的样值来预测后一次的样值)假如有一个信号x(t),用速率1/TS进行采样,那么在时刻t=nTs,我们可以掌握此前N个样值序列

x(nTs-Ts),x(nTs-2Ts),……x(nTs-NTs)

根据前N个样值对x(nTs)进行预测,定义为:Wi----------加权常数,可为常数或变量------x(nTs)的预测值。1041)预测:假如有一个信号x(t),用速率1/预测过程可用横截滤波器实现105预测过程可用横截滤波器实现14所谓差值脉冲编码就是对真正样值x(nTs)与以过去样值为基础得到的估计值之间的差值进行量化和编码。在每个抽样时刻到来时,滤波器输出将会给出下一个样值的预测值。注意:预测值与实际值并不相同。106所谓差值脉冲编码就是对真正样值x(nTs)与以过去样值为基础2、DPCM的系统原理框图

后向序贯自适应预测算法量化后的差值输入端抽样信号接收端重建信号预测信号DPCM输出码字差值1072、DPCM的系统原理框图后向序贯自适应预测算法量化编码器和译码器中的预测器应完全相同。DPCM的总量化误差定义为根据原理框图:所以有DPCM系统总量化误差只和差值信号的量化误差有关。图3.1.3说明了预测原理108编码器和译码器中的预测器应完全相同。根据原理框图:所以有举例:4-DPCM系统编码器量化器特性试分别画出的c(n)波形编码器特性109举例:4-DPCM系统编码器量化器特性试分别画出线性预测网络可分为极点预测器和零点预测器两种(1)极点预测器(即采用重建信号进行的预测)3.极点与零点预测P88图3.1.4设发送系统预测器传递函数为P(Z)110线性预测网络可分为极点预测器和零点预测器两种3.极点与零点预式中是一组预测系数。由于重建滤波器传递函数只有极点没有零点,故称为全极点预测器.111式中是一组预测系数。由于重建滤波器传(2)零点预测器(即采用重建信号进行的预测)P89图3.1.5重建滤波器的传递函数只有零点没有极点,称为全零点预测器。112(2)零点预测器(即采用重建信号进行的预测)P89(3)极零点预测器(把零点和极点预测器组合起来)P89图3.1.6有零点有极点,称为极零点预测器113(3)极零点预测器(把零点和极点预测器组合起来)P89图3系统信噪比定义为:==预测器增益量化器的量化信噪比GP<1GP>1预测器有增益加预测器后反而不利4.预测增益114系统信噪比定义为:==预测器增益量化器的量化信噪比GP<1G要使信号总信噪比大,就要使预测增益大,也就是使差值d(n)减小,增加预测的准确性;同时还要求降低e(n),达到最佳量化.只有采用自适应系统,才能得到最佳性能。有自适应系统的DPCM称为ADPCM(自适应差值脉码调制)115要使信号总信噪比大,就要使预测增益大,也就2二、自适应量化1、最佳量化

用均方误差D衡量量化器对x带来的损伤使D最小的量化特性为最佳量化特性y(n)有N个可能的取值,可变为116二、自适应量化1、最佳量化25说明:1)最佳判决电平在相邻量化电平中心上2)量化电平在相应间隔的功率密度函数的重心上117说明:1)最佳判决电平在相邻量化电平中心上26高斯分布,非均匀量化器最佳值N=8xkoptykopt00.2640.510.7561.051.3441.7482.152118高斯分布,非均匀量化器最佳值N=8xkoptykopt00.介绍以下两种方式:

1)前向自适应量化:严格根据输入方差确定量化器分级判决电平{xk}与量化器的量化电平{yk}值,称为前向自适应。这种方法在实时系统不易实现。2.自适应量化自适应量化指量化器的量化间隔(阶距)能随信号的瞬时值作自适应调整,以达到最佳量化。为使量化器始终处于最佳状态或接近最佳状态,量化器参数(量化电平{yk}、分级判决电平{xk}、量阶)能够自适应差值信号d(n)变化。119介绍以下两种方式:2.自适应量化282)后向自适应量化根据前一时刻的输出数字码C(n-1)或量化器输出值{y(n-1)}来确定本次{x(n)}与{y(n)},称为后向自适应。Jayant提出的一码字后向自适应算法:根据离量化器最近的Rbit码字,确定现在的量阶(n)。已知:下一量阶(n-1)时刻幅度I的函数,与此时量化电平有关现在量阶1202)后向自适应量化已知:下一量阶(n-1)时刻幅度I的函数为解决误码扩散问题,因此采用修正式:-------衰减因子(抗误码因子)

-------量化间隔调整因子图3.1.8R=3M10.9M20.9M31.25M41.75121为解决误码扩散问题,因此采用修正式:1、最佳线性预测器

预测器具有一组预测系数,,怎样选择这一组数据,使预测值更接近实际值,使差值功率E[d2(n)

]最小,实现GP和SNR的最大,是最佳预测器所要解决的问题。三、自适应预测1221、最佳线性预测器三、自适应预测311)一阶固定线性预测假定一阶预测,即,1231)一阶固定线性预测322)二阶固定预测器

除去之外,二阶预测的误差总比一阶预测的小1242)二阶固定预测器除去之外,二阶预测的误8KHz抽样的语音信号的相关系数p01.00p10.79p20.38p30.05p4-0.08p5-0.161258KHz抽样的语音信号的相关系数p01.00p10.79p2求偏微分,并令为零3)N阶最佳线性预测

最佳线性预测器是均方预测误差最小的预测器,可获得最大预测增益GP和最大信噪比。126求偏微分,并令为零3)N阶最佳线性预测35所以得到一组线性方程127所以得到一组线性方程36

差值信号在预测系数取最佳值时最小,有最佳预测增益128差值信号在预测系数取最佳值时最小,有最佳预测4)GP与预测阶数的关系预测通常要选用前多少次的样值来参与,见下图

当阶数大于2时,最佳预测增益就趋于饱和,饱和值一般为6-12dB1294)GP与预测阶数的关系当阶数大于2时,最佳2、自适应预测为了获得最大的预测增益,通常采用自适应预测方式,预测系数在预测过程中实时调整.前向自适应预测算法后向序贯自适应预测算法最佳预测系数是根据量化后的编码数据x(n)进行估值,可以快速修正系数。如果由一个样值至一个样值逐个修正则称为序贯后向自适应预测。推导过程:搜索底部顶点的过程(利用梯度),图3.1.101302、自适应预测为了获得最大的预测增益,通常采用自适应梯度算法梯度法中,按样值顺序逐个重新调整n时刻给定的矢量h(n),每次的调整量正比于梯度估值的负数。均方差期望梯度估值矢量调整步长,常数131梯度算法梯度法中,按样值顺序逐个重新调整n时刻给定均四、32kbit/s的ADPCM编译码系统ADPCM主要改进:量化器和预测器均采用自适应方式,使量化器和预测器的参数能随输入信号的统计特性自适应于最佳或接近于最佳参数状态。ADPCM编译码器原理框图P99132四、32kbit/s的ADPCM编译码系统ADPCM主要改进自适应量化自适应预测(6个零点和2个极点)编码器133自适应量化编码器42译码器134译码器433.2增量调制M1353.2增量调制M44单元概述

增量调制可以看成是DPCM的一种特例。简单增量调制存在斜率过载问题和颗粒噪声问题,因而演变出自适应增量调制和音节压扩自适应调制。136单元概述增量调制可以看成是DPCM的一种特例。45单元学习提纲

(1)简单增量调制(ΔM)原理,预测信号、重建信号、量化器输出电平、量化噪声、斜率过载的概念;(2)简单增量调制抽样周期、量阶与信号的关系;(3)ADM、CVSD原理;

137单元学习提纲(1)简单增量调制(ΔM)原理,预测信号、重1、简单增量调制的原理

M可以看成是DPCM的一种特例,也称为1bit量化的差值编码。量化器把预测差值d(n)仅量化成+1或-1,预测器常用一阶预测,用积分器实现。

它只用一位二进制码表示幅度量化,这一位码表示的是前后抽样值的变化趋势(增加或减小,称为增量),故称为增量调制。为减小量化误差,增量调制必须采用比PCM高很多的抽样频率。1381、简单增量调制的原理M可以看成是DPCM的一编码电路如图所示:1)预测:取前一次的重建值,a1=1,称为一阶预测器。139编码电路如图所示:1)预测:取前一次的重建值,a1=1,称为2)量化

若差值信号d(n)大于零(本次样值大于预测值)若差值信号d(n)小于零(本次样值小于预测值)1402)量化若差值信号d(n)小于零(本次样值小于预测值)4914150显然,可看作和的累加和。因为得到3)重建信号142显然,可看作和增量调制的基本思想是用一个阶梯波去逼近一个模拟信号,如图所示。如果抽样频率足够高,台阶电压足够小,则阶梯波形近似为,而上升台阶和下降台阶的二进制代码分别用“0"和“1"表示。143增量调制的基本思想是用一个阶梯波去逼近一个模拟信号,如图所示4)如要求准确跟踪x(n),需要满足M存在斜率过载问题:当采样周期决定的固有斜率/TS比输入信号的斜率小时,固定量阶的积分跟不上输入信号幅度变化时,将产生斜率过载或过载噪声.1444)如要求准确跟踪x(n),需要满足在信号变化比较缓慢的区域内,编码后得到的序列会是“1”和“0”交替变化的,这种现象称为颗粒噪声。失真的大小与信号的性质、量阶大小、抽样频率有关。145在信号变化比较缓慢的区域内,编码后得到的序列会是“1斜率过载失真波形146斜率过载失真波形555)其接收解调原理图如:1475)其接收解调原理图如:562、数字压扩自适应增量调制

简单增量调制有两大问题1、信号频率高,量阶相对小,量化跟不上变化,产生过载失真。2、信号频率低,量阶相对大,产生量化失真(颗粒噪声)。1482、数字压扩自适应增量调制简单增量调制有两大问题5改进方法1、自适应方式使量阶的大小随信号幅度瞬时压扩,称为瞬时压扩增量调制ADM。阶距信息无论在发送端还是在接收端,都是从码字序列中提取的,其大小由自适应逻辑部分控制,即码字信号经阶距逻辑系统后调整的大小。图3.2.3p为c(n)和c(n-1)二者的函数P114图3.2.4149改进方法阶距信息无论在发送端还是在接收端,都是2、阶距大小随输入信号的音节而变,称为连续可变斜率增量调制音节:指信号幅度包络的变化周期,对于语音信号,就是音量变化的周期。音节压扩:使量阶∆(n)随着每个音节时间间隔内的信号平均斜率变化,称为连续可变斜率增量调制CVSD。

1502、阶距大小随输入信号的音节而变,称为连续可变斜率增量调制音比较器:使带限的语音信号与预测滤波器输出的预测信号之间产生一个误差信号量化器:阶距受一音节压扩器的控制。压扩器:检测到连续3个或4个1或0的码元,产生一个V伏脉冲,激励音节滤波器;否则无脉冲预测器:一个在16Hz以上具有3dB衰减的积分器CVSD原理图CVSD主要组成部分151比较器:使带限的语音信号与预测滤波器输出的预测CVSD原理图152611、检测编码输出信号的连“1”或连“0”,连“1”过多或连“0”过多,说明信号的斜率大。2、将所检出的脉冲送入平滑电路(积分器,时常数为5-20ms),产生一缓慢变化电压,这个电压与语音信号的平均斜率成正比。3、将这个电压对输入脉冲串进行调幅,当连码多导致平滑电路输出电平高(输入信号斜率大),调幅器输出信号大,扩张了量化电平。CVSD原理图1531、检测编码输出信号的连“1”或连“0”,连V---编码器产生了3个或4个连续1或0码元时,自适应逻辑的输出电压值V1---加到V上的一个恒定电压,以保证最小阶距不是零

β—音节滤波器的系数算法公式:154V---编码器产生了3个或4个连续1或0码元时,数字压扩增量调制对信噪比的改进情况如图所示155数字压扩增量调制对信噪比的改进情况如图所示64四、子带编码156四、子带编码65单元学习提纲

(1)子带编码原理;(2)子带传输速率的计算;(3)子带的划分方法;(4)正交镜象滤波器

157单元学习提纲(1)子带编码原理;661、子带编码原理子带编码(SBC,Sub-bandCoding)是一种在频率域中进行数据压缩的方法。在子带编码中,首先用一组带通滤波器将输入信号分成若干个在不同频段上的子带信号;然后将这些子带信号经过频率搬移转变成基带信号,再对它们在奈奎斯特速率上分别重新取样。每个子带取样后的信号经过单独的自适应PCM编码,并合并成一个总的码流传送给接收端。

1581、子带编码原理子带编码(SBC,Sub-band编码器APCM工作原理图159编码器APCM工作原理图68在接收端,首先把码流分成与原来的各子带信号相对应的子带码流,然后解码、将频谱搬移至原来的位置,最后经带通滤波、相加,得到重建的信号。解码器160在接收端,首先把码流分成与原来的各子带信号相对应的子带码流,对每个子带分别编码的好处(1)可以利用人耳(或人眼)对不同频率信号的感知灵敏度不同的特性,在人的听觉(或视觉)不敏感的频段采用较粗糙的量化,从而达到数据压缩的目的。

例如:音调和共振峰,用较小的量化阶、较多的量化级数,即分配较多的比特数来表示样本值。而话音中的摩擦音和类似噪声的声音,通常出现在高频子带中,用较大量化阶距,分配较少的比特数。161对每个子带分别编码的好处(1)可以利用人耳(或人眼)对不同频(2)每个子带使用独立的量化阶距,这就可以避免能量较小的频带内的信号被其他频带中的量化噪声所掩盖。(3)通过频带分裂,各个子带的取样频率可以成倍下降。16kbpsSBC26.5kbpsADPCM9.6kbpsSBC19kbpsADMMp3编码器162(2)每个子带使用独立的量化阶距,这就可以避免能量较小的2、传输速率在子带编码中,若各个子带的带宽ΔWk是相同的,则称为等带宽子带编码,否则,称为变带宽子带编码。假设每个子带波形抽样为fsk,每个抽样用Rk比特编码,则总的传输速率等于每个子带的编码比特率的总和。在等带宽子带编码中式中W为总带宽,单位是赫兹;M为子带的数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论