第三章 语音编码_第1页
第三章 语音编码_第2页
第三章 语音编码_第3页
第三章 语音编码_第4页
第三章 语音编码_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第3章话音编码

3.1话音编码概要3.2脉冲编码调制(PCM)3.3PCM在通信中的应用3.4增量调制与自适应增量调制3.5自适应差分脉冲编码调制3.6G.722SB-ADPCM编译码器3.7线性预测编码(LPC)的概念3.8GSM编译码器简介3.1话音编码概要一、话音波形的特性声道可以认为是一个滤波器,压缩空气通过声门激励声道滤波器,根据激励方式不同,发出的话音分成三种类型:浊音(voicedsounds):清音(unvoicedsounds)爆破音(plosivesounds)。

3.1话音编码概要浊音:浊音是一种称为准周期脉冲(quasi-periodicpulses)激励所发出的音,这种准周期脉冲是在声门打开然后关闭时中断肺部到声道的气流所产生的脉冲。

3.1话音编码概要清音:清音是由不稳定气流激励所产生的,这种气流是在声门处在打开状态下强制空气在声道里高速收缩产生的。

3.1话音编码概要

爆破音:爆破音是在声道关闭之后产生的压缩空气然后突然打开声道所发出的音。

3.1话音编码概要二、三种话音编译码器

话音编译码器分成以下三种类型:波形编译码器(waveformcodecs):话音质量高,但数据率也很高

音源编译码器(sourcecodecs):数据率很低,产生的合成话音的音质差混合编译码器(hybridcodecs):数据率和音质介于它们之间

3.1话音编码概要

普通编译码器的音质与数据率

3.1话音编码概要1、波形编译码器

最简单的波形编码是脉冲编码调制(pulsecodemodulation,PCM),它仅仅是对输入信号进行采样和量化。可采用非线性量化来降低数据率,如μ律和A律。

优点是编译码器简单,延迟时间短,音质高缺点是数据速率比较高,对传输通道的错误比较敏感。

3.1话音编码概要预测技术:从过去的样本来预测下一个样本的值差分脉冲编码调制(differentialpulsecodemodulation,DPCM)的基础—对预测的样本值与原始的样本值之差进行编码

3.1话音编码概要

DPCM对幅度急剧变化的输入信号会产生比较大的噪声,改进的方法之一就是使用自适应的预测器和量化器——自适应差分脉冲编码调制(adaptivedifferentialPCM,ADPCM)

有16,24,32,40kb/s的ADPCM标准。其中32kb/s的ADPCM标准的音质非常接近64kb/s的PCM编译码器。

3.1话音编码概要时域法(timedomainapproach):在时域里的编译码方法,如DPCM、ADPCM。频域法(frequencydomainapproach):如子带编码和自适应变换编码。

3.1话音编码概要

子带编码(sub-bandcoding,SBC):输入的话音信号被分成好几个频带(即子带),变换到每个子带中的话音信号都进行独立编码,例如使用ADPCM编码器编码,在接收端,每个子带中的信号单独解码之后重新组合,然后产生重构话音信号。由于对不同的子带单独编码,从而可以对不同的子带分配不同的量化位数。3.1话音编码概要自适应变换编码(adaptivetransformcoding,ATC):使用快速变换(例如离散余弦变换)把话音信号分成许许多多的频带,用来表示每个变换系数的位数取决于话音谱的性质。

3.1话音编码概要2、音源编译码器

从话音波形信号中提取生成话音的参数,使用这些参数通过话音生成模型重构出话音。针对话音的音源编译码器叫做声码器(vocoder)。

声道被等效成一个随时间变化的滤波器,叫做时变滤波器。

如LPC(线性预测编码)。3.1话音编码概要3.混合编译码

利用波形编码的高质量和音源编码的高压缩率。如时域合成-分析(analysis-by-synthesis,AbS)编译码器:使用的声道线性预测滤波器模型与线性预测编码(linearpredictivecoding,LPC)使用的模型相同,但不使用两个状态(有声/无声)的模型来寻找滤波器的输入激励信号,而使用其它的激励信号。

话音信号分成许多帧(frames),一般来说,每帧的长度为20ms。合成滤波器的参数按帧计算,然后确定滤波器的激励参数。得到激励参数和激励信号进行存储。3.1话音编码概要激励信号馈送给合成滤波器,合成滤波器产生重构的话音信号。3.1话音编码概要3.1话音编码概要多脉冲激励(multi-pulseexcited,MPE)编译码器等间隔脉冲激励(regular-pulseexcited,RPE)编译码器码激励线性预测(codeexcitedlinearpredictive,CELP)编译码器混合激励线性预测(mixedexcitationlinearprediction,MELP)等

3.1话音编码概要MPE,RPE和CELP编译码器之间的差别在于所使用的激励信号的表示方法:MPE中,对每帧话音所用的激励信号u(n)是固定数目的脉冲;

RPE编译码器使用固定间隔的脉冲,但脉冲的数目则比MPE使用的数目多;CELP使用的激励信号是量化矢量,激励信号由一个矢量量化大码簿的表项给出。

3.1话音编码概要编码器MOS分64kb/s脉冲编码调制(PCM)4.332kb/s自适应差分脉冲编码调制(ADPCM)4.116kb/s低时延码激励线性预测编码(LD-CELP)4.08kb/s码激励线性预测编码(CELP)3.73.8kb/s码激励线性预测编码(CELP)3.02.4kb/s线性预测编码(LPC)2.53.2脉冲编码调制(PCM)一、PCM的概念

脉冲编码调制(pulsecodemodulation,PCM)的编码原理比较直观和简单,它的原理框图如下图所示:

“防失真滤波器”是一个低通滤波器,用来滤除声音频带以外的信号

“波形编码器”可暂时理解为“采样器”

“量化器”可理解为“量化阶大小(step-size)”生成器或者称为“量化间隔”生成器

3.2脉冲编码调制(PCM)量化但可归纳成两类:一类称为均匀量化另一类称为非均匀量化采用的量化方法不同,量化后的数据量也就不同。因此,可以说量化也是一种压缩数据的方法。

3.2脉冲编码调制(PCM)二、均匀量化

如果采用相等的量化间隔对采样得到的信号作量化,那么这种量化称为均匀量化。也称为线性量化。

量化误差或量化噪声:量化后的样本值Y和原始值X的差E=Y-X

3.2脉冲编码调制(PCM)三、非均匀量化

基本想法:对输入信号进行量化时,大的输入信号采用大的量化间隔,小的输入信号采用小的量化间隔。有两种算法:

律压扩算法A律压扩算法

四、

律压扩

律(

-Law)压扩(G.711标准)量化输入和输出的关系:式中:x为输入信号幅度,规格化成;

sgn(x)为x的极性;

为确定压缩量的参数,它反映最大量化间隔和最小量化间隔之比,取100

500。3.2脉冲编码调制(PCM)五、A律压扩

A律(A-Law)压扩(G.711) 0

|x|

1/A 1/A

|x|

1式中:x为输入信号幅度,规格化成-1

x

1;

sgn(x)为x的极性;

A为确定压缩量的参数,它反映最大量化间隔和最小量化间隔之比。

3.2脉冲编码调制(PCM)3.2脉冲编码调制(PCM)

G.711标准:话音频率脉冲编码调制(PulseCodeModulation(PCM)ofVoiceFrequences)。对于采样频率为8kHz,样本精度为13位、14位或者16位的输入信号,使用

律压扩编码或者使用A律压扩编码,经过PCM编码器之后每个样本的精度为8位,输出的数据率为64kb/s。3.3PCM在通信中的应用一、频分多路复用

频分多路复用(frequency-divisionmultiplexing,FDM)把传输信道的频带分成好几个窄带,每个窄带传送一路信号。每对用户仅占用其中的一个子信道。这是模拟载波通信的主要手段。例:频分复用

3.3PCM在通信中的应用二、时分多路复用

时分多路复用(time-divisionmultiplexing,TDM)把传输信道按时间来分割,为每个用户指定一个时间间隔,每个间隔里传输信号的一部分,这样就可以使许多用户同时使用一条传输线路。这是数字通信的主要手段。

例:时分复用3.3PCM在通信中的应用例如,话音信号的采样频率f=8000Hz/s,它的采样周期=125

s,在这个时间内在信道上传输多路语音信号,有24路(24个时间片和一个同步位)和30路标准(32个时间片),这些多路信号组成帧。3.3PCM在通信中的应用时分多路复用(TDM)技术在数字电话网中用“群(group)”这个术语来表示,现在传输容量已由一次群(基群)的30路(或24路),增加到二次群的120路(或96路),三次群的480路(或384路)

3.4增量调制与自适应增量调制

一、增量调制(DM)

增量调制也称△调制(deltamodulation,DM),它是一种预测编码技术,是PCM编码的一种变形。

DM是对实际的采样信号与预测的采样信号之差的极性进行编码,将极性变成“0”和“1”这两种可能的取值之一。由于DM编码只须用1位对话音信号进行编码,所以DM编码系统又称为“1位系统”。

3.4增量调制与自适应增量调制

3.4增量调制与自适应增量调制图中用i表示采样点的位置,x[i]表示在i点的编码输出。输入信号的实际值用yi表示,输入信号的预测值用y[i+1]=y[i]

△表示。假设采用均匀量化,量化阶的大小为△,在开始位置的输入信号y0=0,预测值y[0]=0,编码输出x[0]=1。当yi>y[i]时,x[i]=1,否则x[i]=0。

3.4增量调制与自适应增量调制“斜率过载”(slopeoverload)

:增量调制器的输出不能保持跟踪输入信号的快速变化。粒状噪声(granularnoise):在输入信号缓慢变化部分,即输入信号与预测信号的差值接近零的区域,增量调制器的输出出现随机交变的“0”和“1”。产生这种现象的原因是由于量化阶的大小是固定的。为了尽可能避免出现斜率过载,就要加大量化阶Δ,但这样做又会加大粒状噪声;相反,如果要减小粒状噪声,就要减小量化阶Δ。

3.4增量调制与自适应增量调制二、自适应增量调制(adaptivedeltamodulation,ADM)

为了使增量调制器的量化阶Δ能自适应,也就是根据输入信号斜率的变化自动调整量化阶Δ的大小,以使斜率过载和粒状噪声都减到最小。当检测到斜率过载时开始增大量化阶Δ,而在输入信号的斜率减小时降低量化阶Δ。1、输出值不变时,增大量化级50%,输出值改变时,减少量化级50%。2、连续出现三个相同的值,增大量化级,反之减少量化级。称为连续可变斜率增量调制(CVSD)3.5自适应差分脉冲编码调制

一、自适应脉冲编码调制(APCM)的概念

自适应脉冲编码调制(adaptivepulsecodemodulation,APCM)是根据输入信号幅度大小来改变量化阶大小的一种波形编码技术。

3.5自适应差分脉冲编码调制改变量化阶大小的方法有两种:1、前向自适应(forwardadaptation)

根据未量化的样本值的均方根值来估算输入信号的电平,以此来确定量化阶的大小,并对其电平进行编码作为边信息(sideinformation)传送到接收端。3.5自适应差分脉冲编码调制2、后向自适应(backwardadaptation)

从量化器刚输出的过去样本中来提取量化阶信息。3.5自适应差分脉冲编码调制二、差分脉冲编码调制(DPCM)的概念

差分脉冲编码调制DPCM(differentialpulsecodemodulation)是利用样本与样本之间存在的信息冗余度来进行编码的一种数据压缩技术。

其基本思想是,根据过去的样本去估算下一个样本信号的幅度大小,这个值称为预测值,然后对实际信号值与预测值之差进行量化编码,从而就减少了表示每个样本信号的位数。

3.5自适应差分脉冲编码调制DPCM结构图3.5自适应差分脉冲编码调制三、自适应差分脉冲编码调制(ADPCM)

ADPCM(adaptivedifferencepulsecodemodulation)的核心想法是:①利用自适应的思想改变量化阶的大小,即使用小的量化阶(step-size)去编码小的差值,使用大的量化阶去编码大的差值;②使用过去的样本值估算下一个输入样本的预测值,使实际样本值和预测值之间的差值总是最小。

3.5自适应差分脉冲编码调制ADPCM框图3.5自适应差分脉冲编码调制四、G.721ADPCM编译码器

ADPCM是利用样本与样本之间的高度相关性和量化阶自适应来压缩数据的一种波形编码技术,CCITT为此制定了G.721推荐标准,这个标准叫做32kb/s自适应差分脉冲编码调制——32kb/sAdaptiveDifferentialPulseCodeModulation

G.723作为G.721的扩充,将编码器的数据率降低到40kb/s和24kb/s

3.5自适应差分脉冲编码调制ADPCM编码器

“自适应量化器”用4位二进制数表示差分信号3.5自适应差分脉冲编码调制ADPCM译码器

3.5自适应差分脉冲编码调制

G.721ADPCM编译码器的输入信号是G.711PCM代码,采样率是8kHz,每个代码用8位表示,因此它的数据率为64kb/s。而G.721ADPCM的输出代码是“自适应量化器”的输出,该输出是用4位表示的差分信号,它的采样率仍然是8kHz,它的数据率为32kb/s,这样就获得了2∶1的数据压缩。

3.6G.722SB-ADPCM编译码器

G.722推荐标准,叫做“数据率为64kb/s的7kHz声音信号编码——7kHzAudio-codingwith64kb/s”。这个标准把话音信号的质量由电话质量提高到AM无线电广播质量,而其数据传输率仍保持为64kb/s。

3.6G.722SB-ADPCM编译码器一、子带编码(SBC)

子带编码(subbandcoding,SBC)的基本过程是:①使用一组带通滤波器(band-passfilter,BPF)把输入音频信号的频带分成若干个连续的频段,每个频段称为子带。②对每个子带中的音频信号采用单独的编码方案去编码。③在信道上传送时,将每个子带的代码复合起来。④在接收端译码时,将每个子带的代码单独译码,然后把它们组合起来,还原成原来的音频信号。3.6G.722SB-ADPCM编译码器子带编码方块图

3.6G.722SB-ADPCM编译码器采用对每个子带分别编码的好处有二个:第一,对每个子带信号分别进行自适应控制,量化阶(quantizationstep)的大小可以按照每个子带的能量电平加以调节。具有较高能量电平的子带用大的量化阶去量化,以减少总的量化噪声。第二,可根据每个子带信号在感觉上的重要性,对每个子带分配不同的位数,用来表示每个样本值。

3.6G.722SB-ADPCM编译码器音频频带的分割可以用树型结构的式样进行划分。首先把整个音频信号带宽分成两个相等带宽的子带:高频子带和低频子带。然后对这两个子带用同样的方法划分,形成4个子带。这个过程可按需要重复下去,以产生2K个子带,K为分割的次数。把音频信号分割成相邻的子带分量之后,用2倍于子带带宽的采样频率对子带信号进行采样,就可以用它的样本值重构出原来的子带信号。

3.6G.722SB-ADPCM编译码器

QMF分割频道方框图

正交镜象滤波器(quandrature

mirrorfilter,QMF)

3.6G.722SB-ADPCM编译码器二、子带-自适应差分脉冲编码调制(SB-ADPCM)

G.722是CCITT推荐的音频信号(audio)编码译码标准。该标准是描述音频信号带宽为7kHz、数据率为64kb/s的编译码原理、算法和计算细节。

G.722标准把音频信号采样频率由8kHz提高到16kHz,是G.711PCM采样率的2倍,因而要被编码的信号频率由原来的3.4kHz扩展到7kHz。这就使音频信号的质量有很大改善,由数字电话的话音质量提高到调幅(AM)无线电广播的质量。

3.6G.722SB-ADPCM编译码器3.6G.722SB-ADPCM编译码器

G.722编译码系统采用子带自适应差分脉冲编码调制(sub-bandadaptivedifferentialpulsecodemodulation,SB-ADPCM)技术。在这个系统中,用正交镜象滤波器(QMF)把频带分割成两个等带宽的子带,分别是高频子带和低频子带。在每个子带中的信号都用ADPCM进行编码。

3.6G.722SB-ADPCM编译码器7kHz音频信号64kb/s数据率的编译码方块图

3.7线性预测编码(LPC)的概念

线性预测编码

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论