语音编码总结_第1页
语音编码总结_第2页
语音编码总结_第3页
语音编码总结_第4页
语音编码总结_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、语音编码总结一、历史与概念1、模拟的声音信号话音信号:(口语发声的)200Hz3400Hz调幅广播信号:(无线广播)50Hz到7000Hz调频广播信号:(无线广播)20Hz到16000Hz激光唱机信号(CD):10Hz20000Hz2、话音编码技术的历史回顾 话音编码研究的历史表明,这一领域的研究成果直接为通信产业发展提供了源动力。目前IP电话所用的编码的标准有G.723.1, G.728, G.729。具有低延迟、低码率、低复杂性、高音质的话音编码算法将是未来IP电话网络的奠基石。 3、若干概念术语(1)数字信号:标称的不连续信号。它可以用离散的步差从一个状态转变到另一个状态。(2)采样:按

2、周期T对模拟信号进行测量,称为采样。采样频率Fs=1/T.在满足奈奎斯特定理时,从采样值可准确的恢复原信号。(3)量化用数字信号表示话音的过程称为量化。(4)非均匀量化 非均匀量化可以兼顾动态范围和小信号的系统精度。Reeves提出概念。即对大信号取较大的量化步长。对小信号取较小的量化步长。二、矢量量化 将k个样点构成的有序集(信源矢量集合)映射为M个恢复失量构成的有限集A(码书,码本)中的某个矢量Yi(码字,码元)的映射,称为矢量量化,它是对标量量化在K维空间的一个推广。标量量化 矢量量化 量化对象 单个采样点 K个采样点 集合划分 

3、;在一维幅度轴上划分有限个区间 1=a0 a1)Dn=an-1 an)在k维空间里,划分成有限个子空间S=Si|i=1,2,M 量化过程 在每个区间里,选一个代表值 fiÎDi  I=1,2,n在每个子空间里,选一个代表矢量Yi=Yi1,Yi2,Yii  Yi ÎSi  i=1,2,M量化方法 对任一模拟信号,当其标称 值 属于区间Di时,就用数字信号fi代表值 对任一k维模拟信号的矢量。 当其标

4、称值属于子区间Si时,就用代表矢量Yi去量化之。 1、 码本设计的LBG方法(1)在矢量空间X中,进行最佳划分,即,把X划分成M个子空间Si i=,1.2.m 使平均失真最小。(2)对划分后的子空间Si求出其形心作为新的最佳代表矢量Yi,从而构成新的码本。将上述步骤反复迭代,最终求出最佳码本和量化器。(3)初始码本的选择:A、随机选取,迭代时间较长B、分裂法(4)LBG方法不是最优化方法,即迭代过程不能保证收敛到全局最小值。 后来有人提出模拟退火法,将LBG方法收敛到局部最小值时,采用某种扰动将迭代过程继续进行下去。 2、空间分布对矢量量化的影响LBG算法把问题简化为:在矢量空间中,

5、样点的分布是均匀的。但实际的应用场合往往不满足这个前提。因此应考虑空间分布,空间分布对量化值的选择有很重要的影响。对矢量的情况,影响依然存在。3、语音编码方案的三种类型 语音编码的主要任务:对量化的话音信号施加某种数字变化,使其具有适于数字信道传输的形式,同时尽可能多信号所承载的信息。话音信号的剩余度主要表现在三个方面:(1)相邻样点存在较强的相关性(2)对浊音信号存在周期(准周期)性(3) 信号短时平稳,时不变性 此外,人类听觉对话音有选择效应,即当一个强音与一个弱音同时存在时,人类听觉能够自动抑制弱音的效果,称为人耳的“掩蔽效应”。这些是话音压缩编码的出发点。3.1 波型编码:对话音信号的

6、每一个样点进行量化、编码和传输。 因此,波型编码是没有延迟的话音编码方案。3.1.1 差值脉码调制(DPCM和-调制) 一位的DPCM系统成为-调制或增量调制DM。流程图如下: 这里,表示对应的量化值,上标 表示对应的预测值,用 ei 表示差值di的量化误差。收端恢复的量化信号只与差值信号的量化误差有关,而与预测器性质无关。(1)当信号变化快时,恢复波形跟不上信号的变化,称为”斜率过载“(2)对于零信号,DM方法交替输出一串0和1,这种随机交变电平成为“颗粒噪声”。解决办法是在量化器引入自适应阶矩调整机制(ADM)。如果自适应调整依据输入信号,称为前向自适应。如果自适应调整依据是量化器输,称为

7、后向自适应。前向自适应将导致延迟的产生,后向自适应有可能不稳定。 3.1.2 连续可变斜率增量调制(CVSD)其原理可用下图说明: 当反馈回路中,出现连续四个“1”或连续四个“0”时,表明系统出现斜率过载的情况,此时或门输出一个高电平,驱动触发器改变量化的阶矩的大小,以便适应输入信号的变化。3.1.3 自适应差值脉码调制(ADPCM)PCM:非均匀量化。D:调制。差值调制。CVSD:自适应概念 将脉码调制、差值调制和自适应技术三者结合起来。使编码算法不仅适用于幅值起伏较大的话音信号,而且能很好的适合于平稳信号(如话带数据)。3.1.4信息压缩的基本思路1、信息与消息(1)消息是由符号、数字、文

8、字或语言组成的序列。(2)信息是消息中不确定的内容。消息是信息的载体,信息是消息的内含。由于信息是消息中承载的不确定性因素(差别、变化、区别等),因此必然与通信双方的知识(约定)有关。越少见的事件,其出现带来的信息越多2、信息压缩的主要手段(1)减少不确定性差值编码:相当于用前一个值来预测当前值,引出线性预测的概念(2)通信双方建立某种知识约定,如码书或算法(3)对变化的规律、不确定性因素建立描述机制或学习机制 3.2 参数编码就是对每帧语音信号,将滤波器系数和残差e(n)分别进行量化编码。由于e(n)的平均能量和幅度变化范围远远小于信号s(n),因此在信噪比相同的条件下,可以用较少的比特对其

9、编码。参数编码时,将激励按清音、浊音分成高斯随机白噪声或准周期信号。倒谱参数C(n)构成的同态声码器,用共振峰参数构成的共振峰声码器,都是参数编码方法。1、基音提取:并联基音提取方法。(1)短时平均幅度差函数AMDF(2)中心削波法是对信号的一个非线性变换:式中,Cl称为削波电平,它取信号最大值Smax的一个百分比(3080)(3)三电平中心削波函数用YS(n)表示三电平中心削波器的输出,在自相关函数中有用三电平中心削波信号计算自相关函数,找到自相关函数最大值,并将峰值与一个固定门限例如Rn(0)的1/3比较,如果低于门限判为清音,如果高于门限则最大峰位置判为基音周期。2、并联基音提取基本方法

10、原理:(1)先对信号进行处理产生若干冲激串,冲激串只保留原始信号的周期性而去除了与基音检测无关的信息。(2)估计每个冲激串的周期。(3)对这些周期进行逻辑判断,最后确定语音信号的周期,将进过低通滤波的信号按如下原则求出六个冲激串3.3 混合编码 波形编码音质好但码率高,参数编码可以获得很低的码率但音质不好,为了兼顾二者的长处和不足,提出了残差激励模型,多脉冲激励模型和码激励模型。此外,对LPC参数模型也提出了噪声加权整形技术和长时预测滤波器等方法。1、混合编码中的新技术(1)长时预测滤波器浊音信号存在准周期性,当用滤波器描述语音信号时,残差序列e(n) 保留着中准周期性。为此,用一个称为长时预

11、测滤波器的B(z)来去除这种准周期性。式中M是对应于基音周期的样点数。I根据滤波器阶数一般取0或1。残差e(n)经B(z)滤波器滤波后将得到更加白化的噪声谱。 2、噪声整形 信号经短时长时滤波后,噪声谱一般是平坦的。由于在两个共振峰之间,信号谱低于噪声谱,因此尽管总的信噪比是高的,但在阴影区域对应的频率上,噪声能明显被人耳感觉到。采用噪声谱变形后,总的信噪比有所降低,但在所有频率上信号的能量大于噪声的能量,由于人耳的选择性,可以形成对噪声的听觉屏蔽效应,所以采用噪声整形。3、合成分析法(Analasys By Sythesis A-B-S) 波形编码器内一般要嵌入一个解码器,使得解码信号与原始

12、信号作差,提供一个比较信息或形成后向自适应。在参数编码时也用这一类方法,将合成信号与原始信号作差(加权)并比较,以次为依据进行参数修正或选择激励,这种方法称为A-B-S。LPC编码方法的二元激励模型过于简化。(1)多脉冲激励线性预测编码器 MPLPC的关键问题是,如果一帧中允许用M个激励脉冲,如何求出这M个脉冲的位置和幅度,使得合成语音与原始语音的感觉加权均方误差最小。用自相关法求出短时滤波器A(z)后经听觉加权处理,其冲击响应为:它们激励综合滤波器合成语音信号为: (2) 规则脉冲激励线性预测编码器(RPE-LPC)规则脉冲是多脉冲的一种,即脉冲间隔固定的多脉冲激励。对于规则脉冲激

13、励,算法可以简化。其结构图如下:规则脉冲是让原始语音经短时滤波后的信号r(n)与激励信号作差,然后对感觉加权后的差值信号求均方误差最小来确定最佳激励。 规则脉冲激励的问题是A、确定规则脉冲最佳的相位 B、为每个非零脉冲确定一个幅度。(4)码激励 CELP通过LPC分析去除信号的短时相关性,再用长时基音分析去除基音周期性,得到的是信号具有高斯白噪声特性。(5)G.728 低延迟码激励话音编码算法(LD-CELP)A、特点 a、每5个样点为一帧,延迟为0.625msb、采用50阶LPC滤波器,不用长时预测和基音检测c、50阶LPC滤波器参数每4帧(20个样点,2.5ms)更新一次,具有时变参数特性

14、d、3位增益码书,7位波形码书的结构,增益码书与波形码书分别有0.5位冗余e、采用后向滤波技术,因此不传递参数信息,只传递激励信息f、采用对数增益滤波技术,有效地降低码书尺寸B、G.728原理可归纳为一个判据 ,三个模块。1) 判据2) LPC分析模块:3) 包括四个滤波器:a. 50阶综合滤波器 b. 10阶感觉加权滤波器 c. 10阶对数增益滤波器 d. 10阶后滤波器(6)G.729:共轭结构的代数码激励 CS-ACELP G.729编码器属于CELP型编码器,帧长为10ms,采样率为8kHz。通过对输入语音信号进行分析,提取出CELP模型参数,包括线性预测滤波器系数、自适应码书和代数码

15、书的标号和增益,将这些参数编码后发往解码器。 A、编码器原理框图 B、解码器原理 解码器对接收到的码流进行解码,得到对应的编码器参数,利用这些参数,构成重建语音,再将重建语音送给后处理级,后处理级包括基于长时和短时合成滤波器的后滤波器,后面跟有一个高通滤波器和幅度调节单元。 C、加窗LP分析窗由两部分组成:第一部分是半个哈明窗,第二部分是四分之一个余弦函数窗D、感觉加权滤波器滤波器系数ai是通过对输入语音进行LP分析而得到的,ai值每帧更新一次,以达到加权的作用。E、开环基音分析为降低搜索闭环基音的复杂性,可以先把搜索范围限制在开环基音Top附近。开环基音延迟是对加权输入语音信号sw(n)进行分析得到的,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论