第四讲 话音编码_第1页
第四讲 话音编码_第2页
第四讲 话音编码_第3页
第四讲 话音编码_第4页
第四讲 话音编码_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第3章教学进程话音编码3.4

数据压缩基本原理

■多媒体信息的数据量

■数据压缩条件

■数据冗余3.5

话音

数据压缩算法

■数据压缩算法分类

■音频信号压缩3.4.1多媒体信息的数据量3.4数据压缩基本原理●文本若1024×768显示分辨率、16×16点阵文字、4Byte/字,则一屏汉字的总数据量为:(1024/16)×(768/16)×4=12288Byte(12KB)●图像若采用1024×768显示分辨率,则满屏图像的总数据量为:1024×768×log2256÷8=786432Byte(768KB)●音频若采样频率为44100Hz,16bit(2Byte),立体声(2声道),则1分钟的总数据量为:44100×2Byte×2(STEREO)×60s=10336KB(10MB)教学进程数字化处理面临的主要问题是巨大的数据量3.4.2数据压缩条件●数据存在冗余(重复数据、可忽略数据)●数据传输与存储空间的限制(压缩→传输或存储→解压缩)■

45.1kHz/Stereo1.3MB■

22.0kHz/Nomo0.3MB■Stop重复数据可忽略数据●不敏感因素(颜色、亮度、频率、细节)224颜色(16,777,216色)28颜色(256色)教学进程3.4.3数据冗余●冗余基本概念●冗余——信息所具有的各种性质中多余的无用空间教学进程●什么是冗余?相同或者相似的重复信息可以在空间范围重复,也可以在时间范围重复可以是严格重复,也可以是以某种相似性重复分为统计冗余和心理视觉冗余两大类3.4.3数据冗余●冗余基本概念●冗余度——多余的无用空间的程度I=D-

duI—信息量D—数据量du—冗余量,包含在D中●信息量与冗余的关系●冗余举例播音员——180字/分钟,2Byte一个字,360Byte

(合0.35KB/分钟)音频数据——8kHz采样×8bit×60秒=3840KBit(合480KB/分钟)教学进程冗余分类P98●[1]空间冗余——规则物体的物理相关性[2]时间冗余——视频与动画画面间的相关性[3]统计冗余——具有空间冗余和时间冗余[6]视觉冗余——视觉、听觉敏感度和非线性感觉[7]知识冗余——凭借经验识别[4]结构冗余——规则纹理、相互重叠的结构表面[5]信息熵冗余——编码冗余,数据与携带的信息[8]其他冗余——上述7种以外的冗余10110001110010110001110001011010101010111100010111111010224色28色声音频率文字组句色彩渐变主观意识::教学进程●数据压缩的可能性(1)空间冗余静态图像中存在的最主要的一种数据冗余在同一幅图像中,规则物体和规则背景的表面物理特性具有相关性即对同一景物表面上采样点的颜色之间存在着空间连贯性例如:图像中一片连续的区域,其像素为相同的颜色—空间冗余●数据压缩的可能性(2)时间冗余序列图像(电视图像、动画)和语音数据中所经常包含的冗余一组连续的画面之间往往存在着时间和空间的相关性例如:唱歌的歌手●数据压缩的可能性(3)统计冗余是空间冗余和时间冗余的总称。在数据处理时,往往采用统计事件出现概率的办法来鉴别空间冗余和时间冗余,因此空间冗余和时间冗余具有统计特性。●数据压缩的可能性(4)结构冗余在某些场景中,存在着明显的分布模式——结构结构可以通过特定的过程来生成例如:方格状的地板,蜂窝,砖墙等●数据压缩的可能性(5)信息熵冗余信息熵:一组数据所携带的信息量。冗余的产生是因为:在信源符号的表示过程中未遵循信息论下最优编码而造成。通过熵编码进行压缩●数据压缩的可能性(6)视觉冗余可以根据这些视觉特性来对图象信息进行取舍人类的视觉系统对图像场的敏感性:非均匀和非线性的对亮度变化敏感,而对色度的变化相对不敏感在高亮度区,人眼对亮度变化敏感度下降对物体边缘敏感,内部区域相对不敏感对整体结构敏感,而对内部细节相对不敏感●数据压缩的可能性(7)知识冗余有许多图像的理解与某些基础知识有相当大的相关性这类规律性的结构可以由先验知识和背景知识得到例如:人脸的图像知识冗余是模型编码的基础3.4.4多媒体数据压缩的性能指标●压缩比●压缩性能常常用压缩比定义(输入数据和输出数据比)例:512×480,24bit/pixel(bpp)输出15000byte输入=737280byte压缩比=737280/15000=49教学进程节省图象或视频的存储容量,增加访问速度,使数字视频能在PC机上实现,需要进行视频和图象的压缩。有三个关键参数评价一个压缩系统:压缩比、图象质量、压缩和解压的速度,另外也必须考虑每个压缩算法所需的硬件和软件。3.4.4多媒体数据压缩的性能指标●压缩质量●压缩方法分为无损压缩和有损压缩,对于有损压缩:失真情况很难量化,只能对测试的图象进行估计。模拟图象质量的指标:信噪比、分辨率、颜色错,但必须在观察了实际图象以后。教学进程●压缩和解压速度●在许多应用中,压缩和解压可能不同时用,在不同的位置不同的系统中。所以,压缩、解压速度分别估计。静态图象中,压缩速度没有解压速度严格;动态图象中,压缩、解压速度都有要求,因为需实时地从摄像机或VCR中抓取动态视频。3.4.4多媒体数据压缩的性能指标●软硬件系统●有些压缩解压工作可用软件实现。设计系统时必须充分考虑:算法复杂-压缩解压过程长算法简单-压缩效果差教学进程目前有些特殊硬件可用于加速压缩/解压。硬接线系统速度快,但各种选择在初始设计时已确定,一般不能更改。因此在设计硬接线压缩/解压系统时必须先将算法标准化。3.2.13.5数据压缩算法数据压缩算法分类■无损压缩编码——压缩数据还原后,与原始数据一致,无损失无损压缩编码(可逆编码)霍夫曼编码行程编码算术编码词典编码■有损压缩编码——压缩后再还原的数据有损失有损压缩编码(不可逆编码)全频带编码PCM/ADPCM混合编码JPEG/MPEG教学进程●音频冗余主要表现为:时域冗余度频域冗余度3.5.23.5数据压缩算法音频信号的压缩编码●音频信号的编码方式:(1)波形编码,如PCM、APC、ATC等(2)音源编码(3)混合编码方法一般来说,波形编译码器的话音质量高,但数据率也很高;音源编译码器的数据率很低,产生的合成话音的音质有待提高;混合编译码器使用音源编译码技术和波形编译码技术,数据率和音质介于它们之间。3.5.33.5数据压缩算法脉冲编码调制(PCM)●概念

它仅仅是对输入信号进行采样和量化。在这个编码框图中,它的输入是模拟声音信号,它的输出是PCM样本。图中的“防失真滤波器”是一个低通滤波器,用来滤除声音频带以外的信号;“波形编码器”可暂时理解为“采样器”,“量化器”可理解为“量化阶大小(step-size)”生成器或者称为“量化间隔”生成器。3.5.33.5数据压缩算法脉冲编码调制(PCM)●量化声音数字化有两个步骤: 第一步是采样,就是每隔一段时间间隔读一次声音的幅度; 第二步是量化,就是把采样得到的声音信号幅度转换成数字值。●量化归纳成两类: 一类称为均匀量化 另一类称为非均匀量化●采用的量化方法不同,量化后的数据量也就不同。因此,可以说量化也是一种压缩数据的方法。均匀量化

如果采用相等的量化间隔对采样得到的信号作量化,那么这种量化称为均匀量化。均匀量化就是采用相同的“等分尺”来度量采样得到的幅度,也称为线性量化,如图3-08所示。量化后的样本值Y和原始值X的差E=Y-X称为量化误差或量化噪声。非均匀量化

无论对大的输入信号还是小的输入信号一律都采用相同的量化间隔。但是,对话音信号来说,大信号出现的机会并不多,增加的样本位数就没有充分利用。为了克服这个不足,就出现了非均匀量化的方法,这种方法也叫做非线性量化。非线性量化的基本想法是,对输入信号进行量化时,大的输入信号采用大的量化间隔,小的输入信号采用小的量化间隔采样输入信号幅度和量化输出数据之间定义了两种对应关系:μ律压扩(companding)算法,A律压扩算法。μ率压扩式中:x为输入信号幅度,规格化成;-1≤x≤1sgn(x)为x的极性;μ律(μ-Law)压扩(G.711)主要用在北美和日本等地区的数字电话通信中A率压扩式中:x为输入信号幅度,规格化成-1≤x≤1;sgn(x)为x的极性;A为确定压缩量的参数,它反映最大量化间隔和最小量化间隔之比。A律压扩的前一部分是线性的,其余部分与μ律压扩相同。A律(A-Law)压扩(G.711)主要用在欧洲和中国大陆等地区的数字电话通信中

0≤|x|≤1/A

1/A≤|x|≤1

3.5.33.5数据压缩算法增量调制(DM)●

概念

增量调制也称△调制(deltamodulation,DM),它是一种预测编码技术,是PCM编码的一种变形。PCM是对每个采样信号的整个幅度进行量化编码,因此它具有对任意波形进行编码的能力;DM是对实际的采样信号与预测的采样信号之差的极性进行编码,将极性变成“0”和“1”这两种可能的取值之一。如果实际的采样信号与预测的采样信号之差的极性为“正”,则用“1”表示;相反则用“0”表示,或者相反。由于DM编码只须用1位对话音信号进行编码,所以DM编码系统又称为“1位系统”。●

原理3.5.33.5数据压缩算法增量调制(DM)纵坐标表示“模拟信号输入幅度”,横坐标表示“编码输出”。用

表示采样点的位置,

表示在

点的编码输出。输入信号的实际值用

表示,输入信号的预测值用

表示。3.5.33.5数据压缩算法增量调制(DM)y[i+1]=y[i]±△ifx[i]=1则取“+”else则取“-”;y[i]为预测值,x[i]为输出值x[i]=1ify[i]≤y真[i]x[i]=0ify[i]>y真[i]初始值y[i]=0;△可以根据需要进行取值●

问题3.5.33.5数据压缩算法增量调制(DM)在开始阶段增量调制器的输出不能保持跟踪输入信号的快速变化,这种现象就称为增量调制器的“斜率过载”(slopeoverload)。在输入信号缓慢变化部分,即输入信号与预测信号的差值接近零的区域,增量调制器的输出出现随机交变的“0”和“1”。这种现象称为增量调制器的粒状噪声(granularnoise),这种噪声是不可能消除的。3.5.43.5数据压缩算法自适应增量调制(ADM)为了使增量调制器的量化阶Δ能自适应,也就是根据输入信号斜率的变化自动调整量化阶Δ的大小,以使斜率过载和粒状噪声都减到最小,许多研究人员研究了各种各样的方法,而且几乎所有的方法基本上都是在检测到斜率过载时开始增大量化阶Δ,而在输入信号的斜率减小时降低量化阶Δ。例如,宋(Song)在1971描述的自适应增量调制技术中提出:假定增量调制器的输出为1和0,每当输出不变时量化阶增大50%,使预测器的输出跟上输入信号;每当输出值改变时,量化阶减小50%,使粒状噪声减到最小,这种自适应方法使斜率过载和粒状噪声同时减到最小。又如,使用较多的另一种自适应增量调制器是由格林弗基斯(Greefkes)1970提出的,称为连续可变斜率增量调制(continuouslyvariableslopedeltamodulation,CVSD)。它的基本方法是:如果连续可变斜率增量调制器(continuouslyvariableslopedeltamodulator,CVSD)的输出连续出现三个相同的值,量化阶就加上一个大的增量,反之,就加一个小的增量。3.5.53.5数据压缩算法自适应脉冲编码调制(APCM)是根据输入信号幅度大小来改变量化阶大小的一种波形编码技术。自适应可以是瞬时自适应,即量化阶的大小每隔几个样本就改变,也可以是音节自适应,即量化阶的大小在较长时间周期里发生变化。

改变量化阶大小的方法有两种:一种称为前向自适应(forwardadaptation),另一种称为后向自适应(backwardadaptation)。

3.5.53.5数据压缩算法自适应脉冲编码调制(APCM)根据未量化的样本值的均方根值来估算输入信号的电平,以此来确定量化阶的大小,并对其电平进行编码作为边信息(sideinformation)传送到接收端。

前向自适应:3.5.53.5数据压缩算法自适应脉冲编码调制(APCM)从量化器刚输出的过去样本中来提取量化阶信息。由于后向自适应能在发收两端自动生成量化阶,所以它不需要传送边信息。

后向自适应:3.5.6差分脉冲编码调制(DPCM)是利用样本与样本之间存在的信息冗余度来进行编码的一种数据压缩技术。差分脉冲编码调制的思想是,根据过去的样本去估算(estimate)下一个样本信号的幅度大小,这个值称为预测值,然后对实际信号值与预测值之差进行量化编码,从而就减少了表示每个样本信号的位数。它与脉冲编码调制(PCM)不同的是,PCM是直接对采样信号进行量化编码,而DPCM是对实际信号值与预测值之差进行量化编码,存储或者传送的是差值而不是幅度绝对值,这就降低了传送或存储的数据量。此外,它还能适应大范围变化的输入信号。3.5数据压缩算法3.5.6差分脉冲编码调制(DPCM)3.5数据压缩算法3.5.6差分脉冲编码调制(DPCM)3.5数据压缩算法差分信号d(k)是离散输入信号S(K)和预测器输出的估算值Se(k-1)之差。注意,Se(k-1)是对S(K)的预测值,而不是过去样本的实际值。DPCM系统实际上就是对这个差值进行量化编码,用来补偿过去编码中产生的量化误差。DPCM系统是一个负反馈系统,采用这种结构可以避免量化误差的积累。重构信号是由逆量化器产生的量化差分信号,与对过去样本信号的估算值求和得到。它们的和,即作为预测器确定下一个信号估算值的输入信号。由于在发送端和接收端都使用相同的逆量化器和预测器,所以接收端的重构信号可从传送信号获得。3.5.6差分脉冲编码调制(DPCM)3.5数据压缩算法d=S(K)-Se(k-1)d(k)量化dSr(k)=Se(k-1)+dq(k)误差来源:d与d(k)之间的差异是误差,原因?表达式:3.5.7自适应差分脉冲编码调制(ADPCM)3.5数据压缩算法①利用自适应的思想改变量化阶的大小,即使用小的量化阶(step-size)去编码小的差值,使用大的量化阶去编码大的差值;②使用过去的样本值估算下一个输入样本的预测值,使实际样本值和预测值之间的差值总是最小。

核心想法:3.5.7自适应差分脉冲编码调制(ADPCM)3.5数据压缩算法原理图3.5.8线性预测编码(LPC)3.5数据压缩算法LPC是通过分析话音波形来产生声道激励和转移函数的参数,对声音波形的编码实际就转化为对这些参数的编码,这就使声音的数据量大大减少。在接收端使用LPC分析得到的参数,通过话音合成器重构话音。合成器实际上是一个离散的随时间变化的时变线性滤波器,它代表人的话音生成系统模型。时变线性滤波器既当作预测器使用,又当作合成器使用。

3.5.8线性预测编码(LPC)3.5数据压缩算法=线性

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论