




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第10章语音编码(1)—波形编码概述及分类脉冲编码调制PCM预测编码及其自适应APC自适应差分脉冲编码调制ADPCM及自适应增量调制ADM子带编码SBC自适应变换编码ATC概述语音编码:SpeechCoding,在语音通信及人类信息交流中占举足轻重的地位。研究对语音信号进行压缩传输、存储等内容。目前数字通信得以广泛应用,语音编码是将模拟语音数字化的手段。将语音信号编码为二进制数字序列,最简单的方法是对其直接进行模/数变换;只要取样率足够高,量化每个样本的比特数足够多,则可以保证解码恢复的语音信号有很好的音质,不会丢失有用信息。然而对语音信号直接数字化所需的数码率太高,例如,普通的电话通信中采用8kHz取样率,如用12bit进行量化,则数码率为96kbit/s。这样大的数码率即使对很大容量的传输信道也是难以承受的,因而必须对语音信号进行压缩编码。
概述语音编码目的:在保持可以接受的失真的情况下,采用尽可能少的比特数表示语音,即减少传输码率或存储量。编码后同样的信道容量能传输更多路的信号,因而这类编码又称为压缩编码,压缩编码需要在保持可懂度与音质、降低数码率和降低编码过程的计算代价三方面折衷。传输码率:也称为数码率,指传输每秒钟语音信号所需要的比特数。波形编码语音编码分类:波形编码,WaveformCoder;
参数编码,ParametricCoder;
混合编码,HybridCoder特点:针对语音波形进行编码,尽量保持输入波形不变,即恢复的语音信号基本上与输入的语音信号波形相同。优缺点:具有适应能力强、语音质量好等优点,缺点是需要的编码速率高。典型的编码方式:脉冲编码调制PCM、自适应差分脉冲编码调制ADPCM、子带编码SBC等。在16-64kbit/s的数码率上能给出高的编码质量,当数码率进一步降低时,其性能下降较快。声码器:即参数编码特点:先对语音信号进行分析,提取出其参数,对参数进行编码,解码后这些参数重新合成出重构的语音信号。力图使重建的语音信号具有尽可能高的可懂度,而不必保持波形的一致。
优缺点:优点是编码速率低,可以低到2.4kbps甚至以下,缺点是合成语音质量差,特别是自然度低,处理复杂。典型的编码方式:如通道声码器、相位声码器、同态声码器、线性预测声码器等。混合编码特点:上述两类方法的有机结合,与参数编码相同的是,它也是基于语音产生模型的假定并采用了分析合成技术,但同时它又利用了语音的时间波形信息,增强了重建语音的自然度,使得语音质量有明显的提高,代价是编码速率相应上升,一般在16-2.4Kbps之间。典型的编码方式:多脉冲激励线性预测编码MPLPC、规则脉冲激励线性预测编码RPE-LPC、码本激励线性预测编码CELP等按传输码率分类高速率语音编码:速率32kbit/s以上,PCM,64kbit/s,主要用于公用电话网;中高速率语音编码:速率16-32kbit/s,ADPCM,32kbit/s,主要用于公用网;中速率语音编码:速率4.8-16kbit/s,GSM用的RPE/LTP13kbit/s、VSELP,8kbit/s主要用于数字移动通信话音邮件;低速率语音编码:速率1.2-4.8kbit/s,CELP,4.8kb/s、LPC,1.2kb/s,主要用于保密话音;极低速率语音编码:速率1.2kbit/s以下脉冲编码调制PCM波形编码方式的最简单形式是脉冲编码调制(Pulsecodemodulation,简称PCM)。它直接把语音信号进行采样量化,表示成二进制数字信号,并通过并-串转换过程转换成串行的脉冲,并用脉冲对采样幅度进行编码,以便于传输和存储。
它没有利用语音信号的冗余度,所以信号没有得到压缩,编码效率很低。一般,PCM有均匀PCM、非均匀PCM和自适应PCM几种形式模拟语音信号数字语音编码抗混叠滤波采样量化编码A/D转换1.均匀PCM:不论信号幅度的大小,它都采用同等的量化阶距进行量化,即采用均匀量化。2.非均匀PCM:从观测到的语音信号概率密度可知,语音信号大量集中在低幅度上。因而,可以利用非均匀量化来弥补均匀量化的缺点。非均匀量化的基本思想是对大幅度的样本使用大的,对小幅度的样本使用小的;在接收端按此还原。
PCM的量化方式均匀量化与非均匀量化
国际上采用两种非均匀量化方法:A律和
律改变量化阶大小的方法有两种:一种称为前向自适应(forwardadaptation),另一种称为后向自适应(backwardadaptation)。3.自适应PCM(APCM):
PCM在量化间隔上存在矛盾:为适应大的幅值要用大的,但为了提高信噪比又希望用小的。除了前面介绍的非均匀量化外,还有一种是采用自适应方法,称为自适应PCM
(adaptivePCM,简称APCM)。
自适应脉冲编码调制(APCM)是根据输入信号幅度大小来改变量化阶大小的一种波形编码技术。这种自适应可以是瞬时自适应,即量化阶的大小每隔几个样本就改变,也可以是音节自适应,即量化阶的大小在较长时间周期里发生变化。前向是指(n)是由估计输入信号而得到的,而后向是指由估计量化器的输出前向自适应是根据未量化的样本值的均方根值来估算输入信号的电平,以此来确定量化阶的大小,并对其电平进行编码作为边信息(sideinformation)传送到接收端。其特点是使用原始信号提取预测系数,精度比较高,预测的效果好。但是需要将预测器系数用边信息传送到接收端的解码器,从而减小了差值信号量化的有效比特数,处理的延时比较大。后向自适应是从量化器刚输出的过去样本中来提取量化阶信息。由于后向自适应能在发收两端自动生成量化阶,所以它不需要传送边信息。后向自适应预测利用量化后的信号提取预测信号,避免了前向自适应预测的缺点,但是由于存在量化噪声,使得预测系数的提取精度收到一定的影响。预测编码及其自适应APC在第六章中我们详细讨论了线性预测分析原理,利用线性预测可以改进编码中的量化器性能,因为预测误差e(n)的动态范围和平均能量均比信号x(n)小,如果对e(n)进行量化和编码,则量化bit数将减少。在接收端,只要使用与发送端相同的预测器,就可恢复原信号x(n)。
基于这种原理的编码方式称为预测编码(predictivecoding,简称PC)
当预测系数是自适应随语音信号变化时,又称为自适应预测编码(AdaptivePC,简称APC)。
语音数据流一般分为1020ms相继的帧,而预测器系数(或其等效参数)则与预测误差一起传输。
在接收端,用由预测器系数控制的逆滤波器再现语音。采用自适应技术后,预测器P(z)要自适应变化,以便与信号匹配。
自适应差分脉冲编码调制ADPCM及自适应增量调制ADM在DM中,与量化阶梯相比,当语音波形幅度发生急剧变化时,译码波形不能充分跟踪这种急剧的变化而必然产生失真,这称为斜率过载。
相反地,在没有输入语音的无声状态时,或者是信号幅度为固定值时,量化输出都将呈现0、1交替的序列,而译码后的波形只是的重复增减。这种噪声称为颗粒噪声,它给人以粗糙的噪声感觉。
为了减少斜率过载失真,必须把设计得大一些;但是过大,又增加了颗粒噪声。因此,兼顾两方面要求,需按均方量化误差为最小(即使两种失真均减至最小)来选择。
即采用随输入波形自适应地改变大小的自适应编码方式,使值随信号平均斜率而变化;斜率大时,自动增大;反之则减小。这就是自适应增量调制(Adaptive,DM,简称ADM)。
2.自适应增量调制ADM引入自适应技术后、ADM大约可增多10dB的增益。实验表明,取样率为56kHz时ADM具有与取样率为8kHz时的7bit对数PCM相同的语音质量。
差分脉冲编码调制DPCM
降低传输比特率的一种方法是减少必须编码的信息量,这要利用语音信号中大量的冗余度。在相邻的语音样本之间存在着明显的相关性,因此,对相邻样本间的差信号(差分)进行编码,便可谋求信息量的压缩,因为差分信号比原语音信号的动态范围和平均能量都小。这种编码称为差分脉冲编码调制(DifferentialPCM,简称DPCM)。
DPCM实质上是预测编码APC的一种特殊情况,是最简单的一阶线性预测,即
A(z)=1–a1z-1
当a1=1时,被量化的编码是e(n)=x(n)-x(n-1)
DPCM编码的原理由于a1是固定的,显然它不可能对所有讲话者和所有语音内容都是最佳的,如果采用高阶(p>1)的固定顶测,改善效果并不明显;比较好的方法是采用高阶自适应预测。采用自适应量化及高阶自适应预测的DPCM称为ADPCM,它本质上也是一种APC。
CCITT(国际电报电话咨询委员会)在1984年提出的32kbit/s编码器建议(G.721),就是采用ADPCM作为长途传输中一种新的国际通用语音编码方案。这种ADPCM可达到标准kbit/sPCM的语音传输质量,并具有很好的抗误码性能。
子带编码SBCs(n)发信码子带编码(Sub-BandCoding,简称SBC)也称为频带分割编码
首先使用带通滤波器组将语音信号分割成若干个频段也称为子带,然后用调制的方法对滤波后的信号即子带信号进行频谱平移变成低通信号(即基带信号),以利于降低取样率进行抽取;再利用奈奎斯特速率对其进行取样,最后再进行编码处理。而信号的恢复按与上面完全相反的过程进行。
收信码sr(n)SBC解码器SBC的优点是对应于人的听觉特性,可以比较容易地考虑噪声的抑制;即各子带可以选用不同的量化参数以分别控制其信噪比,满足主观听觉的要求。
例如,由于语音能量的不平衡,对于含有基音频率和第一共振峰的低频部分,对语音清晰度等主观品质影响较大,应分配比较多的信息、量化细些;反之,高频部分的量化就可粗些。
这样,可以减少量化噪声对听觉的妨害程度,整体上也能降低比特数。另外,量化噪声只能出现在各被分割的频带内,对其他频带没有任何影响,所以可以较容易地控制噪声谱。
各子带的带宽可以是相同的也可以是不相同的,相同的称为等带宽子带编码,不同的称为变带宽子带编码。正交镜像滤波器组自适应变换编码ATC第11章语音编码(2)-声码器技术及混合编码
参数编码也称为模型编码。它是对语音信号建立模型,然后对模型参数或是语音的特征参数进行编码,力图使重建语音信号在听觉上具有尽可能高的清晰度和可懂度。线性预测声码器:应用最成功的低速率参数语音编码器。线性预测分析器编码器音调检测器线性预测合成器解码器信道LPC声码器框图§11.1线性预测声码器与利用线性预测的波形编码不同的是它的接收端不再利用残差,即不具体恢复输入语音的波形,而是直接利用预测系数等参数合成传输语音。LPC有作为预测器和作为模型的双重作用。LPC参数的变换和量化变帧率LPC声码器充分利用了语音信号在时域上的冗余度,尤其是元音和擦音在发音过程中都有缓变的区间,描述这部分区间的语音不必像一些快变语音那样用很多比特的信息量。语音信号是非平稳的时变信号,波形变化随时间而不同。(清音至浊音的过渡段,语音特性变化剧烈,理论上应用较短的分析帧,要求LPC声码器至少每隔10ms就发送一帧新的LPC参数;而对于浊音部分,在发音过程中有缓变的区间,语音信号的频谱特性变化很小,分析帧就可以取长些;在语音活动停顿情况下更是如此。)因而可以采用变帧速率的编码技术来降低声码器的平均传输码率。实现思路:帧长可保持恒定,不必将每帧LPC参数都去编码和传送,合成部分所需的参数可以通过重复使用其前帧参数或内插的方法获得,可降低平均传码率。关键问题:需要一种度量方法来确定当前帧参数和上一帧参数之间的差异(距离)。§11.2LPC-10编码器
§11.3语音信号的混合编码20世纪80年代后期,综合了参数编码低比特率与波形编码高语音质量优点的混合编码得到广泛的使用。最为典型的就是CELP模型。它在比特率为4-16Kbps时已经可以得到比其他算法更高的重建语音质量。得到最广泛应用的是LPAS(基于线性预测技术的分析-合成编码方法),通过线性预测确定系统参数,并通过闭环或分析-合成方法来确定激励序列。短时预测器:分析语音信号的共振峰结构(谱包络)长时预测器:分析语音信号的基音结构感知加权滤波器:使得量化误差能被高能量的共振峰所掩盖。激励信号依据MSE选择3种最常见的分析-合成线性预测编码算法分别是:多脉冲线性预测算法(MP-LPC)规则脉冲激励线性预测编码(RPE-LPC)码激励线性预测编码(CELP):具有较高质量的合成语音和良好的抗噪性和多次复接能力,近年很多声码器基于该模型。传统的LPC声码器采用的是二元激励,它将激励源分为清音和浊音;CELP的主要改进是采用矢量量化技术对激励信号编码,将事先经过训练得到的一组码矢量组成一个码本,然后对每一帧语音信号从这组码本中选出一个在感知加权误差最小意义上的最佳码矢作为激励源。用一个固定的随机码本中的码矢量来逼近语音经过短时、长时预测后的余量信号。用一个自适应码本中的码矢量来逼近语音的长时周期性(基音)结构;+码本++误差最小化VQ索引CELP编码器示意图CELP模型编码仍基于语音的短时特性,采用LAPS与矢量量化。在编码类型上,既采用了类似声源模型的语音合成方法,又做了波形的最佳匹配,所以同时具有参数编码与波形编码的特征,故称为混合编码。
§11.4现代通信中的语音信号编码方法当前语音编码的研究主要致力于如何在较低数据速率的条件下提高声码器的语音质量使之尽量接近有线话音质量。目前的CDMA系统中,基于RCELP算法的EVRC算法在语音质量与比特速率间取得了很好的平衡,且适用于变速率编码,抗干扰能力也令人满意,从而得到了极为广泛的应用。§7.6.1EVRC算法基本原理EVRC采用8kHz采样频率的16bit线性PCM信号作为输入信号,以20ms(即160个采样点)为一帧进行编解码。根据输入信号的特点来选择编码速率——变速率编码——平均比特速率低于8kbps。最后编码结果的比特速率为8.5kbps(全速率),4kbps(半速率)或0.8kbps(1/8速率)。EVRC使用了3种类型的参数来表征语音模型——线性预测系数、基音参数、激励信号。每一个20ms帧中,它产生10个LP系数,并根据编码速率采用不同精度的矢量量化,并采用相应的比特数表达。基音周期估计:采用两步法,先在20ms内开环搜索得到一个最佳基音周期,然后线性内插得到基音曲线,最后用自适应码本来映射长时相关性。这样可减小基音的比特速率。激励信号:EVRC采用代数码本。+共振峰合成滤波器自适应码本固定码本随机码矢量增益自适应码矢量增益基音周期固定码本索引XXEVRC语音合成示意图EVRC编码器示意图信号处理LPC参数短时残差1&1/2速率编码1/8速率编码数码率判别长时延迟估计&增益Rate采样信号Rate滤波,降噪§7.6.2EVRC算法概述EVRC编码器示意图预处理LPC参数短时残差1&1/2速率编码1/8速率编码数码率判别长时延迟估计&增益Rate采样信号Rate滤波,降噪经8kHz采样,16bit量化后得到的线性PCM信号s(n)首先被送到预处理模块。在这里经过三级二阶Butterworth滤波器(截止频
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年03月成都市“蓉漂人才荟”成都高新区公开考核公开招聘10名事业单位工作人员笔试历年典型考题(历年真题考点)解题思路附带答案详解
- 2025年03月吉林省总工会《今天》杂志社笔试历年典型考题(历年真题考点)解题思路附带答案详解
- 高级信息系统项目管理师综合知识押题密卷2
- 阜新高等专科学校《暖通空调工程施工》2023-2024学年第二学期期末试卷
- 暨南大学《体育测量评价》2023-2024学年第二学期期末试卷
- 中国科学院大学《规范写作B》2023-2024学年第一学期期末试卷
- 江阳城建职业学院《公共关系与沟通技巧》2023-2024学年第二学期期末试卷
- 上海民航职业技术学院《ROS机器人基础》2023-2024学年第二学期期末试卷
- 交流调频调压牵引装置项目风险分析和评估报告
- 林州建筑职业技术学院《建筑设计2》2023-2024学年第二学期期末试卷
- 音乐鉴赏与实践 第一单元第四课音乐的力量(下)
- 生产设备操作指南
- 中职职教高考文言文课文及翻译
- 公司事故隐患内部报告奖励机制
- 年九年级语文上册 第三单元 11《醉翁亭记》教案 新人教版五四制
- 家禽委托屠宰合同协议书
- 2024年全国职业院校技能大赛高职组(法律实务赛项)考试题库(含答案)
- 2024年度成都市人事考试工作高频考题难、易错点模拟试题(共500题)附带答案详解
- 康复医院建筑设计标准征求意见稿
- 酒店式公寓开发财务分析实例
- JJF 2122-2024机动车测速仪现场测速标准装置校准规范
评论
0/150
提交评论