下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、语音信号编码语音信号编码类别:无线通信早期的语音信号处理及传输均是以模拟的方式进行的。20世纪30年代末脉冲编码调制(PCM,Pulse Code Modulation)原理和声码器(Vocoder)概念被提出后,语音数字编码便一直沿着这两个方向发展。语音数据压缩目的是能在尽可能低的传输速率上获得高质量的语音效果,即希望语音信号可以在带宽较窄的信道中传输而语音质量下降的不多或尽可能不下降。语音编码系统早期用的是波形编码方法,也叫波形编码(或非参数编码),其目的是力图使重建的语音波形保持原语音信号的波形形状。这种编码器是把语音信号当成一般的波形信号来处理,而并未考虑语音信号的冗佘度。它的优点是具
2、有较强的适应能力,有较好的合成语音质量,然而编码速率高(64Kbits),编码效率极低。脉冲编码调制(PCM)、自适应增量调制(ADM)、自适应差分编码(ADPCM)、自适应编码(APC)等都是属于波形编码(非参数编码)。而声码器则是不同于波形编码器的高效编码方式。声码器又称参数编码(或模型编码),它主要是对提取的语音信号特征参数进行编码,目的主要是使重建的语音信号具有尽可能高的可懂度,而不是要求重建波形保持原语音波形的形状。因此,可能出现的情况是即使重建语音的可懂度高,但其时域波形与原语音的时域波形有较大的差别。这种编码器的优点是可达到极低的编码速率而语音依然可懂,编码速率可达到8Kbits
3、、48Kbits甚至更低。主要缺点是重建语音自然度低,韵律感差,合成语音质量差。声码器的典型代表是通道声码器、共峰声码器及线性预测声码器等。 20世纪80年代至今,不仅声码器和波形编码器得到了很大发展,并且还有一种全新的革命性编码方法被普遍推广,这类编码器叫混合编码器。这种编码器在传送器中对给定编码结构的所有可能性进行综合,找出输人语音的最好编码形式,并从这些可能性中发现输入语音的最优主观匹配,然后用数码表示这种主观匹配并发送到接收器。利用线性预测、VQ、ABS、感觉加权、后滤波等技术得到的多脉冲激励线性预测(MPELP,Multi Pulse Enspirit LinePrognostica
4、te),规则脉冲激励线性预测(RPELP,Rule Pulse Enspirit Line Prognosticate),码本激励线性预测(CELP,Code Enspirit Line Prognosticate) 编码速率达到816Kbits甚至更底,其话音质量高、编码速率低,但算法复杂。 近年来,ITUT在多媒体数字通信方面(包括电视会议等)制定了一系列国际标准(按ITU的说法是建议)。 表1 ITUT多媒体会议标准(基本模式) 在现有的网路设施条仵下,H320和H323比较适用的标准。H320的基本音频模式是G711 log-PCM(对数脉码调制)编码解码器,它是一种简单的8kHz采样
5、频率对数脉码调制模式,长期以来它都是数字电话网络主要的编码方法(长途电话尽管起源于模拟电话,现在长途电话在数字网络上传输)。 G711定义为8位编码,速率为64Kbits,但在H320中采样截短为6或7比特位,因为速率相应变为48Kbits或56Kbits。G711提供了出色的长话音质窄带(3kHz音频带宽)语音、不太明显的编解码延迟(低于1ms)以及非常低的实现复杂性。为了提供与普通G711音频电话的兼容性,所有的H320呼叫在H221 FAS和BAS信道中进行同步初始化和模式协商时开始发送和接收G711音频。 G711有很多优点,但是G711指定了两个不同的编码A律和律,在采用G711标准
6、的区域,不同地方使用上述两种不同的方法。CCITT不能达成统一的编码方法。结果是H320系统必须由远端在每次呼叫开始时自动发现使用的编码律,或者避免使用音频直到H320控制过程能用来建立另一音频模式。而且,G711因为它的低复杂性和与普遍电话的兼容性成为H320的基本音频模式,但与其他H320音频模式相比在使用带宽方面它是效率低下的。如果转到其他音频模式下节省的数据带宽可用来传送更多的视频位,将使H320视频质量有很大不同,特别是在普通的2B(128Kbits)H320呼叫上。 鉴于G711语音压缩协议本身的一些缺点,人们一直在找一种替代它的协议,现在已经开始用的有G722协议和G728协议。
7、 G728是目前H320中用得较多的窄带音频模式。它是基于通常的8kHz窄带采样和5个采样(0625ms)的音频帧的低时延码本激励线性编码(LDCELP),比特率为16Kbits,提供很好的长话音质,总延迟为大约1875ms。 在现有网络条件下,需要一个窄带音频模式,但是又要有相当好的语音质量。 最近建立的8Kbits电话标准真正提高了该速率下的语音品质并改善了复杂性,这种编码器在某种程度上是一个突破,因此它的严格规范使性能达到或超过了32Kbits的G726 ADPCM,但速率仅为8Kbits。ITU G729 SKbits标准在性能上不亚于G726,其算法延时少于16ms,随机误码和背景噪
8、声的性能都不低于G726,具有与自身的非同步串联能力。比如说,两级串联的性能不低于G726四级串联的性能,达到这个水平的编码称为共扼结构代数码激励线性预测(CSACELP),它采用特殊的码本结构简化码本查找。 由于G729的优点突出,特别适合目前网络条件,因此其在多媒体会议中的应用越来越受到重视。G729的算法被称作共轭结构代数码激线性预测(CSACELP,ConjugateStructuredAlgebraic Code Excited Linear Predictive),它构成了G729标准的基础。CSACELP在标准PCM或线性PCM的话音采样基础上,每10ms生成一个10字节长的话音
9、帧。对于每一个语音帧提取CELP模型参数,再对这些参数在编码后以每帧80bit进行信道传输,在解码端,接收到的比特流通过激励码本解码成相应的CELP参数,再通过短时综合滤波器和长时综合滤波器重建语音帧,最后经过后向滤波进行语音增强。 该算法提供了优秀音质,且延时很小。CSACELP也是为先进的定点运算数字信号处理器设计的,因为它要求强大的运算处理能力。CSACELP编码步骤的方框图如图1所示。 图1 CS-ACELP编码步骤 其固定的码本具有一个代数结构,称为交错单脉冲排列设计(1SPP)。码本中每40个样本激励向量仅有4个非零脉冲,记为i0,i1,i2和i3,其幅值和位置见表2,每个激励码字
10、可写成: c(n)=S0(n-m0)+S1(n-m1)+S2(n-m2)+S3(n-m3),n=0,39 其中(n)是时刻n的单位冲激函数。 表2 脉冲幅值和位置 从表中可看到,脉冲幅值仅为1或1,由于这种限制,再加上码字的稀疏,使得码本搜索大大简化了,各个脉冲的位置也存在限制,如表2所示,可以看到脉冲i1仅能位于m1=16,6,1116,2126,3136中的某一位置。这些位置与其他3个脉冲的位置都不相同,为了提高这些限制激励的谐波结构,码向量要通过一个自适应间隔滤波器: 其中是自适应增益,T是当前子帧的间隔延迟,码本搜索是从码向量的一个脉冲开始,然后进行4个嵌套循环,每次循环对应一个新加人
11、的脉冲。由于4个脉冲的位置不连续,我们使用一个共扼搜索,这是局部码本搜索,它在第3个循环之后限制码本搜索的努力,这种搜索产生的语音品质和SNR与全搜索相当,但码本搜索量只有它的5。前3个脉冲的位置每个用3bit表示,第4个用4bit,脉冲幅度每个用1bit表示,所以每个子帧不包括增益的位数是17bit。 图2表示CSACELP解码器,表3列出图中的参数和每个子帧为5ms长时其更新的快慢程度。可以看到,8Kbits中有6200bits的比特率用于表示激励。 图2 CSACELP解码步骤 表3 参数和每个子帧 实现G729算法需要有很强的运算能力的芯片,因此以运算能力强大的DSP来实现其算法比较好
12、。TI的C54系列的DSP拥有强的定点运算能力,作为高性价比DSP中的16位定点DSP芯片,C54x和C540x都适用于语音通信等实时嵌入应用场合。C54x和C540x具有高度灵活的可操作性和高速的处理能力。 实现G729算法程序较大,下面介绍一种简单的易于实现的线性增量调制算法(CVSD,Continuously Variable Slope Delta)编码方法,实现对语音信号的编码以及相应的解码算法。 CVSD是一种量阶随着输人语音信号平均斜率大小而连续变化的增量调制方式。它的工作原理是使用多个连续可变斜率的线段来逼近语音信号,当斜率为正时,对应的数字编码为1;当斜率为负时,对应的数字编
13、码为0。当CVSD工作于编码方式时,其系统框图如3所示。语音输人信号fin(t)经采样得到数字信号f(n),数字信号f(n)与积分器输出信号g(n)比较后输出偏差信号e(n),偏差信号经判决后输出数字编码y(n),该信号同时作为积分器输出斜率的极性控制信号和积分器输出斜率大小逻辑的输人信号。在每个时钟周期内,若语音信号大于积分器输出信号,则判决输出为1,积分器输出上升一个量阶;若语音信号小于积分器输出信号,则判决输出为0,积分器输出下降一个量阶。 图3 CVSD编码系统框图 当CVSD工作于解码方式时,其系统框图如图4所示。在每个时钟周期内,数字编码y(n)被送到连码检测器,然后送到斜率幅度控
14、制电路以控制积分器输出斜率的大小。若数字编码y(n)输入为1,则积分器的输出上升一个量阶;若数字输入为0,则积分器的输出下降一个量阶,这相当于编码过程的逆过程。积分器的输出通过低通滤波器平滑滤波后将重现输入语音信号fin(t)。 图4 CVSD解码系统框图 可见输人信号的波形上升越快,输出的连1码就越多,同样下降越快连0码越多,CVSD编码能够很好地反映输入信号的斜率大小。为使积分器的输出能够更好地逼近输人语音信号,量阶随着输入信号斜率大小而变化,当信号斜率绝对值很大,编码出现3个连1或连0码时,则量阶加一个增量,当不出现上述码型时,量阶则相应地减少。 为了减少编码及译码的偏差,要求编码和译码过程使用相同的时钟频率,而且采样频率应符合奈奎斯特采样定理,即至少为语音输人频率的两倍。 CVSD通过不断改变量阶大小来跟踪信号的变化以减小颗粒噪声与斜率过载失真,量阶调整是基于过去的3个或4个样值输出。具体编码程序流程如图5所示,具体解码程
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 医疗美容招投标服务质量表
- 2024年羊毛收购合同3篇
- 高铁项目招投标文件模板
- 工业自动化系统工程委托施工合同
- 传媒团副总经理招聘合同范例
- 旅游景区宣传舞蹈演员聘请合同
- 办公大楼建设项目合同样本
- 2025年度铝合金门窗产品研发、生产与安装一体化合同3篇
- 员工心理健康辅导
- 医疗急救通道建设打路施工合同
- 2024专升本英语答题卡浙江省
- 医疗技术临床应用管理档案(姓名+工号)
- 售后服务方案及运维方案
- 直通法国-阅读与文化智慧树知到期末考试答案章节答案2024年青岛大学
- 2024年巴西手游市场市场前景及投资研究报告
- 2024年云南昆明市公安局直属部门缺勤务辅警招聘笔试参考题库附带答案详解
- 码头建设报批程序
- (正式版)JBT 11517-2024 刮板取料机
- 商务数据分析智慧树知到期末考试答案2024年
- 2019年10月广东省自考00850广告设计基础试题及答案含解析
- DG-TJ08-2425-2023 道路隧道养护运行评价技术标准
评论
0/150
提交评论