语音压缩编码培训-定稿_第1页
语音压缩编码培训-定稿_第2页
语音压缩编码培训-定稿_第3页
语音压缩编码培训-定稿_第4页
语音压缩编码培训-定稿_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

语音压缩编码培训_定稿第一页,共47页。培训进度安排课题介绍PCMDPCMADPCM每两周一次课,一周上课,一周答疑2010-12-20第二页,共47页。内容提要课题背景国内外研究现状常用编码算法简介2010-12-20第三页,共47页。语音编码发展方向极低速率语音编码比特率低于2400bps的编码保密通信、语音邮件、网络通信、IP电话变速率语音编码在合成语音质量和系统容量中灵活折中CDMA通信系统中,且前景广阔不压缩语音编码压缩费用超过传输费用光纤通信、微波通信2010-12-20第四页,共47页。压缩的意义为什么需要压缩编码技术PCM编码占用带宽大8000Hz采样速率,每样本8位码数码率:64kbps有线传输中可以找到大容量传输介质:光纤无线接入侧的频谱资源相当紧张2010-12-20第五页,共47页。GSM频点分配2010-12-20第六页,共47页。理论基础定义:低于64kbps的编码方案称为语音压缩编码压缩依据语音信号中存在的冗余人类的听觉感知机理2010-12-20第七页,共47页。信号冗余采样数据之间的相关8kHz速率时,相邻样值相关系数高达0.85周期相关:浊音的准周期性幅度的非均匀分布小幅度概率高,信息集中在低功率语音间隙的存在声道的形状及其变化速率有限2010-12-20第八页,共47页。听觉感知机理人耳对不同频段的声音敏感度不同低频比高频更敏感人耳对语音信号的相位不敏感人耳有掩蔽效应(maskingeffect)强音抑制弱音2010-12-20第九页,共47页。语音编码的极限速率语音最基本元素-音素:大约128~256个通常说话速度:每秒平均发10个音素信息率:I=[log2(256)10]bps=80bps把发音看成是以语音速率传送,则语音编码的极限速率为80bps从数字化标准的编码速率64kbps,到极限速率80bps之间的距离,对于理论研究和实践有着极大的吸引力2010-12-20第十页,共47页。压缩编码方法分类波形编码原理简单,失真小数码率高参数编码数码率低音质较差,复杂度高混合编码较低的比特率上获得较高的语音质量2010-12-20第十一页,共47页。语音信号压缩编码的评价系统语音质量(1)广播级:宽带(0-7000Hz)高质量的语音,感觉不出噪声存在(2)网络或电话级:200Hz-3200Hz,信噪比大于30db。(3)通信级:完全可以听懂,但和长途电话相比,有明显失真。(4)合成级:80%-90%可懂度,音质较差,听起来像机器讲话,失去了讲话者的个人特征。2010-12-20第十二页,共47页。语音信号压缩编码的评价指标编码质量MOS(MeanOpinionScore)编码速率适当选取编解码复杂度不影响实时处理编解码时延不能超过100ms若超过必须采取回声抵消或回声抑制等措施2010-12-20第十三页,共47页。2010-12-20第十四页,共47页。内容提要课题背景国内外研究现状常用编码算法简介2010-12-20第十五页,共47页。ITU-T的正式标准G.711(1972)64kbpsPCM用于固网G.721(1984)32kbpsADPCM用于卫星、海缆、VRCG.728(1992)16kbpsLD-CELP低延迟-码激励线性预测无绳电话、SCSC卫星、海事卫星、DSI设备、录音、移动系统等G.729(1996)8kbpsCS-ACELP(共轭结构-代数数码激励线性预测技术)可与32kbps的ADPCM同质量用于个人移动通信、低C/N卫星、高质量移动无线通信,分组语音G.722.2AMR-ACELP(自适应多速率)用于WCDMA和TD-SCDMA系统2010-12-20第十六页,共47页。2010-12-20第十七页,共47页。现状主流:CELP4.8kbps的数码率上获得较高质量的语音2010-12-20第十八页,共47页。发展方向中低速率的语音编码的实用化降低复杂度减少时延提高抗干扰、抗噪声能力进一步降低编码速率目前5-6kbps的速率--较高质量重建语音目标4kbps得到短时延、高质语音2010-12-20第十九页,共47页。发展方向中长延时编码400-1200bps得到高质语音新算法正弦变换编码(STC)混合激励线性预测编码(MELPC)时频域插值编码(TFI)基音同步激励线性预测编码(PSELP)新分析技术非线性预测多精度时频分析高阶统计分析2010-12-20第二十页,共47页。内容提要课题背景国内外研究现状常用编码算法简介波形编码技术参数编码技术2010-12-20第二十一页,共47页。一、PCM编码PCM:PulseCodedModulation抽样:8000Hz量化:非均匀A律87.6/13折线压扩特性编码:8位码极性码:第1位段落码:第2-3位段内码:第4-7位2010-12-20第二十二页,共47页。二、DPCM编码差分PCM编码对相邻样本的差进行PCM编码由于样本差值的动态范围远小于样本动态范围,因此达到相似性能可以减小编码位数技术实现关键问题编码位数的选取预测器系数选取:LMS2010-12-20第二十三页,共47页。DPCM框图2010-12-20第二十四页,共47页。DPCM(含预测器内部结构)2010-12-20第二十五页,共47页。三、ADPCM自适应DPCM自适应预测系数调整自适应编码位数调整技术实现关键自适应预测器自适应量化器2010-12-20第二十六页,共47页。2010-12-20第二十七页,共47页。2010-12-20第二十八页,共47页。内容提要课题背景国内外研究现状常用编码算法简介波形编码技术参数编码技术2010-12-20第二十九页,共47页。语音生成机构声源:声带共鸣机构:声道(鼻腔、口腔与舌头)放射机构:嘴唇或鼻孔2010-12-20第三十页,共47页。2010-12-20第三十一页,共47页。2010-12-20第三十二页,共47页。2010-12-20第三十三页,共47页。语音产生机理浊音气流通过声门时,声带的张力刚好使声带产生张弛振荡式振动,产生一股准周期脉冲气流,激励声道产生浊音轻音声带不振动,而在某处收缩,迫使气流高速通过这一收缩部分产生湍流就产生清音

爆破音声道完全闭合的情况下突然释放产生爆破音2010-12-20第三十四页,共47页。语音信号产生模型清/浊开关声道模拟滤波器基音周期脉冲序列发生器随机噪声发生器LPC系数增益Gu(n)输出语音s(n)2010-12-20第三十五页,共47页。清音/浊音示意图:2010-12-20第三十六页,共47页。a1语音输出x’(n)线性预测分析基音频率清/浊音判别参数合成a2ap基音频率输入语音x(n)清/浊音标志G2010-12-20第三十七页,共47页。模型中的参数清浊音判决基音周期时变滤波器增益常数G数字滤波器参数ai特点:随时间缓慢变化2010-12-20第三十八页,共47页。优点能够用线性预测分析方法对滤波器参数ai和增益常数G进行非常直接和高效的计算2010-12-20第三十九页,共47页。LPC模型阶数p的选择保证有足够的极点模型化声道响应的谐振结构通常10kHz时有5个共振峰,一对极点对应一个共振峰,取p=10弥补鼻音中存在的零极点和其他因素的偏差取p=12~142010-12-20第四十页,共47页。二、LPC-10编码器美国确定LPC-10作为2.4kb/s速率上的推荐编码形式,用于第三代保密电话中发送端,原始语音信号采用8kHz采样,然后每180个采样值分为一帧(22.5ms),提取语音特征参数并加以编码传送。每帧总共编码为54bits,每秒传输44.4帧,因此总传输速率为2.4kb/s2010-12-20第四十一页,共47页。s(n)采样(8kHz)基音检测(AMDF)清/浊音检测预加重线性预测分析反射系数增益G参数编码c(n)LPC-10编码器发送端2010-12-20第四十二页,共47页。预加重:提高语音谱中的高频共振峰,使语音频谱较为平滑,从而提高谱参数估计的精确度预加重滤波器的传递函数为:2010-12-20第四十三页,共47页。基音周期利用短时平均幅度差函数(AMDF

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论