第三讲话音编码简介

上传人：生*** IP属地：江西上传时间：2024-05-21 格式：PPTX 页数：28 大小：367.34KB 积分：12 举报 版权申诉

已阅读5页，还剩23页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第三讲话音编码简介衡量话音编码器得因素音频质量数据率编/解码延时算法复杂度价格因素编码器解码器输入信道传输输出编码数据编解码过程输入数据量与编码后数据量得比值,称为压缩比。第2节话音编译码器分类:波形编译码器(waveformcoder):不利用生成话音得信号得任何知识,将话音视为一种普通得声音,直接对波形信号进行采样与量化。例如PCM、DPCM、ADPCM等。音源编译码器(Sourcecoder):也叫参数编译码器、声码器(vocoder)。它从话音波形信号中提取生成话音得参数,使用这些参数通过话音生成模型重构出话音。混合编译码器(Hybridcoder):综合使用上述两种技术。使用得激励信号波形尽可能接近于原始话音信号得波形。例如CELP。1、脉冲编码调制(PCM)一、波形编码技术PCM得量化方式均匀量化与非均匀量化量化就是一种有损编码非均匀量化对小信号采用小得量化间隔,对大信号采用大得量化间隔,这样可以用较少得位数编码。对大信号来说,虽然绝对量化误差较大,但就是因为大信号出现得机会不多,所以对总得话音质量影响不大。非均匀量化相对于均匀量化就是一种压缩。量化间隔越大,压缩比越大。非均匀量化中两种压扩算法数字电话通信标准G、711(CCITT)μ律(μ-Law)压扩:其中μ为参数(可取255),x为规格化(绝对值小于等于1)得输入信号幅度。A律(A-Law)压扩其中A为参数(可取87、56),x为规格化(绝对值小于等于1)得输入信号幅度。2、波形编码中得增量调制(deltamodulation)增量调制(DM)自适应增量调制(ADM)

量化阶可调,斜率过载时调大,粒状噪声时调小。3、自适应脉冲调制(APCM)APCM就是一种根据输入信号幅度大小自动改变量化阶大小得一种波形编码技术。边信息为量化步长。例:设仅有1,与5两种量化步长,输入:1,2,3,3,10,12,16,2,3,2,1……前向输出:1,2,3,3,2,2,3,2,3,2,1……151……解码:1,2,3,3,10,10,15,2,3,2,1……后向输出:1,2,3,3,10,2,3,0,3,2,1……解码:1,2,3,3,10,10,15,0,3,2,1……解码时,后向自适应需要量化阶适配器。思考:三个量化阶适配器就是怎样得算法？12大家应该也有点累了，稍作休息大家有疑问的，可以询问和交流4、差分脉冲编码调制(DPCM)DPCM就是利用相邻样本之间冗余信息来进行编码得一种数据压缩技术。输出得实际上就是差值得量化值。例:量化步长为2,预测器为相等。输入:2,3,4,5,6,5,4,3………输出:1,0,1,0,1,0,-1,0………解码器逆量化器预测器I(k)d(k)S(k)Se(k+1)输入:1,0,1,0,1,0,-1,0………输出:2,2,4,4,6,6,4,4………误差由量化引起！预测:用过去得k个信号预测当前得信号值。线性预测:如果ai就是常数,则为时不变线性预测,否则为自适应线性预测,预测器就就是一个滤波器。最简单得预测方程:5、自适应差分脉冲调制(ADPCM)ADPCM综合了APCM得自适应特性与DPCM系统得差分特性左图得量化阶调整属于后向自适应数字电话通信标准G、721(CCITT)解码器逆量化器预测器I(k)d(k)S(k)S(k-1)量化阶调整ADPCM就是利用样本与样本之间得高度相关性与量化阶自适应来压缩数据得一种波形编码技术,CCITT为此制定了G、721推荐标准,这个标准叫做32kb/sADPCM。在此基础上还制定了G、721得扩充推荐标准G、723,使用该标准得编码器得数据率可降低到40kb/s与24kb/s。G、721得输入信号就是G、711PCM代码(数据率为64kb/s)。而G、721ADPCM得输出就是用4位表示得差分信号,它得采样率与G、711相同都就是8kHz(信号频率3、4KHz),它得数据率为32kb/s,这样就获得了2∶1得数据压缩。6、子带－自适应差分脉冲编码调制(SB-ADPCM)数字电话通信标准G、722(CCITT)G、722就是CCITT推荐得音频信号编码译码标准。G、722标准得数据率为64kb/s,采样频率由8kHz提高到16kHz,就是G、711PCM采样率得2倍,被编码得信号频率由原来得3、4kHz扩展到7kHz。这就使音频信号得质量有很大改善,由数字电话得话音质量提高到调幅(AM)无线电广播得质量。二、音源编译码模拟人体产生话音得原理,通过话音生成模型重构出话音。1、话音得形成原理

说话得时候,声门处气流冲击声带产生振动,然后通过声道响应变成语音。由于发不同音时,声道得形状不同,所以听到不同得语音。

进一步物理建模,声门可以等效为一个激励源(输入信号),声道可以等效为一个时变滤波器(系统)。2、对输入得气流(激励)建模浊音(voicedsounds):声道打开,声带在先打开后关闭,气流经过使声带要发生张驰振动,变为准周期振动气流。浊音得激励源被等效为准周期得脉冲信号。清音(unvoicedsounds):声带不振动,而在某处保持收缩,气流在声道里收缩后高速通过产生湍流,再经过主声道(咽、口腔)得调整最终形成清音。清音得激励源被等效为一种白噪声信号。爆破音(plosivesounds):声道关闭之后产生压缩空气然后突然打开声道所发出得声音。话音产生得数字模型周期脉冲序列发生器伪随机噪声产生器周期时变数字滤波器音量控制声道参数语音输出浊/清选择3、滤波器用滤波器来模仿声道。编码得结果其实就就是滤波器得规格、发声或者不发声得标志与有声话音得音节周期,并且每隔10～20ms更新一次。解码器知道使用什么规格得滤波器后,计算激励通过滤波器得输出就就是解码过程。上节讲到得线性预测方法可用来生成滤波器。称为线性预测编码(LPC,linearpredictivecoding

)。4、特点数据率在2、4kb/s左右,产生得语音虽然可以听懂,但其质量远远低于自然话音。增加数据率对提高合成话音得质量无济于事,这就是因为受到话音生成模型得限制。保密性能好,一直用在军事上。三、混合编译码简介

混合编译码想法就是结合波形编译码与音源编译码思想。即寻找合适得滤波器,又同时寻找合适得激励(不再就是根据人得发生模型确定激励,而就是计算得出,所以可以不必考虑清音与浊音)。最成功并普遍使用得就是时域合成-分析AbS(analysis-by-synthesis)编译码器。这种编译码器使用声道线性预测滤波器模型(LPC),不使用两个状态(有声/无声)得激励。企图寻找一种激励信号,使用这种信号激励产生得波形尽可能接近于原始话音得波形。并命名为多脉冲激励MPE(multi-pulseexcited)编译码器,数据率10Kb/s左右。在此基础上随后出现

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第三讲话音编码简介

文档简介

温馨提示

最新文档

评论

第三讲话音编码简介

文档简介

温馨提示

最新文档

评论

相关文档