版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、多媒体技术公共课程中南大学信息科学与工程学院第十一讲 声音压缩技术及标准多媒体技术公共课程中南大学信息科学与工程学院一、音频压缩概述多媒体技术:语音压缩技术及标准 陈科文声音压缩编码技术分类声音压缩编码技术分类多媒体计算机处理的数字化声音有以下几种,其处理方法有所不同,数字语音 (窄带声音)l包括:电话语音、调幅广播声音,其频率范围比较窄,普通语音为200-3400Hz, AM广播为50-7000Hz,典型采样频率为8KHz、16KHz,量化精度为8bit或16bit。l常采用波形编码波形编码、参数编码参数编码和混合编码混合编码方法来压缩。(如下图所示)1.典型压缩编码标准有: G.711、G
2、.721、G.722、G.723、G.726、G.727、G.728、G.729等。多媒体技术:语音压缩技术及标准 陈科文声音压缩编码技术分类无失真压缩无失真压缩音频压缩方法音频压缩方法有失真压缩有失真压缩HuffmanHuffman编码编码行程编码行程编码波形编码波形编码参数编码参数编码混合编码混合编码全频带编码全频带编码PCMPCMDPCMDPCMADPCMADPCM子带编码子带编码 自适应变换编码自适应变换编码 ATCATC 心理声学模型心理声学模型矢量量化矢量量化线 性 预 测线 性 预 测LPCLPC矢量和激励矢量和激励线 性 预 测线 性 预 测VSELPVSELP多脉冲线性多脉冲
3、线性预测预测 MP-LPCMP-LPC码 本 激 励码 本 激 励线 性 预 测线 性 预 测CELPCELP多媒体技术:语音压缩技术及标准 陈科文声音压缩编码技术分类声音压缩编码技术分类自然界声音(宽带音频)l即高保真立体声音,这种声音质量最好。l频带宽,覆盖了人的听觉范围(20-20000Hz),采样频率高,典型为11.025KHz 、22.05KHz、 44.1KHz 及其它值,数据量极大。l压缩时应充分利用人的听觉特性,建立起心理声学模型,采用以变换编码和子带编码为主的感知音频编码技术。l典型压缩编码标准有: AC-3、MPEG音频编码。符号化声音(合成声音)lMIDI合成音乐、TTS
4、合成语音多媒体技术:语音压缩技术及标准 陈科文本讲主要内容本讲主要内容语音压缩技术语音 (包括AM广播音频)压缩标准MPEG-1音频编码标准 (第1-3层)MPEG-2 AAC 高级音频编码标准MPEG-4 音频编码标准多媒体技术公共课程中南大学信息科学与工程学院二、语音压缩技术多媒体技术:语音压缩技术及标准 陈科文2.1 波形编码波形编码波形编码:波形编码:是典型的建立在声音采样数据的统计特性和人体听觉特性基础上的,目标是使重建语音波形保持原波形的形状。其编码特点是:适应性强、压缩比小、音质好。主要算法包括:lPCM (脉冲编码调制)、lDPCM(差值量化)、lAPCM(自适应量化)、lAD
5、PCM(自适应预测编码)、lATC(自适应变换编码)、等。 多媒体技术:语音压缩技术及标准 陈科文2.1 波形编码波形编码脉冲编码调制 ( PCM ) l采样、量化、编码l标量量化: 均匀量化 非均匀量化 ( u-law 或 A- law 对数压扩)增量调制 (DM) 与 自适应增量调制 (ADM)差分 脉码调制 ( DPCM )l增加预测器多媒体技术:语音压缩技术及标准 陈科文2.1 波形编码波形编码图图1 DPCM 1 DPCM 的基本工作原理的基本工作原理 多媒体技术:语音压缩技术及标准 陈科文2.1 波形编码波形编码 (续续)自适应差分脉码调制 (ADPCM)l自适应量化l自适应预测量
6、化器量化阶距调节逆量化器预测器+-+PCM样本预测样本差分信号多媒体技术:语音压缩技术及标准 陈科文2.2 参数编码参数编码参数编码:参数编码:建立在音频产生模型的基础上,通过提取声学特征参数和激励信号,并编码,解码后根据相同模型合成音频信号。其目标是使重建的音频信号尽量保持原有的音频特性。参数编码的特点是:压缩率大、数据率低、计算量大、保真度差,自然度低,适用于语音信号的编码。典型编码算法:LPC(线性预测编码),该编码可将语音数据比特率压缩到 2 4.8 Kbit/s,甚至更低。多媒体技术:语音压缩技术及标准 陈科文2.2 参数编码参数编码语音生成机构的模型:声源: 浊音(元音)、清音(摩
7、擦音)、爆破音声道:用可变参数的数字滤波器来模拟。语音基本参数:l基音周期、共振蜂、语音谱、声强等。1.参数估计:LPC (线性预测编码)声源共鸣机构放射机构语音声道多媒体技术:语音压缩技术及标准 陈科文2.2 参数编码参数编码 (续续)脉冲序列发生器随机噪声发生器数字滤波器基因周期增益控制增益控制浊音清音声道参数语音信号语音生成机构的模型语音生成机构的模型多媒体技术:语音压缩技术及标准 陈科文2.3 混合编码混合编码 混合编码:混合编码:集合了波形编码和参数编码的优点,集合了波形编码和参数编码的优点,可以在较低的码率下获得较高音质。可以在较低的码率下获得较高音质。 一种被普遍使用的非常成功的
8、混合编解码器就是“分析分析-合成合成”编解码器编解码器 ( AbS Analysis by Synthesis )。多媒体技术:语音压缩技术及标准 陈科文2.3 混合编码混合编码AbS 编解码器编解码器 :其激励信号波形尽可能接近于原始话音的波形;它把输入话音信号分成许多帧(frames ),一般帧长为 20 ms。编码器一帧一帧地“分析”,得到语音信号参数;解码器根据参数,一帧一帧地“合成”,恢复出原始语音信号的近似值。多媒体技术:语音压缩技术及标准 陈科文2.3 混合编码混合编码 (续续)激励生成合成滤波器-误差最小化听觉加权语音输入s(n)u(n)s(n)e(n)ew(n)形状 增益参数
9、激励生成合成滤波器u(n)s(n)形状 增益参数重构语音AbS编码器AbS 解码器多媒体技术:语音压缩技术及标准 陈科文2.3 混合编码混合编码 (续续)典型的混合编码技术有:l矢量和激励 线性预测(VSELP)l多脉冲- 线性预测编码 (MP-LPC)l码本激励 线性预测(CELP),包括: 短时延 - 码本激励线性预测(LD-CELP) 规则脉冲激励 - 长时线性预测(RPE-LTP)多媒体技术公共课程中南大学信息科学与工程学院三、语音压缩标准多媒体技术:语音压缩技术及标准 陈科文3.1 电话质量的语音压缩标准电话质量的语音压缩标准电话质量的声音频率范围为:200 3400 Hz。ITUT
10、S (原原CCITT) 建议的语音压缩的标准:建议的语音压缩的标准: G.711:采用PCM 编码,采样速率为8kHz,量化位数为8bit,推荐使用 A 律 或 律 量化,对应的比特流速率为 64 k bit/s。 G.721: ITU建议的 G.721将64Kbps的比特流转换为32Kbps的流,它是基于 ADPCM 技术。每个数值差分用4位编码,其采样率为8kHz。多媒体技术:语音压缩技术及标准 陈科文3.1 电话质量的语音压缩标准电话质量的语音压缩标准G.728:它的 比特率为16Kbps,带宽限于3.4kHz。其音质 (MOS=3.7-4.0) 比 G.711或 G.722差得多。它基
11、于一种称为低延迟代码激励线性预测 (LDCELP) 的向量量化技术。 CELP (码本激励线性预测) 已被采纳为美国联邦通信标准1016,可将语音压缩至4.8 Kbps,其音质与普通电话差不多( MOS = 3.7 4.0 ),常用于 移动通信领域。多媒体技术:语音压缩技术及标准 陈科文3.1 电话质量的语音压缩标准电话质量的语音压缩标准 而美国联邦通信标准1015使用 CELP的一个简化版本,称为线性预测编码 (LPC)。 LPC10E 标准标准采用一种向量量化方法,数据速率只有2.4Kbps,可用于保密话音的传输;但声音质量较差 ( MOS = 2.5 3.5),听起来有点象机器在说话。语
12、音编码标准一览表标准标准编码类型编码类型比特率比特率(kbpskbps)MOSMOS复杂复杂性性时延时延(ms)(ms)G.711G.711PCM PCM 64644.3 4.3 1 10.125 0.125 G.721G.721ADPCM ADPCM 32324.04.010 10 0.125 0.125 G.728G.728LD-CELP LD-CELP 16164.04.050 50 0.625 0.625 GSMGSMRPE_LTP RPE_LTP 13133.73.75 52020G.729 G.729 、G.729A G.729A CSA-CELP CSA-CELP 8 84.04
13、.03030、15 15 15 15 G.723.1 G.723.1 MP-LPC 6.36.33.83.825 25 37.5 37.5 G.723.1 G.723.1 ACELP ACELP 5.35.3US Dod US Dod LPC-10 LPC-10 2.42.4合成语合成语音音 10 10 22.5 22.5 多媒体技术:语音压缩技术及标准 陈科文3.1 电话质量的语音压缩标准电话质量的语音压缩标准上表说明:lMOS(长话质量的语音平均意见得分)l复杂性(以G.711为基准)l时延(帧大小,即语音流量的时间长度)在选择语音压缩标准时,应综合考虑带宽、时延、带宽、时延、算法复杂度算
14、法复杂度等各种因素。 多媒体技术:语音压缩技术及标准 陈科文3.1.1 移动电话语音压缩标准移动电话语音压缩标准GSM编码标准编码标准是1983年欧洲数字移动特别工作组(GSM)制定的一种移动电话的压缩标准,它压缩的音质不如G.711系统。在GSM-6.10标准标准中,采用RPE-LTP算法算法,压缩后的一路话音数码率为13Kbps。1989年美国公布的数字移动通信标准数字移动通信标准(CTIA)速率为8kbit/s,具有较高的压缩率和较高的语音质量。US Dod标准标准是美国国家安全局(NSA)分别于1982年和1989年制定了基于LPC速率为2.4kbit/s的编码方案和基于速率为4.8k
15、bit/s的编码方案。 G.729标准标准多媒体技术:语音压缩技术及标准 陈科文3.2 调幅广播质量的音频压缩标准调幅广播质量的音频压缩标准 调幅(AM)广播质量的声音频率范围:50Hz7kHz,称为 “ 7 kHz 音频信号音频信号”。 其中,50-200 Hz的低频频段使语音更加自然,因此AM广播声音比传统的窄带话音(200-3.4kHz)有更好的主观质量。 ITU于1986年通过G.722标准。 G.722:基于SBADPCM (子带自适应差子带自适应差分脉码调制)分脉码调制)技术 ,它将50Hz到7kHz的信号带宽分成两个独立的子带信道,而每个子带又可以继而每个子带又可以继续分割;然后
16、续分割;然后分别采用 ADPCM 算法编码。压缩后的数码率分64、56、48kbps三种,可分别插入0、8、16kbps的数据与语音信号一起传输 。多媒体技术:语音压缩技术及标准 陈科文3.2.1G.722.1 标准标准G.722.1标准主要采用SB-ADPCM编码算法,输入声音采样频率为16kHz和16bit量化时,能够在24或32kbps速率下提供7kHz的音频带宽,是普通电话呼叫质量的两倍多,所用速率仅为先前标准的一半,并可提供近于FM广播的音频质量。G.722.1 标准适合于一些重要应用领域,包括:IP电话、第三代移动通信、PSTN高品质电话会议和商务应用(包括点到点和多点)、语音流、ISDN宽带技术、ISDN可视电话和会议电视等。 多媒体技术:语音压缩技术及标准 陈科文3.2.2 G.722.2 标准标准G.722.2主要采用代数编码激励线性预测代数编码激励线性预测技术,符合此标准的编解码器也被称为AMR-WB编解码器编解码器,已被3GPP采用,作为应用于GSM和第三代无线W-CDMA的宽带编解码器。这标志着无线与有线业务首次得以采用同一编解
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 学校实习合同范例
- 单位供菜合同范例
- 样品间家具合同范例
- 德州粮食购销合同范例
- 大数据服务合同范例
- 商场员工合同范例
- 娱乐会所合伙合同范例
- 兼职正式合同范例
- 店铺赠予股合同范例
- 快艇转让合同范例
- NB-T47003.1-2009钢制焊接常压容器(同JB-T4735.1-2009)
- 聚焦高质量+探索新高度+-2025届高考政治复习备考策略
- 惠州市惠城区2022-2023学年七年级上学期期末教学质量检测数学试卷
- 北京市西城区2022-2023学年七年级上学期期末英语试题【带答案】
- ISO45001-2018职业健康安全管理体系之5-4:“5 领导作用和工作人员参与-5.4 工作人员的协商和参与”解读和应用指导材料(2024A0-雷泽佳)
- 看图猜成语共876道题目动画版
- 小学二年级上册数学-数角的个数专项练习
- 曲式与作品分析智慧树知到期末考试答案章节答案2024年兰州文理学院
- 园林设施维护方案
- 特种设备使用单位日管控、周排查、月调度示范表
- 供应链成本控制与降本增效
评论
0/150
提交评论