版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、专业选修课程武汉大学多媒体技术Multimedia Techniques第四章 多媒体数据压缩技术4.1 多媒体数据压缩技术概述4.2 常用多媒体数据压缩方法4.3 语音信号编码的标准与方法4.4 静态图像压缩编码技术4.5 动态图像压缩编码技术第四章 多媒体数据压缩技术4.1 多媒体数据压缩技术概述 数据编码包括:信源编码信道编码 信源编码:为了表示和/或压缩从信号源产生出来的信号而进行的编码,主要解决有效性问题。 信道编码:为了使处理过的信号在传输过程中不出错或少出错,以及即使出了错也能自动检错或尽量纠错而进行的编码,主要解决可靠性问题。 多媒体数据的压缩主要是对视频数据和音频数据的压缩,
2、二者使用的基本技术是相同的。 为什么要压缩 数据的冗余性 压缩和解压缩过程压缩评价和分类 数据压缩常常又称为数据信源编码,或简称为数据编码。 数据压缩的逆过程称为数据解压缩,也称为数据信源解码,或简称为数据解码。4.1 多媒体数据压缩技术概述4.1 多媒体数据压缩技术概述4.1 多媒体数据压缩技术概述4.1 多媒体数据压缩技术概述4.1 多媒体数据压缩技术概述4.1 多媒体数据压缩技术概述4.1 多媒体数据压缩技术概述4.1 多媒体数据压缩技术概述4.2 常用多媒体数据压缩方法4.2 常用多媒体数据压缩方法4.2 常用多媒体数据压缩方法4.2 常用多媒体数据压缩方法4.2 常用多媒体数据压缩方
3、法4.2 常用多媒体数据压缩方法4.2 常用多媒体数据压缩方法4.2 常用多媒体数据压缩方法4.2 常用多媒体数据压缩方法4.2 常用多媒体数据压缩方法4.2 常用多媒体数据压缩方法4.2 常用多媒体数据压缩方法4.2 常用多媒体数据压缩方法4.2 常用多媒体数据压缩方法4.2 常用多媒体数据压缩方法4.2 常用多媒体数据压缩方法4.2 常用多媒体数据压缩方法4.2 常用多媒体数据压缩方法词典编码分类词典编码分类 词典编码的根据:数据本身包含有重复代码序列。 属于通用编码技术和无损压缩技术 词典编码法分类 第一类词典法:查找正在压缩的字符序列是否在前面的输入数据中出现过,如果是,则用指向早期出
4、现过的字符串的“指针”替代重复的字符串。 第二类算法:从输入的数据中创建一个“短语词典(dictionary of the phrases)”。编码数据过程中当遇到已经在词典中出现的“短语”时,编码器就输出这个词典中的短语的“索引号”,而不是短语本身。 LZW算法 LZW与LZ78的差别: LZW只输出代表词典中的缀-符串(String)的码字(code word)。这意味在开始时词典不能是空的,它必须包含可能在字符流出现中的所有单个字符,即前缀根(Root)。 由于所有可能出现的单个字符都事先包含在词典中,每个编码步骤开始时都使用一字符前缀(one-character prefix),因此在
5、词典中搜索的第1个缀-符串有两个字符。 3.5.5.1 编码算法 LZW编码是围绕称为词典的转换表来完成的。这张转换表用来存放称为前缀(Prefix)的字符序列,并且为每个表项分配一个码字(Code word),或者叫做序号。 LZW编码器 (软件编码器或硬件编码器)通过管理这个词典完成输入与输出之间的转换。 LZW编码器使用的分析(parsing)算法,称为贪婪分析算法(greedy parsing algorithm)。 贪婪分析算法 每一次分析都要串行地检查来自字符流Charstream的字符串,从中分解出已经识别的最长的字符串,也就是已经在词典中出现的最长的前缀Prefix。 用已知的
6、前缀Prefix加上下一个输入字符C也就是当前字符(Current character)作为该前缀的扩展字符,形成新的扩展字符串缀-符串String:Prefix.C。 新的缀-符串String是否要加到词典中,要看词典中是否存有和它相同的缀-符串String。如果有,那么这个缀-符串String就变成前缀Prefix,继续输入新的字符,否则就把这个缀-符串String写到词典中生成一个新的前缀Prefix,并给一个代码。 3.5.5.1 LZW编码算法步骤步骤步骤1 1:开始时的词典包含所有可能的根(Root),而当前前缀P是空的; 步骤步骤2 2:当前字符(C):=字符流中的下一个字符;
7、步骤步骤3 3:判断缀-符串P+C是否在词典中 把代表当前前缀P的码字输出到码字流;把缀-符串P+C添加到词典; 令P:= C ,即现在的P仅包含一个字符C;步骤步骤4 4:判断码字流中是否还有码字要译如果“是”,返回到步骤2; 如果“否”,则 把代表当前前缀P的码字输出到码字流; 结束。 例位置123456789字符ABBABABAC步骤位置词典输出 (1)A (2)B (3)C 1 1 (4)A B (1)2 2 (5)B B (2)3 3 (6)B A (2)4 4 (7)A B A (4)5 6 (8)A B A C (7)6 - - -(3)被编码字符串 LZW的编码过程 3.5.5
8、.2 LZW译码算法 步骤步骤1 1:在开始译码时词典包含所有可能的前缀根(Root);步骤步骤2 2:cW:=码字流中的第一个码字; 步骤步骤3 3:输出当前缀-符串string.cW到码字流; 步骤步骤4 4:先前码字pW:= 当前码字cW; 步骤步骤5 5:当前码字cW:= 码字流中的下一个码字;步骤步骤6 6:判断先前缀-符串string.pW是否在词典中 1)如果“是”: 把先前缀-符串string.pW输出到字符流; 当前前缀P:=先前缀-符串string.pW; 当前字符C:=当前前缀-符串string.cW的第一个字符; 把缀-符串P+C添加到词典; 2)如果“否”: 当前前缀
9、P:=先前缀-符串string.pW; 当前字符C:=当前缀-符串string.cW的第一个字符; 输出缀-符串P+C到字符流,然后把它添加到词典中。步骤步骤7 7:判断码字流中是否还有码字要译 1)如果“是”,就返回到步骤4; 2)如果“否”,结束。 例(续)步骤代码词典输出(1)A (2)B (3)C 1 (1)- -A 2 (2)(4)A B B3 (2)(5)B B B 4 (4)(6)B A A B5(7)(7)A B AA B A 6 (3)(8)A B A CCLZW的译码过程 4.3 语音信号编码的标准与方法4.3 语音信号编码的标准与方法4.3 语音信号编码的标准与方法4.3
10、 语音信号编码的标准与方法4.3 语音信号编码的标准与方法4.3 语音信号编码的标准与方法4.3 语音信号编码的标准与方法4.3 语音信号编码的标准与方法4.3 语音信号编码的标准与方法4.3 语音信号编码的标准与方法4.3 语音信号编码的标准与方法4.3 语音信号编码的标准与方法4.3 语音信号编码的标准与方法4.3 语音信号编码的标准与方法4.3 语音信号编码的标准与方法4.3 语音信号编码的标准与方法4.3 语音信号编码的标准与方法4.3 语音信号编码的标准与方法LPC在语音处理中得到广泛应用,发展了许多算法:多脉冲线性预测编码(MPLPC)规则脉冲激励编码(RPE)码激励线性预测(CE
11、LP)代数激励线性预测(ACELP)向量和激励线性预测(VSELP)QCELP(Qualcomm CELP,变速率CELP)低延时码激励线性预测(LD-CELP)共轭结构代数激励线性预测(CS-ACELP)混合激励线性预测(MELP)间隔同步更新码激励线性预测(PSI-CELP)松弛码激励线性预测(RCELP)残差激励线性预测(RELP)规则脉冲激励长时预测(RPE-LTP) 4.3 语音信号编码的标准与方法4.3 语音信号编码的标准与方法4.3 语音信号编码的标准与方法4.3 语音信号编码的标准与方法4.3 语音信号编码的标准与方法4.3 语音信号编码的标准与方法4.3 语音信号编码的标准与
12、方法MP3音频压缩编码 MP3是一种音频压缩的国际技术标准。MP3格式开始于二十世纪80年代中期,是在德国夫朗和费研究所(Fraunhofer Institute)开始的,研究致力于高质量、低数据率的声音编码。 1989年,夫朗和费研究所在德国被获准取得了MP3的专利权,几年后这项技术被提交到国际标准组织(ISO),整合进入了MPEG-1标准。 MP3格式是一个让音乐界产生巨大震动的一个声音格式。MP3的全称是Moving Picture Experts Group, Audio Layer 3,它所使用的技术是在VCD(MPEG-1)的音频压缩技术上发展出的第三代,而不是MPEG-3。 MP
13、3音频压缩编码 MPEG代表的是MPEG活动影音压缩标准,MPEG音频文件指的是MPEG标准中的声音部分即MPEG音频层。MPEG音频文件根据压缩质量和编码复杂程度的不同可分为三层(MPEG AUDIO LAYER 1/2/3分别与MP1、MP2和MP3这三种声音文件相对应)。 MPEG音频编码具有很高的压缩率,MP1和MP2的压缩率分别为4:1和6:1-8:1,而MP3的压缩率则高达10:112:1,也就是说一分钟CD音质的音乐未经压缩需要10MB存储空间,而经过MP3压缩编码后只有1MB左右,同时其音质基本保持不失真。MP3音频压缩编码 音乐信号中有许多冗余成分,其中包括间隔和一些人耳分辨
14、不出的信息(如混杂在较强背景中的弱信号)。MP3为降低声音失真采取了名为“感官编码技术”的编码算法:编码时先对音频文件进行频谱分析,然后用过滤器滤掉噪音,接着通过量化的方式将剩下的每一位打散排列,最后形成具有较高压缩比的MP3文件,并使压缩后的文件在回放时能够达到比较接近原音源的声音效果。 虽然它是一种有损压缩,但是它的最大优势是以极小的声音失真换来了较高的压缩比。 音频编码标准 G.711 G.722 G.723.1 G.728 G.729 音频编码标准比较G.711 1972年CCITT为电话质量和语音压缩制定了PCM标准G.711。其速率为64kb/s,使用律或A律的非线性量化技术,主要
15、用于公共电话网中。 G.722 1988年CCITT为调幅广播质量的音频信号压缩制定了G.722标准,它使用子带编码(SBC)方案,其滤波器组将输入信号分成高低两个子带信号,然后分别使用ADPCM进行编码。 G.722能将224kb/s的调幅广播质量的音频信号压缩为64kb/s,主要用于视听多媒体和会议电视等。 G.722的主要目标是保持64kb/s的数据率,而音频信号的质量要明显高于G.711的质量。 G.723.11996年ITU-T通过了G.723标准“用于多媒体传输的5.3kb/s或6.3kb/s双速率话音编码”。它采用多脉冲激励最大似然量化(MP-MLQ)算法,此标准可应用于可视电话
16、及IP电话等系统中。 G.728为了进一步降低压缩的速率,CCITT于1992年制定了G.728标准,使用基于低时延码本激励线性预测编码(LD-CELP)算法,其速率为16kb/s,主要用于公共电话网中。 G.729ITU-T于1996年3月通过了G.729标准,它使用8kb/s的共轭结构代数码激励线性预测(CS-ACELP)算法,此标准将在无线移动网、数字多路复用系统和计算机通信系统中应用。 音频编码标准比较 第四讲 数字语音处理技术 数字音频压缩技术 三维音效 语音识别 自然语言理解 语音合成 三维音效 人类的听觉 3D音效的分类 杜比AC-3 DTS 人类的听觉 人耳的基本声音定位原理是
17、IID(Interaural Intensity Difference,两侧声音强度差别)和ITD(Interaural Time Difference,两侧声音时间延迟差别)。 IID指距离音源较近的哪一边耳朵,所收到的声音强度比另一侧高,感到声音更大一些。 ITD指方位的不同,使声音到达两耳的时间有差别,人们会觉得声音位于到达时间早些的那一边,IID+ITD的结果是把音源定位到以听者两耳这间连线为轴线的锥体范围之内。 人类的听觉 耳廓(外耳)的作用是滤波器,根据声音的不同角度,加强/减弱音波能量,过滤之后传给大脑,让我们更准确地声源的位置。耳廓的大小有限,因此能够收到的音波范围也有限,通常
18、是20Hz到20KHz,即波长16米到1.6厘米的音波。换言之,低于此范围是次声波,高于此范围是超声波。 由于两耳机的距离约为15厘米,当波长大于15厘米时IIT和ITD将会减弱。频率低的声音波长大,因此我们很难判断出低音的位置,却能轻易分辨高音的方位。实际上,耳廓对于声音的定位,是至关重要的一环,没有外耳的人难以判断声音发出的位置。 人类的听觉 人类依靠一种称为HRTF(Head Related Transfer Function,头部关联传输功能)的系统来判断声音发出的位置。每个人的HRTF都不尽相同,还可以进行交换。 HRTF的检测非常简单,先在人的耳道内放置两个微型麦克风,再在听者附近
19、放一个音箱,播放确定的信号,同时记录麦克风收到的信号。比较源信号和麦克风的脉冲特性曲线就可以得到其中一个滤波效果。最后于听者附近的所有位置重复上述过程,即可获取完整的HRTF系统。 三维音效 人类的听觉 3D音效的分类 杜比AC-3 DTS 3D音效的分类 3D音效的两个最重要因素是定位和交互。 定位即让人们准确地判断出声音的来源,可以通过预选录制声音,再进行特定的解码来实现。 实时的定位就是交互,声音并非预选录制好的,而是按照你的控制来决定声音的位置。即时生成的交互式声音对输入设备的要求,比预选录制音轨的放音设备(如:电影)要更强一些。 3D音效的分类 扩展式立体声它使用声音延迟技术对传统的
20、立体声进行额外处理,扩宽了音场的位置,使声音延展到音箱以外的空间,让我们感觉的3D世界更广阔 环绕立体声它采用音频压缩技术(如:杜比AC-3)把多通道音源编码成一段程序,再以一组多扬声器系统来进行解码,实现多区域环绕效果。 交互式3D音效 交互式3D尽量地复制了人耳在真实世界中听到的声音,并使用一定的算法来播放出来,让我们感到整个三维空间的所有地方都可能产生声音,并随听者的移动而做出相应改变。 三维音效 人类的听觉 3D音效的分类 杜比AC-3 DTS 杜比AC-3 为了提高HDTV声音的质量,避免模拟矩阵编码的局限性,提出了双通道的码率提供多通道的编码性能的设想,杜比AC-3就是为了实现这一
21、设想而开发的。杜比AC-3可以把五个独立的全频带和一个超低音通道的信号实行统一编码,成为单一的复合数据流。 AC-3的频响为20Hz20kHz 0.5dB(-3dB时为3Hz20.3kHz),超低声道频率范围是20Hz120Hz 0.5dB。可支持32kHz、44.1kHz、48kHz三种取样频率。数码率可低至单声道的32kb/s,高到多声道640kb/s,以适应不同需要。 杜比AC-3 AC-3采用基于改良离散余弦变换(MDCT)的自适应变换编码(ATC)算法。ATC算法的一个重要考虑是基于人耳听觉掩蔽效应的临界频带理论,即在临界频带内一个声音对另一个声音信号的掩蔽效应最明显。因此,划分频带的滤波器组要有足够锐利的频率响
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 让小学生热爱英语学习的策略
- 设备维修保养合作
- 语文要素教学的方法探讨
- 货源稳定质量保证
- 质量保证书在购房过程中的作用
- 购买虚拟现实服务合同
- 购销合同与采购合同的合同范本
- 购销合同签订中的合同风险控制问题
- 购销奶粉合同范本
- 资产评估服务合同价值
- 核心素养导向下高校体育课程教学改革创新策略研究
- 金融工程学(第五版)第8章外汇风险管理
- 家禽集中屠宰建设项目可行性报告
- 安全学原理第2版-ppt课件(完整版)
- 材料库温湿度点检记录表模板
- led电子灯箱制作方法
- 《机电设备维修技术》课程标准
- 蓝紫色渐变插画风职业生涯规划PPT模板
- 《图形创意设计》PPT课件(完整版)
- 企业、事业专职消防队训练内容及操作规程
- 天津市武清区城乡总体规划
评论
0/150
提交评论