第四章多媒体数据压缩技术介绍.ppt_第1页
第四章多媒体数据压缩技术介绍.ppt_第2页
第四章多媒体数据压缩技术介绍.ppt_第3页
第四章多媒体数据压缩技术介绍.ppt_第4页
第四章多媒体数据压缩技术介绍.ppt_第5页
已阅读5页,还剩94页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

专业选修课程 武汉大学 多媒体技术 MultimediaTechniques 第四章多媒体数据压缩技术 4 1多媒体数据压缩技术概述4 2常用多媒体数据压缩方法4 3语音信号编码的标准与方法4 4静态图像压缩编码技术4 5动态图像压缩编码技术 第四章多媒体数据压缩技术 4 1多媒体数据压缩技术概述 数据编码包括 信源编码信道编码信源编码 为了表示和 或压缩从信号源产生出来的信号而进行的编码 主要解决有效性问题 信道编码 为了使处理过的信号在传输过程中不出错或少出错 以及即使出了错也能自动检错或尽量纠错而进行的编码 主要解决可靠性问题 多媒体数据的压缩主要是对视频数据和音频数据的压缩 二者使用的基本技术是相同的 为什么要压缩数据的冗余性压缩和解压缩过程压缩评价和分类数据压缩常常又称为数据信源编码 或简称为数据编码 数据压缩的逆过程称为数据解压缩 也称为数据信源解码 或简称为数据解码 4 1多媒体数据压缩技术概述 4 1多媒体数据压缩技术概述 4 1多媒体数据压缩技术概述 4 1多媒体数据压缩技术概述 4 1多媒体数据压缩技术概述 4 1多媒体数据压缩技术概述 4 1多媒体数据压缩技术概述 4 1多媒体数据压缩技术概述 4 2常用多媒体数据压缩方法 4 2常用多媒体数据压缩方法 4 2常用多媒体数据压缩方法 4 2常用多媒体数据压缩方法 4 2常用多媒体数据压缩方法 4 2常用多媒体数据压缩方法 4 2常用多媒体数据压缩方法 4 2常用多媒体数据压缩方法 4 2常用多媒体数据压缩方法 4 2常用多媒体数据压缩方法 4 2常用多媒体数据压缩方法 4 2常用多媒体数据压缩方法 4 2常用多媒体数据压缩方法 4 2常用多媒体数据压缩方法 4 2常用多媒体数据压缩方法 4 2常用多媒体数据压缩方法 4 2常用多媒体数据压缩方法 4 2常用多媒体数据压缩方法 词典编码分类 词典编码的根据 数据本身包含有重复代码序列 属于通用编码技术和无损压缩技术词典编码法分类第一类词典法 查找正在压缩的字符序列是否在前面的输入数据中出现过 如果是 则用指向早期出现过的字符串的 指针 替代重复的字符串 第二类算法 从输入的数据中创建一个 短语词典 dictionaryofthephrases 编码数据过程中当遇到已经在词典中出现的 短语 时 编码器就输出这个词典中的短语的 索引号 而不是短语本身 LZW算法 LZW与LZ78的差别 LZW只输出代表词典中的缀 符串 String 的码字 codeword 这意味在开始时词典不能是空的 它必须包含可能在字符流出现中的所有单个字符 即前缀根 Root 由于所有可能出现的单个字符都事先包含在词典中 每个编码步骤开始时都使用一字符前缀 one characterprefix 因此在词典中搜索的第1个缀 符串有两个字符 3 5 5 1编码算法 LZW编码是围绕称为词典的转换表来完成的 这张转换表用来存放称为前缀 Prefix 的字符序列 并且为每个表项分配一个码字 Codeword 或者叫做序号 LZW编码器 软件编码器或硬件编码器 通过管理这个词典完成输入与输出之间的转换 LZW编码器使用的分析 parsing 算法 称为贪婪分析算法 greedyparsingalgorithm 贪婪分析算法 每一次分析都要串行地检查来自字符流Charstream的字符串 从中分解出已经识别的最长的字符串 也就是已经在词典中出现的最长的前缀Prefix 用已知的前缀Prefix加上下一个输入字符C也就是当前字符 Currentcharacter 作为该前缀的扩展字符 形成新的扩展字符串 缀 符串String Prefix C 新的缀 符串String是否要加到词典中 要看词典中是否存有和它相同的缀 符串String 如果有 那么这个缀 符串String就变成前缀Prefix 继续输入新的字符 否则就把这个缀 符串String写到词典中生成一个新的前缀Prefix 并给一个代码 3 5 5 1LZW编码算法步骤 步骤1 开始时的词典包含所有可能的根 Root 而当前前缀P是空的 步骤2 当前字符 C 字符流中的下一个字符 步骤3 判断缀 符串P C是否在词典中把代表当前前缀P的码字输出到码字流 把缀 符串P C添加到词典 令P C 即现在的P仅包含一个字符C 步骤4 判断码字流中是否还有码字要译如果 是 返回到步骤2 如果 否 则把代表当前前缀P的码字输出到码字流 结束 例 被编码字符串 LZW的编码过程 3 5 5 2LZW译码算法 步骤1 在开始译码时词典包含所有可能的前缀根 Root 步骤2 cW 码字流中的第一个码字 步骤3 输出当前缀 符串string cW到码字流 步骤4 先前码字pW 当前码字cW 步骤5 当前码字cW 码字流中的下一个码字 步骤6 判断先前缀 符串string pW是否在词典中1 如果 是 把先前缀 符串string pW输出到字符流 当前前缀P 先前缀 符串string pW 当前字符C 当前前缀 符串string cW的第一个字符 把缀 符串P C添加到词典 2 如果 否 当前前缀P 先前缀 符串string pW 当前字符C 当前缀 符串string cW的第一个字符 输出缀 符串P C到字符流 然后把它添加到词典中 步骤7 判断码字流中是否还有码字要译1 如果 是 就返回到步骤4 2 如果 否 结束 例 续 LZW的译码过程 4 3语音信号编码的标准与方法 4 3语音信号编码的标准与方法 4 3语音信号编码的标准与方法 4 3语音信号编码的标准与方法 4 3语音信号编码的标准与方法 4 3语音信号编码的标准与方法 4 3语音信号编码的标准与方法 4 3语音信号编码的标准与方法 4 3语音信号编码的标准与方法 4 3语音信号编码的标准与方法 4 3语音信号编码的标准与方法 4 3语音信号编码的标准与方法 4 3语音信号编码的标准与方法 4 3语音信号编码的标准与方法 4 3语音信号编码的标准与方法 4 3语音信号编码的标准与方法 4 3语音信号编码的标准与方法 4 3语音信号编码的标准与方法 LPC在语音处理中得到广泛应用 发展了许多算法 多脉冲线性预测编码 MPLPC 规则脉冲激励编码 RPE 码激励线性预测 CELP 代数激励线性预测 ACELP 向量和激励线性预测 VSELP QCELP QualcommCELP 变速率CELP 低延时码激励线性预测 LD CELP 共轭结构代数激励线性预测 CS ACELP 混合激励线性预测 MELP 间隔同步更新码激励线性预测 PSI CELP 松弛码激励线性预测 RCELP 残差激励线性预测 RELP 规则脉冲激励长时预测 RPE LTP 4 3语音信号编码的标准与方法 4 3语音信号编码的标准与方法 4 3语音信号编码的标准与方法 4 3语音信号编码的标准与方法 4 3语音信号编码的标准与方法 4 3语音信号编码的标准与方法 4 3语音信号编码的标准与方法 MP3音频压缩编码 MP3是一种音频压缩的国际技术标准 MP3格式开始于二十世纪80年代中期 是在德国夫朗和费研究所 FraunhoferInstitute 开始的 研究致力于高质量 低数据率的声音编码 1989年 夫朗和费研究所在德国被获准取得了MP3的专利权 几年后这项技术被提交到国际标准组织 ISO 整合进入了MPEG 1标准 MP3格式是一个让音乐界产生巨大震动的一个声音格式 MP3的全称是MovingPictureExpertsGroup AudioLayer3 它所使用的技术是在VCD MPEG 1 的音频压缩技术上发展出的第三代 而不是MPEG 3 MP3音频压缩编码 MPEG代表的是MPEG活动影音压缩标准 MPEG音频文件指的是MPEG标准中的声音部分即MPEG音频层 MPEG音频文件根据压缩质量和编码复杂程度的不同可分为三层 MPEGAUDIOLAYER1 2 3分别与MP1 MP2和MP3这三种声音文件相对应 MPEG音频编码具有很高的压缩率 MP1和MP2的压缩率分别为4 1和6 1 8 1 而MP3的压缩率则高达10 1 12 1 也就是说一分钟CD音质的音乐未经压缩需要10MB存储空间 而经过MP3压缩编码后只有1MB左右 同时其音质基本保持不失真 MP3音频压缩编码 音乐信号中有许多冗余成分 其中包括间隔和一些人耳分辨不出的信息 如混杂在较强背景中的弱信号 MP3为降低声音失真采取了名为 感官编码技术 的编码算法 编码时先对音频文件进行频谱分析 然后用过滤器滤掉噪音 接着通过量化的方式将剩下的每一位打散排列 最后形成具有较高压缩比的MP3文件 并使压缩后的文件在回放时能够达到比较接近原音源的声音效果 虽然它是一种有损压缩 但是它的最大优势是以极小的声音失真换来了较高的压缩比 音频编码标准 G 711G 722G 723 1G 728G 729音频编码标准比较 G 711 1972年CCITT为电话质量和语音压缩制定了PCM标准G 711 其速率为64kb s 使用 律或A律的非线性量化技术 主要用于公共电话网中 G 722 1988年CCITT为调幅广播质量的音频信号压缩制定了G 722标准 它使用子带编码 SBC 方案 其滤波器组将输入信号分成高低两个子带信号 然后分别使用ADPCM进行编码 G 722能将224kb s的调幅广播质量的音频信号压缩为64kb s 主要用于视听多媒体和会议电视等 G 722的主要目标是保持64kb s的数据率 而音频信号的质量要明显高于G 711的质量 G 723 1 1996年ITU T通过了G 723标准 用于多媒体传输的5 3kb s或6 3kb s双速率话音编码 它采用多脉冲激励最大似然量化 MP MLQ 算法 此标准可应用于可视电话及IP电话等系统中 G 728 为了进一步降低压缩的速率 CCITT于1992年制定了G 728标准 使用基于低时延码本激励线性预测编码 LD CELP 算法 其速率为16kb s 主要用于公共电话网中 G 729 ITU T于1996年3月通过了G 729标准 它使用8kb s的共轭结构代数码激励线性预测 CS ACELP 算法 此标准将在无线移动网 数字多路复用系统和计算机通信系统中应用 音频编码标准比较 第四讲数字语音处理技术 数字音频压缩技术三维音效语音识别自然语言理解语音合成 三维音效 人类的听觉3D音效的分类杜比AC 3DTS 人类的听觉 人耳的基本声音定位原理是IID InterauralIntensityDifference 两侧声音强度差别 和ITD InterauralTimeDifference 两侧声音时间延迟差别 IID指距离音源较近的哪一边耳朵 所收到的声音强度比另一侧高 感到声音更大一些 ITD指方位的不同 使声音到达两耳的时间有差别 人们会觉得声音位于到达时间早些的那一边 IID ITD的结果是把音源定位到以听者两耳这间连线为轴线的锥体范围之内 人类的听觉 耳廓 外耳 的作用是滤波器 根据声音的不同角度 加强 减弱音波能量 过滤之后传给大脑 让我们更准确地声源的位置 耳廓的大小有限 因此能够收到的音波范围也有限 通常是20Hz到20KHz 即波长16米到1 6厘米的音波 换言之 低于此范围是次声波 高于此范围是超声波 由于两耳机的距离约为15厘米 当波长大于15厘米时IIT和ITD将会减弱 频率低的声音波长大 因此我们很难判断出低音的位置 却能轻易分辨高音的方位 实际上 耳廓对于声音的定位 是至关重要的一环 没有外耳的人难以判断声音发出的位置 人类的听觉 人类依靠一种称为HRTF HeadRelatedTransferFunction 头部关联传输功能 的系统来判断声音发出的位置 每个人的HRTF都不尽相同 还可以进行交换 HRTF的检测非常简单 先在人的耳道内放置两个微型麦克风 再在听者附近放一个音箱 播放确定的信号 同时记录麦克风收到的信号 比较源信号和麦克风的脉冲特性曲线就可以得到其中一个滤波效果 最后于听者附近的所有位置重复上述过程 即可获取完整的HRTF系统 三维音效 人类的听觉3D音效的分类杜比AC 3DTS 3D音效的分类 3D音效的两个最重要因素是定位和交互 定位即让人们准确地判断出声音的来源 可以通过预选录制声音 再进行特定的解码来实现 实时的定位就是交互 声音并非预选录制好的 而是按照你的控制来决定声音的位置 即时生成的交互式声音对输入设备的要求 比预选录制音轨的放音设备 如 电影 要更强一些 3D音效的分类 扩展式立体声它使用声音延迟技术对传统的立体声进行额外处理 扩宽了音场的位置 使声音延展到音箱以外的空间 让我们感觉的3D世界更广阔环绕立体声它采用音频压缩技术 如 杜比AC 3 把多通道音源编码成一段程序 再以一组多扬声器系统来进行解码 实现多区域环绕效果 交互式3D音效交互式3D尽量地复制了人耳在真实世界中听到的声音 并使用一定的算法来播放出来 让我们感到整个三维空间的所有地方都可能产生声音 并随听者的移动而做出相应改变 三维音效 人类的听觉 3D音效的分类杜比AC 3DTS 杜比AC 3 为了提高HDTV声音的质量 避免模拟矩阵编码的局限性 提出了双通道的码率提供多通道的编码性能的设想 杜比AC 3就是为了实现这一设想而开发的 杜比AC 3可以把五个独立的全频带和一个超低音通道的信号实行统一编码 成为单一的复合数据流 AC 3的频响为20Hz 20kHz 0 5dB 3dB时为3Hz 20 3kHz 超低声道频率范围是20Hz 120Hz 0 5dB 可支持32kHz 44 1kHz 48kHz三种取样频率 数码率可低至单声道的32kb s 高到多声道640kb s 以适应不同需要 杜比AC 3 AC 3采用基于改良离散余弦变换 MDCT 的自适应变换编码 ATC 算法 ATC算法的一个重要考虑是基于人耳听觉掩蔽效应的临界频带理论 即在临界频带内一个声音对另一个声音信号的掩蔽效应最明显 因此 划分频带的滤波器组要有足够锐利的频率响应 以保证临界频带外的噪声衰减足够大 使时域和频域内的噪声限定在掩蔽门限以下 三维音效 人类的听觉 3D音效的分类 杜比AC 3DTS DTS DTS是 DigitalTheatreSystem 的缩写 是 数字化影院系统 的意思 从技术上讲 DTS与包括DolbyDigital在内的其它声音处理系统是完全不同的 Dol

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论