多媒体信息处理的必要性和可行性_第1页
多媒体信息处理的必要性和可行性_第2页
多媒体信息处理的必要性和可行性_第3页
多媒体信息处理的必要性和可行性_第4页
多媒体信息处理的必要性和可行性_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、多媒体信息处理的必要性和可行性第1页,共26页,2022年,5月20日,13点46分,星期二2.1 多媒体信息的特点 多媒体信息主要有三个特征: (1)数据量庞大:和文本信息相比,语音、图像的信息量就显得十分庞大。例如,用生动的语音表达和文本文字相同的一段内容,语音所需要的数据量要比文本大10倍以上。若要用图像来大体表示同样的意思,则图像所需要的数据量又不知道要大多少倍了。 第2页,共26页,2022年,5月20日,13点46分,星期二 (2) 码率可变、突发性强:代表多媒体信息的数据流其码率是随着不同的信息内容、所处的不同时间而不断变化的。人们讲话时的停顿、所传场景图像中物体的运动等都会形成

2、码流速率的波动,而且这种波动往往呈现出极强的突发性。再加上采用了种种信息压缩编码的方法,就更加剧了这种变化。 (3) 复合性信息多,同步性、实时性要求高:多媒体通信系统中传输的往往是两种或两种以上媒体的复合信息,各类信息之间存在着很强的关联,因此,对信息传输的同步性及实时性的要求相当高。 第3页,共26页,2022年,5月20日,13点46分,星期二2.2 信息压缩的必要性 1. 图像或视频信号 以彩色电视信号为例,设代表光强、色彩和色饱和度的YIQ空间中各分量的带宽分别为4MHz、1.3MHz和0.5MHz。由采样定理,仅当采样频率2倍的原始信号的频率时,才能保证采样后的信号可被保真地恢复为

3、原始信号。 设各样点均被数字化为8bit,从而1s的数据量为 (41.30.5) 2 8 bit = 92.8 Mbit 因而一张640MB的CDROM能够存放的原始电视数据(每字节附有2位校验位)为:640892.8(1+0.25)=44 s 即 一张普通光盘只能存放44 s的原始数据。 第4页,共26页,2022年,5月20日,13点46分,星期二 2. 语音信号 人在正常说话时的音频一般在200Hz3.4kHz,即人类语音的带宽为3.4 kHz。同样依据采样定理,并设数字化精度为8bit,则每秒的数据量为 3.4 kHz28=54.4 kbit 在上述采样条件下讲一分钟话的数据量约为40

4、0kbit。 表2.2-1列出了支持语音、图像、视频等多媒体信号高质量存储和传输所必需的未压缩速率以及信号特性。 第5页,共26页,2022年,5月20日,13点46分,星期二表2.2-1 各种信号的特性和未压缩速率 第6页,共26页,2022年,5月20日,13点46分,星期二 未进行编码和压缩:窄带语音信号需要128kb/s的速率,即两倍于普通电话的速率。宽带话音需要256kb/s的速率,双声道立体声CD音频需要1.41 Mb/s的速率。 在保持原始信号质量的前提下压缩:窄带语音4kb/s(301的压缩比),宽带话音16kb/s(151的压缩比),CD音频64kb/s(221的压缩比)。

5、对于多媒体处理系统的语音、图像、视频、文本、数据的结合,信号进行存储和传输之前,必须进行处理,而最关键的处理方法是压缩。多媒体信息压缩技术的对象主要是视频、音频和文本信息这三大类。如对多数图像实现大于1001的压缩比,而质量没有重大损失。第7页,共26页,2022年,5月20日,13点46分,星期二2.3 信息压缩的可行性 数据中通常包含很大的冗余,数据的大小与所携带的信息量的关系由下式给出: I=D-r (2.3-1) 其中I,D,r分别为信息量、数据量与冗余量。以存储一本200万字的中文百科全书为例,每个汉字以2字节计算,该书的数据量为4MB。若使用Huffman算法,就可简单地将大约2M

6、B左右的冗余数据寻找出来并压缩掉,这样就可以节省出2MB的存储空间。 第8页,共26页,2022年,5月20日,13点46分,星期二 1 空间冗余 在任何一幅图像中,均有许多灰度或颜色都相同或相近的邻近像素组成的局部区域,它们形成了一个性质相同的集合块, 即它们之间具有空间上的强相关性,表现为空间冗余。 对空间冗余的压缩方法就是把这种集合块当作一个整体,用极少的数据量来表示它,从而节省了存储空间。这种压缩方法叫空间压缩或帧内压缩,它的基本点就在于减少邻近像素之间的空间相关性。第9页,共26页,2022年,5月20日,13点46分,星期二图2.3-1 空间冗余 第10页,共26页,2022年,5

7、月20日,13点46分,星期二 2 时间冗余 时间冗余是活动图像和语音数据中经常包含的冗余。活动图像中的两幅相邻的图像有较大的相关性,这反映为时间冗余。同理,在语音中,由于人在说话时其发出的音频是一个连续和渐变的过程,而不是一个完全的时间上独立的过程, 因而存在着时间冗余。 利用这种时间冗余,可实现数据压缩。这种压缩对运动图像往往能得到很高的压缩比,这也称为时间压缩或帧间压缩。 第11页,共26页,2022年,5月20日,13点46分,星期二图2.3-2 时间冗余 第12页,共26页,2022年,5月20日,13点46分,星期二第13页,共26页,2022年,5月20日,13点46分,星期二

8、3 信息熵冗余(编码冗余) 所谓熵就是平均信息量。(2.3-2) 图2.3-3 结构冗余示意图(草席) 4. 结构冗余 第14页,共26页,2022年,5月20日,13点46分,星期二 5 知识冗余 人们通过认识世界而得到某些图像所具有的先验知识和背景知识,由此带来的冗余称为知识冗余。如人脸的图像有固定的结构,嘴的上方有鼻子,鼻子的上方有眼睛,鼻子位于正脸图像的中线上等等。这类规律的结构可由先验知识和背景知识得到, 因此这类信息对一般人来说是冗余信息。第15页,共26页,2022年,5月20日,13点46分,星期二 6 视觉听觉冗余 以视觉为例,人类的视觉系统并不能对图像画面的任何变化都能感觉

9、到,视觉系统对于图像场的注意是非均匀和非线性的,即注意主要部分质量,同时取画面的整体效果,不拘泥每一个细节。 例如,人的视觉对于图像边缘的急剧变化不敏感,对图像的亮度信息敏感,对颜色的分辨率较弱等。因此,如果图像经压缩或量化发生的变化(或称引入了噪声)不能被视觉所感觉,则认为图像质量是完好的或是够好的,即图像压缩并恢复后仍有满意的主观图像质量。 第16页,共26页,2022年,5月20日,13点46分,星期二 7 其他冗余 多媒体数据除了具有上面所说的各种冗余外, 还存在一些其他的冗余类型。 例如, 图像的空间非定常特性所带来的冗余,频谱冗余等。 空间冗余和时间冗余是将图像信号看作为随机信号时

10、所反映出的统计特征, 因此有时把这两种冗余称为统计冗余。 它们也是多媒体图像数据处理中两种最主要的数据冗余。 第17页,共26页,2022年,5月20日,13点46分,星期二2.4 数据压缩技术的性能指标 1 压缩比(编码效率) 压缩性能常常用压缩比来定义,也就是压缩过程中输入数据量和输出数据量之比。压缩比越大,说明数据压缩的程度越高。在实际应用中,压缩比可以定义为比特流中每个样点所需要的比特数。 由于同一压缩编码算法对不同信号的编码效率往往不同。为了公平地衡量压缩编码算法的效率,常常需要定义一些所谓的“标准图像(或语音)”。通过测量不同编码算法在同一组“标准图像”上的性能来评价各压缩算法的编

11、码效率。第18页,共26页,2022年,5月20日,13点46分,星期二 (a)头发部分高频数据含量丰富,背景含低频数据,肩部亮度过渡平滑;(b)低频区域含量适中,但物体边缘丰富,头巾、裤子及桌布上有极细腻的条纹;(c)高频数据极为丰富,特别是脸部毛发部分,主要用于评价图像编码算法对高频区域数据的处理性能。 (a)Lena图像 (b)Barbara图像 (c)Mandrill图像 国际上流行的三幅标准图像 第19页,共26页,2022年,5月20日,13点46分,星期二 2 重现质量 重现质量是指比较重现时的图像、声音信号与原始图像、声音之间有多少失真,这与压缩的类型有关。压缩方法可以分为无损

12、压缩和有损压缩。无损压缩是指压缩和解压缩过程中没有损失原始图像或声音的信息,所以对无损系统不必担心重现质量。 有损压缩虽然可获得较大的压缩比,但压缩比过高, 还原后的图像、声音质量就可能降低。图像和声音质量的评估常采用客观评估和主观评估两种方法。以图像信息压缩为例。 图像的主观评价采用5分制, 其分值在15分情况下的主观评价如表2.4-1所示。 第20页,共26页,2022年,5月20日,13点46分,星期二表2.4-1 图像主观评价性能表 主观评价分 质量尺度 妨碍观看尺度 5 非常好 丝毫看不出图像质量变坏 4 好 能看出图像质量变化,但不妨碍观看 3 一般 清楚地看出图像质量变坏,对观看

13、稍有妨碍 2 差 对观看有妨碍 1 非常差 非常严重地妨碍观看第21页,共26页,2022年,5月20日,13点46分,星期二 而客观尺度通常有以下几种: 均方误差: 峰值信噪比: 信噪比: 第22页,共26页,2022年,5月20日,13点46分,星期二 虽然图像、语音的信噪比值在一定程度上反映了人类观察者对编码质量的感觉,但它并不等同于编码图像、语音的主观质量。 某些编码图像、语音,尽管其信噪比值不高,但由于其编码误差的分布恰使人眼、耳不易察觉图像、语音中的误差失真,而使图像、语音在人视觉、听觉看来质量很高。 而有些编码,尽管其信噪比值很高,但由于其编码误差以人眼、耳很敏感的方式表现出来,

14、其主观质量并不高,这一现象的著名实例是分块图像编码中常见的块效应。第23页,共26页,2022年,5月20日,13点46分,星期二 3 压缩和解压缩的速度 压缩与解压缩的速度是两项单独的性能度量。有些应用中,压缩与解压缩都需要实时进行,这称为对称压缩,如电视会议的图像传输;在有些应用中,压缩可以用非实时压缩,而只要解压缩是实时的,这种压缩称为非对称压缩,如多媒体CD-ROM的节目制作。从目前开发的压缩技术看,一般压缩的计算量比解压缩要大。在静止图像中,压缩速度没有解压缩速度要求严格。 第24页,共26页,2022年,5月20日,13点46分,星期二 但对于动态视频的压缩与解压缩,速度问题是至关重要的。动态视频为保证帧间动作变化的连贯要求,必须有较高的帧速。大多数情况动态视频至少为15帧/s,而全动态视频则要求有25帧/s或30帧/s。因此,压缩和解压缩速度的快慢直接影响实时图像通信的完成。 此外,还要考虑软件和硬件的开销。有些数据的压缩和解压缩可以在标准的PC硬件上用软件实现,有些则因为算法太复杂或者质量

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论