多媒体通信复习资料(共12页)_第1页
多媒体通信复习资料(共12页)_第2页
多媒体通信复习资料(共12页)_第3页
多媒体通信复习资料(共12页)_第4页
多媒体通信复习资料(共12页)_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、丑八怪出版Chapter 1 何谓(hwi)多媒体呢?“多媒体”一词译自英文“Multimedia” 即“Multiple”和”Media”的合成(hchng),其核心词是媒体。 媒体:信息传递(chund)和存取的最基本的技术和手段 通常概念的“媒体” ,可分为以下五种类型: 感觉媒体:能直接作用于人们的感觉器官,从而能使人产生直接感觉的媒体。 表示媒体:为了传送感觉媒体而人为研究出来的媒体。借助于此种媒体,便能更有效的存储或传送感觉媒体。如语言编码、电报码等。 显示媒体:用于通信中使电信号和感觉媒体之间产生转换用的媒体。如输入、输出设施,键盘鼠标器、显示器、打印机等。 传输媒体:用于传输某

2、些媒体的媒体。如电话线、电缆光纤等。 存储媒体:用于存放某种媒体的媒体。如纸张、磁带、磁盘、光盘等。 多媒体的定义: 多种媒体信息的综合,文本、图形、图像、音频和视频各种媒体信息的综合。 文本分为非格式化文本文件和格式化文本文件。 非格式化文本文件:只有文本信息没有其他任何有关格式信息的文件,又称为纯文本文件。 如“.TXT ”文件。 格式化文本文件:带有各种文本排版信息等格式信息的文本文件。 如“.DOC ”文件。 图形(Graphic)一般指用计算机绘制的画面,如直线、圆、圆弧、矩形、任意曲线和图表等。在图形文件中只记录生成图的算法和图上的某些特征点,因此也称矢量图。 图像(Image)是

3、指由输入设备捕捉的实际场景画面,或以数字化形式存储的任意画面。静止的图像是一个矩阵,阵列中的各项数字用来描述构成图像的各个点(称为像素点 pixel )的强度与颜色等信息。这种图像也称为位图( bit-mapped picture )。图像文件在计算机中的存储格式有多种,如 BMP、PCX、TIF、TGA、GIF、JPG 等,一般数据量都较大。 采样频率(sampling rate)是将模拟声音波形转换为数字时,每秒钟所抽取声波幅度样本的次数,单位是Hz(赫兹)。 数字音频的存储量:可用以下公式估算声音数字化后每秒所需的存储量(未经压缩的)存储量 = 采样频率量化位数 声道数8若使用(shyn

4、g)双声道,存储量再增加一倍例如(lr),数字激光唱盘(CD-DA)的标准采样(ci yn)频率为44.1 kHz,量化位数为16 位,立体声。一分钟 CD-DA 音乐所需的存储量为44.1 K162608 = 10584 KB 视频文件的存储格式有AVI、MPG、MOV等。 多媒体通信的三个主要特性 :集成性、交互性、同步性。 集成性是指以计算机为中心综合处理多种信息媒体,它包括信息媒体的集成和处理这些媒体的设备的集成。 交互性是指用户可以与计算机的多种信息媒体进行交互操作,从而为用户提供了更加有效地控制和使用信息的手段。 同步性是指在多媒体通信终端上所显示的文字、声音和图像是以在时空上的同

5、步方式工作的。Chapter 2多媒体信息的特点: eq oac(,1)多媒体数据类型复杂(多样性) eq oac(,2)多媒体数据的实时性 eq oac(,3)多媒体数据的同步性 eq oac(,4)数据量大 eq oac(,5)多媒体数据的交互性 eq oac(,6)码率可变、突发性强 信息压缩的必要性:信息量大,数据量大,通信系统中信道带宽和存储设备有限。 信息压缩的可行性:空间冗余、时间冗余、视觉冗余、编码冗余、结构冗余、知识冗余、其他冗余。(主要是前三种)Chapter 3 声音的频率是多少?声音分类频率范围亚声波0-20 Hz人类听力所能接受20-20K Hz超声波20K-1G H

6、z超高声波1G-10G Hz 采样频率: 话音信号的最高频率约为3.4 kHz,采样频率一般选为8 kHz。音频采样频率的常见标准有11.025kHz,22.05kHz,44.1kHz,48kHz等。 声音未经压缩时的码率可由下式算出: 声音的码率采样频率量化精度声道数声音类型声音带宽(Hz)采样频率(kHz)量化位数(bits)声道数未压缩时的码率(kbps)数字语音300-340088164CD唱片20-2000044.11621411.2 掩蔽(ynb)效应:一种频率的声音阻碍(z i)听觉系统感受另一种频率的声音的现象称为掩蔽效应。 前者称为(chn wi)掩蔽声音,后者称为被掩蔽声音

7、。 时域掩蔽效应:是指掩蔽效应发生在掩蔽声与被掩蔽声不同时出现时,又称异时掩蔽。 频域掩蔽效应:一个强纯音会掩蔽在其附近同时发声的弱纯音,这种特性称为频域掩蔽,也称同时掩蔽。 ITU-T G系列音频压缩编码标准 标准 比特速度 编码技术 应用 G.711 64kb/s PCM 公共电话网 GSM音频 13kb/s RPE-LPC GSM移动网 Chapter 4 图像的颜色模型 RGB模型-显示系统 (加色) 颜色R(红的百分比)G(绿的百分比)B(蓝的百分比) CMY模型-印刷工业 减色混合模型,用青色(C)、紫色(M)、黄色(Y)按一定比例产生的颜色 XYZ模型-传输存储RGB模型不用传输

8、系统的原因:大大(d d)加宽视频信号带宽 与单色电视(dinsh)不兼容 增加(zngji)相关设备成本三种电视系统:PAL:大多数西欧国家、中国、中东 25帧/秒 YUVNTSC:北美、日本等部分亚洲国家 30帧/秒 YIQSECAM:前苏联、东欧、法国、中东 25帧/秒 YUV YUV模型 Y表示亮度信号,UV表示色度信号,Y与UV是分离的。如只有Y,没有UV,则为黑白灰度图像。YIQ模型 Y表示亮度信号,IQ分量分别由UV分量旋转33度YCbCr模型 YCbCr模型是YUV模型派生出来的模型 主要用于数字电视系统以及图像视频压缩标准 HSI模型-图像处理 反映了人的视觉系统观察彩色的方

9、式 ,I分量与图像的彩色信息无关,H和S分量与人感受颜色的方式是紧密相联的 图像的数字化包括采样和量化、编码等过程。 采样:将空间上连续的图像变换成离散点的操作称为采样。静态:先沿垂直方向采样, 再沿水平方向采样;运动:先在时间轴上采样,再沿垂直方向采样,最后沿水平方向采样。 量化:把采样后所得的各像素的灰度值转换为整数的过程称为量化。 与量化有关的概念1、表示像素明暗程度的整数称为灰度级。(或灰度值、灰度) 2、一幅数字图像中不同灰度级的个数称为灰度级数(G) 3、G=2g,g表示存储图像灰度级数所需的比特位数(bit) (G灰度等级,g像素深度)如:灰度级数G=256,8比特量化,(0-2

10、55)或=6比特的量化,可以满足视觉效果; 8比特量化 4、均匀量化和非均匀量化 一般使用均匀量化 目前使用的子采样格式有如下几种: (1) 4:4:4采样方式 (2) 4:2:2采样方式 如: (3) 4:1:1采样方式 (4) 4:2:0采样方式(注意:0不代表没有)已知Y分量,如何求U、V分量?按比例计算 MATLAB指令: eq oac(,1)dct2函数 eq oac(,2)idct2函数 eq oac(,3)dctmtx函数功能:二维DCT正变换 功能:二维DCT反变换 功能:计算DCT变换矩阵格式:B=dct2(A) 格式:B=idct2(A) 格式:G=dctmtx(n) DC

11、T变换的性质:DCT是实数序列偶延拓后的DFT变换 变换矩阵与变换内容无关,正反变换变换核相同 DCT具有可分离性,二维DCT可变为两次一维DCT 去相关性仅次于K-L变换,由于其实现容易,因而广泛应用F(0,0)为直流系数,其余则为交流系数,系数主要集中(jzhng)在直流和低频部分 图像信号(xnho)的正交变换的特点: 能量守恒性: 能量集中(jzhng)性:空间域亮度均匀分布,频率大部分能量集中在低频系数上 去相关性:空间域相关像素,通过正交变换在频域大大降低变换系数之间相关性。 熵保持性:变换系数F(u,v)的熵值和原图像信号f(x,y)熵值相等。 图像的统计特性 图像空间域统计特性

12、 相邻像素之间的相关特性随两像素之间距离增大而减小。 图像差值信号统计特性 帧内差值统计特性: 指对一幅(帧)图像内部像素进行的统计特性。它为电视图像的帧间压缩编码提供重要依据。 图像频域统计特性 从频谱角度看出,电视/图像信号绝大部分能量集中于频率域中的低频部分。 图像压缩的性能指标:平均码字长度: 压缩比: 编码效率: 冗余度: 比特率:编码的平均码长 霍夫曼编码编码过程:按概率从大到小的顺序排列信源符号 从最小的两个概率开始编码,将概率较大的信源符号编为1(或0),将概率较小的信源编为0(或1),如果两个符号概率相同,则任意编码1或者0对已编的两个概率求和,其结果与未编码的概率从大到小排

13、序 重复第二、三步,直到概率达到1为止 画出每个信源符号的概率到1处的路径 沿路径的逆方向记下每个符号的二进制序列,即为霍夫曼编码 例子说明:编码不唯一,但平均码长相同 编码效率相同,但对应码字不同 方差Var(C1)=1.36,Var(C2)=0.16,表明第二种编码码字变化小,是比较可取的方法,因在恒定码率的情况下,字长变化小对缓冲器的容量就小 霍夫曼编码是唯一可译码 结论:在霍夫曼编码过程中,对缩减信源符号按概率由大到小的顺序重新排列时,应使合并后的新符号尽可能排在靠前位置,使新符号重复(chngf)编码次数减少,使短码得到充分利用 行程(xngchng)长度编码 扫描一行中,黑白像素(

14、xin s)连续出现的数目 ,按照各个行程长度出现的概率分布为其分配相应的码字,达到压缩的目的 国际传真编码标准G3采用改进霍夫曼编码,将码表分为终止码表和形成码表 终止码表 较短的行程发生的概率比较大,直接进行编码,即终止码 统计表明:行程长度为063发生的概率大 形成码表 对于发生概率小的较长的行程采用行程=64N+M的方式进行编码,N即为形成码,M为终止码 查表规则如下: G3规定:传真每行为1728个像素行程小于64的,查终止码表直接编码 行程大于63的,以64的整数倍为索引查形成码表,以余数为索引查终止码表,两者组合即为其编码 G3规定,每一行以白长开始,其长度可以为0,以EOL码结

15、束 JPEG编码特点:压缩比高,压缩质量比较好。图像主观质量损伤难以察觉 有多个参数。用户能得到所需的压缩比或图像质量 无论连续色调图像的维数,彩色空间,像素宽高比或其他特征如何,都能得到良好的压缩效果。 处理速度快,具有成熟的价格低廉的硬件电路支持。 四种运行模式 顺序模式:扫描从左到右,从上到下 渐近模式:图像压缩由粗到细 无损模式:不允许有像素损失 分级模式:图像在多分辨率下进行压缩 图像预处理 格式转换: RGBYUV RGB和YUV之间的变换不包含在JPEG算法中RGB各分量之间存在相关性,而YUV各分量之间的相关性弱 二次采样: 人眼对亮度敏感,而对色度不敏感,可以采用YUV422

16、和YUV411 数据单元DU: 输入图像的每个分量被分割成相互(xingh)不重叠的88的子块,块内的64个数据组成(z chn)一个数据单元 如果(rgu)图像的行数或列数不是8的倍数,则复制底行和最右边一列至所需的倍数 最小编码单元MCU: 以最低采样频率的分量为准,将该分量一个DU所对应像区上覆盖的所有各分量上的DU按顺序编组为一个最小编码单元 灰度图像:只有一个Y分量,1个MCU只有一个DU彩色图像:以YUV411采样,则1个MCU有4个Y分量的DU,1个U分量的DU,一个V分量的DU DC系数和AC系数扫描 AC,DC均用二进制补码表示的整数量化后的系数表,仍是二维,且非零系数基本上

17、都集中在左上角。 DC系数远大于AC系数,且相邻子块的DC系数具有很强的相关性。 直流系数(DC)编码 编码方法 前缀码+尾码 前缀码:指明尾码的有效位数,其值为B尾码:将Diff表示成B位二进制 原始图像分量为8bit精度时DC系数差值的典型霍夫曼编码表 交流系数(AC)编码 编码方法 前缀码+尾码 前缀(qinzhu)码:(零行程(xngchng),非零值),(NNNN,SSSS)NNNN:只能(zh nn)表示ZRL小于16的值,当值ZRL大于15时,用11110000扩展,再对ZRL=ZRL-16继续编码 SSSS:查AC系数的尾码位数赋值表得数字B尾码:非零AC系数值 AC系数的尾码

18、位数赋值表 JPEG编码举例 源图像采样(a) 像素减128后图像值(b) FDCT系数(c) 量化后DCT系数(d) 前一子块量化后DC系数为3 扫描后的序列为: (2)(3),(0,3)(-5),(0,1)(-1),(0,1)(1),(0,1)(-1),(0,1)(-1),(1,1)(1),(0,1)(1),(0,0)查表: 尾数编码为: 比特流为: 011,11,100,010,00,0,00,1,00,0,00,0,1100,1,00,1,1010压缩比为r=864/35=14.63 序列图像都是一帧一帧地传输,看作一个沿时间轴分布(fnb)的图像序列,称为序列图像。(每帧为静态(jn

19、gti)) 视频信号编码(bin m)的依据: 依据1:从信源角度看,自然景物大多都处于相对不变或缓变状态,为帧间相关性存在前提条件。画面分为3个各具特点区域:背景区、运动物体区、暴露区注意:如果将整个画面从一类景物切换为另一类景物时,则谈不上帧间相关性利用。因为整个画面内容数据全部改变了。 依据2:利用人眼视觉特性,在活动图像编码中针对图像内容在清晰度和活动性(帧频)适当调整码率,可使重建图像在视觉上保持一致主观效果。 运动估计与补偿预测方法: 相邻画面高度相似,其中差别变化是由于物体运动或摄象机运动所引起的。 画面中物体或像素的运动是可以估计的。 因此,可以从前面的画面预测当前画面,编码器

20、只对预测误差进行编码。 不能进行预测的画面或区域使用JPEG进行编码(利用画面内部相关性)。相邻帧间的主要变化是由于构成景物的各物体的运动引起的。 运动估计:将活动图像分为若干个块,检测出当前帧中每个块在前一帧(参考帧)图像中的对应位置,从而可以估计出这个块的位移,用运动矢量表示。这个过程叫做运动估计。(块大小16x16) 菱形搜索法(DS)本算法经过多次改进,已成为目前快速匹配算法中性能最优异的算法之一 基本思想:使用两种搜索(su su)模板,9个检测点的大模板(mbn)LDSP和5个检测点的小模板(mbn)SDSP搜索时,先用大模板计算,当最匹配块出现在中心点处时,换大模板为小模板,再进

21、行匹配计算,5个点中的最匹配点即为最优点。 算法步骤: 用LDSP在搜索区域中心及周围8个点处进行匹配计算,若最匹 配点位于中心,则进行Step3;否则,到Step2 以上一次找到的最匹配点为中心点,用新的LDSP来计算,若最匹配点位于中心点,则进行Step3;否则,重复本步 以上一次找到的最匹配点为中心点,将LDSP换为SDSP,在5个点处计算,找到最匹配点,该点所在位置即为最佳运动矢量。 三种常见的视频帧 I帧:帧内图像 第一帧必须是I帧,且需定期传送I帧 P帧:前向预测图像 B帧双向预测图像 ITU: H.26X系列压缩标准 (通信) ISO/IEC: MPEG系列压缩标准 (音视频传输) MPEG1数据传输速率为1.5Mb/s的数字存储媒体运动图像及其伴音编码标准 (音频0.3Mbps,视频

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论