版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、网络多媒体技术基础需背诵第一章、多媒体技术概要一媒体的概念媒体是一种传播和表达信息的方法,是承载信息的载体。媒体有5种类型:感知、表示、显示、存储、传播感知媒体感觉媒体指的是能直接作用于人们的感觉器官,从而能使人产生直接感觉的媒体。如文字、数据、声音、图形、图像等。 表示媒体表示媒体指的是为了传输感觉媒体而人为研究出来的媒体,借助于此种媒体,能有效地存储感觉媒体或将感觉媒体从一个地方传送到另一个地方。如语言编码、电报码、条形码等。显示媒体表现媒体指的是用于通信中使电信号和感觉媒体之间产生转换用的媒体。如输入、输出设备,包括键盘、鼠标器、显示器、打印机等。存储媒体存储媒体指的是用于存放表示媒体的
2、媒体。如纸张、磁带、磁盘、光盘等。传输媒体传输媒体指的用于传输某种媒体的物理媒体。如双绞线、电缆、光纤等。二多媒体的概念多媒体技术是能同时处理多种信息,使信息之间能建立某种逻辑关系,集成为一个交互系统的技术。三多媒体的特性信息载体的多样性指文字、文本、 图形、图像、视频、语音等多种媒体信息于一体。交互性多媒体的第二个关键特性是交互性。 所谓交互就是通过各种媒体信息, 使参与的各方(不论是发送方还是接收方)都可以进行编辑、 控制和传递。 交互性将向用户提供更加有效的控制和使用信息的手段和方法, 同时也为应用开辟了更加广阔的领域。交互可做到自由地控制和干预信息的处理, 增加对信息的注意力和理解,
3、延长信息的保留时间。集成性多媒体技术是多种媒体的有机集成。它集文字、文本、 图形、图像、视频、语音等多种媒体信息于一体。四多媒体技术的内容体系多媒体技术研究的主要问题是媒体的数字化信息表示、处理与压缩及多种媒体表现形式之间的时序关系。五多媒体信息处理的层次多媒体信息处理技术是指利用数学、美工等方法和多媒体硬件技术的支持来获取、压缩、识别、综合等多媒体信息的技术。获取和压缩可以合并成变换技术。获取-不同形式的媒体信息都须经数字化后才能被计算机处理;计算机处理的数字化结果须转换成声、图、文、像等自然媒体形式反馈给人。压缩-多媒体信息的数据压缩是利用特定算法去除大容量的数据编码中的冗余度以减少信息存
4、储量的变换方式。识别-多媒体信息的识别是对数字化信号进行特征抽取而得到参数及数据的处理方式,如语音识别能将音频信号映射成一串字、词或句子。综合-多媒体信息的综合就是利用模式识别、人工智能等手段将不同媒体形式表达的各种数据综合还原成本来物体对像的处理方法,如语音综合器能将语音的内部表示综合成自然人语输出。从获取到综合是多媒体信息处理程度不断深化的过程。六关键技术由于多媒体系统需要将不同的媒体数据表示成统一的结构码流,然后对其进行变换、重组和分析处理,以进行进一步的存储、传送、输出和交互控制。所以,多媒体的传统关键技术主要集中在以下四类中:数据压缩技术、大规模集成电路(VLSI)制造技术、大容量的
5、光盘存储器(CD-ROM)、实时多任务操作系统。核心领域:多媒体数据表示、压缩、解压缩(转码技术)多媒体数据的处理和分析多媒体通信:可靠,同步,不中断,良好的QoS质量多媒体数据库技术、存储、检索、修复HCI(人机交互),主要研究关于设计、评价和实现供人们使用的交互计算系统以及有关这些现象进行研究的科学。多媒体系统的挑战:(补充)七多媒体应用系统多媒体应用系统包括:可视电话系统、H.323视频会议系统、IP电话、VOD系统、多媒体消息业务等。可视电话系统:目前主要分为两类,即基于PC和纯硬件的可视电话系统,后者开发成本较高。前者包括:调制解调器、视频捕获卡、摄像机以及相应的软硬件系统。H.32
6、3协议体系:是基于分组网的多媒体通信系统,它定义了分组网上提供多媒体通信服务的终端与设备的功能部件、通信过程和在分组网上提供声音、图象和数据通信所需要的协议。IP电话、因特网电话和VoIP:都是在IP网络即信息交换网络上进行的呼叫和通话。IP电话可分为3种:PC到PC,PC到电话,电话到电话。所有的IP电话都遵循一个宗旨:利用Internet传送语音。VOD系统:是用来按用户需求将视频信息通过宽带发布的一种方式。按照业务交互性能大体分为两类:全交互型VOD:根据用户的点播指令,网络向用户提供单独的信息流。准VOD:每个电影节目按照一定的时间间隔,重复发送有限个信息流,供给所有的点播用户使用,这
7、种点播方式的用户得到响应的时间可能在0-15分钟之间。多媒体消息业务:彩信。八多媒体系统的标准化多媒体系统的集成要求不同类型的系统在实现相互沟通,在不同层次和不同部件之间进行信息交换。对多媒体系统的标准化提出很高的要求。用户界面,网络接口,描述语言,数据格式,交换单元标准基本分为两类:以ISO为代表,ISO和IEC成立了ISO-IEC/JTC1(联合技术委员会),JTC1分为18个子委员会(SC)以计算机为中心,强调存储和回放。以ITU为代表,成立了ICG、AVMMS(视听多媒体业务联合协调组)以通信为基础,强调通信网络上多媒体信息的传输。九、多媒体技术的发展趋势网络化的多媒体技术以用户为中心
8、的交互多媒体技术和智能多媒体技术嵌入化的多媒体技术(补充)第二章、 数字音频技术一音频信号及其心理特征声音的概念声音是通过空气传播的一种连续的波,叫声波。声音的强弱体现在声波压力的大小上,声调的高低体现在声音的频率上。声音用电表示时,声音信号在时间和幅度上都是连续的模拟信号。声音的参数幅度:指波在震动时候上下的幅度大小。频率:指波在一定时间内震动次数。我们把声音按频率范围分为:亚音信号:简单的说是一个低频信号,一个在业余无线电运动中,用于中继接受的信号,有些中继器只有在接受到亚音信号后才允许人们使用它。启用亚音信号的目的并不是要限制火腿使用中继器,而是为了防止外界干扰。如果没有亚音信号,那么任
9、何无关信号都可能激活中继器,因此亚音信号是解决这个问题的好方法。音频信号:音频信号是(Audio)带有语音、音乐和音效的有规律的声波的频率、幅度变化信息载体。 根据声波的特征,可把音频信息分类为规则音频和不规则声音。其中规则音频又可以分为语音、音乐和音效。规则音频是一种连续变化的模拟信号,可用一条连续的曲线来表示,称为声波。声音的三个要素是音调、音强和音色。声波或正弦波有三个重要参数:频率 0、幅度A n 和相位n ,这也就决定了音频信号的特征。超音频信号:(见上)通常把频率范围为20Hz-20KHz的信号称为音频信号,低于20Hz的信号称为亚音信号或次音信号,高于20Hz的信号称为超音频信号
10、或称为超声波信号。声音的听觉特性三要素:音调、音强、音色。音频信号在时域和频域中的表现形式:在时域中表现为幅值随事件连续变化的曲线,在频域中则是将音频信号经傅里叶变化后在频率空间的分立或连续的谱线。响度与响度级:响度是指人类所感受到声音大小的程度,而响度级则是以1kHz信号的声压级数定义的响度的数值,单位是“方”(Phon)。*声压级是客观量,而响度级则是主观量。绝对听阈: 在安静环境中,能被人耳听到的纯音的最小值(该曲线为0方响度级等响度曲线,即该曲线在1kHz时声压级为0db)*在绝对听阈曲线以下的各种声音将不能被人耳察觉。动态范围:是某个声音的最强音与最弱音的强度差,用分贝表示。它是衡量
11、声音强度变化的重要参数。二数字声音基础声音信号数字化:声音信号是典型的连续信号,不仅在时间上是连续的,而且在幅度上也是连续的。数字化的过程主要包括:采样、量化和编码。采样:将声音信号在时间上离散化,即每隔相等的一段时间抽取一个信号样本。采样频率:也称为采样速度或者采样率,定义了每秒从连续信号中提取并组成离散信号的采样个数,它用赫兹(Hz)来表示。当对连续变化的信号波进行采样时,若采样频率fs高于该信号所含最高频率的两倍,那么可以由采样值通过插补技术正确地恢复原信号的波形,否则将会引起频谱混叠产生混叠噪声,而重叠的部分不能恢复。这一定理不仅适用于模拟音频信号,也同样适用于模拟视频信号的采样。(f
12、s=2fmax)量化:将连续的信号幅度离散化。如果幅度的划分是等间隔的,称为线性量化,否则为非线性量化。采样精度(量化时):每个声音样本的数字化位数反映了声音波形幅度的采样精度。样本位数的大小影响到声音的质量,位数越多,声音的质量越高,而需要的存储空间也越多。数字音响设备的动态范围:采用16bit量化,则声音的强弱范围就可划分成:216=65536个等级,因而动态范围可达:20lg216=96(dB)结论:数字系统的音频信号动态范围比模拟系统提高了近一倍。这也是CD技术之所以获得高水准的音质的重要原因。数字vs模拟(补充)声道数:指同一时间出现或产生的音频通道数,可增强现场感码率和声音文件大小
13、声音的码率=采样频率*量化位数*声道数声音文件的大小=声音的码率*时间存储空间可记录的时间=容量/码率声音工具(补充)声音质量的度量客观质量度量:根据声音的记录方式、带宽。把声音的质量分为5个等级。 根据信噪比度量主观质量度量:由评判者从主观上、感觉上对声音质量进行平分。(普遍5分制)三音乐设备数字接口系统(MIDI)MIDI简介:电子乐器数字接口。是用于在音乐合成器、电子乐器、音序器和计算机之间交换音乐信息的一种标准协议。MIDI标准是20 世纪80 年代初期发展起来的,它定义了如何对所有的乐谱元素进行编码,诸如音符序列,时间条件以及演奏每一个音符所使用的乐器。MIDI协议是完整的二进制形式
14、的音乐描述语言,是乐器的计算机使用的标准语言,适用于在音乐合成器、乐器和计算机之间交换音乐信息。四音频编码音频编译码器编译码器(编码器/解码器)转换成模拟信号的数字码流,另一个相同的编解码器转换为数字流回到成模拟信号。编解码器的是用来编码的音频数字存储媒介,如CD和电脑文件。音频编解码器也用来传输数字音频信号传输线。音频编解码器通常分为使用有损压缩和使用无损压缩两大类。衡量编码器的参数:数据输出速率、延迟时间、语音质量、价格。脉冲编码调制(PCM)PCM是概念上最简单、理论上最完善的编码系统,是最早研制成功、使用最为广泛的编码系统,但也是数据量最大的编码系统。差分脉冲编码调制(DPCM)利用样
15、本与样本之间存在的信息冗余度来进行编码的一种数据压缩技术。思想是:根据过去的样本去估算下一个样本信号的幅度大小,这个值称为预测值,然后对实际信号值与预测值之差进行量化编码,从而减少了表示每个样本信号的位数。它与脉冲编码调制不同的是,PCM是直接对采样信号进行量化编码,而DPCM是对实际信号值与预测值之差进行量化编码,存储或传送的是差值而不是复读绝对值,这就降低了传送或存储的数据量。预测方程式:x”k=f(x1,x2,x3xk-1,k)最简单的DPCM-预测方程:x”k=xk-1子带编码子带编码是利用声音个频段的不同特性进一步对数据压缩。思想是:使用一组带通滤波器把输入音频信号的频带分成若干个连
16、续的频段,每个频段称为子带。对每个子带中的音频信号采用单独的编码方案去编码。在信道上传送时,将每个子带的代码复合起来。在接受端译码时,将每个子带的代码单独译码,然后把它们组合起来,还原成原来的音频信号。好处:一,对每个子带信号分别进行自适应控制,量化阶的大小可以按照每个子带的能量电平加以调节。具有较高能量电平的子带用大的量化阶去量化,以减少总的量化噪音。二,可根据每个子带信号在感觉上的重要性,对每个子带分配不同的位数,用来表示每个样本值。常用声音文件格式:mp3 mid wav ape flac第三章、彩色数字图像基础一视觉系统对颜色的感知可见光的波长范围为380nm780nm,大多数自然光都
17、是由不同波长的光组合而成。人的视网膜有对红、绿、蓝颜色敏感程度不同 的三种锥体细胞,另外还有一种在光功率极端 低的条件下才起作用的杆状体细胞,因此颜色只存在于眼睛和大脑中。颜色是视觉系统对可见光的感知结果。 红、绿和蓝三种锥体细胞对不同频率的光的感知程度不同,对不同亮度的感知程度也不同, 因此不同组成成分的可见光就呈现出不同的颜色视觉系统对颜色和亮度的响应特性曲线(各个波长的光的强度相等) 人类眼睛对蓝光的灵敏度远远低于对红光和绿光的灵敏度。亮度响应曲线表明人眼对波长为550nm左右的黄绿色最为敏感。颜色的三要素亮度:是指色彩的明暗程度,也称深浅度,是表现色彩层次感的基础。在也可说是指各种纯正
18、的色彩相互比较所产生的明暗差别。在纯正光谱中,黄色明度最高最亮,其次是橙、绿;再次是红、蓝;紫色明度最低,显得最暗。任何一个彩色,当它掺入白色时,明度提高,当它掺入黑色时,明度降低。同时其纯度也相应降低。同一物体因受光不同会产生明度上的变化。不同颜色的光,强度相同时照射同一物体也会产生不同的亮度感觉。色调:即色彩的相貌和特征。自然界中色彩的种类很多,色相指色彩的种类和名称。饱和度:指色彩的鲜艳程度,也叫纯度。原色是纯度最高的色彩。颜色混合的次数越多,纯度越低,反之,纯度则高。原色中混入补色,纯度会立即降低、变灰。三基色原理自然界中绝大多数彩色都可以由三基色按一定比例混合而得;反之,这些彩色也可
19、以分解成三基色;三基色必须是相互独立的,即其中任何一种基色都不能由其他两种基色混合得到;混合色的色调和饱和度由三基色的混合比例决定;混合色的亮度是三基色亮度之和。颜色混配利用三基色按不同的比例混合来获得彩色的方法称为混色法。混色法有相加混色法和相减混色法。(1)相加混色是指光源色光的相互混合,多用于光照、视频和显示器显示。实现相加混色的方式除了将三种光谱不同的基色光直接投射到一个全反射面上的实际混色外,还有以下几种方法:时间混色法:利用人眼的视觉惰性,顺序地让三种基色光出现在同一表面的同一处,当相隔的时间间隔足够小时,人眼会感到这三种基色光是同时出现的,具有三种基色相加后所得颜色的效果。这种相
20、加混色方法是顺序制彩色电视的基础。空间混色法:这种方法是利用人眼空间细节分辨力差的特点,将三种基色光在同一平面的对应位置充分靠近,只要三个基色光点足够小且充分近,人眼在离开一定距离处将会感到是三种基色光混合后所具有的颜色。或者使用空间坐标相同的三基色光的同时投射产生合成光。这种空间混色的方法是同时制彩色电视的基础。双眼混色法:当人的双眼同时分别观看不同颜色的同一彩色景象时,使之同时获得两种彩色印象,这两种彩色印象在人的大脑中产生相加混色的效果。(2)相减混色是利用颜料、染料等的吸色性质来实现混色的,在彩色印刷、彩色胶片和绘画中采用这种方法。二颜色空间颜色模型是用来精确标定和生成各种颜色的一套规
21、则和定义。某种颜色模型所标定的所有颜色就构成了一个颜色空间。颜色空间通常用三维模型表示,空间中的颜色通常使用代表三个参数的三维坐标来指定。如RGB,XYZ,CMYK等。RGB空间(红绿蓝)是在三基色理论基础上开发的相加混色颜色空间。是依据人眼识别的颜色定义出的空间,可表示大部分颜色。但在科学研究一般不采用RGB颜色空间,因为它的细节难以进行数字化的调整。它将色调,亮度,饱和度三个量放在一起表示,很难分开。它是最通用的面向硬件的彩色模型。该模型用于彩色监视器和一大类彩色视频摄像。任意色彩光F,其配色方程可写成:F=rR+gG+bBCIE对三基色光的波长和基色单位的规定如下:波长为700nm,光通
22、量为1光瓦的红光作为一个红基色单位;波长为546.1nm,光通量为4.5907光瓦的绿光作为一个绿基色单位;波长为435.8nm,光通量为0.0601光瓦的蓝光作为一个蓝基色单位;CMY颜色空间是工业印刷采用的颜色空间。它与RGB对应。简单的类比RGB来源于是物体发光,而CMY是依据反射光得到的。具体应用如打印机:一般采用四色墨盒,即CMY加黑色墨盒。XYZ颜色空间在RGB系统基础上,改用三个假想的原色X、Y、 Z建立了一个新的色度系统。XYZ颜色空间稍加变换就可得到Yxy色彩空间,其中Y取三刺激值中Y的值, 表示亮度,x、y反映颜色的色度特性。在色彩管理中,选择与设备无关的颜色空间是 十分重
23、要的,与设备无关的颜色空间由国际照明委员会(CIE)制定,包括CIEXYZ和CIELAB两个标准。 它们包含了人眼所能辨别的全部颜色。而且,CIEYxy测色制的建立给定量的确定颜色创造了条件。 但是,在这一空间中,两种不同颜色之间的距离值并不能正确地反映人们色彩感觉差别的大小, 也就是说在CIEYxy色厦图中,在 不同的位置不同方向上颜色的宽容量是不同的,这就是Yxy颜色空间 的不均匀性。这一缺陷的存在,使得在Yxy及XYZ空间不能直观地评价颜色。(理解)三图像的数字化采样采样的实质就是要用多少点来描述一幅图像,采样结果质量的高低就是用前面所说的图像分辨率来衡量。简单来讲,对二维空间上连续的图
24、像在水平和垂直方向上等间距地分割成矩形网状结构,所形成的微小方格称为像素点。一副图像就被采样成有限个像素点构成的集合。问题:一幅图像需采样多少点能达到不失真?采样符合采样定理时图像不失真,即:Fs = 2Fmax. 以栅格形式进行采样。子采样对彩色电视图像进行采样时,可以采用两种采样方法。一种是使用相同的采样频率对图像的亮度信号和色差信号进行采样,另一种是对亮度信号和色差信号分别采用不同的采用频率进行采样。如果对色差信号使用的采样频率比对亮度信号使用的采样频率低,这种采样就称为图像子采样(subsampling)。子采样的基本根据是人的视觉系统所具有的两条特性,一是人眼对色度信号的敏感程度比对
25、亮度信号的敏感程度低,利用这个特性可以把图像中表达颜色的信号去掉一些而使人不察觉;二是人眼对图像细节的分辨能力有一定的限度,利用这个特性可以把图像中的高频信号去掉而使人不易察觉。子采样就是利用这个特性来达到压缩彩色电视信号。 子采样有4种格式。量化模拟图像经过采样后,在时间和空间上离散化为像素。但采样所得的像素值(即灰度值)仍是连续量。把采样后所得的各像素的灰度值从模拟量到离散量的转换称为图像灰度的量化。量化等级越多,所得图像层次越丰富,灰度分辨率高,图像质量好,但数据量大; 量化等级越少,图像层次欠丰富,灰度分辨率低,会出现假轮廓现象,图像质量变差,但数据量小。量化可分为均匀量化和非均匀量化
26、。均匀量化是简单地在灰度范围内等间隔量化。非均匀量化是对像素出现频度少的部分量化间隔取大,而对频度大的量化间隔取小。一般情况下,对灰度变化比较平缓的部分用比较多的量化级,在灰度变化比较剧烈的地方用比较高的分辨率。一般,当限定数字图像的大小时, 为了得到质量较好的图像可采用如下原则: (1) 对缓变的图像, 应该细量化, 粗采样, 以避免假轮廓。(2) 对细节丰富的图像, 应细采样, 粗量化, 以避免模糊(混叠)。(理解)四图像的基本属性包括分辨率、像素深度、真/伪彩色、图像的表示法和种类等。分辨率-是屏幕图像的精密度,是指显示器所能显示的像素的多少。由于屏幕上的点、线和面都是由像素组成的,显示
27、器可显示的像素越多,画面就越精细,同样的屏幕区域内能显示的信息也越多,所以分辨率是个非常重要的性能指标之一。显示分辨率,是指单位长度内包含的像素点的数量,它的单位通常为像素/英寸(ppi)。分辨率不仅与显示尺寸有关,还受显像管点距、视频带宽等因素的影响。其中,它和刷新频率的关系比较密切,严格地说,只有当刷新频率为“无闪烁刷新频率”,显示器能达到的最高分辨率数,即为这个显示器的最高分辨率。颜色深度-颜色深度是指存储每个像素所用的位数,它也是用来度量图像的分辨率。表示一个像素的位数越多,它能表达的颜色数目就越多,而它的深度就越深,所占用的存储空间越大。真彩色、伪彩色与直接色真彩色(true col
28、or):真彩色(true-color)是指图像中的每个像素值都分成R、G、B三个基色分量,每个基色分量直接决定其基色的强度,这样产生的色彩称为真彩色。例如图像深度为24,用R:G:B=8:8:8来表示色彩,则R、G、B各占用8位来表示各自基色分量的强度,每个基色分量的强度等级为28=256种。图像可容纳224=16M种色彩(24位色)。24位色被称为真彩色,它可以达到人眼分辨的极限,发色数是1677万多色,也就是2的24次方。但32位色就并非是2的32次方的发色数,它其实也是1677万多色,不过它增加了256阶颜色的灰度,为了方便称呼,就规定它为32位色。少量显卡能达到36位色,它是24位发色
29、数再加512阶颜色灰度。但其实自然界的色彩是不能用任何数字归纳的,这些只是相对于人眼的识别能力,这样得到的色彩可以相对人眼基本反映原图的真实色彩,故称真彩色。伪彩色(pseudo color):伪彩色(pseudo-color)图像的每个像素值实际上是一个索引值或代码,该代码值作为色彩查找表CLUT(Color Look-Up Table)中某一项的入口地址,根据该地址可查找出包含实际R、G、B的强度值。这种用查找映射的方法产生的色彩称为伪彩色。用这种方式产生的色彩本身是真的,不过它不一定反映原图的色彩。在VGA显示系统中,调色板就相当于色彩查找表。从16色标准VGA调色板的定义可以看出这种伪
30、彩色的工作方式。 伪彩色一般用于65K色以下的显示方式中。标准的调色板是在256K色谱中按色调均匀地选取16种或256种色彩。一般应用中,有的图像往往偏向于某一种或几种色调,此时如果采用标准调色板,则色彩失真较多。因此,同一幅图像,采用不同的调色板显示可能会出现不同的色彩效果。 直接色(direct color):每个像素值分成R,G,B分量,每个分量作为单独的索引值对它做变换。也就是通过相应的彩色变换表找出基色强度,用变换后得到的R,G,B强度值产生的彩色称为直接色。它的特点是对每个基色进行变换。用这种系统产生颜色与真彩色系统相比,相同之处是都采用R,G,B分量决定基色强度,不同之处是前者的
31、基色强度直接用R,G,B决定,而后者的基色强度由R,G,B经变换后决定。因而这两种系统产生的颜色就有差别。试验结果表明,使用直接色在显示器上显示的彩色图像看起来真实、很自然。这种系统与伪彩色系统相比,相同之处是都采用查找表,不同之处是前者对R,G,B分量分别进行变换,后者是把整个像素当作查找表的索引值进行彩色变换。五图像的分类矢量图与点位图矢量图是用一系列计算机指令来表示一幅图,如画点、画线、画曲线、画圆、画矩形等。这种方法 实际上是用数学方法来描述一幅图。矢量图的优点是: 任意放大缩小,且图象数据量小矢量图的缺点是: 色彩不丰富,无法表现逼真的景物点位图是将一副图像在空间上离散化,即将图像
32、分成许许多多的像素,每个象素用若干个二进制位 来指定该像素的颜色或灰度值。点位图的优点是: 可以表现出色彩丰富的图象-图象效果 可逼真表现自然界各类景物点位图的缺点是: 不能任意放大缩小,且图象数据量大灰度图与彩色图灰度图按照灰度等级的数目来划分。只有黑白两中颜色的图像 称为单色图像,如下图所示的标准图像。图中的每个像素的像素值 用1位存储,它的值只有0或者1。标准灰度图像中每个像素的像素值用一个字节表示,灰度值 级数就等于256级,每个像素可以是0255之间的任何一个值。 彩色图可按照颜色的数目来划分,例如256色图像 (彩色图像的每个像素的R、G和B值用一个字节来表 示)和真彩色图像(22
33、4=16 777 216种颜色)等。 六图像文件格式文件格式是存储文本、图形或者图像数据的一种数据结构。目前比较流行的图像文件格式有:GIF、TIFF、BMP、 TGA、JPEG、PNG等。第四章、彩色数字电视基础一电视的扫描电视系统采用顺序制传送,即按一定顺序将一个个像素的光学信息轮流转换成电信号, 用一条传输通道依次传送出去,在接收端的屏 幕上再按同样的顺序将电信号在相应的位置上 转换成光学信息。所有像素在进行光电转换、传输、以及电光转换时都要按照一定的规律进 行,实现这一规律的过程称为扫描。电视系统的扫描轨迹是直线型的。扫描规 律类似于人眼在看书时视线的移动规律, 即对每一幅画面来说,扫
34、描在垂直方向 (帧扫或场扫)自上而下一行一行进行, 在水平方向上(行扫)每一行从左到右进 行。扫描完第一幅画面之后再扫描第二幅, 如此循环进行。如果扫描速度足够快,使 画面换幅频率既满足画面及活动景物连续 感的要求,又满足临界闪烁频率的要求, 则在接收端屏幕上看到的就是既有连续感 又无闪烁感的活动影像了。 视觉的时间域响应特性让观察者观察按时间重复的亮度脉冲,如果闪烁频率比较低,人眼就有一亮一暗的感觉。如果闪烁频率足够高,人眼看到的则是一个恒定的亮点。闪烁感刚好消失的重复频率叫做临界闪烁频率,经测定为46HZ。电影播放过程中,每秒投射24幅画面,每幅画面投 射过程中用机械挡光阀遮挡一次,这样就
35、得到了 48HZ的闪烁频率。要保持画面中物体运动的连续性,要求每秒钟摄取的画面数约为25帧左右。在电视及图像传输、显示系统中使用较多的 扫描方式是逐行扫描和隔行扫描: 逐行扫描相对于隔行扫描是一种先进的扫描方式,它是指显示屏显示图像进行扫描时,从屏幕左上角的第一行开始逐行进行,整个图像扫描一次完成。因此图像显示画面闪烁小,显示效果好。目前先进的显示器大都采用逐行扫描方式。隔行扫描就是每一帧被分割为两场,每一场包含了一帧中所有的奇数扫描行或者偶数扫描行,通常是先扫描奇数行得到第一场,然后扫描偶数行得到第二场。二彩色电视制式NTSC彩色电视制的主要特性是:525行/帧, 30帧/秒(29.97 f
36、ps, 33.37 ms/frame)。 高宽比:电视画面的长宽比(电视为4:3;电影为3:2;高清晰度电视为16:9)。 隔行扫描,一帧分成2场(field),262.5线/场。 在每场的开始部分保留20扫描线作为控制信息,因此只有485条线的可视数据。Laserdisc约420线,S-VHS约320线。 每行63.5微秒,水平回扫时间10微秒(包含5微秒的水平同步脉冲),所以显示时间是53.5微秒。 颜色模型:YIQ。 一帧图像的总行数为525行,分两场扫描。行扫描频率为 15750Hz,周期为63.5s;场扫描频率是60Hz,周期为16.67ms;帧频是30Hz,周期33.33ms。每一
37、场的扫描行数为525/2=262.5行。除了两场的场回扫外,实际传送图像的行数为480行。倒相正交平衡调幅制PAL制式电视信号的特性:625行(扫描线)/帧,25帧/秒(40 ms/帧); 高宽比(aspect ratio):4:3; 隔行扫描,2场/帧,312.5行/场; 颜色模型:YUV。 一帧图像的总行数为625,分两场扫描。行扫描频率是 15625 Hz,周期为64s;场扫描频率是50Hz,周期为20ms;帧频是25Hz,是场频的一半,周期为40ms。在发送电视信号时,每一行中传送图像的时间是52.2s,其余的11.8s不传送图像,是行扫描的逆程时间,同时用作行同步及消隐用。每一场的扫
38、描行数为625/2=312.5行,其中25行作场回扫,不传送图像,传送图像的行数每场只有287.5行,因此每帧只有575行有图像显示。图07-03-2表示的是一个行周期的黑白电视信号,彩色电视信号与它相似。 三电视系统的颜色空间亮度方程三基色的视见度:等强度的红(R)、绿(G)、蓝(B)单色光给 人们的亮度感觉是不一样的。绿色光的亮度最亮,红色光的亮度约 为绿色光的亮度的一半,蓝色光的亮度最弱,约为红色光的三分之一。Y =0.30 R +0.59 G+0.11 B亮度方程:设白色光的亮度(Y)为100%,则 三基色亮度的百分比为:绿色59%;红色30%; 蓝色11%。Y =0.30 R +0.
39、59 G+0.11 B彩色电视传送的基本过程与要求(补充)彩色电视中三基色信息的获取彩色电视中图像色彩的还原彩色电视中彩色信息的传送亮度信号和色差信号亮度信号和亮度方程由于在光电转换中,光信号(YRGB)与电信号 (EY 、ER、EG、EB)是成正比的线性关系,所以亮度 信号EY也可以由ER、EG、EB按亮度方程的规律合成: (EY 是RGB的线性组合)色差信号色度信号的选择:色度信号可以在三基色信号ER、EG、 EB中任选两个传输。但是为了进一步改善兼容性,为了 使色度信号中不含有亮度信息。现行的三大制式都是选 用两个色差信号传输:色差信号就是基色信号与亮度信 号之差,三大制式都选用ER-Y
40、和EB-Y来传送色度。YUV空间在PAL制式彩色电视系统中,采用YUV颜色空间:亮度信号:Y色差信号:U=B-YV=R-Y采用YUV颜色空间的好处如下: 亮度信号Y解决了彩色电视机与黑白电视机的兼容问题 大量实验证明,人眼队对彩色图像细节的分辨 本领比对黑白的低得多,因此对色度信号U、V可以 采用“大面积着色原理”,用亮度信号Y传送细节, 用色差信号U、V进行大面积涂色。因此彩色图像的 清晰度由亮度信号的带宽保证,而把色度信号的带宽变窄,这样,降低彩色分量的分辨率,压缩了数据, 而不明显影响图像的质量。YIQ空间在NTSC制彩色电视制式中使用YIQ空间, 其中的Y表示亮度,I、Q是两个彩色分量
41、,但与UV不同,在色度矢量图中的位置不同,IQ 为互相正交的坐标轴,与UV正交轴之间有33度夹角。YCbCr空间YCbCr颜色空间是由YUV颜色空间派生的 一种颜色空间。主要用于数字电视系统中,用于 JPEG&MPEG.四彩色电视信号的类型复合电视信号:包含亮度信号、色差信号和所有定时信号的单一信号叫做复合电视信号(composite video signal),或者称为全电视信号。分离电视信号:是指每个基色分量作为独立的电视信号。每个基色既可以用RGB表示,也可以用亮度-色差表示,如YIQ,YUV。使用分量电视信号是表示颜色的最好方法,但需要比较宽的带宽和同步信号。分量电视信号:分量电视信号
42、(component video signal),是指每个基色分量作为独立的电视信号。每个基色既可以分别用R、G和B表示(俗称得RGB信号),也可以用亮度-色差表示,如Y、I和Q,Y、U和V(俗称的色差信号)。使用分量电视信号是表示颜色的最好方法,但需要比较宽的带宽和同步信号。五电视图像数字化数字化的方法图像子采样对彩色电视图像进行采样时,可以采用两种采样方法。一种是使用相同的采样频率对图像的亮度信号和色差信号进行采样,另一种是对亮度信号和色差信号分别采用不同的采样频率进行采样。如果对色差信号使用的采样频率比对亮度信号使用的采样频率低,这种采样就称为图像子采样。图像子采样在数字图像压缩技术中得
43、到广泛的应用,可以说是最简便的图像压缩技术,这种 压缩方法的基本根据是人的视觉系统所具有的两条特性,一是人眼对色度信号的敏感程度比对亮度信号的敏感程度低;二是人眼对图像细节的分辨能力有一定的限度,利用这个特性可 以把图像中的高频信号去掉而使人不易察觉。显示像素时,对于没有Cr和Cb的Y样本,使用前后 相邻的Cr和Cb样本进行计算得到的Cr和Cb样本。 ITU-RBT.601数字化标准 为了规范国际上存在的多种视频数字化格式,国际无 线电咨询委员会(CCIR)于1982年2月在其第15届全体会上 通过了CCIR-601标准,后又改名为ITU-601标准,这是用 于电视演播室等级的标准,又称为4:
44、2:2标准,在美国称 为“D1标准” ,表中写出了标准的基本内容。 对于625行/50场系统,每一扫描行上的采样数目为 864。对525行/60场,每一扫描行上的采样数目为858 。对所有的制式,每一扫描行的有效样本数均为720个。625行/50场 系统规定每帧有效行数即一帧中正程期间的行数为576行。-720*576 码率计算: 基本的算法是:【码率】(kbps)=【文件大小】X8/【时间】(秒)/1000举例:D5的碟,容量4.3G,其中考虑到音频的不同格式,姑且算为600M,(故剩余容量为4.3*1024-600=3803.2M),所以视频文件应不大于3.7G,本例中取视频文件的容量为3
45、.446G,视频长度100分钟(6000秒),计算结果:码率约等于4933kbps。码率几点原则:码率和质量成正比,但是文件体积也和码率成正比。这是要牢记的。码率超过一定数值,对图像的质量没有多大影响。DVD的容量有限,无论是标准的4.3G,还是超刻,或是D9,都有极限。视频码率计算机中的信息都是二进制的0和1来表示,其中每一个0或1被称作一个位,用小写b表示,即bit(位);大写B表示byte,即字节,一个字节=八个位,即1B=8b;前面的大写K表示1024的意思,即1024个位(Kb)或1024个字节(KB)。表示文件的大小单位,一般都使用字节(KB)来表示文件的大小。Kbps:首先要了解
46、的是,ps指的是/s,即每秒。Kbps指的是网络速度,也就是每秒钟传送多少个千位的信息(K表示千位,Kb表示的是多少千个位),为了在直观上显得网络的传输速度较快,一般公司都使用kb(千位)来表示。1KB/S=8Kbps。ADSL上网时的网速是512Kbps,如果转换成字节,就是512/8=64KB/S(即64千字节每秒)。一般来说,如果是1M的宽带,在网上只能看不超过1024kbps的视频,超过1024kbps的视频只能等视频缓冲才能顺利观看。六高清晰度电视HDTV(High Definition Television高清晰度电视)数字电视系统业务可以按照其活动的图像分辨率的大小,粗略划分为标
47、准清晰度数字电视和高清晰度数字电视。根据国际电联对高清晰度电视的定义:“高清晰度电视应是一个透明系统,一个正常视力的观众在距该显示屏高度的三倍距离上所看到的图像质量应具有观看原始景物或表演时所得到的印象。”HDTV技术源之于DTV(Digital Television)“数字电视”技术,HDTV技术和DTV技术都是采用数字信号,而HDTV技术则属于DTV的最高标准,拥有最佳的视频、音频效果。HDTV与当前采用模拟信号传输的传统电视系统不同,HDTV采用了数字信号传输。由于HDTV从电视节目的采集、制作到电视节目的传输,以及到用户终端的接收全部实现数字化,因此HDTV给我们带来了极高的清晰度,分
48、辨率最高可达19201080,帧率高达60fps,是足够让目前的DVD汗颜的。除此之外,HDTV的屏幕宽高比也由原先的4:3变成了16:9,若使用大屏幕显示则有亲临影院的感觉。同时由于运用了数字技术,信号抗噪能力也大大加强,在声音系统上,HDTV支持杜比5.1声道传送,带给人Hi-Fi级别的听觉享受。和模拟电视相比,数字电视具有高清晰画面、高保真立体声伴音、电视信号可以存储、可与计算机完成多媒体系统、频率资源利用充分等多种优点,诸多的优点也必然推动HDTV成为家庭影院的主力。HDTV系统应具有以下特点:扫描行数:扫描线直接决定片源的解析度,其实就是屏幕的纵向扫描行数,HDTV的标准是720行和
49、1080行,HDTV规定了视频必须至少具备720线非交错式(720p,即常说的逐行)或1080线交错式隔行(1080i,即常说的隔行)扫描(DVD标准为 480线),其中以720P和1080 i最为常见,而在微软WMV-HD站点上1080P的样片相对较多。每行取样点数(见表): 画面宽高比:16:9像数形状:方形像素伴音: 高保真立体声伴音兼容UDI: DVI 、HDMIHDTV系统主要的显示模式如下: 水平分辨率 银幕比例 交错式/非交错式 每秒画面数720p 1280 16:9 非交错式 24 . 30或601080i 1920 16:9 交错式 60 1080p 1920 16:9 非交
50、错式 24 . 30第五章、多媒体数据压缩数据压缩就是在一定的精度损失条件下,以最少的数码表示信源所发出的信号一数据压缩的重要性和分类多媒体数据压缩的可能性声音和图像数据表示中存在着大量的冗余,通过去除这些冗余可以使原始的声音及图像数据极大的减小。数据压缩技术就是研究如何利用图像数据 的冗余性来减少多媒体数据的方法。根据人的觉感知机理,可以将人耳听不到或感知极不灵敏的声音分量都视为冗余:人的听觉具有掩蔽效应。人耳对不同频段的声音的敏感程度不同,通常对低频端较 之对高频端更敏感。人耳对话音信号的相位变化不敏感。图像数据冗余的情况: 空间冗余:这是静态图像存在的最主要的一种数据冗余。一幅图像记录了
51、画面上可见景物的颜色。同一景物表面上各采样点的颜色之间往往存在着空间连贯性,但是基于离散像素采样来表示物体颜色的方式通常没有利用景物表面颜色的这种空间连贯性,从而产生了空间冗余。时间冗余:这是序列图像表示中经常包含的冗余。序列图像一般位于一时间轴区间内的一组连 续画面,其中的相邻帧往往包含相同的背景 和移动物体,只不过移动物体所在的空间位 置略有不同,所以后一帧的数据与前一帧的数据有许多共同的地方,这种共同性是由于相邻帧记录了相邻时刻的同一场景画面,称为时间冗余。结构冗余:在有些图像的纹理区,图像的像素值存在着明显的分布模式。例如,方格状的地板图案等,称为结构冗余,若已知分布模式,可以通过某一
52、过程产生图像。知识冗余:有些图像的理解与某些知识有相当大的相关性。这类规律性的结构可由先验知识和背景知识得到,称为知识冗余。知识冗余是模型编码主要利用的特性。视觉冗余:人类的视觉系统对图像场的敏感性是非均匀和非线性的。然而,在记录原始的图像数据时,通常假定视觉系统是线性的和均匀的,对视觉敏感和不敏感的部分同等对待,从而产生了比理想编码(即把视觉敏感和不敏感的部分区分开来编码)更多的数据,称为视觉冗余。数据压缩的好处时间域压缩迅速传输媒体信源频率域压缩并行开通更多业务空间域压缩降低存储费用能量域压缩降低发射功率数据压缩技术实现的衡量标准压缩比要大恢复后的失真小压缩算法要简单、速度快压缩能否用硬件
53、实现数据压缩技术的分类多媒体数据压缩方法根据不同的依据可产生不同的分类。例如:根据质量有无损失可分为:有损压缩和无损压缩。无损压缩:是指使用压缩后的数据进行重构(或者叫做还原,解压缩),重构后的数据与原来的数据完全相同;无损压缩用于要求重构的信号与原始信号完全一致的场合。一个很常见的例子是磁盘文件压缩。根据目前的技术水平,无损压缩算法一般可把普通文件数据压缩到原来的1/21/4。一些常用的无损压缩算法有霍夫曼算法和词典编码压缩算法等。 有损压缩:是指使用压缩后的数据进行重构,重构后的数据与原来的数据有所不同,但不影响人对原始资料表达的信息造成误解。有损压缩适用于重构信号不一定非要和原始信号完全
54、相同的场合。例如,图像和声音的压缩就可以采用有损压缩,因为其中包的数据往往多于我们的视觉系统和觉系统所能接收的信息,丢掉一些数据而不至于对声音或者图像所表达的意思产生误解,但可大大提高压缩比。 经典数据压缩理论信息论中的信源编码理论解决的主要问题:数据压缩技术的理论基础就是信息论。信息论中的信源编码理论解决的主要问题:(1)数据压缩的理论极限;(2)数据压缩的基本途径。根据信息论的原理,可以找到最佳数据压缩编码的方法,数据压缩的理论极限是信息熵,如果要求编码过程中不丢失信息量,即要求保存信息熵,这种信息保持编码叫熵编码,是根据消息出现概率的分布特性而进行的,是无损数据压缩编码。二熵编码信息量和
55、信息熵信息是用不确定性的量度定义的。一个消息的可能性越小,其信息越多;消息的可能性越大,其信息越少。所谓信息量是指从N个相等可能事件中选出一个事件所需要的信息度量或量,也就是在辨认N个事件中特定的一个事件的过程中所需要提问“是或否”的最少次数。信息论把一个事件(字符xi)所携带的信息量定义为:熵。熵编码,为无损编码,如香农-范诺编码、霍夫曼编码和算术编码,其宗旨在于找到一种编码使 得平均码长到达熵极限。基本思想:就是对出现概率较大的符号取较短的码长,而对出现概率较小的符号取较大的码长。霍夫曼编码霍夫曼编码是霍夫曼(Huffman)在1952年提出了另一种利用消息符号的统计特性的编码方法。现在J
56、PEG、MPEG-1、MPEG-2中均使用了此编码。基本思想:与香农-范诺(Shannon-Fano)编码相同,也是对出现概率较大的符号取较短的码长,而对出现概率较小的符号取较大的码长。只是编码方法不同而已。算术编码基本思想:算术编码不是将单个信源符号映射成一个码字,而是把整个信源表示为实数线上 的0到1之间的一个区间,其长度等于该序列的概率,再在该区间内选择一个代表性的小数, 转化为二进制作为实际的编码输出。消息序列 中的每个元素都要用来缩短这个区间。消息序列中元素越多,所得到的区间就越小,当区间变小时,就需要更多的数位来表示这个区间。三行程编码(RLE- Run-Length Encoding)基本思想:通过将信源中相同符号序列转换成一个计数字段再加上一个
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 广东科学技术职业学院《过程控制专题》2023-2024学年第一学期期末试卷
- 广东工业大学《大数据和人工智能导论》2023-2024学年第一学期期末试卷
- 广东创新科技职业学院《CPA税法》2023-2024学年第一学期期末试卷
- 小学生口才表演课件图片
- 培训学校课件
- 广东碧桂园职业学院《音乐律动(一)》2023-2024学年第一学期期末试卷
- 《如何品鉴葡萄酒》课件
- 赣南医学院《国际商法与公司治理》2023-2024学年第一学期期末试卷
- 《外周血管介入护理》课件
- 赣东学院《实验室安全与法规》2023-2024学年第一学期期末试卷
- 外贸中常见付款方式的英文表达及简要说明
- 台式电脑采购评分标准
- 初次申领《南京市建筑业企业信用管理手册(电子版)》办事
- 某冶金机械修造厂总降压变电所及配电系统设计
- 中国移动呼叫中心运营管理指标体系
- 泰安市生育保险待遇申报表
- 5WHY分析报告模板-改进版
- 移动式虹吸管防汛抢险设备(移动式虹吸抢险泵)
- 鲁教版选修《将军族》原文阅读
- FAF、PAF型电站动叶可调轴流式送风机、一次风机安装和使用维护说明书B本(1)
- 南京工程学院图书馆地源热泵
评论
0/150
提交评论