版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二章
多媒体数据编码基础
数字音频编码
数字图像编码数字视频编码多媒体数据转换2.1
数字音频编码声音的种类
声音是携带信息的极其重要的媒体,是多媒体技术研究中的一个重要内容。声音的种类繁多,如人的话音、乐器声、动物发出的声音、及其产生的声音以及自然界的雷电、风声、雨声、闪电声等等。声波声音是通过空气传播的一种连续的波,叫声波。声音的强弱体现在声波压力的大小上,音调的高低体现在声音的频率上。声音用电表示时,声音信号在时间和幅度上都是连续的模拟信号。声波具有普通波所具有的特性,例如反射(reflection)、折射(refraction)、和衍射(diffraction)等。音频的基本特性
声音是由振动的声波所组成,在任一时刻t,声波可分解为一系列正弦波线性叠加:f(t)=ΣAnsin(nωt+φn)其中,ω称为基频或基音,它决定声音的高低;nω称为ω的n次谐波分量或称为泛音,与声音的音色有关;An是振幅,表示声音的强弱;φn是n次谐波的初相位。音频数字化
波形音频是以数字方式表示音波。它是用声卡(包含ADC和DAC)来录制与执行播出声音的。计算机对声音表示主要通过采样产生一系列声音数据。事实上,声波按频率可分为4类,其中多媒体系统仅处理人类的听力所接受的频率范围的声音,我们称之为音频,这个频率范围的音波称之为声音信号。
声音的频率分类声音分类频率范围亚声波0~20Hz人类的听力所接受的频率20Hz~20kHz超声波20kHz~1GHz超高声波1GHz~10THz声音信号数字化从模拟过渡到数字:回顾历史,大多数电信号的处理一直是用模拟元器件对模拟信号进行处理。但是,模拟信号处理元部件相当困难的,而且成本高。用数字来表示模拟量,对数字信号进行计算处理,那么难点就发生了转移。把开发模拟运算部件的问题转变成开发数字运算部件的问题,这就出现了数字信号处理器(digitalsignalprocessor,DSP)。在数字域做信号处理的主要优点:首先,数字信号计算是一种精确的运算方法,它不受时间和环境的影响;其次,表示部件功能的数学运算不是物理上实现的功能部件,而是仅用数学运算去模拟,其中的数学运算也相对容易实现;此外,可以对数字运算部件进行编程。模拟信号与数字信号: 我们把在时间和幅度上都是连续的信号称为模拟信号。 在某些特定的时刻对这种模拟信号进行测量叫做采样(sampling),由这些特定时刻采样得到的信号称为离散时间信号。 采样得到的幅值还是连续的。如果把信号幅度取值的数目加以限定,这种由有限个数值组成的信号就称为离散幅度信号。 我们把时间和幅度都用离散的数字表示的信号称为数字信号。通过规则时间间隔测出音波振动幅度从而产生一系列声音数据。这种测出数据方法称之为采样,一秒内采样次数叫采样率。采样的离散音频数据要转换成计算机能够表示的数据范围,这个过程称之为量化。量化后数字音频存储量计算公式
音频数据存储量(字节)=采样率(Hz)×量化位数(位)×声道数×音频长度(秒)/8MIDI
(MussicalInstrumentDigitalInterface)
1980年制定一项工业标准,目的是让音乐及合成音可以经由一串消息在不同的设备上交流传输。MIDI提供电子乐器与计算机之间的连接器接口。定义物理连接与电子乐器沟通的协议。MIDI也定义音频的形态与存储的方法。MIDI音频是以消息的方式而非波形的方式组成。MIDI有三种连接器(In、Out、Thru)。In为输入,Out为输出,而Thru是用来扩充MIDI与其它设备连接用的。
音序器可以将音乐等声音以一种序列来储存。所谓序列便是一连串的音符加上系统事件的命令。
MIDI适配器是用来改变频道、路径与按键的。当电子琴的键盘与一般的MIDI规格不一致时可以经由适配器来修正使两者一致。MIDI音频文件
MIDI音频文件是一串时序命令,它记录音乐的行为。命令消息分为频道消息(频道声音消息、频道模式消息)和系统消息(系统实时消息、系统通用消息与系统专用消息)。它的文件占用很少存储器空间。MIDI不适合编制口语旁白的音频。数字音频可从麦克风、录音带、CD、电视及其它来源获取。它把声音转换成储存体中数字信息。数字音频较为稳定,容易保持一致性,音频品质也较易获得保证。缺点是记录非常详尽,数据量极大,文件较MIDI音频大出200倍以上。它可以适合任何一种音响。
数字音频3D音频3D音效可分为以下几类:(1)扩展式立体声。(2)环绕立体声。(3)交互式音效。支持3D音频API种类:DirectXDirectSound3D;Aureal3D;
EAX;
Sensaura;Qsound;杜比AC-3;数字化影院系统DTS
2.2
数字图像编码图像是重要的媒体
图像是多媒体中携带信息的极其重要的媒体。 有统计资料表明,人们获取的信息的70%来自视觉系统。 图像数字化后的数据量非常大,必须对图像数据进行压缩。图像数据压缩
图像数据压缩主要是根据下面两个基本事实来实现的:一个是图像数据中有很多重复的数据,使用数学方法来表示这些重复数据(无损压缩);另一个是人的眼睛对图像细节和颜色的分辨有一个极限,把超过极限的部分去掉,(有损压缩)。 实际的图像数据压缩技术是综合使用各种有损和无损数据压缩技术来实现的。2.2.1
色彩的基本概念颜色是视觉系统对可见光的感知结果。可见光是波长在380nm~780nm之间的电磁波大多数光不是一种波长的光,而是由许多不同波长的光组合成的。三种锥体细胞 人们在研究眼睛对颜色的感知过程中普遍认为,人的视网膜有对红绿蓝颜色敏感程度不同的三种锥体细胞 另外还有一种在光功率极端低的条件下才起作用的杆状体细胞 颜色只存在于眼睛和大脑。人的视觉系统对颜色的感知特性:⑴眼睛本质上是一个照相机。⑵红绿蓝三种锥体细胞对不同频率的光的感知程度不同。⑶自然界中的任何一种颜色都可以由R,G,B这3种颜色值之和来确定,它们构成一个三维的RGB矢量空间。图像的颜色模型 颜色模型(colormodel)使用简单方法描述所有颜色的一套规则和定义。 例如,RGB,CMY,YCrCb都是表示颜色的颜色模型。RGB相加混色模型 显示彩色图像用RGB相加混色模型 一个能发出光波的物体称为有源物体,它的颜色由该物体发出的光波决定,并且使用RGB相加模型。HSL模型从人的视觉系统来看,色彩可用色调、饱和度和亮度三要素来描述。在多媒体计算机中,除用RGB来表示图像外,还用HSL模型。H定义颜色的波长,称为色调;S定义颜色的强度,表示颜色的深浅程度,称为饱和度;L定义掺入的白光量,称为量度。可打印彩色图像用CMY相减混色模型 一个不发光波的物体称为无源物体,它的颜色由该物体吸收或者反射哪些光波决定,用CMY相减混色模型。
CMY是指青色(cyan)、品红(magenta)和黄色(yellow)。多媒体系统主要采用数字化方式对声音、文字、图形、图像、视频等媒体进行处理。数字化处理面临的主要问题是巨大的数据量。彩色电视信号原始数据 例如:在彩色电视信号表示时,设代表光强、色彩和色饱和度的YIQ色彩空间中各分量的带宽分别为4.2MHz、1.5MHz、0.5MHz。根据采样定理,采样频率≧2倍原始信号频率。再设各分量信号均被数字化8比特。则一秒钟电视信号的数据量为:(4.2+1.5+0.5)*2*8=99.2M(bit) 650MB的CD-ROM仅能存约1分钟的原始电视数据。图像的三个基本属性 描述一幅图像需要使用图像的属性。图像的属性包含分辨率、像素深度、真/伪彩色、图像的表示法和种类等。分辨率 有两种:显示分辨率和图像分辨率。像素深度 指存储每个像素所用的位数。 在用32位表示一个像素时,若R,G,B分别用8位表示,剩下8位常称为a通道(alpha)。真彩色、伪彩色与直接色
真彩色指每个像素用RGB的值直接确定。 伪彩色指通过查表。 直接色指分别用RGB分量分别查表。图像的种类矢量图与点位图灰度图与彩色图γ(伽马)校正γ的概念 目前几乎所有的CRT显示设备、摄影胶片和许多电子照相机的光电转换特性都是非线性的。这些非线性部件都有一个能够反映各自特性的幂函数,它的一般形式是:
y=xγ
⇒输出=(输入)γγ校正 这些环节至少有5个地方可有非线性转换函数存在并可引入γ值。2.2.2颜色的度量体系
颜色是一门很复杂的学科,它涉及到物理学、生物学、心理学和材料学等多种学科。颜色是人的大脑对物体的一种反映,是人的一种感觉,带有极端的主观性,用数学的方法来描述这种感觉可能是一件很困难的事。现在已经有许多有关颜色的理论、测量技术和颜色标准。颜色科学简史在1666年,IsaacNewton(1642-1727)就开始研究颜色。牛顿色圆为揭示RGB相加混色奠定了基础。在1802年,ThomasYoung(1773-1829)认为人的眼睛有三种不同类型的颜色感知接收器。19世纪60年代,Maxwell,JamesClerk(1831-1879)探索了三种基色的关系,被认为是现代色度学的基础。其后,HermannvonHelmholtz(1821-1894)进行了定量研究。在1931年,国际照明委员会(CommissionInternationaledel’clairage/InternationalCommissiononIllumination,CIE)定义标准颜色体系,为大多数定量的颜色度量方法奠定了基础。
1965年前后人们才做详细的生理学实验验证在眼睛中的确存在三种不同类型的锥体。颜色的度量体系颜色度量体系(colorsystem),也叫做颜色制或者颜色体制,实际上就是人们组织和表示颜色的方法。AlbertH.Munsell(1858~1919)是美国杰出的一位艺术家和教授。1905年提出并在1943年修改的Munsell颜色系统使用色调、饱和度和明度表示颜色的3种属性。德国化学家WilhelmOstwald(1853~1932)的Ostwald制是根据对颜色起作用的波长、纯度和亮度来反映色调、饱和度和明度的值。CIE颜色系统国际照明委员会的颜色科学家们企图在RGB模型的基础上,用数学的方法从真实的基色推到出理论的三基色,创建一个新的颜色系统,使颜料、染料和印刷等工业能够明确指定产品的颜色。1931年9月,国际照明委员会在英国的剑桥市召开了具有历史意义的会议。1931的CIE系统规范使用三基色刺激值和色度图描述颜色空间。其后,国际照明委员会的专家们对该系统做了许多改进,包括1964年根据10度视野的实验数据,添加了补充标准观察者的定义。CIEXYZ是国际照明委员会在1931年开发并在1964年修改的CIE颜色系统(CIEColorSystem),该系统是其他颜色系统的基础。1976年国际照明委员会召开了一次又具有历史意义的会议。为了解决颜色空间的感知一致性问题,专家们对CIE1931XYZ系统进行了非线性变换,制定了CIE1976L*a*b*颜色空间的规范。事实上,1976年CIE规定了两种颜色空间:一种用于自照明的颜色空间,叫做CIELUV;另一种是用于非自照明的颜色空间,叫做CIE1976L*a*b*,或者叫CIELAB。这两个颜色空间与颜色的感知更均匀,并且给了人们评价两种颜色近似程度的一种方法,允许使用数字量ΔE表示两种颜色之差。2.2.3
彩色空间及其变换常见模型:
RGB彩色空间
HSI彩色空间
YUV彩色空间
YIQ彩色空间RGB彩色空间R、G、B是彩色最基本表示模型,也是计算机系统中所使用的彩色模型。
RGB5:5:5方式用2个字节表示一个象素,具体位分配。RGB5:5:5方式RGB8:8:8方式R、G、B三个分量各占一个字节。T(1b)R(5b)G(5b)B(5b)HSI彩色空间这种模型中,用H(Hue,色调)、S(Saturation,饱和度)、I(Intensity,光强度)3个分量来表示一种颜色,这种表示更适合人的视觉特性。YUV彩色空间Y为亮度信号,U、V是色差信号(B-Y,R-Y)。
PAL制式彩色空间即为YUV。优点是亮度和色差信号分离,容易使彩色电视系统与黑白电视信号兼容。国际无线电咨询委员会根据实验认为采用双倍度采样4:2:2方案效果较好,提出CCIR601标准。变换公式(YUV<--->RGB)Y=0.299*R+0.587*G+0.114*B;U=-0.169*R-0.332*G+0.500*B;V=0.500*R+0.419*G-0.081*BYIQ彩色空间广播电视系统另一种常用的亮度与色差分离的模型。NTSC制式彩色空间即为YIQ。这里Y是亮度,I和Q共同描述图象的色调和饱和度。变换公式(YIQ<--->RGB)
Y=0.299*R+0.587*G+0.114*B;I=0.211*R-0.523*G+0.312*B;Q=0.596*R-0.275*G-0.322*B2.2.4数字图象文件格式
TIFPCXGIF、TGA、BMP、DVI、JPEG等
BMP文件格式位图文件(bitmap-file,BMP)格式是Windows采用的图像文件存储格式。BMP图像文件结构位图文件的组成结构名称位图文件头(bitmap-fileheader)BITMAPFILEHEADER位图信息头(bitmap-informationheader)BITMAPINFORMATIONHEADER彩色表(colortable)RGBQUAD图像数据阵列字节BYTE位图文件头包含有关文件类型、文件大小和存放位置等信息。 位图信息头包含有位图文件的大小、压缩类型和颜色格式。BMP位图可以是没有压缩的位图,或者采用RLE进行压缩的位图。颜色格式说明位图所用的颜色数目,2/16/256/16777216种颜色。 彩色表中的元素与位图所有的颜色相同。对于24位真彩色就不使用彩色表。 图像数据阵列字节是紧跟在彩色表后的图像数据字节阵列。TIF文件格式由美国AldusDeveloper’sDesk和Microsoft制定结构文件头(8B)参数指针表参数数据表图象数据
文件头含字节顺序(2B,表示存贮格式:II-Intel格式;MM—Motorola格式);标记号(2B,版本信息);指向第一个参数指针表的编码(4B)。参数指针表由每个长为12B参数块构成,描述压缩种类、长宽、彩色数、扫描密度等参数。较长参数(如调色板)只给出指针,参数放在参数数据表中。其结构定义如下:
typedef
struct{
inttag-type;
intnumber-size;longlength;longoffset;}TIF-FIELD;图象数据按参数表中描述的形式按行排列PCX文件格式由ZSoft公司最初制定结构文件头(128字节)数据部分(采用行程长度编码)文件头结构定义
typedef
struct{charmanufacture;/*always0xa0*/charversion;charencoding;/*always1*/charbits-per-pixel;/*colorbits*/
int
Xmin,Ymin;/*imageorigin*/
int
Xmax,Ymax;/*imagedimension*/
int
hres;/*resolutionvalues*/
int
vres;charpalette[48];/*colorpalette*/charreserved;charcolor-planes;/*colorplanes*/
intbytes-per-line;/*linebuffersize*/
intpalette-type;/*greyorcolorpalette*/charfiller[58];}PCXHEAD;
其中Version若为5,文件内有个256色调色板,数据768字节,在文件最后。
文件体对象素数据采用行程长度编码,由包含Keybyte和Databyte的包组成。分2种情况:
(1)若Keybyte最高位为11,则低6位为重复次数。但最多重复63次,若再长重建一个包.PCX数据包的结构
(2)若Keybyte最高位不是11,那么该Databyte按原样写入图象文件。对一个字符的表示用长度为1的包。11IndexDatabyte111Databyte2.3
数字视频编码电视是当代信息传播工具 电视是20世纪20年代的伟大发明。在50年代开发电视技术时,电视技术一直沿着模拟信号处理技术的方向发展,自到70年代才开始开发数字电视。 由于数字技术具有许多优越件,而且数字技术发展到足以使模拟电视向数字电视过渡的水平,电视和计算机才开始融合在一起。数字视频的结构
基本单位是帧。若干同一场景的帧构成镜头若干镜头构成情节若干情节构成故事(节目)国际视频标准
NTSC
美国研制,是目前广泛使用的电视制式。它以525条横扫描线来组成一个屏幕帧,每秒30帧。PAL
中国、英国等国采用制式,W.Bruch1963年发明的,其基本原理类似于NTSC制式。以625条扫描线,每秒25帧。SECAM
法国、俄罗斯等国采用制式。同样采用625条线和25帧,但与NTSC和PAL相比,其基础技术是采用频率调制。数字视频CCIR601编码标准数字视频CCIR601编码标准是国际无线电咨询委员会(CCIR)制定的广播级质量的数字视频编码标准。采样频率:为了保证信号的同步,采样频率必须是电视信号行频的倍数,fs=13.5MHz是PAL、SECAM
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论