版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
16十二月2023第1章
绪论多媒体技术的基本概念多媒体技术的特点多媒体计算机系统多媒体技术的发展历史多媒体技术的发展现状及应用领域流媒体技术16十二月20231.1多媒体技术基本概念
1.1.1媒体的概念
媒体
Medium(Media)有三种含义:一是指传播媒体,如蜜蜂是传播花粉的媒体、苍蝇是传播病菌的媒体;二是指用以存储信息的实体,如磁盘、磁带、纸;三用以表述信息的逻辑载体,如文本、声音、图像、动画和视频等。
16十二月2023按照承载的方式分为五大类:(1)感觉媒体(PerceptionMedia)指能直接作用于人的感官,使人能直接产生感觉的一类媒体。如:语言、音乐,声音、图形、图像(2)表示媒体(PresentationMedia)指传输感觉媒体的中介媒体,为加工、处理和传输感觉媒体而人为研究、构造出来的一种媒体,即用于数据交换的编码,是感觉媒体数字化后的表示形式。如图像编码(JPEG、MPEG等)
16十二月2023按照承载的方式分为五大类:
(3)显示媒体(DisplayMedia)指感觉媒体和用于通信的电信号之间转换用的一种媒体(设备)。如键盘、摄像机、显示器、喇叭(4)存储媒体(StorageMedia)存放表示媒体的媒体。如:软硬盘、CD-ROM、磁带、唱片等。(5)
传输媒体(TransmissionMedia)指用于将表示媒体传送到其它计算机的通信载体。
16十二月20231.1.2多媒体的概念
从人机交互的角度分为:视觉类媒体、听觉类媒体和触觉类媒体等1.
视觉类媒体:顾名思义就是眼睛所看到的内容,包括位图图像、矢量图形、符号、视频2.听觉类媒体:指的是人耳所能听到的一切声音,主要包括:波形声音、语音、音乐
16十二月20231.1.2多媒体的概念3.
触觉类媒体:指的是能使人接触产生感觉的媒体,
主要包括:指点、位置跟踪、力反馈与运动反馈
多媒体技术:是指用计算机综合处理多种媒体信息如文本、图形、图像和声音等,使这多种信息建立逻辑连接,集成为一个系统并具有交互性。
16十二月20231.1.3多媒体的特点
多媒体数据的特点:
数据量大
数据类型繁多
相关性强、同步性高动态性
16十二月20231.1.3多媒体的特点多媒体技术特点:(1)集成性:指的是声音、文本、图像、视频等信息的集成,多种信息有机同步组合。
(2)实时性:指的是声音以及活动的视频图像媒体和时间是密切相关的,
(3)交互性:主要指的是用户与计算机的多种媒体进行交互式操作,从而为用户提供更有效地控制和使用信息的手段,允许人机交互。
16十二月20231.1.4多媒体计算机系统
多媒体计算机系统组成:(1)多媒体硬件系统:(2)多媒体软件系统16十二月2023多媒体硬件系统16十二月2023多媒体计算机软件多媒体计算机软件:多媒体操作系统多媒体创作工具软件多媒体素材编辑软件多媒体应用软件。16十二月2023多媒体计算机系统的层次结构
16十二月2023
多媒体应用的发展趋势分布式、网络化、协同工作的多媒体系统。三电(电信、电脑、电器)通过多媒体数字化技术,相互渗透融合。以用户为中心,充分发展交互多媒体和智能多媒体技术与设备。
16十二月20231.3多媒体技术的应用前景
多媒体技术应用:
工作领域家庭领域通信领域教育领域医疗领域军事领域16十二月20231.4流媒体技术1.4.1流媒体定义
流媒体简单来说就是应用流技术在网络上传输的多媒体文件,而流技术就是把连续的影象和声音信息经过压缩处理后放上网站服务器,让用户一边下载一边观看、收听,而不需要等整个压缩文件下载到自己机器后才可以观看的网络传输技术。
16十二月20231.4.2流媒体产品
主要的公司有三个:Microsoft、RealNetworks、Apple,主要产品:WindowsMedia(Microsoft)RealMedia(RealNetworks)QuickTime(Apple)16十二月20231.4.3流媒体应用领域
远程教育
宽带网视频点播互联网直播
视频会议
16十二月2023习题1.1
什么是媒体?多媒体的媒体具体有哪些?1.2
多媒体指的是什么?
请举出几个属于多媒体技术范畴的应用?1.3
多媒体技术有哪些主要特点?1.4
多媒体技术的主要发展方向?1.5
多媒体计算机硬件系统主要有几部分组成,简要说明?
声音被分为无规则的噪音和有规则的音频信号;有规则音频信号是一种连续变化、周期性的模拟信号,可用一条连续的曲线来表示,称为声波。波形文件:包括了所有的声音文件。语音:是波形文件,是一种特殊媒体。音乐:规范的符号化了的声音,这种符号就是乐谱。2.1.2声音的分类2.1.3声音的三要素
模拟声波信号曲线为一系列正弦波的线性叠加.声波信号是由基音和泛音组成。频率最低的音波称为基频或基音.除此之外的音波都称为泛音,其频率是基频的整数倍。音调:声音的高低叫做音调(pitch)。音调与声音的频率有关。音色
:与波形相关,取决于声波的频谱,即由混入基音的泛音所决定的。音强:即声音的响亮程度,与声音信号的幅度成正比。用声音信号幅度取对数后再乘20所得值来描述声强,以分贝(dB)为单位,此时称为音量。2.2音频信号2.2.1音频
音频是指人类听觉所感知范围内的频率,也称声频。
次声波(subsonic):频率低于20Hz的信号。
超声波(ultrasonic):频率高于20KHz的信号。音频(Audio):频率范围是20Hz~20KHz的声音信号,是人耳能听到的声音信号,次声波和超声波之间的音频为可听声波,即属于多媒体音频信息范畴。2.2.2声音质量的度量*客观质量度量——即音频信号的技术指标,如:频带宽度、动态范围和信噪比;*主观质量度量*在语音评价过程中,主观的质量评价较客观的质量评价更为恰当。1.客观评价指标
(1)频带宽度*声音信号是由许多频率不同的分量信号组成的复合信号。*复合信号的频率范围称为频带宽度。*频带越宽,包含的音频信号越丰富,*通常将音质定义为4个等级标准:(1)频带宽度1.客观评价指标
(2)动态范围*声音的动态范围:音频信号的最大强度与最小强度之比。*动态范围越大,说明音频信号的相对变化范围大,则音响效果越好。音质效果AM广播FM广播数字电话CD-DA动态范围(dB)4060501001.客观评价指标
(3)信噪比*信噪比是有用信号与噪声之比的简称。*噪音可分为环境噪音和设备噪音,*通常信噪比分为系统输入信号的信噪比SNR(in)和系统输出信号的信噪比SNR(out)。*信噪比越大,声音质量越好。信噪比的表达式如下:有用信号的平均功率噪声的平均功率SNR=2.主观度量法
分数质量级别失真级别5优(Excellent)无察觉4良(Good)(刚)察觉但不讨厌3中(Fair)(察觉)有点讨厌2差(Poor)讨厌但不反感1劣(Bad)极讨厌(令人反感)2.3声音信号数字化
2.3.1声音信号数字化过程*数字化过程:模拟数字转换(A/D)转换过程。*采样(sampling):时间上进行离散化处理,即每隔相等的一段时间在声音信号波形曲线上采集一个信号样本。*量化(quantization):对采样后的声音信号幅值进行离散化处理。如果幅度的划分是等间隔的,就称为线性量化,否则就称为非线性量化。*编码:将采样和量化后的数字化声音信息以二进制形式并按照一定的数据格式进行表示。2.3.2数字化声音的技术指标
1.采样频率
*采样频率是指单位时间内的采样次数。*奈奎斯特(HarryNyquist)采样理论:只要采样频率f(1/T)高于输入信号最高频率的两倍,则经过采样后的采样信号能够包含原模拟信号的全部信息,且经过反变换和低通滤波后可不失真地恢复原模拟信号。*电话话音的信号频率约为3.4kHz,采样频率就选为8kHz.CD激光唱盘采样频率为44.1KHz,可记录的最高音频为22.05KHz。*采样的三个标准频率分别为:44.1KHz,22.05KHz和11.025KHz。2.3.2数字化声音的技术指标
2.量化精度*量化精度是指对模拟音频信号的幅度进行数字化二进制表示的位数,它决定了模拟信号数字化以后的动态范围。*一般的量化精度为8位或16位。*量化位数越高,信号的动态范围越大,量化精度越高,但所需要的存贮空间也越大。2.3.2数字化声音的技术指标
3.声道数
声道数指的是一次同时产生的声波组数。(1)单声道缺乏位置感(2)立体声*声音在录制过程中被分配到两个独立的声道,但所占空间比单声道多一倍。*这种技术在音乐欣赏中尤为有用,*依然是许多产品遵循的技术标准。2.3.2数字化声音的技术指标
3.声道数(3)四声道环绕规定了4个发音点:前左、前右,后左、后右,同时建议增加一个低音音箱,以加强对低频信号的回放处理(4.1声道音箱系统广泛流行的原因)。(4)5.1声道运用于各类传统影院和家庭影院中,一些知名的声音录制压缩格式,都以5.1声音系统为技术蓝本的。增加了一个中置单元,负责传送低于80Hz的声音信号,在欣赏影片时有利于加强人声,把对话集中在整个声场的中部,增加整体效果。(5)7.1声道它在5.1的基础上增加了中左和中右两个发音点。当然由于成本比较高,趋于流行还有待时日。2.3.2数字化声音的技术指标
4.编码算法*作用:采用一定的格式记录数字数据;采用一定的算法压缩数字数据减少存贮空间和提高传输效率。*压缩算法包括有损压缩和无损压缩;有损压缩指解压后数据不能完全复原,要丢失一部分信息。*压缩编码的基本指标之一就是压缩比,音频数据压缩比=压缩后的音频数据/压缩前的音频数据。*它通常小于1,压缩比越大,信息丢失越多、信号还原后失真越大。
2.3.2数字化声音的技术指标
5.数据率及数据文件格式*数据率为每秒位数,它与信息在计算机中的实时传输有直接关系,而其总数据量又与计算机的存储空间有直接关系。*用数字音频产生的数据一般以WAVE的文件格式存贮,以“.WAV”作为文件扩展名。是Windows下通用的数字音频标准,用Windows的媒体播放器可以播放。*MP3的应用虽然很看好,但目前还需专门的播放软件,如RealPlayer等。2.3.3数字化声音的质量和存储量*数据量(Byte)=(采样频率×量化精度×声道数×声音持续时间)/8*CD格式1秒:(采样频率×量化位数×声道数×声音持续时间)/8=(44.1k×16×2×1)/8=0.176MB/s*一个小时CD格式的音乐需要635MB的存贮空间,其实CD最长的重放时间为74分钟。*5.1声道每秒钟的数据量为:(采样频率×量化位数×声道数×声音持续时间)/8=(44.1k×16×5.1×1)/8=0.45MB/s,*一个小时的多声道格式的音乐需要1.62GB的存储空间,远远大于CD的容量。常用的采样指标及等效音质
数字音频等级
采样频率(KHz)量化位数(bit)声道数每分钟的数据量(MB,无压缩)等效音质11.0258单声道0.63语音22.0516双声道5.05FM广播44.116双声道10.09CD唱盘常用的采样指标及等效音质
数字音频等级
信号类型频率范围(Hz)采样率(kHz)量化位数(bit)电话话音200~340088宽带音频50~70001616调频广播20~15k37.816高质量音频20~20k44.1162.4MIDI接口和音乐合成
MIDI(MusicalInstrumentDigitalInterface)是电子乐器数字接口的缩写,是数字音乐/电子合成乐器国际标准.MIDI是一个协议,它不是把音乐的波形进行数字化采样和编码,而是将数字式电子乐器的弹奏过程记录下来,只包含用于产生特定声音的指令.电脑把这些指令交由音频卡去合成相应的声音,根据记录的乐谱指令,通过音乐合成器生成音乐声波,经放大后由扬声器播出。2.4MIDI接口和音乐合成最初,同一MIDI文件在不同的设备会出现完全不同的放声效果。GM(GENERALMIDI,通用MIDI)标准得到了Windows操作系统的支持。它规定了前128中常用乐器的音色编排方式,例如1号是钢琴,66号是萨克斯管等等,它实际上是对MIDI规范的补充。
ROLAND公司——GS(GeneralSynthesizer,通用合成器)标准兼容GM的基础上,提供比GM标准数量更多的打击乐器组合更多的特殊音响。Yamaha公司——基于GM标准的XG(ExtendedGeneralMIDI,扩展的通用MIDI)标准。2.4MIDI接口和音乐合成MIDI文件的大小要比WAV文件小的多,即一分钟的WAV文件约要占用10MB的硬盘空间,而一分钟的MIDI却只有区区的3.4KB。CMF文件是随音频卡一起使用的音乐文件,于MIDI文件非常相似,只是文件头略有差别;WINDOWS使用的RIFF文件的一种子格式,称为RMID,扩展名为RMI。2.4.1MIDI术语(1)MIDI文件
MIDI文件是存放MIDI信息的标准文件格式,MIDI文件中包含音符、定时和多达16个通道的演奏定义。每个通道的演奏音符信息包括:键、通道、号、音长、音量和力度(击键时,键达到最低位置的速度)。(2)音乐合成器(MusicalSynthesizer)首先利用数字信号处理器或其它芯片来产生音乐或声音,然后通过声音产生器和扬声器发出声音。合成器发声的质量和声部取决于合成器能够同时播放的独立波形的个数即泛音的合成。(3)复音(Polyphony)复音指合成器同时支持的最多音符数。2.4.1MIDI术语(4)多音色(Timbre)同时演奏几种不同乐器时发出的声音,它着重于同时演奏的乐器数。(5)MIDI标准
MIDI电子乐器:能产生特定声音的合成器,其数据传送符合MIDI通信约定。
MIDI消息(message)或指令:乐谱的一种记录格式,相当于乐谱语言。
MIDI接口(interface):MIDI硬件通信协议。
MIDI通道(channel):共16个通道,每种通道对应一种逻辑的合成器。
MIDI文件:由控制数据和乐谱信息数据构成。音序器(Sequencer):用来记录、编辑和播放MIDI文件的软件。2.4.2用PC机构成的MIDI系统
使用PC机构造MIDI系统:可把MIDI接口和MIDI声音模块组合在PC添加卡上。多媒体个人计算机MPC规范就要求PC添加卡上必须有这样的声音模块,称为合成器(synthesizer)。电脑播放MIDI文件,必须使用合成器。MIDI合成器的产生方式
(1)FM合成器(FMsynthesis)
通过已有的电子波形来产生声音的合成器.
产生各种逼真的乐音是相当困难的,有些乐音几乎不能产生。(2)波表合成器(wavetablesynthesis)
乐器的声音样本存储在音频卡波形表中,播放时从波形表中取出来。可以产生更逼真的声音。2.4.3MIDI文件的特点MIDI数据量比声音文件小的多,采用MIDI格式记录比采用WAVE格式记录的数据量小两个数量级以上。MIDI配音方便,例如当多媒体系统中播放波形声音文件时(如图片的一段解说词),此时若还需配上某种音乐作为解说的效果时,不可能同时调用两个波形声音文件,而播放MIDI文件记录下来的音乐就很方便了。2.4.3MIDI文件的特点编辑灵活。在音序器的帮助下,用户可以随意修改曲子的速度、音调、音色等属性,也可以改换乐器的种类,从而产生合适的音乐。表现能力弱。不能与真正的乐器完全相似。不能模拟出自然界中其它非乐曲类声音。音质有待提高。2.5音频文件格式
2.5.1声音文件格式(1)波形文件*扩展名为WAV,Windows本身存放数字声音的标准格式*通用性的数字声音文件格式.*未经压缩处理的音频数据,直接记录声音的波形.*但文件体积都很大(1分钟的CD音质需要10M字节),不适于在网络上传播。*WAV格式使用媒体播放机可以直接播放。2.5.1声音文件格式(2)MPEG-3*扩展名为MP3,最流行的声音文件格式,*压缩率大,高达10:1~12:1,一分钟CD音质的音乐,未经压缩需要10MB存储空间,而经过MP3压缩编码后只有1MB左右,*音质基本保持不失真,*在网络可视电话通信方面应用广泛,*但和CD唱片相比,音质不能令人非常满意。(3)CDAudio音乐CD*扩展名CDA,是唱片采用的格式,*又叫“红皮书”格式,*记录的是波形流,绝对的纯正、HIFI。*无法编辑,文件长度太大。(4)CreativeMusicalFormat
扩展名CMF,是Creative公司的专用音乐格式,和MIDI差不多,只是音色、效果上有些特色,专用于FM音频卡,但其兼容性也很差。2.5.1声音文件格式(5)VOC文件*Creative公司波形音频文件格式,也是声霸卡(soundblaster)使用的音频文件格式。(6)RealAudio*扩展名RA、RAM,这两种格式是Real公司开发的主要适用于网络上实时数字音频流技术的文件格式。*由于它的面向目标是实时的网上传播,所以在高保真方面是远远不如MP3,但在只需要低保真的网络传播方面却无人能及。*要播放RA、RAM,需要使用RealPlayer。2.5.1声音文件格式2.5.2MIDI文件格式(1)MIDI*扩展名MID,产业标准,其科学性、兼容性、复杂程度*短小,一个六分多钟、有16个乐器的文件也只是80多KB;*缺点是播放效果因软、硬件而异。使用媒体播放机,好的播放效果,电脑必须支持波表功能。(2)RMI文件
Microsoft公司的MIDI文件格式,包括图片标记和文本。2.6音频卡及其应用
2.6.1音频卡功能
(1)音频信号的录制与播放完成音频信号的A/D和D/A变换,将音频信号通过音频卡录入计算机,并以文件的形式进行保存。在需要播放时,只需调出相应的声音文件进行播放,就像普通录放机一样。从而使计算机既有图像显示,又有声音输出。音频卡还可以与CD-ROM驱动器相连,实现对CD唱片、VCD、MP3音乐的播放。2.6音频卡及其应用
2.6.1音频卡功能音频信号编辑与合成——数字音频编辑器,它可以对声音文件进行多种特殊效果处理,对音乐爱好者都是非常有用的。MIDI接口和音乐合成——乐器数字接口的标准,它规定了电子乐器与计算机之间相互数据通信的协议。通过软件,计算机可以直接对外部电子乐器进行控制和操作。2.6.2音频卡工作原理2.6.3音频卡安装和使用
2.6.4音频软件的使用Windows本身自带的录音机:使用它可录音,只能录制1分钟的声音文件.音频卡自带的工具:如果你的计算机安装有声音卡,一般来说都附带有音频软件。网络上下载的工具:如CoolEdit工具,就可以在网上下载免费试用版。类似的工具还有goldwave公司的声音工具,Cakewalk,Cubase等。2.7语音输入输出技术
2.7.1语音识别语音识别以语音为研究对象,是语音信号处理的一个重要研究方向,是模式识别的一个分支,其目的就是要让机器具有人的听觉功能,在人机语音通讯中“听懂”人类口述的语言。语音识别的识别内容可分为:狭义的语音识别(SpeechRecognition):排除不同人的发音差异(如发声频率。说话习惯,口音等),力求提取代表语意的共性特征,“理解”发音人所说的话。说话人语音识别(SpeakerRecognition):又称为话者识别,是寻求不同说话人的个性特征,以辨认出说话人的身份。
语音识别的两大阶段:
训练阶段:在机器中建立被识别语音的标准样板或模型库,或者对已存在机器中的样板或模型做特定发音人的适应性修改。识别阶段:将被识别的特征参量提取出来进行模式匹配,相似度最大者即为被识别语音。
语音识别的两大阶段:
2.7.2语音合成1.语音合成的基本概念语音合成包含两种可能实现的途径。一种是所谓的录音/重放模式,使机器再生一个预先存入的语音信号,就像普通的录音机一样,不同之处是采用了数字存储技术。另一种可能是采用数字信号处理的方法,将人类发声过程看作是一个模拟声门状态的源,去激励一个表征声道谐振特性的时变数字滤波器,这个源可能是周期脉冲序列,它代表浊音情况下的声带振动,或者是随机噪声序列,代表不出声的清音。语音数据的存储语音数据的存储形式可分为两大类:波形存储和参数存储,取决于合成算法。为减少数据量,一般要对语音数据进行压缩。波形存储方式:存储数字化的语音波形数据。常用的编码方式有PCM,ADPCM等。波形存储方式的主要优点是编码和解码算法简单,易于实时实现,缺点是数据量大。参数存储方式:存储从语音信号中提取的参数,常用的有LPC参数,ISP(1SF),共振峰参数等。参数存储方式的主要优点是数据量小,易于实现韵律修改,但有限的参数很难表述自然语音的细微变化。文语转换技术文语转换过程先将文字序列转换成音韵序列,再由语音合成器生成语音波形。第一步涉及语言学处理,例如分词、字音转换等,以及一整套有效的韵律控制规则;第二步需要先进的语音合成技术,能按要求实时合成出高质量的语音流。文语合成系统需要一套复杂的文字序列到音素序列的转换程序,也就是说,文语转换系统不仅要应用数字信号处理技术,而且必须有大量的语言学知识的支持。语音合成是最基本的部分,任何语言合成系统都包括文语转换系统,都离不开语音合成器。语音合成系统的组成部分文本分析:使计算机从文本中认识文字,知道要发什么音、怎么发音。还要让计算机知道,在文本中,哪些是词,哪些是短语或句子,发音时应该到哪里停顿及停顿多长时间等。韵律生成:早期均采用基于规则的方法。要求系统设计人员花费大量的时间和精力去研究不同语种普遍存在的韵律特征,生成语音的自然度受到较多的限制。只追求发音的自然,掩盖了人的个性。语音合成:从参数合成到拼接合成,再到两者的逐步结合。3.1颜色的基本概念3.1.1颜色的形成颜色的形成主要有四个要素:光源、物体、眼睛和大脑物体可以分为两大类:发光物体和吸光物体三基色:红绿蓝3.1.1颜色的形成3.1.2色彩的三要素色调(hue):色调的自然次序:红、橙、黄、绿、青、蓝、靛、紫色调在颜色圆上用圆周表示,圆周上的颜色具有相同的饱和度和明度,但它们的色调不同,太阳光带中的六标准色与六个中间色,即红橙,黄橙,黄绿,蓝绿(青),蓝紫,红紫(品红),合称十二色相或色调。
3.1.2色彩的三要素把不同的色调按红橙黄绿蓝紫的顺序衔接起来,就形成了一个色调连续变化过渡的圆环,称作为色环。
图3-2色环3.1.2色彩的三要素亮度(luminance)亮度是光作用于人眼时引起的明亮程度的感觉。一般来说,彩色光能量大则显得亮,反之则暗。当彩色光的强度降到使人看不到了,在亮度标尺上应与黑色对应;同样,对于其照射强度变的很大时,在亮度标尺上应与白色对应。
3.1.2色彩的三要素亮度可以说是指各种纯正的色彩相互比较所产生的明暗差别。在纯正光谱中,黄色的明度最高,显得最亮;其次是橙、绿;再其次是红、蓝;紫色明度最低,显得最暗。
3.1.2色彩的三要素饱和度(Saturation):是指彩色光所呈现颜色的深浅或纯洁程度。对于同一色调的彩色光,其饱和度越高,颜色就越纯;而饱和度越小,颜色就越浅,或纯度越低。一般来说,彩色光能量大则显得亮,反之则暗。当彩色光的强度降到使人看不到了,在亮度标尺上应与黑色对应;同样,对于其照射强度变的很大时,在亮度标尺上应与白色对应。
3.1.2色彩的三要素例如:红+白—>粉红的这个过程中,基本色调没有变化,但饱和度降低。如下图3-4所示:3.1.2色彩的三要素饱和度还和亮度有关,同一色调越亮或越暗越不纯。
100%饱和度的色光就代表完全没有混入白光的纯色光。如下图3-5所示:3.1.3三基色:基色(primarycolor)
基色是指互为独立的单色,任一基色都不能由其他两种基色混合产生。三基色
(tri-chrominanceprimary)
三基色是根据人眼对彩色视觉的大量实验而做出的选择(红色、绿色和蓝色)三基色的选择不唯一,也可选择另外三种颜色为三基色(青、品红、黄)。青黄品红红绿白蓝图3-6三基色原理3.1.3三基色:互补色
凡是两种色光相混合而成白光,这两种色光互为补色(ComplementaryColors)。如上图所示红、青;绿、品红;蓝、黄互为补色。互补色是彼此之间最不一样的颜色,这就是人眼能看到除了基色之外其它色的原因。
3.2色彩模型:色彩模型(colormodel)是用来精确标定和生成各种颜色的一套规则和定义。
几种经常使用的色彩模型:
RGB色彩模型
HSI色彩模型
CMYK色彩模型
YUV色彩模型
Lab色彩模型3.2.1RGB色彩模型根据三基色原理,用基色光单位来表示光的量,则在RGB色彩模型,任意色光F都可以用R、G、B三色不同分量的相加混合而成:F=r[R]+g[G]+b[B]
图3-7RGB色彩模型3.2.2HSI色彩模型
HSI色彩模型是从人的视觉系统出发,直接使用颜色三要素色调(Hue)、饱和度(Saturation)和亮度(luminance)来描述色彩白黑亮度饱和度红橙黄绿黄绿蓝绿绿蓝蓝紫亮度亮度图3-8HSI色彩模型3.2.2HSI色彩模型
HSI色彩模型和RGB色彩模型只是同一物理量的不同表示法,因而它们之间存在着转换关系,如公式3-1所示:
3.2.3CMYK色彩模型
任何一种由颜料表现的色彩都可以用这三种基色按不同的比例混合而成,这种色彩表示方法称CMY色彩模型表示法。
青黄品红红绿黑蓝图3-9CMYK色彩模型3.2.4YUV色彩模型
在彩色电视发展的初期,社会上已经存在了相当数量的黑白电视机和黑白电视台,为了扩大节目的收视率,要求彩色电视机的设计必须考虑到与已有的黑白电视兼容。
为了满足兼容的要求,需要将表示亮度和表示色彩的信号的分离开来,黑白电视或电视台只处理亮度信号,略去彩色信号,这就产生了YUV色彩模型。其中
Y表示亮度,U、V表示色差。3.2.5Lab色彩模型Lab色彩模型是是由国际照明委员会于1976年公布的,它用亮度和色差来描述颜色分量,其中L为亮度、a和b分别为各色差分量。
3.3.1图形图像基本概念图形:反映物体的局部特性,它是真实物体的模型化;图像:反映物体的整体特性,是物体的真实再现。图形处理:在计算机上借助数学的方法生成、处理和显示图形。图像处理:将客观世界中实际存在的物体映射成数字化图像,然后在计算机上用数学的方法对数字化图像进行处理。3.3.2数字图像的种类矢量图位图矢量图形和位图图像的区别:矢量图侧重于“绘制”、去创造,而位图偏重于“获取”、去“复制”3.3.2数字图像的种类3.3.3图像的重要参数分辨率显示分辨率图像分辨率像素分辨率
颜色深度
最大颜色数3.3.4颜色深度与色彩类型
图像深度与色彩的映射关系主要有:真彩色:是指图像中的每个像素值都分成R、G、B三个基色分量,每个基色分量直接决定其基色的强度,这样产生的色彩称为真彩色。
伪彩色:图像的每个像素的颜色不是由每个基色分量的数值直接决定,而是把像素值当作彩色查找表(colorlook-uptable,CLUT)的表项入口地址,去查找一个显示图像时使用的R,G,B强度值,用查找出的R,G,B强度值产生的彩色称为伪彩色。
3.3.4颜色深度与色彩类型
直接色:直接色的获取是通过每个像素点的R、G、B分量分别作为单独的索引值进行变换,经相应的颜色变换表找出各自的基色强度,用变换后的R、G、B强度值产生的颜色。直接色与伪彩色相比,相同之处是都采用查找表,不同之处是前者对R、G、B分量分别进行查找变换,后者是把整个像素当作查找的索引进行查找变换。因此,直接色的效果一般比伪彩色好。3.3.4颜色深度与色彩类型
3.3.5图像数据量公式:图像数据量=图像分辨率×颜色深度/8(Byte)例如:一幅640×480的真彩色图像,未压缩的原始数据量为:640×480×24/8=921600B=900KB3.3.6图像的获取、显示、
表示与处理图像获取:图像获取也就是图像的数字化过程,即将图像采集到计算机中的过程,主要涉及成像及模数转换(A/DConverter)技术。3.3.6图像的获取、显示、
表示与处理图像显示图像显示是将数字图像转化为适合们使用的形式,便于人们观察和理解,通常图像都表现为一矩形区域的位图形式。
3.3.6图像的获取、显示、
表示与处理图像表示主要涉及到以下三种,
单色图像:通常每个像素用一个字节来表示。
灰度图像:表示像素的灰度范围,比如是256级灰度;如果是RGB色彩模式,只有当R=G=B,这个颜色就属于灰度。
彩色图像:包括前面提到16色、256色和真彩色等。
3.3.6图像的获取、显示、表示与处理图像处理主要包括:图像输入输出图像表示转换图像处理分析图像理解解释
3.4图像文件格式BMP文件:是Windows系统下的标准格式PSD文件:图像处理软件Photoshop的专用格式
JPEG文件:压缩静态数字图像的国际标准
GIF文件:是一种Web上常用的图像格式
TIFF文件:是由Aldus和微软联合开发,最初是出于跨平台存储扫描图像的需要而设计的。它的特点是图像格式复杂、存贮信息多。
3.4图像文件格式PCX文件:是ZSOFT公司在开发图像处理软件Paintbrush时开发的一种格式
DXF文件:是AutoCAD中的矢量文件格式
WMF文件:是Windows中常见的一种图元文件格式,属于矢量文件格式TGA文件:属于一种图形、图像数据的通用格式
PNG文件:是一种新兴的网络图像格式,它汲取了GIF和JPG二者的优点并将之发挥得淋漓尽致
SVG文件:是基于XML4.1动画的视觉原理
动画之所以成为可能,是因为人类的眼睛具有一种所谓的“视觉残留”的生物现象。这就是说当一场景从人眼中消失后,该场景在视网膜上不会立即消失,而是要保留一段时间。
4.2动画的分类:根据动画反映的空间范围,动画分为:二维动画三维动画根据播放时画面的生成途径,动画分为:造型动画帧动画
4.3计算机动画的特点高技术高智力高艺术
4.4技术参数帧速度:一帧就是一幅静态图像,而帧速度表示一秒钟的动画内有几帧静态画面数据量:在不计压缩的情况下,数据量是指帧速度乘以每幅图像的数据量。如果一幅图像为1MB,则每秒将达到30MB,
图像质量:图像质量和压缩的倍数有关
4.5动画设计与创意创意设计应用环境总体构图动画素材处理动画生成文字编排4.5动画设计与创意项目经理美工动画师电脑绘图光刻摄影编剧导演有关内容专家录音师旁白配音演奏师程序员图4-1制作多媒体动画人员组织4.6动画文件格式GIF文件:可以同时存储若干幅静止图像并进而形成连续的动画
FLIC格式:是Autodesk公司在其2D/3D动画制作软件中采用的彩色动画文件格式
SWF格式:是Macromedia公司的产品Flash的矢量动画格式
DIR格式:Director的动画格式,扩展名为DIR4.7动画制作软件二维动画以FlashMX为主三维动画是3DMax软件5.1模拟视频
模拟视频是以模拟电信号的形式来记录,依靠模拟调幅的手段在空间传播,使用盒式磁带录像机将视频作为模拟信号存放在磁带上。5.1.1视觉的时间域响应特性:让观察者观察按时间重复的亮度脉冲,如果闪烁频率比较低,人眼就有一亮一暗的感觉。如果闪烁频率足够高,人眼看到的则是一个恒定的亮点闪烁感刚好消失的重复频率叫做临界闪烁频率,经测定为46HZ。心理视觉研究表明如果场频大于50次/秒,人眼就感觉不到闪烁。5.1.2黑白电视信号电视基本原理:逐行扫描和传输图像信号,然后在接收端同步再现。最常用的扫描方法是光栅扫描,分为:隔行扫描(interlacedscanning)逐行扫描(progressivescanning)。
5.1.2黑白电视信号光栅扫描主要有四个重要参数:扫描线帧水平回扫期垂直回扫期5.1.2黑白电视信号模拟视频信号的重要参数:垂直清晰度(verticalresolution)宽高比(aspectratio)场频帧频5.1.3彩色电视信号彩色与黑白电视信号的兼容:所谓黑白电视与彩色电视的兼容是指黑白电视机能接收彩色电视广播,显示的是黑白图像,彩色电视机能接收黑白电视广播,显示的也是黑白图像,这叫逆兼容性。
5.1.3彩色电视信号兼容的实现:
在彩色电视信号中首先必须使亮度和色度信号分开传送,以便使黑白电视和彩色电视能够分别重现黑白和彩色图像;
尽量压缩彩色电视信号的频带宽度,使其与黑白电视信号的带宽相同;
除了新设置的色同步信号以外,应采用与黑白电视信号完全一致的行、场扫描以及消隐、同步等控制信号。
5.1.4彩色电视的制式目前世界上现行的彩色电视制式有三种:NTSC制:用于北美和日本
PAL制:主要用于西欧和中国。
SECAM制:主要集中在法国、东欧和中东一带。5.1.4彩色电视的制式5.1.4彩色电视的制式为了既能实现兼容性又有彩色特性,彩色电视系统应满足下列几方面的要求:
必需采用与黑白电视相同的一些基本参数需要将摄像机输出的三基色信号转换成一个亮度信号,以及代表色度的两个色差信号,并将它们组合成一个彩色全电视信号进行传送。在接收端,彩色电视机将彩色全电视信号重新转换成三个基色信号,在显像管上重现发送端的彩色图像。5.1.5模拟视频标准复合视频:包含亮度信号、色差信号和所有定时同步信号的单一电视信号,占用单倍带宽传输;
分量视频:是指每个分量都是一个单独的单色视频信号,三个分量(R、G、B)完全同步;
分离视频:是前面两种的折衷,将色度信号组合后加上亮度信号共两个信号参与传输,
5.2数字视频数字视频的概念
:数字视频是基于数字技术记录的,它在时间和幅度上都是离散的,可以无限次的复制,但不产生失真,并且可以通过计算机随意的编辑和再创作。5.2.2数字视频的特点易于处理传输稳定,抗干扰能力强,不失真交互能力强,集成各种视频应用按照需要和传输能力改变图像质量和传输速率5.2.3数字视频的格式AVI格式MOV、QT格式MPG格式DAT格式RAM与RA格式5.3数字电视什么是数字电视?
数字电视系统是将活动图像、声音和数据,通过数字技术进行压缩、编码、传输/存储,而实时发送/广播或者经过记录媒体的传播,供观众接收/播放的视听系统。5.3.1数字电视分类标准清晰度数字电视(SDTV)高清晰度数字电视(HDTV)
5.4多媒体视频与音频同步音频与视频复合序列的同步5.4多媒体视频与音频同步音频与视频分离的同步图5-3视频播放等待5.4多媒体视频与音频同步音频与视频分离的同步5.5视频点播与交互电视交互电视的概念
交互电视ITV系统是近年来新出现的一种新的信息服务形式,它为普通的电视机增加了交互能力,使人们可以按照自己的需求获取各种网络服务,包括视频服务、数字图书馆服务、多媒体信息服务等。视频点播的概念
把用户选择的节目,通过通信网的传输,分发到用户终端设备上。
5.5视频点播与交互电视交互视频服务的主要应用:
电影点播交互电视新闻目录例览远程学习交互广告交互视频游戏数据压缩通俗地说,数据压缩就是用最少的数码来表示信号。其作用是:能较快地传输各种信号,如传真、Modem通信等;在现有的通信干线并行开通更多的多媒体业务,如各种增值业务;紧缩数据存储容量,如CD-ROM、VCD和DVD等;降低发信机功率,这对于多媒体移动通信系统尤为重要。由此看来,通信时间、传输带宽、存储空间甚至发射能量,都可能成为数据压缩的原因。6.1多媒体数据压缩概述
数据压缩的重要性压缩的可能性冗余的种类压缩原理压缩方法分类6.1.1数据压缩的重要性多媒体数据为什么要进行压缩,主要原因有:1.原始采样的媒体数据量巨大:2.有效利用存储器存储容量:3.提高通信线路的传输效率;4.消除计算机系统处理视频I/O瓶颈
6.1.2压缩的可能性多媒体数据就像海绵一样是可以压缩的,因为多媒体数据包括两部分内容:信息和冗余数据,信息是有用的数据,而冗员数据就是无用的内容,可以压缩掉。冗余的具体表现就是相同或者相似信息的重复。冗余为数据压缩技术的应用提供了可能6.1.3冗余的种类1.空间冗余静态图像中存在的最主要的一种数据冗余。同一景物表面上采样点的颜色之间往往存在着空间连贯性,但是基于离散像素采样来表示物体颜色的方式通常没有利用这种连贯性。例如:图像中有一片连续的区域,其像素为相同的颜色,空间冗余产生。6.1.3冗余的种类2.时间冗余运动图像中经常包含的冗余。一组连续的画面之间往往存在着时间和空间的相关性,但是基于离散时间采样来表示运动图像的方式通常没有利用这种连贯性。例如:房间里的两个人在聊天,在这个聊天的过程中,背景(房间和家具)一直是相同的,同时也没有移动,而且是同样的两个人在聊天,只有动作和位置的变化。6.1.3冗余的种类3.结构冗余在某些场景中,存在着明显的图像分布模式,这种分布模式称作结构。图像中重复出现或相近的纹理结构,结构可以通过特定的过程来生成。例如:方格状的地板,蜂窝,砖墙,草席等图结构上存在冗余。6.1.3冗余的种类4.知识冗余有些图像的理解与某些知识有相当大的相关性。这类规律性的结构可以由经验知识和背景知识得到。例如:人脸的图像有固定的结构,嘴的上方是鼻子,鼻子的上方是眼睛,鼻子位于正脸图像的中线上。知识冗余是模型编码的基础。6.1.3冗余的种类5.视觉冗余人类的视觉系统对图像场的敏感性是非均匀和非线性的。对亮度变化敏感,而对色度的变化相对不敏感;在高亮度区,人眼对亮度变化敏感度下降;对物体边缘敏感,内部区域相对不敏感;对整体结构敏感,而对内部细节相对不敏感。可以根据这些视觉特性对图像信息进行取舍。6.1.3冗余的种类6.图像区域的相同性冗余图像中的两个或者多个区域所对应的所有像素值相同或者相近,从而产生数据重复性存储,这种冗余是矢量量化的基础。7.纹理的统计冗余有些图像纹理尽管不严格服从某个分布规律,但是在统计意义上服从这种规律。6.1.4压缩原理压缩原理以一定的质量损失为代价,按照某种方法从给定的信源中推出简化的数据描述—减少原始信源的冗余度。质量损失一般都是在人眼允许的误差范围之内,压缩前后的图像如果不做非常细致的对比是很难觉察出两者的差别。6.1.4压缩原理1.图像压缩系统的组成变换器量化器编码器输入图像二进制位流6.1.4压缩原理A.变换器变换器把输入的图像数据加上一对一的映射,经过变换以后所形成的图像数据比原始图像数据更有利于压缩。映射的方法有三种:
1.线性预测映射:将像素值映射到它和预测值之间的差。
2.单映射:如离散余弦变换(DCT),把图像映射到若干个系数。
3.多映射:如子带分解和小波变换。6.1.4压缩原理B.量化器量化器用来生成一组有限个符号用来表示压缩的图像。量化是多到一的映射,是丢失信息和不可逆的。有两种量化方式:
1.标量量化:对像素逐个量化。
2.矢量量化:
多个像素为一组同时量化。6.1.4压缩原理C.编码器编码器给量化器输出的每个符号指定一个码字,即生成二进制位流。有两种编码方式:
1.定长编码:每个符号指定的码字具有相同的长度。
2.变长编码(熵编码):根据符号出现的频率来决定为其指定码字的长度,频率高则码字短,反之则长。6.1.4压缩原理2.图像压缩说明视频压缩与语音相比,语音的数据量较小,且基本压缩方法已经成熟,目前的数据压缩研究主要集中于图像和视频信号的压缩方面。压缩处理过程有两个过程,编码过程是将原始数据经过编码进行压缩,以便存储与传输;解码过程是对编码数据进行解码,还原为可以使用的数据。6.1.4压缩原理3.判断一种压缩方法优劣的标准衡量一种数据压缩技术的好坏有四个重要的指标:
压缩比大:即压缩前后所需要的信息存储量之比要大。
算法简单:实现压缩的算法简单,压缩、解压速度快,尽可能地做到实时压缩解压。
恢复效果好:恢复效果好,要尽可能地恢复原始数据。
压缩能否用硬件实现.6.1.4压缩原理4.数据压缩方法的分类冗余压缩法也称无损压缩法,无损压缩是指使用压缩后的数据可以解压缩,且解压之后的数据与原来的数据完全相同。它利用数据的统计冗余进行压缩,可完全恢复原始数据而不引入任何失真,但压缩率受到数据统计冗余度的理论限制,一般为2:1到5:1。熵压缩法也称有损压缩法,有失真压缩,是指使用压缩后的数据进行解压缩,解压之后的数据与原来的数据有所不同,但不会让人对原始资料表达的信息造成误解。6.1.4压缩原理数据压缩方法的分类
冗余压缩法与熵压缩法的比较在图像压缩系统组成中,变换和编码是无损耗的,而量化是有损耗的。无损压缩方法仅利用了统计冗余,而没有利用量化器。有损压缩方法既利用了统计冗余又采用了量化器,利用了心理视觉冗余。冗余压缩法:熵压缩法:6.1.5压缩方法分类根据压缩方法的原理,可将其具体划分为以下几种:1.量化与向量量化编码
量化过程就是将连续的模拟量通过采样,离散化为数字量的过程。对像素进行量化时,可以一次量化多个点,这种方法就是向量量化。例如,可以每次量化相邻的两个点,这样就可将这两点用一个量化码字表示,达到数据压缩的目的。其数据压缩能力与预测编码方法相近,本质上也是针对统计冗余的压缩。6.1.5压缩方法分类2.预测编码(适用于空间冗余和时间冗余)
预测编码的方法是从相邻像素之间有较强的相关性特点考虑,比如当前像素的灰度或颜色信号,数值上与其相邻像素总是比较接近,除非处于边界状态,那么,当前像素的灰度或颜色信号的数值,可用前面已出现的像素的值进行预测(估计),得到一个预测值(估计值),将实际值与预测值求差,对这个差值信号进行编码、传送,这种编码方法称为预测编码方法。预测编码方法分线性预测和非线性预测编码两种。6.1.5压缩方法分类3.变换编码变换编码不是直接对空域图像信号进行编码,而是首先将空域图像信号映射变换到另一个正交矢量空间(变换域或频域),产生一批变换系数,然后对这些变换系数进行编码处理。其中关键问题是在时域或空域描述时,数据之间相关性大,数据冗余度大,经过变换在变换域中描述,数据相关性大大减少,数据冗余量减少,参数独立,数据量少,这样再进行量化,编码就能得到较大的压缩比。目前常用的正交变换有:傅立叶(Fouries)变换、沃尔什(Walsh)变换、哈尔(Haar)变换、斜(Slant)变换、余弦变换、正弦变换、K-L(Karhunen-Loeve)变换等。6.1.5压缩方法分类4.信息熵编码信息熵编码就是利用信息的相关性压缩冗余度。它根据信息熵原理,对出现概率大的用短的码字表示,反之用较长的码字表示,目的是减少符号序列的冗余度,提高码字符号的平均信息量。最常见的方法有哈夫曼编码、行程编码和算术编码。5.混合编码它是变换编码和预测编码的结合编码方法,通常有两种形式:一种方法是在某一方向进行酉变换,在另一方向上用DPCM对变换系数进行预测编码;另一种是二维变换加上时间方向上的DPCM预测。6.2数据压缩的发展历程
1952年提出有效的压缩方法Huffman编码;80年代,设计出更能接近信息论中“熵”极限的编码方法——算术编码。1984年,TerryWelch实现了LZ78算法的一个变种LZW80年代中期以后,人们对LZ77进行了改进,目前,基于字典方式的压缩已经有了一个被广泛认可的标准,从古老的PKZip到现在的WinZip,特别是随着Internet上文件传输的流行,ZIP格式成为了事实上的标准,6.3数据压缩的技术基础
熵的概念数据压缩模型数据压缩编码6.3.1熵的概念数据压缩不仅起源于40年代由ClaudeShannon首创的信息论,而且其基本原理即信息究竟能被压缩到多小,至今依然遵循信息论中的一条定理,这条定理借用了热力学中的名词“熵”(Entropy)来表示一条信息中真正需要编码的信息量,即数据压缩的理论极限。对于任何一种无损数据压缩,最终的数据量一定大于信息熵,数据量越接近于熵值,说明其压缩效果越好,假定一种无损数据压缩之后数据量小于信息熵,只能说明一个问题,说明其数据压缩肯定出错了。6.3.1熵的概念信息熵如何来计算:在计算机内部是用二进制来表示数据的,现在要用0和1组成的二进制数码来为含有n个符号的某条信息编码,假设符号Fn在整条信息中重复出现的概率为Pn,则该符号的熵En也即表示该符号所需的位数为:En=log2(1/Pn)=-log2(Pn)
整条信息的熵E也即表示整条信息所需的位数为:E=∑En
6.3.1熵的概念举个例子:字符串:aabbaccbaa字符串长度为10,字符a、b、c分别出现了5、3、2次,则a、b、c在信息中出现的概率分别为0.5、0.3、0.2,他们的熵分别为:Ea=-log2(0.5)=1Eb=-log2(0.3)=1.737Ec=-log2(0.2)=2.322整条信息的熵为:E=Ea*5+Eb*3+Ec*2=14.855位6.3.2数据压缩模型在压缩程序中,用来处理输入信息,计算符号的概率并决定输出哪个或哪些代码的模块叫做数据压缩模型,主要有静态统计模型和自适应模型。预先扫描文件中的所有字符,统计出每个字符出现的概率,这种方法在压缩术语里叫做“静态统计模型”。在实际应用中,“静态统计模型”应用的很少。6.3.2数据压缩模型真正的压缩程序中使用的大多是一种叫“自适应模型”的东西。自适应模型可以说是一台具有学习功能的自动机。它是在信息被输入之前对信息内容一无所知并假定每个字符的出现概率均等,随着字符不断被输入和编码,它统计并纪录已经出现过的字符的概率并将这些概率应用于对后续字符的编码。自适应模型还可以适应输入信息中字符分布的突然变化,可以适应不同的文件中的字符分布而不需要保存概率表。6.3.2数据压缩模型上面提到的模型可以统称为“统计模型”,因为它们都是基于对每个字符出现次数的统计得到字符概率的。另一大类模型叫做“字典模型”。他并不直接计算字符出现的概率,而是使用一本字典,随着输入信息的读入,模型找出输入信息在字典中匹配的最长的字符串,然后输出该字符串在字典中的索引信息。匹配越长,压缩效果越好。事实上,字典模型本质上仍然是基于对字符概率的计算的,只不过,字典模型使用整个字符串的匹配代替了对某一字符重复次数的统计。6.3.3数据压缩编码通过模型,已经确定了对某一个符号该用多少位二进制数进行编码。现在的问题是,如何设计一种编码方案,使其尽量精确地用模型计算出来的位数表示某个符号。最先被考虑的问题是,如果对a用3个二进制位就可以表示,而对b用4个二进制位就可以表示,那么,在解码时,面对一连串的二进制流,怎么知道哪三个位是a,哪四个位是b呢?
6.3.3数据压缩编码于是有了一种叫“前缀编码”的技术。该技术的主导思想是,任何一个字符的编码,都不是另一个字符编码的前缀。反过来说就是,任何一个字符的编码,都不是由另一个字符的编码加上若干位0或1组成。电话号码就是遵循着“前缀编码”技术来实现的,避免了8位的电话号码拨了5位就打通了另一个电话。6.3.3数据压缩编码一个最简单的例子如下表(表6-1)6.3.3数据压缩编码有了上面的码表,一定可以轻松地从下面这串二进制流中分辨出真正的信息内容了:1110010101110110111100010即DABBDCEAAB下一个问题是:象上面这样的前缀编码只能表示整数位的符号,对几点几位的符号只能用近似的整数位输出,那么怎样输出小数位数呢?(将在后面对算术编码作详细的讨论。)6.3.3数据压缩编码不同的模型使用不同的方法计算字符的出现概率,由此概率可以得出字符的熵;然后使用不同的编码方法,尽量接近期望得到的熵值。所以,压缩效果的好坏一方面取决于模型能否准确地得到字符概率,另一方面也取决于编码方法能否准确地用期望的位数输出字符代码。
换句话说,压缩=模型+编码
6.4常用的无损数据压缩方法
香农-范诺与哈夫曼编码算术编码行程RLE编码(runlengthencoding)词典编码(dictionaryencoding)6.4.1香农-范诺与哈夫曼编码香农-范诺编码(Shannon-Fano
)香农-范诺编码算法步骤:将待编码的符号按符号出现概率从大到小排序。将排好序的符号分成两组,使这两组符号概率和相等或尽可能的相近。将第一组赋值为0,第二组赋值为1。对每一组,只要不是一个符号,就重复步骤2的操作,否则操作完毕。6.4.1香农-范诺与哈夫曼编码例6-1:有一串由6个字母组成的长度为50的字符串,字母分别A、B、C、D、E和F,其中A出现3次,B出现5次,C出现15次,D出现11次,E出现12次,F出现4次,请使用香农-范诺对其进行编码。6.4.1香农-范诺与哈夫曼编码例6-1解题步骤:使用表6-2列出字母在字符串中的概率统计(这里使用的是出现次数,因为出现次数和概率成比例,也就是出现次数大则概率也大):6.4.1香农-范诺与哈夫曼编码:例6-1解题步骤:对符号按出现次数的多少进行排序,得表6-3所示:6.4.1香农-范诺与哈夫曼编码例6-1解题步骤:然后对符号进行分组,将其分为概率和最接近的两组即为(C、E)和(D、B、F、A),其中(C、E)赋值为0,(D、B、F、A)赋值为1,依次递归下去。使用二叉树左支为0,右支为1来进行编码,其最终实现如图6-6所示:6.4.1香农-范诺与哈夫曼编码例6-1解题步骤:使用香农-范诺编码算法得到的编码表,如表6-4所示:6.4.1香农-范诺与哈夫曼编码例6-1解题步骤:总共需要4×3+3×5+2×15+2×11+2×12+4×4=119位,而如果用ASCII来进行表示的话,至少要用到50×8=400位;如果用等长码3位二进制来表示六个字母的话,这样需用到50×3=150位,从这两方面都实现数据压缩。6.4.1香农-范诺与哈夫曼编码例6-1解题步骤:再来看一看压缩效果如何,这时就需来计算数据压缩的极限—熵的值:
这就是说每个符号用2.36位表示,50个像素需用118位。6.4.1香农-范诺与哈夫曼编码哈夫曼编码
(Huffman
)哈夫曼(Huffman)编码算法步骤:初始化,根据符号出现的次数按由大到小顺序对符号进行排序。把概率最小的两个符号组成一个节点,节点为两符号次数之和,去掉已取出的两个节点,加入这两节点之和,重新排序,直至只有一个数据且该数据的值所有符号出现的总次数相同为止,跳向4步骤。6.4.1香农-范诺与哈夫曼编码哈夫曼(Huffman)编码算法步骤:重复步骤2,得到新节点,形成一棵“树”。从根节点开始到相应于每个符号的“树叶”,从上到下标上“0”
或“1”。通常左支标为0,右支标为1。从根节点开始顺着树枝到每个叶子分别写出每个符号的代码。6.4.1香农-范诺与哈夫曼编码例6-2:就上面关于Shannon-Fano编码的例子:有一串由6个字母组成的长度为50的字符串,字母分别A、B、C、D、E和F,其中A出现3次,B出现5次,C出现15次,D出现11次,E出现12次,F出现4次,请使用哈夫曼对其进行编码。6.4.1香农-范诺与哈夫曼编码例6-2解题步骤:对符号按出现次数的多少进行排序,得表6-4所示:6.4.1香农-范诺与哈夫曼编码例6-2解题步骤:然后选择其中最小的两个符号,组成一个节点,如图6-7所示:
出现次数最少的两个符号组成的二叉树图6-76.4.1香农-范诺与哈夫曼编码例6-2解题步骤:去掉刚才的两个符号,加入它们的和,重新排序如表6-5所示:
6.4.1香农-范诺与哈夫曼编码例6-2解题步骤:继续选择其中最小的两个符号,组成一个新节点,如图6-8所示:
第二次取次数最少的两个符号继续组成二叉树图6-86.4.1香农-范诺与哈夫曼编码例6-2解题步骤:依次类推,进行递归,排序的表如6-6所示:
生成的二叉树如图6-9所示图6-96.4.1香农-范诺与哈夫曼编码例6-2解题步骤:依次类推,进行递归,排序的表如6-7所示:
生成的二叉树如图6-10所示
图6-106.4.1香农-范诺与哈夫曼编码例6-2解题步骤:依次类推,进行递归,排序的表如6-8所示:
生成的二叉树如图6-11所示
图6-11
6.4.1香农-范诺与哈夫曼编码取最小次数的两个符号组成二叉树图6-11
图6-12对其进行编码,左为0,右为1,如图6-12所示:例6-2解题步骤:
6.4.1香农-范诺与哈夫曼编码例6-2解题步骤:使用Huffman编码算法得到的编码表,如表:6.4.1香农-范诺与哈夫曼编码例6-2解题步骤:总共需要4×3+3×5+2×15+2×11+2×12+4×4=119位,与香农-范诺编码算法得到的最后数据相同,也同样实现了压缩,但是这只是巧合,通常情况下哈夫曼编码比香农-范诺编码的效率要高一些。
6.4.1香农-范诺与哈夫曼编码香农-范诺编码和huffman编码:平均码长>=熵,但都是接近熵,而且越接近熵,说明压缩效率越高。保证解码的唯一性,短字码不构成长字码的前缀。在接收端需要一个与发送端相同的代码表。6.4.2算术编码算术编码的基本原理将编码的消息表示成实数0和1之间的一个间隔,取间隔中的一个数来进行表示消息,消息越长,编码表示它的间隔就越小,表示这一间隔所需的二进制位就越多。通常情况下,如采用概率统计模型为静态统计模型,算术编码用到两个基本的参数:符号的概率和它的编码间隔。信源符号的概率决定压缩编码的效率,也决定编码过程中信源符号的间隔,而这些间隔包含在0到1之间。编码过程中的间隔决定了符号压缩后的输出;如采用概率统计模型为自适应统计模型,则最初的信源概率均等。6.4.2算术编码自适应统计模型的算术编码与解码
例6-3:假设某条信息中可能出现的字符只有a、b、c三种,要压缩保存的信息为abba。例6-3解题步骤:对于上面的例子中并不知道任何一个字符的概率,只能采用自适应统计模型,最初概率都为相等的,即Pa=1/3,Pb=1/3,Pc=1/3。并将0-1区间按照概率的比例分配给三个字符,即a从0到0.3333,b从0.3333到0.6667,c从0.6667到1.0000。如图6-13所示圆圈标识第一步。图6-13自适应算术编码6.4.2算术编码例6-3解题步骤:当第一个字符a出现时,就可以确定其数据间隔区域一定是在他的概率间隔范围内,如下图中的0到0.3333,这时由于多了字符a,三个字符的概率分布变成:Pa=2/4,Pb=1/4,Pc=1/4。这时的总的概率区间将不是参照0到1之间,而是在已经确定第一个字符出现之后的概率区间,即0到0.3333这一区间。此时的a从0到0.1667,b从0.1667到0.25,c从0.25到0.3333。如上图所示圆圈标识第二步。6.4.2算术编码例6-3解题步骤:当第二个字符b出现时,就可以确定其数据间隔区域为0.1667到0.25,这时由于多了字符b,三个字符的概率分布变成:Pa=2/5,Pb=2/5,Pc=1/5。就按照新的概率分
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024标准附条件借款合同书
- 2024二级建造师劳动合同
- 2024商场日常保洁服务合同
- 教育培训岗位聘任合同
- 湖北省武汉市七年级上学期语文期中试卷7套【附答案】
- 建筑工地施工人员合同范本2024
- 学术资源互享互惠协议
- 家庭长期发展规划协议书
- 省级总代理授权协议
- 2023年高考地理复习精题精练-中国的能源安全(新高考专用)(解析版)
- 2023年天津公务员已出天津公务员考试真题
- 2025年高考数学专项题型点拨训练之初等数论
- 教科版三年级科学上册《第1单元第1课时 水到哪里去了》教学课件
- 通信技术工程师招聘笔试题与参考答案(某世界500强集团)2024年
- 国际贸易术语2020
- 国网新安规培训考试题及答案
- 2024至2030年中国节流孔板组数据监测研究报告
- 黑龙江省哈尔滨市师大附中2024-2025学年高一上学期10月阶段性考试英语试题含答案
- 第六单元测试卷-2024-2025学年统编版语文三年级上册
- 【课件】Unit4+Section+B+(Project)课件人教版(2024)七年级英语上册
- 青少年法治教育实践基地建设活动实施方案
评论
0/150
提交评论