版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2.1多媒体应用开发技术2.2多媒体技术标准2.3常见的多媒体文件格式本章小结练习二2.1.1数字图像和图像技术
人们通常认为,图形和图像是没有什么区别的。但在计算机处理领域,它们是两个既有本质区别又有密切联系的概念。从本质上讲,图形和图像是计算机对处理对象的不同描述方式,它们分别有各自的特点和适用范围,在一定的条件下也可以相互转化。区别图形和图像的概念,深刻理解其内在的联系,对图形和图像的计算机处理和各种文件格式之间的转化有着重要的意义。2.1多媒体应用开发技术
1.图形和图像的区别
图形是指由外部轮廓线条构成的矢量图,一般指用计算机绘制(draw)的画面,如直线、圆、圆弧、矩形、任意曲线和图表等,有时还要使用实心或有等级变化和色彩填充的区域,如CorelDraw产生的CDR文件,以及AutoCAD产生的DWG、DXF文件。矢量图的特点是:通常文件量较小,描述的对象可以任意缩放而不会失真,从根本上讲,它是由数学坐标和公式来描述的,但一般只能描述轮廓不是非常复杂、色彩不是很丰富的对象,如几何图形、工程图纸等,否则文件量将变得很大,而效果却不理想。矢量图形用一组指令集合来描述图形的内容,如图2-1所示。这些指令用来描述构成该图形的所有直线、圆、圆弧、矩形、曲线等图元的位置、维数和形状。在屏幕上显示矢量图形时,要有专门的软件将描述图形的指令转换成在屏幕上显示的形状和颜色。用于产生和编辑矢量图形的程序通常称为Draw程序,这种程序可以产生和操作矢量图形的各个成分,并能对矢量图形进行移动、缩放、旋转和扭曲等变换,使用矢量图形的一个很大优点就是容易进行这类变换。但是,用矢量图形格式表示复杂图像(如人物或风景照片)的开销太大,因此矢量图形主要用于表示线框型的图画、工程制图、美术字等。绝大多数CAD和3D造型软件使用矢量图形作为基本的图形存储格式。
图像是指由摄像机或扫描仪等输入设备捕捉实际场景画面而产生的数字图像,并存储在计算机中的数字信息。它是由许多点阵而构成的点位图,用以描述图像中各像素点的强度与颜色(其在特定的领域有时也称光栅图),如Windows画笔所产生的bmp。它的特点是:文件存储量较大,所描述的对象会因为缩放而损失细节或产生“锯齿”。它本质上是将对象以一定的分辨率分解后,再将每一个点的色彩信息进行数字化描述。图2-1图形文件格式点位图适合于表现含有大量细节(如明暗变化、复杂的场景和轮廓、色彩非常丰富等)的画面,如照片、绘画,并可直接、快速地在屏幕上显示出来。点位图占用存储空间较大,一般需要进行数据压缩。为了便于位图的存储和交流,产生了种类繁多的图像文件格式,常见的有PCX、BMP、DIB、PIC、GIF、TGA、JPG和TIFF等。
图像的重要参数是色彩深度和分辨率,它们直接影响位图的显示质量。位图中每点的色彩深度可分为二色、灰度、256色、真彩等格式。如果用若干位表示位图中像素的颜色信息,则这些位的个数就称为色彩深度。深度为1的图像只能有两种颜色(通常为黑色和白色,但也可以是另外两种色调或颜色),通常称为单色图像。深度为4的图像可以有16种颜色,深度为8的图像可表示256种颜色。配备标准VGA显示的普通微机在640×480分辨率下可显示16种颜色的位图图像,在320×200分辨率下可显示256种颜色;SuperVGA卡可支持在1024×768(甚至更高)分辨率下显示256种颜色,一些高档显示卡在640×480分辨率下支持24位16772216种颜色的真彩色显示。
分辨率有屏幕分辨率、图像分辨率及像素分辨率三个不同概念。屏幕分辨率是显示屏幕上的最大显示区域,即水平与垂直方向的像素个数。屏幕分辨率与显示模式有关,例如,标准VGA图形卡的最高屏幕分辨率为640像素(水平)×480像素(垂直)。图像分辨率指数字图像的尺寸,即水平与垂直方向的像素个数。图像分辨率与屏幕分辨率可能不同,例如,若图像分辨率为320×240,屏幕分辨率为640×480,则该图像在屏幕上显示时只占据屏幕的1/4。图像分辨率与屏幕分辨率相同时,显示的图像正好占满整个屏幕区域;图像分辨率大于屏幕分辨率时,屏幕上只能显示出图像的一部分。位图图像所需的存储空间可用下面的公式计算:其中,高度和宽度分别是图像垂直和水平方向上的像素个数;深度是存储图像像素点颜色信息的位数。例如,一幅640×480的256色原始图像(未压缩)的数据量为:(640像素×480像素×8位)/8=307200个字节。通过输入设备得到的图像一般需要进行编辑、加工处理,才能成为合乎需要的图像文件。多数图像编辑软件(如PaintBrush、PhotoStyler和DrawPerfect等)都能对位图文件及相应的调色板文件进行常规性加工和编辑,这些软件的功能和使用方法基本相同。一些图像处理软件(如CorelDraw或PhotoShop等)可进行更复杂的处理(如图像滤波、特技效果、进行有损压缩等),适当使用可得到更清晰的图像或使图像具有某种特殊效果。
多媒体应用中所需的数字图像可以通过多种途径获得,如直接购置存储在CD-ROM光盘、磁盘或磁带上的数字化图像库;利用图像编辑软件自行创建;利用彩色扫描仪将照片或艺术作品扫描后得到数字图像;利用摄像机捕获实时图像等。
2.图形和图像的转化
图形和图像在一定的条件下是可以转化的。这种转化可以从两个方面来说明:第一是对象和输入/输出设备之间的硬转化;第二是对象文件格式之间的软转化。
1)图形和图像的硬转化
我们先来分析对象的输入过程。比如,我们有一张工程图纸,一般认为它是图形,其实,在它被输入计算机以前还不能称它为图形或图像,当用扫描仪将它输入Photoshop后,它就变成图像信息了(因为这时是点位图);当用数字化仪将它输入到AutoCAD后,它就变成图形信息了(因为这时是向量图)。也就是说,同一个对象既可以被作为图形处理,也可以被作为图像处理。到底哪种过程更有效,要看被处理的对象性质和要达到的处理结果,以上的工程图纸应作为图形处理更合理。当然,我们可以先将工程图纸用扫描仪扫进计算机,变成图像信息,再用一定的软件(如CorelTrace和PhotoShop的轮廓跟踪)人工或自动地勾勒出它的轮廓,这个过程称为向量化(也就是图像转化为图形的过程)。这个过程必然会丢失许多细节,所以通常适用于工程绘图领域。如果我们手头拿着一张照片,显然,用扫描仪把它输入计算机作为图像处理比较合适,当然,我们也不反对你一定要用数字化仪来一点点输入这张照片,但事实上这几乎不可能,除非你只想得到它的大致轮廓。下面再来分析对象的输出过程。假设我们用AutoCAD作好了一张图,较合理的方法是用绘图机将它输出,但是也可以用打印机将它输出,这时计算机必须先将图形(向量图)转化为打印机的扫描线,这个过程称为光栅化(点阵化),从本质上讲,这是图形转化为图像的过程。再假设我们用Photoshop作好一张图,较合理的方法是用打印机将它输出,这样可以得到较多的层次和细节,如果一定要用绘图机输出,就必然会丢失许多图像的细节。
2)图形和图像的软转化
了解了以上对象和输入/输出设备之间的硬转化,就比较容易理解具体应用软件中的对象文件格式之间的转化。像CorelDraw,它几乎提供了所有文件格式之间的转化。但千万不要认为,可以转化就可以随意互换,事实上许多转化是不可逆的,转化的次数越多,丢失的信息就越多,特别是在图形和图像之间的转化。比如有一个BMP的图像文件,当我们将它转化为GIF、TIFF等格式的时候问题还不大,但如果将它转化为DXF等格式时就丢失了许多的细节,甚至像一个方块中间的填充色块,都将用几根线条来代替。另一方面,将一个AutoCAD的DWG文件转化为DXF的时候问题还不大,但如果将它转化为BMP、TIFF、GIF的时候,就要注意几个非常重要的参数,一个是分辨率,另一个是色彩数。这两个参数决定了最终图像文件的大小和它的使用价值。随着图形和图像处理技术的发展,也出现了一些非常著名而优秀的文件格式,如Adobe公司的EPS格式,它就是一种兼并图形和图像的各自优点的文件格式;另外像PDF格式,它看似图像文件,但它可以被解释为不同的分辨率。总之,各种不同的文件格式从本质上讲,是在对不同性质的处理对象或同一对象的不同处理侧重采用一种最为科学合理和方便的描述方法。我们应该根据自己的处理对象的特点来选择(或将其转化为)相应的文件格式,以及选择相应的输入/输出设备。2.1.2多媒体数字音频技术
多媒体数字音频包括波形音频和MIDI(乐器数字接口,如图2-2所示)。波形音频一般用来重现语言和其他音乐声音。要在电脑中得到波形音频数据,必须用一个A/D转换器把模拟音频信号转换成数字音频信号,因此,波型音频需要大量存储空间来真实地重现声音。而MIDI是由符号来表示音乐声音的,所以它对存储空间的要求要比波形音频少几个数
量级,并且允许更大的编辑灵活性。它的声音质量主要与合成器有关,而与MIDI数据本身无关。图2-2MIDI播放器多媒体技术中的一种重要媒体来自音频,包括语音、音响和音乐。音频的作用是直接通过讲话表达信息,制造某种效果和气氛,演奏乐曲等。
音频技术发展比较成熟,其商品化产品(如数字音响)已投入使用。音频技术主要包括数字化及语音处理、合成、识别等方面。音频数字化是目前比较成熟的技术,数字音响和多媒体声卡都是利用这项技术设计的。数字音响由于采用了数字化音频,因而获得了非常理想的声响效果,迅速取代了传统模拟方式的音响。音频数字化就是将模拟的(连续的)声音波形数字化(离散化),以便利用数字计算机进行处理的过程,其主要包括采样和量化两个方面。相应地,数字化音频的质量取决于采样频率和量化位数这两个重要参数。采样频率是指对声音波形每秒进行采样的次数。人耳听觉的频率上限在20 kHz左右,根据采样理论,为了保证声音不失真,采样频率应在40 kHz左右。经常使用的采样频率有11.025 kHz、22.05 kHz和44.l kHz等。采样频率应在40 kHz左右。经常使用的采样频率有11.025 kHz、22.05 kHz和44.l kHz等。采样频率越高,声音失真越小,音频数据量越大。量化数据位数(也称量化级)是每个采样点能够表示的数据范围,经常采用的有8位、12位和16位。例如,8位量化级表示每个采样点可以表示256个
(0~255)不同量化值,而16位量化级则可表示65536个不同量化值。量化位数越高,音质越好,数据量也越大。音频数字化的采样频率和量化级越高,结果越接近原始声音,但记录数字声音所需的存储空间也随之增加。可以用下面的公式估算声音数字化后每秒所需的存储量(假定不经压缩):若采用双声道录音,则存储量再增加一倍。例如,数字激光唱盘(CD-DA,红皮书标准)的标准采样频率为44.1 kHz,量化位数为16位立体声,可以几乎无失真地播出频率高达22 kHz的声音,这也是人类所能听到的最高频率声音。激光唱盘播放一分钟音乐需要的存储量为反映音频数字化质量的另一个因素是通道(或声道)个数。记录声音时,如果每次生成一个声波数据,则称为单声道;每次生成两个声波数据,则称为立体声(双声道),立体声更能反映人的听觉感受。
除了上述因素外,音频数字化的质量还受其他一些因素(如扬声器的质量等)的影响。
数字音频数据的获取可以通过多种途径来实现,如利用市场上已有的数字式音乐或音响产品,自己录制,需高质量音频时可租用专门的录音设备进行录制。原始音频数据一般需进行编辑加工后才能使用,通过编辑可以实现各种声音混合以及消除或降低声音中的畸变等。一般的音频编辑软件(如WaveEdit等)都具有设置音量、渐强渐弱处理及多通道的混合等常用功能。多媒体应用中音频数据的另一个重要来源是乐器数字接口(MIDI,MusicalInstrumentDigitalInterface)文件。国际电子乐器生产厂家达成有关协议,并于1988年正式提交给MIDI制造商协会,使MIDI成为数字音乐的一个国际标准。MIDI标准规定了电子乐器与计算机连接的电缆硬件以及电子乐器之间、乐器与计算机之间传送数据的通信协议等规范。MIDI标准使不同厂家生产的电子合成乐器可以互相发送和接收音乐数据。随着MIDI标准的施行,计算机成为电子合成乐器间的控制环节,市场上出现了大量可进行记录、存储、编辑和播放乐谱(音符表或音符序列)的计算机软件。使用高级语言(如C、Basic或Fortran)编程,根据特定的作曲算法也可生成ASCII乐谱,并翻译为在合成器上进行演奏的序列文件。音频处理主要集中在音频压缩上,最新的语音压缩算法可将原始声音数据压缩为原数据量的1/6~1/8。语音合成是指将普通正文合成为语音,国内外一些语音合成系统的水平已达到实用阶段,特别是汉语语音合成研究近年来有了突飞猛进的发展。音频技术中难度最大、最具应用前景的当属语音识别。语音识别目前仍处于实验研究阶段,虽有少量产品问世,但距实用尚有一定的距离。然而,其潜在的商业应用前景使之成为音频技术研究关注的热点之一。2.1.3多媒体数字视频技术
多媒体数字视频技术(如图2-3所示)的发展历史虽然不长,但应用范围已经非常广泛,与最新的MPEG压缩技术相结合的家电—计算机一体化产品已受到空前的重视并已迅速进入市场。世界各地使用的视频标准不完全相同,主要有NTSC和PAL两种标准(或制式)。美国、加拿大和日本等国使用NTSC标准,NTSC标准为30帧每秒,525行每帧。我国及欧洲大部分国家采用PAL制式,PAL标准为25帧每秒,625行每帧。图2-3多媒体视频技术多媒体数字视频技术包括视频信号数字化和视频编码两个方面。与音频数字化一样,视频信号数字化的目的是将模拟视频信号经模数转换和彩色空间变换等过程,转换成数字计算机可以显示和处理的数字信号。视频编码是将数字化视频信号经编码成为电视信号,从而可以录制到录像带上或在电视上播放。对于不同的应用环境有不同的技术可以采用,从低档的游戏机到电视台广播级的视频编码技术,均已基本成熟。视频技术的最近发展趋势之一是与多媒体计算机密切相关的高清晰度电视(HDTV)。2.1.4多媒体动画技术
动画提供了静态图形缺少的瞬间交叉的运动景象,是一种可感觉到运动的相对时间、位置、方向和速度的动态媒体。
动画(如图2-4所示)不仅具有电影的优美、写实、大众化的效果,而且可以把人们的视觉引向一些客观不存在或者难以实现的世界中。传统动画的制作过程相当复杂,诸如规划,设计故事情节,设计场景和演员动作,设计语言踪迹,设计关键画帧和中间画帧,复制到色片上,最后描线、上色、检查、编辑,整个过程消耗的人力、物力和资金往往是很惊人的。图2-4多媒体动画电脑动画已有30多年的历史,早期由于软/硬件水平的限制而进展缓慢。动画的创作方法是基于数学公式的,由某种算法产生一系列作品。目前主要通过计算机软件,为动画创作提供一个人机交互的环境。基于知识的动画创作系统也已问世,它能代替人的部分低层次的有规律的思维。本质上,动画创作是一种形象思维活动,对形象思维的研究将从理论上为动画创作提供一种清晰的模型。目前的动画创作环境可以制作水平较高的动画片,如美国电影《侏罗纪公园》(JurassicPark)就是因为运用了大量的电脑动画而创造了空前的票房纪录。电脑动画的硬件环境主要由高性能计算机(加图形卡等选件)及输入/输出设备组成。常用的输入设备有扫描仪和摄像机,输出设备视载体而定,载体有录像带、光盘及胶片等。电脑动画制作采用一行一行编程的方法是不可取的,购买一套动画电脑软件是事半功倍的好办法。针对不同的机型,可以选择不同的软件,如Wavefront、Alias、Softimages和3DStudio等动画软件。电脑动画制作过程不同于传统动画制作。根据剧情需要,首先应在计算机中生成一个真实的三维物体(选型),再对物体进行光照着色(真实感设计),然后使物体动起来(动画设置),最后对运动物体进行拍照以生成图像(图像生成),制成录像带。利用动画软件制作动画,可采用直接在屏幕上交互设计和编程设计两种方法。输入设备扫描仪和摄像机的使用对具体造型帮助很大,有时这二者混合使用可使动画制作更快、更好。利用动画软件本身提供的内部语言或高级语言及与动画软件连接的接口来实现编程动画设计已在科学计算可视化中得到较好的应用。
电脑动画的基础是计算机图形学中的三维造型和真实感显示,同时综合了图形生成技术、运动控制原理、视频显示技术、视觉生理学、生物学、机器人学、人工智能、物理和艺术等多个领域的理论和方法,为了成功创作动画,需要掌握这些当代先进技术。目前,电脑动画创作环境还只处于辅助动画设计阶段,它是一个训练有素的动画师创作的辅助工具。电脑动画的目标是使一系列二维或三维物体组成的图像帧连续变化,运动控制完全自动化和智能化,最终与可视化技术、多媒体技术融合在一起。实现虚拟现实的境界是电脑动画的发展方向。
目前,电脑动画物体模型的建立(造型)一般采用曲面造型方法。非均匀有理B样条曲面(NURBS)被认为是目前最好的造型方法,它造型简单方便,曲面间自动达到位置;切矢、曲率均连续,不必特意拼接各部分,易于局部修改,不影响整体效果,具有高阶导数等良好的数学性质,可以随意表示大多数复杂的物体外形。具体造型时,灵活应用软件提供的外设输入、编程和掌握创建屏幕上直接交互的造型技术是动画师的基本功,如灵活应用旋转面、直纹面、边界线定义的曲面、扫描面、n边面、过渡面、曲面上绘曲线、曲面的交并差、裁剪曲面等工具。
物体模型是一种线框形式,只有通用光和色的渲染才能产生自然界中常见的真实物体,这在动画中称为真实感设计。真实感设计包括三方面内容:光源、光照模型和表面质感。光源有点源、线源、面光源、聚光灯、平行光、环境光以及雾、闪电、雷、雨等特殊效果,同时还要考虑光色、亮度、衰减规律、几何特性等。光照模型除一般的反射、折射、透射外,还可分为局部光照模型、整体光照模型、光源模型。表面质感也称纹理,有颜色纹理和几何纹理之别,它们可以使物体表面具有某种材料特性。电脑动画软件一般提供数十种纹理,有时还可形成多层纹理。
使静止的物体产生运动称为动画设置。运动物体不仅表现为几何位置改变,还带来光、色、背景、受力、碰撞以及物体本身的形变。当前使用的方法有关键帧法、运动路径法、物体变形法、运动中心与物体局部动画、动力学仿真、运动学和反运动模拟、光照模型、纹理的动画以及动画编辑。对于由骨骼带动其他部分一起运动的物体,如人、机器人、多节体的柔体,也是动画设计中一个重要组成部分,这部分动画设计的自动化程度可以达到较高水平。图像生成有点类似于照相机的作用,对于制作动画,同样存在着推、拉、摇、移、变焦等过程。电脑动画成像是经过计算机计算物体表面的各种光效果来实现的。光线投影法只计算物体表面受到光源直接照射后一次产生的光的反射和透视,不计算光产生的折射现象,其特点是产生图像的速度快,但质量不高。光线跟踪法是反向跟踪光线的方法,它从视点(人眼,摄像机)出发,找到射入视点的各光线束,反向跟踪每条射线,计算各交点的反射、折射和透视,直至射线离开场景或光束衰减到规定的强度以下。这里还要考虑场景的环境漫反射、光的漫反射、光的镜面漫反射、光的规则透射、光的漫透射等多种现象。因此,它是一种计算量很大、生成图像质量很高的方法。
动画已从一种纯娱乐媒体发展成阐述人们想法的最有力的方法之一。电脑上的动画制作软件(如3DS)可使人们对其结果进行大量控制(格式、颜色、照明光线和透视),而不必顾及实际自然规律。因此,用它可建立能精确说明问题的图像。
目前电脑动画主要用在电视电影动画制作、电视广告、辅助教学、飞行器模拟训练、指挥调度演习、工业实时控制仿真、模拟产品实验、医疗诊断、电子游戏等方面。2.1.5超文本与超媒体技术
超文本(Hypertext)思想的提出可以追溯到半个世纪以前,但真正实现并付之实用只是近几年的事。目前,国外的一些大公司、大学和研究机构推出了多种商品化超文本系统,国内的研究机构和大学也研制出了几种超文本系统并已投入运行。通常我们阅读小说时,是一页一页地往下读,与之对应的电子书籍,在计算机屏幕上也是一屏一屏往下读,这是一种顺序方式。如果我们要研究这部小说,或者读的是百科全书、牛津大辞典、论文集等,显然不能按照上述顺序方式线性地往下读。例如,某读者看到作者名时,想查阅作者的国籍、专长、其他著作、研究成果、学术地位、主要观点等;另一位读者对作者比较了解,读到作者名时只是一晃而过。上述读书行为中有两个重要特点:其一是书中的信息(指一个名词,一句话,一段文章等)有脚注,而且脚注中还可以有脚注,逐步深入;其二是读书方式千差万别,这种差别不仅表现在不同的读者身上,还表现在同一读者在不同时间读同一本书上。用科学的观点看,带脚注的读书方式更符合人类的思维方式,即联想记忆的方式。为了说明超文本的思想,我们来做一个实验,任务是在计算机中对一本书进行脚注。方法是:第一步把书分成一些章节,每个章节都有主题,为了便于查询,需要赋予一些标志;第二步把每个章节中需要脚注的信息点检出来;第三步完成第二步中信息点的脚注,同时赋予标志;第四步把脚注中的信息点检出来,再做脚注,即重复第二步、第三步的工作,直至所有的信息点被注释完毕;第五步编制一套程序,实现按读者的需要进行联想阅读。这样组织起来的电子书籍,其读书方式既可以顺序读,也可以联想读。也许甲读者在读到“太阳”一词后其路径是:太阳—星星—射电天文学—黑洞—爱因斯坦—法西斯……;乙读者可能的途径是:太阳—东方红—毛泽东—长沙—白沙井……。同一本书对于读者甲和乙,似乎变成完全不同的两本书,而且这本书无所谓第一页和最后一页,存在的只是信息和信息之间的联系,这种联系是网络状的、非线性的,而不是我们常见的线性的、顺序的。文本信息由线性、顺序的发展为非线性、网络型的,在习惯上被称为超文本。在超文本系统中,前面所述第一步中的章节可以称为结点,第三步中的脚注也可以称为结点。结点一般具有一个特定的主题,对于超文本中最简单的情况——顺序文本文件(小说),其结点可以是一个主题,一个章节,也可以是一个页面。结点在超文本中主要用来存储信息,它是一个基本要素。
在超文本系统中,从结点中某个信息点查找某脚注是由链来完成的。链是超文本中第二个基本要素,链一般是有向的,它从源结点的内部出发指向整个目标结点。把一个超文本系统的结点和链绘制成一张图,从数据结构角度看它是一张有向图,有时也称其为网络。读者的读书过程就是由源结点顺着某个链迁移到另一个结点的过程,链是超文本系统的灵魂。
图2-5是超文本网络结构示意图,图中共有a~f6个结点(页面),带箭头的直线为超文本的链,它从结点内部出发,指向另一个结点。每个结点的出键和入键是不相同的。若结点出、入键数目总和为零,则该结点永远不能被访问和使用,该结点也不属于该超文本系统。若某结点只有出键,则它带有头的性质;若某结点只有入键,则它带有尾和陷阱的性质;显然在超文本系统中,还存在着回路的可能性,从语义角度看,这是一种循环脚注现象。图2-5超文本网络结构示意图文本信息由线性方式上升到网络方式,其管理方式发生了根本的变化,超文本的名字也由此而来。超文本作为一种信息管理技术,随着信息种类的增加,如多媒体技术的发展,声、像信息表示的引入,超文本名称自然延伸为超媒体(Hypermedia)。在超媒体技术中,结点发展分为三大类:表现类(文本、图形、图像、声音、视频、混合、按钮等)、组织类(目录、索引)和推理类(对象、规则)。链也发展为三大类:基本结构链(基本、交叉索引)、组织链(索引)和推理链(Is-a、Has-a,蕴含、执行)等。超媒体系统与一般的纸介质文献相比,其优点是查询速度快,结点信息由文本发展到声音、图像、动画、视频、计算机程序,结点和链的更新(印刷品是不能更新的),使之产生了新的组织结构。当超媒体网络结点很多时,由于其使用的灵活性,会产生“迷路”现象(即用户需要做某一事件,但找不到该事件结点)。
1.超文本
超文本是一种新型的信息管理技术,它以结点为单位组织信息,在结点与结点之间通过表示它们之间关系的链加以连接,构成表达特定内容的信息网络。超文本组织信息的方式与人类的联想记忆方式有相似之处,从而可以更有效地表达和处理信息。
使用Windows系统的读者对其颇具特色的帮助系统一定有很深的印象,这个系统就是用超文本方式组织的。在Windows环境下,利用Microsoft的对象链接和嵌入技术(OLE),可方便地将许多程序甚至是普通文本变成具有超媒体功能的系统。超文本与传统的文本有很大的区别。传统文本,无论是普通书籍还是计算机的文本文件,都是用线性方式加以组织的,读者在阅读时,必须一页一页顺序阅读,几乎没有选择的余地。超文本是一个非线性的网状结构,读者在阅读时不必像读一般文章那样按顺序阅读,可以根据实际需要,利用超文本机制提供的联想式查询能力,迅速找到自己感兴趣的内容和有关信息(想像一下你从一本百科全书中查找某个术语含义的过程)。制作超文本的过程就是将有关素材按其内在的联系划分成不同层次、不同关系的思想单元,然后用超文本著作工具(绝大多数多媒体创作工具支持超文本写作)将这些思想单元组成一个网状结构。超文本一般采用“控制按钮”的方式组织接口。
超文本(和后面介绍的超媒体)包含结点、链和网络三个基本要素。
1)结点(node)
结点是表达信息的基本单位。如果每个结点只表示文本信息,则是原始意义下的超文本。结点所表示的信息不仅可以是文本,也可以是图形、图像、音频、视频、动画,甚至是一段计算机程序。结点中所包含的最小信息单位,如一幅图像、一段文字、一个按键等,依不同情形分别称为“点”(point)和“域”(field)。不同的超文本系统中结点的表示方法乃至名称都有所区别。例如,在Hypercard中,结点称为卡片,每个卡片由字段、按键和图像组成,字段用来记录字符串、数字等数据,按键表示用Hypercard的写作语言Hypertalk所写成的程序,用鼠标选择了卡片上的按键后,就执行相应的程序。这些字段、按键和图像等就是构成卡片的点和域。一般采用两种方式显示结点中的信息:一种是依据结点的某种次序顺序显示;另一种是以窗口的形式显示,这时结点和窗口是一一对应的,屏幕上可能有若干个不同尺寸的重叠窗口,每个窗口分别显示一个结点。
2)链(Link)
超文本中使用链将结点连接起来,以表示被连接的各结点之间的关系。一般来说,结点间有索引链和结构链两种连接方法。
索引链实现结点中点、域之间的连接,通过索引链可实施对相关信息的查找及交叉参考。一个链的起始端称为链源,是索引的引出处,通过它可以访问另一个结点。在超文本系统中,链源的表现形式很多,如对链源的标识符以斜体、粗体、彩色、加下划线或加边框等形式显示;也可以是一个图符、图像或控制按钮等。链的末端称为目标端,是索引的目标。链的起始端和末端通常都是结点中的点或域。应该注意到,两个结点之间的链可能不止一个,因此,它们可能分别是某个链的起始端和末端,只有这样才能做到两个结点信息内容的交叉参考。
结构链对层次性信息进行操作,即它所连接的是处于不同层次的父子结点,比如,将一个结点中的某个点与另一个结点连接。这种连接方法在超文本网络中形成了树状子网。
除上述两种连接方法外,在超文本中还经常使用一种隐形链——关键字链。可用结点的标识或属性作为关键字,也可以将链本身作为关键字。以关键字访问结点可能有多个匹配。
3)网络(Network)
超文本中由结点和链构成的网络是一个有向图,这种有向图与人工智能中的语义网有相似之处。语义网是一种知识表示方法,其中结点表示概念,而结点之间的弧表示两个概念之间的关系。
超文本中的结点可以看做是对单一概念或思想的表达,而结点之间的链则表示概念或思想之间的语义关系。从这个观点看,超文本也可以看做是一种知识组织和表达方法,与人工智能范畴的知识工程不同的是,后者致力于建立知识的表示,以便于机器推理;而超文本知识表达的目的是将各种思想、概念组合到一起,便于浏览,而不考虑机器推理。一个超文本系统通常具备以下基本特性:
●所管理的信息是一些单元(信息块),这些单元在不同的系统中被分别称为结点(nodes)、结点卡(nodecards)、帧面(frames)或页(pages)等;
●信息单元之间通过链(link)连接在一起,系统提供面向窗口或鼠标的用户界面跟踪链路,使用户在结点中航行(navigation)时不至迷失方向;
●系统具有检索(retieval)能力;
●允许用户在信息单元上作注释(annotation)或自由添加链路。
2.超媒体
超文本与多媒体的融合产生了超媒体。事实上,超媒体的原文Hypermedia就是超文本Hypertext和多媒体Multimedia的结合词。简单地讲,允许超文本的信息结点存储多媒体信息(图形、图像、音频、视频、动画和程序),并使用与超文本类似的机制进行组织和管理,就构成了超媒体。但在实际中,管理和组织多媒体信息比单纯的文本信息复杂得多,所以要将超文本的知识表示方法与多媒体对文本、图形、图像、音频、视频、动画等信息的存储和处理技术相结合。前面提到,现在已经很难区分超文本、超媒体和多媒体,特别是当前严格意义下的超文本系统已经很少见(在某些场合,如一些DOS应用软件的帮助功能中还可以见到)。总的来讲,多媒体的含义更广一些,而超媒体强调的是对多种媒体信息的组织、管理,面向对这些信息的检索和浏览。超媒体技术广泛应用于各种信息查询系统,如教学、信息检索、字典和参考资料、商品介绍展示、旅游和购物指南、交互式娱乐等。2.1.6光存储技术
光存储介质与磁存储介质有不少相似的地方,例如,它们都可以用盘、带或卡的形式出现,在用途和性能方面也有相似的地方。光存储介质与磁存储介质之间的本质区别在于后者使用磁技术,而前者使用光技术。光存储技术通过光学的方法读出(有时也包括写入)数据,由于使用的光源基本上是激光(也用过其他光源),因此又称为激光存储。
1.光存储的基本原理
一个物理单元之所以能存储数据,是因为它的某种性质能够发生变化,并以此反映出所存储的数据。通过识别这种性质上的变化就可以读出其中存储的数据,而用某种编码方法改变物理单元的性质,则可将数据写入该介质中。
光学存储用激光束以光学方式读取记录在塑料圆盘上的信号坑,其单位面积的记录密度可达到700KB/mm2,而且进一步提高的潜力尚大,是目前使用的所有数据存储介质中记录密度最高的。
2.光存储介质的分类
光存储介质根据其存储体的外形和大小进行分类(如盘、带和卡等)。图2-6清晰地显示了光存储介质的发展过程。目前最常见的光存储介质有5.25英寸和4.75英寸光盘,后者的尺寸与标准激光唱盘大小相同,已经被采纳为CD-ROM光盘的标准尺寸。一种更小的3.5英寸的光盘标准也已颁布,但尚不普及。图2-6光存储技术演变也可以根据记录方法对光存储介质进行分类。第一种记录方法称为WORM(即一次写多次读),实质是存储单元的状态一旦改变就不能恢复到原来的状态,因而写操作不可逆;重复读的次数尽管不是无限的,但一般都能保证使用数十年以上。第二种记录方法称为ROM(即只读存储),在多媒体技术中应用的光学只读存储器主要指CD-ROM光盘(CD-ROMTitles)。激光视盘也是一种常见的只读光盘,最初用于记录影片数据(模拟数据)。视盘与CD-ROM光盘在原理和结构上很相似,尺寸一般为12英寸或8英寸。2.2.1JPEG——静止图像压缩标准
国际标准化组织(ISO)和国际电报电话咨询委员会(CCITT)联合成立的专家组JPEG(JointPhotographicExpertsGroup)经过五年艰苦细致的工作后,于1991年3月提出了ISOCDIO918号建议草案:多灰度静止图像的数字压缩编码(通常简称为JPEG标准)。这是一个适用于彩色和单色多灰度或连续色调静止数字图像的压缩标准。2.2多媒体技术标准它包括基于DPCM(差分脉冲编码调制)的无损压缩编码,基于DCT(离散余弦变换)和Huffman编码的有损压缩算法两个部分。前者不会产生失真,但压缩比很小;后一种算法进行图像压缩时信息虽有损失但压缩比可以很大,例如压缩20倍左右时,人眼基本上看不出失真。JPEG标准实际上有三个范畴:
(1)基本顺序过程(BaselineSequentialProcesses):实现有损图像压缩,重建图像质量达到人眼难以观察出来的要求。其采用的是8×8像素自适应DCT算法、量化及Huffman型的熵编码器。
(2)基于DCT的扩展过程(ExtendedDCTBasedProcess):使用累进工作方式,采用自适应算术编码过程。
(3)无失真过程(LosslesssProcess):采用预测编码及Huffman编码(或算术编码),可保证重建图像数据与原始图像数据完全相同。
基本顺序过程是JPEG最基本的压缩过程,符合JPEG标准的硬软件编码/解码器都必须支持和实现这个过程。另两个过程是可选扩展,对一些特定的应用项目有很大的实用价值。
1.JPEG算法
基本JPEG的编码算法可分成三个步骤:①通过离散余弦变换(DCT)去除数据冗余;②使用量化表对DCT系数进行量化(量化表是根据人类视觉系统和压缩图像类型的特点进行优化的量化系数矩阵);③对量化后的DCT系数进行编码使其熵达到最小,熵编码采用Huffman可变字长编码。
JPEG的解码过程如图2-7所示。图2-7JPEG标准解码过程
2.离散余弦变换
JPEG采用8×8子块的二维离散余弦变换算法。在编码器的输入端,把原始图像(对彩色图像是每个颜色成分)顺序地分割成一系列8×8的子块。在8×8图像块中,像素值一般变化较平缓,因此具有较低的空间频率。实施三维8×8离散余弦变换可以将图像块的能量集中在极少数几个系数上,其他系数的值与这些系数相比,绝对值要小得多。与Fourier变换类似,对于高度相关的图像数据进行这样变换的效果是使能量高度集中,便于后续的压缩处理。
3.量化
为了达到压缩数据的目的,对DCT系数需作量化处理。量化的作用是在保持一定质量的前提下,丢弃图像中对视觉效果影响不大的信息。量化是多对一映射,是造成DCT编码信息损失的根源。JPEG标准中采用线性均匀量化器,量化过程为对64个DCT系数除以量化步长并四舍五入取整,量化步长由量化表决定。量化表元素因DCT系数位置和彩色分量的不同而取不同值。量化表为8×8矩阵,与DCT变换系数一一对应。量化表一般由用户规定(JPEG标准中给出了参考值),并作为编码器的一个输入。量化表中的元素为1~255之间的任意整数,其值规定了所对应DCT系数的量化步长。DCT变换系数除以量化表中对应位置的量化步长并舍入小数部分后,大多数变为零,从而达到了压缩的目的。
4.游程编码
64个变换数经量化后,左上角系数是直流分量(DC系数),即空间域中64个图像采样值的均值。相邻8×8块之间的DC系数一般有很强的相关性,JPEG标准对DC系数采用DPCM编码(差分编码)方法,即对相邻像素块之间的L系数的差值进行编码。其余63个交流分量(AC系数)使用游程编码,从左上角开始沿对角线方向,以Z字形(Zig-Zag)进行扫描直至结束。
量化后的AC系数通常会有许多零值,以Z字形路径进行游程编码有效地增加了连续出现的零值个数。
5.熵编码
为了进一步压缩数据,可对DC码和AC行程编码的码字再作基于统计特性的熵编码。JPEG标准建议使用的熵编码方法有Huffman编码和自适应二进制算术编码。2.2.2MPEG——运动图像压缩编码
MPEG(MovingPicturesExpertsGroup)是ISO/IEC/JTC/SC2/WG11的一个小组,它兼顾了JPEG标准和CCITT专家组的H.261标准,于1990年形成标准草案。MPEG标准分成两个阶段:第一个阶段(MPEG-1)是针对传输速率为1~1.5 Mb/s的普通电视质量的视频信号的压缩;第二个阶段(MPEG-2)则是针对30帧每秒的720×572分辨率的视频信号进行压缩,在扩展模式下,MPEG-2可以对分辨率达1440×152的高清晰度电视(HDTV)的信号进行压缩。
MPEG算法除了对单幅图像进行编码外,还利用图像序列的相关特性去除帧间图像冗余,大大提高了视频图像的压缩比,在保持较高的图像视觉效果的前提下,压缩比可以达到60~100倍左右。MPEG压缩算法复杂,计算量大,其实现一般需要专门的硬件支持。
MPEG标准有三个组成部分:MPEG视频,MPEG音频,视频与音频的同步。MPEG视频是MPEG标准的核心。为满足高压缩比和随机访问两方面的要求,MPEG采用预测和插补两种帧间编码技术。MPEG视频压缩算法中包含两种基本技术:一种是基于16×16子块的运动补偿技术,用来减少帧序列的时域冗余;另一种是基于DCT的压缩,用于减少帧序列的空域冗余,在帧内压缩及帧间预测中均使用了DCT变换。运动补偿算法是当前视频图像压缩技术中使用最普遍的方法之一。
1.运动补偿预测
帧序列的相邻画面之间的运动部分具有连续性,即当前画面上的图像可以看成是前面某时刻画面上图像的位移,位移的幅度值和方向在画面各处可以不同。利用运动位移信息与前面某时刻的图像对当前画面图像进行预测的方法,称为前向预测;反之,根据某时刻的图像与位移信息预测该时刻之前的图像,称为后向预测。
MPEG的运动补偿预测方法将画面分成若干16×16的子图像块(称为补偿单元或宏块),并根据一定的条件分别进行帧内预测、前向预测、后向预测及平均预测。
2.运动补偿插值
以插补方法补偿运动信息是提高视频压缩比的最有效措施之一。在时域中,插补运动补偿是一种多分辨率压缩技术。例如,以l/15秒或1/10秒时间间隔选取参考子图,对时域较低分辨率子图进行编码,通过低分辨子图及反映运动趋势的附加校正信息(运动矢量)进行插值,可得到满分辨率(帧率1/30秒)的视频信号。插值运动补偿也称为双向预测,因为它既利用了前面帧的信息,又利用了后面帧的信息。2.2.3H.26X——视频通信编码标准
电视电话/会议电视的建议标准H.261常称为P×64K标准,其中P是取值为1~30的可变参数。P=1或2时支持四分之一中间格式(QCIF,QuarterCmmonIntermediaFormat)的帧率较低的视频电话传输;P≥6时支持通用中间格式(CIF,CommonIntermediateFormat)的帧率较高的电视会议数据传输。P×64K视频压缩算法也是一种混合编码方案,即基于DCT的变换编码和带有运动预测差分脉冲编码调制(IDPCM)的预测编码方法的混合。在低传输速率时(P=1或2,即64b/s或128 Kb/s),除QCIF外还可使用亚帧(Sub-frame)技术,即每间隔一帧(或数帧)处理一帧,压缩比可高达50∶1左右。图像压缩技术、视频技术与网络技术相结合的应用前景十分可观,如远程图像传输系统、动态视频传输——可视电话、电视会议系统等已经商品化,MPEG标准与视频技术相结合的产物——家用数字视盘等已进入市场。可以预计,这些技术和产品的发展将对社会的进步产生重大影响。
压缩技术也是多媒体技术中的关键问题,目前已有以下标准:
● JPEG(JointPhotographicExpertsGroup)标准:适用于连续色调、多级灰度、彩色/单色静止图像压缩。● H.261标准:主要用于视频电话和视频电视会议。H.261编码/解码模型与MPEG的模型类似,包括5个阶段:①运动补偿预测;②DCT转换;③有失真量化;④DC系数的编码以AC系数的行程编码;⑤熵编码。H.261标准的压缩算法与MPEG的有较多的相同处,区别只是在于前者覆盖较宽的信道频带,而后者是基于较窄的频带上传输。● H.264标准:是DPCM加变换编码的混合编码模式。它采用“回归基本”的简洁设计,设有众多的选项,可获得比H.263++好得多的压缩性能;加强了对各种信道的适应能力,采用“网络友好”的结构和语法,有利于对误码和丢包的处理;应用目标范围较宽,以满足不同速率、不同解析度以及不同传输(存储)场合的需求。它集中了以往标准的优点,并吸收了标准制定中积累的经验。与H.263v2(H.263+)或MPEG-4简单类(SimpleProfile)相比,H.264在使用与上述编码方法类似的最佳编码器时,在大多数码率下最多可节省50%的码率。H.264在所有码率下都能持续提供较高的视频质量。
H.264能工作在低延时模式以适应实时通信的应用(如视频会议),同时又能很好地工作在没有延时限制的应用中,如视频存储和以服务器为基础的视频流式应用。H.264提供包传输网中处理包丢失所需的工具,以及在易误码的无线网中处理比特误码的工具。
● MPEG-1标准:制定于1992年,是为工业级标准而设计的,可适用于不同带宽的设备,如CD-ROM、Video-CD、CD-R等;主要针对1.5 Mb/s以下数据传输率的数字存储媒质运动图像及其伴音编码的国际标准;每秒播放30帧,CD音质,质量与VHS(家用视频系统)相当。●MPEG-2标准:制定于1994年,设计目标是高级工业标准的图像质量以及更高的传输率,它追求的是CCIR601建议的图像质量DVB、HDTV和DVD等制定的3~10 Mb/s的运动图像及其伴音的编码标准,与MPEG-1兼容,适用于1.5~60 Mb/s甚至更高的编码范围。定名为MPEG-2AAC(AdvancedAudioCoding)的标准完成于1997年,经BBC(U.K.)和NHK(Japan)使用、测试表明,已达到最优化ITU-R601推荐的分辨率,并且对于低比特率的多声道编码能提供相当高的声音质量。● MPEG-4标准:主要应用于视频电话(VideoPhone)、视频邮件(VideoEmail)和电子新闻(ElectronicNews)等;与MPEG-1和MPEG-2相比,它对于传输速率要求较低。MPEG-4利用很窄的带宽,通过帧重建技术来压缩和传输数据,以求利用最少的数据获得最佳的图像质量。MPEG-4的另一个特点是更适于交互AV服务以及远程监控,这是第一个具有交互性的动态图像标准。该标准于1998年正式推出。●MPEG-7标准:1996年10月,MPEG提出的一个新的称之为多媒体内容描述接口(MultimediaContentDescriptionInterface)的概念,即MPEG-7。MPEG-7的目标是建立一套视听特征的量化标准描述器及其结构,以及这些描述器之间的关系,这些描述器称之为描述方案(DS,DescriptionSchemes);同时,MPEG-7也建立了一套标准化的语言——描述定义语言(DDL,DescriptionDefinitionLanguage),用以说明描述方案,保证其被广泛采用的扩展性和较长的生命周期。人们可以检索和索引同MPEG-7数据相联系的视听材料,这些标准可以是静态的图片、图形、3D模型、声音、言语、视频和这些元素所组成的多媒体描述信息。● MPEG-21标准:于1999年10月在墨尔本会议上被提出,称为多媒体框架(MultimediaFramework)。MPEG-21的目标是要为多媒体信息的用户提供透明而有效的电子交易和使用环境,是一个针对实现具有知识产权管理和保护能力的数字多媒体内容的技术标准。
计算技术、网络通信技术、存储压缩技术的发展,大大推动了多媒体技术的发展。2.3.1图形图像文件格式
1.BMP文件
BMP(BitMaP)文件格式是Windows本身的位图文件格式。所谓本身,是指Windows内部存储位图即采用这种格式。一个.BMP格式的文件通常有.BMP的扩展名,但有一些是以 .RLE为扩展名的,RLE的意思是行程长度编码(RunLengthEncoding)。这样的文件意味着其使用的数据压缩方法是 .BMP格式文件支持的两种RLE方法中的一种。2.3常见的多媒体文件格式图2-8多媒体常见文件格式
BMP文件可用每像素1、4、8、16或24位来编码颜色信息,这个位数称做图像的颜色深度,它决定了图像所含的最大颜色数。一幅1 bpp(位每像素,bitperpixel)的图像只能有两种颜色,而一幅24 bpp的图像可以有超过16兆种不同的颜色。下面以256色(也就是 8 bpp)位图为例,说明了一个典型.BMP文件的结构。BMP文件包含四个主要的部分:一个位图文件头,一个位图信息头,一个色表和位图数据本身。位图文件头包含关于这个位图文件的信息,如从哪里开始是位图数据的定位信息;位图信息头含有关于这幅图像的信息,如图像的宽度和高度(以像素为单位);色表中有图像颜色的RGB值。对显示卡来说,如果它不能一次显示超过256种颜色,则读取和显示.BMP文件的程序能够把这些RGB值转换到显示卡的调色板来产生准确的颜色。
BMP文件的位图数据格式依赖于编码每个像素颜色所用的位数。对于一个256色的图像来说,每个像素占用文件中位图数据部分的一个字节。像素的值不是RGB颜色值,而是文件中色表的一个索引。所以,在色表中如果第一个R/G/B值是255/0/0,那么像素值为0表示它是鲜红色。像素值按从左到右的顺序存储,通常从最后一行开始。所以,在一个256色的文件中,位图数据中第一个字节就是图像左下角的像素的颜色索引,第二个就是它右边的那个像素的颜色索引。如果位图数据中每行的字节数是奇数,则要在每行都加一个附加的字节来调整位图数据边界为16位的整数倍。并不是所有的BMP文件结构都像上面所述的那样,例如16 bpp和24 bpp文件就没有色表;像素值直接表示RGB值,另外,文件私有部分的内部存储格式也是可以变化的。例如,在16和256色 .BMP文件中的位图数据采用RLE算法来压缩,这种算法用颜色加像素个数来取代一串颜色相同的序列,而且,Windows还支持OS/2下的 .BMP文件,尽管它使用了不同的位图信息头和色表格式。
2.PCX文件
PCX是在PC上成为位图文件存储标准的第一种图像文件格式。它最早出现在Zsoft公司的Paintbrush软件包中,在20世纪80年代早期授权给微软与其产品捆绑发行,而后转变为MicrosoftPaintbrush,并成为Windows的一部分。虽然使用这种格式的人在减少,但这种带有 .PCX扩展名的文件在今天仍是十分常见的。
PCX文件分为三部分:PCX文件头、位图数据和一个可选的色表。文件头长达128个字节,分为几个域,包括图像的尺寸和每个像素颜色的编码位数。位图数据用一种简单的RLE算法压缩,最后的可选色表有256个RGB值。PCX格式最初是为CGA和EGA来设计的,后来经过修改也支持VGA和真彩色显示卡,现在PCX图像可以用1 bpp、4 bpp、
8 bpp或24 pp来对颜色数据进行编码。
3.TIFF文件
PCX格式是所有位图文件格式中最简单的,而TIFF(TaggedImageFileFormat)则是最难的一种。
TIFF文件含有 .TIF的扩展名。它以8字节长的图像文件头开始(IFH),这个文件头中最重要的成员是一个指向名为图像文件目录(IFD)的数据结构的指针。
IFD是一个名为标记(tag)的用于区分一个或多个可变长度数据块的表,标记中含有关于图像的信息。TIFF文件格式定义70多种不同类型的标记,有的用来存放以像素为单位的图像宽度和高度,有的用来存放色表(如果需要的话),当然还必须有用来存放位图数据的标记。一个TIFF格式的文件完全由它的标记所决定,而且这种文件结构极易扩展,因为在要附加一些特征时只需增加一些额外的标记。究竟是什么使TIFF文件如此复杂?一方面,要编写一种能够识别所有不同标记的软件非常困难。大多数TIFF的阅读程序只能识别一部分标记,所以会出现这种情况:有时一个应用程序创建的TIFF文件,另一个应用程序却不能使用。创建TIFF文件的程序还可能会在文件中加一些只有它自己认识的标记,虽然TIFF的阅读程序可以跳过那些它们不认得的标记,但这样做总是有可能影响到图像的质量。另一方面,一个TIFF文件可以包含多个图像,每个图像都有自己的IFD和一系列标记。TIFF文件中的位图数据可能会用好几种方法来压缩,所以一个完备的TIFF阅读程序应该有RLE解压缩程序、LZW解压缩程序和其他一些算法的解压缩程序。然而更糟的是,使用LZW的解码必须得到Unisys公司的同意,且通常是需要付版税的。所以,即使是一些相当不错的TIFF阅读程序,在它们遇到LZW算法压缩的图像时也是无能为力的。
尽管TIFF是那么的复杂,但仍是一种最好的跨平台格式。因为它非常灵活,无论在视觉上还是其他方面,都能把任何图像编码成二进制形式而不丢失任何属性。
4.GIF文件
当许多图像方面的权威一想到LZW的时候,他们也会想到GIF(GraphicsInterchangeFormat),这是一种常用的跨平台的位图文件格式,最初为CompuServe公司所创。GIF文件通常带有 .GIF的扩展名,而且在CompuSeve上大量存在。
GIF文件的结构取决于它属于哪一个版本,目前的两种版本分别是GIF87a和GIF89a,前者较简单。无论是哪个版本,它都以一个长13字节的文件头开始,文件头中包含判定此文件是 GIF文件的标记、版本号和其他一些信息。如果这个文件只有一幅图像,则文件头后紧跟一个全局色表来定义图像中的颜色。如果含有多幅图像(GIF和TIFF格式一样,允许在一个文件里编码多个图像),那么全局色表就被各个图像自带的局部色表所替代。在GIF87a文件中,文件头和全局色表之后是图像,它可能会是头尾相接的一串图像中的第一个。每个图像由三部分组成:一个10字节长的图像描述,一个可选的局部色表和位图数据。为有效利用空间,位图数据用LZW算法来压缩。
GIF89a结构与GIF87a类似,但它还包括可选的扩展块用来存放每个图像的附加信息。GIF89a详细定义了四种扩展块:图像控制扩展块,用来描述图像怎样被显示(例如,显示是应该像一个透明物去覆盖上一个图像,还是简单地替换它);简单文本扩展块,包含显示在图像中的文本;注释扩展块,以ASCII文本形式存放注释;应用扩展块,存放生成该文件的应用程序的私有数据。这些扩展块可以出现在文件中全局色表的任何地方。
GIF最显著的优点是:使用广泛和紧密性。但它有两个弱点:一个是用GIF格式存放的文件最多只能含有256种颜色;另一个可能更重要,就是那些使用了GIF格式的软件开发者必须征得CompuServe的同意,他们每卖出一个拷贝都要向CompuServe付版税。这个政策是CompuServe仿效Unisys公司做出的,它抑制了那些程序员在其图像应用程序中支持GIF文件。
5.PNG文件
PNG(PortableNetworkGraphic,发音做ping)文件格式是作为GIF的替代品开发的,它能够避免使用GIF文件所遇到的常见问题。它从GIF那里继承了许多特征,而且支持真彩色图像。更重要的是,在压缩位图数据时,它采用了一种颇受好评的LZ77算法的一个变种,LZ77则是LZW的前身,而且可以免费使用。由于篇幅所限,在这里就不花时间来具体讨论PNG格式了。
6.JPEG文件
JPEG文件格式最初由C-CubeMicrosystems推出,是为了提供一种存储深度位像素的有效方法,例如对于照片扫描,其颜色很多而且差别细微(有时也不细微)。JPEG使用一种有损压缩算法,有损压缩虽然牺牲了一部分的图像数据(但这种损失很小以至于人们很难察觉),但可以得到较高的压缩率。无损压缩算法能在解压后准确再现压缩前的图像,但压缩率较低。
JPEG图像压缩是一个复杂的过程,经常需要专门的硬件来支持。首先,图像以像素为单位分成8×8的块。然后,每个块分三个步骤被压缩:第一步使用DCT(DiscreteCosineTransform)离散余弦变换把8×8的像素矩阵变成8×8的频率(也就是颜色改变的速度)矩阵;第二步对频率矩阵中的值用量化矩阵进行量化,滤掉那些总体上对图像不重要的部分;第三步,也就是最后一步,对量化后的频率矩阵使用无损压缩。因为被量化后的频率矩阵缺了许多高频信息,所以通常能被压缩到一半甚至更少。
无损压缩一般不能压缩真正的照片图像,所以50%的压缩率已是相当不错了。但另一方面,无损压缩能把一些图像文件尺寸减少90%,这样的图像文件就不适合用JPEG来
压缩。
JPEG的有损部分产生在第二步,量化矩阵的值越高,从图像中丢掉的信息就越多,从而压缩率就越高,同时图像的质量就越差。在JPEG压缩时可以选择一个量化因子,这个因子的值决定了量化矩阵中的数值。理想的量化因子要在压缩率和图像质量间达到平衡,所以对不同的图像要选择不同的量化因子,通常要经过若干次尝试后方可确定。
7.PSD、PDD文件
PSD、PDD是PhotoShop的专用图像文件格式。
8.EPS文件
CorelDraw、FreeHand等软件均支持EPS格式,它属于矢量图格式,输出质量非常高。
9.Targa文件
Targa文件格式简称TGA格式,是由Truevision公司设计的,可支持任意大小的图像。专业图形用户经常使用TGA点阵格式来保存具有真实感的三维有光源图像。
10.WMF文件
WMF文件只使用在Windows中,它实际上保存的不是点阵信息,而是函数调用信息。它将图像保存为一系列GDI(图形设备接口)的函数调用,在恢复时,应用程序执行源文件(即执行一个个函数调用),在输出设备上画出图像。WMF文件具有设备无关性、文件结构好等特点,但是解码复杂,其效率比较低。
随着计算机技术的继续发展,图形图像文件将不断地改进、完善,将来必定会出现更好的、效率更高的图形图像文件。2.3.2音频文件格式
音频文件通常分为两类:声音文件和MIDI文件。声音文件指的是通过声音录入设备录制的原始声音,直接记录了真实声音的二进制采样数据,通常文件较大;而MIDI文件则是一种音乐演奏指令序列,相当于乐谱,可以利用声音输出设备或与计算机相连的电子乐器进行演奏,由于不包含声音数据,其文件尺寸较小。
1.声音文件
数字音频同CD音乐一样,是将真实的数字信号保存起来,播放时通过声卡将信号恢复成悦耳的声音。然而,这样存储声音信息所产生的声音文件是相当庞大的,因此,绝大多数声音文件采用了不同的音频压缩算法,在基本保持声音质量不变的情况下尽可能获得更小的文件。
1) Wave文件——.WAV
Wave格式是Microsoft公司开发的一种声音文件格式,它符合RIFF(ResourceInterchangeFileFormat)文件规范,用于保存Windows平台的音频信息资源,被Windows平台及其应用程序所广泛支持。Wave格式支持MSADPCM、CCITTALaw、CCITTμLaw和其他压缩算法,支持多种音频位数、采样频率和声道,是PC机上最为流行的声音文件格式,但其文件尺寸较大,多用于存储简短的声音片断。
2) AIFF文件——.AIF/.AIFF
AIFF是音频交换文件格式(AudioInterchangeFileFormat)的英文缩写,是苹果公司开发的一种声音文件格式,被Macintosh平台及其应用程序所支持,NetscapeNavigator浏览器中的LiveAudio也支持AIFF格式,SGI及其他专业音频软件包也同样支持这种格式。AIFF支持ACE2、ACE8、MAC3和MAC6压缩,支持16位44.1 kHz立体声。
3) Audio文件——.AU
Audio文件是SunMicrosystems公司推出的一种经过压缩的数字声音格式,是Internet中常用的声音文件格式,NetscapeNavigator浏览器中的LiveAudio也支持Audio格式的声音文件。
4) Sound文件——.SND
Sound文件是NextComputer公司推出的数字声音文件格式,支持压缩。
5) Voice文件——.VOC
Voice文件是CreativeLabs(创新公司)开发的声音文件格式,多用于保存CreativeSoundBlaster(创新声霸)系列声卡所采集的声音数据,被Windows平台和DOS平台所支持,支持CCITTALaw和CCITTμLaw等压缩算法。
6) MPEG文件——.MP1/.MP2/.MP3
这里的MPEG文件格式指的是MPEG标准中的音频部分,即MPEG音频层(MPEGAudioLayer)。MPEG音频文件的压缩是一种有损压缩,根据压缩质量和编码复杂程度的不同可分为三层(MPEGAudioLayer1/2/3),分别对应MP1、MP2和MP3这三种声音文件。MPEG音频编码具有很高的压缩率,MP1和MP2的压缩率分别为4∶1和6∶1~8∶1,而MP3的压缩率则高达10∶1~12∶1。也就是说,一分钟CD音质的音乐,未经压缩需要10 MB存储空间,而经过MP3压缩编码后只有1 MB左右,同时其音质基本保持不失真。因此,目前使用最多的是MP3文件格式。
7) RealAudio文件——.RA/.RM/.RAM
RealAudio文件是RealNetworks公司开发的一种新型流式音频(StreamingAudio)文件格式,它包含在RealNetworks公司所制定的音频、视频压缩规范RealMedia中,主要用于在低速率的广域网上实时传输音频信息。网络连接速率不同,则客户端所获得的声音质量也不尽相同:对于14.4 Kb/s的网络连接,可获得调幅(AM)质量的音质;对于28.8 Kb/s的连接,可以达到广播级的声音质量;如果拥有ISDN或更快的线路连接,则可获得CD音质的声音。
2.MIDI文件——.MID/.RMI
MIDI是乐器数字接口(MusicalInstrumentDigitalInterface)的英文缩写,是数字音乐/电子合成乐器的统一国际标准。它定义了计算机音乐程序、合成器及其他电子设备交换音乐信号的方式,还规定了不同厂家的电子乐器与计算机连接的电缆和硬件及设备间数据传输的协议,可用于为不同乐器创建数字声音,可以模拟大提琴、小提琴、钢琴等常见乐
器。在MIDI文件中,只包含产生某种声音的指令,这些指令包括使用什么MIDI设备的音色、声音的强弱、声音持续多长时间等,计算机将这些指令发送给声卡,声卡按照指令
将声音合成出来,MIDI声音在重放时可以有不同的效果,这取决于音乐合成器的质量。相对于保存真实采样数据的声音文件,MIDI文件显得更加紧凑,其文件通常比声音文件小
得多。
3.模块文件——.MOD/.S3M/.XM/.MTM/.FAR
/.KAR/.IT
模块(Module)格式是一种已经存在了很长时间的声音记录方式,它同时具有MIDI与数字音频的共同特性。模块文件中既包括如何演奏乐器的指令,又
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度个人教育分期借款合同范本3篇
- 二零二五年度内燃机核心零部件代理销售合同3篇
- 二零二五年度门脸房屋租赁与文创产业合作合同4篇
- 二零二五年度生态农庄木工建造服务合同4篇
- 二零二五版门头智能化控制系统研发与安装合同4篇
- 二零二五年度文化旅游产业发展基金合同及违约赔偿细则4篇
- 二零二五版高新技术企业研发项目财务监管合同范本2篇
- 2025年度个人抵押借款合同风险评估范本
- 2025年度个人渔业贷款合同模板3篇
- 2025年度个人对个人光伏发电项目借款合同
- 三位数除以两位数-竖式运算300题
- 2023年12月广东珠海市轨道交通局公开招聘工作人员1人笔试近6年高频考题难、易错点荟萃答案带详解附后
- 寺院消防安全培训课件
- 比摩阻-管径-流量计算公式
- GB/T 42430-2023血液、尿液中乙醇、甲醇、正丙醇、丙酮、异丙醇和正丁醇检验
- 五年级数学应用题100道
- 西方经济学(第二版)完整整套课件(马工程)
- 高三开学收心班会课件
- GB/T 33688-2017选煤磁选设备工艺效果评定方法
- 科技计划项目申报培训
- 591食堂不合格食品处置制度
评论
0/150
提交评论