多媒体技术课件_第1页
多媒体技术课件_第2页
多媒体技术课件_第3页
多媒体技术课件_第4页
多媒体技术课件_第5页
已阅读5页,还剩460页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一章绪论1.1多媒体的基本概念1.1.1媒体与多媒体媒体的概念媒体(media,medium):承载信息之载体;CCITT对媒体的分类:感觉、表示、显示、存储、传输1.1.1媒体与多媒体表示媒体:声:语音、声响、音乐等图:图像、图形等

像:动画、视频等

文:文字、符号、数值等其他:动作媒体、触觉媒体等1.1.1媒体与多媒体媒体分类视觉二维动画抽象化抽象化视觉(静止)图像图形文字符号语言文字(动态)图像图形动态影像视频真实感三维动画三维动画其它表示为视觉的媒体1.1.1媒体与多媒体媒体分类听觉触觉其他感觉抽象化听觉声音声响(自然界)语音(人类语言)音乐其它(嗅觉、味觉等)触觉振动运动传感/发生器1.1.1媒体与多媒体多媒体的概念内涵表示媒体的多样化一个技术领域一个技术时代定义以数字化为基础,能够对多种媒体信息进行采集、编码、存储、传输、处理和表现,综合处理多种媒体信息并使之建立起有机的逻辑联系,集成为一个系统并能具有良好交互性的技术。

1.1.2多媒体的特性多样性—适应了信息载体的多样性信息载体的多样性是相对于计算机而言的,指的就是信息媒体的多样化,有人称之为信息多维化。65%20%10%2%3%视觉味觉嗅觉触觉听觉1.1.2多媒体的特性交互性—易于人和计算机的交互交互可以增加对信息的注意力和理解力,延长信息保留的时间。当交互性引入时,“活动”本身作为一种媒体便介入到了数据转变为信息、信息转变为知识的过程之中。当我们完全地进入到一个与信息环境一体化的虚拟信息空间自由遨游时,这才是交互式应用的高级阶段,这就是虚拟现实(VirtualReality)。

1.1.2多媒体的特性集成性:实现了信息处理的集成性多媒体信息媒体的集成处理这些媒体的设备与设施的集成1+1〉21.2多媒体技术的产生与发展1.2.1多媒体是

技术与应用发展的必然多媒体热潮的兴起多媒体热潮的兴起DVI,HyperCard……九十年代一批产品出现MPEG(VCD),MPC,VOD连续召开多媒体国际学术研讨会MM’93,MM’94,MM’95“叫好不叫座”94年开始进入低潮期概念教育阶段存在问题:未形成产业群

多媒体的第二次高潮一批设备普及CD-ROM,SB……一批产品出现VCD,VR,会议系统一批产业出现美国旧金山附近的“MultimediaGorge”向新加坡、台湾等地辐射产业化前景极好用途范围极为广泛

一个新的技术时代的到来!1.2.1多媒体是

技术与应用发展的必然1.2.1多媒体是技术与应用发展的必然多媒体技术的产生计算机计算机大众传播大众传播通信文字文字············网络客户客户客户服务器通信计算机大众传播通信多媒体信息系统1.2.2多媒体

改善了人类信息的交流人的思维模式:形象、联想、多样、模糊、并行计算机的工作方式:精确、清楚、串行、……人机交互形式人—人(通过计算机);人—计算机;计算机—人;计算机—计算机多媒体:改“人到计算机”为“计算机到人”1.3多媒体技术研究的主要内容1.3.1什么是多媒体技术三大信息技术的联合:计算机、通信、TV综合各个方面:通信、广播、印刷、出版、计算、……多媒体技术以网络为支持,为人类生活提供各种服务创造一种新型的人与人交往的新环境。1.3.2多媒体技术

研究的主要内容多媒体技术的基础多媒体软硬件平台技术多媒体操作系统技术多媒体信息管理技术多媒体通信与分布应用技术1.4小结2.1媒体的种类和特点2.1.1常见的媒体元素文本文本是计算机文字处理程序的基础文本数据可以在文本编辑软件里制作文本文件分类非格式化文本格式化文本文件文件带有各种文本排版信息等格式信息的文本文件段落格式、字体格式、文章的编号、分栏、边框文字的变化:格式(sty1e)、字的定位(align)、字体(font)、字的大小(size)2.1.1常见的媒体元素图形图形的概念一般指用计算机绘制的画面,如直线、圆、圆弧、矩形、任意曲线和图表等。图形的格式是一组描述点、线、面等几何图形的大小、形状及其位置、维数的指令集合,在图形文件中只记录生成图的算法和图上的某些特征点,也称矢量图。line(x1,y1,x2,y2,color)

circle(x,y,r,color)2.1.1常见的媒体元素图形图形的特征图形是对图象进行抽象的结果(人工或自动);图形的矢量化使得有可能对图中的各个部分分别进行控制(放大、缩小、旋转、变形、扭曲、移位等)图形的产生需要计算时间2.1.1常见的媒体元素图像图像的概念图像是指由输入设备捕捉的实际场景画面,或以数字化形式存储的任意画面。静止的图像是一个矩阵,由一些排成行列的点组成,这些点称之为像素点(pixel),这种图像称为位图(bitmap)。2.1.1常见的媒体元素图像

图像的主要技术参数分辨率屏幕分辨率计算机显示器屏幕显示图像的最大显示区

图像分辨率

数字化图像的大小像素分辨率像素的宽高比,一般为1∶1

2.1.1常见的媒体元素图像

图像的主要技术参数图像灰度每个图像的最大颜色数2位:黑白2色;4位:16色;8位:256色;24位:真彩色图像文件大小(高×宽×灰度位数)/8字节

2.1.1常见的媒体元素图像图形与图象的关系图形是矢量概念,图元;图象是位图概念,象素;图形显示图元顺序;图象显示象素顺序;图形变换无失真;图象变换有失真;图形以图元为单位修改属性、编辑;图象只能对象素或图块处理;图形是对图象的抽象,但在屏幕上两者无异2.1.1常见的媒体元素视频视频的概念

视频源于电视技术,它由连续的画面组成。这些画面以一定的速率连续地投射在屏幕上,使观察者具有图像连续运动的感觉。2.1.1常见的媒体元素视频

视频的制式PAL制(625/50)每秒25帧,水平扫描线为625条,水平分辨率240~400个像素,隔行扫描。62年诞生于德国,应用于中国、新加坡、欧洲地区等(Pal-B、D、G、H、I、N、NC)。NTSC制(525/60)每秒30帧,水平扫描线为525条,水平分辨率240~400个像素,隔行扫描。53年诞生于美国,应用于美国、日本、台湾等(NTSC-M、NC、Japan等)。2.1.1常见的媒体元素视频

视频的制式SECAM制(625/50)每秒25帧,水平扫描线为525条、水平分辨率625。由法国人提出,应用于俄罗斯、法国、非洲地区等。视频的数字化指在一段时间内以一定的速度对视频信号进行捕获并加以采样后形成数字化数据的处理过程。2.1.1常见的媒体元素音频

分类波形声音包含了所有的声音形式,它可以把任何声音都进行采样量化,并恰当地恢复出来。2.1.1常见的媒体元素音频

分类语音人的说话声虽是一种特殊的媒体,但也是一种波形,所以和波形声音的文件格式相同。音乐符号化了的声音,乐谱可转变为符号媒体形式。2.1.1常见的媒体元素动画动画的概念

运动的图画,实质是一幅幅静态图像的连续播放。动画的连续播放既指时间上的连续,也指图像内容上的连续,即播放的相邻两幅图像之间内容相差不大。计算机设计动画方法造型动画帧动画

2.1.1常见的媒体元素动画帧动画

2.1.1常见的媒体元素动画帧动画2.1.2媒体的种类视觉三维动画视觉(静止)图像图形文字符号语言文字抽象化抽象化(动态)图像图形动态影像视频真实感三维动画二维动画其它表示为视觉的媒体2.1.2媒体与多媒体听觉触觉其他感觉抽象化听觉声音声响(自然界)语音(人类语言)音乐其它(嗅觉、味觉等)触觉振动运动传感/发生器2.1.3媒体的性质和特点各种媒体具有不同特点和性质媒体是有格式的不同媒体表达信息的特点和程度各不相同媒体之间可以相互转换媒体之间的关系也具有丰富的信息媒体具有空间性质表现空间媒体按相互的空间关系进行组织视觉空间、听觉空间和触觉空间这3者既相互独立又需要相互结合2.1.3媒体的性质和特点媒体的时间性质表现需要时间媒体在时间坐标轴上的相互关系媒体的语义媒体的语义是有层次的抽象的程度不同,语义的重点也就不同媒体结合的影响媒体结合是多层次的媒体结合有利于信息接受和理解隐喻交互的概念模型,也称心智模型2.2听觉媒体技术

2.2.1听觉心理学略2.2.2音频的数字化和符号化从人与计算机交互的角度看,音频信号的处理包括下述3点:人与计算机通信,也就是计算机接收音频信号。包括音频获取、语音的识别和理解。计算机与人通信,也就是计算机输出音频。包括音乐合成、语音合成、声音的定位以及音频视频的同步。人-计算机-人通信。人通过网络与异地的人进行语音通信,相关的音频处理有语音采集、音频的编码和解码、音频的存储、音频的传输、基于内容的检索等。2.2.2音频的数字化和符号化1.音频的数字化与再现

在计算机中,所有的信息都以数字来表示。声音信号也是由一系列的数字来表示的,称为数字音频。数字音频的特点就是保真度好,动态范围大。数字声音是一个数据序列。它是由外界声音经过采样、量化和编码后得到的。2.2.2音频的数字化和符号化

对声音进行采样用奈奎斯特采样定理来决定采样的频率。根据该定理,只要采样频率高于信号中最高频率的两倍,就可以从采样中完全恢复原始信号的波形。因为人耳所能听到的频率范围为20Hz到20KHz,所以实际的采样过程中,为了达到好的效果,就采用44.1KHz作为高质量声音的采样频率。如果达不到这么高的频率,声音恢复的效果就会差一些,例如电话声音的质量等。一般来说,声音恢复和采样频率、信道带宽都有关。

声音的采样以及量化图2.2.2音频的数字化和符号化2.2.2音频的数字化和符号化2.声音的符号化

波形声音可以把音乐、语音都进行数据化并且表示出来,但是并没有把它看成音乐和语音。对于声音的符号化(也可以称为抽象化)表示包括两种类型:一种是音乐,一种是语音。2.2.2音频的数字化和符号化(1)音乐的符号化-MIDIMIDI(MusicInstrumentDigitalInterface)是指乐器数字接口的国际标准。MIDI消息,是指乐谱的数字描述。任何电子乐器,只要有处理MIDI消息的微处理器和合适的硬件接口,就构成了一个MIDI设备。当一组MIDI消息通过音乐合成芯片处理时,合成器能解释这些符号并且产生音乐。MIDI的关键是作为媒体能够记录这些音乐的符号,相应的设备能够产生和解释这些符号。它给出了一种得到音乐声音的方法。2.2.2音频的数字化和符号化

MIDI的特点:与波形声音相比,MIDI不是声音数据而是指令,所以数据量要少得多。30分钟的音乐,用MIDI文件记录只需200KB,用16位CD品质的未压缩WAV文件记录需317MBMIDI可以与其他波形声音配合使用,形成伴乐的效果。而两个波形声音一般是不能同时使用的对MIDI的编辑也很灵活,用户可以自由地改变音调、音色等属性,直到自己想要的效果MIDI在音质上还不能与真正的乐器完全相似。无法模拟自然界中其它非乐曲类声音2.2.2音频的数字化和符号化(2)语音的符号化语音与文字是对应的。波形声音可以记录表示语音,它是不是语音取决于听者对声音的理解。对语音的符号化实际上就是对语音的识别,将语音转变为字符,反之也可以将文字合成语音。语音指构成人类语音信号的各种声音。在采集和存储上可以与波形声音一样,但由于语音是由一连串的音素组成。“一句话”中包含许多音节以及上下文过渡过程的连接体等特殊的信息,并且语音本身与语言有关,所以要把它作为一个独立的媒体来看待。2.3视觉媒体技术

2.3.1视觉心理学

略2.3.2模拟视频原理光栅扫描原理视频摄像机将图像转换为电信号,电信号是一维的,但图像是二维的,将二维图像转成为一维电信号是由光栅扫描的方法实现的。快速的扫描线从顶部开始,一行一行地向下扫描,直至显示器的最底部,然后再返回顶部的起点,重新开始扫描。这个过程产生的一个有序的图像信号集合,就组成了电视显示中的一幅图像,在此称为帧。连续不断的图像序列就形成了动态视频图像。2.3.2模拟视频原理分辨率表现的是电视系统中重现场景细节的能力。水平扫描线所能分辨出的点数称为水平分辨率。一般来说,点数越小,线越细,分辨率就越高。一个系统的水平分辨率为400线,指在对应于图像高度的水平距离内能交替显示200条白线和200条黑线。相应地,一帧中垂直扫描的行数称为垂直分辨率。垂直分辨率和每帧中的扫描线有关,扫描线越多,分辨率就越高。广播电视系统垂直的行数一般是525线(北美和日本)和625线(欧洲和中国)。2.3.2模拟视频原理每一秒钟所扫描的帧数称为帧频,一般为25帧(PAL)或者30帧(NTSC)。由于是隔行扫描,所以垂直频率分别是每秒50帧和60帧。因此,人眼就不容易看到闪烁。宽高比是扫描的一个重要的参数。扫描行的长度与在图像垂直方向上的所有扫描行所跨过的距离之比,就成为宽高比。目前电视中的宽高比为4:3,新型电视的宽高比为16:9,有些电影系统的宽高比为2:1。2.3.2模拟视频原理彩色视频加基系统是彩色视频系统的基础。彩色电视采用红绿蓝(RGB)作为三基色进行配色,产生出R、G、B三个输出信号,RGB信号可以分别传输,但是要配上相应的同步信号。在RGB系统中需要三根视频电缆互连,但是三个信号在同步关系方面相当复杂,所以大部分彩色电视不处理RGB,而是将RGB信号组合起来在一条电缆中传输,这就是复合信号。2.3.2模拟视频原理

现有的几种不同的复合信号有NTSC、PAL和SECAM。根据亮度/色度原理,任何彩色信号都可以分为亮度和色度。色度只要使用色差就可以表示颜色信号,而不必使用RGB三个完整的信号。将亮度和色度交错排列分别放到电缆上,就组成了复合信号。电视系统的三种制式采用的信号形式也不完全一样。NTSC的亮度信号称为Y,色度信号为I和Q,即YIQ方式。PAL制式和SECAM制式的亮度和色度与之相对应为YUV,它们的差别在于编码方式的不同。YUV、YIQ可以与RGB互换。RGB、YUV和YIQ等都被称为彩色空间。2.3.2模拟视频原理视频设备按照用途不同,视频设备可以分为广播、专业和消费三个级别。广播级一般是大型的电视台和网络站使用,它的性能最好,用于大系统应用,价格昂贵;专业级一般用于教育界和工业界的小广播站,有较好的性能。而消费级是家用设备,一般操作简单、性能可靠,一般价格是第一位的。具体的视频设备有如彩色摄影机、视频记录设备和视频监视设备。2.3.3视觉媒体数字化

1.位图图像与数字视频

对计算机来说,无论是文字或图形,还是图像或视频,在计算机上进行处理首先要数字化。与音频信号相似,对所要处理的一幅画面,通过对每一个象素进行采样,并且按照颜色或者灰度进行量化,就可以得到图像的数字化结果。数字化的结果放在显示缓存区中,与显示器上的点一一对应,这就是位图图像。对视频按照时间进行数字化所得到的图像序列,就构成了数字视频序列。它同样与频率和量化的比特数有关。频率必须足够高,以跟上模拟信号流;量化的比特数越多,量化的值就越多,所能表示的颜色或灰度级数就越多。2.3.3视觉媒体数字化

在一幅图像的X轴上是一行的点数,在Y轴上是行数。X、Y的交叉点就是一个象素,每一个象素可以有若干比特来表示。按照标准间隔在时间轴上采样的图像组组成视频序列。所以可以说,图像是离散的视频,而视频是连续的图像。当进行再现时,被表示称数字形式的数据按格式和时间送上显示器,就又恢复了原先的形态。其它的视觉媒体如文字、图形等,在显示原理上都是以此为基础的,它们都是通过预先的编码表示出显示的形式,在再现时,在显示器上画出所要的图形或者文字。2.3.3视频媒体数字化2.3.3视频媒体数字化文件格式说明GIFGraphicsInterchangeFormat的缩写,是由Compu-Serve公司于1987年为制定彩色图像传输协议而开发的一种图像文件格式TIFFTagImageFileFormat缩写,是由Alaus和Microsoft公司为扫描仪和桌上出版系统研发的一种图像文件格式,它的文件格式全部基于标志域TGATargeImageFormat的缩写,是Truevision公司为Targe和Vista图像获取板设计的软件TIPS所使用的文件格式BMP(Bitmap)是一种与设备无关的图像文件格式,是Windows软件推荐使用的一种格式PCX是由Zsoft公司研制开发的,一般与PC-PaintBrush图像软件一起使用MPG根据国际标准MPEG编码的一种动态图像文件格式AVSIntel和IBM公司共同研制的DVI系统的一种动态图像文件格式,AVS文件只能在DVI系统硬件下才能够读写AVIIntel和IBM公司共同研制的DVI系统的一种动态图像文件格式2.3.3视觉媒体数字化

2.图形图形(Graphics):一种抽象化的图像,是对图像依据某个标准进行分析而产生的结果。它不直接描述数据的每一点,而是描述产生这些点的过程及方法。因此被称之为矢量图形,一般直接称为图形。2.3.3视觉媒体数字化

矢量图形是以一组指令的形式存在的,这些指令描述一幅图中所包含的直线、圆、弧线、矩形的大小和形状,也可以用更为复杂的形式表示图像中曲面、光照、材质等效果。在计算机上显示一幅图像时,首先要解释这些指令,然后将它们转变成屏幕上显示的形状和颜色。图形的矢量化使得有可能对图中的各个部分分别进行控制。计算机可以对其中任何对象分别进行任意的变换:放大、缩小、旋转、变形、扭曲、移位、叠加等,并仍保持图形特性。图形变换的灵活性,使其在处理上获得了更大的自由度。2.3.3视觉媒体数字化

3.符号与文字

符号媒体:是某种抽象的结果。各种描述量、语言、数据、标识符、数值、字符等都是符号媒体。由于符号具有明显的结构性,大脑可以识别这种结构,进而可识别出由这一组符号所代表的信息。这种结构可以组成文本,即字符串;也可以组成数据组,如数据库中的一个元组,均可表达特定的信息。2.3.3视觉媒体数字化

符号媒体特点:符号媒体要知识的辅助才能使用,知识的辅助随着层次的升高而不断增强作用“ICANSPEAKENGLISH”

如学英文时,开始只认识字母;学过英文单词后,认识到一个个单词;学习文法后,发现是一个句子符号媒体表达精度高符号媒体存储量小2.3.3视觉媒体数字化

文本媒体是用得最多的符号媒体形式。主要特点如下:文本是流结构形式:由具有上下文关系的字符串组成,它与字符的结构样式有关,与形式无关对文本的控制不影响媒体信息本来的表达文本显示的改变只是属性的改变,并不影响文本本身的含义对文本的处理应遵从文本内部的结构,如断词,接尾,分段,章节安排2.4触觉媒体技术

2.4.1触觉媒体概述皮肤可以感觉环境的温度、湿度,也可感觉压力,身体可以感觉振动、运动、旋转等,这些都是触觉在起作用,都可以作为传递信息的媒体。事实上,触觉媒体就是环境媒体,它描述了该环境中的一切特征和参数。2.4.1触觉媒体概述人体在信息交流过程中起的作用最大的是人的头部、手部和整体躯干。与外界环境的触觉交互主要包括位置跟踪、力量反馈等方面。对手部信息的处理包括手部的位置、手指的动作类型、手部的感觉、手部的力量反馈等。这些都要有特殊的设备和技术完成系统对手部信息的数字化和跟踪,并将它们与系统的控制和应用结合起来。这些设备和技术包括数据手套、压力传感手套、手部位置超声波跟踪器、力量反馈接口等。对躯干的位置跟踪和反馈与手部和头部很类似,但它要反映人体的体势语言和外界对人体的力量反馈,如振动、倾覆、旋转等。这些设备包括数据服装、三维数据座舱、模拟器等。2.4.2简单指点设备与技术1.指点的任务指点的任务包括:选择定位定向路径数量操作2.4.2简单指点设备与技术2.指点设备指点设备分成直接指点设备和间接指点设备两类。前者直接使用特殊的指点设备或用手指点屏幕,后者则通过指点设备的间接动作对屏幕上的对象进行指点。直接指点设备包括:光笔、触摸屏及输入笔等。间接指点设备包括:鼠标、跟踪球、控制杆和图形板。这些设备不接触显示屏幕,所以使用时不会遮挡视线,也不易疲劳。2.4.2简单指点设备与技术这些指点设备的输入都是在显示平面上的二维坐标空间中进行的,包括坐标改变的速度。除非经过特殊的变换,很难把它们向三维空间转换。现在又出现了一些新型的指点设备,例如脚用鼠标器、视线跟踪器、凝视检测控制器等。2.5小结

3.1数据压缩的

基本原理和方法3.1数据压缩的基本原理和方法

压缩的必要性音频、视频的数据量很大,如果不进行处理,计算机系统几乎无法对它进行存取和交换。例如,一幅具有中等分辨率(640×480)的真彩色图像(24b/像素),它的数据量约为7.37Mb/帧,一个100MB(Byte)的硬盘只能存放约100帧图像。若要达到每秒25帧的全动态显示要求,每秒所需的数据量为184Mb,而且要求系统的数据传输率必须达到184Mb/s。对于声音也是如此,若采用16b样值的PCM编码,采样速率选为44.1kHZ,则双声道立体声声音每秒将有176KB的数据量。3.1数据压缩的基本原理和方法视频、图像、声音有很大的压缩潜力

信息论认为:若信源编码的熵大于信源的实际熵,该信源中一定存在冗余度。原始信源的数据存在着很多冗余度:空间冗余、时间冗余、视觉冗余、听觉冗余等。3.1.1数据压缩技术的性能指标节省图象或视频的存储容量,增加访问速度,使数字视频能在PC机上实现,需要进行视频和图象的压缩。有三个关键参数评价一个压缩系统压缩比图象质量压缩和解压的速度另外也必须考虑每个压缩算法所需的硬件和软件。3.1.2数据冗余的类型与压缩方法分类1.数据冗余的类型

一幅图象中同一种颜色不止一个象素点,若相邻的象素点的值相同,象素点间(水平、垂直)有冗余。(空间冗余)当图象的一部分包含占主要地位的垂直的源对象时,相邻线间存在冗余。(空间冗余)若图象稳定或只有轻微的改变,运动序列帧间存在冗余。(时间冗余)3.1.2数据冗余的类型与压缩方法分类空间冗余:在同一幅图像中,规则物体和规则背景的表面物理特性具有相关性,这些相关性的光成像结果在数字化图像中就表现为数据冗余。时间冗余:时间冗余反映在图像序列中就是相邻帧图像之间有较大的相关性,一帧图像中的某物体或场景可以由其它帧图像中的物体或场景重构出来。音频的前后样值之间也同样有时间冗余。3.1.2数据冗余的类型与压缩方法分类信息熵冗余:信源编码时,当分配给第i个码元类的比特数b(yi)=-logpi,才能使编码后单位数据量等于其信源熵,即达到其压缩极限。但实际中各码元类的先验概率很难预知,比特分配不能达到最佳。实际单位数据量d>H(S),即存在信息冗余熵。视觉冗余:人眼对于图像场的注意是非均匀的,人眼并不能察觉图像场的所有变化。事实上人类视觉的一般分辨能力为26灰度等级,而一般图像的量化采用的是28灰度等级,即存在着视觉冗余。3.1.2数据冗余的类型与压缩方法分类听觉冗余:人耳对不同频率的声音的敏感性是不同的,并不能察觉所有频率的变化,对某些频率不必特别关注,因此存在听觉冗余。其它冗余:包括结构冗余、知识冗余等。3.1.2数据冗余的类型与压缩方法分类2.数据压缩技术分类根据解码后数据与原始数据是否完全一致可以分为两大类:一类是熵编码、冗余压缩法,也称无损压缩法、无失真压缩法;二是熵压缩法,也称有损压缩法、有失真压缩法。从“熵”损失角度分为无损压缩和有损压缩两种:无失真压缩,又称熵编码。由于不会失真,多用于文本、数据的压缩,但也有例外,非线性编辑系统为了保证视频质量,有些高档系统采用的是无失真压缩方法。有失真压缩,又称熵压缩法。大多数图像、声音、动态视频等数据的压缩是采用有失真压缩。3.1.3常用数据压缩方法的基本原理1.统计编码

方法是:识别一个给定的流中出现频率最高的比特或字节模式,并用比原始比特更少的比特数来对其编码。即就是,频率越低的模式,其编码的位数越多,频率越高的模式编码位数越少。若码流中所有模式出现的概率相等,则平均信息量最大,信源就没有冗余。3.1.3常用数据压缩方法的基本原理

(1)行程编码(RunLengthCoding)

是最简单、最古老的压缩技术之一,主要技术是检测重复的比特或字符序列,并用它们的出现次数取而代之。该方法有两大模式:一是消零(消空白),二是行(游)程(runlength)编码。

消零(或消空白)法

将数字中连续的“0”或文本中连续的空白用一个标识符(或特殊字符)后跟数字N(连续“0”的个数)来代替。

如数字序列:742300000000000000000055编码为:7423Z18553.1.3常用数据压缩方法的基本原理行程编码法

任何重复的字符序列可被一个短格式取代。该算法适合于任何重复的字符。一组n个连续的字符c将被c和一个特殊的字符取代。当然,若给定字符仅重复两次就不要用此方法。任何重复4次或4次以上的字符由“该字符+记号(M)+重复次数”代替。例如数字序列:Name:..........CR

编码为:Name:

.M10CR3.1.3常用数据压缩方法的基本原理

(2)LZW编码

LZW算法在压缩文本和程序数据的压缩技术中唱主角。它的压缩率高,压缩处理所化费的时间比其它方式要少。

LZW编码时,首先将原始的数据分成多个条纹,每个条纹都单独进行压缩。

LZW算法基于一个转换表或字串表,它将输入字符映象到编码中,使用可变长代码,最大代码长度为12位。3.1.3常用数据压缩方法的基本原理LZW算法中的字串表对于每个条纹都不同,并且不必保留给解压缩程序,因为解压缩过程中能自动建立完全相同的字串表。实际上,它是通过查找冗余字符串并将此字符串用较短的符号标记替代的压缩技术。3.1.3常用数据压缩方法的基本原理(3)哈夫曼编码 1952年Huffman提出了对统计独立信源能达到最小平均码长的编码方法,也即最佳码。最佳性可从理论上证明。这种码具有即时性和唯一可译性。 该编码是常见的一种统计编码。对给定的数据流,计算其每个字节的出现频率。根据频率表,运用哈夫曼算法可确定分配各字符的最小位数,然后给出一个最优的编码。代码字存人代码表中。3.1.3常用数据压缩方法的基本原理

Huffman编码的优缺点

优点:当信源符号概率是2的负幂次方时,Huffman编码法编码效率达到100%。一般情况下,它的编码效率要比其它编码方法的效率高,是最佳变长码。

缺点:Huffman码依赖于信源的统计特性,必须先统计得到信源的概率特性才能编码,这就限制了实际的应用。通常可在经验基础上预先提供Huffman码表,此时性能有所下降。3.1.3常用数据压缩方法的基本原理(4)算术编码

算术编码把一个信源集合表示为实数线上的0到1之间的一个区间。这个集合中的每个元素都要用来缩短这个区间。信源集合的元素越多,所得到的区间就越小,当区间变小时,就需要一些更多的数位来表示这个区间,这就是区间作为代码的原理。算术编码首先假设一个信源的概率模型,然后用这些概率来缩小表示信源集的区间。3.1.3常用数据压缩方法的基本原理新子区间的起始位置=前子区间的起始位置+当前符号的区间左端×前子区间长度新子区间的长度=前子区间的长度×当前符号的概率(等价于范围长度)最后得到的子区间的长度决定了表示该区域内的某一个数所需的位数。3.1.3常用数据压缩方法的基本原理2.预测编码(PredictionCoding)

预测编码是指利用前面的一个或多个信号对下一个信号进行预测,然后对实际值和预测值的差进行编码。DPCM与ADPCM是两种典型的预测编码。3.1.3常用数据压缩方法的基本原理(1)差分脉码调制(DPCM)PCM(PulseCodeModulation),原始的模拟信号经过时间采样,然后对每一样值进行量化,作为数字信号传输。

DPCM不对每一样值都进行量化,而是预测下一样值,并量化实际值和预测值之间的差。

DPCM是基本的编码方法之一,在大量的压缩算法中被采用,比如JPEG的DC分量就是采用DPCM编码的。3.1.3常用数据压缩方法的基本原理举例说明DPCM编码原理:

设DPCM系统预测器的预测值为前一个样值,假设输入信号已经量化,差值不再进行量化。若系统的输入为{0121123344…},则预测值为{0012112334…},差值为{011–1011010…},差值的范围比输入样值的范围有所减小,可以用较少的位数进行编码。3.1.3常用数据压缩方法的基本原理(2)自适应差分脉码调制(ADPCM)

为了进一步改善量化性能或压缩数据率,可采用自适应量化或自适应预测的方法。只要采用了其中的任一种自适应方法,均称为ADPCM。自适应预测

预测参数的最佳化依赖于信源的统计特性,要得到最佳的预测参数是一件繁琐的工作。而采用固定的预测参数往往又得不到好的性能。为了既能使性能较佳,又不致于有太大的工作量,可以将上述两种方法折衷考虑,采用自适应预测。3.1.3常用数据压缩方法的基本原理

具体方法是:预测参数仍采用固定的;但此时有多组预测参数可供选择。这些预测参数根据常见的信源特征求得。编码时具体采用哪组预测参数根据信源的特征来自适应的确定。为了自适应的选择最佳参数,通常将信源数据分区间编码,编码时自动地选择一组预测参数,使该区间实际值与预测值的均方误差最小。随着编码区间的不同,预测参数自适应的变化,以达到准最佳预测。3.1.3常用数据压缩方法的基本原理

例如,Microsoft

的ADPCM采用二预测参数,提供7组预测系数,如右表所示。编码时,根据选定的准则(如最小均方误差准则),每个编码区间自动地选取一组最佳的参数。系数集系数1系数2025601512-256200319264424005460-2086392-232

自适应量化

根据信号分布不均匀的特点,系统具有随输入信号的变化而改变量化区间大小,以保持输入给量化器的信号基本均匀的能力,这种能力称为自适应量化。3.1.3常用数据压缩方法的基本原理3.1.3常用数据压缩方法的基本原理3.变换编码(TransformationCoding)在变换编码时,初始数据要从初始空间或时间域进行数学变换,变换为一个更适于压缩的抽象域。该过程是可逆的;即使用反变换可恢复原始数据。如将时域信号变换到频域,因为声音、图像大部分信号都是低频信号,在频域中信号的能量较集中,再进行采样、编码就可以压缩数据。3.1.3常用数据压缩方法的基本原理变换本身是可逆的,因而其也是一种无损技术。然而,为了取得更满意的结果,某些重要系数的编码位数比其他的要多,某些系数干脆就被忽略了。这样,该过程就成为有损的了。

数学家们已经构造了多种数学变换。除了傅里叶变换外,还有余弦、Hadamard、Haar、KarhunenLoeve变换。最实用最常用的数学变换是离散余弦变换(DCT)。3.1.3常用数据压缩方法的基本原理典型的变换编码系统框图:信源序列变换变换域采样量化编码存储或传输译码填零反变换再现序列变换编码系统压缩数据的三个步骤3.1.3常用数据压缩方法的基本原理

(1)最佳变换(K-L变换)数据压缩主要是去除信源的相关性。若考虑到信号存在于无限区间上,而变换区域又是有限的,那么表征相关性的统计特性就是协方差矩阵。当协方差矩阵中除对角线上元素之外的各元素都为零时,就等效于相关性为零。所以,为了有效地进行数据压缩,常常希望变换后的协方差矩阵为一对角矩阵,同时也希望主对角线上各元素随i,j的增加很快衰减。因此,变换编码的关键在于:在已知X的条件下,根据它的协方差矩阵去寻找一种正交变换T,使变换后的协方差矩阵满足或接近为一对角矩阵。3.1.3常用数据压缩方法的基本原理当经过正交变换后的协方差矩阵为一对角矩阵,且具有最小均方误差时,该变换称最佳变换,也称Karhunen-Loeve变换。可以证明,以矢量信号的协方差矩阵的归一化正交特征向量所构成的正交矩阵,对该矢量信号所作的正交变换能使变换后的协方差矩阵达到对角矩阵。3.1.3常用数据压缩方法的基本原理

(2)离散余弦变换(DCT变换)如果变换后的协方差矩阵接近对角矩阵,该类变换称准最佳变换,典型的有DCT、DFT、WHT、HrT等。其中,最常用的变换是离散余弦变换DCT。

DCT是从DFT引出的。DFT可以得到近似于最佳变换的性能,但DFT的运算次数太多,且需要复数运算。DCT从DFT中取实部,并可用快速余弦变换算法,因此大大加快了运算。同时其压缩性能十分逼近最佳变换的压缩性能。所以,DCT在图像压缩中得到了广泛的应用。3.1.3常用数据压缩方法的基本原理

4.分析合成编码通过对原始数据的分析,将其分解为一系列更适合于表示的基元或者从中提取出更有本质意义的参数,编码仅对这些基本单元或者特征参数进行,而解码时则借助于一定的规则或者模型,按照一定的算法将这些基元或者参数再综合成原始数据的一个逼近。3.1.3常用数据压缩方法的基本原理矢量量化量化编码按照一次量化的码元个数,可分为标量量化和矢量量化两种。对数字化后的数据或PCM数据(样本值)一个一个地进行量化,称为标量量化。而将这些数据分组,每组K维矢量,再以矢量为单元逐个进行量化,称其为矢量量化。矢量量化是标量量化的多维扩展。3.1.3常用数据压缩方法的基本原理标量量化中可在随机变量X出现概率比较高的间隔内,选择较小的判决间隔,而在其他区域内选择较大的间隔,这样可以以较小的量化均方误差进行量化。矢量量化基于语义编码,其基本思想是采用非线性量化器,即对空间频率及能量分布较大的系数分配较多比特数;反之分配较少的比特数,从而达到压缩的目的。3.1.3常用数据压缩方法的基本原理小波变换编码小波变换是一个线性变换,能够将一个信号分解成对空间和时间、频率的独立贡献,同时又不失原信号所包含的信息。经过小波变换后的图像能量很集中,便于对不同的分量作不同的处理,达到较高的压缩比。3.1.3常用数据压缩方法的基本原理分形编码分形编码是一种模型编码,它利用模型的方法,对需要传输的图像进行参数估测。分形的方法是把一幅数字图像,通过一些图像处理技术,如颜色分割、边缘检测、频谱分析、纹理变化分析等等,将原始图像分成一些子图像。子图像可以是简单的物体,也可以是一些复杂的景物。然后在分形集中查找这样的子图像。分形集实际上并不是存储所有可能的子图像,而是存储许多迭代函数,通过迭代函数的反复迭代,恢复出原来的子图像。表示这样的迭代函数一般只需几个数据即可,这就达到了很高的压缩比。3.1.3常用数据压缩方法的基本原理子带编码

利用带通滤波器组把信号频带分割成若干子频带,然后分别处理。通过等效于单边带调幅的调制过程,将各子带搬移到零频率附近以得到低通表示后,再以奈奎斯特速率对各子带输出取样,并对取样值进行通常的数字编码。恢复时,将各子带信号解码并重新调制回其原始位置,再将所有子带输出相加就可得到接近于原始信号的恢复波形。它的复杂度与变换编码差不多,但客观质量高、主观效果好。

3.2音频的压缩3.2音频的压缩音频频率范围

低频声音(Infra-sound):0Hz-20Hz人类听觉频率范围的声音:20Hz-20kHz

高频(Ultrasound):20kHz-1GHz超声波(Hypersound):1GHz-10THz不同音频的带宽

电话语音:

200Hz-3.4kHz调幅广播:50Hz-7kHz

调频广播:20Hz-15kHz

宽带音响:20Hz-20kHz3.2.1音频压缩编码的基本方法无失真压缩音频压缩方法有失真压缩Huffman编码行程编码波形编码参数编码混合编码全频带编码PCMDPCMADPCM子带编码自适应变换编码ATC

心理学模型矢量量化线性预测LPC矢量和激励线性预测VSELP多脉冲线性预测MP-LPC码本激励线性预测CELP3.2.2电话质量的语音压缩标准ITU—TS建议的语音压缩的标准

G.711:采用PCM编码,采样速率为8kHz,量化位数为8bit,对应的比特流速率为64kbit/s。

G.721:ITU建议的G.721将64Kbps的比特流转换为32Kbps的流,它是基于ADPCM技术。每个数值差分用4位编码,其采样率为8kHz。3.2.2电话质量的语音压缩标准

G.723:G.723是一种以24Kbps运行的基于ADPCM的有损耗压缩标准。其音质不如非压缩的G.711PCM标准以及基于SB—ADPCM的G.722标准。G.723.1和G.723.2用于H.324标准。

G.728:它的比特率为16Kbps,带宽限于3.4kHz。其音质比G.711或G.722差得多。它基于一种称为低延迟代码激励线性预测(LD—CELP)的向量量化技术。3.2.2电话质量的语音压缩标准

CELP是一种常用的语音压缩技术。它用于美国联邦标准1016,可将语音压缩至4.8Kbps。美国联邦标准1015使用CELP的一个简本,称为线性预测编码(LPC)。LPC一10E标准可以运行于2.4Kbps。采用了一种向量量化方法。声音听起来有点象机器在说话,但4.8Kbps与电话差不多。3.2.3调幅广播质量的音频压缩标准

调幅广播质量:50Hz-7kHz,称“7kHz音频信号”。

G.722:G.722基于子带ADPCM技术(SB—ADPCM),它是将现有的带宽分成两个独立的子带信道分别采用差分脉码调制算法。G.722压缩信号的带宽范围为50Hz到7kHz,而G.711仅限于3.4kHz。其比特率为48、56、64Kbps,在标准模式下,采样速率是16KHz,幅度深度为14比特。3.2.4高保真立体声音频压缩标准

高质量的声音信号频率范围:50Hz-20kHz目前国际上比较成熟的高质量声音压缩标准为MPEG音频。MPEG-l的音频信号在ISO11172-3文档中的描述。MPEG音频不是单个一种压缩算法,而是3种音频编码和压缩方案的一个系列。MPEG声音编码分为:层-l、层-2、层-3。随着层数的增加算法的复杂度也增大。3.2.4高保真立体声音频压缩标准

所有3层都分级兼容。最复杂的译码器(即在层-3工作的译码器)也可对层-2或层-l的码流进行译码。所有3层都运用同一原理:变换编码和子带编码。频谱被分为32个子带。应用快速博里叶变换来表示高频域中的信号。应用心理声学模式来变换信号以估计刚能引起注意的噪音级。 层l、2和3主要在最后一个阶段--即量化阶段的方式上有所区别,但不是唯一的差别。3.3图像和视频的压缩3.3.1图像和视频压缩编码的基本方法图像和视频压缩方法无失真压缩有失真压缩Huffman编码行程编码算术编码LZW编码预测编码运动补偿变换编码DCT变换小波变换子带编码模型编码分形编码基于重要性滤波子采样矢量量化混合编码JPEGMPEGH.2613.3.1图像和视频压缩编码的基本方法

原始的彩色图像,一般由红、绿、蓝三种基色的图像组成(R、G、B)。然而人的视觉系统对彩色色度的感觉和亮度的敏感性是不同的,因此产生了不同的彩色空间表示。

H、S、I彩色空间:H为色调、S为饱和度、I表示光的强度或亮度。

Y、I、Q方式和Y、U、V方式:这两种表示方式的一个共同点是用其中一个分量Y表示象素的亮度,用其余两个分量表示象素的色度。3.4小结4.1光存储设备概述文本动画图形影像声音4.1.1光存储的类型只读型光存储系统只读型光盘包括LV和CD-ROM等。CD-ROM(CompactDisc-ReadOnlyMemory)只读式压缩光盘,其技术来源于激光唱盘,形状也类似于激光唱盘,能够存储650MB左右的数据。用户只能从CD-ROM读取信息,而不能往盘上写信息。4.1.1光存储的类型只读型光存储系统只读型光驱只读型光盘4.1.1光存储的类型一次写型光存储系统一次写(WORM)光存储系统可一次写入,任意多次读出。与CD-ROM相比,它具有由用户自己确定记录内容的优点。一次写型光驱一次写型光盘4.1.1光存储的类型可重写型光存储系统可重写光盘(E-R/W,Rewritable或Erasable)像硬盘一样可任意读写数据。分为两种磁光型(MagneticOptical,简称MO)相变型(PhaseChange,简称PC)两种形式。4.1.1光存储的类型可重写型光存储系统磁光型可重写光驱相变型可重写光驱与光盘4.1.2光存储系统的技术指标尺寸LV的直径为12英寸(300mm)CD激光唱盘和CD-ROM为4.72英寸(120mm)WORM一次写光盘为14.12英寸和5.25英寸可擦写光盘向小尺寸方向发展,主要尺寸为5.25英寸和3.5英寸。4.1.2光存储系统的技术指标容量格式化容量格式化容量是指按某种光盘标准进行格式化后的容量。对于SONY的SMO-D501光盘,若格式化使每个扇区为1024B,格式化容量是325MB,而采用每扇区为512B,格式化容量只有297MB。

4.1.2光存储系统的技术指标容量用户容量用户容量是指盘片格式化后允许对盘片执行读写操作的容量。CD-ROM的容量为550MB和680MB。由于光盘外圈5mm区容易出错,所以有些CD-ROM的容量标为550MB。

4.1.2光存储系统的技术指标平均存取时间平均存取时间是指从计算机向光盘驱动器发出命令开始,到光盘驱动器在光盘上找到需读/写的信息的位置并接受读/写命令为止的一段时间。平均寻道时间光学头沿半径移动全程1/3长度所需的时间为平均寻道时间。4.1.2光存储系统的技术指标平均存取时间平均等待时间盘片旋转半周的时间为平均等待时间。把平均寻道时间、平均等待时间和读/写光学头稳定时间相加,就得到平均存取时间。

4.1.2光存储系统的技术指标平均存取时间平均等待时间盘片旋转半周的时间为平均等待时间。把平均寻道时间、平均等待时间和读/写光学头稳定时间相加,就得到平均存取时间。

4.1.2光存储系统的技术指标数据传输率

数据传输率数据传输率一般是指单位时间内光盘驱动器送出的数据比特数。该数值与光盘转速和存储密度有关。CD-ROM,其数据传输率已从初期的150KB/s提高到6MB/s。同步传输率、异步传输率和DMA传输率

数据传输率也指控制器与主机之间的传输速率。它与接口规范和控制器内的缓冲器大小有关。SCSI接口的同步传输率为4MB/s,异步传输率为1.5MB/s。AT总线规定的DMA方式的传输率为1MB/s。4.1.2光存储系统的技术指标数据传输率突发传输率

光盘驱动器或控制器中都包含有一个64K、256K或512K的缓冲存储器。为了提高数据传输率,读数据过程中先把数据存入缓冲器,再进行集中传送;如果下次读取同一内容,就不必从光盘上去读取,直接把缓冲器中的数据传送给主机就可以了,这种传输率称为突发传输率。4.1.2光存储系统的技术指标数据传输率

持续传输率

当传送的数据量很大时,缓冲器就起不到提高传输率的作用了,这时的传输率称为持续传输率。4.1.2光存储系统的技术指标误码率

采用复杂的纠错编码可以降低误码率。存储数字或程序对误码率的要求高,存储图像或声音数据对误码率的要求较低。CD-ROM要求的误码率为10-12—10-16。平均无故障时间(MTBP)

要求达到25000小时。

4.1.3光存储格式标准和类型光盘CD系列LVCD-ROMCD-GCD-DACD-VWORMPhoto-CDCD-RDVDVCDCD-ROMXADVICD-ICD-MO磁光(MOD)磁光(PCD)只写一次可重写只读数字模拟数字声音卡拉OK数字+模拟4.1.4CD-ROM光存储系统光存贮原理光反射4.1.4CD-ROM光存储系统CD-ROM驱动器的系统方框图光头旋转马达聚焦、道跟踪和定位司服EFM解调器去交插和内插CLV控制CIRC错误校正RAM同步检测器反变频器RAM控制器RAM错误校正和系统管理系统控制接口主机CD-ROM盘数字信号处理反变频及驱动控制4.1.5CD-R光存储系统CD-R盘片的物理层次CD-R光盘将反射用的铝层改用24K黄金层(也可以是纯银材料),另外再加上有机染料层和预置的轨道凹槽。4.1.5CD-R光存储系统CD-R的刻录和读取原理CD-R刻录是将刻录光驱的写激光聚焦后,通过CD-R空白盘的聚碳酸脂(polycarbonate)层照射到有机染料(通常是箐蓝或酞箐蓝染料)的表面上,激光照射时产生的热量将有机染料烧熔,并使其变成光痕(mark)。当CD-ROM驱动器读取CD-R盘上的信息时,激光将透过聚碳酸脂和有机染料层照射镀金层的表面,并反射到CD-ROM的光电二极管检测器上。光痕会改变激光的反射率,CD-ROM驱动器根据反射回来的光线的强弱来分辨数据0和1。

4.1.6磁光MO存储系统磁光盘是利用(激)光和磁进行数据读、写和擦除的一种光存储系统。数据记录时使用激光和磁场;读取时仅用激光;激光和磁场分别位于盘片的两面。磁光盘的物理层次磁光盘片用树脂做基盘,其上集积了保护层(氮化硅)、记录层(铽、铁钴合金)和反射层(铝合金)而构成。4.1.6磁光MO存储系统磁光存储系统擦写原理写入数据:利用凸透镜进行聚焦,将高功率激光以极小的光点照射在磁光盘记录层上,在其表面温度上升到约300℃的居里点时,用外部磁场改变其原磁化方向。然后中止激光光束让记录层冷却,形成不受外磁场影响的牢固记录层。数据重写:需经过“擦”和“写”两步,先利用中功率激光照射介质段区中的所有数据,使段区中的数据点都沿著与介质表面垂直的方向均匀磁化,即通过写入“0”来抹去原有数据。然后再根据要求用高功率激光在“0”位置写入数据“1”,这样就完成了数据的重写。4.1.6磁光MO存储系统磁光存储系统读原理数据的读取是利用低功率激光探测盘片表面,通过分析反射回來的偏振光的偏振面方向是顺时针或是逆时针,来决定读取的数据是“1”还是“0”。4.1.7相变(PD)光存储系统CD-RW相变记录方式利用物质的状态变化即所谓的相变进行数据的读、写和擦除,相变型光盘用在基盘上沉积电介质层、相变记录层、冷却层和保护层等形成多层结构。

4.1.8DVD光存储系统DVD(DigitalVideoDisk)数字视频光盘或数字影盘它利用MPEG2的压缩技术来储存影像DVD-ROM:电脑软件只读光盘DVD-Video:家用的影音光盘DVD-Audio:音乐盘片DVD-R(或称DVD-Write-Once):限写一次的DVDDVD-RAM(或称DVD-Rewritable):可多次读写的光盘4.1.8DVD光存储系统DVD盘片的物理结构分类:单面单层、单面双层、双面单层、双面双层;容量:4.7GB—

17GB;最小凹坑长度仅为0.4μm,道间距为0.74μm,采用波长为635~650nm的红外激光器读取数据;DVD盘的厚度为1.2mm。对于单面盘而言,只有下层基底包含数据,上层基底没有数据;而双面盘的上下两层基底上均有数据。4.1.9光盘库系统4.2音频接口4.2.1音频卡的工作原理音频卡处理音频信号的PC插卡是音频卡(AudioCard),又称声音卡,声音卡处理的音频媒体有数字化声音(Wave)、合成音乐(MIDI)、CD音频。4.2.1音频卡的工作原理声音是怎样工作的?从模拟到数字声源声波传声器模拟电信号数字声音4.2.1音频卡的工作原理音频卡的功能音频的录制与播放编辑与合成MIDI接口文–语转换CD-ROM接口游戏接口支持全双工功能音箱2、Microphone(麦克风输入)3、Speaker(扬声器输出)4、MIDI/GamePort(MIDI/操纵杆端口)7、CD-ROM音频信号接口6、CD-ROM的接口8、跳接器音频输出IDE接口CD-ROM外部音频设备麦克风操纵杆MIDI声音装置1、Linein(线性输入)5、VolumeControl(音量调节旋钮)电源跳接线音频卡的连接方式4.2.1音频卡的工作原理音频卡的体系结构音频卡由下列部件组成:MIDI输入/输出电路;MIDI合成器芯片;用来把CD音频输入与线输入相混合电路;带有脉冲编码调制电路的模数转换器,用于把模拟信号转换为数字信号以生成波形文件;用来压缩和解压音频文件的压缩芯片;用来合成语音输出的语音合成器;用来识别语音输入的语音识别电路;输出立体声的音频输出或线输出的输出电路等。MIDI接口MIDI合成器语音合成器D/A转换多通道音频合成器A/D转换CD-ROM接口压缩/解压缩MIDIIN输入CDLAUDIORLINEINLMICROPHONERCD驱动器PC的ISA总线PC的ISA总线MIDIOUT输出MIDITHRULINEOUT线输入波形和MIDI文件的输入是来自通过ISA总线的磁盘输入波形和MIDI文件4.2.1音频卡的工作原理数字化声音处理4.2.1音频卡的工作原理混音器4.2.1音频卡的工作原理合成器波形表(WaveTable)合成频率调制FM合成4.2.2音频合成和MIDI接口规范MIDIMIDI(MusicalInstrumentDigitalInterface)是指乐器数字接口,是数字音乐的国际标准。

MIDI的音乐符号化过程实际上就是产生MIDI协议信息的过程。音乐合成器是电脑音乐系统中最重要的设备之一。

4.2.2音频合成和MIDI接口规范MIDI术语MIDI文件通道Channels音序器Sequencer合成器Synthesizer

乐器Instrument

通道映象ChannelMapping复音Polyphony音色Timbre音轨Track合成音色映射程序PatchMapper4.2.2音频合成和MIDI接口规范MIDI接口MIDIIn(输入口)接收从其他MIDI装置传来的消息。MIDIOut(输出口)发送某装置生成的原始MIDI消息。向其他设备发送MIDI消息。MIDIThru(转发口)传送从输人口接收的消息到其他MIDI装置。向其他设备发送MIDI消息。

4.2.2音频合成和MIDI接口规范MIDI接口4.2.3语音合成概述实现计算机语音输出有两种方法:录音/重放文–语转换计算机话语输出按其实现的功能来分,可以分为以下两个档次:有限词汇的计算机语音输出基于语音合成技术的文字-语音转换(TTS)4.2.3语音合成合成方法发音器官参数语音合成对人的发音过程进行直接模拟声道模型参数语音合成基于声道截面积函数或声道谐振特性合成语音波形编辑语音合成技术波形编辑语音合成技术是直接把语音波形数据库中的波形相互拼接在一起,输出连续语流。PSOLA(PitchSynchronousOverlapAdd)方法4.2.3语音合成语音基元数据库的构建基元的选择选择音节选择双音素和三音素语音数据的存储形式波形存储方式存储数字化的语音波形数据参数存储方式存储从语音信号中提取的参数,常用的有LPC参数、LSP(LSF)、共振峰参数等4.2.3语音合成韵律模拟自然语言中的韵律特征语调、节奏和重音等能表达说话者的语义和感情,是自然语流的重要组成部分韵律合成及方法超音段特征(音高、音长、音强及频率分布的变化)的修改构成了韵律合成的基础方法:修改基频模式、共振峰模式、PSOLA算法等韵律模拟的问题需解决韵律规则、韵律描述、计算模型和修改算法等问题4.2.4语音识别概述语音识别是将人发出的声音、字或短语转换成文字、符号,或给出响应,如执行控制、作出回答。语音识别系统的分类按可识别的词汇量多少划分按照语音的输入方式划分按发音人划分说话人识别4.2.4语音识别语音识别系统的最终目标不存在对说话人的限制,即非特定人的。不存在对词汇量的限制,即基于大词汇表的。不存在对发音方式的限制,即可识别连续自然发音的。系统的整体识别率应该相当高,接近于人类对自然语音的识别能力。这也正是听写机系统最终要达到的目标。4.2.4语音识别语音识别研究的难点很难适应各种年龄、性别、口音、发音速度、语音强度、发音习惯与方式等的差异。系统随着能够识别的词汇量增大,所需要的空间和时间的花销就越多,最终将导致系统的识别性能急剧下降而丧失可用性。尽管连续发音是人们最为自然的发音方式,但是识别系统很难也不可能把连续语音作为一个整体来进行识别。实用的识别系统要求提高语音特征参数的鲁棒性、对不同非高斯噪声的非敏感性,以及对不同用户的适应能力等,这些复杂性的需求的实现是非常困难的。4.3视频接口4.3.1视频图像显示概述为了显示原始图像(这里使用的“图像”是泛指,包括全运动视频)的可接受的复制图,需要使用各种显示系统技术来解码信号和压缩数据。显示系统技术VGA混合可伸缩的VGA混合双缓冲VGA混合/伸缩4.3.1视频图像显示视频显示技术标准第一代标准:MDA和CGA第二代标准:EGA

第三代标准:VGA

采用256K种颜色的调色板及用模拟量输出,使显示的颜色更加逼真第四代标准:XGA

l990年IBM公司宣布了XGA高性能的视频子系统4.3.1视频图像显示CRT显示系统屏幕尺寸荫罩和点间距荧光粉类型刷新(或扫描)频率与闪烁隔行和非隔行扫描显示缓冲区与颜色定义模拟信号接口和数字信号接口视频BIOS

4.3.1视频图像显示平板显示系统被动矩阵单色主动矩阵单色被动矩阵彩色主动矩阵彩色4.3.2视频卡的工作原理视频卡的分类与功能简介视频卡的分类视频采集卡将视频信号连续转换成计算机存储的数字视频信号(离散)保存在计算机中或在VGA显示器上显示,完成这种功能的视频卡称之为视频采集卡,或称为视频转换卡。如果能够实时完成压缩,则称实时压缩卡。通常可将外部视频输入信号叠加在显示器上,并将视频输入信号变换成计算机可存储的信息保

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论