(完整word版)多媒体信息处理技术

上传人：s*** IP属地：天津上传时间：2021-12-03 格式：DOC 页数：7 大小：67KB 积分：15 举报 版权申诉

免费预览已结束，剩余5页可下载查看

 下载本文档

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、第 5 章多媒体信息处理技术通过本章学习，了解多媒体信息处理技术的基本问题，包括多媒体数据的分类、多媒体信息的计算机表示、多媒体数据压缩和编码技术、音频卡和视频卡的应用。重点掌握多媒体信息处理技术的基本概念，学会音频卡和视频卡的安装与使用，了解多媒体技术中数据的压缩与编码方法。 5. 1 多媒体数据的分类媒体是承载信息的载体，是信息的表示形式。信息媒体元素是指多媒体应用中可以显示给用户的媒体组成元素，目前主要包括文本、图形、图像、声音、动画和视频等媒体。一、多媒体数据的特点多媒体数据具有数据量巨大、数据类型多、数据类型间差别大、数据输入和输出复杂等特点。多媒体数据类型

2、多，包括图形、图像、声音、文本和动画等多种形式，即使同属于图像一类，也还有黑白、彩色、高分辨率和低分辨率之分，由于不同类型的媒体内容和格式不同，其存储容量、信息组织方法等方面都有很大的差异。二、多媒体数据的分类 1 文字在计算机中，文字是人与计算机之间信息交换的主要媒体。文字用二进制编码表示，也就是使用不同的二进制编码来代表不同的文字。文本是各种文字的集合，是人和计算机交互作用的主要形式。文本数据可以在文本编辑软件里制作，如 Word 编写的文本文件大都可以直接应用到多媒体应用系统中。但多媒体文本大多直接在制作图形的软件或多媒体编辑软件时一起制作。 2音频音频泛指声音

3、，除语音、音乐外，还包括各种音响效果。将音频信号集成到多媒体中，可提供其他任何媒体不能取代的效果，从而烘托气氛、增加活力。 3. 图形、图像凡是能被人类视觉系统所感知的信息形式或人们心目中的有形想象都称为图像。图形文件基本上可以分为两大类：位图和向量图。位图图像是一种最基本的形式。位图是在空间和亮度上已经离散化的图像，可以把一幅位图图像看成一个矩阵，矩阵中的任一元素对应于图像的一个点，而相应的值对应于该点的灰度等级。图形是指从点、线、面到三维空间的黑白或彩色几何图形，也称向量图。图形是一种抽象化的图像，是对图像依据某个标准进行分析而产生的结果。向量图形文件则用向量代表图中

4、的文件，以直线为例，在向量图中，有一数据说明该元件为直线，另外有些数据注明该直线的起始坐标及其方向、长度或终止坐标，图形文件保存的不是像素点的值，而是一组描述点、线、面等几何图形的大小、形状、位置、维数等其他属性的指令集合，通过读取指令可以将其转换为屏幕上显示的图像。由于大多数情况下不需要对图形上的每一个点进行量化保存，所以，图形文件比图像文件数据量小很多。图形与图像是两个不同的概念。 4. 动画图像或图形都是静止的。由于人眼的视觉暂留作用，在亮度信号消失后亮度感觉仍可保持 1/20s1/ 10s。利用人眼视觉惰性，在时间轴上，每隔一段时间在屏幕上展现一幅有上下关联

5、的图像、图形，就形成了动态图像。任何动态图像都是由多幅连续的图像序列构成的，序列中的每幅图像称为一帧，如果每一帧图像是由人工或计算机生成的图形时，称为动画；若每帧图像为计算机产生的具有真实感的图像时，称为三维真实感动画；当图像是实时获取的自然景物图像时就称为动态影像视频，简称视频。用计算机制作动画的方法有两种：一种称为造型动画，另一种称为帧动画。帧动画由一幅幅连续的画面组成图像或图形序列，是产生各种动画的基本方法。造型动画则是对每一个活动的对象分别进行设计，赋予每个对象一些特征(如形状、大小、颜色等) ，然后用这些对象组成完整的画面。 5. 视频影像视频是动态图像的

6、一种。与动画一样，由连续的画面组成，只是画面图像是自然景物的图像。计算机视频图像可来自录像带、摄像机等视频信号源，这些视频图像使多媒体应用系统功能更强、更精彩。32 多媒体信息的计算机表示一、文本文件格式常用的文本文件的格式有 TXT、RTF 以及 WORD 格式的 DOC、DOT 文件。二、声音文件格式常用的声音文件格式有 WAV、MID 和 MP3 等。 1. WAV 文件 Windwos 使用的标准数字音频称为波形文件，文件的扩展名为 WAV，记录了对实际声音进行采样的数据。在适当的硬件及计算机控制下，使用波形文件能够重现各种声音，无论是不规则的噪音还是

7、 CD 音质的音乐，也无论是单声道还是立体声。通过 Windows 的对象连接与嵌入技术，波形文件可以嵌在其他 Windows 应用系统中使用。由于波形文件记录的是数字化音频信号，因此，可由计算机对其进行处理和分析。如放慢或加快放音速度，将声音重新组合或抽取一些片段单独处理等等。 WAV 文件还原成的声音的音质取决于声音卡采样样本的尺寸。一般来说，采样的样本尺寸越大，采样频率越高，音质就越好，但波形音频文件也就越大，开销就越大。因此，波形音频一般适用于以下几个场合：播放的声音是讲话语音，音乐效果对声音的质量要求不太高的场合。需要从 CD-ROM 光盘驱动器同时加载声音和其他数

8、据，声音数据的传输不能独占处理时间的场合。需要在 PC 硬盘中存储的声音数据在 1 分钟以下以及可用存储空间足够的场合。 2. MIDI 文件 MIDI ( Musical In strume nt Digital In terface )是指乐器数字化接口， MIDI 文件的扩展名是 MID。MIDI 标准是数字式音乐的国际标准。把一个 MIDI设备连接到 PC 的主要目的是记录 MIDI乐器产生的声音。然后，对记录的音乐进行编辑和后期处理，把它们与其他乐器的录音进行组合，以产生出类似管弦乐队演奏效果的音乐。 3. MP3 文件 MP3 格式的音乐越来越受到人们的欢迎。 MP3 文

9、件是一种压缩格式的声音文件，其扩展名为 MP3。MP3 文件的特点是音质好、数据量小。三、图形、图像文件格式常见的图形文件的格式有如下几种： BMP、PCX、GIF、TIF、JPG、TGA 等。 1. GIF(Graphic Interchange Format)文件 2. BMP (bitmap)文件 3. JPG 文件 4. TGA 文件 5. TIF 文件 6. PCX 文件 7. PCD 文件四、影像文件格式影像文件通常泛指自扫描仪或视频卡读入的静态画面（影像）。在动态图像的文件格式中，常用的有 AVI、MOV、MPG 和 DAT 文件等。 1. AVI 2. MOV

10、文件 3. MPG 文件格式 4. DAT 文件格式 5. DIR 文件格式五、动画文件格式多媒体应用中使用的动画文件主要有 GIF、AVI、SWF 等等。 1. GIF 文件 2. SWF 文件 5. 3 多媒体数据压缩和编码技术一、多媒体的数据量、信息量和冗余多媒体计算机面临的最大难题是大量数据的存储与传送问题。在所有可能的数据库中，图像是数据量最大的数据类型。数据是用来记录和传送信息的，或者说数据是信息的载体。对于人类而言，真正有用的不是数据本身，而是数据所携带的信息。信息量与数据量的关系是：信息量=数据量+数据冗余多媒体数据中存在的数据冗余类型有：空间冗余、时

11、间冗余、编码冗余、结构冗余、知识冗余和视觉冗余等。 1. 空间冗余空间冗余是图像数据中经常存在的一种冗余。在同一幅图像中，规则物体和规则背景的表面物理特性具有相关性，这些相关性在数字化图像中表现为数据冗余。 2时间冗余时间冗余是序列图像如电视图像、运动图像和语音数据中经常包含的冗余。图像序列中的两幅相邻的图像，后一幅与前一幅之间有较大的相关，反映为时间冗余。在语音中，由于人在说话时其发音的音频是一个连续渐变的过程，而不是一个时间上完全独立的过程，因而存在时间冗余。 3. 编码冗余编码冗余也称为信息熵冗余，信息熵是指对一团数据所携带的信息量。 4. 结构冗余有些图像

12、从大域上看存在着非常强的纹理结构，表现为结构冗余。 5. 知识冗余对有许多图像的理解与某些背景知识使有相当大的相关性。例如，人脸的图形有固定的结构等。这类规律性的结构可由先验知识和背景知识得到，表现为知识冗余。 6. 视觉冗余人类的视觉系统对于图像场的注意是非均匀的、非线性的，视觉系统并不能对于图像场的任何变化都有所感知。换句话说，尽管在对图像的编码和解码处理时，由于压缩或者量化引入噪声而使图像发生了一系列的变化，如果这些变化不能被视觉所察觉的话，我们仍认为图像是完好的或足够好的。事实上，人类视觉系统的一般分辨能力约为 26 灰度级，而一般图像的量化采用的是 28 灰

13、度级，这样的冗余称为视觉冗余。 7. 其他冗余例如由图像的空间非定常特性所带来的冗余等。正是由于多媒体数据中存在各种各样的冗余，才使得多媒体数据可以被压缩。针对冗余的类型不同，人们已经提出了各种各样的方法实施对多媒体数据的压缩。二、数据压缩的基本方法数据压缩处理一般由两个过程组成：一是编码过程，将原始数据经过编码进行压缩，以便存储与传输；二是解码过程，对编码数据进行解码，还原为可以使用的数据。数据压缩处理方法的分类： 1. 按照解码后的数据与原始数据一致性分类根据解码后的数据与原始数据是否完全一致来进行划分，数据压缩方法有两类：可逆编码方法和不可逆编码方法。 2.

14、按方法的原理分类根据方法的原理进行分类，可以划分为预测编码、变换编码、量化与向量量化编码、信息熵编码、分频带编码、结构编码和基于知识的编码等。三、音频信号的压缩编码音频信号分为电话质量的语音、调幅广播质量的音频信号和高保真立体声信号。语音信号的频率范围是 300Hz 到 3400Hz。随着带宽的增加，信号的自然度将逐步得到改善。高保真音频信号的频率范围是 20Hz 到 20000Hz。声音信号的编码方式可以分为三大类：波形编码：要求重构的声音信号尽可能地接近于原始声音。典型的波形编码技术有脉冲编码调制（PCM ）、自适应差分脉冲编码调制（ ADPCM ）、自适应预测

15、编码（APC）、子带编码（SDC）、自适应变换编码（ATC）等。分析合成编码：以声音信号产生模型为基础，将声音信号变换成模型参数后再进行编码，又称为参数编码方法。典型的分析和合成技术有通道声码器、共振峰声码器、同态声码器、线性预测声码器等。混合型编码：是一种在保留分析合成编码技术精华的基础上，引用波形编码准则去优化激励源信号的方案，可以在 4.8k 位秒9.6k 位/秒的编码率上获得较高质量的合成声音。最简单的数字编码方法是对声音信号作直接的模 /数转换。只要采样频率足够高，量化位数足够多，就能保证解码器恢复的声音有很好的质量。四、视频信号的压缩编码 1 .视频信号的压

16、缩编码分类图像压缩方法可以分成两种类型：有损压缩和无损压缩。 2. 视频信号的压缩编码标准 JPEG 和 MPEG 就是得到国际标准化组织认可并推荐的两个国际标准。 JPEG 是联合专家小组（Joi nt Photographic Experts Group ）的英文缩写。 MPEG 是运动图像专家组（Moving Pictuer Experts Group ）的英文缩写。 MPEG 标准包括 MPEG视频、MPEG 音频和 MPEG 系统三大部分。 3JPEG 静止图像压缩算法 JPEG 标准是面向连续色调、多级灰度、彩色或单色静止图像的压缩标准，它定义了两种基本的压缩算法：一种是

17、无失真压缩算法；另一种是有失真压缩算法。 4MPEG 运动图像压缩算法 5. 4 音频卡一、音频卡的功能音频卡的主要功能包括：音频的录制与播放、编辑与合成、MIDI、文语转换、CD-ROM 接口及游戏接口。 1. 录制与播放将外部的声音信号通过音频卡录入计算机，并以文件的形式进行保存。需要播放时，只要调出相应的声音文件，就像普通录放机一样，从而使计算机既具有图像显示又有声音输出。 2编辑与合成编辑与合成就像一部音频编辑器，它可以对声音文件进行多种特殊效果处理：包括倒播、增加回音、静噪、淡入淡出、往返放音、交换声道以及声音由左向右或由右向左移位等。 3. MIDI 和音乐合成

18、 MIDI是乐器数字接口的标准，它规定了电子乐器与计算机之间相互数据通信的协议。通过软件，计算机可以直接对外部电子乐器进行控制和操作。 4文语转换和语音识别文语转换就是把计算机内的文本转换成声音。一般音频卡都提供英语文语转换软件。音频卡的其他接口还有： CD-ROM 接口、游戏棒接口等。二、音频卡的组成与工作原理音频卡通过环境音响效果技术，进行环绕音响渲染，产生栩栩如生、身临其境的音响效果，如置身于乐队中。音频卡的组成：声音的合成与处理。混合信号处理器及功率放大器。计算机总线接口和控制器。三、音频卡的安装 1硬件安装 2软件安装四、用“录音机”生成和处理波形文件

19、1生成波形文件用“录音机”采集声音的分为三个步骤：设置混音器设置录音属性录音 2. 编辑波形文件编辑波形文件的操作步骤：剪辑文件对文件作特殊效果处理 6. 5 音乐合成与 MIDI 一、音乐合成乐音必备的三要素是：音高、音色和音强。若把一个乐音放在运动的旋律中，它还应具备时值，即持续时间。这些要素的理想配合是产生优美动听的旋律的必要条件。音高指声波的基频，基频越低，给人的感觉越低沉。音色由声音的频谱决定，各个谐波的比例不同，随时间衰减的程度不同，音色就不同。音强是对声音强度的衡量，它是听判乐音的基础。时值具有明显的相对性，时值的变化导致旋律或平缓、均匀，或跳跃

20、、颠簸以表达不同的情感。调频（FM ）是使高频振荡波的频率按照调制信号规律变化的一种调制方式。二、MIDI规范 MIDI 是乐器数字接口（ musical in strume nt digital in terface ）的英文缩写。 MIDI文件记录的不是声音本身，因此比较节省空间。 MIDI 标准规定了不同厂家的电子乐器与计算机连接的电缆和硬件。它还指定从一个装置传送数据到另一个装置的通信协议。 MIDI标准中规定了多媒体个人计算机（MPC ）包括一个内部合成器和标准 MIDI端口。 5. 6 视频卡一、视频卡的功能视频卡是一种处理活动影像数据的扩展卡。视频卡种类：视频转换卡用来将视频信号转换成计算机存储的数字视频信号保存在计算机中或在 VGA 显示器上显示，或将 VGA 信号转换成电视信号，使计算机信号可以在电视或录像机上播放。视频捕捉卡用来从正在播放的动态画面中截取一些画面。窗口动态视频卡用来利用重叠、淡入、淡出等功能，提供窗口显示功能和数字化静止画面。动态视频捕捉播放卡用来同时抓取动态视频信号和声音信号并加以压缩、存储和播放。视频压缩卡用来根据 JPEG/MPEG 的标准对数据进行压缩和还原。视频还原卡用来实现将压缩后保存在

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

(完整word版)多媒体信息处理技术

文档简介

温馨提示

最新文档

评论

(完整word版)多媒体信息处理技术

文档简介

温馨提示

最新文档

评论

相关文档