下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第 5 章多媒体信息处理技术 通过本章学习,了解多媒体信息处理技术的基本问题, 包括多媒体数据的分类、多媒体 信息的计算机表示、多媒体数据压缩和编码技术、音频卡和视频卡的应用。重点掌握多媒体 信息处理技术的基本概念, 学会音频卡和视频卡的安装与使用, 了解多媒体技术中数据的压 缩与编码方法。 5. 1 多媒体数据的分类 媒体是承载信息的载体,是信息的表示形式。信息媒体元素是指多媒体应用中可以显示 给用户的媒体组成元素,目前主要包括文本、图形、图像、声音、动画和视频等媒体。 一、 多媒体数据的特点 多媒体数据具有数据量巨大、数据类型多、数据类型间差别大、数据输入和输出复杂等 特点。多媒体数据类型
2、多,包括图形、图像、声音、文本和动画等多种形式,即使同属于图 像一类,也还有黑白、彩色、高分辨率和低分辨率之分, 由于不同类型的媒体内容和格式不 同,其存储容量、信息组织方法等方面都有很大的差异。 二、 多媒体数据的分类 1 文字 在计算机中,文字是人与计算机之间信息交换的主要媒体。 文字用二进制编码表示,也 就是使用不同的二进制编码来代表不同的文字。 文本是各种文字的集合,是人和计算机交互作用的主要形式。 文本数据可以在文本编辑软件里制作, 如 Word 编写的文本文件大都可以直接应用到多媒体 应用系统中。但多媒体文本大多直接在制作图形的软件或多媒体编辑软件时一起制作。 2音频 音频泛指声音
3、,除语音、音乐外,还包括各种音响效果。将音频信号集成到多媒体中, 可提供其他任何媒体不能取代的效果,从而烘托气氛、增加活力。 3. 图形、图像 凡是能被人类视觉系统所感知的信息形式或人们心目中的有形想象都称为图像。 图形文件基本上可以分为两大类:位图和向量图。 位图图像是一种最基本的形式。位图是在空间和亮度上已经离散化的图像,可以把一幅 位图图像看成一个矩阵, 矩阵中的任一元素对应于图像的一个点, 而相应的值对应于该点的 灰度等级。 图形是指从点、线、面到三维空间的黑白或彩色几何图形,也称向量图。图形是一种抽 象化的图像,是对图像依据某个标准进行分析而产生的结果。 向量图形文件则用向量代表图中
4、的文件, 以直线为例,在向量图中,有一数据说明该元 件为直线,另外有些数据注明该直线的起始坐标及其方向、 长度或终止坐标,图形文件保存 的不是像素点的值,而是一组描述点、线、面等几何图形的大小、形状、位置、维数等其他 属性的指令集合,通过读取指令可以将其转换为屏幕上显示的图像。 由于大多数情况下不需 要对图形上的每一个点进行量化保存, 所以,图形文件比图像文件数据量小很多。 图形与图 像是两个不同的概念。 4. 动画 图像或图形都是静止的。由于人眼的视觉暂留作用,在亮度信号消失后亮度感觉仍可保 持 1/20s1/ 10s。利用人眼视觉惰性, 在时间轴上,每隔一段时间在屏幕上展现一幅有上 下关联
5、的图像、图形,就形成了动态图像。任何动态图像都是由多幅连续的图像序列构成的, 序列中的每幅图像称为一帧,如果每一帧图像是由人工或计算机生成的图形时,称为动画; 若每帧图像为计算机产生的具有真实感的图像时, 称为三维真实感动画; 当图像是实时获取 的自然景物图像时就称为动态影像视频,简称视频。 用计算机制作动画的方法有两种: 一种称为造型动画, 另一种称为帧动画。 帧动画由一 幅幅连续的画面组成图像或图形序列, 是产生各种动画的基本方法。造型动画则是对每一个 活动的对象分别进行设计,赋予每个对象一些特征(如形状、大小、颜色等) ,然后用这些 对象组成完整的画面。 5. 视频 影像视频是动态图像的
6、一种。 与动画一样,由连续的画面组成,只是画面图像是自然景 物的图像。 计算机视频图像可来自录像带、 摄像机等视频信号源, 这些视频图像使多媒体应用系统 功能更强、更精彩。32 多媒体信息的计算机表示 一、 文本文件格式 常用的文本文件的格式有 TXT、RTF 以及 WORD 格式的 DOC、DOT 文件。 二、 声音文件格式 常用的声音文件格式有 WAV、MID 和 MP3 等。 1. WAV 文件 Windwos 使用的标准数字音频称为波形文件,文件的扩展名为 WAV,记录了对实际声 音进行采样的数据。 在适当的硬件及计算机控制下, 使用波形文件能够重现各种声音, 无论 是不规则的噪音还是
7、 CD 音质的音乐,也无论是单声道还是立体声。 通过 Windows 的对象连接与嵌入技术,波形文件可以嵌在其他 Windows 应用系统中使 用。由于波形文件记录的是数字化音频信号, 因此,可由计算机对其进行处理和分析。 如放 慢或加快放音速度,将声音重新组合或抽取一些片段单独处理等等。 WAV 文件还原成的声音的音质取决于声音卡采样样本的尺寸。一般来说,采样的样本 尺寸越大,采样频率越高,音质就越好,但波形音频文件也就越大,开销就越大。因此,波 形音频一般适用于以下几个场合: 播放的声音是讲话语音,音乐效果对声音的质量要求不太高的场合。 需要从 CD-ROM 光盘驱动器同时加载声音和其他数
8、据,声音数据的传输不能独占处 理时间的场合。 需要在 PC 硬盘中存储的声音数据在 1 分钟以下以及可用存储空间足够的场合。 2. MIDI 文件 MIDI ( Musical In strume nt Digital In terface )是指乐器数字化接口, MIDI 文件的扩展名 是 MID。MIDI 标准是数字式音乐的国际标准。把一个 MIDI设备连接到 PC 的主要目的是 记录 MIDI乐器产生的声音。然后,对记录的音乐进行编辑和后期处理,把它们与其他乐器 的录音进行组合,以产生出类似管弦乐队演奏效果的音乐。 3. MP3 文件 MP3 格式的音乐越来越受到人们的欢迎。 MP3 文
9、件是一种压缩格式的声音文件,其扩 展名为 MP3。MP3 文件的特点是音质好、数据量小。 三、 图形、图像文件格式 常见的图形文件的格式有如下几种: BMP、PCX、GIF、TIF、JPG、TGA 等。 1. GIF(Graphic Interchange Format)文件 2. BMP (bitmap)文件 3. JPG 文件 4. TGA 文件 5. TIF 文件 6. PCX 文件 7. PCD 文件 四、 影像文件格式 影像文件通常泛指自扫描仪或视频卡读入的静态画面(影像) 。 在动态图像的文件格式中,常用的有 AVI、MOV、MPG 和 DAT 文件等。 1. AVI 2. MOV
10、 文件 3. MPG 文件格式 4. DAT 文件格式 5. DIR 文件格式 五、 动画文件格式 多媒体应用中使用的动画文件主要有 GIF、AVI、SWF 等等。 1. GIF 文件 2. SWF 文件 5. 3 多媒体数据压缩和编码技术 一、多媒体的数据量、信息量和冗余 多媒体计算机面临的最大难题是大量数据的存储与传送问题。在所有可能的数据库中, 图像是数据量最大的数据类型。 数据是用来记录和传送信息的, 或者说数据是信息的载体。 对于人类而言,真正有用的 不是数据本身,而是数据所携带的信息。 信息量与数据量的关系是:信息量=数据量+数据冗余 多媒体数据中存在的数据冗余类型有:空间冗余、时
11、间冗余、编码冗余、结构冗余、知 识冗余和视觉冗余等。 1. 空间冗余 空间冗余是图像数据中经常存在的一种冗余。 在同一幅图像中,规则物体和规则背景的 表面物理特性具有相关性,这些相关性在数字化图像中表现为数据冗余。 2时间冗余 时间冗余是序列图像如电视图像、 运动图像和语音数据中经常包含的冗余。 图像序列中 的两幅相邻的图像,后一幅与前一幅之间有较大的相关, 反映为时间冗余。在语音中,由于 人在说话时其发音的音频是一个连续渐变的过程, 而不是一个时间上完全独立的过程, 因而 存在时间冗余。 3. 编码冗余 编码冗余也称为信息熵冗余,信息熵是指对一团数据所携带的信息量。 4. 结构冗余 有些图像
12、从大域上看存在着非常强的纹理结构,表现为结构冗余。 5. 知识冗余 对有许多图像的理解与某些背景知识使有相当大的相关性。 例如,人脸的图形有固定的 结构等。这类规律性的结构可由先验知识和背景知识得到,表现为知识冗余。 6. 视觉冗余 人类的视觉系统对于图像场的注意是非均匀的、 非线性的,视觉系统并不能对于图像场 的任何变化都有所感知。 换句话说,尽管在对图像的编码和解码处理时, 由于压缩或者量化 引入噪声而使图像发生了一系列的变化, 如果这些变化不能被视觉所察觉的话, 我们仍认为 图像是完好的或足够好的。事实上,人类视觉系统的一般分辨能力约为 26 灰度级,而一般 图像的量化采用的是 28 灰
13、度级,这样的冗余称为视觉冗余。 7. 其他冗余 例如由图像的空间非定常特性所带来的冗余等。 正是由于多媒体数据中存在各种各样的冗余, 才使得多媒体数据可以被压缩。针对冗余 的类型不同,人们已经提出了各种各样的方法实施对多媒体数据的压缩。 二、 数据压缩的基本方法 数据压缩处理一般由两个过程组成: 一是编码过程,将原始数据经过编码进行压缩, 以 便存储与传输;二是解码过程,对编码数据进行解码,还原为可以使用的数据。 数据压缩处理方法的分类: 1. 按照解码后的数据与原始数据一致性分类 根据解码后的数据与原始数据是否完全一致来进行划分, 数据压缩方法有两类: 可逆编 码方法和不可逆编码方法。 2.
14、 按方法的原理分类 根据方法的原理进行分类,可以划分为预测编码、 变换编码、量化与向量量化编码、信 息熵编码、分频带编码、结构编码和基于知识的编码等。 三、 音频信号的压缩编码 音频信号分为电话质量的语音、 调幅广播质量的音频信号和高保真立体声信号。 语音信号的频率范围是 300Hz 到 3400Hz。随着带宽的增加,信号的自然度将逐步得到 改善。高保真音频信号的频率范围是 20Hz 到 20000Hz。 声音信号的编码方式可以分为三大类: 波形编码:要求重构的声音信号尽可能地接近于原始声音。 典型的波形编码技术有脉冲 编码调制(PCM )、自适应差分脉冲编码调制( ADPCM )、自适应预测
15、编码(APC)、 子带编码(SDC)、自适应变换编码(ATC)等。 分析合成编码:以声音信号产生模型为基础, 将声音信号变换成模型参数后再进行编码, 又称为参数编码方法。典型的分析和合成技术有通道声码器、共振峰声码器、同态声码器、 线性预测声码器等。 混合型编码:是一种在保留分析合成编码技术精华的基础上, 引用波形编码准则去优化 激励源信号的方案,可以在 4.8k 位秒9.6k 位/秒的编码率上获得较高质量的合成声音。 最简单的数字编码方法是对声音信号作直接的模 /数转换。只要采样频率足够高,量化 位数足够多,就能保证解码器恢复的声音有很好的质量。 四、 视频信号的压缩编码 1 .视频信号的压
16、缩编码分类 图像压缩方法可以分成两种类型:有损压缩和无损压缩。 2. 视频信号的压缩编码标准 JPEG 和 MPEG 就是得到国际标准化组织认可并推荐的两个国际标准。 JPEG 是联合专家小组(Joi nt Photographic Experts Group )的英文缩写。 MPEG 是运动图像专家组 (Moving Pictuer Experts Group ) 的英文缩写。 MPEG 标准包 括 MPEG视频、MPEG 音频和 MPEG 系统三大部分。 3JPEG 静止图像压缩算法 JPEG 标准是面向连续色调、多级灰度、彩色或单色静止图像的压缩标准,它定义了两 种基本的压缩算法:一种是
17、无失真压缩算法;另一种是有失真压缩算法。 4MPEG 运动图像压缩算法 5. 4 音频卡 一、 音频卡的功能 音频卡的主要功能包括:音频的录制与播放、编辑与合成、MIDI、文语转换、CD-ROM 接口及游戏接口。 1. 录制与播放 将外部的声音信号通过音频卡录入计算机,并以文件的形式进行保存。 需要播放时,只要调出相应的声音文件,就像普通录放机一样,从而使计算机既具有图像显 示又有声音输出。 2编辑与合成 编辑与合成就像一部音频编辑器, 它可以对声音文件进行多种特殊效果处理: 包括倒播、 增加回音、静噪、淡入淡出、往返放音、交换声道以及声音由左向右或由右向左移位等。 3. MIDI 和音乐合成
18、 MIDI是乐器数字接口的标准,它规定了电子乐器与计算机之间相互数据通信的协议。 通过软件,计算机可以直接对外部电子乐器进行控制和操作。 4文语转换和语音识别 文语转换就是把计算机内的文本转换成声音。一般音频卡都提供英语文语转换软件。 音频卡的其他接口还有: CD-ROM 接口、游戏棒接口等。 二、 音频卡的组成与工作原理 音频卡通过环境音响效果技术,进行环绕音响渲染,产生栩栩如生、身临其境的音响效 果,如置身于乐队中。 音频卡的组成: 声音的合成与处理。 混合信号处理器及功率放大器。 计算机总线接口和控制器。 三、 音频卡的安装 1硬件安装 2软件安装 四、 用“录音机”生成和处理波形文件
19、1生成波形文件 用“录音机”采集声音的分为三个步骤: 设置混音器 设置录音属性 录音 2. 编辑波形文件 编辑波形文件的操作步骤: 剪辑文件 对文件作特殊效果处理 6. 5 音乐合成与 MIDI 一、音乐合成 乐音必备的三要素是:音高、音色和音强。 若把一个乐音放在运动的旋律中, 它还应具备时值,即持续时间。这些要素的理想配合 是产生优美动听的旋律的必要条件。 音高指声波的基频,基频越低,给人的感觉越低沉。 音色由声音的频谱决定,各个谐波的比例不同,随时间衰减的程度不同,音色就不同。 音强是对声音强度的衡量,它是听判乐音的基础。 时值具有明显的相对性, 时值的变化导致旋律或平缓、均匀, 或跳跃
20、、颠簸以表达不同 的情感。 调频(FM )是使高频振荡波的频率按照调制信号规律变化的一种调制方式。 二、MIDI规范 MIDI 是乐器数字接口( musical in strume nt digital in terface )的英文缩写。 MIDI文件记录的不是声音本身,因此比较节省空间。 MIDI 标准规定了不同厂家的电 子乐器与计算机连接的电缆和硬件。它还指定从一个装置传送数据到另一个装置的通信协 议。 MIDI标准中规定了多媒体个人计算机 (MPC )包括一个内部合成器和标准 MIDI端口。 5. 6 视频卡 一、 视频卡的功能 视频卡是一种处理活动影像数据的扩展卡。 视频卡种类: 视频转换卡用来将视频信号转换成计算机存储的数字视频信号保存在计算机中或在 VGA 显示器上显示,或将 VGA 信号转换成电视信号,使计算机信号可以在电视或录 像机上播放。 视频捕捉卡用来从正在播放的动态画面中截取一些画面。 窗口动态视频卡用来利用重叠、 淡入、淡出等功能,提供窗口显示功能和数字化静止 画面。 动态视频捕捉播放卡用来同时抓取动态视频信号和声音信号并加以压缩、存储和播 放。 视频压缩卡用来根据 JPEG/MPEG 的标准对数据进行压缩和还原。 视频还原卡用来实现将压缩后保存在
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- (2024版)金融科技领域创新产品研发合同
- 第一编-合同法
- 2024年个人股份出让协议模板:权益转移细节版B版
- (2024版)新型材料研发与专利许可合同
- 2024年度商业机密保护协议一
- 2024业务外包合同
- 2024年企业劳动合同法专业培训实施计划
- 2024年展会专用展位设计与装修服务协议模板版B版
- 2024年个人借款协议条款详细样本版B版
- 2024年度人工智能技术研发与产业化合同
- 《管理学》课件讲课讲稿
- 一年级语文下册课件-21 小壁虎借尾巴24-部编版(15张PPT)
- 《中外新闻传播史》课件第九章 广播时代的开始
- MACD经典解析 谢佳颖 台湾
- 社会责任安全隐患辨识风险评级记录表
- 高速公路高空大吨位挂篮悬浇施工风险评估
- 内蒙古新型化工产业发展实施方案
- 工程款冲抵房款协议书
- 广州市某日用品公司洗衣液项目商业计划书案例
- 课件-秋妈妈和果娃娃
- 半导体专业术语(中英对照)ppt课件
评论
0/150
提交评论