多媒体重要知识_第1页
多媒体重要知识_第2页
多媒体重要知识_第3页
多媒体重要知识_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、重要知识第二章多媒体数据压缩首先是由于数据中存在冗余,冗余度压缩是一个可逆过程,因此又叫 无失真压缩。数据中间尤其是相邻的数据之间,常存在着相关性。例如,图片中常常有色彩 均匀的背景,电视信号的相邻两帧之间可能只有少量的变化,声音信号有时具有一定的规律 性和周期性等。因此,有可能利用某些变换来尽可能地去掉这些相关性。去除这些冗余信息, 便可以实现对数据的压缩,同时亦不影响这些数据的使用。多媒体数据压缩算法的评价标准主要有压缩比率、压缩质量和压缩与解压缩的速度三个 方面。采样是对模拟信号按固定的时间间隔取一个样本值,这样就把时间上连续的信号变成了 时间上离散的信号。采样的时间间隔越长,原信号越易

2、失真。反之,采样时间间隔越短,原 信号越精确。MPEG-7标准制定于1998年,在2001年底成为正式标准。MPEG-7被称为“多媒体 内容描述接口”,它为各类多媒体信息提供一种标准化的描述,用来描述各种类型的多媒体 信息及它们之间的关系,以便解决多媒体信息的检索问题。多媒体数据库的层次结构与传统的关系数据库基本一致,具有物理层、概念层和表现层。流媒体技术使用流式传输技术在网络上传输多媒体数据,可以在实时广播、视频会议、 视频点播等多媒体通信系统中使用。但网格计算是在开放环境下,充分利用物理上分散的计 算能力和各种资源,协同工作,共同完成任务。流媒体对计算能力和资源的要求不高,更依 赖于网络的

3、性能。在计算机网络体系结构中,TCP协议是传输层协议,而传输层协议的目的就是保证数 据传输的可靠性。ASF是Microsoft公司开发的流媒体文件格式:RM是RealNetworks公司提出的流媒体文件格 式;QT则是Apple公司提出的流媒体文件格式。RMVB是RM的扩展,提供支持可变速率的 流媒体文件存储。霍夫曼编码是统计编码的一种。统计编码是根据消息出现概率的分布特性而进行工作的,它 属于无损压缩编码。预测编码是有损压缩编码,主要对数据冗余进行压缩。交换编码是有损 压缩编码,工作原理是将图像信号从一个域(例如时间域)交换到另一个域(例如频率域),然 后对交换后的信号进行量化与编码。LZW

4、编码属于无损压缩编码,主要用于对图像数据的 压缩。JPEG 2000的主要优点有:(1)高压缩比。JPEG 2000压缩率比JPEG高30%。(2)同时支持有损压缩和无损压缩。无损压缩对保存一些重要的图片是非常有用的。(3)传输图像的模式为渐近传输,即在图像的传输过程中,首先传输图像的轮廓,再逐步 传输图像的数据,这样就可以不断提高图像的质量,使图像逐渐清晰起来。(4)具有支持“感兴趣区域Region Of InJeRgfi的特性。该特性是可以在图像上指定一个 感兴趣的区域,在该区域中能够指定特别的压缩和解压缩的质量。多媒体数据一般有格式数据和无格式数据两类。格式数据结构简单,处理方便。目前的

5、 关系数据库主要以格式数据为处理对象。无格式数据(如图像、音频和视频等)除了具有数据 量大的特性外,还具有复合性、分散性和时序性等特点。三大流媒体平台都开发了各自的多媒体文件格式。RealNetworks公司没有自己的操作系统, 需要使其软件产品运行在多种平台上,因此其产品兼容性较好。而另外两种流平台都有自己 的操作系统,Microsoft流平台和Windows操作系统捆绑在一起。而Apple流平台的产品较少, 完整性较差。Modem(调制解调器)技术是早期的主流用户接入方式,主要使用普通电话线,速度较 慢,一般小于512kbit/s,是较典型的窄带接入技术。近年来,由于通信技术的发展,宽带接

6、 入技术逐渐称为用户接入方式的主流(即宽带化)。这些技术主要包括使用铜双绞线的xDSL 技术;使用同轴电缆和光纤混合的HFC技术;使用光纤的FTTx技术、无线接入技术和局域 网接入技术等。脉冲编码调制PCM编码是较为通用的压缩编码。它的工作原理是对模拟信号经过采样、 量化、编码后得到数字编码。采样是对模拟信号按固定的时间间隔取一个样本值。采样的时间间隔越长,原信号越 易失真;反之,采样时间间隔越短,原信号越精确。每秒钟采样的次数称为采样频率。量化是指模拟信号到数字信号的映射。它按照允许的误差将样本值对应其近似的数值。 如果采用相等的量化间隔处理采样得到的信号值,那么这种量化称为均匀量化。非线性

7、量 化的基本想法是,对输入信号进行量化时,大的输入信号采用大的量化间隔,小的输入信 号采用小的量化间隔,这样就可以在满足精度要求的情况下用较少的位数来表示。第四章未压缩的音频文件存储空间的计算有储空间(字节)二采样频率*采样精度*声道数*时间/8例如:1分钟采样频率为44khz采样精度为16bit,双声道的声 音文件在编码后的音频文件需要多大存储空间存储空间=441 * 1000* 16*2*60/8 = 10584000字节二 10.09 M人耳可听到的声音频带范围是有限的,在2020000Hz之间,这些频域的声音信号被称为音 频信号;频率低于20Hz (称为亚音信号或次音信号)和高于200

8、00Hz (称为超音频信号)的声 音信号人类是听不到的。音调与频率有关,代表了声音的高低。频率越高,音调越高,反之亦然。各种不同的声源具 有自己特定的音调,如果改变了某种声源的音调,则声音会发生质的转变,使人们无法辨别声源 本来的面目。模拟音频数字化就是将连续变化的模拟声音信号转换成离散的数字音频信号。一般需要完成 采样、量化和编码三个步骤。模拟音频信号不仅在幅度取值上是连续的,而且在时间上也是连续的,要使模拟音频信号数 字化,首先要在时间上进行离散化处理,即在时间上用有限个采样点来代替连续无限的坐标位置。 采样就是每隔一段时间从连续变化的模拟音频信号中取一个幅度值(也称为采样值),从而把时

9、间上的连续信号变成时间上的离散信号。采样的时间间隔称为采样周期;每秒内采样的次数称为 采样频率;采样后所得的一系列在时间上离散的样本值称为样值序列。采样频率是对声音波形每秒钟进行采样的次数。奈奎斯特理论指出:采样频率不应低于模拟 音频信号最高频率的两倍,这样才能将数字化的声音还原为原始声音,这叫做无损数字化。语音合成可分为三个层次,分别是文字到语音、概念到语音、意向到语音的合成。要合成出 高质量的语言,不仅要对语言进行理解,还必须遵循人类语言的一些表达规则,如语义学规则、 词汇规则、语音学规则。单轨的操作界面与多轨界面基本类似,不同的是在音轨显示区只有一个音轨,并且没有针对 这个音轨的属性面板

10、。在单轨模式下,主要进行的操作内容是针对此音轨波形的效果处理和降噪 处理等。包络编辑是在音频波形幅度上绘制一条包络线,从而改变了声音输出时的波形幅度,即改变 声音的强度。通过包络编辑,可以音乐播放过程中音量的或大或小,实现特殊的音乐效果,例如 淡入淡出效果。混响是室内声源停止发声后,由于房间边界面或其中障碍物使声波多次反射或散射而产生声 音延续的现象。利用Audition中的混响效果器,可以为音乐增加空间感、立体扩展感。声音的三要素是音调、音色和音强。就听觉特性而言,声音质量的高低主要取决于这三要素。数字音频的声音质量好坏,取决于采样频率的高低、表示声音的基本数据位数、声道形式和 编码算法。音

11、质越好,音频文件的数据量越大。选择识别单元是语音识别研究的第一步。语音识别单元有单词、音节和音素三种。单词主要应用于中小词汇语音识别系统。音节多见于汉语语音识别,主要因为汉语是单音节 结构的语言。音素应用较广,英语语音以及汉语语音识别技术中都有广泛应用。由于英语语音是 多音节结构,汉语的声母和韵母声学特性相差也很大,因此都适于选择音素作为识别单元。在声音的三要素中,音色表示声音的特色。声音分纯音和复音两种类型。所谓纯音,是指振 幅和周期均为常数的声音;复音则是具有不同频率和不同振幅的混合声音,大自然中的声音大部 分是复音。在复音中,最低频率的声音是基音,它是声音的基调。其他频率的声音称为谐音。基 音和谐音是构成声音音色的重要因素。率数字音频文件格式wav(微软)midi(乐器数字接口)cda(cd 音乐)Mp3wma(微软,网络音频格式)ra/rm(real networks)mac(apple)第五章像素是构成图像的最小的单元。数码照片、打印

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论