版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、多媒体技术教程目 录 第 一 章 绪论 第 二 章 媒体及媒体技术 第 三 章 多媒体数据压缩 第 四 章 多媒体硬件环境 第 五 章 多媒体软件基础 第 六 章 多媒体的时间表示与同步 第 七 章 超媒体与Web系统 第 八 章 多媒体数据库 第 九 章 多媒体信息分析与处理 第 十 章 网络多媒体技术 第十一章 多媒体应用系统第一章 绪论1.1 多媒体的基本概念1.1.1 媒体与多媒体 媒体的概念 媒体(mediamedia,mediummedium): 承载信息之载体; CCITTCCITT对媒体的分类: 感觉、表示、显示、存储、传输1.1.1 媒体与多媒体 表示媒体: 声:语音、声响、
2、音乐等图:图像、图形等 像:动画、视频等 文:文字、符号、数值等 其他:动作媒体、触觉媒体等1.1.1 媒体与多媒体 媒体分类 视觉视视 觉觉(静止)(静止)图像图像图形图形文字文字符号符号语言文字语言文字抽象化抽象化抽象化抽象化 (动态)(动态)图像图像图形图形动态影像视频动态影像视频真实感三维动画真实感三维动画二维动画二维动画三维动画三维动画其它表示为视觉的媒体其它表示为视觉的媒体1.1.1 媒体与多媒体 媒体分类 听觉 触觉 其他感觉抽象化抽象化听觉听觉声音声音声响(自然界)声响(自然界)语音(人类语言)语音(人类语言)音乐音乐其它(嗅觉、味觉等)其它(嗅觉、味觉等)触觉触觉振动振动运动
3、运动传感传感/发生器发生器1.1.1 媒体与多媒体 多媒体的概念 内涵 表示媒体的多样化; 一个技术领域 一个技术时代 定义 以数字化为基础,能够对多种媒体信息进行采集、编码、存储、传输、处理和表现,综合处理多种媒体信息并使之建立起有机的逻辑联系,集成为一个系统并能具有良好交互性的技术。 1.1.2 多媒体的关键特性 多样性适应了信息载体的多样性 信息载体的多样性是相对于计算机而言的,指的就是信息媒体的多样化,有人称之为信息多维化。 65%65%20%20%10%10%2%2%3%3%视觉味觉嗅觉触觉听觉1.1.2 多媒体的关键特性 交互性易于人和计算机的交互 交互可以增加对信息的注意力和理解
4、力,延长信息保留的时间。 当交互性引入时,“活动”本身作为一种媒体便介入到了数据转变为信息、信息转变为知识的过程之中。 当我们完全地进入到一个与信息环境一体化的虚拟信息空间自由遨游时,这才是交互式应用的高级阶段,这就是虚拟现实(Virtual Reality)。 1.1.2 多媒体的关键特性 交互性易于人和计算机的交互1.1.2 多媒体的关键特性 集成性:实现了信息处理的集成性 多媒体信息媒体的集成 处理这些媒体的设备与设施的集成1.2 多媒体技术的产生与发展1.2.1 多媒体是技术与应用发展的必然 多媒体热潮的兴起 多媒体热潮的兴起 DVI,HyperCard 九十年代一批产品出现 MPEG
5、(VCD),MPC,VOD 连续召开多媒体国际学术研讨会 MM93,MM94,MM95 “叫好不叫座” 94年开始进入低潮期概念教育阶段概念教育阶段存在问题:存在问题: 未形成产业群未形成产业群 1.2.1 多媒体是技术与应用发展的必然 多媒体的第二次高潮 一批设备普及 CD-ROM,SB 一批产品出现 VCD,VR,会议系统会议系统 一批产业出现 美国旧金山附近的美国旧金山附近的“Multimedia Gorge”Multimedia Gorge” 向新加坡、台湾等地辐射向新加坡、台湾等地辐射 产业化前景极好产业化前景极好 用途范围极为广泛用途范围极为广泛 一个新的技术一个新的技术时代的到来
6、!时代的到来!1.2.1 多媒体是技术与应用发展的必然多媒体技术的产生计算机计算机计算机计算机大众传播大众传播大众传播大众传播通通 信信文字文字文字文字0.1.0.10.1.0.1网网 络络客客 户户客客 户户客客 户户服服务务器器通通 信信计算机计算机大众传播大众传播通通 信信多多媒媒体体信信息息系系统统1.2.2 多媒体改善了人类信息的交流 人的思维模式: 形象、联想、多样、模糊、并行 计算机的工作方式: 精确、清楚、串行、 人机交互形式 人人(通过计算机);人计算机;计算机人;计算机计算机 多媒体: 改“人到计算机” 为“计算机到人”1.2.3 多媒体缩短了人类传递信息的路径 计算机在数
7、据处理方面有了很大的改善 人类并不仅仅依赖文本这一类单一的数据形式来传递所有的信息 图像、声音等多媒体信息都是人类获取和传递信息极为重要的渠道 多媒体利用各种信息媒体形式,集成地用声、图、文等来承载信息,也就是缩短了信息传递的路径。1.3 多媒体技术研究的主要内容1.3.1 什么是多媒体技术 三大信息技术的联合: 计算机、通信、TV 综合各个方面: 通信、广播、印刷、出版、计算、 多媒体技术 以网络为支持,为人类生活提供各种服务创造一种新型的人与人交往的新环境。1.3.2 多媒体技术研究的主要内容 多媒体技术的基础 多媒体软硬件平台技术 多媒体信息管理与处理技术 网络多媒体与分布应用技术 1.
8、4 小 结本章重点 多媒体是技术与应用发展的必然产物 多媒体标志着一个新的技术时代 多媒体的三大关键特性 信息载体的多样性、交互性和集成性 多媒体改善了人类信息的交流,缩短了人类信息交流的路径 多媒体技术概念与研究内容第二章 媒体及媒体技术2.1 媒体的种类和特点2.1.1 常见的媒体元素 文本 文本是计算机文字处理程序的基础 文本数据可以在文本编辑软件里制作 文本文件分类 非格式化文本 格式化文本文件文件 带有各种文本排版信息等格式信息的文本文件 段落格式、字体格式、文章的编号、分栏、边框 文字的变化:格式(sty1e)、字的定位(align)、字体(font)、字的大小(size) 2.1
9、.1 常见的媒体元素 图形 图形的概念 一般指用计算机绘制的画面,如直线、圆、圆弧、矩形、任意曲线和图表等。图形的格式是一组描述点、线、面等几何图形的大小、形状及其位置、维数的指令集合,在图形文件中只记录生成图的算法和图上的某些特征点,也称矢量图。 line(x1,y1,x2,y2,color) circle(x,y,r,color) 2.1.1 常见的媒体元素 图形 图形的特征 图形是对图象进行抽象的结果(人工或自动); 图形的矢量化使得有可能对图中的各个部分分别进行控制(放大、缩小、旋转、变形、扭曲、移位等) 图形的产生需要计算时间2.1.1 常见的媒体元素 图像 图像的概念 图像是指由输
10、入设备捕捉的实际场景画面,或以数字化形式存储的任意画面。 静止的图像是一个矩阵,由一些排成行列的点组成,这些点称之为像素点(pixel),这种图像称为位图(bitmap)。 2.1.1 常见的媒体元素 图像 图像的主要技术参数 分辨率 屏幕分辨率计算机显示器屏幕显示图像的最大显示区 图像分辨率 数字化图像的大小 像素分辨率像素的宽高比,一般为1 1 2.1.1 常见的媒体元素 图像 图像的主要技术参数 图像灰度 每个图像的最大颜色数 2位:黑白2色; 4位:16色; 8位:256色; 24位:真彩色 图像文件大小 (高宽灰度位数)/8 字节 2.1.1 常见的媒体元素 图像 图形与图象的关系
11、图形是矢量概念,图元;图象是位图概念,象素; 图形显示图元顺序;图象显示象素顺序; 图形变换无失真;图象变换有失真; 图形以图元为单位修改属性、编辑;图象只能对象素或图块处理; 图形是对图象的抽象,但在屏幕上两者无异2.1.1 常见的媒体元素 视频 视频的概念 视频源于电视技术,它由连续的画面组成。这些画面以一定的速率连续地投射在屏幕上,使观察者具有图像连续运动的感觉。2.1.1 常见的媒体元素 视频 视频的制式 PAL制(625/50) 每秒25帧,水平扫描线为625条,水平分辨率240400个像素,隔行扫描 。62年诞生于德国,应用于中国、新加坡、欧洲地区等(Pal-B、D、G、H、I、N
12、、NC)。 NTSC制(525/60) 每秒30帧,水平扫描线为525条,水平分辨率240400个像素,隔行扫描 。53年诞生于美国,应用于美国、日本、台湾等(NTSC-M、NC、Japan等)。2.1.1 常见的媒体元素 视频 视频的制式 SECAM制(625/50) 每秒25帧,水平扫描线为525条、水平分辨率625。由法国人提出,应用于俄罗斯、法国、非洲地区等。 视频的数字化 指在一段时间内以一定的速度对视频信号进行捕获并加以采样后形成数字化数据的处理过程。2.1.1 常见的媒体元素 视频 视频的技术参数 颜色空间 R、G、B(红、绿、蓝) Y、U、V(为亮度,U、V为色差) H、S、I
13、(色调、饱和度、强度) 可以通过坐标变换而相互转换 帧速 每秒钟显示的帧数目, 计量单位为帧率(fps) 视频根据制式的不同: 30帧/秒(NTSC)、25帧/秒(PAL) 2.1.1 常见的媒体元素 视频 视频的技术参数 数据量 帧速每幅图像的数据量(不计压缩 ) 图像质量 与数据源质量有关( :表示“好于”) RGB视频YUV视频Y/C视频(S视频)复合视频 与视频数据压缩的倍数有关注1:UV两个色差信号可合成为一个色度信号C,进而形成Y/C记录方式,这种方式得到的视频称为S视频。注2:把亮度Y与色度C进一步混合在一起,便形成复合视频。2.1.1 常见的媒体元素 动画 动画的概念 运动的图
14、画,实质是一幅幅静态图像的连续播放。动画的连续播放既指时间上的连续,也指图像内容上的连续,即播放的相邻两幅图像之间内容相差不大 。 计算机设计动画方法 造型动画 帧动画 2.1.1 常见的媒体元素 动画 帧动画 2.1.1 常见的媒体元素 动画 帧动画 2.1.1 常见的媒体元素 音频 分类 波形声音 包含了所有的声音形式,它可以把任何声音都进行采样量化,并恰当地恢复出来。 2.1.1 常见的媒体元素 音频 分类 语音 人的说话声虽是一种特殊的媒体,但也是一种波形,所以和波形声音的文件格式相同。 音乐符号化了的声音,乐谱可转变为符号媒体形式。2.1.1 常见的媒体元素 音频 数字声音波形质量的
15、主要技术参数 采样频率 等于波形被等分的份数,份数越多,质量越好 11.025KHZ、 22.05KHZ、44.1KHZ 采样精度 每次采样信息量 8位、16位 通道数 声音产生的波形数 单声道、立体声道、5.1声道数据量计算:(采样频率采样精度通道数 时间 )/8 字节2.1.2 媒体的种类 视觉视视 觉觉(静止)(静止)图像图像图形图形文字文字符号符号语言文字语言文字抽象化抽象化抽象化抽象化 (动态)(动态)图像图像图形图形动态影像视频动态影像视频真实感三维动画真实感三维动画二维动画二维动画三维动画三维动画其它表示为视觉的媒体其它表示为视觉的媒体2.1.2 媒体与多媒体 听觉 触觉 其他感
16、觉抽象化抽象化听觉听觉声音声音声响(自然界)声响(自然界)语音(人类语言)语音(人类语言)音乐音乐其它(嗅觉、味觉等)其它(嗅觉、味觉等)触觉触觉振动振动运动运动传感传感/发生器发生器2.1.3 媒体的性质和特点 各种媒体具有不同特点和性质 媒体是有格式的 不同媒体表达信息的特点和程度各不相同 媒体之间可以相互转换 媒体之间的关系也具有丰富的信息 媒体具有空间性质 表现空间 媒体按相互的空间关系进行组织 视觉空间、听觉空间和触觉空间这3者既相互独立又需要相互结合 2.1.3 媒体的性质和特点 媒体的时间性质 表现需要时间 媒体在时间坐标轴上的相互关系 媒体的语义 媒体的语义是有层次的 抽象的程
17、度不同,语义的重点也就不同 媒体结合的影响 媒体结合是多层次的 媒体结合有利于信息接受和理解 隐喻 交互的概念模型,也称心智模型 2.2 听觉媒体技术 2.2.1 声音心理学 1.声音的量纲声音的量纲 声音的振动是一种正弦波,声音的变化必须声音的振动是一种正弦波,声音的变化必须确定三件事:频率(变化的速度)、幅度(产生确定三件事:频率(变化的速度)、幅度(产生的压力)、相位(何时开始)。的压力)、相位(何时开始)。 另外一方面,人们可以感觉到声音的强弱,另外一方面,人们可以感觉到声音的强弱,可以感觉到歌唱家音调的高低。可以感觉到歌唱家音调的高低。 因此,声音的量纲分为声音的物理量纲和心因此,声
18、音的量纲分为声音的物理量纲和心理量纲。理量纲。2.2.1 声音心理学 物理量纲可以用精确的值来描述,但物理量纲可以用精确的值来描述,但对某一具体声音得来的心理印象却不容易对某一具体声音得来的心理印象却不容易说明白,因为心理印象要由被测者的经验说明白,因为心理印象要由被测者的经验而定。而定。 声音的心理属性和物理属性不可等同,声音的心理属性和物理属性不可等同,首先,这些关系不是线性的;其次这些关首先,这些关系不是线性的;其次这些关系不是孤立的;第三这些关系不是不变的。系不是孤立的;第三这些关系不是不变的。2.2.1 声音心理学 两者之间确有关系:例如声音的响度两者之间确有关系:例如声音的响度取决
19、于强度和频率两个因素,如果频率不取决于强度和频率两个因素,如果频率不变,强声显得比弱声要响些。但如果强度变,强声显得比弱声要响些。但如果强度不变,过高频率的声音和过低频率的声音不变,过高频率的声音和过低频率的声音似乎比中频的声音听起来都要弱一些。由似乎比中频的声音听起来都要弱一些。由此可见,响度依赖于频率,原因是人耳能此可见,响度依赖于频率,原因是人耳能反应的频率范围是有上限和下限的。反应的频率范围是有上限和下限的。 2.2.1 声音的量纲 心理变量首要的物理变量次要的物理变量响度响度声强声强声波频率声波频率音调音调声波频率声波频率声强声强音色音色声波复合声波复合音量音量频率和强度频率和强度密
20、度密度频率和强度频率和强度谐和(流畅或粗糙)谐和(流畅或粗糙)谐波结构谐波结构音乐技巧音乐技巧噪声噪声强度强度频率组合,各种时间参量频率组合,各种时间参量骚扰声骚扰声强度强度频率组合,无意义频率组合,无意义2.2.1 声音心理学 2.听觉特性听觉特性等响曲线等响曲线 由于响度与频率和强度有关,所以在不同频由于响度与频率和强度有关,所以在不同频率上的强度是不同的。先设一个音为标准音,给率上的强度是不同的。先设一个音为标准音,给予固定的频率、强度和持续时间,例如予固定的频率、强度和持续时间,例如1000Hz、40分贝、持续分贝、持续0.5秒;再给一个音也持续秒;再给一个音也持续0.5秒,但秒,但频
21、率不同,通过调整使其响度听起来一样,得到频率不同,通过调整使其响度听起来一样,得到的这样一组曲线称之为等响曲线。等响曲线描述的这样一组曲线称之为等响曲线。等响曲线描述的是响度与频率和强度的关系。从声音心理学考的是响度与频率和强度的关系。从声音心理学考虑,对同一响度的声音在频率上和强度上可以有虑,对同一响度的声音在频率上和强度上可以有很大的差别,这对声音表现有重要意义。很大的差别,这对声音表现有重要意义。 2.2.1 声音心理学掩蔽(掩蔽(masking) 声音的响度不仅取决于自身的强度和频率,声音的响度不仅取决于自身的强度和频率,而且也依赖于同时出现的其它声音。各种声音可而且也依赖于同时出现的
22、其它声音。各种声音可以互相掩蔽,也就是说一种声音的出现可能使得以互相掩蔽,也就是说一种声音的出现可能使得另一种声音难于听清。由于声音的掩蔽效果,可另一种声音难于听清。由于声音的掩蔽效果,可以欺骗人的听觉。例如,本来是多种频率的声音以欺骗人的听觉。例如,本来是多种频率的声音的复合,但听众以为是另一种声音。所以,声音的复合,但听众以为是另一种声音。所以,声音的掩蔽特性常常用于声音的压缩。的掩蔽特性常常用于声音的压缩。2.2.1 声音心理学临界频带临界频带 在频率的某一临界区里,各种声音是相互在频率的某一临界区里,各种声音是相互作用的,合成声音的响度由这些频率共同决定。作用的,合成声音的响度由这些频
23、率共同决定。如果超出临界区,声音的响度不再相互作用,如果超出临界区,声音的响度不再相互作用,声音的响度随频率的改变而改变。这个临界区声音的响度随频率的改变而改变。这个临界区就是临界频带,其宽度视其中心频率而定。对就是临界频带,其宽度视其中心频率而定。对于临界频带的确定,使得对声音响度的处理能于临界频带的确定,使得对声音响度的处理能够有的放矢。够有的放矢。2.2.1 声音心理学相位相位 从声音的波形来看,声音的起点和方向也要从声音的波形来看,声音的起点和方向也要反映声音的特性,这就是声音的相位。当两个反映声音的特性,这就是声音的相位。当两个声音相同相位完全相反时,它们将相互抵消;声音相同相位完全
24、相反时,它们将相互抵消;当两个声音相同而且相位也相同时,声音就会当两个声音相同而且相位也相同时,声音就会得到加强。得到加强。 相位的确定对于多声道声音系统的设计非常相位的确定对于多声道声音系统的设计非常重要,其可以应用在回声的消除、会议系统的重要,其可以应用在回声的消除、会议系统的声音设计上。声音设计上。 2.2.1 声音心理学自然声音的时变现象自然声音的时变现象 声音的音调分成三个区域:起始区、稳定状声音的音调分成三个区域:起始区、稳定状态区、延迟区。态区、延迟区。 研究表明,音调的频谱分量随时间改变。在稳研究表明,音调的频谱分量随时间改变。在稳定状态区,频谱保持固定。在起始区,振幅频谱定状
25、态区,频谱保持固定。在起始区,振幅频谱随时间变化。因此自然声音的起始部分是非常难随时间变化。因此自然声音的起始部分是非常难识别的。例如刚听了一小节音调后要识别乐器,识别的。例如刚听了一小节音调后要识别乐器,专家也会觉得较难。时变现象用于数字系统中,专家也会觉得较难。时变现象用于数字系统中,说明声音中的某些错误是不太容易发现的,但如说明声音中的某些错误是不太容易发现的,但如果出现停顿就很容易引起人的注意。果出现停顿就很容易引起人的注意。 2.2.1 声音心理学听觉空间听觉空间 人耳可听到来自各个方向的声音,并用不同人耳可听到来自各个方向的声音,并用不同的因素来判定声源的位置。声源的位置不论对于的
26、因素来判定声源的位置。声源的位置不论对于增进人们的感受还是增进对声音的理解,都是非增进人们的感受还是增进对声音的理解,都是非常重要的。通过声音的精确再现,就可以构造出常重要的。通过声音的精确再现,就可以构造出听觉空间。听觉空间。 方位的线索是各种声音到达两耳的精确时间方位的线索是各种声音到达两耳的精确时间和强度。和强度。2.2.1 声音心理学听觉的频谱特性听觉的频谱特性 声音是时间函数,通过傅里叶变换可做出其频声音是时间函数,通过傅里叶变换可做出其频谱图。人耳对频谱成分的波峰和波谷是非常敏感谱图。人耳对频谱成分的波峰和波谷是非常敏感的。在语言中,元音很少有频谱变速变化的区域。的。在语言中,元音
27、很少有频谱变速变化的区域。基频改变,人耳是很敏感的。例如:快进的录像,基频改变,人耳是很敏感的。例如:快进的录像,音调会发生变化。音调会发生变化。 音色非常复杂,目前尚在研究中。音色的处音色非常复杂,目前尚在研究中。音色的处理将使我们能识别音源,音色也代表和声音有关理将使我们能识别音源,音色也代表和声音有关的主观质量。的主观质量。 2.2.1 声音心理学声音的心理模拟声音的心理模拟 通过人工真实的方法,可以对视觉空间的景物通过人工真实的方法,可以对视觉空间的景物进行再造或虚构,同样也可以对听觉空间的声音进行再造或虚构,同样也可以对听觉空间的声音进 行 心 理 的 模 拟 , 这 就 是 所 谓
28、 的 可 听 化进 行 心 理 的 模 拟 , 这 就 是 所 谓 的 可 听 化(audiolization)。)。用声音可以表达出一些声音的用声音可以表达出一些声音的效果。效果。 2.2.2 音频的数字化和符号化 从人与计算机交互的角度看,音频信号的处理包从人与计算机交互的角度看,音频信号的处理包括下述括下述3点:点:v人与计算机通信,也就是计算机接收音频信号。包人与计算机通信,也就是计算机接收音频信号。包括音频获取、语音的识别和理解。括音频获取、语音的识别和理解。v计算机与人通信,也就是计算机输出音频。包括音计算机与人通信,也就是计算机输出音频。包括音乐合成、语音合成、声音的定位以及音频
29、视频的同乐合成、语音合成、声音的定位以及音频视频的同步。步。v人人-计算机计算机-人通信。人通过网络与异地的人进行语人通信。人通过网络与异地的人进行语音通信,相关的音频处理有语音采集、音频的编码音通信,相关的音频处理有语音采集、音频的编码和解码、音频的存储、音频的传输、基于内容的检和解码、音频的存储、音频的传输、基于内容的检索等。索等。2.2.2 音频的数字化和符号化 1音频的数字化与再现音频的数字化与再现 在计算机中,所有的信息都以数字来表示。在计算机中,所有的信息都以数字来表示。声音信号也是由一系列的数字来表示的,称为数声音信号也是由一系列的数字来表示的,称为数字音频。数字音频的特点就是保
30、真度好,动态范字音频。数字音频的特点就是保真度好,动态范围大。围大。 数字声音是一个数据序列。它是由外界声音经数字声音是一个数据序列。它是由外界声音经过采样、量化和编码后得到的。过采样、量化和编码后得到的。 2.2.2 音频的数字化和符号化 对声音进行采样用奈奎斯特采样定理来决定对声音进行采样用奈奎斯特采样定理来决定采样的频率。根据该定理,只要采样频率高于信采样的频率。根据该定理,只要采样频率高于信号中最高频率的两倍,就可以从采样中完全恢复号中最高频率的两倍,就可以从采样中完全恢复原始信号的波形。因为人耳所能听到的频率范围原始信号的波形。因为人耳所能听到的频率范围为为20Hz到到20KHz,所
31、以实际的采样过程中,为了所以实际的采样过程中,为了达到好的效果,就采用达到好的效果,就采用44.1KHz作为高质量声音作为高质量声音的采样频率。如果达不到这么高的频率,声音恢的采样频率。如果达不到这么高的频率,声音恢复的效果就会差一些,例如电话声音的质量等。复的效果就会差一些,例如电话声音的质量等。一般来说,声音恢复和采样频率、信道带宽都有一般来说,声音恢复和采样频率、信道带宽都有关。关。 声音的采样以及量化图声音的采样以及量化图2.2.2 音频的数字化和符号化2.2.2 音频的数字化和符号化 与数字音频相关的重要特性:与数字音频相关的重要特性:采样频率采样频率 采样频率与声音的质量关系最为紧
32、密。采样采样频率与声音的质量关系最为紧密。采样频率越高,声音质量越接近原始声音,所需的存频率越高,声音质量越接近原始声音,所需的存储量便越多。标准的采样频率有三个:储量便越多。标准的采样频率有三个:44.1KHz,22.05kHz,和和11.025kHz。采样位数采样位数 存放一个采样点所需的比特数。一般的采样存放一个采样点所需的比特数。一般的采样位数为位数为8位或位或16位,即把声音采集为位,即把声音采集为256等份或等份或65536等分。等分。2.2.2 音频的数字化和符号化声道数声道数 有单声道、双声道和多声道。如多种语言音有单声道、双声道和多声道。如多种语言音频混存时,需要多声道频混存
33、时,需要多声道数据量数据量 ( (采样频率每点采样位数声道数采样频率每点采样位数声道数) )数据量数据量 8( (字节字节/ /秒秒) )2.2.2 音频的数字化和符号化 2声音的符号化声音的符号化 波形声音可以把音乐、语音都进行数据化并波形声音可以把音乐、语音都进行数据化并且表示出来,但是并没有把它看成音乐和语音。且表示出来,但是并没有把它看成音乐和语音。 对于声音的符号化(也可以称为抽象化)表对于声音的符号化(也可以称为抽象化)表示包括两种类型:一种是音乐,一种是语音。示包括两种类型:一种是音乐,一种是语音。2.2.2 音频的数字化和符号化(1)音乐的符号化)音乐的符号化MIDI MIDI
34、(Music Instrument Digital Interface)是是指乐器数字接口的国际标准。指乐器数字接口的国际标准。 MIDI消息,是指乐谱的数字描述。消息,是指乐谱的数字描述。 任何电子乐器,只要有处理任何电子乐器,只要有处理MIDI消息的微处消息的微处理器和合适的硬件接口,就构成了一个理器和合适的硬件接口,就构成了一个MIDI设设备。当一组备。当一组MIDI消息通过音乐合成芯片处理时,消息通过音乐合成芯片处理时,合成器能解释这些符号并且产生音乐。合成器能解释这些符号并且产生音乐。 MIDI的关键是作为媒体能够记录这些音乐的的关键是作为媒体能够记录这些音乐的符号,相应的设备能够产
35、生和解释这些符号。它符号,相应的设备能够产生和解释这些符号。它给出了一种得到音乐声音的方法。给出了一种得到音乐声音的方法。2.2.2 音频的数字化和符号化 MIDI的特点:的特点:v与波形声音相比,与波形声音相比,MIDI不是声音数据而是指令,不是声音数据而是指令,所以数据量要少得多。所以数据量要少得多。30分钟的音乐,分钟的音乐, 用用MIDI文文件记录只需件记录只需200KB,用用16位位CD品质的未压缩品质的未压缩WAV文件记录需文件记录需317MBv MIDI可以与其他波形声音配合使用,形成伴乐的可以与其他波形声音配合使用,形成伴乐的效果。而两个波形声音一般是不能同时使用的效果。而两个
36、波形声音一般是不能同时使用的v对对MIDI的编辑也很灵活,用户可以自由地改变音的编辑也很灵活,用户可以自由地改变音调、音色等属性,直到自己想要的效果调、音色等属性,直到自己想要的效果v MIDI在音质上还不能与真正的乐器完全相似。无在音质上还不能与真正的乐器完全相似。无法模拟自然界中其它非乐曲类声音法模拟自然界中其它非乐曲类声音2.2.2 音频的数字化和符号化(2)语音的符号化)语音的符号化 语音与文字是对应的。波形声音可以记录表语音与文字是对应的。波形声音可以记录表示语音,它是不是语音取决于听者对声音的理解。示语音,它是不是语音取决于听者对声音的理解。对语音的符号化实际上就是对语音的识别,将
37、语对语音的符号化实际上就是对语音的识别,将语音转变为字符,反之也可以将文字合成语音。音转变为字符,反之也可以将文字合成语音。 语音指构成人类语音信号的各种声音。在采语音指构成人类语音信号的各种声音。在采集和存储上可以与波形声音一样,但由于语音是集和存储上可以与波形声音一样,但由于语音是由一连串的音素组成。由一连串的音素组成。“一句话一句话”中包含许多音中包含许多音节以及上下文过渡过程的连接体等特殊的信息,节以及上下文过渡过程的连接体等特殊的信息,并且语音本身与语言有关,所以要把它作为一个并且语音本身与语言有关,所以要把它作为一个独立的媒体来看待。独立的媒体来看待。2.2.3 音频媒体的三维化处
38、理 1三维虚拟声空间三维虚拟声空间 所谓三维虚拟声空间(所谓三维虚拟声空间(Three Dimensional Virtual Acoustic,3DVA),),是指用一定的声音是指用一定的声音设备人为地产生出来的具有空间位置信息的声音设备人为地产生出来的具有空间位置信息的声音空间。空间。 三维听觉的使用明显地依赖于用户对听觉空间三维听觉的使用明显地依赖于用户对听觉空间中各种信息源的定位能力。一般说来,三维虚拟中各种信息源的定位能力。一般说来,三维虚拟声空间要达到以下的一些目标:声空间要达到以下的一些目标: 在可听的范围内重现频率分辨度和动态范围;在可听的范围内重现频率分辨度和动态范围; 在三
39、维空间中精确地呈现声音的位置信息;在三维空间中精确地呈现声音的位置信息; 能表达多个静止和移动的声源;能表达多个静止和移动的声源; 能和头部的动作具有一定的关联;能和头部的动作具有一定的关联; 能够支持一定程度的交互。能够支持一定程度的交互。2.2.3 音频媒体的三维化处理 23DVA的基本理论的基本理论 人类感知声源位置的最基本的理论是双工理论人类感知声源位置的最基本的理论是双工理论,该理论基于两种因素:两耳间声音的到达时间差该理论基于两种因素:两耳间声音的到达时间差ITD(Interaural Time Differences)和两耳间声音和两耳间声音的强度差的强度差IID(Interau
40、ral Intensity Differences)。 时间差是由于距离的原因造成的,当声音从正时间差是由于距离的原因造成的,当声音从正面传来时,距离相等,所以没有时间差;但若偏右面传来时,距离相等,所以没有时间差;但若偏右3o,则到达右耳的时间就要比左耳约早则到达右耳的时间就要比左耳约早30ms,而正而正是这是这30ms,使得我们辨别出了声源的位置。使得我们辨别出了声源的位置。 强度差是由于信号衰减造成的,信号的衰减是强度差是由于信号衰减造成的,信号的衰减是因为距离产生的,在很多情况下是因为人的头部遮因为距离产生的,在很多情况下是因为人的头部遮挡,使声音衰减,产生了强度的差别,使得靠近声挡,
41、使声音衰减,产生了强度的差别,使得靠近声源一侧的耳朵听到的声音强度要大于另一耳。源一侧的耳朵听到的声音强度要大于另一耳。2.2.3 音频媒体的三维化处理 3DVA理论较形象地说明:人耳对声音定位的理论较形象地说明:人耳对声音定位的特性,通过大脑的综合作用后,对有差别的声音信特性,通过大脑的综合作用后,对有差别的声音信号进行了相对于空间位置的定位。号进行了相对于空间位置的定位。 人耳对声源方位的判定起决定作用的是耳廓。人耳对声源方位的判定起决定作用的是耳廓。当声波从声源传到听者的耳部时,声波会在耳廓发当声波从声源传到听者的耳部时,声波会在耳廓发生不断的反射和折射,然后由内耳道传到耳鼓,使生不断的
42、反射和折射,然后由内耳道传到耳鼓,使人产生音感。这种反射、折射是依赖于频率的,通人产生音感。这种反射、折射是依赖于频率的,通过不同频率的变化,使得人耳能够辨别声源的方位过不同频率的变化,使得人耳能够辨别声源的方位。另外,当声音从声源传到人的内耳并形成听觉时。另外,当声音从声源传到人的内耳并形成听觉时,声音信号已经携带了两个很重要的信息,从而形,声音信号已经携带了两个很重要的信息,从而形成了空间真实感和环境真实感。声源的本身信号特成了空间真实感和环境真实感。声源的本身信号特征、声源的空间三维位置、声源所处的环境这三个征、声源的空间三维位置、声源所处的环境这三个因素描述了声源的全部信息。因素描述了
43、声源的全部信息。 2.2.3 音频媒体的三维化处理 3HRTF方法方法 实现空间真实感的关键是建立起耳廓模型,这实现空间真实感的关键是建立起耳廓模型,这种方法被称为种方法被称为“双耳相关函数法双耳相关函数法”,也即,也即HRTF(Head-Related Transfer Function,与头部有关的转与头部有关的转移函数)。移函数)。 从理论上利用从理论上利用HRTF产生真实空间声音的算法产生真实空间声音的算法如下图所示。如下图所示。 2.2.3 音频媒体的三维化处理 场景模型(几何、属性、声源、声宿) 声 学 模 拟 脉 冲 响 应 曲 线 卷 积 运 算 双 耳 脉 冲 响 应 卷 积
44、 运 算 真 实 感 空 间 声 HRTF 双耳相关函数 无 回 响 声 音 输 出 2.3 视觉媒体技术 2.3.1 视觉心理学 1视觉的心理特征视觉的心理特征 视觉是人类最重要的感知能力,通过视觉可视觉是人类最重要的感知能力,通过视觉可以感知到外部世界的形状、大小、色彩、明暗、以感知到外部世界的形状、大小、色彩、明暗、机理和运动等多方面的信息。机理和运动等多方面的信息。 同声音心理学相似,与视觉相对应的光学物同声音心理学相似,与视觉相对应的光学物理性质和心理知觉也是截然不同的。虽然光的物理性质和心理知觉也是截然不同的。虽然光的物理特性与心理知觉有关,但它们的关系并不是线理特性与心理知觉有关
45、,但它们的关系并不是线性的。对光的色调和亮度的感觉不仅和它的频率性的。对光的色调和亮度的感觉不仅和它的频率和强度有关,而且还和它出现的背景有关,和同和强度有关,而且还和它出现的背景有关,和同时出现的周围光有关。时出现的周围光有关。2.3.1 视觉心理学视觉心理变量视觉心理变量主要的物理变量主要的物理变量亮度亮度光强光强色调(彩色)色调(彩色)波长波长浓度(彩色的浓度)浓度(彩色的浓度)光谱成分光谱成分对比对比光强、波长、周围光光强、波长、周围光2.3.1 视觉心理学 2. 视觉特性视觉特性 亮度亮度 亮度是人眼对光强度的感受。亮度是人眼对光强度的感受。 一个物体的亮度不仅跟目标的物理强度有关,
46、一个物体的亮度不仅跟目标的物理强度有关,而且与周围的背景有关。假定整个照明增大了,而且与周围的背景有关。假定整个照明增大了,目标和环境的光强就按照比例增大了,两者之间目标和环境的光强就按照比例增大了,两者之间的物理对比就维持不变。但当照明增强时,目标的物理对比就维持不变。但当照明增强时,目标的亮度可能会亮一些,也可能保持不变,甚至看的亮度可能会亮一些,也可能保持不变,甚至看起来亮度减少一些。这些都取决于中心和周围之起来亮度减少一些。这些都取决于中心和周围之间的相对强度,也就是对比度。间的相对强度,也就是对比度。 对图像的处理最重要的是亮度的差别。对图像的处理最重要的是亮度的差别。2.3.1 视
47、觉心理学 与声音相似,视觉上也有等亮曲线,反映了视与声音相似,视觉上也有等亮曲线,反映了视觉在亮度上与波长的关系。在同一亮度感觉下,觉在亮度上与波长的关系。在同一亮度感觉下,不同波长的光具有不同的光强。不同波长的光具有不同的光强。 视觉也有掩蔽现象,在很亮的高光周围时难以视觉也有掩蔽现象,在很亮的高光周围时难以看清的,道理和声音是类似的看清的,道理和声音是类似的。2.3.1 视觉心理学视觉的时间特性视觉的时间特性 建立视觉图像需要时间,而一旦建立起来之后,建立视觉图像需要时间,而一旦建立起来之后,即使把图像对象拿走,这种反应也要维持一段时即使把图像对象拿走,这种反应也要维持一段时间。这是因为把
48、光转变为神经电需要时间。正因间。这是因为把光转变为神经电需要时间。正因为视网膜图像时逐渐消退的,所以视觉暂留可以为视网膜图像时逐渐消退的,所以视觉暂留可以存在十分之几秒。存在十分之几秒。2.3.1 视觉心理学彩色彩色 表示颜色需要考虑三种心理属性:色调、亮度表示颜色需要考虑三种心理属性:色调、亮度和饱和度。色调就是通常意义下的彩色,它随波和饱和度。色调就是通常意义下的彩色,它随波长的变化而变化,反映颜色的基本特性。亮度是长的变化而变化,反映颜色的基本特性。亮度是光作用于人眼所引起的明亮程度的感觉,与光强光作用于人眼所引起的明亮程度的感觉,与光强有关。饱和度是代表为了产生所感知到的彩色在有关。饱
49、和度是代表为了产生所感知到的彩色在白光中必须混入的纯单色光的相对数量,或者说白光中必须混入的纯单色光的相对数量,或者说是颜色的深浅程度。对同一色调的彩色光,饱和是颜色的深浅程度。对同一色调的彩色光,饱和度越深颜色越鲜艳。色调和饱和度统称为色度。度越深颜色越鲜艳。色调和饱和度统称为色度。 2.3.1 视觉心理学 颜色是由三种原色光混合而成的。可见光的波颜色是由三种原色光混合而成的。可见光的波长从长从380纳米到纳米到780纳米。不同波长呈现出不同颜色,纳米。不同波长呈现出不同颜色,可见光波长从长到短依次为红橙黄绿青蓝紫。可见光波长从长到短依次为红橙黄绿青蓝紫。 只有单一波长成分的光称为单色光,含
50、有两种只有单一波长成分的光称为单色光,含有两种以上波长成分的光称为复合光,所有可见光按照一以上波长成分的光称为复合光,所有可见光按照一定比例混合就是白色光。定比例混合就是白色光。 在辐射功率相同的条件下,不同波长的光不仅在辐射功率相同的条件下,不同波长的光不仅给人不同的颜色感觉,而且也给人不同的亮度感觉。给人不同的颜色感觉,而且也给人不同的亮度感觉。人眼一般感到红光最暗,蓝光次之,而黄绿光最亮。人眼一般感到红光最暗,蓝光次之,而黄绿光最亮。研究表明,人眼对亮度信息敏感,而对颜色的敏感研究表明,人眼对亮度信息敏感,而对颜色的敏感程度相对较弱。程度相对较弱。2.3.1 视觉心理学 在白色背景下,一
51、般使用红黄蓝作为原色来在白色背景下,一般使用红黄蓝作为原色来混合其它颜色,这就是减基色合成彩色系统。混合其它颜色,这就是减基色合成彩色系统。 在黑色背景下,一般使用红绿蓝作为基色来在黑色背景下,一般使用红绿蓝作为基色来混合其它颜色,这就是加基色合成彩色系统。混合其它颜色,这就是加基色合成彩色系统。 一般绘画时采用前者,电视中采用后者。一般绘画时采用前者,电视中采用后者。2.3.1 视觉心理学注视点和视野范围注视点和视野范围 人在观察视觉类媒体时,注视点喜欢集中在什人在观察视觉类媒体时,注视点喜欢集中在什么地方?研究表明,视觉注视点主要集中在图像么地方?研究表明,视觉注视点主要集中在图像中黑白交
52、界的部分,尤其是拐角处。如果是闭合中黑白交界的部分,尤其是拐角处。如果是闭合图形,注视点往往向内侧移动。注视点容易集中图形,注视点往往向内侧移动。注视点容易集中在时隐时现运动变化的部分或者图像中特别不规在时隐时现运动变化的部分或者图像中特别不规则的地方。则的地方。 人眼的视野开阔,左右视角约为人眼的视野开阔,左右视角约为180度,上下度,上下约为约为60度。但视力好的部位仅限于度。但视力好的部位仅限于2到到3度,用于度,用于观察视觉媒体的细节。而在周边,则主要识别特观察视觉媒体的细节。而在周边,则主要识别特征。但是需要注意,只有大的视野才有可能制造征。但是需要注意,只有大的视野才有可能制造出临
53、场感。出临场感。2.3.2 模拟视频原理光栅扫描原理光栅扫描原理 视频摄像机将图像转换为电信号,电信号是一视频摄像机将图像转换为电信号,电信号是一维的,但图像是二维的,将二维图像转成为一维维的,但图像是二维的,将二维图像转成为一维电信号是由光栅扫描的方法实现的。快速的扫描电信号是由光栅扫描的方法实现的。快速的扫描线从顶部开始,一行一行地向下扫描,直至显示线从顶部开始,一行一行地向下扫描,直至显示器的最底部,然后再返回顶部的起点,重新开始器的最底部,然后再返回顶部的起点,重新开始扫描。这个过程产生的一个有序的图像信号集合,扫描。这个过程产生的一个有序的图像信号集合,就组成了电视显示中的一幅图像,
54、在此称为帧。就组成了电视显示中的一幅图像,在此称为帧。连续不断的图像序列就形成了动态视频图像。连续不断的图像序列就形成了动态视频图像。 2.3.2 模拟视频原理 分辨率表现的是电视系统中重现场景细分辨率表现的是电视系统中重现场景细节的能力。水平扫描线所能分辨出的点数称节的能力。水平扫描线所能分辨出的点数称为水平分辨率。一般来说,点数越小,线越为水平分辨率。一般来说,点数越小,线越细,分辨率就越高。一个系统的水平分辨率细,分辨率就越高。一个系统的水平分辨率为为400线,指在对应于图像高度的水平距离线,指在对应于图像高度的水平距离内能交替显示内能交替显示200条白线和条白线和200条黑线。相应条黑
55、线。相应地,一帧中垂直扫描的行数称为垂直分辨率。地,一帧中垂直扫描的行数称为垂直分辨率。垂直分辨率和每帧中的扫描线有关,扫描线垂直分辨率和每帧中的扫描线有关,扫描线越多,分辨率就越高。广播电视系统垂直的越多,分辨率就越高。广播电视系统垂直的行数一般是行数一般是525线(北美和日本)和线(北美和日本)和625线线(欧洲和中国)。(欧洲和中国)。2.3.2 模拟视频原理 每一秒钟所扫描的帧数称为帧频,一般为每一秒钟所扫描的帧数称为帧频,一般为25帧(帧(PAL)或者或者30帧(帧(NTSC)。)。由于是隔行扫描,由于是隔行扫描,所以垂直频率分别是每秒所以垂直频率分别是每秒50帧和帧和60帧。因此,
56、人帧。因此,人眼就不容易看到闪烁。眼就不容易看到闪烁。 宽高比是扫描的一个重要的参数。扫描行的长宽高比是扫描的一个重要的参数。扫描行的长度与在图像垂直方向上的所有扫描行所跨过的距度与在图像垂直方向上的所有扫描行所跨过的距离之比,就成为宽高比。目前电视中的宽高比为离之比,就成为宽高比。目前电视中的宽高比为4:3,新型电视的宽高比为,新型电视的宽高比为16:9,有些电影系统的,有些电影系统的宽高比为宽高比为2:1 。2.3.2 模拟视频原理彩色视频彩色视频 加基系统是彩色视频系统的基础。彩色电视采加基系统是彩色视频系统的基础。彩色电视采用红绿蓝(用红绿蓝(RGB)作为三基色进行配色,产生出作为三基
57、色进行配色,产生出R、G、B三个输出信号,三个输出信号,RGB信号可以分别传输,但是信号可以分别传输,但是要配上相应的同步信号。在要配上相应的同步信号。在RGB系统中需要三根视系统中需要三根视频电缆互连,但是三个信号在同步关系方面相当频电缆互连,但是三个信号在同步关系方面相当复杂,所以大部分彩色电视不处理复杂,所以大部分彩色电视不处理RGB,而是将而是将RGB信号组合起来在一条电缆中传输,这就是复合信号组合起来在一条电缆中传输,这就是复合信号。信号。2.3.2 模拟视频原理 现有的几种不同的复合信号有现有的几种不同的复合信号有NTSC、PAL和和SECAM。根据亮度根据亮度/色度原理,任何彩色
58、信号都可色度原理,任何彩色信号都可以分为亮度和色度。色度只要使用色差就可以表以分为亮度和色度。色度只要使用色差就可以表示颜色信号,而不必使用示颜色信号,而不必使用RGB三个完整的信号。三个完整的信号。将亮度和色度交错排列分别放到电缆上,就组成将亮度和色度交错排列分别放到电缆上,就组成了复合信号。了复合信号。 电视系统的三种制式采用的信号形式也不完电视系统的三种制式采用的信号形式也不完全一样。全一样。NTSC的亮度信号称为的亮度信号称为Y,色度信号为色度信号为I和和Q,即即YIQ方式。方式。PAL制式和制式和SECAM制式的亮度制式的亮度和色度与之相对应为和色度与之相对应为YUV,它们的差别在于
59、编码它们的差别在于编码方式的不同。方式的不同。YUV、YIQ可以与可以与RGB互换。互换。RGB、YUV和和YIQ等都被称为彩色空间。等都被称为彩色空间。2.3.2 模拟视频原理视频设备视频设备 按照用途不同,视频设备可以分为广播、专业按照用途不同,视频设备可以分为广播、专业和消费三个级别。广播级一般是大型的电视台和和消费三个级别。广播级一般是大型的电视台和网络站使用,它的性能最好,用于大系统应用,网络站使用,它的性能最好,用于大系统应用,价格昂贵;专业级一般用于教育界和工业界的小价格昂贵;专业级一般用于教育界和工业界的小广播站,有较好的性能。而消费级是家用设备,广播站,有较好的性能。而消费级
60、是家用设备,一般操作简单、性能可靠,一般价格是第一位的。一般操作简单、性能可靠,一般价格是第一位的。 具体的视频设备有如彩色摄影机、视频记录设具体的视频设备有如彩色摄影机、视频记录设备和视频监视设备。备和视频监视设备。 2.3.3 视觉媒体数字化 1位图图像与数字视频位图图像与数字视频 对计算机来说,无论是文字或图形,还是图对计算机来说,无论是文字或图形,还是图像或视频,在计算机上进行处理首先要数字化。像或视频,在计算机上进行处理首先要数字化。与音频信号相似,对所要处理的一幅画面,通过与音频信号相似,对所要处理的一幅画面,通过对每一个象素进行采样,并且按照颜色或者灰度对每一个象素进行采样,并且
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2023年济宁市“技能状元”职业技能大赛金大丰杯全市乡土人才技能竞赛烹饪(地方菜)项目技术文件
- 2023年辽宁省沈阳市全国计算机等级考试C语言程序设计模拟考试(含答案)
- 2024版TBC软件培训教程:详解与实战
- 创新教学:2024年《壶口瀑布》教案解析
- 《客房服务与管理》课程标准课程内容与要求
- 行吊安全操作培训内容
- 现在进行时练习题含答案及解析
- 2021-2022学年人教版数学四年级上册4.4单价、数量以及总价之间的关系及应用D卷
- 2024-2025学年高中物理第三章磁场2磁感应强度课时作业含解析新人教版选修3-1
- 骨质疏松性胸腰椎压缩骨折治疗总结
- 2019年度第四次经济普查项目绩效自评表
- 污水处理池 (有限空间)作业安全告知牌及警示标志
- 三年级下册信息技术课件-3.争当打字小能手|人教版 (共12张PPT)
- 某物业供水系统水泵PLC控制设计
- 中央电视台公益广告30年大盘点
- 高级社会工作师直接服务个案分析六
- 国四部分重型柴油车排气后处理系统型号
- 钢筋保护层和钢筋间距质量控制学习体会
- FURUNO雷达使用说明书0001
- 大华网络摄像机检测报告DHIPCHFW12XYZM
- 湘美版 六年级(上)第5课 纸魔方 (作品展示PPT)
评论
0/150
提交评论