《多媒体信息处理》.ppt_第1页
《多媒体信息处理》.ppt_第2页
《多媒体信息处理》.ppt_第3页
《多媒体信息处理》.ppt_第4页
《多媒体信息处理》.ppt_第5页
已阅读5页,还剩438页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、多媒体信息处理,穆东明,2020年7月30日星期四,2,教材,多媒体技术及应用王志强 等 编著 清华大学出版社 多媒体技术及应用 冯博琴编著 清华大学出版社,2020年7月30日星期四,3,第一章 多媒体技术概论,2020年7月30日星期四,4,1.1 多媒体技术的发展,一、多媒体技术的发展史 1984:Apple公司Macintosh机 引入位图、窗口、图标、鼠标器 1985:CommodoreAmiga多媒体系统 图形、音频、视频(专用芯片) 菜单、图标、多窗口(操作系统) 1986:Philips/SonyCD-I交互式系统 CD-ROM文件格式(国际标准) 1987:RCADVI交互式

2、数字视频系统 光盘存储图像、视频、声音等,2020年7月30日星期四,5,1.1 多媒体技术的发展,1989:Intel/IBMAction Media 750 音频板、视频板、多功能板 AVSS(音频视频支撑系统) 1992:Microsoft公司Windows 3.1 支持多媒体驱动程序、OLE技术、 动态链接库(多媒体操作系统) Windows 95/98/Me/2000/XP/Vista 1996:IntelPentium pro加入MMX技术 MMX(Multimedia Extension) PCMPC(多媒体时代),2020年7月30日星期四,6,1.1 多媒体技术的发展,二、多

3、媒体技术的标准 1.多媒体计算机市场协会 Microsoft、IBM、Philips、NEC等,2020年7月30日星期四,7,1.1 多媒体技术的发展,2.数字图像压缩标准 静止图像压缩标准 JPEG: ISO/IEC 10918 JPEG 2000:ISO/IEC 15444-1 运动图像压缩标准 MPEG-1:视频存储和回放,VCD MPEG-2:数字电视,HDTV,DVD MPEG-4:基于媒体对象的存取 MPEG-7:多媒体内容描述标准 MPEG-21:多媒体框架标准,2020年7月30日星期四,8,1.1 多媒体技术的发展,三、多媒体技术的展望 1.高分辨率多媒体播放 提高显示质量

4、获得良好的视觉效果 2.高速多媒体数据传输 高速宽带网络网上观看高分辨率电视 3.智能化多媒体信息服务 人机交互更加简单、个性化、人性化 4.多媒体技术规范化和标准化 有利于信息的交换和资源共享,2020年7月30日星期四,9,1.2 多媒体的基本概念,一、媒体与多媒体 1.媒体 媒体(Media)又称媒介或媒质。 媒体有两种含义 表示信息的载体 文本、音频、图形、图像、动画、视频 存储信息的实体 纸张、磁盘、光盘、半导体存储器,2020年7月30日星期四,10,1.2 多媒体的基本概念,媒体的种类(五种,ITU-T/原CCITT) 感觉媒体 人们接触信息的感觉形式,如视觉、听觉、触觉、嗅觉和

5、味觉等。 表示媒体 为了处理和传输感觉媒体而人为构造的一种媒体,如文字、音频、图形、图像、动画和视频等编码表示。,内蒙古工业大学,泰坦尼克,2020年7月30日星期四,11,1.2 多媒体的基本概念,显示媒体 表现和获取信息的物理设备。 输入显示媒体:键盘、鼠标器、麦克风 输出显示媒体:显示器、打印机、音箱 存储媒体 用来存放表示媒体,以便计算机随时调用和处理信息编码,如磁盘、光盘和内存等。 传输媒体 传输数据的物理载体,如电缆、光缆等。,2020年7月30日星期四,12,1.2 多媒体的基本概念,2.多媒体 多媒体:表示媒体 文本、音频、图形、图像、动画、视频 多媒体是融合两种或两种以上表示

6、媒体的一种人机交互式信息交流和传播媒体 多媒体处理过程:各种媒体数字化存储到计算机中处理再现给用户 人类视觉:80% 听觉:10% 触觉、嗅觉、味觉:10%虚拟现实,2020年7月30日星期四,13,1.2 多媒体的基本概念,二、多媒体技术 计算机技术 多媒体技术 视听技术 通信技术 1.基本概念 多媒体技术是将多种媒体信息通过计算机进行数字化采集、编码、存储、传输、处理和再现等,使多媒体信息建立逻辑连接,并集成一个具有交互性的系统。,综合处理图、文、声、像,2020年7月30日星期四,14,1.2 多媒体的基本概念,2.多媒体技术的特征 多样性:综合处理多种媒体信息,将计算机处理的信息空间扩

7、展并放大。 集成性:多种媒体信息的集成,以及与这些媒体相关的设备集成。 交互性:能为用户提供有效的控制和使用信息的手段,它增加用户对信息的注意和理解,延长信息的保留时间。 实时性:如视频会议系统。,2020年7月30日星期四,15,1.2 多媒体的基本概念,三、多媒体计算机(MPC) 多媒体计算机是指能够综合处理多种媒体信息的计算机。 MPCPCCD-ROMSOUND BOARD 显示卡多媒体操作系统,2020年7月30日星期四,16,1.3 多媒体系统的组成,一、多媒体系统的层次结构,多媒体硬件系统:多媒体控制板卡及I/O电路 多媒体驱动程序:用来控制和操纵多媒体硬件 多媒体操作系统:CD-

8、RTOS(专用) Windows(通用),2020年7月30日星期四,17,1.3 多媒体系统的组成,二、多媒体系统的基本组成 1.多媒体硬件 计算机 MPC、图形工作站 多媒体板卡 显示卡、音频卡、视频卡,2020年7月30日星期四,18,1.3 多媒体系统的组成,多媒体外部设备,光驱,麦克风 扬声器 显示器 投影机,数码相机,数码摄像机,摄像头,扫描仪,触摸屏,2020年7月30日星期四,19,1.3 多媒体系统的组成,2.多媒体软件 多媒体系统软件 多媒体驱动程序、多媒体操作系统 多媒体支持软件(开发工具) 多媒体素材制作工具软件 文字特效制作软件:MS Word(艺术字) Ulead

9、COOL 3D 音频处理软件:Syntrillium Cooledit Adobe Audition Twelve Tone Cakewalk,2020年7月30日星期四,20,1.3 多媒体系统的组成,图形与图像处理软件: Corel CorelDRAW Adobe Photoshop Ulead PhotoImpact 动画制作软件:Macromedia Flash MX Discreet 3ds max Alias/Wavefront Maya 视频编辑软件:Adobe Premiere Ulead MediaStudio,2020年7月30日星期四,21,1.3 多媒体系统的组成,多媒

10、体著作工具软件 Microsoft PowerPoint Microsoft FrontPage Macromedia Authorware Macromedia Director 多媒体编程语言 VB、VC+、Delphi 多媒体应用软件 多媒体应用系统、多媒体产品,2020年7月30日星期四,22,1.4 多媒体技术的研究内容,一、多媒体数据压缩技术 图像、动画、视频和音频等数字化后数据量是非常大的,例如: 一幅中等分辨率(640*480像素)的真彩色(24位/像素)图像900KB。JPEG压缩比25:1 以每秒25帧的速度播放约占22MB/s,即使是存储容量为650MB的CD-ROM也只

11、能播放30秒左右。 MPEG压缩比200:1,2020年7月30日星期四,23,1.4 多媒体技术的研究内容,二、多媒体软硬件平台 硬件:光驱、音频卡、显示卡、扫描仪、数码相机以及视频点播系统、虚拟现实系统。 软件:多媒体操作系统、多媒体创作工具软件(声音、图像、动画和视频)。 三、多媒体数据库技术 处理非规则数据的途径: 扩展现有关系数据库 面向对象数据库系统(CA公司Jasmine),2020年7月30日星期四,24,1.4 多媒体技术的研究内容,四、超文本与Web技术 超文本是采用一种非线性的网状结构组织块状信息,超文本标记语言(HTML/XML)。 五、多媒体通信与分布处理 六、虚拟现

12、实技术 虚拟现实(灵境技术)是多媒体技术发展的更高境界,具有逼真的三维虚拟世界。 七、智能多媒体技术(高级智能计算) 多媒体信息的知识表示与推理,学习机制,2020年7月30日星期四,25,1.5 多媒体技术的应用领域,一、教育与培训 多媒体网络教学课件、虚拟课堂、虚拟实验室、数字图书馆、多媒体技能培训系统。 二、出版与图书 e-book,e-newspaper,e-magazine等电子出版物,它具有容量大、体积小、成本低、检索快,易于保存和复制,能存储图文声像。 三、商业与咨询 商业简报、产品演示、查询服务等,将各种服务指南存放在多媒体系统中向公众展示。,2020年7月30日星期四,26,

13、1.5 多媒体技术的应用领域,四、网络与通信 数字家电(电话、电视、传真、音响)、多媒体视频会议、远程医疗系统。 五、军事与娱乐 军事遥感、核武器模拟、战场模拟 CD、MIDI、VCD、DVD、(三维)游戏。 多媒体技术的优势可能不在于某些具体的应用,而是在于它能把复杂的事物变得简单、把抽象的东西变为具体。,27,第二章 多媒体音频技术,简述,音频是多媒体技术中媒体的一种,由于音频信号是一种连续变化的模拟信号,而计算机只能处理和记录二进制的数字信号,因此,音频信号必须经过一定的变化和处理,变成二进制数据后才能送到计算机进行编辑和存储。,28,声音的基本特性,音频信号所携带的信息大体上可分为语音

14、、音乐和音响三类。 语音是指具有语言内涵和人类约定的特殊媒体; 音乐是规范的符号化了的声音; 而音响指其他自然声音,如动物的叫声、机器的轰鸣声、风雨雷电声等,29,音频信号的特征,机械振动或气流扰动引起周围弹性媒质发生波动,产生声波。产生声波的物体为声源(如人的声带、乐器等),声波所及的空间范围称为声场。声波传到人耳,经过人类听觉系统的感知就是声音。 声波可以用一条连续的曲线来表示,它在时间和幅度上都是连续的,称为模拟音频信号。 在任一时刻,声波可以分解成一系列正弦波的线性叠加:,30,2020年7月30日星期四,31,2.1 数字音频基础,一、声音的基本概念 声音是通过一定介质传播的一种连续

15、波。,振幅:音量的大小 周期:重复出现的时间间隔 频率:指信号每秒钟变化的次数,声波,重要指标,2020年7月30日星期四,32,2.1 数字音频基础,声音按频率分类:,人类说话声音频率范围:300Hz-3kHz 声音质量的频率范围:,虽然高于20kHz频率的声音人耳听不到,但由于人的声学心理特性,可感觉到它的存在。因此,有的音响产品的工作频率上限为50kHz,甚至调音台的最高工作频率设计到100kHz。 声音信号可被分解和复合,可以从中抽出若干个单一的正弦信号,也可以用若干个单一的正弦信号来合成任意波形的复合信号,如合成语音和合成音乐等,33,声压和声强,声波在空气媒质中是以空气中的分子振动

16、形成疏密而传播。它造成空气中的气压发生大小变化,相当于在无声波下空气中的气压上叠加一个变化的压强,叠加上的压强称为声压,记作P。单位有帕斯卡(Pa)和微巴(bar)。 引起人耳刚能听到声音时的声压称为可听阈 声波是由能量来维持传播的。如扬声器纸盆的振动是由电能转换而来,因此声波有能量。 单位时间内通过垂直于声波传播方向的单位面积内的声波能量为声场中某点的声强,记作I,单位为瓦米2(Wm2)。 声强与声压最大值的平方成正比关系。,34,在无线电技术中常引用分贝(dB)来表征电压、电流、功率或放大器的放大能力。 在声学中引用分贝来表示声压或声强的变化程度。因为人的听觉神经的刺激程度不与刺激量大小成

17、正比,而是按刺激量以10为底的对数增长,35,36,动态范围,声音的动态范围指声音的最大声压级和最小声压级之间的差值。 每种声源的动态范围依据各自的特性有所不同。 如女声的动态范围为2550dB, 男声为3050dB, 交响乐队的动态范围大于100dB。 动态范围不仅用来表示一个声源产生的最大声压级与最小声压级之间的差值,录音设备或记录声音的载体(磁带、光盘、硬盘)同样可用动态范围表示能够处理信号电平的范围。 如磁带的动态范围为50dB60dB, CD光盘96dB, 磁光盘录放音机105dB。,37,动态范围可以用信号的相对强度表示: 信号的动态范围=20lg(信号的最大强度信号的最小强度)(

18、dB) 其中的信号可以用电压或功率衡量。 因为是一种比例关系,故只要采用相同的度量单位,其结果都是一致的。,38,频谱,物体在一定位置的附近作来回往复的运动,称为简谐振动。 简谐振动会产生一个特定音调的纯音,听起来感觉单薄。 乐器很少产生单一频率的纯音,而是复音。 复音的产生基于物体的复杂振动,可以分解为许多不同振幅和不同频率的简谐振动(即看成简谐振动的叠加)。 简谐振动的振幅按频率排列的图形称为频谱。频谱可一目了然地看出复杂振动的频率结构。,39,钢琴(基频为253Hz)的复音频谱,40,(2)声音的心理学特性,从声学心理角度,声音的三个要素是音调、响度和音色。它们与声波的频率、声压和频谱结

19、构对应。 音调 人对声音频率的感觉表现为音调的高低,在音乐中称为音高。音调与基频的对数(20lg)成线性关系,单位为美(mei)。基频越低,给人的感觉越低沉。基频频率增加一倍,音乐上称提高了一个八度,41,频率与音调的关系,42,响度,响度是人耳对声音强弱的感觉程度 虽然响度与衡量声音强弱的声压有一定关系,但与声压的大小并不完全一致,也就是说声压大的感觉不一定响。,43,由于人的外耳具有一定的耳道长度,耳道会对某段频率产生共鸣,使灵敏度提高。因此人耳听到声音的响度与声音的频率有关。描述响度、声压以及声源频率之间的关系曲线称为等响度曲线(图2-4)。 从曲线看出,当音量开到使声压级为80 dB时

20、,就可做到高低频声音丰满,音色,音色又称音品。通常说法是:声音的音调和响度以外的音质差异叫做音色。 声音的音色取决于该声音的频谱结构或是频谱包络(声波曲线)。 高次谐波越丰富,音色就越有明亮感和穿透力。此外,音色还与诸多其他因素有关,如听音条件等。 它是一个主观量,常用柔和、刺耳、饱满等词描述。,44,掩蔽效应,称听不到的声音为被掩蔽声,而起掩蔽作用的声音为掩蔽声。 掩蔽效应的实质是掩蔽声的出现使人耳听觉的等响度曲线的最小可听阈抬高。 掩蔽效应的一般规律是强音压低音、低频率声音压高频率。 利用掩蔽效应可以用有用信号去掩蔽无用的声信号,只需要把无用声音的声压级降低到掩蔽阈以下即可。 在数字音频处

21、理中,还可以利用掩蔽效应去掉人耳听不到的那部分信号进行声音数据的压缩。,45,方位感,人凭借双耳在一定声学环境内能够对声源定位,这种能力来自于声源发出的声波到达双耳间的强度差、时间差以及耳廓(外耳)的阻挡。 声源到达听者耳朵的声音有两个,其中一个声音直接到达,而另一个由于人头部遮蔽,需绕过头部才能到达。称前者为直达声,而后者为绕射声。 若有两个声源,增大其中一个声源的强度,由于该声音源发出的直达声或绕射声的声压大于另一个声源,双耳将会产生声压级差。使听者感受的声源(声像)位置向强度较大的声源方向移,使人感受到声音的立体感。,46,空间感,一个声源发出的声音同时向各个方向散开,其发散的角度取决于

22、声源所具有的指向性,发散的声波有一小部分直接传给听者,而大部分会被空间表面反射,然后到达听者。由于直接和经反射到达听者的两个声音途径存在差别(取决于环境)而带来时间差。当时间差超过一定数量时,听者会听到先后到达的两个声音,从而产生回音。经多次反射,造成余声。即使声源已停止发声,但听者仍能听到声音存在。 回声与余音的感觉可使听者感受出房间体积大小、房间高低及内表面结构上的差异,这便是空间感。,47,2.音频信号的质量指标,(1) 频带宽度 音频信号所包含的谐波分量越丰富,音色越好。在广播通信和数字音响系统中,以声音信号所包含的谐波分量的频率范围来衡量声音的质量,即带宽。,48,不同质量的声音的频

23、带对比示意图,(2)动态范围,动态范围越大,说明音频信号强度的相对变化范围越大,音响效果越好。 动态范围一般用dB为单位来计量。 FM广播的动态范围约60dB, AM广播的动态范围约40dB。 CDDA的动态范围约100dB, 数字电话约50dB。,49,(3)信噪比,信噪比SNR(Signal Noise Ratio)是有用信号与噪声之比的简称,即有用信号的平均功率与噪声的平均功率之比 信噪比大,在一定程度上能够掩蔽噪声,从而获得较好的声音效果。 信噪比不仅是声音设备的性能指标,在声音的录制和播放时,也要注意环境噪声。录制时应尽可能减小环境噪音。输出时应使音量适当大,以减少环境噪音对听音的影

24、响。 一般话筒和音箱的信噪比在75dB以上。声卡的信噪比在8595dB。,50,2020年7月30日星期四,51,2.1 数字音频基础,三、数字音频的文件格式 1.WAV文件 WAV是Microsoft/IBM共同开发的PC波形文件。因未经压缩,文件数据量很大。 特点:声音层次丰富,还原音质好 2.MP3文件 MP3(MPEG Audio layer 3)是一种按MPEG标准的音频压缩技术制作的音频文件。 特点:高压缩比(11:1),优美音质,2020年7月30日星期四,52,声卡与音箱,声卡的外部接口,2020年7月30日星期四,53,声卡与音箱,音箱 音箱是一种电声转换的发音设备,它由箱体

25、、扬声器、电源和信号放大器等组成。 分类:2.0双声道立体声 2.1/4.1/5.1/7.1 5.1五声道超重低音声道,2020年7月30日星期四,54,声卡与音箱,杜比环绕 立体声技术,22 数字音频,1.声音的数字化 数字化就是将连续信号变成离散信号。 对音频信号,首先在时间上离散,取有限个时间点,称为采样。 然后在幅度上离散,取有限个幅度值,称为量化。 再将得到的数据表示成计算机容易识别的格式,称为编码。,55,(1) PCM编码,PCM是一种把模拟信号转换成数字信号的最基本的编码方法,它主要包括采样、量化和编码3个过程。 采样是每隔一定的时间测量一次声音信号的幅值,把时间连续的模拟信号

26、转换成时间离散、幅度连续的采样信号。如果采样的时间间隔相等,这种采样称为均匀采样; 量化是按“四舍五入”或其他方法将采样得到的数值限定在几个有限的数值中,将采样信号转换成时间离散、幅度离散的数字信号; 编码(coding)是将量化后的信号转换成一个二进制码组输出。比如,量化得到的数据中只会出现两个数值51和80,则只用一位二进制的数表示即可,用0表示51,用1表示80。若量化级别为256(有256级量化数据),则可用8位二进制数表示,这种编码方法称为自然编码。,56,模拟声音信号的采样和量化过程示意,57,2020年7月30日星期四,58,2.1 数字音频基础,二、声音的数字化 1.声音信号的

27、类型 模拟信号(自然界、物理) 数字信号(计算机) 2.声音数字化过程,2020年7月30日星期四,59,2.1 数字音频基础,3.声音数字化过程图示,2020年7月30日星期四,60,2.1 数字音频基础,4.声音数字化三要素,2020年7月30日星期四,61,2.1 数字音频基础,5.声音数字化计算公式 数据量采样频率量化位数 声道数/8(字节/秒),例2.1 设一个连续信号的波形可以表示为 设采样频率为21Hz,-10,10内的量化间隔取为1,试计算出该信号0到1秒内的量化数据(p24)。 对于CDDA,采样频率为44.1kHz,即每秒取44100个点。幅度的取值范围是限制在216=65

28、 536以内,量化间隔为1,即量化幅度可以取65 536个不同的值,计算机中用16位的存储空间就可以表示一个量化后的数值。动态范围为201g(216)96dB。,62,PCM编码原理,编码的过程首先用一组脉冲采样时钟信号与输入的模拟音频信号相乘,相乘的结果就是离散时间信号,然后对采样后的信号幅值进行量化。 量化过程由量化器来完成。对经量化器AD(模/数)变换后的信号再进行编码,即把量化的信号电平转换成二进制码组,就得到了离散的二进制数据序列x(n), 计算机对量化后的二进制数据可以用文件的形式存储、编辑和处理,并可还原成原始的模拟信号播放。还原的过程称为解码,它是AD变换的逆过程,即DA(数/

29、模)变换,63,PCM编码示意图,PCM编码示意图,64,(2)均匀量化和分均匀量化,量化时,如果采用相等的量化间隔对采样得到的信号作量化,那么这种量化称为均匀量化。均匀量化采用相同的“等分尺”来度量采样得到的幅度,也称为线性量化.,65,缺点: 不能充分利用为适应幅度大的输入信号,增加的样本的位数.,非线性量化的思想是大的输入信号采用大的量化间隔,小的输入信号采用小的量化间隔, 这样就可以在满足精度要求的情况下用较少的位数来表示。声音数据还原时,采用相同的规则。,66,(3) 律压扩,律(-Law)压扩主要用在北美和日本等地区的数字电话通信中,按下面的式子确定量化输入和输出的关系,67,(4

30、) A律(A-Law),A律(A-Law)压扩主要用在欧洲和中国大陆等地区的数字电话通信中,按下面的式子确定量化输入和输出的关系,68,对于采样频率为8kHz,样本精度为13位、14位或者16位的输入信号,使用律压扩编码或者使用A律压扩编码,经过PCM编码器之后每个样本需8位二进制存储,输出的数据率为64 kb/s。这个数据就是CCITT推荐的G.711标准:话音频率脉冲编码调制,69,2.数字音频的技术指标,(1) 采样频率 采样频率是指一秒钟采样的次数。采样频率越高,单位时间内采集的样本数越多,得到波形越接近于原始波形,音质就越好。 根据奈奎斯特(Harry Nyquist)采样理论:如果

31、采样频率高于输入信号最高频率的两倍,重放时就能从采样信号序列无失真地重构原始信号。例如,电话话音的信号频率约为3.4 kHz,若采样频率选为8kHz,就能无失真地重放原始声音。,70,采样的3个常用频率分别为 11.025kHzAM广播 22.05kHz FM广播 44.1kHz CD高保真音质声音 现在声卡的采样频率一般为48kHz甚至96kHz。,71,(2)采样精度,采样精度用每个声音样本的位数表示,也叫样本精度或量化位数。它反映度量声音波形幅度的精度。 例如,每个声音样本用16位表示,则量化样本值在065535的整数范围内,它的精度是输入信号的1/65536 采样精度决定了模拟信号数字

32、化以后的动态范围。 若以8位量化,则其波形的幅值可分为28=256等份,等效的动态范围为20lg(256)=48dB。若以16位采样,则可分为216=65536等份,等效动态范围为20lg(65536)=96dB。 采样精度影响到声音的质量 位数越多,声音的质量越高,而需要的存储空间也越多;位数越少,声音的质量越低,需要的存储空间越少。,72,(3)声道数,单声道(mono)信号一次产生一组声波数据。如果一次产生两组声波数据,则称其为双声道或立体声(stereo)。 双声道在硬件中占两条线路,一条是左声道,一条是右声道。 立体声不仅音质、音色好,而且能产生逼真的空间感。但立体声数字化后所占空间

33、比单声道多一倍。 除采样频率、采样精度、声道数影响声音质量外,声音录制时环境噪声、声卡内部噪声以及采样数据丢失等都会造成声音质量的下降。实际收听时,音响(功率放大器、扬声器等)的质量对音质的表现也起很大作用,73,(4)音频数据传输率,音频信号数字化后,产生大量数据 产生数据的速度或播放声音时需要传输数据的速度影响声音的播放质量。数据传输率用每秒钟传输的数据位数表示,记为bps(bit per second)。未经压缩的数字音频数据传输率为: 数据传输率(bits)=采样频率(Hz)量化位数(bit)声道数,74,声音质量和数字化指标,75,例2.2 高保真立体声数字音频的量化位数为16,试计

34、算其数据传输率 解:高保真立体声数字音频采样频率为44.1kHz,双声道,其数据传输率为 数据传输率=44.1(kHz)16(bit)2(channel)=1411.2(kbps) 如果采用PCM编码,数字音频文件所占用的空间可用如下的公式计算(数据量): 音频数据量(Byte)=数据传输率持续时间8(bit/Byte) 其中数据量以字节(Byte)为单位;数据传输率以每秒比特(bps)为单位;持续时间以秒(s)为单位。,76,例2.3 计算1分钟未经压缩的高保真立体声数字声音文件的大小。 解:高保真立体声数字音频采样频率为44.1kHz,16位量化,双声道,其数据传输率为: 数据传输率=44

35、.1(kHz)16(bit)2(channel)=1411.2(kbps) 1分钟这样的声音文件的大小为 音频数据量=1411.2(kb/s)60(s)/8(bit/Byte)=10458kB 未经压缩的4分钟的歌曲文件约42M数据,128M的MP3播放器只能存放3首这样的歌曲,77,(5)编码算法与音频数据压缩比,未压缩的音频数据量非常大,因此在编码的时候常常要采用压缩的方式。 实际上,编码的作用一是记录数字数据,二是采用一定的算法来压缩数据以减少存储空间和提高传输效率。 压缩编码的基本指标之一就是压缩比,一般为数据压缩前后的数据量之比,78,采用不同的数字化指标实际上也是进行了不同比例的数

36、据压缩。 如果PCM编码采用4bit量化对CD音质信号压缩,其压缩比为4:1。这种情况下,用来记录幅值的比特位越少,编码后数据量就越小,压缩比越大。但压缩比越大,丢掉的信息就会越多,信号还原后失真就越大。(对有损压缩) 压缩算法包括有损压缩和无损压缩; 有损压缩解压后数据不能完全复原,要丢失一部分信息。 无损压缩不丢失任何信息,能较好地复原原始信号,79,3.数字音频文件格式,数字声音文件格式是数字音频在磁盘文件中的存放形式,相同的数据可以有不同的文件格式,而不同的数据也可以有相同的文件格式. (1) WAVE文件格式 WAVE文件是一种通用的音频数据文件,文件扩展名为“WAV”,Window

37、s系统和一般的音频卡都支持这种格式文件的生成、编辑和播放。 WAVE文件由三部分组成:文件头(标明是WAVE文件、文件结构和数据的总字节数)、数字化参数(如采样率、声道数、编码算法等),最后是实际波形数据。CD激光唱盘中包含的就是WAVE格式的波形数据,只是扩展名没写成“.WAV”。一般说来,声音质量与其WAVE格式的文件大小成正比。 WAVE文件的特点是易于生成和编辑,但在保证一定音质的前提下压缩比不够,不适合在网络上播放,80,(2) MP3文件,MP3文件是采用MP3算法压缩生成的数字音频数据文件,以“.MP3”为文件后缀。 MP3利用MPEG(Motion Picture Expert

38、 Group,运动图像专家组)制定的MPEG-1 Audio layer 3的压缩标准,将音频信息用10:1甚至12:1的压缩率,变成容量较小的数据文件。 MPEG1压缩主要用于VCD数据的压缩,也用来压缩不包含图像的纯音频数据,音频压缩算法包括MPEG Audio Layer1、MPEG Audio Layer2等,而MPEG Audio Layer3有很高的压缩比。 虽然MP3是一种利用了人类心理声学特性的有损压缩,人耳基本不能分辨出失真,音质几乎达到了CD音质标准。按照这种算法,10张CDDA的内容可以压缩到l张CDROM中,而且视听效果相当好。,81,(3) RA文件,Real Aud

39、io是Real networks推出的一种音乐压缩格式,它的压缩比可达到96:1,因此在网上比较流行。经过压缩的音乐文件可以在通过速率为14.4kbs的MODEM上网的计算机中流畅回放。其最大特点是可以采用流媒体的方式实现网上实时播放,即边下载边播放。,82,2.3电子合成音乐,在多媒体系统中,除了用数字音频的方式以外,还可以用合成的方式产生音乐. 音乐合成的方式根据一定的协议标准,使用音乐符号来记录和解释乐谱,并组合成相应的音乐信号,这就是MIDI(Musical Instrument Digital Interface 乐器数字接口)。,83,1.电子合成音乐的有关概念,MIDI不是把音乐

40、的波形进行数字化采样和编码,而是将数字式电子乐器的弹奏过程以命令符号的形式记录下来,如按了哪一个键、力度多大、时间多长等。当需要播放这首乐曲时,根据记录的乐谱指令,通过音乐合成器生成音乐声波,经放大后由扬声器播出。,84,(1)MIDI电子乐器 它是能产生特定声音的合成器,如电子键盘、吉他、萨克斯管等;它们相互间的数据传送符合MIDI的通信约定。 (2)MIDI消息(message)或指令 MIDI软件通信协议,实际上是用数字指令描述的音乐乐谱,其中包含音符、强度、定时及乐器的指派等。 (3)MIDI接口(interface) MIDI硬件通信协议,可使电子乐器互连或与计算机硬件端口相连,可发

41、送和接收MIDI消息。 (4)MIDI通道(channel) MIDI标准提供了16个通道,每种通道对应一种逻辑的合成器,即对应一种乐器的合成。 (5)音序器(sequencer) 它指可用来记录、编辑和播放MIDI文件的计算机程序。,85,2.电脑合成音乐的制作原理,电脑合成音乐需要使用MIDI语言。MIDI语言利用字节传送来告知相应的设备能够做什么和不能做什么。MIDI字节通知乐器、声卡和其他MIDI设备什么时候开始和什么时候结束演奏音符 . MIDI自身并不产生和传送声音,只是传送产生声音的控制符号. 使用MIDI语言的设备(MIDI设备)可以互联。典型设备是合成器或者MIDI控制键盘,

42、也可以是外挂式音响效果单元、计算机、配备有MIDI接口的吉他等,86,(1) MIDI音乐的产生过程,87,(2) MIDI通道,当MIDI设备交流信息时,需要遵循一定的事件序列。例如,两个MIDI设备在建立连接之后首先要做的事情就是在使用相同的MIDI通道方面达成一致。MIDI可以在16个这样的通道上进行操作,这些通道用数字分别标记为015。只要两个MIDI设备进行交流,就必须使用相同的通道。对电脑合成音乐,每个逻辑通道可指定一种乐器,音乐键盘可设置在这16个通道之中的任何一个,而MIDI声源或者声音模块可被设置在指定的MIDI通道上接收,88,(3) MIDI接口和计算机的连接,MIDI接

43、口由三个端口组成:输入端口(In)、输出端口(0ut)和直达端口(Thru) 直达端口对MIDI数据只是进行简单传输,来自直达端口的数据仅仅是来自输入端口数据的拷贝,在离开直达端口前数据不会发生任何的改变,89,4.MIDI音乐合成器,MIDI指令送到合成器,由合成器(synthesizer)产生相应的声音。同样的乐谱如选择不同的乐器播放,会听到不同的音色 MIDI制造商协会(MIDI Manufacturers Association)制定了通用MIDI规格(General MIDI Mode),简称GM规格。通用MIDI标准同时定义了GM音色库(一个音色库,也被称为音色映射,支持128种乐

44、器声音)和GM打击音色库(只包含打击乐器发出的声音),另外还定义了其他一些与音乐相关的性能,如每个GM设备应支持的声音数量和MIDI消息种类。,90,不同类别MIDI设备的音色代码区间,91,MIDI合成的产生方式有两种:FM(frequency modulation)合成和波表(Wavetable)合成。 FM频率调制合成是通过硬件(称为发生器)产生正弦信号,再经处理合成音乐。合成的方式是将波形组合在一起。 这种方式在理论上有无限多组波形,即可以模拟任何声音,而且可以任意修改音色。由此模拟的乐器较高或较低频率的信号失真度很大,音色真实度很差,92,波表的原理是在ROM中以数字格式存储各种实际

45、乐器的声音采样,声音采样以声波的形式被组织到能够对其进行单独处理的库中或者表内,需要合成某种乐器的声音时,调用相应的实际声音采样合成该乐器的乐音。 ROM存储器的容量越大,合成的效果越好,93,3.MIDI文件,用乐谱指令代替声音数据 有效记录和重现各种乐器声音 MIDI声音仅适于重现打击乐或一些电子乐器的声音 占用存储空间极小 例如一个8位、22.05kHz的波形音频文件持续2s就需超过40KB的容量,而一个MIDI文件播放2分钟所需的空间不超过8KB。 适合乐曲创作和远距离传输,94,2.4数字音频处理,本节介绍数字音频的应用技术,包括声音的采集、编辑以及音效处理。为叙述方便,音频制作以声

46、音制作软件SoundForge为例,其他声音处理软件大同小异,希望同学们在学习时注意方法,努力做到举一反三。,95,1. SoundForge音频编辑软件简介,(1) Sound Forge的功能 声音剪辑:声音片段的删除、语序的调整; 音量调整:整体调整、淡入(Fade In)、淡出(Fade Out)、包洛线调整(Envelop)、左右声道的平衡调整; 频率均衡处理(EQ); 混响/回声/延迟处理(Reverb/Echo/Delay); 合唱(Chorus)处理; 动态(Dynamic)(包括压缩、限制、门)处理; 失真(Distortion)处理; 降低噪音处理(Noise); 升降调,

47、时间拉伸处理; 声音格式转换:包括文件格式和数字化指标; 可以编辑视频文件中的声音,并进行编辑; 用FM(调频)的方法生成声音。,96,(2) Sound Forge屏幕布局,97,(3)基本操作,通过下例学习文件的打开、声道的转换、数字化指标的转换、提高音量和文件格式转换 例2.4 example_0220.wav文件是一个双声道立体声语音文件,采样频率44.1kHz,采样精度32位,请对其做以下处理: (1)将双声道声音转换成单声道声音; (2)采样频率转换为8kHz,样本精度转换成16位; (3)将其音量提高20%; (4)将文件格式转换为mp3格式,话音质量。,98,解: (1)使用“

48、FileOpen”菜单命令打开声音文件example_0220.wav;Sound Forge可以同时打开多个文件,所以,编辑时要注意欲编辑的文件必须是当前文件. (2)声道转换。执行“ProcessChannel Converter”菜单命令 (3)修改技术指标。执行“processResample”菜单命令,输入新的采样频率“8,000”; (4)执行“ProcessBit-depth Converter”在打开的对话框中设置“Bit depth”为“16”位。 (5)提高音量。执行“ProcessVolume”菜单命令 (6)保存文件为mp3文件。执行“FileSave As”菜单命令,

49、保存类型选择“MP3 Audio(*.mp3)”,单击“Template”右边的“Custom”按钮,打开“Custom Setting”(自定义设置)对话框(图2-18b),选择“Bit Rate”为“8kbps 8,000Hz”,单击“OK”,并保存文件,99,2.声音的录制与格式转换,在使用计算机进行录音时,话筒的插头应插入声卡的MIC(话筒)输入插座内。 声卡有两个输入插座,一个用于话筒,一个用于线路输入。 用于话筒的插座灵敏度高,一般为O.53mv,适于输入微弱的信号; 用于线路输入的插座灵敏度低,主要与音响设备的线路输出端连接,适于输入强度较大的信号,一般为5001000mv。 上

50、述两个插座不要混淆。如果把话筒插在线路输入插座内,将录不到声音,100,(1)质量选择,录制声音时应根据不同的要求选择不同的质量参数,包括采样频率、样本位数、声道数、编码格式等。 录音时,应注意调整输入信号的强度,使其不超过录音设备的动态范围,否则将产生削顶失真,音感阻塞,严重时无法辨别声音的内容。 信号强度过低,也不能获得满意的声音,原因是信号与噪声的比值小,噪声相对比较明显,影响了音质。 正式录音前,最好先试录一次,以调整音响效果。,101,(2)声音格式的转换,一般的声音处理软件兼容多种格式的声音文件,使得声音格式的转换非常简单,只要在保存文件时使用“另存为”,然后选择不同的文件格式、质

51、量级别、压缩算法或不同的性能指标。 例2.5 以22.1kHz的采样频率、16位位深度录制以下唐诗。去除录制过程中过长的停顿、喀喀声,调整音量,分别将其保存为WAV文件、FM音质的MP3文件和rm文件。 游子吟 孟郊 慈母手中线,游子身上衣。 临行密密缝,意恐迟迟归。 谁言寸草心,报得三春辉?,102,(a)环境准备。连接话筒,在Windows控制面板中双击“声音和多媒体”图标,打开“声音和多媒体”对话框(图2-19a),选择“音频”选项卡,单击“录音”选框中的“音量”按钮,打开“Recording Control”(录音控制)对话框。如果使用话筒录音,则在“Microphone”下的小方框中

52、打“”,音量滑块调到90%左右,103,(b)启动Sound Forge (c)单击工具栏录音按钮 ,打开“Recording”对话框,104,(d)在编辑窗口中没有波形的区域是没有声音的区域,105,(e) 不做任何选择,执行“ProcessVolume”菜单命令调整整体音量的大小,也可选择某个区域调整音量。 (f)执行“FileSave As”保存声音文件。 保存WAV文件选择文件类型“Wave(Microsoft)(*.wav)”; 保存MP3 文件选择文件类型 “MP3 Audio(*.mp3)”,模板选择“64kbps,FM Radio Quality Audio”; 保存RM文件选

53、择文件类型“RealMedia(*.rm)”,模板选择“56kbps Audio”,适合使用56k MODEM以上线路上网的用户,也可选其他模板。 我们保存的3个文件的大小分别为545kB、101kB和56kB,时间长度为12秒,106,3.声音的剪辑,删除就是去掉声音文件中的一段数据。 两段数据排列顺序的不同就改变了声音播放的先后顺序。 将两个文件中的声音数据连接起来保存在一个文件中就实现了声音的连接。 当然也可以将原来的声音文件分成两个声音文件存放,就实现了声音的分割。,107,(1) 确定编辑区域 ,确定起点(Mark In)和终点(Mark Out) (2)声音编辑,编辑操作可以使用“

54、Edit”菜单中的命令,也可以使用与Word相同快捷键 (3)去除噪声,去除噪声使用“EffectNoise Gate”菜单命令 (4)静音处理, “Process Mute” 例2.6 笨狼上学,108,4.声音的效果处理,(1)淡入淡出 “淡入(Fade In)”和“淡出(Fade Out)”指声音的渐强和渐弱,通常用于声音的开始、结束,两个声音素材的交替切换,产生渐近渐远的音响效果等场合。 淡入效果使声音从无到有、由弱到强。 而淡出效果则正好相反,声音逐渐消失。 淡入与淡出的过渡时间长度由编辑区域的宽窄决定。 SoundForge中选择一段声音,执行“ProcessFadeIn”或“Pr

55、ocessFadeOut”产生淡入或淡出效果,也可以使用“ProcessFadeGraphics”命令在打开的对话框中拖动增益曲线随意地编辑淡入和淡出效果,109,(2)频率均衡控制,频率均衡(EQ)控制指对声音素材的低音区、中音区、高音区各个频段进行提升和衰减等控制,使声音的层次和频段分布更符合要求。这一技术从根本上改变了音频文件的固有频率均衡值 频率均衡使用“ProcessEQ”命令,110,(3)混响,声音在传播过程中遇到障碍物,会产生反射、绕射及散射。因此形成直达声、反射次数较少的早期反射声和多次反射形成的混响声 直达声是室内任一点直接接收到声源发出的声音,它是接收声音的主体。直达声不

56、受空间界面的影响。其声强基本上是与听点到声源距离平方成反比而衰减。 早期反射声指延迟直达声50ms以内到达听声点的反射声.早期反射声会加强听点处的声强。或者说对直达声起着增强的作用,使听到的声音丰满,宏亮。大空间如厅堂,这时产生的早期反射声到达听点的距离加大,延迟时间变长,会形成回声,从而产生空间感。,111,混响声是指声源发出的声波经过室内界面的多次反射,迟于只经一、二次反射的早期反射声到达听点。延迟的时间依据房间的大小不等,可长达数秒,甚至声源已停止发声,但由于多次反射,听点仍能听到,故而又称混响声为余声。余声会使听到的声音发生重叠,其结果会影响声音的清晰度或者说可懂性 数字混响的基本原理

57、是:把指定编辑区域内的声音滞后一小段时间再叠加到原来的声音上。影响混响效果的参数是叠加声音的音量和滞后时间长度。根据延迟信号的延迟时间和幅度的不同,可以调制出任何大小房间、音乐厅、礼堂、教堂、山谷等环境的音响效果。混响时间短,声音干涩,声音就像在近前发出的一般;混响时间长,声音圆润,具有空旷感。 ProcessReverb,112,(4)合唱效果,合唱效果可以把一个人的声音变成两个的声音,把两个人的声音变成4个人等,从而产生合唱效果或把小乐队的演奏变成大乐队的合奏效果 影响合唱效果的参数主要有三个:合唱程度(Chorus Size)、调制速率(Modulation Rate)和合唱输出(Cho

58、rus Out)。它们的值越大,效果越明显。 ProcessChorus,113,(5)声音的混合,声音混合将两段声音混合在一起,可以为自己的歌曲或语音配上音乐 将两段声音混和在一起,首先要保证两段声音的采样频率相同。为保证质量,应将低的采样频率改为高的采样频率。 ProcessResample EditCopy EditPaste SpecialMix,114,5.声音的频谱分析,谱分析(Spectrum Analysis)是分析数字音频频率分布情况的强有利工具,使用它可以很清楚地看到所处理的声音文件中各种频率的声音的分布情况 ToolsSpectrum Analysis,115,2.5多媒

59、体数据的编码技术,1.数据压缩的基本原理 数据压缩的对象是数据。数据是信息的载体,用来记录和传送信息。真正有用的不是数据本身,而是数据所携带的信息。大的数据量并不代表含有大的信息量 .,116,(1)信息和熵,香农(C. E. Shannon)信息论应用概率来描述不确定性。 事件出现的概率小,不确定性越多,信息量就大,反之则少。 在数学上,所传输的消息是其出现概率的单调下降函数。所谓信息是指从N个相等可能事件中选出一个事件,所需要的信息度量或含量,也就是在辨识N个事件中特定的一个事件过程中所需要提问“是”或“否”的最少次数。 如从64个数中选定某一个数,提问:“是否大于32?”,则不论回答是与否,都消去了半数的可能事件,如此下去,只要问6次这类问题,就可以从64个数中选定一个数。 我们可以用二进制的6个位来记录这一过程,就可以得到这条信息。,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论