多媒体技术基础及应用

上传人：5*** IP属地：湖北上传时间：2023-02-07 格式：PPT 页数：86 大小：1.54MB 积分：28 举报 版权申诉

已阅读5页，还剩81页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

多媒体技术基础及应用北京联合大学沈洪副教授1第二章音频信息处理2.1数字音频基础2.2音频卡的工作原理2.3音频编码基础和标准2.4音乐合成和MIDI2.5语音识别2多媒体中音频信息的应用模拟音频和数字音频音频的数字化音频信号处理的特点2.1数字音频基础3多媒体中音频信息的应用在多媒体系统中，语音和音乐是不可少的。没有音频的视频是不可接受的。4多媒体中音频信息的应用音频和视频同步，使视频图像更具真实性娓娓动听的音乐和解说，使静态图像变得更加丰富多彩可视电话、电视会议中的声音更为重要5音频是多媒体的重要媒体之一Audio音频Speech语音言语Sound非语音声音浊音

清音

爆破音乐音

杂音6语音是语言的物质外壳（载体）。语言是人类社会特有的一种信息系统，社会交际工具的符号。非语音信号的特点是不具有复杂的语意和语法信息，信息量低、识别简单。7语言是人类通信最直接最自然的方式。从第一台计算机诞生以来，专家们就为之付出了巨大的努力。人们期望以最自然

的方式与计算机交互8设计师为计算机安上了“嘴巴”（扬声器），让计算机奏乐、讲话；为计算机装上了“耳朵”（麦克风），让计算机听懂、理解人的讲话。网络专家还期望分布在不同地点的计算机成为“顺风耳”，实现音频实时传播。人们期望以最自然

的方式与计算机交互9音频被用来传递消息、意向、情感，是人类最熟悉的传递消息的方式。音频携带的信息量大、精细、准确。10随着多媒体信息处理技术的发展，计算机数据处理能力的增强，音频处理技术受到重视，并得到了广泛的应用。如：11视频图像的配音、配乐；可视电话、电视会议中的话音；游戏中的音响效果；Internet电话、声音欺骗系统、现代“芝麻开门”系统虚拟现实中的声音模拟；电子读物的有声输出等。12多媒体中音频信息的应用模拟音频和数字音频音频的数字化音频信号处理的特点2.1数字音频基础13模拟音频和数字音频什么是模拟音频？声音是机械振动。振动越强，声音越大，话筒把机械振动转换成电信号，模拟音频技术中以模拟电压的幅度表示声音强弱。模拟声音在时间上是连续的。14什么是数字音频？

在计算机内，所有的信息均以数字表示。各种命令是不同的数字，各种幅度的物理量也是不同的数字。当然，语音信号也是由一系列数字来表示，称之为数字音频。数字音频的特点是保真度好，动态范围大。数字声音在时间上是断续的。

15在数字音频技术中，把表示声音强弱的模拟电压用数字表示，如0.5V电压用数字20表示，2V电压用80表示。模拟电压的幅度，即使在某电平范围内，仍然可以有无穷多个如1.21V，1.215V…。16

而用数字来表示音频幅度时，只能把无穷多个电压幅度用有限个数字表示。即把某一幅度范围内的电压用一个数字表示，这称之为量化。17计算机内的基本数制是二进制，为此我们也要把声音数据写成计算机的数据格式，这称之为编码，模拟电压幅度、量化、编码的关系举例如下表。1819多媒体中音频信息的应用模拟音频和数字音频音频的数字化音频信号处理的特点2.1数字音频基础20音频的数字化

计算机内的音频必须是数字形式的，因此必须把模拟音频信号转换成有限个数字表示的离散序列，即实现音频数字化。在这一处理技术中，涉及到音频的采样、量化和编码。

采样：音频实际上是连续信号，或称连续时间函数x(t)。用计算机处理这些信号时，必须先对连续信号采样，即按一定的时间间隔(T)取值,得到x(nT)(n为整数)。T称采样周期，1/T称为采样频率。称x(nT)为离散信号。22离散信号x(nT)是从连续信号x(t)上取出的一部分值，那么能用x(nT)唯一地确一地恢复出x(t)吗？一般是不行的。但在一定条件下可以的，即采样要满足采样定理。

采样定理:设连续信号x(t)的频谱为x(f)，以采样间隔T采样得到离散信号x(nT),如果满足：24可以由x(nT)完全确定连续信号x(f)当采样频率等于1/2T时,即fN=1/2T,称fN为奈魁斯特频率。

25常用的音频采样率有：8kHz、11.025kHz、22.05kHz、16kHz、37.8kHz、44.1kHz、48kHz。

量化：为了把采样序列x(nT)存入计算机，必须将样值量化成一个有限个幅度值的集合x(nT)。通常，用二进制数字表示量化后的样值是方便的。27

量化采样的过程如下：先将整个幅度划分成为有限个小幅度(量化阶距)的集合，把落入某个阶距内的样值归为一类，并赋予相同的量化值。如果量化值是均匀分布的，我们称之为均匀量化。28多媒体中音频信息的应用模拟音频和数字音频音频的数字化音频信号处理的特点2.1数字音频基础29音频信号处理的特点音频信息处理

信号处理的角度：将声音看成是一种信号，通过对信号的认识，来获取信息。

信息论的角度：用它的消息内容和信息来表示。30音频信号处理的特点(1)音频信号是时间依赖的连续媒体音频信号是时间依赖的连续媒体。因此音频处理的时序性要求很高。如果在时间上有25ms的延迟，人就会感到断续。

31音频信号处理的特点(2)理想的合成声音应是立体声

由于人接收声音有两个通道（左耳、右耳），因此为使计算机模拟自然声音，也应有两个声道，即理想的合成声音应是立体声。同时，也应该包括位置信息（不同会场和不同角落的发的声音）。真实感声音的模拟：多通道、幅度、位置32音频信号处理的特点(3)对语音信号的处理，要抽取语意等其它信息由于语音信号不仅仅是声音的载体，同时还携带了情感的意向，故对语音信号的处理，不仅是信号处理问题，还要抽取语意等其它信息。因此可能会涉及到语言学、社会学、声学……等。

33从人与计算机交互的角度来看音频信号相应的处理如下：（1）人与计算机通信（计算机接收音频信号）：音频获取；语音识别与理解；

人与计算机交互34（2）计算机与人通信（计算机输出音频）音频合成：包括音乐合成和语音合成；声音定位：包括立体声模拟；音频/视频同步；目的是让计算机产生真实感声音。

35（3）人—计算机—人通信：人通过网络，与处于异地的人进行语音通信，需要的音频处理包括：语音采集、音频编码/解码、音频传输等。这里音频编/解码技术是信道利用率的关键。

36第二章音频信息处理2.1数字音频基础2.2音频卡的工作原理2.3音频编码基础和标准2.4音乐合成和MIDI2.5语音识别37音频卡的功能和分类根据多媒体计算机(MPC)的技术标准，声卡是多媒体技术中最基本的组成部分，是实现声波/数字信号相互转换的硬件电路。38音频卡的功能和分类声卡把来自话筒、磁带、光盘的原始声音信号加以转换，输出到耳机、扬声器、扩音机、录音机等声响设备，或通过音乐设备数字接口(MIDI)使乐器发出美妙的声音。39一、音频卡的功能1、录制(采集)数字声音文件通过声卡及相应驱动程序的控制，采集来自话筒(麦克风)、收录机等音源的信号，压缩后存放于微机系统的内存或硬盘中。402、播放数字声音文件将硬盘或激光盘片压缩的数字化声音文件还原，重建高质量的声音信号，放大后通过扬声器输出。413、编辑与合成声音文件对数字化的声音文件进行编辑加工，以达到某一特殊的效果。424、控制音源的音量控制音源的音量，对各种音源进行混合，即声卡具有混响器的功能。435、压缩和解压缩编码和解码。采集数据时，对数字化声音信号进行压缩，以便存储。播放时，对压缩的数字化声音文件进行解压。446、文语转换（语音合成）通过文语转换软件，利用语音合成技术，通过声卡朗读文本信息，如读英语单词和句子、说英语、奏音乐。457、语音识别通过语音识别软件，具有初步的语音识别功能，让用户用口令指挥计算机工作。468、提供MIDI功能提供MIDI(乐器数字接口)功能，使计算机可以控制多台具有MIDI接口的电子乐器。同时，在驱动程序的控制下，声卡将以MIDI格式存放的文件输出到相应的电子乐器中，发出相应的声音。47二、音频卡的分类声卡的分类1．按应用环境分类2.从技术角度分类3.根据采样和量化

的位数分类48

3.根据采样和量化的位数分类根据采样量化的位数，常用有8位、16位和32位声卡。位数越高，量化精度越高，质量越好。

49音频卡的工作原理采集声音信号：声卡从话筒中获取模拟声音信号，通过模数转换器(ADC)，将声波振幅信号采样转换成一串数字后存储到计算机中。50音频卡的工作原理重放声音信号：将存储到计算机中的数字信号送到数模转换器(DAC)，以同样的采样速率还原为模拟波形，待放大后送到扬声器发声，这一技术也称为脉冲编码调制技术(PCM)。51523电源稳压4运放5晶振一块SBLIVE声卡DACDSP（DigitalSignalProcessing）数字信号处理声音混合53第二章音频信息处理2.1数字音频基础2.2音频卡的工作原理2.3音频编码基础和标准2.4音乐合成和MIDI2.5语音识别54音频编码基础音频编码的目的在于压缩数据。在多媒体音频数据的存储和传输中，数据压缩是必须的。通常数据压缩造成音频质量的下降、计算量的增加。因此，人们在实施数据压缩时，要在音频质量、数据量、计算复杂度三方面进行综合考虑。

55根据统计分析结果，语音信号中存在多种冗余，其最主要部分可以分别从时域和频域来考虑。另外，由于语音主要是给人听的，所以也要考虑人的听觉机理

从信息保持的角度讲，只有当信源本身有冗余时，才能对其进行压缩。56时域信息的冗余度频域信息的冗余度人的听觉感知机理57音频编码基础音频编码的分类基于音频数据的统计特性进行编码基于音频的声学参数进行参数编码混合编码基于人的听觉特性进行编码

基于音频数据的统计特性进行编码，其典型技术是波形编码。其目标是使重建语音波形保持原波形的形状。PCM（脉冲编码调制）是最简单最基本的编码方法。59

基于音频的声学参数进行参数编码，可进一步降低数据率。其目标是使重建音频保持原音频的特性。常用的音频参数有共振峰、线性预测系数、滤波器组等。这种编码技术的优点是数据率低，但还原信号的质量较差，自然度低。60

将上述两种编码算法很好地

结合起来，采用混合编码的方法。这样就能在较低的码率上得到较高的音质。如码本激励线性预测编码（CELP）、多脉冲激励线性预测编码（MPLPC）等。

基于人的听觉特性进行编码：从人的听觉系统出发，利用掩蔽效应，设计心理声学模型，从而实现更高效率的数字音频的压缩。其中以MPEG标准中的高频编码和DolbyAC-3最有影响。

62音频编码标准国际电报电话咨询委员会（CCITT）和国际标准化组织（ISO）先后提出一系列有关音频编码的建议，列出了一些音频编码算法和国际标准。6364自适应脉冲编码调制(ADPCM)这个建议用于64kbps的A律和μ律PCM与32kbps的ADPCM之间的转换。

65ADPCM编码器和解码器的框图

66第二章音频信息处理2.1数字音频基础2.2音频卡的工作原理2.3音频编码基础和标准2.4音乐合成和MIDI2.5语音识别67音乐合成概述

随着计算机的诞生，就实现了计算机奏乐，不过那仅仅是一个个单音，听起来单调。如何让计算机输出优美的音乐呢？最简单的方法是采取录音/重放方式。68

音乐的频带宽，需要提高其采样率和量化位数，因而数据率急剧增大。如用44.1K频率抽样，16位表示某立体声音乐，那么每秒钟的数据为176.4K字节。由此可见，若以此种方式存储音乐，即使计算机数据传输率允许，也只能存很短时间的乐曲。

是否可以采取合成方式产生音乐呢？答案是肯定的，电子乐器的蓬勃发展也已经证实.

自1976年应用调频(FM)音乐合成技术以来，其乐音已经很逼真。

1984年又开发出另一种更真实的音乐合成技术－－波形表(Wavetable)合成。目前这两种音乐合成技术都应用于多媒体计算机的音频卡中。

70调频音乐合成FM是使高频振荡波的频率按调制信号规律变化的一种调制方式。采用不同调制波频率和调制指数，就可以方便的合成具有不同频谱分布的波形，再现某些乐器的音色。我们可以采用这种方法得到具有独特效果的“电子模拟声”，创造出丰富多彩的声音，是真实乐器所不具备的音色，这也是FM音乐合成方法特有的魅力之一。

71调频音乐合成

我们以音频卡中常用的FM合成芯片YM3812为例，简述怎样实现FM音乐合成？如何模拟各种乐器的音色？YM3812是一种广泛使用的新型音乐合成芯片。它采用FM合成方式，能够在软件的控制下产生变化极为丰富的各种音色72

FM方式产生真实音响两种工作模式：

9声道同时发音

6种旋律加5种节奏乐内置颤音振荡器/调幅(AM)振荡器可采用正弦波组合方式合成语音输入/输出为TTL电平

它的主要特点是：YM3812简介73使用YM3812构成的音乐系统如下图所示。74音乐系统框图

由于YM3812输出的是数字信号,因此系统需要一数/模转换，如YM3014。微机通过总线传输必要的数据，由YM3812将它们变成相应的音高、音色、响度的数字频信号，经数/模转换变成模拟量，再经功率放大得到音响输出。微机或微处理器地址数据总线总线控制YM3812DAC系统时钟音频放大75MIDIMIDI是音乐与计算机结合的产物。MIDI(MusicalInstrumentDigitalInterface)是乐器数字接口的缩写，泛指数字音乐的国际标准，初始建于1982年。利用MIDI文件演奏音乐，所需的存储量最少。如演奏2分钟乐曲的MIDI文件只需不到8K的存储空间。76MIDI标准规定了不同厂家的电子乐器与计算机连接的电缆和硬件。它还指定从一个装置传送数据到另一个装置的通信协议。这样，任何电子乐器，只要有处理MIDI信息的处理器和适当的硬件接口都能变成MIDI装置。MIDI间靠这个接口传递消息(massage)而进行彼此通信。实际上消息是乐谱(score)的数字描述。77乐谱由音符序列、定时和称作合成音色(patches)的乐器定义所组成。当一组MIDI消息通过音乐合成芯片演奏时，合成器解释这些符号，并产生音乐。78第二章音频信息处理2.1数字音频基础2.2音频卡的工作原理2.3音频编码基础和标准2.4音乐合成和MIDI2.5语音识别79

语音识别的研究领域比较广，归纳起来，一

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

多媒体技术基础及应用

文档简介

温馨提示

最新文档

评论

多媒体技术基础及应用

文档简介

温馨提示

最新文档

评论

相关文档