音频处理技术课件_第1页
音频处理技术课件_第2页
音频处理技术课件_第3页
音频处理技术课件_第4页
音频处理技术课件_第5页
已阅读5页,还剩165页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1第4章多媒体音频处理技术4.1音频信号及其概念4.2模拟音频的数字化过程4.3声卡的组成和功能4.4音频文件的格式与处理软件4.5乐器数字接口-MIDI4.6数字音频的应用2022/11/251第4章多媒体音频处理技术4.1音频信号及其概念20222022/11/2522022/11/2334.1.1声音处理技术历史回顾记录:19世纪,爱迪生,留声机。电声技术:研究可听声频率范围内声音的产生、传播、存储、重放和接收的技术。依靠电来记录并播放声音,通过电压产生模拟声波变化的电流信号是模拟信号。随着计算机技术和存储设备的发展,数字化音频处理技术也得到了发展。2022/11/2534.1.1声音处理技术历史回顾2022/11/234图4-2用磁带记录声音的录音机

2022/11/254图4-2用磁带记录声音的录音机2022/11/2354.1.2声音信号的形式任何声音都是物体振动产生的现象,其在介质中的传播称为声波。声源所引起的空气压力变化,被耳朵的耳膜所检测,然后产生电信号刺激大脑的听觉神经,从而使人们能感觉到声音的存在。

2022/11/2554.1.2声音信号的形式2022/11/2364.1.2声音信号的形式

语音信号:语言的物质载体,具有复杂的语法和语义,难于识别。非语音信号:音乐,自然界的声音,信息量低,识别简单。2022/11/2564.1.2声音信号的形式2022/11/237图4-4在自然界,声波与水波一样都是一种振动波2022/11/257图4-4在自然界,声波与水波一样都是一种振动波20228图4-5用声音录制软件记录的英文单词”Hello”语音的实际波形2022/11/258图4-5用声音录制软件记录的英文单词”Hello”语音94.1.3模拟音频信号的物理特征

频率:体现音调的高低,单位Hz

幅度:体现声音的强弱,单位dB语音信号频率范围:300Hz~3000Hz

可听频率带宽(音频):20Hz~20kHz2022/11/2594.1.3模拟音频信号的物理特征2022/11/23102022/11/25102022/11/2311图4-6声波的频率、周期与振幅2022/11/2511图4-6声波的频率、周期与振幅2022/11/2312次声波人耳可听域超声波<20Hz

20~20,000Hz>20,000Hz女性语音150Hz~10,000Hz电话语音200Hz~3,400Hz调幅广播(AM)50Hz~7,000Hz调频广播(FM)20Hz~15,000Hz高级音响10Hz~40,000Hz男性语音100Hz~9,000Hz声源种类频带宽度教学进程2022/11/2512次声波人耳可听域超声波<20Hz13声音质量分级与带宽图4-8四级声音质量的频率范围

2022/11/2513声音质量分级与带宽图4-8四级声音质量的频率范围2014声音的质量与声音的频率范围有关。一般说来,频率范围越宽声音的质量就越高。对语音而言,常用可懂度、清晰度、自然度来衡量;而对音乐来说,保真度、空间感、音响效果都是重要的指标2022/11/2514声音的质量与声音的频率范围有关。2022/11/2315第4章多媒体音频处理技术4.1音频信号及其概念4.2模拟音频的数字化过程4.3声卡的组成和功能4.4音频文件的格式与处理软件4.5乐器数字接口-MIDI4.6数字音频的应用2022/11/2515第4章多媒体音频处理技术4.1音频信号及其概念20162022/11/25162022/11/2317借助于A/D或D/A转换器,模拟信号和数字信号可以互相转换2022/11/2517借助于A/D或D/A转换器,模拟信号和数字信号可以互相转182022/11/25182022/11/23194.2.1采样为实现A/D转换,需要把模拟音频信号波形进行分割(每隔一定的时间间隔测一次模拟音频的值(如电压)),以转变成数字信号,这种方法称为采样(Sampling)。每秒钟采样的次数称为采样率。数字音频是离散的,而模拟音频是连续的,数字音频质量的好坏与采样率密切相关。数字音频信息可以被计算机存储、处理和播放。

Nyquist采样定理:只有采样频率高于声音信号最高频率的两倍时,才能把数字信号表示的声音还原为原来的声音。2022/11/25194.2.1采样2022/11/2320图4-9声音的采样和量化示意图2022/11/2520图4-9声音的采样和量化示意图2022/11/23214.2.2量化用某种数字化的方法来反映某一瞬间声波幅度的电压值的大小称为量化。

采样后的信号按照整个声波的幅度(幅度轴)划分称有限个区段的集合,把落入某个区段内的样值归为一类,并赋予形同的量化值。采用二进制,以16位或256位等的方式来进行。2022/11/25214.2.2量化2022/11/2322输入输出输入输出均匀量化非均匀量化2022/11/2522输入输出输入输出均匀量化非均匀量化2022/11/2323数字音频等级信号类型频率范围Hz采样频率KHz量化精度(位)电话语音200~340088宽带音频50~70001616调频广播20~15k37.816CD-DA20~22k44.116SACD2-100k2822.41(信息流)DVD-AUDIO100k96~19224HDTA48,96,38424,32…2022/11/2523数字音频等级信号类型频率范围Hz采样频率KHz量化精度(242022/11/25242022/11/2325教学进程数据量=采样频率×(量化位数/8)×声道数×声音持续时间例1

对于调频广播级立体声,采样频率为44.1kHz,量化等级为16位(即2字节)声道形式为双声道,则转换后每秒以千字节为单位的数据量为:

44100(Hz)×(16/8)(B)×2=176400B/s≈172kB/s例2

用44.1kHz的采样频率对声波进行采样,每个采样点的量化位数选用16位,则录制3分钟的立体声节目,其波形文件所需的存储容量为:44100(Hz)×(16/8)(B)×2×3×60=31752000B/s≈31007.8kB/s≈30.28MB/s2022/11/2525教学进程数据量=采样频率×(量化位数/8)×声道数×声音26例3

一般播音员的播音频率是4kHz,采用8bit的采用精度进行采样的时候,计算该播音员播音10分钟的数据量为:8kHz*8bit*10*60=例4

以cd激光盘音质(44.1kHz的采样频率,16位立体声形式)记录一首5分钟的乐曲所需的存储容量为:44100(Hz)×(16/8)(B)×2×5×60=51600kb2022/11/2526例3一般播音员的播音频率是4kHz,采用8b274.2.3声音采样与量化过程示例2022/11/25274.2.3声音采样与量化过程示例2022/11/2328图4-10采样频率为1000Hz,10个量化等级的波形2022/11/2528图4-10采样频率为1000Hz,10个量化等级的波29图4-11经过D/A转换器得到的信号波形(直线段的波形)有较大的失真2022/11/2529图4-11经过D/A转换器得到的信号波形(直线段的波形30图4-12采样率为2000Hz,量化等级为20的采样量化过程2022/11/2530图4-12采样率为2000Hz,量化等级为20的采样量31图4-13采样率为4000Hz,量化等级为40的采样量化过程2022/11/2531图4-13采样率为4000Hz,量化等级为40的采样量324.2.4压缩编码依据:声音信息中存在着多种冗余

听觉器官的不敏感性采样的标本中存在着相关性压缩算法通常应能满足下列需求:压缩倍数高,压缩后的数据率低;

解码后的信号失真小,质量高;

算法简单,执行速度快,延迟时间短;

编码器、解码器的成本低。2022/11/25324.2.4压缩编码2022/11/2333压缩方法(compressionmethod)有损压缩无损压缩编码选择(codeselection)PC机常用的声卡上有自适应差分脉冲码调制方案,μ律/a律等,format(structure)2022/11/2533压缩方法(compressionmethod)202234音频信息的压缩技术

Huffman

编码无损压缩

行程编码

全频带编码:

PCM;

DPCM;

ADPCM

子带编码

自适应变换编码ATC;心理学模型波形编码

矢量量化编码参数编码

线性预测

LPC

矢量和激励线性预测

VSELP

多脉冲线性预测

MP-LPC有

缩混合编码

码本激励线性预测

CELP2022/11/2534音频信息的压缩技术Huffma35图4-14音频信号处理过程2022/11/2535图4-14音频信号处理过程2022/11/2336第4章多媒体音频处理技术4.1音频信号及其概念4.2模拟音频的数字化过程4.3声卡的组成和功能4.4音频文件的格式与处理软件4.5乐器数字接口-MIDI4.6数字音频的应用2022/11/2536第4章多媒体音频处理技术4.1音频信号及其概念20374.3.1声卡的工作原理图4-16声卡工作原理框图采用大规模集成电路设计,将音频技术范围的各类电路以专用芯片的形式集成在声卡上,并可直接插入计算机的扩展槽中使用。2022/11/25374.3.1声卡的工作原理图4-16声卡工作原理框图381.主芯片-数字信号处理器声音信息处理、特殊音效过滤与处理、语音识别、实施压缩等等任务。2.混音芯片-CODEC负责调节各声音来源的音量、混音与调整录放音的音量大小图4-18SoundBlasterPCI64声卡的混音器设置界面2022/11/25381.主芯片-数字信号处理器图4-18SoundBl393.合成器

负责MIDI乐曲的合成可以及时创造各种音乐MIDI合成器有两种:频率调制合成器(FM合成器)、波形表(Wavetable合成器)。4.总线接口和控制器总线接口和控制器由数据总线双向驱动器、总线接口控制逻辑、总线中断逻辑和DMA控制逻辑组成。5.外部输入输出口声卡外部输入输出口均为3.5mm规格插口(MIDI/Joystick除外)2022/11/25393.合成器2022/11/23402022/11/25402022/11/23414.3.2声卡的性能指标1.音频技术指标2.MIDI音频3.声道数(DolbyAC-3等)图4-195.1声道系统的布局图2022/11/25414.3.2声卡的性能指标图4-195.1声道系统42

4.多音频流输出5.I/O设备接口

6.声卡软件

7.总线结构图4-20支持5.1声道系统的声卡接口2022/11/25424.多音频流输出图4-20支持5.1声道系统的声卡接432022/11/25432022/11/23442022/11/25442022/11/23452022/11/25452022/11/2346杜比与DTS1.DolbyDigitalMono:杜比数字单声道音效只有单声道的效果,并不足以构成立体声,

2.DolbyDigitalStereo:杜比数字双声道音效将双声道的立体讯号储存为AC-3格式,

3.DoblyDigitalSurround:杜比数字环绕音效4.DolbyDigital4.0:杜比数字环绕音效4.05.DolbyDigital5.0:杜比数字环绕音效5.06.DolbyDigital5.1:杜比数字环绕音效5.1以DolbyDigital来表示DolbyDigital5.1,也就是5.1声道的

DolbyDigital或AC-3.

7.Dolbydigital7.1~11.1等等2022/11/2546杜比与DTS1.DolbyDigitalMo47杜比与DTSPCM高音质数字音效:DVD利用PCM格式储存未经压缩的双声道讯号,由于DVD具有庞大的

空间与速度优势,可以大胆使用更高的取样率与解析度,因此可以提供远高于传统CD的表现

DTS数字环绕音效:属于5.1声道的环绕效果,DTS采用与AC-3不同的压缩技术将环绕音效储存至DVD.播放时必须采用具有dts译码能力的系统.DTS跟DolbyDigital5.1最大的差别在于两者使用不同的”算法”2022/11/2547杜比与DTSPCM高音质数字音效:DVD利用PCM格484.3.3声卡的主要功能录制与播放声音

通过接在声卡上的话筒录制声音,并以文件形式保存在计算机中,随时可打开声音文件进行播放。声音文件的格式可因使用不同的软件而不同。

音乐合成

利用声卡上的合成器将存储在计算机内存中的MIDI文件合成为音乐乐曲。通过混合器混合和处理多个不同音频源的声音,控制和调节音量大小,最后送至音箱或耳机播放。2022/11/2548录制与播放声音通过接在声卡上的话筒录制声音,并以文件49压缩和解压缩音频文件

目前,大多数声卡上都固化了不同标准的音频压缩和解压缩软件,常用的压缩编码方法有ADPCM(自适应差分脉冲编码调制)和ACM(微软音频压缩管理器)等,压缩比大约为2:1~5:l。与MIDI设备和CD驱动器的连接

通过声卡上的MIDI接口,计算机可以同外界的MIDI设备相连接,如连接电子琴、电吉他等,使MPC具有创作电脑乐曲和播放MIDI文件的功能。游戏杆也可通过MIDI接口与计算机相连接,使游戏玩起来得心应手。2022/11/2549压缩和解压缩音频文件目前,大多数声卡上都固化了不同标准50第4章多媒体音频处理技术4.1音频信号及其概念4.2模拟音频的数字化过程4.3声卡的组成和功能4.4音频文件的格式与处理软件4.5乐器数字接口-MIDI4.6数字音频的应用2022/11/2550第4章多媒体音频处理技术4.1音频信号及其概念2051

4.4.1数字音频的文件格式图4-21常用音频格式2022/11/25514.4.1数字音频的文件格式图4-21常用音频格式521.WAV文件——.wav2.MP3——.mp33.MP4——.mp44.RealAudio文件—.ra/.rm/.ram5.APE文件——.ape图4-22MP3是Internet上流行的音乐格式2022/11/25521.WAV文件——.wav图4-22MP3是Inte536.MIDI文件——.midi7.CD文件——.cda8.AAC文件——.m4a.mp4等9.PCM文件——.pcm10.WMA文件——.wma11.VOC文件——.voc12.AIFF文件——.aif/.aiff13.HDTA文件——.hdta2022/11/25536.MIDI文件——.midi2022/11/2354HDTA可变结构高解析度音频(Hi-DefinitionTransformableAudio)是一种结合了互动性和高解析度音频的新一代音频格式。

HDTA按照不同的标准,主要分为以下几种:

TA(只支持16Bit/44.1KHz传统音频)

HDTA立体声(只支持高解析度的双声道)

HDTA环绕声(支持6,8,16个声道的环绕声)新一代的HDTA格式音乐,是彻头彻尾的数字格式。它不以任何光盘为载体,而是作为一种计算机数据格式存在2022/11/2554HDTA可变结构高解析度音频(Hi-Definition554.4.2音频制作与处理软件1.CoolEdit图4-25CoolEditPro的界面2022/11/25554.4.2音频制作与处理软件图4-25CoolEdi562.SoundForge图4-26SoundForge音频处理软件

2022/11/25562.SoundForge图4-26SoundFor57第4章多媒体音频处理技术4.1音频信号及其概念4.2模拟音频的数字化过程4.3声卡的组成和功能4.4音频文件的格式与处理软件4.5乐器数字接口-MIDI4.6数字音频的应用2022/11/2557第4章多媒体音频处理技术4.1音频信号及其概念20584.5.1什么是MIDI

MIDI是数字音乐接口(MusicalInstrumentDigitalInterface)的缩写。或者说,MIDI是用来將电子乐器相互连接,或将MIDI设备与电脑连接成系统的一种通讯协议。通过它,各种MIDI设备都可以准确传送MIDI信息。不属于数字音响技术的范畴Midi数据不是数字的音频波形,而是音乐代码或电子乐谱4.5乐器数字接口-MIDI2022/11/25584.5.1什么是MIDI4.5乐器数字接口-MIDI594.5.2MIDI系统的组成2022/11/25594.5.2MIDI系统的组成2022/11/23601.合成器图4-28具有USB接口的MIDI键盘使用振荡器来产生声乐的一种电子乐器,通过振荡器的电流震荡产生各种波形并进行处理,合成出新的音乐。合成器中的音序器和音色分别由软件和独立音源来代替,因此产生控制键盘。2022/11/25601.合成器图4-28具有USB接口的MIDI键盘使用振612.音源图4-29硬件音源产品(RolandJV1080)音源音色的数量、品种和质量都将对最终音乐作品的效果产生重要的影响。音源内部是不同音色的样本波形,由音序器来决定何时调用。分为软硬件两种,专业硬件音源、多媒体声卡上包含GM音色库、以插件形式的软音源。2022/11/25612.音源图4-29硬件音源产品(RolandJV10623.音序器(Sequencer)

记录、编辑和播放midi文件的设备,硬件音序器又称为编曲机,软件音序器是音乐创作、编辑软件,比如Cakewalk等。4.采样器

对声音进行采样、然后编辑成多种的音色。5.其它设备如录音设备、监听设备、音箱功放等

YamahaQY100音序器2022/11/25623.音序器(Sequencer)YamahaQY100634.5.3MIDI的工作过程

midi消息实际上是对一段音乐的描述,或理解为对乐谱的数字描述,包括音符、节拍、乐器种类等信息。消息分为状态信息和数据信息。

状态信息描述音符被演奏或是声音被加强等数据信息描述那个音符被演奏了,或被加强的声音的强度如何这类可以用量来表示的信息。2022/11/25634.5.3MIDI的工作过程2022/11/2364图4-31MIDI的工作过程2022/11/2564图4-31MIDI的工作过程2022/11/23652022/11/25652022/11/23664.5.4FM与波表合成方式1.FM合成法FM称为“数字式频率调制合成法”,简称FM合成法。FM合成法生成音乐的基本原理是,用数字信号来表示不同音乐的波形,然后把它们组合起来,再通过数模转换器(DAC)生成音乐播放。2.波表合成法为了能真实地再现音乐,目前的声卡一般采用音乐样本合成法,即波表合成法。把真实乐器发出的声音以数字的形式记录下来,存放在“波表文件”中,播放时根据命令生成各种音阶的音符,产生的声音质量比较高。2022/11/25664.5.4FM与波表合成方式2022/11/2367FM合成法:比如MIDI音乐(用符号描述的乐器演奏的音乐声音)、合成语音(用声母、韵母或清音、基音频率等参数描述的语音)等。符号化的声音表示方法所产生的声音虽然没有自然声那么真实、逼真,但数据量要比波形声音小得多(2~3个数量级),而且能产生自然界中不存在的声音,其编辑处理也比波形声音更加方便一些。

2022/11/2567FM合成法:2022/11/23684.5.5GM-标准MIDI乐器排序表4.5.6MIDI音乐创作软件与音序软件图4-33CakeWalkProAudio音序软件主界面2022/11/25684.5.5GM-标准MIDI乐器排序表图4-33C69图4-34在CakewalkProAudio能容易地对MID乐谱进行编辑和创作2022/11/2569图4-34在CakewalkProAudio能容70第4章多媒体音频处理技术4.1音频信号及其概念4.2模拟音频的数字化过程4.3声卡的组成和功能4.4音频文件的格式与处理软件4.5乐器数字接口-MIDI4.6数字音频的应用2022/11/2570第4章多媒体音频处理技术4.1音频信号及其概念2071语音识别语音合成2022/11/2571语音识别2022/11/2372语音识别:指机器收到语音信号后,如何模仿人的听觉器官辨别所听到的语音内容或讲话人的特征,进而模仿人脑理解出该语音的含义或判别出讲话人的过程。分类:按讲话者分类:

(1)特定人的语音识别系统:其特点是依赖于说话者只有在用特定单词组形成的词汇表系统训练后,它才能识别。

(2)非特定人识别系统:此类系统可识别任何用户的语音。2022/11/25722022/11/2373按识别词的性质分类:

(1)孤立词(语音)识别系统:一次只提供一个单一词的识别。

(2)连接词语音识别:连接词的语音由所说的短语组成,而短语又是由词序列组成。连接词语音识别可用于命令和控制应用。

(3)连续语音识别:这种方法比孤立单词或连接词语音识别都复杂许多。2022/11/2573按识别词的性质分类:2022/11/2374

2022/11/2574

2022/11/2375连续语音识别系统分成三部分:

数字化、幅度归一化、时间归一化和参数表示。分割并把语音段标记成在基于知识或基于规则系统上的符号串。识别词序列并进行语音段匹配。

2022/11/2575连续语音识别系统分成三部分:2022/11/2376语音识别系统的组成采样、量化语音端点检测计算语音谱估价音调轮廓图分解、鉴定语音特征单词识别识别后的语音语音输入参考村料库语义分析理解后的语音语义库2022/11/2576语音识别系统的组成采样、量化语音端点检测计算语音谱估价音77语音识别难度大语音变化大,不同人不一样,同一人也会有变化。语音有模糊性,不同词语听起耒很相似。同一字和词的发音受上下文影响而有不同(语音的同化、异化、换位、弱化、脱落等音变现象)。环境噪声的干扰,例如墙壁与物体对声波的反射会与主声波重迭。连续语音流不易把单字(词)区分出来(端点检测)例如,若单字(词)识别正确率为0.95,则:3个单字(词)组成的句子识别正确率为0.8578个单字(词)组成的句子识别正确率为0.663单字(词)与库中的模板比较之前,必须进行复杂的“时间归一化”处理。2022/11/2577语音识别难度大语音变化大,不同人不一样,同一人也会有变化78语音合成(Speechsynthesis):指人们根据语言学的知识,在语音分析技术和语音存储技术的基础上,利用适当方法和手段,重构语音的过程。有两种情况:第一,语音再现。这是一个声音的还原过程。第二,模仿人说话。首先形成要说的内容;其次转成基本发音编码序列;然后进行判断理解,决定声调、重音和语气,形成“言语码”;最后控制并输出语音。2022/11/2578语音合成(Speechsynthesis):指人们根据79语音合成要求是可以理解的,并且是很自然的,应用范围比较广,比如自动报警,自动应答,有声校对,有声电子邮件,残疾人服务等2022/11/2579语音合成要求是可以理解的,并且是很自然的,应用范围比较广80两类方法对比较波形合成法规则合成法语音单位字、词、短语等音素(元音,辅音;声母,韵母等)存储形式波形形式特性参数(基频,幅度,共振峰等)合成方法波形连接优缺点存储量大;可懂度、自然度受语音单元大小的影响由音素组成音节,音节组成字和词,然后再组成句子在储量小,但很难得到高质量的语音2022/11/2580两类方法对比较波形合成法规则合成法语音单位字、词、短语等81语音生成同样有困难语音单元的自然连接问题语气、语调问题多音字(词)问题

趋势:Sound-specificmethods(两种方法相结合)2022/11/2581语音生成同样有困难语音单元的自然连接问题2022/11/82语音合成方法(三种)波形编码分析合成按规则合成波形特性参数语言符号存储器(模拟/数字)存储器(参数)合成规则(参数转换)存储单元波形连接存储器(参数)参数连接存储器(参数)参数序列的生成存储器(参数)信息的基本形成输入数据语音语音语音2022/11/2582语音合成方法(三种)波形编码分析合成按规则合成波形特性83文语转换器文—语转换:与录音的重放不同,它是从输入的任何文本产生合成语音输出,这就相当于人去读书面文章的过程。这个过程既包含有很高级的信息处理,又包含发音器官复杂的生理控制。

两个组成部分:发音器:语音合成器,它相当人的发音系统。驱动器:输入是要发声的文本串或其它语言信息,输出用来驱动发声器发音。2022/11/2583文语转换器文—语转换:与录音的重放不同,它是从输入的任何84语法规则词库发音词典文本分析语音控制韵律控制(节奏,音调)语音合成器音素库

韵律规则库语音输出文本音标韵律音长,加重,声调,停顿综合谱,形状反射,声道特性2022/11/2584语法规则词库发音词典文本分析语音控制韵律控制语音合成器音85总结课后习题:

1,2,3,7,8,9,11,15,16,17实践题目:使用声音处理软件进行声音的采集和处理2022/11/2585总结课后习题:2022/11/2386作业课后作业:书上:1,2,3,7,8,9,11,15,16,17

课外:2022/11/2586作业课后作业:2022/11/2387第4章多媒体音频处理技术4.1音频信号及其概念4.2模拟音频的数字化过程4.3声卡的组成和功能4.4音频文件的格式与处理软件4.5乐器数字接口-MIDI4.6数字音频的应用2022/11/251第4章多媒体音频处理技术4.1音频信号及其概念202882022/11/2522022/11/23894.1.1声音处理技术历史回顾记录:19世纪,爱迪生,留声机。电声技术:研究可听声频率范围内声音的产生、传播、存储、重放和接收的技术。依靠电来记录并播放声音,通过电压产生模拟声波变化的电流信号是模拟信号。随着计算机技术和存储设备的发展,数字化音频处理技术也得到了发展。2022/11/2534.1.1声音处理技术历史回顾2022/11/2390图4-2用磁带记录声音的录音机

2022/11/254图4-2用磁带记录声音的录音机2022/11/23914.1.2声音信号的形式任何声音都是物体振动产生的现象,其在介质中的传播称为声波。声源所引起的空气压力变化,被耳朵的耳膜所检测,然后产生电信号刺激大脑的听觉神经,从而使人们能感觉到声音的存在。

2022/11/2554.1.2声音信号的形式2022/11/23924.1.2声音信号的形式

语音信号:语言的物质载体,具有复杂的语法和语义,难于识别。非语音信号:音乐,自然界的声音,信息量低,识别简单。2022/11/2564.1.2声音信号的形式2022/11/2393图4-4在自然界,声波与水波一样都是一种振动波2022/11/257图4-4在自然界,声波与水波一样都是一种振动波202294图4-5用声音录制软件记录的英文单词”Hello”语音的实际波形2022/11/258图4-5用声音录制软件记录的英文单词”Hello”语音954.1.3模拟音频信号的物理特征

频率:体现音调的高低,单位Hz

幅度:体现声音的强弱,单位dB语音信号频率范围:300Hz~3000Hz

可听频率带宽(音频):20Hz~20kHz2022/11/2594.1.3模拟音频信号的物理特征2022/11/23962022/11/25102022/11/2397图4-6声波的频率、周期与振幅2022/11/2511图4-6声波的频率、周期与振幅2022/11/2398次声波人耳可听域超声波<20Hz

20~20,000Hz>20,000Hz女性语音150Hz~10,000Hz电话语音200Hz~3,400Hz调幅广播(AM)50Hz~7,000Hz调频广播(FM)20Hz~15,000Hz高级音响10Hz~40,000Hz男性语音100Hz~9,000Hz声源种类频带宽度教学进程2022/11/2512次声波人耳可听域超声波<20Hz99声音质量分级与带宽图4-8四级声音质量的频率范围

2022/11/2513声音质量分级与带宽图4-8四级声音质量的频率范围20100声音的质量与声音的频率范围有关。一般说来,频率范围越宽声音的质量就越高。对语音而言,常用可懂度、清晰度、自然度来衡量;而对音乐来说,保真度、空间感、音响效果都是重要的指标2022/11/2514声音的质量与声音的频率范围有关。2022/11/23101第4章多媒体音频处理技术4.1音频信号及其概念4.2模拟音频的数字化过程4.3声卡的组成和功能4.4音频文件的格式与处理软件4.5乐器数字接口-MIDI4.6数字音频的应用2022/11/2515第4章多媒体音频处理技术4.1音频信号及其概念201022022/11/25162022/11/23103借助于A/D或D/A转换器,模拟信号和数字信号可以互相转换2022/11/2517借助于A/D或D/A转换器,模拟信号和数字信号可以互相转1042022/11/25182022/11/231054.2.1采样为实现A/D转换,需要把模拟音频信号波形进行分割(每隔一定的时间间隔测一次模拟音频的值(如电压)),以转变成数字信号,这种方法称为采样(Sampling)。每秒钟采样的次数称为采样率。数字音频是离散的,而模拟音频是连续的,数字音频质量的好坏与采样率密切相关。数字音频信息可以被计算机存储、处理和播放。

Nyquist采样定理:只有采样频率高于声音信号最高频率的两倍时,才能把数字信号表示的声音还原为原来的声音。2022/11/25194.2.1采样2022/11/23106图4-9声音的采样和量化示意图2022/11/2520图4-9声音的采样和量化示意图2022/11/231074.2.2量化用某种数字化的方法来反映某一瞬间声波幅度的电压值的大小称为量化。

采样后的信号按照整个声波的幅度(幅度轴)划分称有限个区段的集合,把落入某个区段内的样值归为一类,并赋予形同的量化值。采用二进制,以16位或256位等的方式来进行。2022/11/25214.2.2量化2022/11/23108输入输出输入输出均匀量化非均匀量化2022/11/2522输入输出输入输出均匀量化非均匀量化2022/11/23109数字音频等级信号类型频率范围Hz采样频率KHz量化精度(位)电话语音200~340088宽带音频50~70001616调频广播20~15k37.816CD-DA20~22k44.116SACD2-100k2822.41(信息流)DVD-AUDIO100k96~19224HDTA48,96,38424,32…2022/11/2523数字音频等级信号类型频率范围Hz采样频率KHz量化精度(1102022/11/25242022/11/23111教学进程数据量=采样频率×(量化位数/8)×声道数×声音持续时间例1

对于调频广播级立体声,采样频率为44.1kHz,量化等级为16位(即2字节)声道形式为双声道,则转换后每秒以千字节为单位的数据量为:

44100(Hz)×(16/8)(B)×2=176400B/s≈172kB/s例2

用44.1kHz的采样频率对声波进行采样,每个采样点的量化位数选用16位,则录制3分钟的立体声节目,其波形文件所需的存储容量为:44100(Hz)×(16/8)(B)×2×3×60=31752000B/s≈31007.8kB/s≈30.28MB/s2022/11/2525教学进程数据量=采样频率×(量化位数/8)×声道数×声音112例3

一般播音员的播音频率是4kHz,采用8bit的采用精度进行采样的时候,计算该播音员播音10分钟的数据量为:8kHz*8bit*10*60=例4

以cd激光盘音质(44.1kHz的采样频率,16位立体声形式)记录一首5分钟的乐曲所需的存储容量为:44100(Hz)×(16/8)(B)×2×5×60=51600kb2022/11/2526例3一般播音员的播音频率是4kHz,采用8b1134.2.3声音采样与量化过程示例2022/11/25274.2.3声音采样与量化过程示例2022/11/23114图4-10采样频率为1000Hz,10个量化等级的波形2022/11/2528图4-10采样频率为1000Hz,10个量化等级的波115图4-11经过D/A转换器得到的信号波形(直线段的波形)有较大的失真2022/11/2529图4-11经过D/A转换器得到的信号波形(直线段的波形116图4-12采样率为2000Hz,量化等级为20的采样量化过程2022/11/2530图4-12采样率为2000Hz,量化等级为20的采样量117图4-13采样率为4000Hz,量化等级为40的采样量化过程2022/11/2531图4-13采样率为4000Hz,量化等级为40的采样量1184.2.4压缩编码依据:声音信息中存在着多种冗余

听觉器官的不敏感性采样的标本中存在着相关性压缩算法通常应能满足下列需求:压缩倍数高,压缩后的数据率低;

解码后的信号失真小,质量高;

算法简单,执行速度快,延迟时间短;

编码器、解码器的成本低。2022/11/25324.2.4压缩编码2022/11/23119压缩方法(compressionmethod)有损压缩无损压缩编码选择(codeselection)PC机常用的声卡上有自适应差分脉冲码调制方案,μ律/a律等,format(structure)2022/11/2533压缩方法(compressionmethod)2022120音频信息的压缩技术

Huffman

编码无损压缩

行程编码

全频带编码:

PCM;

DPCM;

ADPCM

子带编码

自适应变换编码ATC;心理学模型波形编码

矢量量化编码参数编码

线性预测

LPC

矢量和激励线性预测

VSELP

多脉冲线性预测

MP-LPC有

缩混合编码

码本激励线性预测

CELP2022/11/2534音频信息的压缩技术Huffma121图4-14音频信号处理过程2022/11/2535图4-14音频信号处理过程2022/11/23122第4章多媒体音频处理技术4.1音频信号及其概念4.2模拟音频的数字化过程4.3声卡的组成和功能4.4音频文件的格式与处理软件4.5乐器数字接口-MIDI4.6数字音频的应用2022/11/2536第4章多媒体音频处理技术4.1音频信号及其概念201234.3.1声卡的工作原理图4-16声卡工作原理框图采用大规模集成电路设计,将音频技术范围的各类电路以专用芯片的形式集成在声卡上,并可直接插入计算机的扩展槽中使用。2022/11/25374.3.1声卡的工作原理图4-16声卡工作原理框图1241.主芯片-数字信号处理器声音信息处理、特殊音效过滤与处理、语音识别、实施压缩等等任务。2.混音芯片-CODEC负责调节各声音来源的音量、混音与调整录放音的音量大小图4-18SoundBlasterPCI64声卡的混音器设置界面2022/11/25381.主芯片-数字信号处理器图4-18SoundBl1253.合成器

负责MIDI乐曲的合成可以及时创造各种音乐MIDI合成器有两种:频率调制合成器(FM合成器)、波形表(Wavetable合成器)。4.总线接口和控制器总线接口和控制器由数据总线双向驱动器、总线接口控制逻辑、总线中断逻辑和DMA控制逻辑组成。5.外部输入输出口声卡外部输入输出口均为3.5mm规格插口(MIDI/Joystick除外)2022/11/25393.合成器2022/11/231262022/11/25402022/11/231274.3.2声卡的性能指标1.音频技术指标2.MIDI音频3.声道数(DolbyAC-3等)图4-195.1声道系统的布局图2022/11/25414.3.2声卡的性能指标图4-195.1声道系统128

4.多音频流输出5.I/O设备接口

6.声卡软件

7.总线结构图4-20支持5.1声道系统的声卡接口2022/11/25424.多音频流输出图4-20支持5.1声道系统的声卡接1292022/11/25432022/11/231302022/11/25442022/11/231312022/11/25452022/11/23132杜比与DTS1.DolbyDigitalMono:杜比数字单声道音效只有单声道的效果,并不足以构成立体声,

2.DolbyDigitalStereo:杜比数字双声道音效将双声道的立体讯号储存为AC-3格式,

3.DoblyDigitalSurround:杜比数字环绕音效4.DolbyDigital4.0:杜比数字环绕音效4.05.DolbyDigital5.0:杜比数字环绕音效5.06.DolbyDigital5.1:杜比数字环绕音效5.1以DolbyDigital来表示DolbyDigital5.1,也就是5.1声道的

DolbyDigital或AC-3.

7.Dolbydigital7.1~11.1等等2022/11/2546杜比与DTS1.DolbyDigitalMo133杜比与DTSPCM高音质数字音效:DVD利用PCM格式储存未经压缩的双声道讯号,由于DVD具有庞大的

空间与速度优势,可以大胆使用更高的取样率与解析度,因此可以提供远高于传统CD的表现

DTS数字环绕音效:属于5.1声道的环绕效果,DTS采用与AC-3不同的压缩技术将环绕音效储存至DVD.播放时必须采用具有dts译码能力的系统.DTS跟DolbyDigital5.1最大的差别在于两者使用不同的”算法”2022/11/2547杜比与DTSPCM高音质数字音效:DVD利用PCM格1344.3.3声卡的主要功能录制与播放声音

通过接在声卡上的话筒录制声音,并以文件形式保存在计算机中,随时可打开声音文件进行播放。声音文件的格式可因使用不同的软件而不同。

音乐合成

利用声卡上的合成器将存储在计算机内存中的MIDI文件合成为音乐乐曲。通过混合器混合和处理多个不同音频源的声音,控制和调节音量大小,最后送至音箱或耳机播放。2022/11/2548录制与播放声音通过接在声卡上的话筒录制声音,并以文件135压缩和解压缩音频文件

目前,大多数声卡上都固化了不同标准的音频压缩和解压缩软件,常用的压缩编码方法有ADPCM(自适应差分脉冲编码调制)和ACM(微软音频压缩管理器)等,压缩比大约为2:1~5:l。与MIDI设备和CD驱动器的连接

通过声卡上的MIDI接口,计算机可以同外界的MIDI设备相连接,如连接电子琴、电吉他等,使MPC具有创作电脑乐曲和播放MIDI文件的功能。游戏杆也可通过MIDI接口与计算机相连接,使游戏玩起来得心应手。2022/11/2549压缩和解压缩音频文件目前,大多数声卡上都固化了不同标准136第4章多媒体音频处理技术4.1音频信号及其概念4.2模拟音频的数字化过程4.3声卡的组成和功能4.4音频文件的格式与处理软件4.5乐器数字接口-MIDI4.6数字音频的应用2022/11/2550第4章多媒体音频处理技术4.1音频信号及其概念20137

4.4.1数字音频的文件格式图4-21常用音频格式2022/11/25514.4.1数字音频的文件格式图4-21常用音频格式1381.WAV文件——.wav2.MP3——.mp33.MP4——.mp44.RealAudio文件—.ra/.rm/.ram5.APE文件——.ape图4-22MP3是Internet上流行的音乐格式2022/11/25521.WAV文件——.wav图4-22MP3是Inte1396.MIDI文件——.midi7.CD文件——.cda8.AAC文件——.m4a.mp4等9.PCM文件——.pcm10.WMA文件——.wma11.VOC文件——.voc12.AIFF文件——.aif/.aiff13.HDTA文件——.hdta2022/11/25536.MIDI文件——.midi2022/11/23140HDTA可变结构高解析度音频(Hi-DefinitionTransformableAudio)是一种结合了互动性和高解析度音频的新一代音频格式。

HDTA按照不同的标准,主要分为以下几种:

TA(只支持16Bit/44.1KHz传统音频)

HDTA立体声(只支持高解析度的双声道)

HDTA环绕声(支持6,8,16个声道的环绕声)新一代的HDTA格式音乐,是彻头彻尾的数字格式。它不以任何光盘为载体,而是作为一种计算机数据格式存在2022/11/2554HDTA可变结构高解析度音频(Hi-Definition1414.4.2音频制作与处理软件1.CoolEdit图4-25CoolEditPro的界面2022/11/25554.4.2音频制作与处理软件图4-25CoolEdi1422.SoundForge图4-26SoundForge音频处理软件

2022/11/25562.SoundForge图4-26SoundFor143第4章多媒体音频处理技术4.1音频信号及其概念4.2模拟音频的数字化过程4.3声卡的组成和功能4.4音频文件的格式与处理软件4.5乐器数字接口-MIDI4.6数字音频的应用2022/11/2557第4章多媒体音频处理技术4.1音频信号及其概念201444.5.1什么是MIDI

MIDI是数字音乐接口(MusicalInstrumentDigitalInterface)的缩写。或者说,MIDI是用来將电子乐器相互连接,或将MIDI设备与电脑连接成系统的一种通讯协议。通过它,各种MIDI设备都可以准确传送MIDI信息。不属于数字音响技术的范畴Midi数据不是数字的音频波形,而是音乐代码或电子乐谱4.5乐器数字接口-MIDI2022/11/25584.5.1什么是MIDI4.5乐器数字接口-MIDI1454.5.2MIDI系统的组成2022/11/25594.5.2MIDI系统的组成2022/11/231461.合成器图4-28具有USB接口的MIDI键盘使用振荡器来产生声乐的一种电子乐器,通过振荡器的电流震荡产生各种波形并进行处理,合成出新的音乐。合成器中的音序器和音色分别由软件和独立音源来代替,因此产生控制键盘。2022/11/25601.合成器图4-28具有USB接口的MIDI键盘使用振1472.音源图4-29硬件音源产品(RolandJV1080)音源音色的数量、品种和质量都将对最终音乐作品的效果产生重要的影响。音源内部是不同音色的样本波形,由音序器来决定何时调用。分为软硬件两种,专业硬件音源、多媒体声卡上包含GM音色库、以插件形式的软音源。2022/11/25612.音源图4-29硬件音源产品(RolandJV101483.音序器(Sequencer)

记录、编辑和播放midi文件的设备,硬件音序器又称为编曲机,软件音序器是音乐创作、编辑软件,比如Cakewalk等。4.采样器

对声音进行采样、然后编辑成多种的音色。5.其它设备如录音设备、监听设备、音箱功放等

YamahaQY100音序器2022/11/25623.音序器(Sequencer)YamahaQY1001494.5.3MIDI的工作过程

midi消息实际上是对一段音乐的描述,或理解为对乐谱的数字描述,包括音符、节拍、乐器种类等信息。消息分为状态信息和数据信息。

状态信息描述音符被演奏或是声音被加强等数据信息描述那个音符被演奏了,或被加强的声音的强度如何这类可以用量来表示的信息。2022/11/25634.5.3MIDI的工作过程2022/11/23150图4-31MIDI的工作过程2022/11/2564图4-31MIDI的工作过程2022/11/231512022/11/25652022/11/231524.5.4FM与波表合成方式1.FM合成法FM称为“数字式频率调制合成法”,简称FM合成法。FM合成法生成音乐的基本原理是,用数字信号来表示不同音乐的波形,然后把它们组合起来,再通过数模转换器(DAC)生成音乐播放。2.波表合成法为了能真实地再现音乐,目前的声卡一般采用音乐样本合成法,即波表合成法。把真实乐器发出的声音以数字的形式记录下来,存放在“波表文件”中,播放时根据命令生成各种音阶的音符,产生的声音质量比较高。2022/11/25664.5.4FM与波表合成方式2022/11/23153FM合成法:比如MIDI音乐(用符号描述的乐器演奏的音乐声音)、合成语音(用声母、韵母或清音、基音频率等参数描述的语音)等。符号化的声音表示方法所产生的声音虽然没有自然声那么真实、逼真,但数据量要比波形声音小得多(2~3个数量级),而且能产生自然界中不存在的声音,其编辑处理也比波形声音更加方便一些。

2022/11/2567FM合成法:2022/11/231544.5.5GM-标准MIDI乐器排序表4.5.6MIDI音乐创作软件与音序软件图4-33CakeWalkProAudio音序软件主界面2022/11/25684.5.5GM-标准MIDI乐器排序表图4-33C155图4-34在CakewalkProAudio能容易地对MID乐谱进行编辑和创作2022/11/2569图4-34在CakewalkProAudio能容156第4章多媒体音频处理技术4.1音频信号及其概念4.2模拟音频的数字化过程4.3声卡的组成和功能4.4音频文件的格式与处理软件4.5乐器数字接口-M

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论