数字音频技术基础_第1页
数字音频技术基础_第2页
数字音频技术基础_第3页
数字音频技术基础_第4页
数字音频技术基础_第5页
已阅读5页,还剩122页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数字音频技术基础Part1Part1数字音频技术基础数字音频技术基础声音声音信号数字化采样与量化音频质量与数据量音频文件的存储格式语音合成与语音识别技术声音声波是由机械振动产生的波。当声波进入人耳,鼓膜振动导致内耳里的微细感骨的振动,将神经冲动传向大脑,听者感觉到的这些冲动就是声音。表现形式:语音、自然声、音乐即音频信号可分为:语音信号与非语音信号t振幅周期A数字音频技术基础数字音频信号的处理主要表现在数据采样和编辑加工两方面。声音的基本特点

振幅

——表示声音的强弱

周期——两个相邻声波之间的时间长度,单位(s)

频率——每秒钟声波振动的次数,单位(Hz)频域——声音的频率范围声音的方向以振动波的形式从声源向四周传播。从声源直接到达人类听觉器官的声音称为“直达声”,直达声的方向辨别最容易。现实生活中,森林、建筑、各种地貌和景物存在于人们的周围,声音从声源发出后,一般须经过多次反射才能被人们听到,这就是“反射声”。声音的三要素音调:声音的高低(与频率相关)音色:具有特色的声音(纯音与复音)音强:声音的强度(与振幅成正比)频谱、质量、连续时基性声音的质量简称“音质”,音质的好坏与音色和频率范围有关。声音的连续时基性:在时间轴上是连续的信号,具有连续性与过程性。数字音频技术基础声音按频率分类:次声波可听声波超声波20Hz20kHzf(Hz)人类说话声音频率范围:300Hz-3kHz声音质量的频率范围:1020502003.4k7k15k20kCD-DAFM广播AM广播电话f(Hz)频带声音的传播与可听域声音依靠介质的振动进行传播声源类型频带宽度(hz)男性语音100~9000女性语音150~10000电话声音200~3400电台调幅广播(AM)50~7000电台调频广播(FM)20~15000高级音响设备重放声音20~20000宽带音响设备重放声音10~40000声音信号数字化音频处理技术主要包括电声转换、音频信号的存储、重放技术、加工处理技术以及数字化音频信号的编码、压缩、传输、存取、纠错等。声音的A/D与D/A转换A/D转换的一个关键步骤是声音的采样和量化,得到数字音频信号,它在时间上是不连续的离散信号。借助A/D或D/A转换器,模拟信号和数字信号可以互相转换采样与量化声音信息的数字化过程是每隔一个时间间隔在模拟声音波形上取一个幅度值(称为采样,采样的时间间隔称为采样周期),将采样得到的表示声音强弱的模拟电压用数字表示(称为量化)。音频数字化处理采样和量化的过程可由A/D转换器实现。A/D转换器以固定的频率去采样,即每个周期测量和量化信号两次(正负振幅)。经采样和量化后声音信号经编码后就成为数字音频信号,可以将其以文件形式保存在计算机的存储介质中,这样的文件一般称为数字声波文件音频数据采样信息论的奠基者香农(Shannon)指出:在一定条件下,用离散的序列可以完全代表一个连续函数,这是采样定理的基本内容。为实现A/D转换,需要把模拟音频信号波形进行分割,这种方法称为采样(Sampling)。将采样值用二进制的形式表示成为“量化编码”声道数:一次采样的声音波形个数。采样频率指计算机每秒钟采集多少个声音样本。采样音频是连续的时间函数X(t),对连续信号采样,即按一定的时间间隔(T)取值,得到X(nT)(n为整数),T称为采样周期、1/T称为采样频率。X(0)、X(T)、X(2T)称为采样值。采样频率与声音频率之间有一定的关系,根据奈奎斯特(Nyquist)理论,只有采样频率高于声音信号最高频率的两倍时,才能把数字信号表示的声音还原成为原来的声音。声音信号数字化常用的采样频率:8kHZ(电话质量)11.025kHZ(AM)22.05kHZ(FM)44.1kHZ(CD质量)问题:为什么CD的音质要比电话音质好很多?声音质量的评价用声音信号的带宽来衡量声音的质量,等级由高到低依次是DAT,CD,FM,AM和数字电话。量化量化的过程是先将采样后的信号按整个声波的幅度划分成有限个区段的集合,把落入某个区段内的样值归为一类,并赋于相同的量化值。如何分割采样信号的幅度呢?我们还是采取二进制的方式,以8位(bit)或16位(bit)的方式来划分纵轴。也就是说在一个以8位为记录模式的音效中,其纵轴将会被划分为多个量化等级,用以记录其幅度大小。量化以下图所示的原始模拟波形为例进行采样和量化。假设采样频率为1000次/秒,即每1/1000秒A/D转换器采样一次,其幅度被划分成0到9共10个量化等级,并将其采样的幅度值取最接近0~9之间的一个数来表示,如下图所示。图中每个正方形表示一次采样。音频数据采样、离散、量化过程

(a)划分为8个量化级的示意

(b)按采样周期切割过程示意(c)对采样点进行离散化示意

(d)量化过程示意

音频数据采样、离散、量化过程

00101110111011110110001000100100000076543210

经过离散并且量化的音频信号,在完成量化后,就可以对其点进行编码。8级量化点,可用3位二进制数来表示,如图中的量化点,其值编码分别为001、011、101、110、111、101、100、010、001、001、000、000。量化与失真如何减少失真呢?可以直观地看出,我们可以把上图中的波形划分成更为细小的区间,即采用更高的采样频率。同时,增加量化精度,以得到更高的量化等级均匀量化与非均匀量化

非均匀量化的基本思想:对输入信号进行量化时,大的信号采用大的量化阶距,小的输入信号采用小的量化阶距,这样可以满足在采样精度的要求下用较少的位数来表示大信号数据。22

律压扩

μ律(μ-Law)压扩主要用在北美和日本等地区的数字电话通信中,按下面的式子确定量化输入和输出的关系

23

A律(A-Law)A律(A-Law)压扩主要用在欧洲和中国大陆等地区的数字电话通信中,按下面的式子确定量化输入和输出的关系

音频数字化采样频率越高,数字化音频的质量也就越高。量化位数越大,对音频信号的采样精度就越高声音数字化三要素采样频率量化位数声道数每秒钟抽取声波幅度样本的次数每个采样点用多少二进制位表示数据范围使用声音通道的个数采样频率越高声音质量越好数据量也越大量化位数越多音质越好数据量也越大立体声比单声道的表现力丰富,但数据量翻倍11.025kHz22.05kHz44.1kHz8位=256个值16位=65536个值单声道立体声

音频的质量与数据量数据量:v=f×b×s/8其中,v代表数据量;f是采样频率;b是数据位数;s是声道数。

[例]如果一张CD质量的参数为,f=44.1kHz,b=16bit,s=2,则每秒钟的数据量为多少?解:v=(44100Hz×16bit×2)÷8=176400B(约合172KB)比特率比特率,或数码率,是指每秒传送的比特(bit)数。单位为bps(BitPerSecond)。比特率越高,传送的数据越大,音质越好。计算方法:I=b*f*sCD的比特率为1.4Mb/sMP3:112~128kb/s128Kb/s为手机立体声MP3播放器最佳设定值、低档MP3播放器最佳设定值音频质量采样频率

kHz采样精度bit声道形式数码率

kbps频带Hz电话88单声道AM11.0258单声道50~7000FM16立体声20~15000CD16立体声DAT4816立体声20~200006488.2705.61411.21536200~340020~2000022.0544.1防失真滤波器波形编码器(采样器)量化器÷模拟声音信号输入PCM样本脉冲编码调制(PCM)PCM的特点概念最简单、理论最完善的编码系统;最早研制、使用最广泛的编码系统;数据量最大的编码系统。原理量化分为均匀量化和非均匀量化。采用的量化方法不同,量化后的数据量不同,可以说量化是一种压缩数据的方法增量调制(DM)增量调制(DeltaModulation)思想对实际信号与预测信号之差的极性进行编码。步骤:根据前面的采样数据预测下一个数据采样y[i+1]=y[i]±△;得实际当前采样信号输入,计算预测误差e=yi-y[i+1];量化:均匀量化,量化阶为△ife>=0then编码值=1;ife<0then编码值=0特点:1位编码系统问题:若信号变化过快,DM输出不能跟随,称为“斜率过载”。这是受到量化阶△大小的限制,而△是固定大小的(意味着固定的斜率)。信号缓变部分,DM输出出现随机“0”和“1”,称为“粒状噪声”,不可消除。在确定△大小时,粒状噪声和斜率过载是相互矛盾的自适应增量调制(ADM)思想使DM的量化阶△能自适应,根据输入信号的斜率变化自动调节其大小方法斜率增大,△增大;反之亦然不同方法调制细节不同自适应脉冲编码调制(APCM)思想根据输入信号幅度大小来改变量化阶大小的一种波形编码技术自适应策略瞬时自适应:每隔几个样本就改变量化阶。音节自适应:量化阶的大小在较长时间周期里发生变化自适应方法前向自适应根据未量化样本值的均方根值来估算输入信号的电平,以此确定量化阶的大小,并对其电平进行编码作为边信息传送到接收端。后向自适应从量化阶刚输出的过去样本中来提取量化阶信息。本方法可以在解码端自动生成量化阶,不需传送边信息量化器逆量化器预测器-+++8位PCM样本差分编码信号d(k)dq(k)Sr(k)Se(k-1)S(k)T(k)差分脉冲编码调制(DPCM)思想(与PCM的不同之处)PCM:直接对采样信号进行量化编码。DPCM:对实际信号与预测信号之差进行编码,即利用样本与样本之间的信息冗余度来进行编码。特点对差值进行编码,减少了每个样本信号的位数;存储或传送的是差值,降低了数据量;适应大范围变化的输入信号量化器逆量化器预测器-+++8位PCM样本差分编码信号调整量化阶自适应差分脉冲编码调制(ADPCM)思想:利用自适应改变量化阶的大小。小的量化阶编码小的差值,反之亦然。使用过去的样本估算下一个输入样本的预测值,使预测误差最小。特点综合了APCM和DPCM两种算法的优点,是综合性能较好的波形编码算法声音文件的存储格式

媒体格式扩展名相关公司或组织主要优点主要缺点适用领域WAV wavMicrosoft可通过增加驱动程序而支持各种各样的编码技术不适于传播和用作聆听,Windows平台下使用音频原始素材保存mp3Fraunhofer-IISMPEG-1AudioLayer3在低至128kbps的比特率下提供接近CD音质的音频质量。广泛的支持音质欠佳一般聆听和高保真聆听RealMediara,RealNetworksrma极低的比特率环境下提供可听音频质量不适于除网络传播之外的用途。音质不是很好网络音频流传输声音文件的存储格式WindowsMedia功能齐全,使用方便。同时支持无失真、有失真、语音压缩方式失真压缩方式下音质不高。平台限制音频档案级别保存,一般聆听,网络音频流传输wma,asfMicrosoftMIDMIDIRMIXMI等音频数据为乐器的演奏控制,通常不带有音频采样没有波表硬件或软件配合时播放效果不佳与电子乐器的数据交互,乐曲创作等MIDIAssociationOggVorbisOGGXiphFoundation在极低的比特率环境下提供接近CD音质的音频。开放源代码,跨平台发展较慢,推广力度不足一般聆听和高保真聆听媒体格式扩展名相关公司或组织主要优点主要缺点适用领域ape无失真压缩。部分开放代码由于是个人作品,使用上存在一定风险高保真聆听和音频档案级别保存MatthewT.AshlandMonkey'sAudioaiff可通过增加驱动程序而支持各种各样的编码技术一般限于苹果电脑平台使用音频原始素材保存aiffApple

voxvoxDialogic面向语音的编码文件格式缺乏足够的信息,不适应作存档用途。淘汰声音文件的存储格式媒体格式扩展名相关公司或组织主要优点主要缺点适用领域WAV文件采样、量化后转换的二进制数直接存入磁盘支持PCM、ADPCM等多种编码,支持多种量化位数、采样频率和声道。特点:效果稳定、一致性好立体声比单声道的数据量大一倍可真实记录任何一种声源发出的声音格式:包含两个文件构造块(格式块以及声音数据块)时域TimeDomain频域FrequencyDomain频域与时域时域TimeDomain频域FrequencyDomain频域与时域

语种languages

性别sex声音类型Thekindsofvoice笛子flute钢琴piano中文Chineseviolin小提琴英文English德文Deutsch男声male女声female

乐器instrument不同种类的声音分析

不同类型声音对比分析

不同类型声音对比分析

不同类型声音对比分析

一段语音的时域波形及其语谱图语音时域波形对应的语谱图语谱图分析语谱图语音的时域分析和频域分析是语音分析的两种重要方法。但是这两种方法均有局限性:时域分析对语音信号的频率特性没有直观的了解;频域中又没有语音信号随时间的变化关系。因此人们致力于研究语音的时频分析特性,把和时序相关的傅里叶分析的显示图形称为语谱图。语谱图语谱图在1941年由贝尔实验室研究人员发明,它试图用三维的方式显示语音频谱特性,纵轴表示频率,横轴表示时间,颜色的深浅表示特定频带的能量大小,语谱图的发明是语音研究的一个里程碑,它将语音的许多特征直观的呈现出来。语谱图中显示了大量的与语音的语句特性有关的信息,它综合了频谱图和时域波形的特点,明显地显示出语音频谱随时间的变化情况,或者说是一种动态的频谱。一、语谱图的分类语谱图分为宽带语谱图和窄带语谱图两种。宽带语谱图:带宽约为300Hz,具有良好的时间分辨率,但是频率分辨率较差;宽带语谱图能给出语音的共振峰频率及清辅音的能量汇集区,在语谱图里共振峰呈现为黑色的条纹。窄带语谱图:带宽约为45Hz,具有良好的频率分辨率,但是时间分辨率较差。有利于显示基音频率及其各次谐波,不利于观察共振峰的变化。在不同的语谱图上所表现的语音特征也不同。二、宽带语谱图的典型谱型宽带语谱图的典型谱型:宽横杠(Bar):代表元音的共振峰位置,表现为图中与水平时间轴平行的较宽的黑杠,不同元音的共振峰位置不同,根据宽带语谱图上各横杠的位置可以区分不同的元音,不同人发音的第一共振峰位置会不同,但其分布结构是相似的。竖直条(spike)代表塞音(b,d,g,p,t,k)或塞擦音(z,zh,j,c,ch,q),表现为图中与垂直频率轴平行的较宽的黑条,在时间上持续时间很短,在频率轴上集中区位置随不同的辅音而不同摩擦乱纹(fill):代表摩擦音(s,sh,x,f,h)或者送气音的送气部分,表现为图中无规则的乱纹。51三、窄带语谱图的典型谱型窄横条:代表元音的基音频率及各次谐波,表现为图中与水平轴平行的线条,窄横条在频率轴的位置对应了音高频率值,随时间轴的曲折、升降变化代表了音高变化的模式无声间隙段:对应于语音的停顿间隙,在图中表现为空白区,在两种语谱图中都存在。这种反映语音信号动态频谱特性的时频图在语音分析中具有重要的实用价值,被称为“可视语言”语谱图分析语谱图中的花纹有横杠、乱纹和竖直条等横杠是与时间轴平行的几条黑色带纹,它们是共振峰,从横杠对应的频率和带宽可以确定相应的共振峰频率和带宽在一个语音段的语谱图中,有没有横杠出现是判断它是否是浊音的重要标志。竖直条(又叫冲直条)是语谱图中出现与时间轴垂直的一条窄黑条。每个竖直条相当于一个基音,条纹的起点相当于声门脉冲的起点,条纹之间的距离表示基音。条纹越密表示基音频率越高。53宽带语谱图:“毕业”语谱图语谱图因其不同的黑白程度,形成不同的花纹,被称作“声纹”从语谱图上可以看出语音的音调变化,蓝色的就是音调同一个人的语谱图5个不同发音者发音“0”的语谱图不同的讲话者的语谱图具有不同的“声纹”。据此可以区别说话人,这与不同的人有不同的指纹,根据指纹可以区别不同的人是一个道理。话者1发音“0”的结果话者1另一次发音“0”的结果58话者1发音“0”的结果话者2发音“0”的结果

不同类型声音对比分析

不同类型声音对比分析幅度时间

不同类型声音对比分析幅度频率思考:从时域、频域、语谱对不同性别、不同乐器、不同语种的声音信号进行对比和分析。声音信号数字化计算机声音有两种产生途径一种是通过数字化录制直接获取(波形音频)另一种是利用声音合成技术实现(MIDI)声音合成技术是用微处理器和数字信号处理器代替发声部件,模拟出声音波形数据,然后将这些数据通过数模转换器转换成音频信号并发送到放大器,合成出声音或音乐。MIDI(乐器数字接口)是在1983年由MIDI制造者协会(MMA)提出作为一个控制电子乐器的标准化串行通信协议提出的。该协议允许电子合成器互相通信,而不考虑制造厂家是谁。音阶CDEFGAB乐谱音符1234567基频Hz216293330349392440494音乐合成与MIDI系统

音乐合成技术音乐基础知识音乐的特点时域——音乐波形呈现周期性变化;频域——基频谱和谐波谱(基频的整数倍)音乐的四个要素音高:声波的基频,也叫音阶音色:由声音的频谱决定。不同乐器音色不同,因此能够区分音量:声音强度音长:乐声的持续时间音乐合成技术数字合成技术使用电子元器件(计算机)生成音乐的技术合成方法频率调制(FM)合成法乐音样本合成法,也称波形表合成法音乐合成的关键在于解决好音乐各要素的表达和配合频率调制(FM)合成法原理FM电子合成器先由震荡器产生一个载波作为基音,然后再产生若干个调制波带着许多泛音加在载波之上,可以对这个组合加以任意调整,然后加上典型的声音包络线(ADSR),再通过数控滤波器和数控放大器送往数字/模拟转换器,从而形成最后的音响包络由于一个物体不可能总是一成不变的振动,所以它的频率和振幅都会随着时间的改变而改变,并最终趋于静止。把一声音的发展过程分为触发、衰减、保持和消失四个阶段,统称为“包络”包络的发生时间,也决定了一个乐音的时值组合数字载波和调制器波形参数进行数字运算D/A模拟声音信号输出声音包络发生器ADSR数字载波调制波形音调音量波形频率深度类型反馈颤音音效A:音量提升速度D:音量降低速度S:乐音维持强度R:声音回零速度改变频率改变幅度音调完整改变音调周期,可改变颤音特性调节电平调频音乐(FM)合成原理图a=1i=0.5fc=1fm=10t=[0:0.1:9]y=a*sin(fc*t+i*sin(fm*t))plot(y)sound(y)调制信号载波信号a=1i=0.1fc=1fm=10a=1i=0.5fc=1fm=10a=1i=0.1fc=1fm=20FM合成原理仿真乐音样本合成法问题FM合成音乐难度大,有些乐音无法合成解决把真实乐器发出的声音以数字形式记录下来,播放时加以调整、修饰和放大,生成各种音阶的音符采集存放44.1kHz、16位的乐音样本(CD音质),存放在ROM芯片上。播放时以查表的方式给出,所以这种合成器又叫做波表(wavetable)合成器特点输入控制参数比较少,可控制数字音效不多,声音质量比FM合成方法产生的声音质量要高波形表合成器的工作原理波形表合成器的衡量标准波表库容量,音调数(复音数),音色数,特殊效果硬波表、软波表与DLS硬波表把乐器波形存放到ROM里,需要时直接调用;价格贵并且不易升级软波表把乐器的波形存到硬盘上的某一个文件里,需要时通过CPU运算调用,会占用比较多的CPU资源著名的软波表有YAMAHA公司的S-YXG系列和ROLAND公司的VSC系列,还有韩国COWON公司的JET-MIDIDLS(DownloadableSoundModules)波表介于硬波表和软波表之间,能把波表存储在硬盘上,使用时再调入内存然后通过声卡上的专用音效芯片来处理;价格便宜公式准备2024/11/1472声音合成从最简单的开始732024/11/1474频率的基准点

·钢琴键盘知识准备2024/11/1475关于简谱和音高的知识,在钢琴的键盘上面,排列着黑白双色的琴键,这里引入音高和声音频率的关系式:其中f是声音的频率,p是音高。而每个琴键之间差一个音高,例如:白色琴键和白色琴键之间是相差了1个音高(如果中间没有黑键),白色琴键和黑色琴键之间是差了1个音高。具体如下图:2024/11/1476一般情况下,如果简谱没有写明,则以C4为do,之后的D4,E4,F4,G4,A4,B4分别为re,mi,fa,sol,la,xi,其中C4为一般情况下的do,其音高为60,则D4,E4,F4,G4,A4,B4分别为62,64,65,67,69,71。当然了,简谱左上角一般都会写明以哪一个为起始的do,例如,《传奇》中写明了1=E,即是以E4为do,然后各个音调整体向右移两格,之后的F4,G4,A4,B4,C5,D5分别为re,mi,fa,sol,la,xi2024/11/1477因为一首歌是由若干个音符组成,首先对原歌曲的声音信号进行傅里叶分析,然后简化成不同频率的sin函数的和,再乘以其所占的比例。再调用这些不同的已经拟合好的音节,便可以组成一首歌曲了。

声音的衰减会影响音色,并且如果不把衰减加入,会产生冲击杂音。因为一个音从一个固定值结束为0时,另一个音的值会突然从0跳跃到某一个值,这便产生了脉冲,让人有噪声的感觉。2024/11/1478那么什么是声音的衰减呢,我们都知道当我们说话的时候不可能保持一个响度,即声音的振幅,话快说完时声音会减弱,这就是声音的衰减。我这里为了简便,将e^t作为衰减函数了,并将声音函数构造如下:

其实这并不是很完美的一个方案,每个音衰减的冲击消除了,但是每个音开始的冲击并没有消除,但是有改善,那是因为可以将e^t的最小值设为1,使跳跃的幅度不那么大。真正理想的衰减应当是类似心电路图的那种形式,如图:2024/11/1479

现在我们可以计算每个音符的频率,也就是我们可以单独用matlab发出单个的音节了。但是对于下面的谱子:

我们发现还有一个没有解决的问题:

每个音符的时长2024/11/1480Matlab里面有两个函数:一个是sound函数sound(Y,Fs,bits),Y为声音的信号。Fs为采样频率,根据采样定理,当采样频率大于实际信号频率最大值的两倍时,采样之后的信号可完整保留原始信号中的信息。可取了MP3的标准44.1kHz。bit是字节数,数值越大,声音在播放时每秒通过的字节越多,音质越好。同时,bit的值越大,信噪比越高,即声音信号与噪声信号的比值越大,说明混在声音中的噪音越少,CD的标准是16bit,44.1kHz。2024/11/1481另一个函数是wavwrite(Y,Fs,bits,‘filename’),Y,Fs,bits和上面的意义相同,需要注意的是,这里的bits要取的大于sound函数中的bits,以防止声音信号的值被裁减掉(即失真)。filename即为你想要保存的文件名2024/11/1482调整旋律2024/11/1483ASDR2024/11/1484ASDR起音(attack):这段决定声音从开始发出到最初的最大音量所需的时间长短。在打击乐音色里这部分当然要很短。

衰减(decay):在声音达到最大音量后立即发生衰减的时间长短,衰减后的音量大小就是后面保持的音量大小。

保持(sustain):他决定在衰减后音量保持的大小,与其他三个不同的是他并不代表保持的时间长短,形象的说当你按下键盘不松手,持续发声时的音量大小就是保持决定的,你按多长时间他就保持多长时间,所以他不代表时间长短。通常保持的音量都低于起音的最高音量,不过也有相同甚至高出起音音量的。

释音(release):这是声音最后的阶段,代表着声音从保持的音量逐渐衰减到0电平(最小音量)的时间长短。

2024/11/1485wave=wavread('F:\g.wav');[Y,FS]=audioread(FILENAME)2024/11/1486电子乐器数字接口MIDIMusicalInstrumentDigitalInterface的缩写,即:电子乐器数字接口用于在音乐合成器(musicsynthesizers)、乐器(musicalinstruments)和计算机之间交换音乐信息的一种标准协议MIDI不是声音信号。是一串时序命令。原声钢琴8分音符的C3音:000060音色Piano编号音符C3编号8分音符编号MIDI与音乐合成MIDI标准MIDI是各种电子音乐设备之间以及与计算机交换信息的国际标准。(Yamaha,Roland)MIDI硬件规范:硬件接口标准和信号传输机制(I/O通道类型、连接电缆和插座形式)。MIDI软件规范:音乐信息数字化编码方式(音符、音符长短、音调和音量等)。利用数字信号处理技术合成的音效有:①模仿钢琴、小提琴、吉他等音色;②超越时空的太空音乐。电子乐器数字接口MIDI优点:占用的存储空间较小,易编辑缺点:只与乐器之间发生紧密的信息联系产生方法:FM合成法和乐音样本(波表)合成法MIDI规范包含三个部分:MIDI协议;标准MIDI文件规范;MIDI连接器。2006年08月22日第四章音频处理技术90两台MIDI设备之间可以通过接口发送信息而进行相互通信。一台MIDI设备可以有1~3个端口:MIDIIn接口——接收来自其它MIDI设备上的MIDI信息;

MIDIOut接口——用来输出本设备生成的MIDI信息;

MIDIThru接口——将从MIDIIn端口传来的信息发送到另一台相联的MIDI设备上。MIDI设备配置与连接在进行MIDI通信时,用户可以通过标准的MIDI电缆来相互连接各端口。MIDI电缆是一根屏蔽的双绞线和两端带有插入式的5针D型插头组成。MIDI与游戏口电缆MIDI接口游戏接口In和OutMIDI设备配置与连接MIDI设备配置与连接

多媒体计算机与MIDI设备连接示意声卡声卡的功能音频录放数字化音频采样频率范围:5~44.1kHz;量化位:8/16位;通道数:立体声/单声道编码与压缩:基本编码方法为PCM,压缩编码方法有ADPCM等,实时硬件压缩/软件压缩音频录放的自动动态滤波录音声源:麦克风、立体声线路输入、CD编辑与音乐合成——对声音进行各种特殊处理,如倒播、增加回音效果、静噪音、往返放音、交换声道等。音乐合成功能和性能主要是依赖于合成芯片。其它接口:MIDI接口、CD-ROM接口,游戏棒接口文语转换和语音识别:一般声卡都提供英语文语转换软件,如SoundBlaster。有的声卡提供语言识别软件声卡的组成原理线性输出总线接口芯片数字音频处理芯片音乐合成器A/D和D/AMIDI接口混音器CD接口计算机总线话筒输入线性输入扬声器输出声卡的外部接口滤波的意义在于:

面对一个复合频率,根据需要,滤掉一部分频率。概念、定义:

滤波器是针对对声音频谱进行修改的效果器;对特定频率进行有效提取并对提取部分进行特定的编辑(增、减、删除),就是滤波。常见的滤波器分为高通、低通、带通、带阻4种。未处理的声音低通滤波器与高通滤波器LPF(Lowpassfilter)HPF(Highpassfilter)带通滤波器与带阻滤波器BPF(Bandpassfilter)BRF(Bandrejectionfilter)命令路径:效果——滤波器——FFT滤波器低通滤波器的应用在空气中传播的声音,遇到固体和液体时,会有一部分声音被阻碍,而另一部分声音则能或穿过、或绕过这些阻碍;多数情况下,被阻碍的是高频,穿过、绕过的是低频;即我们可以使用低通滤波器将高频减小、滤除,模拟这种受到阻碍的声音。实例:隔壁传来的音乐声(切除点:880Hz)潜水人听到岸上的音乐声(切除点:110Hz)切除点与坡度可根据具体场景,灵活变化;如,砖墙与石墙的滤波效果不一样;木门与厚铁门的滤波效果不一样;又如,潜水的深度不同,滤波效果也有区别。此类参数没有固定值,下面实例同理。高通滤波器的应用人耳对高频比较敏感(等响曲线);换句话说,要制造同样响度的高频和低频,低频需要更多的能量,高频需要较低的能量;耳机由于功率很小,所以距离远的时候,声音能量损失很大;这种声能损失后,低频能量太小,超出了人耳的感觉阈限,而高频虽然也有损失,但留下的量仍能刺激人耳听感。实例:耳机里传来的音乐声(切除点:3500Hz)低音单元坏掉的音箱(切除点:400Hz)带通通滤波器的应用许多电器发出的声音,其频谱是有“缺陷”的;比如,电话的听筒,它滤掉了高频和低频,只保留对语言识别有作用的400Hz~4000Hz;又如,小型收音机,由于扬声器较差,所以不能发出200Hz以下、7000Hz以上的频率;还如,电视机、对讲机……实例:电话(频带:400Hz~4000Hz)收音机(频带200Hz~7000Hz)另外,在模拟更“劣质”扬声器的时候,还可以通过设定最大能量的方式提升某个频段,如:语音信号的冗余度时域信息的冗余度频域信息的冗余度人的听觉感知机理时域信息的冗余度幅度的非均匀分布语音中的小幅度样本比大幅度样本出现的概率要高又由于通话间隙造成大量低电平样本实际讲话信号功率电平也趋向于出现在编码范围的较低电平端。样本间的相关性采样数据的最大相关性出现在邻近样本间。当采样频率为8KHz时,相邻样本相关系数大于0.85。周期之间的相关性虽然语音信号需要300~3400Hz的带宽,但在特定的瞬间,某一声音却往往只是该频带内的少数频率成分在起作用,跟某些振荡波形一样,周期与周期之间存在相关性频域信息的冗余度非均匀的长时功率谱密度呈现强烈的非平坦性。功率谱上的高频能量较低,恰好对应时域上相邻样本间的相关性。语音特有的短时功率谱密度在某些频率上出现峰值,某些上出现谷值。这些峰值频率称为共振峰。人的听觉感知机理人的听觉具有掩蔽效应同时掩蔽同时发声时,强声掩盖弱声。异时掩蔽不同时间先后发生,强声使周围弱声难以听见人耳对不同频段的声音的敏感程度不同对低频更敏感同样声压级,人耳实际感觉到的音量是随频率而变化人耳对语音信号的相位变化不敏感音频压缩编码的基本方法无失真压缩音频压缩方法有失真压缩Huffman编码行程编码波形编码参数编码混合编码全频带编码PCMDPCMADPCM子带编码自适应变换编码ATC

心理学模型矢量量化线性预测LPC矢量和激励线性预测VSELP多脉冲线性预测MP-LPC码本激励线性预测CELP音频编码的分类(1)基于音频数据的统计特性进行编码典型技术:波形编码目标:重建语音波形保持原波形的形状。编码方法时域法:以下均为预测编码PCM(脉冲编码调制)、DPCM(差分脉冲编码调制)APCM(自适应脉冲编码调制)、ADPCM(自适应差分脉冲编码调制)等。频域法(变换编码):SBC(子带编码)、ATC(自适应变换编码)、小波编码等。特点:适应性强,音频质量好,但压缩比不高,因而数据率较高音频编码的分类(2)基于音频的声学参数进行参数编码原理:从语音波形信号中提取参数,通过语音生成模型重构语音。目标:保持原音频的特性。常用参数:共振峰、线性预测系数、滤波器组等。特点:数据率低,保密性好(用于军事);还原信号质量较差,自然度低。混合编码:结合(1)和(2)特点:能在较低的码率上得到较高的音质。方法:AbS(时域合成-分析编译码器)、MPE(多脉冲激励编译码器)、RPE(等间隔脉冲激励)CELP(码本激励线性预测编码)、MPLPC(多脉冲激励线性预测编码)音频编码的分类(3)基于人的听觉特性进行编码原理:从人的听觉系统出发,利用掩蔽效应,设计心理学模型,从而实现更高效率的数学音频的压缩。方法:从MPEG标准中的高频编码、DolbyAC-3CCITT(国际电报电话顾问委员会)、ISO(国际标准化组织)分类算法名称数据率标准应用质量波形编码PCM均匀量化公共网ISDN配音4.0-4.5(A)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论