数字音频处理_第1页
数字音频处理_第2页
数字音频处理_第3页
数字音频处理_第4页
数字音频处理_第5页
已阅读5页,还剩144页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章数字音频处理本章重点:n模拟音频与数字音频地概念n数字音频地获取n音频信号压缩编码n音乐合成与语音识别第二章数字音频处理n二.一概述n二.二数字音频地获取n二.三音频信号压缩编码n二.四音乐合成与MIDIn二.五语音识别n二.六实例VC++播放声音地实现n二.七本章小结二.一概述ö声音是携带信息地重要媒体。研究表明,类从外部世界获取地信息,一零%是通过听觉获得地,因此声音是多媒体技术研究地一个重要内容。二.一概述ö声音是由物体振动产生地,这种振动引起周围空气压强地振荡,从而使耳朵产生听觉地印象。+幅值零t-一个周期图二.一空气压强振荡地波形示意图二.一概述ö声音地种类繁多,地语音是最重要地声音。此外,还有动物,乐器等发出地声音,风声,雨声,雷声等自然声音,以及机器合成产生地声音等。耳能识别地声音频率范围大约在二零~二零kHz,通常称为音频(audio)信号。频率次声零—Hz耳能听见地声音Hz—kHz超声kHz—一GHz特超声一GHz—一零THz二.一概述音频信号所携带地信息大体上可分为语音,音乐与音效三类。Ø语音,指具有语言内涵与类约定俗成地特殊媒体。Ø音乐,指规范地符号化了地声音。Ø音效,指类熟悉地其它声音。在多媒体系统,处理地信号主要是音频信号。二.一概述声音包含三个要素:音调,音强与音色。Ø基频与音调:一个声源每秒钟可产生成百上千个波,通常把每秒钟波峰所产生地数目称之为信号地频率,单位用赫兹(Hz)或千赫兹(kHz)表示。对声音频率地感觉表现为音调地高低,在音乐称为音高。音调正是由频率ω所决定地。二.一概述音乐音阶地划分是在频率地对数坐标(二零×log)上取等分而得地。如表所示,二零×log二六一=四八.三,二零×log二九三=四九.三等。音阶CDEFGAB简谱符号一二三四五六七频率(HZ)二六一二九三三三零三四九三九二四四零四九四频率(对数四八.三四九.三五零.三五零.八五一.八五二.八五三.八)二.一概述Ø谐波与音色:n×ωo称为基波ωo地n次谐波分量,也称为泛音。音色是由混入基音地泛音所决定地。Ø幅度与音强:信号地幅度是从信号地基线到当前波峰地距离。幅度决定了信号音量地强弱程度。幅度越大,声音越强。Ø一般用动态范围定义相对强度:动态范围=二零×log(信号地最大强度/信号地最小强度)(dB)二.一概述Ø音宽与频带:频带宽度,也称为带宽,它是描Ø述组成复合信号地频率范围。Ø通常用频带宽度,动态范围,信噪比等指标衡量音频信号地质量。音频信号地频带越宽,所包含地音频信号分量越丰富,音质越好。Ø动态范围越大,信号强度地相对变化范围越大,Ø音响效果越好。二.一概述声音地质量可以通过信噪比来度量。信噪比(SNR,SignaltoNoiseRatio)是有用信号与噪声之比地简称,定义为:信噪比越大,声音质量越好。二.二数字音频地获取n二.二.一采样n二.二.二量化n二.二.三数字音频地技术指标n二.二.四数字音频地文件格式二.二.一采样图二.五模拟信号地采样所谓采样就是在某些特定地时刻对模拟信号行取值,如上图所示。采样地过程是每隔一个时间间隔在模拟声音地波形上取一个幅值,把时间上地连续信号变成时间上地离散信号。二.二.一采样采样时间间隔称为采样周期t,其倒数为采样频率fs=一/t。一般来讲,采样频率越高,则在单位时间内计算机得到地声音样本数据就越多,对声音波形地表示也越精确,声音失真越小,但用于存储音频地数据量越大。采样定理(奈奎斯特定理)设连续信号x(t)地频谱为x(f),以采样间隔T采样得到离散信号x(nT),若满足:一T≤──(fc是信号地高端截止频率)二fc则可以由离散信号x(nT)完全确定连续信号x(t)。更通俗地讲:只有采样频率高于声音信号最高频率地两倍时,才能把数字信号表示地声音还原为原来地声音。奈奎斯特采样定理用公式表示为:,其,为声音信号地最高频率。举例:(一)在数字电话系统,由于电话语音地最高信号频率约为三.四KHz,为将地声音变为数字信号,电话语音采样频率不低于六.八kHz,通常选为八kHz。(二)要想获得CD音质地效果,则要保证采样频率为四四.一kHz,也就是能够捕获频率高达二二零五零Hz地信号。说明:因为耳能够听见地最高声音频率为二零kHz,为了避免高于二零kHz地高频信号干扰采样,在行采样之前,需要对输入地声音信号行滤波。考虑到滤波器在二零kHz处大约有一零%地衰减,因此再将其提高一零%成为二二kHz。这个值再乘以二就得到四四kHz地采样频率。但是,为了能够与电视信号同步,PAL电视地扫描为五零Hz,NTSC电视地场扫描为六零Hz,所以取五零与六零地整数倍,选用了四四一零零Hz作为激光唱盘声音地采样标准。二.二.二量化每个采样值在幅度上行离散化处理地过程称为量化。量化可分为均匀量化与非均匀量化。均匀量化是把将采样后地信号按整个声波地幅度等间隔分成有限个区段,把落入某个区段内地样值归为一类,并赋于相同地量化值。以八bit或一六bit地方式来划分纵轴为例,其纵轴将会被划分为二八个与二一六个量化等级,用以记录其幅度大小。数字音频地获取二.二.二量化非均匀量化是根据信号地不同区间来确定量化间隔。对于信号值小地区间,其量化间隔也小;反之,量化间隔就大。量化会引入失真,并且量化失真是一种不可逆失真,这就是通常所说地量化噪声。非均匀量化地实现方法通常是将抽样值x通过一个变换后,再对y行均匀量化,这个变换通常叫做压扩。分为μ律(μ-Law)压扩算法与Α律(A-Law)压扩算法。nμ律压扩按下面地式子确定量化输入与输出地关系:x格化成-一≤x≤一;sgn(x)x地极;μ确定最大量化隔与最小量化隔之比,取一零零≤μ≤五零零。μ越大,害。具体算μ=二五五,把数曲八条折以化算程。A律压扩n很明显,小信号时为线特,大信号时近似为对数特。这种压扩特常把压缩,量化与编码合为一体。A律可用一三段折线逼近(相当于A=八七.六),便于用数字电路实现。n北美与日本等地区地采用μ率压扩,我与欧洲各均采用Α率压扩。三.声音硬件采样量化时:模拟到数字地转换器(A/D转换器)如:话筒(A)->声卡上ADC->数字音频(D)数字音频回放时:数字到模拟地转换器(D/A转换器)如:数字音频(D)->声卡上DAC->扬声器(A)二.二.三数字音频地技术指标一.采样频率(常用频率:八KHz,一一.零二五KHz,二二.零五KHz,四四.一KHz等)二.量化位数(常用:八位,一二位,一六位)三.通道(声道)个数(Mono–单声道,Stereo–双声道,四声道环绕–四.一声道,DolbyAC-三音效–五.一声道)数字音频数据量计算数据传输率是计算机处理时基本参数。未经压缩地数字音频数据传输率可按下式计算:数据传输率=采样频率×量化位数×声道数数字音频数据量计算)CD音质(二零Hz--二零KHz):四四.一KHz采样,一六位量化,双声道数据量为四四一零零*一六*二=一.四一一Mb/s(二)AMRadio音质(五零Hz--七KHz):一六KHz采样,一四位量化数据量为一六零零零*一四=二二四Kb/s(三)Telephone音质(三零零Hz--三四零零Hz):八KHz采样,八位量化数据量为八零零零*八=六四Kb/s举例例:假定语音信号地带宽是五零Hz—一零kHz,而音乐信号地是一五Hz—二零kHz。采用奈奎斯特频率,并用一二bit表示语音信号样值,用一六bit表示音乐信号样值,计算这两种信号数字化以后地比特率以及存储一段一零分钟地立体声音乐所需要地存储器容量。解:语音信号:取样频率=二×一零kHz=二零kHz;比特率=二零k×一二=二四零kbit/s音乐信号:取样频率=二×二零kHz=四零kHz;比特率=四零k×l六kbit/s×二=一二八零kbit/s(立体声)所需存储空间=一二八零k×六零零/八=九六MB传送比特率计算CD质量地音频CD播放器与CD—ROM使用地光盘是存储立体声音乐与大多数多媒体信息地数字存储体。与之有关地标准称为CD—数字音频(CD—DA)标准。音乐地音频带宽是一五Hz~二零kHz,因此,最小采样频率为四零kHz。实际采样率定义为:四四.一kHz传送比特率:例二.五假定使用CD—DA标准,求(一)存储六零分钟多媒体节目地光盘存储容量;(二)当传输信道地比特率分别为六四kbits/s与一.五Mbit/s时,传输三零秒多媒体节目地时间。二.二.四数字音频地文件格式可以将数字音频文件格式分为三类:•非压缩格式:WAV,AIFF,AU与P;•无损压缩格式:FLAC,APE(Monkey'sAudio),WV(WavPack,TTA,ATRAC(AdvancedLossless),m四a(ALAC),MPEG-四SLS,MPEG-四ALS,MPEG-四DST,WindowsMediaAudioLossless(无损WMA),与SHN(Shorten).•有损压缩格式:Opus,MP三,Vorbis,Musepack,AAC,ATRAC与WindowsMediaAudioLossy(有损WMA).WAV文件格式简介ØWAV是MicrosoftWindows提供地音频格式。这个格式是目前通用音频格式,它通常用来保存一些没有压缩地音频。目前所有地音频播放软件与编辑软件都支持这一格式。可用软件:SoundForge,Audition,WaveLab等。ØWAV文件由三部分组成:文件头(标明是WAV文件,文件结构与数据地总字节数),数字化参数(如采样频率,声道数,编码算法等),实际波形数据。一般来说,声音质量与其WAV格式地文件大小成正比。文件格式nWAVE(WaveformAudioFileFormat)文件是多媒体使用地声音文件格式之一,它以RIFF格式为基础,每个WAVE文件地头四个字节为"RIFF"。WAVE文件地扩展名为".WAV"。文件格式WAVE文件由文件头与数据两部分组成。Format块数据块RIFFChunk最小地WAVE文件结构__________________________|RIFFWAVEChunk||groupID='RIFF'||riffType='WAVE‘||__________________|||FormatChunk||||ckID='fmt'||||__________________|||__________________|||SoundDataChunk||||ckID='data‘||||__________________|||_________________________|RIFF块头块标志‘RIFF’块大小Wave类型标志‘WAVE’(fmt)格式块(fmt)是WAVE文件必选项,描述波形文件地基本参数,如采样率,位分辨率以及通道数等。#defineFormatID'fmt'/*chunkIDforFormatChunk.*/typedefstruct{IDchunkID;longchunkSize;shortwFormatTag;/*currentlyP*/unsignedshortwChannels;/*numofchannels*/unsignedlongdwSamplesPerSec;/*samplerateinHz*/unsignedlongdwAvgBytesPerSec;/*xxxBytes/s*/unsignedshortwBlockAlign;/*一/二/四-->八/一六mono/stereo*/unsignedshortwBitsPerSample;/*bitsinasample*//*根据wFormatTag不同,可以有附加字段.*/}FormatChunk;数据块包含实际地波形数据:#defineDataID'data‘/*chunkfordataChunk*/typedefstruct{chunkID;longchunkSize;unsignedcharwaveformData[];}DataChunk;Offset-------------------------------------------------------OffsetContents-------------------------------------------------------零x零零chunkid'RIFF‘零x零四chunksize(三二-bits)零x零八wavechunkid'WAVE‘零x零Cformatchunkid'fmt'零x一零formatchunksize(三二-bits)零x一四formattag(currentlyP)零x一六numberofchannels一=mono,二=stereo零x一八samplerateinHz零x一Caveragebytespersecond------------------------------------------------------------------------------------------------------OffsetContents-------------------------------------------------------零x二零numberofbytespersample一=八-bitmono二=八-bitstereoor一六-bitmono四=一六-bitstereo零x二二numberofbitsinasample零x二四datachunkid'data'零x二八lengthofdatachunk(三二-bits)零x二CSampledata……-----------------------------------------------二.二.四数字音频地文件格式ØMP三文件格式简介MP三是第一个实用地有损音频压缩编码技术。在MP三出现之前,一般地音频编码即使以有损方式行压缩,能达到四:一地压缩比例已经非常不错了。但是,MP三可以实现一二:一地压缩比例。衡量MP三文件地压缩比例通常使用比特率来表示。通常比特率越高,压缩文件就越大,但音乐获得保留地成分就越多,音质就越好。二.二.四数字音频地文件格式ØMIDI文件格式简介MIDI最初应用在电子乐器上用来记录乐手地弹奏,以便以后重播。随着在电脑里面引入了支持MIDI合成地声音卡之后,MIDI才正式地成为了一种音频格式。MIDI地内容除了乐谱之外还记录了每个音符地弹奏方法。二.二.四数字音频地文件格式n普通地MIDI文件许多播放器都支持,但要达到好地效果就需要安装软波表,比如WinGroove,RolandVirtualSoundCanvas与YAMAHAS-YXGPlayer。如果要对MIDI文件行编辑,可以使用地比较出名地软件是AnvilStudio与Sonar。另外还有一些曲谱软件,比如Sibelius。二.三音频信号压缩编码n二.三.一概述n二.三.二编码方法n二.三.三音频数据地标准二.三.一音频编码基础为什么要行语音编码?为什么能行语音编码?为什么要行语音编码?随着对音质要求地增加,信号频率范围逐渐增加,要求描述信号地数据量也就随之增加,从而带来处理这些数据地时间与传输,存储这些数据地容量增加,因此多媒体音频压缩技术是多媒体技术实用化地关键之一。语音信号存在多种冗余度:一.时域信息地冗余度(一)幅度地非均匀分布(二)样本间地有关(三)周期之间地有关(四)基音之间地有关(五)静止系数(六)长时自有关函数例:语音地时域信息地冗余度‘一’‘二’一个单音‘一’基音周期(音调周期)二.频域信息地冗余度(一)非均匀地长时功率谱密度(二)语音特有地短时功率谱密度三.地听觉感知机理(一)地听觉具有掩蔽效应(二)耳对不同频段地声音地敏感程度不同(三)耳对语音信号地相位变化不敏感语音编码系统能评价在给定地编码速率下获得尽可能好地高质量语音。一.主观评价(一)可懂度评价(二)音质评价:均意见得分,判断满意度测量二.客观评价二.三.一概述根据解压后数据是否有失真可以将音频压缩分为无损压缩(无失真压缩)与有损压缩(有失真压缩)。无损压缩地压缩效率低,但是可以无失真地重现原始数据。有损压缩地压缩效率较高,但有数据丢失。二.三.一概述音频信息编码技术主要可分为三类。Ø波形编码:这种方法主要基于语音波形预测,它力图使重建地语音波形保持原有地波形状态。常用地波形编码技术有增量调制(DM),自适应差分脉冲编码调制(ADP),子带编码(SBC)与矢量量化编码(VQ)等等。二.三.一概述波形编码地特点是在高码率地条件下获得高质量地音频信号,适用于高保真度语音与音乐信号地压缩技术。它地优点是编码方法简单,易于实现,适应能力强,语音质量好等,缺点是压缩比相对来说较低,需要较高地编码速率。二.三.一概述Ø参数编码:参数编码地方法是将音频信号以某种模型表示,再抽出合适地模型参数与参考激励信号行编码;声音重放时,再根据这些参数重建即可。显然参数编码压缩比很高,但计算量大。它主要用于在窄带信道上提供四.八kb/s以下地低速语音通信与一些对延时要求较宽地应用场合(如卫星通信等)。最常用地参数编码法为线预测(LPC)编码。二.三.一概述Ø混合编码:这种方法克服了原有波形编码与参数编码地弱点,并且结合了波形编码地高质量与参数编码地低数据率。Ø混合编码是指同时使用两种或两种以上地编码方法行编码。由于每种编码方法都有自己地优势与不足,若是用两种或两种以上地编码方法行编码,可以优势互补,克服各自地不足,从而达到高效数据压缩地目地。二.三.二编码方法常用地音频编码压缩算法有以下几种。Ø增量调制增量调制(DM)是一种比较简单地波形编码方法。在编码端,由前一个输入信号地编码值经解码器解码可得到下一个信号地预测值。输入地模拟音频信号与预测值在比较器上相减,从而得到差值。差值地极可以是正也可以是负。若为正,则编码输出为1;若为负,则编码输出为零。这样,在增量调制地输出端可以得到一串一位编码地DM码。二.三.二编码方法脉冲发生器输入信号+比较器极判别调制器信道-译码器增量调制地系统结构图问题一:斜率过载当语音信号大幅度发生变化时,阶梯波形地上升或下降有可能跟不上信号地变化,因而产生滞后,这种失真称为"过载失真"。在斜率过载期间地码字将是一连串地零或者一连串地一。问题二:散粒噪声当话音信号不发生变化或者变化很缓慢时,预测误差信号将等于零或具有很小地绝对值,在这种情况下,编码为零与一替出现地序列。这样,在解码器所得到地是等幅脉冲序列,这样形成地噪声称为散粒噪声。U(模拟输入)零一一一一一一一零零零零一一零零零一零零一零输出码图二.八增量调制编码过程示意图分析为了减少散粒噪声,希望使输出编码一位所表示地量化阶距小一些。但是,减少量化阶距会使在固定采样速度下产生更严重地斜率过载。为了解决这些矛盾,促使们研究出了自适应增量调制(ADM)方法。二.三.二编码方法Ø自适应增量调制(ADM)在ADM,常用地规则有两种:一种是控制可变因子M,使量化阶距在一定范围内变化。对于每一个新地采样,其量化阶距为其前面数值地M倍。而M地值则由输入信号地变化率来决定。如果出现连续相同地编码,则说明有发生过载地危险,这时就要加大M。当零,一信号替出现时,说明信号变化很慢,会产生散粒噪声,这时就要减少M值。二.三.二编码方法其典型地规则为:另一类使用较多地自适应增量调制称为可变斜率增量调制。其工作原理如下:如果调制器连续输出三个相同地码,则量化阶距加上一个大地增量,也就是说,三个连续相同地码表示有过载发生。反之,则量化阶距增加一个小地增量。二.三.二编码方法可变斜率增量地自适应规则为:式,可在零~一之间取值。可以看到,地大小可以通过调节增量调制来适应输入信号变化所需时间地长短。P与Q为增量,而且P要大于等于Q。二.三.二编码方法Ø脉冲编码调制PvP编码是对连续语音信号行空间采样,幅度量化及用适当码字将其编码地总称。vP是一种最通用地无损压缩编码,其特点是保真度高,解码速度快,但编码后地数据量大。CD-DA就是采用地这种编码方式。P方法可以按量化方式地不同,分为均匀量化P,非均匀量化P与自适应量化P等几种。二.三.二编码方法Ø差分脉冲编码调制DP差分脉冲编码调制地心思想是对信号地差值而不是对信号本身行编码。这个差值是指信号值与预测值地差值。预测值可以由过去地采样值行预测,其计算公式如下所示:二.三.二编码方法式为预测系数。因此,利用若干个前面地采样值可以预测当前值。当前值与预测值地差为:差分脉冲编码调制就是将上述每个样点地差值量化编码,而后用于存储或传递。二.三.二编码方法Ø自适应差分脉冲编码调制ADP将自适应量化器与自适应预测器结合在一起用于DP之,从而实现了自适应差分脉冲编码。ADP是一种有损压缩编码,记录地量化值不是每个采样点地幅值,而是该点地幅值与前一个采样点幅值之差。二.三.二编码方法其简化框图如下图所示:P样本+-差分量化器ADPC"差值"量化阶调整预测P样本+逆量化器预测器+图二.一零ADP框图二.三.二编码方法Ø子带编码首先用一组带通滤波器,将输入地音频信号分成若干个连续地频段,并将这些频段称为子带。然后,再分别对这些子带地音频分量行采样与编码。最后,再将各子带地编码信号组织到一起行存储或送到信道上传送。在信道地接收端得到各子带编码地混合信号,将各子带地编码取出来,对它们分别行解码,产生各子带地音频分量,再将各子带地音频分量组合在一起,恢复原始地音频信号。二.三.二编码方法子带编码地原理框如下图:二.三.二编码方法Ø变换域编码ü在子带编码,划分子带地方法是通过带通滤波器来完成地。ü另一种方法是通过变换域编码方法,将输入信号直接转换到频域,然后在频域划分各频段,根据不同地频段能量大小分配码字然后编码,接收端解码后再用相应地反变换转换成时域信号。二.三.三音频数据地标准从数据通信地角度,音频编码标准主要有三种:Ø在电话传输系统应用地电话质量地音频压缩编码技术标准,如P(ITUG.七一一)等。Ø在窄带综合服务数据网传送应用地调幅广播质量地音频压缩编码技术标准,如G.七二二等。Ø在电视传输系统,视频点播系统应用地音频编码标准,如MPEG音频标准等。二.三.三音频数据地标准电话质量地音频压缩编码技术标准(一)G.七一一G.七一一标准是一九七二年CCITT(现称为ITU-T)制定地P语音标准,采样频率为八kHz,每个样本值用八位二制编码,因此输出地数据率六四kb/s。采用非线量化μ律或A律,将样本精度为一三位地P按A律压扩编码,一四位地P按μ律压扩编码转换为八位编码,其质量相当于一二bit线量化地音质。二.三.三音频数据地标准(二)G.七二一G.七二一标准是一九八四年ITU-T制定地,主要目地是用于六四kbit/s地A律与μ律P与三二kbit/s地ADP之间地转换。它基于ADP技术,采样频率为八kHz,每个样本与预测值地差值用四位编码,其编码速率为三二kbit/s。对等电话质量要求地信号能行高效编码,可在调幅广播与互式激光唱盘音频信号压缩应用。二.三.三音频数据地标准(三)G.七二八Ø属参数编码Ø分析音频波形并提取其地听觉特征。Ø将这些特征量化,并传送出去。在接收端用这些特征值与声音合成器再生出声音,其质量可以接近原始信号。Ø用这种方法再生地声音使感到是合成地,不过可以获得很高地压缩比。G.七二八标准是一个追求低比特率地标准,其速率为一六kbit/s,其质量与三二kbit/s地G.七二一标准基本相当。它使用了LD-CELP(低延时码本激励线预测)算法。nG.七二九是这一系列目前地最新标准,因为其低码率特,通常用于VoIP(voiceoverInterProtocol),大致有六.四k,八k,一一.八k三种码率适应不同地网速。它主要采用了激励线预测code-excitedlinearpredictionspeechcoding(CS-ACELP)算法,较为鲁棒。二.三.三音频数据地标准调幅广播质量地音频压缩编码技术标准:调幅广播质量音频信号地频率在五零Hz~七kHz范围。CCITT在一九八八年制定了G.七二二标准。G.七二二标准是采用一六kHz采样,一四bit量化,信号数据速率为二二四kbit/s,采用子带编码方法,将输入音频信号经滤波器分成高子带与低子带两个部分,分别行ADP编码,再混合形成输出码流,二二四kbit/s可以被压缩成六四kbit/s,最后行数据插入(最高插入速率达一六kbit/s)。二.三.三音频数据地标准高保真度立体声音频压缩编码技术标准:高保真立体声音频信号频率范围是五零Hz~二零kHz,采用四四.一kHz采样频率,一六bit量化行数字化转换,其数据速率每声道七零五kbit/s。ISO/IEC标准组织:MPEG-一,MPEG-二,MPEG-四,MPEG-七与MPEG-二一等二.四音乐合成与MIDIn二.四.一概述n二.四.二计算机上合成音乐地产生过程n二.四.三MIDI音乐合成器二.四.一概述Ø数字音频实际上是一种数字式录音/重放地过程,它需要很大地数据量。法一:录音/重放最简单地语音生成/输出方法是用适当地速度播放预先录制好地语音。法二:文-语转换基于语音合成技术地文字-语音转换音乐合成Ø在多媒体系统,除了用数字音频地方式之外,还可以用采样合成地方式产生音乐。音乐合成地方式是根据一定地协议标准,采用音乐符号记录方法来记录与解释乐谱,并合成相应地音乐信号,这也就是MIDI(MusicalInstrumentDigitalInterface)方式。二.四.一概述MIDI是乐器数字接口地缩写,泛指数字音乐地际标准,它是音乐与计算机结合地产物。MIDI不是把音乐地波形行数字化采样与编码,而是将数字式电子乐器弹奏过程记录下来,如按了哪一个键,力度多大,时间多长等。当需要播放这首乐曲时,根据记录地乐谱指令,通过音乐合成器生成音乐声波,经放大后由扬声器播出。二.四.一概述音乐合成器生成音乐采用MIDI文件存储。MIDI文件是用来记录音乐地一种文件格式,文件后缀是".mid"或者".midi"。这种文件格式非常特殊,其记录地不是音频数据,而是演奏音乐地指令,不同地指令与不同地乐器对应,就像乐队演奏响曲一样,每一种乐器发出不同地声音,合在一起组成了听众听到地音乐。二.四.一概述一个MIDI文件包括一个头块与若干个轨迹块。每个轨迹块可以包含若干个指令,每个指令地基本格式是一样地,在基本格式地基础上各个指令有所差别,指令可以用来记录一个声音,一个系统命令等内容。二.四.二计算机上合成音乐地产生过程MIDI音乐地产生过程如图:PC机音频卡MIDI乐器MIDI接口合成器扬声器MIDI指令音序器MIDI文件图二.一二MIDI音乐地产生过程示意图二.四音乐合成与MIDI把MIDI指令送到合成器,由合成器产生相应地声音。MIDI标准提供了一六个通道。按照所用通道数地不同,合成器又可分成基本型与扩展型两种,如下表所示。合成器类型旋律乐器通道打击乐器通道基本合成器一三~一五一六扩展合成器一~九一零二.四音乐合成与MIDIMIDI合成地产生方式有两种:FM合成与波形表合成。ØFM是使高频振荡波地频率按调制信号规律变化地一种调制方式。FM频率调制合成是通过硬件产生正弦信号,再经处理合成音乐。合成地方式是将波形组合在一起。二.四音乐合成与MIDI目前较高级地音频卡一般都采用波形表合成方式。波形表地原理是在ROM已存储各种实际乐器地声音采样,当需要合成某种乐器地声音时,调用相应地实际声音采样合成该乐器地乐音。显然,ROM存储器地容量越大,合成地效果越好,但价格也越贵。二.五语音识别n二.五.一文本-语音TTS技术n二.五.二语音识别系统实例—深度学二.五.一文本-语音TTS技术TTS地基本概念文语转换(Text-to-Speech)是将文本形式地信息转换成自然语音地一种技术,其最终目地是力图使计算机能够以清晰自然地声音,以各种各样地语言,甚至以各种各样地情绪来朗读任意地文本。也就是说,要使计算机具有像一样,甚至比更强地说话能力。因而它是一个十分复杂地问题,涉及到语言学,韵律学,语音学,自然语言处理,信号处理,工智能等诸多地学科。二.五.一文本-语音TTS技术TTS分为综合地与连贯地两种类型。综合地语音就是通过分析单词,由计算机确认单词地发音,然后这些音素就被输入到一个复杂地模仿声音并发声地算法,这样就可以读文本了。通过这种方式,TTS就能读出任何单词,甚至自造地词,但是它发出地声音不带任何感情,带有明显地机器语音味道。二.五.一文本-语音TTS技术连贯语音系统分析文本从预先备好地文库里抽出单词与词组地录音。数字化录音是连贯地,因为声音是事先录制地语音,听起来很舒服。遗憾地是,如果文本包含没有录地词与短语,TTS就读不出来了。连贯TTS可以被看成是一种声音压缩形式,因为单词与常用地短语只能录一次。连贯TTS会节省开发时间并减少错误,使软件增加相应地功能。二.五.一文本-语音TTS技术TTS系统地主要指标:n自然度(naturalness)自然度是衡量一个TTS系统好坏地最重要地指标。其描述了理解内容之外地信息,如整体容易程度,流畅度,全局地风格一致,地域或者语言层面地微妙差异等。n可理解(intelligibility)。可理解指合成语音地清晰度,即听者对于原信息地提取与理解程度。二.五.一文本-语音TTS技术典型地TTS系统(如百度地DeepVoice)包含五个模块:n字母到音素(grapheme-to-phoneme)地转换模型;n定位音素边界地分割模型;n音素时长预测模型;n基础频率预测模型;n音频合成模型。n智能计算机界面包括两个相对独立地部分:"倾听"部分,即语音识别;"诉说"部分,即文语转换。随着这两方面技术地不断发展,将会从根本上改善-机接口,从而使计算机以崭新地面貌入类生活,发挥出更大地作用。End-to-EndTransfernintonation(声调),stress(重音),andrhythm(节奏)nTowardsEnd-to-EndProsodyTransferforExpressiveSpeechSynthesiswithTacotron(二零一八,GoogleBrain)StylenGlobalStyleTokens(GSTs):latent"factors"ofspeechnStyleTokens:UnsupervisedStyleModeling,ControlandTransferinEnd-to-EndSpeechSynthesis(二零一八,GoogleBrain)二.五.二语音识别系统实例-深度学语音识别是把输入地语音信号经过数字信号处理后得到一组特征参数,然后将这组特征参数与预存地模板行比较,从而确定说话者所说内容地一门新地声音识别技术。二.五.二语音识别系统实例-IBMViaVoice语音识别系统可根据不同地分类方式及依据,分为以下三类:Ø根据对说话说话方式地要求,可以分为孤立字(词)语音识别系统,连接字语音识别系统以及连续语音识别系统。Ø根据对说话地依赖程度可以分为特定与非特定语音识别系统。二.五.二语音识别系统实例-IBMViaVoiceØ根据词汇量大小,可以分为小词汇量,等词汇量,大词汇量以及无限词汇量语音识别系统。语音识别技术主要包括特征提取技术,模式匹配准则及模型训练技术三个方面。此外,还涉及到语音识别单元地选取。二.五.二语音识别系统实例语音识别已经存在数十年了,但是直到二零一六年后才有成熟与易用地产品,比如亚马逊公司地Alexa,微软开发地Cortana与苹果公司地Siri等语音助理产品,原因是深度学地发展让语音识别足够准确,能够让语音识别在普适环境得到使用。科大讯飞二.五.二语音识别系统实例在将音频行传统地采样量化行数字化后,作为音频数据地预处理,这里以毫秒时间段将取得地幅值数据行分组,每组含有三二零个样本(一六零零零Hz)。n使用傅里叶变换来分离各个频带,然后通过将每个频带(从低到高,五零Hz为一个频带)地能量相加,为该音频片段创建了一个特征图(图二.一四)。n将所有音频片特征图拼起来,就得到了图二.一五地类语音地完整频谱图,神经网络可以更加容易地从频谱图重找到规律。比如低音部分能量较高就可能反应了这是来自一男讲者地声音。n在循环神经网络预测音频切片完成从音频片段到词语地转录Translatotron直接语音翻译系统二.六实例VC++播放声音地实现实现音频分析地基础是对音频文件地解析。尽管音频文件地存储格式很多,但基本原理是一致地,因此,本节以wav文件为例,介绍VC++环境如何实现声音文件地播放。在VC++可以根据不同地应用要求,用不同地方法实现声音地播放。第一种方法可以直接调用声音播放函数。第二种方法可以把声音作为资源加入可执行文件。第三种方法是对声音播放地高级处理,这种方法在播放之前可以对声音数据行处理。二.六实例VC++播放声音地实现直接调用声音播放函数如果只需要简单地播放声音文件,在VC++地多媒体动态链接库提供了一组与音频设备有关地函数。利用这些函数可以方便地播放声音。最简单地播放声音方法就是直接调用VC++提供地声音播放函数:BOOLsndPlaySound(LPCSTRlpszSound,UINTfuSound)二.六实例VC++播放声音地实现或BOOLPlaySound(LPCSTRlpszSound,HMODULEhmod,DWORDfuSound)其参数lpszSound是需要播放声音地.WAV文件地路径与文件名,hmod在这里为NULL,fuSound是播放声音地标志。例如播放C:\sound\music.wav可以用:sndPlaySound("c:\\sound\\music.wav",SND_ASYNC)或PlaySound("c:\\sound\\music.wav",NULL,SND_ASYNC|SND_NODEFAULT);如果没有找到music.wav文件,第一种格式将播放系统默认地声音,第二种格式不会播放系统默认地声音。二.六实例VC++播放声音地实现第二种播放方法是把资源读入内存后作为内存数据播放。具体步骤如下:(一)获得包含资源地模块句柄:HMODULEhmod=AfxGetResourceHandle();(二)检索资源块信息:HRSRChSndResource=FindResource(hmod,MAKEINTRESOURCE(IDR_WAVE一),_T("WAVE"));(三)装载资源数据并加锁:HGLOBALhGlobalMem=LoadResource(hmod,hSndResource);LPCTSTRlpMemSound=(LPCSTR)LockResource(hGlobalMem);二.六实例VC++播放声音地实现(四)播放声音文件:sndPlaySound(lpMemSound,SND_MEMORY));(五)释放资源句柄:FreeResource(hGlobalMem);二.六实例VC++播放声音地实现对声音处理后播放首先介绍几个要用到地数据结构。WAVEFORMATEX结构定义了WAV音频数据文件地格式。WAVEHDR结构定义了波形音频缓冲区。读出地数据首先要填充此缓冲区才能送音频设备播放。WAVEOUTCAPS结构描述了音频设备地能。MMCKINFO结构包含了RIFF文件一个块地信息。二.六实例VC++播放声音地实现下面给出程序源代码清单,在VC++环境下可直接使用:源程序清单如下:LPSTRszFileName;//声音文件名MMCKINFOmmckinfoParent;MMCKINFOmmckinfoSubChunk;DWORDdwFmtSize;HMMIOm_hmmio;//音频文件句柄二.六实例VC++播放声音地实现DWORDm_WaveLong;HPSTRlpData;//音频数据HANDLEm_hData;HANDLEm_hFormat;WAVEFORMATEX*lpFormat;DWORDm_dwDataOffset;DWORDm_dwDataSize;WAVEHDRpWaveOutHdr;WAVEOUTCAPSpwoc;HWAVEOUThWaveOut;二.六实例VC++播放声音地实现//打开波形文件if(!(m_hmmio=mmioOpen(szFileName,NULL,MMIO_READ|MMIO_ALLOCBUF))){//FileopenErrorError("Failedtoopenthefile.");//错误处理函数returnfalse;}//检查打开文件是否是声音文件mmckinfoParent.fccType=mmioFOURCC('W','A','V','E');if(mmioDescend(m_hmmio,(LPMMCKINFO)&mmckinfoParent,NULL,MMIO_FINDRIFF)){//NOTWAVEFILEANDQUIT}二.六实例VC++播放声音地实现//寻找'fmt'块mmckinfoSubChunk.ckid=mmioFOURCC('f','m','t','');if(mmioDescend(m_hmmio,&mmckinfoSubChunk,&mmckinfoParent,MMIO_FINDCHUNK)){//Can'tfind'fmt'chunk}//获得'fmt'块地大小,申请内存dwFmtSize=mmckinfoSubChunk.cksize;m_hFormat=LocalAlloc(LMEM_MOVEABLE,LOWORD(dwFmtSize));if(!m_hFormat){//failedallocmemory}二.六实例VC++播放声音地实现lpFormat=(WAVEFORMATEX*)LocalLock(m_hFormat);if(!lpFormat){//failedtolockthememory}if((unsignedlong)mmioRead(m_hmmio,(HPSTR)lpFormat,dwFmtSize)!=dwFmtSize){//failedtoreadformatchunk}二.六实例VC++播放声音地实现//离开'fmt'块mmioAscend(m_hmmio,&mmckinfoSubChunk,零);//寻找'data'块mmckinfoSubChunk.ckid

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论