数字音频处理

上传人：7*** IP属地：湖北上传时间：2023-01-13 格式：PPT 页数：51 大小：443KB 积分：28 举报 版权申诉

已阅读5页，还剩46页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

数字音频处理一.概念

1.声音：是物体的振动引起空气的震荡，人耳对这种震荡的感觉。人耳能感觉到的空气震荡频率范围为20~20khz。人能够区分空气震荡频率的组合，当空气震荡频率的组合具有特定含义时，声音即携带信息。如语音。t一个周期空气压强幅度空气压强振荡波形

2.声音的探测:提取反映空气振荡的波形。tI/V空气振荡感应的I/V波形Micphone原理图tI/V空气振荡感应的I/V值

3.声音的还原:把I/V波形转化为空气振动。Earphone原理图

4.音频的分划：人耳能听见的声音称音频。

1)次声波(Subsonic)：频率低于20HZ。

2)超声波(Ultrasonic)：频率高于20khz。

5.音频信号类型:语音、音乐及音效三种。

1)语音(Speech)：人的发音器官产生的声音。人发音器官产生的声音频率范围为80~3400HZ,人说话的频率范围为300~3000hz(语音信号的频率范围)。

2)音乐：乐器发出的规范和确定符号化的声音。

3)音效：自源界其它事物发出的声音。203003k20kf(Hz)语音带宽音频带宽次声带超声带

6.声音的三要素:音调、音强及音色。

1)基频与音调：波峰是声波曲线中极大点。每两个相邻极大点决定一个频率的波，音频曲线可能由多个频率的波合成。在一个可区分的音中，幅度最大和波峰间距大约相等的波的频率为基频。基频也称音调。音乐中的音阶也称音调，是一个固定频率的声波。tI/V声波信号音节CDE…简谱符号123…频率(HZ)261293330…频率(对数)*48.349.350.3…

2)谐波与音色:在一个音的基频上出现的更高频率的波称泛音，也称谐波。谐波就是音色。如果在基频中加入有规则的音色，声音可能更加动听和更有渗透力；但不规则的泛音可能是噪声。

3)幅度与音强:声波曲线中信号基线到波峰的高度称幅度。一个音的平均幅度反映了音的强弱，也称音强(音量)。音强的单位一般为分贝(dB)，人能够分辨3dB以上的波动。声波曲线中有强波也有弱波。动态范围反映了强弱波音量相对变化范围。动态范围=20×log(最大强度/最小强度)（dB）

4)音宽与频带:信号波中变化最快波的频率到变化最慢波的频率区域称频带(差为带宽)。音频信号的带宽称音宽。如语音信号的带宽为3.2khz。频带为0~3.2kHz。1020502003.4k7k15k22kf(Hz)电话AM广播FM广播CD-DA几种音频业务的频带

5)信噪比(SignaltoNoiseRatio,SNR)：是衡量声音质量的一个指标。SNR定义：有用信号的平均功率

SNR=——————————

噪声的平均功率

SNR大，噪声对声音的影响小，声音的质量好。二.数字音频的获取

数字音频获取过程：模拟音频信号采样量化编码压缩音频文件音频获取过程

1.采样

1)模拟信号：在时间轴上任意两点之间有无数的时间点;任意时间点对应的幅度值可能是一个无限不循环的小数。因此要完全无误地用数字表达一小段模拟信号是不可能的。

2)模拟信号的离散：我们可以每隔一个时间段t0取一个点的幅度值，模拟信号就成为了离散信号。

3)采样频率采样频率fs=1/t0

采样间距t0是确定音频离散信号还原质量的关键问题。t0大可以减少表示音频的数据量，但有可能使音频失真。

采样频率应随曲线变化的快慢也变化。一个曲线的变化频带为fmax—fmin。奈奎斯特采样频率fs>=2×fmax

如数字电话系统中，语音最高频率为3.4kHz，采样频率应大于6.8kHz，实际定为8kHz。数字电话语音传输过程：

传输系统语音Mic-phoneA/D编码和压缩解压和解码D/AEar-phone语音数字电话语音传输过程：模拟音频信号采样量化编码压缩音频文件音频获取过程A/D(Analog/Digital):模拟值/数值值转换器。D/A(Digital/Analog):数值值/模拟值转换器。

2.量化

设模拟信号的幅值在[-V,+V]之间连续变化，要表示所有的是幅值是不可能的，必须对幅值离散化，既用有限的幅值代表[-v,+v]之间的所有值。对一个采样点来说，就是把该点对应模拟幅值用最接近的离散幅值表示，该过程称为量化。量化分为均匀量化和非均匀量化两种。均匀量化把幅值区间[-v,+v]等距分为L个离散幅值。

幅值间距：d=2v/(L-2)(+0,-0各计一个幅值)

离散幅值:xi=d×i(i为正负整数，|i|<=(L-2)/2)幅值-3.5v-3v-2.5v-2v-1.5v-1v-0.5v-0v+0v0.5v1v1.5v2v2.5v3v3.5v二进制数1111111011011100101110101001100000000001001000110100010101100111

非均匀量化把幅值区间[-v,_v]分成大小不同的区间，再对每个区间进行均匀量化。目的是使小信号幅值量化引入的量化噪声的信噪比与大信号量化的信噪比均衡。如：均匀量化区间[-3.5v,+3.5v]为16个离散幅值。间距d=2×3.5v/(16-2)=0.5v0.25v用0.5v表示，引入噪声0.25v,信噪比为：

SNR小=0.25/0.25=10.325v用3.5表示，引入噪声0.25v,信噪比为：

SNR大=0.25/3.25=0.0771)均匀量化：幅值区间[-3.5,3.5v],16个离散值，间距d=0.5v。010101000011001000010000100110101011110011012.52v1.5v1v0.5v±0v-0.5v-1v-1.5v-2v-2.5v

2)非均匀量化：

均匀量化的缺点是小幅值量化引入的噪声的信噪比太大，使整体引入的平均信噪比过大。非均匀量化把规格化幅值x(|x|<=1)按幅值从小到大划分为区间范围从小到大的不同区域，使用压缩函数F(x)把这些不同区域压缩到区间范围大约相等的区间，再对这些区间进行均匀量化。

F(x)的反函数F-1(x)称扩张函数。设：整个信号幅值区间[-v,+v],某信号幅值为X,规格化幅值x=X/v(-1<=x<=1)。

CCITT(ConsultativeCommitteeInternationalTelephoneandTelegraph国际电报电话咨询委员会

)国际标准使用u律(u-Law)和A律(A-Law)两种压扩算法。

A律压缩函数：

A|x|

sgn(x)——————(0<=|x|<=1/A)1+lnAFA(x)=1+ln(A|x|)

sgn(x)——————(1/A<=|x|<=1)1+lnA

x为规格化信号幅值(|x|<=1),A为压扩参数。17/86/85/84/83/82/81/801/161/81/41/211/321/64规格化幅度xFA(x)A=87.617/86/85/84/83/82/81/801/161/81/41/211/321/64规格化幅度xFA(x)A=87.6

u律压缩函数：

ln(1+u|x|)

Fu(x)=sgn(x)——————(|x|<=1)ln(1+u)

x为规格化信号幅值(|x|<=1),u为压扩参数。在CCITT标准中u=255。17/86/85/84/83/82/81/8031/25563/255127/255115/2557/255规格化幅度xFu(x)u=2553/2551/255

A律压扩算法大小幅值量化噪声信噪比比效：设实际音频信号的区间（-128cv,+128cv）。

[0,+128)分划为8个大小不同的量化区间，每个区间按16个值均匀量化，区间分划如下：17/86/85/84/83/82/81/801/161/81/41/211/321/64规格化幅度xFA(x)A=87.6区间号8765431~2实验信号幅值开始64cv32cv16cv8cv4cv2cv0cv结束128cv)64cv)32cv)16cv)8cv)4cv)2cv)规格化幅值开始1/21/41/81/161/321/640结束1)1/2)1/4)1/8)1/16)1/32)1/64区间值距4cv2cv1cv0.5cv0.25cv0.125cv0.0625cv1号区间的离散值为[0cv,0.0625cv,0.125cv,0.25cv……,1.9375cv]该区间的最大量化噪声幅度为0.0625/2。设实际幅值0.09375cv，量化幅值为0.125cv,引入噪声强度值为0.03125cv。SNR1=0.03125/0.09375=0.333区间号8765431~2实验信号幅值开始64cv32cv16cv8cv4cv2cv0cv结束128cv)64cv)32cv)16cv)8cv)4cv)2cv)规格化幅值开始1/21/41/81/161/321/640结束1)1/2)1/4)1/8)1/16)1/32)1/64区间值距4cv2cv1cv0.5cv0.25cv0.125cv0.0625cv8号区间的离散值为[64cv,68cv,72cv,076cv……,124cv]该区间的最大量化噪声幅度为4/2。设实际幅值126cv，量化幅值为124cv,引入噪声强度值为2cv。SNR2=2/128=0.0163.数字音频的技术指标

1)采样频率常有8kHz,11.025kHz,22.05kHz,44.1kHz。

2)量化位数量化时如果离散幅值数为L,表示这L个幅值的二进制位为n=log2L,n称量化位数。常有8位，12位,16位，32位。最小幅值1,最大位28=256,8位量化的动态范围为：20×log(256/1)=48dB。

3)通道(声道)个数同时录制和播放的声波数据的组数。音频数据获取时数据传输率：

数据传输速率(bit/s)=采样频率×量化位数×声道个数数据传输速率又称比特率或码率。音频标准录制频带采样频率量化位数声道数比特率(码率)CD20hZ~20kHz44.1kHz16244100×16×2=1411200bit/s=1.411Mbit/sAMRadio50HZ~7KHz16kHz14116000×14×1=224000bit/s=224kbit/sTelephone300~3400Hz8kHz818000×8×1=64000bit/s=64kbit/s=8kB/s(bit,Byte)例2.1语音信号的带宽50Hz~10kHz,音乐信号带宽15Hz~20kHz。奈奎斯特采样频率，用12位表示语音信号样值，计算这两中信号数字化后的比特率和一段10分立体声音乐所需的存储器容量。

语音信号：比特率=采样频率×量化位数×声道个数

=2×10000×12×1=240000bit/s=240kbit/s

音乐信号：比特率=采样频率×量化位数×声道个数

×20000×16×2=1280000bit/s=1280kbit/s=160kByte/s

存储器容量=

160kByte/s×10×60s=96000kByte=96MByte

比特率(码率)与音质的关系：采样频率的适当增加，可减少采样噪声而提高音质。一般采样频率为音频最高频率的2~4倍。量化位数的提高，可减少量化噪声而提高音质。一般量化位数位8~64位。总之比特率的提高，增加了存储空间，但提高了音质。4.数字音频文件格式根据压缩和编码方式的不同，存储数字音频的文件格式也不同。音频文件格式有ASF、AU、AAC、WMA、MP4、AIFF、SND、XM、S3M、WAV、MP3及MIDI等等。常见的有WAV、MP3及MIDI。1)WAV声波文件格式简介

wav是MicrosoftWindows早期提供的音频文件格式。目前所有的音频播放和编辑软件都支持该格式。由于没有压缩，相对来说文件较大。

wav文件由三部分组成：wav文件由三部分组成：

文件头(说明本文件为wav、文件结构和数据字节数)

数字化参数(如采样频率、量化位数、声道数及编码算法)

实际数字波形数据2.MP3文件格式简介

mp3是MPEG-1PlayerLay3中的音频压缩标准,它是一种有损音频压缩编码技术。可实现高达12:1压缩比，压缩率相对较大。采用音频知觉编码技术，削减音乐中人耳听不到的成分。Mp3可根据比特率来调节压缩音频的压缩比。比特率低，压缩后音质差，但压缩比大；比特率高，压缩后音质好，但压缩比小。3.MIDI乐谱文件格式简介

MIDI用乐器操作符号记录声音。播放MIDI时需进行声音合成。作业：看书：P17~23P40~41:思考与练习一、判断题1.、2.、3.、5.

二、选择题1.、2.

三、填空题1.、2.、3.、4.

四、简答题1.、2.、3.、4.、8.三.编码与压缩

编码：把量化后的幅值用二进制数表示。压缩：根据波形各采样点间的关系，把数字音频进行再次编码，以减少数字音频的数据量。编码和压缩分无损和有损两种。无损压缩编码一般用统计的方法对量化的幅值进行统计后重新编码。有损压缩编码会对原数字信号造成失真。编码和压缩分三类：

1.波形编码：根据量化后的数字波形变化情况和人耳对不同频率信号的不同敏感性对量化后的数字波形进行编码。如增量调制(DM)、PCM(PulseCodeModulation)、ADM(AdaptiveDeltaModulation)、ADPCM(AdaptiveDifferentialPCM)等等。PCM是量化后的编码，光盘输出的CD数字音频输出编码为PCM。

2.参数编码：把一段音频信号用某种模型表示，根据采样点的值，求出模型中的参数，用参数编码代替该段音频信号。压缩率高，但计算量大。

3.混合编码：结合了两种及以上编码方式的编码。教材中P242.3.2编码方法不讲。四、音频数据标准音频编码标准有电话质量音频压缩编码技术标准、调幅广播质量音频压缩编码技术标准、电视和视频点播中音频压缩编码技术标准。技术标准名称频率范围采样频率量化位数码率编码方式电话传输G711300HZ~3.4kHz8kHz13~14bit(采样)8bit(实际)64kbit/s13位A律和14位u律PCMG7214bit差值32kbit/sADPCMG7282~5bit差值16kbit/sADPCM(LD-CELP低延时码本激励线形预测)调幅广播G72250~7kHz16kHz14bit(采样)2~5bit差值64kbit/s先分高低2各子带信号，分别进行ADPCM编码。立体声MPEG-1音频20~20kHz48kHz、44.1kHz、32kHz4、6bit差值32~448kbit/s/声道层I和层II:分32个子带,利用人耳频蔽效应选择量化参数。层3:在前处理上采用辅助子带、非均量化及熵编码。技术标准名称频率范围采样频率量化位数码率编码方式立体声MPEG-2音频20~20kHz48kHz、44.1kHz、32kHz4、6bit差值32~448kbit/s/声道支持5+1声道，保证现存的两通道的解码器放出响应立体声。MPEG-4音频可集成各种质量音频，各类音频分成不同通道。分别采用参数、CELP、T/F、SA、TTS及MIDI编码。五、声卡接口

1.声卡图

1)电话自动应答设备接口(TAD，TelephoneAnsweringDevice):

它与MODEM卡上的相应端口相连接，配合软件可使电脑具备电话自动应答功能。

2)模拟CD音频输入接口(CDIN):

是一个3针或4针的小插座，作用是将来自光驱的模拟音频信号接入声卡，并直接由声卡的输出端放出。

3)数字输出接口该接口为黄色，用于输出数字音频信号。配合声卡上的AC-3解码功能，就可输出数字音效，令观赏DVD等影片时更加逼真。4)线性输入插孔(LINEIN):

该接口为蓝色，作用是将来自收音机、随身听、或电视机等任何外部音频设备的模拟声音信号输入电脑。可用于录制电视节目伴音、将磁带转成MP3等。5)话筒输入插孔(MICIN):

该接口为红色，可接连适合电脑使用的话筒作为声音输入设备。用于录音、娱乐及语音识别等。可用来打网络电话、语音聊天和唱卡拉OK等。6)线性输出插孔(LINEOUT):该接口为绿色，它负责将声卡处理好的模拟声音信号输出到有源音箱、耳机或其他音频放大设备（如功放）。这是第一个输出孔，相当于普通2.1声卡的扬声器输出插孔（PEAKER)。7)数字音频输出插孔(SPDIFOUT):Sony/PhilipsDigitalInterFace。8)游戏/MIDI插口用于连接游戏杆、手柄、方向盘等外接游戏控制器，也可连接外部MIDI乐器（如MIDI键盘、电子琴等），配以专用软件可将电脑作为桌面音乐制作系统使用。9)数字CD音频输入接口(CDSPDIF)

作用是接收来自光驱的数字音频信号，最大限度地减少声音失真。光驱的DigitalOut接口与声卡上的CDSPDIF输入端连接，可以得到比模拟CD音频要更纯净的音质。10)辅助音频输入口(AUXIN):

负责把来自电视卡、DVD解压卡、MPEG编/解码卡等设备的模拟声音信号输入声卡。这样就可使各种设备输出的声音信号都通过声卡送至音箱，避免了反复插拔信号线。11)声音处理芯片:

是整块声卡的核心部分，相当于声卡的大脑。包括WAVE波形的采样与合成、MIDI音乐的合成以及混音器、效果器的功能都在此芯片内部实现。12)扩展功能插针:

通过数据线接出，主要用于扩展卡上的输入输出接口，适合一些比较专业的设备。2.声卡模块图：CDSPDIF混音器A/D和D/A

数字音频处理芯片总线接口芯片LINEINMICINLINEOUTSPDIFOUT游戏/MIDI插口AUXIN六、MIDI音乐合成

MIDI(MusicalInstrumentDigitalInterface)是用记录乐器手弹奏乐器的细节来表达声音，如何种乐器，按的乐器键或位、力度及时间。乐器手的每一个动作表示为一个指令，一个乐器的乐段可表达为动作指令的时间序列集合。多乐器的乐段可表达为多组动作指令序列。

MIDI优点：码率低。

MIDI缺点：只能表示音乐，不能表达语音和自然界的声音。

1.MIDI音乐生成过程MIDI接口合成器音序器MIDI文件MIDI乐器A/D和D/A音频卡MIDI指令模拟音频信号音序器：是编辑、修改及录制MIDI音乐的软件。2.MIDI乐谱文件格式简介

MIDI文件包括一个头文件和多个轨迹块，每个轨迹块包含一组指令序列(相当于一个声道，也称通道)。

MIDI规格(GM):GM规定了128种不同音色乐器的音符序列。可提供16个音轨(通道)。3.MIDI音乐合成器

MIDI数字音频的每个声道是指令序列，不是二进制幅值，不能通过D/A转换为模拟信号，只能通过Midi合成器产生每个指令所指乐器和音调对应的数字波形。MIDI合成方式：

FM(FrequencyModulation)合成：理论上任意波形可由多个不同频率、幅值及位相的正弦波合成。但实际上由于合成器上最多只有四个正弦波发生器，因而合成的声音失真度太高。

波形表合成：把每类指令各音调对应的数字波形存储在ROM中，在合成时根据指令所示音色和音调从ROM中读出对应数字波形，再根据力度和时间调整波形。七、语音识别语音识别是通过文字产生声音(TextToSpeech,TTS)或通过音频波形识别出其中包含的语音对应的

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数字音频处理

文档简介

温馨提示

最新文档

评论

数字音频处理

文档简介

温馨提示

最新文档

评论

相关文档