它与脉冲编码调制课件_第1页
它与脉冲编码调制课件_第2页
它与脉冲编码调制课件_第3页
它与脉冲编码调制课件_第4页
它与脉冲编码调制课件_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、PowerPoint Template第三章 数字声音基础 1234声音特性 声音信号数字化 声音编码方法 声音合成与MIDI系统 56常用音频处理软件 声音文件的存储与编辑 数字声音基础知识结构声音特性声音信号数字化声音编码方法声音合成与MIDI系统声音的存储及编辑音频文件的存储格式转换CD音轨MP3与WAV格式互换音频处理软件简介Cool Edit编辑制作声音编码分类线性预测编码GSMMP3G721标准常用音频处理软件数字声音基础3.1.1 声音的基本特点声音的定义 声音是通过空气传播的一种连续的振动波,具有幅度和频率。 声音用电信号表示时,声音信号在时间和幅度上都是连续的模拟信号,如图所

2、示。3.1.1 声音的基本特点复合信号:声音信号由许多不同频率的信号组成,这类信号称为复合信号,复合信号的频率范围称为声音信号的带宽。分量信号:单一频率的信号称为分量信号。复合信号与分量信号3.1.1 声音的基本特点声音的频率分布次声波人耳可听域(音频)超声波20,000Hz调幅广播(AM)50Hz 7,000Hz调频广播(FM)20Hz 15,000Hz高级音响3Hz 40,000Hz话音信号300Hz 3,000Hz声源种类频带宽度3.1.2 声音质量的度量声音类型带宽电话语音2003.4kHz调幅广播507kHz调频广播2015kHzCD2020kHz评价方法一:带宽度量法 声音信号的带

3、宽来衡量,频率范围越宽音质越好。等级由高到低依次为DAT、CD、FM、AM和数字电话。3.1.2 声音质量的度量评价方法二:客观质量度量法 信噪比(Signal to Noise Ratio,SNR):指声源产生最大不失真声音信号强度与同时发出噪声强度之间的比率,以S/N表示,单位为分贝(dB)。信噪比越高,音频质量越好。SNR=10log(Vsingnal)2(Vnoise)2=20log|Vsingnal/Vnoise|Vsingnal: 信号电压Vnoise: 噪声电压S/N: 信噪比(单位为dB)3.1.2 声音质量的度量分数质量级别失真级别5优(excellent)无察觉4良(goo

4、d)(刚)察觉但不讨厌3中(fair)(察觉)有点讨厌2差(poor)讨厌但不反感1劣(bad)极讨厌(令人反感)评价方法三:主观质量度量法 主观平均判分法:召集若干实验者对声音质量进行评分,求出平均值作为对声音质量的评价。所得分数称为主观平均分(Mean Opinion Score, MOS)。3.2.1 声音数字化过程声音采样量化编码声音数字化过程 101100 1100113.2.1 声音数字化过程声音数字化的两个重要参数声音数字化需要回答两个问题每秒钟需要采集多少个声音样本,也就是采样频率(fs)是多少,每个声音样本的位数(bit per sample,bps)应该是多少,也就是量化精

5、度。3.2.1 声音数字化过程采样频率采样频率的高低是根据奈奎斯特理论(Nyquist theory)和声音信号本身的最高频率决定的。奈奎斯特理论指出,采样频率不应低于声音信号最高频率的两倍,这样就能把以数字表达的声音还原成原来的声音,这叫做无损数字化(lossless digitization)。采样定律用公式表示为 fs 2f 或者 Ts T/2 其中f为被采样信号的最高频率。 你可以这样来理解奈奎斯特理论:声音信号可以看成由许许多多正弦波组成的,一个振幅为A、频率为f的正弦波至少需要两个采样样本表示,因此,如果一个信号中的最高频率为 ,采样频率最低要选择2 。例如,电话话音的信号频率约为

6、3.4 kHz,采样频率就选为8 kHz。3.2.1 声音数字化过程量化精度 样本大小是用每个声音样本的位数bit/s(即bps)表示的,它反映度量声音波形幅度的精度。例如,每个声音样本用16位(2字节)表示,测得的声音样本值是在065535的范围里,它的精度就是输入信号的1/65536。样本位数的大小影响到声音的质量,位数越多,声音的质量越高,而需要的存储空间也越多;位数越少,声音的质量越低,需要的存储空间越少。 量化精度的另一种表示方法是信号噪声比,简称为信噪比(signal-to-noise ratio,SNR),并用下式计算: SNR 3 log2 (Vsignal)2 / (Vnoi

7、se)26 log2 (Vsignal / Vnoise) 其中,Vsignal表示信号电压,Vnoise表示噪声电压;SNR的单位为分贝(db) 例1:假设Vnoise1,采样精度为1位表示Vsignal21,它的信噪比SNR6分贝。 假设Vnoise1,采样精度为16位表示Vsignal216,它的信噪比SNR96分贝。3.2.2 声音质量与数据率采样频率 Hz数据长度 bit数据量分钟11,02580.66 MB22,05081.32 MB44,10082.64 MB11,025161.32 MB22,050162.64 MB44,100165.29 MB音质评价低一般良好中良好优秀3.

8、2.2 声音质量与数据率声音数据率计算 单声道,计算数字声音文件大小的公式为S=R*D*(r/8)*1S:文件大小,单位BR:采样频率,KHzD:录音时间,s r:分辨率,b1:对应单声道例:R=44.1Khz,r=16b,立体声,D=10s此为CD质量的红皮书音频标准,属消费者级的压缩盘标准。3.2.2 声音质量与数据率2020 000 Hz质量采样频率(kHz)样本精度(bit/s)单道声/立体声数据率(kB/s)(未压缩)频率范围电话*88单道声8 2003 400 HzAM11.0258单道声11.02015 000HzFM22.05016立体声88.2 507 000HzCD44.1

9、16立体声176.42020 000 HzDAT4816立体声192.0声音数据率计算3.3.1 语音编码技术分类波形编译码器(waveform coder):不利用生成话音的信号的任何知识,将话音视为一种普通的声音,直接对波形信号进行采样和量化。例如PCM、DPCM、ADPCM等。音源编译码器(Source coder):也叫参数编译码器、声码器(vocoder)。它从话音波形信号中提取话音生成模型的参数,使用这些参数通过话音生成模型重构出话音。例如LPC编码。混合编译码器(Hybrid coder):综合使用上述两种技术。使用的激励信号波形尽可能接近于原始话音信号的波形。例如CELP。3.

10、3.1 语音编码技术分类音源编译码器话音产生的数字模型周期脉冲序列发生器伪随机噪声产生器周期时变数字滤波器音量控制声道参数语音输出浊/清选择3.3.1 语音编码技术分类语音编码技术比较一般来说,波形编译码器的话音质量高,但数据率也很高;音源编译码器的数据率很低,产生的合成话音的音质有待提高;混合编译码器使用音源编译码技术和波形编译码技术,数据率和音质介于它们之间。3.3.1 语音编码技术分类语音编码技术分类LDM多脉冲线性预测(MPLPC)码激励线性预测(MPLPC)音频压缩编码方法有损压缩无损压缩波形编码参数编码 (LPC)混合编码Huffman编码行程编码增量调制脉冲编码调制子带编码(SB

11、S)DPCMADPCMADM3.3.2 脉冲编码调制(PCM)概念 它仅仅是对输入信号进行采样和量化。在这个编码框图中,它的输入是模拟声音信号,它的输出是PCM样本。图中的“防失真滤波器”是一个低通滤波器,用来滤除声音频带以外的信号;“波形编码器”可暂时理解为“采样器”,“量化器”可理解为“量化阶大小(step-size)”生成器或者称为“量化间隔”生成器。3.3.2 脉冲编码调制(PCM)PCM编码步骤PCM编码的两个步骤: 第一步是采样,就是每隔一段时间间隔读 一次声音的幅度; 第二步是量化,就是把采样得到的声音信号幅度转 换成数字值。量化归纳成两类: 一类称为均匀量化 另一类称为非均匀量

12、化采用的量化方法不同,量化后的数据量也就不同。因此,可以说量化也是一种压缩数据的方法。3.3.2 脉冲编码调制(PCM)均量化如果采用相等的量化间隔对采样得到的信号作量化,那么这种量化称为均匀量化。均匀量化就是采用相同的“等分尺”来度量采样得到的幅度,也称为线性量化,如图所示。量化后的样本值Y和原始值X的差E=Y-X称为量化误差或量化噪声。3.3.2 脉冲编码调制(PCM)非均量化无论对大的输入信号还是小的输入信号一律都采用相同的量化间隔。但是,对话音信号来说,大信号出现的机会并不多,增加的样本位数就没有充分利用。为了克服这个不足,就出现了非均匀量化的方法,这种方法也叫做非线性量化。非线性量化

13、的基本想法是,对输入信号进行量化时,大的输入信号采用大的量化间隔,小的输入信号采用小的量化间隔 采样输入信号幅度和量化输出数据之间定义了两种对应关系: 律压扩(companding)算法,A律压扩算法。3.3.2 脉冲编码调制(PCM)率压扩式中:x为输入信号幅度,规格化成; -1x1sgn(x)为x的极性;律( -Law)压扩(G.711)主要用在北美和日本等地区的数字电话通信中 3.3.2 脉冲编码调制(PCM)率压扩曲线3.3.2 脉冲编码调制(PCM)A率压扩0 |x| 1/A 1/A |x| 1 式中:x为输入信号幅度,规格化成 -1 x 1;sgn(x)为x的极性;A为确定压缩量的

14、参数,它反映最大量化间隔和最小量化间隔之比。A律压扩的前一部分是线性的,其余部分与 律压扩相同。A律(A-Law)压扩(G.711)主要用在欧洲和中国大陆等地区的数字电话通信中 3.3.2 脉冲编码调制(PCM)A率压扩曲线3.3.3 差分脉冲编码调制(DPCM) 是利用样本与样本之间存在的信息冗余度来进行编码的一种数据压缩技术。差分脉冲编码调制的思想是,根据过去的样本去估算(estimate)下一个样本信号的幅度大小,这个值称为预测值,然后对实际信号值与预测值之差进行量化编码,从而就减少了表示每个样本信号的位数。它与脉冲编码调制(PCM)不同的是,PCM是直接对采样信号进行量化编码,而DPC

15、M是对实际信号值与预测值之差进行量化编码,存储或者传送的是差值而不是幅度绝对值,这就降低了传送或存储的数据量。此外,它还能适应大范围变化的输入信号。3.3.3 差分脉冲编码调制(DPCM)DPCM原理图 3.3.3 差分脉冲编码调制(DPCM)各信号意义差分信号d(k):离散输入信号S(K)和预测器输出的估算值Se(k-1)之差。注意,Se(k-1)是对S(K)的预测值,而不是过去样本的实际值。 d= S(K)- Se(k-1)重构信号:由逆量化器产生的量化差分信号,与对过去样本信号的估算值求和得到。它们的和,即作为预测器确定下一个信号估算值的输入信号。 Sr(k)= Se(k-1)+ dq(

16、k)由于在发送端和接收端都使用相同的逆量化器和预测器,所以接收端的重构信号可从传送信号获得。误差来源: d与d(k)之间的差异是误差,原因?3.3.4自适应差分脉冲编码调制(ADPCM) 核心想法:利用自适应的思想改变量化阶的大小,即使用小的量化阶(step-size)去编码小的差值,使用大的量化阶去编码大的差值;使用过去的样本值估算下一个输入样本的预测值,使实际样本值和预测值之间的差值总是最小。 ADPCM:采用自适应技术和差分编码技术相结合。将64kb/s的PCM信号压缩为32kb/s的脉冲编码信号,广泛应用与电话通信网。3.3.4自适应差分脉冲编码调制(ADPCM)ADPCM原理图自适应

17、量化自适应预测3.3.5 线性预测编码(LPC)LPC是通过分析话音波形来产生声道激励和转移函数的参数,对声音波形的编码实际就转化为对这些参数的编码,这就使声音的数据量大大减少。在接收端使用LPC分析得到的参数,通过话音合成器重构话音。合成器实际上是一个离散的随时间变化的时变线性滤波器,它代表人的话音生成系统模型。时变线性滤波器既当作预测器使用,又当作合成器使用。3.3.5 线性预测编码(LPC) 线性预测器是使用过去的P个样本值来预测现时刻的采样值x(n),预测值可以用过去P个样本值的线性组合来表示: =残差误差(residual error)即线性预测误差为 =3.3.5 线性预测编码(L

18、PC)在给定的时间范围里,如 ,使 的平方和即 为最小 通过求解偏微分方程,可找到系数ai的值。如果把发音器官等效成滤波器,这些系数值就可以理解成滤波器的系数。这些参数不再是声音波形本身的值,而是发音器官的激励参数。 3.4.1 ITU-T音频压缩标准用于电话质量的语音压缩标准G.711, G.721, G.723,G.728用于调幅广播质量的音频压缩标准G.7223.4.1 ITU-T音频压缩标准ITU-TG电话质量语音压缩标准电话质量的语音信号频率范围为300hz3.4khz。G.711:1972年CCITT制定,用标准的PCM,采频8khz,量化倍数8b,对应的速率64kb/s)。 主要

19、用于公用电话网中。G.721:将64kb/s比特流转换成32kb/s比特流,基于ADPCM。G.723: 5.3kb/s或6.3kb/s数据流,可用于可视电话和IP电话等系统中。G.728:1992年, 16kb/s比特流,采用短时延码本激励线性预测编码(LD-CELP)算法。主要用于公用电话网中。3.4.1 ITU-T音频压缩标准ITU-T调幅广播质量语音压缩标准用于调幅广播的质量的音频信号频率范围为50hz7khz。 G.722:16kHz,14b量化1988年,子带编码及ADPCM编码,能将224kb/s的此类信号压缩为64kb/s,主要用于视听多媒体和会议电视等。3.4.2 MPEG音

20、频压缩标准ISO 11172-3:MPEG-1音频标准(MP1、MP2、MP3)(高保真音频压缩标准:音频信号50hz20khz )ISO 13818-3:MPEG-2音频标准(Dolby AC-3): 5+1 声道、低比特率和后向兼容性ISO 13818-7:MPEG-2 AAC音频标准支持采样频率从8kHz到96kHz,可支持48个主声道、16个配声道和16个数据流。ISO 14496-3:MPEG-4音频标准 集成从话音到高质量的多通道声音,从自然声音到合成声音3.4.2 MPEG音频压缩标准MPEG-1音频提供3个独立的压缩层次,用户可在复杂性和压缩质量之间权衡选择。层1最简单,使用比

21、特率384kbps,主要用于数字盒式磁带DCC; 层2的复杂度中等,使用比特率192kbps左右, 主要应用于数字广播的音频编码、CD-ROM上的音频信号以及CD-I和VCD。 层3最为复杂,使用比特率64kbps,尤其适用于ISDN上的音频传输,有损压缩但音质保持逼真效果。MP3音乐 是利用 MPEG Audio Layer 3 的技术, 声音采用 1:10 甚至 1:12 的压缩率 3.4.2 MPEG音频压缩标准MP3 层3使用比较好的临界频带滤波器,把声音频带分成非等带宽的子带,心理声学模型除了使用频域掩蔽特性和时间掩蔽特性之外,还考虑了立体声数据的冗余,并且使用了霍夫曼(Huffma

22、n)编码器。 3.4.3 GSM标准GSM(Global System for Mobile communications):可译成全球数字移动通信系统。GSM算法是1992年柏林技术大学(Technical University Of Berlin)根据GSM协议开发的,这个协议是欧洲最流行的数字蜂窝电话通信协议。GSM的输入是帧(frame)数据: 一帧(20毫秒)由采样频率为8 kHz的带符号的160个样本组成,每个样本为13位或者16位的线性PCM(linear PCM)码。GSM编码器可把一帧(16016位)的数据压缩成260位的GSM帧,压缩后的数据率为1625字节,相当于13 k

23、b/s。由于260位不是8位的整数倍,因此编码器输出的GSM帧为264位的线性PCM码。采样频率为8 kHz、每个样本为16位的未压缩的话音数据率为128 kb/s,使用GSM压缩后的数据率为:(264位8000样本/秒)/160样本=13.2 千位/秒GSM的压缩比:128:13.2 = 9.7,近似于10:1。3.5.1 MIDI简介MIDI(Musical Instrument Digital Interface):可译成“电子乐器数字接口”。用于在音乐合成器(music synthesizers)、乐器(musical instruments)和计算机之间交换音乐信息的一种标准协议从2

24、0世纪80年代初期开始,MIDI已经逐步被音乐家和作曲家广泛接受和使用。MIDI消息:乐谱的数字描述,即一套指令(即命令的约定),它指示乐器即MIDI设备要做什么,怎么做,如演奏音符、加大音量、生成音响效果等。MIDI不是声音信号,在MIDI电缆上传送的不是声音,而是发给MIDI设备或其它装置让它产生声音或执行某个动作的指令。3.5.2 MIDI系统音乐合成器:解释MIDI消息并产生音乐。含有键盘、音色和音序器。音乐合成方法:频率调制合成法(frequency modulation,FM)和乐音样本合成法(波形表(Wavetable)合成法)音源:产生声音的设备,提供很多不同音色的样本波形音序

25、器:用来记录、编辑和播放MIDI文件的设备。软件音序器 Cakewalk采样器:开放式音源,对声音进行采样,合成音色来供电脑音乐系统使用。其他设备:录音设备、监听设备、音响功放3.5.2 MIDI系统一个简单的MIDI系统 上图表示的是一个简单的MIDI系统,它由一个MIDI键盘控制器和一个MIDI声音模块组成。 许多MIDI键盘乐器在其内部既包含键盘控制器,又包含MIDI声音模块功能。在这些单元中,键盘控制器和声音模块之间已经有内部链接,这个链接可以通过该设备中的控制功能(local control)对链接打开(ON)或者关闭(OFF)。3.5.2 MIDI系统频率调制(FM )合成法的原理

26、它由5个基本模块组成:数字载波器、调制器、声音包络发生器、数字运算器和模数转换器。声音包络发生器用来调制声音的电平,这个过程也称为幅度调制(amplitude modulation),并且作为数字式音量控制旋钮,它的4个参数写成ADSR,这条包络线也称为音量升降维持静音包络线(Attack,decay,sustain,release,ADSR)包络线。3.5.2 MIDI系统频率调制(FM )合成法的原理在乐音合成器中,数字载波波形和调制波形有很多种,不同型号的FM合成器所选用的波形也不同。下图是Yamaha OPL-III数字式FM合成器采用的波形。各种不同乐音的产生是通过组合各种波形和各种

27、波形参数并采用各种不同的方法实现的。用什么样的波形作为数字载波波形、用什么样的波形作为调制波形、用什么样的波形参数去组合才能产生所希望的乐音,这就是FM合成器的算法。3.5.2 MIDI系统乐音样本合成声音参数,产生的声音质量比FM合成方法产生的声音质量要高这种方法就是把真实乐器发出的声音以数字的形式记录下来,播放时改变播放速度,从而改变音调周期,生成各种音阶的音符。乐音样本的采集相对比较直观。音乐家在真实乐器上演奏不同的音符,选择44.1 kHz的采样频率、16位的乐音样本,这相当于CD-DA的质量,把不同音符的真实声音记录下来,这就完成了乐音样本的采集。乐音样本通常放在ROM芯片上。乐音样

28、本合成器所需要的输入控制参数比较少,可控的数字音效也不多,大多数采用这种合成方法的声音设备都可以控制声音包络的ADSR 。3.5.3 MIDI规范与接口MIDI规范:1988年MIDI制造商协会正式公布MIDI技术规范第一版(MIDI 1.0),作为数字式音乐的国际标准。MIDI是由软件和硬件两部分共同组成的系统规范,它定义了电子合成器、定序器、节拍器、个人计算机和其他电子乐器的相互连接性和通信协议。相互连接性:定义了使这些不同的MIDI仪器能够相互连接的接线方式、连接器类型,和输入输出线路。通信协议定义了能够控制乐器声音和消息(包括:发出反应,发出状态,及发出系统独有)的标准多字节消息。补充

29、规范:“MIDI 1.0详解”、“ MIDI 1.0规定的补充说明”、“通用MIDI(GM)规范”3.5.3 MIDI规范与接口MIDI接口MIDI In :接受从其他MIDI装置传来的信息MIDI Out:发送某装置生成的原始MIDI消息,向其他设备发送MIDI消息MIDI Thru :传送从输入口接收的消息到其他MIDI装置,向其他设备发送MIDI消息。3.5.3 MIDI规范与接口MIDI工作过程MIDI乐器MIDI接口合成器音序器MIDI文件扬声器音频卡PC机MIDI指令模拟音频信号3.6.1 数字音频文件的种类.mid MIDI (Musical Instrument Digital

30、 Interface)乐器接口文件 用于合成、游戏,记录音符时值、频率、音色特征,数据量小.wav WAVE (Waveform Audio)波形音频文件 多媒体系统、音乐光盘制作,记录物理波形,数据量大.cda CDA (CD Audio)激光音频文件 准确记录声波,数据量大,经过采样,生成wav和mp3音频文件.mp3 mp3 (MPEG音频压缩标准)压缩音频文件 必须经过解压缩,数据量小3.6.1 数字音频文件的种类文件的扩展名说明auSun和NeXT公司的声音文件存储格式(8位m 律编码或者16位线性编码)aif(Audio Interchange)Apple计算机上的声音文件存储格式

31、cmf(Creative Music Format)声霸(SB)卡带的MIDI文件存储格式mctMIDI文件存储格式mff(MIDI Files Format)MIDI文件存储格式mid(MIDI)Windows的MIDI文件存储格式mp2MPEG Layer I , IImp3MPEG Layer IIImod(Module)MIDI文件存储格式3.6.1 数字音频文件的种类rm(RealMedia)RealNetworks公司的流放式声音文件格式ra(RealAudio)RealNetworks公司的流放式声音文件格式rolAdlib声音卡文件存储格式snd(sound)Apple计算机上

32、的声音文件存储格式seqMIDI文件存储格式sngMIDI文件存储格式voc(Creative Voice)声霸卡存储的声音文件存储格式wav(Waveform)*Windows采用的波形声音文件存储格式wrkCakewalk Pro软件采用的MIDI文件存储格式3.6.1 数字音频文件的种类.WAV声音文件用.wav为扩展名的文件格式称为波形文件格式(WAVE File Format),它在多媒体编程接口和数据规范1.0(Multimedia Programming Interface and Data Specifications 1.0)文档中有详细的描述。该文档是由IBM和微软公司于1

33、991年8月联合开发的,它是一种为交换多媒体资源而开发的资源交换文件格式(Resource Interchange File Format,RIFF)。波形文件格式支持存储各种采样频率和样本精度的声音数据,并支持声音数据的压缩。3.6.1 数字音频文件的种类.WAV声音文件波形文件有许多不同类型的文件构造块组成,其中最主要的两个文件构造块是Format Chunk(格式块)和Sound Data Chunk(声音数据块)。格式块包含有描述波形的重要参数,例如采样频率和样本精度等,声音数据块则包含有实际的波形声音数据。RIFF中的其他文件块是可选择的。它的简化结构如图所示。3.6.2 主要音频处理软件录音软件:Windows录音机编辑与转换软件Windows录音机CoolEditGoldWaveCake Walk3.6.2 主要音频处理软件 设备间的信号连接SPEAKERMICLINE IN1mV500mV声卡机箱后背插头: 3.5mm/stereo 使用“录音机”获取声音(1) 选择“程序附件娱乐 录音机”菜单,启动录音机(2) 单击 录音按钮,开始录音 (录音时间为60秒)教学进

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论