声音信号处理基本原理_第1页
声音信号处理基本原理_第2页
声音信号处理基本原理_第3页
声音信号处理基本原理_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、声音信号处理基本原理一、声音信号之特性声音是一维信号研究的重要对象,最常见的传播声音的介质是空气,声波和电磁波有很大的不同,例如声波的速度显然比光波慢的多,声音传播的速度与介质的性质和温度有关,例如在空气温度为 0 度时,声波的速度为 331.5m/s,如果空气温度每升高 1 度时,则声音传播的速度约增加 0.6m/s。电磁波是利用电磁感应的方式来传播,而声波的传播方式则通常是机械式的,当介质如空气受到某处震源的压迫时,被压迫的空气分子,就对其平衡位置产生位移,并引起附近空气分子也对其平衡位置产生位移。如所受的压迫是周期性的,而且其频率在声波范围内,此时,空气中就产生声波。 声波通常是指振动频

2、率在人能感应范围以内的波动,称为可闻波 (Audiblesound)。当频率高于可闻声时称超音波 (Ultrasound),其能量较高,一般可用于医学或工程之检测或塑料等材料加工,至于频率比可闻波低时称为低音波 (Infrasound),例如地震所引起的地震波。至于目前声音信号与数字信号处理关系最大的,首推通信方面,由于多媒体信息普及,其数据内容除了文字就是图片与声音,尤其是结合数字电子声音技术的因特网电话,它利用数字信号处理将语音加以数字化压缩,转成数据的形式之后再用线路一部分的频宽移作声音传送,透过因特网传送到通话的彼端,再解压缩回复成为原来的声音,在现在的计算机配备中,计算机音效早已从以

3、往的 PC 喇叭变为 Adlib 卡、声霸卡等输入及输出的装置,因此使得因特网电话出现广泛的热潮目前已有在网络上面点播歌曲的应用案例。一般电话的语音与电视讯号都是模拟的形式不经过压缩与编码就能传送,但是在频宽与多任务能力方面却远不如因特网因此数字信号处理将掀起未来通信方面的革命。数字电子声音技术中有一项很重要的工作就是编码的方法,常见的编码方法为脉波码调制 (pulse code modalation; PCM) 及高阶脉波数字码调制 (advanced pulse code modulation; ADPCM),目前像雷射唱盘、数字录音带、通信卫星、电话通信,都是各式各样的 PCM 技术应用

4、的具体例子。影响 PCM 的效果的一个因素一为取样频率,一为取样位数,由于这两者其值大小都与人类的听觉与语音能力有关,因此我们先介绍人耳及嘴唇方面的特性。二、人耳及嘴唇方面的特性如果我们把人类的语音转到频谱上来分析,可以看到在频谱上人类语音信号大都集中于某一个区段有较高的能量,这也意味着这个能量较高的频带就是人类声腔的共鸣区域,我们通常称这个频带为基本频率(fundamental frequency),每个人的基本频率因为天生的口腔结构而有所不同,通常小孩子的基本频率在 250400HZ 左右,而成年女子约在 200300HZ左右,而成年男子则约在 100150HZ 左右,因此男高音较为少见,

5、也就是这个原因。当人类发出声音时,如果有利用到声带振动来发音,则称为有声音(Voiced Sound),否则称之为无声音 (unvoiecd sound),而语音中又可分为具有稳定声道激发共鸣振动及音源振动变化较多较杂乱的子音。对人类耳朵而言,而够接受的音频范围很窄,大约在10Hz到20 KHz左右,而其中在 1.2 KHz 到 1.4 KHz 左右是听觉最敏锐的频带,而在此频带之前,人耳对较低的频率并不敏感,随着频率越高,人耳便越听得清楚,亦即人耳对高频的声音有自动增益的效果 (AGC)。因此如果我们用手来回挥动空气,如此低频的振荡,是无法发出人耳可以发觉的声音,除非我们鼓掌,在拍手的过程中

6、,两手迅速的撞系并将空气挤压出去,这种较短的脉冲式振动,其中包含了高频的空气振动,因此人耳便能够听到拍手的声音。相对的人的嘴唇构造却较无法发出高频的声音,随着发出的声音频率越高,嘴中所发出的强度即随之而减弱,因此当我们在作语音信号取样时,并不需要将取样频率取得太高,一般而言,使用 11 KHz 即告足够,因为语音中高频的部份很少,声音的变化不快,但音乐就不同了,音乐数据变化性通常很大,一般取样频率是使用 22KHz,如此重新放出来时人耳听来才不致有失真的感觉。三、声音讯号数据之取样量化当声音讯号数据之取样量化的位数为 80 时,可以得到 256 个音阶,而取样位数为 16 时,则拥有 6553

7、6 个音阶,较高的取标频率与较多的取样位数意谓着较高的质量,但同样的也表示较昂贵的装备和较大的记备空间。对语音而言,使用 8 KHz 取样频率, 4 bit 取样位,记录一分钟语音再予压缩后大约要花掉 62 KB 的内存。对收音机的声音而言,使用 11 KHz 取样频率记录一分钟则占用 322 KB 的内存,而记录调幅合成日时,使用 22 KHz 取样频率,则要占去 1291KB 的内存,至于若要达到激光唱片的质量要求,则使用 44.1 KHz 取样频率, 16 bit 取样位,因此记录一分钟便要 5167 KB 的内存,在没有压缩的情况下,一张光盘也只能储存七十六分钟的音乐而已。由于 PC

8、喇叭为早期的个人计算机标准配备,早期个人计算机的教学软件及电动玩具程序,是直接利用个人计算机上面的喇叭把电动玩具的音乐播放出来,虽然表现的效果比不上声霸卡的真实动听,但,不像现在的音效软件动辄数片光盘片,为什么它所占的资料文件很小呢?这是因为个人计算机上喇叭装置不像声霸卡有 256 或更高的音阶,它只有一个位,亦即只有两种状态:开与关,大家可能会怀疑只是将喇叭做开与关的动作真的能够产生音乐吗?然而代表声音信号特色的两个要素:"频率"与"音量"来看,"频率"这个要素无宁是重要了许多,因此我们将音乐波形转换成各种不同频率的方波后,推动喇叭

9、来发音,仍然可以得到近似的声音,例如想产生高音时只需将喇叭的开与关动作加速,就可以产生较高频的声音,同样的,如果想要产生低音时则将喇叭开与关的速度放慢,就可以产生较低频的声音,由于音量无法控制,因此在比较高频的音效里,其所包含的能量较多,听起来一定比低频的声音大声。四、一维信号辨识系统单纯的将一维信号予于传利叶转换到频谱上去分析,有时候就能够把问题的症结找出来了。除了机械结构物体的振动分析之外,我们也可将类似的技术用在生物体上,例如用在生鲜鸡蛋的节选上,工程人员将一个脉冲振洫施加于蛋壳上,再利用一束雷射光照射于鸡蛋上并侦测其反射回来的光信号变化,便可得到蛋壳表面的振动位移信息,再这些振动位移信

10、息予以傅氏转换,观察其频谱上之峰值出现于何处,就可知道这个鸡蛋是否是颗好蛋或昃已感染了病毒,因为好蛋和坏蛋的自然频率是有很大的差异量的。近年来国内中研院和台大医院发展出一种新的诊病技术,也是利用一个特殊脉冲施加于人体,再在人体上侦测其信号及傅氏转换频谱反应,频谱上出现的人体不同的自然频率都意味着不同的病变。话说回来,一维信号辨识技术仍然以语音辨识的应用量为最大,一个声音讯号数据通常是很大且连续的,如果直接从这笔声音数据去分析、辨识,不但数据处理速度太慢,且还要处理一些不必要的噪声干扰,所以要设法从输入的声音信息中撷取特征值参数,以方便辨认声音所对应的参考样板而输出其结果。一般在建立语音辨识系统时,通常都类似图 1-1之基本模式,而声音辨识的技巧也是如此。在语音辨识模式中应用相对的观念,将一未知声音和预存的声音作型样识别 (pattern recognition),其流程如下: (1) 利用信号处理技巧,撷取输入声音的特征值 (feature)。(2) 在训练程序时把所

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论