语音处理基础大作业报告书_第1页
语音处理基础大作业报告书_第2页
语音处理基础大作业报告书_第3页
语音处理基础大作业报告书_第4页
语音处理基础大作业报告书_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

西安邮电大学语音处理基础大作业报告书学院名称:学生姓名:专业名称:班级: 一双音多频信号的检测双音多频(DualToneMultiFrequency,DTMF)信号是音频电话中的拨号信号,由美国AT&T贝尔公司实验室研制,并用于电话网络中。这种信号制式具有很高的拨号速度,且容易自动监测识别,很快就代替了原有的用脉冲计数方式的拨号制式。这种双音多频信号制式不仅用在电话网络中,还可以用于传输十进制数据的其它通信系统中,用于电子邮件和银行系统中。这些系统中用户可以用电话发送DTMF信号选择语音菜单进行操作。DTMF信号系统是一个典型的小型信号处理系统,它要用数字方法产生模拟信号并进行传输,其中还用到了D/A变换器;在接收端用A/D变换器将其转换成数字信号,并进行数字信号处理与识别。为了系统的检测速度并降低成本,还开发一种特殊的DFT算法,称为戈泽尔(Goertzel)算法,这种算法既可以用硬件(专用芯片)实现,也可以用软件实现。下面首先介绍双音多频信号的产生方法和检测方法,包括戈泽尔算法,最后进行模拟实验。一、实验内容:在电话中,数字0~9的中每一个都用两个不同的单音频传输,所用的8个频率分成高频带和低频带两组,低频带有四个频率:679Hz,770Hz,852Hz和941Hz;高频带也有四个频率:1209Hz,1336Hz,1477Hz和1633Hz.。每一个数字均由高、低频带中各一个频率构成,DTMF信号的生成是通过将两个有限长数字序列相加而实现;而对DTMF信号的检测是通过计算DTMF信号的DFT;然后测量在给定8个频率上的能量而实现。已知采样频率为8KHZ,DTMF信号点数N=205,对DTMF信号进行205点的DFT。右表为DTMF数字。1209HZ1336HZ1447HZ1663HZ1697HZ123A2770HZ456B3852HZ789C4941HZ*0#DDTMF信号在电话中有两种作用,一个是用拨号信号去控制交换机接通被叫的用户电话机,另一个作用是控制电话机的各种动作,如播放留言、语音信箱等。要求:1,通过键盘任意输入16个键之一,生成DTMF信号。2。试实现对该输入信号的检测,并在屏幕上显示。3。试从计算量角度考虑为什么采用DFT进行DTMF信号检测。4。判断出每个频率对应的DFT的频率采样点。二、实验目的:对DTMF信号的生成及其检测有所了解,进一步对DFT的定义、物理意义及基本性质有深入了解。三、实验原理:DFT(离散傅立叶变换)的定义:X(K)=∑x(n)WknN,k=0,1,…,N-1IDFT(离散傅立叶逆变换)的定义:x(n)=1/N(∑X(K)W-knN,n=0,1,…,N-1DFT变换具有周期性、线性、循环卷积等性质。其最重要性质共轭对称性,其性质如下:设x(n)是长度为N的实序列,且X(K)=DFT【x(n)】,则(1.)X(K)共轭对称,即X(K)=X*(N-K),0≤k≤N-1(2.)如果x(n)=x(N-n),则X(K)实偶对称,即X(K)=X(N-K)(3.)如果x(n)=-x(N-n),则X(K)纯虚奇对称,即X(K)=-X(N-K)利用共轭对称性可以减少运算量。四、实验步骤:(1)确定从键盘上输入的字母。方法通过其字母的ASCII值来判断(采用for循环嵌套)。(2)DTMF信号的产生。DTMF信号的生成是通过有限长数字序列的相加而实现,通过两个频率确定唯一的字母,用该两个信号相加实现DTMF信号。(3)DTMF信号得到DFT变化。先对该信号进行205点上的DFT变换,然后进行固定点上DFT的提取,并输出该点上的DFT的幅值。(4)从输出幅值判断输入字母。制定一个判断标准,通过该判断标准得出相应的行与列,进而确定该点的ASCII值,输出对应的字母。五、程序框图:开始开始键盘输入字母键盘输入字母For循环确定p\qFor循环确定p\qDTMF信号的生成及图形DTMF信号的生成及图形DTMF信号的DFT变换DTMF信号的DFT变换8定点频率上DFT图形8定点频率上DFT图形通过判断标准确定行、列,输出相应字母通过判断标准确定行、列,输出相应字母结束结束六、源程序:closeall;clearall;clc;f1=697;f2=770;f3=852;f4=941;f5=1209;f6=1336;f7=1447;f8=1663;fs=8000;n=1:205;while(1)while(1)clcflag=0;disp('1209133614471663');disp('697123A');disp('770456B');disp('852789C');disp('941*0#D');disp('');disp('');in_key=input('请输入按键','s');disp('');disp('');switchin_keycase['1']x1=sin(2*pi*n*f1/fs);x2=sin(2*pi*n*f5/fs);case['2']x1=sin(2*pi*n*f1/fs);x2=sin(2*pi*n*f6/fs);case['3']x1=sin(2*pi*n*f1/fs);x2=sin(2*pi*n*f7/fs);case['A']x1=sin(2*pi*n*f1/fs);x2=sin(2*pi*n*f8/fs);case['4']x1=sin(2*pi*n*f2/fs);x2=sin(2*pi*n*f5/fs);case['5']x1=sin(2*pi*n*f2/fs);x2=sin(2*pi*n*f6/fs);case['6']x1=sin(2*pi*n*f2/fs);x2=sin(2*pi*n*f7/fs);case['B']x1=sin(2*pi*n*f2/fs);x2=sin(2*pi*n*f8/fs);case['7']x1=sin(2*pi*n*f3/fs);x2=sin(2*pi*n*f5/fs);case['8']x1=sin(2*pi*n*f3/fs);x2=sin(2*pi*n*f6/fs);case['9']x1=sin(2*pi*n*f3/fs);x2=sin(2*pi*n*f7/fs);case['C']x1=sin(2*pi*n*f3/fs);x2=sin(2*pi*n*f8/fs);case['*']x1=sin(2*pi*n*f4/fs);x2=sin(2*pi*n*f5/fs);case['0']x1=sin(2*pi*n*f4/fs);x2=sin(2*pi*n*f6/fs);case['#']x1=sin(2*pi*n*f4/fs);x2=sin(2*pi*n*f7/fs);case['D']x1=sin(2*pi*n*f4/fs);x2=sin(2*pi*n*f8/fs);otherwiseflag=1;clc;disp('');disp('你输入按键错误');disp('');disp('');temp=input('是否要继续Y|y---是N|n--否','s');disp('');if(temp==['n']|temp==['N'])flag=0;endend;if(flag==0)break;endendxn=x1+x2;xk=fft(xn,205);%对x(n)做采样点数为205点的fft变换%k=0:204;%figure('name','实验五');subplot(311);plot(n,xn);xlabel('n');ylabel('xn');grid;subplot(312);stem(k,xk(1:205));%绘制以k为x轴,xk(1:205)为y轴的离散序列图%xlabel('k');ylabel('xk');grid;xk=abs(xk);%作xk的绝对值%max1=1;xmax1=xk(1);max2=1;xmax2=xk(1);form=1:60if(xmax1<xk(m))xmax1=xk(m);max1=m;endendform=1:60if(xmax2<xk(m)&m~=max1)xmax2=xk(m);max2=m;endendmax1=max1-1;max2=max2-1;if(max1>max2)k=max1;max1=max2;max2=k;enddisp('');disp('');disp('------------------------经过传输后知道如下--------------------------------');switchmax1case18switchmax2case31disp('你输入的是-------1');a=[max1max2];b=[6971209];subplot(313);stem(a,b);xlabel('k');ylabel('f');grid;case34disp('你输入的是-------2');a=[max1max2];b=[6971336];subplot(313);stem(a,b);xlabel('k');ylabel('f');grid;case37disp('你输入的是-------3');a=[max1max2];b=[6971447];subplot(313);stem(a,b);xlabel('k');ylabel('f');grid;case43 disp('你输入的是-------A');a=[max1max2];b=[6971663];subplot(313);stem(a,b);xlabel('k');ylabel('f');grid;endcase20switchmax2case31disp('你输入的是-------4');a=[max1max2];b=[7701209];subplot(313);stem(a,b);xlabel('k');ylabel('f');grid;case34disp('你输入的是-------5');a=[max1max2];b=[7701336];subplot(313);stem(a,b);xlabel('k');ylabel('f');grid;case37disp('你输入的是-------6');a=[max1max2];b=[7701447];subplot(313);stem(a,b);xlabel('k');ylabel('f');grid;case43disp('你输入的是-------B');a=[max1max2];b=[7701663];subplot(313);stem(a,b);xlabel('k');ylabel('f');grid;endcase22switchmax2case31disp('你输入的是-------7');a=[max1max2];b=[8521209];subplot(313);stem(a,b);xlabel('k');ylabel('f');grid;case34disp('你输入的是-------8');a=[max1max2];b=[8521336];subplot(313);stem(a,b);xlabel('k');ylabel('f');grid;case37disp('你输入的是-------9');a=[max1max2];b=[8521447];subplot(313);stem(a,b);xlabel('k');ylabel('f');grid;case43disp('你输入的是-------C');a=[max1max2];b=[8521663];subplot(313);stem(a,b);xlabel('k');ylabel('f');grid;endcase24switchmax2case31disp('你输入的是-------*');a=[max1max2];b=[9411209];subplot(313);stem(a,b);xlabel('k');ylabel('f');grid;case34disp('你输入的是-------0');a=[max1max2];b=[9411336];subplot(313);stem(a,b);xlabel('k');ylabel('f');grid;case37disp('你输入的是-------#');a=[max1max2];b=[9411447];subplot(313);stem(a,b);xlabel('k');ylabel('f');grid;case43disp('你输入的是-------D');a=[max1max2];b=[9411663];subplot(313);stem(a,b);xlabel('k');ylabel('f');grid;endenddisp('');;shdisp('');disp('');temp=input('是否要继续按键Y|y---是N|n--退出','s');if(temp==['n']|temp==['N'])break;;enddisp('');end七、程序结果及图表:a=input('输入数字=','s');sm=abs(a);%输入数字的ASCII值pm=[49505165;52535466;55565767;42483568];%给出图表字母的相应ASCII值矩阵forp=1:4;forq=1:4;ifpm(p,q)==sm;break,endendifpm(p,q)==sm;break,endend%通过两个for循环判断键盘输入字母的具体行和列fprintf('ASCII码值AM=%0.f\n',pm(p,q))f1=[697770852941];f2=[1209133614471663];n=0:204;x=sin(2*pi*n*f1(p)/8000)+sin(2*pi*n*f2(q)/8000);%DTMF信号的生成figure('color','g');subplot(211);plot(x);xlabel('n');ylabel('x');title('DTMF信号');k=[1820222431343843];%给出8个频率点va=zeros(1,8);%生成一个1行8列的零矩阵form=1:8;Fx(m)=gfft(x,205,k(m));%对信号x进行205点上DFT变换,再取和k对应的8点上DFT变化并相应的放入Fx(m)endva=abs(Fx);subplot(212);stem(k,va);xlabel('k');ylabel('|X(k)|');l1=80;l2=7.8;%判断标准fors=5:8;ifva(s)>l2;break,endendforr=1:4;ifva(r)>l1;break,endend%通过判断标准判断出相应的行和列disp(['拨号符号=',setstr(pm(r,s-4))])%输出判断出的相应行、列ASCII值矩阵对应的符号结果及图示如下:输入数字=1,ASCII码值AM=,49拨号符号=1 图一输入数字,=2ASCII码值AM=50拨号符号,=2图二比较以上两图,每幅图的上面均为该字母所对应的两固定频率所产生的DTMF信号,且它们只是205点上的离散信号,下图是对该字母DTMF信号x进行205点上DFT变换,再取和k对应的8点(1820222431343843)上DFT变化的幅值,其中前4点决定该字母所在原矩阵中的行,后4点决定该字母所在原矩阵中的列,该图也证明了前四点表示的意义。输入数字=4ASCII码值AM=52 图三拨号符号=4比较图一、图三,可以看出后四点表示的是字母所在原矩阵中的列,该图也证明了后四点表示的意义。以上三幅图均证明了程序的正确。因为采样频率是8000Hz,因此要求每125ms输出一个样本,得到的序列再送到D/A变换器和平滑滤波器,输出便是连续时间的DTMF信号。DTMF信号通过电话线路送到交换机。基于Goertzel算法的双音多频信号检测在接收端,要对收到的双音多频信号进行检测,检测两个正弦波的频率是多少,以判断所对应的十进制数字或者符号。显然这里仍然要用数字方法进行检测,因此要将收到的时间连续DTMF信号经过A/D变换,变成数字信号进行检测。检测的方法有两种,一种是用一组滤波器提取所关心的频率,根据有输出信号的2个滤波器判断相应的数字或符号。另一种是用DFT(FFT)对双音多频信号进行频谱分析,由信号的幅度谱,判断信号的两个频率,最后确定相应的数字或符号。当检测的音频数目较少时,用滤波器组实现更合适。FFT是DFT的快速算法,但当DFT的变换区间较小时,FFT快速算法的效果并不明显,而且还要占用很多内存,因此不如直接用DFT合适。下面介绍Goertzel算法,这种算法的实质是直接计算DFT的一种线性滤波方法。这里略去Goertzel算法的介绍,可以直接调用MATLAB信号处理工具箱中戈泽尔算法的函数Goertzel,计算N点DFT的几个感兴趣的频点的值。二语音合成与语音识别语音识别的发展历史早在计算机发明之前,自动语音识别的设想就已经被提上了议事日程,早期的声码器可被视作语音识别及合成的雏形。而1920年代生产的"RadioRex"玩具狗可能是最早的语音识别器,当这只狗的名字被呼唤的时候,它能够从底座上弹出来。最早的基于电子计算机的语音识别系统是由AT&T贝尔实验室开发的Audrey语音识别系统,它能够识别10个英文数字。其识别方法是跟踪语音中的共振峰。该系统得到了98%的正确率。到1950年代末,伦敦学院(ColledgeofLondon)的Denes已经将语法概率加入语音识别中。1960年代,人工神经网络被引入了语音识别。这一时代的两大突破是线性预测编码LinearPredictiveCoding(LPC),及动态时间弯折DynamicTimeWarp技术。语音识别技术的最重大突破是隐含马尔科夫模型HiddenMarkovModel的应用。从Baum提出相关数学推理,经过Labiner等人的研究,卡内基梅隆大学的李开复最终实现了第一个基于隐马尔科夫模型的大词汇量语音识别系统Sphinx。[1]。此后严格来说语音识别技术并没有脱离HMM框架。尽管多年来研究人员一直尝试将“听写机”推广,语音识别技术在目前还无法支持无限领域,无限说话人的听写机应用。语音识别概述语音识别技术,也被称为自动语音识别AutomaticSpeechRecognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合,可以构建出更加复杂的应用,例如语音到语音的翻译。语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。语音合成语音是信息传播的一大媒介。近年来,提供语音服务的语音系统迅速发展起来。传统的语音系统一般采用预录音回放技术,由于这种方法必须对信息文本事先进行录音,并存为声音文件,因此,所占用的存储空间很大。另外,一个更大的缺点是不能实时反映信息的更新,应用范围有很大的局限性。现在的语音合成技术,无需对大量的信息进行录音,极大地减少了工作量和节省了存储空间,尤其是在信息内容需要经常变动的动态查询场合,如股市行情查询、有声Email系统,都是传统的预录音技术无法代劳的。结合其他技术,语音合成技术可以广泛应用于金融、邮电、工商、政府机关、交通、教育、游戏等领域。传统的语音系统恢复语音回放恢复语音回放录音Wav语音压缩编码语音压缩编码语音信号的参数合成根据语音产生的数学模型,利用短时平稳性,提出每帧语音信号的参数,这些参数经编码后组成一个语音参数库。输出时,从语音参数库中取出相应的参数,利用语音产生的数学模型恢复语音。共振峰合成和线性预测合成是该类合成技术中的重要方法。直接录放流程回放录音回放录音Wav语音压缩编码语音压缩编码波形合成方法挑选组合挑选组合语音库(语音单元)语音的波形编码回放 合成语音语音信号的规则合成将任意文本转换成声音的系统。包括语言学和声学处理。合成的词汇不是事先确定。常见的就是文语转换合成技术。系统中存储的是音素的声学参数,以及由音素组成音节、由音节组成词、由词组成句子的规则;控制音调、轻重音等韵律的各种规则。在波形合成法中,也可以使用波形编码技术略微压缩一些存储量。通常情况下,波形合成法可以合成的语音词汇量约在500以下,而参数合成法则可以达到数千左右。当然,在参数合成时,由于抽取参数或编码过程中,难免存在逼近误差,所以合成的语音质量(清晰度)也就比波形合成法要差一些了。在语音合成中,另一个重要问题就是合成基元的选择问题,也就是存储的语音基元的选择问题。显然,合成词汇量越大,必须采用越小的基元,否则存储量就太大了;反之,合成词汇量越小,可用较大的基元。例如在英语中,词的数量有千千万万,但是音素质有成百个。因此存储全部词的容量远远大于存储全部音素的容量。但是我们知道,基元越大,合成的语音自然度就越好。例如存储的是整个句子的语音波形或参数,则合成的语音在该句范围内,合成语音的自然度就接近于原始语音,不会有那种不连贯的机器味。通常,在波形合成法中,由于合成的是有限长度的语音,甚至可以用整个句子作为合成基元,但是在参数合成法中,则不得不用字至多也只能用词作为合成基元。语音合成技术可以分为四类:1.波形编码合成方法2.参数式分析合成方法3.规则合成方法4.文-语转换无论波形合成法或是参数合成法,其原理都等同于语音通信的语音编码或声码器中的接收端的工作过程,只是现在没有从信道送来的参数与编码的序列,而代之以从分析或变换得到的存储在语音库中的参数或码序列。共振峰式语音合成器语音的规则合成这种合成方法以通过语音学规则来产生任何语音为目的,规则合成系统存储的是较小的语音单位的声学参数以及由音素组成音节,再由音节组成词或句子的各种规则。当输入字母符号时,合成系统利用规则自动将它们转换为连续的语音声波。由于语音中存在协同发声效应,单独存在的元音和辅音与连续发音中的元音和辅音不同,所以合成规则是在分析每一语音单元出现在不同环境中的协同发音后,归纳其规律而制定的如共振峰的频率规则、时长规则、声调和语调规则等。与分析合成方法相比,规则合成方法的语音库的存储量更小,这是以牺牲音质为代价的,这种方式涉及到许多语音学和语音学模型,系统结构复杂。目前合成规则还不完善,合成音质一般较差。语音识别语音识别是指从语音到文本的转换,即让计算机能够把人发出的有意义的话音变成书面语言。通俗地说就是让机器能够听懂人说的话。所谓听懂,有两层意思,一是指把用户所说的话逐词逐句转换成文本;二是指正确理解语音中所包含的要求,作出正确的应答。语音识别的模型目前,主流的大词汇量语音识别系统多采用统计模式识别技术。典型的基于统计模式识别方法的语音识别系统由以下几个基本模块所构成信号处理及特征提取模块。该模块的主要任务是从输入信号中提取特征,供声学模型处理。同时,它一般也包括了一些信号处理技术,以尽可能降低环境噪声、信道、说话人等因素对特征造成的影响。统计声学模型。典型系统多采用基于一阶隐马尔科夫模型进行建模。发音词典。发音词典包含系统所能处理的词汇集及其发音。发音词典实际提供了声学模型建模单元与语言模型建模单元间的映射。语言模型。语言模型对系统所针对的语言进行建模。理论上,包括正则语言,上下文无关文法在内的各种语言模型都可以作为语言模型,但目前各种系统普遍采用的还是基于统计的N元文法及其变体。解码器。解码器是语音识别系统的核心之一,其任务是对输入的信号,根据声学、语言模型及词典,寻找能够以最大概率输出该信号的词串。从数学角度可以更加清楚的了解上述模块之间的关系。首先,统计语音识别的最基本问题是,给定输入信号或特征序列,符号集(词典),求解符号串使得:W=argmaxP(W|O)通过贝叶斯公式,上式可以改写为由于对于确定的输入串O,P(O)是确定的,因此省略它并不会影响上式的最终结果,因此,一般来说语音识别所讨论的问题可以用下面的公式来表示,可以将它称为语音识别的基本公式。W=argmaxP(O|W)P(W)从这个角度来看,信号处理模块提供了对输入信号的预处理,也就是说,提供了从采集的语音信号(记为S)到特征序列O的映射。而声学模型本身定义了一些更具推广性的声学建模单元,并且提供了在给定输入特征下,估计P(O|uk)的方法。为了将声学模型建模单元串映射到符号集,就需要发音词典发挥作用。它实际上定义了映射的映射。为了表示方便,也可以定义一个由到U的全集的笛卡尔积,而发音词典则是这个笛卡尔积的一个子集。并且有:最后,语言模型则提供了P(W)。这样,基本公式就可以更加具体的写成:对于解码器来所,就是要在由,,ui以及时间标度t张成的搜索空间中,找到上式所指明的W。语音识别是一门交叉学科,语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的事情。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。语音识别的发展历史国外研究历史及发展语音识别的研究工作可以追溯到20世纪50年代AT&T贝尔实验室的Audry系统,它是第一个可以识别十个英文数字的语音识别系统。但真正取得实质性进展,并将其作为一个重要的课题开展研究则是在60年代末70年代初。这首先是因为计算机技术的发展为语音识别的实现提供了硬件和软件的可能,更重要的是语音信号线性预测编码(LPC)技术和动态时间规整(DTW)技术的提出,有效的解决了语音信号的特征提取和不等长匹配问题。这一时期的语音识别主要基于模板匹配原理,研究的领域局限在特定人,小词汇表的孤立词识别,实现了基于线性预测倒谱和DTW技术的特定人孤立词语音识别系统;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。随着应用领域的扩大,小词汇表、特定人、孤立词等这些对语音识别的约束条件需要放宽,与此同时也带来了许多新的问题:第一,词汇表的扩大使得模板的选取和建立发生困难;第二,连续语音中,各个音素、音节以及词之间没有明显的边界,各个发音单位存在受上下文强烈影响的协同发音(Co-articulation)现象;第三,非特定人识别时,不同的人说相同的话相应的声学特征有很大的差异,即使相同的人在不同的时间、生理、心理状态下,说同样内容的话也会有很大的差异;第四,识别的语音中有背景噪声或其他干扰。因此原有的模板匹配方法已不再适用。实验室语音识别研究的巨大突破产生于20世纪80年代末:人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍,第一次把这三个特性都集成在一个系统中,比较典型的是卡耐基梅隆大学(CarnegieMellonUniversity)的Sphinx系统,它是第一个高性能的非特定人、大词汇量连续语音识别系统。这一时期,语音识别研究进一步走向深入,其显著特征是HMM模型和人工神经元网络(ANN)在语音识别中的成功应用。HMM模型的广泛应用应归功于AT&TBell实验室Rabiner等科学家的努力,他们把原本艰涩的HMM纯数学模型工程化,从而为更多研究者了解和认识,从而使统计方法成为了语音识别技术的主流。统计方法将研究者的视线从微观转向宏观,不再刻意追求语音特征的细化,而是更多地从整体平均(统计)的角度来建立最佳的语音识别系统。在声学模型方面,以Markov链为基础的语音序列建模方法HMM(隐式Markov链)比较有效地解决了语音信号短时稳定、长时时变的特性,并且能根据一些基本建模单元构造成连续语音的句子模型,达到了比较高的建模精度和建模灵活性。在语言层面上,通过统计真实大规模语料的词之间同现概率即N元统计模型来区分识别带来的模糊音和同音词。另外,人工神经网络方法、基于文法规则的语言处理机制等也在语音识别中得到了应用。国内研究历史及现状我国语音识别研究工作起步于五十年代,但近年来发展很快。研究水平也从实验室逐步走向实用。从1987年开始执行国家863计划后,国家863智能计算机专家组为语音识别技术研究专门立项,每两年滚动一次。我国语音识别技术的研究水平已经基本上与国外同步,在汉语语音识别技术上还有自己的特点与优势,并达到国际先进水平。中科院自动化所、声学所、清华大学、北京大学、哈尔滨工业大学、上海交通大学、中国科技大学、北京邮电大学、华中科技大学等科研机构都有实验室进行过语音识别方面的研究,其中具有代表性的研究单位为清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。清华大学电子工程系语音技术与专用芯片设计课题组,研发的非特定人汉语数码串连续语音识别系统的识别精度,达到94.8%(不定长数字串)和96.8%(定长数字串)。在有5%的拒识率情况下,系统识别率可以达到96.9%(不定长数字串)和98.7%(定长数字串),这是目前国际最好的识别结果之一,其性能已经接近实用水平。研发的5000词邮包校核非特定人连续语音识别系统的识别率达到98.73%,前三选识别率达99.96%;并且可以识别普通话与四川话两种语言,达到实用要求。中科院自动化所及其所属模式科技(Pattek)公司2002年发布了他们共同推出的面向不同计算平台和应用的“天语”中文语音系列产品——PattekASR,结束了中文语音识别产品自1998年以来一直由国外公司垄断的历史。语音识别的分类针对说话方式:孤立词识别和连续语音识别针对识别环境:实验室环境语音识别、电话语音识别和广播语音识别针对说话人:特定说话人语音识别和非特定说话人语音识别针对词汇量:小词汇量、中词汇量和大词汇量的识别语音识别系统的分类语音识别系统可以根据对输入语音的限制加以分类。如果从说话者与识别系统的相关性考虑,可以将识别系统分为3类:(1)特定人语音识别系统:仅考虑对于专人的话音进行识别;(2)非特定人语音系统:识别的语音与人无关,通常要用大量不同人的语音数据库对识别系统进行学习;(3)多人的识别系统:通常能识别一组人的语音,或者成为特定组语音识别系统,该系统仅要求对要识别的那组人的语音进行训练。如果从说话的方式考虑,也可以将识别系统分为3类:(1)孤立词语音识别系统:孤立词识别系统要求输入每个词后要停顿;(2)连接词语音识别系统:连接词输入系统要求对每个词都清楚发音,一些连音现象开始出现;(3)连续语音识别系统:连续语音输入是自然流利的连续语音输入,大量连音和变音会出现。如果从识别系统的词汇量大小考虑,也可以将识别系统分为3类:(1)小词汇量语音识别系统。通常包括几十个词的语音识别系统。(2)中等词汇量的语音识别系统。通常包括几百个词到上千个词的识别系统。(3)大词汇量语音识别系统。通常包括几千到几万个词的语音识别系统。随着计算机与数字信号处理器运算能力以及识别系统精度的提高,识别系统根据词汇量大小进行分类也不断进行变化。目前是中等词汇量的识别系统到将来可能就是小词汇量的语音识别系统。这些不同的限制也确定了语音识别系统的困难度。语音识别原理框图失真测度欧氏距离失真测度 似然比测度语音信号判决测度估计声学参数分析预处理输入识别结果判决测度估计声学参数分析预处理专家知识库语音库反混叠失真滤波器专家知识库语音库预加重器训练端点检测噪声滤波器构词规则 同音字判决 语法语义 背景知识语音识别的类型以所要识别的对象来分,有:(1)孤立词识别(字或词间有停顿,用于控制系统)(2)连接词识别(十个数字连接而成的多位数字识别或由少数指令构成词条的识别,用于数据库查询、电话和控制系统)(3)连续语音识别和理解(自然的说话方式)(4)会话语音识别(识别出会话语言)语音识别语音识别声学信息论语音学信号

处理人工

智能模式

识别数理

统计听写机查询

系统电话

拨号残疾人用品消费

电子……语音识别的应用背景和学科基础语音识别的步骤根据识别系统的类型选择能满足要求的一种识别方法,采用语音分析技术预先分析出这种方法所要求的语音特征参数,这些语音参数作为标准模式由计算机存储起来,形成标准模式库,称为模板。这个过程称为“学习”和“训练”。在某些识别系统中,还备有专家知识库,其中存放由语言学家的各种知识,如同音字判决规则、语法规则、语义规则等。识别:将输入语音进行处理,提取特征参数,和模式库中的模板进行比较匹配,作出判决。人类利用语言相互交流信息,包括语音和文字两种表达方式。通过语音相互传递信息,这是人类最重要的基本功能之一。随着信息社会的发展,人与人之间,自不必说,即使在人与机器之间也每时每刻都需要进行大量的信息交换。三声纹识别声纹识别,生物识别技术的一种,也称为说话人识别,是从说话人发出的语音信号中提取声纹信息。声纹识别属于生物识别技术的一种,是一项根据语音波形中反映说话人生理和行为特征的语音参数,自动识别说话人身份的技术。与语音识别不同的是,声纹识别利用的是语音信号中的说话人信息,而不考虑语音中的字词意思,它强调说话人的个性;而语音识别的目的是识别出语音信号中的言语内容,并不考虑说话人是谁,它强调共性。声纹识别系统主要包括两部分,即特征检测和模式匹配。特征检测的任务是选取唯一表现说话人身份的有效且稳定可靠的特征,模式匹配的任务是对训练和识别时的特征模式做相似性匹配。声纹识别系统声纹识别系统的工作过程一般可以分为两个过程:训练过程和识别过程。无论训练还是识别,都需要首先对输入的原始语音信号进行预处理。语音语音

信号加窗

(如海明窗)计算频谱

(FFT)MEL分段

(三角滤波)对数变换

log()离散余弦变换

DCT声纹识别系统中的特征检测即提取语音信号中表征人的基本特征,此特征应能有效地区分不同的说话人,且对同一说话人的变化保持相对稳定。考虑到特征的可量化性、训练样本的数量和系统性能的评价问题,目前的声纹识别系统主要依靠较低层次的声学特征进行识别。谱包络参数语音信息通过滤波器组输出,以合适的速率对滤波器输出抽样,并将它们作为声纹识别特征。基音轮廓、共振峰频率带宽及其轨迹这类特征是基于发声器官如声门、声道和鼻腔的生理结构而提取的参数。线性预测系数使用线性预测系数是语音信号处理中的一次飞跃,以线性预测导出的各种参数,如线性预测系数、自相关系数、反射系数、对数面积比、线性预测残差及其组合等参数,作为识别特征,可以得到较好的效果。主要原因是线性预测与声道参数模型是相符合的。反映听觉特性的参数模拟人耳对声音频率感知的特性而提出了多种参数,如美倒谱系数、感知线性预测等。此外,人们还通过对不同特征参量的组合来提高实际系统的性能,当各组合参量间相关性不大时,会有较好的效果,因为它们分别反映了语音信号的不同特征。近年来,在生物识别技术领域中,声纹识别技术以其独特的方便性、经济性和准确性等优势受到世人瞩目,并日益成为人们日常生活和工作中重要且普及的安全验证方式。声纹识别属于生物识别技术的一种,是一项根据语音波形中反映说话人生理和行为特征的语音参数,自动识别说话人身份的技术。与语音识别不同的是,声纹识别利用的是语音信号中的说话人信息,而不考虑语音中的字词意思,它强调说话人的个性;而语音识别的目的是识别出语音信号中的言语内容,并不考虑说话人是谁,它强调共性。声纹识别系统主要包括两部分,即特征检测和模式匹配。特征检测的任务是选取唯一表现说话人身份的有效且稳定可靠的特征,模式匹配的任务是对训练和识别时的特征模式做相似性匹配。声纹识别—模式匹配模式匹配识别判断的目的:获取表现说话人个性的特征参数的基础上,将待识别的特征参数模板或模型与训练学习时得到的模板或模型库作相似性匹配,得到特征模式之间的相似性距离度量,并选取适当的距离度量作为门限值,从而识别判断出可能结果中最好的结果。在模式匹配中常用的方法有:(1)模板匹配方法:主要用于固定词组的应用(通常为文本相关任务);(2)最近邻方法:训练时保留所有特征矢量,识别时对每个矢量都找到训练矢量中最近的K个,据此进行识别,通常模型存储和相似计算的量都很大;(3)神经网络方法;(4)隐式马尔可夫模型:通常使用单状态的HMM,或高斯混合模型(GMM),是比较流行的方法,效果比较好;(5)VQ聚类方法:效果比较好,算法复杂度也不高;多项式分类器方法:有较高的精度,但模型存储和计算量都比较大;声纹识别属于生物识别技术的一种,是一项根据语音波形中反映说话人生理和行为特征的语音参数,自动识别说话人身份的技术。与语音识别不同的是,声纹识别利用的是语音信号中的说话人信息,而不考虑语音中的字词意思,它强调说话人的个性;而语音识别的目的是识别出语音信号中的言语内容,并不考虑说话人是谁,它强调共性。声纹识别系统主要包括两部分,即特征检测和模式匹配。特征检测的任务是选取唯一表现说话人身份的有效且稳定可靠的特征,模式匹配的任务是对训练和识别时的特征模式做相似性匹配。利用语音进行身份识别可能是最自然和最经济的方法之一。声音输入设备造价低廉,甚至无费用(电话),而其他生物识别技术的输入设备往往造价昂贵。声纹识别系统中的特征检测即提取语音信号中表征人的基本特征,此特征应能有效地区分不同的说话人,且对同一说话人的变化保持相对稳定。考虑到特征的可量化性、训练样本的数量和系统性能的评价问题,目前的声纹识别系统主要依靠较低层次的声学特征进行识别。说话人特征大体可归为下述几类:谱包络参数语音信息通过滤波器组输出,以合适的速率对滤波器输出抽样,并将它们作为声纹识别特征。基音轮廓、共振峰频率带宽及其轨迹这类特征是基于发声器官如声门、声道和鼻腔的生理结构而提取的参数。线性预测系数使用线性预测系数是语音信号处理中的一次飞跃,以线性预测导出的各种参数,如线性预测系数、自相关系数、反射系数、对数面积比、线性预测残差及其组合等参数,作为识别特征,可以得到较好的效果。主要原因是线性预测与声道参数模型是相符合的。反映听觉特性的参数模拟人耳对声音频率感知的特性而提出了多种参数,如美倒谱系数、感知线性预测等。此外,人们还通过对不同特征参量的组合来提高实际系统的性能,当各组合参量间相关性不大时,会有较好的效果,因为它们分别反映了语音信号的不同特征。声纹识别特性:声纹识别除具有不会遗失和忘记、不需记忆、使用方便等优点外,还具有以下特性:第一,声纹识别是一种非接触的识别技术,用户接受程度高,由于不涉及隐私问题,用户无任何心理障碍。第二。用语音进行身份识别可能是最自然和最经济的方法之一,一个麦克风即可,而其他生物识别技术的输入设备往往造价昂贵。第三,适合远程身份确认,通过网路(通讯网络或互联网络)实现远程登录;第四,声纹辨认和确认的算法复杂度低;第五,在基于电信网络的身份识别应用中,具有独特的优势。当然,声纹识别有一些缺点:同一个人的声音具有易变性,易受身体状况、年龄、情绪等的影响;不同的麦克风和信道对识别性能有影响;比如环境噪音对识别有干扰;混合说话人的情形下人的声纹特征不易提取。声纹识别应用声纹识别产品的市场占有率为15.8%,仅次于指纹识别和掌形识别。(1)信息领域(2)电话交易(3)在保安系统以及证件防伪中的应用(4)公安司法模式匹配目前针对各种特征而提出的模式匹配方法的研究越来越深入。这些方法大体可归为下述几类:概率统计方法语音中说话人信息在短时内较为平稳,通过对稳态特征如基音、声门增益、低阶反射系数的统计分析,可以利用均值、方差等统计量和概率密度函数进行分类判决。其优点是不用对特征参量在时域上进行规整,比较适合文本无关的说话人识别。动态时间规整方法说话人信息不仅有稳定因素(发声器官的结构和发声习惯),而且有时变因素(语速、语调、重音和韵律)。将识别模板与参考模板进行时间对比,按照某种距离测定得出两模板间的相似程度。常用的方法是基于最近邻原则的动态时间规整DTW。矢量量化方法矢量量化最早是基于聚类分析的数据压缩编码技术。Helms首次将其用于声纹识别,把每个人的特定文本编成码本,识别时将测试文本按此码本进行编码,以量化产生的失真度作为判决标准。Bell实验室的Rosenberg和Soong用VQ进行了孤立数字文本的声纹识别研究。这种方法的识别精度较高,且判断速度快。隐马尔可夫模型方法隐马尔可夫模型是一种基于转移概率和传输概率的随机模型,最早在CMU和IBM被用于语音识别。它把语音看成由可观察到的符号序列组成的随机过程,符号序列则是发声系统状态序列的输出。在使用HMM识别时,为每个说话人建立发声模型,通过训练得到状态转移概率矩阵和符号输出概率矩阵。识别时计算未知语音在状态转移过程中的最大概率,根据最大概率对应的模型进行判决。HMM不需要时间规整,可节约判决时的计算时间和存储量,在目前被广泛应用。缺点是训练时计算量较大。声纹识别分类分类(按类型)文本相关的(Text-Dependent)文本无关的(Text-Independent)文本有关的声纹识别系统要求用户按照规定的内容发音,每个人的声纹模型逐个被精确地建立,而识别时也必须按规定的内容发音,因此可以达到较好的识别效果,但系统需要用户配合。文本无关的声纹识别系统则不规定说话人的发音内容,模型建立相对困难,但用户使用方便,可应用范围较宽。声纹识别特性声纹识别除具有不会遗失和忘记、不需记忆、使用方便等优点外,还具有以下特性:第一,声纹识别是一种非接触的识别技术,用户接受程度高,由于不涉及隐私问题,用户无任何心理障碍。第二。用语音进行身份识别可能是最自然和最经济的方法之一,一个麦克风即可,而其他生物识别技术的输入设备往往造价昂贵。第三,适合远程身份确认,通过网路(通讯网络或互联网络)实现远程登录;第四,声纹辨认和确认的算法复杂度低;第五,在基于电信网络的身份识别应用中,具有独特的优势。声纹识别应用前景与其他生物识别技术,诸如指纹识别、掌形识别、虹膜识别等相比较,声纹识别除具有不会遗失和忘记、不需记忆、使用方便等优点外,还具有以下特性:用户接受程度高,由于不涉及隐私问题,用户无任何心理障碍。利用语音进行身份识别可能是最自然和最经济的方法之一。声音输入设备造价低廉,甚至无费用(电话),而其他生物识别技术的输入设备往往造价昂贵。在基于电信网络的身份识别应用中,如电话银行、电话炒股、电子购物等,与其他生物识别技术相比,声纹识别更为擅长,得天独厚。由于与其他生物识别技术相比,声纹识别具有更为简便、准确、经济及可扩展性良好等众多优势,可广泛应用于安全验证、控制等各方面,特别是基于电信网络的身份识别。声纹识别的应用有一些缺点,比如同一个人的声音具有易变性,易受身体状况、年龄、情绪等的影响;比如不同的麦克风和信道对识别性能有影响;比如环境噪音对识别有干扰;又比如混合说话人的情形下人的声纹特征不易提取;……等等。尽管如此,与其他生物特征相比,声纹识别的应用有一些特殊的优势:(1)蕴含声纹特征的语音获取方便、自然,声纹提取可在不知不觉中完成,因此使用者的接受程度也高;(2)获取语音的识别成本低廉,使用简单,一个麦克风即可,在使用通讯设备时更无需额外的录音设备;(3)适合远程身份确认,只需要一个麦克风或电话、手机就可以通过网路(通讯网络或互联网络)实现远程登录;(4)声纹辨认和确认的算法复杂度低;(5)配合一些其他措施,如通过语音识别进行内容鉴别等,可以提高准确率;……等等。这些优势使得声纹识别的应用越来越收到系统开发者和用户青睐,声纹识别的世界市场占有率15.8%,仅次于指纹和掌纹的生物特征识别,并有不断上升的趋势。声纹识别(VoiceprintRecognition,VPR),也称为说话人识别(SpeakerRecognition),有两类,即说话人辨认(SpeakerIdentification)和说话人确认(SpeakerVerification)。前者用以判断某段语音是若干人中的哪一个所说的,是“多选一”问题;而后者用以确认某段语音是否是指定的某个人所说的,是“一对一判别”问题。不同的任务和应用会使用不同的声纹识别技术,如缩小刑侦范围时可能需要辨认技术,而银行交易时则需要确认技术。不管是辨认还是确认,都需要先对说话人的声纹进行建模,这就是所谓的“训练”或“学习”过程。从另一方面,声纹识别有文本相关的(Text-Dependent)和文本无关的(Text-Independent)两种。与文本有关的声纹识别系统要求用户按照规定的内容发音,每个人的声纹模型逐个被精确地建立,而识别时也必须按规定的内容发音,因此可以达到较好的识别效果,但系统需要用户配合,如果用户的发音与规定的内容不符合,则无法正确识别该用户。而与文本无关的识别系统则不规定说话人的发音内容,模型建立相对困难,但用户使用方便,可应用范围较宽。根据特定的任务和应用,两种是有不同的应用范围的。比如,在银行交易时可以使用文本相关的声纹识别,因为用户自己进行交易时是愿意配合的;而在刑侦或侦听应用中则无法使用文本相关的声纹识别,因为你无法要求犯罪嫌疑人或被侦听的人配合。在对说话的人辨认方面,根据待识别的说话人是否在注册的说话人集合内,说话人辨认可以分为开集(open-set)辨认和闭集(close-set)辨认。前者假定待识别说话人可以在集合外,而后者假定待识别说话人在集合内。显然,开集辨认需要有一个对集外说话人的“拒识问题”,而且闭集辨认的结果要好于开集辨认结果。本质上讲,说话人确认和开集说话人辨认都需要用到拒识技术,为了达到很好的拒识效果,通常需要训练一个假冒者模型或背景模型,以便拒识时有可资比较的对象,阈值容易选定。而建立背景模型的好坏直接影响到拒识甚至声纹识别的性能。一个好的背景模型,往往需要通过预先采集好的若干说话人的数据,通过某种算法去建立。如果技术达到一定的水平,可以把文本相关识别并入文本无关识别,把闭集辨认并入开集辨认,从而提供更为方便的使用方法。实际应用系统结构方案背景社保社会化以后,因为就业单位的搬迁、变更、关闭,退休人员异地养老等原因,造成投保人员频繁流动、分散。所以确定投保人的生存状况一直是社保支付理赔工作中的一个难题,全国各地陆续出现了社保基金被冒领的现象,尤其是养老保险金被冒领的情况更为严重;解决这一难题的唯一出路在于采用生物识别技术进行身份认证,而语音生物特征(声纹)识别是唯一可用于非接触式、通过电话网络远程安全控制的生物识别方法。语音生物特征识别,又称说话人识别,俗称声纹识别,是根据说话人的发音生理和行为特征,自动识别说话人身份的一种生物识别方法。声纹识别所提供的安全性可与其他生物识别技术(如:指纹、掌形和虹膜)相媲美,而且语音采集装置造价低廉,只需电话/手机或麦克风即可,无需特殊的设备;它与说话语言无关,与方言腔调无关,不涉及隐私问题,适应人群范围很广;声音信号便于远程传输和获取,在基于电信和网络的身份识别应用中,声纹识别更为擅长,得天独厚。系统结构整个系统的物理结构如图所示,主要由三大部分组成:电话通信终端:主要由养老金领取人使用,通过移动/电话进行远程非接触式声纹认证;电脑操控终端:主要由社保管理机构的工作人员使用,通过它可以查询每期的声纹认证结果,维护用户信息和声纹数据库,对于已经不具备养老金发放资格的人员办理停止发放手续等;声纹认证系统:声纹认证是一个融合多种技术的服务,它由一系列分工协作的服务子系统构成,包括:电话语音交互应答、声纹自动识别、应用信息查询和数据库,另外还可选择性地包括语音合成、语音识别等子系统。采用这种高科技手段来开展社保身份认证与管理,只需要在社保机构的总部安装一台带有语音通信板卡硬件和软件系统的工控机、服务器或者PC兼容机,连接普通电话线或者ISDN数字专线即可工作,客户端则仅需要一台普通的固定电话或者移动电话,使用操作简单,认证准确安全可靠。四语音增强语音增强是指当语音信号被各种各样的噪声干扰、甚至淹没后,从噪声背景中提取有用的语音信号,抑制、降低噪声干扰的技术。一句话,从含噪语音中提取尽可能纯净的原始语音。语音增强是指语音质量的改善或提高。因为实际语音都是在有噪声和干扰的情况下产生的,所以语音增强的目的就是去掉语音信号中的噪声和干扰。语音增强技术有广泛的应用,如作为语音编码和语音识别的预处理,消除语音中的混响,从录音中恢复出高质量的语音。语音增强的意义保证通信的正常进行,需要语音增强。日常生活中,经常会遇到在噪声干扰下进行语音通信的问题。例如在汽车、火车上使用移动电话,马路旁和市场里的公用电话等。军事通信中,指挥员的作战命令和战斗员的战情汇报都需要用语言来表达,由于战斗环境恶劣,特别是炸弹产生的冲击性噪声,使有用信号完全淹没在噪声中。幅度谱平方运算的原因噪声与语音信号不相关。利用功率谱的统计进行有声和无声的检测。含噪语音信号的短时功率谱统计,对每一帧输入信号,通过与预先设定的一系列门限值比较来判断该帧是信号帧还是噪声帧。应用于研究的语音数据大都在无噪环境下采集的。1)实际环境存在各种各样的干扰噪声,最常见的是背景噪声,噪声干扰下的语音,其特征参数发生了很大的扭曲,噪声干扰下的语音识别率大大降低、合成语音质量急剧恶化等。2)语音增强的目的:从带噪语音中提取尽可能纯净的原始语音,从主观度量上讲,就是改善语音质量、消除背景噪声,从客观度量讲,即提高语音可懂度。3)针对不同的噪声,采用不同的语音增强方法,因噪声种类繁多,不可能有通用的语音增强方案。语音特性:1.是时变的、非平稳、非遍历的随机过程,短时相对平稳;2.分浊音和清音,前者表现出周期性,在频域有共振峰,能量大都集中在较低频段内;后者类于白噪声,无明显的时域和频域特性。可用统计分析特性描述。人耳感知特性目前,用于语音增强的语音感知方面的一些结论:1.幅度谱对感知起决定性影响,相位谱对不敏感;2.人耳对频率高低的感受近似与该频率的对数成正比;3.人耳有掩蔽效应,即强信号对弱信号起抑制作用。人耳有掩蔽效应:即指一个声音的存在会影响对另一个较弱声音的听觉,另外,当一个声音突然停止时,人耳约在150ms内对其它弱音听不清楚,甚至听不见。因此提高语音的SNR,就可在语音与噪声共存时,感觉不到噪声的存在。4.共振峰对语音感知非常重要,特别是第二共振峰比第一共振峰更为重要,因此对语音信号进行一定的高通滤波不会对可懂度产生影响。5.人耳在多人的说话环境中,能分辨出所需声音。滤波法语音增强技术陷波器法对于周期噪声采用陷波器是比较简便和有效的方法,设计的陷波器的幅频曲线的凹处对应于周期噪声的基频和各次谐波,并使这些频率处的限波宽度足够窄。自适应滤波器自适应滤波器能有效地在未知环境中跟踪时变的输入信号。使输出信号达到最优,所以可以用来构成自适应的噪声消除器。标准纯噪声噪声特性加性噪声冲激噪声:例如打火、放电都会引起冲激噪声。它的时域波形是类似于冲激函数的窄脉冲。消除冲激噪声的方法通常有两种:对带噪语音信号的幅度求均值,将该均值作为阈值,超过该阈值则判断为噪声,在时域滤除;当冲激脉冲不太密的时候,也可以通过内插的方法避开或平滑掉冲激点,从而在重建语音时去掉冲激噪声。周期噪声:例如发动机产生的干扰、市电干扰都是周期性的干扰。在频谱上表现为离散的窄谱,通常可以采用陷波器方法进行消除。宽带噪声:例如说话时同时伴随着呼吸引起的噪声,随机噪声源产生的噪声,以及量化噪声等。应用中常近似为高斯噪声或白噪声。噪声频谱遍布于语音信号频谱中,消除比较困难,一般需要采用非线性处理方法,减谱法,Weiner滤波法。语音干扰:干扰语音信号和待传语音信号同时在一个信道中传输所造成的干扰(如在通信中串话引起的)。区别它们的方法是利用基音差别。可以用梳状滤波器提取基音和各次谐波,再恢复出有用的信号。2.非加性噪声传输噪声:传输系统的电路噪声。与背景噪声不同,它在时域中是语音和噪声的卷积。处理这种噪声可以用同态处理的方法,把非加性噪声变换为加性噪声来处理。来自环境的噪声具有帧间相关性小,能量分布频率范围广且数值较小,在语音信号主分量特征中对应于贡献率较小的分量的特点。因此可以利用复数帧段主分量特征提高抗噪性。复数帧段特征是采用相继的复数帧组成的特征参数矢量作为语音识别输入特征量,由于噪声成分具有帧间相关性小的特征,所以利用复数帧段特征量等于相应的减弱了噪声的影响。语音增强的原理和方法频域语音增强技术频域语音增强技术是语音信号中的一种重要技术,由于其原理简单所以被广泛使用,如手机中的降噪处理就是采用的此方法,其中谱相减法是频域语音增强技术的常用方法。时域语音增强技术时频语音增强技术麦克风阵列语音降噪技术语音增强的意义保证通信的正常进行,需要语音增强。1.日常生活中,经常会遇到在噪声干扰下进行语音通信的问题。例如在汽车、火车上使用移动电话,马路旁和市场里的公用电话等。2.军事通信中,指挥员的作战命令和战斗员的战情汇报都需要用语言来表达,由于战斗环境恶劣,特别是炸弹产生的冲击性噪声,使有用信号完全淹没在噪声中。3.侦听技术中需要语音增强4.语音识别技术需要语音增强在实际生活中,语音信号无时无地不受各种噪声干扰。人们正常的生活环境就是一个声级为60dB左右的噪声环境。被强噪声污染的场合,噪声达120dB以上。减谱法语音增强技术减谱法是假定加性噪声与短时平稳的语音信号相互独立的条件下,从带噪语音的功率谱中减去噪声功率谱,从而得到较为纯净的语音频谱。减谱法假定语音信号短时平稳,所以需要对输入语音加窗后处理。语音增强的一个主要目标是从带噪语音信号中提取尽可能纯净的原始语音。然而,由于干扰通常都是随机的,从带噪语音中提取完全纯净的语音几乎不可能。在这种情况下,语音增强的目的主要有两个:一是改进语音质量,消除背景噪音,使听者乐于接受

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论