(信号与信息处理专业论文)低信噪比下语音识别技术的研究.pdf_第1页
(信号与信息处理专业论文)低信噪比下语音识别技术的研究.pdf_第2页
(信号与信息处理专业论文)低信噪比下语音识别技术的研究.pdf_第3页
(信号与信息处理专业论文)低信噪比下语音识别技术的研究.pdf_第4页
(信号与信息处理专业论文)低信噪比下语音识别技术的研究.pdf_第5页
已阅读5页,还剩79页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 低信噪比下的语音识别是目前国内外一个重要的研究课题,也是目前语音识 别的研究热点和难点,具有极其重要的理论和实际意义。本文从研究语音处理的 一些基本理论入手,重点研究了其中的语音识别算法、噪声参数估计方法和语音 增强技术,并将语音增强技术应用于低信噪比噪声环境下的语音识别系统中,实 验结果表明,系统性能得到了明显的改善。本文的主要研究工作如下: 1 在研究语音识别的一些基本理论基础上,分别采用d t w 和v q 两种识别算 法实现了非特定人孤立词识别系统和说话人辨认系统。对基于v q 算法的说话人 辨认系统,提出了在不同噪声环境下建立多个训练模板的方法。同时,对基于d t w 算法的非特定人孤立词识别系统进行了多种噪声环境下的仿真实验,结果表明: 在安静环境下,系统识别率可到达9 6 以上,而在低信噪比环境下,语音识别系 统性能急剧下降,在信噪比极低时,几乎无法识别。 2 在分析噪声特性的基础上,重点研究了基于语音活性检测和基于连续更新噪 声谱的两种噪声参数估计方法,并提出了将能零积的思想应用到基于l p c 倒谱系 数的语音活性检测算法中。实验结果表明,这两种算法都能有效地估计平稳噪声 参数,而基于连续更新噪声谱的方法在非平稳噪声环境下表现出了更佳的性能。 3 系统地研究了多种语音增强算法,包括基于短时谱分析的维纳滤波法、谱减 法和m m s e 算法,并研究了基于人耳听觉掩蔽效应的语音增强算法。在此基础上, 结合前面的改进噪声参数估计方法,对各种语音增强算法及其改进方法进行了低 信噪比环境下的系统仿真,并对实验结果进行了比较和分析。 4 将语音增强技术与语音识别系统结合起来,即通过对原始带噪语音进行语音 增强处理,提高信号的信噪比和可懂度,从而提高语音识别系统的识别率。本文 分别采用维纳滤波、谱减法、m m s e 算法和基于掩蔽模型的增强算法对语音识别 系统进行了低信噪比环境下的系统仿真,实验结果表明,这种方法能有效地提高 低信噪比环境下系统的识别率。 关键词:语音识别,语音增强,低信噪比,噪声参数估计 a b s t r a c t a b s t r a c t s p e e c hr e c o g n i t i o na tl o ws n r ( s i g n a l t o n o i s er a t i o ) e n v i r o n m e n t i sc u r r e n t l yo n e o f t h em o s ti m p o r t a n tr e s e a r c ha r e ai nt h ew o r l d i ti sa l s oaf o c u si s s u ea n dd i f f i c u l t yi n s p e e c hr e c o g n i t i o nf i e l d ,w h i c hh a se s p e c i a l l yi m p o r t a n tt h e o r e t i c a la n dp r a c t i c a l s i g n i f i c a n c e t h i st h e s i sb e g i n sw i t hr e s e a r c ho nb a s i ct h e r o i e so fs p e e c hp r o c e s s i n g , e s p e c i a l l ye m p h a s i z e so n t h es p e e c hr e c o g n i t i o n a l g o r i t h m s ,n o i s e e s t i m a t i o na n d s p e e c he n h a n c e m e n tt e c h n i q u e s ,a n da p p l i e ss p e e c he n h a n c e m e n tt e c h n i q u e st os p e e c h r e c o g n i t i o ns y s t e mi nn o i s ye n v i r o n m e n t e x p e r i m e n t 8s h o wt h a tt h ep e r f o r m a n c eo f s y s t e mh a sb e e ni m p r o v e do b v i o u s l y f o l l o w i n gi st h em a i n w o r ko f t h i st h e s i s : 1 a f t e rr e s e a r c h i n go nt h eb a s i ct h e o r yo fs p e e c hr e c o g n i t i o n ,t h i st h e s i sr e a l i z e s t a l k e r - i n d e p e n d e n tr e c o g n i z e ra n ds p e a k e ri d e n t i f i c a t i o ns y s t e mw i t hd t w r d y n a m i c t i m ew a r p i n 曲a n dv q ( v e c t o rq u a n t i z a t i o n ) a l g o r i t h mr e s p e c t i v e l y i m p r o v e m e n th a s b e e np r o p o s e dt o p r o v i d es p e a k e ri d e n t i f i c a t i o ns y s t e mab e t t e rp e r f o r m a n c e t h e e x p e r i n a e n t ss h o wt h a tt h er e c o g n i t i o nr a t ei su p p e rt o9 6p e r c e n ti nq u i e te n v i r o n m e n t , t h er e c o g n i t i o nr a t ed e c l i n e ss h a r p l yi nl o ws n re n v i r o n m e n t ,a n dw i t hc e r t a i nl o w i n p u ts n rl e v e l ,n e a r l yu n r e c o g n i z a b l e 2 o nt h eb a s i so fa n a l y z i n gn o i s ep r o p e r t nt h i st h e s i se m p h a s i z e so nt w on o i s e e s t i m a t i o nm e t h o d s :c l a s s i c a lm e t h o db a s e do nv o i c ea c t i v i t yd e t e c t i o n ( v a d ) a n dt h e l a t e s tm e t h o db a s e do no p t i m a ls m o o t h i n ga n dm i n i m u ms t a t i s t i c s s o m ei m p r o v e m e n t s h a v eb e e np r o p o s e dt oe n h a n c et h ev a d sp e r f o r m a n c eb a s e do nl p cc e p s t r u m c o e f f i c i e n t s e x p e r i m e n tr e s u l t ss h o wt h a tb o t ht w om e t h o d sh a v eag o o de s t i m a t i o nt o t h es t e a d yn o i s e ,a n dt h el a r e ro n eh a sab e t t e rp e r f o r m a n c ef o ru n s t e a d yn o i s e 3 av a r i e t yo fs p e e c he n c h a n c e m e n ta l g o r i t h m sa r ed i s c u s s e di n c l u d i n gw i e n a f i l t e r , s p e c t r a ls u b t r a c t i o n ,m m s ea l g o r i t h ma n dt h em a s k i n gm o d e lc o m b i n e dw i t ht h e s p e c t r a ls u b t r a c t i o na l g o r i t h m w i t ht h ec o m b i n a t i o no f n o i s ee s t i m a t i o na n dt h es p e e c h e n h a n c e m e n ta l g o r i t h m s ,t h i st h e s i sd i dl o t so fe x p e r i m e n t sa tl o ws n re n v i r o n m e n t a n da n a l y z e dt h es i m u l a t i o nr e s u l t s 4 s p e e c he n h a n c e m e n tt e c h n i q u e sa r ea p p l i e dt ot h es p e e c hr e c o g n i t i o ns y s t e mi n t h i st h e s i s t h ee x p e r i m e n tr e s u l t ss h o wt h a ta f t e rt h ec o m b i n a t i o no ft h et w os y s t e m s , t h eo u t p u ts n ro ft h en o i s es p e e c hi si m p r o v e da n dt h er e c o g n i t i o nr a t ei se n h a n c e d a b s t r a c t g r e a t l y s ot h es o l u t i o nb a s e do ns p e e c he n h a n c e m e n tp r o v e st ob ea ne f f e c t i v ew a yt o i m p r o v et h ep e r f o r m a n c eo f s p e e c hr e c o g n i t i o ns ”t e ma tl o ws n r e n v i r o n m e n t k e yw o r d s :s p e e c hr e c o g n i t i o n ,s p e e c he n h a n c e m e n t ,l o ws i g n a l t o n o i s er a t i o ,n o i s e e s t i m a t i o n , 1 1 i 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 签名: 越遗:日期:a 。4 年牛月韶日 关于论文使用授权的说明 本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 签名: 叠谴。 导师签名: 日期:函a 6 第一章引言 1 1 语音识别概述 第一章引言 语言是人类特有的功能,声音是人类常用的工具,也是人们相互传递信息最 重要的手段。自动语音识别技术( a s r ,a u t o m a t i cs p e e c hr e c o g n i t i o n ) 是指让机器 “听懂”人说的话,即在各种情况下准确地识别出语音的内容,从而根据其信息, 正确执行人的各种意图与命令。语音识别是近二三十年发展起来的新兴学科,在 计算机信息处理、通信与电子系统、自动化控制、工业、军事、交通、民用等诸 多方面都有着广泛的应用。目前的语音识别系统对纯净语音可以达到非常高的识 别精度。但是在低信噪比环境下,由于训练模型和识别特征之间的失配,语音识 别系统的性能会急剧下降。因此,作为语音信号处理领域中比较困难的前沿课题, 抗噪声语音识别是语音识别系统真正实用所必须解决的关键问题。 1 1 1 语音识别的发展及现状 语音识别的研究可以追溯到二十世纪四十年代初,从1 9 4 0 年前后d u d l e y 的 声码器( v o c o d e r ) 和p o t t e r 等人的可见语音( v i s i b l es p e e c h ) 开始的;1 9 5 2 年b e l l 实验室d a v i d 等人根据元音的谱共振,首次研制成功了能识别十个英语数字的特 定人语音识别系统;1 9 5 6 年m i t 林肯实验室o l s o n 和b e l a r 等人采用了8 个带通 滤波器组提取频谱参数作为语音的特征,研制成功了一台简单的语音打字机。这 些识别系统都是针对孤立语音,而且基于模式匹配器和滤波组提供的谱信息,由 于理论技术水平不够,都未取得明显的成功。 在二十世纪六十年代,出现了对语音识别的发展产生深远影响的两大技术: 线性预测技术和模板匹配技术,为后来的语音识别技术的发展奠定了良好的基础。 1 9 6 0 年,r c a 实验室的m a r t i n 提出了一组基于语音信号端点检测的时间归一方法, 可靠地检测到语音的起始点和终止点,有效地减小了识别结果的可变性;1 9 6 8 年 v i n t s y u k 提出了对两段语音进行对齐的动态规整方法( d p ,d y n a m i c p r o g r a m m i n g ) , 实现了语音识别中的时间规整;c a r n e g i em e l l o n 大学的r e d d y 通过对因素的动态 跟踪,对连续语音识别方法作了开创性的研究。 在二十世纪七十年代,语音识别的研究取得了许多重大的成果。模式识别、 动态规整技术开始在语音识别系统中得到应用。1 9 7 5 年日本学者板仓提出了著名 的动态时间规整算法( d t w ) ,较好的解决了说话速度不均匀造成的语音识别困难 电子科技大学硕士学位论文 的问题,为语音识别研究在匹配算法上开辟了新思路;特征提取技术的三个主要 方法也被提出:线性预测分析、频谱分析和倒谱分析。七十年代中后期,先后出 现了隐马尔可夫模型( h m m ) 和矢量量化( v o ) 等方法。 二十世纪八十年代,由于矢量量化、隐马尔可夫模型和人工神经网络( a n n ) 等相继应用于语音信号处理,并经过不断改进与完善,使得语音识别技术产生了 突破性的进展。1 9 8 8 年美国卡内基一梅隆大学运用矢量量化和隐马尔可夫模型法研 制成了非特定人、大词汇量、连续语音识别系统s p h i n x 系统,识别率达到9 6 。 在八十年代中后期,语音识别研究所用的技术方法发生了变化:由模板匹配的方 法慢慢转向了统计建模的方法,尤其是矢量量化和隐马尔可夫模型。此外,神经 网络技术也被广泛应用:s h a m m a 设计了一种基于听觉神经系统原理的语音识别系 统;h u a n g 等利用多层感知器b p 算法实现了统计模式分类并将其应用于语音识别。 尽管人们认识到了神经网络在语音识别中有许多独特的优点,但是由于神经网络 的训练时间长、运算量大,其研究和发展相对缓慢。 二十世纪九十年代,在计算机技术、电信应用等领域迅速发展的带动下,语 音识别系统也从实验室走向实用。i b m 公司率先推出v i a v o i c e 大词汇量、非特定 人、连续语音识别系统;在嵌入式应用中,出现了可以语音拨号的手机、与人对 话的智能玩具;在商业服务中,出现了以语音识别为核心技术的呼叫中心、语音 门户网站等等,其中的典型代表是美国a r p a 的l v c s r 系统。 经过近六十年的发展,目前语音识别技术已经达到一个相当高的水平,在实 验室环境下已经取得了很好的识别性能。但是,在实际应用中,由于噪声的影响 以及各种因素的干扰,使得识别系统的性能急剧下降,因此,寻求有效的鲁棒性 技术和降噪技术不仅具有很大的理论意义,而且更有重大的工程应用意义。目前 在语音识别领域中,连续语音、大词汇量、r o b u s t 性能优良的语音识别算法研究 以及低信噪比下的语音识别一直是语音识别研究的主攻方向。 1 1 2 语音识别的分类 语音识别系统按照不同应用范围和性能要求会有不同的分类方法,也会有不 同的系统设计和实现方式。一般语音识别系统可以有以下几种分类方法: 1 以所要识别的单位来分,有孤立词识别、音素识别、音节识别、单句识别、 连续语音识别和理解。 2 根据服务对象可分为针对单个用户的特定人识别( s p e a k e rd e p e n d e n t ) 和针 对任何人的非特定人识别( s p e a k e ri n d e p e n d e n t ) 。 第一章引言 3 根据语音质量可以分为安静环境下的语音识别和噪声环境下的语音识别。 1 1 3 语音识别的主要算法 一般来说,语音识别主要有三种方法:基于声道模型和语音知识的方法、模 板匹配的方法以及利用人工神经网络的方法。基于声道模型和语音知识的方法起 步较早,但由于其模型及语音知识过于复杂,没有达到实用。利用人工神经网络 的方法是二十世纪八十年代末提出的一种新的语音识别方法,它本质上是一个自 适应非线性动力学系统,模拟了人类神经活动的原理,具有自适应性、并行性、 鲁棒性、容错性和学习特性,在结构和算法上都显示出实力,但由于存在训练、 识别时间太长等缺点,目前仍处于实验探索阶段。基于模板匹配的方法发展比较 成熟,目前已达到了实用阶段,下面介绍三种常用的基于模板匹配的识别方法: 1 动态时间规整法( d t w ,d y n a m i ct i m ew a r p i n g ) 动态时间规整法是孤立词识别系统的主流识别方法,属于传统的模板匹配法。 然而,实际上不能简单的将输入参数序列和相应的参考模板直接作比较,因为语 音信号具有很大的随机性,即使同一个人在不同时刻所讲的同一句话也不可能有 相同的时间长度。因此需要寻找一种待识别样本和各模板时间轴之间的一种变换 关系,用来消除它们做匹配比较时由于时间上的差异所造成的同类音距离偏大的 现象。这种结合时间变换关系求特征序列之间距离的技术称为d t w 技术。 d t w 采用动态规划技术,通过将待识别语音信号时间轴进行不均匀地扭曲, 使其特征与模板特征对齐,并在两者之间不断地进行两个矢量距离最小的匹配路 径计算,从而获得两个矢量匹配时累积距离最小的规整函数。实际上,d t w 算法 是把时间规整和距离测度计算结合起来的一种非线性规整技术,它在有效解决了 孤立词识别时说话速度不均匀的难题同时,保证了待识别特征与模板特征之间最 大的声学相似特性和最小的时差失真,是语音识别中较为经典的一种算法。由于 算法较易实现、对硬件要求也不高,因此被广泛应用于小词汇量语音识别系统中。 2 矢量量化( v q ,v e c t o rq u a n t i z a t i o n ) 矢量量化技术是七十年代后期发展起来的一种数据压缩和编码技术,广泛应 用于语音编码和语音识别领域。矢量量化技术由标量量化推广而来,其基本原理 是:将若干个标量数据组成一个矢量在多维空间给予整体量化,从而可以在信息 量损失较小的情况下压缩数据量和保留语音的关键信息。量化时,将k 维无限空 间划分为m 个区域边界,然后将输入矢量与这些边界进行比较,并被量化为距离 最小的区域边界的中心矢量值。矢量量化器的设计就是从大量信号样本中训练出 电子科技大学硕士学位论文 好的码书,从实际效果出发寻找到好的失真测度定义公式,设计出最佳的矢量量 化系统。 3 隐马尔可夫法( h m m ,h i d d e nm a r k o vm o d e l s ) h m m 是二十世纪七十年代引入语音识别领域的,它的出现使自然语音识别系 统取得了实质性突破。h m m 方法现在已经成为语音识别的主流技术之一,目前大 多数非特定人、大词汇量、连续语音识别系统都是基于h m m 模型的。与d t w 相 比,h m m 一方面用隐含的状态对应于声学层各相对稳定的发音单位,并通过状态 转换和状态驻留来描述发音的变化;另一方面它引入了概率统计模型,不再用动 态时间对齐的方法求匹配距离,而是用概率密度函数计算语音参数对h m m 模型 的输出概率,通过搜索最佳状态序列,以最大后验概率为准则找到识别结果。 1 1 4 语音识别的应用 近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。目前, 语音识别领域的应用多是小词汇量特定人孤立词语音识别,是针对单讲话者,能 够得到较高的识别率。例如,航空查询和购票服务系统,用于顾客和航空公司的 计算机之间关于机票查询及记账购票的服务;日本新干线火车预约座位系统,又 叫做v o i c eq a 系统,它在问讯时进行会话识别,而在回答时进行语音合成输出; 再如瑞典的语音识别系统,它已经被瑞典的e r i c s s o n 公司用来装备内部快呼通讯 网,使用这种系统打电话时,不用再拨号或者按数字键,只需说受话人的姓名就 可以接通了。人们预测,未来十年内,语音识别技术将进入工业、家电、通信、 汽车电子、医疗、家庭服务、消费电子产品等各个领域【2 】。 1 2 噪声对语音识别的影响 随着语音识别技术的迅速发展,目前纯净语音识别已经达到了一个比较成熟 的阶段,以i b m 的v i a v o i c e 为代表,其对连续语音的识别率可以达到9 5 以上, 但是对语音输入环境有比较严格的要求,否则系统识别率会极大地下降,特别是 在低信噪比的情况下,甚至可能出现系统无法识别的现象。 语音在传输过程中不可避免地要受到来自周围环境和传输媒介引入的噪声、 通讯设备内部噪声、乃至其他讲话者语音的干扰。例如:车站、商场、娱乐场所 的公共电话、车载电话等都要受到强噪声的干扰;在远距离通信中,传送的语音 信号要受到信道噪声和通讯设备自身的干扰。在这些隋况下则需要对带噪语音进 行语音增强处理,以降低背景噪声,提高语音质量。 第一章引言 语音增强技术是指当语音信号被各种噪声干扰、甚至淹没后,从噪声背景中 提取、增强有用的语音信号,抑制、降低噪声干扰的技术。语音增强主要有两个 目的:一是改进语音质量,消除背景噪声;二是提高语音可懂度及减少失真。分 析噪声信号特性可知:噪声主要可以分为加性噪声和非加性噪声两大类,其中对 非加性噪声的处理通常是将其转换为加性噪声再进行消除。自从研究语音增强方 法以来,出现了一些比较成功的语音增强算法,主要包括:噪声对消法、谐波增 强法、基于语音生成模型的增强算法、基于短时谱估计的增强算法、基于小波分 解的增强算法和基于听觉掩蔽模型的增强算法。在以上六类增强算法中,基于短 时谱估计的增强算法及其改进形式是最为常用的,而且增强效果也比较好。 1 3 本文的研究内容与结构 本文研究的是低信噪比环境下的语音识别,论文的重点是抗噪声问题。本论 文中实验采用的是小词汇量的孤立词语音识别,这也是国内外在噪声环境下语音 识别研究中普遍采用的实验方法。 论文共分为六章,除了第一章引言外,本论文的其它章节结构如下: 第二章首先介绍语音识别的一些基本理论,如语音识别的基本原理、语音特 征参数、系统框图及描述等。随后重点分析了两种语音识别算法:v q 模型算法和 d t w 算法,并实现了基于d t w 算法的孤立词识别系统和基于v q 算法的说话人 辨认系统。对基于v q 算法的说话人辨认系统提出了在不同噪声环境下建立多个 训练模板的方法。最后对语音识别系统进行了多种噪声环境下的仿真分析。 第三章对噪声的特性进行了分析,深入探讨了两种噪声参数估计方法:基于 语音活性检测的方法和基于连续更新噪声谱的方法。提出了将能零积思想应用到 基于l p c 倒谱系数的语音活性检测中,最后对两种算法进行了低信噪比环境下的 仿真实验。 第四章详细描述了基于短时谱估计的语音增强算法,主要包括维纳滤波法、 谱减法及其改进形式、m m s e 算法及其改进形式等,并将掩蔽模型和谱减法结合 起来。最后,对不同算法和模型进行了低信噪比环境下的仿真分析。 第五章结合前面的噪声参数估计、语音增强算法和语音识别算法,构建了基 于语音增强的低信噪比环境下的语音识别系统,并对系统各个组成部分进行了详 细分析。最后,对系统进行了低信噪比环境下的仿真实验,并对实验结果进行了 分析和总结。 第六章对全文进行了总结,分析了系统的不足,提出了下一步研究方向。 电子科技大学硕士学位论文 2 1语音识别基本原理 第二章语音识别 语音识别本质上是一种模式识别过程,它可以分为两个步骤:第一步是根据 识别系统的类型选择能够满足要求的一种识别方法,采用语音分析方法分析出这 种识别方法所要求的语音特征参数,这些参数作为标准模式存储起来,形成标准 模式库,这个语音参数库被称为“模板库”,这一过程被称为学习或训练。第二步 就是识别,其基本原理图如2 1 所示。识别部分主要包括语音信号预处理、特征参 数提取、模式匹配和识别结果输出等几个部分。 图2 - 1 语音识别系统的原理框图 首先根据人的语音特点建立语音模型,对输入的语音信号进行分析,抽取能 够较好表现说话人发音特点的特征参数,在此基础上建立语音识别所需的模板。 在识别过程中,计算机根据语音识别的模型,将输入语音信号的特征参数与标准 模板库进行比较,根据一定的搜索和匹配算法,找出最优匹配结果作为识别结果。 2 2 语音信号预处理 语音信号预处理是特征参数提取前的准备工作,它主要包括:抗混叠滤波、 模数变换、预加重、分帧和加窗、端点检测等【3 】。 2 2 1 滤波和模数变换 语音信号数字化一般包括抗混叠滤波和模数变换两个过程。其中抗混叠滤波 实际上就是一个带通滤波器,其主要作用是: 1 高通滤波部分抑制5 0 h z 电源工频干扰。 6 第二章语音识别 2 低通部分抑制输入信号各频域分量中超出z 2 ( z 为采样频率) 的所有分 量,以防止混叠干扰。 人的发音是连续的模拟信号,计算机无法处理。因此,要将模拟语音信号转 化为数字信号,也就是模数转换。 2 2 2 预加重 由于语音信号的平均功率谱受声门激励和口鼻辐射影响,高频端大约在8 0 0 h z 以上跌落明显,所以求语音信号频谱时,频率越高相应的成分越小,高频部分的 频谱比低频部分的难求,为此要在预处理中进行预加重处理。预加重的目的是提 升高频部分,使信号的频谱变得平坦。预加重部分用提升高频特性的数字滤波器 实现,它一般是一阶数字滤波器: h ( z ) = l 一:。( 2 - 1 ) 其中为预加重系数,一般在0 9 1 之间,典型值取o ,9 3 7 5 。图2 2 是语音片段 预加重前后的频域波形,从图中可以看出,相对于低频段,高频部分得到显著的 提升,信号的频谱也变得更加平坦。 预加最后信号的幅度频谱 图2 - 2 语音信号预加重前后对比 2 2 3 语音信号的分帧和加窗 语音信号是一种典型的非平稳信号,其特性是随时间变化的。但是,语音的 形成过程是与发音器官的运动密切相关的,这种物理运动比起声音振动速度来讲 要缓慢得多,因此语音信号常常可假定为短时平稳的,即在1 0 3 0 m s 这样的时间 段内,其频谱特性可近似地看作是不变的。这样,就可以采用平稳过程的分析处 理方法来处理了。由这个假定导出了各种基于帧的短时处理方法【1 】【2 】 3 l ,以后讨论 电子科技大学硕士学位论文 的各种语音处理方法都是基于这个假定。为了使帧与帧之间平滑过渡,保持其连 续性,这里采用交叠分段的方法。前一帧与后一帧的交叠部分称为帧移,一般取 帧长的0 1 2 ,具体方法如图2 - 3 所示。 第k 帧 l 一 第k 十l 帧 一 第k + 2 帧 一 帧移帧长 k 卜叫 图2 3 分帧示意图 为了减小分帧后因截断产生的g i b b s 效应,通常要对各帧信号进行加窗处理。 在语音信号处理中常采用的窗函数是汉明窗。 2 2 4 端点检测 从背景噪声中找出语音的起始和终止点,这是在很多语音处理应用中的基本 问题。端点检测对于语音识别有着重要的意义:在孤立词识别中,确定语音信号 的开始和终止可以减少系统的大量计算,同时提高系统识别率;在连续语音识别 中,端点检测有助于识别单元的切分。实验统计数字表明,起始点和终止点的偏 离对语音识别的准确性影响明显,有时识别精度甚至可能降低3 0 以上 ” 4 1 。 近二十年来,人们对语音端点检测算法作了全面的研究,提出了多种算法。 其中比较经典的是两级判别法和多门限过零率法,这两种方法都是根据语音的一 些特征参数( 如能量、过零率、l p c 预测残差等) 完成端点检测。 2 2 4 1 短时能量 短时能量的计算是基于帧进行的,设第n 帧语音信号x ( m ) 的短时能量用e ( n ) 表示,则其计算公式为: e ( n ) = 矗2 ( 聊) ( 2 2 ) m = l 清音信号的幅度比浊音信号要小得多,因此短时能量可以用来区分清音段和浊音 段。在信噪比较高的情况下,短时能量可以用来区分发音区和静音区。 2 2 4 2 短时过零率 短时过零率表示一帧语音信号中波形穿越横轴的次数,对于数字化的语音信 号,就是表示样本改变符号的次数。第n 帧语音信号_ ( m ) 的短时过零率定义为: 第二章语音识别 _ 1 z ( ) = is g n x 。( m ) - s g n x 0 ( m + 1 ) i ( 2 3 ) m = 1 实验结果表明,浊音信号具有较低的过零率,而清音信号具有较高的过零率。 因此,短时过零率可以用于分辨清浊音。同时,短时过零率还可以从背景噪声中 找出语音信号,用于判断寂静无声段和有声段的起点和终点位置。 2 2 4 3 端点检测流程 由于清音信号有较高的过零率,而浊音信号有较高的短时能量,因此在实际 应用中,通常是利用过零率来检测清音,用短时能量来检测浊音,两者配合实现 准确的端点检测,这种方法就是两级判决法,其具体实现过程如下: 1 计算所有帧的短时能量和短时过零率。 2 假定前s 帧为寂静段,统计下列数据:噪声平均过零率z c 、噪声平均能量。 3 为短时能量和过零率设置门限e 。、e ,、z 其中e 。、e :分别为高、低能 量阀值,z 。为过零率阀值。 4 先用能量门限确定起始点和终止点,再用过零率门限加以修正,获得最终的 语音信号起点和终点。 图2 4 为采用两级判决法对安静环境下语音信号“5 ”的端点检测结果,语音 信号是在实验室采用麦克风和声卡录制。其中,第一幅图表示语音信号时域波形 及其端点检测结果,第二幅和第三幅图分别为语音信号的短时能量和短时过零率 波形。图2 5 是信噪比为6 d b 的情况下语音信号的端点检测效果。对比仿真图2 4 和2 5 可以看出:在信噪比较高时,利用基于短时能量和短时过零率的两级判决法 能准确地实现语音信号端点检测,但是当信噪比较低时性能就急剧恶化。 舭 r 孵 b 口6 粘4 2 。: : 云 :0 彝 1 如 暑如 1 0 0 加 口 昔加 2 04 口6 0 龇1 0 0 口口1 4 口口01 6 口 图2 - 4 安静环境下的端点检测结果图2 5 信噪比为6 d b 时的端点检测结果 电子科技大学硕士学位论文 2 3 特征参数提取 特征参数提取,就是从语音信号中提取用于识别的有用信息。特征参数选取 直接关系到系统识别性能,其基本思想是将经过预处理的信号通过变换去掉冗余 部分,把代表语音本质的特征参数抽取出来。因此,提取的特征参数必须满足: 1 特征参数应当反映语音的本质特征,包括声道特征和听觉特征,具有良好的 区分性。 2 特征参数各分量之间有良好的独立性。 3 特征参数要计算方便,最好能有高效的算法,以保证语音识别的实时实现。 目前在语音识别中最常用的特征参数是m e l 倒谱系数和线性预测倒谱系数。 二者都是将语音信号从时域变换到倒谱域上,前者的分析着眼于人耳的听觉特性, 通过构造人的听觉模型,以语音通过该模型的输出作为声学特征。后者则从人的 发声模型角度出发,利用线性预测编码技术求取倒谱系数。 2 3 1m e i 倒谱系数m f c c 与普通实际频率倒谱分析不同,m e l 倒谱系数( m e lf r e q u e n c yc e p s t r a l c o e f f i c i e n t s ) 的分析着眼于人耳的听觉特性,因为,人耳所听到的声音的高低与声 音的频率并不成线性正比关系,而用m e l 频率尺度则更符合人耳的听觉特性。所 谓m e l 频率尺度,它的值大体上对应于实际频率的对数分布关系。m e l 频率与实 际频率的具体关系可表示为: m e t ( f ) = 2 5 9 5 l g ( 1 + f 7 0 0 )( 2 4 ) 根据z w i c k e r 的结论【”,f | 缶界频率带宽随着频率的变化而变化,并与m e l 频率 的增长一致,在1 0 0 0 h z 以下,大致呈线性分布,带宽为1 0 0 h z 左右;在1 0 0 0 h z 以上呈对数增长。类似于临界频带的划分,可以将语音频率划分成一系列三角形 的带通滤波器组h) ,即 滤波器组。m ( n m e l 取每个三角形的滤波器频带宽内所有信号幅度加权和作为某个带通滤波器的 输出,然后对所有滤波器输出做对数运算,再进一步做离散余弦变换即得到m f c c 。 m f c c 参数的计算过程具体步骤如下: 1 对每帧序列s ( n ) 进行n 点f f t 变换,将时域信号转化为频域分量,取模的 平方得到离散功率谱s ( n ) 。 2 计算s ( n ) 通过m 个带通滤波器组所得功率值,即计算s ( n ) 与风,( n ) 在各离 1 0 第二章语音识别 散频率点上乘积之和,得到m 个参数只,其中m 为滤波器个数,通常取2 4 。 3 计算尸;的自然对数,再用离散余弦变换将结果变换到倒谱域: q = 量1 n ( 弓) c o s 坳一圭瓦 _ 1 ,(25)j=l 1r k2p q = 1 n ( 弓) c o s 附一i ) 百 = 1 , ( 2 5 ) 其中p 为m f c c 参数的阶数,- - g t g x p = 1 2 。 c k l 1 2 即为所求的m f c c 参数。 4 标准的m f c c 参数只反映了语音参数的静态特性,而人耳对语音的动态特 性更为敏感,因此通常用差分倒谱参数来描述这种动态特性。首先对倒谱系数进 行加权,使倒谱系数得到提升,具体公式如下: c k = 哦q( 2 6 ) q _ 1 + 知( 事1 后p ( 2 - 7 ) 5 计算动态差分倒谱,k 为常数,通常取2 ,这时差分参数就为当前帧的前两 帧和后两帧参数的线性组合。 a c ( n ) k f c ( n + f ) ,1 n p ( 2 8 ) j = - k 最后提取的特征参数为2 4 维的特征矢量,包括1 2 维m f c c 参数和1 2 维一阶 差分m f c c 参数,用于下级语音训练或识别。 2 3 2 线性预测倒谱系数l p c c 在语音信号分析中经常要用到一个重要的语音产生模型声道模型,声道 模型是将人从喉到嘴唇这一段发音腔体用一系列截面积不同的均匀声管来模拟。 根据声管的声学模型,利用物理学知识,可以计算出这段声管模型与信号处理中 的全极点模型相类似【l 】【3 】。因此,若能准确地估计出声道的形状或模型参数,就有 望用此模型参数作为语音信号的特征参数。在数字信号处理中,可以用l p c ( 线 性预测编码) 的方法来估计出此全极点模型的参数。 线性预测分析的基本思想是:由于语音样点之间存在相关性,所以可以用过 去的样点来预测现在或未来的样点值,即一个语音的抽样能够用过去若干个语音 抽样或它们的线性组合来逼近。通过使实际语音抽样和线性预测抽样之间的误差 在某个准则下达到最小值来决定唯一的一组预测系数。而这组预测系数就反映了 露 电子科技大学硕士学位论文 语音信号的特性,可以作为语音信号特征参数用于语音识别。 根据线性预测的基本原理:语音信号的现在估计值s ( n 1 可以用先前的p 个采 样值的线性组合的加权来逼近,即: ;( ) = 艺a i s ( n i ) ( 2 9 ) i = l 预测误差s ( n ) 为: s ( ”) = s ( ) 一;( ”) = j ( h ) 一n 。s ( n f ) ( 2 一l o ) i = l 线性预测分析要解决的问题是:给定语音序列,使预测误差在最小均方误差 准则下最小,求预测系数的最佳估计值a j 。系数q 就称为p 阶线性预测器的线性 预测系数,线性预测系数的求解可以通过解线性预测方程组的方法实现。 在语音识别系统中,通常用线性预测倒谱系数l p c c 作为特征参数,它的计 算过程为:解线性预测方程组,求出l p c 系数;对l p c 系数求离散傅立叶变换, 然后取对数;再求反变换i d f t 得到线性预测倒谱系数l p c c 。 2 3 3t d f c c 系数与l p c c 系数比较 m f c c 系数考虑了人耳的听觉特性,对噪声具有一定的鲁棒性,具有较好的 识别性能。在1 9 8 0 年s t e v e n 经过实验证明了选择一个基于听觉特性的参数更适合 于分割的语音识别,即m f c c 参数能够比l p c c 参数更好地提高系统识别效果和 抗噪性 4 。与l p c c 参数相比,m f c c 参数具有以下优点: 1 语音的信息大多集中在低频部分,而高频部分易受环境噪声干扰。m f c c 参 数将线性频标转化为m e l 频标,强调语音的低频信息,突出了有利于识别的信息, 屏蔽了噪声的干扰。l p c c 参数是基于线性频标的,所以没有这一特点。 2 m f c c 参数无任何前提假设,在各种情况下均可使用。而l p c c 参数假定所 处理的信号为a r 信号,对于动态特性较强的辅音,这个假设并不严格成立。另外, 当噪声存在时,a r 信号会变为a r m a 信号: 日( 国) = 上+ = 1 + a ( c o ) n o ( 2 1 1 ) a ( c o ) 。 4 ( c o ) 其中日( c o ) 为受噪声污染的信号功率谱,1 a ( o ) ) 为a r 信号功率谱,为噪声 功率。这会给l p c 分析的结果带来较大误差。因此,m f c c 参数的抗噪声能力也 优于l p c c 参数。 第二章语音识别 2 4 动态时间规整算法( d t w ) 在孤立词语音识别中,最为简单有效的方法是d t w 算法,该算法基于动态规 划的思想,解决了发音长短不一的模板匹配问题,是语音识别中较为经典的一种 算法。在孤立词语音识别中,d t w 算法与h m m 算法在相同条件下,识别效果相 差不大,但h m m 算法要复杂得多,这主要体现在h m m 算法在训练阶段需要提 供大量的语音数据,通过反复计算才能得到模型参数,而d t w 算法的训练中几乎 不需要额外的计算。所以在孤立词语音识别中,d t w 算法仍得到广泛的应用。 2 4 1动态时间规整基本原理 当用户进行语音训练或识别时,由于语音信号具有相当大的随机性,即使同 一个人每次尽量以同样的方式说同一个词汇,其持续时间也会随机改变,每个词 内部各个部分的相对时长也会有所不同。因此,如果直接用特征矢量序列的模式 来进行相似性的比较,其效果不可能最佳,需要对特征参数序列模式重新进行时 间对准,即动态时间规整。 d t w 是把时间规整和距离测度计算结合起来的一种非线性规整技术,它寻找 一个规整函数f 。= 中( ) ,将测试矢量的时间轴n 非线性地映射到参考模板的时间 轴m 上,并使该函数满足: 旦 d = i 映d r ( ) ,r ( o ( ) ) ( 2 - 1 2 ) ”“7 l = 1 d 就是处于最优时间规塑睛况下两矢量的距离。在d t w 算法中,这个距离通 常采用欧式距离。由于d t w 不断地计算两矢量的距离以寻找最优的匹配路径,所 以得到的是两矢量匹配时累积距离最小所对应的规整函数,这就保证了它们之间 存在最大的声学相似性。d t w 算法的实质就是运用动态规划的思想,利用局部最 佳化的处理来自动寻找一条路径,沿着这条路径,两个特征矢量之间的累积失真 最小,从而避免由于时长不同而可能引入的误差。d t w 算法要求参考模板与测试 模板采用相同类型的特征矢量、相同的帧长、窗函数和帧移。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论