已阅读5页,还剩56页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
东北大学坝士学位论文摘要 摘要 语音识别技术是信息领域的标志性技术,随着计算机技术的飞速发展,其技 术f _ _ i 臻成熟,目前正处于向产品化迈进的转折阶段,它作为人机对话的手段,在 计算机日益普及的今天,愈发显现出其在i t 产业中的重要地位。目前,语音识 别技术越来越受到人们的高度重视,国际上包括微软和i b m 在内的许多大公司 都在进行语音识别技术的研究,而且该技术已经有成型的产品,但是距离真正意 义上的实用还有很大的一段距离。因此,国内很多企业和研究所也在投入大量的 人力物力去研究这项技术。 该项研究涉及到信号处理、模式识别、概率论和信息论、发声机理和听觉机 理、人工智能等,论文主要讲述语音识别的关键技术如声学特征参数的提取和选 择、声学模型的选择、匹配算法的实现等问题。在此基础上进一步讨论了在“英 语在线”这个平台上如何实现各项关键技术,以及在现阶段存在的问题。 在对语音识别技术的各种理论作了初步研究的基础上,作者与同事们起进 行了“英语在线”平台的设计与实现工作。在总结这个项目的基础上,提出了如 何在e l e a r n i n g 领域应用语音识别技术的理念。如何把语音识别技术与现代化的 学习方式e l e a r n i n g 无缝的结合起来是本文的重点之一。 【关键词】语音识别,端点检测,d t w ,h m m ,l p c 东北大学硕士学位论文 a b s t a c t a b s t r a c t s p e e c hr e c o g n i t i o n i ni n f o r m a t i o na r e ai s s y m b o lt e c h n o l o g y w i t ht h er a p i d d e v e l o p m e n t o fc o m p u t e r t e c h n o l o g yb yl e a p s a n db o u n d s ,t h e t e c h n o l o g y i s b e c o m i n gb e r e ra n da p p r o a c h i n gp e r f e c t i o nd a ya n dd a y a tt h em o m e n t i t s g o i n g t o w a r d st h es t a g eo ft u r n i n g ,a sam a r l m a c h i n e d i a l o gi n t e r a c t i o n ,w h e nc o m p u t e ri s b e c o m i n gm o r ep o p u l a r i z ea v o w st o t h ep u b l i c ,s h o w i n gi t sp o w e r f u lr o l ei nt h e f a c t o r yi n d u s t r i a l i ti sa t t a c h e dg r e a ti m p o r t a n c eb yp e o p l et ot h es p e e c hr e c o g n i t i o n a tp r e s e n t m a n yb i gc o m p a n i e si nt h ew o r l d ,i n c l u d i n gm i c r o s o f ta n di b ma r e s t u d y i n gi tn o w m o r e e v e rt h et e c h n o l o g yf o r m i n gh a ss h a p i n gp r o d u c e ,i ts t i l lh a sa l o n gd i s t a n c e t oc o m ei n t ou s er e a l l y , s om a n yd o m e s t i ce n t e r p r i s e sa n dr e s e a r c h i n s t i t u t i o na l s ot h r o wag r e a td e a lo fm a n p o w e ra n dm a t e r i a lr e s o u r c e st os t u d yt h i s t e c h n o l o g y t h er e s e a r c hc o n c e mr e l a t e p r o c e s s i n g a b o u tt h e s i g n a lp r o c e s s i n g , p a t t e m r e c o g n i t i o n ,p r o b a b i l i t yt h e o r ya n d i n f o r m a t i o nt h e o r y , a s s o c i a t e da c o u s t i c so f s o u n dp r o d u c t i o na n da u d i t o r ym e c h a n i s m ,a r t i f i c i a li n t e l l i g e n c e ( a i ) a n ds oo n m a i n l yi t d e s c r i b e st h es p e e c hr e c o g n i t i o na b o u tt h ek e yt e c h n o l o g y , f o re x a m p l e , e x t r a c t i o na n ds e l e c t i o np a r a m e t e ro ft h ea c o u s t i cc h a r a c t e r i s t i c s e l e c t i o n 也ea c o u s t i c m o d e l ,a n da c h i e v e m e n t o f m a t c h i n ga l g o r i t h me t c o n t h eb a s i so f g o i n gs t e pf u r t h e r t od i s c u s sh o wt or e a l i z et h ea l lk i n d so ft h ek e yt e c h n o l o g i a so nt h e e n g l i s ho n l i n e ” p l a t f o r m ,a n ds o m ep r o b l e m l e f t o nt h eo t h e rh a n d ,o nt h eb a s i so ft h ei n i t i a ls t u d ya l lk i n d so fs p e e c hr e c o g n i t i o n t e c h n o l o g y , t h ew r i t e ra n d h i sc o l l e a g u eh a v ee n g a g e di nd e s i g n i n ga n da c h i e v i n go f t h e “e n g l i s ho n l i n e ”,o nt h eb a s i so f t h i s i t e mi ns u m m a r i z i n g ,p u tf o r w a r dh o w t ou s e an e wi d e ao ft h es p e e c hr e c o g n i t i o nt e c h n o l o g yi ne l e a r n i n g ,o n eo f t h ep o i n to ft h e t h e s i si sh o wt oc o m b i n ep e r f e c t l yt h es p e e c hr e c o g n i t i o nt e c h n o l o g ya n dm o d e r n i z e e - l e a r n i n gm e t h o d l e a r n i n g w i t h o u tat r a c e k e y w o r d s s p e e c hr e c o g n i t i o n ,e n d p o i n td e t e c t i o n ,d t w , h m m ,l p c i i 东北大学硕十学位论文 声明 声明 本人声明,本人所呈交的学位论文是在导师的指导下完成的。论文中取 得约霹变成果除了燕以檬注霸羲澎翁逮方舞,不惫台其德a 已经发表躐撰写遥酶 研究成果。我对与我一闷工作的同事对本研究所做的任何贡献均已在论文中怍了 明骥匏说骥著表示了谢意。 一 本人签名:1 笔锋 日期:秘。乎! f l 。 东北大学顼士学位论文第一章概述 第一章概述 1 1 语音识别的重要性 1 1 1 语音信息处理与语音识别 人类利用语言相互交流信息,包括语音和文字两种表达方式。通过语音相 互传递信息,这是人类最重要的基本功能之一。随着信息社会的发展,人与人 之间,自不必说,即使在人与机器之间也每对每刻都需要进行大量的信息交换。 人类在利用语音进行信息交流时,说话人大脑产生恩想,通过语言转换,再由 发声器官发出相应的语音;语音的声波经由空气传播到达听话人的耳朵,通过 听觉器官将语音传送到大脑,由此理解该语音所表达的语言意义。这是人类进 行信息交流与处理的过程。用计算机来模拟人类的这交流信息的过程,包括 以下几个部分; ( 1 )将大脑产生的思想转换成语言; ( 2 )将语言转换成相应的语音; ( 3 )识别表达语言的语音内容; ( 4 )理解语音所表达的语言意义。 上述( 1 ) 与( 4 ) 的部分属于自然语言生成和理解的研究范圈,( 2 ) 的部 分属于语音合成的研究范围:( 3 ) 的部分则属于语音识别的研究范围。图1 1 为人与人之间、人与机器之间的语音信息处理流程的示意图。 ( 机器) 说话方 发 盘 人与人之间的语音通信 传输系统 ( 编码、译码) 空间传播 收 听 收昕方 娑行 理l 动 解i 图1 1人与人之间、人与机器之间的语音信息处理流程图 1 1 2 语音识别的重要性 一1 一 语言形戍,0l叫f 一意图 人 母凡廿 题题 一 乜问鳗 , 是郴懈 一 矿 韶韶 一 一 语语 僦 州新 一 姒姒 瑁蝴一 母燃 东北大学硕士学位论文第一章概述 计算机语音识别是智能计算机系统的重要特征。这一技术的应用将从根本 上改变计算机的人机界面,从而对计算机的发展以及推广应用产生深远的影响。 基于电话的语音识别技术,使计算机直接为客户提供金融、证券和旅游等方面 的信息查询及服务成为可能,进而成为电子商务进展中的重要一环 ( v o i c e c o m m e r c e ) 。其次,语音识别技术作为声控产业,必将对编辑排版、办 公自动化、工业过程和机器操作的声控技术起到重大的推进作用。因此可以预 言,语音技术必将对工业、金融、商业、文化、教育等诸方面事业产生革命性 的影响。这是一项具有巨大应用推广前景的工程。正是由于这一点,一些主要 先进国家都把此工程列为国家级研究项目。 面对如此广阔的应用领域,目前国内外众多公司正积极推动语音识别技术 的应用。 微软:让计算机能说会听 在1 9 9 7 年秋季c o m d e x 世界计算机博览会上,语音识别和文本至语音的 转换( s p e e c ht ot e x t ) 系统已是引人注目的技术之一。在主题演讲大会上,微软 b i l lg a t e s 在描绘i t 事业的发展宏图时,率先指出下一代操作系统和应用程序 的用户界面将是语音识别。并提醒大家:“工业界应对语音识别领域的重大突破 做好充分准备,因为那将是一场席卷全球的另一次热潮”。展览会上,微软与其 合作伙伴将原语音指令和控制程序与连续语音识别技术结合在一起联合推出了 语音识别产品v o i c e e x p r e s s 。1 9 9 8 年1 1 月5 日,微软中国研究院在北京成立, 该中心的任务是重点研究计算机在中文环境下的易用性。 i b m :v i a v o i c e 仍居主流 i b m 公司潜心研究语音识别技术迄今已达3 0 年之久,投资超过2 亿美元。 i b m 公司于1 9 9 5 年在北京成立了中国研究中心,中文语音信息处理成了该中 心三大研究领域之一,并于1 9 9 7 年9 月4 目,在北京推出了中文连续语音识别 产品v i a v o i c e 。 i n t e l :做语音技术倡导者 1 9 9 8 年,英特尔公司也宣布致力于推广语音识别技术,除了在北京举办首 届语音技术国际论坛之外,还在北京、上海、成都、广州等地展开了“基于英 特尔框架的语音识别技术”的宣传活动,并联合了七家世界著名学术机构( 中 科院自动化所、清华大学、香港科技大学、香港中文大学、麻省理工学院、俄 勒岗研究院、w a t e r l l 0 0 大学) 成立了“国际语音技术研究组织”,致力于 计算机语音技术的基础研究,以加速中文语音识别技术的发展,由此可见英特 尔公司对语音识别技术的重视程度非同一般。 1 2 语音识别的定义、原理及分类 东北大学硕士学位论文第一章概述 1 2 1 语音识别的定义 语音识别是研究如何采用数字信号处理技术自动提取以及决定语音信号中 最基本、最有意义的信息的一门新兴的边缘学科。它是语音信号处理学科的一 个分支。显然,有意义、有内容的信息是构成语音音韵特性、即语音的共性特 征之基础,因此也可将其称为音韵信息。从广义上讲,语音识别也包括了对说 话人的识另u ( s p e a k e rr e c o g n f f i o n ) ,其主要内容是提取语音信号中有关个人特征 的信息、即语音的个性特征( 如:音律特性等) ,在这里专指有意义、有内容的 识别。 语音识别所涉及的学科领域相当广泛,如:信号处理、物理学( 声学) 、模 式匹配、通信及信息理论、语言语音学、生理学、计算机科学( 研究软硬件算 法以便有效地实现用于识别系统中的各种方法) 、心理学等。 1 2 2 语音识别的基本原理 语音识别的原理框图如图l ,2 所示。如图所示,识别有意义、有内容的语音 信息的基本方法是:预先分析出语音特征,按照要求送给机器储存起来,这个 语音参数库中的语音参数称为“模板( t e m p l a t e b a s e d a p p r o a c h ) ”,而这一一过程称 为“训练( t r a i n i n g ) ”。接着,送来识别的语音( 又称待识语音) 经过与训练时相 同的分析,得到语音参数,将它与库中的参考模板一一比较,并采用判决的方 法找出最接近语音特征的模板,得出识别结果,这一过程就称为“识别 ( r e c o g n i t i o n ) ”。当然,在进行比较时要有个标准,这就是计量语音参数矢量之 间的“失真测度( d i s t o r t i o n m e a s u r e s ) ”。即:失真最小的那个模板所代表的内容 就是识别的结果。 目前,常用的语音识别算法有:基于模式匹配的动态时间规正法( d t w : d y n a m i c t i m ew a r p i n g ) 、基于统计模型的隐含马尔柯夫模型法( h m m :h i d d e n m a r k o v m o d e l ) ) 以及基于神经网络的识别法( d n n 、n p n 、t d n n ) 等。 语音信 输入 噪声滤渡器 图1 2 语音识别原理图 识别 结果 构词规则 同音字判决 语注语义 背景知谢 东北大学硕士学位论文第一章概述 1 2 3 语音识别的分类 语音识别可以从三个方面进行分类。 ( 1 ) 按语音识别器的类型 孤立单词识另1 ( i s o l a t e dw o r dr e c o g n i t i o n ) 对汉语语音来说,识别的单元为字、词或短语,它们组成识别的词汇 表( v o c a b u l a r y ) ,对它们中的每一个通过训练建立标准模板或模型。待识别 的语音是这些字、词或短语中的某一个。 连续语音识别( c o n t i n u o u ss p e e c hr e c o g n i t i o n ) 连续单词识别( c o n n e e t e dw o r dr e c o g n i t i o m 以比较少的词汇为对象,能够完全识别每个词。识别的词汇表和标准样板 或模型也是字、词或短语,但识别时可以是它们中间几个的连续,其中典型的 有:词汇表中包括“0 ”到“9 ”十个数字,识别时可以说“3 ”、“2 7 ”、“6 5 9 ” 等等。 连续言语识别与理解化o n v e r s a f i o n a ls p e e c hr e c o g n i t i o n ) 以多数词汇为对象,待识的语音是一些完整的句子。虽然不能完全准确识 别每个单词,但是能够理解其意义,连续言语识别也称会话语音识别。理解是 在识别了语音之后,根据语言学知识来推断语音的含义内容的。 ( 2 ) 按语音识别器对使用者的适用情况 特定人语音识另l j ( s p e a k e r d e p e n d e n t ) 语音识别的标准模板或模型只适应于某个人,实际上,该模板或模型就 是该人通过输入词汇表中的每个字、词或短语的语音建立起来的( 称为训 练:t r a i n i n g ) 。其他人使用时,需同样建立自己的标准模板或模型。 非特定人语音识别( s p e a k e r i n d 印e n d e n t ) 语音识别的标准模板或模型适应于指定的某一范畴的说话人( 如说标准 普通话) ,标准模板或模型由该范踌的多个人通过训练而产生。识别时可供 参加训练的发音人( 圈内人) 使用,也可供未参加训练的同一范畴的发音 人( 圈外人) 使用。 ( 3 ) 按语音词汇表的大小 有限词汇识别 按词汇表中字、词或短句个数的多少,大致分为: 1 0 0 以下为小词汇;1 0 0 1 0 0 0 为中词汇;1 0 0 0 以上为大词汇。 无限词汇识别( 全音节识别) 当识别基元为汉语普通话中对应所有汉字的可读音节时,则称其为全音 节语音识别( 音节字表:l e x i c o n ) 。全音节语音识别是实现无限词汇或中文 文本输入的基础。 4 查! ! 查兰塑主堂竺堡苎皇三! ! ! 堕查 1 3 论文的主要工作和贡献 本论文主要论述了语音识别领域的经典理论,其中包括端点检测、线性预 测编码、模式匹配动态时间归正法( d t w ) 等理论,然后集中介绍了如何在“英 语在线,平台上实现语音识别的具体方法和技术,同时参与了平台的设计与编 码等工作,并在前人理论的基础上提出了端点检测的简化模型,使得计算量大 东北大学硕士学位论文第二幸语音信号的数字表示、基本组成单位和产生模型 第二章语音信号的数字表示、基本组成 单位和产生模型 2 1 概述 在研究各种语音信号数字处理技术及其应用之前,首先需要了解语音信号的 一些重要特点,应知道他是如何由一些最基本的单位组成的,发声器宫是如何 发出这声音的,在此基础上可以建立一个既实用又便于分析的语音产生模型, 这些问题可以归于声学语音学的范畴。通过对于语音信号发声过程的研究以及 观察记录的各种语音波形,便可知道语音信号的频谱分量主要集中在3 0 0 4 0 0 h z 的范围内。语音信号的另一个重要特点是它的“短时性”。在某些短时段中它呈 现出随机噪声的特性,另一些短时段则呈现出周期信号的特性,其它一些是二 者的混合。简而言之,语音信号的特征是随时间而变化的。只有在一短时间间 隔中,语音信号才保持相对稳定一致的特性,这短段时间一般可以取为5 - 5 0 m s 。 因此,对于语音信号的分析和处理必须建立在“短时”的基础上,最重要的语 音信号“短时特性”和“短时参数”包括它的“短时能量”、“短时过零率”、“短 时相关函数”、“短时频谱”等。 语音信号的最基本组成单位是音素。音素可分成“浊音”和“清音”两大 类。如果将不存在语音面只有背景噪声的情况称为“无声”,那么音素可分为“无 声”,“浊音”和“清音”三类。在短时分析的基础上可判断一短段语音属于哪 一类。如果是浊音段,还可测定它的另一些重要参数,如基音和共振峰等。 2 2 语音信号的时域波形 在进行语音信号数字处理时,最先接触到并且也是最直观的是它的时域波 形。为了获取一段语音信号的时域波形,首先将语音用话筒转换成电信号,再 用a j d 变换器将其转换为离散的数字化采样信号后存入计算机的内存中,最后 将此信号取出,用绘图仪绘成时域波形。图2 1 所示是一个男青年说的“欢迎 你到深圳特区”这段话的语音时域波形【2 。语音是在安静的环境下录取的。采 样前经过频带为0 i - 3 4 k h z 的带通滤波器进行滤波,采样率为8 k h z 。每个采样 信号用1 2 位进行量化。这段语音的持续时间为4 秒,图中横轴为时间,纵轴为 语音信号的幅度。由于时间轴压缩得很短,从图2 1 中无法辨别语音波形的细 节,但是可以看到语音能量的起伏,还可以大致分辨出话语中每一个字在此波 形中的位置。为了仔细辨识语音波形,可以把时问轴拉宽。图2 2 ( a ) 和( b ) 显示 了这一段语音的波形细节 2 ,其中每一段横线伸展的范围是2 0 0 m s ,上段的末 尾与下一段起点相连接。由此图看出,语音信号具有很强的“时变特性”。在有 一6 一 查j ! 盔兰堡主堂垡笙苎 塑三童至童笪兰塑塑! 查歪、一兰查丝垡兰竺塑兰竺塑! ! l 些段落中它具有很强的周期性,有些段落中又具有噪声特性,而且周期性语音 和噪声语音的特性也在不断变化之中,只有存较短的时间间隔中才可以认为语 音信号的特征基本保持不变。这一特点是语音信号数字处理的一个重要出发点。 i t i l l l ihb ii i “r 叫 - | - ; 1r7 l i i : : i i _ 1 i i i - i l f| = 鸫趣成舟更,遗翘嘏献成试由如舟一 一对焖蚋峨卟忡洲 ( a ) 东北大学硕上学位论文第二章语音信号的数字表示、基本组成单位和产生模型 胛舯绀m 喇帆渊删蝴帆 帆灿啊蝌惭晰嘴 m 州蚺删 柑1 小锏以忙 - 趟渺如v 竹喇坩惭 蝴聃 她孙m 拊黼如峥 一c 。、,。一、 - 一、 帆* 鹕焰 、_ ;胀 撇烛触怂灿蝴a 阳谢讲舭 & 产妒b 一一 ( h ) 图2 - 2 图2 - 1 时域波形的展开图 2 3 语音信号的“短时谱”、“语谱图”的特点 语音信号的最重要特征表现在它的“短时频谱”( 简称为“短时谱”) 上。如 果从语音流中利用加窗的方法去除其中的一个短段,再对其进行傅里叶变换, 就可以得到该段语音的短时谱。采用数字信号处理( d s p ) 的手段,可以在数 字计算机上非常方便、快捷地完成这一任务。图2 3 所示是一段浊音和一段清 音的时域波形及其短时谱 2 ”,语音的采样率是1 0 k h z ,窗长为5 0 m s ( 相应的样 点数为5 0 0 ) ,窗形为哈明窗。浊音的短时谱有两个特点:第一,有明显的周期 性起伏结构,这是因为浊音的激励源为周期脉冲气流。第二,频谱中明显地具 有几个凸起点,它们出现频率与声道的谐振频率相对应。这些凸起点成为“共 振峰”,其频率称为共振峰频率。共振峰频率由低到高排列为第一共振峰、第二 共振峰、,相应的频率用f 1 、f 2 来表示。一般浊音中可以辨别的共 振峰有5 个,其中前3 个( 尤其是前2 个) 对于区别不同语音是至关重要的。 清音的短时谱则没有这两个特点,它十分类似于一段随机噪声的频谱。 在d s p 技术发展起来以前很久,人们早就用一种特殊仪器语谱仪来分析 8 查些查兰堡主兰竺丝茎 笙三兰量童堕兰盟垫主耋量二垄查望些兰垡塑主! ;! ! 生 一9 (_)_量善_i言-毒 厂:邕 寻:(i蕞,v哥|)孝一乎晶 h o h n 叽 5自t,ff(i。谆 东北大学硕士学位论文第二章语音信号的数字表示、基本组成单位和产生模型 j h 2 ) 图2 3 浊音和清音的时域波形和短时谱 和记录语音信号的短时谱。它将语音信号( 经话筒变成电信号) 送进一排频率 依次相接的的窄带滤波器,各窄带滤波器的输出记录在一卷按一定速度旋转的 纪录纸上( 各滤波器的由低到高按频率排列) ,信号强则记录得浓黑一些,反之 则浅淡一些。由此得到的即是语音信号的语谱图,此图的水平方向是时间轴, 垂直方向是频率轴,图上或深或浅的黑色条纹表征各个时刻的短时谱,图2 4 给出了 i i , , a ,【。】, a 】, u 这六个美国英语元音单独发声时的时域波 形和短时谱,其中与时间轴平行的几条深黑色带纹称为“横杠”( b a r ) ,它们相 应于短时谱中的几个凸出点,也就是共振峰。由横杠的频率及宽度可以确定相 应共振的频率和带宽。在一个语音段的语谱图中,有没有横杠存在是判断它是 否为浊音的重要标志。 图2 5 给出了若干辅音配以元音 a 】发音时产生的时域波形图和语谱图, 它们的花纹比较复杂,其中比较典型的花纹是横岗、乱文和冲直条( 语谱图中 出现与时间轴垂直的一条窄黑条) 。每一种辅音包括上面几种典型花纹中的一种 或几种,它们与该辅音发音的特点有密切关系。 三譬g事哥一害n 东北大学硕士学位论文 第二章语音信号的数字表示、基本组成单位和产生模型 批啪枷 妇、,o 书批寸舭批诽娥协a i l 。一“h 1 1 一 鬯遮重 时i 埘 图2 - 4 若干元音的时域波形图及语谱图 雌 ,- 俐 一龋 。胪 遂 东北大学硕士学位论文第二章语音信号的数字表示、基本组成单位和产生模型 扣j 1 1 燃孵: l ijq i ”h 一1 一 “一l 。 一卜k p h 静卜忡喇咿 图2 5 若干辅音的时域波形图及语谱图 2 4语音信号产生模型 4 时i 可 h 时啊 在研究了前面的基本知识以后,便可以建立一个离散时域的语音信号产生模 东北大学硕士学位论文第二章语音信号的数字表示、茫本组成单位和产生模型 型,对于进一步的各项研究以及各种具体应用,这个模型是非常重要的。这里 先给出一个比较简单的模型,对于大多数研究和应用而言( 例如语音编码、语 音识别等) ,这个模型可以完全满足需要。 图2 - 6 给出了这个语音产生的离散时域模型 2 ”。它包括三个部分:激励源、 声道模型和辐射模型。激励源分浊音和清音两个分支,按照浊音清音开关所处 的位置来产生的语音是浊音还是清音。在浊音的情况下,激励信号有一个周期 脉 图2 6 离散时域模型 冲发生器产生。所产生的序列是一个周期为n o 的冲激序列,即每隔n o 点便有 一个样点值为0 。周期n 0 决定于基音频率f o 和语音信号的采样频率,n o = f 0 ,其中f o 和皆以h z 计量。当= 8 k h z ,f o 的变化范围为5 0 4 5 0 h z 时, n o 的变化范围是1 8 - 1 6 0 。为了使浊音的激励信号具有声门气流脉冲的实际波形, 还需要使上述的冲激序列通过一个声门脉冲模型滤波器,其z 域传输函数为 o ( z 1 。对声门波形的频谱分析表明,其幅度频谱按每倍频程1 2 d b 的速度递减。 如果令g ( z ) = 1 ( 1 一g l z 1 ) ( 1 9 2 z - 1 ) ,其中g l 和9 2 都很接近于1 ,那么由之 形成的浊音激励信号频谱很接近声门气流脉冲的频谱。乘系数a 。的作用是调节 浊语音信号的幅度或能量。在清音的情况下,激励信号由一个随机噪声发生器 产生。可设定其平均值为0 ,其自关函数是一个单位冲激函数。这表明它的任 何两个不同样点都不相关且其均方差值为】。此外还假定它的幅度具有正态概 率分m 布( 高斯分布) 。乘系数a u 的作用是调节清语音信号的幅度或能量。 声道模型v ( z ) 给出了离散时域的声道传输寒暑,把实际声道作为一个变截 面声管加以研究,采用流体力学的方法可以导出,在大多数情况下它是一个全 极点函数。这样,v ( z ) 可以表示为: 1 v ( z ) = 百上,a o = 1 ,a i 为实数 ( 2 1 ) q z - , i = 0 这里,把截面积连续变化的声管进似为p 段短声管的串联,每段短声管的截面 积是不变的。p 称为这个全极点滤波器的阶。显然,p 值取得越大,模型的传输 函数与声道实际传输函数的吻合程度越高。但是,对大多数实际应用而言,p l3 一 东北大学硕+ 学位论文第二章语音信号的数字表示、摹本组成单位和产生模型 值取8 1 2 就足够了。若p 去偶数,v ( z ) 一般有p 2 对共轭极点,r k e x p j u k , k - - 1 1 1 2 。各个uk 值分别与语音的各个共振峰相对应。辐射模型r ( z ) 保持不 变以外,f o 、a v 、a u 浊音清音开关的位置以及声道模型中的参数a 1 a 口都是 随时间而变化的,由于发生器官的惯性使这些参数的变化速度受到限制。对于 声道参数,在1 0 3 0 m s 的时间间隔内可以认为它们保持不变,因此语音的短 时分析帧长一般取为2 0 m s 左右。对于激励源参数,大部分情况下这一结论也 是正确的。但有些音的变化速度特别快,例如塞音或塞擦音的爆破段, l :鲨h 燮蚺 1f i 躺絮卜斗 图2 7 激励源的修正模型 2 0 m s 的时间间隔就过长,这时取5 m s 的间隔更为恰当。此外,这个模型将语音 信号截然分为受周期脉冲激励和噪声激励两种情况,与实际情况也不完全符合。 如果将此模型的激励源改为图2 7 所示的框图 2 ”,那么激励信号可以是上述两 种激励按任意比例相叠加,这更加符合实际情况( 即使如此,这个模型也不能 完全包括所有的情况,现在已建立了很多更好的激励模型。除了上面讨论的一 些限制以外,这个模型的局限性主要表现在它的传输函数不包含有限传输零点, 而像鼻音、擦音这样一些音的声道传输函数中是包含有限零点的。一种解决问 题的方案是在v ( z ) 中引入若干有限传输零点,但是这将使模型复杂化。另一种 方法是适当提高阶数p ,使得全极点模型能更好地逼近具有此种零点的传输函 数。 根据这个模型,离散时域语音信号s ( n ) 的z 变换s ( z ) 可以用一个统一的公 式来计算: s ( z ) = a e ( z ) h ( z ) ( 2 2 ) 在浊音的情况下,e ( z ) 是一周期冲激序列的z 变换且a = a 。,h ( z ) 2 g ( z ) v ( z ) r ( z ) 。在清音的情况下,e ( z ) 是- - 个随机噪声的z 变换且a = a v ,h ( z ) = v ( z ) r ( z ) 。 在某些应用中,例如高质量的语音合成,需要更加精确的语音产生模型。图 东北大学硕士学位论文 第一章语音信号的数字表示、基本组成单位和产生模型 图2 8 更精确的语音产生模型 2 8 给出了这种模型的一个示例【2 ”,其中包括三个分支,每个分支有若干二阶 节谐振器级连而成。图中用箭头标出的参数都是可调参数。口腔分支中前三个 共振峰的频率和带宽( f l f 3 和b t b 3 ) 都是可调的,后两个共振峰的频率 和帝宽( f 4 、f 5 和b t 、b 5 ) 是固定的。擦音分支中的f k l 和f k 2 表明擦音两频 区的频率,f k t 与f l ( 2 强度之差用a k 来调节。鼻音分支只有一个共振峰,即鼻 音共振峰f n ,其带宽是固定的。 东北大学硕士学位论文第三章用于语占识别的信号处理及分析方法 第三章用于语音识别的信号处理 及分析方法 3 1 短时分析与窗函数 3 1 1 语音信号的数字化 数字信号是指时恻和幅度均为离散的信号。为了把模拟信号变换成数字信 号,必须经过取样和量化这两个步骤。 ( i ) 取样( s a m p l i n g ) :如图3 1 所示,取样是将时间上连续的信号x “t ) 离散化成一个样本序列x ( n ) = x a ( n t ) ,t 是取样周期( s a m p l i n gp e r i o d ) , 其倒数称取样频率( s a m p l i n gf r e q u e n c y ) 。取样后的信号称离散信号 ( d i s c r e t es i g n a l ) 。被取样的模拟信号的频带和取样周期之间,存在着香 农一染谷的取样定律。即,模拟信号x 躺受到带宽o w ( h z ) 限制时。 若每隔t = i ( 2 w ) ,对x a ( t ) 进行取样处理,则从样值序列就完全能够再 现原样波形。当于信号的频带w 不明确时,需要在取样前接入低通滤 波器,以进行带宽限制。若取样时不能满足取样定理,就会产生所谓 的折叠失真( a l i a s i n gd i s t o r t i o n ) ,如图3 2 所示,信号中的高频成分将 发生失真。 ( 2 ) 量化( q u a n t i z i n g ) :量化是将上述样本序列中的样本幅度再加以离散 化。即用有限个值中的一个近似地表示某个波形的取样值。设信号范 围为lx ( n ) l x m a x ,则为了有效地使用二进制代码,一般将峰值到 峰值的范围表示成: 2 x m a x = a 2 8 ( 3 1 ) 式中,表示量化级;2 8 为电平数。量化后的样值和原有模拟值的误 差e ( m 称为量化误差或量化失真或量化噪声( q u a n t i z a t i o nn o i s e ) 。若根 据式( 3 ,1 ) 来选定和b ,则量化噪声就由式( 3 2 ) 决定。 一2 e f n ) 2( 3 2 ) 东北大学硕士学位论文 第三章用于语音识别的信号处理及分析方法 振 幅 臁妒螂弧取太。 一学v 响 取样周期 图3 1 波形的取样处理 3 1 2 短时分析的概要 频 谱 频 谱 ( a ) 准确取样( s 2 w ) ( b ) 非准确取样时( s 2 w ) 图3 2 非准确取样时的折叠失真 伺 m w ( a m ) j i m x ( | f n ) 。内m v j ”v 。? ”v ”u m i x j ( n ) 2x ( j + n ) w ( n ) 从语音信号流中切取出短时语音信号的过程图3 3 分帧示意图( 矩形窗) 称为分帧。如图3 3 所示,语音信号的分帧是通过可移动的有跟收度窗口进行 加权的方法来实现的。图中,窗口为矩形窗( 长度为n ) ,x j ( n ) 表示从离散信号 x ( n ) 取出的第j 帧的短时信号。当然,也可以采用其它形式的窗口来进行分帧处 理。 一般,我们把乘以窗函数后取出的短时语音区间部分称为帧,这个区间的 长度称为帧长,而使这个区间移动的周期称为帧周期。 3 1 3 几种典型的窗函数 式( 3 3 ) 、式( 3 4 ) 和式( 3 5 ) 给出了三种常用的窗函数【”。 ( i )矩形窗 哺,= 佗茹肛1 ( 2 ) 汉明窗( h a m m i n g ) ( 3 3 ) 东北大学硕士学位论文第三章用于语音识别的信号处理及分析方法 啪,= m 4 6 文2 删。1 凝 ( 3 ) 哈宁窗 ( h a n n i n g ) 吲妒舻m 5 眦o s q 翮“肛d 温。 ( 3 4 ) f 3 5 ) 波形乘以汉明窗时,压缩了接近函数两端的部分波形,这等效于分析间缩短了 4 0 左右,因此频率分辨率也随之下降4 0 左右。所以,即使在周期性明显的 浊音频谱分析中,乘以合适的窗函数,也能抑制基音周期分析区间的相对相位 关系的变动影响,从而可以得到稳定的频谱。这样,由于等效分析区间的缩短, 为了追踪随时间变化的频谱,要求一部分区间作重复移动。汉明窗在通带外的 衰减要比矩形窟小得多,而且通带与阻带起伏也比较小。 3 2 时域分析 3 2 1 短时平均能量、幅度及过零数 ( 1 ) 短时平均能量e j 的定义 弓:艺( _ ( 聆) 2 ) n = 0 、 ( 3 6 ) e j:第j 帧语音信号的短时平均能量,j 为帧的编号。 x j ( n ) :原样本序列x ( n ) 在j 时刻起,由长度为n 的窗口w ( n ) 所切取 出 的短时语音段。 e i 。g ( j ) 21 0 1 0 9 i o ( 1 + e j ) ( 3 7 ) e 1 。g ( i ) :第j 帧语音信号的对数短时平均能量( 单位:分贝) 。 ( 2 ) 短时平均振幅m 的定义 蝎:艺l 。蚓 m j :第j 帧语音信号的短时平均幅度。 ( 3 ) 短时平均过零数( z e r oc r o s s i n gn u m b e r ) z j 的定义 ( 3 8 ) 东北大学坝士学位论文 第三章用于语音识别的信号处理及分析方法 _ e g ( x j ( n ) ( 以+ 1 ) ) )。= ( 妇( n ) ( 以+ 1 ) ) ) 五:第j 帧语音信号的短时平均过零数。 ,、f 0 ( x 0 ) ”锯。1 l( x o ) ( 3 9 ) ( 3 1 0 ) 有关静息、无声( 清音) 以及有声语音( 浊音) 的平均能量和过零数的分 布关系,如图3 4 所示。由图可知,利用这些分布特性,我们就可将短时平均 能量( 或幅度) 和过零数应用于;检测语音信号的有无( 语音端点检测) ; 区分有声与无声语音的分界、连字( 指字之问无间隙) 的分界等。另外,平均 能量还常作为一种超音段信息,被应用于语音识别。 、 静息语音 弋 无声语音 有声语音 1_ 1 4 i 01 0 ( a ) 2 03 0 4 05 06 07 08 0 一一静息语音 弋! 响声语音 、 _l ii l 短时平均能量民函) ( d b ) ( b ) 短时平均过零数z j ( 次,l o m s ) 图3 4 用于语音端点检测参数的统计分布示意图 3 2 2 短时自相关函数与平均振幅差函数 ( 1 ) 短时自相关函数( s h o r t t i m ea u t o c o r r e l a t i o nf u n c t i o n ) r j ( m ) 的定义 r n i、 r j ( m ) = iz ( x ,( n ) x j ( n + m ) ) l n ,( o m m 。一1 ) ( 3 1 1 ) 、n 卸 r ( m ) :第j 帧语音信号、延迟为m 的短时自相关函数值。 n:帧长。 m 。:最大延迟时阊( 应至少大于原信号的周期) 。 n :累加变量n 的上限值。 n ,= n :对i n j + n 1 区间以外的x ( n ) 值也需要 进行累加计算。 n ,= n m :只需对上述区间内的数据进行累加即可。 此时,在切取出x j ( n ) 时,一般采用两端衰减的窗函数。 东北大学硕士学位论文第三章用于语音识别的信号处理及分析方法 ( 2 ) 短时平均幅度差函数a m d f ( a v e r a g em a g n i t u d ed i f f e r e n t i a lf i m c t i o n ) 厂一1、 o ( m ) = 【y 1 x , ( n ) 胁+ 酬l r , ( o m n 一1 ) ( 3 1 2 ) n = o r j ( m ) :第j 帧语音信号、延迟为m 的短时平均幅度差函数值。 r = ( m n ) i ) ( 3 1 3 ) h - - - 0 自相关函数( 或a m d f ) 的主要用途为:提取语音信号的基本周期,获 取声调模式;对带噪信号进行语音端点检测;区分有声与无声语音的分界、 连字( 指字之间无间隙) 的分界等。此外,在后面的线性预测分析中也要用到 自相关函数。 3 3 频域分析 3 3 1 傅里叶分析概要 ( 1 ) 连续周期信号与傅里叶级数( f s :f o u r i e rs e r i e s ) ( 2 ) 离散周期信号与离散傅里叶级数( d f s :d i s c r e t ef o u r i e rs e r i e s ) ( 3 ) 连续非周期信号与傅里叶变换( f t :f o u r i e rt r a n s f o r m ) ( 4 ) 离散( 时问) 非周期信号与离散傅里叶变换( d t f t :d i s c r e t et i m e f o u r i e rt r a n s f o r m ) 3 3 2 短时傅里叶变换( d f t :d i s c r e t ef o u r i e rt r a n s f o r m ) 设x j ( n ) 为从原样本序列x j ( n ) 的j 时点、通过某窗函数w ( n ) 的作用切取出的 短时语音信号。 ( 1 ) d f t 一i x j ( k ) = x j ( n ) e x p ( 一j 2 ;, r k n n ) , ( o k n 1 )( 3 1 4 ) x ,( k ) = r ( 圣】( k ) ) + i ( 圣( 堕) 一 1 x j ( k ) i _ r ( x j ( k ) ) + i ( x j ( k ) ) t g0 ( k ) 2 i ( x j ( k ) )
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《立定跳远》的教学反思
- 《快乐英语》第三册教案
- 体育场馆电缆网络顶管施工协议
- 城市绿化钻孔桩施工合同
- 环保产业园项目招投标资料
- 建筑工人休息室空调节能办法
- 公共交通枢纽防火门招投标资料
- 物业公司医疗保健人员合同模板
- 招投标合同变更法律风险
- 研发项目招投标实施细则
- 初中劳技园艺教案
- 金宝高效能矿物质在猪上的应用
- 新苏科版八年级上册初中数学全册教案
- 联想云教室lenovo eclass用户手册
- 机械伤害应急预案演练记录
- 仿古木作工程施工组织设计方案
- 钢铁及合金牌号统一数字代号体系(GB/T17616-2013)
- 《好听的声音》PPT课件
- 拼音拼读练习过关训练(无汉字)
- 电厂氨区液氨储罐置换方案
- 地理说课ppt课件
评论
0/150
提交评论