




已阅读5页,还剩123页未读, 继续免费阅读
(系统分析与集成专业论文)噪声环境下汉语数字语音识别系统的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 语音识别系统对噪音的鲁棒性是关系语音识别能否走向完全实用化的关键 环节, 也是目 前语音识别的研究热点和难点。 本文重点研究了其中的端点检测算 法、 语音增强技术和特征提取方法, 以期提高语音识别系统对环境的强健性和对 噪音的鲁棒性,主要研究工作如下: 1 .解决语音端点问 题的传统方法是短时能量和过零率判断,本文提出采用 语音信号的嫡信息与短时能量结合, 并提出了改进的判定准则进行语音的端点检 测与分割, 经过实验分析, 在传统的端点检测方法失效时, 该方法还能正确的分 害 出语音边界点。 2 .阐述现阶段常用的维纳滤波、基于噪音能量估计的谱减法和小波去噪方 法的核心思想和特点, 针对基于噪音能量谱估计的谱减法去噪后仍存在音乐背景 噪音,提出利用短时能量和短时过零率组合而成的加权函数,进行二次去噪。 3 . 深入分析和研究参数的抗噪问题, 在mf c c参数中引入短时能量、一阶 差分、 二阶差分和均值化等参数, 提出采用不同的特征参数组合增强参数的抗噪 性。 4 , 研究了h mm模型, 讨论了初值选取、 训练状态数和混合度的选择问题。 此外, 探讨了引入噪音的先验知识, 将带噪数据扩充到训练样本集中参与模型训 练提高模型级抗噪性。 采用以上的实验分析结果,系统构建一个基于 c d h mm 方法的非特定人不 定长汉语数字串的语音识别系统, 并从抗噪性、识别率、 对长度的误识率等方面 评价系统的性能。 关键词:数字语音识别,噪音鲁棒性,谱减法,嫡能量端点检测,组合特征参数 abs t rac t ab s tr act n o i s e r o b u s t f o r s p e e c h r e c o g n i t i o n s y s t e m i s k e y o f s p e e c h r e c o g n i t i o n u t i l i t y , a n d i s d e v e l o p m e n t h o t s p o t a n d d i f f i c u lt y o f t h e s p e e c h r e c o g n i t i o n t o d a y . i t i s d e v e l o p e d m o s t ly t h a t t h e s p e e c h d e t e c t a l g o r it h m , t h e s p e e c h e n h a n c e m e n t t e c h n o l o g y a n d t h e f e a t u r e e x tr a c t i o n m e t h o d in s p e e c h s i g n a l p r o c e s s i n t h e p a p e r in o r d e r t o r o b u s t o f t h e n o i s e i n t h e a c t u a l e n v i r o n m e n t , i t i s m o s t l y d e v e l o p m e n t a s f o l l o w s : ( .t r a d it i o n a l m e t h o d o f s o l v i n g s p e e c h d e t e c t i s s h o rt - t i m e e n e r g y a n d z e r o - c r o s s i n g s r a t e , i t i s i m p o s e d t h a t l i n k i n g s p e e c h e n t r o p y w it h s h o rt - t i m e e n e r g y , a n d i m p r o v e m e n t d e c i s i o n i n o r d e r t o s p e e c h d e t e c t a n d s e g m e n t a t i o n . t h e e x p e r i m e n t r e s u l t s t h a t t h e m e t h o d c a n s e g m e n t s p e e c h b o u n d a r y e x a c t l y w h e n t h e t r a d i t i o n a l m e t h o d i s n o g o o d u s e f o r t h i s . 2 . i t i s d i s c u s s e d t h a t w i e n e r , s p e c tr a l s u b tr a c t i o n b a s e d o n t h e n o i s e e n e r g y s p e c tr a l e s t i m a t e a n d w a v e l e t d e n o i s e m e t h o d . a i m a t e l i m i n a t i o n m u s i c b a c k g r o u n d n o i s e , i t i s i m p o s e d t h a t a d d i n g w e i g h t f u n c t i o n w h i c h m a k e u s e o f s h o rt - t i m e e n e r g y a n d z e r o s - c r o s s i n g r a t e d e n o i s e s p e e c h s e c o n d ly t h a t i s p r o c e s s e d b y t h e s p e c t r u m s u b tr a c t i o n b a s e d o n t h e n o i s e e n e r g y s p e c t r u m e s t i ma t e . 3 . i t i s d e e p l y a n a l y z e d a n d s t u d i e d t h a t t h e n o i s e - r e s t r a i n e d p a r a m e t e r s , a n d i s i n tr o d u c e d t h a t s h o rt - t i m e e n e r g y , o n e - o r d e r , s e c o n d - o r d e r d i ff e r e n c e a n d c e p s t r u m m e a n s u b t r a c t i o n i n t h e m e l f r e q u e n c y c e p s t r u m c o e f f i c i e n t . i t i s i m p o s e d t h a t m a k e u s e o f c o m b i n e d f e a t u r e c o e f f i c i e n t t o e n h a n c e p a r a m e t e r s a n t i n o i s e . 4 . i t i s d e v e l o p e d h mm m o d e l a n d d i s c u s s e d t h e s t a t e n u m b e r o f ma r k o v c h a i n s , c h o o s e d o f o r i g i n a l v a l u e a n d t h e s c a l e o f t r a i n g i n g - s e t , t h e g a u s s m i x t u r e n u m b e r , e t c . i n a d d i t i o n , i t i s d i s c u s s e d t o i n tr o d u c e n o i s e t r a n s c e n d e n t k n o w l e d g e , n a m e l y e x t e n d n o i s y t o s p e e c h e x a m p l e d a t a b a s e i n o r d e r t o a d v a n c e i n mo d e l r o b u s t f o r n o i s e . a d o p t i n g h e r e i n a ft e r r e s u lt o f e x p e r i m e n t a n a l y s e , i t i s r e a l i z e d t h a t n o n - s p e c i a l 、 n o n - f i x e d - l e n g t h m a d a r i n d i g i t a l s t r i n g s p e e c h r e c o g n i t i o n s y s t e m b a s e d o n t h e c o n t i n u o u s d e n s it y h i d d e n m a r k o v m e t h o d i n t h e a c t u a l s y s t e m e m u l a t i o n , a n d e s t i m a t e d s y s t e m p e r f o r m a n c e fr o m a n t i n o i s e , r e c o g n i t i o n r a t e a n d e r r o r r e c o g n i t i o n r a t e f o r l e n g t h e t c . k e y w o r d s : d i g i t a l s p e e c h r e c o g n i t io n , n o i s e r o b u s t , s p e c tr u m s u b t r a c t i o n , e n t r o p y e n e r g y e n d p o i n t d e t e c t , c o m b i n e d f e a t u r e c o e ff i c i e n t t i 学位论文独创性声明 本人郑重声明: 1 、坚持以 “ 求实、创新”的科学精神从事研究工作。 2 、本论文是我个人在导师指导下进行的研究工作和取得 的研究 成果 。 3 、本论文中除引文外,所有实验 、数据和有关材料均是 真 实 的 。 4 、 本论文中除引文和致谢的内容外, 不包含其他人或其它 机构 己经发表或撰写过的研究成果。 5 、 其他同志对本研究所做的贡献均己在论文中作了声明并 表示 了谢意 。 作者签名 日期: 杀 刁 、 犷 从 厂 学位论文使用授权声明 本人完全了解南京信息工程大学有关保留、使用学位论文 的规定,学校有权保留学位论文并向国家主管部门或其指定机 构送交论文的电子版和纸质版;有权将学位论文用于非赢利 目 的的少量复制并允许论文进入学校图书馆被查阅;有权将学位 论文的内容编入有关数据库进行检索:有权将学位论文的标题 和摘要汇编出版。保密的学位论文在解密后适用本规定。 作 者 签 名 : 别 聆 日期: 奋 韵 父. 、 丫 关于学位论文使用授权的说明 本人完 全了 解南京信息工程大学有 关保留 、 使用学 位论 文的 规定, 即: 学校有权保留 送交论文的复印件, 允许论文被查阅和借阅; 学校可以 公布论文的全部或部分内容, 可以 采用影印、 缩印或其他复制手段保存论 文。 ( 保密的 论文在解密后应遵守此规定 ) 作者签名导师签名: 日期: 第 1 章绪 论 第 1 章绪论 语言是人类 特有的功能, 声音是人类常用的工具, 是相互传递信息 最重要的工具。 语 音 识别 技 术( a s r , a u t o m a t ic s p e e c h r e c o g n it io n ) 是 指 让 机 器“ 听 懂, 人 说 的 话, 即 在 各 种 情 况下, 准确地识别出 语音的内 容, 从而根据其信息, 执行人的各种意图。 有人预计未来十年 内, 语音识别技术将进入工业、 家电、 通信、 汽车电 子、 医疗、 家庭服务、消费电 子产品等 各个领域, 语音识别技术的 应用已 成为一个具有竞争性的新兴高技术产业。 1 . 1 语音识别概述 1 . 1 . 1 语音识别发展及现状1 12 3 1 语音识别的 研究可以 追溯到二 十 世纪四 + 年代初, 从 1 9 4 。年前后 d u d le y的声码器 ( v o c o d e r ) 和p o tt e r 等人的 可见 语音 ( v is ib le s p e e c h ) 开 始的;1 9 5 2 年b e ll 实 验室d a v id 等依据元音的谱共振, 实 现了 世界上第一台能识别 特定人、 孤立数字语音的识别系统;1 9 5 9 年mi t林肯实验室o l s o n 和b e l a r 等人开发了 针对十个元 音的非 特定人的语音识别系 统 利 用带通滤波器组提取频谱参数及声道响应的时变估计值作为语音的特征。 这些识别系统都是 针对孤立语音 都是 基于模式匹配器和滤波器组提供的 谱信息, 由 于理论技术水平不够, 都 未取得明显的成功。 在二十世纪六十年代, 对语音识别的发展产生深远影响的两大技术是 线性预测技术和模 板匹配技术;同期, 有关语音识别的 三个关键项目 启动,它们是:( 1 ) 1 9 6 0 年, r c a实验 室的 m a r t in提出了一组基于语音信号端点 检测的时间归一化方法, 可靠地检测到 语音的 起 始点 和终止 点, 有效 地减小了 识别结 果的 可 变 性; ( 2 ) 1 9 6 8 年前苏 联的v in ts y u k 提出了 对 两段语音 进行对 齐的 动 态规划方法 ( d p , d y n a m ic p r o g r a m m in g ) , 实 现了 语音识别中 的时 间 规 整; ( 3 ) c a rn e g i e m e ll o n大 学的r e d d y 通过 对音素的动 态跟踪, 对连续 语音识别 方法作 了开创性的研究工作。 在二十世纪七十年代, 语音识别的 研究取得了 许多重大的具有里程碑意义的 成果。 模式 识别、动态规划技术开始在语音识别系统中得到应用,1 9 7 5日 本学者i t a k u r a 提出了 著名的 动态时间 规整算 法 ( d t w , d y n a m ic t im e w a r p in g ) , 较好的 解决了 说 话速度不 均匀 造成的 语 音识别困难的问 题; 特征提取技术的二个 主要方法也被提出: 频谱分析、 线性预测分析和倒 第 1 章绪 论 第 1 章绪论 语言是人类 特有的功能, 声音是人类常用的工具, 是相互传递信息 最重要的工具。 语 音 识别 技 术( a s r , a u t o m a t ic s p e e c h r e c o g n it io n ) 是 指 让 机 器“ 听 懂, 人 说 的 话, 即 在 各 种 情 况下, 准确地识别出 语音的内 容, 从而根据其信息, 执行人的各种意图。 有人预计未来十年 内, 语音识别技术将进入工业、 家电、 通信、 汽车电 子、 医疗、 家庭服务、消费电 子产品等 各个领域, 语音识别技术的 应用已 成为一个具有竞争性的新兴高技术产业。 1 . 1 语音识别概述 1 . 1 . 1 语音识别发展及现状1 12 3 1 语音识别的 研究可以 追溯到二 十 世纪四 + 年代初, 从 1 9 4 。年前后 d u d le y的声码器 ( v o c o d e r ) 和p o tt e r 等人的 可见 语音 ( v is ib le s p e e c h ) 开 始的;1 9 5 2 年b e ll 实 验室d a v id 等依据元音的谱共振, 实 现了 世界上第一台能识别 特定人、 孤立数字语音的识别系统;1 9 5 9 年mi t林肯实验室o l s o n 和b e l a r 等人开发了 针对十个元 音的非 特定人的语音识别系 统 利 用带通滤波器组提取频谱参数及声道响应的时变估计值作为语音的特征。 这些识别系统都是 针对孤立语音 都是 基于模式匹配器和滤波器组提供的 谱信息, 由 于理论技术水平不够, 都 未取得明显的成功。 在二十世纪六十年代, 对语音识别的发展产生深远影响的两大技术是 线性预测技术和模 板匹配技术;同期, 有关语音识别的 三个关键项目 启动,它们是:( 1 ) 1 9 6 0 年, r c a实验 室的 m a r t in提出了一组基于语音信号端点 检测的时间归一化方法, 可靠地检测到 语音的 起 始点 和终止 点, 有效 地减小了 识别结 果的 可 变 性; ( 2 ) 1 9 6 8 年前苏 联的v in ts y u k 提出了 对 两段语音 进行对 齐的 动 态规划方法 ( d p , d y n a m ic p r o g r a m m in g ) , 实 现了 语音识别中 的时 间 规 整; ( 3 ) c a rn e g i e m e ll o n大 学的r e d d y 通过 对音素的动 态跟踪, 对连续 语音识别 方法作 了开创性的研究工作。 在二十世纪七十年代, 语音识别的 研究取得了 许多重大的具有里程碑意义的 成果。 模式 识别、动态规划技术开始在语音识别系统中得到应用,1 9 7 5日 本学者i t a k u r a 提出了 著名的 动态时间 规整算 法 ( d t w , d y n a m ic t im e w a r p in g ) , 较好的 解决了 说 话速度不 均匀 造成的 语 音识别困难的问 题; 特征提取技术的二个 主要方法也被提出: 频谱分析、 线性预测分析和倒 第 1 章绪 论 谱分析。 最具有意义的是美国国 防部 推出a r p a五年计划, 目 标是1 0 0 0 词的连续语音识别。 参与此 计划的 卡内 基一 梅隆 大学的1 0 0 0 词、 连 续语 音识别系统h e a r s a y - i i 和h a r p y 效果最好。 此外, i b m公司 开发了 小数据库查询、简单办公文件听写等连续语音识别系统。 二十世纪八十年代开始出现了大量的连续语音识别算法,1 9 8 8 年美国卡内基一 梅隆大学 运用矢量量化 ( v q , v e c t o r q u a n t i z a t i o n ) 和o r 马尔可夫 ( h m m , h i d d e n m a r k o v m o d e l s ) 技 术研制成了非特定人、大词汇量、连续语音识别系统一 s p h i n x系统, 识别率达到 %, 是 世界上第一台高性能的非特定人、 大词汇量、 连续语音识别系统。 在八十年代中后期, 语音 识别研究所用的技术方法发生了变化:由模板的方法转向了统计建模的方法, 尤其是使用了 隐马尔可夫方法, 这种方法现在已 成为语音识别研究的主流。 此外, 神经网 络技术也被广泛 应用: s h a m m a 设计了 一 种基于 听觉 神经系 统原理的 语音 识别系 统, h u a n g 等利 用多 层 感知 器b p 算法实 现了 统计模式分 类并将其用于语音识别, k o h o n e n 利用自 组织特征映射神经网 络模型实现了 芬兰语的识别。 尽管人们认识到了 神经网 络在语音识别中 有许多 独特的 优点, 但是由于神经网络的训练时间长、运算量大,其研究和发展缓慢。 二十世纪九十年代, 在计算机技术、 电 信应用等领域迅速发展的带动下, 迫切要求语音 识别系统从实验室走向实用。i b m公司率先推出的v i a v o i c e 大词汇量、非特定人、连续语 音识别系统: 在嵌入式应用中,出现了可以语音拨号的手机、与人对话的智能玩具;在商业 服务中, 出 现了以 语音识别、 语音合成为核心技术的呼叫中 心、 语音门 户网 站等等, 代表的 标志性成果是美国a r p a的d a r p a计划下的l v c s r系统 大词汇量连续语音识别系统) 。 二十一世纪初期的成果主要集中于实现机器的同声传译系统以及多环境背景下的英语 语音识别系统。 我国的 语音识别技术研究 起步并不晚, 但由 于各种客观条件的限 制, 早期的 研究工作进 展缓慢。上个世纪八十年代中期以 后,在国家“ 8 6 3 计划” 的积极推动和国内各科研机构的艰 苦努力下 发展迅速, 它经历了从 特定人到非特定人、 从小词 表到大词 汇量、 从孤立字到连续 语音的发展历程。 例如, 清华人学电子 _ 程系率先推出汉语全音一 ,ii 语音识别系统。 随后, 四 达公司、 星河公司、 北京理 _ 人学、 北方交通大学等单位纷纷推出各自 的全音节语音识别系 统。另外,台湾大学在 1 9 9 0 年也推出了 汉语全音ify 语音实时识别系统。由 清华大学电子工 程系 和中国电 子 器 件总公司 联 合研制的 “ 赛德9 1 9 ( t h e d - 9 1 9 ) ,于1 9 9 2 年 通过国 家鉴 定, 其 单音节识别率超过9 0 %, 理解正确率高达9 7 %, 代表了当时汉语特定人孤立字识别和理解系 统的最高水平。 在连续语音识别系统领域, 清华大学电 子工 程系早在 1 9 9 5 年就推出了大词汇量、 非特 定人、 连续语音识别的演示系统; 中 科院自 动化所研制的 非特定人、 连续语音听写系统和汉 语语音人机对话系统, 字的准确率及响应率达到9 0 %以上, 中科院 声学所研制的实时认人单 第 1 章绪 论 呼语音识别系统一 r t s r s s d i 和 实时不认人单呼 语音识别系统r t s r s c i 工 正确识别率大于 9 5 % ;台湾大学在 1 9 9 5 年实现了 大词汇量连续语音识别的演示系统。 可以肯定,国内 语音 识别的研究水平已 经基本达到国际先进水平。1 9 9 8 年 4月,在第五届全国汉字识别、语音 识别与合成系统及白 然语言处理系统评测中, 清华大学电子工程系王作英教授为核心的语音 识别实验室开发的连续语音识别系统t h e e s p 再度蝉联冠军, 对于限定1 9 9 3 , 1 9 9 4 年 人 民日 报 语料的语音数据, 字正确率超过了9 3 .9 % 。 该系统代表了当时国内 研究机构在这一 领域的最高水平。 1 . 1 .2 语音识别的分类及系统描述14 15 1 从不同的 角度和要求出发, 语音识别系统有不同的 分类方法 ( 见表 1 ) 。 根据不同的 需 求, 对识别的 性能和指标要求也不一样, 主要体现在系统规模大小、 识别方法、 对话者的 依 赖性等方面。 虽然分类的不同 所创建的语音识别系统不同, 但是所采用的语音识别技术类似, 语音识 别 本质上是一 种统 计模式识别的 过程, 该 过程有 不同 的 表 述, c a m p b e l l 将 其分为: 特征 抽取 和选择、 模式匹配及分类, 傅京孙将模式识别系统分为 特征提取器和分类器两大部分, 边肇 祺等将其分为: 数据获取、 预处理、 特征抽取和提取、 分类决策。 本文将统计模式识别系统 分为:数据获取、预处理、特征提取、特征建模 ( 建立参考模式库) 、分类和聚类 识别) 等部分,系统框图如1 . 1 所示。 表 1 语音识别系统分类 分类依据 语音的 发音方式 对话者的 依赖程度 词汇量 大小 识别的 方法 应用场合 类别 孤立词 语音识别 系统 特定人 语音识别 系统 小词汇量 ( 1 0 - 5 0 ) 动态时间规整 ( d t w ) 命令识别等 连接字 语音识别 系统 非特定人语 音识别系统 中等词汇 ( 5 0 . 2 0 0 ) 隐马尔可夫模 型 ( d h mm, s dh mm, c dhmm ) 文字记录等 连续语音识 别系统 大词汇量 ( 2 0 0以 ) 隐马尔可夫模 型、人工神经 网络 ( 人n n) 语音理解等 第 1 章绪 论 呼语音识别系统一 r t s r s s d i 和 实时不认人单呼 语音识别系统r t s r s c i 工 正确识别率大于 9 5 % ;台湾大学在 1 9 9 5 年实现了 大词汇量连续语音识别的演示系统。 可以肯定,国内 语音 识别的研究水平已 经基本达到国际先进水平。1 9 9 8 年 4月,在第五届全国汉字识别、语音 识别与合成系统及白 然语言处理系统评测中, 清华大学电子工程系王作英教授为核心的语音 识别实验室开发的连续语音识别系统t h e e s p 再度蝉联冠军, 对于限定1 9 9 3 , 1 9 9 4 年 人 民日 报 语料的语音数据, 字正确率超过了9 3 .9 % 。 该系统代表了当时国内 研究机构在这一 领域的最高水平。 1 . 1 .2 语音识别的分类及系统描述14 15 1 从不同的 角度和要求出发, 语音识别系统有不同的 分类方法 ( 见表 1 ) 。 根据不同的 需 求, 对识别的 性能和指标要求也不一样, 主要体现在系统规模大小、 识别方法、 对话者的 依 赖性等方面。 虽然分类的不同 所创建的语音识别系统不同, 但是所采用的语音识别技术类似, 语音识 别 本质上是一 种统 计模式识别的 过程, 该 过程有 不同 的 表 述, c a m p b e l l 将 其分为: 特征 抽取 和选择、 模式匹配及分类, 傅京孙将模式识别系统分为 特征提取器和分类器两大部分, 边肇 祺等将其分为: 数据获取、 预处理、 特征抽取和提取、 分类决策。 本文将统计模式识别系统 分为:数据获取、预处理、特征提取、特征建模 ( 建立参考模式库) 、分类和聚类 识别) 等部分,系统框图如1 . 1 所示。 表 1 语音识别系统分类 分类依据 语音的 发音方式 对话者的 依赖程度 词汇量 大小 识别的 方法 应用场合 类别 孤立词 语音识别 系统 特定人 语音识别 系统 小词汇量 ( 1 0 - 5 0 ) 动态时间规整 ( d t w ) 命令识别等 连接字 语音识别 系统 非特定人语 音识别系统 中等词汇 ( 5 0 . 2 0 0 ) 隐马尔可夫模 型 ( d h mm, s dh mm, c dhmm ) 文字记录等 连续语音识 别系统 大词汇量 ( 2 0 0以 ) 隐马尔可夫模 型、人工神经 网络 ( 人n n) 语音理解等 第i 章绪 论 输入语音 图 t 【 语音识别系统框图 , 1 . 3 语音识别的主要算法 6 17 1 一股来说, 语音识别的方法有三种: 基于 声道模型 和语音知识的 方法、 模板匹配的方法 以 及利用人工神经网 络的方法。 基于声道模型和语音知识的 方法起步较早, 在语音识别技术 提出的开始, 就有了 这方面的 研究, 但由 于其模型及语音知识过于复杂, 现阶段没有达到实 用的阶段。利用人工神经网络的方法是上个世纪八 十年代末期提出的一种新的语音识别方 法。 人工神 经网 络 ( a n n , a rt i f ic ia l n e u r a l n e t w o r k 本质 上是 一个自 适应非 线性动力学系 统, 模拟了 人 类神经活动的原理, 具有自 适应性、 并行性、 鲁棒性、 容错性和学习 特性, 在 结构和算法上都显示出实力。 但由于存在训练、 识别时间太长的缺点,目 前仍处于实 验探索 阶段。模板匹配的方法发展比较成熟,目 前已达到了实用阶段。 1 隐马尔可夫法( h m m ) 隐马尔可夫法( h m m) a-十世纪七十年代引 入语音识别理论的, 它的出 现使得自 然语 音识别系统取得了 实质性的突破。 h m m方法现已 成为语音识别的主流技术,目 前大多 数非 特定人、 大词 汇量、 连续 语音识别系统都是基于h m m模型的。 h m m是对 语音信号的时间 序列结构建立统计模型, 将之看作一个数学上的双重随机过程: 一个是用具有有限 状态数的 ma r k o v 链来模拟语音信号统计特性变化的隐含的随机过程, 另一个是与m a r k o v 链的每一个 状态相关联的 观测序列的随机过程。具体算法讨论见第5 章。 2 矢量量化 ( v q ) 矢 量量化( v e c t o r q u a n t i z a tio n ) 是 一 种重 要的 高 效编 码 技术, 是由 标量 量化推广 而来的 一种信源编码技术。 与h m m相比,矢 量量化主要适用于小词汇量、孤立词的 语音识别中。 其过程是: 将语音信号波形的k 个样点的 每一帧, 或 有大 个参数的每一参数帧, 构成k 维空 间中的一个矢量, 然后对矢量进行量化。 量化时, 将k 维无限空间划分为m t区域边界, 然 后将输入矢量与这些边界进行比 较, 并被量化为“ 距离” 最小的区域边界的中心矢量值。 矢 量量化器的设计就是从大量信号样本中训练出好的码书, 从实际效果出发寻找到好的失真测 度定义公式, 设计出最佳的矢量量化系统, 用最少的搜索和计算失真的运算量, 实现最大可 第i 章绪 论 输入语音 图 t 【 语音识别系统框图 , 1 . 3 语音识别的主要算法 6 17 1 一股来说, 语音识别的方法有三种: 基于 声道模型 和语音知识的 方法、 模板匹配的方法 以 及利用人工神经网 络的方法。 基于声道模型和语音知识的 方法起步较早, 在语音识别技术 提出的开始, 就有了 这方面的 研究, 但由 于其模型及语音知识过于复杂, 现阶段没有达到实 用的阶段。利用人工神经网络的方法是上个世纪八 十年代末期提出的一种新的语音识别方 法。 人工神 经网 络 ( a n n , a rt i f ic ia l n e u r a l n e t w o r k 本质 上是 一个自 适应非 线性动力学系 统, 模拟了 人 类神经活动的原理, 具有自 适应性、 并行性、 鲁棒性、 容错性和学习 特性, 在 结构和算法上都显示出实力。 但由于存在训练、 识别时间太长的缺点,目 前仍处于实 验探索 阶段。模板匹配的方法发展比较成熟,目 前已达到了实用阶段。 1 隐马尔可夫法( h m m ) 隐马尔可夫法( h m m) a-十世纪七十年代引 入语音识别理论的, 它的出 现使得自 然语 音识别系统取得了 实质性的突破。 h m m方法现已 成为语音识别的主流技术,目 前大多 数非 特定人、 大词 汇量、 连续 语音识别系统都是基于h m m模型的。 h m m是对 语音信号的时间 序列结构建立统计模型, 将之看作一个数学上的双重随机过程: 一个是用具有有限 状态数的 ma r k o v 链来模拟语音信号统计特性变化的隐含的随机过程, 另一个是与m a r k o v 链的每一个 状态相关联的 观测序列的随机过程。具体算法讨论见第5 章。 2 矢量量化 ( v q ) 矢 量量化( v e c t o r q u a n t i z a tio n ) 是 一 种重 要的 高 效编 码 技术, 是由 标量 量化推广 而来的 一种信源编码技术。 与h m m相比,矢 量量化主要适用于小词汇量、孤立词的 语音识别中。 其过程是: 将语音信号波形的k 个样点的 每一帧, 或 有大 个参数的每一参数帧, 构成k 维空 间中的一个矢量, 然后对矢量进行量化。 量化时, 将k 维无限空间划分为m t区域边界, 然 后将输入矢量与这些边界进行比 较, 并被量化为“ 距离” 最小的区域边界的中心矢量值。 矢 量量化器的设计就是从大量信号样本中训练出好的码书, 从实际效果出发寻找到好的失真测 度定义公式, 设计出最佳的矢量量化系统, 用最少的搜索和计算失真的运算量, 实现最大可 第 ! 章绪 论 能的 平 均信噪比 。 失 真测度主要 有均方 误差 ( 即 欧氏 距离 ) 、 加 权的 均方 误差、 i ta k u r a s a it o 距 离, 似然比失真测度等。初始码书的生成可以 是随 机选取、分裂生成法、乘积码书法。 在选 定了失真测度和初始码书后, 就用l b g算法, 对初始码书进行迭代优化, 一直到系统性能 满足要求或不再有明显的改进为正。 3 .动态时间规整( d t w ) d t w 动态时间规整法是孤立词识别系统的主流识别方法,属于传统的模板匹配法。然 而, 实际上不能简单的将输入参数序列和相应的参考模板直接作比较, 因为语音信号具有相 当的随机性, 即使同一个人在不同时刻所讲的同一句话、 同一个音也不可能有相同的时间长 度。 因此需要寻找一种待识别样本和各模板时间轴之间的 一种变换关系, 用来消除它们做匹 配比 较时由于相应时间上的差异所造成的同 类音距离偏大的 现象。 这种结合时间 变换关系 求 特征序列之间距离的技术称为d t w技术。 d t w技术采用动态规划 ( d p ) 法, 通过将待识别语音信号的时间轴进行不均匀地扭曲 和弯曲, 使其特征与模板特征对齐, 并在两者之间不断的 进行两个矢量距离最小的匹配路径 计算, 从而获得两个矢量匹配时累积距离最小的规整函 数。 这是一个将时间规整和距离测 度 有机结合在一起的非线性规整技术, 保证了 待识别 特征与模板特征之间最大的 声学相似特性 和最小的时差失真,从而成功解决待识语音和模板不等长的问题。 1 . 1 .4 语音识别系统的应用 语音技术的实用性、 趣味性成为国内 外诸多单 位关注的热点, 办公、 交通、 金融、 公安、 商业、 旅游等行业的语音咨询与管理, 工业生产部门的语声控制,电 话、电信系统的自 动拨 号、 辅助控制与查询以 及医疗卫生和福利事业的生活支援系统等各领域都在试图 应用语音识 别技术。 当 今社会是数字信息化时 代, 信用卡号 码、 电 话语音拨号、 个人身份证号码、 电子密码 等都具有数字化特征, 因此, 连接数字语音识别 成为 语音识别中 极其重要的 一项任务。 一方 面, 连接数字自 动语音识别可以识别用户说出的 数字串, 向 用户提供最自 然、 最灵活和最经 济的人机接口 界面, 从而能有效解决军用和民用领域中遇到的大量数据录入问 题: 另一方面, 由 于电 话网络的日 益普及, 连 接数字自 动语音识别可用于 电话人口 统计, 远程股票交易 及各 种号码的远程认证等:其次,在家电 语音遥控、 工业控制等诸多领域具有广泛的应用价值。 第 ! 章绪 论 能的 平 均信噪比 。 失 真测度主要 有均方 误差 ( 即 欧氏 距离 ) 、 加 权的 均方 误差、 i ta k u r a s a it o 距 离, 似然比失真测度等。初始码书的生成可以 是随 机选取、分裂生成法、乘积码书法。 在选 定了失真测度和初始码书后, 就用l b g算法, 对初始码书进行迭代优化, 一直到系统性能 满足要求或不再有明显的改进为正。 3 .动态时间规整( d t w ) d t w 动态时间规整法是孤立词识别系统的主流识别方法,属于传统的模板匹配法。然 而, 实际上不能简单的将输入参数序列和相应的参考模板直接作比较, 因为语音信号具有相 当的随机性, 即使同一个人在不同时刻所讲的同一句话、 同一个音也不可能有相同的时间长 度。 因此需要寻找一种待识别样本和各模板时间轴之间的 一种变换关系, 用来消除它们做匹 配比 较时由于相应时间上的差异所造成的同 类音距离偏大的 现象。 这种结合时间 变换关系 求 特征序列之间距离的技术称为d t w技术。 d t w技术采用动态规划 ( d p ) 法, 通过将待识别语音信号的时间轴进行不均匀地扭曲 和弯曲, 使其特征与模板特征对齐, 并在两者之间不断的 进行两个矢量距离最小的匹配路径 计算, 从而获得两个矢量匹配时累积距离最小的规整函 数。 这是一个将时间规整和距离测 度 有机结合在一起的非线性规整技术, 保证了 待识别 特征与模板特征之间最大的 声学相似特性 和最小的时差失真,从而成功解决待识语音和模板不等长的问题。 1 . 1 .4 语音识别系统的应用 语音技术的实用性、 趣味性成为国内 外诸多单 位关注的热点, 办公、 交通、 金融、 公安、 商业、 旅游等行业的语音咨询与管理, 工业生产部门的语声控制,电 话、电信系统的自 动拨 号、 辅助控制与查询以 及医疗卫生和福利事业的生活支援系统等各领域都在试图 应用语音识 别技术。 当 今社会是数字信息化时 代, 信用卡号 码、 电 话语音拨号、 个人身份证号码、 电子密码 等都具有数字化特征, 因此, 连接数字语音识别 成为 语音识别中 极其重要的 一项任务。 一方 面, 连接数字自 动语音识别可以识别用户说出的 数字串, 向 用户提供最自 然、 最灵活和最经 济的人机接口 界面, 从而能有效解决军用和民用领域中遇到的大量数据录入问 题: 另一方面, 由 于电 话网络的日 益普及, 连 接数字自 动语音识别可用于 电话人口 统计, 远程股票交易 及各 种号码的远程认证等:其次,在家电 语音遥控、 工业控制等诸多领域具有广泛的应用价值。 第 1 章绪 论 1 . 2 抗噪语音识别概述l 7 尽管语音识别的 研究已 有半个世纪了, 但现有的 识 别系统 远远 达不到实 用化的 要求. 图 夔 一 图1 . 1 不同 信噪比 的识别 率 1 . 1 所示 d i为 不同 信 噪比 背景 噪 音 下的 语 音识别 率。 其中, 一 线表示的是 训 练信号是 千净的语音信号, 识别具有不同 信噪比 的 带噪语音信号 所得到的 识别 率。 * 一 , 表示的是 训 练的 语音信号与 待识别的 语音 信号同 处 一个环境, . 表示的 是训练的 语音 信号 与待识别的 语音信 号 相差1 8 d b , 可以 看出, 当 训练 信号是干净的 语音 信号, 而实际 识别的 语音信号 其 背景噪音是o d b 时,识别率只有1 0 %,识别率相差 较大。 因此, 语音识别系统 对噪 音的 鲁棒性是关系 语音识别能 否走向 完全实用化的 关键, 提 高系统对噪声的 鲁棒性具 有迫切的 现实 意义, 也是目 前语音识别 研究的 热点和难点。目 前, 国内 外的抗噪 技术可分为以 下几个 方面. 1 .2 . 1 语音增强 人们在语音通信过程中将 不可避免 地会受到 来自 周围 环境的 干 扰, 例如传输媒介引入的 噪声, 通信设备内 部的电噪声, 乃至 其他讲话 者的 话音等。 由 于这些干扰噪声的 存在, 接收 者接收到的 语音信号已 不再是原始的 纯 净的 语音信号, 而是 受到 干扰污染的带噪语音信号, 这些噪声的 存在使得许多语 音处理系 统的 性能 急剧恶化, 语音 识别率受到严重的 影响。 在实 际的 应用中, 语音增强作为一种预处 理手段, 是 语音识别系统中 必不可少的 前端处理。 有效 的 语音增强为语音信号的 后处理提供了良 好的 基础, 直接影响 着系统对噪声的鲁棒性。 在实际需求的 推动下, 早 在上个世纪的 六十年代, 语音增 强这个课题就引 起了人 们的 注 意, 此后的3 0 年间 人们一直在进行 这方面的 研究, 随着数字 信号处理理 论的 成熟, 七 十年 代曾形成一个研究高 潮, 取得了 一些基 础性研究 成果, 井使 语音增强发展成为语音数字 信号 处理的一个重要分支。 自 研究以 来语音增强的方法大致可分为四类:参数法 ( 维纳、 梳状、 卡尔曼) 、非参数 法 谱减法、自 适应滤波法) 、 统计 法 ( 如隐马 尔可 夫模型、 极大 后验概率、 最小 均方误差 等) 、小波滤波、人工神经网络等。 第 1 童绪 论 1 .2 .2 特征参数提取 不同的 特征参数的识别性能和抗噪性能有着较大的差异,是语音识别率提高的内 在因 素, 选择对噪声有较好鲁棒性的 特征参数能明显地提高系统的 抗噪性能并便于后续处理。 语 音识别和说话人识别系统中特征提取过程就是抽取保持语音最重要特征, 并消除与语音无关 信号的干扰, 其性能 对识别系统的 性能有直接影响。 因 此, 寻找具有良 好性能的 特征参数及 其提取算法是提高识别系统性能的根本途径之一p 语音识别常用的特征参数有幅度、能量、过零率、线性预测系数 ( l p c ) . l p c倒谱系 数 ( l p c c ) 、 线谱对参数 ( l s p ) 、 短时 频谱、 共振峰频率、 m e l 频率倒谱系数 ( m f c c ) 等。 目 前,抗噪性能较好的语音特征量有:基于l p c c的c m s( 倒谱均值规整) 特征参数,对 通道卷积噪声具有较好抑制作用的语音相对自 相关序列 r a s ) 的m e l 倒谱系数及差分倒谱 系数等。 语音 特征量的 种类很多, 各自 的适应环境性能有 所不同, 因 此, 可考虑将不同的 性 能参数组合,优势互补。 1 . 2 . 3 端点检测 语音信号的端点检测是数字语音处理的基础环节, 是从一段信号中确定语音的起始点及 结束点。 研究表明, 即 使在安静的环境下, 语音识别系统一半以 上的识别错误来自 于端点检 测,因此,端点 检测的正确性也是语音识别率高低的关键因素。在实际的语音识别过程中 正确地确定语音段的起始点, 不仅能使系统的处理时间减少 ( 处理的 帧数最少) , 减少计算 量, 提高系统的处理实时性, 而且能排除无声段的噪声干扰, 从而使后续的 语音识别的 性能 得以较大提高。 此外, 在语音检测中最难的是话语分割, 手工分割是一种选择, 但存在着两 个缺点: 第一是处理时间冗le , 它需要广 一 阔的听力语谱图解释。 第
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 精铝制卫生器具企业县域市场拓展与下沉战略研究报告
- 砂轮划片刀及类似手工具企业数字化转型与智慧升级战略研究报告
- 纯银带企业ESG实践与创新战略研究报告
- 互联网装修预算合同样本
- 分页、送纸器企业数字化转型与智慧升级战略研究报告
- 回转头式针梳机企业ESG实践与创新战略研究报告
- 养路机械企业ESG实践与创新战略研究报告
- 结构用直缝焊接钢管企业ESG实践与创新战略研究报告
- 劳动合同样本包括
- 分期乐借款合同样本
- 综合探究三 探寻丝绸之路(课堂运用)
- 企业重组相关税收政策培训教学课件(38张)
- midas NFX使用指南(八)
- 肝癌的防治(大众科普版本)-PPT课件
- 成都高新区小学数学五年级下册半期考试数学试卷
- 职业危害防治实施管理台账
- 2018年人教版九年级英语单词表
- 毕业设计U型管换热器设计说明书
- 苹果中国授权经销商协议
- KGW船用起重机维护使用手册
- 怎样确保骑车安全-1
评论
0/150
提交评论