




已阅读5页,还剩50页未读, 继续免费阅读
(电力电子与电力传动专业论文)基于tms320vc5402的语音处理系统的研究与设计.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
湖北工业大学硕士学位论文 a b s t r a e t s p e e c hs i g n a lp r o c e s s i n gi sas u b j e c tt os t u d yh o w t op r o d u c e ,t r a n s m i ta n do b t a i n s p e e c hi n f o r m a t i o ne f f e c t i v e l y i td e v e l o p sf a s ti nt h ef i e l d so fl n f o r m a t i o nt e c h n o l o g y , c o n c e r n i n gk n o w l e d g ei n a r e a sl i k e d i g i t a ls i g n a lp r o c e s s i n g ,l i n g u i s t i c s ,p h o n e t i c s , p h y s i c s m o d u l ei d e n t i f i c a t i o na n da r t i f i c i a li n t e l l i g e n c e i t s c o n t e n ti n c l u d e st h e s y n t h e s i sa n di d e n t i f i c a t i e no fs p e e c ha sw e l la sb r a n c h e s1 i k es p e e c h c o m p r e s s e dc o d e s p e a k e ri d e n t i f i c a t i o na n ds p e e c hc o m p r e h e n s i o n n l ee m e r g e n c eo fh i g h p o w e r e d p r o c e s s o r a n dm e m o r i z e r sa n di n c r e a s i n g l y i m p r o v e dt h e o r i e so fs p e e c h s i g n a l p r o c e s s i n g1 a yaw e l lf o u n d a t i o nf o rt h ed e v e l o p m e n to fr e s e a r c ha n da p p l i c a t i o no nt h e s p e e c hs i g n a lp r o c e s s i n g n o w a d a y s ,i td r a w sm o r ea t t e n t i o no ni t st e c h n o l o g ya n d t h e o r i e s ,a sw e l la st h ed e s i g n i n go f a p p l i c a t i o ns y s t e m t h et h e s i ss t a r t sw i t hai i t e r a t u r er e v i e wa b o u tt h ed e v e l o p m e n to fs p e e c hs i g n a l p r o c e s s i n ga n dp r o v i d e sa ne x p e c t a t i o nf o rt h ef u t u r e n e x t a na n a l y s i si sc a r r i e do u to n p r o d u c t i o nm e c h a n i s mo fs p e e c hs i g n a l ,s e t t i n gu pas i m p l ea n df e a s i b l em a t h e m a t i c m o d e lt oa n a l y z et h ep h y s i c a ls i g n i f i c a n c eo fs p e e c hc h a r a c t e r i s t i cp a r a m e t e ra n dh o w t od e t e r m i n ei t f r o mt h ea s p e c to fi t sh a r d w a r e ,ad e s i g n i n gp r o j e c to ft h es p e e c h p r o c e s s i n gs y s t e mi se s t a b l i s h e do nt h eb a s i so f t m $ 3 2 0 v c 5 4 0 2 t h ep r o j e c tf i r s tg i v e s ab r i e fi n t r o d u c t i o na b o u tt h ec o m p o s i t i o no fd s ps y s t e ma n d 吐l e nd i s p l a y si t sb a s i c f r a n a e w o r k n e x t a l le l a b o r a t i o ni sp r o v i d e df o rt h ep a r t sl i k es e l e c t i o no fc h i p ,m o d u l e o fa u d i of r e q u e n c ys w i t c h ,e x t e n d e dm e m o r i z e r , u a r td a t ac o m m u n i c a t i o na n dp o w e r v o l t a g es w i t c h t h em e t h o d so fe x t e n d i n gs y s t e ma n ds o m ed e s i g n i n gp r o j e c t sa r ea l s o d i s c u s s e d f i n a l l y , a ni n t r o d u e t i o ni sg i v e nt oo t h e ra t t a c h e de i r c u l t s t h et e c h n o l o g yo f d s pa n dc p l da r ea p p l i e di nt h ed e s i g n i n gp r o c e s sw h i l ea p t c qi sa p p l i e di nt h e c a l c u l a t i n gp r o c e s s 1 1 1t h i sc a l c u l a t i o n ,s i g n a l sa r ep r o c e s s e da n dt r a i n e dw i t hl p t e c h n o l o g y , t h a nc o d e dw i t ht h ew a yo fc o n v o l u t i o n a lc o d e t h eb a s i ct h e o r yo fc o d i n g i st of i n do u tt h el e a s t d i s t o r t i o np a t ha n dd e c o d e di nd p c md e v i c e f r o mt h ea s p e c to f s o f t w a r e t h et h e s i ss t a r t sw i t ha ni n t r o d u c t i o na b o u tc c s a n dt h e na b o u td s ps o f t w a r e d e v e l o p i n gf l o w a tl a s t ,ad e t a i l e de l a b o r a t i o ni sg i v e nr e s p e c t i v e l yt ot h ed e s i g n i n g a n da n a l y s i so f i n i t i a l i z a t i o no f d sp - c o l l e c t i o no f a u d i of r e q u e n c ya n dp a r a l l e lb o o t l o a d p r o c e d u r eo f t m $ 3 2 0 v c 5 4 0 2 t h es t u d yi nt h et h e s i st o u c h e su p o nap a r to fas p e e c hi d e n t i f i c a t i o ns y s t e m a p r o f o u n de x p l o r a t i o nh a sb e e nc o n d u c t e do nt h ea r e a sl i k ed e v e l o p m e n ta n dr e s e a r c h s t a t e m e n to fs p e e c h p r o c e s s i n g ,c a p a b i l i t yp a r a m e t e ro ft m s 3 2 0 v c 5 4 0 2c h i p k n o w l e d g ea b o u ts o f t w a r ea n dh a r d w a r e ,a sw e l la st h ed e s i g n i n ga n dd e v e l o p i n gf l o w o f d s p s y s t e m k e yw o r d s :s p e e c hs i g n a lp r o c e s s i n g ,c h a r a c t e r i s t i cp a r a m e t e r , d i g i t a ls i g n a lp r o c e s s o r , c o m p l e xp r o g r a l n m a b l el o g i cd e v i c e ( c p l d ) 湘班二棠大学 学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进行研究工作所取 得的研究成果。除文中已经标明引用的内容外,本论文不包含任何其他个人或集体已经 发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,+ 均已在文中以明确方 式标明。本声明的法律结果由本人承担。 学位论文作者签名: 日期:2 0 0 6 年5 月1 5 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权保留 并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授 权湖北工业大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采 用影印、缩印或扫描等复制手段保存和汇编本学位论文。 指导教师签名: 日期: 2 01 5 日 湖北工业大学硕士学位论文 第1 章绪论 1 1 语音信号处理的拓展与展望 语音是人类进行信息交流最直接最方便最有效的工具,语音信号是携带语言 信息的语音声波。在信息化时代,人们也期望用这种最便捷的信息交流工具和各 种信息存储、处理的设备和终端进行信息交互。语音信号处理就是研究如何能更 加有效地产生、传输和获取语音信息的学科。它涉及数字信号处理、语言学、语 音学、生理学、心理学、模式识别以及人工智能等多个学科的知识,是信息技术 学科中发展最为迅速的一个领域。语音信号处理内容非常广泛,它包含语音识别 语音合成,此外还有语音压缩编码、语音理解、说话人识别、语音增强等各个分 支,总的来说语音信号处理包含了语音信号的数字表示方法,语音信号处理的各 种方法和技术以及语音处理理论和技术在各个领域中的实际应用。 1 1 1 研究现状 1 ) 语音识别获得应用 伴随着语音识别技术的不断发展,诞生了全球首套多语种交谈式语音识别系 统e - t m k 。这是全球惟一耕j 有中英混合语言的识别系统,能听能讲普通话、广东 话和英语,还可以高度适应不同的口音,因而可以广泛适用于不同文化背景的使 用者,尤其是中国地区语言差别较大的广大用户。由于e - t a l k 可以大大提高工作 效率,降低运营成本,并为用户提供更便捷的增值服务,我们相信它必将成为电 信、证券、金融、旅游等重视客户服务的行业争相引用的电子商务应用系统,并 成为电子商务发展的新趋势为整个信息产业带来无限商机。 目前,飞利浦推出的语音识别自然会话平台s p e e c h p e a r l 和s p e e c h m a n i a 已 成功地应用于国内呼叫中心,s p e e c h p e a r l 中的每个识别引擎可提供高达2 0 万字 的超大容量词库,尤其在具有大词汇量、识别准确性和灵活性等要求的各种电信 增值服务中有着广泛的应用。 2 ) 语音合成信息服务被用户接受 语音合成技术把可视的文本信息转化为可听的声音信息,其应用的经济效益 和社会效益前景良好。尤其对汉语语音合成技术的应用而言,全球有十几亿人使 用中文,其市场需求、应用前景和经济效益等可见一斑。 湖北工业大学硕士学位论文 语音技术已逐渐在电信声讯信息服务领域智能电话查询系统中展开应用,并 迅速推广。在电话高度普及的今天,如果打电话就能查询到所需信息,无疑将给 人们的日常生活带来极大方便。汉语语音合成技术应用到声讯服务领域内,对现 有的电话查询系统将产生革命性的影响。 语音技术与互联网已成功地结合。电话i n t e r n e t 网关是一种用于实现电话网 和i n t e r n e t 网之间信息互访的系统。简而言之,就是让电话用户能够轻松地通过 电话访问i n t e r n e t 网。系统的功能主要体现在两个方面。一方面,让用户通过电 话、手机或传真机随时随地访问i n t e r n e t 上的各种信息,如新闻、电子邮件等, 大大扩展了i n t e r n e t 信息的用户群和地域范围,同时大大降低了用户参与到 i n t e r n e t 的技术难度:另一方面,能够将电话终端上信息流或控制指令发送到 i n t e r n e t 上,例如用户可以通过电话方便地发送电子邮件和类似的留言信息,不 仅具有传统的语音信箱功能,还可以将用户语音以i p 的方式廉价地发送到全球任 何一个电脑或电话终端上,大大降低了信息交流的成本。利用语音合成技术的信 息服务得到了用户的广泛接纳,给用户生活提供了极大的方便。 3 ) 面向对象的语音编码 长期以来,在通信网的发展中,解决信息传输效率是一个关键问题,极其重 要。目前科研人员已通过两个途径研究这一课题,其一是研究新的调制方法与技 术,来提高信道传输信息的比特率,指标是每赫兹带宽所传送的比特数:其二是压 缩信源编码的比特率,例如标准p c m 编码,对3 4 k h z 频带信号需用6 4 k b p s 编码 比特率传送,而压缩这一比特率显然可以提高信道传送的话路数。这对任何频率 资源有限的传输环境来蜕,无疑是极为重要的,尤其是在无线通信技术决定今后 通信发展命运的今天更显得重要。实际上,压缩语音编码比特率与话音存储、语 音识别及语音合成等技术都直接相关。 语音编码技术的进展对通信新业务的发展有极为明显的影响,例如i p 电话业 务、实时长途翻译业务、交换机的人工智能接口等。因此,国际电报电话咨询委 员会( c c i t t ) 第1 5 组提出了许多急需制订的话音编码标准建议,以推动通信网的 发展。由于v l s i 的发展,实现这一技术的代价已从在昂贵的信道中采用,发展到 一般信道中都可接受的水平,因此,编码技术日益受到重视。当前,数字移动通 信和个人通信( p c n ) 是深受人们重视的通信手段,其重要问题之一是压缩语音编码 速率,形成面向对象的语音编码技术。 数字语音编码技术从1 9 3 8 年提出p c m 开始,其编码方法已有了很大的发展, 如1 9 6 8 年提出的线性预测编码技术( l p c ) 、2 0 世纪7 0 年代末出现的隐马科夫技术 ( h m m ) 以及矢量量化( v q ) 等。 湖北工业大学硕士学位论文 当前,语音编码技术不仅受到研究部门、应用部门的重视,而且推动了标准 的制订,因为标准是工业生产的一个重要前提,对通信体制的确定有很大影响。 目前,关于低速率语音编码的算法发展较快,它可应用的范围也相当广泛,人们 将从中获得极大的效益。这些对推动各种通信标准及网络的建设都十分重要。 4 ) 口语机器翻译受到重视 口语翻译的一个重要目的就是帮助聋哑人与正常人交流,近来越来越受到人 们的重视。首先,聋哑人要戴上副特制的手套,计算机根据他打出的手语进行 识别,然后,通过语音合成系统就可以把图像信息翻译成语言信息。同时,系统 还能够完成将正常人的语言翻译成聋哑人的手语,只要将正常人说的话键入计算 机,经程序分析处理之后,翻译成有表情、有动作的三维图像,从而最终达到聋 哑人与正常人之间通过翻译机进行交流的目的。口语翻译的研究在其他很多方面 都有重要价值,如用手势控制计算机,甚至用手势导航等。 1 1 2 语音合成的最新进展 1 ) 神经网络用于训练韵律模型 由于人工神经网络具备良好的自学习和自适应能力,将其应用于语音合成系 统中的韵律模型研究具有很重要的意义。将神经网络模型与已有的文语转换系统 有机结合,可以改变传统的文语转换系统的韵律模型,具有更强的适应性和可训 练性,使合成语音的自然度得到显著提高,增加了系统的灵活性和风格的多样性。 2 ) 数据挖掘用于发现语音知识 数据挖掘作为一种在大量数据库中发现隐藏新知识的计算技术方法,通过语 音定性模型的建立,将数据分析和挖掘结果转化为逻辑规则或用可视化的形式进 行表达。因此,将数据挖掘和人机交互接口紧密地联系在一起,将对计算机语音 信号处理的研究工作产生巨大的推动力,为语音信号处理提供了一条崭新的研究 途径。 3 ) 文本一可视语音转换系统研制成功 文本一可视语音转换技术的出现是多媒体技术迅速发展的产物,也迎合了社会 发展的需求。它给人们的生活增添了新的色彩,使计算机更加人性化,人们与计 算机的交流变得更为简单。相信在不久的将来,它会在众多的技术、商业和娱乐 领域得到广泛的应用,并逐步进入我们每个人的生活。 1 1 3 拓展语音计算 1 ) 韵律研究与感知相结合 湖北工业大学硕士学位论文 韵律是语音信号的自身属性,它反映了个人说话时的语调高低和时间长短 信息,同时反映了说话人说话时的语境信息。韵律模块也是语音合成系统中的重 要组成模块,韵律参数研究的成功与否直接影响合成系统的输出。感知信息主要 体现说话人对一句话中某些部分的强调和语句重音信息,语句重音也会对系统的 合成输出产生很大的影响,因此,要想得到较好的语音合成效果,需要对韵律和 感知进行深入的研究。 2 ) 从语法、语义层面探索语音计算的理论和方法 语音计算中包含对语言语法、语义的理解,语音合成系统的输出不仅仅取决 于语音数据音质的好坏,同时在很大程度上受到所处理文本的语法及语义现象的 制约,如果没有正确的语法描述、合理地体现语义信息,就不可能产生很好的合 成效果。而获得这种相互关系只有通过对大量的语言现象进行分析总结,形成规 则描述。为了更加客观地进行描述,可以借助于人工智能领域里的数据挖掘方法, 因此,语音计算的关键技术是挖掘语法、语义和语音之间的相互关系,采用规则 描述,将这种关系结合到实际合成语音系统中,提高语音合成输出的自然度。 “1 3 ) 建设海量语音数据资源 语音计算的成功与否在很大程度上取决于语音资源的积累。目前,在比较先 进的语音处理方法中,无一例外都提到了采用基于数据的驱动方式,然而这种方 式首先就需要大量的语料数据,没有大语料,数据的驱动就无从谈起。因此,为 了尽可能地覆盖各种语言现象,需要长期积累各种语音资源,同时对于语音信号 的处理也需要大量的语音处理软件。这些都是日积月累的过程。 1 1 4 语音技术的研究方向 1 ) 连续自然语音的识别与理解 自然语音识别与理解研究的是计算机如何理解人类的语言,其目的就是让计 算机能够理解人说的话,当我们使用计算机时,只要告诉它应该做什么,它就能 按照所理解的去执行。虽然现在自然语音识别与理解的理论研究得到了进步完 善,同时,计算机的功能、容量和速度都有了很大的提高,但研究仍局限在对孤 立音节的识别与理解上。人类流- i 扬的自然发音不是孤立音节发音的简单组合,它 是在一定时间范围内输出的一种连续语流,因此,需要对连续语音进行处理。连 续语音识别与理解技术中需要解决的难点很多,对它的研究是语音技术今后的目 标之一。 2 ) 高自然度、具有表现力的合成语音 提高合成语音的自然度仍然是高性能文语转换的当务之急。就汉语语音合成 湖北工业大学硕士学位论文 来说,目前在单字和词组级上,合成语音的可懂度和自然度已基本解决,但是对 于句子乃至篇章级,其自然度问题就比较大。未来的文语转换系统的发展趋势是 采用基于语境相关的合成思想进行设计,能够将发音人的原始发音特征最大限度 地保留下来,辅助以先进的层次化语言韵律模型,通过分散统计的模型方法来涵 盖语义语音之间的内在联系,使系统能够输出具有高自然度和表现力的合成语音。 但是,在目前的合成系统中,普遍存在合成输出语音的机器味比较浓、语境的知 识层次模型研究不完善等问题。因此,获得高自然度、具有表现力的合成语音也 是今后语音技术的研究目标之一。 ”, 3 ) 语音技术与多媒体技术的结合 伴随着现代语音技术的不断发展,人类对语音信号的需要已经不仅仅停留在 可懂性和正确性上,语音合成技术的研究方向已是合成语音的美感并同时输出辅 助的视频特征,实现虚拟主持人的效果,通过将视觉效果包括人的头部建模、唇 形同步技术和表情因素等视频信息的加入,可以更好地体现语音合成系统的表现 力和感染力。因此,我们完全有理由相信,语音技术和多媒体技术的有机结合将 使合成系统展现出广阔的应用前景。 4 ) 语音技术与网络技术的结合 目前,语音技术已逐渐应用于电信的声讯信息服务领域和互联网消息收发方 面。随着电话网与互联网的融合、网络信息项目的增多和时效性要求逐步提高, 建立适合于股票交易、航班动态查询、电话自动报税等业务的语音系统成为可能, 电话用户可以通过传统的语音、传真获取互联网上无穷无尽的信息。这些业务将 彻底解决传统数字录音回放技术所无法解决的海量信息库和动态变化信息的实时 生成与存储的难题,因此,将语音技术与网络进行完美的结合具有强大的生命力。 我国语音识别的理论和应用研究起步较晚,由于汉语具有音节种类较少的特 点( 汉语是单音节语言,汉语中音节数只有4 0 0 个,加上音调才1 2 0 0 个,词是由 音节组合成) ,便于以音节识别为基础实现大词汇的语音识别,因此,进展较快 1 。 清华大学、中国科学院声学所和西安电子科技大学相继研制成功无限词汇的汉语 听写机。四达公司在9 0 年代初推出首批汉语昕写机之后,与哈尔滨工业大学合作 研制出具有自然语言理解能力的新产品。模识科技公司的p a t t e ka s r 中文语音识 别产品,面向不同计算平台和应用,具有国际先进水准。专家认为,作为我国第 一个拥有完全自主知识产权的语音识别技术产品,模识科技公司此次推出的产品 具有识别率高、对环境噪声和不同口音适应能力强、系统占用资源少等特点 ( p a t t e ka s r 对方言的识别率在9 5 以上) 。只要对现有的手机、家电、电话总机 湖北工业大学硕士学位论文 稍作改装,就可以用语音命令上网查阅资料、控制电视、接通电话分机,因此国 外一些著名的大公司纷纷加大对汉语语音识别研究的投入。 进入9 0 年代,随着多媒体时代的来临,迫切要求语音识别系统从实验室走向 实用。许多发达国家和一些公司如美国、日本、韩国以及i b m 、a p p l e 、a t t 、n t t 等著名公司都为语音识别系统的实用化丌发研究投以巨资,其中语音识别软件的 发展最为迅速。语音识别软件是语音识别理论和计算机技术相结合的产物。i b m 公 司于1 9 9 7 年开发汉语v i av o i c e 语音识别系统,次年又开发出可以识别上海话广 东话和四川话等地方口音的语音识别系统v i av o i c e 9 8 ,平均识别率可达到9 5 。该系统对新闻语音识别具有较高的精度,是目前具有代表性的汉语连续语音 识别系统。i b m 宣布,为增强网络浏览和语音电子邮件的功能,将推出其新一代语 音识别软件,可使用户通过语音,而不是使用键盘来浏览网络、切换应用程序、 执行命令,还可以进行口授邮件和文本文件等操作。m i c r o s o f t 也在语音识别研究 领域进行了投资,其丌发的w i n d o w sx p 语音识别技术,可以在包括w o r d 在内的 所有应用程序的文本信息的区域一记事本、i n t e r n e te x p l o r e r 地址栏和 o u t l o o ke x p r e s s 内使用口述输入方式来替代传统的键盘、鼠标按钮输入方式。 s p e e c hw o r k 公司的代表产品是s p e e c hw o r k6 ,利用该产品,用户可以在无服务 人员介入的情况下,用自然语言同系统进行信息交互,完成诸如旅游预约、股票 交易、银行服务、订票服务等。市场上还出现了语音识别电话、语音识别记事本 等产品,如美国v p t c 公司的v o i c eo r g a n i z e r 和法国的p a r r o t 等。 语音处理的研究取得很大的成绩,一些应用也取得突破性的进展,有很多有 关的研究成果已实现商品化生产并投放市场,取得较好的经济效益和社会效益。 一些信息科学中新出现的理论和处理方法被引入语音处理的研究中,如小波分析、 分形理论以及语音信号的非线性处理方法”1 。但是由于语音本身和应用环境的复 杂多变,语音处理系统的性能还是有很多不尽人意的地方,用它来解决实际问题 还是有很多困难,如无限词汇汉语合成中连续语流各基音轮廓的平滑过渡问题; 语音识别系统适应性差的问题,主要体现在对环境依赖性强,高噪声环境下语音 识别进展困难。 1 2 语音信号数字处理的硬件应用基础 绝大多数语音信号数字处理系统有很高的实时性要求,要对输入的语音信号 做出快速的反应,因此系统t 1 - - 在实时方式( 在线方式) 下,对系统所采用硬件 的性能要求很高,包括很高的处理速度和较大的存储容量等。随着语音处理所要 湖北工业大学硕士学位论文 完成的任务越来越多并需要得到令人满意的处理效果,语音处理算法也随之日益 复杂,它会要求语音处理器件及其辅助器件在几十个毫秒或更短的时间内处理及 存储大量的语音数据,通常会需要语音处理器的运算速度达到1 0 2 0 m i p s ( m i i i i o n i n s t r u c t i o n sp e rs e c o n d ) ,在应用中根据任务的不同要求,处理速度甚至要达 到5 0 m i p s ;而在语音识别与合成等领域中对于处理系统的内存容量往往要求达到 若干m b 。实用的实时语音信号数字处理系统通常用以下两种方式实现: 第一种是用一台计算机作为主机,插上一块或若干块数字信号处理板来构成, 后者由通用或专用的数字信号处理器芯片( d s p 芯片) 及相应的存储芯片、接口芯片 和语音信号的转换芯片组成。 第二种则由专用或通用的d s p 芯片及其它辅助芯片构成一个独立工作的系统。 前者通常称为非脱机工作系统,用于语音识别、合成、增强或模拟实验中。后者 称为脱机工作系统,用于编码、小词汇表识别与合成等场合。 通用d s p 芯片的出现及其性能价格比的迅速提高为各种实用化语音信号处理 系统的应用实现提供了硬件基础。自从1 9 8 0 年以来,d s p 芯片得到了迅猛发展, 生产d s p 芯片的公司有8 0 多家,其中以美国的t i 公司为代表,出产了一系列种 类齐全可用于不同行业的d s p 芯片,一些型号的芯片的运算速度和功能完全满足 实时语音信号处理的要求,本论文在硬件系统中采用t i 公司的t m s 3 2 0 v c 5 4 0 2 通 用d s p 处理芯片。 随着微电子集成技术的发展,很多公司相继研制出了专用的语音处理芯片。 语音处理芯片外接一些控制器,构成一个语音处理系统完成特定的语音处理任务。 如t i 公司、v o t r a x 公司、i s d 公司等生产的语音存储与再生芯片,以i s d 公司的 i s d 系列芯片为代表”。语音合成芯片有t i 公司的t m s 5 2 2 0 ,语音识别芯片有东 芝公司的t 6 6 5 8 a ,语音编码芯片有d i g i t a lv o i c es y s t e m 。i n c 推出的a m b e 一1 0 0 0 以及美国国家半导体公司生产的c m x 6 3 9 。 湖北工业大学硕士学位论文 第2 章语音处理的特征参数提取 2 1 语音信号的产生机理 语音是通过人类发音器官的生理运动产生的。人的发音器官大致分为三个部 分,肺和气管,喉,声道。肺通过正常的呼吸系统存入空气,在说话时肺部收缩, 其内因受压而排出的空气经过气管达到声带,收紧的声带在气流的冲击下发生准 周期性的张开和闭合,将空气截断成一串准周期的脉冲气流,再经过声道的音频 振荡和调制,最后由嘴唇或鼻孔辐射出去,由此便产生了一段声音信号,如图2 i 所示。这里讨论浊音产生过程”1 。浊音是由于收 紧的声带产生的准周期的空气脉冲激励声道产生的。 由声道振动产生的准周期空气脉冲的周期,即是声音 的基音周期,它决定于声带的绷紧程度、厚薄程度、 长度和呼出气柱的强弱。另外还有两种声音产生方式 形成清音或爆破音,在发这类声音时,声带处于松弛 的状态,声源相当于一个随机噪声。第一种情况是, 气流无阻碍的通过声门,经过声道时会遇到声道的某 磅鼻音 澍口音 图2 1 声音产生机理 个部位收缩形成个狭窄的通道,气流在肺部的压力一r 搋经这个獗笮嗣缝隙盯会 形成湍流,构成声源通过声道传输后辐射出去,就形成了清音或摩擦音。另一种 情况是声道的某个部位完全封闭,气流到达此处后会形成空气气压,然后封闭的 部位突然打开,空气陡然释放出去,经过声道就形成了爆破音。 声源只有三种产生方式,但由于声音可看作声道对声源激励的响应,当声道 形状发生变化时,就会对声源产生不同的响应,也就形成了我们听到的各种各样 不同的声音。因此声道形状的变化是声音产生过程中一个比较重要的环节。声道 是一个从喉到唇的横截面积呈非均匀变化的腔体,包括了口腔、咽腔和鼻腔,对 声音的形成起着决定性作用。声道在发音的过程中,其形状随着舌、唇、上腭等 器官的位置的变化而改变。它是一个谐振腔,具有放大某一频率的信号而衰减其 它频率的信号的特性。声道的形状决定了它的谐振频率。如发浊音的时候,声带 的振动,除产生基频信号外,还附带有丰富的谐波信号,当其中的某些信号的频 率达到声道的固有频率时,声道会以最大的振幅振荡,这个固有频率称为共振峰。 于是,随时间变化的声道,由于谐振共鸣的作用,会使由不同频率的信号复合而 湖北工业大学硕士学位论文 成的语音信号中的某些频率信号的能量随频率发生强弱的变化,产生了语音间的 差异,因此形成了各种不同的语音信号。 从以上对声音的产生机理的分析中,人们把语音信号看成是声道对声源激励 的一种响应最后经由嘴唇或鼻孔辐射出去而形成的。声道是一个具有谐振共鸣作 用的腔体,其频率特性和声源的特性一起决定了声音输出气流的频率特性。 其中声道的谐振特性起重要的作用。 2 2 语音信号产生的数学模型 在分析了语音产生过程后,建立一个离散时域的模型,用于以后语音信号处 理的理论研究和应用。一个简易的语音产生模型如图2 2 所示所示嗍,可以满足 大多数的研究和应用的要求。这个模型主要包括三个部分呻1 :激励源、声道模型 和辐射模型。激励源又分为浊音和清音两个分支,按浊音清音开关的位置来确定 基音频率 一 堡鳖! h 墅鳖兰卜 浊音清音开关 声道参数 攉灞h 秘l 型v ( z ) l7 l r ( z ) 图2 2 语音信号产生的数学模型 语音 信号 2 譬篇纛m 沪。 矽加 雪 湖北工业大学硕士学位论文 1 g ( z ) = 二一 ( 2 - - 2 ) 研z ” f - o 此时声道可看作一个全极点滤波器,p 为滤波器的阶数,在8 1 2 间取值,其极点 代表了声道的共振峰。 声音由口、唇或鼻辐射出去,从声道输出的是速度波,声音信号是声压波, 它们之比形成辐射阻抗,反映了口和唇的辐射效应和头部的绕射效应,对高频段 信号有一个每倍频6 分贝的衰减作用。在语音信号采样之后,处理之前,进行预 加重的处理, 月( :) = ( 1 一r z1)(2-3) 为一个高通滤波器,其中r z l 。 于是可以建立一个完整的语音信号产生的数字模型,系统的转移函数为 h ( z ) = u ( z ) y ( z ) r ( z ) ( 2 4 ) 用这个线性系统来模拟实际的声音产生过程,其参数是随时间变化的。声道 在声音的产生过程中起着重要的作用,其参数的变化对声音形成的影响最为显著。 声道外形决定了声道参数,其变化是个发音器官及肌肉生理运动的过程,相对于 声音信号波形振荡的过程而言很缓慢,因此,可以假定在个比较短的时间段里, 其参数没有变化,这个较短的时间间隔一般选择为1 0 3 0 m s ,这个假定方便了语 音信号参数的分析和提取,语音处理许多理论分析和处理都是基于这种短时平稳 的处理思想。 上述模型是用一个线性时变系统对呈非线性变化的语音产生过程的模拟,在 理论分析和应用中有一定的局限。2 0 世纪8 0 年代,t e a g e r 等人发现并认为语音信 号是由平面波部分和涡流区域的非线性部分共同组成:t h o r n s 、m c g o w a n 证实在 语音的产生过程中,存在涡流这种非线性现象;1 9 9 3 年,m a r a g o s 提出一个调频 一调幅模型( a m f mm o d u l a t i o nm o d e l ) ,从声道共振产生的角度描述语音信号的产 生过程”1 。语音信号的非线性分析成为语音信号处理研究中一个新的发展方向。 2 3 语音信号的特征分析 语音处理的过程大致可分成预处理、信号的数字化、特征参数的提取,最后 根据处理的任务选择相应的算法这四个部分。其中语音信号的特征分析及参数提 取是语音处理过程中的一个很重要的部分,属于语音信号参数表示的范畴。它主 要是根据语音产生模型的假定,对语音信号运用各种算法进行分析计算,获取激 湖北工业大学硕士学位论文 励源参数和声道模型参数,分析计算得到的参数,可用于各种基于语音产生模型 和语音参数假定的语音处理的研究和应用中。 语音信号是一个随时问变化的非平稳信号,因此在对语音信号进行分析以前, 需要对它作一个短时加窗处理,用个窗函数在语音信号上滑动,截取一段可以 处理的短时准平稳的语音信号,一段称为一帧,相邻的两帧信号允许有一定数量 的重叠。窗函数一般选汉明窗”“,窗的长度应至少能包含两个以上的基音周期。 w = f 0 5 4 。0 。4 6c o s 2 。7 r n ( n - u 1 篙如 ( 2 _ 5 ) 语音信号的时域分析,是最先用到的语音处理的一种分析方法。语音信号给 我们最初最直观的就是它时域波形。通过分析语音信号的时域波形,可以获取语 音信号时域内的特征参数。 语音信号的短时处理可以表示成一个算式”1 , q 。,= t x ( m ) w ( n 一垅) ( 2 _ 6 ) r n = 一o o t 】代表某种运算,x ( m ) 为输入信号序列,w ( n m ) 为对语音信号进行短时处理的窗 函数。t 可以为计算语音信号序列的短时能量、平均幅度、自相关函数、过零率 等的运算。 语音信号的短时能量,为该段语音采样值的平方和,如式所示 e ,= x ( m ) w ( n - m ) 2 ( 2 - - 7 ) 清音的短时能量比浊音段要小的多,因此可以判断一段语音信号是清音还是浊音 段。由于进行平方运算,结果随时间变化显著,并且计算量较大。 短时平均幅度函数,对采样信号的绝对值求和,比较接近实际的语音信号的 时变规律。 m 。,= j x ( m ) w ( n - m ) ( 2 _ 8 ) 短时平均幅度和短时能量函数,可在高信噪比环境下,确定是否有语音信号,以 及和短时过零率一起作为语音起止端点的参数。 短时过零率,即为段语音采样值改变符号的次数。 湖北工业大学硕士学位论文 z 。) = 2 二ls g n x ( m ) 一s g n x ( m 一1 ) 】1 w ( n m ) ( 2 9 ) 短时过零率反映了语音的一些频谱特性。浊音的能量主要集中在3 k h z 以下,而清 音的能量集中在较高的频率上。由式( 2 9 ) 可知,高频率的语音信号有较高的 过零率,反之,具有较低的过零率。语音信号的短时过零率与其清、浊特性有着 对应关系。 短时自相关函数定义为: r ,( ) = ( x ( m ) x ( m + 七) ) w 0 一所) ( 2 一1 0 ) 若x ( m ) 为周期信号序列,r n ( k ) 代表了输入信号序列的周期特性。因此计算一段 语音信号的短时自相关函数,其结果可以作为清、浊音的判断依据,尤其反映了 是语音信号的基频,在进行语音信号的线性预测编码分析运用杜宾算法求解预测系 数时,会用到自相关系数。在计算短时自相关函数r n ( k ) 时,为了避免r n ( k ) 随着k 的增大而逐渐衰减,将一个乘信号的长度延展为原来的两倍。也可以通过 计算短时幅度差求得白相关函数r n ( k ) 。 有了语音产生的数学模型,语音信号可看作声门激励信号和声道的冲击相应 的卷积。语音信号的倒谱分析,属于信号的同态处理的范畴,将呈卷积性质的语 音信号转换成满足叠加性的信号,用线性系统的方法和理论来处理1 。语音信号 的倒谱分析的过程如图2 3 所示。在实际处理时,用d f t 替代z 变换,其结果是 对真实倒谱的近似 1 。 蜘,恒玉越珂瓦母 幽2 3 信号同态处理过程 用m a t l a b 对一段语音信号进行算法仿真,如图2 4 所示”1 ”。所分析的这 段语音信号的短时能量为1 7 4 ,短时平均幅度为1 5 1 ,平均过零率的值为3 3 。用倒 谱或自相关函数分析的结果估计基音频率,大致为2 3 5 3 h z 。语音信号的倒谱,包 含了产生语音信号的激励源参数和声道参数,激励源参数在图形上反映为一个呈 快变化周期性的冲击脉冲,可从脉冲出现的时间估计出浊音的基音频率:而位于 第一个冲激和第二个冲激之间的缓慢变化的波形反映了声道的共振峰特性,其出 现峰值的时间对应着陔段语音信号的共振峰。 语音的信号倒谱分析是一种对语音这种卷积信号的解卷积运算,它不需要为 线性系统建立模型,为非参数解卷算法,语音信号的同态处理是完成语音信号解 卷积任务中最重要的一个环节。另种方法为参数模型解卷算法,这种算法首先 湖北工业大学硕士学位论文 倒 谱 图2 4 一段语音信号仿真处理结果 为线性系统v ( z ) 建立一个模型,然后对模型的参数按照最小均方误差准则进行 估计,就得到了线性预测编码( l p c ) 算法。线性预测编码技术是将一个语音信号 看作声道模型的输出,用声道模型参数来描述语音信号。声道模型的传递函数的 差分方程表示为 p j ( n ) = z a s o , w ) + “( n ) ( 2 1 1 ) r = l 一 上 s ( n ) = 口s ,“ ( 2 1 2 ) 降l 式( 2 - - 1 2 ) 称为预测器,用信号的前p 个样本值的加权和来预测当前的样本值,p 为预测阶数,阶数越高,预测的精度越好,但增加了计算量,一般p = 8 - 1 2 ,a 为 线性预测系数。对语音信号进行线性预测分析,除得到线性预测系数外,还可推 算出一些重要的特征参数,有反射系数,l p c 倒谱对数面积比系数等。 ?f?99。 i 占 v 。 。 0 图2 5 一段语音的l p c 系数( 】2 阶) l p c 薯 预。 测i 系 数 自相关函耄 对散谱 湖北工业大学硕士学位论文 从背景噪声中找出语音信号的开始和终止端点,这在许多语音信号处理领域 中是一个很基本很重要的问题,确定了语音信号的开始和终点,就只需处理语音 输入段,可使语音数字信号处理的数据总量减至最小。一般确定语音信号起止点 的算法基于两个参数:短时能量和过零率。在很高信噪比的声学环境中,由于最 低电平能量的语声能量也超过背景噪声能量,因此作简单的能量测量就可鉴别出 起止点,然而大多数实际情况并非如此;有些情况下,虽然发音开始时的语音能 量与背景噪声能量是可比拟的,但语音的频率却与背景噪声明显不同,因此用过 零率也可判出语音的起止点。r a b i h e r 和s a m b u r 在一个孤立单字语音识别系统中 研究了把能量和过零率表示方法结合起来确定语音起止点的算法”“。用两级判别 法,先用短时能量作第一级的端点判断,在此基础上再用短时过零率对语音起止 点作进一步的判断,在每次进行判断时采用双门限比较法。采用短时能量与短时 过零率之乘积作为参考量,此参量兼顾考虑了一些语音的高过零率、高能量,提 高了语音信号与背景噪声的分辨力,有着较好的稳定性和较高的语音噪声分辨力。 基音周期是语音信号的一个重要参数,在语音识别、压缩编码、合成等应用中都 占有重要的位置 1 6 1 。由前面对一段语音信号的分析可知,倒谱分析和自相关函数 计算的结果中都含有反映基音周期的信息,都可以作为基音周期的估计方法,自 相关函数也可通过计算短时i 嘱度差函数求得,它的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 六年级道德与法治上册 第二单元 我们是公民 4 公民的基本权利和义务教学设计1 新人教版
- 九年级物理上册 第十二章 内能与热机 12.4 热机与社会发展教学设计 (新版)粤教沪版
- 人教部编版语文八上13 唐诗五首《使之塞上》 教案+分层作业+素材
- 三年级品德与社会下册 公共场所的文明(一)教学设计 未来版
- 工程管理转岗培训课件
- 2024中国联合网络通信有限公司北京市分公司校园招聘40个岗位笔试参考题库附带答案详解
- 九年级化学下册 第八单元 金属和金属材料 课题1 金属材料第1课时 几种重要的金属教学设计(新版)新人教版
- 初中物理苏科版八年级下册第八章 力摩擦力教学设计
- 房产培训资料
- 软件工程选择题复习试题
- 三维地籍解决方案白皮书
- 住院患者VTE相关评估量表课件
- 高中物理选修二第一章《安培力与洛伦兹力》测试题(含答案解析)
- 江苏省徐州市睢宁县2023-2024学年七年级下学期期中考试数学试卷(含答案)
- GB/T 44273-2024水力发电工程运行管理规范
- 中职护理专业护理服务质量评价体系研究
- 2024年南京市中考历史试题及答案
- 小学生卫生知识健康教育精课件
- 新目标英语初三英语总复习资料讲义
- 体育馆钢结构工程马道施工方案
- 2024年全国中学生数学奥林匹克竞赛内蒙古赛区初赛试卷(解析版)
评论
0/150
提交评论