基于ASR和TTI技术的语音教育研究_第1页
基于ASR和TTI技术的语音教育研究_第2页
基于ASR和TTI技术的语音教育研究_第3页
基于ASR和TTI技术的语音教育研究_第4页
基于ASR和TTI技术的语音教育研究_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于ASR和TTS的语言教育系统的研究 东南大学研究生院许开维 扬州环境资源学院彭飞 摘要 本文通过对ASR与TTS技术的研究,根据扬州环境资源学院课题组的意见,提出了使用微软件公司SAPI组件,开发儿童语言教育系统的思路、方法和过程,阐述了语音识别技术应用的实用化的一种具体途径。关键字 ASR TTS SAPI语言教育计算机技术总是在朝着功能更强大、使用更方便的方向发展,应用的需求永远都是技术前进的动力。语音识别技术己经成为计算机在亿万百姓中普及的关键技术,并且必将成为信息产业的标志性技术和未来计算机的重要特征。ASR和TTS技术的出现,让人和计算机的距离更加靠近,人机接口更加自然。语音识别

2、技术在帮助儿童学习语言方面也发挥着关键性的作用,特别是儿童开始学习汉字语音时作为学习工具使用,具有明显的优势。扬州环境资源学院成立了专门课题组,对此项应用开展了研究,目的是要尝试研究开发一种适用于儿童语言学习系统的模型,为市场化与实用化的软件开发提供基础。一、ASR与TTS技术ASR,英文的全称是Automated Speech Recognition,即自动语音识别技术,它是一种将人的语音转换为文本的技术。语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得

3、满意的性能,或者说只能应用于某些特定的场合。语音识别系统的性能大致取决于以下4类因素:识别词汇表的大小和语音的复杂性、语音信号的质量、单个说话人还是多说话人和硬件。TTS,英文全称是TextToSpeech,即文语转换,又称为计算机语音合成。它的过程和ASR刚好相反,是把计算机中任意出现的文字转换成自然流畅的语音输出。一般认为,语音合成系统包括三个主要的组成部分:文本分析模块、韵律生成模块和声学模块。目前,TTS的技术已经可以达到商业化的地步。二、SAPI技术简介目前,市场上有很多比较成熟的语音ASR和TTS产品,而且大多数都支持二次开发。如微软的Speech Application SDK(

4、SASDK)、IBM的Dutty+等。微软的SAPI是作为Windows的一部分,已经被集成在Windows里面。相对于其他引擎,它的识别率也比较高,如果做过适应性调整,识别率可以达到90以上。而且它的开发包还可以免费获取,各种文档资源也很齐全,很方便做二次开发。由于SAPI是作为Windows的一个独立组件在发展,版本更新也比较快。最新的SAPI 3.1提供了基于COM的高级编程接口,应用程序通过这些接口与语音引擎打交道。SAPI将ASR和TTS功能集成在同一个语音引擎中,TTS可以将文本和文件合成为语音,ASR则是将人的声音信号转换为可读的文本或文件。三、主要设计功能和性能基于ASR与TT

5、S技术,学院课题组使用微软公司的SAPI组件进行了研发,经过积极的努力,初步设计出了一个符合儿童语言教育特点的软件。儿童能基于本软件平台,通过调节训练周期(在额定周期内完成一个语音训练动作),设定要训练的文字,方便地进行学习。此外该系统还能提供正误判断动画提示,中文/拼音/英文语音识别智能切换,自动化讲解语音合成,语音识别器选择等功能。系统平台已经基本达到设计要求,能完成语言学习的各项功能。四、系统实现通过理论上的设计分析,学院课题组初步将系统框架确定为五个部分。1.实现VC+中文语音识别功能实现的功能模块是VC+开发平台与微软语音识别引擎之间的交流沟通,因此在VC+中设计了一个语音识别结果显

6、示文本框。随后根据熟悉微软语音开发包的原理,将语音引擎通过DDI层(设备驱动接口)和SAPI(语音应用设计接口)进行交互,应用程序通过API层和SAPI通信。通过使用这些API,用户可以快速开发在语音识别或语音合成方面应用程序。用Visual Basic/C#/JScript开发,通常是使用automation技术将COM组件封装成类或对象后引用在语言体中的。综合考虑,为彻底较为深入地了解COM原理,课题组采取直接创建COM对象,调用其接口方法的形式进行开发。2.实现目标VC+后台与Flash前台+微软语音识别引擎通讯通过设计制作完全实现了语音的识别工作,随后是解决VC+与Flash通讯问题。

7、课题组在VC+平台中嵌入FLASH控件(Shockwave Flash Object),在VC+中取得并设置FLASH动画文件的路径,通过shockwaveflash.h文件,查询出在VC+环境中Flash控件与外界交换数据的方法,其原理是根据flash中是采用FScommand函数与外界进行沟通的。结合前期工作,系统便可以实现Flash控制语音识别引擎。3.实现中文/拼音/英文语音识别功能通过第二阶段的设计,系统已经完全具备开发Flash中文语音识别功能。课题线在制作后期,充分参考了微软拼音输入法的原理,将其逆转换,达到中文到拼音的转换。通过中文语音识别引擎,VC+读取对照文件,将识别到的汉

8、语对照到拼音上,进而判断正误。4.Flash调用外部文档,实现判断动画后期基本完成了软件的整体功能,核心问题已经解决。在语音训练中,最终需要的是实现动画教育,发音的正确和错误,则以flash动画的形式加以提示。设计出了动态通过读取XML文档,从而解决了其中动态加载外部flash动画。5.TTS功能的实现软件的语音识别功能已经完成,最后需要实现语音合成功能,即老师自动讲解功能。课题组在软件语音识别功能上,实现语音合成(TTS)对象,然后调用相关的接口和方法即可实现上述要求功能。至此,一个完整的语言教育系统模型开发完成。自计算机诞生以来,随着计算机性能的不断提高、体积的不断缩小、使用过程的不断简化,计算机信息技术现已渗透到几乎所有领域,在语音识别领域中的应用也取得了很大的进展。ASR和TTS作为一种诱人的新技术,如果能很好地嵌入到儿童语音教育的应用中去,必将形成一个很好的应用前景。RESEARCHOFSPEECHTEACHINGBASEDONASR & TTSAbstract:This article, through the research of ASR & TTS, provides the Method of children Speech teaching software; propose a application of the ASR.Key w

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论