版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第二讲:使用第二讲:使用TTSTTS实现语音朗读实现语音朗读主讲:蒋涵鑫语音识别技术简介语音识别技术简介语音识别和语音技术是实现人机语音通信,建立一个有听和讲能力的口语系统所必需的两项关键技术.使电脑具有类似于人一样的说话和听懂人说话的能力,是90年代信息产业的重要竞争市场.和语言识别相比,语言合成的技术相对说来要成熟一些,是该领域中近期最有希望产生突破并形成产业化的一项技术。使用语音识别技术我们可以实现很多智能化的功能,例如语音导航,自动化语音播报等,更值得一提的是在很多时候语音朗读会为我们解决文字识别的困难,为我们的阅读提高效率。在现代的语音识别技术的应用中常见的除了语音播放之外还有语音输
2、入识别搜索等,在许多手机的APP上很多公司都在搜索引擎上加入了智能语音识别技术。语音识别已经成为了程序开发历史上的又一个具有划时代意义的技术。语音识别技术的方式语音识别技术的方式语音技术方式讲可分为波形编辑合成、参数分析合成以及规则合成等三种。波形编辑合成,这种合成方式以语句、短语、词或音节为合成单元,这些单元被分别录音后直接进行数字编码,经适当的数据压缩,组成一个合成语音库.重放时,根据待输出的信息,在语料库中取出相应单元的波形数据,串接或编辑在一起,经解码还原出语音.这种合成方式,也叫录音编辑合成,合成单元越大,合成的自然度越好,系统结构简单,价格低廉,但合成语音的数码率较大,存储量也大,
3、因而合成词汇量有限。参数分析合成,这种合成方式多以音节、半音节或音素为合成单元.首先,按照语音理论,对所有合成单元的语音进行分析,提取有关语音参数,这些参数经编码后组成一个合成语音库;输出时,根据待合成的语音的信息,从语音库中取出相应的合成参数,经编辑和连接,顺序送入语音合成器.在合成器中,通过合成参数的控制,将语音波形重新还原出来。规则合成,这种合成方式通过语音学规则来产生目标语音.规则合成系统存储的是较小的语音单位(如音素、双音素、半音节或音节)的声学参数,以及由音素组成音节、再由音节组成词或句子的各种规则.当输入字母符号时,合成系统利用规则自动地将它们转换成连续的语音波形.由于语音中存在
4、协同发音效应,单独存在的元音和辅音与连续发音中的元音和辅音不同,所以,合成规则是在分析每一语音单元出现在不同环境中的协同发音效应后,归纳其规律而制定的如共振峰频率规则、时长规则、声调和语调规则等.由于语句中的轻重音,还要归纳出语音减缩规则。TTSTTS技术简介技术简介TTS是Text To Speech的缩写,即“从文本到语音”,是人机对话的一部分,让机器能够说话。它是同时运用语言学和心理学的杰出之作,在内置芯片的支持之下,通过神经网络的设计,把文字智能地转化为自然语音流。TTS技术对文本文件进行实时转换,转换时间之短可以秒计算。在其特有智能语音控制器作用下,文本输出的语音音律流畅,使得听者在
5、听取信息时感觉自然,毫无机器语音输出的冷漠与生涩感。TTS语音合成技术。即将覆盖国标一、二级汉字,具有英文接口,自动识别中、英文,支持中英文混读。所有声音采用真人普通话为标准发音,实现了120-150个汉字/分钟的快速语音合成,朗读速度达3-4个汉字/秒,使用户可以听到清晰悦耳的音质和连贯流畅的语调。现在有少部分MP3随身听具有了TTS功能。TTS是语音合成应用的一种,它将储存于电脑中的文件,如帮助文件或者网页,转换成自然语音输出。TTS不仅能帮助有视觉障碍的人阅读计算机上的信息,更能增加文本文档的可读性。现在的TTS应用包括语音驱动的邮件以及声音敏感系统,并常与声音识别程序一起使用。SDKS
6、DK简介简介软件开发工具包(外语首字母缩写:SDK、外语全称:Software Development Kit)一般都是一些软件工程师为特定的软件包、软件框架、硬件平台、操作系统等建立应用软件时的开发工具的集合。软件开发工具包广义上指辅助开发某一类软件的相关文档、范例和工具的集合。软件开发工具包是一些被软件工程师用于为特定的软件包、软件框架、硬件平台、操作系统等创建应用软件的开发工具的集合,一般而言SDK即开发Windows平台下的应用程序所使用的SDK。它可以简单的为某个程序设计语言提供应用程序接口API的一些文件,但也可能包括能与某种嵌入式系统通讯的复杂的硬件。一般的工具包括用于调试和其他
7、用途的实用工具。SDK 还经常包括示例代码、支持性的技术注解或者其他的为基本参考资料澄清疑点的支持文档。为了鼓励开发者使用其系统或者语言,许多 SDK 是免费提供的。软件工程师通常从目标系统开发者那里获得软件开发包,也可以直接从互联网下载,有时也被作为营销手段。例如,营销公司会免费提供构件SDK 以鼓励人们使用它,从而会吸引更多人由于能免费为其编程而购买其构件。使用使用SDKSDK开发的好处开发的好处SDK 的开发语言版本覆盖业务常用的几个开发语言,如C、C+、C#、Java等。文档通俗易懂,提供本地版本和在线版本两种方案。本地版本主要帮助开发者临时无法联网时查看,在线版本提供更丰富的文档内容
8、资源。接口简单,只要开发者传递几个参数就可以完成对接,开发者无需关心协议、加解密、校验 等,使用方便。有自己的开发社区,可以方便共同使用SDK的程序员进行交流SDK中提供了丰富的API函数,通过这些函数,程序员可以非常方便的实现例如调用打印机,语音播放等实用功能。一个好的sdk会让开发者用起来更简单。sdk就像一个钥匙库,开发者需要找到自己想用的那一个钥匙就行。钥匙可以理解成功能。 APIAPI简介简介API(Application Programming Interface,应用程序编程接口)是一些预先定义的函数,目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力,而又无需访
9、问源码,或理解内部工作机制的细节。API函数包含在Windows系统目录下的动态连接库文件中。Windows API是一套用来控制Windows的各个部件的外观和行为的预先定义的Windows函数。用户的每个动作都会引发一个或几个函数的运行以告诉Windows发生了什么。这在某种程度上很像Windows的天然代码。而其他的语言只是提供一种能自动而且更容易的访问API的方法。当你点击窗体上的一个按钮时,Windows会发送一个消息给窗体,VB获取这个调用并经过分析后生成一个特定事件。凡在Windows下运行的程序均可调用Windows中的APIMicorosoft Speech SDKMicor
10、osoft Speech SDK简介简介Microsoft Speech SDK提供关于语音(Speech)处理的一套应用程序编程接口SAPI(Speech Application Programming Interface)。SAPI提供了实现文字-语音转换(Text-to-Speech)和语音识别(Speech Recognition)程序的基本函数,大大简化了语音编程的难度,降低了语音编程的工作量。 (程序员只需要调用其中的函数就可以实现语音朗读了)Speech SDK的最新版本中支持了英文、日文、中文的语音引擎,并且支持英文和中文的混合朗读。使用Speech SDK你就可以轻轻松松的在
11、自己的电脑上通过语音朗读来阅读你的文本,减少眼睛的负担。注:Speech SDK和ADO一样,都属于COM组件了解了解COMCOM组件组件组件对象模型(Component Object Model,COM)对象是符合COM规范的可重用的软件组件。符合COM规范的COM对象相互之间可以很好地工作,并且可以很容易地集成到应用程序中。从应用的观点来看,一个COM对象就是一个黑箱,应用程序可以使用它来创建一项或多项任务。COM对象常常用动态链接库(Dynamic Link Libraries,DLLs)的形式来实现。与传统的DLL一样,COM对象暴露其方法,应用程序能调用这些方法来实现对象所支持的功能
12、。应用程序与COM对象的关系就像应用程序与C+对象的关系,但其中也存在一些区别。安装安装Micorosoft Speech SDKMicorosoft Speech SDK如果希望在你的程序中实现语音播放功能,那么你的电脑上必须要安装Speech SDK,这个开发包是微软公司免费为大家提供的,所以大家不用担心收费的问题。安装Speech SDK的过程如下:http:/ SDKSpeech SDK由于Speech SDK并不是C+中自带的,因此我们若是想要使用这个开发包就必须要先将这个开发包的代码引入C+程序中。Step1:引入SDK开发包,通常我们采用#include指令包含所需要的头文件,名
13、称为“sapi.h”Step2:为了能够顺利的初始化COM环境(因为Speech SDK是COM组件),因此我们还需要借助#pragma comment指令引入ole32.lib这个库文件。.lib是库文件的后缀名,和.h文件的性质差不多。Step3:正式引入实现Speech SDK的功能代码,这些代码文件存储在sapi.lib文件中。如何使用如何使用Speech SDKSpeech SDK引入Speech SDK的代码如下:#progma comment指令也属于特殊的预处理命令,是MFC中独有的,后面不带分号初始化初始化COMCOM组件组件由于Speech SDK和ADO一样,均属于由第三
14、方人员开发的COM组件,因此我们需要将程序的编程环境切换到COM环境中,通常我们会通过ole32.lib文件中的预定义函数CoInstance实现对COM编程环境的初始化。 CoInstance中间的参数被保留且必须为NULL。执行该函数后,将返回一个HRESULT类型的值。HRESULT类型是MFC编程中的常用类型,用于判断可能会发生的错误。在COM环境中,每一个函数都必须要返回一个HRESULT类型的值,指示该组件(函数)是否正确运行。初始化初始化COMCOM组件组件在COM环境中,每一个函数都会返回一个HRESULT类型的值,具体的含义如下图:注:在MFC中我们可以通过FAILED以及S
15、UCCESS函数判断HRESULT的返回码初始化初始化COMCOM组件组件初始化COM组件的程序代码如下:使用使用Speech SDKSpeech SDK在公司里如果我们需要完成一样具体的工作,那么我们就需要一个具体负责这个工作的职位,而且职位上要有人。在C+程序设计的世界里也是这样同样的道理。通常我们可以用指针来代表职位,用对象来代表驻守这个职位上的人。如果我们需要使用Speech,那么我们必须要建立一个岗位,并且为这个岗位创建一个对象。在C+中,这个岗位使用ISpVoice类进行描述。首先我们需要创建一个该类的指针。即:使用使用Speech SDKSpeech SDK接着我们需要在这个岗位
16、上安排一个上班的人,也就是一个具体的对象,在Speech SDK中,这个对象使用CoCreateInstance函数获取。CoCreateInstance函数用指定的类标识符创建一个Com对象,用指定的类标识符创建一个未初始化的对象。 函数原型如下:使用使用Speech SDKSpeech SDKRclsid参数指的是CLSID,是指windows系统对于不同的应用程序,文件类型,OLE对象,特殊文件夹以及各种系统组件分配一个唯一表示它的ID代码,用于对其身份的标示和与其他对象进行区分。Speech对象的CLSID已经预先在SDK中定义好,使用CLSID_SpVoice表示。第二个参数指向一个
17、聚合式对象的IUnknown接口,通常我们设置为NULL。第三个参数用于指定COM组件的类别,通常在不清楚类别的情况下可以设置COM组件的类别为CLSCTX_ALL第四个参数用于创建的Com对象的接口标识符,Speech组件的接口标识符为IID_ISpVoice最后一个参数用于将创建的对象通过指针的形式返回给ISpVoice对象。通常为了能够做到最大兼容我们将这个参数设置为(void *)&pVoice使用使用Speech SDKSpeech SDK获取ISpVoice的对象的代码如下:注:所有的COM函数的返回值均是HRESULT类型的,而实际上传递的对象需要通过在参数中指定指针来实现使用使用Speech SDKSpeech SDK在创建好职位,安排好人之后我们就可以通过这个人也就是IspVoice类型的指针指向的对象之后,我们就可以通过这个指针操作对象,调用其中的函数完成语音朗读功能了。实现语音功能的函数名称为Speak。代码如下: hr = pVoice-Sp
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年成都师范附属小学公开招聘员额教师7人的备考题库及答案详解1套
- 2026年安能集团第一工程局云南投资建设有限公司招聘备考题库及一套答案详解
- 2026年东方经济开发区发展控股集团有限公司招聘备考题库及参考答案详解
- 2026年咸宁市妇幼保健院人才引进备考题库及一套参考答案详解
- 2026年东胜区诃额伦社区卫生服务中心招聘西医医师1名、彩超医师1名备考题库及参考答案详解一套
- 2026年共和县东巴卫生院乡村医生招聘备考题库及一套答案详解
- 2026年中诚建川(凉山)电力有限公司公开招聘7名工作人员备考题库含答案详解
- 2026年合肥乐凯科技产业有限公司招聘备考题库及1套参考答案详解
- 2026年南方石墨有限公司招聘备考题库及参考答案详解
- 2026年上海世外教育附属松江区车墩学校教师招聘备考题库及完整答案详解1套
- 2025-2026学年人教版七年级上册道德与法治期末试卷(含答案和解析)
- 无锡公建工程质量检测有限公司2025年下半年公开招聘专业技术人员备考题库及答案详解一套
- 北京市平谷区政务服务中心综合工作人员招聘笔试备考题库及答案解析
- 2026年高级会计师面试题及答案解析
- 湖南省邵阳市2025-2026学年高二历史上学期期末模拟卷(试卷及全解全析)
- (2025版)腹膜后肿瘤诊治专家共识课件
- 安全注射标准2025
- 国开电大商业银行经营管理形考作业3参考答案
- 陈独秀早期社会建设思想的形成、渊源及启迪,东方哲学论文
- GB/T 1865-2009色漆和清漆人工气候老化和人工辐射曝露滤过的氙弧辐射
- 2023年自考高级财务会计真题和答案
评论
0/150
提交评论