




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、智能效劳机器人语音交互的设计与实现摘要随着科技的不断开展,在营业场所中智能效劳机器人渐渐走进我们的生活。同时智能效劳机器人的出现给我们的生活也带来了诸多便利。本文分析了智能效劳机器人语音交互控制的应用需求,基于微软语音应用程序接口设计开发了一套人机语音交互控制系统。详细阐述了系统的设计思想及关键步骤,重点包括语音识别、语音合成、语法规那么创立为维护等方面的内容,并就如何进一步提高识别率进行了研究。关键词智能效劳机器人;人机交互;语音识别;语音应用程序接口中图分类号:TP242 文献标识码:ADOI:10.19694/j ki.issn2095-24
2、57.2021.09.0520引言使用机器人进行效劳,不但会让营业场所添色,更能够表达现代化、科技感。目前,智能效劳机器人可以实现集自主引导、互动交流等功能为一体的一系列“类人活动,智能效劳机器人的出现,不仅节省了人力和时间本钱,还展现了当下智能时代感1-2。智能效劳机器人采用最前沿的技术与智能设备、人机交互等相互应用,可提供更快更准的个性化效劳,也为营业场所带来了全新的智能体验【3】。目前,由于技术的逐步开展和多地推广应用。现场应用对机器人的控制方式提出了新的要求,希望能够以语音命令控制机器人,并且实现与机器人的交互对话。着眼于智能效劳机器人语音交互控制的功能需求,本文以语音识别和语音合成的
3、应用开发为手段,实现了可靠快捷的机器人语音控制与交互会话。1功能概述与性能指标对机器人的交互控制是让机器人识别接收到的有效对话和语音操作指令,根据识别结果做出应答或完成指定操作4-5。利用语音识别技术正确识别操作人员发出的语音指令,再根据识别结果判断语音指令的类型。语音指令有两种类型,一种是控制指令,即让机器人完成指定的操作,如“开始充电、“停止充电、“开启超声等进而根据识别结果做出应答或执行指定的操作;正确识别到控制指令需要控制机器人完成对应操作。另外一种指令是应答指令,如“你叫什么名字、“你会做什么等,识别到这类指令后机器人需要根据事先设定好的内容应答。为适应现场应用需求,语音交互控制系统
4、应满足以下性能指标:1唤醒词的唤醒率>95%;2近场通用场景识别率>98%;3远场通用场景识别率>95%;4识别结果响应时间低于200ms。2流程设计分析机器人语音交互控制的功能需求,为实现该系统可将其分解为语音采集、语音识别、对话应答和执行操作等四个模块。2.1语音采集利用声音传感器采集交互语音信号,提供给后续环节的进行分析处理。2.2语音识别通过对采集到的语音信号进行分析处理、提取特征进行比对识别出语音内容,然后据此判定是否是合法指令及指令类型,进而控制机器人做出相应的响应。2.3对话应答识别出合法的应答指令,在应答列表中搜索相应的应答内容,然后使机器人说出应答内容以实现
5、人机对话。2.4执行操作通过语音识别确定合法的操作指令,向机器人发送指令完成相应的操作。在上述诸环节中,语音信号采集技术成熟、结构简单,完成语音传感器话筒、采集卡声卡的物理连接,开发语音采集配套程序即可进行语音采集。语音识别是整个系统中的核心局部,对话应答和执行操作都依赖语音识别的结果。对话应答要求机器人具备说话能力,通过语音合成技术将应答内容转换为会话语音。执行操作局部是向机器人发布控制命令,可直接利用机器人已有的指令控制方式。语言交互控制的处理流程如图2所示。3语音交互详细设计由前述分析可知,实现机器人语音交互控制的关键是语音识别和用于对话应答的语音合成。结合系统需求和语音技术开展状况,采
6、用基于现有语音开发包的方式实现了整个语音交互控制系统。3.1选择开发方式语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术,技术内容主要包括特征提取技术、模式匹配准那么及模型训练技术三个方面【6】。客观地讲,尽管有一些公司提供了某些语音识别的商业应用,但真正高效可靠的语音识别技术仍然是一个技术难点,相对而言抗干扰性差、对语音输入要求高【7】。目前常用的语音开发工具有微软公司的SAPI语言引擎和国内科大讯飞提供的InterReco语音识别系统。对机器人语音交互这类命令式识别而言,两者效果相当,因科大讯飞开发包本钱高而采用微软的SAPI进行语音识别开发。SAPISpe
7、echApplicationProgrammingInterface是微软语音开发包MicrosoftSpeechSDK提供的关于语音Speech处理的一套应用程序编程接口,包含了实现文字-语音识别SpeechRecognition和语音合成Text-to-Speech程序的根本函数,大大简化了语音编程的难度,降低了语音编程的工作量8。以下图所示是微软SAPI的開发架构,语音引擎通过设备驱动接口DDI层SAPI运行库通信,应用程序那么通过应用程序接口API层和SAPI交互。通过使用这些API进行语音识别和语音合成方面的开发。3.2语音识别的详细开发3.2.1SAPI工作模式用SAPI构建语音识
8、别系统可以采用两种识别模式:语音命令控制模式和语音听写模式9。采用语音命令控制模式构建的语音识别系统,适合小词汇量、孤立词、非特定人的语音识别,但是需要创立语法规那么,识别范围只能局限于语法规那么内所设计的短语或字词,适应性差但限定内容识别率高。语音听写模式构建的语音识别系统适合于大词汇、连续语音的识别,同时无须构建复杂的语法规那么,语音识别的适应性强,但识别率相对要低一些。机器人语音交互控制的指令是有限且相对固定的,因此采用识别率更高的命令控制识别模式。按照SAPI的开发流程,完成语音识别的根本配置和识别引擎初始化即可进行语音识别。3.2.2语法规那么的创立与维护语音命令识别模式的关键问题是
9、语音规那么,是对能够识别的命令库的标准化描述。SAPI的语法规那么采用XMLeXtensibleMarkupLanguage,可扩展标记语言格式。在进行识别工作之前需要编写一个语法规那么文件,其中定义了需要识别的字和短语,SDK语音识别引擎加载该语法规那么来识别用户的语音。在XML中每个实体或元素是由开始标记和结束标记所组成,在其中间夹的语句就是该实体或元素包含的文法内容。文法的内容可以是普通文字,或者是文法元素的子元素。XML标准中对于合法的文法内容的正式定义是采用多集合表达式的形式。利用这些定义,就可以精确定义文件的语法和文法中的规那么。在文法中,和中插入的是一组待识别的字或短语,而中插入
10、的是以为可选择项的可能匹配用户语音的字或短语。图4所示是机器人语音交互控制采用的局部语法规那么。其中GRAMMARLANGID="804",指明了识别对象是中文汉字,在识别过程中将调用汉语声学模型;位于和之间的是诸条识别命令。XML语法文件可根据识别命令手工编辑,当识别命令发生变化时需要同步更新并加载XML文件,语音识别引擎才能识别新的指令。因此手工编辑方式不便于更新语法,在开发过程中根据XML规那么实现了语法文件的程序化更新,采用MSXML2:IXMLDOMdocumentPtr和MSXML2:IXMLDOMElementPtr对XML文件进行编辑。3.3语音合成语音合成
11、又称文语转换,能将任意文字信息实时转化为标准流畅的语音朗读出来10。通过计算机语音合成可以在任何时候将任意文本转换成具有高自然度的语音,从而真正实现让机器“像人一样开口说话。这正是机器人语音交互应答的需求。采用微软SAPI实现语音合成的步骤与语音识别大致类似,同样包含根本设置音量和语速和引擎初始化。其中的一个关键问题是选择发音库,即让机器人以什么样的腔调说话。微软SAPI包含了中英文的发音库,但在SAPI5.4及以下版本里中文发音类型少且效果较差;可通过安装第三方的语音库增强语音合成效果,如Neospeech语音库。4提高识别率的方法按照上述流程完成了机器人语音交互控制系统的开发,经现场测试正
12、确识别率超过90%。要进一步提高语音识别率,可参加语音预处理及用户训练。特别地,本文在语法规那么设计上进行了实验研究。采用图4所示的语法形式,在语音识别时对每条指令的判断是采用整体比对,最终的识别结果是与上述列表中最为接近的选项。实验证明此种形式的语法规那么下正确识别率较高,但是虚警率偏高,即可能将某些干扰音轻易地识别为某条指令,特别是一些短的指令,如“翻开等。分析产生这种问题的原因,应该是某些干扰中含有与这些短指令类似的语音成分。为了保证识别率,这种整体指令形式的语法规那么下的比对并不是非常严格的比对,因为识别系统要容忍一定程度的输入偏差,如将“山东读成“三东也应能识别出来,毕竟用户的发音可
13、能千差万别的。因此,在上述语法规那么下一些短的指令往往被误识。为改善这一问题,设计了更为严格的比对规那么,如图5所示。在这种分段形式的语法规那么下实现了更为严格的匹配识别。实验结果也验证了这种分析,采用这种比对语法能显著地降低误识率。比照图4、5所示两种不同形式的识别语法,可以说各有所长,因此如何合理地设计语法规那么是改善语音识别效果的一个途径。5结论为增强智能效劳机器人的语音交互功能,根据应用需求设计了完整的语音交互开发流程。在此根底上基于微软语音应用程序接口SAPI,完成了一套人机语音交互控制系统。现场测试结果说明,系统的各项性能指标满足设计要求。限于语音识别技术的开展水平,机器人的语音识
14、别能力与人相比还有很大差距,仍是下一步亟须解决的问题。参考文献【1】李安琪,苏伟,吴燕.效劳机器人技术的开展J.科教导刊-电子版下旬,2021,11:261-262.【2】李强,乔克,颜红,江熙.基于人工智能技术的电力营业厅机器人设计J.智能城市,2021,424:10-11.【3】王博玮,陆中成.基于云的餐厅效劳机器人系统设计J.自动化仪表,2021,408:65-69.【4】翁剑鹏,彭军发,李金林,易向东.基于语音识别的人形机器人的设计与实现J.科技创新导报,2021,1618:138-139.【5】黎世银,任瑾,任家毅.基于语音控制的自主寻迹与避障智能小车设计J.电子世界,20215:133-134.【6】吳丽丽.孤立词语音识别算法的研究与系统仿真D.东北大学,2021
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 市场调研合同履约金协议
- 苗木交付责任协议
- 2025年重庆市中考物理模拟试卷(一)(含解析)
- 货车归还条件协议
- 脉冲灭绝设备采购协议
- 四数码显示译码器一数码显示译码器的结构和功能示意课件
- 双语列车长铁路电报RailwayTelegraphBili
- 铁路交通事故案例分析车辆运用与管理课件
- 2025年特种设备作业人员快开门式压力容器操作R1证考试题库
- 颖蒙建筑装饰材销售合同深度分析
- 尾矿库巡坝工岗位安全操作规程
- 仪表-ind560技术说明书METTLERTOLEDO未经书面许可不得翻印、修改或引用
- 岩溶和岩溶地面塌陷地质灾害课件
- 有限空间作业安全培训(饲料厂)课件
- 药物化学(全套课件)
- 耳鼻咽喉科常见疾病诊疗常规
- 五金产品通用外观检验标准
- JJG 915-2008 一氧化碳检测报警器检定规程-(高清现行)
- 电子营业执照下载确认书
- 质量管理的五大工具和七大方法
- 鱼鳔是怎样控制鱼沉浮的
评论
0/150
提交评论