硕士:基于web的salt语音识别技术应用研究终稿(完整版)资料_第1页
硕士:基于web的salt语音识别技术应用研究终稿(完整版)资料_第2页
硕士:基于web的salt语音识别技术应用研究终稿(完整版)资料_第3页
硕士:基于web的salt语音识别技术应用研究终稿(完整版)资料_第4页
硕士:基于web的salt语音识别技术应用研究终稿(完整版)资料_第5页
已阅读5页,还剩99页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

硕士:基于web的salt语音识别技术应用研究(终稿(完整版)资料(可以直接使用,可编辑优秀版资料,欢迎下载)

硕士:基于web的salt语音识别技术应用研究(终稿(完整版)资料(可以直接使用,可编辑优秀版资料,欢迎下载)学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权江苏大学可以将本学位论文的全部内容或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。保密□,在年解密后适用本授权书。本学位论文属于不保密□。学位论文作者签名: 指导教师签名:年月日 年月日独创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已注明引用的内容以外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名:日期:年月日分类号 密级UDC 编号工程硕士学位论文基于WEB的SALT语音识别技术应用研究TheApplicationandResearchofAutomaticSpeechRecognitionTechnologyBasedonSALT指导教师作者姓名申请学位级别硕士 学科(专业)论文提交日期 论文答辩日期学位授予单位和日期答辩委员会主席评阅人______________摘要长久以来,人们都渴望以一种最简单、最轻松的方式进行沟通。而随着语音识别技术的飞速发展,人与计算机之间的沟通也变得越来越简单。SALT(SpeechApplicationLanguageTags)技术是一项新兴技术,它是一种独立平台的标记语言,可以用于创建经由语音平台接入的应用系统。语音识别拥有可观的应用前景,尤其在我们生活信息化越来越加深的今天,应用于Web的语音识别技术作为一个语音识别应用的热点方向,也具有深远广阔的应用前景。该技术在进行Web开发中,可以提供一种全新的解决思路,因此“基于WEB的SALT语音识别技术应用研究”实例的实现是对这一新技术进行研究和实践的很好的学习、应用、检验、改进,甚至提高的过程。在本课题的研究中,主要完成了基于WEB具有语音识别功能并可以根据语音命令完成一定操作基本功能的语音应答平台系统的实现,需要将SALT技术应用于ASP.NET服务系统页面之中。具体工作如下:(1)研究了经典的HMM算法及其他算法,分析其算法性能的优劣。(2)本文重点集中讨论了基于SALT(SpeechApplicationLanguageTags)的语音识别应用,介绍了语音合成技术、文语转换系统的组成及其实现过程、自动语音识别技术、自动语音识别系统的组成及其实现过程,探讨基于SALT的语音识别技术在软硬件平台上的实现以及实际应用中的具体问题。(3)本文结合SALT论坛最新即将发布的SALT(语音应用语言标记)技术,提出了基于SALT的语音识别系统实现的体系结构,论述了具体的实现方案和方法,并结合中小企业实际情况,开发了一套语音识别示例系统,初步实现了基于SALT技术的语音识别系统的开发,并初步实现了基于Web的远程部署,为下一步的工作打下一个较为可靠的基础。系统开发集成环境包括:WindowsXP操作系统、Microsoft的C#、ASP.NET、ADO.NET和SALT1.1final版插件。关键词:Web,语音识别,SALT,程序设计,ASP.NET

AbstractForalongtime,peoplehaveallwishedeagerlytocommunicateinakindofsimplest,mostrelaxedway.Andwiththedevelopmentatfullspeedoftherecognitiontechnologyofthepronunciation,thecommunicationbetweenpeopleandcomputerbecomessimplerandsimpler.SALT(SpeechApplicationLanguageTags)isamarkuplanguagethattakeserviceinopen,freepatentableaccess,independentofplatform,itisusedforcreatingthenewlyapplicationsystemthatiscutoverthroughspeechplatform.AutomaticSpeechRecognition(ASR)hasconsiderableandbrightfuture,whilemoreandmoreInformationTechnologyhasbeenusedinourdailylife.Andasahotdomain,ASRbasedonSALTalsowillbepopulareverywhere.ThetechnologyinourdevelopmentoftheWeb,youcanprovideuswithabrand-newideastosolve,"theSALTWEB-basedvoicerecognitiontechnologyappliedresearch"istherealizationofourexamplesofthisnewtechnologytostudyandpracticeofgoodStudy,application,testing,improvingandevenimprovetheprocess.Inthisstudyofthesubject,IhaveprimarilyresponsibleforWEB-basedspeechrecognitionfeaturesandcanoperatewithvoicecommandstocompletecertainbasicfunctionsofthevoiceresponsesystemplatformtherealizationoftheneedtoSALTtechnologyinASP.NETpagesoftheservicesystem.Majorworkisasfollows:(1)IstudiedclassicalHMMalgorithmandotheralgorithms,analysisthemeritsofitsalgorithm.(2)WithafocusontechnologyofSALT(SpeechApplicationsLanguageTags)thatSALTforumwillpublishrecently,thisessaybringsupthetotalstructureofAutomaticSpeechRecognition(ASR)systembasedonSALT,andexpoundsthetheoryschemeandmethodsofrealization.AnAutomaticSpeechRecognition(ASR)examplesystemhasbeendevelopedbasedontheactualcircumstancesatsmall-andmedium-sizedenterprises,whichhasprovidedasetofsoftwareforsmall-andmedium-sizedenterprisesthatconformstopracticeandsuitsthedemandincustomerservice.TheessayachievestheASRdevelopmentbasedonSALT,andfinishedthelong-distancearrangement,bringsareliablebaseforthecomingworkinthenextround.(3)Thissystemenvironmentinclude:OperatorSystemofWindowsXPandthedevelopmenttoolsoftheMicrosoftVisualC#.NET,ASP.NET,ADO.NET,andsoon.TheversionofSALT1.1finalisthesubjectivesoftwaretoolwhichisusedtodevelopthespeechinterfaceofthewebsystem.KEYWORD:Web,SpeechRecognize,SALT,Programming,ASP.NET

目录TOC\o"1-3"\h\z第一章绪论 11.1研究背景 11.2研究现状 21.3研究内容 41.4全文的组织安排 5第2章语音识别技术 62.1语音识别的原理 62.2语音识别的基本算法 9概述 9模型的结构 12前向和后向算法 14算法 15算法 162.3Internet中语音识别的应用 172.4本章小结 18第3章基于WEBSALT语音识别 193.1SALT技术 19技术知识分析 19技术的优越性 223.2基于WEBSALT语音识别的体系结构 23体系结构 23开发流程 253.3基于WebSalt语音识别的算法分析 273.4本章小结 29第四章基于WEBSALT语音识别系统的设计与实现 304.1系统功能分析 304.2系统总体模块划分 304.3使用技术及方法 31面向对象的技术 31并行工程设计 32采用VS.NET平台及B/S结构技术 32系统开发环境及运行环境的选择 33开发平台和Web服务 33开发工具和语言 34运行环境 354.4系统接口设计 35用户界面设计 35接口应用设计 364.5系统实现 36设计模式的应用 36应用程序的详细设计 37语音识别系统语法(Grammer)设计 39语音识别系统的功能设计 404.6系统运行及特点 414.7运行测试评价 42测试环境 42运行测试 42测试结果分析 45测试结论 464.8本章小结 47第五章总论和展望 485.1结论 485.2进一步研究工作 495.3本章小结 49参考文献 50致谢 54第一章绪论1.1研究背景在现代社会中,人们逐渐习惯借助计算机来完成各项事务。在这种形势下,如何让计算机智能化地与人通信,使人机交互更加自然方便成为现代计算机科学的一个重要的研究课题。语音是人际交流的最习惯、最自然的方式,它将成为人机交互方式的理想选择。让机器能听会说,是人类由来已久的理想。语音技术主要包括语音合成技术和语音识别技术。语音合成技术解决机器说的问题,语音识别技术解决机器听的问题。设计和开发的应用实例或系统是语音技术商业化、社会化的重要手段,语音技术的应用在当今社会有着重要的意义。首先政府开通的咨询热线、咨询服务业对于语音技术的应用期待己久。语音识别技术和语音合成技术,再加上数据库共同组成咨询服务业务的解决方案。呼叫中心必须迅速地走上机器智能应答和记录的道路,否则,呼叫中心只能变成为一个美丽而不实际的神话,24小时的热线服务,不均匀的问讯量峰谷,日益增高的工资成本,坐席人员的培训与流失,很快就会使政府、企业不堪其负。机器的语音应答,白动的问讯和需求记录,将大幅度降低呼叫中心的投资及其运转成本,将会受到各级政府、广大中小企业的欢迎。其次,语音自然交互更具有其它信息终端不具备的优势,利用自然语音交互技术,用户不再需要一项一项的填写Web的Form表单,不再需要痛苦的在小小的键盘上换着数字输入名字和E-mail地址。基于关键字捕捉和自然语言处理技术,用户进入个人界面后可以轻松的说一句:“旅游信息,杭州”,相应地计算机回应“杭州”的有关信息,一切轻松自然而又随意。再次,国际上衡量一个国家的咨询服务业发展程度有一个参考值,即信息咨询产值与电子产品工业产值的比率,这个比值在欧美日的平均水平是1:1强,而中国的这个比值是不到9%,香港、新加坡的平均水平是中国大陆的4倍左右。最后,广阔的市场前景。美国的著名咨询企业安达信公司曾报告指出,按照中国的市场化发展速度看,到2021年中国的信息咨询业将达到100亿美元,即1000亿人民币左右的规模。这还不包括各级政府、大中小企业自建的咨询服务热线,中国互联网中心也预计语音产品及其咨询业规模将达到1300亿元。1.2研究现状语音识别(AutomaticSpeechRecognition,ASR)的研究工作起始于上个世纪50年代,1952年贝尔实验室的Davis,Biddulph和Balashek建立了一个与说话人有关的孤立英文数字语音识别系统[1,3]。在说话人和麦克风距离保持不变的情况下,该系统正确识别率达到了98%。1959年,美国Lincoln实验室的Rorgie和Forgie[3]首次采用数字计算机识别英文的元音和以摩擦音开头的孤立字,这标志着计算机语音识别时代的开始。60年代末70年代初,一系列里程碑似的基础性突破为语音识别的发展奠定了基础。在语音学方面,瑞典通信工程师Fant发表了著名的博士论文《语音产生的声学理论》。在信号处理方面,线性预测编码(LinearPredictionCoding,LPC)技术在70年代被日本学者Itakura[5]成功地应用于语音识别,使语音信号的特征提取有了一次飞跃。前苏联科学家Vintsyuk60年代将动态规划应用于模式识别,成为语音识别方法的重要基础。日本学者Sakoe和Chiba[6]提出了动态时间归整(DynamicTimeWarpingDTW)技术用来解决语音识别中不等长语音的对整问题。语音信号线性预测编码技术和动态时间归整技术,结合模板匹配原理,有效地解决了特定人、小词汇表的孤立词语音识别问题。美国于70年代实施了美国国防高级研究项目计划(USDefenceAdvancedResearchProgramAgency,DARPR),对语音识别研究给予很大支持,DARPA采用有多个说话人发音的1000词的语料库,作为参加DARPR计划的大学和公司研发的语音识别系统的性能评估语料库。80年代以后,语音识别的任务开始由特定人孤立词语音识别转向非特定人、中等词汇量的连续语音识别,识别的方法也逐渐从模板匹配方法转变到统计模型方法。以隐马尔可夫模型典型代表的统计方法,由于其在参数、结构和训练方法的选择上有很大的灵活性,逐渐成为语音识别技术的主流。HMM的理论基础在1970年前后由Baum等人建立起来,随后由CMU的Baker和IBM的Jelinek等人应用于语音识别之中,HMM模型的广泛应用归功于AT&TBell实验室Rabiner等科学家的努力,他们把原本艰涩的HMM纯数学模型工程化,使世界各国从事语音处理的的研究者所了解和熟悉,进而成为公认的一个研究热点。人工神经网络(ANN)[7,8]在语音识别中的应用研究的也在这一时期兴起。在此期间,美国国防部的DARPA计划对语音识别研究起了巨大的推动作用,当时DARPA的相应评估语料库为100个带不同方言的说话者、词汇量为一千的ResourceManagement(RM)语料库,参加DARPA计划评测的各研究机构都推出了各种识别系统,如Carnegie-Mellon大学用VQ/HMM的方法实现了SPHINX系统,这是第一个高性能的非特定人、大词汇量连续语音识别系统。Bell实验室以Rabiner为首的小组对英语数字串识别作了大量的研究,成为小词表语音识别的典范。90年代语音识别转向大规模、非特定人自然语言的识别。1993年,DARPA采用华尔街杂志语料库(WallStreetJournalCorpus)[9]进行语音识别系统评估,该语料库包含两万个词汇。另外还有Switchboard语料库,它是个含有2.6万个词汇的自然交谈语音数据库。1998年,DARPR用广播新闻语料作评估,这些语料来自英语电台和电视新闻节目录音,背景噪声、说话人口音和失真等情况复杂,因此识别难度大。其中低噪声部分评测结果剑桥大学的HTK[10,11]系统正确识别率最高,字错误率为7.8%,自然发音部分法国国家实验室的LIMSI正确识别率最高,字错误率为14.4%。美国国家标准和技术协会(NationalInstituteofStandardsandTechnology,NIST)最近的语音识别系统评测是2001年的交谈语音识别,共有8个语音识别系统参加评测,其中剑桥大学的HTK系统正确识别率最高,三个测试集的字错误率分别为19.8%,24.5%,29.2%。这次评测还有中文系统的评比,评测语料库为20个Callhome语料库的对话,只有BBN公司参加,字错误率为49.9%,而BBN公司系统的英文识别率测试为第三名,可见汉语识别难度比英文识别难度大得多。目前语音识别已经达到了一个相对高的水平,在稳健语音识别、自适应等方面也取得了丰硕的成果,正在从试验室研究中走出来,进入了一个实用化的阶段。语音识别研究水平的最重要的标志之一是非特定人大词汇量连续语音识别的性能[12]。目前对于理想环境下的语音数据,英国Cambridge大学的HTK系统的误识率已达到5%以下:对于广播语音,Cambridge大学的HTK系统正确误识率达到16.2%;而对于大词汇量的语音的识别,美国Carneigie-Mellon大学的系统词误识率为45.1%。这些系统代表着目前语音识别的最高水平。小词汇表语音系统也具有广泛的应用价值,英语数字语音识别的串识别率己达到99%以上;而具有高混淆度的英语字母的识别率也达到了97%以上。互联网和移动通讯技术的成熟给语音识别技术的发展和应用带来新的契机。IBM,Lucent,Motorola和AT&T四家公司于2000年用于语音浏览Internet的标记语言VoiceXML,现己被W3C组织接受为国际工业标准,在这个标准确立之后,许多厂家相继推出语音门户网站[13,14]。这样人们就可以通过来上网,利用语音来代替键盘输入。国内的语音识别研究开始于七十年代,从1987年起国家863智能计算机主题专家组为语音识别立项,经过二十余年的发展,汉语语音识别也获得了丰富的成果。越来越多的大学、科研院所加入到语音识别的研究中,比较著名的有清华大学电子工程系、计算机系、中科院自动化所、中科院声学所、北京航空航天大学、北京邮电大学、西部工业大学、哈尔滨工业大学、复旦大学等等。1998年的863测试评比中,清华大学电子工程系以王作英教授为首的课题组完成的汉语连续语音识别系统的字识别率达到90%以上,代表了目前国内的先进水平,在汉语小词表语音识别及应用方面,清华大学电子工程系以刘润生教授为首的课题组已推出了基于非特定人汉语数码语音识别的语音拨号机,并在从事语音识别专用芯片的设计研究[17,18]。现在,不依赖对象、大词汇量、连续语音识别的已经成为研究重点和热点,人们已经向语音识别领域中最难的课题发起了挑战。语音识别的终极目标就是同时解决语音识别中的这些难点。语音识别有多种任务,在语音打字这一类任务中,要求识别器正确无误地将口述语一言逐词逐句地转换为书面文字。在问讯、查询和控制系统中,需要对用户的要求做出正确相应、而用户在说话中常常带有嗯、啊等语气词和一些不必要的添加话语,这时语音识别系统只需识别其中关键的词条即可,这称为关键词确认技术,其中多余的废话被弃不用,更深一层则需要了解话语的语义信息,这不但对于进一步处理是必要的,而且对改善语音识别效果也是很有用的。语音的识别效果与说话时背景噪声的强度以及说话者讲话的清楚程度密切相关。当识别器在安静的环境中工作时可以得到较好的效果,但是有的环境中存在强噪声(例如汽车、飞机、工厂等)或者存在多人同时说话的嘈杂环境,识别器必须也能适应这种情况。说话者的语音质量取决于本人口齿是否清楚,也取决于是否采取合作的态度,这往往不是识别器所能控制的。1.3研究内容

由于SALT技术是一项新推出的技术,并且具有广阔的应用前景,该技术在我们进行Web开发中,可以为我们提供一种全新的解决思路,因此“基于WEB的SALT语音识别技术应用研究”实例的实现是我们对这一新技术进行研究和实践的很好的学习、应用、检验、改进,甚至提高的过程。本课题主要研究基于WEB具有语音识别功能并可以根据语音命令完成一定操作基本功能的语音应答平台系统的实现,需要将SALT技术应用于ASP.NET服务系统页面之中。此外,在理论分析、方案设计的基础上,利用SALT技术的特点以及与现有成熟的HTML,XHTML技术的融合性,提供给后续工作深入时可以利用的可扩展性,未来可以开发适用于中小企业的一套基于SALT的IVR系统,此种系统主要完成语音导航、信息咨询、信息查询、服务、服务、短信服务、E-mail服务、系统维护和统计报表等功能。1.4全文的组织安排根据研究的内容,本论文共分为六章:第一章绪论:阐述课题的研究背景和意义、国内外研究现状以及本论文所要从事的工作第二章语音识别技术:介绍语音识别的关键技术和算法,特别是近年来采用哪的识别算法,这些算法原理及各自的优点和缺点的分析第三章基于WEBSALT语音识别:介绍SALT技术,基于WEBSALT语音识别的体系结构和语音识别算法分析第四章基于WEBSALT语音识别系统的设计与实现

第五章总结与展望

第2章语音识别技术在研究和分析各种语音信号处理技术之前,必须了解有关语音识别的一些基本算法。为了对语音信号进行数字处理,我们需要建立一个能够精确描述语音产生过程和语音特征的基本算法,然后根据语音识别的算法建立一个既实用又便于分析的语音信号模型。2.1语音识别的原理语音识别系统本质上属于模式识别的范畴。根据模式识别的原理,未知语音的模式与己知语音的参考模式逐一进行比较和分析,最佳匹配的参考模式被作为识别的结果[19]。图2-1就是根据模式识别匹配原理所构成的语音识别系统的一个原理框图:SKIPIF1<0图2.1语音识别系统的原理框图未知(待识别)语音经过话筒变换成电信号(即图中语音信号)后加在识别系统的输入端,首先要经过预处理,预处理包括反混叠失真滤波、预加重和端点检测。经过预处理后,语音信号的特征被提取出来。常用的特征包括:短时平均能量或幅度、短时平均过零率、短时自相关函数、线性预测系数、倒谱、共振峰等。根据实际需要选择语音特征参数,这些特征参数的时间序列便构成了待识别语音的模式,将其与已经存储在计算机内的参考模式逐一进行比较(模式匹配),获得最佳匹配(由判决规则确定)的参考模式便是识别结果。参考模式是在系统使用前获得并存储起来的,为此,要输入一系列已知语音信号,提取它们的特征作为参考模式,这一过程称为训练过程。显然,最佳匹配结果的获得与特征的选择、语音模型的好坏、模板是否准确都有直接的关系,这也是目前语音识别过程中的一个难点。语音信号分析大致可以分为时域分析和频域分析[25,27]。时域分析的运算简单,物理意义明确,但效果不佳,频域分析虽然运算较为复杂,但是它对语音信号能够更有效的处理,所以大部分语音分析都以频域分析为主。在说话过程中,声道的形状是不断发生变化的,所以语音信号在总体上是一种非平稳过程。但由于声道的变化是相对缓慢的,我们可以认为它在短时间内不发生变化,所以我们又可以认为语音信号在短时间内是平稳的随机信号。由此就产生了许多语音信号的短时分析和处理方法。语音信号分析又可以分为参数分析和非参数分析。参数分析法根据语音信号产生的模型(如声管模型、共振峰模型等等)的理论,来分析和提取表征这些模型的特征参数,而把不用模型化方法进行分析的方法都称之为非参数法。非参数分析法包括时域分析法、频域分析法和同态分析法。倒谱参数是对语音信号进行同态分析的结果。SKIPIF1<0图2.2语音信息的编码和解码在语音识别系统中,通常假定语音是一种经过编码的信息流,如图2-2所示。在对语音信号作分析和处理之前,必须先进行信号的预处理,它应包括电压放大、增益控制、反混淆滤波、模数变换、预加重等。在需要语音输出的场合,还要进行数模变换和起平滑作用的模拟低通滤波器。具有良好的频谱特性的传声器是保证语音输入质量的基础。反混淆滤波器通常是带通滤波器,采用带通滤波器而不用低通滤波器的原因是为了排除工频干扰(50HZ或60HZ),而带通滤波器的高端截止频率由采样频率决定。根据采样定理,采样频率为f时,不引起混淆的信号最高频率不得超过f/2,这也就是带通滤波器的高端截止频率[20,21,21]。作为预处理的另一部分是在A/D变换后加一个6dB/倍频程的提升高频特性的预加重数字滤波器。语音信号的平均功率谱受声门激励(12dB/倍频程跌落)和口鼻辐射(6dB/倍频程上升)的影响,总效果大约在200Hz到5000Hz按6dB/倍频程跌落。预加重的目的就是要提升高频部分,使语音信号的频谱变得平坦,以抵消浊音语音中由于声门波引起的频谱幅度下跌,便于以后进行的频域分析或声道参数分析。预加重数字滤波器一般是一阶FIR滤波器。语音信号本身的各种特点决定了语音识别的复杂性和艰巨性。这些特点包括语音的差异性,动态性,以及发音的连贯性等。语音的差异性可分为好多种。有生理因素的作用,如声道长度、鼻腔形状等。对同一个字,男性与女性、成人与儿童的发音就不相同;有环境因素的作用,如传感器的位置和特性;也有社会因素的作用,如各地域的方言和语言习惯等;另外还受说话人心情的影响,一个人在喜怒哀乐不同情绪下,对同一个字的发音也会有所不同。此外,语言学因素的影响亦会造成发音的变化。比如语言的上下文不同,造成的连续说话时的协同发音现象[23,24]。语音的动态性就是语音信号的非平稳随机性,语音信息除了由音段和超音段两种形式表征外,语音信号随时间变化的动态特性也携带了大量的区分信息。对于许多音位来说,其动态变化对语音感知的作用比静态部分更为重要。特别是辅音音位,构成辅音音位的特点是阻碍和动态,任何稳定的孤立的分析都不能描述辅音的全貌,而语音中的短时爆发音素(5ms左右)常常在分帧分析时又的不到足够的体现。发音的连贯性是指在连续发音中,从一个音位过渡到下一个音位时是连续的、平滑的,它们之间是模糊的,没有明显的分界线,从一个字结束到下一个字开始也没有明显的停顿。这必然造成音与音,字与字,词与词之间的分割困难。例如协同发音引起的参数会增加很多麻烦。因此,连续语音识别系统同孤立音节识别系统所面对的是截然不同的情况,它所要处理的问题要复杂得多,所遇到的困难也要大得多。由此可见,语音识别是一项非常艰巨的任务,要想达到最终的目标,实现真正的人机对话,还有以下几个方面的难题需要解决。首先,一个实用的语音识别系统应具有良好的抗噪性、可移植性和适应性,即可以适用于不同的噪声环境,易于移植以适用不同的应用,并能对外界变化自适应(新的话者、环境、麦克风等等)。其次,现有的系统大都采用统计语言模型,但人是通过理解而听懂的,况且遇到词表外的词汇时,系统也应能正确识别。另外,一个好的语音识别系统应能够接受自然的语音输入,并且应能利用韵律信息来提高识别率。人们说话的语调、声调、重音、节奏,乃至情感,都能表达不同的意思。这方面的工作还有很多要做,许多问题现在尚无答案。此外,人们对字和音索的感知还需要能反映发音器官运动的特征,通常这类特征是动态的。如何描述这种动态,并将它同现有的特征参数结合到识别系统中,仍是一个没有解决的问题。以上所说的各种对语音信号有影响的因素,主要是在声学特性方面,而在语言模型和语言理解方面,语音识别就面临着更大的挑战。人们对于自身如何听懂别人说话的过程,尤其是对大脑对于语言理解的过程知之甚少。虽然人工智能对于大脑智能的某些方面有了较好地描述,但实际上最近几十年在语言理解方面,人工智能并没有突破性的进展。语音识别开始是应用人工智能中基于规则的、受限文法的语言模型,但其不能适应语言中干变万化的表达形式,而没有被人们广泛采用。取而代之的是基于统计的语言模型,并取得了较好的效果。但是很显然基于统计的方法同样不能很好地描述语言的行为规律,它只是人们在找不到更好的解决方法之前的权宜之计,它所能带来的最好性能远远不能满足人们的需要。所以在某种程度上可以说,目前影响语音识别发展最主要的瓶颈不在声学模型,而在语言模型。而且一旦在这一方面出现重大突破,那么与此相关的语义理解、机器翻译等领域都会有突飞猛进的发展。2.2语音识别的基本算法概述隐马尔可夫模型[25,26](HiddenMarkovModels,简称HMM)作为语音依赖的一种统计模型,今天正在语音处理各个领域中获得广泛的应用。自从1980年Baum和Babiner既等人提出HMM方法以来的20多年时间里,人们对HMM用于语音识别的研究从没有停止过,并使HMM得到了很大的发展,如提出了半连续密度HMM模型、连续密度HMM模型以及训练和识别时使用的各种准则。由于HMM有一个有效的学习算法及解码算法,今天,HMM方法是语音识别中最有效、应用最为广泛的方法,HMM的一些传统缺点也通过不断的改进得以克服,这方面的成功是显著的。最早用在语音识别中的声学匹配算法[27]是基于传统模式识别理论的模板匹配法,如规则匹配法、基于时域、频域二元特征的表格匹配法等。该方法在20世纪的50年代末到60年代中期十分盛行,而且各种模板匹配算法也层出不穷,但是由于语音信号的随机性很大,即使同一个人在同一语境中发的同—个音,在不同时刻也不可能具有相同的时长,所以利用模扳匹配法无法取得令人满意的识别结果。这正是Pierce在l969年给JASA编辑的信中(WitherSpeechRecognition)严厉批评当时语音识别技术粗劣的原因。到了20世纪70年代,Sakoe,Chiba等人首先将运筹学中的动态规划技术(DynamicProgramming)引入到语音识别中,真正解决了输入语音特征矢量序列与参考模板之间的时间对正和匹配问题。1976年,他们又对此技术进行了优化,设计实现了一个以LPC系数为特征的语音识别系统,并获得了较好的识别结果。当时Sakoe等使用的技术正是我们今天所称的DTW技术(DynamicTimeWarping)。可以说DTW技术的出现是语音识别的一个里程碑,它使语音识别技术空前活跃起来。同一时期,其它技术也纷至沓来,为语音识别注入了活力。同时,矢量量化技术也在语音识别中得到了广泛的应用,如有限状态矢量量化FSVQ(FiniteStateVectorQuantization)[28],自适应矢量量化AVQ(AdaptationVQ)[29],矢量预测量化VPQ(VectorPedictionQuantization)[30]等。20世纪60年代末和70年代初,Baum和他的同事在Markov模型理论方面做了相当多的工作,为基于HMM的语音识别方法奠定了基础。70年代,Baker,Jelinek等人首先将基于HMM的统计方法用于语音识别中,其中Bakrt利用HMM来描述声学序列,而Jelinek用它来描述语言序列。HMM在语音识别中的应用可以说开创了语音识别技术发展中的第二个里程碑。但在当时,HMM技术并不被大多数人所理解,其主要原因是:①最早的有关HMM的文章主要刊登在一些数学期刊中,而从事语音识别的工程人员很少阅读这些期刊;②在当时,缺乏全面介绍HMM技术的综述性文章。直到20世纪80年代,Rabiner的一篇“ATutorialonHiddenMarkovModelsandSelectedApplicationinSpeechRecognition”才使众多的语音识别研究人员真正理解了HMM的内涵。从20世纪80年代中期至现在,在短短的20年中,HMM无论是从理论上还是从技术上,都取得了重大进步,并成了语音识别的主流算法。X.Huang提出了半连续HMM模型(SCHMM)[31,32,33],B.Juang,L.Rabinar等在保正训练过程收敛的条件下,将连续密度HMM中密度函数的约束由对数凹(LogarithmicConcavity)扩展到椭圆对称(EllipticalSymmetry),并提出了基于高斯混合密度的HMM模型,扩充了密度函数选择的自由度。P.Brown等在深入分析了基于最大似然准则(MaximumLiklihood)训练HMM模型参数理论上的不足后,提出了基于最大互信息准则(MaximumMutualInformation)的新的训练算法。与此同时,许多学者从不同角度还提出了另外一些新的训练算法,如最小区分信息准则[34](MinimumDiscriminativeInformation)、最小误识率准则(MEE)[35]、最大后验概率准则(MaximumAPosterior)[36]等。近十年是语音识别研究员活跃的十年,新的方法层出不穷。值得一提的是人工神经网络(ANN)在语音识别中的应用。1986年,Meclelland和Elman等在TRACE系统中率先实现了利用ANN来对相邻语音段相关信息的描述。1987年,LiPPmann等人对六种不同结构的ANN在语音识别中的应用进行了分析,探索了用ANN解决语音模板分类的机制和特点[23]。为了解决语音识别中的时长问题,Waibel等提出了时延神经网络IDNN((Time-DelayNeuralNetwork),Robinson提出了循环网络RNN(RecurrentNN),Levin提出了HCNN(HiddenControlNN),Bourland提出了带有上下文信息和反馈输入的循环多层感知器等。但出入意料的是,尽管神经网络克服了HMM的许多不足,神经网络在语音识别中的应用并没有起初人们想象的那样乐观,单独使用神经网络并没有达到比HMM更好的识别结果。总之,尽管新的方法和思路不断涌现,但基于HMM的识别算法仍是当前语音识别的主流算法。隐马尔可夫模型利用概率及统计范畴的成功地解决了:如何辨识具有不同参数的短时平稳信号段,怎样跟踪它们之间的转化等问题。在进行识别时,为每一个参考模型计算出产生测试观察的概率,且测试信号(即输入信号)按最大被识别为某个单词。所以HMM对语音识别具有很重要的意义。HMM模型的结构HMM的结构主要有两种,一种是各自循环的,另一种是从左至右的,如图2.3所示,图(a)是一种各自循环的HMM结构,可以应用于说话人识别、语种辨识等场合,而图(b)和图(c)则分别是三转移和二转移的从左到右的HMM结构,语音识别系统一般都采用这种从左至右的HMM结构。图2.3HMM模型的结构类型在确定了HMM模型的结构后,一个HMM模型λ就可以用三个参数来完全描述了。它们是状态的初始分布π、状态的转移概率矩阵A和状态的输出概率矩阵B,即λ=(π,A,B)。下面是这三个参数的定义:(l)π=[π1,π2,…,πN]为初始分布,用于描述观察序列O在t=1时刻时所处状态q1属于模型中各状态的概率分布,即:πi=P(q1=Si),i=1,2,…,N(2-1)满足:SKIPIF1<0(2)A={aij|i,j=1,2,…,N}为状态转移概率矩阵,假设当前所处状态qt只与前一时刻所处状态qt-1有关,即:aij=P(qt=sj|qt-1=Si,qt-2=sk,…)=P(qt=Sj|qt-1=si)(2-2)满足:SKIPIF1<0(3)B=bj(Oi)是为观测事件输出概率矩阵,即状态j时出现观测事件Oi的概率。根据观测事件Oi的形式,可以把HMM分为两大类,也就是离散HMM(DHMM)和连续HMM(CHMM),DHMM对应的输出概率B是一个概率矩阵,而CHMM对应的输出概率B则是一个输出概率密度函数。在DHMM中,观测事件序列为符号序列,每一个观测事件是一个符号,B是一个状态概率矩阵:B={bj(k),j=1,2,…,M}(2-3)它满足SKIPIF1<0,bj(K)表示第j个状态的第K个符号的输出概率。在CHMM中,观测事件序列为矢量序列,每一个观测事件是一个矢量,B是一个概率密度函数:SKIPIF1<0(2-4)上面给出的是一个混合高斯密度函数,其中Ni表示第i个高斯密度函数分量,M表示第j个状态的高斯概率密度函数的个数,cjl表示第j个状态的第l个高斯密度函数分量的权值。高斯密度函数的形式如下:SKIPIF1<0(2-5)Oi表示观察矢量ujl表示第j个状态,第l个高斯密度函数分量的均值矢量∑jl表示表示第j个状态,第1个高斯密度函数分量的协方差矩阵上面给出了HMM模型的定义,图2.4是用HMM模型对词汇“江苏”的发音进行建模的一个例子。这里HMM模型采用了从左至右二转移的结构,用了4个马尔科夫状态来描绘“江苏”这个发音的过程,其中矢量序列O={O1,O2,O3,…OT}是对“江苏”这段语音进行分帧后求得的特征矢量序列.对“江苏”这个词进行发音的过程中,大脑首先位于状态S1(对应的是音节“jiang’中声母“j”的发音),并且在该状态持续一段时间并输出矢量序列O1,O2,O3,…On,然后跳转到状态S2(对应的是音节“jiang’’中的韵母“iang”的发音),并在该状态输出矢量序列On,On+1,…Om,然后再跳转到状态S3,重复同样的过程,直到发音完毕。可以看到,大脑发音过程中所处的状态S是隐含的,不可观测的,通过这些隐含的状态输出的语音信号特征矢量序列O则是一个可观察的序列,HMM通过这样一个双随机过程,合理地模仿了人发音的过程。图2.4用HMM模型对语音信号进行建模的例子前向和后向算法前向和后向算法用于解决HMM模型的第一个问题:给定观察序列O=O1O2…OT和HMM模型λ=(π,A,B),计算观察序列对HMM模型的输出概率p(O|λ)最直接的求取方法如下:对一个固定的状态序列Q=q1,q2,…,qT有:SKIPIF1<0(2-6)对于给定的λ,产生Q的概率为:SKIPIF1<0(2-7)上式的计算量非常大,现实中并不实用,因此需要一个高效的算法来计算,前向和后向算法就是解决问题的有效算法。(1)前向算法前向概率变量α被定义为αi(i)=P(O1,O2,…Ot,qt=θ|λ),表示已知HMM模型参数为λ的情况下,产生部分观察序列{O1,O2,…Ot},并且在时刻t处于状态θi的概率。则前向算法采用如下的递推方式求p(O|λ):初始化:α1(i)=πibi(O1),1≤i≤N递推:对于1≤t≤T-1,1≤j≤N有SKIPIF1<0(2-8)SKIPIF1<0(2-9)(2)后向算法后向概率变量β定义为βi(i)=p(Oi+1,Oi+2,…,OT,qt=θi|λ),表示已知HMM模型参数为λ的情况下,产生部分观察序列{Oi+1,Oi+2,…,OT},并且在时刻t处于状态θi的概率。则后向算法采用如下的递推方式求p(O|λ):初始化:βT(i)=1,1≤i≤N递推:对于t=T-1,T-2,…,1,1≤j≤N有SKIPIF1<0(2-10)SKIPIF1<0(2-11)前向概率变量α和后向概率变量β巧妙地将整个观察系列对HMM模型的输出概率分成两个部分观察序列的输出概率的乘积,而且它们各自都有相应的递推公式,可以大大简化计算。经过分析,可以得到下面的输出概率计算公式:SKIPIF1<0(2-12)前向概率变量a和后向概率变量声在HMM算法中应用非常普遍,Viterbi算法Viterbi算法用于解决HMM模型的第二个问题:给定观察序列O=O1O2…OT和HMM模型λ=(π,A,B),找出产生该序列的最佳状态序列Q=[q1,q2,…qN]。这其实就是HMM模型中的识别问题。假设系统在时刻t处于状态I,即qt=i,而先前时刻的状态为q1,q2,…qt-1可以任意选择则可以找到一条从1到t的路径,使得产生输出序列O1O2…Ot的概率达到最大。将此概率最大值记为δt(i),有:SKIPIF1<0(2-13)则可以用如下的递推方示求取最佳状态序列Q:初始化:δt(i)=πib1(O1),1≤i≤Nψ1(i)=0递推:对于2≤t≤T,1≤j≤N,有SKIPIF1<0SKIPIF1<0(2-14)可以看到,Viterbi算法用递推的方式求取最佳状态序列,它通过求取每一步的局部最优值,得到最终的全局最优值,每一步局部最优的求取只与前一步的结果有关,这是一种基于DP动态规划的思想,能够大大减少计算量,因此用Viterbi算法计算观察序列在模型λ下的最大输出概率非常有效。Baum-Welch算法Baum-Welch算法用于解决HMM模型的第三个问题,即给定观察序列O=O1O2…OT,确定HMM模型λ=(π,A,B)的三个参数,使在该HMM模型下产生该观察序列的概率最大。为了对HMM模型的参数进行估计,人们提出了一系列的准则,如ML(MaximumLikelihood)最大似然度准则,MAP(MaximumaPosteriori)最大后验概率准则,MCE(MinimumClassificationError)最小分类误差等。Baumn-Welch算法就是基于ML准则的一种参数估计方法,在HMM识别系统中用的非常广泛。定义εt(i,j)为给定序列O和模型λ时,HMM模型在t时刻处于i状态,t+1时刻处于j状态的概率,即SKIPIF1<0(2-15)通过推导,可以得到:SKIPIF1<0(2-16)2.3Internet中语音识别的应用对于语音应用来说,以往的语音应用建立于简单、封闭的交互机制上。其数据来源基本为事先的预制录音,操作流程为简单的菜单式按键选择。随着语音识别、语音合成等新的人机交互方式的成熟应用,传统的CTI系统具备了新的交互能力。而语音浏览正是为适应这种新的交互方式和Internet应用的结合而诞生的。语音浏览使传统的简单机成为了一种功能强大且操作简单的数据访问终端,将数据和交互建立于Internet浏览结构之上,从而使机这样简单的设备可以比其它网络终端更为容易和方便的畅游Internet。随着通信的发展,人们几乎无时无处不可以使用。这极大地方便人们,同时也为语音识别带来了前所未有的挑战。影响速度的因素有:网络受带宽的限制,基本算法复杂等因素影响识别的速度。我们不得不面对比桌面识别系统复杂得多的环境因素,影响识别率的因素也很多:信噪比很低的情况(如户外用户)、很多实际环境噪声是高度非稳态的、背景环境中存在其它讲话者的话音以及用户在不自觉中发音方式的改变(Lombard效应)等等。另外,和所有的手持设备一样,语音的音质与受话器的位置变化关系密切,并严重影响语音识别的结果。语音浏览类同于Internet与客户端计算机之间的浏览机制。从而将庞大的最为普及的语音通讯网络有机的融入了丰富的Internet中,使建立于数据网络之上的应用得到了最广泛的延伸。为何语音应用技术对于互联网络、信息技术如此重要?首先,人类的自然语音通过能够被识别和理解,那么无疑是最适合的一种工具,用来提供大多数用户在互联网上所需求的信息和服务。互联网提供了各种各样的大量实用信息,但是这些信息并不是随处可得的,用户必须在家里或办公室通过电脑联网来获得这些信息。消费者对于互联网内容和信息的大量需求促使各种生产厂商设计出各种各样的产品,如PDA、等这些可随身携带又能直接与网络互联的产品。WAP蜂窝等目前是最流行也是最符合要求的典型例子。这些设备的快速发展促使通过手持设备和来访问互联网的内容是可以实现的。另外,随着移动越来越小,越来越轻便,越来越便宜,以及移动电池使用时间越来越长,其所具备的便携性远胜于电脑。而伴随移动通信技术的飞速发展,他们更具备了电脑不具备的优势,比如全球定位。用户甚至可以在开车时方便的使用移动,甚至在不久的将来使用车载,通过车载来寻找相关的信息。语音具有其无与伦比的独特优势,而且语音比键盘和阅读更具有亲切感。当然,图像和文字依然很重要,将来会出现“多模式”的设备,可以以图像和文字的方式进行,或以语音的方式进行,甚至可以混合语音和图像信息。而这正是语音应用技术带来的美好前景。同样,语音对于Internet也一样重要。首先,基于语音浏览技术的语音应用系统的开发很容易,应用语音应用技术可以轻松建立丰富、廉价和高效的Web应用及其开发工具。其次,语音应用系统很容易发布,不再需要建立一个指定的专用语音服务器,基于语音浏览机制的语音应用可以放弃Internet上的任意一个地方,而用户通过,可以像使用IE这样的浏览器一样进行查询、书签以及链接等其他Web的浏览方式。2.4本章小结本章从概念、分类以及特点等多个方面对语音识别技术进行了详细的分析,介绍语音识别的关键技术和算法,并在此基础上详细阐述了Internet语音识别技术的要求,为下一章SALT技术的引入进行了有力的铺垫。

第3章基于WEBSALT语音识别3.1SALT技术SALT(SpeechApplicationLanguageTags,语音应用语言标记)作为对通常使用的Web编程语言的扩充,SALT规范定义了一组标记并且整合了W3C(全球网联合会)和工ETF(因特网工程任务组)的现有标准。其目标使用领域是语音和多媒体Web应用程序。有了它,PC、、、PDA以及PocketPC和最新推出的TabletPC等设备都可以访问基于Web的信息、程序和服务。SALT技术知识分析SALT(语音应用语言标记)是一种能为用户与电子设备间的交互提供新方法的语音标记语言,是一种能为用户与电子设备间的交互提供新方法的语音标记语言。SALT适用于语音驱动以及所谓的“多模式”Web应用[39]──即那些将语音交互与传统界面模式混合在一起的应用。该技术能与可视及核心Web技术直接集成,并以人类所共有的语音—这种最自然、有效的用户界面来提供丰富的设备应用—包括移动、、桌面等。多模式应用比单模式应用能为终端用户提供更多的东西:比如图形用户界面(GUI)以外的语音输入等。由于今天的Web页面能托管各种可视及多媒体组件,因此具有丰富的交互前景。让我们来考虑几种情况:使用PDA(个人数字助理)时,用户一般不得不在一个微型键盘上费劲地敲击以将数据输进Web表格中,而PDA语音接口则使他们通过说话来直接将数据输进表格中。在其他的移动情况中,比如在仓库内或正在驾驶时,用户可能主要需要与他们的设备进行“不用眼睛”和/或“不用手”的交互。SALT语音接口可进行语音输入及输出来驱动应用。在桌面或家庭设置中,许多应用都可利用到语音这种额外的交互方式。SALT语音接口可为用户界面提供极大丰富的功能,比如屏幕阅读、语音网上冲浪、快速数据输入以及“指向-点击-说话”功能。有多种体系结构可以支持用户界面模式的汇集。SALT独立地运行主机标记语言,亦即语音接口可被集成到任何适合使用标记的客户机设备上。现有的Web基础设施具有同样的功能。利用SALT,Web页面脚本及其他代码可以访问及控制语音功能,且SALT可以和任何当今或将来的Web标准一起使用──包括HTML以超文本标记语言)、XHTML(可扩展超文本标记语言)、WML(无线标记语言)以及SM工以同步多媒体集成语言)等。现在,开发商不是在用语音来加强可视页面,就是在将可视界面完全移植到中。随着时间的推移,他们将发现SALT是对他们技术集合的一种自然扩展。另外,语音业务是组件式的,也就是说,语音识别和/或语音合成既可以嵌入到设备中,又可以运行于远程机器上。这使得小型设备一如移动等能利用远程服务器上的资源来运行SALT应用。而且,也可以将像语音文件及语法规则这样的大型或动态资源驻存在远程位置上。[40,41]致力于通过向诸如HTML和XHTML之类的标准,并向Web及IVR开发工具[42,43]提供扩展,以促进应用软件中的这种多模式能力和语音驱动接口。由于大批Web开发商对利用语音来创建多模式或用户界面的可能性感到非常兴奋,因此越来越多的应用将以拥有语音及多模式的承诺来提交,从而为用户提供一种最丰富而又最自然的Web交互方式[41]。商家们正在为各种平台开发具有SALT功能的浏览器,例如微软将很快为InternetExplorer,PocketInternetExplorer公布SALT插件以及SALT应用服务器。微软公司已经发布了能够无缝嵌入到该公司开发环境VisualStudio.NET中的支持SALT的语音开发工具包(SpeechApplicationSoftwareDevelopmentKit,SASDK)。SALT作为对通常使用的Web编程语言的扩充,SALT规范定义了一组标记并且整合了W3C(全球网联合会)和IETF(因特网工程任务组)的现有标准。SALT规范的目标使用领域是语音和多媒体Web应用程序。有了它,PC、、移动、PDA以及PocketPC和最新推出的TabletPC等设备都可以访问基于Web的信息、程序和服务。根据国际知名专业市场研究调查公司In-Stat/MDR日前公布的一份调查研究结果显示[44],SALT是一项技术,它允许多种模式的通讯,例如输入语音但输出却转成数据,它开启了一个新的应用与商机的世界。根据In-Stat/MDR调查,利用人类的语音,Intel的应用将更加的简便而友善,SALT将可使得语音识别(SpeechRecognition)的软件与应用,行动上网设备,与无线广播服务(WirelessSubscriberAirtime)等的市场开始成长。下面是SALT技术对美国市场的总体影响排列示意图:SKIPIF1<0图3.1SALT在美国市场的影响SALT使您可以在网络上存取任何东西,可以让移动设备使用者进行输出或是输入,这种存取没有SALT的技术是不可能达成的。通常在PDA或手提电脑上输入是很不灵便的,而一般语音入口网站的服务内容又有限,SALT采取最好的输入与输出的方法,它把两者加以结合,一起而让计算机环境变得有新的活力。SALT是一种能为用户与电子设备间的交互提供新方法的语音标记语言。SALT适用于语音驱动以及所谓的“多模式”Web应用—即那些将语音交互与传统界面模式混合在一起的应用。该技术能与可视为核心Web技术直接集成,并以人类所共有的语音—这种最自然、有效的用户界面来提供丰富的设备应用—包括移动设备、、桌面等。多模式应用比单模式应用能为终端用户提供更多的东西:比如图形用户界面(GUI)以外的语音输入等。由于今天的Web页面能托管各种可视及多媒体组件,因此SALT具有丰富的发展前景。SALT作为对通常使用的Web编程语言的扩充,SALT规范定义了一组标记并且整合了W3C(全球网联合会)和IETF(因特网工程任务组)的现有标准,其目标使用领域是语音和多媒体Web应用程序。有了它,PC、、、PDA以及PocketPC和最新推出的TabletPC等设备都可以访问基于Web的信息、程序和服务。SALT己经定义了原始的标记集合,该集合扩展了目前广为使用的WWW编程语言。因此开发人员能够使用已经习惯了的工具和技术向WWW内容和应用程序追加语音接口。在人机交互应用中,通过追加SALT标记,能够支持语音输入和输出功能。这些功能也能独立地与诸如用输入笔指着画面时输出语音等其它接口进行配合使用。SALT技术的优越性微软通过几个关键点来描述该技术的优越性:1)开放的标准SALT技术是一套典型的对HTML和XHTML进行扩展的技术,通过这种技术的应用可以对网络服务提供语音支持。2)通用平台3)节约成本对于开发周期,语音应用往往受限于开发者的熟练程度。而微软正在提供一个基于广泛适用于微软.NET技术的语音开发平台,通过微软VisualStudio.NET到语音应用的发展而产生了网络编程模式,并且在这方面投入大量的训练而不是培养6百万语音应用领域的开发者,这样可以让企业培养出大批有素质的程序开发者,因此节约了成本。另外,由于该应用是基于熟练的网络编程,所有网络开发者可以接受再训练来完成开发语音用户接口。4)应用广泛微软正在积极和ISV(独立软件开发商)合作进行基于SALT的应用开发。在接下来的几年里,在各项目应用中优先采用语音技术将会成为可能。以下为SALT技术的主要应用:端末用户可以随时随地使用基于SALT的应用,并且可以同时支持任何使用语音、文本或图像接口的设备。开发者可以在现存的HTML,XHTML,以及XML网页中无缝接入语音模块,使用他们一直熟悉的开发语言、技术以及现存工具来进行开发。商业上可以实现降低成本,也可以通过提供通用的基于Web的多种媒体交互应用来降低其复杂度。另外,可以避免有时为了对每一种应用有个性化的输出而对现有Web的资金和人力的投入,及避免重复投资。服务提供商能够提供支持更多Web服务的Web应用,同时还将增加新的商机和更好的服务带来的收入。5)扩展性利用SALT,Web页面脚本及其他代码可以访问及控制语音功能,而且SALT可以和任何当今或将来的Web标准一起使用—包括HTML(超文本标记语言)、XHTML(可扩展超文本标一记语言)、WML(无线标记语言)以及SMIL(同步多媒体集成语言)等。现在,开发商不是在用语音来加强可视页面,就是在将可视界面完全移植到中。随着时间的推移,他们将发现SALT是对他们技术集合的一种自然扩展。6)组件式语音业务是组件式的,也就是说,语音识别和/或语音合成既可以嵌入到设备中,又可以运行于远程机器上。这使得小型设备(如移动等)能利用远程服务器上的资源来运行SALT应用。而且,也可以将像语音文件及语法规则这样的大型或动态资源

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论