基于OCR识别信息的语音合成在WEB上的实现

上传人：x*** IP属地：江西上传时间：2021-06-07 格式：DOC 页数：14 大小：34.50KB 积分：12 举报 版权申诉

已阅读5页，还剩9页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、基于OCR识别信息的语音合成在WEB上的实现第22卷第2期V0I-22NO.2湖北工业大学JournalofHubeiUniversityofTechnology2007年O4月Apr.2007文章编号10034684(2007)02004104基于OCR识别信息的语音合成在WEB上的实现彭伟,刘幺和,谭保华.(1湖北工业大学计算机学院,湖北武汉430068;2湖北工业大学机械工程学院,湖北武汉430068;3湖北工业大学理学院,湖北武汉430068)摘要系统使用OCR设备,扫描与识别学生卡信息,并对所得信息进行软件支持和补偿.在此基础上,建立了一个基于ASP.Net的在线考试系统.通过web

2、技术与TTS技术相结合,实现了信息在不同客户端播报与提示,为外部信息转换到汉语文本进行探索,并为ATR实现语音播报打下基础.关键词光学字符识别;文语转换;语音合成;网络服务中图分类号TP318文献标识码:A近年来,ATR(AutomaticTargetRecognition)和TTVS(TexttoVisualSpeech)成为模式识别学科的研究热点1.对于ATR系统和TTVS系统来说,在图像检测,识别方面,人们基本上能找到对应算法,但如何从数据方法转换到汉语文本,从而驱动语音合成在Internet上实现却是个问题.而智能监控系统能够看到并理解物体行为,并把理解结果用自然语音的形式通过Inte

3、rnet表达出来,从而代替常规任务中人的大部分工作.为此,本文实现了一个系统,以对学生卡进行OCR识别,得到姓名,职务,地址,联系方式等一系列信息流,然后在中间件上进行软件支持与补偿,从而结合Web技术与TTs技术,在Internet不同客户端实现语音播报.1系统结构本系统采用3层结构.分别为外观层,中间层和数据层.如图1所示:外观层为WEB服务器,位于最外层,为用户提供一种交互式的界面;中间层为文语转换服务器,处理业务逻辑;数据库层为数据库服务器,实现对数据的保存和读取操作.通过OCR名片识别,得到最原始数据,再通过软件补偿的方式,解析数据格式,并将数据导入到数据库中,然后基于ASP.NET

4、,按照需求,从数据库中取得所需的数据,并通过TTS服务器进行文语转换.最后,客户通过WEBBROWSER在不同的客户端得到语音数据.客户端客户端web服务器TTS语音服务器图1系统构架数据库服务器采用的TTS服务器系北京捷通华声公司的JTTS4.0网络版.它通过TCP/IP进行网络传输和控制,为网络节点内的其他设备提供语音合成服务.后台数据库系统使用微软公司的SQLSERVER2000,通过oCR数据到SQLSERVER数据格式的转换,可以方便,快捷地对数据进行操作.OCR技术是利用OCR识别器,对扫描之后的文字,数字,符号等信息进行识别.OCR设备选择汉王公司的A8NameCardcontr

5、oller.它识别速度快,准确率高,并且能够将识别数据存储为Excel文件格式.收稿日期20061l一28基金项目湖北省教育厅重大科研项目基金(2003Z002),湖北省自然科学基金(2003ABA054),湖北省科技厅攻关项目基金(2003AA101C06).作者简介彭伟(198O一),男,河北霸县人,湖北工业大学硕士研究生,研究方向;计算机应用.一嗣42湖北工业大学2007年第2期2TTS与TTVS语音合成技术语音合成技术简称TTS,学名文语转换系统.而TTVs是把声音和文字,图像集成在一起,实现直接由文本到可视语音的转换,TTVS对视觉语音(VisualSpeech)的研究是一种综合考虑

6、声音和图像的多媒体技术.视觉语音是指人们在用语言交流时所表达出的面部表情和动作,它能在一定程度上传达人们想要表达的意思,并能帮助人们加深对语言的理解.在人机交互的过程中,如果人们面对的不是单纯的文本,而是一个会说话的人物形象,则计算机界面更为友善,方便人们与计算机的交流.系统基本框架如图2所示.文本音位-FAP转换器HFAP图2TTVS基本框架同步播放3基于XML的SSML语音合成标记置吉Hj目3.1XML语言XML(ExtensibleMarkupLanguage)是一种源标记语言.它允许根据它所提供的规则,制定各种各样的标记语言.3.2SSML以XML为基础,W3C协会提出了语音合成标注语

7、言SSMLI4.SSML的基本任务就是在不同的应用平台上为合成文本提供一个标准的控制语音输出的方法,例如发音,音量,音调,语速等参数.笔者通过使用SSML元素来控制该TTS引擎生成音频的方式.下面是重要的SSML元素.ssml:paragraph/ssml:sentence用于把文本分解成语句或段落.ssml:sayas用于指定播放文本的方式.它能够接受若干不同的属性来指定文本的类型.ssml:phoneme用于控制一个单词的发音方式.ssml:sub用于指定一个替代单词或词组来代替指定的文本.ssml:emphasis用于提高放到一单词或词组中的重音.ssml:break用于在文本的某些单词

8、间插入一些暂停.3.3S3ML语言的应用特性jTTs语音合成系统定义了S3ML(SinoVoiceSpeechSynthesisMarkupLanguage)捷通华声语音标记语言.S3ML符合基本的SSML规范,但更为详细地定义了SSML没有精确定义的部分(例如<Sayas>的具体语法),同时也支持一些针对中文语音合成的扩展.S3ML的特性如下.1)用户可以直接将一段文本或者一个文本文件合成为文件.charpszDestFile=“e:test.way”/合成一段文本charpszText一”语音合成测试串”;jTTSPlayToFile(pszText,pszDestFile.F

9、ORMAT_WAV,NULL.0.NULL.O);/合成一个文本文件charpszTextFile一”e:test.txt”;2)用户可以异步合成一段文字或者一个文本文件,缺省为同步播放.可以通过回调函数知道何时合成完毕.BOOLTTSAPICallBackProc(WORDwParam.LONGIParam.DWoRDdwUserData)if(wParam一=NOTIFYEND)/合成完毕.可以使用目标语音文件returnTRUE;)/异步合成.此函数立即退出jTTSPlayToFile(pszText,pszDestFile,FORMAT_WAV.NULL,PLAYMODEASYNC,C

10、allBackProc,O);jTTSPlayToFile(pszTextFile.pszDestFile,FORMATWAV.NULL.PLAYCONTENTTEXTFILE.NULL.O);用户可以指定合成语音数据的格式,并可以指定是否增加WAV文件头.在本文中,大量使用以上的文件合成,回调函数以及wAV语音格式,使语音合成跨国平台更容易,更简单,更准确.4软件补偿4.1系统概况系统为一个基于OCR识别与TTS的在线考试系统,由OCR信息识别录入,用户登录检验,在线随机出题,分数语音播报4个模块组成.用户的整体用例模型如图3所示.语一第22卷第2期彭伟等基于OCR识别信息的语音合成在WEB

11、上的实现43登录系统c=>数据库首先,将Excel文件中数据按照一定语法规则取出放置到内存DataSet类型变量中;再以DataSet类型变量为中介,将数据转储到MSSQLServer数据库中.这样,便完成了数据转换的软件补偿功能,方便了主模块功能的实现.用户考试系统播音员5结论图3用户用例模型图OCR识别对象为普通的学生考试证.通过让计算机自动进行分析,核对,可节省因键盘输入消耗的人力与时间l_5.学生信息最终存在MSSQLServer数据库中.学生通过登录验证,便可进行在线考试.该考试系统基于ASP.NETl_6开发.使用C#语言,实现在线考试功能;通过调用捷通公司的动态链接库,实现

12、考试成绩播报功能.其中较为重要的函数是jTTS_PlayToFile函数,它将数据库中用户信息和成绩组织成一段文本,生成wAV语音文件.这样,语音数据便可以在Internet上播报出来.4.2格式转换补偿通过OCR识别得到学生的基本信息被自动存储到一个Excel文件中去.由于文件存储方式不便于数据的复杂操作,所以,采取软件补偿的方法将所有数据移植到SQLSERVER数据库中.使用C#语言编制了一个WINDOWSFORM应用程序(图4).图4数据转换界面图1)利用软件补偿,实现数据格式转换,方便了对识别信息的操作.2)S3ML语言的应用特性,使文本到语音的转换过程由简到繁.3)OCR识别信息要能

13、够准确,流畅地在网络上进行语音播报,识别工具要有较强的识别分辨能力,JTTS服务器要有较强的并发执行和高速语音合成的能力.4)ATR信息转换到汉语语音,乃至转换到TTVS,都将成为现实.参考文献1蔡莲红,黄德智,蔡锐.现代语音技术基础与应用M.北京:清华大学出版社,2003.2NagyG.AttheFrontiersofOCRJ.Proc.IEEE,1992,80:10931100.3赵力.语音信号处理M.北京:机械工业出版社,2003.4TaylorP,IsardA.SSML:ASpeechSynthesiSMarkupLanguage.CentreforSpeechTechnologyRe

14、searchM.Edinbutgh:UniversityofEdinburgh,1997.5MantasJ.AnOverviewofCharacterRecognitionMethodologiesJ.PatternRecognition,1986,19(6):42543O.6王海峰,冯义,郭卫平,等.C#.NETWEB开发指南fM.北京:机械工业出版社,2003.BuildingLanguageSynthesisBasedonOCRInformationRecognitiononWEBPENGWei,LIUYaohe.TANBao-hua.(1SchoolofComputer,HubeiUn

15、iv.ofTechnology,Wuhan430068,China;2SchoolofMechanicalEngin.,HubeiUniv.ofTechnology,WuHan430068,China;3SchoolofScience,HubeiUniv.0fTechnologY,WuHan430068,China)Abstract:ThissystemscansandidentifiesinformationofstudentcardsbyOCRequipment,andmakes44湖北工业大学2007年第2期softwaresupportandcompensatetheobtainedi

16、nformation.Onthisbasis,anonlineexaminationsystembasedonASP.Nethasbeenestablished.BycombiningwebtechnologyandTTStechnology,informationcanbebroadcastandpromptedondifferentclients,whichlaysthefoundationfortheexplorationofconversionformexterna1informationtotheChineselanguagetextandachievesthelanguagerep

17、ortforATR?Keyw0rds:opticalcharacterrecognition(OCR);texttospeech(TTS);speechsynthesis;webservice责任编辑:张众(上接第26页)AResearchonAREDAlgorithmsinActiveQueueManagementWANGChunZhi,WANYong,ZHUYuMing(1SchoolofComputer,HubeiUniv.ofTechnology,Wuhan430068,China2MnnnticsandScienceDep.,SayangNomalAcademy,Jingmen448

18、200,China)Abstract:Activequeuemanagementisamechanismusedinnetworkcongestioncontro1.ThispapermainlyintroducesAREDalgorithmsinactivequeuemanagement,andexplainstheprinciplesofthealgorithms,describesthealgorithms,analyzetheproblemoftheparametersettingandtheadvantagesanddisadvantagesofthem.Keywords:activequeuemanagement;randomearlydetection;adaptiverandomearlydetection责任编辑:张岩芳(上接第40页)SensorlessVectorControlofACMotorBasedon8OC196CHENGang,ZHUPan(SchoolofMechanicalEngineering,HubeiUniv.ofTechnology,

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

基于OCR识别信息的语音合成在WEB上的实现

文档简介

温馨提示

最新文档

评论

基于OCR识别信息的语音合成在WEB上的实现

文档简介

温馨提示

最新文档

评论

相关文档