语音技术的应用及挑战PPT课件_第1页
语音技术的应用及挑战PPT课件_第2页
语音技术的应用及挑战PPT课件_第3页
语音技术的应用及挑战PPT课件_第4页
语音技术的应用及挑战PPT课件_第5页
已阅读5页,还剩14页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、千禧年会 世纪紫光Speech HeadlinesApplicationsTrendsChallenges Byte Magazine, 1997 BusinessWeek, 1998 William H Gates III, 1998 Wall Street Journal, 1996语音处理及其应用n说的是什么内容?n是谁在说话?n计算机去说话?n怎么把话说好?n说的是什么语言? n语音命令和控制中小词表孤立词语音识别 语音命令导航 (EasyCmd) 家电控制 (Cmd99) 声控号码簿 (Voice PhoneBook) 声控拨号 (Voice Dialler, e.g.: DataB

2、ank) 个人数字助理 (PDA, e.g. 快译通) n大词表连续语音识别 汉语语音听写机(EasyTalk)是汉字输入的重要手段 整句音字转换(EasyConv)是键盘输入的辅助手段 基于文本的语言理解(EasyNav)是理解关键之一 关键词检出(KWS)是基于内容的语音信息检索的基础 n声纹识别身份鉴别 安全 (金融、网络、) 个性化配置 n语种识别 为多语种语音识别平台提供预分流 n文语转换 有声电子读物 盲人阅读 获取信息的有声反馈 n说话水平评估S2E 多媒体语言教学 e.g.1 :大嘴英语 e.g.2:随心所欲说英语 一个关于选键笑话一个关于选键笑话(汽车翻车汽车翻车):如果A请

3、按1;如果B请按2;如果A1请按1;如果A2请按2;如果A11请按1;如果A12请按2;语音理解语音理解身份鉴别身份鉴别对话管理对话管理文语转换文语转换听写机输入的劣势:听写机输入的劣势:1. 容易疲劳容易疲劳2. 容易泄密容易泄密3. 没有理解没有理解文本输出文本输出对话管理对话管理与生成与生成检索结果检索结果窄带信道窄带信道CSR引擎引擎窄带信道窄带信道KWS引擎引擎文本搜索文本搜索引擎引擎文本信息库文本信息库关键词关键词检出器检出器语音信息库语音信息库检索目标的检索目标的中间语言表达中间语言表达自然语流自然语流0. 语音去噪和增强1. 特征提取(MFCC, PLP, E, Z, )2.

4、声学解码(统计语音模型HMM)3. 语言解码(统计语言模型N-Gram)0. 语音去噪和增强1. 连续语音识别引擎2. 关键词和补白网络3. 语音确认和拒识0. 口语现象(无意义词、省略、重复、解释、更正、倒序)1. 电子辞典(词法属性、句法属性等)2. 句法分析(句法规则、句法消歧规则)3. 语义分析和语用分析语音输出语音输出文语转换文语转换引擎引擎识别结果的识别结果的语义分析语义分析及表示及表示CSR 连续语音识别连续语音识别KWS关键词检出关键词检出MessageSourceP(M)MLinguisticChannelP(W|M)WArticulatoryChannelP(S|W,M)S

5、AcousticChannelP(A|S,W,M)ATransmissionChannelP(X|A,S,W,M)XSpeech RecognizerMessage M realized as a word sequence WWords W realized as a sequence of sound SSounds S received by transducer in acoustic ambient as ASignals A converted from acoustic to electric, transmitted and received as X for processi

6、ngof the generation, acquisition & transmission, and perception of speech: Task/context specification (dictation, man-machine dialogue, broadcast news, free conversation, .) Speaker variability - speaker characteristics (anatomy of vocal tract and vocal cord, accent, dialect, ) - speaking behavi

7、or (rate, style, Lombard, .) Phonetic/prosodic context Speaking environment - other speakers - background noise - reverberations Transducer - distortions (spectral characteristics, non-linearities, ) - directional characteristics - electrical noise Distortions (spectral, encode-decode, ) Noise Echoe

8、s Dropouts .Signal SpaceXTrainingFeature SpaceFXModel SpaceXTestingTFTTD1()D2()D3()重要问题重要问题(鲁棒性鲁棒性): 环境(背景噪音、回响和混响、其他说话人)麦克风和信道 (噪音、带宽、质量不一致、) 说话人(性别、口音、速度、音强)重要问题(新问题): 发现高可分性、高顽健的特征; 寻找分辨能力更强的分类器; 自适应(说话人、环境;特征、模型;); Features too close to signal,too far from classification.womenshizhongguorenwumen

9、womengchizonggurengguoworenshier Root Node (Logical) zhong guoguo xin jia 中 忠 国 (Middle) (Faithful) (Country) 中国 中心 忠心 国家 (China) (Center) (Loyalty) (Country):Syllable Node:Leaf(Word) Node基于基于N-Gram统计语言模型统计语言模型句法分析句法分析语义分析语义分析语言理解语言理解 数据稀疏问题 对语言领域敏感问题 新词处理问题 无法进行理解 不同的韵律有不同的意义 在合成方面已经取得一定的进展 对统计语言模型进行平滑 对新词统计概率进行估计 在统计语言模型的基础上发挥作用Application# 1Chinese Computing Platform APILinguisticDataTechnologyCapabilityApplication# 2Application# 3Voice Cmd.& Ctrl.EngineChinese Dicta-tion MachineEnginePinyin=HanziHanzi=PinyinEngineHandwritingRecognitionEngineSpeakerRecognitionEngineText-to-SpeechEngin

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论