版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
语音识别技术
语音识别技术1目录123语音识别过程
概述总结及展望语音识别技术目录123语音识别过程概述总结及展望语音识别2语音识别技术1概述各种终端设备的智能化和集成化程度越来越高,传统的信息检索和菜单操作方式已经越来越无法满足要求。迫切需要有一种更加便捷的信息检索和命令操作方式来替代传统的按键操作。为什么需要语音识别技术?语音识别技术1概述各种终端设备的智能化和集成化程度越来越高,3语音识别技术1概述语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术,也就是让机器听懂人类的语音。也被称为自动语音识别AutomaticSpeechRecognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。什么是语音识别技术?语音识别技术1概述语音识别技术就是让机器通过识别和理解过程把4语音识别技术1概述1.语音输入系统,相对于键盘输入方法,它更符合人的日常习惯,也更自然、更高效;语音识别技术应用在哪些领域呢?2.语音控制系统,即用语音来控制设备的运行,相对于手动控制来说更加快捷、方便,可以用在诸如工业控制、语音拨号系统、智能家电、声控智能玩具等许多领域;3.智能对话查询系统,根据客户的语音进行操作,为用户提供自然、友好的数据库检索服务,例如家庭服务、宾馆服务、旅行社服务系统、订票系统、医疗服务、银行服务、股票查询服务等等。语音识别技术1概述1.语音输入系统,相对于键盘输入方法,它更5语音识别技术2语音识别过程(传统的基于HMM的语音识别)1.在开始语音识别之前,通常需要把首尾端的静音切除,降低对后续步骤造成的干扰。这个静音切除的操作一般称为VAD。2.分帧,也就是把声音切开成一小段一小段,每小段称为一帧。语音识别技术2语音识别过程(传统的基于HMM的语音识别)1.6语音识别技术2语音识别过程3.波形变换。常用的一种方法是提取MFCC特征,通过12维的向量来描述一帧的波形,12维向量是根据耳朵的生理特征提取的,这一过程称为声学特征提取。声音就被转换成了12行N列的矩阵(观察序列)语音识别技术2语音识别过程3.波形变换。常用的一种方法是提取7语音识别技术2语音识别过程4.矩阵变成文本。a.把帧识别成状态。b.把状态组合成音素。c.把音素组合成单词。(单词、音素、状态)语音识别技术2语音识别过程4.矩阵变成文本。a.把帧8语音识别技术2语音识别过程问题1:那每帧音素对应哪个状态呢?答:看某帧对应哪个状态的概率最大,那这帧就属于哪个状态。问题2:那这些用到的概率从哪里读取呢?答:声学模型,里面存了一大堆参数,通过这些参数,就可以知道帧和状态对应的概率。获取这一大堆参数的方法叫做“训练”。语音识别技术2语音识别过程问题1:那每帧音素对应哪个状态呢?9语音识别技术2语音识别过程问题3:假设语音有1000帧,每帧对应1个状态,每3个状态组合成一个音素,那么大概会组合成300个音素,但这段语音其实根本没有这么多音素。如果真这么做,得到的状态号可能根本无法组合成音素。答:利用隐马尔可夫模型来解决。隐马尔可夫模型(HiddenMarkovModel,HMM)。第一步,构建一个状态网络。第二步,从状态网络中寻找与声音最匹配的路径。这样就把结果限制在预先设定的网络中(有利有弊)。那如果想识别任意文本呢?把这个网络搭得足够大,包含任意文本的路径就可以了。但这个网络越大,想要达到比较好的识别准确率就越难。所以要根据实际任务的需求,合理选择网络大小和结构。语音识别技术2语音识别过程问题3:假设语音有1000帧,每帧10语音识别技术2语音识别过程5.解码。搭建状态网络,是由单词级网络展开成音素网络,再展开成状态网络。语音识别过程其实就是在状态网络中搜索一条最佳路径,语音对应这条路径的概率最大。路径搜索的算法是一种动态规划剪枝的算法,称之为Viterbi算法,用于寻找全局最优路径。观察概率和转移概率(声学模型)、语言概率(语言模型)语音识别技术2语音识别过程5.解码。搭建状态网络,是由单词级11语音识别技术2语音识别过程总结语音识别技术2语音识别过程总结123总结及展望21世纪,信息和网络飞速发展,信息和网络的时代已经来临,人与人之间的距离随着Internet和移动电话网的连接和普及变得越来越近,信息资源扩散的越来越迅速,人与机器的交互显得尤为重要。语音识别技术的研究和应用可以让人无论何时何地都可以通过语音交互的方式实现任何事,可以使人更方便的享受更多的社会信息资源
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025版果林租赁与农村金融服务合作合同范本3篇
- 2025年度环保产业融资服务合同范本(含排放)3篇
- 二零二五年度房地产广告发布合同:广告投放合作协议3篇
- 2025版西瓜品牌授权及品牌管理合同3篇
- 二零二五年度户口迁移安置补偿协议3篇
- 二零二五年度文化旅游景区开店合作合同3篇
- 二零二五年度国际房产二手房买卖合同范本2篇
- 2025年度社区便利店租赁合同模板(含加盟服务条款)3篇
- 二零二五年度新材料合伙人退伙技术合作与退伙协议3篇
- 二零二五年度建筑垃圾资源化利用项目招投标合同3篇
- 2024年股东股权继承转让协议3篇
- 2024-2025学年江苏省南京市高二上册期末数学检测试卷(含解析)
- 2025年中央歌剧院毕业生公开招聘11人历年高频重点提升(共500题)附带答案详解
- 北京市高校课件 开天辟地的大事变 中国近代史纲要 教学课件
- 监事会年度工作计划
- 2024中国近海生态分区
- 山东省济南市2023-2024学年高一上学期1月期末考试化学试题(解析版)
- 北师大版五年级数学下册第3单元第1课时分数乘法(一)课件
- 2024-2030年中国汽车保险杠行业市场发展现状及前景趋势分析报告
- 智研咨询发布:中国种猪行业市场现状、发展概况、未来前景分析报告
- 六年级上册分数四则混合运算100题及答案
评论
0/150
提交评论