下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、浅析语音识别技术摘要:语音识别最为人机交互的重要技术,成为人工智能领域研究的重点,具 有重要的研究意义跟广泛的应用前景。本文简要阐述了语音识别的发展、原理、 过程。关键词:人工交互;人工智能;语音识别引言:随着信息技术的发展,人机交互成为新兴课题。智能化研究的语音识别技 术成为人机交互必不可少的话题。人工智能领域的深度学习使语音识别技术更加 精准可靠。语音识别技术不仅可以应用到生活领域而且还可以用到军事领域,从 而提高人们对信息的处理能力和工作效率1语音识别技术的发展20世纪50年代,这段时期以实现10个英文数字的语音识别为代表,这是 计算机语音识别的开端。20世纪60年代,取得了阶段性建站,
2、解决了语音信号的提取问题。20世纪70年代,语音识别领域取得突破,实现了基于线性预测倒谱和和 DTW技术的语音识别系统。20世纪80年代,语音识别实验室阶段取得巨大突破,从孤立词汇到大量词 汇、非特定人、连续语音等的改变。同时,语音识别算法开始从模板匹配技术转 向基于统计模型技术,研究从微观转向宏观,连理最优的语音识别系统。20世纪90年代后,人工智能技术开始应用于语音识别技术,人工智能具有 自适应性、鲁棒性、学习特性等,在参数优化、系统自适应方面有了很大的进展。 语音识别技术进一步发展,开始实现语音识别技术的产品化。2语音识别概念及原理2.1语音识别概念语音识别简单来说就是将声音信号转化为文
3、字或者指令的过程。输入语音 输出识别结果。语音识别设计技术包括:人工智能、数字信号处理、概率论和信 息论、声学、语言学、发声机理和听觉机理、认知科学等学科领域技术。语音识别设计性能指标:词汇表范围:这是指机器能识别的单词或词组的范围,如不作任何限制, 则可认为词汇表范围是无限的。说话人限制:是仅能识别指定发话者的语音,还是对任何发话人的语音 都能识别。训练要求:使用前要不要训练,即是否让机器先“听一下给定的语音, 以及训练次数的多少。正确识别率:平均正确识别的百分数,它与前面三个指标有关。2.2语音识别原理目前,主流的语音识别系统多采用统计模式识别技术。典型的基于统计模 式识别方法的语音识别系
4、统由以下几个基本模块所构成信号处理及特征提取模块。该模块的主要任务是从输入信号中提取特征, 供声学模型处理。同时,它一般也包括了一些信号处理技术,以尽可能降低环境 噪声、信道、说话人等因素对特征造成的影响。统计声学模型。典型系统多采用基于一阶隐马尔科夫模型进行建模。发 音词典。发音词典包含系统所能处理的词汇集及其发音。发音词典实际提供了声 学模型建模单元与语言模型建模单元间的映射。语言模型。语言模型对系统所针对的语言进行建模。理论上,包括正则 语言,上下文无关文法在内的各种语言模型都可以作为语言模型,但目前各种系 统普遍采用的还是基于统计的N元文法及其变体。解码器。解码器是语音识别系统的核心之
5、一,其任务是对输入的信号, 根据声学、语言模型及词典,寻找能够以最大概率输出该信号的词串。3深度学习应用于语音识别3.1语音识别流程3.1.1语音信号采集语音信号采集是语音信号处理的前提。语音通常通过话筒输入计算机。话 筒将声波转换为电压信号,然后通过A/D装置(如声卡)进行采样,从而将连续 的电压信号转换为计算机能够处理的数字信号。3.1.2语音信号预处理语音信号号在采集后首先要进行滤波、A/D变换,预加重(Preemphasis)和 端点检测等预处理,然后才能进入识别、合成、增强等实际应用。3.1.3语音信号的特征参数提取在语音识别中,常用线性预测编码技术抽取语音特征。线性预测编码的基本思
6、想是:语音信号采样点之间存在相关性,可用过去的 若干采样点的线性组合预测当前和将来的采样点值。线性琪测系数埽以通过使预 测信号和实际信号之间的均方误差最小来唯一确定。语音线性预测系数作为语音信号的一种特征参数,已经广泛应用于语音处 理各个领域。3.1.4向置量化向量量化(VectorQuantization,VQ)技术是一种数据压缩和编码技术。经过向 量量化的特征向量也可以作为后面隐马尔可夫模型中的输入观察符号。向量量化的基本原理是将若十个标量数据组成一个向量(或者是从一帧语 音数据中提取的特征向量)在多维空间给予整体量化,从而可以在信息量损失较 小的情况下压缩数据量。3.1.5语音识别当提取
7、声音特征集合以后,就可以识别这些特征所代表的单词。识别系统 的输入是从语音信号中提取出的特征参数,如LPC预测编码参数,当然,单词对 应于字母序列。语音识别所采用的方法一般有模板匹配法、随机模型法和概率语 法分析法三种。这三种方法都是建立在最大似然决策贝叶斯(Bayes)判决的基础 上的。(1)模板(template)匹配法在训练阶段,用户将词汇表中的每一个词依次说一遍,并且将其特征向量 作为模板存入模板库。在识别阶段,将输入语音的特征向量序列,依次与模板库 中的每个模板进行相似度比较,将相似度最高者作为识别结果输出。(2)随机模型法随机模型法是目前语音识别研究的主流。其突出的代表是隐马尔可夫模型。 隐马尔可夫模型则用概率统计的方法来描述这样一种时变的过程。概率语法分析法这种方法是用于大长度范围的连续语音识别。将区别性特征与来自构词、 句法、语义等语用约束相互结合,就可以构成一个自底向上或自顶向下的交 互作用的知识系统,不同层次的知识可以用若干规则来描述。4结束语随着信息技术的发展和人们生活水平的提高,语音识别技术已经成为趋势。 伴随着计算机软硬件的发展,语音识别技术将会有着质的飞跃。参考文献程建军.关于深度学习的语
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《工程伦理》课程教学大纲
- 2024年仿牌运输代理合同范本
- 2024年代装修出售房屋合同范本
- 2024年代缴报名费合同范本
- 江苏省南通市通州区2024-2025学年八年级上学期期中语文试卷(含答案解析)
- 双十一商场活动策划方案
- 《六韬·豹韬》原文及译文
- 医疗细胞公司介绍
- 【数学】指对幂函数的综合四维限时练-2024-2025学年高一上学期数学人教A版(2019)必修第一册
- 分子生物学课件
- 2024年医疗器械经营质量管理规范培训课件
- 建筑施工安全生产治本攻坚三年行动方案(2024-2026年)
- 国家标准送审稿函审单
- 化工厂安全消防标志的制定
- 高低加投停及事故处理
- CKD 电子式压力开关PPG-C使用说明书
- 县农村土地确权信息纠错工作实施方案
- 关于统一使用公司手机号码的通知
- 标准吞咽功能评价量表(SSA)2页
- 用友华表伙伴商务手册.
- 心理安全网格化监管实施方案
评论
0/150
提交评论