下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、声音实际上是一种波术。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。语音识别本质上是一种模式识别的过程,未知语音的模式与已知语音的参考模 式逐一进行比较,最佳匹配的参考模式被作为识别结果。目前大多数语音识别技术是基于统计模式的,从语音产生机理来看,语音识别可以分为语音 层和语言层两部分。当今语音识别技术的主流算法,主要有基于动态时间规整(DTW)算法、基于非参数模型的矢量量化(VQ)方法、基于参数模型的隐马尔可夫模型(HMM)的方法、基于人工神经网络(ANN)和支持向量机等语音识别方法。和支持向量机等语音识别方法。语音识别系统的模型通常由声学模型和语言模型两部
2、分组成,分别对应于语音到音节概率的 计算和音节到字概率的计算。一个连续语音识别系统大致可分为四个部分:特征提取,声学模型训练, 语言模型训练和解码器。(1)预处理模块:对输入的原始语音信号进行处理,滤除掉其中的不重要的信息 以及背景噪声,并进行语音信号的端点检测(找出语音信号的始末)、 语音分帧(近似认为在10-30ms内是语音信号是短时平稳的,将语音信 号分割为一段一段进行分析)以及预加重(提升高频部分)等处理。(2)特征提取:去除语音信号中对于语音识别无用的冗余信息,保留能够反 映语音本质特征的信息,并用一定的形式表示出来。也就是提取出反映 语音信号特征的关键特征参数形成特征矢量序列,以便
3、用于后续处理。目前的较常用的提取特征的方法还是比较多的,不过这些提 取方法都是由频谱衍生出来的。Mel频率倒谱系数(MFCC)参数因其良 好的抗噪性和鲁棒性而应用广泛。在sphinx中也是用MFCC特征的。 MFCC的计算首先用FFT将时域信号转化成频域,之后对其对数能量谱 用依照Mel刻度分布的三角滤波器组进行卷积,最后对各个滤波器的输 出构成的向量进行离散余弦变换DCT,取前N个系数。在sphinx中,用帧frames去分割语音波形,每帧大概10ms, 然后每帧提取可以代表该帧语音的39个数字,这39个数字也就是该帧 语音的MFCC特征,用特征向量来表示。语音识别基础语音信号的采样和量化语
4、音信号是一个时间和幅度都连续变化的一维模拟信号而语音识别的过程是一个对语音信号进行数字处理的过程,在对语音信号处理之前,必须要对 其进行数字化,这个过程就是模/数(A/D)转化模/数转化过程要经过采样和量 化两个过程,从而得到时间和幅度上的离散数字信号根据奈奎斯特采样定律, 采样频率应为原始信号频率的两倍以上,才能使采样过程中不会丢失信息,而 且能从采样信号中准确的重构原始信号的波形正常人的发音范围是从40Hz到 340OHz左右,因此在实验中,本文对语音信号的采样频率均为skHz2语音信号的预加重语音信号从嘴唇辐射后,高频端大约在800Hz以上有6dB/倍频的衰减因此,在对语音信号进 行分析
5、之前,一般要对语音信号加以提升(预加重)预加重的目的是滤除低频干扰,尤其是50Hz或者60Hz的工频干扰,提升对语音识别有用的高频部分,使信号的频谱变得平坦,以便于进行频谱分析或声道参数分析.3语音信号的加窗处理为了能对语音信号进行处理,我们可以假定在IOms 一 30ms之间语音信号是平稳的,语音频谱特性和语音特征参数恒定因此需将语音信号划分为一个一个的短时段,每一个短时段称为一帧,为了从语音信号中切去出样本信号,就要用时间窗函数乘以原始语音信号,这种操作就称为加窗。目前应用最为广泛的是汉明窗4语音信号的端点检测其目的是从语音信号中检测出语音信号段和噪音段,准确的端点检测不仅可以减少计算量,
6、而且可以提高系统的识别率常用的端点检测是基于双门限比较法。,的端点检测,就是根据语音信号的特征参数(能量和过零率)进行清音!噪音判别,从而完成端点检测的经过对语音信号的预处理之后就要进行特征参数的提取对特征参数的要求是:1!能有效代表语音特征,具有良好的区分性;2!特征参数之间有良好的独立性;3!特征参数易于计算,最好能保证语音识别的实时实现特征提取(包括分帧)、音素建模、字典、隐式马尔科夫模型语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。特征提取就是从语音信号中提取出语音的特征序列提取的语音特征应该能完全、准确地表 达语音信号,特征提取的目的是提取语音信号中能代表语音
7、特征的信息,减少语音识别时所 要处理的数据量语音识别技术中最流行的特征参数是基于声道模型和听觉机理的 LPCC(LinearPredietiveCepstralCoefieientS)和MFCC(MelFrequeneyCepstralcocfioionts)参数,线性预测倒谱系数(LPCC)和美尔频率倒谱 系数(MFCC)语音识别过程就是根据模式匹配原则,按照一定的相似性度量法则,使未知模式与参考 模式库中的某一个参考模型获得最佳匹配的过程。目前语音识别比较常用的识别方法主要有 模板匹配法,以动态时间规整(DynamiCTimeWarping,DTw)为代表;随机模型法,以隐马尔可夫 模型(
8、HiddenMarkovModel,HMM)为代表;基于人工神经网络(ArtifiCialNeuralNetworkS,ANN) 的识别方法高斯混合模型一隐马尔科夫模型(Gaussian mixture model hidden Markov model,GMMHMMDNN-HMM RNN-CTC具体来说就是输入一段语音信号,要找到一个文字序列(由字或者词组成),使得它与 语音信号的匹配程度最高。这个匹配程度,一般都是用概率来表示的,用X表示语音信号, 用W表示文字序列,则要解的是下面这个问题:W* = argmaxP(W|X)但是一般语音是由文字产生的,已知文字才能发出语音,所以对于上面的条
9、件概率公式 我们想要已知结果求该条件下发生概率,这时候自然而然就想到贝叶斯公式:冷=arg mas=曜 mas P(X,由于我们要优化W, P(X)可以看作常数,可以省略分母。由上边的步骤来看,求文字串、计算语言模型概率、求音素串、求音素分界点、计算声 学模型概率几个步骤似乎是依次进行的。其实不然,在实际编码过程中,因为文字串、音素 分界点都有非常多种可能,枚举是不现实的。实际中,这几个步骤同时进行并互相制约,随 时砍掉不够优的可能,最终在可接受的时间内求出最优解:W* = argmaxP(W|X)。声学模型用lstm+ctc训练,得到语音特征到音素的映射,语言模型用SRILM工具做LM 的训
10、练得到3-gram and 4-gram,是词与词、词与句子的映射, 字典是字词对应的音素 index集合,是字词和音素之间的映射语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到音节概 率的计算和音节到字概率的计算。HMM声学建模:马尔可夫模型的概念是一个离散时域有限状态自动机,隐马尔可夫模型 HMM是指这一马尔可夫模型的内部状态外界不可见,外界只能看到各个时刻的输出值。对吾 音识别系统,输出值通常就是从各个帧计算而得的声学特征。用HMM刻画语音信号需作出两 个假设,一是内部状态的转移只与上一状态有关,另一是输出值只与当前状态(或当前的状 态转移)有关,这两个假设大大降低
11、了模型的复杂度HMM的打分、解码和训练相应的算法 是前向算法、Viterbi算法和前向后向算法。语音识别中使用HMM通常是用从左向右单向、带自环、带跨越的拓扑结构来对识别基元建模, 一个音素就是一个三至五状态的HMM, 一个词就是构成词的多个音素的HMM串行起来构成的 HMM,而连续语音识别的整个模型就是词和静音组合起来的HMM。上下文相关建模:协同发音,指的是一个音受前后相邻音的影响而发生变化,从发声机理上 看就是人的发声器官在一个音转向另一个音时其特性只能渐变,从而使得后一个音的频谱与 其他条件下的频谱产生差异。上下文相关建模方法在建模时考虑了这一影响,从而使模型能 更准确地描述语音,只考虑前一音的影响的称为Bi-Phone,考虑前一音和后一音的影响的 称为 Tri-Phone。英语通常采用上下文相关的音素建模,汉语的协同发音不如英语严重,可以采用音节建 模。听写机:大词汇量、非特定人、连续语音识别系统通常称为听写机。其架构就是建立在 前述声学模型和语言模型基础上的HMM拓扑结构。训练时对每个基元用前向后向算法获得模 型参数,识别时,将基元串接成词,词间加上静音模型并引入语言模型作为词间转移概率 形成循环结构,用Viterbi算法进行解码。针对汉语易于分割的特点,先进行分割再对每一 段进行解码,是用以提高效率的一个简化方法。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 个人借款权益转让合同模板(2024年版)版B版
- 2025年度幕墙抗风抗震加固工程合同范本4篇
- 2025年度文化娱乐品牌授权使用许可
- 2025年度出租车司机职业操守与信息保密合同
- 2025年度墓地陵园墓地使用权购买协议3篇
- 2025年度肉类产品加工与销售一体化合同3篇
- 2025年度餐饮加盟店品牌授权与维护合同3篇
- 二零二五年度宠物猫宠物用品代理销售合同3篇
- 2025版基因编辑技术合作项目建议书编制范本3篇
- 2025年KTV主题房间租赁及定制服务协议3篇
- 成长小说智慧树知到期末考试答案2024年
- 红色革命故事《王二小的故事》
- 海洋工程用高性能建筑钢材的研发
- 苏教版2022-2023学年三年级数学下册开学摸底考试卷(五)含答案与解析
- 英语48个国际音标课件(单词带声、附有声国际音标图)
- GB/T 6892-2023一般工业用铝及铝合金挤压型材
- 冷库安全管理制度
- 2023同等学力申硕统考英语考试真题
- 家具安装工培训教案优质资料
- 在双减政策下小学音乐社团活动有效开展及策略 论文
- envi二次开发素材包-idl培训
评论
0/150
提交评论