版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1课题研究的背景及意义国外的语音识别研究工作可以追溯到 20世纪50年代AT&T贝尔实验室开发 的第一个能实现十个英文数字的语音识别系统。我国的语音识别研究起始于 1958年,由中国科学院声学所利用电子管电路识别十个元音。直至1973年才由中国科学院声学所开始计算机语音识别。1986年3月我国高科技发展计划(863 计划)启动,国家863智能计算机专家组为语音识别技术研究专门立项,每两年 举行一次专题会议。现在我国语音识别技术的研究水平已经基本上与国外同步, 在汉语语音识别技术上还有自己的特点与优势。国内有不少语音识别系统已研制成功。在孤立字大词汇量语音识别方面,最具代表性的要数92年清华大学
2、电子工程系与中国电子器件公司合作研制成功的 THED-919特定人语音识别与理解实 时系统。在连续语音识别方面,91年12月四川大学计算机中心在微机上实现了 一个主题受限的特定人连续英语-汉语语音翻译演示系统。在非特定人语音识 别方面,有清华大学计算机科学与技术系在87年研制的声控电话查号系统并投入实际使用。随着信息产业的迅速发展,人们倾向于使用高效,快捷,方便的电子产品。 语音识别作为人机交互的一项关键领域,具备了实时,方便,快速等特点,在当 今科学技术的发展上也有着日益重要的地位。在一些特定的环境或是对于一些特 定的人,语音识别可以带来很大的方便。 例如,驾驶员在高速行驶的汽车内电话 拨号
3、,飞行员在飞行过程中发出必要的命令等,都需要语音识别系统,另外语音 识别也给失明者带来很大的帮助。2 课题任务探讨基于MATLAB的多个特定人孤立词语音识别的方法,期望在进行端点 检测时,能进一步提高识别率。该设计要求采用TW算法。主要任务:1、理论分析,提出设计方案;2、语音采集;3、特征提取,形成训练集;4、特定人孤立词语音识别算法的程序实现。3 基本原理3.1语音识别的基本原理语音识别系统本质上是一种模式识别系统,因此它的基本结构与常规模式识 别系统一样,包含有特征提取、模式匹配、参考模式库等三个基本单元。图1为语音识别系统的原理框图。练图1语音识别系统的原理框图根据对说话人发音方式的不
4、同,语音识别研究的内容可以分为孤立词识别系 统、连续字语音识别系统及连续语音识别系统。本次毕设研究的是孤立词语音识 别。3.2孤立词语音识别系统的设计孤立词语音识别系统指人在发音时,以单字的发音方式向语音识别系统输入 语音,词语词之间要有足够的时间间隙,以便系统能够检测到始末点。采用这种 方式的语音识别系统可以做到很高的识别率。图 2为孤立词有语音识别系统的原 理框图:训练预处理特征提 取段提 音征 超特取识别结果图2孤立词语音识别系统321语音信号的采集Windows自带了一个录音机程序(简称录音机),通过它可以驱动声卡采集、 播放和简单处理语音信号。语音信号的采集可以用麦克风直接录制人的语
5、音,也 可以通过音频线或者MIDI线将收音机、电视机或磁带录机中的语音信号采集到 计算机中。在录音机中可以进行简单的声音处理, 如加大或降低音量,加速或减 速,声音的反转或添加回音效果等。 加速或减速的改变可以完成变音功能,反转可以达到对声音文件保密的功能。通过windows自带的录音器,分别由我和同学录入了 2组数据(1人1组), 每组10个音频文件,分别为从“零”到“九”的汉语发音。其中一组为参考模 板,另外一组为测试模板。3.2.2端点检测语音信号录制进来后,不论是识别孤立词还是识别连续词都必须做语音分 段,即语音端点检测,找出语音段的开始和结尾,这可借助于语音信号的短时能 量和过零率。
6、有声音段的能量值较大,无声音段的过零率较高,因此可以通过计 算短时能量大致判断语音的端点,然后使用过零率找到语音端点的相对精确位 置,分解出每一个语音段。整个语音信号的端点检测可以分为四段:静音、过渡段、语音段、结束。系 统中使用一个变量来表示当前所处的状态, 在静音段,如能量或过零率超过了低 门限,则开始标记起始点,进入过渡段。在过渡段,由于参数的数值比较小,不 能确信是否处于真正的语音段,因此只要两个参数的数值都回落到低门限以下, 就将当前状态恢复到静音状态。如果在过渡段中两个参数的任意一个超过了高门 限,就可以确信进入语音段了。端点检测时,首先根据短时能量进行初步判断,此时对终点的检测已
7、比较准 确,但由于大多数声母是清声母,它的能量相当弱,依靠能量无法将其与无声段 区分开,所以在进行起点检测时,很难仅仅通过短时能量进行判断, 但对于清辅 音而言,它的过零率明显高于无声段,所以可以根据短时过零率进一步准确检测。 图3为端点检测的流程图:3图3端点检测的流程图图3端点检测程序流程图323特征提取7由于直接采集得到的语音信号的数据量巨大, 同时原始语音信号包含了许多 随机因素,所以原始信号不能直接用来进行语音识别。 因此需要从语音信号中提 取合适的、有代表性的特征参数。特征提取就是通过对语音信号的分析, 去除其 中的冗余信息,得到影响语音识别的有用信息,语音信号的时域参数有短时平均
8、 能量、短时平均过零率、短时自相关函数和短时平均幅度差函数等。 这是语音信 号的一组最基本的短时参数,在各种语音信号数字处理技术中都要应用,下面分 别讨论:短时平均能量清音段的幅度一般比浊音段的幅度小的很多。 语音信号的短时能量给出了反 映这些幅度变化的一个合适的描述方法。图 4为短时平均能量的方框图如下表 示:图4短时平均能量的方框图表示短时过零率过零率分析是语音时域分析中最基本的一种。 对于连续信号,过零率意 味着时域波形通过时间轴。在离散时间信号情况下,当相邻的两次抽样具有不同 的代数符号时就称为发生了过零。 过零率是指单位时间内信号由正变负、 由负变 正的总次数。图5为短时平均过零率的
9、方框图如下表示:图5短时平均过零数的实现框图324模式匹配语音识别过程是根据模式匹配原则,计算未知语音模式与语音模板库中的每一个模板的距离测度,从而得到最佳的匹配模式。语音识别所应用的模板匹配方 法主要基于动态时间规整匹配的(DTW)识别算法、基于统计的隐含马尔可夫 模型(HMM)识别算法和基于神经网络的识别算法。本次毕设我采用的是动态时 间弯折(DTW)。DTW(dy namic time warpi ng)动态时间规整匹配,是基于动态规划的思想,解 决了发音长短不一的匹配问题,是语音识别中出现较早、较为经典的一种算法。动态时间规整是把时间规整和距离测度计算结合起来的一种非线性规整技术。假设
10、测试和参考模板分别用T和R表示,为了比较它们之间的相似度,可以计算它 们之间的距离DT,R,距离越小则相似度越高。为了计算这一失真距离,应 对T和R中各个对应帧之间的距离算起。在 DTWf法中通常采用欧式距离,设n 和m分别是T和R中任意选择的帧号,则有:gD tH(m) = (tn - rfl) 2fi = li因为一般情况下参考模板和待匹配模板的长度不相等,即博N,因此要考虑将T(n)和R(m)对齐。对齐主要采用的是动态规划(DP的方法。将测试模板的各个帧号n=1 N在一个二维直角坐标系中的横轴上标出, 把参 考模板的各个帧号m=1Mfc纵轴上标出,通过这些表示帧号的整数坐标画出一些 纵横
11、线即可形成一个网格,网格中的每一个交叉点(n , m)表示测试模块中某一帧 与训练模式中某一帧的交汇点。4仿真结果与分析本次毕设到现在为止,我已经完成了语音采集和端点检测这两项任务,端点检测时采用短时能量和短时过零率这两个特征参数,根据端点检测的程序得到如 下图形:020.30.4050607Time:s(II) OO.wavHg音起始处放大波形图0 1(I) W.wav语菁信号tS形O5 0 5 1 o O0.90.290.30.220.230.240.250.260.270.28Time:(111) OO.wav语音结柬处放大被形圏0 215 0 5 1OI I - o O5 0 5 1O
12、S Po O匚pw-duu0.5 .440.450.460 47D.480.49Time:s0 430 420.4图6语音信号波形图6显示了语音信号波形,从波形中可以看出,音频前后都有噪音,这是由 于说话的短暂停留引起的。在语音信号的起始位置,从图中可以看出其幅值为零, 在语音信号的结束位置可以看出信号波形做周期性的变化,可以判定其为浊音。O-5 0 5 4 r II 0-0 管0吕営七音0 10.2030.40.50.6070.B09Time:s(11)短时过零率(I) TIDm詔语晋信号般形WOLCJz 500(Ell)短时能量Franne50图7初始语音的端点检测结果分析上图可知,在语音
13、的起始位置和结束位置,短时过零率较高,短时能量 也较大。这与短时能量大时是浊音、能量小时是清音,短时过零率高时是清音、 过零率低时是浊音相矛盾。故可知输入的原始语音有噪声干扰。在语音的结束位 置,这两项参数都趋向于零。图8语音“00”的双门限端点检测结果Vad函数的功能就是通过端点检测功能甄别出语音信号的起始点与结束点, 图中的红线就是标记的语音信号始末点, 可以看出,杂音基本被排除,效果是非 常明显的。5总结作为一项具有实用性的技术,孤立词语音识别的应用越来越广。为了满足实际需求人们一直在致力于不断完善孤立词语音识别系统。语音具有便捷性、高效性、随机性、交互性等显着特点,是实现人机交互的一种
14、重要通信方式,进一 步提高社会的信息化和自动化程度。根据本次毕业设计的要求,探讨基于MATLAB的多个特定人孤立词语音识别 的方法,期望在进行端点检测时,能进一步提高识别率。该设计要求的设计为主 采用DTW算法。大部分内容要通过程序的编写来完成,不过主要的操作是对函 数的调用,这就要求我熟悉 MATLAB的一些函数的基本功能以及它们的基本语 句。通过这次设计能够使我掌握大量关于语音信号分析的知识技能,对这门课程有深入的了解和认识,为将来的工作提供了资料,积累宝贵的经验。6参考文献1 赵力,语音信号处理M 第一版,北京:机械工业出版社,20032 王炳锡,屈丹,彭煊实用语音识别基础M.北京:国防
15、工业出版社,2005 3 易克初,田斌,付强等语音信号处理M.北京:国防工业出版社,20004 高成华,聋儿康复事业的历史、现状和展望J,中国听力语言康复科学杂志,20035 杨行竣,迟惠生等,语音信号数字处理M.第一版,北京:电子工业出版社,19956 彭昭,吕冠中,梁洁,等基于P2P的流媒体点播技术研究与展望J.计 算机科学,2008.7 庄雷,常玉存,董西广 一种P2P文件共享系统中的激励机制J.计算机 应用研究,2009,(01) : 266-268 孙卫琴.JAVA面向对象编程M .北京:电子工业出版社,2006, 89 庄雷,常玉存,董西广 一种P2P文件共享系统中的激励机制J.计
16、算机 应用研究,2009,(01) : 266-268.10 周辉,董正宏.数字信号处理基础及 MATLA实现M.北京:北京希望电子 出版社,2006.11 邹理和语音信号处理M.北京:国防工业出版社,1985.12 梁晓辉,周权.语音信号处理方法的可靠性研究J.电声技术,2010年04 期13 吴艳花.语言短时幅度和短时过零率分析与应用J.电脑知识与技术.2009 年33期.14 胡航.语音信号处理M.哈尔滨:哈尔滨工业大学出版社,2009.7.15 孙燕.语音频谱分析与应用J.计算机与现代化,2010年04期.16 孙卫琴.JAVA面向对象编程M.北京:电子工业出版社,2006, 817
17、黄文梅,熊桂林,杨勇信号分析与处理M MATLA语言及应用.长沙: 国防科技大学出版社,2010年2月.18 刘江华,程君实,陈佳品支持向量机训练算法综述J.信息与控制,2002,31(1):45-49.19 ZENG Qingnin g.Speech enhan ceme nt by array crosstalk resista ntANC and spectrumSubtraction.声学学报:英文版,2008 年,27 卷 1 期.20 GUANTian , GONGQin , YE Datian.Effectiveuse of the spectralinformationin speech processing of cochlear implant.自然科学进展,2007年17卷3期.21 侯风雷,王炳锡基于支持向量机的说话人辨认研究J.通信学报,2002,23(6):61-67.22 周志杰.MLP语音信号非线性预测器J.解放军理工大学学报(自然科学 版),2001,2(5):1-4.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 冀少版八年级生物上册专项突破5微生物的结构特点及作用课件
- 电工电子教案整流电路
- 《回族维吾尔族民俗风情》教案
- 中考化学专项复习:根据化学方程式的简单计算
- 电商平台农产品质量承诺书
- 屋顶创业园区租赁协议
- 政府公务车辆租赁协议
- 交通运输电子招投标技术探讨
- 企事业单位标识牌施工合同
- 城市绿化管理员聘用样本
- 幼儿家庭教育(山东联盟)智慧树知到答案2024年青岛滨海学院
- 1 小熊购物 (教学设计)-2024-2025学年数学三年级上册北师大版
- (2024年)新人教版部编一年级道德与法治教材解读5
- 三年级上册多位数乘一位数竖式计算练习200道及答案
- 三个和尚幼儿故事课件
- 国家基本公共卫生服务项目规范(第三版)培训课件
- 课外古诗词诵读-七年级上册语文教案
- 供货安装调试方案及组织措施
- 2024年新版七年级上册道德与法治第八课 生命可贵 第1课时 认识生命 导学课件
- 人教版八年级历史上册第一学期期中综合测试卷( 2024年秋)
- 2023-2024学年全国初一上物理人教版期中考试试卷(含答案解析)
评论
0/150
提交评论