




已阅读5页,还剩28页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2018/7/13,河北工业大学机械学院,1,第四章 机器人听觉,随着计算机技术的发展和语音识别技术的提高,各种声交互系统得到越来越广泛的应用。例如电话自动提款系统区分授权人和非授权人的“声锁”等; 在机器人系统中,听觉系统是机器人的重要感觉器官之一(听觉接收外部信息量占总信息的5%):家用服务机器人能按照主人的吩咐做家务:开门、供应茶点、倒垃圾、打扫房间、开关电视相录音机等;有的机器人可以照看小孩相病人,与人对话、还能区分主人和其他人的声音,只按主人的命令行事等;某些工业机器人可以根据操作者的命今改变工作内容,进行语音示教。,2018/7/13,河北工业大学机械学院,2,第四章 机器人听觉,机器人听觉系统与人耳的功能还有很大的距离由于人类的语言非常复杂。无论哪个民族,其词汇量都非常大,即使是同一个人,他的发音也随着环境和身体状况而变化。近年来,机器人听觉取得了令人鼓舞的成果尤其在大词汇量、非特定人、连续语音识别等方面;已有许多语音识别产品问世。代表: IBM Via Voice,2018/7/13,河北工业大学机械学院,3,第四章 机器人听觉,从识别的难易程度和应用的目的,可将语音识别系统分为两大类:1. 特定人的语音识别系统 判别接收到的声音是否是事先指定的某个人的声音,也可以判别是否是事先指定的一批人中某个人的声音。2. 非特定人的语音识别系统 识别字、短语、句子,而不管说话人是谁。目前已经能够识别4000个甚至更多个单词及由它们所组成的简单句子。,2018/7/13,河北工业大学机械学院,4,第四章 机器人听觉,机器人的听觉系统的框图,2018/7/13,河北工业大学机械学院,5,4.1 声音信号的特征,人的发音器官可分为两部分,即声道和声带。声带是发音器,声道相当于一个谐振腔或滤波器。整个发音过程可用一个电模型表示。,发有阵音,发无阵音,声音强弱,声道的特性,2018/7/13,河北工业大学机械学院,6,4.1 声音信号的特征,声音信号的特征信号幅度过零率音调周期线性预测系数声道共振峰值,每种特征只能反映声音信号的一个侧面语音的每一小段(取样周期20ms)都有一组特征,称之为一个特征向量一个字音就有一组特征向量,称之为特征矩阵,2018/7/13,河北工业大学机械学院,7,4.1 声音信号的特征,1. 信号幅度(或能量)特征 幅度(或能量)特征是指话音在短时间段里的平均声音强度。 用平均电压幅值或电压幅值的对数值或能量表示。 它是一个表示话音强度的特征量。一个词一般由几个子音和母音组成,占用时间为几百ms。一个词汇中,各采样周期内幅度时大时小;不同词汇的幅度特征与时间关系彼此不同;一个句子中的不同词汇与时间关系也各不相同。因此,可用幅度特征来区别不同的词汇和语句。,2018/7/13,河北工业大学机械学院,8,4.1 声音信号的特征,2. 过零率特征 过零率是指短时间段内语音信号过零次数,它大致反映信号在短时间内的平均频率。 经统计,有阵音的过零率大致为2030,无阵音的过零率范围为80120,一般的噪声过零率在这两个范围之间。 可利用过零率特征来区别有阵音与无阵音,也可判别有无发音(起点、终点判别)。,2018/7/13,河北工业大学机械学院,9,4.1 声音信号的特征,过零率特征测试电路,T0=0.125ms,T1=20ms,2018/7/13,河北工业大学机械学院,10,4.1 声音信号的特征,3. 音调周期特性 从频谱分析的角度来看,一个振动信号可分为基波和各次谐波。音调周期就是话音信号的基波周期。男性的音调周期较长,女性和小孩的音调周期较短;每个人的音调周期互不相同,同一个人的音调周期变化不大;各种字的音调周期也不相同。因此,可用音调周期进行话音识别。注意:只有“有阵音”才具有音调周期特性, “无阵音”不具备音调周期特性。,2018/7/13,河北工业大学机械学院,11,4.1 声音信号的特征,估计音调周期的方法较多,这里介绍一种并行处理法。原理:根据话音信号的峰直和谷值的位置,提取一些脉冲串将其附近某一邻域内的峰与谷忽略,这样得到的脉冲串可以保留原来信号钓周期特性,再用适当的方法估计话音的周期。整个音调周期估计器的框图如下,2018/7/13,河北工业大学机械学院,12,4.1 声音信号的特征,具体处理方法,2018/7/13,河北工业大学机械学院,13,4.1 声音信号的特征,按上述办法提取的脉冲串进入相应当单元时,这个单元可以粗略的估计信号的基波周期。每个单元将其幅值保持时间,期间对后来的脉冲不作任何处理;时间后,脉冲按指数规律下降,直到遇到幅度超过它的脉冲时,上边的过程重新开始。其中与脉冲幅值成正比。,这些脉冲的宽度可作为音调周期的估计值。,2018/7/13,河北工业大学机械学院,14,4.1 声音信号的特征,4. 线性预测系数特征 简称预测系数,它用几个数值来反映滤波器特性。 在一个短时间内,话音信号可以认为是一串窄脉冲夹在一个滤波器输入端时的滤波输出信号。信号波形受滤波器的影响,可从该波形中提取表征滤波器特性的特征值。 对20ms的话音信号取样,取样周期为0.125ms,取样值依次为s1、s2、s3、。 预测系数反映这些取样值之间的关系,即反映滤波器的特性。 滤波器的特征是连续的,所以一个取样值可用前面若干个取样值的线性组合来求得。,2018/7/13,河北工业大学机械学院,15,4.1 声音信号的特征,实验表明,用前8个值来估计就能保证足够的精度,这时预测公式为s9=a1s1+a2s2+ +a8s8式中, a1、a2、a8分别为第一、第二、第八预测系数,综合称为预测系数特征。 某一段话音在不同的短时间段内,其预测系数特征是不同的,必须分段求取。,2018/7/13,河北工业大学机械学院,16,4.1 声音信号的特征,5. 声道共振峰特征 声带相当于一个脉冲串发生器,而声道相当于一个时变滤波器。实际上这个滤波器的频率特征具有一些共振峰,共振峰峰值的频率位置随所发话音的不同而变化。 经分析,从零频算起的前三个共振峰很重要,影响话音的波形。 出现峰值时的频率值称为声道的共振峰位置特性,简称共振峰特性。话音信号的频谱等于声带发出的脉冲信号频谱与声道频率特性的乘积,即S(f)=Ss(f) H(f),2018/7/13,河北工业大学机械学院,17,4.1 声音信号的特征,用一个求最大值电路求出F的峰值时的频率值即为共振峰特性,2018/7/13,河北工业大学机械学院,18,4.2 特定人的语音识别系统,特定人语音识别方法是将事先指定的人的声音中的每一个字音的特征矩阵存储起来,形成一个标准模板(或叫模板),然后再进行匹配。 它首先要记忆一个或几个语音特征,而且被指定人讲话的内容也必须是事先规定好的有限的几句话。特定人语音识别系统可以识别讲话的人是否是事先指定的人,讲的是哪一句话。,2018/7/13,河北工业大学机械学院,19,为了识别发言人的话,首先要找出话音的起点和终点。实验证明,必须把幅度特征和过零率特征联合起来检测话音的起点和终点。为此,系统还要能够保留一段声音信号,当发现明显的声音信号时,要从这点向前考察各个短时间段的幅度与过零率,只要其中之一超过某个限值,就认为这段还是属于发音段,直到这两种特征都低于限值时才停止考察,这个时间点就是话音的起点。对于终点,也用相同的办法来判别。,4.2 特定人的语音识别系统,2018/7/13,河北工业大学机械学院,20,4.2 特定人的语音识别系统,特定人语音识别系统判别的基本方法是:1. 确定识别方法所用的特征;2. 将接收到的话音提取特征矩阵;3. 与事先存储在系统之内的标准模板中的特征矩阵相比较,计算它们的距离。这个距离可以用各个对应的特征值之差的平方和来定义。4. 如果距离小于某个值,则系统认为该发言人是指定的发言人,并确定所说的话是什么。,2018/7/13,河北工业大学机械学院,21,4.2 特定人的语音识别系统,实际上,由于一个人在不同情况下发同一个字音的快慢是差别的,因此若总是按照标准模板中存储的速度去识别声音,会引入较大的误差,甚至造成判别错误。需要先经过一个所谓“时间对应”步骤,即把接收到的信号在各段时间里的快慢在容许的范围内作一些调整,然后再去和标准信号比较。在这个步骤中,首先将两种信号的起点和终点对齐,然后在起点和终点之间找出一批对应关系,叫做时轴对应关系,简称时应关系(见图)。很显然,这种时应关系不是唯一的。,2018/7/13,河北工业大学机械学院,22,4.2 特定人的语音识别系统,为了从中找到合理的对应关系先将两段时间以同样的时间间隔划分。假设把标准信号均匀地划分为n1、2、N个时段,把接收到的信号划分为M1、2、M个时段。我们规定,任何一方的一段短时间段只能与另一方的一段或二段短时间段相对应,在任何情况下不允许与三段或更多段相对应。作这样的规定,意味着对于正确的话音,在每个时刻所允许的变化快慢是有一定限度的,变化太快或太慢都不是正确的话音。,2018/7/13,河北工业大学机械学院,23,4.2 特定人的语音识别系统,仔细分析一下可以看出,即使做了上述规定,时应关系还会有很多种。话音信号的特征矩阵与标准模板的距离随着时应关系不同而不同,也就是说各种时应关系引入的误差是不同的。问题是如何找出一个引入误差最小的时应关系。由此可见,现在的短时间段变得不均匀了,当然也不一定是20ms。我们规定,求短时间段里一对待征差值的运算为一次基本运算。,2018/7/13,河北工业大学机械学院,24,检查一种时应关系对应的距离时,需要作许多次基本运算,而从成千上万种时应关系个选出一种最佳时应关系的运算量非常大。但是,如果合理地调整计算步骤,尽量避免重复计算,则计算工作量会大大减少。动态规划方法是解决这类问题的一种有效方法,这里不再详述。提取了话音信号的特征之后,还要求出这些特征与标准模板之间的距离,这个距离可以定义为特征矩阵中的各元素与标准模板个各对应元素的差值的平方和,当然也可定义为其他的各种距离。 信号经过预处理之后,便可以送到决策逻辑环节进行决策。如果信号特征与标准模板的距离小于某一值,就可以认为发言人是指定的某一个人,否则就不是。这个阈值可由实验确定。,2018/7/13,河北工业大学机械学院,25,4.3 非特定人的语音识别系统,非特定人的语音识别系统大致可以分为语言识别系统,单词识别系统,及数字音(09)识别系统。 由于上述识别系统都是针对非特定人的,所以它与特定人的语音识别系统相比,一般性要求更高。语言识别系统可以懂得话音的含义。这种系统首先要把话音分割成单词(或音素),然后进行语法分析,最后辨识出话音的含义,可见这种系统是相当复杂的。,2018/7/13,河北工业大学机械学院,26,4.3 非特定人的语音识别系统,非特定人的语音识别方法:模式匹配方法:在小词汇量语音识别方面用得最多,实用的系统已经出现;基于统计模型的隐Markov模型(Hidden Markov Models,简称HMM),则在大词汇量的语音识别上取得很大的进展,但目前尚在研究发展之中,可靠性有待进一步提高。数字音识别系统比较简单。这种语音识别系统的工作原理与特定人的语音识别系统有很多相同之处。,2018/7/13,河北工业大学机械学院,27,4.3 非特定人的语音识别系统,一种数字音识别系统框图。进来的数字串规定为每串三个字。,2018/7/13,河北工业大学机械学院,28,4.3 非特定人的语音识别系统,在这些规律中,重要的有1)字的起点可能发生在如下处:“静”和“无振”时间段的衔接处,幅度随时间陡升处,过零率随时间陡升处;“有振”、“无振”时间段衔接处和幅度与时间关系曲线的凹陷处。2)字的终点可能发生在如下处:“有振”和“静”的时间段衔接处;“无振”和“静”的时间段衔接处及幅度随时间陡降处。3)在“无振”和“有振”的衔接处。如果同时出现幅度随时间陡升和过零率随时间陡降,那么这里不是字的起、终点的分界。,2018/7/13,河北工业大学机械学院,29,4.3 非特定人的语音识别系统,例如当发:seven two one(721)时,经过试验和计算其特性曲线如右图。seven音的起点是“静”和“无振”时间段衔接处,即过零率随时间陡升处;two的起点是过零率陡升处;one的起点是过零率陡升处和幅度特征的凹陷处,one的终点是幅度特性陡降处和“有振”、“静”的衔接处。在seven的se和ven的交界处是“有振”和“无振”的衔接处,但同时出现幅度特征陡升和过零率的陡降,因此这里不是字的分界点。,2018/7/13,河北工业大学机械学院,30,4.3 非特定人的语音识别系统,接下来,把各个短时间段的各个特征按照上面的分割方法划分成三个组(每个字的字音分成一个组),分别送进“音的识别”部分去作每个字的识别。“音的识别”部分中,事先存储有十个数目字话音(09)在每个短时段的判别量g1(xl,x2,x3)、 g2(xl,x2,x3) 、 g10(xl,x2,x3) ,其中xl代表幅度,x2代表过零率,x3代表线性预测系数等。当得到待识别的数目字话音的各个特征时,把它们与事先存储的判别量进行比较,找出最接近的字作为判别结果。,2018/7/13,河北工业大学机械学院,31,4.3 非特定人的语音识别系统,需要说明的是实际上我们并不把待识别的字的持征直接与库中的样板作比较。也就是说判别过程可分为两个阶段:粗糙比较和精细匹配阶段。在粗糙比较识别中,用粗糙的方法将输入量与每一样板(样板
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 辽宁省大连市新民间联盟2024-2025学年初三第六次摸底考试数学试题含解析
- 辽宁省大石桥市重点名校2025年初三联考考试数学试题含解析
- 色达县2025年三下数学期末考试模拟试题含解析
- 江苏宿迁市2024-2025学年下学期高三生物试题(文史类)一模考试试卷含解析
- 浙江水利水电学院《分子与细胞生物学检测技术》2023-2024学年第二学期期末试卷
- 伊春市嘉荫县2025届三下数学期末质量检测试题含解析
- 室内装饰材料员培训
- 如何打造高端大气活动
- 2025购车合同简版格式
- 2025华帝租赁合同
- 实验验证动量守恒定律(教学设计)高二物理系列(人教版2019选择性)
- 2024老年烧创伤创面MEEK植皮技术规范
- 2024年二级建造师继续教育题库及答案(500题)
- 企业所得税汇算清缴申报表电子表格版(带公式-自动计算)
- 2024年中国BIM行业市场动态分析、发展方向及投资前景分析报告
- 2024年四川省成都市温江区中考数学二诊试卷(含答案)
- 超星尔雅学习通《形象管理(南开大学)》2024章节测试答案
- (正式版)JBT 2930-2024 低压电器产品型号编制方法
- 灭火器检查的流程与步骤详解
- 2024年上海市虹口区街道社区工作者招聘笔试冲刺题(带答案解析)
- 2023年漳州市医院考试招聘考试真题及答案
评论
0/150
提交评论