




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
《工业机器人》✩精品课件合集第七章工业机器人的听觉系统
7.1语音消噪7.2机器语音的预处理7.3机器语音的特征提取7.4机器语音识别算法7.5机器听觉定位机器人语音识别包括特定人识别和非特定人识别,前者是针对特定的人,后者是针对不同的人。机器人的语音识别过程主要包括两方面:一方面是对已知语音信号特征参数进行训练,建立模型;另一方面是在模板的基础上进行识别,计算最大的概率,做出判断。机器人语音识别流程图如图7.1所示。图7.1机器人语音识别流程图实现机器人语音识别主要需要解决以下几个问题:(1)语音消噪;(2)语音信号的预处理和特征提取;(3)语音模型的建立和训练;(4)测试语音与模型的匹配计算;(5)识别与判决,即根据匹配计算的结果,采用某种判决准则判断说话者的内容。7.1语音消噪7.1.1噪声的类型噪声通常分为带通噪声、冲击噪声、白色噪声等。(1)带通噪声,也叫有色噪声,在某个频带上,信号的能量突然变大,比较典型的为交流电噪声,它的能量主要集中在50
Hz左右。7.1语音消噪7.1.1噪声的类型噪声通常分为带通噪声、冲击噪声、白色噪声等。(1)带通噪声,也叫有色噪声,在某个频带上,信号的能量突然变大,比较典型的为交流电噪声,它的能量主要集中在50
Hz左右。(2)冲击噪声,其能量在时域内会突然变大。7.1语音消噪7.1.1噪声的类型噪声通常分为带通噪声、冲击噪声、白色噪声等。(1)带通噪声,也叫有色噪声,在某个频带上,信号的能量突然变大,比较典型的为交流电噪声,它的能量主要集中在50
Hz左右。(2)冲击噪声,其能量在时域内会突然变大。(3)白色噪声,是在频域上不存在信号能量突然变大的频带,在时域上也找不到信号能量突然变大的时间段,即它在时域和频域上的分布是一致的。7.1.2消噪的方法(1)对含噪的语音信号进行小波变换,得到各个不同频带的子波信号,将语音信号和白噪声粗略分开。第一步:确定小波基。第二步:确定小波基的阶数。第三步:确定小波变换次数。第四步:小波变换。(2)确定各层子波的滤波阈值。阈值选取是否适当对消噪影响很大。确定阈值的方法如下:(7.1)(3)滤波。确定阈值后,就可以对各个子波信号进行滤波,公式如下:(7.2)其中,为滤波后的子波信号。(4)小波反变换。对已经处理过的各个子波信号进行反变换,就可以得到消噪后的语音信号,即干净的语音信号段。7.2机器语音的预处理预处理一般包括预加重处理、加窗、分帧、端点检测等。预加重处理后就要对语音信号进行加窗和分帧处理,加窗的目的就是要把语音信号分成一个个段时段,每一个短时段称为一帧,帧长计为N(以ms为单位)。语音信号中常用的窗函数是矩形窗和汉明窗,它们的表达式如下:矩形窗,
(7.3)汉明窗,
(7.4)在时域分析时,常采用矩形窗。在频域分析时常采用汉明窗。7.3机器语音的特征提取特征提取就是从一组特征中提取最有效的特征。经实验表明,能够代表语音信号参数的特征参数有:短时能量、短时平均幅度、短时过零率、短时基因周期和基因频率、线性预测系数(LPC)、美尔频率倒谱系数(MFCC)等。当今语音识别两种主流的特征参数是线性预测系数(LPC)和美尔频率倒谱系数(MFCC)。7.3.1线性预测系数线性预测分析的基本思想是:用过去m个样点值来预测现在或未来的样点值,称为对语音信号的m阶线性预测。即(7.5)其中,称为m阶线性预测系数。预测误差为
(7.6)对该式进行Z变换,得到的误差序列是一个具有如下系统转移函数的系统的输出
(7.9)实验表明,这样计算得到的参数可以表征语音的个性特征,称为LPC特征。有多种方法可以计算LPC,如自相关法、协方差法、格型法、谱估值公式、内积公式、最大似然公式、逆滤波器公式。7.3.2美尔频率倒谱系数(MFCC)一个信号的倒谱定义为信号频谱模的自然对数的逆傅里叶变换。设信号为,则其倒谱为
(7.10)MFCC与其他频率倒谱分析不同,它主要是基于人的听觉模型,因为人耳听到的声音的高低与声音的频率并不成正比,而用Mel频率刻度则更符合人耳的听觉特性。Mel频率与实际频率的关系可用如下公式表示:
(7.11)MFCC倒谱系数的具体计算过程如下:(1)将信号进行预加重、加窗和分帧处理,然后进行短时傅里叶变换得到其频谱。(2)求出频谱平方,即能量谱,并用M个滤波器进行滤波;由于每一个频带中分量作用在人耳处是叠加的,因此将每个滤波器频带内的能量进行叠加,这时第k个滤波器输出功率谱为(3)将每个滤波器的输出取对数,得到相应频带的对数功率谱;并进行反离散余弦变换,得到L个MFCC系数,一般L取12,MFCC系数为(7.12)(4)这种直接得到的MFCC特征为静态特征,再将这种静态特征做一阶和二阶差分,得到相应的动态特征。7.4机器语音识别算法语音识别实质上是一种模式识别系统。语音识别中,最简单的是特定人、小词汇量、孤立词的语音识别。最复杂、最难解决的是非特定人、大词汇量、连续语音识别。无论是哪一种识别,最流行的算法都是隐马尔科夫模型方法。不过近年来,出现了基于人工神经网络、支持向量机、遗传算法、动态时间规整等语音识别技术。这里主要介绍隐马尔科夫模型识别方法、人工神经网络、支持向量机方法。7.4.1隐马尔科夫模型(HMM)
HMM的基本算法(1)前向算法。(2)后向算法。(3)Viterbi算法。(4)Baum-Welch算法。7.4.2人工神经网络
人工神经网路由神经元、网络拓扑、学习算法三者构成。1.人工神经元图7.2不带激活函数的人工神经元2.激活函数典型的激活函数有线性函数、非线性斜面函数、阶跃函数、S型函数4种。1)线性函数线性函数是最基本的激活函数,它起到对神经元所获得的网络输入进行适当的线性放大的作用。如图7.3所示,线性函数具有以下形式:
(7.12)图7.3线性函数2)非线性斜面函数非线性斜面函数是最简单的非线性函数,它实际上是一种分段线性函数。这种函数在于把函数的值域限定在一个给定的范围
(7.13)为一常数,称为饱和值,为神经元的最大值,如图7.4所示。图7.4非线性函数3)阈值函数阈值函数又叫阶跃函数(见图7.5)图7.5阈值函数4)S型函数S型函数又叫压缩函数和逻辑斯特函数,其应用最为广泛。如图7.6所示.图7.6S型函数3.
M-P模型将人工神经网络的基本模型和激活函数结合在一起构成人工神经元,这就是著名的M-P模型,如图7.7所示。图7.7M-P模型4.网络拓扑网络拓扑是指网络的结构以及神经元之间的连接方式。根据连接方式的不同,可分为反馈型人工神经网络和非反馈型神经网络。5.感知器1)感知器与人工神经网络的早期发展2)感知器的训练算法计算机程序实现人工神经网络的基本方法。(1)离散单输出感知器的训练算法。(2)离散多输出感知器的训练算法。(3)连续多输出感知器训练算法。7.4.3支持向量机
支持向量机(SupportVectorMachine,SVM)是Vapnik首先提出的,它在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。SVM中不同的内积核函数将形成不同的算法,常用的核函数有:(1)多项式核。(2)径向基核。(3)S型核。7.5机器听觉定位听觉是智能机器人的重要标志之一,是实现人机交互、与环境交互的重要手段。7.5.1基于麦克风阵列的声源定位系统
现有的声源定位技术可分为三类:(1)基于最大输出功率的可控波束形成技术。(2)基于高分辨率谱估计技术。(3)基于声达时间差(TimeDifferenceofArrival,TDoA)的定位技术。7.5.2基于人耳听觉机理的声源定位系统人的双耳具有判断声源方向的能力,是利用声波传到
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 请示整改报告范文
- HCIA路由交换技术实战(微课版)-课后习题答案
- 二零二五年度正规欠款合同范本:商业保理业务合作协议
- 二零二五养老院院民文化参观出行合作协议
- 二零二五年度高端定制门安装与设计合同
- 二零二五年度电梯维保服务与智能化升级合同范本
- 二零二五年度企业ERP系统采购合作协议
- MySQL教程(新体系-综合应用实例视频)(第4版)习题及答案 -第08章
- 二零二五年度教育行业年合同制工人养老保险合同
- 二零二五年度健康养老项目终止合作框架协议
- 《现代家政导论》电子教案 1.1模块一项目一家政与家政学认知
- 《人工智能通识教程》(第2版)教学大纲
- 2024年监控摄像头项目建议书
- 科研伦理与学术规范-期末考试答案
- 中国移动自智网络白皮书(2024) 强化自智网络价值引领加速迈进L4级新阶段
- 2025届高三听力技巧指导-预读、预测
- 部编版 高中语文 选择性必修中 《玩偶之家》教学设计
- DB14-T 2779-2023 营造林工程监理规范
- 2024版《初中物理总复习》课件
- 公安机关人民警察高级执法资格考试试卷(附答案)
- 【UCM六辊轧机设计7600字(论文)】
评论
0/150
提交评论