机器人感知智能 课件 第5章 机器人听觉感知_第1页
机器人感知智能 课件 第5章 机器人听觉感知_第2页
机器人感知智能 课件 第5章 机器人听觉感知_第3页
机器人感知智能 课件 第5章 机器人听觉感知_第4页
机器人感知智能 课件 第5章 机器人听觉感知_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

机器人感知智能第五章机器人听觉感知声音是一种物理波动现象,即声源振动或气动发声所产生的声波。声波通过空气、固体、液体等介质传播,便能被人或动物的听觉器官所感知。声波具有一般波的各种特性,包括反射、折射和衍射等。声音还是一种心理感受,不仅与人的生理构造和声音的物理性质有关,还受到环境和背景的影响。图5.1声音的分类关系图5.1.1人类听觉模型一、声音的定义5.1机器人听觉概述纯音和复合音都是周期性声音,波形具有一定的重复性,具有明显的音高。纯音是只具有单一频率的正弦波,通常只能由音叉、电子器件或合成器产生,在自然环境下一般不会发生。日常生活和自然界中听到的声音大多是复合音,由许多参数不同的正弦波分量叠加而成。纯音和复合音之间可以互相合成与分解。从信号的角度——声音可分为纯音、复合音和噪声。从声音特性的角度——声音可划分为语音、音乐和一般音频。语音信号属于复合音,其基本要素是音高、强度、音长、音色等。音乐是人类创造的复杂的艺术形式,组成成分是上述的各种乐音,包括歌声、各种管弦和弹拨类乐器发出的复合音、少量来自环境声的复合音以及一些来自打击乐器的噪乐音。除了人类创造的语音和音乐,在自然界和日常生活中,还存在着其他数量巨大、种类繁多的声音,统称为一般音频或环境声。5.1.1人类听觉模型二、人类听觉中枢外耳包括耳翼和外耳道两个部分。从外耳道发出的声音在中频区域与外耳产生共鸣。外耳道的最后部分是一种称为鼓膜的薄膜。中耳包括鼓膜和内耳层,内层有三个听小骨,即锥骨、砧骨和镫骨,它们彼此相连。声波经外耳道进入后,会引起鼓膜的震动,三个与鼓膜连接的听骨会因为声音的震动而产生震动。内耳是人类听觉的一个主要器官,在内耳有一个重要的螺旋状环形通路,称为耳蜗。耳蜗是主要的听觉器官,它是由骨头组成,外形像蜗牛,里面充满了高电阻的淋巴。当声音传入耳内时,由外耳、中耳、内耳分别负责,共同发出“感觉”讯息给大脑。一般而言,声源与媒介间的时序差异和声源间的强度差异,可以帮助人们精确地确定声源的方位。5.1.1人类听觉模型三、人类听觉中枢的工作方式机器人听觉传感器的总体思想:模仿人的听觉中枢,完成语音信号的信息提取和声源定位。外耳鼓膜接收外界声音,鼓膜产生震动,中耳将这种震动放大、压缩和限幅,并抑制噪声。内耳的主要功能是对不同声音进行分析。纤维将基底膜接受声音时产生的震动变成电信号的平均值时,对应的继电器接通。位于耳蜗底部的基底膜使得耳蜗带有相异的电谐振以及机械谐振效应,如果接收到的声音信号中含有不同频率段,那么在基底膜的不同位置会产生由于行波差异导致的某个频率段的最大峰值。重合神经元主要负责完成突触和细胞体的响应,在整个听觉中枢系统中完成对语音信号的空间方位信息提取与整合。5.1.1人类听觉模型(一)声源目标的实时定位:在许多应用场景下机器人是需要实时与人进行沟通的,目标定位的实时性是机器人定位应用的关键问题,如何进一步提高算法的精度和速度是下一步研究的主要内容之一。(二)多语音识别:很多时候机器人实际工作环境不可能是单声源的,如何在多声源情况下服务机器人准确辨识、分离、判断任务,是人机互动的前提之一。(三)针对运动声源实现跟踪定位:机器人大多需要不停移动或者被服务对象是运动的,如何针对运动的声源进行定位、追踪,同样是服务机器人进行声源定位的研究内容之一。(四)智能、友好的交互方式:机器人可以透明地、主动与人交互,而人处于被动的方式。因此,服务机器人目标声源定位技术一定程度上受到相关技术的限制,例如声音的分离、检测以及识别等。一、听觉感知应用5.1.2机器人听觉感知二、机器人听觉在应用中需要解决的问题音频时频表示:包括音频本身的表示,如信号或符号、单声道或双声道、模拟或数字、声波样本、压缩算法的参数等;音频信号的各种时频表示,如短时傅里叶变换、小波变换、小波包变换、连续小波变换、常数Q变换、S变换、希尔伯特-黄变换、离散余弦变换等;音频信号的建模表示由于种类繁多,又通常包含多个声源,无法像语音信号那样被有效地表示成某个特定的模型,如源滤波器模型,通常使用滤波器组或正弦波模型来获取并捕捉多个声音参数。特征提取:音频特征是对音频内容的紧致反映,用来刻画音频信号的特定方面,有时域特征、频域谱特征、T-F特征、统计特征、感知特征、中层特征、高层特征等数十种。典型的时域特征如过零率、能量,频域谱特征如谱质心、谱通量,T-F特征如基于频谱图的Zernike矩、基于频谱图的描述子,统计特征如峰度、均值,感知特征如Mel频率倒谱系数、线性预测倒谱系数,中层特征如半音类,高层特征如旋律、节奏、频率颤音等。5.1.2机器人听觉感知声音相似性:两段音频之间或者一段音频内部各子序列之间的相似性一般通过计算音频特征之间的各种距离来度量。距离越小,相似度越高。在某些时域信息很重要的场合,通常使用动态时间规整来计算相似度,也可通过机器学习方法进行音频相似性计算。声源分离:与通常只有一个声源的语音信号不同,现实声音场景中的环境声及音乐的一个基本特性就是包含多个同时发声的声源,因此声源分离问题成为一个极其重要的技术难点。音乐中的各种乐器及歌声按照旋律、和声及节奏耦合起来,对其进行分离比分离环境声中各种基本不相关的声源要更加困难,至今没有方法能很好地解决这个问题。多模态分析:人类对世界的感知都是结合各个信息源综合得到的。因此,对数字音频和音乐进行内容分析理解时,理想情况下也需要结合文本、视频、图像等多种媒体进行多模态的跨媒体研究。二、机器人听觉在应用中需要解决的问题5.1.2机器人听觉感知5.2.1麦克风原理:电磁感应原理。当发射声波后,膜片产生振动,膜片内部缠绕的线圈(又称音圈)也随之振动。线圈缠绕在磁铁上,在磁铁产生的磁场内发生振动,振动导致电流产生,输出电信号。当话筒采集到的声音时,在音圈内产生的电流的幅度和方向也会随之改变,获取到的声音信号决定了感应电流变化的大小。优点:结构简单、稳定性好、自身噪音小、容易操作、实用性好、成本低。缺点:灵敏度低、频率范围窄。结构:电容式麦克风内包含三部分,即振膜、金属极板和负载电阻。原理:内部含有两个导电膜片,当振膜受到声波振动时,导电膜片之间的电容大小产生变化,导致整个电路中的电流随之变化。电流的变化导致负载电阻上产生相对应的电压,将接收到的声音信号就变成电信号。优点:具有平坦的频率响应。对于语音信号的识别,语音频率范围内灵敏度统一,有利于单通道语音识别处理。缺点:灵敏度不足、识别距离有限、功耗大、大放大电路不稳定等。图5.6动圈式麦克风结构示意图一、动圈式麦克风二、电容式麦克风5.2声音传感器毫米级驻极体麦克风具有极低的杂散电容、自偏置、可大规模生产、可阵列、可与片上电子器件集成、结构简单且在普通环境中随时间推移极其稳定等特点。在声控电路、录音机、无线话筒等方面广泛应用,在其生产高峰时每年产量超过10亿个。由于出色的电荷存储氟碳聚合物的特性,几乎所有商用非硅驻极体麦克风使用碳氟化合物驻极体,例如聚四氟乙烯,且考虑到输入输出阻抗问题,驻极体电容式话筒在工作时需要直流工作电压。图5.7驻极体麦克风优点:高可靠性、高稳定性、高一致性、低不良率和低返修率等优点。图5.11MEMS传感器结构示意图与传感器实物图片(一)驻极体麦克风(二)MEMS电容传感器5.2.1麦克风压电式麦克风是用晶体或陶瓷(钦酸钡等材料)作为变换元件,利用压电原理将机械振动从声波信号转换为电信号。在压电式麦克风中,常用用来制造振动隔膜的压电材料是氮化铝和氧化锌。压电式麦克风的优点是灵敏度高、体积小。压电效应是通过变形来产生电荷,除了可以作为声音传感元件,压电效应所产生的电信号还可用于感知运动引起的物理或化学效应。图5.12柔性压电式麦克风的工作流程示意图

电容式压阻式电磁式压电式检测信号电容电压电流电压外部供电需要需要不需要不需要开路灵敏度低低低高频率响应平坦尖峰尖峰声音频带可调表5.1不同声传感器的性能对比三、压电式麦克风5.2.1麦克风

图5.14几款超声波传感器芯片:(a)MaxBotixInc.(MB1414-000);(b)MaxBotixInc.(MB1443-000);(c)TDKInvenSense(MOD_CH101-03-01).超声波是一种具有很短的波长(在空气中不到2厘米)的机械波,它必须通过媒介来传递,在空中的传播速度没有声音和次声波快,在水里的传播范围要更大一些。超声传感器测距包括三个主要过程,即超声波的产生、传播和接收。5.2.2超声波传感器超声波传感器是一种应用超声波技术研制而成的传感器,可以把各种能量和超声波转换成各种形态的装置。超声波传感器的核心部分是一种能够发出和接收声波的压电片。超声波探头可以分为直探头、双探头、斜探头等。超声波沿着一条直线进行传播,其发射频率越高,其反射性能越好。目前超声传感器的市场份额最大的是电声型传感器和水力型超声波传感器。一、工作原理电声传感器包括压电、磁致伸缩、静电三大类;液动超声传感器分为两类,即气态和液态。5.2.2超声波传感器超声波接收器的工作原理:利用发电机中的压电晶体共振来生成声波。常见的压电式超声波传感器内部包括两块压电晶圆和一块喇叭或共振板,当负载的脉冲信号与压电晶圆的自振频率一致时,它们就会发生共鸣,从而引起振荡,因此形成了超声波信号。反之,在不将脉冲信号导入压电晶圆的两端时,若在扩音器或共振板上检测到超声波,则该扬声器或谐振板将引起振荡,从而使压电晶片产生振动,使物理机械能量转化为电能,而压电晶体在振动时,将会产生电信号,从而使压电晶体的两端产生电信号,这时,超声波发生器就变成了超声波接收器。接触式超声传感器主要用于变压器、组合电器等大型电力设备监测;非接触式超声传感器则主要用于电力电缆、开关柜等电力设备检测。图5.16超声波往返时间检测法测距原理示意图图5.15常见超声波传感器外观及结构示意图5.2.2超声波传感器常规脉冲回波超声波传感器,其测距方法包括单程测距法和双程测距法。单程测距法中传感器信号发射端和接收端分离,信号接收端配置在待测目标处,发射端发射信号,接收端接收信号,根据信号传播速度和渡越时间的乘积,计算获得距离。距离计算公式:l表示超声传感器信号的发送端到被测量对象的信号接收端的距离,c表示在空气中超声的传播速率,∆t表示从信号发送端到被测量对象的接收端的超声传输的传输时间。图5.19双程测距法原理图图5.18单程测距法原理图双程测距法与单程测距法的不同之处在于超声波传感器信号发射端与信号接收端配置在一起。距离计算公式:5.2.2超声波传感器二、声呐声呐检测利用了声波在水下的传播特性,发射声波在水中传播遇到物体发射的回波获取目标信息,完成水下目标检测。水下声传播可以用声波P的齐次波动方程来描述:其中c为水中声速,x,y,z为空间方向。通常用声场信号强度的衰减来度量传播损失的大小,某点与参考点距离之间的声信号强度损失为传播损失:声波的强度随传播距离增大会呈现指数衰减的变化规律,另外声波的振动频率、环境温度和介质特性也会造成声波强度的变化。一、仿生听觉传感器蝙蝠耳仿生麦克风:蝙蝠具有极其强大的检波、抗噪、自适应能力,是目前的声呐系统、雷达系统所无法达到的。仿蝇耳麦克风:一种具有指向性、灵敏度高特性的微型传声器蚊子听觉仿生系统:蚊子的听觉系统位于其头部触角上。当有声音传过来时,触角上的鞭毛会发生弯曲变形,拉动触角中的神经发生形变,使得神经膜内外电位差变化,从而将这种信号传输给蚊子大脑来感知声音信号。二、柔性压电声学传感器压电膜的厚度和形状是影响谐振频率的关键因素,设计时应该重点考虑;柔性压电膜可以根据通道宽度产生多个频率分量数据集,多通道信号可以获得两倍以上的语音信息进行语音处理;具有基于充足数据进行机器学习训练和从多通道输入中选择有用信号的优点。5.2.3其他声音传感器三、光纤声音传感器光纤声学传感器是一种利用光纤作为光传播的声学传感器媒体或检测单元。与传统的电声传感器相比,它具有灵敏度高、带宽频率响应、抗电磁干扰等优点,对国家安全、工业无损检测、医疗诊断、消费电子等领域具有重要价值。声场与光的耦合方式有间接耦合和直接耦合两种。间接耦合型光纤声传感器:分为光强调制型、相位调制型和波长调制型等类型。直接耦合型光纤声传感器:不使用声耦合材料,直接利用光束检测声波引起空气介质折射率的微小变化实现声探测,相比间接耦合型光纤声传感器,具有稳定性好、高频灵敏度高、大带宽、大动态范围等优点,主要包括自耦合效应型和法布里—珀罗标准具(FPE)型两种类型。衡量光纤声传感器性能的参数主要包括:灵敏度、信噪比、频率响应和动态范围。5.2.3其他声音传感器5.3.1语音信号特点一、语音的声学特性和短时性声道是一个可以放大一定频率的共振腔,同时也可以削弱其它频率的能量,这种共振频率就是所谓的共振峰值。谐振峰与声道的尺寸相关,不同组之间的谐振峰一一对应。语音的频谱特征主要取决于谐振峰值。因为不同说话人的声道尺寸是不一样的,所以谐振峰值和说话人有着很大的联系。即便是同样的音位,由于说话人的差异,其共振峰也会发生很大的改变。在语音识别中,需要考虑三个以上的共振峰。二、语音信号特点汉语以汉语拼音为基础。汉语一字节是由声母和韵母组成的,通常一个声母中只有一个辅音,而韵母是一个或几个以上的元音或元音和辅音的结合。汉语是一种声调语言,汉语声调的识别功能是其最基本的功能,其主要功能是根据调式进行区分不同的音调。英语里的每个句子都有一个重读。在口语中,有时还会出现两个或更多的重读,所以,在口头交流中,重音是表达意义的象征,而重音同时也是一条重要的信息。5.3语音识别二、语音识别系统分类(一)按照说话人分类说话人识别的特征提取与语音识别的特征提取正好相反,语音识别是要找到不同说话人相同语音之间的共性作为特征,而说话人识别则需要使用说话人之间的区别作为特征。说话人识别的特征在层次上又可分为低层的声学特征和高层的语言习惯特征,而在目前的研究水平,可区分性较强、稳定性较高特征还仅限于低层的声学特征,是基于个人的发声器官的生理特性的特征。具有较好效果的特征主要有如下几种:

基于发声原理的管道模型的线性预测系数及其各种变体;语音频谱导出系数组,包括基音轮廓、共振峰、语音强度以及其变迁特性;基于听觉感知原理的特征,以美尔频标倒谱为代表。5.3.2语音识别概述二、语音识别系统分类(二)按照词汇量分类大词汇量指的是500字以上的识别,小词汇量是指100字以下的识别,除此之外,还有中等词汇量的识别。例如,MHINT语料库:包含男性发音的480个语句,每个语句包含十个汉字。语音采样率均为16kHz。(三)按照表达方式的不同分类对于一次语音输出,机器可按照连续信号、孤立词、关键词三种方式检索识别。连续语音识别计算量较大,对一段连续的语音信号进行识别处理;孤立词即机器对一个个孤立的字或词进行识别,所以运算量较小;关键词语音识别即机器从一段语音信号中找出需要的关键词进行识别。5.3.2语音识别概述三、说话人识别基本原理说话人识别系统由语音数据预处理、特征提取、模型训练、模式匹配四部分组成。在训练阶段,系统根据输入的语音数据提取特征,利用声纹识别算法训练出模型;在识别阶段,系统提取输入语音数据的特征,并将该特征输入训练好的识别模型,输出识别结果。图5.25说话人识别系统架构语音情感识别语音情感识别是指从语音信号中识别出说话人的情感状态,常见特征包括:特征名称说明基音基因频率及其导数,以及均值,方差等统计量基音轮廓轮廓以及各种几何学特征强度短时能量及其导数的各种统计量语速单位时间内的符号数量音质共振峰的频率及其带宽5.3.2语音识别概述预处理

将输入的音信号数字话并转换成适合在计算机系统中进行运算的结构以及调整数据的特性。特征提取

从语音流中找到声学特征的表达参数,能够有效的包含应语音段的有效信息。特征训练

先将训练的声音输入到语音,再通过预处理、特征抽取等方法,获得一个特征向量的参数,再利用该模型建立一个训练语音的参照库,或者在模式库中修改该参照库。识别

将输入的语音特征矢量和参照模式库的相似度进行测度,并将它们的相应类型作为识别的中间候选。后处理判别模块是利用语言模型、词法、句法等多种知识进行最后的辨识,以达到语音识别的目的。图5.26典型的语音识别系统结构语音数据处理包含了语音信号预处理、特征提取、特征训练、识别与后处理判定等多项功能,后处理和判决是任选的。5.3.3语音数据处理一、语音数据预处理图5.27语音识别预处理基本流程(一)采样与量化声带发出的原始声音是连续的,而录音机则会接收到持续的讯号,也就是模拟讯号,需要取样、量化,然后再用电脑进行处理。取样是指在时间线上以某一频率(也就是间隔一段时间),用每一次模拟信号的模拟量替换原先连续的信号。奈奎斯特取样频率:假定频谱限制信号f(t),在频谱在-ωm~+ωm范围内时,可用等间距取样值来唯一地表达信号f(t)。(二)预加重目的是消除声门激振和口鼻辐射,人为地利用预加重功能强化了语音信号中的高频成分,改善了高频段的信噪比,降低了语音信号在发射时产生的能量损耗,使得声音的高频部分得到增强,使得信号的频谱更加扁平。5.3.3语音数据处理一、语音数据预处理(三)分帧与加窗可以把话音分成短时的语言,每一段都被称作“帧”,所以对话音信号的处理必须基于它的“短时性”;分帧是通过窗函数实现语音信号截断,但截断后的短时语音信号会导致信号的频谱特性发生突变,产生无限带宽;在语音分帧时,常采用一种可动的有限长窗来进行加权,而窗的选取会影响其短期能量,并将其视为滤波器的单元冲击响应。(1)矩形窗

(2)汉明窗(3)汉宁窗5.3.3语音数据处理(四)端点检测实际的语音识别中,由于语音信号中会含有噪音,因此,首先要对语音输入进行判定,并从中找到含有有效信息的起始点,从而确保所获取的声音是真正有用的;通常采用短时能量、短时平均振幅、短时过零率等时域参数来判定有效信号的起始和结束。语音信号的短时能量定义为:其中,窗口长度为N,短时能见度为一帧样点的加权平方和。短时能的主要功能是:首先,它可以区分清音与浊音,因为在浊音时,短时间内的能量E(n)要比清音大。语音信号的短时平均过零率定义为:一、语音数据预处理5.3.3语音数据处理二、特征提取(一)线性预测系数LPC线性预测的基本概念:将其以往几次抽样值的权值(线性结合)用于预测,其中每一权重系数都是以最小的预测误差平均方值为原则(也就是按照所谓的最小平均方差标准),那么就是p级的线性预测因子(Linearitypredictscoefficients,LPC)。设P{x(n)|n=0,1,...,N-1}为一帧语音采样序列,则第n个语音样点值s(n)的p阶线性预测值为:式中p为预测阶数,ai

(i=1,2,...,p

)是线性预测系数。预测误差ε(n)为:5.3.3语音数据处理二、特征提取线性预测倒频谱系数(Linearitypredictscepstrumcoefficients,LPCC)是一个较为关键的特征参数,它可以较彻底地消除语音生成时的激励信息,并能很好地反映出语音的共振峰。在线性预测分析中,通道模型是一个完全的极点模式:LPC分析的重要意义:该方法能提供一套简单的语音模型参数,能够更准确地反映出语音信号的波幅,并且其运算量也不大,可以用来做模板,既能提高识别率,又能缩短处理时间。LPC倒谱系数不足之处:其建立在全极点模式的基础上,因而不能准确地反映清、鼻音,同时又包含了零点效应,故在理论上,应采用极点模式。(二)线性预测倒谱系数LPCC5.3.3语音数据处理二、特征提取(三)梅尔倒谱系数MFCC在求取梅尔倒谱系数(Mel-frequencycepstralcoefficient,MFCC)的过程中,根据梅尔频率与Hz的对应关系,类似临界频带的划分,可以将语音频率划分成一系列三角滤波器序列,即梅尔频率滤波器组,每个滤波器在以梅尔为单位的频率轴上是不等间距的,而是符合临界带宽的分布特性。取每个三角形的滤波器频带宽内所有信号幅度加权和作为某个带通滤波器的输出,然后对所有滤波器输出做对数运算,再进一步进行离散余弦变换(Discretecosinetransform,DCT),即得到MFCC。将各三角滤波器频率带宽中的信号幅值相加,并将其作为一个带通滤波器的输出,并对各滤波器的输出进行对数运算,最后进行DCT,即获得MFCC。5.3.3语音数据处理(一)动态时间规整法(DynamicTimeWarping,DTW)动态时间规则问题是最典型的,其最大的特点是:在此基础上,利用一条有条件限制的时间规则函数来描述模型与样品模板之间的时间对应关系,并在此基础上求出相应的规则函数。(二)矢量量化(VectorQuantization,VQ)模型向量量化指的是把说话者当作一个声音信号源,通过向量量化技术对其进行建模(通过训练序列聚合产生

VQ代码书),使得

VQ代码书与说话者一一对应,在进行识别时,使用全部码本编码输入的测试序列,并计算出相应的平均量化畸变,再进行比较,确定出失真最少的基准模式。图5.17基于VQ技术的说话人识别系统原理图三、模型训练与模板匹配5.3.3语音数据处理(三)隐马尔可夫模型隐马尔可夫模型是一种以转移概率和输出概率为基础的随机模式,其原因在于,一种具有n个状态的S1,S2,……,Sn的模式,将输入的特性从一种状态转换到另一种状态,每次由于无法观测到状态转换序列,因此只能根据已知的输出符号序列进行运算,并对其进行预测。为每一个说话人构建一个特殊的语音模型,然后经过训练,获得一个状态转换的概率矩阵和符号的输出概率矩阵。在辨识时,通过计算状态转换中未知语言的最大机率,并利用最大概率对应的模式判断出说话者的身份。图5.19状态转移模型三、模型训练与模板匹配5.3.3语音数据处理语音识别系统可分为离线语音识别和在线离线语音识别系统。离线语音识别:词语库比较小,属于小词汇量语音识别,不依赖网络环境,识别过程在硬件内部自动完成;受嵌入式硬件平台的限制,导致离线语音识别不能占有过多的存储空间,而且不能进行太多复杂的运算处理;目前主要以嵌入式平台为主,通过启动专用语音识别芯片的方法来进行语音识别。在线语音识别:针对大词汇量的连续语音识别的分布式语音识别系统;每次识别前将需要识别的语音内容上传至服务器,然后通过服务器进行运算处理,最后与词语库中的词语进行匹配,最后再将结果反馈给说话者。一、语音识别模块(一)MEGASUN-M6语音识别模块(二)LD3320芯片(三)XFS5152CE芯片5.3.4语音识别系统二、硬件开发语音识别芯片:语音信号的处理和识别;单片机:主控芯片加以控制,同时与上位机进行通讯;外部寄存器:动态地添加和编辑需要识别的词语库;USB转串口模块:将硬件系统方便地与上位机建立通信;专用的语音识别芯片:用麦克风接收说话者的语音信号,进行处理和识别。三、软件开发(一)Arduino开源平台(二)DeepSpeech开源平台(三)Kaldi开源平台(四)CMUSphinx语音识别器5.3.4语音识别系统5.4.1人耳模型在大多数人类声音定位研究中,声源被限制在两个平面中的一个:水平面或垂直(中矢)面。水平和垂直定位之间的区别似乎也可以通过水平和垂直定位的主要空间线索(即双耳差异线索与单耳线索)的差异来证明。入射到听者耳朵上的声波会被面对入射波一侧的头部反射,衍射到头部阴影一侧的耳朵,并通过耳廓传输到耳膜。这些反射和衍射产生双耳时间差和双耳强度差,这是众所周知的双耳差异线索。5.4.2麦克风阵列麦克风阵列由若干个具有特定几何结构的感应器构成,具有很好的空间选择性,能够在一定的距离上对声源进行自适应探测,并能进行轨迹定位。麦克风阵列能够有效地解决单一话筒在空间信号的接收与处理上的不足。机器人听力系统通常采用多种形式的传声器,通过多种方法组成一个阵列,从周围环境中采集声音,并对不同方位的声音进行加强。5.4声源定位(一)线性阵列图5.23线性阵列示意图(二)二维平面阵列指向性模式图5.25二维面阵示意图5.4.2麦克风阵列(三)三维立体阵列1.四元正四面体阵列:图5.28正四面体阵列结构与位置示意图2.五元正四面体阵列:图5.29五元正四面体阵列结构3.球形阵列:图5.30球面阵列示意图5.4.2麦克风阵列固定波束形成。固定波束成形可以看做是一种闭环系统,在这种系统中,接收到的信号的随机统计特性决定了其性能的好坏,为了能够更好的降低噪声和干扰对语音的影响,进行固定波束形成前需要知道信号和干扰、噪声的具体位置。它的各项参数在进行波束形成前就由开发人员固定,不因信号的改变而改变。自适应波束形成。该类波束形成算法常以具体准则为基础提出相应的算法,可用较少的麦克风取得较好的去噪效果。自适应波束形成算法本质上以信号处理为基础,仍只是将语音看做普通的传输信号处理。

盲源信号分离。该类算法分为三类,第一类方法被称为独立分量分析,它是在信号经过变换后,保证不同的信号分量之间的相依性尽可能的减小。5.4.2麦克风阵列双耳声源定位主要机理:1.双耳间声强差:声源在左右耳的声音强度差;

2.双耳间时间差或相位差:点声源抵达左右耳的时间差;

3.频率线索:基于频谱相关特性来进行声源定位。在三维空间声场中,空间上的描述有三个维度:1.左右空间方位:这个主要是依赖于双耳线索,通过声音抵达双耳之间的差异,来判断声音的左右偏向。ITD是声源抵达双耳的时间差,ITD范围为0~690𝜇𝑠区间。2.上下空间方位:主要是通过耳廓的形状,造成不同入射角有不同的折射程度而产生的差异。大多数频谱线索位于4~16kHz的频率范围。

3.远近空间方位(Distance):远近维度其实就是声源到达双耳的能量,能量大听觉上感觉近,能量小听觉上感觉远。

5.4.3声源定位方法

一、基于声波到达时间差声音定位的基本思想是从一对麦克风之间的到达时间差推导出声源的方向;时差可以在短时间内通过通用互相关方法进行估计;通用互相关方法可以通过不同的加权方案进行增强,如相位变换。二、基于最大输出功率的可控波束形成技术波束形成器形成标量输出信号,作为传感器阵列接收的数据的加权组合;权重确定波束形

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论