语音信号处理第10章-声源定位课件

上传人：外*** IP属地：贵州上传时间：2022-12-02 格式：PPT 页数：28 大小：1.16MB 积分：25 举报 版权申诉

已阅读5页，还剩23页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第10章声源定位麦克风阵列模型房间回响模型概述双耳听觉定位原理及方法麦克风阵列的声源定位方法总结与展望10.1概述声源定位技术主要是研究系统接收到的语音信号相对于接收传感器是来自什么方向和什么距离，即方向估计和距离估计。声源定位是一个有广泛应用背景的研究课题，其在军用、民用、工业上都有广泛应用。声源定位技术的内容涉及了信号处理、语言科学、模式识别、计算机视觉技术、生理学、心理学、神经网络以及人工智能技术等多种学科。一个完整的声源定位系统包括声源数目估计、声源定位和声源增强（波束形成）。目前的声源定位研究主要分为两类：基于仿生的双耳声源定位算法和基于麦克风阵列的声源定位算法。应用——被动声定位器应用——HumanoidRobotHRP-2ICRA2004应用——助听器方向性麦克风技术应用——声相仪10.2双耳听觉定位原理及方法人类听觉系统对声源的定位机理主要是由于人的头部以及躯体等对入射的声波具有一定的散射作用，以致到达人双耳时，两耳采集的信号存在着时间差（相位差）和强度差（声级差）。对于频率较高的声音，还要考虑声波的绕射性能。由于到达两耳处的声波状态的不同，造成了听觉的方位感和深度感，这就是常说的“双耳效应”。不同方向上的声源会使两耳处产生不同的（但是特定的）声波状态，从而使人能由此判断声源的方向位置。总的来说，利用双耳听觉在水平面内的声源定位要比垂直面内的声源定位精确得多，后者存在较大的个体差异。10.2.1人耳听觉定位原理人耳可以听到频率在20Hz-20kHz范围内的声音。人耳听觉系统有两个重要的特性，一个是耳蜗对于声信号的分频特性；另一个是人耳听觉掩蔽效应。人耳对声源目标的水平方位评估相比其垂直仰角而言，则要精确的多。在混响环境中，优先效应起到重要作用，它是心理声学的特性之一。所谓的优先效应，当同一声源的直达声和反射声被人耳听到时，听音者会将声源定位在直达声传来的方向上，因为直达声首先到达人耳处，即使反射声的密度比直达声高10dB。当将优先效应用在混响环境中识别语音时，就产生了哈斯效应。哈斯观察早期反射声时，发现早期反射声只要到达人耳足够的早将不会影响语音的识别，相反的由于增加了语音的强度而有利于语音的识别。10.2.2人耳声源定位线索（1）双耳定位线索不同方向上的声源会使两耳处产生不同的（但是特定的）声波状态，从而使人能由此判断声源的方向位置。在实际应用中涉及到的定位线索主要有：ITD、ILD、双耳相位差（IPD）、双耳音色差（InterauralTimbreDifference）以及直达声和环境反射群所产生的差别。在低中频（f<1.5kHz）情况下，双耳时间差是定位的主要因素；对于频率范围在1.5~4.0kHz的信号来说，声级差和时间差都是声源定位的影响因素；而当频率f>5.0kHz时，双耳声级差是定位的主要因素，与时间差形成互补。总的来说，双耳时间差和声级差涵盖了整个声音频率范围。10.2.2人耳声源定位线索（2）耳廓效应耳廓效应的本质就是改变不同空间方向声音的频谱特性，也就是说人类听觉系统功能上相当于梳状滤波器，将不同空间方向的声音进行不同的滤波。耳廓具有不规则的形状，形成一个共振腔。当声波到达耳廓时，一部分声波直接进入耳道，另一部分则经过耳廓反射后才进入耳道。由于声音到达的方向不同，不仅反射声和直达声之间强度比发生变化，而且反射声与直达声之间在不同频率上产生不同的时间差和相位差，使反射声与直达声在鼓膜处形成一种与声源方向位置有关的频谱特性，听觉神经据此判断声音的空间方向。10.2.2人耳声源定位线索（3）头相关传输函数从某一个方位的声源发出的声信号在到达听者的耳膜之前必然与听者的头部、肩部以及躯干、耳廓发生了反射、折射、散射以及衍射等声学作用，其既与声源相对于听者的方向有关，也因人体部位形状及大小的不同而存在个体差异。人体的这些部位对声信号的影响可以统一用一个函数来表示，即头部相关传输函数HRTF。HRTF描述了声波从声源到双耳的传输过程，它是综合了ITD、ILD和频谱结构特性的声源定位模型。在自由场情况下，HRTF定义为：10.2.3声源估计方法对于不同的信号频率，双耳时间差模型有一定的变化规律，可以用参数化形式表示：

其中，αf是与频率相关的尺度因子。反转模型就可以得到水平角度θ，如下式所示：

上式不能通过普通方法求解方程，可使用切比雪夫序列获得的多项式近似，进而获得g-1的近似表示：

10.3麦克风阵列模型麦克风阵列结构就是一定数量的麦克风按照一定空间放置而构成的麦克风组，也称为麦克风阵列的拓扑结构。麦克风近场和远场模型的判断公式为：r<2L2/λ

。近场和远场模型下不同的拓扑结构所构成的导向向量也不相同。不同的导向向量携带的信息也不同，声源近场模型中所携带的信息不仅有距离、时延，还有声源空间位置；而声源远场模型中携带的仅仅是声源的空间位置信息，即方位和俯仰。此外，阵元间距也直接影响声源定位的结果，而阵元个数可以适当的提高定位精度。10.3.1窄带阵列信号处理模型10.3.1窄带阵列信号处理模型假设麦克风阵由M个全向麦克风组成，信号源的个数为P，所有到达阵列的波可近似为平面波。将第一个阵元设为参考阵元，则到达参考阵元的第j个信号为：由于信号满足窄带假设条件，则zj(t-τ)≈zj(t)，此时理想情况下第i个阵元接收到的信号可以表示为：

此时，整个麦克风阵接收到得信号为：

10.3.2麦克风阵列信号模型假设P个声源

Sj，M个无差异全向麦克风

Di。设声源为点源，位置矢量为:当麦克风阵列应用于室外或者大型会议室等环境时，声源与麦克风阵列相距较远，此时可采用简化的麦克风阵列的远场信号模型。时延可表示为：10.3.2麦克风阵列信号模型1）均匀线阵均匀线阵是一最简单常用的阵列形式。M个阵元等距离排列成一直线，阵元间距为d。考虑到声源频率在100~3400Hz之间，因此在空气中波长相应为10~340厘米。综合考虑空间采样定理，阵列尺寸等因素，阵元间距一般为5~15厘米。等距线阵的流形矩阵为：10.3.2麦克风阵列信号模型2）均匀圆阵均匀圆周阵列简称均匀圆阵（UCA，UniformCircularArray），是平面阵列。阵列的有效估计是二维的，能够同时确定信号的方位角和仰角。均匀圆阵相对于波达方向的信号的导向向量为：10.4房间回响模型在声源定位、信号提取、回波抵消等语音信号处理算法中，建立一个灵活、合理的房间混响模型对算法运行、评估具有重要的作用。Allen和Berkley在文献中提出的IMAGE法是构建房间混响模型最常用的方法之一。常见的房间声学环境仿真方法主要分为波动方程模型、射线模型和统计模型三种。1）

房间模型的意义2）

仿真原理与方法麦克风和第i个虚拟声源的距离可表示为：此时，虚拟源到原点的距离为每个虚拟源的延迟点数为2）

仿真原理与方法定义单位脉冲响应函数

为影响回响幅度的因素主要有两种：1）声源到麦克风的距离：幅度系数反比于距离，即2）声波反射个数：如果所有墙壁的反射系数

相同，则墙壁系数

定义为

则最终的幅度系数为综上所述，单位脉冲响应

为

3）

麦克风接收信号的模拟获得单位脉冲响应

后，麦克风接收到的信号为

此处，

hi(t)代表麦克风和声源对建立的脉冲响应，

pi(t)代表实际的声源信号。10.5麦克风阵列的声源定位方法基于麦克风阵列的声源定位算法大致可以分为三类：基于可控波束形成器的声源定位算法、基于到达时间差的声源定位算法和基于高分辨率谱估计的声源定位算法。1）基于最大输出功率的可控波束形成技术：对麦克风阵列接收到的语音信号进行滤波、加权求和，然后直接控制麦克风指向使波束有最大输出功率的方向；2）基于到达时间差的定位算法：首先求出声音到达不同位置麦克风的时间差，再利用该时间差求得声音到达不同位置麦克风的距离差，最后用搜索或几何知识确定声源位置；3）基于高分辨率谱估计的定向算法：利用求解麦克风信号间的相关矩阵来定出方向角，从而进一步定出声源位置。10.5.1基于最大输出功率的可控波束形成算法该方法的优点是可以一步完成定位，且在最大似然意义上是最优的，同时对不相关的噪声有抑制作用。最优的条件有两个：1）接收到的噪声是加性噪声、彼此互不相关、方差均一且数值不大；2）声源到麦克风距离相等。但是，在实际情况下，存在反射以及复杂的噪声影响，会影响该方法的精度。10.5.2基于到达时间差的定位算法基于到达时间差的定位算法的运算量较小，实时性效果比较好，而且硬件成本低。基于TDE的声源定位算法一般要分为两个步骤：第一，先进行时延估计，并确定麦克风阵列中不同麦克风对同源语音信号的到达时间差（TDOA）；第二，就是根据测定出的TDOA和各个麦克风的几何位置，通过双曲方程，来最终确定声源的方位和距离。时延估计算法的方法有很多，其中广义互相关法运用最为广泛。广义互相关法通过求两信号之间的互功率谱，并在频域内给予一定的加权，来抑制噪声和反射的影响，再反变换到时域，得到两信号之间的互相关函数。而互相关函数的峰值处，就是两信号之间的相对时延。广义互相关法就是在功率谱域对信号进行加权，突出相关的信号部分并抑制受噪声干扰的部分，从而使相关函数在时延处的峰值更为突出。10.5.2基于到达时间差的定位算法两麦克风接收到信号的广义互相关函数

可表示为：10.5.2基于到达时间差的定位算法名称广义互相关加权函数

ROTH平滑相干变换（SCOT）互功率谱相位（CSP或PHAT）Eckart加权最大似然加权（ML）HB加权10.5.3基于高分辨率谱估计的定位算法特征子空间类算法，是现代谱估计最重要的算法之一，通过对阵列接收数据作数学分解，划分为两个相互正交的子空间：与信号源的阵列流形空间一致的信号子空间，和与信号子空间正交的噪声子空间。子空间分解类算法，就是利用两个子空间的正交特性，构造出“针状”空间谱峰，从而大大提高算法的分辨力。子空间分解类算法从处理方式上大致可以分为两种：一类是以MUSIC为代表的噪声子空间类算法；一类是以旋转不变子空间（ESPRIT）为代表的信号子空间类算法。以MUSIC为代表的算法包括特征矢量法、MUSIC以及求根MUSIC法等；以ESPRIT为代表的算法主要有TAM、LS-ESPRIT以及TLS-ESPRIT等。10.6总结与

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

语音信号处理第10章-声源定位课件

文档简介

温馨提示

最新文档

评论

语音信号处理第10章-声源定位课件

文档简介

温馨提示

最新文档

评论

相关文档