




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、基于峰值跟踪和调幅的单声道语音分离胡国宁俄亥俄州立大学生物物理计划H概要单声道语音分离对于听觉分析(ASA)仍然是一个计算上的挑战,对于现有的计算视觉分析(CASA)系统来说,最大的问题在于它们无力应对信号的高频变化范围。心理声学证据表明不同的感性机制涉及处理已解决和未解决的谐波。我们提出了一种用以分别处理低频和高频信号的语音分离系统。对于低频信号,我们的模型生成基于段时间连续性和交叉信道相关性,以及根据周期的分片将它们分组;对于高频信号,该模型基于除了时间连续性之外的公共振幅调制(AM)生成段,并且根据AM重复率对其进行分组。分组过程的基础是首先从基于全局音调的分离语
2、音估计然后通过心理声学约束来验证的音高轮廓。我们系统地评估过我们的系统,它产生比以前的CASA系统更好的性能,特别是在高频范围。1.简介在现实世界环境中,通常目标语音同时伴有声干扰。有效的王德良俄亥俄州立大学计算机信息科学系认知科学中心语音分离系统将大大方便许多应用,包括自动语音识别(ASR)和说话人识别。 已经提出了许多系统来处理语音分离,主要使用盲源分离(BSS)1或语音增强技术2。 当存在足够的传感器并且混合信号满足一些统计独立性时,BSS执行良好。 然而,BSS技术需要至少两个传感器,而诸如电信和音频检索的许多应用需要单声道(一个传感器)的
3、解决方案。 语音增强技术在其中关于目标干扰的一些现有知识可用的特定环境中表现良好。 然而,没有系统可以用一个传感器有效地从各种声学入侵中分离语音。虽然单声道分离仍然是计算系统的一个困难的挑战,听觉系统显示单声道分离的令人印象深刻的能力。ASA是一种感知过程,其中声学混合物被分析并分离成对应于声源的流3。 已经进行了大量研究来建立单耳CASA系统4-7。 几乎所有现有系统都将周期性作为主要的分组提示。 然而,这些系统的性能有限,并且近年来的进展停滞不前。 当前系统的主要问题是它们缺乏处理高频信号的能力。混合语音 外围中级处理 初始分片 高音采集 终级分片 重组 分离语音我们研究单声道语音分离,特
4、别强调高频问题。 对于浊音信号,我们注意到听觉系统可以解决在低频范围的前几个谐波,但高次谐波未解决,除非它们比相邻的更强烈8。 心理物理证据表明了以处理已解决和未解决的谐波的不同机制9。因此,根据Bregman 3的原理,我们的模型采用不同的方法在低频范围和高频范围内分离目标语音。ASA分两个阶段进行:分割(或分析)和分组。 在分割中,声输入被分解成感觉段,每个感觉段将属于一个源。 在分组中,可能对同一来源做出响应的那些分组被分组到一起。 受tbis建议的启发,我们的模型在所有频道的两个相应阶段执行隔离。 更具体地,对于低频信道,我们的系统基于来自附近信道的响应之间的时间连续性和交叉信道相关性
5、来生成段。 通过将这些响应的周期性与目标语音的估计音高进行比较来对这些段进行分组。另一方面,由于宽带宽的高频信道倾向于响应通常未解决的有声语音的多个谐波。这些高频响应是幅度调制的,并且它们的包络在对应于基频(PO)10的频率处波动。我们的模型基于共同的AM和时间连续性在高频范围中产生段。 通过将AM重复率与目标语音的估计FO进行比较来对这些段进行分组。 此外,我们提出了一种新的音高跟踪方法。首先,前景流根据混合物的总体间距从混合物中分离7。 然后,从前景流估图1.所提出的系统的示意图计目标语音的音高轮廓。 最后,根据两个心理声学刺激的约束来检查估计音调:I)精确音调周期应该与目标语音占优势的声
6、道中的响应的周期一致; 2)间距周期应该在时间上平滑变化。第2节描述整个系统。 在第3节中,给出了系统结果和与现有CASA系统的比较。 第4节总结本文。2.模型描述我们的模型是一个多级系统,如上图1.所示。下面将给出每个阶段的描述。2.1 外围中级处理以及初始分离首先,通过外围模型分析声输入,所述外围模型包括具有128个伽马滤波器组和随后的毛细胞转导的耳蜗滤波。该外围处理在20ms长的时间帧中进行,并且在连续的两个之间重叠10ms。 最终,输入信号被分解成一组单元。 每个时频单元包含特定帧中某个信道的响应。 响应的包络通过具有通带0,1kHz和18.25ms的Kaiser窗的低通滤波器获得。
7、通过计算各个响应及其包络的相关图(自相关函数)来执行中间处理。 从总结相关图获得全局音高轮廓。初始分离在两个步骤中进行。 首先,通过基于时间连续性和交叉信道相关性对相邻时间 - 频率单元进行分组来形成段。通常,段对应于输入信号的分解分量,并且其中大部分位于低频范围中。 然后,根据全局音调,将片段分组为对应于目标语音的前台流和对应于侵扰的背景流。在Wang和Brown的振荡相关模型7中描述了类似的过程。2.2 目标高音跟踪首先,根据前景流估计目标语音的音调周期。 在每个帧中,前台流中的单元的自相关函数被交换。 音调周期是对应于范围2ms,12.5ms中的和的最大值的滞后。图2.“X”标记从有声话
8、语和“鸡尾酒会”(杂乱无章的)噪声的混合估计的目标话音的音调周期。 实线是从干净的语音获得的音高轮廓。由于前景流仍然包含侵入,所以估计的音调周期中的一些不准确。 我们的系统用两个约束重新估计目标音高。首先,帧中的精确基音周期应与前景流中此帧中的那些单元的周期一致。 令(j)表示帧j中的估计音调周期,A(i,j,)表示信道i的自相关函数。该单元如果满足下式,则(j)一致:A(i,j,(j)/A(i,j,m) >d (1)这里d =0.95,m是对应于 2ms,12.5ms的对应于A(i,j,'l)的最大值的滞后。 如果帧j中的前景流中的多于一半的单元与(j)一致,则该单元被标记为可
9、靠。 第二,音调周期应该在时间上平滑地变化。 我们规定连续帧中的可靠音调周期之间的差异小于20%,这个数据是从经验数据证明的。否则,它们被标记为不可靠。不可靠的音调周期由通过时间连续性获得的新值代替。 假设在两个连续帧j和j + 1中,(j)是可靠的而(j + 1)是不可靠的。 选择对应于与帧j中的r(j)一致的小区的所有信道。(j + 1)从对应于那些所选信道的帧j + 1中的小区的自相关的求和获得。 然后使用第二约束来验证。 最后,每个不可靠的音调周期由来自附近帧的可靠音调周期的线性内插代替。 作为示例, 图2示出了来自浊音话语和鸡尾酒会噪声的混合的估计音调周期,其与从干净语音获得的音调周
10、期匹配。2.3 基于高音的标签使用估计的音调周期,左(1)式提供标准来标记目标语音在小区或点中是否占优势。该标准将估计的音调周期与小区中的响应的周期性进行比较。它在谐波分解的低频范围内工作良好。然而,它不适合于高频信道,因为它们的响应可能包含多个谐波,因此是幅度调制的。如图3所示,对于具有强AM的响应,音调周期对应于相关图中的局部最大值而不是全局最大值。此外,相关图的峰值是陡峭的,这使得(1)对干扰太敏感。图3. (a)中心频率为2.6kHz的信道的响应。 输入是图2中使用的干净的语音。(b)对应的自相关函数。 垂直线标记音调周期的位置。对于高频响应,其中语音占优势,响应包络以F0 10的速率
11、波动。基于这种现象,我们通过比较重复率和估计的瞬时FO来提出一种新的标准,其通过内插目标语音的估计音调周期获得。为了获得AM重复率,首先,每个通道的响应被半波整流,然后带通滤波以除去对应于FO的那些之外的DC分量和谐波。具有通带0.9 f/ 1.2f和50ms-100ms的Kaiser窗口的滤波器用于每100ms周期中的响应。 f是估计的瞬时FO在100ms中的平均值,并且其确定窗口大小。通过在频域中的线性预测算法获得的整流和滤波信号的瞬时频率(IF)11,指示响应的AM重复率。测量估计的瞬时FO和AM重复率之间的相对差,记:Di,j=1Mk=0M-1logf0jT-k-logf1i,jT-k
12、)2 (2)其中f0(t)是估计的瞬时FO,M跨度为20ms,T = 10ms。 D(i,j)越小,目标语音越有可能主导分片。 以下标准用于标记目标语音在小区中是否占优势: Di,j<f (3)如果FO的差大于10,则听众可以辨别具有未解决谐波的两个同时的声音9。 如果在f1(i,t)和f0(t)之间存在恒定的10的差,则D(i,j)约为0.1。 考虑到f1(i,t)和f0(t)之间的差更可能是高斯分布,我们将f设置为0.15。2.4 最终分离首先,基于满足(3)的区间的时间连续性和公共AM重复率,生成高频范围中的段。在该处理中,由于上述原因,仅考虑既不在前台流中也不在后台流中的单元。在
13、这个分割过程和初始分离过程之间应该没有冲突。此外,在初始分离中产生的片段倾向于反映已分解的片段,因此应当保留。 通过响应包络的交叉信道相关来测量附近小区的响应之间的AM重复率的相似性。通过对满足上述标准的相邻小区进行分组来形成段。 它们中的大多数在高频范围内。然后,这些段被分组为前景流。除了这些,前景流中的其他段被分离,使得一个段中的所有单元都满足或违反(1)。作为结果,一些段被从前台流中移除,并且如果它们包含仅违反(I)的单元,则它们被放入背景流中。根据时间和频谱连续性对不属于任一流的其他单元进行分组。 更具体地来说,首先,通过对违反(1)或(3)的邻近小区进行分组,背景流迭代地扩展,直到不
14、再能够添加小区。 然后,通过迭代地对满足(1)或(3)的相邻小区进行分组来扩展前景流。最后,可以从前台流中重新合成分离的目标语音。 在重新合成中,前景流中的单元格的信号被保留,而其他信号被删除5。3.结果和比较我们的系统是由Cooke 4收集的100混合物组成的语音库,包括由10个语音混合与10个侵入(杂音)。 从分离的语音流重新合成的语音波形用于评估。对于每个混音,从理想二进制流重新合成的语音波形,其由目标语音占优势的所有单元组成,被用作目标语音的地面实况。 理论上讲,理想的二进制掩码给出了所有二进制掩码的性能上限。这种评价方法得到以下观察的支持。在临界频带,弱信号被更强的一个掩蔽8。 此外
15、,理想流类似于在最近的ASR研究中使用的现有掩模12,其产生优良的识别性能。图4展示出了从有声话语和鸡尾酒会噪声的混合分离的语音流。 它很好的匹配了图4(b)所示的理想二进制流。设S(t)为我们的系统的再合成波形,I(t)为来自理想流的波形,e1(t)为I(t)中存在但在S(t)中图4. (a)分离的语音流。 (b)理想的二进制流。 输入信号是与鸡尾酒会噪声混合的有声话语。缺失的信号;e2(t)为S(t)中存在但在I(t)中缺失的信号。我们测量能量损失的比率REl和噪声残留RNR的比率,算式如下:REl=te12(t)/tI2(t) (4)RNR=te22(t)/tS2(t) (5)结果如表1
16、所示,比较王 - 布朗系统的结果7,其具有最好的性能同一语料库。每个值是某个入侵类型的平均值。与王 - 布朗系统相比,我们的系统产生显著更小的能量损失比,特别是对于N1和N3。 除了N9以外,在两个系统中获得类似的噪声残留比率,其中我们的结果好得多。 我们注意到,我们的整体改进主要来自高频频道。为了直接比较波形,我们还使用I(t)作为基准实况测量了以分贝为单位的信噪比(SNR)的形式:SNR=10log10tI2t-St2 (6)每个入侵的平均SNR如图5所示。 与王 - 布朗模型相比,我们的模型提高了所有入侵的信噪比。 平均增益约为4.5 dB。表1:所提出的系统和王 - 布朗系统的隔离语音
17、的REL和RNR。 每个值是每个入侵超过10个浊音话语的平均值。 (侵入类型是:NO纯音,N1白噪声,N2噪声突发,N3-鸡尾酒会噪声,N4摇滚音乐,N5-警报器,N6- trill电话,N7-女性语音,N8-男性语音 ,和N9-女性言语)。4.结论图5.分离目标语音的SNR。 白条:我们系统的结果,黑条:Brown-Wang系统的结果。 不同的入侵类型如表1所示。我们的模型估计基于全局高音的初始分离。估计的音调周期通过心理声学激励的约束来校正。 因此,大多数估计的音高轮廓接近于从干净的语音获得的音高轮廓。通过可靠的音调,我们的系统以不同方式处理低频和高频信号。AM重复率用于在高频范围内的分离
18、。 我们的单声道模型已经对混合语料库进行了系统评价,并且它产生非常好的结果。 我们的系统的性能明显优于在同一语料库上评价的一个先前的CASA系统。 我们的研究表明,考虑到听觉系统的显着能力的任务,并入ASA原则的计算调查是单声道隔离的有前途的方向。致谢这项研究部分由NSF基金(IIS-0081058)和AFOSR基金(F49620-01-I-0027)支持。参考文献I V. Zarzoso and A. K. Nandi, "Blind Source Separation,"Blind Estimation Using Higher-order Statistics, Bo
19、ston:Kluwer Academic Publishers, 1999, pp. 167-252.2 D. O'Shaughnessy, Speech Communications. Human andMachine, 2nd Ed. New York: IEEE Press, 2000, pp. 323-336.3 S. Bregman, Auditory Scene Analysis, Cambridge, MA:MIT press, 1990.4 M. P. Cooke, Modeling Auditory Processing andOrganization, u.K.:
20、Cambridge University, 1993.5 G. J. Brown and M. P. Cooke, "Computational AuditoryScene Analysis," Computer Speech and Language, Vol. 8,1994, pp. 297-336.6 D. F. Rosenthal and H. G. Okuno, Computational AuditoryScene Analysis, Mahwah, NJ: Lawrence Erlbaum, 1998.7 D. L. Wang and G. J. Brown, "Separation of Speech fromInterfering Sounds Based on Oscillatory Correlation," IEEETrans. Neural Network, Vol. 10,1999, pp. 684-697.8 C. J. Moore, An Introduction to the
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年心理测评与评估技术考核试题及答案
- 2025年心理学基础知识测试题及答案
- 2025年航空服务与管理知识测试卷及答案
- 2025年护理学专业实习考核试题及答案
- 2025年生命科学与医学伦理综合能力考试卷及答案
- 2025年中国邮政集团有限公司广西壮族自治区分公司校园招聘笔试模拟试题含答案详解
- 物资质量监督管理制度
- 物资采购付款管理制度
- 特殊学校宿舍管理制度
- 特殊岗位人员管理制度
- 《销售员的角色定位》课件
- 阿森斯失眠评定量表2
- 红旗H7汽车说明书
- 劳保鞋管理制度
- GB/T 15622-2023液压缸试验方法
- 1.2音乐情感及情绪《祝酒歌》课件-高中音乐人音版必修音乐鉴赏
- 制造业转型升级的产业协同创新研究
- 公司职工提案登记表
- 机关食堂食材招标的请示范本
- 2023年国考真题(附答案)
- 个案工作知识点隋玉杰主编
评论
0/150
提交评论