已阅读5页,还剩4页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
精品论文串声消除中自适应滤波与快速解卷积算法的综合比较李丹,付中华5(西北工业大学计算机学院,陕西省语音与图像信息处理重点实验室,西安 710129) 摘要:串声消除是虚拟声重放中的重要问题,其目的在于消除交叉串声,得到正确的双耳声 信号再现原始信号的空间听觉效果。在现存众多的串声消除算法中,时域自适应滤波算法及 频域快速解卷算法应用最为广泛,但是到目前为止还未有对两种算法进行全面比较的研究。 在本文中,将选取最具代表性的 least mean square (lms)及 fast deconvolution(fd)算法从串10声分离度、音色畸变及对 hrtf 测量误差的敏感性三个不同方面,在实际重放环境中通过客 观及主观评价实验对两种算法进行比较。实验结果将为实际重放条件下串声消除算法选择提 供重要参考,同时也揭示了仅仅通过仿真实验来评判串声消除算法性能的不足。关键词:串声消除;时域自适应滤波算法;频域快速解卷积算法中图分类号:tn91215comprehensive comparison of the least mean square algorithm and the fast deconvolution algorithm for crosstalk cancellationli dan, fu zhonghua20(school of computer science,northwestern polytechnical university, shaanxi provincial keylaboratory of speech and image information processing, xian 710129)abstract: crosstalk cancellation is an important issue in 3d audio rendering, which aims atreproduce binaural signals at listeners ears using dual or multiple loudspeakers. among many existing algorithms, the adaptive filtering in time domain and the direct deconvolution in25frequency domain have been the predominant ones. though they have been widely used, these two methods have never been compared comprehensively as we known. in this paper, wethoroughly examine their performances from different aspects, including channel separation, timbre distortion, and sensitivity to the hrtf measurement errors. both objective and subjective evaluations are implemented in a practical environment. the experimental results may provide a30more comprehensive reference for method choice in practical applications. additionally, thelimitation of using simulation to evaluate the performance of crosstalk cancellation is highlighted.keywords: crosstalk cancellation; lms; fd0引言35虚拟声(virtual acoustics),也称三维音频(3d audio)、双耳音频 (binaural audio) 等,它根据人耳对声音信号的感知特点,使用信号处理方法对声源到两耳之间的传递函数进 行模拟,以重建复杂三维虚拟空间声场1。人工头捡拾或双耳声合成的方法均可得到虚拟声 信号。双耳声信号是适合耳机重放的,如果将双耳声信号馈给布置在倾听者前方的一对扬声 器重放,就会引入交叉串声(crosstalk), 即左扬声器的声音有很大一部分被右耳听到,右40扬声器的声音有很大一部分被左耳听到。交叉串声会导致声音空间信息畸变,同时也会引起 重放音色的改变。基金项目:国家自然自然基金资助项目(60901077);高等学校博士学科点专项科研基金资助课题(20096102120044)作者简介:李丹,(1987-),女,研究生,研究生方向为虚拟声合成及重放。通信联系人:付中华,(1977-),男,副教授,研究方向语音信号处理,数字音频信号处理,声纹识别及 语音识别等。e-mail: - 2 -bauer 在 1961 年率先提出串声消除的概念2,然后由 schroeder 和 atal 应用到实际 中,此后又出现了许多方法。串声消除是一个典型的系统求逆问题,可以用直接方法与自适 应方法实现1。直接方法假设扬声器到人耳的传递函数已知,在时域与频域均可求解,时域45的代表算法有最小二乘(ls)方法,维纳滤波方法,最大误差最小化方法等,频域的代表 算法为频域快速解卷积算法。自适应方法在人耳处放置 2 个微型麦克风,采集到达人耳的 声音以作为自适应滤波器的反馈信号,并根据扬声器至人耳的传输函数的变化自适应地更新串声消除滤波器的系数,代表算法有 lms 算法,多误差 filtered-x lms 算法,频域 lms算法,频域多误差 filtered-x lms 算法。50在众多串声消除算法中,时域自适应滤波与频域快速解卷算法应用最为广泛,但是到目 前为止却没有对它们综合比较的研究。本文将选取各自最具代表性的 lms 算法3与 fd 算 法45从串声分离度、对 hrtf 测量误差的敏感性及对重放音色的影响三个方面,在实际重 放环境中通过客观及主观评价实验进行综合比较,为实际运用中串声消除算法的选择提供相 关的参考依据。551问题及算法原理简介1.1串声消除问题双耳声信号经过双扬声器构成的电声传递网络c 到达两耳,ci, j 为扬声器到双耳的头相关传输函数(head-related transfer function,hrtf),其中c12 和 c21 信号为交叉串声。交 叉串声会导致声音空间信息畸变,同时也会引起重放音色的改变。为了完全消除交叉串声,60使扬声器重放的双耳声压与耳机重放时完全相同,得到正确的双耳声信号及相应的空间听觉效果,因此需要设计串声消除网络 h , hi , j 为串声消除滤波器,i, j = 1,2 。在图 1 中,双12耳声信号 x = x , x t,经过扬声器播放后,人耳最终接收到的信号为y = y , y t ,电声传递网络c 和串声消除网络 h 分别为c11 c12 c = c21 c22 h11 h12 h = h 21 h 22 12(1)65理想情况下,串声消除就是使人耳接收到的信号(加上系统延迟)与双耳声信号相同,即y = chx于是有ch = i ,其中 i 是单位矩阵,对该式求解即可得到串声消除矩阵 h 1。h 22 (z ) x2h12 (z ) h 21 (z ) h11 (z ) x1c22 (z )c12 (z )c21 (z )c11 (z )y2 y1图 1 虚拟声扬声器重放系统框图fig. 1 block diagram of loudspeakers-based virtual sound rendering system701.2lms 算法简介以双扬声器重放为例,重放的双耳声压可由下式表示为,其中c11 , c12 , c21 , c22 为扬声器到双耳的传输函数, h 矩阵即为待求串声消除矩阵。- 9 - y1( z ) c1 1 ( z )c1 2 ( z ) h 1 1( z )h 1 2 ( z ) x 1 ( z ) = (2) y2 ( z ) c 2 1 ( z )c 2 2( z )h 2 1( z )h 2 2( z )x 2 ( z )75重新整理得到如下结果,最右边的 h 矩阵即为待求串声消除矩阵h11(z) y1(z)x1(z)c11(z)=x1(z)c12(z)x2(z)c11(z)x2(z)c12(z)h21(z) (3)y2(z) x1(z)c21(z) x1(z)c22(z)x2(z)c21(z) x2(z)c22(z) h12(z) h22(z) 图 2 基于 lms 算法的串声消除框图fig. 2 a crosstalk cancellation block diagram using lms80将 x 与c 的乘积记为 r ,转换到时域如图 2 所示,得到如下结果,i, l, m = 1, 2 :j 1rilm ( n ) = clm ( j )xi ( n j )j = 0人耳处实际接收到的信号为 yi (n) ,由公式(5)得到yi (n) = r1i1 (n) h11 (n) + r1i 2 (n) * h21 (n)+ r2 i1 (n) * h12 (n) + r2 i 2 (n) * h22 (n)85lms 算法的核心是使(6)所示均方误差达到最小,利用梯度下降法进行求解j = ee(n)2 = e(d (n) y(n)2 误差信号 e(n) ,理想目标信号 d (n) ,实际双耳信号 y(n) 分别定义如公式(7)所示(4)(5) (6)e1 (n)d1 (n)y1 (n) e(n) = , d (n) = , y(n) = e2 (n) d2 (n) y2 (n)(7)1.3fd 算法简介90为了解决扬声器到人耳的传输函数 c 在某些频率上接近奇异因而导致串声消除矩阵元 的幅度非常大的问题,kirkeby 等提出频域快速解卷积算法6。在该算法中,串声消除矩阵 h是按照代价函数 j = e + v ( f ) 最小的条件设计的,其中 e = y x2 + y x2 是双耳声压1122的平方误差和。v ( f ) 是频率计权函数,如果需要在某些频率限制串声消除矩阵内的函数的幅度,则在这些频率上v ( f ) 取较大值。 0 是正则化参数,决定频率计权函数的权重。95当 从 0 增加到无穷大,解逐渐从仅使 e 最小变到仅使v 最小。通过频率相关的正则化能在很大程度上控制最优串消的时域响应。将正则化参数分解为两部分:增益系数 和形状系数 b( z) 。由 j = e + v ( f ) 的 j 最小的条件,可以得到串声消除矩阵 h 的近似解为h z = ct1z1 c z + b(z1)t b(z) ctz1zm(8)( ) () ( ) ()100其中 z m 实现 m 个点的系统延迟,保证系统因果性,特别的,当 b = i ( 2 2 单位矩阵)时相当于用馈给双扬声器的信号总功率谱作为频率计权函数,则串声消除函数记为h z = c tz 1 c z1+ i ctz 1z m(9)( )2实验与分析2.1数据测量及分析() ( ) ()105110115hrtf 在串声消除系统中起着非常重要的作用,不匹配的 hrtf 不仅会使重放声像发生明显畸变还会影响重放音色。本文主要目的为比较两个算法在串声分离度、对 hrtf 测量误 差及对音色的影响三个方面的表现,为了排除其他因素的影响,我们在没有头动与 hrtf 失配问题的环境下进行比较。测量设备为 bhead210 人工头、genelec6010a 扬声器两支及 mpa416 微型麦克风两支。实验地点为陕西省语音与图像信息处理重点实验室沉浸语音室,房间大小为 6.3m*4.6m*3.3m,本底噪声为 25db,混响时间t60 = 0.16s ,满足 hrtf 测量环境要求。测量摆放如图 3 所示,bhead210 人工头位于半径为 1.5m 的圆的圆中心,两扬声器对称地摆放于同一水平面,与人工头半夹角为30。人工头耳廓与扬声器等高,距离地面1.2m。我们在同一位置上进行十次重复测量,目的在于比较 hrtf 测量误差对于串声消除 效果的影响。图 3 bhead210 与 hrtf 测量摆放fig. 3 bhead210 dummy head and hrtf measurement setup120以右边扬声器到右耳的传输函数c22 为例,图 4 代表十次测量的平均值,这个平均值通过先将 10 组数据进行升采样,再自相关对齐,然后再取平均值,最后降采样得到。图 5 为 十次测量数据与均值之间的误差,由图可见 10 组数据与均值的测量误差均在 2db 之内,均 为有效数据。同时由图 5 可以看出即使在同一环境下多次测量 hrtf 也存在不可避免的误差, 所以在以往的研究中很多研究者仅仅依靠同一方位上的一组 hrtf 数据仿真进行串声消除效果评估是不准确的。20mean hrtf(db)100-10-20-3020 40 60 80 100 120图 4 c22 的十次平均值125fig. 4 mean of2c2210error(db)-1-2 20 40 60 80 100120图 5 十次的测量误差fig. 5 measurement error1302.2串声分离度比较2.2.1仿真比较结果在以往的研究中,串声分离度是用来衡量串声消除性能的重要指标,应用也最为广泛, 其定义为在实际倾听者的耳道声压中,同侧信号与异侧信号的能量之比,以左耳串声分离度为例,其计算公式如公式(10)所示7:135j = e 20 logc11 h11 + c12 h 21( db )(10)l10c21 h11 + c22 h 21 140145其中 e 代表基于全频带的数学期望,在最理想情况下 x 1 在倾听者左耳处被完全重建,此时c11h11 + c12 h 21 = 1 ,右耳接收到的信号为零,即c21h11 + c22 h 21 = 0 ,此时左耳串声分离度趋向于无穷大,由此可知串声分离度越大表示串声消除效果越好。这里需要特别指出的是用于计算串声消除矩阵的传输函数矩阵与用于计算串声消除分离度的传输函数矩阵不能是 同一个,因为即使在没有头动和没有不匹配 hrtf 的理想情况下,hrtf 的测量误差也是不 可避免的。在研究中我们发现很多研究者忽略了这个问题,特别是选用每个方向上只有一组 hrtf 数据的公开 hrtf 数据库时。在本章的对比实验中,选用上次测量的平均值用于串声 消除矩阵的计算,用原始的十组数据分别计算每次对应的串声分离度。左右耳仿真得到的串 声分离度汇总如下:150表 1 两种算法对应的串声分离度(仿真)tab. 1 channel separation using the two methodsmethodlmsfdfactors (db)j lj rj lj l1234567891018.76098.896116.35067.176718.65149.727413.51077.24027.052818.883721.815313.197519.613710.664721.977514.280116.856410.637910.561921.006219.98759.136815.98687.099919.11479.879313.24177.17966.807219.713724.323513.870420.824911.047923.917214.925717.424011.098811.158323.5805e12.625116.061112.814717.217126.648122.885330.180730.8441注: e 代表全频带的串声分离度的数学期望, 代表方差155160165实验结果表明左耳的串声分离度略低于右耳,这可能是由于 bhead210 人工头头部与耳廓的不对称性造成的(参见表 2)。同时 fd 算法对应的串声分离度总是高于对应的 lms 算法 12.5db,这说明在仿真实验中 fd 算法在矩阵求逆的准确性方面高于 lms 算法的。 最重要的是从表 1 中可以看出,两种算法得到的 10 组数据之间的波动性很大,由此可知仅由同一方向上的一组数据衡量串声消除效果是不恰当的。lms 算法对应的 小于 fd 算法 对应的 说明 lms 算法对 hrtf 测量误差具有更强的鲁棒性。2.2.2真实环境下比较结果实验环境同实验用 hrtf 测量环境,重放信号通过扬声器(同 hrtf 测量用扬声器) 用 bhead210 人工头进行捡拾。所有的摆放与 hrtf 测量时相同。我们采用白噪声为原始重 放信号,假设只有左或右耳单路信号存在,经过串声消除矩阵 h 后馈给双扬声器进行重放, 由人工头做左右耳信号的捡拾。理想情况下,只重放左(右)声道信号时,仅在人工头的左(右)耳处能捡拾到信号,而在右(左)处信号为零。在实际环境中的串声分离度见表 2。表 2 两种算法对应的串声分离度(实际环境)tab. 2 channel separation using the two methodsdbno ccslmsfdj l7.329.659.17j r10.7113.2012.86170175很明显,实际环境中的串声分离度远低于仿真实验中的串声分离度。这可能是由于hrtf 数据的截断及房间的反射造成的。同时可以看出在实际重放环境中 lms 对应的左、 右串声分离度均高于 fd 对应的串声分离度,这也证明了仿真实验中 lms 算法对 hrtf 测 量误差具有更强鲁棒性的结论。结合仿真实验与实际环境重放实验的实验结果我们可以得出 一个结论:仅仅通过串声分离度的大小来衡量串声消除算法的性能是不恰当的,而这一点在 以往的串声消除算法的研究中往往被忽略了。2.3 音色影响比较2.3.1客观分析比较结果精品论文magnitude (db)10 lms fd0-5-10-15-20110 0.1 0.2 0. 3 0.4 0.5 0.6 0.7 0.80.9 1normalized frequency ( rad/sample)180图 6 h 频响曲线11fig. 6 magnitude response of the inverse filter h100magnitude (db)-10fd lms-20-300 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1normalized frequency ( rad/sample)21图 7h 频响曲线21fig. 7 magnitude response of the inverse filter hfd lms100magnitude (db)-10-20-30185-400 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.91normalized frequency ( rad/sample)12图 8h 频响曲线12fig. 8 magnitude response of the inverse filter hfd lms20100magnitude (db)-10-20220 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1normalized frequency ( rad/sample)22图 9h 频响曲线190fig. 9 magnitude response of the inverse filter h195200图 6图 9 为用 lms 算法与 fd 算法求出的四个串声消除滤波器对应的频响曲线。很明显,fd 算法得到的四个串声消除滤波器能对低频部分起到提升作用,这对品质一般的扬声 器低频起补偿作用。在中频部分,除去 fd 算法导致的离散的波峰之外,两算法的频响曲线 基本一致,这些波峰会对重放音色造成一定程度的影响。为了得到更加平直的频响曲线,可以进一步反复试验找到相对最佳的增益系数 与形状系数 b( z) ,进行频率相关的正则化。2.3.2主观测听比较结果我们通过主观测听实验来对两种算法对重放音色造成的影响进行评估。原始信号为语音 信号与音乐信号,分别同时经过 lms 与 fd 串声消除网络后由双扬声器进行重放,具体摆 放与 hrtf 测量一致。20 名经过听力训练的倾听者对处理后的音频与原始音频文件的音色 一致性进行 mos(mean opinion score)打分,评分范围是 1 到 5 分,分数越高音色一致性 越好,两算法对应的打分情况如图 10 与图 11 所示:精品论文4.54voice congruity mos3.532052.5lmsfast deconvolution图 10 语音信号音色一致性得分fig. 10 voice congruity mos of the two methodsmusic congruity mos4.543.53lmsfast deconvolution图 11 音乐信号音色一致性得分210215220225230235fig. 11 music congruity mos of the two methods由上图可以看出,lms 算法在语音信号与音乐信号音色一致性上 mos 得分均高于 fd 算法,换言之相较 lms 算法而言 fd 算法将会对虚拟声重放音色造成更为明显的影响。因 此可知对扬声器到双耳的传输函数的准确求逆并不能得到更好的主观测听结果,实际运用中 应该只对其主要部分进行求逆即可,这样可避免对重放音色的染色。同时,为了得到较好的 重放效果有必要在扬声器重放中引入音色均衡处理。3结论本文对串声消除中常用的 lms 算法与 fd 算法在理想(没有头动及不匹配 hrtf 问题) 且真实条件下,从串声分离度、对 hrtf 测量误差敏感性及对重放音色影响三个方面进行了 主观以及客观评测。实验结果显示仅在仿真条件下 fd 算法串声分离度高于 lms 算法,真 实重放条件下情况相反,因此仅仅
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中华传统美德心得体会(10篇)
- 员工表扬信15篇
- 会飞的教室读后感集合
- 中国好人李培生先进事迹
- 他乡的童年日本纪录片观后感
- 二八定律读后感
- 个人无收入证明书(9篇)
- DB12∕T 1050-2021 畜禽粪污异位发酵床处理技术规范
- 报关实务-教学课件 第三章 海关检验检疫
- 影响我国自主创新因素的SVAR分析
- DB3305-T 104-2019环境污染责任保险风险评估技术规范
- GB/T 23132-2024电动剃须刀
- 门窗维修简单合同范本(2024版)
- 糖尿病酮症酸中毒
- 飞控系统讲解
- 农村土地承包租赁合同范本版
- 中医病专科申报课件
- 2024年重庆国丰实业有限公司招聘笔试冲刺题(带答案解析)
- 2024年新个人借款合同电子版(3篇)
- 多发性骨髓瘤教学查房
- web前端开发工程师职业生涯规划
评论
0/150
提交评论