语言清晰度客观评价方法_第1页
语言清晰度客观评价方法_第2页
语言清晰度客观评价方法_第3页
语言清晰度客观评价方法_第4页
语言清晰度客观评价方法_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

语言清晰度客观评价方法一一对IEC60268-16(4.0版,2011.6)规范的解读祝培生;莫方朔;路晓东;胡沈健【摘要】语言清晰度(或可懂度)是音质评价的重要指标.但语言清晰度客观评价定义复杂,修正系数众多,测量结果也容易产生误差,因此一直没有得到有效推广.结合最新发布的IEC60268-16(4.0版,2011.6)规范,介绍其推荐的语言清晰度客观评价方法即语言传输指数STI以及其他几种常见的客观评价方法,并对他们的适用条件加以说明.期刊名称】《电声技术》年(卷),期】2012(036)005【总页数】6页(P40-45)【关键词】语言清晰度;客观评价方法;语言传输指数【作者】祝培生;莫方朔;路晓东;胡沈健【作者单位】大连理工大学建筑与艺术学院,辽宁大连116023;同济大学声学研究所,上海200092;大连理工大学建筑与艺术学院,辽宁大连116023;大连理工大学建筑与艺术学院,辽宁大连116023【正文语种】中文【中图分类】TU112.1引言语言清晰度(或可懂度)是音质评价的重要指标,可以用来评价厅堂或扩声系统的声音传输质量。对语言清晰度的评价,主要包括主观评价和客观评价。主观评价是利用发音人和听音人组成的队伍,以一定的发话语言声级和语速,在现场测听并记录由发音人按实验字表发出的字,然后加以统计分析得到语言清晰度得分。这种方法不需要太多实验设备,能够较准确反映出语言的传输质量,但需要较多的人力物力,同时受发音人、测试队伍个人条件的影响,测试结果存在一定的不确定性。客观评价是依据对一些物理量的测量,然后将数据加以分析得到语言清晰度参量。对语言清晰度进行客观评价的尝试从二十世纪二三十年代就开始了,随后在四五十年代提出了第一个客观评价参量:清晰度指数AI[1](ArticulationIndex,近年来发展成SII[2],SpeechIntelligibilityIndex),到二十世纪七十年代,又提出了语言传输指数STI[3](SpeechTransmissionIndex)和辅音损失比%ALcons[4](ArticulationLossofConsonants)。这些参量的提出,为语言清晰度的客观评价提供了可能,虽然也都有各自的局限性。STI方法因为能够较好反应混响时间、信噪比对语言清晰度的影响,具有一定的抗系统失真能力,自从1973年提出来之后,被IEC标准采纳并推荐。虽然STI方法也有一定的局限性,但被证明在很多条件下是非常有效的,因此为国际社会普遍接受,并在建筑声学领域得到广泛应用。但语言清晰度客观评价定义复杂,修正系数众多,测量结果也容易产生误差,这些因素在一定程度上影响了语言清晰度作为一个通用的控制参量而被推广与普及。本文结合新发布的IEC60268-16规范[5],介绍其推荐的语言清晰度客观评价方法即语言传输指数STI以及其他几种常见的客观评价方法,并对他们的适用条件加以说明。IEC60268-16推荐语言清晰度客观评价方法在厅堂内听讲话时,不论是否使用扩声系统.从讲演者到听众形成的传输过程中由于房间内存在回声、混响和环境噪声等影响,会使接收到的语言信号与原信号相比呈现不同程度的模糊,从而导致语言可懂度的降低。二十世纪七十年代末,Houtgast和Steeneken[3]从室内声学中引入调制转移函数(Modulationtransferfunction,MTF)概念,提出通过测量声音传输系统的调制转移函数来得到语言传输指数STI°IEC60268-16规范就是将语言传输指数STI作为评价语言清晰度的客观方法,自从发布以来,已经经过了4次修订(1988;1998;2003;2011),一些成熟、可靠的研究成果也不断被吸收,并在最新的修订版中体现出来。2011修订的主要目的就是要提供一个完整、确定并具有广泛适用性STI技术标准,以促进STI的推广与应用。STI方法的提出是基于在实验中发现,语言信号的波动携带着语言清晰度相关的信息。词、句子的声学特征会导致语言信号的波动起伏。这些起伏也是语言的基本组成部分,称之为调制,可以用调制频率来表达。为与语言的语速对应,典型的调制频率从0.5~16Hz,通过计算调制频率对应于语言频谱各频带上的振幅降低程度,就可以得到调制转移值,见图1。假设发出测试信号的调制指数是mi(振幅深度),接收信号的调制指数是mo(振幅深度),fm为调制频率,调制频率幅值深度的降低程度由调制转移函数m(fm)来表达,定义为然后得到表观信噪比SNReff,定义为图1调制转移函数示意图表观信噪比的值被界定在±15dB之间,小于-15dB时,取值-15dB,大于15dB时,取值15dB,每个频带对语言清晰度都有一个贡献权重,用这些权重把各个频带的平均表观信噪比加起来,就得到了整个声传输系统的STI值。IEC60268-16推荐的STI测量方法有两种:基于信号调制的直接测量方法和基于房间脉冲响应的间接测量方法。这两种方法前期包络信号的获取方式不同,在后期处理和系数修正方面基本是一样的。在计算出STI之前,这两种方法都要经过绝对语言识别阈值(门限)修正、听音屏蔽因子修正、权重因子和冗余因子修正等。2.1直接测量方法STI直接测量方法就是对声传输系统发出特定的测试信号,通过分析并识别接收到的信号,得到声传输系统的STI,根据STI值就能够确定语言清晰度。通常,测试信号包含7个从125Hz~8kHz的倍频带噪声载波信号,这些载波信号对应于语言的频谱,每个噪声载波信号用一个或多个调制频率调制,这些调制频率对应于不同词、句子的声学特征导致的语言信号的波动起伏。为与语言的语速对应,典型的调制频率从0.5~16Hz按照1/3倍频程分布,共14个。完整的STI是经过对7x14=98个调制数据点(调制转移矩阵)的综合计算得到的。直接测量方法流程如图2所示。图2直接测量法流程示意图间接测量方法根据Schroeder提出的方法[6],调制转移函数m(fm)能够通过声传输系统的脉冲响应计算出来,计算公式为式中,m(fm)是调制转移函数;h(t)是房间脉冲响应;fm是调制频率;SNR是信噪比。间接测量方法的流程如图3所示。STIPA,STITELSTIPA和STITEL是从STI衍生出来的两个简化形式,为减少工作量,只采用部分数据点进行计算得到。STIPA是对每个载波用两个调制频率调制,-共14个调制数据点,见表1。STITEL是对每个载波用一个预先指定的频率调制,共有7个调制数据点,见表2。图3间接测量法流程示意图表1STIPA的调制频率?表2STITEL的调制频率?STI,STIPA,STITEL的适用范围及限制直接测试方法中,STIPA和STITEL测试过程相对简单,应用较多,STI很少用在实际测试中,大多用在研究方面。在测量具有声学和电声畸变声系统的语言传输质量时,这些方法是客观和有效的。然而,由于其对语言信号的简化处理,不同方法的应用应受到限制,任何超出适用范围的应用可能导致不准确的结果。STI,STIPA,STITEL的适用范围见表3。不论直接或间接的STI方法,对于在时域和频域的线性失真影响都有很好的考虑。但在非线性失真的情况下,直接测量方法对特定的非线性失真有一定的适应能力,比如削波失真,而非直接方法只能用在线性时不变系统中。表4给出了STI各方法对于不同失真情况的使用限制概览。表3STI,STIPA,STITEL适用范围注:表中++表示非常适合;+表示适合;-表示不适合。?表4STI不同测量方法适用于各失真情况概览?.5STI值与语言传输质量的对应关系IEC60268-16规定STI值与语言传输质量(主观评价)的对应关系见表5、表6。表5STI值与语言传输质量分类的对应关系0.380.420.460.500.540.580.620.660.700.74?表6语言传输质量分类及适用范围注:表中PA为PublicAddressSystem,VA为VoiceAlarmSystem。?其他客观评价方法3.1清晰度指数AI[1-2,7]AI是第一个将声学测量同语言清晰度联系起来的客观参量。AI的理论基础是:语言信号的信息内容在频率上分布是不均匀的,语言信号各个频带对语言清晰度的贡献是相互独立的。这样就可以设计一个频率连接的20频带模型,这些频带内的语言信号对AI具有同等贡献,并且语言信号的可懂度是各个频带语言信号的贡献之和。综合这些研究成果,美国国家标准局在1969年发布了ANSIS3.5-1969“Methodsforthecalculationofthespeechintelligibilityindex”,随着实验材料从无意义的音节变为单词、单句,AI最后发展为语言可懂度指数SII,因此美国国家标准局在1997年对AI进行修正,发布了ANSIS3.5-1997“Methodsforthecalculationofthespeechintelligibilityindex”。通过修订,标准的普遍性得到扩展,对应于不同使用要求提出了几种不同的测量方法,并将建筑声学的自由声场情况加以考虑。SII指数范围从0到1,0代表没有,1代表100%,与STI相比,SII不能直接测量,需要通过测量很多与语言信号相关频率的信噪比,然后才能计算得到。由于SII值是根据实验结果的经验推导,物理理论基础不够,同时不能充分反映噪声和混响联合作用时的影响,因此用在短混响的地方比较合适,比如通信系统。•2辅音损失比%ALcons[4,7]辅音损失比与STI测量技术在同一时期提出。有趣的是,辅音损失比的提出主要是—种预测技术(辅音损失比不能通过精确地声学测量得到),而STI主要是一种测量方法,目标并不是去预测。辅音损失比的原始公式由Peutz提出,在1971年被Klein修正到现在大家熟悉的公式[8],以适用于扩声系统。在一个布置了扩声系统的房间里面,%AL-cons公式为式中,D为接收者到扬声器的距离;T60为混响时间;Q为扬声器的指向性因子;V为房间的容积。辅音损失比越小,语言清晰度越好。从这个公式可以看到,混响空间里面的清晰度与空间容积和扬声器的指向性因子Q成正比(也就是说当其他参量为常数时,这两个参量的增长会改善语言清晰度);清晰度和混响时间以及距离的平方成反比。这个方法的主要限制就是只使用倍频程中心频率2kHz来预计,而对于语言来说,不同讲话者的指向型图案并不相同。同时由于这个方法是基于统计声学,在混响时间较短时就变得不太准确。3.3RASTI[5](RoomAcousticalSpeechTransmissionIndex)室内声学语言传输指数(又称快速语言传输指数)是一种简化的STI方法,为简化测量与计算,从7个载波频带中筛选了2个载波频带(500Hz,用4个调制频率调制;2000Hz,用5个调制频率调制),适用于评价没有扩声系统的人与人之间的沟通。由于RASTI测试方法应用于扩声系统的局限性,替代方法STIPA在2001年被提出,STIPA采用一个稀疏矩阵,测试125~8000Hz的全部7个载波频带。需要指出的是,在IEC60268-16标准中,RASTI现已作废。3.4直达与混响声能比、早后期声能比[7]用直达和混响声能比或更精确的直达和早期反射声同后期反射和混响声能比来预测建筑和厅堂的语言清晰度,也已经使用了很多年。在区分什么是直达声、早期反射声和后期反射声方面,有很多不同的时间分割点。最常用的测量方法为C50,是前50ms声能和整个脉冲响应声能的比;也有用C35测量的,就是用前35ms的声能;C7,这么早的一个分割时间产生一个基本上是纯的直达和反射声能比。在分割比例上并没有明确的说法,但是通常认为,要达到好的语言清晰度(在厅堂或类似的大空间里面),大约+4dB的C50是比较有利的,这也应该是设计的目标。声能比测试时经常采用1000Hz或一系列频率的平均,这个方法没有考虑背景噪声,应用在扩声系统时也受到限制。Bradley[9]把C50和C80概念拓展到U50和U80,U意味着有用的能量,这些尝试也是进一步了解分析语言清晰度的有用工具IEC标准用于评价汉语语言清晰度的探讨IEC60268-16推荐的两种STI测量方法(直接法和间接法)本质上是一致的,都要经过语言频谱滤波、绝对语言识别阈值(门限)修正、听音屏蔽因子修正、权重因子和冗余因子修正。由于语言频谱滤波以及各个修正系数都是以英语(荷兰语)为实验对象得到的,STI客观评价值与英语的清晰度主观评价得分在IEC60268-16规定中体现出良好的一致性。但这种主、客观对应关系并不一定适用于汉语的评价。国内已有研究表明汉语普通话单音节清晰度受混响的影响与英语清晰度受混响的影响程度有明显的不同[10]。造成这种不同的主要原因是汉语与英语的标准频谱不同;为获得各种修正系数而进行的实验也都对应于特定的语言频谱;同时使用汉语与英语这两种不同语言的主体在感受和理解上也存在文化差异。因此如果用IEC60268-16推荐的这套体系直接评价汉语的语言清晰度,就需要对语言频谱、绝对语言识别阈值、听音屏蔽因子、权重因子、冗余因子等进行汉语频谱的修正,而不是直接翻译使用。发展及展望随着IEC60268-16第4次修订的发布,语言清晰度客观评价指标STI在今后必将作为一个通用的而在较高频段,IIR均衡器幅度响应平坦度比全极点模型均衡器效果好,这证实了本文所采用的基于IIR模型的均衡器具有保持其他频带响应平坦的特性。结论针对传统的基于全极点模型的均衡器所存在的缺陷性,笔者提出了基于IIR模型的均衡算法,并通过仿真和测量实验对比了两种均衡算法的性能,实验结果表明,基于IIR模型的均衡器,能够实现空间多个位置的房间幅度响应均衡,且不会影响其余频带的幅度响应。参考文献[1]马登永•关于全数字扬声器系统的讨论[J].电声技术,2011,35(1):22-27.[2]沐永生•压电扬声器的后腔设计与实验[J].电声技术,2010,34(11):32-35•[3]蔡野锋•数字扬声器系统中失配整形技术的设计与实现[J].电声技术,2011,35(2):20-23•[4]BRANNMARKLJ•Robustloudspeakerequalizationbasedonposition-independentexcessphasemodeling[C]//IEEEInt•Conf•Acoustics,Speech,SignalProcessing,385-388,LasVegas:[s.n.],2008:385-388•[5]WILSONR•Equalizationofloudspeakerdriveunitsconsideringbothonandoff-axisresponses[J].J.AudioEng.Soc•,1991,39:127-139.[6

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论