版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、分类号分类号 学学 号号 M200770091 学校代码学校代码 10487 密密 级级 硕硕士士学学位位论论文文听觉系统中语音信号处理相关性质研究学位申请人:学位申请人:罗海风罗海风学科专业:学科专业:理论物理理论物理指导教师:指导教师:龙长才龙长才 教教 授授答辩日期:答辩日期:2011 年年 1 月月 2 日日A Thesis Submitted in Partial Fulfillment of the Requirementsfor the Degree of Master of ScienceAuditory System Property about Speech Signal
2、ProcessCandidate: Luo HaiFengMajor : Theoretical PhysicsSupervisor: Professor Long ZhangcaiHuazhong University of Science &TechnologyWuhan 430074, P.R. ChinaNov, 2010独创性声明独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中以明确方式标明。本人完全
3、意识到本声明的法律结果由本人承担。学位论文作者签名:日期: 年 月 日学位论文版权使用授权书学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。保密,在_年解密后适用本授权书。本论文属于不保密。(请在以上方框内打“” )学位论文作者签名: 指导教师签名:日期: 年 月 日 日期: 年 月华华 中中 科科 技技 大大 学学 硕硕 士士 学学 位位 论论 文
4、文I摘摘 要要随着计算机科学技术的快速发展,计算机信息的处理和判断能力进步迅速,但计算机与人类信息交流却进步较小,使得信息瓶颈问题日益严重。语音技术作为人机接口的重要技术之一,经历了半个多世纪的发展,涌现了许多重大的技术突破。在语音识别、说话人识别和语音合成等诸多领域,已经产生了大量的进入实际应用水平的商业化产品,对社会带来了巨大的变化。但是,现有语音系统在面对实际应用环境时还存在着某些限制。因此,对于人类听觉系统的性质研究,具有非常重要的意义和价值。现有的对听觉系统的大量抗噪性特性研究中,可以按照自下而上和自上而下的分析过程分为两个大类。自下而上分析过程是信号处理系统的基本功能,对声音信号的
5、基本物理特征进行分析和归类;自上而下分析过程则是按照人的意识、注意力和经验等对声音信号的处理进行指导。其中后者作为人类听觉系统和人工系统最显著的区别,是当今听觉研究的热点领域。本研究从三个不同的方面,揭示了人类听觉系统的两个过程中的某些特性。第一个研究通过心理声学实验,发现了人类听觉系统在进行说话人识别过程中,遵循着类似信息论的信息编码方式,而且受到了语言环境的训练带来的影响。第二个研究则通过同样的方式,揭示出人类在进行说话人识别过程中,不同与现有的技术模型,利用了词汇及更长时间尺度上的连续信息。在第三个研究则揭示了在对语音信号分析过程中,除了存在现有理论揭示的分析过程外,还可能存在基于频谱包
6、络结构这样的高级特征作为辅助,更加增强了在某些特殊环境下(如耳语环境)中的识别能力。关键词关键词:说话人识别 听觉系统 抗噪性 信息论 频谱包络华华 中中 科科 技技 大大 学学 硕硕 士士 学学 位位 论论 文文IIAbstractWith the rapid development of computer science, computer has great improvement in information processing and judgment, but computer information exchange with human has smaller progres
7、s, which makes the information bottleneck problem increasingly serious. Speech technology as one of the most important technologies in man-machine interface, experienced more than half a century of development, has made many major breakthroughs. In speech recognition, speaker recognition and speech
8、synthesis fields, a lot of commercial products have entered the practical application stage, which brought great changes to the society. However, the existing technology in practical application environment still has some problems. So, the research of human auditory system properties is of extremely
9、 significance and value.The research on auditory systems robustness could be classified into two basic topics: bottom-up process and up-bottom process. Bottom-up process is the basic functional part of human auditory system, is used to analysis the physical character of sounds and classify them into
10、 different sound streams. But in up-bottom process, human auditory system reconstructs the sound scene based on consciousness, attention and experiences. The latter is the most remarkable difference between artificial system and human auditory system, is also the focus in auditory research field. In
11、 our research we studied these two processes property of human auditory system from three different aspects. From the first experiment and analysis, we can find that in speaker recognition process, human auditory system takes the method similar with the information theory method, is also influenced
12、by native language environment. In the second study, we find that in speaker recognition process, people use word-length or longer information, which is different with modern modals such as GMM. In third research, we found auditory system maybe takes not only the sound clues that existing theory exp
13、lored, but also high level characteristic such as the kurtosis of spectral envelope, which could improve the system ability in some special conditions, e.g. whisper 华华 中中 科科 技技 大大 学学 硕硕 士士 学学 位位 论论 文文IIIenvironment.Key words: speaker recognition auditory system robustness information theory spectral
14、 envelope.华华 中中 科科 技技 大大 学学 硕硕 士士 学学 位位 论论 文文IV目目 录录摘 要IAbstractII1 绪 论1.1 自下而上加工过程(1)1.2 自上而下加工过程(7)1.3 其他相关研究(10)1.4 本文研究内容(10)2 说话人辨识听觉线索研究2.1 引言(11)2.2 实验 1:不同元音所含音质特征信息测定(12)2.3 小结(15)3 文本无关说话人识别心理模型研究3.1 引言(17)3.2 实验 2:顺/倒序语句判断测试(18)3.3 小结(20)4 时频结构检测听觉模型4.1 引言(21)4.2 相关定义(23)4.3 听觉特征检测器模型(25)
15、4.4 小结(26)5 总 结(27)致 谢(29)参考文献(30)附 录 攻读硕士学位期间发表论文(39)华华 中中 科科 技技 大大 学学 硕硕 士士 学学 位位 论论 文文11 绪绪 论论人们对于人类听觉系统的研究已经有超过半个世纪的历史。早期的研究主要着眼于一些基本的听觉性质,如听觉感知阈限、耳蜗滤波特性等。随后的研究中引入了双耳模型,做了大量关于双耳时间差,双耳强度差,双耳效应,空间定位等工作。后来学者们认为相对于机器语音信号处理系统,人类听觉系统的优越性在很大程度上被认为是由于其有关于意识、注意力、经验等要素影响的结果,研究的热点逐渐转向了听觉系统的高级功能领域。研究者们广泛认识到
16、后者对于听觉过程的影响非常显著:意识及注意力主导着对于声音信号信息的选择,经验知识主导着对于声音信号模式的识别,而且它们共同指导着对于已识别信号的检验和修正,对于未来信号的预测过程。从某种意义上来说,当前机器听觉系统想要达到人类听觉系统信号处理能力水平,最缺乏的就是注意力和经验知识机制的建立。这并非一件容易的事情,需要整个认知科学领域研究的深入来予以支持1。自下而上分析过程的研究主要集中于时频、空间听觉流形成、优先效应、前向掩蔽等方面,而自上而下分析过程的研究由于其本身的复杂性,并不像自下而上过程的研究那么深入,主要涉及对于信息掩蔽,语音理解和注意力等方面的心理及生理实验研究,下面对这几个方面
17、进行简要的介绍。1.1 自下而上加工过程自下而上加工过程自下而上的加工过程,是指听觉系统依据某些声学特征,将声信号中的不同感觉元素分配到相应的听觉流中。在这个过程中声音信息经由外耳,中耳,内耳到达中枢听觉神经系统,在传输的过程中同时完成声音的分解和重组。关于这个过程的特性研究,主要分成以下几个方向:1.1.1 时频相关听觉流时频相关听觉流声音信号中不同的感觉元素在加工时被分离重组到相应的听觉事件和声源中,华华 中中 科科 技技 大大 学学 硕硕 士士 学学 位位 论论 文文2这个过程中分离和重组的特征依据已经发现的有不少,其中研究最多的就是依据声音信号中时频特征进行分离的过程。这类研究范式是给
18、被试循环播放不同频率的短音A和B,即声音序列“ABAB” 。被试可能听到一个声音序列“ABAB”,也可能听到“A”和“B”两个同时出现的声音。A和B之间频率差越大,序列播放速度越快,被试越容易听到两个单独的声音;反之容易听到一个声音序列。近年来对此现象背后的特点和机制研究更加深入。Elyse S. Sussman2利用ERPs检测没有意识参与的被试的失匹配负波,实验证明了:(1)分离出来的听觉流各自保持着相对独立性;(2)听觉流形成过程发生在流内整合之前;(3)听觉事件的前后内容影响听觉系统对于该听觉事件的整合。这个研究的结果反映出了听觉流形成过程的一些性质。Christophe Michey
19、l等人3研究了在听觉皮层水平上,这种感觉现象后面的神经机制。他们观察到了在初级听觉皮质区(A1)中听觉流形成的神经“微机制” 。还利用功能性核磁共振 (fMRI)和脑磁描记法(MEG)从人脑得到的结果表明了来自不同于A1区域的皮层区域对于听觉流形成也起到了作用。除此以外,Yonatan I. Fishman等人4通过动物生理实验也找到了一些时频特征分流的生理依据。不过以动物为被试的实验得到的结果并不是总和人类被试结果一致。Akihiro Izumi5的实验结果表明猴子在处理声音序列区分任务时采用频率变化线索,而且猴子比人类更依赖于局部特征作为分离线索。Elyse Sussman等人6采用了电生
20、理指标来记录结果的方法判断在没有意识参与情况下不同年龄的被试听觉流分离能力。结果反映了当频率近似程度为分离线索时,听觉流分离机制在小学生和成人之间基本一致。但是在类似实验中,研究者7以不同年龄段的被试进行对照实验,却发现其频率分流能力的差异,这反映了自下而上信息加工过程受到了长期经验的影响。双耳系统不能够跟踪信号快速变化的耳间相关性,这种双耳迟缓效应被称为“双耳短时窗”一种平均移动滤波器,将一段时间上的双耳信息整合到一个声音事件中。Susan E. Boehnke等人8研究了这个短时窗的等效矩形窗长度,给出的华华 中中 科科 技技 大大 学学 硕硕 士士 学学 位位 论论 文文3结果是平均86
21、ms。Hilmi R. Dajani等人9对于双耳效应的实验研究给出了47和4.4ms的两个时间常数。前者可能反映了皮层的综合,和双耳感知的“呆滞现象”吻合。后者可能反映了脑干或者主要听觉皮层中相关性交互过程。除了对正常听力者的研究以外,在对非正常听力者的对照研究也可以为我们提供一些关于声音信号加工过程的信息,同时在医学领域的应用,因而显得也颇有价值。Marina M. Rose 等人10通过正常听觉者和听力缺失者的心理声学实验,发现依据频率分流时频率差 FB 和人的频率分辨能力的生理极限 FDL 在这两种被试中关系不一致,表明了频率分流时的频率差阈限不是由 FDL 单独决定的。Chandra
22、 S. Throckmorton 等人11对于人工耳蜗的研究从一个侧面也对此结论予以了支持。Monita Chatterjee 等人12通过对于耳蜗移植者的心理实验,表明有些人工耳蜗移植者还是可能基于耳蜗不同电极和时域包络听得到分离的感觉。Huw R. Cooper 等人13发现被试报告听觉感受出现分离的时间比例是随着耳蜗电极分离距离增大而增加的,但是声音序列播放速度对此却没有什么明显影响。这个结果预示着耳蜗移植者是以通道为声音分离依据而不是以时频为依据的听觉流分离。Thomas H. Stainsby 等人14通过对听力损伤者的研究,用来了解在序列流分离情况下短时线索的影响。发现成份相关系和
23、通频带的不同都对于最小可探测延迟有明显的影响。这意味着短时结构对于流分流有很大影响。Etienne Gaudrain 等人15用模拟听力缺失患者听觉效果的频率缺失的声音来测试正常听力的被试。在实验中发现元音的谱平滑处理(spectral smearing)能够在某些方面改善听力效果,这可能对于听力缺失患者的困难有所裨益。1.1.2 空间相关听觉流空间相关听觉流听觉系统将声信号中的不同感觉元素分配到相应的听觉流的过程中,声场中声源的空间分布也是一个很重要的线索,对应到听觉系统中的特征,目前已知的重要特征主要是双耳时间差ITD,双耳声强差ILD,双耳相位差IPD等。依据这些特征,我们人类在听觉过程
24、中可以感受到各个声源不同的方位和距离,为注意力指导下的选择性听觉过程作基础。华华 中中 科科 技技 大大 学学 硕硕 士士 学学 位位 论论 文文4对于静态的空间定位研究出现较早,研究空间感受分辨率与频率,方位等因素的关系,讨论其背后的机制。Mao dongxing等人16研究了人在双耳听觉中整体响度感受的依赖因素,包括ILD和声音频率,发现了感受响度级对于ILD和频率的非线性依赖关系。Gregg H. Recanzone等人17采用短尾猿(和人的听觉能力相当类似)做心理听觉实验,发现声源定位精度随着声音强度变化而变化,也随着声源方位变化而变化。随后Andrew T. Sabin等人18研究了
25、在不同声音信号强度下人类听觉的空间区分阈限,得出同样的结论。Ruth Y. Litovsky等人19在对特殊脑部受损的病例的研究中发现单侧的下丘损伤很大程度上损坏了病人的声源空间定位能力(错认为发生在下丘损伤一侧的声音源是在下丘正常一侧)。Mark I. Sanderson等人20在对蝙蝠定位声纳系统的研究中发现:只有适当地提高频率,在蝙蝠内耳的滤波响应才可以在并行过程中得到完全的相位信息,并且可以解释蝙蝠声纳的精确性(其精确性比实验室水平高一个数量级)。在生理微观机制的研究中,发现了神经对于ITD的编码依赖于一个特殊的机制(对双耳输入信号进行比较),曾经提出了一个著名的双耳精确时差的假设模型
26、jeffress模型。jeffress模型采用了同时性神经元检测阵列比较来自两侧的输入信号使得不同的ITD对应着阵列上不同的神经元。虽然jeffress这类模型成功地预言了人类对于ITD的敏感性,但是也有一些神经响应性质用这种模型不能完全解释。Douglas C. Fitzpatrick等人21就记录下了在某些情况中超出了jeffress模型框架的神经元的响应信号。相对较晚时候开始出现了动态的空间定位研究。这类研究范式主要利用先出现的适配音来影响听觉系统对于后出现的目标音的空间感受。Stephan Getzmann22以这种范式进行的实验结果表明声源空间分辨力的增强只有在适配音有合适的空间位置
27、和频率时才会出现。当适配音和目标音的频谱不一样的时候,这种影响效果则很不明显。 Phillips等人23的研究描述了针对ILD和ITD的感知通道的频率特定的选择适应性。两种不同频率的适配音轮流地、强偏向性地呈现在相反两边。在适配音出现前后,进行基于ITD和ILD的偏向性心理测量。在适配音之后,感知中心点朝着适配音的方向移动,而且两种频率有着相反的移动方向。这个结果支持声音侧向性华华 中中 科科 技技 大大 学学 硕硕 士士 学学 位位 论论 文文5编码的双通道逆过程模型。Bronwyn K. Vigneault-MacLean和Dennis P. Phillips等人24-25的实验结果也支持
28、这个结论。Dennis P. Phillips等人26后来又采用了相同的范式来研究ITD和ILD的感知过程的关系。发现基于ITD呈现的适配音对基于ITD的目标音感知中心点的偏移,反之亦然。这又提供了神经系统处理ITD和ILD时之间的相互关系的一些证据。同时还有实验表明ITD,ILD还和频率有联系:Alan R. Palmer等人27测量了麻醉的几内亚猪下丘72个细胞的ITD敏感性对于频率和ILD的函数关系。发现对于许多单元存在“null”频率,即频率上ILD的变化对于ITD敏感性峰值位置没有影响。除此之外,还有一些与听觉有关的其他的感知觉研究也引入了听觉研究范围。Frhlich 效应指人类视觉
29、对于中快速移动的信号的初始位置的判断会出现偏移。Stephan Getzmann28将 Frhlich 效应引入听觉的研究中,发现听觉系统处理声音信号时也存在该效应,而且随着注意力参与到听觉空间定位过程,该效应还会被放大。1.1.3 优先效应优先效应刚才提到的研究中虚拟声源的主观空间感受都是利用ITD或ILD来模拟的,这利用了优先效应的结论。左右耳听到的有短暂时间差的类似信号,或者同时到达的不同强度的类似信号,会在人脑中形成声音来自某个方向声源的主管感受,这就是优先效应。优先效应在听觉研究中应用很多,所以也有不少对于优先效应本身的研究。Kourosh Saberi和Joseph V. Anto
30、nio29-30研究了优先效应实验中不同参数的影响,发现了在不同的实验条件下受试对实验的熟悉程度对于实验结果的明显影响,被试们的测试阈限值,阈限分布等对训练有着高度依赖性。Richard A. Roberts等人31检测了短时音的回音检测阈限,即多长的延迟时间下听觉系统把两个声音当作一个听觉事件,而不是前后两个不同的听觉事件。发现相对于没有回音的环境,在回音环境中两个先后出现的同样声音更容易整合到一个听觉事件中. Liang Li等人32不像以往采用瞬时声音材料来研究优先效应,而是采用持续时间较长的声音材料,且材料中包含短时静音端点。结果发现人的听觉系统对于声音事件的整合与端点的整华华 中中
31、科科 技技 大大 学学 硕硕 士士 学学 位位 论论 文文6合规则并不一样。这为听觉场景分析研究中感觉元素的整合机制提供了一些有价值的参考。Andrew J. Oxenham33在基频不同和声源空间位置两种情况下研究听觉系统中哪部分对端点检测贡献最大,结果发现听觉外周主导着听觉系统的端点检测能力,深层次的神经编码机制没有什么影响。现今语音识别算法中语音端点的检测是一个非常重要的环节,所以这个结论在端点检测算法的研究上有很大的指导意义。1.1.4 前向掩蔽效应前向掩蔽效应听觉系统对于瞬时信号的检测和整合等加工过程和神经元的刺激不应期有很密切的关系。神经元对刺激产生响应后,短时间内对于接下来的刺激
32、不会产生响应,这在宏观上的表现就是前向掩蔽效应。对于正常听力者,在相同的功率谱情况下,谐波复音在基底膜上产生的尖锐波形导致的前向掩蔽效果要低于一般复音在基底膜上产生平滑些的波形导致的前向掩蔽效果.通常认为差异主要归结为听觉外周部分的压缩和抑制联合效应,这两个过程都依赖于耳蜗中活动机制的操作。Brian C.J. Moore34通过对耳蜗听力受损的被试的实验,间接地支持了这种看法。前向掩蔽常常被认为是由于神经自身的非线性效应引起的。Andrew J. Oxenham的研究35却表明,只要引入了一些非线性参量,前向掩蔽是可以用线性过程来描述的。1.1.5 神经编码不对称性神经编码不对称性D.P.
33、Phillips等人36发现人的听觉系统在处理声音信号时,信号各个部分对于听觉系统而言重要程度是不一样的。起始端的编码占有非常重要的位置,而结束端重要程度就相对低的多。Christian Borgmann等人37采用脑磁图MEG和脑电图EEG来测量对于不同信号人的听觉中枢延迟响应MLR。发现在同样强度下起始端变化强烈的刺激信号产生的听觉中枢响应不仅幅度大而且反应时间短。Janine C. Clarey等人38检测了自然音节的声音起始时间段(VOT)编码,语音呈现过程采用了不同的强度,实验对象为麻醉的老鼠的耳蜗腹核(ventral cochlear nucleus, VCN)神经元。细胞外纪录了
34、VCN响应形式。结果表明BF高于第一共振峰频率的VCN细胞的响应对于语音起始端敏感,使得它们能够精确传达音节VOT的信息。华华 中中 科科 技技 大大 学学 硕硕 士士 学学 位位 论论 文文7有相似的起始端的信号,不同的频率、相位排列方式也会让听觉系统响应有明显差异。Dau等人39证明了频率瞬间提高的声脉冲(up-chirp)可以通过同步基底膜上所有频率通道的激励,增强听觉脑干响应ABR的V波。下降声脉冲(down-chirp),是上升声脉冲在时域上的反转,可以增加耳蜗相位延迟,从而导致较小的ABR V波。Stefan Uppenkamp等人40采用了up-chirp和down-chirp来
35、研究这种相位改变如何影响我们所听到的内容。结果感知的内容不同于在脑干水平上的研究结果,是down-chirp听起来更加的紧凑。1.1.6 听觉外周听觉外周对于声音在外耳,中耳和内耳中的处理过程的研究,通常称为听觉外周模型研究。听觉外周由于其独特的非线性变换结构,对声音信号的处理时带有天然的频率选择性和抗噪性,在听觉信息加工过程中占有比较重要的地位。从总体上来说它是一个将声音信号由时域转化为频域的过程,但是其中还有许多细节尚未研究清楚,比如随机共振机制在听觉神经系统中的作用正被广泛的研究着。如Shahdad E. Behnam等人41的实验表明噪声明显增强了阈上谐波信号的分辨能力,尤其是在低强度
36、信号伴随着阈上噪声的时候,这反映出合适的噪声强度可以优化听觉表现。对于听觉系统的研究,李朝晖等人42对此方面相关总结。1.2 自上而下加工过程自上而下加工过程自上而下的加工过程,主要是听觉中涉及的注意力,经验知识等内容的部分。人类听觉系统在对声音元素进行声源重组时,这些信息起到了非常重要的作用。在这些高级功能的支持下,人类才可以在复杂的声场环境中分辨目标信号,很大程度上提高对噪声的鲁棒性。但是由于这部分的研究涉及到对智能认知的深入理解,所以研究是以心理实验为主要研究手段,生理的实验研究大多较为局部。1.2.1 信息掩蔽信息掩蔽当噪音和目标声音信号的信息模式有一定程度的相似时,例如两者都是语音信
37、华华 中中 科科 技技 大大 学学 硕硕 士士 学学 位位 论论 文文8号时,噪音就会在心理加工过程中抢占一部分的心理资源,使人对于目标信号的信息加工受到影响,即目标信号受到了掩蔽作用。和前向掩蔽和频率掩蔽等低层次上的掩蔽效应不同,信息掩蔽是一种在较高的神经和心理加工水平上所产生的掩蔽效应,即使同一时刻目标声音和噪声在频率上并没有重合。心理学实验证明了在同样的信噪比条件下,以语音为内容的噪声相对于普通噪声对于人的语音感知能力有着更大的干扰43-44,而且当噪声中的语言和被试的母语为同一种语言时这种干扰效果尤其明显45。这些结果确认了在“语言干涉”形式下噪声中句子识别中的信息屏蔽效应。H. Ko
38、zou等人46在不同声场环境下测试被试的MMN,结果显示了在嘈杂环境和安静环境中语音和非语音的处理方式是不同的。相比于非语音处理过程,语音处理过程更多地受到噪音环境的影响。此外,对于语音和非语音声音的预注意辨别力在不同类别的噪音下受到的的影响也是不同的。Xihong Wu等人47语音噪音干扰效应相对于频谱噪声更容易通过优先效应来消除,这也从一个侧面反映出其处理过程的神经机制某些特征。另外,Marisciel Litong-Palima等人48揭示出语音跟踪不同于语音识别,人类在多语音干扰的情况下跟踪目标语音的能力鲁棒性很好,其反应表现出来的是一个线性系统的特征。而语音识别在环境中不相关的语音源
39、增多的情况下,其识别能力迅速恶化。1.2.2 语音理解语音理解在各种不同的实验条件下对语音的可理解度的研究,可以有助于我们了解听觉系统在信号中提取什么样的语音特征,如何提取这些语音特征以及知识体系在大脑记忆系统中的存储形式。同时,这种研究在应用层面,对于语音识别系统采用新的特征提取技术有一定的指导意义。M. Kathleen Pichora-Fuller等人49采用短时抖动来干扰语音的周期性线索来研究这种扰动如何影响词的辨认,得出时域扭曲比低频成分的谱扭曲更能影响词识别的结论。Thomas Baer等人50设计了对于语音进行的smearing操作,发现对于安静环境中的语音信号进行smearin
40、g处理后,可理解性没什么影响;对于噪音环境中的语音信号进行smearing处理后,可理解性明显降低。F. Apoux等人51对正常听力华华 中中 科科 技技 大大 学学 硕硕 士士 学学 位位 论论 文文9者和听力受损者进行了语音信号时域包络扩充效应对于噪音环境中语音识别效果影响的研究。时域扩展在正常听力者识别得分上改进很小(约为5%),在听力受损者识别得分上没有影响。在另一方面,结果显示扩展导致在所有被试反应时间都明显下降。两个实验组平均反应时间减少65ms。这些结果显示噪声环境中语音信号时域包络扩充可以让正常听力和听力受损者“容易听到”信号。Rob DrullmanZ等人52描述了相对于传
41、统的单双耳的听觉呈现方式,3D听觉呈现方式在考虑可理解性和有竞争语音的环境中说话人识别任务中的优点。在进行识别人任务时,能够很有效的减少反应时间。语音理解研究中一个重要发现是相同的声音信号可以被感知为不同的语音,这倚赖于前后的语音内容。虽然这种语音内容效应在语音感知中非常普遍,它的神经机制仍然很大程度上没有被了解。Lori L. Holt等人53通过回顾这方面的研究情况,说明了这个效应受到高级听觉过程的支配,提出了一种描述性框架来整理这些工作。同时进行了4个心理实验揭示出语音内容效应持续数百毫秒。Matthew H. Davis等人54回顾四个对于语音理解很重要的过程:感知整合(percept
42、ual grouping)、词汇分割(lexical segmentation)、感知学习(perceptual learning)和绝对感知(categorical perception)。提出并证明了自上而下信息驱动过程和语音输入解释抑制过程之间的高度相互作用。这些相互作用的认知和神经基础依赖于对听到的语音两种独立的表述方式:对于输入语音信号的表述和能够产生该语音的肌肉行为表述。1.2.3 注意力注意力在整个认知科学研究领域里,注意力对于知觉的影响都受到了研究人员广泛的承认和重视。在人的听觉系统处理大量复杂声音信号时,注意力机制能够让人有选择的处理某一部分信号而忽略其他信号,同时也就对大量
43、复杂噪声干扰具有强大的抗噪能力。在听觉研究领域,注意力的研究可以说是难点和核心之一。Claude Alain55综述了多声源感知的研究进展,指出初级听觉皮层和颞平面在多声源感知过程中发挥重要作用,而且揭示了丘脑皮层活动和多路语音成功分离与华华 中中 科科 技技 大大 学学 硕硕 士士 学学 位位 论论 文文10确认之间的联系。A.R. Palmer等人56回顾了近年关于非被动听觉(即包括注意力等因素的听觉过程)的研究进展。Tomas hromadka等人57则站在神经生理和动物行为实验角度上,对于近年来有关注意力的生物实验研究作了回顾。E. Ofek等人58采用提示注意范式研究了左耳优势现象的
44、神经生理学关联,并且了评估刺激的方向和注意力的相互作用。Jonathan B. Fritz等人59-60在动物进行实验任务的同时记录它们大脑皮层信号,实验结果表明A1区中注意力引发的可塑变化可以很快的改变STRF形状(通过改变接受区域来增强特征/背景分离能力,通过对比匹配来滤掉背景,同时增强前景中目标声音的声学特征)。这些结果支持这样的观点:大脑可以动态的,和注意力相关地、自适应地可以根据当前面对的问题,快速改变其滤波性质和中枢连接。1.3 其他相关研究其他相关研究除了对于听觉系统本身的研究之外,还有不少相关工作涉及到听觉场景分析的系统实现,对于计算机智能化听觉作出有益的尝试。戴明扬等人61采
45、用精细的听觉外周模型来提取信号特征,发现比常见的 MFCC 特征参数有更好的鲁棒性。赵鹤鸣等人62采用声源空间定位算法和简化的频率掩蔽算法实现了 2 个语音源的信号分离。Martin Cooke63模拟人的听觉过程中对于不完整信号的处理方法,采用数据丢失技术和基于不完整信息的模式识别技术来实现在不平稳噪声中语音信号的识别。不过由于对于生物听觉系统缺乏深入了解,这些人工系统听觉系统想要达到生物听觉的水平,还有相当长的路要走。1.4 本文研究内容本文研究内容以上对于听觉系统研究领域按照自下而上分析过程和自上而下分析过程两个大类进行了一些简单的介绍。本研究的工作是对听觉系统自上而下及自下而上分析过程
46、中的一些特性进行了三个相关研究,包括声学实验及语音信号处理模拟计算。华华 中中 科科 技技 大大 学学 硕硕 士士 学学 位位 论论 文文112 说话人辨识听觉线索研究说话人辨识听觉线索研究2.1 引言引言在多个说话人语音以及复杂的声环境中,辨识和跟踪某一个说话人的语音并提取语音信息,是语音识别技术走向应用面临的重要课题和难题。技术上是从接收的语音信号中提取某些特征,利用这些特征和一定的判据将语音信号进行分类。迄今,所取得的效果并不令人满意。但是,听觉系统却有很好的说话人跟踪和辨识能力,其工作模式和机理值得借鉴。在说话人辨识技术中,以 MFCC 为代表的主流语音特征在时域上对语音作均匀权重处理
47、64。但是听觉系统是否按这种方式工作呢?由于说话人音质特征信息对于噪声环境中搜索目标语音起到了最为关键性的作用,这就转化成需要明确的具体问题:音质特征信息量在语音时域上如何分布? 语言学研究65表明在词汇处理上辅音音素起到支配性作用。类似地,如果语句字词识别过程中辅音元音具有不同的重要性,提供不等的信息量,那么说话人语音特征信息量在元音/浊辅音中所含是否也不等呢?不同的元音对说话人识别过程的重要性是否一样的呢?如果不一样,那与什么因素有关? 直接对不同音素中语音音质特征信息量进行测量具有一定的难度,但是近年来心理声学研究中发现的“提示效应” 66-67实验模式很好地解决了这个问题。提示效应是指
48、通过预先播放与目标声音相关的提示音,能够有效提高人类在噪声中识别目标语音的能力的现象。我们研究了被试在进行说话人辨识任务时所依赖的提示信息,发现提示音中不同音素有着不同的提示效果,这反映出音素所包含的说话人语音特征信息是不等量的。同时,通过与自然语言环境中发音的统计结果相比较,不同音素所包含的说话人的特征信息,与信息论中的信息熵的估计是一致的。这些研究结果,为说话人听觉辨识机制的揭示,以及说话人辨识的语音特征时域非均匀权重处理提供了全新的思路和实验证据。华华 中中 科科 技技 大大 学学 硕硕 士士 学学 位位 论论 文文122.2 实验实验 1:不同元音所含音质特征信息测定:不同元音所含音质
49、特征信息测定2.2.1 实验参与者实验参与者26 名华中科技大学本科生及研究生(20 名女性和 6 位男性,年龄从 20 岁至 25岁)参与实验担任被试人员。所有被试都通过面试确认拥有正常听力。2.2.2 实验材料实验材料实验语音材料是由 6 为男性说话人(华中科技大学研究生,年龄从 23 至 25 岁,普通话标准)录制,他们所有人都不认识参与实验的被试者。所有声音材料都是在隔音室中录制完成。录音材料最高频率为 8kHz,保存格式为 PCM(22.050kHz,16位,单声道) 。实验语音材料有三种不同内容:自然语句,非自然语句和元音串。自然语句是从常见流行书中随机抽取。对自然语句的统计分析可
50、知,在总计 2274 个字中,各个元音的发音概率分别是:/i/ 46.9%, /a/ 29.1%, /e/ 25.9%, /u/ 24.8%, /o/ 20.6% and /v/ 3.39%。根据这个概率分布,针对性地设计了非自然语句。在保持原语句通顺有意义的前提下,通过将自然语句中某些词替换,得到非自然语句中各元音发音概率明显不同于原有语句:/u/ 32.1%, /e/ 30.7%, /o/ 25.5%, /i/ 23.7%, /a/ 22.7% and /v/ 5.97%。语句中元音发音概率分布见图 1。图 1 在自然语句和非自然语句中各个元音的发音概率分布。自然语句经过修改后得到的非自然
51、语句中,自然语句中出现概率高的元音变成了低概率元音,低概率元音变成了高概率元音(除了元音/v/,其在中文中的可搭配音素过少) 。华华 中中 科科 技技 大大 学学 硕硕 士士 学学 位位 论论 文文13自然语句经过修改后得到的非自然语句中,自然语句中出现概率高的元音变成了低概率元音,低概率元音变成了高概率元音。但是元音/v/例外,它在中文发音中十分特殊。因为缺乏与其能够结合成为 C-V 音节的辅音,元音/v/在中文语言环境中出现较少,所以无法将其在非自然语句中的出现概率设计成最高。所以实验中采用的两种不同的元音序列分别是:自然语句中的高概率元音(/i/,/a/和/e/)和低概率元音(/e/,/
52、u/和/o/) 。换句话说,前者在非自然语句中是低概率发音,后者在非自然语句中是高概率发音。在每个发音序列中,相邻元音的间隔为 400ms左右。两个发音串中元音在语句中出现的平均概率如表 1 所示。表 1 两个元音串中元音在语句中出现的平均概率(%)元音串/i a e/e u o/自然34.023.8语句类型非自然25.729.4每个录音者所录的是 1 个完整的中文单元音序列(/a/, /o/, /e/, /i/, /u/ and /v/),10 个自然语句和 10 个非自然语句。两种类型的元音发音串是基于这个录音制作出来的,所有发音的平均声强级都被归一化了。录音和制作的工作都是用 Cool
53、Edit Pro 2.1完成的。2.2.3 实验方法实验方法实验采用22完全随机化设计,启动效应范式。因素A的两个水平表示两种不同的待判断语句(Xa1:自然语句;Xa2:非自然语句),因素B的两个水平表示提示元音串在自然语言环境中的出现概率(Xb1:提示元音在自然语句中出现较多,如/iae/;Xb2:提示元音在自然语句总出现较少,如/euo/)首先呈现元音串进行提示,两种提示元音串随机出现。元音串后间隔500ms,同时播放语句A和B。语句A和B长度均为4秒,具有相同的平均功率。A和B内容不同,且其说话人是从说话人集合中华华 中中 科科 技技 大大 学学 硕硕 士士 学学 位位 论论 文文14随
54、机挑选。A和B中有可能出现元音串的发音人,也可能没有。两个语句的类型相同,均为自然语句或非自然语句。两类型随机出现。被试被要求判断提示元音串发音人是否出现在语句发音人中。每个被试进行5组,每组10次,共50次测试。每完成一组测试,被试可以休息3分钟。整个测试在隔音室中进行,通过基于MATLAB R2007A 编写的人机交互界面程序实现声音信号呈现,被试结果记录等所有工作。实验过程中实验者不对被试施加任何提示或干扰。2.2.4 实验结果实验结果总共26个被试者参与了实验,每人进行了50次测试,总共应有1300次测试判断结果。由于疏忽等原因,只记录了1293个结果。在对照组Xa1b1348个判断结
55、果中,219个是正确的,129个是错误的,判断准确率为62.9%;在对照组Xa1b2356个判断结果中,238个是正确的,112个是错误的,判断准确率为66.9%;在对照组Xa2b1297个判断结果中,176个是正确的,121个是错误的,判断准确率为59.3%;在对照组Xa2b2292个判断结果中,179个是正确的,113个是错误的,判断准确率为62.9%。在实验中,由于录音人总数是6个,而只需要选择一个,所以被试者如果选择“是”则导致16.7%的先验准确率,而选择“否”则导致了83.3%的先验准确率。因为每个被试的选择倾向性不同,所以4个对照组中先验准确率分别为Xa1b1: 53.6%, X
56、a1b2: 54.1%, Xa2b1: 54.0%, Xa2b2: 50.8%。在各个对照组中被试的准确率提高百分比如表2所示。表2 实验中4个对照条件下被试者的说话人判断准确率提高百分比(%)。提示音概率 (Xb)高概率 (Xb1)低概率(Xb2)自然(Xa1)9.312.811.1语句类型 (Xa)非自然(Xa2)5.310.57.97.311.7在Xa1水平上,共记录了704个判断结果,其中457个正确,247个错误。判断准确率为64.9%,由提示音带来的判断准确率的提高百分比为11.1%。在Xa2水平上,共记录华华 中中 科科 技技 大大 学学 硕硕 士士 学学 位位 论论 文文15了
57、589个判断结果,其中355个正确,234个错误。判断准确率为60.3%,由提示音带来的判断准确率的提高百分比为7.9%。当测试语句是自然语句时,判断准确率的提高百分比比当测试语句是非自然语句时更高。这两个结果差异显著(|Z|=1.9414, p0.05),说明测试语句是自然还是非自然对于说话人判断过程中的准确率有明显影响。在 Xb1水平上,共记录了 645 个判断结果,其中 395 个正确,250 个错误。判断准确率为 61.2%,由提示音带来的判断准确率的提高百分比为 7.3%。在 Xb2水平上,共记录了 642 个判断结果,其中 417 个正确,225 个错误。判断准确率为 65.0%,
58、由提示音带来的判断准确率的提高百分比为 11.7%。当提示元音串中元音是自然语言环境中出现概率低的元音时,判断准确率的提高百分比比当提示元音串中元音是自然语言环境中出现概率高的元音时更高。这两个结果差异显著(|Z|=2.6923, p0.05),说明提示元音在自然语言环境中发音概率高低对于说话人判断过程中的准确率有明显影响。2.3 小结小结通过该实验,我们发现人类在进行说话人识别处理时,不仅说话人语言的自然程度对其结果有影响,而且即使是自然语句中,在语言环境中出现概率高的发音和出现概率低的发音对结果也有明显影响。在这里我们着重讨论后一种现象。在听觉心理现象研究中,D.P. Phillips等人
59、68发现人的听觉系统在处理声音信号时,信号各个部分对于听觉系统而言重要程度是不一样的。起始端的编码占有非常重要的位置,而结束端重要程度就相对低的多。这和Boris New等人在研究字词识别时发现辅音对于字词识别的贡献大于元音的现象69是很类似的,后者还提出了这种现象可能与信息论有关:自然语言环境中,辅音数量明显多于元音,因此在搭配成音节时,辅音携带的信息量更多。而在我们的这个研究中,同样也发现了在听觉信号处理时,人类听觉系统对于信号在时域上的关注程度不一致。但是,我们的发现也不同于前面的研究:前面的研究反映出人类听觉神经系统和发音器官结构限华华 中中 科科 技技 大大 学学 硕硕 士士 学学
60、位位 论论 文文16制对于听觉理解的影响,而我们的研究则揭示了人类听觉系统在进行语音信号处理时,不仅仅受到生理物理结构限制带来的条件约束,而且在长期语言环境的训练下,按照语言发音习惯等统计要素进行了合理的改进,依照信息论的思想对语音信号进行了编码处理,对高概率发音粗略编码,对低概率发音细致编码,这样可以充分地利用神经资源。在视觉听觉信号的编码技术领域,能够对信号进行无损压缩的方法主要有两个途径:一个是通过数学手段,尽量减少信号的冗余性,提高信号传输效率,最终能够达到信息论所指出的编码极限;另一个就是利用人类感觉器官本身的性质,丢弃感觉器官不会注意的部分信息,达到数据压缩的效果。虽然这个方法实际上造成了
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年数控高精度内外圆磨床项目资金申请报告代可行性研究报告
- 2024年xx村10月驻村工作总结
- 二年级数学(上)计算题专项练习
- 2024年度影视制作费用协议范本
- 第七届进博会隆重开幕感悟心得
- 2024年商业广告承揽协议规范格式
- 2024年产蜜蜂购买协议
- 2024年零星建筑施工项目协议范本
- 工程档案管理办法-安装工程档案管理办法
- 宾馆房间租赁专项协议2024
- 高校辅导员岗前培训课件
- Java程序设计项目式教程 教案 单元10 Java图形用户界面设计
- 指纹识别技术
- 医院的门禁管理制度范文
- 读书分享读书交流会《局外人》课件
- 劳务派遣公司与劳务中介公司的不同
- 学校(幼儿园)每周食品安全排查治理报告(整学期16篇)
- 房地产买卖保密协议
- 检具的设计、制造和使用
- (苏州专版)江苏省苏州市2023-2024学年五年级数学上册期中综合素养测评调研试卷(苏教版)
- 湖南省衡阳市成章实验中学2022-2023学年七年级上册数学期中考试模拟卷
评论
0/150
提交评论