在人工耳蜗中对频谱信息进行有效的语音处理(渣翻译)

上传人：a*** IP属地：湖北上传时间：2022-07-28 格式：DOC 页数：7 大小：335KB 积分：16 举报 版权申诉

已阅读5页，还剩2页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、利用频谱信息的人工耳蜗语音处理作者，作者*小四号楷体，居中，拟作报告者在作者名下添加下划线学校专业，，通讯作者邮箱5号宋体/Times New Roman，居中摘要基于对普通话的声学研究成果，利用频谱信息的人工耳蜗语音处理的两种新的算法在声学仿真实验得到有效的认证。我们提出的新算法传送基于所述频带的选择的频谱信息。这些新的算法不仅可以提高在嘈杂的环境中人工耳蜗植入者的语音识别能力，同时也降低了复杂度的计算和所占用的内存，并使其更适合于临床治疗。关键词人工耳蜗，语音信号处理，信号处理人工耳蜗植入简称助听器是唯一可以通过提取编码振幅调制一个固定频率的电刺激脉冲时域语音信号的包络，以恢复听力的

2、能力，帮助完全失聪人士的可用医疗设备。在中国160余人成功地恢复了自己的听觉通过助听器。虽然现代的助听器能够在安静的环境中识别识75左右的语句，但是大多数的助听器用户在嘈杂环境中识别语言的能力还相当差，尤其是在普通话的语音识别方面，因为即使是一个单音节的色调是也可能是一个有意义的词汇。许多研究者致力于开发新的语音处理算法，它不仅可以传送时间包络信息，而且传送的频谱信息，以提高助听器用户的语音识别能力。 Chen等人与仁王克拉人。从听力正常的受试者的声音信号中导出了调幅AM 和调频FM 信息，并进行了声学仿真实验，。他们发现，调频额外的编码可以显著提高噪声英语语音识别。伊恩克拉人。通过提取和编码

3、的窄带信号的手两个信封和语音信号的根本频率F0 开发了一种新颖的算法。 F0是用于调制的正弦波的中心频率在声学模拟实验。该算法可以显著改善对汉语的识别。所有这些研究证明了频谱信息可以显著提高言语感知的助听器用户的能力。而根据语音学研究，我们假设每个通道中传输信息时三个方面都会有冗余信息。更紧凑的算法可以减少输送频谱信息的冗余信息。首先，输送普通话色调信息的管道有冗余。时域包络信息和频谱信息有助于在语音信号处理中息识别普通话的4个声调。许多研究中别离出的频谱信息和时域包络信息显示，比方元音持续时间和幅度轮廓有助于普通话声调识别。这方面的作用，有时很显著，但是在多个管道传送音调信息时由根本频率及其

4、谐波引起的频谱间距时作用相对较弱。即使有些管道中可以得到别离完美的铃声识别，所以输送普通话的声调信息的管道有冗余。其次，完美的声调识别可以通过只提取和编码速度类和频谱信息的范围在低频率相实现。以前的研究发现，直接获取识别完美的音色的根本频率和低通在300赫兹的间接由剩余沥青的谐波结构，可以由低频率滤波实现。因此，在低频段输送的时域和频谱的信息有可能足以获得完美的语音识别。最后，传统的频谱算法在高频段不能感知声音。许多研究人员专注于如何提取频谱的信息来提高语音识别能力。两种类型的频谱信息，如F0和FM语音信号的每个频带编码信号。但在高频段，F0和FM采用了助听器用户无法感知的频谱信息的传统算法的

5、编码算法。因为无论是在低频或高频波段，光谱信息，而在低的频率范围约100赫兹，是用来调节中心频率的正弦波声模拟实验。因此，在高频波段，频谱中形成的变化范围相对于正弦波对应于这些频带的中心频率例如，光谱信息对中心频率比8通道人工耳蜗植入正弦波从最低到最高频带如下：47.4%，28.4%，17.5%，11.1%，7%，4.5%，3.96% 1.9%是微缺乏道。这使得在高频段使用传统算法编码后助听器用户很难识别。基于这三个方面的研究，我们认为完美的语音识别可以实现，我们在较低的频率编码的时域包络和频谱信息中提取，但只有在较高的频带编码的时域包络。这使得频带的选择中的频谱信息提取和编码为频率调制在低频

6、局部的原理靠近耳蜗的顶点，频谱信息计算或使用在高频局部防暴基地附近的数目与频谱信息的频率范围从顶点定义为参数S是德测定的声学模拟实验结果实验。我们提取和编码的频谱信息有两种方式，即选择性的根本频率控制 SFFC 算法和选择性频率振幅调制编码 SFAME 算法。通过不同的语音材料在不同环境中来证明在声学仿真实验算法的有效性。在这项研究中进行的声学仿真实验扩展了调频，形成在白噪声和混合环境下的语音识别普通话贝丝效果的研究，并且扩大了在F0的在多信噪比白噪声环境中，在多TMR混合的语音环境下的研究。类似的结果已经从使用不同的频谱信息得到与传统算法相比连续交替取样。它还说明使用频谱信息提高人工耳蜗植入

7、者的语音识别能力的巨大潜力。1. 算法存在于所有主要的临床人工耳蜗产品CIS算法。输入的语音信号首先被1.2 kHz于6分贝/月，然后被别离为几个频带4，6 ，8，12等通过的带通滤波器组。低频率的频带对应于耳蜗的顶部，而高频段对应于刺激耳蜗的底电极上的电极。在每个频带的包络信号可以整流器和低通滤波后得到。在电刺激模式，电刺激脉冲串的幅度是由从各频率波段的输出中提取的包络信号进行调制。在声学仿真模型模式，包络我们用来调制的正弦信号进入滤波器频带的中心频率，然后重新合成的调制信号转换成模拟信号。因此，从不同的频带语音信号的包络的线索可被发送到助听器用户。SFFC和SFAME两种算法可以提取编码后

8、的频谱信息，这防止了现有算法的缺点。SFFC算法提取和编码语音的根本频率。该算法有两个信号通路，包括传统的带包膜提取像CIS算法和额外的基频处理。在一个信号通路，类似于标准的CIS算法，对语音信号已经预先处理过之后，频段划分包络提取执行的过程;在其他信号转导途径，根本频率是通过使用提升提取并用的电刺激脉冲调制后期下的频带选择的原那么控制的速率。在声学仿真模型中，当模拟信号被重新合成时，基频信息的频带的选择的作为调制的正弦波信号的中心频率，从而重新合成的语音的原理。见图1图1 SFFC算法示意图同样， SFAME算法使用的频率的调制信息，以改善语音识别。该算法还具有两个信号通路。在每个频带中的第

9、一途径中，传统的包络提取，采用类似标准CIS算法和SFFC 。但是不同于SFFC， SFAME没有采用快速频率传送的频谱信息，而是缓慢变化的频率变化的信息进行调制的脉冲频率在所述第二信号通路。通过删除子带信号的中心频率，并且限制了频率调制的范围和速度，SFAME算法变换的快速变化的时域细微结构成一个缓慢变化的频率调制FM 的信息。在声学仿真模型中，当模拟信号被重新合成时，FM信息的频带的选择的作为调制的正弦波信号的中心频率，从而重新合成的语音。见图2图2 SFAME算法示意图2.声学模拟实验人工耳蜗语言处理器的声学模型已经被很多研究者进行正常听力受试者的实验，我们在声学仿真实验验证两个语音处理

10、算法，试图证明普通话的语音识别的频谱信息，特别是在白噪声和混合的语音的情况下更为有效。在本文中进行的声学仿真实验，无论是在白噪声还是混合的语音环境中，扩大调频信息的效果在文献中都没有普通话的研究。而这些实验也扩大了在识别多信噪比白噪声环境和多TMR混合的语音环境中研究F0的汉语语音的影响，这也是文献没有提及的。二十四个以普通话为母语的年轻人参加了这个实验。所有受试者听力正常。实验在一个非常安静的实验室进行，所有的模拟声音是通过一个森海塞尔的HD457耳机播放。发音材料采用元音特写集，字开集和句子开集。两个条件分别为白噪声背景和混合的语音背景男-FE男性重叠，采样率为16 kHz，通道数是8。每

11、个实验100个问题，有元音，词，句和混合。重叠的白噪声TMR混合讲话实验的信噪比为 5分贝，0分贝时，0分贝和5分贝。元音实验的识别率等于通过提问的总数除以人数。这些的字，句，混合的语音实验，用正确的关键字的总数计算。3.结果基于VAN-OUS算法，在使用不同的语言不同的材料5个级别的识别率的结果示于图3-图5。表1和表2分别给出由SFFC算法和在SFAME算法计算得到的数据首先，可以从这个声学仿真实验结果的分析得出以下结论：在无频率波段选择S=8的原那么的影响。白噪声被添加后，无论什么讲话材料被采用，根据方差分析与CIS算法的两个算法参见图中的表1和3和4行1和2可以得到显著改善。当语音材料

12、是男女重叠TMR - 5分贝，SFFC和FAME也将获得显著改善与CIS算法相比参见图5和行1在表1和表2。因此，提取和编码频谱信息对使用类似普通话这类有声调的语言人工耳蜗植入者非常重要。根据普通话的频谱特性的语音处理算法比传统算法有更好的语音识别效果。它可以提高人工耳蜗植入者的识别能力。分析频段选择的原那么后见第2行的表1和表2至6行基于单因素方差分析，我们可以就如何更有效地使用频谱信息得出以下结论。(1). 无论背景噪声是白噪声还是掩蔽讲话，不管讲话材料是元音字母，单词或句子，普通话的识别率持续降低，S持续减少。(2). 当前频谱中，形成的通道数量等于或大于55 =5中，在频段选择S-8情

13、况下大多数情况下有一个在识别率之间用不同的S的算法与没有采用S算法的效果的识别率相比无显著差异。(3) 当信道数S小于5S 5 ，有显著减少。因此，我们基于所述频率范围的选择的频谱信息提出新的算法。一方面，对频谱信息的提取是类似于通过的原始算法的方法;另一方面，只用在一个特定的通道s = 5，在对应于电极的低频段中提取的频谱信息不远的地方的频率编码机理耳蜗的顶点 - “时空代码提供了适用方面取得了很好的效果。这些新的频谱信息的算法不仅可以有效提高在嘈杂的环境中人工耳蜗植入者的语音识别能力，同时也降低了计算和占用的内存的复杂性例如，通过调频的计算量减少了37.5 和F0和FM发射量减少了，从而

14、使之更适合在临床实践中进行。参考文献Dorman M.F., Loizou P.C.,Fitzke J . et at. The recognition of sentences in noise by normal-hearing listeners using simulations of cochlear-implant signal processors with 620 channels. J . Acoust . Soc. Am. , 1998, 104 : 35833585A. Gelman, J. B. Carlin, H. S. Stern et al., J Xxx, 20

15、21, 44(6):77-83Fu Q. I. and Shannon R.V. Phoneme recognition by cochlear im- plant users as a function of signal-to-noise ratio and nonlinear ampli - tude mapping. J . Acoust. Soc. Am. , 1999, 106 : L182.Stickney G. , Zeng F.G. , Litovsky R . et at. Cochlear implant speech recognition with speech ma

16、sker. I. Acoust. Soc. Am . , 2004, 116 : 10811091 .Wei C.G. Cao K .L. Wang Z . Z. et at . Rate discrimination and tone recognition in mandarin-speaking cochlear-implant listeners.Chin . J . Otorhinolaryngol. , 1999, 34 : 8488.Wei W . I . , Wong R. , Hut Y . et at. Chinese tonal language reha- bilita

17、tion following cochlear implantation in children. Acta Otolaryngol. , 2000, 120 : 218221.Wu I. L. and Yang H. M . Speech perception of Mandarin Chinese speaking young children after cochlear implant use: effect of age at implantation. Int. J . Pediatr. Otorhinolaryngol. , 2003, 67 : 247253.Chen H.B. and Zeng F.G. Frequency modulation detection in cochlear implant subjects. I. Acoust . Soc . Am . , 2004,116 :22692277.Nie K . , Stickney G. and Zeng F. G . Encoding frequency mod

人人文库> 全部分类> 教育资料 > 作文作品

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

在人工耳蜗中对频谱信息进行有效的语音处理(渣翻译)

文档简介

温馨提示

最新文档

评论

在人工耳蜗中对频谱信息进行有效的语音处理(渣翻译)

文档简介

温馨提示

最新文档

评论

相关文档