




已阅读5页,还剩55页未读, 继续免费阅读
(信号与信息处理专业论文)清辅音特征分析及其在耳语音说话人识别中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
清辅音特征分析及其在耳语音说话人识别中的应用 中文摘要 i 清辅音特征分析及其在耳语音说话人识别中的应用 中文摘要 耳语发音是人的一种特殊发音方式,与正常发音相比有很大差别。耳语音在人们 的日常生活中应用普遍且起着较为广泛的作用。 耳语发音方式下的说话人识别是一个有意义的课题。 耳语音的发音特性决定了耳 语音说话人识别的难度要大于正常音说话人识别。考虑到耳语发音比正常发音变化 大, 实验中较难获得充足的耳语音训练数据,本文着手研究一种正常音训练的耳语音 说话人识别系统。由于耳语音有别于正常音,当耳语音说话人识别系统用正常音训练 时,识别性能就会发生急速下降。在这种情况下,如何提高耳语音说话人识别系统的 准确率就很值得探讨与研究。针对以上问题,本文主要做了以下几个方面的工作: 一、针对正常音训练的耳语音说话人识别系统,引入了两种新的特征提取方法: 线性频率倒谱系数(linear frequency cepstral coefficients, lfcc)和指数频率倒谱系数 (exponential frequency cepstral coefficients, efcc),这两种特征提取方法都强调了语 音的高频部分。实验证明,在高斯混合通用背景模型(gmm-ubm)下的耳语音说话人 识别系统中,lfcc 和 efcc 特征要优于传统的美尔频率倒谱系数(mel-frequency cepstral coefficients, mfcc)特征,识别率提高了 8%左右。 二、通过计算正常音-耳语音、正常音清辅音-耳语音清辅音高斯混合模型 (gaussian mixture model, gmm)之间的 kl 散度距离,证明正常音和耳语音相比较, 它们的清辅音成分之间具有更大的相似性。 然后提取了耳语音的细节信号系数与近似 信号系数之比(detail-approximation energy ratio, daer)作为特征参数用于耳语音的 声韵分割。 三、为了进一步改善正常音训练的耳语音说话人识别系统的性能,本文将清辅音 应用于耳语音说话人识别系统中,得到正常音清辅音训练、耳语音清辅音测试的说话 人识别系统。实验表明,同样在 lfcc 特征提取下,相比于正常音训练、耳语音测试 的系统,其识别率提高了 28%左右。 关键词:关键词:耳语音;耳语音;说话说话人人识别;识别;清辅音清辅音;线性频率倒谱系数线性频率倒谱系数;kl 散度散度 作作 者:者:徐徐 娟娟 指导指导教教师:赵鹤鸣师:赵鹤鸣 英文摘要 清辅音特征分析及其在耳语音说话人识别中的应用 ii characteristic analysis on unvoiced consonants and its application in whispered speaker identification abstract whispered speech as a special phonation mode is different from normal speech in phonetics and physiology. with the ever-increased progress in society, whispered speech is widely used in human life, especially in all kinds of identity recognition. whispered speech, as an auxiliary way of communication beside of neutral speech, could improve the performance of speaker identification system. so, whispered speaker identification is also noticed as a new project. whispered speaker identification has the low recognition accuracy due to its own characteristics. considering the difficulty to collect whispered speech data than neutral speech data, it is not realistic to get enough whispered speech data in experiment. therefore, this paper tried hard to research a whispered speaker identification system trained with neutral speech. due to the differences between whispered and neutral speech in both excitation and vocal tract function, the performance of speaker identification systems trained with neutral speech degrades significantly. in this case, how to improve the whispered speaker identification is a valuable problem. the contribution of this paper to whispered speaker identification is as follows: 1. this paper introduces two new feature extraction methods for the whispered speaker identification trained with neutral speech,which are based on linear and exponential frequency scales. these two methods both emphasize high frequency components. the experiment results show that the better performance is achieved with lfccs and efccs, with a 8% absolute improvement, compared to the system based on mfccs. 2. by means of assessing the kl divergence distance between two probability distributions, it can be seen that the kl divergence distance of the unvoiced consonant gmms between whispered and neutral speech is much smaller compared to that for the whispered and neutral speech. so this result confirms the observation that unvoiced 清辅音特征分析及其在耳语音说话人识别中的应用 英文摘要 iii consonants do not vary as much as other phonemes between whispered and neutral speech. then the detail-approximation energy ratio (daer) based on the wavelet decomposition is used to separate the initial/final segment. 3. in order to further improve the speaker recognition system trained with neutral speech, a system trained and tested with unvoiced consonants is proposed respectively in the paper. as seen from the experiment results, the performance of the speaker identification system trained with unvoiced consonants of neutral speech and tested with unvoiced consonants of whispered speech outperforms that of the system trained with neutral speech and tested with whispered speech all based on lfccs, resulting in an absolute improvement of about 28%. keywords: whispered speech; speaker identification; unvoiced consonants; linear frequency cepstral coefficients; kl divergence. written by xu juan supervised by zhao heming 目 录 第一章 绪论 . 1 1.1 耳语音的研究背景 . 1 1.2 耳语音说话人识别的研究现状 . 1 1.3 本文的主要研究工作 . 3 1.4 论文结构 . 3 第二章 耳语音的声学研究 . 5 2.1 耳语音的声理特性 . 5 2.2 耳语音的时频特点 . 7 2.2.1 时域特点 . 7 2.2.2 频域特点 . 8 第三章 耳语音的特征参数分析. 10 3.1 语音特征参数的分析 . 10 3.1.1 语音信号的数学模型. 10 3.1.2 基音频率 .11 3.1.3 共振峰 .11 3.1.4 美尔频率倒谱系数(mfcc) . 12 3.2 耳语音特征参数的分析 . 16 3.2.1 耳语音产生的数学模型 . 16 3.2.2 线性频率倒谱系数(lfcc) . 17 3.2.3 指数频率倒谱系数(efcc) . 18 第四章 基于 gmm 的耳语音说话人识别系统 . 21 4.1 说话人识别的分类 . 21 4.2 常用的模型训练方法 . 22 4.3 gmm 的基本概念 . 23 4.4 通用背景模型 . 25 4.4.1 分裂法 . 26 4.4.2 k 均值聚类算法 . 27 4.4.3 em 算法 . 28 4.5 说话人模型的自适应 . 30 4.6 基于对数似然度函数的辨认算法 . 32 4.7 实验结果与分析 . 32 第五章 清辅音在耳语音说话人识别中的应用 . 34 5.1 语音的分类 . 34 5.2 清辅音特征分析 . 34 5.3 离散小波变换的汉语耳语音声韵分割应用 . 37 5.4 系统的构造 . 40 5.5 实验结果与分析 . 40 第六章 总结与展望 . 45 6.1 论文总结 . 45 6.2 今后展望 . 45 参考文献 . 47 攻读硕士期间发表的学术论文 . 52 致 谢 . 53 清辅音特征分析及其在耳语音说话人识别中的应用 第一章 绪论 1 第一章 绪论 1.1 耳语音的研究背景 目前, 耳语音方面的研究仍然是一个比较新的研究课题,还有不少问题等待我们 去解决。在语音学中耳语音的定义为1:耳语音是一种有别于正常语音的单一的发音 类型,它的主要特点是声门韧带完全合拢,勺状软骨形成比较宽的三角裂隙,肺部气 流通过开放区产生摩擦噪声,形成耳语音。也就是说,耳语发音的过程中必须保持声 带不产生振动,所以耳语音的音量与正常音相比低很多,传输距离比较短。 耳语音的这些特性使得它在日常生活中可以为我们发挥很多重要的作用,比如, 在医院等需要保持肃静的公共场合,说话人一般选择用耳语音来进行通讯,以免打扰 别人; 在公共场所的手机通讯中, 为了保护个人隐私, 会用到耳语音; 在金融行业中, 为了在身份认证和口令输入时防止泄露重要信息,用户会选择耳语音;在公安司法领 域,比如身份鉴别、身份安全认证中,通常也会使用耳语音。总而言之,耳语发音方 式下的说话人识别有着相当广泛的应用前景, 所以耳语音说话人识别研究具有着现 实意义。 1.2 耳语音说话人识别的研究现状 近年来说话人识别的发展迅速,尤其是在模式识别领域,自动说话人识别的性能 在某些条件下已经可以与人类的能力相当,甚至超过人类4243。虽然耳语音说话人 识别技术的发展并不如正常音说话人识别那么成熟,但是它也已经取得了一定的成 果。实验研究表明,耳语音属于气声发音,声带不产生振动,其能量比正常发音大约 低 20db,信噪比更低,所以耳语音的语义变得模糊15。现代说话人识别技术的飞速 发展使得说话人识别系统必须在各种通信信道和复杂环境中都要保持较高的准确率 和稳健性。因为耳语音的信噪比低,所以研究处理起来比较困难,但是说话人识别系 统中又不可避免地使用到耳语音,所以需要进行更加深入的研究。现阶段对耳语音的 研究范围比较广泛,主要包括语音识别、耳语音与正常音之间的转换、耳语音的情感 第一章 绪论 清辅音特征分析及其在耳语音说话人识别中的应用 2 分析等。 目前,国内外学者在耳语音的基础研究方面已经取得了丰硕的成果,为后续的研 究工作奠定了夯实的基础。因为耳语音的信噪比低,所以对耳语音进行端点检测存在 诸多问题,如正确率低、抗噪声性能差等。栗学丽等人对信息熵的端点检测法进行了 改进2,用于耳语音/噪声的判断。潘欣裕等人利用希尔伯特-黄变换(hilbert-huang transform,hht)中的经验模态分解(empirical mode decomposition, emd),提出了一 种基于 emd 拟合特征的耳语音端点检测方法3,并取得了很好的效果。morris 等人 对耳语音的增强和重构进行了比较深入的研究3940。在共振峰方面,jovicic 等人研 究了塞尔维亚语的正常音和耳语音的元音共振峰差异4,王叶斌研究了语音共振峰轨 迹跟踪的算法5。耳语音中不能再用基音的方法进行声调识别,陈雪勤从听觉感知出 发,提出了基于听觉模型的汉语耳语音声调检测6,此外,加拿大维多利亚大学语言 学系的 m.gao 等人也对汉语耳语音的声调感知问题进行了研究7。 近些年来, 人们对于耳语音的研究已经从基础性研究延伸到了更加实际的应用问 题上。qin jin 等人使用喉麦(throat microphone)收集少量耳语音进行训练和特征弯折 (feature warping), 提高了系统的识别率和稳健性8。 林玮等人通过修正美尔频率倒谱 参数(mel-frequency cepstral coefficients, mfcc)和改进隐马尔科夫模型(hidden markov model,hmm)的方法,提高了耳语音说话人识别系统的性能9。chi zhang 为了研究耳语音说话人识别系统的性能,统计并且分析了声压、音长和帧能量分布等 参数41。xin fan 等人通过将指数尺度频率和模型竞争得分相结合的方法,提高了耳 语音说话人识别系统的识别率10。 耳语发音方式下的说话人识别研究工作在众多学者的努力下取得了显著成果, 但 仍然还存在着一些不足。语音特征提取的研究方向大都是对传统的特征参数进行修 改,很少提及和研究新的参数。另外在现实生活中,由于耳语音的收集对收集设备有 很高的要求,所以耳语音的收集难度远远大于正常音,导致了实验中很难获得充足的 耳语音训练语料。目前耳语音说话人识别系统大都是用耳语音进行训练,对正常音训 练的耳语音说话人识别研究并不多。所以,对正常音训练的耳语音说话人识别系统进 行研究具有着现实意义。但是,由于正常音和耳语音的激励源和声道模型不同,造成 了正常音训练的耳语音说话人识别系统的性能出现急速下降。因此,怎样有效地提高 正常音训练的耳语音说话人识别系统的性能,还值得我们继续探索。 清辅音特征分析及其在耳语音说话人识别中的应用 第一章 绪论 3 1.3 本文的主要研究工作 针对耳语音说话人识别研究,本文主要展开了以下几个方面的工作: (1) 构造了正常音训练的耳语音说话人识别系统,引入了线性频率倒谱系数 (linear frequency cepstrum coefficients,lfcc) 11和指数频率倒谱系数(exponential frequency cepstrum coefficients,efcc) 18,这两种新的特征提取方法都强调了语音 的高频部分,所以更加适合于本文中的说话人识别系统。 (2) 引入了 kl 散度距离33的概念,通过计算正常音-耳语音、正常音清辅音-耳 语音清辅音高斯混合模型(gaussian mixture model, gmm)之间的 kl 散度距离,证明 了正常音和耳语音相比较,它们的清辅音成分具有相似性。 (3) 介绍了离散小波变换的耳语音声韵分割方法1334, 然后提取了耳语音的细节 信号系数与近似信号系数之比(detail-approximation energy ratio, daer)用于耳语音 的声韵分割。 (4) 在正常音训练的耳语音说话人识别系统的基础上,应用了其中的清辅音成 分,构造了正常音清辅音训练、耳语音清辅音测试的说话人识别系统。然后分别在 lfcc、 efcc 的特征提取方法和通用背景模型25(universal background models, ubm) 的情况下,将新的系统与传统的正常音训练、耳语音测试的系统进行比较。 1.4 论文结构 本论文总共分为六章,按照以下的顺序结构组织内容: 第一章,作为绪论部分,介绍了耳语音说话人识别的研究背景和意义,概括了目 前耳语音研究方面的一些基础性工作,总结了当前的不足,最后简单介绍了本文的主 要工作内容。 第二章,概述了耳语音的一些特性,对耳语音的时频特性进行了简单的分析。 第三章,介绍了说话人识别中常用的一些语音特征参数及提取方法,分析了耳语 音的自身特点,对比了耳语音和正常音信号产生的数学模型,引入了更加适合本文系 统的两种特征提取方法。 第四章,简单介绍了 gmm 的训练过程,然后在此基础上详细介绍了 ubm 和最 第一章 绪论 清辅音特征分析及其在耳语音说话人识别中的应用 4 大后验概率(maximun a posteriori, map)的具体实现过程,并且构造了正常音训练的 耳语音说话人识别系统。 第五章,用 kl 散度距离证明了正常音和耳语音中的清辅音成分具有相似性。介 绍了离散小波变换的耳语音声韵分割方法, 用于耳语音清辅音提取。 在此理论基础上, 构造了正常音清辅音训练、耳语音清辅音测试的说话人识别系统,并与传统的正常音 训练、耳语音测试的说话人识别系统进行比较。 第六章,总结与展望。对全文进行总结,指出本文存在的一些不足,并展望今后 的研究方向。 清辅音特征分析及其在耳语音说话人识别中的应用 第二章 耳语音的声学研究 5 第二章 耳语音的声学研究 2.1 耳语音的声理特性 人的发声器官主要包括肺、气管、喉(包括声带)、咽、口和鼻。人在讲话时会呼 入空气,经肺部循环之后重新压缩,通过气管输送到喉部14。来自肺部的气流经喉部 调制成周期脉冲信号或者类似随机噪声的激励声源, 并且送入声道, 也就形成了声源。 声道包括口腔、鼻腔和咽腔,它们对声源的频谱进行整形,然后产生被人们所感知的 不同音色的声音, 也就是我们所说的语音。 声道的形状由嘴唇、 舌头和颚的位置决定, 通过不断改变声道的形状而发出不同的语音。唇部具有辐射的作用,提升语音信号的 高频成分,提升的幅度大约为每倍频程 6db15。 喉作为声源的主要器官, 由软骨、 肌肉和韧带组成, 是一个匣形构造的复杂系统, 上通咽部,下接气管。喉在发音时控制声带的运动,声带是发音器官的主要部分,是 两片带有肌肉及韧带的组织。音调的高低主要取决于声带的位置、长度以及紧张程度 等。女子的声带较短,约为 13mm;男子的声带较长,约为 15mm。两片声带之间的 裂缝称为声门14。 甲状软骨和杓状软骨的动作控制了声门的打开和闭合,这些动作通过甲杓肌、环 杓后肌、杓斜肌、杓横肌、环甲肌和环杓侧肌来调节,具体结构如图 2.1 所示13,声 门出来的气流即为声源信号。从声学角度上来说,这个位置就是产生真正的语音激励 的地方。一般说来,声门有以下四种状态,具体如图 2.2 所示13:图(a)表示正常呼吸 状态,声门敞开;图(b)表示深呼吸状态,声门敞开幅度更大;图(c)表示耳语状态, 声带基本闭合,这时杓状软骨之间形成一个三角形的缝隙,气流从这里擦出;图(d) 表示发音状态,杓状软骨转动合拢,声带紧绷,完全闭合。 声带主要有三种状态14:呼吸、发浊音(voiced)和发清音(unvoiced)。呼吸的时侯 杓状软骨向外撑,身带肌肉处于比较放松的状态,保持一个较宽声门,肺部的气流可 以顺利通过声门。发声时声带又会阻止气流。发浊音的时侯杓状软骨相互靠拢,声带 紧绷并且相互靠近,这样就会引起声带的自激振动。清音状态与呼吸状态相似,声带 也没有产生振动。但清音状态下的声带比呼吸状态下的声带更加靠拢并且更加紧绷, 第二章 耳语音的声学研究 清辅音特征分析及其在耳语音说话人识别中的应用 6 在声带处就会产生湍流,这种发音模式叫做送气音。因为耳语发音时,声带处也会产 生这种湍流,所以也可以将这种发音模式叫做耳语音。耳语发音的音量比正常发音的 音量低很多,但是它并不是简单地降低音量,而是耳语发音时声带不产生振动。 图 2.1 喉的俯视剖面图 (a) (b) (c) (d) 图 2.2 常见的四种声门状态示意图 综上所述,耳语发音和正常发音的最大差别主要集中在喉部的形态差异上,也就 是声带和声门的不同运动状态。 而耳语音与正常音相比最大的特点是耳语音的清音和 浊音都不会导致声带振动。除此之外,它们的声道形状也有差异。耳语发音需要大量 的气流及较低的肺活量和气管压力,属于气声发音,因此耳语发音语速较慢,音长较 长,声压级更低,信噪比比正常语音低约 20db35。但是正常音和耳语音中的清辅音 成分在语谱图上没有发现有明显的差异,所以耳语音清辅音的声学特性与正常音相 比,基本没有差别13。 清辅音特征分析及其在耳语音说话人识别中的应用 第二章 耳语音的声学研究 7 2.2 耳语音的时频特点 2.2.1 时域特点 在时间域里,语音信号可以直接用它的时间波形表示出来,并且从时间波形中可 以看出语音信号的一些重要特性。 语音信号的时域参数分析主要包括短时过零率和短 时能量这两个特征。浊音的短时能量比清音大的多,并且浊音具有较低的过零率,清 音具有较高的过零率。 从时域特征上看, 耳语音的声压级较低, 清浊音没有明显区分, 激励源为噪声,没有周期性存在,所以和正常音有着较大的区别12。 图 2.3 和图 2.4 分别是正常音和耳语音“我阿姨不是去的哈尔滨,她去佛山了” 的时域参数,从上到下依次为语音波形图、短时能量和短时过零率。从波形图的比较 中可以看出,耳语音的波形幅度明显比正常音小很多,所以,短时能量也远远小于正 常音。 从短时过零率的对比中可以看出, 正常音的浊音段过零率低, 清音段过零率高, 耳语音则不具有这些特点。 图 2.3 正常音的时域特征 第二章 耳语音的声学研究 清辅音特征分析及其在耳语音说话人识别中的应用 8 图 2.4 耳语音的时域特征 2.2.2 频域特点 正常音的声源为周期性脉冲,所以存在基音频率。耳语音的声源为噪声源,因而 不存在基音频率。除此之外,耳语音的共振峰和正常音也不一样。耳语音的共振峰频 率相比于正常音均向高频产生一定的偏移, 并且共振峰的带宽也有所增加。 具体地讲, 耳语音的第一共振峰和第二共振峰的频率比正常音高, 第三共振峰频率与正常音比较 接近4。一般来说,正常音的共振峰能量是依次递减的,但是耳语音却不具备这样的 规律。 图 2.5 和图 2.6 分别是正常音和耳语音“我阿姨不是去的哈尔滨,她去佛山了” 的宽带语谱图和窄带语谱图,采样频率均为 16khz。宽带语谱图具有良好的时间分辨 率和较差的频率分辨率,可以很好的观察共振峰;窄带语谱图具有良好的频率分辨率 和较差的时间分辨率,有利于显示基音频率和各次谐波。我们可以从正常音的窄带语 谱图中看出具有层次的谐波结构,这就说明了正常音中是有基音频率存在的,而耳语 音的窄带语谱图中却没有谐波结构的出现, 这也就表明了耳语音中是不存在基音频率 的,证明了耳语音的激励源是噪声。 清辅音特征分析及其在耳语音说话人识别中的应用 第二章 耳语音的声学研究 9 图 2.5 正常音的宽带和窄带语谱图 图 2.6 耳语音的宽带和窄带语谱图 第三章 耳语音的特征参数分析 清辅音特征分析及其在耳语音说话人识别中的应用 10 第三章 耳语音的特征参数分析 3.1 语音特征参数的分析 在语音信号处理中,较为常用的特征参数有基音频率、共振峰和美尔频率倒谱系 数(mel-frequency cepstral coefficients,mfcc)等,本节内容将简单地介绍以上特征 参数的特点和 mfcc 特征参数的提取方法。 3.1.1 语音信号的数学模型 语音信号生成的数学模型的基础是人的发音器官的特点和语音产生的机理15。 量 与量之间在一定的物理状态下,都有一种可以表达它们之间关系的数学表示,可以通 过建立数学模型来寻找这种数学表示。如果我们为语音信号建立了数学模型,就可以 对其进行模拟和处理。 所以可以说, 语音信号生成的数学模型是语音信号处理的基础。 因为语音信号是非平稳随机过程,模型中的参数是随时间变化的,但这种变化很 缓慢,所以先对语音信号进行分帧处理。我们认为语音信号在一帧内其特性是不随时 间变化的平稳随机过程,因此在短时间内表示语音时可以采用线性时不变模型。 通过以上分析,我们可以将语音生成系统分为三部分15:(1) 声门以下部分负责 产生激励振动,是激励系统;(2) 声门到嘴唇的呼气通道是声道系统;(3) 嘴唇以外 是辐射系统。简单来讲,通过将激励模型、声道模型和辐射模型这三个子模型串联可 以建立完整的语音信号的数学模型, 如图 3.1 所示15。 该模型传输函数由式(3-1)表示: ( )( ) ( ) ( )h za u z v z r z (3-1) 式(3-1)中,( )u z为激励信号,发浊音时( )u z是声门脉冲,发清音时,( )u z是一 个随机噪声的 z 变换;( )v z为声道模型的传输函数,实际上( )v z是一个全极点模型; ( )r z是辐射模型的传输函数。但是,式(3-1)所示的模型内部结构和语音产生的物理 过程是不一致的,只在输出处等效15。因为一些语音信号的变化是缓慢的,所以认为 这种模型是“短时”的模型。还有模型中仅仅靠浊音和清音这两种简单的划分方式是 不足的,对于某些音并不适用。 清辅音特征分析及其在耳语音说话人识别中的应用 第三章 耳语音的特征参数分析 11 图 3.1 语音信号产生的离散时域模型 3.1.2 基音频率 浊音时声带振动的基本频率(fundamental frequency)又称为基音频率。基音频率 的应用极其广泛,比如说话人识别、语音识别以及语音合成等领域。我们无论是说一 个音节, 还是说连续的一段语音, 各音节元音段的基音频率都会随着时间而产生变化, 因而产生了声调,其变化轨迹称为声调轨迹。声调反映了语音的韵律,在汉语中声调 携带着具有辨义作用的重要信息。所以对基音频率进行提取是一件很有意义的工作。 实际上,如何精确地检测出基音频率仍是一件很困难的事情。尽管有诸多困难, 但是考虑到基音检测的重要性,所以仍然吸引了大量国内外学者对它进行研究,例如 平均幅度差函数法、倒谱解卷积法、短时自相关函数法、希尔伯特-黄变换法等基音 提取方法。 虽然基音频率如此重要,但由于耳语音发音时声带不振动,没有基音频率,因此 无法提取该特征参数。 3.1.3 共振峰 语音的另一个重要声学特性是共振峰(formant), 它反映了声道结构特征的相关参 数。当元音激励进入声道时会引起共振特性,产生一组共振频率,简称共振峰。我们 可以用共振峰参数来区分不同的元音,主要包括共振峰频率(formant frequency)的位 置和频带宽度(formant bandwidth)。不同的元音对应一组不同的共振峰参数。虽然越 第三章 耳语音的特征参数分析 清辅音特征分析及其在耳语音说话人识别中的应用 12 多的共振峰可以越精确地描述语音, 但是在实际应用中, 只用前面三个共振峰就够了。 元音的共振峰特性与发音机制有关。一般而言,女声和童声的基音频率高于男声 的基音频率,但是实验表明,区分男女声、童声还是成人声音,更重要的是看共振峰 频率的高低。女声的共振峰频率值大约较男声高 25%,童声大约高 35%15。 提取语音共振峰的常用的方法有倒谱法、lpc 谱估计法、lpc 倒谱法等。在这 些方法中最为经典的方法为 lpc 倒谱法,它提供了一个不错的声道模型。lpc 倒谱 法近似地认为声道滤波器的共轭极点对应着语音信号的谱峰,也就是共振峰。 耳语音相比于正常音来说,它的共振峰峰点发生一定的偏移,并且带宽变宽。因 为耳语音没有基频存在,使得共振峰成为了表示耳语音说话人的关键特征之一。 3.1.4 美尔频率倒谱系数(mfcc) 与普通的频率倒谱分析有所不同,美尔频率倒谱系数38(mel-frequency cepstral coefficients,mfcc)将线性频标转化为 mel 频标,强调了语音的低频信息,从而突出 了有利于识别的信息,所以抗噪性能较好。更加重要的是,mfcc 参数没有假设任何 前提,在各种情况下均适用。具体说来,它是根据人耳听觉感知特性而建立的一个尺 度,所以 mfcc 是一种听觉感知频域倒谱参数。音量高低是这个尺度的度量对象, 用 mel 频率尺度更加符合人耳的听觉特性。因此,mfcc 在语音识别、说话人识别 中都得到了极其广泛的应用,并且性能要明显优于线性预测倒谱系数(linear prediction cepstral coefficients,lpcc)19,在噪声环境下更能体现优势20。 早在 1937 年,steves 等人提出 mel 刻度(mel-frequency),mfcc 是在 mel 刻度 上实现设计的。mel 刻度在 1000mel 以下可以默认为是线性分布的;1000mel 以上, 每个 mel 单位所对应的频率跨度是越来越大的。 若定义 1000hz 处的频率为 1000mel, 那么这样一种对应关系在 1000hz 以下近似为线性关系, 而在 l000hz 以上则近似为对 数关系。mel 频率与实际频率的具体关系可以用下式近似表示: mel( )2595lg(l+700)ff (3-2) 其中,实际频率f的单位是hz。通常情况下使用的是mel频率滤波器,它模拟了临 界频带,通常选择由若干个三角滤波器组成的滤波器序列。但是mel滤波器组也可以 是其他的形状,比如正弦的滤波器组等。图3.2即为mel三角滤波器输出: 清辅音特征分析及其在耳语音说话人识别中的应用 第三章 耳语音的特征参数分析 13 三角形滤波器组 频率 p m j m 1 m 图3.2 mel频率尺度三角形滤波
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 西安外国语大学《景观设计基础》2023-2024学年第一学期期末试卷
- 江苏省南京玄武区2025届初三3月联合检测试题(生物试题理)试题含解析
- 山西省晋中学市榆社县2024-2025学年初三下学期期初自测化学试题含解析
- 重庆航天职业技术学院《能源动力测试技术》2023-2024学年第二学期期末试卷
- 江苏省盐城市东台市2025年学生学业调研抽测试卷(第二次)化学试题含解析
- 吉林省梅河口五中2025年高中毕业班质量检查(II)生物试题含解析
- 山西医科大学《通风与空调工程课程设计》2023-2024学年第二学期期末试卷
- 西安美术学院《基础药理学》2023-2024学年第二学期期末试卷
- 江西工程学院《机械与电气安全》2023-2024学年第二学期期末试卷
- 云南省楚雄北浦中学2025届初三大练习(一)数学试题含解析
- 口腔医学生的职业生涯规划书
- 广州酒店中英文对照
- GB/T 819.1-2000十字槽沉头螺钉第1部分:钢4.8级
- GB/T 4323-2002弹性套柱销联轴器
- 《伦理学原理》教学课件
- GB/T 32249-2015铝及铝合金模锻件、自由锻件和轧制环形锻件通用技术条件
- GB/T 12168-2006带电作业用遮蔽罩
- GA/T 850-2009城市道路路内停车泊位设置规范
- 犯罪学全套教学课件
- 压力管理与情绪控制课件
- 检验人员任命书
评论
0/150
提交评论