【毕业学位论文】(Word原稿)基于小波分析的语音端点检测算法研究-计算机应用技术_第1页
【毕业学位论文】(Word原稿)基于小波分析的语音端点检测算法研究-计算机应用技术_第2页
【毕业学位论文】(Word原稿)基于小波分析的语音端点检测算法研究-计算机应用技术_第3页
【毕业学位论文】(Word原稿)基于小波分析的语音端点检测算法研究-计算机应用技术_第4页
【毕业学位论文】(Word原稿)基于小波分析的语音端点检测算法研究-计算机应用技术_第5页
已阅读5页,还剩73页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

分类号 密 级 太原理工大学 硕 士 学 位 论 文 题 目 基于小波分析的语音端点检测算法研究 英文并列题目 on 究 生 姓 名 : _ 赵高峰 _ 学 号 : 专 业 : 信号与信息处理 研 究 方 向 : 语音信号处理 导 师 姓 名 : _ 张雪英 _ 职 称 : _ 教授 _ 学位授予单位 : 太原理工大学 论文提交日期 _2006/4_ 地 址 : _山西太原 _ 太 原 理 工 大 学太原理工大学硕士研究生学位论文 于小波 分析 的语音端点检测算法研究 摘 要 语音端点检测是语音识别中至关重要的技术 。无论军用还是民用 ,语音端点检测都有着广泛的应用 。 在低信噪比的环境中进行精确的端点检测比较 困难 ,尤其是在 无声段或者发音前后 。 本文 讨论了几种常用的端点检测方法, 并 提出两种基于小波分析的 端点检测 , 并在此基础上描述了基于这两种算法的语音端点检测综合算法, 从而实现对语音信号 精确端点检测 的方法 。 文中首先介绍了几种常见的语音端点检测方法如 短时能量与过零率, 隐马尔可夫等。这些方法在 静音环境 下 , 当 噪 声较小或噪声相对单一时可以取的较好的检测结果,但在语音环境较恶劣 、 信噪比较低时 ,检测的结果 下降较快, 难以让人满意。 为此本文 引入了小波变换作为分析工具 。接下来论文讨论了小波变换的原理及在语音识别系统中的应用 。 论文 分 别提出了两种基于小波系数的语音端点检测方法, 并对其实验结果进行了比较。第一种方法是子带平均能量方差用于语音端点检测 ,该方法利用噪声 的分类及特点,以及 它 与语音信号的差别,在小波分析的基础上,对每一子带的平均能量进行方差分析, 从而区分出语音段。该方法具有快速、简单和准确率高 的特点。 第二种方法是小波系数方差用于语音端点检测 , 语音信号是统计自相似的随机过程,太原理工大学硕士研究生学位论文 的统计特性在时域内不随波形的扩充或压缩而变化。 根据这一特性为识别语音与背 景噪声建立一个理想的贝叶斯两 层 分类器,以每一子带内的小波系数作为比较 参 数, 从而进行分类 计算。最后根据概率的大小得到端点检测的结果。 该方法具有适用范围广 、 准确率高的特点,而算法相对比前一方法要复杂。 论文在讨论了前两种方法的 优缺点、分析实验结果后,提出一种揉合两种方法,以发挥各自优点的新方法。实验表明该方法 发挥 了以上两种方法的特点具有很好的检测结果 。 关键词 : 端点检测 , 小波 变换 , 系数方差,子带能量太原理工大学硕士研究生学位论文 V F N is a It is in It is to in or or of on on of be of as is or NR of is is So as we of in of on 原理工大学硕士研究生学位论文 VI is in on of on of to of is of to is a to t or of in to we an is on of as At of is of is of a of of 录 第一章 绪 论 . 1 . 1 音识别简介 . 1 点检测在语音识别系统中的地位和作用 . 3 内外研究现状 . 5 . 7 时能量 及过零率 . 8 函数 . 10 谱特征 . 11 马尔可夫 (. 13 题研究背景 . 14 . 16 第二章 小波分析理论 . 18 . 18 . 19 . 24 波分析在语音处理中的应用 . 30 结 . 33 第三章 子带平均能量方差 用于语音端点检测 . 35 声与语音 的 频域差异 . 35 用小波分析进行端点检测 . 39 法原理 . 39 太原理工大学硕士研究生学位论文 实验方法描述 .结 .四章 小波系数方差的语音端点检测 .音的 1/f 小波模型 .叶斯分类介绍 . 贝叶斯分类原理 . 贝叶斯定理变形公式 .于小波系数方差的语音端点检测 . 算法原理 . 实验方法描述 .实验结果综合比较 .结 .五章 小波系数方差用于语音端点检测综合实现 .音类型判断和系统设计 .验结果 .结 .六章 总结 与展望 .考文献 .谢 .读学位期间发表的学术论文目 录 .原理工大学硕士研究生学位论文 1 第一章 绪 论 述 音识别 简介 语音识别技术是 2000年至 2010年间信息技术领域十大重要的科技发展技术之一。它是一门交叉学科,正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够甩掉 键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业 1。 与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的事情。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。语音识别听写机在一些领域的应用被美国新闻界评为 1997年计算机发展十件大事之一。 人们预计,未来 10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个 领域。 很多专家都认为语音识别技术是 2000年至 2010年间信息技术领域十大重要的科技发展技术之一 2。 语音识别技术关系到多学科的研究领域,不同领域上的研究成果都对语音识别的发展作了贡献。让机器识别语音的困难在某种程度上就像一个外语不好的人听外国人讲话一样,它和不同的说话人、不同的说话速度、不同的说话内容、以及不同的环境条件有关。语音信号本身的特点造成了语音识别的困难。这些特点包括多变性,动态性,瞬时性和连续性等。 计算机语音识别过程与人对语音识别处理过程基本上是一致的。目前主流的语音识别技术是基于统计模 式识别的基本理论 3。一个完整的语音识别系统可大致分为三部分: 太原理工大学硕士研究生学位论文 2 ( 1)语音特征提取:其目的是从语音波形中提取出随时间变化的语音特征序列。 ( 2)声学模型与模式匹配(识别算法):声学模型通常将获取的语音特征通过学习算法产生。在识别时将输入的语音特征同声学模型(模式)进行匹配与比较,得到最佳的识别结果。 ( 3)语言模型与语言处理:语言模型包括由识别语音命令构成的语法网络或由统计方法构成的语言模型,语言处理可以进行语法、语义分析。对小词表语音识别系统,往往不需要语言处理部分。 我国语音识别研究工作起步于五十年代 ,但近年来发展很快。研究水平也从实验室逐步走向实用。从 1987年开始执行国家 863计划后,国家 863智能计算机专家组为语音识别技术研究专门立项,每两年滚动一次。我国语音识别技术的研究水平已经基本上与国外同步,在汉语语音识别技术上还有自己的特点与优势,并达到国际先进水平。 在电话与通信系统中,智能语音接口正在把电话机从一个单纯的服务工具变成为一个服务的“提供者”和生活“伙伴”;使用电话与通信网络,人们可以通过语音命令方便地从远端的数据库系统中查询与提取有关的信息;随着计算机的小型化,键盘已经成为移动平台的一个 很大障碍,想象一下如果手机仅仅只有一个手表那么大,再用键盘进行拨号操作已经是不可能的。语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。 语音识别技术发展到今天, 在实验室环境下, 特别是中小词汇量非特定人语音识别系统识别精度已经大于 98,对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应用的要求。由于大规模集成电路技术的发展,这些复杂的语音识别系统也已经完全可以制成专用芯 片,大量生产。在西方经济发达太原理工大学硕士研究生学位论文 3 国家,大量的语音识别产品已经进入市场和服务领域。一些 电话机、手机已经包含了语音识别拨号功能,还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、旅游、银行信息,并且取得很好的结果。调查统计表明多达 85以上的人对语音识别的信息查询服务系统的性能表示满意。 可以预测在近五到十年内,语音识别系统的应用将更加广泛。各种各样的语音识别系统产品将出现在市场上。在短期内还不可能造出具有和人相比拟的语音识别系统,要建成这样一 个系统仍然是人类面临的一个大的挑战,我们只能一步步朝着改进语音识别系统的方向一步步地前进。至于什么时候可以建立一个像人一样完善的语音识别系统则是很难预测的。就像在 60年代,谁又能预测今天超大规模集成电路技术会对我们的社会产生这么大的影响 4。 点检测在语音识别系统中的地位和作用 作为一个完整的语音识别系统,其最终实现及使用的效果不仅仅限 于 识别的算法 , 许多相关因素都直接影响着应用系统的成功与否。语音识别的对象是语音信号,端点检测的目的就是在复杂的应用环境下的信号流中分辨出语音信号和非语音信 号,并确定语音信号的开始及结束。一般的信号流都存在一定的背景声,而语音识别的模型都是基 于 语音信号训练的,语音信号和语音模型进行模式匹配才有意义。因此从信号流中检测出语音信号是语音识别的必要的预处理过程 (如图 1 语音信号 A/端点检测 参数分析 语音识别 应用 图 1音识别系统框图 原理工大学硕士研究生学位论文 4 详细说来,端点检测有两个过程: 1基于语音信号的特征,用能量、过零率、 熵 (音高 (参数以及它们的衍生参数,来判断信号流中的语音 /非语音信号。 2在信号流中检测到语音信号后,判断此处是否是语句的开始或结束点。 在商用语音系统中,由于信号多变的背景和自然对 话模式而更容易使句中有停顿 (非语音 ),特别是在爆发声母前总会有无声间隙。因此,这种开始 /结束的判定尤为重要。此外端点检测的目的还在于: 1减少识别器的数据处理量:可以大量减少信号传输量及识别器的运算负载,对于语音对话的实时识别有重要作用。 2拒绝非语音的信号:对非语音信号的识别不仅是一种资源浪费,而且有可能改变对话的状态,造成对用户的困扰。 3在需要打断功能的系统中,语音的起始点是必须的。在端点检测找到语音的起始点时,系统将停止提示音的播放。完成打断功能。 在语音识别中,端点检测的性能对于识别的正确率 ,识别速度都有重要的影响。这表现在以下几个方面: 1、在语音识别和说话人识别中为了消除信道 的 影响通常采用倒谱均值相减的方法,这就需要对语音时段的端点准确定位,这样才能较精确计算代表信道影响的语音帧的均值,提高识别的准确率。 2、如果识别前,移除信号中的静音段,使得整句的似然得分累计更多的集中在语音段,而不是被语音和噪音所分散,这样有助于识别率的提高。 3、在不断变换的环境下对噪音和静音建模是非常困难的。准确的端点检测事先移除单纯噪音的时段对于噪音和静音的精确建立有很大帮助。 4、 当所处理信号含非语音时段非常长,准确 的端点可以极大提高计算速度。 5、对于开放式的语音识别系统,自适应语音增强,语音信号传输中,端点检测都对系统性能有着重要影响。在开放式语音系统中,自适应增强算法需要准确的标出噪音段用作噪音谱的自适应估计,在语音信号传输中,例如开放广播语音信息的传输,好的端点检测能极大的降低所要传输的信息量。 太原理工大学硕士研究生学位论文 5 随着语音识别应用的发展,越来越多系统将打断功能作为一种方便有效的应用模式。而打断功能又直接依赖端点检测。端点检测对打断功能的影响发生在判断语音 /非语音的过程出现错误时。表现在过于敏感的端点检测产生的语音信号的误警将产 生 错 误的打断。例如,提示音被很强的背景噪音或 其他 人的讲话打断,是因为端点检测错误的将这些信号作为有效语音信号造成的。反之,如果端点检测漏过了事实上的语音部分,而没有检测到语音。系统会表现出没有反应,在用户讲话时还在播放提示音。端点检测对识别系统的识别效果影响也很大。语音信号的起始点和结束点判断有误,有可能影响整个信号的完整性,在语句的开头或结尾漏掉一些有用的数据。当这种情况发 生 时,很可能对识别的准确度有特别大影响。不完全的信息会使识别率降低。 内外 研究现状 语音端点检测算法经过几十年的发展 5,产生了很多方法 ,而且随着语音技术在现代科学中的重要性不断增大,也不断的有新方法被提出 来满足需要。下面对端点检测研究的发展作个简单的介绍 6。 1978年 美 于浊音段的短时能量较之背景噪声的短时能量高,而清音等一些音素的短时平均过零率比背景噪声的过零率高出好几倍,两种结合起来成为区别语音信号和背景噪声的一种有效方法。 1987年, J G 确定子词的分段点的方法。由发声器官的物理特性所决定,语音信号的特性随时间的变化是比较缓慢的,大致可以认为在每 10语音信号进行谱分析,用其谱的峰值点作为子词的分段点;同年, 1991年 二帧信号 年 , 先用 20算几个复倒谱系数及其增量,能量及太原理工大学硕士研究生学位论文 6 其增量 。 两帧信号 间有 101993年 方法首先对每帧语音信号建立一个模型,然后计算相邻两模型的似然程度,以似然程度变化的峰值点作为分段点。 1994年 先通过一定的方法判断此语音段是语音还是背景噪声。对于每个语音帧 , 将其分为 4个 5于每个 5算其较为重要的 8个参数:归一化的短时低通能量、归一化的短时高通能量、过零率、低频带的一阶、二阶反射系数、前向后向匹配相关系数及它们的乘积。这些参数 描述了此语音信号的重要的信息,继而用一定的算法进行推理,从而可以判定此信号是发声段还是非发声段。 1995年 算法首先将语音分成几个相等的时间段,每一段用一个 误差相等的原则,将原始信号归类成 年 , 张刚等提出一种基于自相关系数的分段方法。 1996年 段算法,该方法以参数滤波的手段测度语音信号相关结构的变化 。 1997年 方法 , 该方法的抗噪性能较好。 1998年 音端点检测 ,在降低计算量的同时提高了算法的性能。 除了以上几种方法之外, 近些年以来 ,还有短时分形维数的 带噪声语音信号端点检测方法 7;应用倒谱系数作 为判决特征的带噪语音端点检测方法 8,它包括应用倒谱距离测量轨迹和应用循环神经网络的方法。 经过研究 发现,倒谱特征参数的语音信号端点检测方法在噪声环境下具有传统的能量方法无法比拟的优越性。基于 9,用 待测信号进行分解,求出语音的哪些语音帧与 模型 相匹配,从而得出端点所在处。实验表明这种方法的准确率明显高于基于能量的方法。但是 7 练环境通常与实际被测信号的语音环境会有很大的差异,即背景噪声模型与实际情况不符合,此时性能会显著下降。因此,必须采用能自适应调节的背景噪声模型,具体实现方法还在研究中。另外,还有采用多层感知机 10、采用自适应线形神经元网络 (端点检测方法 11。 随着小波分析在信号处理领域的广泛应用,也有不少基于小波分析语音端点检测算法被提出,如: 选择小波部分子带跟踪信号的能量变化以实现端点检测 12, 将小波变换模极大值应用于信号突变点的检测 13等 本论文重点研究 基于小波分析的端点检测 方法,利用小波变换对 语音信号进行分解 ,提 取各个子带的小波系数, 并对 小波系数 进行特征提取或概率分析来实现语音的端点检测 。 种常用的端点检测方法 在上一 节 我们给出了语音识别系统框图(图 1, 并介绍了语音端点检测在语音识别系统中的作用与研究现状,本 节 将介绍几种常用的语音端点检测方法。在很长一段时间里,语音端点检测算法主要依据是语音信号的时域 特性。其采用的主要参数有短时能量、短时平均过零率等,即通常说的基于能量的端点检测方法。这些算法在实验室环境下具有良好的性能,但在噪声环境下,则无法达到其应有的效果。近年来,随着通信业的迅猛发展,在各行业对通信系统语音质量的客观评价以及语音识别方法等技术实用化的强烈需求下,又出现了很多的语音端点检测算法。它们主要是通过采用各种新的特征参数,以提高算法的抗噪声性能。如基于 1994年 有诸如倒谱系数、短时频带方差、自相关相似距离、信息熵等也逐渐的被应用到端点检测中 。有时,还通过将信号的几种特征组合成为一个新的特征参数来进行端点检测。对语音端点的判决方式也由原来的单一门限、双门限发展到基于模糊理论的判决方式。 太原理工大学硕士研究生学位论文 8 到目前端点检测的研究已经经历了几十年,产生了很多方法。这些方法可以分为两大类 :基于特征和基于模型的方法。 (一) 基于特征的方法,它又可分为基于鲁棒特征的方法和特征滤波的方法。基于鲁棒特征思想的出发点是寻找能表征语音和噪音在不同域差异的特征来进行语音和噪音时段的区分,所用特征主要有能量 、 子带能量 、 过零率 、 基频 、 周期度量 、 熵 和 能量方差等。基于特征滤波的思想的出发点是 对特征先进行滤波,然后进行端点检测,主要算法有子空间滤波,能量差分自适应滤波等。 ( 二) 基于模型的方法,基于模型思想的出发点是针对噪音和语音进行建模用以来区分语音时段。此类算法把语音信号端点检测问题看作是对每帧信号进行分类,任意时刻的语音特征矢量 )i 生的。即0H(语音 ):0()和1H(背景 ):1()。而1()f 满足 布,即1( ) ( ) m R ,。通过建立相应的检测准则 (如 则 ),对每帧语音矢量进行划分,确定其属于0 时能量 及过零率 有不少端点检测算法是基于信号的短时能量 14。 先算出背景噪声能量的统计特性 , 定出能 量门限 , 利用能量门限来确定语音信号的起止点 。 这种方法在背景噪声幅度保持恒定 , 且远低于语音信号幅度时 , 并且对孤立字的最小帧数、最大帧数、句子间间隙的最小帧数 , 以及人为的突变性音节帧数有充分先验知识的条件下 , 可以十分有效地准确检测出语音信号的端点。尤其在用过零率方法作辅助处理来调整检测后的端点时 , 测出的端点位置是比较准确的 。 然而 , 当该类算法在信噪比较低的情况下 , 检测性能开始恶化 。 在更恶劣的情况下 , 甚至完全不能检测出其端点 。 而且 , 过零率方法在背景噪声是汽车噪声、麦克风噪声或白噪声时 , 噪声的过零率均不相同 , 有时与语 音某些音节的过零率相重叠 , 也很难作为一种辅助的判据。 太原理工大学硕士研究生学位论文 9 为减少背景对检测结果精度的影响 , 针对汉语语音 信号大部分以声母开始以韵母结束的特点,在基于短时帧能量的双门限 检测算法基础上, 有人 提出带背景噪声动态估计的语音端点检测方法。用短时帧过零率进行语音开始点的检测,用短时帧能量背景噪声动态估计,进行语音端点检测,过程如图 1 图 1音端点检测过程 常的算法如下:首先对语音信号进行分帧处理 , 然后进行预处理 。 预处理包括预加重和加窗处理 , 预加重即信号通过仅有一个零点的滤波器 1( ) 1H z z ,其中 接近或等于 1。 加窗处理是用窗函数 ()乘一帧的语音信号 ()从而形成加窗语音 ( ) ( ) ( )xs n s n x n。其次是计算语音信号 的短时帧能量时帧能量 1 21()s n ()离散语音信号时间序列; N 为帧长。 然后对背景噪声动态估计 ,采用基于短时帧能量的双门限语音端点检测算法,进行语音信号端点检测作为语音起止点初判,设一个较高的门限以确定语音开始,再取一个比以确定真正的开始点及结束点 。 提取噪声段,计算噪声段幅值的平均值作为带门限短时帧过零率的门限值 T 。高门限 a=低门限 H=其中:计算语音信号短时帧能量和 带门限短时帧过零率 计算门限值 提取语音 输入 语音 背景 噪音 有效 语音 太原理工大学硕士研究生学位论文 10 平均值,12,为经验值。 计算语音信号的带门限短时帧过零率 11| ( ) ( 1 ) | | ( ) ( 1 ) | g n s n T S g n s n T S g n s n T S g n s n T (其中 )号函数 ,即 1 ( ) 0 ( ) 0 ( ) 0g n s ;T 为计算得到的 低 门限值 。 用带门限短时帧过零率 若连续五帧的带门限短时过零率则第一次超过帧为语音开始帧 ; 若连续三帧的短时帧能量则首帧作为语音的结束帧 。 过零率门限 (其中 : 为经验值 。 对背景噪声进行动态估计的带门限短时帧过零率1 根据汉语语音信号的特点 ,针对背景噪声动态估计 ,及短时帧能量和带门限短时帧过零率在语音信号中的规律性 ,进行端点检测 ,适应变化的环境 ,有很高的精度和鲁棒性。 但 常用的基于短时能量的端点检测方法对于能量较低的音节或在信噪比较低的环境下 ,检测性能不够理想 。 函数 根据语音信号的波形特征,利用熵函数的性质可使用一种基于熵函数的判决方法为端点检测提供了一种 有效 的方法 15。 首先是熵函数的构造,对于一个有限离散概率场的不确定性,可由随机变量的熵来定义。设 X 是取有限个值的随机变量,则 X 取 1 , 2 , , X x i n , (则 X 的熵定义为 太原理工大学硕士研究生学位论文 11 1( ) l o gn p p (且 0 lo g 0 ( 熵 H 代表了 X 的信息量且熵函数具有这样的性质 , 当 n 个概率就是 X 的概率分布越模糊,越难以判断,熵值越大,当然随机变量所能包含的信息量也越大。下面来构造用于语音端点检测的熵函数 , 假设语音信号 () , 在一帧语音中最大与最小幅度分别为 - , 分别统计这一区域中 ( ) , ( , )n s s M M 出现的次数并将比例 / 。 显然 , 1 定义此帧语音的熵为 : l o gM p p (由于语音信号的幅度相对于背景噪声而言其幅度的动态范围大 , 因此直观地讲可以认为随机信号在 ( , )中的随机事件多故平均信息量大也就是熵值大而无声状态的幅度小 、 分布相对集中 , 因而熵值小 。 在构造出了熵函数之后就可以计算出每帧语音信号的信息熵 , 正如上面所述背景噪声信号的熵值小而浊音信号的 熵值大 。 因此可以这样来进行端点检测 , 首先通过实验确定一个阈值 h, 然后对每帧语音的熵值进行比较 , 大于 h 为语音帧 ,小于 h 则为无声帧 , 即为语音的端点 。 1;0;l a g H 再判(谱特征 倒谱能很好表示语音的特征 ,因此在大多数语音识别系统中选择倒谱系数作太原理工大学硕士研究生学位论文 12 为输入特征矢量。在噪声环境下 ,短时能量与 其他 特征参数都不能很好地区分语音段与非语音段,因此采用倒谱系数来作为端点检测的参数 16。 信号的复倒谱定义为信号能量谱 密度函数 ()S 的对数的傅里叶级数 , )S 的傅里叶级数表示式为 l o g ( ) n c e (式中为实数,通常称为倒谱系数,且 01 l o g ( )2c S d (对于一对谱密度函数 ( ) ( )与 ,利用 理 ,用谱的倒谱距离表示对数谱的均方距离为 : 2 21 | l o g ( ) l o g ( ) | ( )2c e p n S d c c (式中 , ( ) ( )与 的倒谱系数。 对数谱的均方距离表示两个信号谱的差别,故可用来作为一个判决参数。实际上,由于0 基于能量的端点检测可以看作倒谱距离的一个特例。倒谱距离的测量 法步骤类似于基于能量的端点检测, 只是 将倒谱距离代替短时能量来作为门限。首先,假定前几帧信号是背景噪声,计算这些帧的倒谱系数矢量,利用前几帧倒谱矢量的平均值可估计背景噪声的倒谱矢量,噪声倒谱矢量的近似值可按下述规则进行更新,即当前帧被认为是非语音帧: (1 ) tc p c p c (式中 c 为噪声倒谱矢量的近似值,矢量, p 为调节参数 . 太原理工大学硕士研究生学位论文 13 式 (示的倒谱距离可以利用式 (近似计算: 20014 . 3 4 2 9 ( ) 2 ( )pc e p n c c c c (式中 cc 的噪声倒谱系数 , 计算所有测试帧与背景噪声之间的倒谱距离可得到倒谱距离轨迹 。 类似于基于能量的端点检测过程 , 利用倒谱距离轨迹可检测语音的端点 。 马尔可夫 (隐马尔可夫模型是语音识别技术中目前应用最广泛 的一种模型。在训练阶段,训练语音对模型各状态的统计特性进行训练,得出模型参数。在测试阶段,待测语音与训练模型进行匹配,选择得分最高的作为识别结果。根据 试把 为所谓“端点”,无非就是把被测信号看作是有两部分组成:背景 ( 语音( 。在训练阶段,分别得出背景噪声和 语音 的模型参数。在测试阶段,用 出 被测 语音的哪些帧与背景噪声匹配,哪些帧与 语音 匹配, 从而得出端点的所在处。一个完整的基于 图 于 n 1)为了能有效地采用 对每帧待测语音进行预处理。包括:预加重处理。按下式设计一个一阶高通滤波器: 1( ) 1H z z 同,其中预预处理 码 光滑处理 端点输出 待测语音 背景噪声 模型 语音模型 太原理工大学硕士研究生学位论文 14 加重系数 一般选择为 用预加重的原因是它可以有效 地压缩输入语音的动态范围,使后面的 时,高通滤波器可以有效地滤除输入信号中的直流成分。开窗处理,一般采用汉明 (。根据语音信号的特点一般在本应用中,数字采样率为 8口总长度设计成 30每个窗口有 240个采样点。窗口每次位移 10 20口的重叠起到了平滑特征参数的作用。倒谱计算,对每帧语音求出 取 p=12。倒谱加权处理,为了避免倒谱系数数值过小而对识别造成影响,一般均采用上升正弦函数进行倒滤波处理。倒谱系数的一阶和二阶 导数处理 22( ) ( ) , ( ) ( )i i k i i m C k C m C m C k C m (其中: 能量及其他特征处理。对每帧语音求出其对数能量,及能量的一阶和二阶导数。这样,在本实验中,通过预处理,对每帧待测语音共提取出 39个特征值,构成一特征矢量。 (2)上述预处理后的语音送入 用 (3)光滑处理 ,由于基于 字间间隙比较敏感,所以,必须用中值滤波进行平滑处理 题研究背景 随着越来越多的学者对语音端点检测技术的关注,大量的新的语音端点检测算法相继被提出。通过大量的文献调研与实际研究发现,现有的各种语音信号端点检测技术都存在各自的不足,比如基于自相关相似距离的语音信号端点检测方法,总的来说它与 是对于结尾的判断却优于 是因为语音大多以浊音结尾,此时自相关法的判断精度较高,但是对于清音开太原理工大学硕士研究生学位论文 15 头的语音,尤其是 S、 n等音节,自相关算法的检测精度就不高。主要几类方法各自的优点与不足列于表 1 表 1类方法优缺点比较 法 优点 缺点 短时平均过零率法 较简单 难

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论