基于统计模型的语音增强算法的研究--优秀毕业论文.pdf_第1页
基于统计模型的语音增强算法的研究--优秀毕业论文.pdf_第2页
基于统计模型的语音增强算法的研究--优秀毕业论文.pdf_第3页
基于统计模型的语音增强算法的研究--优秀毕业论文.pdf_第4页
基于统计模型的语音增强算法的研究--优秀毕业论文.pdf_第5页
已阅读5页,还剩51页未读 继续免费阅读

基于统计模型的语音增强算法的研究--优秀毕业论文.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

南京师范大学 硕士学位论文 基于统计模型的语音增强算法的研究 姓名 王鹏 申请学位级别 硕士 专业 电子科学与技术 电路与系统 指导教师 曾毓敏 2009 05 17 摘要 i 摘 要 摘 要 目前谱减法及其各种变形算法由于其简单 计算量小而在语音增强中获得了 广泛的应用 而谱减法由于不能很好地根据噪声的变化 及时更新噪声估计值 使恢复的语音中残留了很大的音乐噪声 为此人们提出了很多改进方法以及时地 更新噪声估计值 如根据噪声的短时平稳性 通过搜索含噪语音短时平滑功率谱 的最小值的方法来逐帧地估计噪声 但是对于上升的噪声电平 它的更新能力也 不是很好 为了提高更新速度 israel cohen 提出了改进的基于最小值控制的 递归平均算法 imcra 来估计短时噪声的功率谱 由于采用了迭代的机制 提高了 更新噪声的能力 为了更好快地更新噪声估计值 本文在 imcra 算法的基础上 提出了一种改 进的噪声估计算法 该算法在搜索功率谱最小值时 采用从前向后和从后向前相 结合的搜索方法 提高了更新噪声的能力 再利用带噪语音的分布模型 估计出 噪声以后 再结合谱减法组成一个语音增强系统 从而实现了对带噪语音的增强 由于该算法在估计噪声时能够根据实际噪声的变化情况 快速地更新噪声 的估计值 从而使估计出来的噪声和噪声的真实值非常接近 本文采用改进算法 分别对带高斯分布和拉普拉斯分布的信号进行了噪声估 计 并且简单地分析了一下拉普拉斯语音模型中 语音 噪声以及带噪语音三者 的相位关系 结合谱减法实现了对带噪语音的增强 实验结果表明 语音恢复的 结果令人比较满意 关键词关键词 噪声估计 语音增强 谱减法 统计模型 abstrat ii abstract the spectrum subtraction and its deformation algorithms are widely used in speech enhancement as a result of its simple and small computation the spectrum subtraction can not renews the noise estimated value according to the noise promptly result in a lot of music noise remain in the enhanced speech in order to update the estimated value of noise promptly people made a lot of methods such as estimating the noise frame by frame by searching for the minimum value of the short term smoothing noisy speech power spectrum for the the short term noise can be steady but regarding to the rise noise its renewal ability is not very good in order to enhance the renewal speed israel cohen proposed the improved minimum control recursive averaging algorithm imcra to estimate the short term noise power spectrum as a result of the iterative mechanism sharpened the ability of the tracking noise based improved minimum controlled recursive averaging algorithm this paper give an improved noise estimation algorithm to renews the noise estimated value better because we combine the backward with forward to search the minimum the algorithm improve the ability of the tracking noise and on the noisy speech statistical models we estimate the noise combining with the spectral subtraction algorithm we give a speech enhancement system and implement the noisy speech enhancing because the algorithm can quickly update the estimated value of noise according to actual changes of the noise the estimated noise is very close to true value of noise based the improved algorithm estimation is given to the signal noises with gaussian distribution and laplace distribution and easily analysis the relationship of the phase of voice noise and noisy speech in laplace speech model combined with spectral subtraction realize the noisy speech enhancement and the experimental results show that voice restoration results are quite satisfactory key words noise estimation speech enhancement spectral subtraction statistical model 学位论文独创性声明 学位论文独创性声明 本人郑重声明 1 坚持以 求实 创新 的科学精神从事研究工作 2 本论文是我个人在导师指导下进行的研究工作和取得的研究 成果 3 本论文中除引文外 所有实验 数据和有关材料均是真实的 4 本论文中除引文和致谢的内容外 不包含其他人或其它机构 已经发表或撰写过的研究成果 5 其他同志对本研究所做的贡献均已在论文中作了声明并表示 了谢意 研究生签名 本人郑重声明 1 坚持以 求实 创新 的科学精神从事研究工作 2 本论文是我个人在导师指导下进行的研究工作和取得的研究 成果 3 本论文中除引文外 所有实验 数据和有关材料均是真实的 4 本论文中除引文和致谢的内容外 不包含其他人或其它机构 已经发表或撰写过的研究成果 5 其他同志对本研究所做的贡献均已在论文中作了声明并表示 了谢意 研究生签名 日 期 日 期 学位论文使用授权声明学位论文使用授权声明 本人完全了解南京师范大学有关保留 使用学位论文的规定 学 校有权保留学位论文并向国家主管部门或其指定机构送交论文的电 子版和纸质版 有权将学位论文用于非赢利目的的少量复制并允许论 文进入学校图书馆被查阅 有权将学位论文的内容编入有关数据库进 行检索 有权将学位论文的标题和摘要汇编出版 保密的学位论文在 解密后适用本规定 研究生签名 本人完全了解南京师范大学有关保留 使用学位论文的规定 学 校有权保留学位论文并向国家主管部门或其指定机构送交论文的电 子版和纸质版 有权将学位论文用于非赢利目的的少量复制并允许论 文进入学校图书馆被查阅 有权将学位论文的内容编入有关数据库进 行检索 有权将学位论文的标题和摘要汇编出版 保密的学位论文在 解密后适用本规定 研究生签名 日 期 日 期 第 1 章 绪论 1 第1章 绪 论 第1章 绪 论 1 1 引言 语音作为人类交流的最自然 最有效 最方便的手段工具 一直以来就是人 类使用和研究的对象 直接利用语音信号进行的人机对话方式 作为一种自然的 方便的控制和通信手段 已经广泛地应用到各个实用领域 并已证明了它的有效 性 在信息化时代 语音信号处理技术更是国内外学者研究的热点 它有着广阔 的应用前景 然而在现实生活中的语音信号又不可避免的要受到周围环境的影响 例如机 械噪声 其它说话者的话音等背景噪声均会严重的影响语音信号的质量 此外传 输系统本身也会产生各种信道噪声 因此在接收端的信号不再是纯净的噪声 而 是受到污染的含噪语音信号 混叠在语音信号中的噪声按类别可分为环境噪声等的加法性噪声与残响及 电器线路干扰等的乘法性噪声 按性质可分为平稳噪声和非平稳噪声 除此之外 噪声环境下说话人的发音变化也是实环境下语音信号处理研究的重要课题 因为 在噪声环境下 话者的情绪会发生变化 从而引起声带的变化 这就是所谓的 lombard 现象 这些噪声都会给语音信号带来很大的干扰和扭曲 有时甚至会使语音信号淹 没在噪声之中 在接受端根本就接收不到有价值的语音信号 因此 能够从受污染 的语音信号提取出纯净的语音信号 从而尽可能地恢复恢复出语音信号本来所携 带的信息 也就成为了人们研究的一个重要的课题 语音增强 因为语音增强可 以抑制背景噪声 提高语音质量 它可以用做语音信号处理系统的一种预处理手 段 目前 语音增强已在语音处理系统 通信 多媒体技术 数字化家电等领域 得到了越来越广泛的应用 因此 研究语音增强技术具有重要的实用价值 它也 已经成为了国内外语音信号处理的非常重要的研究课题 并且已经取得了丰富的 研究成果 然而 由于干扰通常是随机的 从带噪语音中提取完全纯净的语音几乎是不 可能 在这种情况下 语音增强的目的主要有两个 一是改进语音质量 消除背 景噪声 使听者乐于接受 没有疲劳感 这是一种主观测量 二是提高语音的可 懂度 这是一个客观测量 但这两个目的往往不能兼得 所以实际应用中总是视 具体情况而有所侧重的 另外根据噪声的短时平稳性 在一段时间内噪声可以认 为是平稳的 可以把带噪语音分成一段一段地来进行增强处理 即基于短时谱幅 第 1 章 绪论 2 度估计的语音增强方法 1 由于其可以获得较好得增强效果 从而得到了广泛的 应用 而基于分布模型的语音增强方法的研究 更是其中的一个热点 1 2 语音以及噪声的特性 1 语音的特性 1 语音是一个时变的 非平稳的随机过程 人类发声系统的生理结构的变化速度是有一定限度的 在一段时间内人的声 带和声道形状有相对稳定性 可以认为其特性是不变的 因而语音的短时谱分析 也有相对稳定性 在语音增强中可以利用短时谱的这种平稳性 2 语音大体上可以分为清音和浊音两大类 从语音产生的机理上看 两者有明显的差异 因而在特性上也有明显区别 浊音在时域上呈现出明显的周期性 在频域上有共振峰结构 而且能量大部分集 中在较低频段内 清音则完全不同 它没有明显的时域和频域特征 类似于白噪 声 在语音增强中 可以利用浊音的周期性特性 采用梳状滤波器提取语音分量 或者抑制非语音信号 而清音则难以与宽带噪声区分 3 作为一个随机过程 语音信号可以用统计分析特性来描述 语音是非平稳 非遍历的随机过程 长时间时域统计特性在语音增强中意义 不大 其短时谱幅度的统计特性是时变的 只有当分析帧长趋于无穷大时 才能 近似地认为它具有高斯分布 高斯统计模型是根据中心极限定理得到的 在高斯 模型假设下 傅立叶展开系数被认为是独立的高斯随机变量 均值为零 而方差 是时变的 这种高斯模型应用于有限帧长是只是一种近似的描述 在宽带噪声污 染的带噪语音的语音增强中 这种假设可用于分析的前提 1 2 噪声的特性与分类 噪声来源于实际的应用环境 因而其特性变化无穷 噪声可以是加性的 也 可以是非加性的 考虑到加性噪声更普遍且易于分析问题 并且对于非加性噪声 有些可以通过变换转变为加性噪声 例如 乘积性噪声或卷积性噪声可以通过同 态变换而成为加性噪声 这里我们仅讨论加性噪声 加性噪声大致可分为周期性 噪声 冲激噪声和宽带噪声 1 周期性噪声 周期性噪声的特点是有许多离散的窄谱峰 它往往来源于发动机等周期运转 的机械如 50 或 60hz 交流声会引起周期性噪声 周期性噪声引起的问题可以通过 第 1 章 绪论 3 功率谱发现通过滤波或变换技术将其去掉 2 冲激噪声 冲激噪声表现为时域波形中突然出现的窄脉冲 它通常是放电的结果 消除 这种噪声 可以根据带噪语音信号幅度的平均值确定闭值 当信号幅度超过这一 闽值时 判为冲激噪声 然后进行消除 3 宽带噪声 宽带噪声的来源很多 如热噪声 气流 如风 呼吸 噪声及各种随机噪声源 等 量化噪声也可视为宽带噪声 由于宽带噪声与语音信号在时域和频域上完全 重叠 因而消除它最为困难 这种噪声只有在语音间歇期才单独存在 对于平稳 的宽带噪声 通常可以认为是白色高斯噪声 不具有白色频谱的噪声 可以先进 行白化处理 对于非平稳的宽带噪声 情况就更为复杂一些 1 3 语音增强方法的分类 首先根据应用的不同 声音的采集可分为单通道 双通道和多通道 根据噪声的类别 可分为针对加性噪声 针对室内回响 针对线路回声等的 语音增强 它们属于完全不同的范畴 处理的方法截然不同 2 有些非加性噪声 如传输噪声可以通过同态滤波变换为加性噪声 加性噪声通常可分为冲激噪声 周期噪声 宽带噪声 同声道语音干扰等 3 4 本文只对单通道加性噪声的情况 进行研究 单通道语音增强可以粗略地分为两大类 基于语音参数模型的方法和基于非 语音参数模型的方法 前者利用基于模型估计的语音参数来生成原始语音 基于 非语音参数模型的方法不估计语音的参数 至多假设语音的统计分布形式 而是 估计噪声的统计特性 对含噪语音滤波来提取估计原始语音 其中的方法有谱减 法 wiener 滤波法 最小均方误差 mmse minimum mean square error 幅度谱 估计 信号子空间方法等 它们都是将时域含噪语音经过 dft discrete fourier transform 离散 fourier 变换 dct discrete cosine transform 离散余弦 变换 klt karhunen loeve transform kl 变换 小波变换等转换到频域 时频域 空间域中去处理 第 1 章 绪论 4 1 4 语音质量的评价测度 1 4 1 语音质量的主观评价测度 主观评价是在一组评听者对原始语音和失真语音进行对比测听的基础上 根 据某种事先约定的尺度对失真语音来划分质量等级 它反映了测听者对语音质量 好坏程度的一种主观印象 主观评价又分为可懂度评价和音质评价 这里主要介 绍音质评价的常用方法平均意见分 mos mos 法从绝对等级评价法 acr absolute category rating 发展而来 用于 对语音整体满意度或语音通信系统质量的评价 acr 是用于针对电话通信的总体 质量评价 mos 和 acr 都采用 5 级评分标准 评听者在听完受测语音后 从 5 个等 级中选择其中一级作为他对受测语音质量的评价 全体评听者的加权平均分就是 受测语音质量的 mos 分 即对各种投票意见按规定数值进行加权 之后再平均得 到意见分 加权平均统计得分公式如下 5 1 1 ii i mosw nw n 1 1 其中 n 是总票数 i n 从是得某种分的票数 i w 5 4 3 2 l 在数字语音通信中 通常认为mos分在 4 0 一 4 5 分为高质量数字化语音 达到长途电话网的质量要求 接近于透明信道编码 也称之为网络质量或长度质 量 mos 分在 3 5 分左右称作通信质量 这时感到重建语音质量下降 但不妨碍 正常通话 mos 分在 3 0 分以下称为合成语音质量 一般指低比特率声码器合成 的语音所能达到的质量 1 4 2语音质量的客观评价测度 语音质量的客观评价的提出弥补了主观评价的不足 但要找到一个绝对完善 的测度和十分理想的测度方法是不可能的 只能尽量利用所获得的信息做出基本 准确的评价 作为语音质量的客观评价的核心是性能良好的失真测度 语音质量 的客观评价对语音质量的评价是建立在语音信号特征矢量 参数 之间的失真距 离上的 因此研究和选取特征矢量之间的度量方法对客观音质评价来说是非常重 要 它常决定了整个系统的性能 所谓失真距离就是按一定的准则来计算两个矢 量之间的畸变程度 这样的准则称为失真测度 比较两种频谱的差异大小叫谱失 真测度 通常小的失真对应于好的语音质量 第 1 章 绪论 5 总体说来 失真测度准则可以分为两大类 欧式距离准则 失真距离用欧几 里德距离来衡量 表示如下 y nx nd n 1 2 第二类是不同于欧式距离的变换域 如频域 感知域等 距离准则 语音质量 的客观评价是建立在语音信号特征参数的提取基础上 计算原始信号 x n 和失 真语音信号 y n 特征参数所表征的失真函数的失真距离 11 11 mn mn kn kn w n k f x n k y n k d x y w n k 1 3 其中 w n k是以特征分析为基础的加权函数 n m 分别为测试信号的帧 数和发音人数 语音质量客观评价的核心就是要对每种测度求得一个最佳的失真 函数 f x n k y n k和合理的加权函数 w n k 目前从语音特征参数的提取上 看 失真测度大体可分为时域测度 频域测度和感知域测度 1 4 2 1 时域失真测度 时域的客观测度通常是定义为原始语音和失真语音之间的波形对比失真测 度 信噪比 snr signal to noise ratio 和分段信噪比 segsnr 是两种广为应用 的时域失真测度方法 1 信噪比 snr 信 噪 比 是 衡 量 语 音 增 强 算 法 的 常 规 方 法 它 定 义 为 2 0 2 0 10lg n n n n s n snr s ns n 1 4 其中 s n为原始语音 s n为失真语音信号 n 是帧长 但是 经典形式的 信噪比对于因质量给出的估计并不令人满意 这主要有两个原因 一是因为经典 形式的信噪比与语音质量的主观属性的相关度不高 仅为 0 24 二是因为它同 等对待时域波形中的所有误差 语音的能量是时变的 而噪声的能量则是均匀分 布的 因而帧与帧之间的信噪比应该是不同的 如果一段发音在它的浊音部分有 很多能量聚集 这时就有可能得到具有欺骗性的高信噪比 因为具有较少能量的 清擦音部分受噪声的影响相当大 从而使人对它的感知发生困难 分段信噪比可 以改善上述问题 2 分段信噪比 segsnr 分段信噪比是基于帧的信噪比 是通过计算语音信 号每一帧的信噪比 最后取平均值得到的 计算公式如下 第 1 章 绪论 6 21 1 2 1 0 10 log nm n m n mn segsnr nm n m n mnd sn d m snsn 1 5 其中 m 表示语音帧数 n 是语音帧长度 这里需要考虑两个问题 一是如何 处理没有语音的帧 它们的存在会降低信噪比 二是如何处理计算出的信噪比过 高的帧 超过 35db 后 人耳就不能辨别它们之间的差异了 它们的存在会增加 信噪比 一般分段信噪比越大说明语音中包含的噪声和失真越小 其时域波形越 接近于纯净语音 1 4 2 2 频域失真测度 频域失真测度也叫谱失真测度 如 lpc linear predictive coding 参数距 离测度 线性预测编码倒谱距离测度 lpc 一 cd cepstal distance 等方法以及 它们的一些改进方法 这些测度与时域测度相比性能更可靠 对信号时间同步要 求也不高 若测度计算的结果值越小 则说明失真语音和原始语音越接近 即语 音质量越好 1 5 论文的主要工作和结构 第一章介绍了语音增强的背景和意义 对语音增强方法进行了归纳总结 列 出了本文的主要工作 介绍了论文的组织结构 第二章介绍了常用的语音增强方法 如谱减法及其改进方法 维纳滤波方 法等 并对它们做了实验 表明它们对噪声有一定的抑制作用 但在恢复的信号 中含有许多音乐噪声 第三章介绍了基于语音分布模型的语音增强方法 主要分为基于分布模型 的幅度谱估计的语音增强方法和基于分布模型的噪声估计的语音增强方法 在幅 度谱估计中主要介绍了 mmse 算法 后者包括最优平滑和最小值搜索和 imrca 算 法等 并对 imrca 算法做了实验和仿真 第四章在改进的最小值控制平均递归算法的基础上 进一步提出了一种改进 的算法 即用噪声最小值双向搜索方法代替单向搜索方法 提高了噪声估计的准 确性和实时性 改善了语音增强效果 论文还给出了拉普拉斯信号分布模型下一 种语音增强算法 算法中以 dct 代替传统的 dft 变换 与噪声最小值双向搜索方 法相结合 获得了令人满意的结果 第五章回顾与展望 简要地回顾了本文的工作以及不足 并设想了以后的改 进方向 第 2 章 常用的语音增强方法 7 第2章 常用的语音增强方法 第2章 常用的语音增强方法 本章主要讲述语音增强非参数方法中的谱减法及其改进方法 wiener 滤波 法 2 1 谱减法 作为一种处理单通道语音信号的传统经典的方法 谱减法得到了广泛的应 用 它的主要原理是假定加性噪声和短时平稳的语音信号信号是相互独立的 将 信号转变到频域 可以从含噪语音中减去噪声的信号 从而就可以尽可能地恢复 出语音信号 2 1 1基本谱减法 谱减法是由美国 steven f boll 于1979年提出 5 语音信号虽然是非平稳 的随机过程 但在短时间内可以近似看成是平稳的 如果能从带噪语音中信号中 估计出 纯净语音 的短时谱 再利用人耳对声音信号相位不敏感的条件 可以 用带噪语音的相位来代替估计的出的短时谱的相角 再进行反变化就可以得到处 理后的语音信号 它的基本思想是在假定加性噪声与短时平稳语音信号相互独立 的条件下 从含噪语音中减去噪声 从而得到语音信号 即假定 y nx nd n 2 1 其中 y n为含噪语音 x n为语音信号 d n为噪声 对含噪语音 y n进行 fft 得到 y kx kd k 其中 y k x k d k 分别为 k 频点处含噪语音 纯净语音 噪声的幅度值 由于假定语音和噪声相互 独立 且噪声的均值为 0 即有 0e xk d ke x k d k 2 2 所以不会出现语音与噪声的乘积项 从而 222 y kx kd k 2 3 其中 e 代表集合平均 由于相互独立的信号的和的功率谱等于各自功率谱 之和 因此由上式来估计 x k的方法被称为功率谱减法 6 意思为纯净语音的 功率谱等于含噪语音的功率 第 2 章 常用的语音增强方法 8 谱减去噪声的功率谱 其实是短时能量谱的相减 由于人耳对语音相位不敏 感 那么只要从 2 y k l中减去 2 ed k l 便可以恢复出语音的功率谱 这样 得到的功率谱即可认为是较纯净的功率谱 然后再以含噪语音的相角代替语音的 相位 就可以得到增强的语音信号 而实际上 语音和噪声都是不平稳的 因此只能利用语音信号的短时平稳性 对语音进行分帧加窗处理 此时含噪语音的功率谱可以表示为 22 y k lx k ld k l 2 4 式中 l 1 2 m 为帧索引 k 1 2 n 为频点索引 m n 分别 表示帧数和帧长 y k l x k l d k l分别表示含噪语音 语音信号 噪声 信号在在相应点处的经傅立叶变换后得到的幅值 由于假定语音和噪声相互独 立 且噪声的均值为 0 即有 0e x k l d k le xk l d k l 2 5 则原始语音的估值为 22 2 x k ly k ld k l 2 6 其中 x k l d k l分别为语音和噪声的估计值 为了防止出现负功率 在基 本谱减法中 当 y k ld k l 令 0x k l 2 7 可得完整的基本谱减法公式如下 2 2 2 0 y k ld k ly k ld k l x k l 其它 2 8 为了恢复出语音信号 还需要 x l k 的相位信息 由于人耳对语音的感知主 要是通过语音信号中各频谱分量的幅度获得的 而对各频谱分量的相位不敏感 在文献 7 中证明了在一定的条件下语音相位的最小均方误差估计就是带噪语音 信号本身的相位 所以 这里可以用带噪语音的相位近似代替语音的相位 有 jy k l x k lx k l e 2 9 以下是用基本谱减法处理带有信噪比为 10db 的f16 噪声和白噪声的带噪语 音的增强实验 采用 8khz 采样 一帧长 256 重叠数为 128 加哈明窗 取前 4 帧的功率平均值为噪声的功率 用带噪语音的相角代替语音的相角 处理恢复的 结果如图所示 从上到下依次为带噪语音 经谱减法处理恢复的语音 纯净的语 音 从图中可以看出处理后的语音和原带噪语音的差别不大 这是一是由于噪声 只是用前面几帧的值来代替 也没有得到及时的更新 二是由于 对于 10db的 信噪比来说 噪声比信号小的多 所以经处理后在时域看起来结果不太明显 第 2 章 常用的语音增强方法 9 图 2 1 用基本谱减法处理分别含有 10db的 f16 噪声和白噪声的带噪语音 左为 f16 噪声 右为白噪声 2 1 2 改进的谱减法 1 被减项加权处理 8 由于基本谱减法是从整个含噪语音段减去相同的噪声功率谱的 这样 得到 的效果并不是十分理想 因为 语音的能量往往集中在某些频段内 在这些频段 内的幅度相对较高 尤其是共振峰处的幅度一般远大于噪音 因此 不应用同一 标准处理 另一方面 由于随机噪声 如随机白噪声它的能量统计特性服从正态 分布 因此噪声帧功率谱只也会随机变化 其最大 最小值之比往往达到几个数 量级 而最大值与平均值之比也可达 6 8 倍 只有对它作长期的平均才能得到 较平坦的谱 因此 有时减谱后仍然会有较大的残余噪声 而如果某些较大功率 分量的噪声未被去除 仍然保留在语音谱中则很容易产生纯音噪声 若将其反变 换到时间信号 在时域上它类似于纯音的波形 因此 改进的方法是在幅度较高的时帧处减去 2 d k 这样可以更好的突 出语音谱 抑制纯音噪声 改善降噪性能 其次 在语音谱中保留少量的宽带噪 声 在听觉上可以起到一定的掩蔽纯音噪声的作用 考虑这两个方面 改进后的 减谱法公式如下 22 2 2 y kd ky kd k x k d ky kd k 2 10 其中1 1 实验表明 在辅音帧中取为 3 在元音帧中取 4 5 取 0 01 0 05 可以 0 2000 4000 6000 8000 1000012000 0 5 0 0 5 0 2000 40006000 8000 1000012000 0 5 0 0 5 0 2000 40006000 8000 1000012000 0 5 0 0 5 020004000600080001000012000 0 5 0 0 5 0200040006000800010000 12000 0 5 0 0 5 0200040006000800010000 12000 0 0 5 0 5 第 2 章 常用的语音增强方法 10 取得较好的降噪及抑制纯音噪声的效果 同时对于应用改进后的方法 需要粗略 的辨别语音帧是辅音帧还是元音帧 以确定 的取值 2 功率谱修正处理 9 将功率谱计算 2 换成 t 其中 t 1 则为称为功率谱修正处理 它可以 增加灵活性 有功率谱修正谱减法可表示为 t t t t y kd ky kd k x k d k 2 11 可适当调节 t的值以达到最佳的效果 3 具有输入幅值谱自适应的减谱法 由于传统的减谱法考虑噪声为平稳噪声 所以对于整个语音段 噪声功率以 及权系数 一般取相同的值 虽然可以通过粗略的辨别语音帧是辅音帧还是元音 帧 以确定 的取值 但不一定准确 而实际环境下的噪声是非平稳噪声 所 以用相同的噪声功率值是不确切的 同样 采用相同的权值 有可能发生减 除过度或过少的问题 使得有的区段要么噪声消除不够 要么减除过多产生失真 为此 应该对传统的减谱法进行了如下修改 在对于噪声功率估计时 使用当前 输入帧的功率来对该帧的噪声进行更新 有 222 1 1 d k ld k ly k l 2 12 其中01 另外还得让加权值 和输入语音功率想适应 有 2 11 22 21 112 21 2 cy k l cc ly k lcy k l c 其它 2 13 和语音的输入功率谱有关 其中 1 2 为门限值 1 c 2 c 为常数由实验确 定 在对噪声功率进行逐帧逐次更新时 噪声功率估计采用语音段开始的前几帧 来估计 可以采用带噪语音处理前后能量比来确定语音段与寂静段 2 1 2 1 1 1 n l i n i yi l n l si l n 2 14 第 2 章 常用的语音增强方法 11 s k l 为是第 l 帧处理后的值 n 为帧长 y k l 为处理前的值 对于寂静 段 处理前后平均能量变化较大 l 较大 同理 语音段 l 较小 若为寂静 段 则处理前的值可以做为下一帧的噪声参加运算 但由于语音段与寂静段在低 信噪比情况下有时也不易区分 而且时变的影响有时也会造成较大的误差 以上是减谱法语音增强以及它的几种改进形式 在减谱法语音增强的实际应 用中还需要注意 减谱法假定语音信号是短时平稳 因此需要对输入语音信号加 窗后再予以处理 实际上 谱减技术可以被看作是一种滤波操作 对高信噪比区域作较小的 衰减 而对低信噪比区域做较大的衰减 下面用瞬时信噪比来说明 定义瞬时信噪比 2 2 x k l snr k l d k l 2 15 可得增强后语音信号功率谱的估计 2 22 22 2 1 d k l x k ly k ld k ly k l y k l 2 16 则 1 2 2 21 1 x k ly k l snr k l 2 17 于是短时傅立叶变换估计谱的时变滤波器的传输函数就为 1 1 1 h k lsnr k l 2 18 可见它是信噪比的函数 信噪比越小 滤波器对信号的抑制就越大 2 2 wiener 滤波法 wiener 滤波 6 10 是最小均方误差准则下对平稳信号的最佳时域波形估计 对于给定的观测值 y n 求 x n的最优线性滤波估计值 x n 即对于带噪语音信号 y tx td t 其中 y t为含噪语音信号 x t为纯 净语音信号 d t为噪声信号 确定滤波器的冲激响应 h t 使得带噪语音信号 经过该滤波器的输出 x t能够满足 2 e x tx t 的值最小 其中 x t是维纳滤 波器的输出 设 x t和 d t都是短时平稳随即过程 由winer一hopf积分方程可得 第 2 章 常用的语音增强方法 12 xyyy rkhrd 2 19 对上式两边取傅立叶变换得 xyyy php 2 20 即得 xy yy p h p 2 21 而 xyx pp 2 22 又噪声和语音相互独立 yyxd ppp 2 23 可得 x xd p h pp 2 24 以上的推导过程是在短时平稳的前提条件下进行的 所以语音信号必须是加 窗后的短时帧信号 d p 可由类似于减谱法中讨论过的方法得到 x p 可以 用带噪语音功率谱减去噪声功率谱得到 具体方法是先对几帧带噪语音 2 y 做 平均然后用它减去噪声的功率谱来求 类似于减谱法的改进形式 我们也可以对 wenier 滤波予以改进 令 2 22 x xd ex p h pp exed 2 25 其中0 0 当2者取不同值是 它将显示不同的性质 当 1 时 为功率谱滤波 1 1 2 时为幅度滤波 采用 weiner 滤波最大的好处是增强后的残留噪声类似于白色噪声 而不是 有节奏起伏的音乐噪声 图 2 2 白噪声情况下维纳滤波前后语音时域对比图 0 0 5 11 522 5 3 x 10 4 0 5 0 0 5 0 0 5 11 522 5 3 x 10 4 0 5 0 0 5 0 5 11 522 5 3 x 10 4 0 5 0 0 5 第 2 章 常用的语音增强方法 13 图2 2给出了在白噪声情况下 维纳滤波的语音增强仿真效果 图中从上至 下依次为纯净语音 带噪语音 增强后的语音 从其中可以看出维纳滤波能有效 地抑制噪声干扰 但是通过试听可以发现语音里面残留许多音乐噪声 2 3 小结 本章主要介绍了一些经典的语音增强方法 如谱减法及其变形 维纳滤波和 最大似然法 并且对谱减法和维纳滤波分别作了仿真试验 试验的结果表明它们 都对噪声有一定程度的抑制 但是恢复的语音里含有许多音乐噪声 第 3 章 基于统计模型的语音增强方法 14 第3章 基于统计模型的语音增强方法 第3章 基于统计模型的语音增强方法 基于语音分布模型的语音增强 主要是假设信号幅度服从一定的分布模型 那么就可根据其概率密度函数 经过一定的算法处理 把语音信号从带噪语音中 提取出来 本章主要介绍了基于语音分布模型的幅度谱估计的语音增强 以及基 于语音分布模型的噪声估计的语音增强等算法 3 1 基于统计模型幅度谱估计的语音增强 本节主要介绍信号的分布模型 幅度谱估计介绍的是最小均方误差估计方法 mmse 11 以及简要介绍信号在 dct 域的研究进展情况 3 1 1信号分布模型 设 x n d n分别表示纯净的语音信号和加性噪声信号 则带噪语音信号 为 y nx nd n 其中语音与加性噪声相互独立 对带噪语音信号分帧 加 窗变换到频域 可以得到 1 21 exp 2 n n nk y k lx k ld k la ky lrn h ni l 3 1 其中 0 1 n 2 kn 11kl h n为归一化窗 k为 频带序号 l为帧索引 2lr 为帧长 为了简化 后面省略k l 设 2 d 为噪 声系数方差 若噪声服从高斯分布 则噪声系数满足高斯分布 12 2 2 1 exp 22 d d d p d 3 2 传统的统计模型假设语音系数也服从于高斯分布 则 2 2 1 exp 22 x x x p x 3 3 其中 x 为语音系数方差 由于语音与噪声相互独立 则他们的联合分布为 2 2 22 11 exp exp 2222 x y xd xd yxx fx y 3 4 若语音系数服从于拉普拉斯分布 13 第 3 章 基于统计模型的语音增强方法 15 1 exp 2 x p x 3 5 则它们的联合分布为 2 2 11 exp exp 222 x y d d xyx fx y 3 6 如果语音系数服从 gamma 分布 13 4 1 2 33 exp 222 x x x p xx 3 7 它们的联合分布为 2 4 1 2 2 331 exp exp 222 22 x y xd xd xyx fx yx 3 8 3 1 2 mmse 幅度谱估计 mmse 算法是由 yariv ephraim 和 david malah 提出来的 12 实践证明该算 法能有效地抑制音乐噪声 1 算法的描述算法的描述 假设语音系数幅度和噪声系数幅度都符合高斯分布 带噪语音经 fft 变换到 频域以后 令其带噪语音 纯净语音 噪声的第k个频谱分量分别为 exp kkk y kyrj exp kkk x kxaj k d kd k 1 2 3 n 由于语音和噪声的频谱分量都呈高斯分布 现在要找 k a的 mmse 估计 也就是从 给定的无限可数集合信号 1 2 k y k 估计 k a 这时假设各个频谱分量是相互 统计独立的 令 k a为 k a的 mmse 估计值 即 2 argmin 01 kkk aaay nnn 3 9 这时假设各个频谱分量是相互统计独立的 0121 01 kk kn kk ae ay nnn e ay y yy e ay 3 10 进一步可得 2 00 2 00 kkkkkkkk kkk kkkkkkk a p y ap ada d ae a y p y ap ada d 3 11 根据噪声的高斯分布假设 第 3 章 基于统计模型的语音增强方法 16 2 11 exp k j kkkkk dd p y aya e kk 3 12 又语音频谱也符合高斯分布 则其幅值和相位的联合分布为 2 exp kk kk xx aa p a kk 3 13 其中 2 xk kex 和 2 dk ke d 分别是语音和噪声的第k个频谱分 量的方差 代入即可得到 01 1 5 0 5 1 1 5 exp 1 222 k kkk k k kkk kkk k amr iir 3 14 其中 为 gamma 函数 1 5 2 m a c x是合流超几何函数 0 i 和 1 i 分别是0阶和1阶修正 bessel 函数 定义 1 k kk k 3 15 这里 k 和 k 分别称为先验和后验信噪比 其分别定义为 x k d k k 2 k k d r k 可将mmse的估计值改写成增益的形式 kkk ag r 3 16 其中 1 5 0 5 1 k kk k gm 3 17 可见 mmse stsa 也即最小均方误差准则下对语音短时功率谱的幅度的估计 的关键是先验和后验信噪比的计算 后验信噪比可以直接求出 而对于先验信噪 比来说 由于无法准确地得到纯净的语音功率谱 因此 只能通过估算来得到 主要有2种估算先验信噪比的方法 1 最大似然估计法 1 1 k l k lk l 3 18 max 1 0k lk l 3 19 其中l为当前帧 1l 为前面的一帧 l k 为后验信噪比 01 1 典型地 取0 725 取2 第 3 章 基于统计模型的语音增强方法 17 2 反馈法 2 1 1 max 1 0 1 d a k l k lk l k l 3 20 其中 2 1 a k l 为1l 帧的第k点 功率谱的估计值 一般取值在0 95 0 99 之间 一般来说 反馈法要优于最大似然法 根据研究发现在最小均方误差过程中 选用对数谱更加合适 yariv 给出了 基于对数谱得 mmse 改进算法 log mmse 由于基于对数谱的最小均方误差的失真准则对语音处理更适合 ephraim 和 malah 又提出了对数幅度谱估计 mmse lsa log spectral amplitude 有 2 min loglog 1 kk eaay n nn 可得 expln 1 kk aea y n nn 通过矩生成函数的求解 求导最后得到 mmse lsa的幅度谱估计值为 1 exp 12 k t k kk k e adt r t 3 21 则可得其增益函数为 1 exp 12 k t k mmsekk k e gdt t 3 22 上式的积分部分可以近似地认为 0 520 26 2 31 lg0 600 1 expint 1 544 lg0 1660 11 101 t x x xx e xdtxx t x 3 23 所以最终的增益表达式为 1 expexpint 12 k lsak k gk 3 24 研究结果表明 短时对数谱幅度估计比短时谱幅度估计的残留噪声小但是前 者的噪声听起来不如后者的均匀 2 改进的mmse算法 基于高斯分布的 mmse 算法 包括 stsa 和 lsa 可以有效地降低音乐噪声 但是在对语音进行估计时都是在语音存在的条件下 对带噪语音进行处理 从而 得到语音幅度谱的估计值的 而在实际的语音中 是有语音信号间隙的 即句与 句之间 词与词之间 即使是字与字之间也是有间隙的 也就是说可能有的帧中 第 3 章 基于统计模型的语音增强方法 18 根本就不含有语音信号 再经过 fft 后 在带噪语音谱中 不是每一个频率点上 都含有语音成分 这样就可以采用软判决 14 15 16 思想 将语音不存在的概率考虑 进去了 假设 1 k h 0 k h分别代表语音信号的存在与不存在的情况 则式 3 9 可以改写为 1100 kkkkkkkkkkk ae ay hp hye ay hp hy 3 25 很明显后一项为0 则 11 kkkkkk ae ay hp hy 3 26 不妨令 11 kkk p hyg 可得 mmse stsa 的估计为 1 kkkk ag g r 3 27 其实 ephraim 在他的博士论文中研究了考虑语音不出现概率后的mmse幅 度谱估计器 在文献 12 中给出了结论 设语音不出现的概率为 k q 定义 1 k k k q q 3 28 1 0 exp 1 kk k kkkk k kk p y h y q p y h 3 29 其中 21 kk k d e a h k 为先验信噪比 它不好直接求出 但可以用下式估计出来 21 2 1 1 kk k kkkk dd e a he a qq kk 3 30 考虑语音不出现的概率后 mmse stsa 幅度谱估计变为 1 1 kk kkkk kk y q ae a y h y q 3 31 1 kk m kk y q gk y q 3 32 第 3 章 基于统计模型的语音增强方法 19 mmse log 幅度谱估计变为 利用贝叶斯公式 1 1 kk k p hy k 其中 k 为似然比 其表达式为 11 1 000 1 kkkk kk k kkkkk p yhp yh p hq k qp hp yhp yh 3 33 可得 22 1 0 21 exp kkkk kk ddd arr a p yhi kkk 3 34 将 k k 带入上式可得 1 0 1 exp2 kkkkkk d p yhi k 3 35 0 1 exp kkk d p yh k 3 36 k q可以利用统计判决的方法求得 其求法如下 利用统计判决 在条件概 率下得到判决的结果 有 10 10 0 1 kkkk k kkkk p yhp yh q p yhp yh 3 37 其中等于0表示语音在这个频点上存在 等于1表示这个频点上没有语音信 号 语音的不存在概率 q k l可以用迭代的方法 由前面一帧的不存在概率 1 q k l 与 k q通过一定的加权来得到 1 1 q k lq k lq k l 3 38 其中 l为当前帧 1l 为前一帧 为加权系数 典型的取0 1 考虑语音 不出现概率后 mmse lsa 幅度谱估计变为 klsakm agk r gk 3 39 研究结果表明 虽然此时残留噪声减小了 但增强语音有低通滤波的效果 mmse lsa 不考虑语音出现的概率时的增强效果已达到 mmse stsa 考虑语音出现 概率后的效果 3 om lsa估计估计 17 18 19 下面为了方便 省去了频谱的索引号 以下的变量都是指在某帧某频点处的 第 3 章 基于统计模型的语音增强方法 20 值 设 0 h和 1 h分别表示语音不存在和语音存在的事件 则有 0 hy

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论