语音信号基音周期的提取方法研究_第1页
语音信号基音周期的提取方法研究_第2页
语音信号基音周期的提取方法研究_第3页
语音信号基音周期的提取方法研究_第4页
语音信号基音周期的提取方法研究_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、20中1国2电-力1教0-育27#2012-10-27#22#000#16 年#2-研1究0综-述2与7技#术#论#坛#专#刊#语音信号基音周期的提取方法研究马梦轩赵振东(华北电力大学电子与通信工程系 ,河北 保定 071003)摘 要 :本文介绍从浊音语音信号中提取基音周期 ,提出一种改进的基音周期检测算法 ( 自相关函数法) 。实验结果表明所提出的方法能提供一种更精确和更平滑的基音周期轨迹 。用这种算法可以得到精确和稳定的基音估值 。模拟试验的结果 证明了这些算法的效果 。关键词 :语音信号 ;基音周期检测 ;自相关函数法语音 ( speech) 是声音 (acoustic) 和语言 (l

2、anguage) 的组合体 。可以这样定义语音 ,语音是由一连串的音组成语言的声 音 。基音是指发浊音时声带振动所引起的周期性频率 。基 音周期值是声带振动频率的倒数 ,它是随着时间和发音高低 而不断变化的 。它的检测和估计是语音信号处理中的一个 非常重要的问题 ,一项重要技术之一 ,与许多语音信号处理 技术相关 。基音周期作为语音信号的一个重要参数 ,它反映 了语音激励 源 的 一 个 重 要 特 征 , 它 的 提 取 对 语 音 声 调 的 识 别 ,特征的提取等有很大关系 。一个好的基音声调的提取算 法对于高质量的语音数据合成 、语音数据编码及机器识别等 方面都具有十分重要的意义 。语

3、音信号的基音周期提取问题实质上也就是准周期信 号的周期估计问题 。在收集语音音高模型数据时 ,一个快速 且可信的基音提取工具是十分必要的 。国内使用的较多的 是 sfs 这种分析软件 。基音提取的方法很多 ,诸如 :平均幅度差函数 (amdf) 法( ross 等 1974) ;中心削波法 (自相关函数 (acf) 法) (dubnows2 ki ,1978) ;倒谱 ( cep) 法 ( schafer 和 rablner ,1970) ;数据压缩法 (miller ,1975 ) ; 线 性 预 测 法 ( atal ) ; 并 行 处 理 法 ( gold 和 rablner ,1969

4、) ;简化逆滤波器跟踪法 (markel ,1972) 等等 。上 述各种方法分属于时域法 、变换域法和混合法 ,变换域法涉 及傅立叶变换或 lpc 运算 ,计算量大 ,影响估值速度 。基音提取的方法大致可分为三类 。波形估计法 : 直接由 语音波形来估计基音周期 ,分析出波形上的周期峰值 。包括 并行处理法 ( pproc) ,数据减少法 (dard) 等 。相关处理法 : 这种方法在语音信号处理中被广泛使用 。这是因为相关处 理法抗波形的相位失真强 ,另外它在硬件处理上结构简单 。 包括波形自相关法 (mavto) ,平均幅度差函数法 (amdf) ,简 化逆滤波法 ( sift) 等 。

5、变换法 : 将语音信号变换到频域或倒 谱来估计基音周期 ,比如倒谱法 ( cep) 。它采用对数倒频谱分析提取基音 。虽然倒谱分析算法比较复杂 ,但基音估计效果较好 。acf 法提取出的基音周期较为精确 。amdf 法无需 乘法运算 ,因而算法复杂度小 ,但当语音信号幅度快速变化 时 ,amdf 法估计的精度不够理想 。cep 法可以较好地从语 音信号中分离出基音信息和声道信息 ( 共振峰信息) ,但是 , 反映基音信息的倒谱峰在过渡音和含噪语音中将会变得不 清晰甚至完全消失 。本文引入自相关函数 (acf) 法对语音信号基因周期的提 取 。1. 对语音信号基音周期的提取(1) 自相关法基音周

6、期提取原理人在发音时 ,声带振动产生浊音 ( 有声音) ,没有声带振 动产生清音 (无声音) 。汉语是音节 - 声调语言 。声母 、韵母和声调是汉语音节 的三个要素 。汉语声调有重要的辨义作用 。汉语语音具有 前声后韵的音节结构 ,其中声母大都为清音 (m 、n 、l 除外) ,韵 母为浊音 。汉语声调信息 ,载于其基音周期上 ,并主要在韵 母段上 。基音周期是指发韵母 (含浊辅音) 时 ,声带每开启和 闭合一次的时间 。即声带的振动周期就是基音周期 。它的 倒数称为基音频率 。浊音的发音过程是 : 来自肺部的气流冲击声门 ,造成声 门的一张一合 ,形成一系列准周期的气流脉冲 ,经过声道 (

7、含 口腔 、鼻腔) 的谐振及唇齿的辐射最终形成语音信号 。故浊 音波形呈现一定的准周期性 。所谓基音周期就是对这种准 周期而言的 ,它反映了声门开关的频率 。汉语韵母音段的大 部分具有较规则的周期结构 ,如图 1 :而且能量比清音大得多 ,其基音仅用时域特征也可得到 很好的结果 。语音分析有时域分析 、频域分析等方法 。时域分析用时 域波形图 ,频域分析用频谱图 。用时域波形来表示的语音信 号比较直观 ,清晰易懂 。时域波形语音信号的数字处理硬件 作者简介 : 马梦轩 (1981 - ) ,男 ,河北行唐人 ,华北电力大学电子与通信工程系 04 级硕士研究生 。2012-10-27#2012-

8、10-27#2#0#1#2-10-27#2021322-10-27#语#音#信#号2基0音1周2-期1的0提-取2方7法#研#究#2#0#1#2-10-27#由此可见 ,自相关函数 r ( k) 与周期序列 x ( m) 具有相同的周期 np ; r ( k) = r ( - k) ; | r ( k) | r ( 0) ; 在 0 , + - p , +- 2p , . . . . . . ,周期信号的自相关函数达到最大值 。 清音信号没有周期性 ,它的自相关函数 r ( k) 也没有周期 ,r ( k) 会随着 k 的增大迅速 衰 减 。浊 音 信 号 具 有 准 周 期 性 ,它的自相关

9、函数 r ( k) 具有与 x ( m) 相同的周期 。浊音 信号的自相关函数在基音周期的整数倍位置上出现峰值 ,而 清音信号的自相关函数没有明显的峰值 。自相关法基音检 测正是利用 r ( k) 的这一性质对语音信号进行基音检测的 。 浊音信号和清音信号的自相关函数如图 2 和图 3 所示 :实现起来比较简单 。可以得到语音信号的一些重要特征 ,如过零分析 、幅度分析 、相关分析 (自相关和互相关) ,为分析语 音信号提供有用的基础 。图 1 汉语韵母段的周期结构图语音信号的基音周期都是随时间缓慢变化的 。汉语声调的变化就是浊音基音周期 (或基音频率) 的变化 ,变化的轨 迹称为声调曲线 。

10、基音提取是声调判别的关键 ,为提高处理 精度和速度 ,本文提出一种简便的自相关基音提取算法 。基 音检测的方法很多 ,自相关法是目前最实用 、可靠和广泛使 用的基音检测方法之一 。这种算法是一种基于语音时域分 析理论的较 好 的 算 法 , 具 有 物 理 意 义 明 确 和 方 法 简 便 等 优 点 。经过对算法编程 、调试 、实验 ,它在保持较好准确率的基 础上 ,提高了检测效率 。语音中存在两种类型的相关性 ,即样点之间的短时相关 性和相邻基音周期之间的长时相关性 。本文采用自相关法 提取基音周期 ,相关分析是一种常用的语音时域波形分析方 法 ,它由相关函数定义 。相关函数可用来测定信

11、号间的时域 相似性 。如果两个信号波形完全不同 ,相关函数接近于零 ; 如果两个信号波形相同 ,就会在超前 、滞后处出现峰值 。自 相关函数可用于研究信号本身 ,区分语音是清音还是浊音 , 估计波形的同步性 、周期性等等 。对于确定性信号序列 ,自相关函数定义如下 :图 2 浊音信号 r ( k)图 3 清音信号 r ( k)语音信号 是 短 时 周 期 性 的 , 其 自 相 关 函 数 是 同 周 期 性的 。对于浊音信号 ,只要检测到 n 的位置 ,就可以估计语音 信号的基音周期值 。语音信号是非稳态信号 ,它的特征是随时间变化的 。但 在一个很短的时间段内 ,可以认为具有相对稳定的特征

12、 ,故 称为准平稳信号 。这个时间段约为 5ms - 50ms。其统计特性 和频谱特性都是对短时段而言的 。这使得要对语音信号作 数字处理必须先按短时段对语音信号分帧 ,这样每一帧信号 都具有短时平稳性 ,从而进行短时相关分析 。短时自相关函数的定义为 :+ rn ( k) = 6 x(m) w( n - m) x(m + k) w( n - m - k)m = - n - 1 - kr ( k) = 6 x (m) x (m + k)(2 - 1)m = - 对于随机性信号序列或周期性信号序列 ,自相关函数定义为 :nr ( k) = lim 1 6 x (m) x (m + k)(2 -

13、2)n 2n + 1m = - n自相关函数有以下特性 : 如果序列 x ( n) 具有周期 np ,即 x ( n) = x ( n + np ) ,则6 x(m + n) x( n + m + k)(2 - 5)r ( k + np ) = 6 x (m) x (m + k + np )m = - m = 0其中 ,x( n) 为语音波形 ;w ( n) 为窗函数 (矩形窗) ;n 为窗= 6 x (m) x (m + k) = r ( k)m = - (2 - 3)长 .n1(2) 算法流程自相关法基音检测流程图 ,图 4 :r ( k + np ) = lim6 x (m) x (m

14、+ k + np )n 2n + 1m = - nn16 x (m) x (m + k) = r ( k)(2 - 4)= limn 2n + 1m = - n2012-10-27#2012-10-27#2#0#1#2-10-27#2012-10-27#语#音#信#号2基01音2周-期1的0提-取27方#法#研#究#2#0#1#2-10-27#2#33#期样点值 。由窗口中看到 ,发音“机”时 ,中值平滑处理后的 p是一个 1 ×115 的矩阵 。即显示出 115 帧语音信号的基音周 期样点值 。其中 ,前 51 帧都是零值 ,从第 52 帧以后才有基音 周期样点值 ,到第 84 帧

15、为止 。这是因为 52 到 84 帧对应着语 音信号的浊音段 。而在第 108 帧又出现一个基音周期样点 值 ,这是由于录音时语音质量问题造成的 。帧数及各帧基音 周期样点数如下表所示 ,从表中由各帧基音周期样点数就可 以算出这一帧的基音周期 。例如 ,第 84 帧的基音周期为 50 个样点 , 由 公 式 ( 2 - 12) 的 t = 1000 3 / np 8000 ( ms) 得 : t =1000 ×508000 = 6. 25 ( ms) , 即基音频率为 160hz 。其 余 各 帧 用相同的公式计算就能得出结果 。图 4 算法流程图算法中大致分为以下功能模块 : 取样

16、 、分帧 、低通滤波 、削波 、相关运算 、清浊音判决 、周期提取 、中值平滑滤波等几 个模块 。用传统的自相关法基音检测估计基音周期时 ,判错的可 能性较大 ,一般采用谱平整的预处理和基音平滑后处理等技 术以改善基音估计的性能 。尽管可以从原语音信号中估计 浊音语音段的基音周期 ,但第一个共振峰频率可能影响到估 计的准确性 。从语音信号中排除共振峰结构 ,使每个谐波有 相同的幅度这一过程称为谱平整 。目前主要有两种方法完 成这一功能 ,即线性方法和非线性方法 。本算法中同时用到 这两种方法 。线性谱平整方法使用低通滤波器 ,从语音信号 中排除共振峰 。这个方法的主要缺点是对于高基音语音 ,如

17、 妇女和儿童的语音 ,可能破坏整个周期信息 。非线性谱平整 方法主要是通过中心削波语音信号来实现 。2. 用 matlab 编程实现对语音信号基音周期的提取在计算机上录制了一个语音样本 ,语音样本是 wav 形 式 。本算法经编程 、调试后 ,把语音信号输入进行处理 。实 验时用到了单字词“机”、双字词“长度”、三字词“计算机”和 四字词“我的电脑”等语音信号进行基音周期提取实验 。应 当指出 ,当语音放大器的频率响应不好 ,造成各频率分量之 间的相对位移 ,这将给锐变点的检测带来困难 。由于录音设备比较简陋 ,所以在录音过程中不可避免的 产生误差 。而且录音过程不是在标准的无噪环境下进行 ,

18、环 境中的噪声对实验也产生了影响 。但是 ,实验取得了比较满 意的结果 ,如图 5 所示 。由于语音的短时稳定性一般在 20ms 到 30ms 之间 ,一般 来说 ,帧间叠加长度不大于帧长的一半将不会影响基音检测 的精 度 。考 虑 到 如 此 , 帧 长 取 样 点 为 240 点 。即 一 帧 为30ms 。帧间叠加 120 个样点 ,帧间隔也是 120 个样点 。此时 帧移没有超过帧长的一半 。以上的基音周期轨迹图是根据检测到的各帧基音周期 样点值做出的 。程序运行以后 ,在 matlab 的 workspace (工作窗口) 内 ,可以查到中值平滑处理前和处理后的基音周图 5 发音“机

19、”的时域图及基音周期检测结果图 6 、图 7 、图 8 都是取图 5 的帧长及帧间隔运行程序得出的结果 。对于以下各图用同上的方法来分析 ,得出的基音 周期值都比较令人满意 ,这证明了本程序的实用性 。图 6 发音“长度”的时域图及基音周期检测结果2012-10-27#2012-10-27#2#0#1#2-10-27#2021342-10-27#语#音#信#号20基1音2周-期1的0提-2取7方#法#研#究#2#0#1#2#-10-27#图 8 发音“我的电脑”的时域图及基音周期检测结果图 7 发音“计算机”的时域图及基音周期检测结果3. 结论本文引入自相关函数 (acf) 法对语音信号基因周期的提 取 ,通过 matlab

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论