【音频特征提取综述2000字】_第1页
【音频特征提取综述2000字】_第2页
【音频特征提取综述2000字】_第3页
【音频特征提取综述2000字】_第4页
【音频特征提取综述2000字】_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

音频特征提取综述目录TOC\o"1-2"\h\u1526音频特征提取综述 1135633.1特征参数概述 110304(1)时域特性参数 117573(2)频域特性参数 126442(3)倒谱特征参数 1185743.2特征参数提取 1304893.2.1时域特征参数 1109133.2.2频域特征参数 2286733.2.3倒谱特征参数 3265423.3特征提取实验 33.1特征参数概述由于语音信号是所有音频信号中应用最广泛、最突出的研究成果,所以可以将语音信号的各个方面的参数总结归纳为语音的特征参数作为参考。语音的特征参数有时域特征参数、频域特征参数和倒谱特征参数三种,它们是和[16]。(1)时域特性参数时域参数的共同特点是:短时线性能量和短时平均振幅,短时平均过零率,短时自相关函数等。这些参数都比较容易提取,但识别信号的能力不强,常用于端点检测和语音子帧。(2)频域特性参数频域特征参数不利于复杂信号的处理,但对加性信号的检测和识别有很强的实用价值。短时FuLiye变换是最常用的频域特征参数,有时在时间域的信号特征,短时FuLiye变换的使用可以很好的反映。(3)倒谱特征参数Mel频率倒谱系数(MFCC)和线性预测倒谱系数(LPCC)是两种常用的倒谱特征参数。MFCC为人类听觉增加了美尔频率标度。线性预测系数(线性预测编码)提取线性预测技术的基础上。3.2特征参数提取3.2.1时域特征参数设音频的时域信号为x(l),经过加窗分帧处理后的第n帧信号为xn(m),xn(m)可以用下面的公式表达(其中w(m)是窗函数,N为帧长):(3-1)除了在2.2.2节的短时能量和短时过零率在2.2.3节,有两种常用的时域光谱参数,如短时平均幅度、短时自相关。(1)短时平均振幅由于短时能量用于计算信号的平方值,所以对信号非常敏感。采用信号幅值代替平板法可以降低灵敏度:(3-2)(2)短时自相关用Rn(k)代表短时自相关函数,其中k为延迟点数,短时自相关Rn(k)的定义如下:(3-3)其中,K代表最大延迟点数。对语音信号的分析可以使用短时自相关的性质:如果信号xn(m)具有周期性,且周期为Np,则Rn(k)也是周期为Np的周期信号;R(k)是偶函数,即Rn(k)=Rn(-k);自相关函数R(k)在k=0时取得最大值,对于确定性信号,Rn(0)代表其能量,而对于随机性信号,Rn(0)代表其平均功率。3.2.2频域特征参数对音频信号提取频域特征时,通常先用傅里叶变换将时域信号变换到频域:(3-4)常用的频域特征参数有自带能量比、子带频谱流量、频率中心、带宽和线谱对等,具体内容如下:(1)子带能量比子带能量比是把信号的频域分成多个子带后,统计信号的频谱各自子带所占能量的比例,即:(3-5)(2)子带频谱流量子带频谱流量通过在频域上划分子带后,统计每个子带中相邻频率的累积变化率来计算出频谱流量作为特征,其定义如下:(3-6)(3)频率中心频谱能量分布的平均点就是频率中心,其公式如下:(3-7)(4)带宽带宽代表着信号频谱的平均频率宽度,其公式如下:(3-8)(5)线谱对线性预测分析方法有一种叫线谱对分析,这种方法和信号谱包络的峰有紧密联系。具体的内容在此不详细描述,最后获得的系数能反映频谱特性。3.2.3倒谱特征参数Mel频率倒谱系数(MFCC)和线性预测倒谱系数(LPCC)是两种常用的倒谱特征参数。MFCC为人类听觉增加了美尔频率标度。线性预测系数(线性预测编码)提取线性预测技术的基础上。在本文中,我们使用的MFCC特征,Mel频率规模和实际频率之间的关系如下:Mel(ƒ)=2595lg(1+ƒ/700)(3-9)具体的MFCC提取流程步骤如图3-1所示:Mel频率尺度滤波器组MelDFT加窗后的音频信号Mel频率尺度滤波器组MelDFT加窗后的音频信号DCTLogMFCCDCTLog图3-1MFCC提取流程3.3特征提取实验根据上述第二建立健全图书馆四的声音来做特征提取的实验,根据脚步声,一个门锁开关,声音,声音的声音序列,提取图3-2的三个特点,对短时能量和短时能量的标准方差的短时能量的平均差。根据3-2的结果,发现短时平均过零率和短时能量脉冲宽度比较宽,脉宽窄,可作为区分语音和非语音的依据。图3-2短时能量的均值、短时能量方差和短时能量标准差特征的对比图3-3是三种特征的提取,如短时能量的平均值,方差,短时能量和短时能量的标准偏差。通过观测发现,短时能量均值、短时能量方差和短时能量标准差等三种特征与噪声相似。三特色的脚步声、开关门,敲门的声音特征等不同高度的声音,锁是一个流畅的线条,并对短时能量的门声是由低到高,再从高到低,有其自身的特点,因此,利用短时能量所需的平均特征参数。图3-3短时能量的均值、短时能量方差和短时能量标准差特征的对比MFCC参数的提取。通过归一化倒谱凸窗、预加重滤波器,每个框架得到MFCC和一阶差分MFCC参数等步骤微分系数和参数MFCC参数的计算,与一维数组和振幅幅值的尺寸之间的关系。观察发现,对于声音的脚步声,无法提取MFCC参数;而MFCC参数的门开在0,MFCC和MFCC的语音锁虽然连续,但零率锁定MFCC的语音MFCC的语音明显高于语音。因此,MFCC参数也可以用来分类的四种声音。图3-4MFCC参数的提取对比通过上述实验和比较结果,我们可以发现,这四种声音可以分为几个方面:1、通过短时平均过零率、短时

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论