下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
音频特征分析新特征
0提取相关特征频率数据是多媒体应用的重要组成部分。如何处理大量的频率信息,组织分析和应用是数据处理领域的研究重点之一。频率分类是其中的关键技术之一。从本质上讲,音频数据的分类是一个模式识别的问题,它包括两个基本方面:特征选择和分类。分类的前提是有效特征的提取,使同类音频相应特征间的距离尽可能小。诸多文献报道了不同的音频特征提取法:如JohnSaunders基于能量分布曲线和过零率特征,对商业电台广播内容进行分类,正确率达98%;MIT媒体实验室的EricScheirer等用4Hz调制能量、频谱能量截止点、频谱中心和频谱流量等13种特征组合起来区分语音和音乐;微软亚洲研究院的HaoJiang,LieLu等人提出了噪音率和带周期等新的音频特征,提高了环境声音的识别精度。主要考察音乐、纯语音和带背景音的语音的分类特征,包括笔者提出的修正低能量成分比率MLER和修正基频MPF两个新特征以及频域总能量、子带能量、频率中心等其它六个基本特征,由此构造两类特征集合,并分析它们在基于可分性判据J下的分类性能。1采样频率的预处理在音频自动分类中,所选取的特征应该能够充分表示音频的重要分类特性,对环境的改变具有鲁棒性和一般性。这里的一般性是指特征对各种类型的距离度量方法都能取得较好的结果。在特征提取之前,需要对原始音频数据(采样频率为22.050kHz)作预处理,即减少尖锐噪音声影响,提升高频信号,设x(n)为原始信号,处理后信号y(n):式中参数c通常取0.98或0.97,然后将音频分割为580ms(12800个采样)的片段,相邻片段间有193ms(4267个采样)的重叠部分;再对每个片段加21ms(441个采样)的Hamming窗形成帧,相邻帧间有7ms(147个采样)的重叠部分。1.1频率特性的选择1.1.1测试对象的选取修正低能量成分比率公式为:ΜLER=12ΝΝ∑n=1[sgn(threshold-E(n))+1](2)MLER=12N∑n=1N[sgn(threshold−E(n))+1](2)式中,低能量阈值threshold=δ⋅Ν∑n=1E(n)/Νthreshold=δ⋅∑n=1NE(n)/N,各帧能量E(n)=1Ν∑m[s(m)w(n-m)]2‚s(m)E(n)=1N∑m[s(m)w(n−m)]2‚s(m)为输入信号,w(m)为宽N的矩形窗。该音频特征是本文的一个有效的改进特征,传统的低能量成分比率的threshold值为帧内平均能量的一半,即δ=0.5,经修正后的threshold是一个可变值,随δ值的变化而不同。MLER是计算每一片段中帧能量低于片段中帧平均能量δ倍的帧数。由于语音比音乐信号中出现间歇停顿的频率大,若由该特征量来度量一片段中间歇出现的频率,则在一般的音乐当中,MLER值要比语音中的值要小得多。本文选取大量语音和音乐数据作为测试对象,实验证明当δ=0.126时,语音和音乐在该特征空间中的分类错误率最小。图1显示了语音和音乐在修正低能量成分比率特征空间中的分布情况(δ=0.126),说明该特征能比较有效地区分语音和音乐。1.1.2基频误差检测基频是衡量音调高低的单位。本文修正基频采用了计算平均幅度差函数的差分值(DAMDF)来检测基频,它是对常用的平均幅度差函数(AMDF)的改进。公式为:Fn(k)=diff[Ν-1-k∑m=0■xn(m)-xn(m-k)■](3)由于平均幅度差函数(AMDF)求和长度随k的增加逐渐减小,函数值整体上呈逐渐减小的趋势,而基频是通过检测第一点到距离该点最近的最小点之间的距离得到的,因此这种下降趋势直接影响检测结果。而平均幅度差函数的差分值(DAMDF)采用了中心削波法,首先对输入波形进行截取,然后对平均幅度差函数值求差分,通过检测第一点差分值到离其最近的最大差分值之间的距离来求取基频。实验中对多种不同的浊音片段的基频进行了检测,通过差分可以将AMDF函数值中的直流偏移去除掉。图2画出了原信号、AMDF以及DAMDF值的取值情况,从实验效果来看,DAMDF的检测结果明显优于AMDF。1.1.3总频域能量的总量频域总能量用于描述每帧中的能量大小。公式为:式中,ˉω=fs/2,fs为采样频率。1.1.4子带能量的计算子带能量表征信号在各频段的能量分布。将频谱按以下区间分为四个子带,sbi(i=0,…,3),分别为[0,⌟/8],[⌟/8,⌟/4],[⌟/4,⌟/2]和[⌟/2,⌟],每个子带能量计算公式为:式中,ωhi和ωli分别为第i个子带中的上、下限频率。1.1.5频域中心frecenomiccenter频率中心是度量音频亮度的指标,即求频率对信号功率谱的加权平均值,公式为:1.1.6语音的带宽范围带宽是衡量音频频域范围的指标,即求信号中所有频率与中心频率对功率谱的统计平均值,公式为:BW=√∫⌟0(ω-FC)2■F(ω)■2dω/E(7)实验表明语音的带宽范围为0.3~3.4kHz,而音乐的带宽范围比较宽,可以在22.05kHz左右。1.1.7语音信号的频域特征谱通量是度量相邻两帧之间的频谱差异的指标,公式为:Fs=1n×n∑k=1[log(A(n,k)+δ)-log(A(n-1,k)+δ)]2(k=1,⋯,Ν)(8)实验表明,语音信号的帧间频谱差异比较大,音乐相对要小得多,所以该特征能有效区分语音和音乐。1.1.8角滤波器对频域系数的求解Mel倒谱系数主要用来捕捉信号频谱的轮廓信息,它是由信号的频域系数通过三角滤波组求得的。首先,对信号作FFT求得频域系数;然后,用一组三角滤波器对频域系数滤波,三角滤波器按Mel频率尺度等间隔分布;最后,对所得的变换系数再作DCT变换,所得的系数即为Mel倒谱系数。1.2两类音频特征集合根据以上从音频中提取的8类基本特征,定义前7类特征共10维组合为感觉特征集Perc,MFCC特征的维数为其阶数L,由此构造出两类音频特征集合:Perc;Perc+MFCCL。特征集合进行归一化处理后,设Perc总体方差为s1,MFCC的方差为s2,若最终构造音频特征集记为Char,则,式中,s1=10×1,s2=∑Li=1δi,1为Perc各维的方差,δi为第i维MFCC系数的方差。2cd音乐及web音频实验音频数据来源于电视台新闻和广告节目的音频内容、CD音乐和大量的Web音频数据。采样率是22.050kHz,精度16位,存储格式为wav格式。特征提取后得到的样本序列有音乐、纯语音和带背景音的语音。2.1类间距离矩阵法引入一个由类内类间距离矩阵定义的可分性判据J(可区分度),用以评价所构造的特征向量的几种组合的可分性性能。类内距离矩阵,Sw=c∑i=1Ρi1nini∑k=1(x(i)k-mi)(x(i)k-mi)Τ(10)式中,c为类别数,Pi,mi分别为第i类的先验概率和均值,x(i)k为第i类的第k个特征向量,ni为第i类中的样本数。类间距离矩阵,Sb=c∑i=1Ρi(mi-m)(mi-m)Τ(11)式中,m为所有各类样本集的总平均向量,mi=1nini∑k=1x(i)k‚m=c∑i=1Ρimi。由Sw,Sb构造可分性判据,J=tr(Sb)tr(Sw)(12)2.2perc+mfcc用可区分度J值来度量所提取的音频特征的各种组合的可分性性能,表1为特征有效性分析实验结果。通过分析表1中的实验结果,可以得出以下结论:①音频特征集可以较有效和准确地区分语音、音乐和带背景音语音这三类音频;②对于Perc特征集,有较高的可区分度J值,原因是其中的改进特征修正低能量成分比率MLER和修正基频MPF对音频有较好的区分性能;③当特征集Perc+MFCCL中的阶数L为12时,可区分度J值最大,因此,可以选择Perc+MFCC12用于训练并检测各种音频分类器性能;④MFCC系数能够很好地刻画音频的谐度,而谐度是区分音乐和语音的重要特征,所以特征集Perc+MFCCL对于语音/音乐的可区分度J值大于纯语音/带背景音语音的J值。3不同特征集的提取效果音频分类是当前基于内容的音频分析领域的一个研究热点,在音频检索、视频摘要和辅助视频分析等方面都有重要的应用价值。本文分析了不同类音频的区
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年北京华运交通咨询有限公司招聘备考题库及完整答案详解1套
- 2026年乳源瑶族自治县住房和城乡建设管理局公开招聘城市管理协管人员的备考题库及1套完整答案详解
- 2026年上海市保安押运有限公司招聘备考题库有答案详解
- 2026年东莞证券股份有限公司珠海人民东路证券营业部招聘备考题库及1套完整答案详解
- 2026年中山市三鑫凯茵学校教师招聘备考题库含答案详解
- 2026年北矿检测技术股份有限公司招聘备考题库完整答案详解
- 2025年德庆县教育局所属公办幼儿园公开招聘教师备考题库及完整答案详解1套
- 2026年台州市黄岩经开投资集团有限公司下属公司公开招聘市场化工作人员的备考题库完整参考答案详解
- 2026年北师大台州实验学校代课老师招聘备考题库及一套答案详解
- 2026年山西电机制造有限公司招聘备考题库及答案详解参考
- GJB3243A-2021电子元器件表面安装要求
- 产品质量鉴定通用程序规范
- 中桥施工组织设计方案
- 一类,二类,三类医疗器械分类目录
- 医疗机构开展健康体检服务申请表
- 合同相对方主体资格资质资信审查指引
- 健康相关生存质量及其测量和评价课件
- 口服液生产过程监控记录
- 富士相机使用说明书
- GB/T 18271.1-2017过程测量和控制装置通用性能评定方法和程序第1部分:总则
- 道路交通安全知识培训(经典)课件
评论
0/150
提交评论