基于短时和长时特征的语音情感识别研究_第1页
基于短时和长时特征的语音情感识别研究_第2页
基于短时和长时特征的语音情感识别研究_第3页
基于短时和长时特征的语音情感识别研究_第4页
基于短时和长时特征的语音情感识别研究_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于短时和长时特征的语音情感识别研究11基于短时特征的情感识别111特征提取许多研究者认为,语音的韵律特征是说话者情感状态的一个重要指示。一些对情感语音的研究表明基音频率、能量和共振峰频率是区分某些情感的有效特征。本文共研究了五组语音短时特征,包括基音频率(Fo)、短时能量、前三个共振峰频率(F到F)、两个Mel频率倒谱系数(MFCC)和五个Mel频率子带能量(MBE131到MBE)以及它们的一阶和二阶导数。短时分析的窗长为20ms,帧移10ms,5窗函数为汉明窗。基频提取使用短时自相关方法,并通过一个3阶的中值滤波器与内插得到平滑的基频包络。此外,为了避免不同性别的人基频差别太大,对每人的基

2、频都进行了去均值处理。共振峰频率的估计使用文献5中提出的方法。为了提取子带能量,通过快速傅立叶变换(FVT)方法估计每帧的短时谱,并将短时谱通过五个在Mel尺度上均匀分布且频率范围在60Hz7600Hz内的滤波器。计算每个滤波器的对数平均能量。便得到五个子带能量参数MBEl到MBE5。试验表明,使用上述所有特征用于情感识别时存在冗余信息,并不能达到最好的识别效果。冈此必须选择一个最优子集作为特征矢量。通过文献6所述的特征选择方法,最后确定所用的每一帧短时特征(STF)矢量为:d2FdFd2MBEd2MBEdFSTF=,5i,g,比Iidt2dtdt2dt2dt其中f表示第f帧,五个特征分别为:

3、F的二阶导数,F的一阶导数,MEB的005二阶导数,MEB的二阶导数及F的一阶导数。这一特征矢量充分地利用了语音41中基频轮廓的变化及其极值分布规律。高频率子带能量特性以及第一共振峰的变化特征。为了避免由于不同语言、不同人的区别以及录音音量的差别所引起的某些数值太大或者太小的情况,所有的参数通过线性缩放,将其范围限制在0,100。12基于长时特征的情感识别12.1特征提取除了上述参数外,频谱的动态特性也是语音情感的一个重要指示。本文从语音在频率尺度上的动态特性出发研究情感的识别,提出了一个称为美尔能谱动态系数(MESDC)的特征矢量MESDC的计算过程如图所示:首先通过快速傅立叶变换(FFT)

4、方法估计每一情感短句的长时谱.再令其通过N个均匀分布在Mel频率尺度上的滤波器。计算每一个滤波器输出的对数平均能量(En(i),i=l,,N)。之后求En(i)的一阶及二阶差分。直邀叫、淤E7i(j卡1、一hE叫、W“,7V-2后联立得到MESDC的特征矢量:ME筑就口En(W)AEn(l)远glj隔丹心_2)这里N设为12.在输入到分类器之前矢量中的每一参数都要经过了一次线性归一化处理。谑破器1卜对甲iME矢atjwiMT能1*1-Ar长时语音特征在说话人识别技术上的应用1长时时频特征的提取与处理技术11特征提取算法本方法框架上采用Kenny提出的架构,把连续有基频值的浊音段提取出来,在每一

5、个段内,通过能量曲线的谷点,切分出类似音字(phoneme)的单元,然后,在每一个单元内部,把基频曲线,时域能量曲线,分别利用6阶多项式拟合得到6维的参数,与单元的长度一起构成13维的特征因此,每一个单元提取出一帧特征,这种时频特征的帧数大大减少。但是由于描述的是长时的信息,可以描述帧与帧之间的联系,而短时的MFCC系数差分特征恰恰描述不了这种长时的变化趋势,因此这种长时时频特征的系统与基于MFCC的系统融合在一起会进一步提高整体系统的性能本方法的不同之处在于,不仅仅拟合基频和时域能量曲线,还拟合了前4个共振峰曲线和前10个谐波能量的曲线。因为,我们认为,每个人的共振峰频率长时变化趋势也可以在

6、一定程度上反应说话人的信息,而且每个谐波能量的曲线变化信息不仅仅反应了被共振峰调制的谐波能量变化趋势,也反应了共振峰的强弱,这恰恰弥补了共振峰频率不能提供的幅度信息。在实验中,我们融合谐波能量曲线特征和共振峰频率曲线特征在一起来提高系统的性能。基于长时性特征的音位属性检测方法许友亮张连海屈丹牛铜基于层级TDNN的特征提取系统由2层TDNN构成,低层的TDNN对短时特征进行分类,其输入特征为帧MFCC参数,输出为音素后验概率;高层TDNN以低层TDNN输出为观测特征,考虑更长时段内的信息,其输入特征为2+1帧,时长通常可达到200ms甚至更长,使得高层MLP能够获得音素、字词或词间的信息。另外,由于低层TDNN的输出为0-1之间的概率值,为了使该分布高斯化和离散化,需对其进行非线性变换,包括log运算或PCA降维等。由于高层TDNN的输入考虑到了长时段内的信息,使得MLP在训练过程中“学到”了语音信号间的相关性;由于高层MLP考虑的信息更长,在某种意义上起着“平滑”的作用,相对于低层TDNN的检测结果,高层MLP输出的插入错误明显减少。WhN两屮i兀亠佩爲总加和帧TDNN音位厲注陪鑿擬舉圈2越于jgftttwas*位鼻性提取算扶时间延迟神经网络(TDNN)TDNN的最大特点是在MLP的隐含层引入了时间延迟因子

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论