基于高维空间连续神经元覆盖的基音频率识别_第1页
基于高维空间连续神经元覆盖的基音频率识别_第2页
基于高维空间连续神经元覆盖的基音频率识别_第3页
基于高维空间连续神经元覆盖的基音频率识别_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于高维空间连续神经元覆盖的基音频率识别

随着计算机硬件技术的发展,语音识别技术也取得了很大进步。但是,由于语音信号的复杂性和多样性,以及连续语音识别中的协同发音现象广泛存在,目前的语音识别算法在一定程度上还不能满足人们使用的需要。以汉语为例,汉语的发音音节很短,一般只有一个音节,由声母和韵母组成,因此在语音信号中的信息量很小,给识别带来很大困难。另外,汉语是一种有调语言,不同音调的音节之间的混淆是识别中最常见的替代错误。因此,针对汉语的特有性质,有人利用不同的特征在不同的空间分别建模,但势必造成系统的结构过于复杂。实验表明,如果在进行语音识别之前,事先知道待识别语音的性别,则会大大提高最后的识别效果。在进行语音识别之前,先对识别样本进行性别识别,再用不同的模型对不同的性别进行语音识别,这样不仅训练出来的模型更加精确,而且也可以减小模型的混合次数,降低模型的复杂度。仿生模式识别是王守觉院士于2002年提出的一种新的模式识别的方法和理论,在此理论基础上提出一种高维空间覆盖算法,通过不同样本在高维空间中覆盖的不同区域对样本进行划分,并将该算法应用于语音信号的性别识别。1语音的性别特征语音信号中有很多特征参数,如时域中的短时能量,短时过零率,短时自相关,以及频率域中的频谱,基音频率等。要想对语音信号进行性别划分,就要抓住最能体现语音性别特征的参数。图1(a)和图1(b)分别为男性和女性说话人发出汉语读音“元素”时的波形图,语谱图以及有效基音频率的曲线。从图中可以看到,男性和女性的基音频率分布在不同的区域。图2中通过对比发现,女性基频值明显高于男性。语音中的浊音是准周期信号,基音频率的物理含义是浊音的声带振动基频。统计显示,不同性别的说话人,基音频率具有不同的分布。男性说话者的基频大部分集中在60~200Hz之间,女性大部分在200~450Hz。2自杀检测2.1类模式类的基本框架模式识别是通过对具体的事物进行观测所得到的具有时间与空间分布的信息,模式所属的类别或同一类中的模式的总称为模式类,其中个别具体的模式称为样本。其基本框架如图3所示。其中,起决定作用的是分类器的设计。现存的分类方法有很多种,如基于统计决策分类理论的统计识别,起源于生物神经系统研究的神经网络,事先设定模版的模版匹配识别,以及基于知识向量机理论的模式识别等。2.2仿生模式的概念传统模式识别中,人们考虑模式识别问题的主要出发点都是若干类别的最佳划分问题;而仿生模式识别的基本出发点是把模式识别问题看成对各种各样模式的“认识”过程,而不是划分。正如人类能很快地分辨出周围的物体,是因为人类很好的认识了每一种事物的特征,并不是以对每种事物的分类为前提的。仿生模式识别的基点为:特征空间中同类样本全体的连续性规律。传统的模式识别的所有知识都存在于训练样本中,因此基本上都是基于大数据量的训练样本。而仿生模式识别则认为,自然界任何预被认识的事物(包括事物,图像,声音,语言,状态等等)若存在两个“同源”同类而不完全相等的事物,而这两个事物的差别是可以渐变的或非量子化的,则这两个同类事物之间必至少存在一个渐变的过程,在这个渐变过程中间的各事物都是属于同一类的,以数学公式描述为:特征空间Rn中,设所有属于A类事物的全体所构成的点集为A,若集合A中存在任意两个元素x与y,则对ε为任意大于零的值时,必定存在集合B使:即在样本足够多的情况下,所有同类模式所构成的样本在高维空间中应构成一个或多个闭合的区域,其中任意两个样本之间是连续的。也就是说,如果一个待识别样本出现在某一类模式的这个闭合区域,则该样本应该是属于这类模式。仿生模式识别抓住任两个相近同类样本之间的相似性,通过对训练样本的“认识”过程来为每一种模式建立模型。这样建立起来的模型不仅能够反映出训练样本中所携带的信息,也能通过连续的思想,将邻近的两个同类样本之间的信息保存在模型中。3模拟识别适用于性别识别3.1第三,基音频率的估计特征提取的目的是从语音信号中抽取出能完全,精确的表达语音信号所携带的全部的用于识别的信息参数。特征提取是该系统的第一步,也是至关重要的一步,因为有的语音特征在反映性别特征的过程中没有积极作用,反而造成系统数据的冗余。基音频率在语音信号中是区分男女性别的主要特征,而且结构简单,每一帧数据只有一维基频,能够简化分类识别过程。本文中实验数据采样频率为8kHz,位深度16bit,采用文献中的幅度差和函数方法对样本进行基音频率的估计,并用Viterbi算法进行后处理。将不存在基音的帧舍弃。3.2平均帧数及方向函数仿生模式识别基本出发点是对一类一类样本的“认识”,利用神经元建立高维空间复杂几何形体,完成对某类样本的最佳覆盖过程。本文采用一种类高斯混合模型的神经元:其中,d为样本的维数,在性别识别中为样本的帧数,即一个样本代表高维空间中的一个点,th为设定门限值,R=[r1,r2,…,rd]为每一个神经元的核心权值,表示每一维数据在高维空间中的中心;V=[v1,v2,…,vd]为方向权值,表示在每一个方向上距离中心的大小。其中:M为训练样本的个数,δ为调整大小的参数。训练时,首先计算所有训练样本之间的距离:m、n代表任意两个训练样本。从中选择距离最大的两个样本,即一类模式的两个边缘,从任意一个边缘处开始对样本进行高维空间的覆盖。寻找平均距离最小的M个样本,完成一个神经元的训练,直至所有的样本都被覆盖,这时所有的神经元就形成对该类别所有样本在高维空间的覆盖。3.3分类识别样本首先,对待识别样本进行和训练样本同样过程的特征提取,将与训练样本相同帧数的基音频率保存下来。对待识别样本进行性别识别的过程,就是判断被识别样本是否落在代表男性或是女性的训练样本所围成的高维有限空间的并集中。识别时的判别函数为:其中,Ymi代表所有的由男性训练样本得出的神经元,Yfi代表所有由女性样本得出的神经元,f为判别函数。4仿生模式实验该实验采用的数据库为WSJ英文语音数据库。为了突出仿生模式识别的性能优势,减少实验结果受随机因素的影响,本次实验主要采取小数据集训练,大数据集测试的原则。训练数据和测试数据均提取前30帧有效基频,男女各用50条数据进行训练,850条数据进行测试。由于训练数据比较少,可能会出现由于数据采集时不同人的不同声音特征不具代表性,而影响最后统计结果的普遍性,因此该实验共进行6次,分别使用不同的数据进行训练,相同的数据进行测试。实验结果如表1所示。同时,使用相同的数据采用HMM的方法进行实验。实验使用HTK工具箱,分别为男女建模,模型中状态数为5,混合数为6,同样对以上6组数据进行识别,实验对比结果如表2所示。仿生模式识别的算法设计结果不仅受训练样本的影响,高维空间的维数也会影响识别结果。因此,接下来的实验,依次增大高维空间的维数,从5维增加到100维。训练数据100个,测试数据500个。不同实验的训练数据和测试数据为相同的语料,提取其中的不同帧数的基音频率用于识别。实验结果如表3所示。该实验中,男性女性识别率具体的变化趋势如图4所示。本文分析了

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论