下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、基于改进的时间动态规整算法的多特征组合的说话人辨认方法研究 摘 要 通过分析当今说话人识别系统中常用的语音特征和基本的说话人识别方法,本文采用多门限多判决的动态时间规整算法作为识别方法,并提取出美尔频率倒谱及其差分、线性预测倒谱及其差分、基音周期、短时谱的临界带特征矢量和子带能量倒谱等多种语音特征进行互相组合,找出了相应于该识别方法的最优特征组合。 关键词 说话人识别;动态时间规整;特征组合 1 引言 说话人识别是
2、语音识别的一个分支,在公安侦察、声控系统、医疗诊断电子</a金融业务等方面有着广泛的应用前景。它和语音识别的区别在于,它并不注意语音信号中的语义内容,而是希望从语音信号中提取出个人的信息特征。从这点上说,说话人识别是企求挖掘出包含在语音信号中的个性因素。而语音识别是企求从不同人的语音信号中寻找共同因素。 通过分析前人对说话人识别的工总结,为了进一步提高识别率,本文采用了多门限多判决的改进的动态规整(dynamic time warping ,简称DTW)方法进行说话人辨认,在增加少量运算代价的情况下,新方法改善了辨认系统的性能。
3、0; 说话人识别是企求挖掘出包含在语音信号中的个性特征而后进行识别。一般说来,单一参量很难使系统性能可靠,因为它不能充分描绘说话人的个体特征,其中会包含语义信息,或只是说话人特征的某一方面,所以在实际应用中往往要采用不同参量的集合。因此,本文将提取的多种特征进行不同的组合,试图寻找出相应于上述识别方法的具有较高识别率的语音特征组合。 2 语音特征的提取 在提取特征之前,所采集的语音信号必须经过预处理,一般包括预加重、加窗和分帧。为减少计算量提高计算精度,在预处理后要进行端点检测。本文利用语音短时能频值5作为端点检测的参数,这种方法相当
4、于在传统方法中,以背景噪声的短时能频值为基准对绝对门限值作调整,结果表明能频值端点检测的方法适应环境的能力比较强,准确率较好5。 本文利用了“短时分析技术”1提取了以下几种常用特征:16维的美尔倒谱参数MFCC及其差分系数MFCC、12维的线性预测倒谱参数(LPCC)及其差分系数LPCC、12维的美尔线性预测差分倒谱系数1(LPCMCC)、基音周期P及其差分P、18维的短时谱的临界带特征矢量1(本文用GL表示)和子带能量倒谱6(Sub-band MFCC,本文用SBC表示)系数及其差分(SBC)。其中,本文是采用自相关方法提取的基音周期,并运用了二次平滑算
5、法1去除了基音轨迹中的“野点”。在提取子带能量倒谱时,本文是将语音信号按照Mel刻度在树结构中的多级子带分解为11个子带信号进行计算的。 3 说话人识别方法3.1 动态时间规整算法 动态时间规整匹配是基于动态规划的思想,解决了发音长短不一的匹配问题,把时间规整和距离测度计算结合起来的一种非线性规正技术,是语音识别中出现较早、较为经典的一种算法。设测试语音参数共有 I 帧矢量,则测试语音模板的特征矢量序列为X=(X1 、X2 、XI),参考语音参数共有 J 帧,则参考模板的特征矢量序列为Y(Y1 、Y2 、YJ )。且 IJ,则动态时间规整就是要找
6、到一个时间规整函数 j=w(i) ,将测试矢量的时间轴 i 非线性地映射到参考模板的时间轴 j上,并使该函数 w 满足下式: (
7、3.1) 其中, 是第 i 帧测试矢量Xi 和第 j 帧模板矢量 Yj 之间的距离测度,一般这个距离测度采用欧氏距离的平方,如(3.2)式所示。D则是处于最优时间规整情况下两矢量的距离。 &
8、#160; (3.2) 其中 Xi=( xi1, xi2,xi3 ,xiN), Yj =( yj1,yj2 ,yj3 ,yjN ),N是特征矢量维数。 实际应用中,DTW一般采用动态规划技术(DP)来实现1。动态规划是一种最优化算法,其原理如图1所示。将测试模板的各帧 i=1,2,.,I 作为二维直角坐标系的横轴,参考模板的各帧号j=1,2,.,J 作为纵轴。通常规整函数w(i) 被限制在一个平行四边形内,如图1,它的一条边的斜率为2,另一条边的斜率为1/2
9、。规整函数的起始点为 (1,1),终止点为(I,J) ,即W(1) =1,W(I)=J 。 的斜率为0、1或2;否则就为1或2。这是一种简单的局部路径限制。 求最佳路径问题可以归结为满足局部路径约束条件,使得沿路径的累积距离最小。 搜索该路径的方法:从(1,1) 点出发,可以展开若干条满足局部路径约束条件的路径。假设可以计算每条路径达到 (I,J)点时的总的累积距离,具有最小累积距离者即为最佳路径。 这个最小累积距离即为测试语音模板与参考模板语音之间的距离。则与测试模板距离最小的参考模板对应的说话人即判为识别结果。 3
10、.2 改进的多门限多判决的动态时间规整方法 很显然,在模板库中总的词条数目不变时,增加模板的数量会提高识别率,但是模板数目的增加也会带来系统响应速度变慢的问题。因此,本文在说话人辨认系统中采取了多门限多次判决方法2,系统参考模板库中共存有四套模板。输入语音构成的测试模板先跟第一套模板进行匹配,求出与每个模板的最佳匹配距离,距离最小者作为候选输出。设定一个拒绝门限,若最小匹配距离也大于该门限,则表明该输入语音不在语音库范围内,停止下一步匹配,结果判该输入语音对应的说话人为库外人员。另外再设一个接受门限,若匹配距离小于该门限,则候选输出为正式的输出;
11、否则,再进行第二轮匹配,即与第二套模板进行匹配.这样一直到第四套模板,如果此时还没有得到理想的输出,则可综合评价四次匹配结果,得出最后的输出结果。此外,为了减少多轮匹配的计算量,定义一个差别阈值2,在每轮匹配结束后,计算最小匹配距离与其他模板匹配距离的差别,若所有的差别均大于差别阈值,则表明输入模板与候选输出模板较其他模板有很大的相似性,可以作为正式的输出。若仍有模板的差别小于差别阈值,则表明这些模板与候选输出模板之间还可能存在混淆,需待下一轮匹配进行澄清。因此在下一轮匹配时,只需计算输入语音与这些模板之间的匹配距离,而将其他模板排除在外。 本文的拒绝门限设定为在两个参考模板中对候选输出者的语音进行模板匹配得到的累积距离dr 的倍数,即 (1 )为拒绝门限。接受门限则设定为: ,其中 0<<1, 是根据使用不同的特征矢量分别设定的。 由于人的语音会随着时间的变化而变化,而且会受到健康和感情等因素
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 供暖行业课件教学课件
- 脑血吸虫病病例分析
- 库欣病诊治专家共识
- 2023年香料香精资金筹措计划书
- 踩点点课件教学课件
- 施工单位安全员述职报告
- 期末考前安全教育主题班会
- 安防员个人述职报告
- 肛肠科一病一品汇报
- 猜猜他是谁教案及反思
- 3.3解一元一次方程(3)-去分母 讲练课件 2023-2024学年人教版数学
- 2024年企业数据存储与安全服务合同
- 2022年北京市公务员录用考试《行测》真题及答案解析
- 2024年消防宣传月知识竞赛考试题库500题(含答案)
- 医院病历书写基本规范培训课件
- 国开2024年秋《机电控制工程基础》形考任务1答案
- 2024年典型事故案例警示教育手册15例
- 高一历史(中外历史纲要上册)期中测试卷及答案
- CJT 358-2019 非开挖工程用聚乙烯管
- 20K607 防排烟及暖通防火设计审查与安装
- 一氧化碳中毒培训课件
评论
0/150
提交评论