版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 硕士研究生学位论文中期检查报告基于改进模糊C-均值聚类的说话人识别姓 名: 班 级: 学 号: 专 业: 导 师: 研 究 方 向: 信号处理 填表说明与要求1.中检时,报告人应向中检审查小组提供一定数量的阶段性研究成果,具体数量由各学科专业自行确定。2.中检报告一般应包括研究内容、研究工作进展、论文的主要创新点、论文的后期工作安排、参考文献等等。文科不得少于5000字,理科不得少于3000字。3.参考文献格式参照学位论文。4.论文中检时间一般应不晚于入学后第五学期9月末之前完成。5.中检报告的格式和内容可根据学科专业特点作适当调整。 6.中检报告中的字体均用宋体五号字,用A4纸打印,于左侧
2、装订成册。一、研究内容简介1.说话人识别的基本概念说话人识别(speaker recognition,SR),也称为声纹识别(voice print recognition,VPR),就是利用说话人的语音信号同预先提取的说话人语音特征相比较来确定或鉴别说话人身份的技术。说话人的语音信号中不仅包含有语义内容方面的信息,同时也包含有关说话人身份的个人信息。每个人由于自己独特的声道特性和发音特点,使其讲话具有区别于其他说话人的特征,这就是说话人识别的基本依据。说话人识别也可以看作是语音识别的一种特殊形式,它和语音识别一样,都是通过对所收到的语音信号进行处理,提取相应的特征,建立相应的模型,然后据此做
3、出判断。说话人识别与语音识别的区别在于,说话人识别着重于希望从语音信号中提取出人的个性特征,强调不同人之间的差别,而语音识别希望从词语信号中寻找共性因素,尽量剔除说话人的个性特征,突出语音信号的语义差别。2.说话人识别系统框图图1 说话人识别系统框图图1显示了说话人识别系统的框图,其中主要包括了预处理、特征提取、模版训练和模式识别四个模块,下面详细说明每个模块的功能:(1)语音信号的预处理:通过预处理滤除掉各种噪声和干扰,提升信号中的高频部分,加窗分帧后,进行端点检测,去掉无声的语音段,选取有声段的语音帧为特征提取做准备。(2)语音信号特征参数的提取:在有声段的语音帧中提取能够有效表征说话人特
4、征的参数。现在采用的特征参数都是从语音信号模型中得到的,它们既包含说话人的语音特征,又包含说话人的个性特征,并且相互交织在一起,以复杂的形式存在于语音参数中。(3)说话人模版的训练:是指将表征说话人特征的数据进行处理,建立起说话人模版的过程。不同的说话人识别方法对应不同的说话人模版训练方法。(4)说话人模式识别:待识别语音的特征与说话人模版进行匹配,计算匹配距离。由于本文是进行说话人识别,所以应与所有人的模版进行匹配计算匹配距离。最后根据计算结果,判别说话人的身份。3本课题的主要研究内容(0)为了满足研究需要,利用matlab软件自行设计说话人识别系统并进行仿真。(1)以本课题组10名说话人为
5、实验对象,采集样本语音信号。(2)对样本语音信号进行高通滤波,端点检测,加窗分帧等预处理操作。(3)讨论语音信号特征参数的选取问题。(4)提取预处理后的语音信号中的特征参数。(5)分析现今常用模版训练(在说话人识别系统中此步骤叫做说话人码本的训练)方法,选取适合本课题的说话人码本训练方法。(6)利用提取的特征参数来训练说话人的码本。(7)选取模式匹配准则(在说话人识别系统中此步骤叫做说话人识别准则)。(8)利用训练好的说话人码本来识别未知说话人的身份。(9)利用客观评价准则来评定本文所设计说话人识别系统的性能,并将此系统与传统的说话人识别系统进行性能比较。(10)总结该设计的优点与不足。二、研
6、究工作进展(开题以来已完成的工作和取得的成果以及存在的问题)(一)已完成的工作本设计全程以matlab进行实验和仿真1、以本课题组10名说话人为实验对象,采集样本语音信号。实验中,采样频率为8kHz,利用笔记本电脑内置的麦克风采集10名说话人(说话人1、说话人2、说话人10)的语音信号,每人录音1200次,每次1s,匀速朗读书本任意内容,其中1000次用于训练生成码本,200次用于识别。在matlab中实现该功能的主要语句:y=wavrecord (1*fs,fs,1,'int16') ,1*fs表示采样时间为1s。fs代表采样频率,本实验中fs=8000Hz。1代表单声道。
7、int16表示采集的数据为双精度。采集的语音信号保存在变量y中。然后利用函数wavwrite (y,fs,'D:xufengworkxufeng_1.wav') 将采集的语音信号保存在D盘相应的位置,文件的名称为xufeng_1.wav。图2显示了采集的语音“语音信号处理”和“为毕业奋斗”在时域的波形图 图2采集的语音“语音信号处理”和“为毕业奋斗”在时域的波形图2、对样本语音信号进行高通滤波,端点检测,加窗分帧等预处理操作。对于每人的1000个用于训练的语音信号样本,首先经过高通滤波器(下限截止频率fL = 1kHz),滤除低频干扰,其次利用汉明窗进行分帧处理,将非平稳信号转
8、换为短时平稳信号,帧长取25.6ms,帧移取8ms。最后采用基于短时能量和短时过零率的端点检测法找到信号的有声段,选取其中的100帧有声段。在matlab中实现该功能的步骤(1)高通滤波器:为消除低频干扰需采用高通数字滤波器对语音信号进行滤波,如图3显示了标准语音库中的语音信号经过高通滤波器后时域和频域的变化。图4显示了“语音信号处理”和“为毕业奋斗”在经过高通滤波后的时域波形图图3 标准语音库中的信号经过高通滤波后的时域与频域对比图4 “语音信号处理”和“为毕业奋斗”在经过高通滤波后的时域波形图(2)加窗分帧:本文的系统采用“短时分析技术”对时变语音信号进行处理。根据对语音信号的分析可知,其
9、特性是随时间而变化的,是一个非稳态过程,虽然语音信号具有时变性,但声音是由人的口腔肌肉运动构成声道的某种形状而产生的响应,而肌肉运动频率相对于语音频率来讲相对缓慢得多,在一个短时间片内,其基本特性保持相对稳定。所以,可将其看作是一个准稳态过程。将语音信号分成连续的小段进行分析,其中每一段称为一帧。常用的窗函数有:矩形窗、汉明窗。对语音信号的时域分析来说,窗函数的形状非常重要,矩形窗的谱平滑性较好,但波形细节丢失,并且矩形窗可能产生泄露现象;而汉明窗可以有效地克服泄露现象,其的应用范围非常广泛。另外窗口的长度N对于能否反映语音信号的幅度变化,将起决定作用。窗长越长,它对信号的平均和平滑作用便越厉
10、害。要想反映快速时变的信息,窗长应该取得短一些。通常认为在8kHz取样频率下,N折衷选择为80300(即830ms持续时间)。分帧操作通常有两种方式:连续分帧,交叠分帧,后者分帧中的交叠部分称为帧移。由于语音是连续的信号,交叠式分帧可以保证各个语音帧之间平滑过渡,所以本文采用汉明窗交叠分帧的方案。交叠式分帧的示意图如图5所示。图5 交叠式分帧的示意图Matlab中的汉明窗交叠分帧的语句为:enframe(y,256,80) 其中y为输入语音信号,窗长长取25.6ms,帧移取8ms。图4显示了语音信号加窗分帧之后的效果。 图6 语音“语音信号处理”和“为毕业奋斗”在加窗分帧后的效果图(3)端点检
11、测:从采样得到的数字信号中判断出语音段和非语音段(静音段)。具体可以描述为从众多采样点中找到语音段的起始点和终止点,为语音信号的特征提取工作锁定有价值的目标数据。端点检测过程使用较多的方法有:基于双门限方法、基于倒谱特征方法、基于信息嫡方法、基于能频值方法等。对于语音段和静音段的区分,较为常用的是过零率和短时能量相结合的方法,该方法的优点是复杂度较低,适用于本识别系统。图7显示了语音信号进行端点检测后的效果图。 图7 语音“语音信号处理”和“为毕业奋斗”在进行端点检测后的效果图如此我们可将静音段全部去掉只保留有声段语音信号,有效减少了系统运算量,降低了系统的时间开销,提高了系统效率。3、讨论语
12、音信号特征参数的选取问题。在己有的说话人识别系统中,应用最为广泛的识别特征为:根据声道模型所提出的线性预测倒谱系数LPCC、根据临界带所提出的Mel频域倒谱系数MFCC等。但在实际应用中,LPCC对辅音的描述能力差强人意,而且抗噪性能较差,因此本文采取另外一种特征参数MFCC,它比LPCC参数具有更高的抗噪性能且不需要假设语音信号为自回归信号适用的范围更广。美尔倒谱参数(Mel frequency cepstrum coefficient,MFCC)是基于人耳的听觉特性,把时域频谱转换成基于Mel频标的非线性频谱,最后转换到倒谱域上。在没有任何假设前提的情况下充分考虑了人的听觉特性,所以MFC
13、C参数具有较好的识别能力和抗噪特性,但需要大量的的计算量和比较高的计算精度。MFCC不同于LPCC。语音识别中MFCC参数的性能明显得优于了LPCC参数。MFCC参数是通过Mel频标上等带宽的滤波器组方法计算得到的。大约1000Hz以上的声音频率范围内,人类的感知在对数频率坐标上遵循近似线性关系,在时域内不遵循线性关系。4、提取预处理后的语音信号中的特征参数。MFCC参数的计算过程如图7所示。图8 MFCC计算过程图解具体过程如下:经过预处理后,语音信号变成了短时平稳信号,用N=256点的FFT变换将每一帧的时域信号X (n) 转化成频域信号X(w),并计算各帧的短时能量谱 X(w)2 。由于
14、X (w) 对应的fHz,为了提取MFCC需将fHz转化到fmel频率上来,本文中普通频率转换成美尔频率的转化公式: 在美尔频域(fmel)内将三角带通滤波器组加于美尔坐标,得到了滤波器组的系统函数,第m个滤波器的系统函数表示为Hm(w),本文中美尔滤波器组包含滤波器24个。如图8所示两种美尔频率下的滤波器组的频带排列方式。然后计算美尔坐标上的能量谱X (w)2经过此滤波器取对数后的输出,即:第m个滤波器的输出: 其中表示一个语音样本经过分帧以后所有帧经过第m个滤波器后的输出,因为本文采用24个美尔滤波器,所以m最大值M=24。最后美尔倒谱c(k)可用DCT变换求得,公式为:其中K代表MFCC
15、的阶数,K通常取1224之间的数值,而且一般舍弃第0(k=0)阶倒谱系数因为它反映的是频谱能量。根据文献3133的工作本文选取c(5)c(16)总共12阶的倒谱参数,即k=5, 6, 7, ,16。图9显示了语音样本“语音信号处理”的前20帧的c(5)c(16)12阶的倒谱参数(1s的语音信号分为97帧)。图9 语音样本“语音信号处理”的前20帧的c(5)c(16)12阶的倒谱参数然后将12阶的倒谱参数进行加权合并成1阶,这样每一帧的语音信号对应一个加权的MFCC参数,1s语音信号对应97个MFCC特征参数。图10显示了语音“语音信号处理”和“为毕业奋斗”的MFCC参数图。 图10语音“语音信
16、号处理”和“为毕业奋斗”的MFCC参数图。5、分析现今常用模版训练(在说话人识别系统中此步骤叫做说话人码本的训练)方法,选取适合本课题的说话人码本训练方法。目前针对各种特征而提出的说话人识别方法主要有以下几类:(1)动态时间规整方法:说话人信息不仅有稳定因素(发声器官的结构和发声习惯),而且有时变因素(语速、语调、重音和韵律)。DTW 将识别模板与参考模板进行时间对比,按照某种距离测度得出两模板间的相似程度。(2)矢量量化方法:把每个人的特定文本训练成码本,识别时将此码本对测试文本进行量化,以量化产生的失真度作为判决标准。利用矢量量化的说话人识别方法的判断速度快,而且识别精度也不低。(3)马尔
17、可夫模型方法:它是一种基于转移概率和输出概率的随机模型,它把语音看成由可观察到的符号序列组成的随机过程,符号序列则是发声系统状态序列的输出。在使用隐马尔可夫模型识别时,为每个说话人建立发声模型,通过训练得到状态转移概率矩阵和符号输出概率矩阵。识别时计算未知语音在状态转移过程中的最大概率,根据最大概率对应的模型进行判决。对于与文本无关的说话人识别一般采用各态历经型 HMM;对于与文本有关的说话人识别一般采用从左到右型 HMM。(4)人工神经网络方法:它在某种程度上模拟了生物的感知特性,是一种分布式并行处理结构的网络模型,具有自组织和自学习能力、很强的复杂分类边界区分能力以及对不完全信息的鲁棒性,
18、其性能近似理想的分类器。但神经网络方法在说话人数目很大时常会出现训练时间长或无法收敛等问题。(5)支持向量机法:它是在统计学习理论的基础上发展起来的一种新的机器学习方法。统计学习理论建立在一套坚实的理论基础之上,它为解决有限样本学习问题提供了一个统一框架,并将很多现有方法纳入其中,有望帮助解决许多原来难以解决的问题(比如神经网络结构选择、局部极小点和过学习等问题)。SVM已初步表现出很多优于已有方法的性能,在解决有限样本、非线性及高维模式识别问题中表现出许多特有的性能。而且SVM在说话人识别中也获得了比较广泛的应用,效果较好。SVM试图用最优分类器划分样本空间,使得不同子类空间中的样本到分类器
19、的距离达到最大,而对于在当前特征空间中线性不可分的模式,SVM使用核函数把样本映射到高维空间中,使得样本能够线性可分。但该方法仅限于小样本的分析,而且核函数的选择至今也没有完善的理论可依。基于此,本文选取快速简单的矢量量化法,并对其进行相应的优化已达到满意的识别效果。矢量量化方法中,模糊C-均值聚类算法常用来训练说话人的码本。下面介绍模糊C-均值聚类的具体理论5.1模糊C-均值聚类1973年,Bezdek提出了模糊C-均值聚类算法。FCM把N个数据矢量分成M个模糊组,并求出每组的聚类中心,与普通硬聚类算法相比,FCM利用隶属度函数确定每个矢量属于各个分组的程度,如此更能描述数据的中介属性,客观
20、的反映了现实。定义FCM的目标函数为:其中X =X1,X2 , XN Ì RS为待分类的数据矢量组,Xi为其中的第i个矢量。Y = Y1,Y2,YM 为聚类中心集,Yk表示第k个聚类中心Y。U = u1,u2,uM 为FCM隶属度函数集,blur = 1,为模糊度,uk( Xi ) 为数据矢量Xi对第k个聚类中心Yk的隶属度函数,满足0 uk( Xi ) 1 ( uk( Xi ) = 1, k = 1,2 , M ),d ( Xi , Yk )2为 Xi 和 Yk 之间距离的平方。实际上,聚类就是通过隶属度函数uk和聚类中心 Yk 的不断更新,寻找目标函数最小值的过程。 寻找目标函数
21、JFCM的最小值时,uk和Yk的迭代公式为:存在的问题(1)但FCM聚类算法存在着对初始值敏感,收敛结果易陷入局部极小值的问题,严重影响了聚类效果,阻碍了识别系统性能的提升。(2)码本训练过程中如何降低或者消除噪声的影响。(3)如何选取最优的系统评价指标。三、论文的主要创新点(1)研究加权美尔倒谱参数在说话人识别系统中的运用。(2)研究了一种粗聚类与FCM聚类相结合的说话人识别方法。该方法利用基于欧式距离的粗聚类算法对说话人的特征矢量集进行聚类,参考粗聚类输出的结果设定FCM聚类算法的聚类数目和初始聚类中心坐标,然后再利用FCM聚类算法聚类原特征矢量集形成说话人的码本,以此来克服传统模糊C-均
22、值(fuzzy c-means,FCM)聚类算法对初始值敏感、收敛结果易陷入局部极小的问题。四、论文的后期工作安排:(包括:内容、时间及工作量估计)(1)79月,研究改进模糊c-均值聚类的方法,并完成说话人识别系统的设计。(2)910月,进行说话人识别实验记录相关数据,完成大论文的主要工作。(3)1012月,完成大论文的撰写和修改工作,准备毕业答辩。五、参考文献1 Nakhat Fatima, Thomas, Fang ZhengShort Utterance Speaker RecognitionCInternational Conference on Systems and Informa
23、tics (ICSAI), 2012, Page(s): 174617502 Xing YuJuan, Li Hengjie, Tan PinHierarchical Fuzzy Speaker Identification Based On FCM and FSVMCInternational Conference on Fuzzy Systems and Knowledge Discovery, 2012, Page(s): 3113153 Fuheng Qu, Yating Hu, Yong Yang, etcA Convergence Theorem for Improved Kern
24、el Based Fuzzy C-Means Clustering AlgorithmCInternational Workshop on Intelligent Systems and Applications (ISA), 2011, Page(s): 144 Lin Zhu, Fu-Lai Chung, Shitong WangGeneralized Fuzzy C-Means Clustering Algorithmwith Improved Fuzzy PartitionsJIEEE TRANSACTIONS ON SYSTEMS, MAN, AND CYBERNETICS, 200
25、9, 39(3): 578591 5 Hui-Zhe Zhang,Hong Chen,Li-Xia BaoAn Improved Fuzzy C-Means Clustering Algorithm and Its Application in Traffic Condition RecognitionCInternational Conference on Fuzzy Systems and Knowledge Discovery (FSKD), 2010, Page(s): 16081612 6 Jun Li, Zhiyu YuAn Improved Adaptive Support Ve
26、ctor Machine Algorithm with Combinational fuzzy C-means ClusteringCInternational Conference on Advanced Computer Control (ICACC), 2010, Page(s): 269272 7 Qing Yang, Dongxu Zhang, Feng TianAn Initialization Method for Fuzzy C-means Algorithm Using Subtractive ClusteringCInternational Conference on In
27、telligent Networks and Intelligent Systems (ICINIS), 2010, Page(s): 3933968 N Hema Rajini*, R BhavaniEnhancing K-means and Kernelized Fuzzy C-means Clustering with Cluster Center Initialization in Segmenting MRI Brain ImagesCInternational Conference on Electronics Computer Technology (ICECT), 2011,
28、Page(s): 259263 9 Shanhong Zheng, Chunguang Zhou, Guixia Liu, etcA Novel Two-stage Algorithm of Fuzzy C-Means ClusteringInternational Conference onComputer, Mechatronics, Control and Electronic Engineering (CMCE), 2010, Page(s): 858810 Bezdek J CA Convergence Theorem for the Fuzzy ISODATA Clustering
29、 AlgorithmsJIEEE Transactions on Pattern Analysis and Machins Intelligence, 1980, 2(1): 1811 Shanmugapriya B, Punithavalli MA New Kernelized Fuzzy Possibilistic C-means for High Dimensional Data Clustering Based on Kernel-induced Distance MeasureCInternational Comference on Computer Communication an
30、d Informations (ICCCI), 2013, Page(s): 1512 Feng Zhao, Licheng JiaoSpatial Improved Fuzzy C-Means clustering for image segmentationCInternational Conference on Electronic & Mechanical Engineering and Information Technology, 2011, Page(s): 4791479413 Yang Hongwu, Liu Yali, Huang DezhiSpeaker Reco
31、gnition Based on Weighted Mel-cepstrumCInternational Conference on Computer Sciences and Convergence Information Technology, 2009, Page(s): 20020314 Zufeng Weng, Lin Li, Donghui GuoSpeaker Recognition Using Weighted Dynamic MFCC Based on GMMCInternational Conference on Anti-Counterfeiting Security a
32、nd Identification in Communication (ASID), 2010, Page(s): 285288 15 赵力语音信号处理M北京:机械工程出版社,200316 V.Vapnik著,张学工译统计学习理论的本质M北京:清华大学出版社,200017 郑君里,杨为理等信号与系统M北京:高等教育出版社,200818 朱华,黄辉宁,李永庆等随机信号分析M北京:北京理工大学出版社,201119 Perona P, Malik JScale-space and edge detection using anisotropic diffusionJIEEE Trans on Pat
33、tern Analysis Machine Intelligence, 2009, 12(7):62963920 Jie Wang, Jing Bai, Xueying ZhangA Parameters Optimization Method of v-Support Vector Machine and Its Application in Speech RecognitionJJournal of Computers, 2010, 3(2): 4791479421 C.J.C BurgesA tutorial on support vector machines for pattern
34、recognition JData Mining and Knowledge Discovery1998,2(2):12116722 Yingying Li, Bo Li, Chengyou WangA new algorithm using improved vector taylor series for robust speech recognitionCIEEE RISSP, Changsha, China, 2003, Page(s): 4791479423 李忠伟支持向量机学习算法研究D哈尔滨:哈尔滨工程大学,200624 范昕炜支持向量机算法的研究及其应用D杭州:浙江大学,200
35、325 王作英,肖熙基于段长分布的 HMM 语音识别模型J电子学报,2004,32(1):46-4926 J. H. Martin, Daniel JurafskySpeech and Language Processing:An Introduction to Natural Language ProcessingCComputational Linguistics and Speech RecognitionPrentice Hall200327 Rabiner L R,Wilpon J G, Soon gF K High performance connected digit recognition using hidden markov modelsJIEEE Trans on ASSP, 2000, 37(8): 1214-122528 Novak M, Hampl R, Krbec
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2023年消防设施操作员之消防设备高级技能能力提升试卷B卷附答案
- 2024年企业安全培训课件创新趋势分析
- 2024年教育课件:20加减法的教学艺术
- 2021-2022学年八年级上学期期中考试语文试题含答案
- 2024年英美概况教案:利用数字技术提升教学效果
- 2024年教案编写:互联网技术如何重塑教育
- 2018五年级综合实践活动方案
- 6网格体系结构-五层沙漏模型
- 2024-2025学年高中历史第六单元世界资本主义经济政策的调整第19课战后资本主义的新变化课时作业含解析新人教版必修2
- 山东专用2024年高考生物二轮复习第一篇专题8考向2其他植物激素学案
- 注塑车间规划方案
- 营养不良五阶梯治疗
- 标本运送培训课件
- 护士与医生的合作与沟通
- GB 42295-2022电动自行车电气安全要求
- 产品系统设计开发 课件 第4、5章 产品系统设计类型、产品系统设计开发综合案例
- 1编译原理及实现课后题及答案
- 焊接材料的质量控制和追溯规范
- 让阅读成为习惯家长会课件
- 家庭健康照护服务方案
- 施工方案 谁编
评论
0/150
提交评论