版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、摘要说话人识别技术是一种的重要生物认证手段,也是身份鉴别学术会议中的一项重要容。说话人识别的目的是通过话语找出或核实说话人的身份,可以被用于访问控制。它属于语音信号领域的一个模式识别问题。本文使用交叠分帧的方法短时化语音信号,使用每帧信号的能频值区分语音信号和噪声信号。特征提取方面,本文使用线性预测倒谱系数和基音频率来表征生成语音的发音器官的差异(先天的),用差分线性预测倒谱系数和差分基音频率表征发音器官发音时动作的差异(后天的)。四种特征加权扩维得到的组合特征矢量最终表征了一个特定的说话人。分类决策方面,本文使用矢量量化的方法完成对说话人语音信号的分类和判决。本文设计的系统是基于Java语言
2、和SQL Server 2000数据库实现的。Java语言用于实现语音样本采集、预处理、特征提取、分类决策等说话人识别所需的各种算法。SQL Server 2000数据库用于存储已注册说话人的语音码本。关键词:说话人识别;基音;线性预测;矢量量化本文在实现系统的基础上,分析了组合特征中各分量对说话人识别的贡献大小。得到的结论是:用于说话人识别的参数中,线性预测倒谱系数效果最好,差分线性预测倒谱系数次之,基音频率再次之,差分基音频率效果最差。根据这一结论,系统通过调整组合特征中各分量加权系数的方式突出贡献大的分量。实验表明,调整后系统识别率显著提高。对于10名男性语音的码本库,本文实现系统的识别
3、率可达到87%。69 / 72The research of the text-independent speaker recognition systemAbstractSpeaker recognition technology is one of the important biometric ways, as well as an important part in academic conferences of identification.The purpose of speaker recognition is identifying or verifying the speak
4、er's identity through the discourse, which can be used to control access. It is a pattern recognition problem on speech signals.This paper uses the way of overlapping sub-frame to short the voice signal, and uses the Energy Frequency Value of each frame to separate the voice signal from the nois
5、e signal.In the respect of feature extraction, this paper uses LPCC andpitch frequency to characterize pronunciation organs generated voice sounds (congenital), and uses differential LPCCand differential pitch frequency characterize the difference of pronunciation organ moves to pronounce(acquired).
6、Ultimately,a componentfeature vector,which is obtained by weighted and united that four features, characterize a particular speaker.In the respect of classification and decision, we use method of vector quantization to complete the classification and sentencing for speakers' speech signal.The sy
7、stem that is designed by this paper is achieved based on the Java language and SQL Server 2000 database.Java language is used to implement algorithms needed by speaker recognition, such as voice sampling, preprocessing, feature extraction, classification and decision and so on.SQL Server 2000 databa
8、se is used to store registered speakers' voice codebooks.Key Words:speaker recognition; pitch; linear prediction; vector quantificationBased on the system achieved, this paper analyzed contribution to the identification for each composition of the component features.The conclusion is:for speaker
9、 identification parameters, LPCC is the best,differential LPCC is the second best, the pitch frequency is the third best and differential pitch frequency is the worst.Based on this conclusion, the system gives prominence to the composition, which has more contribution to the identification, by adjus
10、ting weighted coefficient. After adjustment, experiments show that system identification rate improved significantly. The recognition rate of the system completed by this paper can reach 87% to the codebook database produced by 10 male voices.目录摘要1Abstract1引言41 绪论51.1 本文利用到的声学知识51.2 说话人识别的分类61.2.1 说
11、话人确认和说话人辨认61.2.2 文本有关、文本无关和文本提示71.3 本文系统实现概述72 语音信号预处理92.1 语音信号分帧92.2 语音信号端点检测102.3 本章小结133 说话人识别的特征提取143.1 特征参数的选取143.2 基音特征153.2.1 自相关函数153.2.2 基音检测163.3 线性预测倒谱系数183.3.1 线性预测分析183.3.2 LPCC求解203.4 差分特征223.5 特征的组合223.6 本章小结234 说话人识别的分类决策244.1 矢量量化244.2 最佳码本设计264.2.1 LBG算法274.2.2 初始码本的生成294.3 语音码本的存储
12、和提取294.3.1 语音码本的存储294.3.2 语音码本的提取304.4 测试语音的判决324.5 本章小结325 说话人识别的系统设计335.1 语音信号采集的设计335.2 语音信号预处理的设计345.3 语音信号特征提取的设计365.4 语音信号分类决策的设计375.5 本章小结396 本文设计系统的总结与分析406.1 系统界面与使用效果406.2 两个关键问题的论述436.2.1 预加重问题436.2.2 线性预测适用性问题446.3 系统性能的分析446.4 本章小结45结论46参考文献48附录A 英文文献50附录B 中文翻译58附录C 部分程序代码65在学取得成果71致72引
13、言说话人识别的目的是通过话语找出或核实说话人的身份。语音是人的自然属性之一,由于说话人发音器官的生理差异以与后天形成的行为差异,每个人的语音都带有强烈的个人色彩,这使得通过分析语音信号来识别说话人成为可能。对说话人识别的研究始于20世纪30年代。早期的工作主要集中在人耳听辨实验和探讨听音识别的可能性方面。随着研究手段和工具的改进,研究工作逐渐脱离了单纯的人耳听辨。Bell实验室的L.G.Kesta用目视观察语谱图的方法进行识别,提出了“声纹”(voiceprint)的概念。之后,随着电子技术和计算机技术的发展,使通过机器自动识别人的声音成为可能。Bell实验室的S.Pruzansky提出了基于
14、模式匹配和概率统计方差分析的说话人识别方法,从而引起信号处理领域许多学者的注意,形成了说话人识别研究的一个高潮。其间的工作主要集中在各种识别参数的提取、选择和实验上,并将倒谱和线性预测分析等方法应用于说话人识别。70年代末至今,声纹识别的研究重点转向对各种声学参数的线性或非线性处理以与新的模式匹配方法上,如动态时间规整、矢量量化、主成分分析、隐马尔可夫模型、神经网络和多特征组合等技术1。说话人识别是模式识别中的一大类问题,它综合运用了电子信息工程专业的多种知识和技能,是本专业非常重要、实用的一个研究方向。从所选课题与本专业具体项目结合的角度来看,说话人识别技术可以非常便利的使用到电子信息工程专
15、业常见的一些实际应用中。例如,在科技大学电子信息工程专业王志良教授领导开发的迎宾机器人项目中加入说话人识别技术,当用户第一次向机器人咨询时进行采样、训练,并询问用户、存储和语音特征,若该用户再次和机器人对话,系统便可自动识别出用户身份,叫出用户,从而提高迎宾机器人的人工智能水平,服务对话也可以设置得更加灵活、人性化。说话人识别技术有着广阔的应用领域和发展前景。本论文着眼于与文本无关说话人辨认系统的实现,具体的研究方法是使用Java语言实现语音样本采集、预处理、特征提取、分类决策等说话人识别所需的各种算法,使用SQL Server 2000数据库存储注册说话人的语音码本,从而最终实现说话人识别系
16、统并对该系统做出相应的分析。1 绪论说话人识别(Speaker Recognition,SR)技术是根据语音信号中反映说话人生理状况和行为特征的语音参数来自动识别人身份的一种技术。电子信息工程是一门应用计算机等现代化技术进行电子信息控制和信息处理的学科,主要研究信息的获取与处理,电子设备与信息系统的设计、开发、应用和集成。从信息的流程来看,电子信息工程专业的知识面应覆盖信息的获取、识别、传输、存储、管理、处理、使用等技术2。说话人识别技术涉与到从信息的获取、识别到信息的处理、使用整个信息流程的各个环节,是电子信息工程专业各种知识和技能综合应用的体现。说话人识别是一个语音信号的模式识别问题,目的
17、是通过话语找出或核实说话人的身份3。因此,首先需要介绍一些本文利用到的声学基础知识。1.1 本文利用到的声学知识人的语音基本上由两类构成。一类是浊音(voice):当气流通过声门时,如果声带的力刚好使声带发生弛式振荡,产生一股准周期的气流,这一气流激励声道就产生浊音,如汉语中的韵母a、i、u。另一类是清音(unvoice):当气流通过声门时,如果声带不振动,而在某处收缩,迫使气流以高速通过这一收缩部分而产生湍流,就得到清音,如汉语中的声母s、b、f、sh。其中,浊音的语音信号具有较强的周期性,且不同的浊音波形是不同的。浊音的这种周期叫基音周期,其倒数叫做基音频率,它主要和声带的特性有关。一般来
18、说,成年男性语音的基音频率在60Hz200Hz,而成年女性和儿童语音的基音频率在200Hz450Hz。清音的语音信号具有随机噪声的特点,一般来说清音的幅度小于浊音的幅度4。但是,由于加性噪声的存在,清音比噪音穿越零值的次数要多得多。由于人在说话中,清音与浊音交替出现,并且每种音通常只延续很短的一段时间,因此,从波形上语音信号表现出很强的“时变特性”。语音信号特征只在较短的时间间隔中保持基本不变。因此,语音信号分析通常是在一些短时特征的基础上进行的。人的声道和鼻道都可以看作是非均匀截面的声道管,声道管的谐振频率称为共振峰频率,简称共振峰。共振峰与发音器官的确切位置有很大的关系,即共振峰频率与声道
19、的形状和大小有关。共振峰是语音信号的一种特征,但同时它对基音频率的分析构成了干扰5。1.2 说话人识别的分类按照系统最终的识别任务,说话人识别可分为说话人确认(SpeakerVerification)和说话人辨认(SpeakerIdentification)两类。按照识别对象的不同,说话人识别可分为与文本有关(text-dependent)、与文本无关(text-independent)和文本提示型(text-prompted)三类。1.2.1说话人确认和说话人辨认说话人确认是根据待测说话人的语音,确定是否与所声称的参考说话人相符,这种确认只有两种情况,即得到确认或拒绝承认。在这种应用中,通常
20、要求使用人提供个人或编号,系统验证说话人与声言人是否为同一人。这时系统把说话人信号特征与计算机中预留下的声言为某人的特征相比较从而做出判别,是接受还是拒绝。说话人确认是“一对一”的判别问题。说话人辨认是把待测的说话人的语音判定为属于多个参考说话人之中的某一个,是“多对一”的问题。在这种应用中,通常不要求使用人提供个人或个人编号,系统把说话人的信号特征与计算机中预留下的众多人员的特征相比较,从而确定是谁的说话。说话人辨认又可分为“开集(open-set)”和“闭集(close-set)”两种。开集假定待识别者可以在集合外,而闭集假定待识别说话人一定在集合。说话人确认和说话人辨认概念如图1.1所示
21、6。谁的讲话?A1 X A2 A3 An 未知语音 记录讲话者 说话人辨认记录讲话者 是A的讲话?X A 未知语音 说话人确认图1.1 说话人辨认与说话人确认1.2.2文本有关、文本无关和文本提示与文本有关的识别系统要求用户在训练和识别时按照规定的容发音,并根据特定的发音容建立精确的模型,从而达到较好的识别效果,但系统需要用户配合,如果用户的发音与规定的容不符合,则无确识别该用户。现有的大部分已商业化的系统都是文本相关的7。与文本无关的识别系统则不论在训练时还是在识别时都不规定说话容,即其识别对象是自由的语音信号。文本提示型的识别系统在每一次识别时,识别系统在一个规模很大的文本集合中随机选择提
22、示文本,要求说话人按提示文本的容发音,而识别和判决是在说话人对文本容正确发音的基础上进行的。文本提示增加了登记和确认的时间,但是它提高了针对磁带录音的安全性。由于重述的条目不能被预测到,播放录音是非常困难的7。1.3 本文系统实现概述按照1.1节中提到的分类方法,本论文实现的系统属于与文本无关的闭集说话人辨认系统。本系统使用Java语言结合SQL Server 2000数据库实现,具体的实现框图如图1.2所示。识别 训练 识别结果 测试矢量集 码本矢量集 测试语音 训练语音 特征提取 特征提取 语音码本生成 预处理 模式匹配 图1.2 说话人识别系统框图预处理过程包含分帧和端点检测两个部分。由
23、于语音信号只在短时间具有平稳性,因此要将信号作分帧处理。分帧后,语音信号被分割成一帧一帧的短时信号。本文使用交叠分帧的方法,即前后相邻的两帧有重叠的部分,这样可以使帧与帧之间平滑过渡,保持其连续性。端点检测是为了减少噪声的影响。噪声也即无声段。短时能量可以区分浊音和噪音。短时过零率可以区分清音和噪音。因此,本文使用二者的乘积能频值,来实现语音端点检测,以去除无声段。特征提取时,本文选用线性预测倒谱系数(Linear Predictive Cepstral Coefficients ,LPCC)、差分线性预测倒谱系数、基音频率以与差分基音频率四种特征的特征组合来表征说话人的特征。其中,线性预测倒
24、谱系数和基音频率反映的是生成语音的发音器官的差异,差分线性预测倒谱系数和差分基音频率反映的则是发音器官发音时动作的差异。组合的方式是加权扩维,其中加权系数是根据最终系统的输出结果反馈选取的。码本生成和模式匹配也就是一般模式识别中的分类决策,本文选用矢量量化的方法实现。码本生成部分是对组合特征矢量集进行聚类,生成使矢量集中所有特征矢量的总失真最小的最优码本。这样做的原因有两个:一是由各帧特征矢量组成的矢量集数据量过大,不便于直接用于后续身份判决运算;二是一段语音各帧之间的相关性很大,即代表性不强,直接用为码本来表征说话人会导致失真过大。模式匹配部分的任务是得到码本集后,用它与再次输入的组合特征矢
25、量集求取平均量化失真,取其中最小的码本对应的注册用户即为当前说话人。2 语音信号预处理在语音信号特征提取之前,为了突出信号的有效部分以与便于之后的数据操作,首先要进行的一个环节就是对输入语音信号的预处理。预处理主要包括对输入计算机的语音数据进行分帧和端点检测两个过程。2.1 语音信号分帧语音信号是一种准平稳信号。但是,由于语音的形成过程与发声器官的运动密切相关,这种物理运动比起声波振动速度来讲要缓慢得多,因此语音信号常常可以假定为短时平稳的,即可以假定在1030ms的时间段,其频谱特性和某些物理特征参量可近似地看作是不变的。任何语音信号数字处理算法和技术都建立在这种“短时平稳”特性的基础上。因
26、此,一般分帧时,帧长应选取在1030ms之间。每个短时语音段称为一个分析帧,分析帧可以是连续的,也可以采用交叠分帧的方法。交叠分帧可以平滑信号,以减少在信号两端处的预测误差,避免频谱出现“破碎”现象。交叠分帧时,前一帧和后一帧的交叠部分称为帧移。帧移与帧长的比值一般取01/2,图2.1给出了帧移和帧长的关系1。本系统中,综合考虑到语音信号的短时平稳性以与之后的基音检测的准确性,最终选取帧长为30ms(在系统采样率为8KHz的前提下,相应于每帧有240个信号样值),帧移15ms。第k帧第(k+1)帧 第(k+2)帧 帧移 帧长 图2.1 帧长和帧移的示例分帧是用可移动的有限长度窗口进行加权的方法
27、来实现的,也就是用一定的窗函数来乘原信号,从而形成加窗语音信号。在语音信号数字处理中常用的窗函数是矩形窗和汉明窗等,它们的表达式为(其中N为帧长):矩形窗(2-1)汉明窗 (2-2)矩形窗的主瓣宽度比汉明窗小一倍,即带宽约缩小了一倍,所以它具有较高的频谱分辨率。同时汉明窗的带外衰减比矩形窗大一倍多,具有更平滑的低通特性,能够在较高程度上反映短时信号的频谱特性。因此,在语音频谱分析时常使用汉明窗来获得分段语音,而在计算短时能量和平均幅度时通常使用矩形窗。本系统考虑到之后语音端点检测的准确性,选用简单实用的矩形窗完成分帧。经过以上的处理过程后,语音信号就已经被分割成一帧一帧的加过窗函数的短时信号,
28、然后再把每一个短时语音帧看成平稳的随机信号,利用语音信号处理技术来做进一步的处理。2.2 语音信号端点检测在对语音信号进行特征提取之前,为了提高数据的有效性同时减少计算量,需要首先进行语音端点检测,去除主要的无声段,以便减少噪声的干扰。语音信号一般可分为无声段、清音段和浊音段。无声段是背景噪声段,平均能量最低。浊音段为声带振动发出对应的语音信号段,平均能量最高。清音段为空气在口腔中的摩擦、冲击或爆破而发出的语音信号段,平均能量居于两者之间。采用基于能量的算法来检测浊音通常是可行也是可靠的。但对清音而言,除非信号具有极高的信噪比,例如在隔音室中录制的高保真度录音(对于这种高信噪比录音,最低电平语
29、音的能量超过背景噪声能量几倍到几十倍),否则,采用能量算法从背景噪声中鉴别出清音就不够可靠了。此时,需要用到语音信号的另一重要特征,即过零率:一定时间信号穿越零电平的次数。清音段与无声段的波形特点有明显不同,无声段信号变化比较缓慢,清音段信号由气流摩擦产生,在幅度上的变化比较剧烈,穿越零电平次数较多。经验表明,通常清音段过零率最大,无声段的过零率的变化围较大8。对于一帧信号而言,其能量值和过零次数被称为短时能量和短时过零率9。具体定义如下:短时能量 (2-3)短时过零率 (2-4)其中为短时信号的幅度,N为一帧语音数据中的样本数,为符号函数: (2-5)能量特征适合检测浊音,过零率适合检测清音
30、,为了同时检测两者,一般综合利用两种特征。为此,引入能频值(EFV, Energy Frequency Value)的概念:能频值等于短时能量乘上短时过零率。其定义式即为式2-6。 (2-6)能频值既顾与了清音的高过零率又顾与了浊音的高能量,从而提高了语音信号与背景噪声的分辨力。同时,考虑到实际应用时周围环境的变换以与讲话者的语音强弱等影响都使阈值的选取无法普遍适用,为此,我们进一步引入相对阈值的概念,它区别于传统意义上的门限阈值,而是度量两个时刻的语音采样的比值关系,具体来说是当前采样点与分析顺序上第一个极大值点的比值。该相对阈值即能反映出当前采样点能频值的大小,又能类似归一化方法地屏蔽掉环
31、境影响,因此具有较好的效果。系统实现时,具体流程如图2.2所示。图2.2 端点检测流程图图2.2中R就是设定的相对阈值,本系统在输出所有r后,根据r的取值分布和最终检测效果选定R的值为30。语音终止点的判定与此类似,只是判定时从时刻t向前搜索。2.3 本章小结语音信号只具有短时稳定性,也即语音信号的分析只对于短时间的语音信号有效。故此,要对语音信号进行分析,首先需要将该语音信号分成一帧一帧具有稳定性质的短时信号。为了保证前后帧性质的连续性,分帧时,本文采用交叠分帧的方法。帧移等于帧长的一半,即前一帧和后一帧之间有一半的点是重叠的。分帧后的信号仍包含大量的噪声段(无声段)信号。要提高系统的精度,
32、这些噪声段必须被去除掉,因此,要进行语音端点检测的工作。考虑到语音中浊音段具有较高的能量,清音段具有较高的过零率,本文采用二者的乘积作为区分噪音段和语音段的标准。经过本章的处理后,语音信号可以被用于下一步特征提取的过程了。3 说话人识别的特征提取经过预处理后,几秒钟的语音就会产生很大的数据量。提取说话人特征的过程,实际上就是去除原来语音中的冗余信息,减小数据量的过程。3.1 特征参数的选取人和计算机能够根据语音信号将说话人识别出来,是因为语音信号中包含了与说话人有关的信息。首先,语音信号中包含了与说话人有关的一些高级信息(High-level Information)。如方言、遣词用句的特点、
33、说话的习惯风格等。这些高级信息是人类区分不同说话人的主要依据,也是说话人识别系统最理想的特征参数。除了上述高级信息外,还有一些低级信息(Low-level Information)。不同人的发声器官的生理结构有所差别,在不同的环境中成长的人即使发同一个音时发声器官的动作也不尽一样。这种能够表征说话人的信息,是通过共振峰频率与带宽、平均基频、频谱基本形状等这些物理可测量的参数特征表现出来的。实用的表征说话人特点的基本特征应具有以下特点1:(1) 能够有效地区分不同的说话人,但又能在同一说话人的语音发生变化时相对保持稳定。(2) 较好的鲁棒性。(3) 易于从语音信号中提取。(4) 不易被模仿。(5
34、) 尽量不随时间和空间变化。发音是一个很复杂的过程,不可能找到能完全覆盖每个说话人所有特征的理想的单一的特征参量。而各种特征向量是基于不同模型来建立的,所以,选取几种相关性不大的特征量组合使用,就能从不同的角度体现说话人特征,达到比较大的特征覆盖围,从而提高识别率。选取语音特征参数时,一般考虑两个方面的问题:生成语音的发音器官的差异(先天的)与发音器官发音时动作的差异(后天的)。前者主要表现在语音的频率结构上,主要包含反映声道共振特性的频谱包络特征信息,以与反映声带振动等声源特性的频谱细节构造特征信息,代表性的特征参数有倒谱和基音参数。后者主要表现在语音频谱结构的时间变化上,包含特征参数的动态
35、特性,代表性的特征参数是差分倒谱和差分基音参数9。综合考虑以上各种因素,本系统最终选用线性预测倒谱系数(LPCC)、差分线性预测倒谱系数、基音频率以与差分基音频率四种特征的特征组合来表征说话人的特征。3.2 基音特征在语音产生的数字模型中,基音周期是激励源的一个重要参数10。基音是指发浊音时声带振动的周期性,这种周期称作基音周期,它的倒数称作基音频率。由于基音周期只具有准周期性,所以只能采用短时平均方法估计该周期,这个过程也常称为基音检测(pitch detection)。基音频率是语音信号最重要的参数之一,提取该参数是语音信号处理中一个十分重要的问题,尤其是对汉语更是如此。因为汉语是一种音调
36、语言11,其声调变化比较复杂(汉语有四种声调,英语只有升、降两种声调)的语言,基音的变化模式即为声调。要从语音信号中去除声道的影响,直接取出仅与声带振动有关的声源信息并非易事。声道共振峰有时会严重影响激励信号的谐波结构。3.2.1 自相关函数基音检测只是针对浊音信号而言的,因为清音不具有准周期性。浊音信号的自相关函数会在基音周期的整数倍位置上出现峰值,因此检测自相关函数是否有峰值就可以判断是清音还是浊音,而峰峰之间对应的就是基音周期。语音信号经窗长为N的窗口截取为一段加窗语音信号后,定义的自相关函数(ACF)(亦即语音信号的短时自相关函数)为: (3-1)具有以下几点重要性质:与原函数具有一样
37、的周期性;偶函数且不为零的围是;存在最大值且对确定信号等于信号能量,对随机信号或周期信号等于平均功率。3.2.2 基音检测影响从自相关函数中正确提取基音周期的最主要原因是声道响应部分。当基音的周期性和共振峰的周期性混在一起时,被检测出来的峰值可能会偏离原来峰值的真实位置。另外,在某些浊音中,第一共振峰频率可能会等于或低于基音频率。此时,如果其幅度很高,它就可能在自相关函数中产生一个峰值,而该峰值又可以同基音频率的峰值相比拟。为了提高自相关方法检测基音频率的准确性,需要进行一些前期的预处理。语音信号的低幅值部分包含大量的共振峰信息,而高幅值部分包含较多的基音信息。因此,任何消减或抑制语音低幅度部
38、分的非线性处理都会使自相关方法的性能得到改善。中心削波9即是一种非线性处理,它消除语音信号的低幅值部分,其削波特性如图3.1(a)所示,数学表达形式为: (3-2)式中,削波电平L由语音信号的峰值幅度来确定,它等于语音段最大幅度的一个固定百分数,一般取最大信号幅度的60%70%。这个门限的选择是重要的,一般在不损失基音信息的情况下应尽可能选得高些,以达到较好的效果。经过中心削波后只保留超过削波电平的部分,其结果是削去了许多和声道响应有关的波动。对中心削波后的语音再计算自相关函数,这样在基音周期位置呈现大而尖的峰值,而其余的次要峰值幅度都很小。+1 -1 -L -L +L +L (a) (b)图
39、3.1 中心削波函数与三电平削波函数有时为了减少计算量,可对中心削波函数进行修正,采用三电平中心削波的方法,如图3.1(b),其削波函数为: (3-3)即削波器的输出在时为1,时为-1,除此之外均为零。虽然这一处理会增加刚刚超出削波电平峰的重要性,但大多数次要的峰被滤除掉了,而只保留了明显的周期性峰。此外,考虑到人的基音频率都在60Hz450Hz之间,且语音信号采样率为8KHz,因此,可去除每帧信号的前16个点,这样既可以减少计算量,又可以提高算法的精度。对每一帧进行基音频率估计的步骤如下:(1)对一帧语音信号进行滤波去除开头的16个输出值不用,得到;(2)分别求的前部100个采样点和后部10
40、0个采样点的最大幅度,并取其中较小的一个,乘以因子0.68作为门限电平L;(3)对进行中心削波得到;(4)计算的自相关值,其中k=1124(即去点前,第16140个点)时对应基音频率围57500Hz,对应于短时能量;(5)得到自相关值后,可以得到,中的最大值,如果,则认为本帧为清音,令其基音周期为0;否则基音周期即为使为最大值时位置k的值,基音频率即为基音周期的倒数。3.3 线性预测倒谱系数线性预测(Linear Prediction)分析的基本原理是一个语音的抽样能够用过去若干个语音抽样的线性组合来逼近。通过使实际语音抽样和线性预测抽样之间差值的平方和达到最小值,即进行最小均方误差的逼近,能
41、够决定唯一的一组预测系数。线性预测技术能够极为精确地估计语音参数,用极少的参数有效而又准确地表现语音波形与其频谱的性质,而且可用比较简单的计算和比较快的速度求得参数。在估计基本的语音参数(如基音、共振峰、谱、声道面积函数,以与用低速率传输或存储语音等)方面,线性预测是一种主要的技术。线性预测倒谱系数(LPCC)是一种比较重要的特征参数,它比较彻底地去除了语音产生过程中的激励信息,能较好地描述语音信号的共振峰特性。3.3.1 线性预测分析由于语音样点之间存在相关性,所以可以用过去的样点值来预测现在或未来的样点值,即采样点的输出可以用前面P个样本的线性组合来表示: (3-4)式中为常数。线性预测分
42、析可以和语音信号数字模型联系在一起。实际上语音信号处理中最常用的模型是全极点模型1(如图3.2所示),这是因为如果不考虑鼻音和摩擦音,那么语音的声道传递函数就是一个全极点模型。而且,由式3-5可知,只图3.2 语音信号模型要系统的阶数P足够高,任何系统都可以用全极点模型近似表示。 (3-5)采用全极点模型后,系统的传递函数为: (3-6)其中P是预测器阶数,G是声道滤波器增益。由此,语音抽样和激励信号之间的关系可以用下列的差分方程来表示: (3-7)实际上是一个短时稳定的时变滤波器。它的参数是由发音器官进行控制并随时间变化的,但在几毫秒被认为是稳定不变的。的激励由清浊开关控制,当发音为浊音时,
43、激励源为归一化冲击序列和增益系数G的乘积,冲击序列的周期就是语音的基音周期,而增益系数G控制着声音的音量。当发音为清音时,激励信号为随机噪声和增益系数G的乘积。这里周期和G在一个分析帧部都是稳定的常数,而实际上它们也是随着时间缓慢变化的。定义系统输出的估计为: (3-8)可以得到系统的估计误差: (3-9)以与相应的误差传递函数: (3-10)线性预测误差等于激励与增益的乘积,即: (3-11)线性预测分析要解决的问题是:给定语音序列,使预测误差在某个准则下最小,求预测系数的最佳估值,本文采用最小均方误差准则。某一帧的短时平均预测误差为: (3-12)为使最小,对求偏导,并令其为零,有: (3
44、-13)根据相关函数的定义: (3-14)可以得到 (3-15)该式表示P个方程构成的方程组,未知数为P个。求解该方程组,就可以得到系统的线性预测系数。3.3.2 LPCC求解本文使用杜宾(Durbin)递推算法求解式(3-15),具体迭代过程为: (3-16) (3-17) (3-18) (3-19) (3-20)公式中,上标(i)表示第i次迭代,每次迭代只计算和更新,直到i=p时,结束迭代。倒谱本来应该是信号的z变换的对数模函数的反z变换,一般通过信号的傅里叶变换,取模的对数,再求反傅里叶变换得到。既然线性预测分析法是一种谱估计方法,而且其系统函数的频率响应反映声道的频率响应和被分析信号的
45、谱包络,因此用做反傅里叶变换求出倒谱系数,应该是一种描述语音信号的良好参数。它的主要优点是比较彻底地去掉了语音产生过程中的激励信息,主要反映声道响应,而且往往只需十几个倒谱系数就能较好地描述语音的共振峰特性,因此在语音识别中获得了良好的效果。求出线性预测系数后,可以根据式3-21的递推关系9,求得线性预测倒谱系数。 (3-21)系统实现时,线性预测的阶数是需要确定的一个重要参数。要使模型假定更好地符合语音产生模型,应该使LPC模型的阶数p与共振峰个数相吻合,其次是考虑声门脉冲形状和口唇辐射影响的补偿。通常一对极点对应一个共振峰,l0kHz采样的语音信号通常有5个共振峰,取p=10,对于8kHz
46、采样的语音信号可取p=8。此外为了弥补鼻音中存在的零点以与其他因素引起的偏差,通常在上述阶数的基础上再增加两个极点,即分别是p=12和p=10。有实验表明,LPC分析阶数p应选在8至12之间。选择p=12可以对绝大多数语音信号的声道模型取得足够近似的逼近。p值选得过大虽然可以略微改善逼近效果,但也带来一些负作用。一方面是加大了计算量,另一方面有可能增添一些不必要的细节,比如在用声道模型谱进行共振峰分析时反而使效果变坏12。本文所研究的系统中,线性预测系数的阶数选为12,线性预测倒谱系数的阶数选为16。3.4 差分特征标准的LPCC参数只反映了声道参数的静态特性,而同一个说话人声道参数的变化比不
47、同人声道参数变化的动态特性要细微、敏感,反映说话人声道动态变化的参数就是线性预测差分倒谱。线性预测差分倒谱的定义12是: (3-27)这里的和都表示一帧语音参数,k为常数,通常取2,这时差分参数就称为当前帧的前两帧和后两帧参数的线性组合。由此式计算得到的差分参数为一阶差分参数,用同样的公式对一阶差分参数进行计算,可得到二阶差分LPCC参数。实际使用中,将LPCC和各阶差分参数合并为一个矢量,作为一帧语音信号的参数。类比以上线性预测差分倒谱的概念,可以得到差分基音频率的概念。自此,本系统选用的四种特征参数基音频率、差分基音频率、线性预测倒谱系数、线性预测差分倒谱系数,全部介绍完毕。3.5 特征的
48、组合发音是一个很复杂的过程,不可能找到能完全覆盖每个说话人所有特征的理想的单一的特征参量。而各种特征向量是基于不同模型来建立的,所以,选取几种相关性不大的特征量组合使用,就能从不同的角度体现说话人特征,达到比较大的特征覆盖围,从而提高识别率。特征组合一般有两种方式,一种是将多种特征按照一定的加权比率进行维度扩,构成新的特征。另一种方法则是对各个特征量分别进行判别,最后再对判别结果进行“与”运算13。也就是说,只有各个特征值识别结果都认为是同一个说话人时,系统才能最终确定说话人身份。这种方法性能好、错误接受率低,但是系统的运算量较大、实时性较差,而且拒绝率较高。本系统选用第一种方法,具体工作流程
49、如图3.3所示。加权时,先采用1:1:1:1的系数。完成系统后,根据最终测试结果中各个特征对识别率的贡献大小以与不同特征的数量级的差别,重新调整加权系数为1:1:2000:1000(基音频率:差分基音频率:LPCC:差分LPCC)。结果表明,调整系数后,识别率有明显的提高。组合特征WLPCC-DWPitch-D WLPCC WPitch LPCC-DPitch-D LPCC Pitch 预处理后的语音帧提取LPCC基音检测差分算法加权加权加权加权特征组合图3.3 特征组合步骤3.6 本章小结本文选用线性预测倒谱系数(LPCC)和基音频率来表征生成语音的发音器官的差异(先天的),用差分线性预测倒
50、谱系数和差分基音频率表征发音器官发音时动作的差异(后天的)。四种特征组合的特征矢量来表征说话人的特征。本文基音频率和LPCC的求取都是利用自相关函数完成的。自相关函数与原函数具有一样的周期性,因此可以被用来做基音检测求取基音频率。LPCC的求解过程中需要先求解线性预测系数(LPC)。按照最小均方误差准则,LPC的求解可以转化为一个关于自相关函数的线性方程组的求解。自相关方程的求解本文使用Durbin递推算法实现。求解出四个特征矢量后,对它们进行加权扩维即可得到用于说话人分类决策的组合特征矢量。4 说话人识别的分类决策分类决策就是在样本训练集基础上确定某个判决规则,使按这种判决规则对被识别对象进
51、行分类所造成的错误识别率最小或引起的损失最小。基于矢量量化(Vector Quantization,VQ)的方法是一种比较有效、实用的说话人识别分类决策方法。4.1 矢量量化矢量量化(VQ)是一种非常高效的,并且极其重要的编码技术,自 70 年代末才发展起来的。矢量量化在语音信号处理中占有十分重要的地位,许多重要的研究课题中,特别是低速语音编码、语音识别和说话认识别的研究中,矢量量化都起着非常重要的作用。在通信中,为了提高信源的编码效率,会针对某个特定的信源,优化出一个编码方式(比如矢量量化编码)。那么由这个特定的信源产生的信号,采用这个编码方式进行编码的时候,信号值和量化值之间的平均失真,比
52、其它信源的信号采用这种编码方式的平均失真要小。可见,这个编码方式本身具有识别信源的能力14。矢量量化是由标量量化推广和发展而来的。标量量化是用若干个离散的数字值来表示每一个幅度具有连续取值(模拟值)的离散时域信号(采样信号),矢量量化则是将若干个幅度连续取值的时域采样信号分成一组,即构成矢量,然后用若干个离散的数字值(或称为标号)来表示各种矢量。矢量量化的研究目的在于针对特定的信息源和矢量维数,找到一种优化的矢量量化器,使它能够在量化速率一定时给出最低的畸变。在模式识别的研究中,需要完成对每一个所要识别的矢量进行分类的任务。对此通常的做法是将所有要识别矢量的集合分成若干子集,各个子集的矢量具有
53、相似特征,因而能用一个具有代表性的矢量来表示。虽然采用标量量化方法也可以对矢量信号各分量分别地进行量化处理,但是采用矢量量化方法将矢量看作一个整体来编码,具有标量无法比拟的优越性。矢量量化能有效地去除信号的冗余度,因为它能利用矢量信号的以下性质:(1)矢量信源多维概率密度函数的形状或概率分布。(2)信源所发矢量的各分量之间的线性相关性和统计不独立性。(3)多维空间中胞腔的形状的多变性。(4)多维矢量的失真测度与主观感觉的密切联系。矢量量化的具体过程是:将语音信号波形的 k 个样点的每一帧,或由 k 个参数的每一参数帧,构成 k 维空间的一个矢量,然后对这个矢量进行量化。通常所说的标量量化,也可
54、以说就是 k=1 的一维矢量量化。矢量量化的过程与标量量化的过程相似。标量量化时,在一维的零至无穷大值之间设置若干个量化阶梯,当某输入信号的幅度值落在某相邻的两个量化阶梯之间时,就被量化为两阶梯的中心值。而矢量量化时,则将 k 维无限空间划分为 M 个区域边界,然后将输入矢量与这些边界进行比较,并被量化为“距离”最小的区域边界的中心矢量值。若要对一个矢量 X 进行量化,首先要选择一个合适的失真测度,而后用最小失真原理,分别计算用量化矢量替代 X 所带来的失真。其中最小失真值所对应的那个量化矢量,就是 X 的重构矢量。通常把所有 M个量化矢量构成的集合称为码书或码本(Codebook)。把码书中
55、的每个量化矢量 (i=1,2, ,M)称为码字或码矢。不同的划分或不同的量化矢量选取就可以构成不同的矢量量化器。由此可见,这里主要有两个问题:(1)如何划分 M个区域边界。这需要用大量的输入信号矢量,通过统计试验才能确定。这个过程称为“训练”或建立码本。(2)如何确定两矢量在进行比较时的测度。这个测度就是两矢量之间的距离,或以其中某一矢量为基准时的失真测度。它描述了当输入矢量用码书所对应的矢量来表征时所应付出的代价。在说话人识别中,可以把每一个待识别的说话人的语音看作一个信号源,用一个码书来表征,码书是从该说话人的训练语音序列中提取的特征矢量聚类而成15。研究证明只要训练序列足够长,这个码书就可以认为包含了该说话人的个人特征。对于 N 个人的系统,就需要建立 N 个码书。要求这些码书在特征空间中相互不重叠。这就是本文所采用的说话人识别的建模方法。识别时,先从待识别的语音中提取一组矢量,然后用系统中建立的 N 个码书依次对它们进行矢量量化,即判断这组矢量与特征空间中的哪一个码书的分布最吻合。用 VQ 建立识别模型,既可大大减少数据存储量,又可避开困难的语音分段问题和时
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 街办卫生XX县区创建工作计划
- 2024至2030年中国普通温度护套行业投资前景及策略咨询研究报告
- 2024年中国镭射唱机输送盘市场调查研究报告
- 2024年中国铝塑管内丝市场调查研究报告
- 2024至2030年中国高压电力线载波远程抄表系统行业投资前景及策略咨询研究报告
- 2024至2030年中国阴极钴行业投资前景及策略咨询研究报告
- 2024至2030年中国酚氨咖敏胶囊行业投资前景及策略咨询研究报告
- 学雷锋日学习雷锋精神4
- 2024至2030年中国胶辊式印花机行业投资前景及策略咨询研究报告
- 《投资理财方式介绍》课件
- 《AEFI有关法规要求》课件
- 医院培训课件:《小儿全身麻醉机械通气策略》
- 初三英语语法单选题100道及答案解析
- Unit 5 The colourful world Part A (Letters and sounds )(说课稿)-2024-2025学年人教PEP版(2024)英语三年级上册
- 校园安全保卫人员培训
- 英语演讲技巧与实训学习通超星期末考试答案章节答案2024年
- 人教新目标版九上英语Unit6SectionA(3a-3c)【教案】
- 第一课 我国的生产资料所有制 课件高考政治一轮复习统编版必修二经济与社会
- 2023-2024学年江苏省泰州市九年级(上)月考物理试卷(12月份)
- 2024年信息科技三年级《第三单元 畅游网络世界》单元教学设计
- 村庄保洁服务投标方案(技术方案)
评论
0/150
提交评论