




已阅读5页,还剩57页未读, 继续免费阅读
(计算机应用技术专业论文)嵌入式声纹识别系统研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
嵌入式声纹识别系统研究 计算机应用专业 研究生赵采指导教师潘世永 随着计算机软硬件技术,半导体技术,电子技术、通讯技术和网络技 术等飞速的发展,人类社会进入了后p c 时代。近年来在生物识别技术领域 中,声纹识别技术以其独特的方便性、经济性和准确性等优势受到世人瞩 目,并日益成为人们日常生活和工作中重要且普及的安全验证方式,被广 泛的应用到嵌入式识别设备当中,然而大量数据的实时采集、过滤、处理 需要新一代具有高浮点运算速度,低功耗的处理器来完成。 今天d s p 处理器由于其特殊的指令结构以及较高的编译效率使其能够 快速的执行声纹识别算法,满足当今各种数字信号处理及高实时性的要求, 特别在向量运算、指针线性寻址等方面具有不可比拟的优势。采用高性能 d s p 处理器的声纹识别系统由于声纹识别技术的方便性、经济性、准确性 和嵌入式系统的便携性、移动性等优势受到世人瞩目,被广泛的应用到人 们的日常生活当中,成为未来科技发展的主要趋势。 论文的主要研究方向是在嵌入式平台下实现说话入的辨认功能,主要 的内容如下: ( 1 ) 在,i m s 3 2 0 c 6 7 1 3 d s k 实验板上实现语音信号的采集功能,借助串 口实时的保存数字语音信号;在保证较高正确识别率的前提下,采 用合适的声纹识别算法,实现语音信号训练与识别功戆。, ( 2 ) 整合语音信号的采集模块、训练模块、识别模块,形成一套完整的 声纹识别系统,拥有较高的正确识别率。通过利用交叉编译工具, 第王燹 根据不同嵌入式平台提供的s d k 重新编译软件模块,确保系统拥 有较高的可移植性。 关键词:声纹识别技术;嵌入式平台;说话人辨认 第l 至页 e m b e d d e dv o i c er e c o g n i t i o ns y s t e mr e s e a r c h c o m p u t e ra p p l i c a t i o nt e c h n o l o g y c a n d i d a t e :g u o z h a o s u p e r v i s o r :s h i y o n gp a n a l o n gw i t hr a p i dd e v e l o p m e n ta b o u tc o m p u t e rs o f t w a r ea n dh a r d w a r e t e c h n o l o g y ,s e m i c o n d u c t o rt e c h n o l o g y ,e l e c t r o n i ct e c h n o l o g y ,c o m m u n i c a t i o n t e c h n o l o g ya n dn e t w o r kt e c h n o l o g ye t c ,h u m a nb e i n gc o m m u n i t yi sg o i n gt ot h e b e h i n de p o c ha b o u tp c r e c e n t l yy e a r si nt h e 蠹c l do fb 主0 重。西c a lr e c o g n i t i o n t e c h n o l o g y ,t h ev o i c er e c o g n i t i o nt e c h n o l o g yi sb e i n g c o n c e r n e db yt h ea d v a n t a g e o fe s p e c i a l l yc o n v e n i e n c e ,e c o n o m i c a l ,a c c u r a t e ,a n db e c o m et h em o s ti m p o r t a n t a n du n i v e r s a ls e c u r i t ya u t h e n t i c a t i o nm o d e li nh u m a n b e i n g sd a i l yl i f ea n dw o r k h o w e v e rp l e n t yo fr e a l t i m ed a t ac o l l e c t i o n ,f i l t r a t i o n , d i s p o s e dd e m a n dn e w p r o c e s s o r st h a th a v eh i g h - f l o a tc a l c u l a t es p e e d ,l o w p o w e rt oa c h i e v e t o d a yd i g i ts i g n a lp r o c e s s o ro w i n gt oi t ss p e c i a l l yi n s t r u c t i o n s t r u c t u r ea n d h i g hc o m p i l ee f f i c i e n c yc a ne x e c u t e t h ev o i c er e c o g n i t i o na r i t h m e t i cq u i c k l y ,c a l l s a t i s f yv a r i o u sd i 醇a ls i g n a lp r o c e s sa n dh i 班r e a l - t i m ed e m a n d sa tp r e s e n t , e s p e c i a l l yf o r t h ef i e l do fv e c t o rc a l c u l a t i o n ,p o i n tl i n e a r i t ya d d r e s s i n ge t c ,i th a sa o v e r w h e l m i n ga d v a n t a g e b e c a u s e o ft h ev o i c er e c o g n i t i o nt e c h n o l o g y s c o n v e n i e n c e ,e c o n o m i c a l l y , a c c u r a t e l ya n de m b e d d e ds y s t e m sp o r t a b l e ,m o b i l i t y , t h ev o i c er e c o g n i t i o ns y s t e mt h a tu s i n gt h eh i 曲q u a l i t yd i g i t a ls i g n a lp r o c e s s o ri s w e l lk n o w nb yh u m a nb e i n g s ,a n di sw i d e l yb e i n gu s e di np e o p l e sd a i l yl i f e , b e c o m et h em a i nt r e n do fd e v e l o p m e n to fs c i e n c ea n dt e c h n o l o g yi nt h ef u t u r e 第1 i i 页 t h em a i nr e s e a r c hd i r e c t i o no ft h i st h e s i si st or e a l i z es p e a k e ri d e n t i f i c a t i o n f u n c t i o nu n d e rt h ee m b e d d e dp l a t f o r m ,t h em a i nw o r k so ft h i st h e s i sa l ea s f o l l o w s : ( 1 ) o n t h et m s 3 2 0 c 6 7 1 3 d e v e l o ps t a r t e rk i tr e s e a r c hb o a r dr e a l i z ev o i c e s i g n a lc o l l e c t i o nf u n c t i o n ,u t i l i z es e r i a lp o r tt os t o r et h ed i g i t a lv o i c e s i g n a lo nt i m e ;b yt h ee n s u r i n go fh i g h e rr a t eo fc o r r e c ti d e n t i f i c a t i o n , u t i l i z e a p p r o p r i a t ev o i c ep r i n tr e c o g n i t i o na l g o d t t m l ,r e a l i z ev o i c e s i g n a lp r a c t i c ea n dr e c o 鲥z ef u n c t i o n 。 ( 2 ) c o m b i n a t i o nt h ev o i c es i g n a l sc o l l e c t i o nm o d u l e ,p r a c t i c em o d u l e , r e a :o g n i z em o d u l ei n t oas u i to fi n t e g r a t e dv o i c er e , c o g n i t i o ns y s t e m , h a v i n gh i 曲r a t eo fc o r r e c tr e c o g n i t i o n b yu t i l i z i n gc r o s sc o m p i l et o o l , a c c o r d i n gt os o f t w a r ed e v e l o pk i tt h a ti ss u p p l i e di nd i f f e r e n te m b e d d e d p l a t f o r mr e b u i l ds o f t w a r em o d u l e ,i ti n s u r et h es y s t e m h a v i n gh i 曲 t r a n s p l a n ta b o i t y k e yw o r d s :v o i c ep r i n tr e c o g n i t i o nt e c h n o l o g y ;e m b e d d e dp l a t f o r m ; s p e a k e ri d e n t i f i c a t i o n 第王v 页 西华大学硕士学位论文 声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取 得的研究成果。除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得西华大学或其他教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡 献均已在论文中作了明确的说明并表示谢意。 本学位论文成果是本人在西华大学读书期间在导师指导下取得的,论文 成果归西华大学所有,特此声明。 作者签名:参桌 导师签名:潘也永 第5 7 页 晓年钼岛 0 8 年婿婚 西华大学硕士学位论文 1 绪论 1 1 选题背景及意义 随着社会的发展,人际间交往日益扩大、日益复杂,往往要同素不相 识的人打交道,甚至相隔千里在看不见对方的情况下打交道,而这些打交 道的内容又往往涉及巨额钱财的转移,因此在打交道中辨认对方的身份是 保证这些交往安全的前提。辨认身份的最原始也是使用最为普遍的方法便 是使用身份证,然而身份证不仅容易被伪造,而且证件上的照片因人的面 貌会随岁月流逝而变得无法作为辨别本人的确切依据,更何况使用身份证 必须本人到场。在通信发达的今天,人们往往在互不见面的情况下打交道, 这时身份证便显得无能为力,很难辨认打交道对方的身份。为此人们进行 了大量工作如建立完善的安全认证系统,应用各种加密算法等等,这些都 已取得重大成就并已在许多地方得到应用,但这些都耗资巨大,使用起来 比较复杂,而且无法保证绝对不被盗窃、假冒。因此人们寻找一种更可靠、 更方便的辨认的方法,于是便开发了各种利用身体上固有特征来确定辨认 身份的方法。 声纹识别技术属于“生物因子”认证范畴。同指纹一样,声纹信息也 是不可复制的,能作为每个人的个性特征,很难找到两个声纹信息完全相 同的人;并且与其他生物识别技术诸如指纹识别、掌形识别、虹膜识别等 相比,声纹识别技术有不会遗失、无需记忆和使用方便等优点。而嵌入式 声纹识别系统又由于自身的便携性及移动性,使其能够在各种特殊的场合 达到说话人自动识别的目的,特别是在无线通讯领域和个人数字助理【1 ( p e t s o n a ld i g i t a la s s i s t a n t ,p d 舢迅猛发展的今天,逐渐成为新的研究热点,是 未来科技发展的一个重要方面。 1 2 当前研究现状 在当今实际应用中高性能的大词汇量连续语音识别系统代表语音信号 识别技术的先进水平,但由于嵌入式平台在资源和速度方面的限制,采用 嵌入式方式实现尚不成熟;而声纹识别系统由于算法相对简单,对资源的 第1 页 西华大学硕士学位论文 需求较小,正确识别率高,能满足嵌入式设备的要求,因此成为当今应用 的主要着眼点。 目前嵌入式声纹识别技术的应用主要从以下两个层面进行研究: 1 针对d s p 专用处理器的应用【2 】,主要是基于采用合适的处理器芯片 加快声纹识别的速度,比如清华大学语音技术中心的基于a d s p 处理器的 语音命令开发,清华大学电子系的定点d s p ( d i g i t a ls i g n a lp r o c e s s i n g ) 处理 器片上系统s o c ( s y s t e m so nc h i p s ) 实现等,都是把声纹识别算法固化到处 理器上。在早期硬件资源不够发达的情况下比较多的采用了这种方法;但 它的不足之处是系统往往都是针对特定人识别系统,需要在线训练模型, 运算精度不高,可支持的词表规模不大,变化不灵活,识别效果不够好。 2 基于算法层面的应用,出发点是减少模型的规模和搜索空间,提高 声纹识别的速度;同时也可以牺牲运算精度,增加软件层面的定点计算, 进一步提高运算速度。随着嵌入式设备硬件资源的不断发展,计算和存储 能力的提高,这种方式的应用越来越多。它既可以在线训练模型实现特定 人声纹识别,也可以事先载入训练好的模型实现非特定人声纹识别,具有 识别精度高、应用灵活等特点。不足之处是声学模型需要在规模和精度之 间折衷,还需要严格控制识别过程中搜索空间的消耗以及提高搜索速度, 达到良好的识别效果。 声纹识别算法在p c 机上通过m a t l a b 数学仿真软件实验已经达到较高 的正确识别率,论文将借助t m s 3 2 0 c 6 7 1 3 d s k 板,针对嵌入式系统自身特 点及数字信号处理系统应用环境的特殊性,改进声纹识别算法,使其能够 移植到小型化、便携式移动设备上使用,并确保拥有理想的正确识别率。 1 3 论文主要工作及论文组织 论文的工作重点如下: 1 语音信号采集模块设计:借助t m s 3 2 0 c 6 7 1 3 d s k 板,通过t l c 3 2 0 a d 5 3 5 编解码器对模拟语音信号进行实时采集;采用l m s 自适应滤波算法 过滤噪声; 第2 页 西华大学硕士学位论文 2 语音信号训练模块设计:采用能够反映人对语音信号的感知特性的 梅尔倒谱作为特征参数;采用l b g 矢量量化算法压缩语音数据,建立说话 人的语音信号模型库; 3 语音信号识别模块设计:采用基于v q 矢量量化算法建立的识别模 型,结合欧氏距离算法进行说话人辨认工作。 论文的组织结构如下: 1 引言:介绍了嵌入式声纹识别系统、应用前景、技术难点、论文的 工作重点和组织结构: 2 声纹识别技术:介绍了声纹识别技术,声纹识别系统的主要功能模 块、关键技术及声纹识别系统的性能和目前所面临的问题; 3 d s p 数字信号处理系统:介绍了d s p 数字信号处理系统,d s p 处理 器特点以及应用前景,t m s 3 2 0 c 6 7 1 3 d s k 板的组成,重点介绍了t m s 3 2 0 c 6 7 1 3 d s p 处理器及t l c 3 2 0 a d 5 3 5 编解码器的特性; 4 嵌入式声纹识别系统设计及实现:介绍了系统的设计目标、设计策 略、设计环境、设计架构,重点介绍了系统语音信号采集模块,训练模块, 识别模块的实现过程; 5 嵌入式声纹识别系统实验结果及后续工作:重点在于分析实验结果: 提出改进意见,明确系统后续需要改进的工作。 第3 页 西华大学硕士学位论文 2 声纹识别技术 2 1 引言 人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理 过程,人在讲话时使用的发声器官如舌、牙齿、喉头、肺、鼻腔在尺寸和 形态方面每个人的差异很大,所以任何两个人的声纹图谱都有差异。每个 人的语音声学特征既有相对稳定性,又有变异性,不是绝对的、一成不变 的。这种变异可来自生理、病理、心理、模拟、伪装,也与环境干扰有关。 尽管如此由于每个人的发音器官都不尽相同,因此在一般情况下,人们仍 能区别不同人的声音或判断是否是同一人的声音。 声纹识另u ( v o i c e p d n tr e c o g n i t i o n 简称“v p r ”) ,也称说话人识别,就 是根据说话人的声音特征识别出某段语音是谁说的。它是一项根据语音波 形中反映说话人生理、心理和行为特征的语音参数,自动识别说话人身份 的技术。声纹识别技术的核心是通过预先录入说话人的声音样本,提取说 话人独一无二的语音特征并保存在数据库中,应用时将待验证的声音与数 据库中的特征进行匹配,从而决定说话人的身份。目前在生物识别技术领 域中,声纹识别技术以其独特的方便性、经济性和准确性等优势受到世人 瞩目,并日益成为人们日常生活和工作中重要且普及的安全验证方式,声 纹识别过程如图2 1 所示。 ¥糍精一 语音信号+ r 说话入嚣m e 气w 饼s 。n f i g2 - 1v o i c ep r i n tr e c o g n i t i o nt e c h n o l o g ys k e t c h 图2 1 声纹识别技术示意图 第4 页 誊盛誊途 西华大学硕士学位论文 2 2 声纹识别技术分类 说话人识别【3 】是根据人的声音特征识别出某段语音是谁说的,但也还更 广泛的应用在命令识别领域,使得机器能够轻松的跟人类进行语音信息的 交互,从而让机器能够更智能的为人类生活服务。与语音识别不同,说话 人识别利用的是语音信号中的说话人信息,而不考虑语音中的字词意思, 强调说话人的个性;而语音识别的目的是识别出语音信号中的言语内容并 不考虑说话人是谁,它强调的是共性。 f g2 - 2v o i c es i g n a lp r o c e s s c a t e g o r ys k e t c h 图2 2 语音信号处理分类示意图 整个语音信号处理分类如图2 2 所示。说话人识别分为说话人辨认 ( s p e a k e ri d e n t i f i c a t i o n ) 和说话人确认( s p e a k e rv e r i f i c a t i o n ) 两类。说话人辨认 是通过一段语音信号确认说话人身份的过程。在说话人辨认中,需要将待 识别的语音信号和已知人群中的每一个人的特征逐一进行比较从中辨别出 说话人,系统的决策选择数目为说话者的数目,因此说话人辨认系统的性 能是随说话人集合的规模增大而降低;而说话人确认是证实某一说话人是 否是其本人身份的过程。在说话人确认中只需将待识别语音与注册说话人 自己的语音模型进行比较,以确定是否是注册者本人的语音,系统只需要 第5 页 西华大学硕士学位论文 给出接受或拒绝两种选择,它只是一个肯定与否定的问题属于二选一的问 题,因此说话人确认系统的性能是与说话人集合的规模无关。 说话人辨认与说话人确认的不同在于声纹识别系统的性能与用户数相 关。因为它是通过把输入语音的特征与所存储的每个合法者的参考模型相 比较,所以当用户数增多时,不仅使处理时间变长,而且个别用户之间变 得难以区分即差错率变大。而对于说话人确认系统来讲,其差错率是不会 随用户数的增加而变化,对其而言能够容纳的用户数是由存储量来决定的。 定义说话人辨认有一个隐含的先决条件,即已经假定测试的语音信号来自 给定的说话人集合s 中的一个元素,这样的识别被称为闭集( c l o s e t s c o 的说 话人辨认。与闭集的说话人辨认不同的是对于开集( o p e n s e o 的说话人辨 认,测试语音信号有可能不来自集合s 中的任何一个说话人。开集的说话 人辨认不但要从集合s 中找到最相似的说话人,而且要判断测试语音信号 是否真正属于这个最相似的说话人。显而易见,闭集辨认的结果要好于开 集辨认,但开集辨认与实际情况更为一致。开集辨认是闭集辨认同说话人 确认的结合。 根据对训练和测试语音内容的要求不同,还可以将说话人识别分为与 文本有关( t e x t d e p e n d e n t ) 的说话人识别和与文本无关( t e x t i n d e p e n d e n t ) 的 说话人识别。与文本有关的识别系统要求用户按照规定的内容发音,并根 据特定的发音内容建立精确的模型,从而达到较好的识别效果。但系统需 要用户配合,如果用户的发音与规定的内容不符合则无法正确识别该用户。 而与文本无关的识别系统则不规定说话人的发音内容,因而要建立精确的 模型较为困难,识别效果较差。一般来讲与文本有关的系统的正确识别率 要高于与文本无关的系统:与文本无关的系统需要更多的语音数据来更准 确的提取与说话人有关的语音信息。 2 3 声纹识别系统模块 建立和应用一套声纹识别系统可分为两个阶段即训练阶段和识别阶段 【4 1 。在训练阶段中,系统的每一个使用者说出若干供训练的语音资料,系统 根据这些训练的语音资料,通过学习建立每个使用者的语音信号模板;然 第6 页 西华大学硕士学位论文 后在识别阶段把从待识别说话人说出的语音信号中提取得的特征信号,与 在训练过程中产生的模板加以比较,根据一定的相似性准则辨认出说话人 身份。 如图2 3 所示声纹识别系统主要由特征提取和模式匹配两大技术模块 组成。特征提取的任务是选取唯一表现说话人身份的有效且稳定可靠的特 征,模式匹配的任务是对训练和识别时的特征模式做相似性匹配。整个系 统具体的划分主要由语音信号预处理、特征提取、模式匹配和后处理等几 大部分组成。说话人特征提取和模式匹配是说话人识别系统的主体,其技 术构成说话人识别研究的两大方面。 f i g2 - 3v o i c ep r i n tr e c o g n i t i o ns y s t e ma r c h i t e c t u r es k e t c h 图2 - 3 声纹识别系统结构图 2 3 1 声纹识别系统训练模块 声纹识别系统训练模块负责为识别模块提供进行匹配的语音信息模 板。对数字语音信号进行训练的具体过程如下: ( 1 ) 信号预加重 语音信号的预处理和端点检测是声纹识别开始的准备工作,但却对整 个识别系统的性能有着重要的影响。预处理对输入的原始语音信号进行预 加重,目的是为了对语音的高频部分进行加重,增加语音的高频分辨率将 原始语音通过滤波器对其加以滤波。端点检测是指运用数字信号处理技术 找出语音信号中的各种段落的起点和终点的位置。这两种技术都属于语音 第7 页 西华大学硕士学位论文 分析中的时域分析范畴,其基本思想是在一般的信噪比情况下,语音信号 的短时平均过零率和短时平均幅度都比噪声信号要高得多,因此通过设定 一定的阈值来区分真正的语音信号和噪声信号。 h ( z ) = 1 一a z 一1 ,0 9s 口s 1 0 ( 2 1 ) 其中口为预加重系数且0 9s 口s1 0 ,一般为0 9 5 、0 9 7 或0 9 8 ,实验 表明口一0 9 5 时可有效的提高识别率。假设在以时刻的语音采样值为x ( n ) , 则经过预加重处理后的结果为: y ( 刀) = x ( n ) 一a x ( n 一1 ) ,口一0 9 5( 2 2 ) ( 2 ) 信号分帧 语音具有短时平稳的特点,通过对语音进行分帧,提取其短时特性以 便于模型的建立。 ( 3 ) 信号加窗 加窗的作用是平滑信号以减少在信号两端处的预测误差,避免频谱出 现“破碎 现象。模块设计中采用汉明窗( h a m m i n g ) ,公式如下: r e ( n ) = 0 5 4 0 4 6 c o s ( 罟) ,n 一1 ( 2 3 ) 刀取整数,为输入帧的宽度。 ( 4 ) 信号特征提取 计算机能够根据语音信号将说话人识别出来是因为语音信号中包含了 与说话人相关的特征信息。语音信号中包含了与说话人有关的一些高级信 。g ( i - n g h l e v e li n f o r m a t i o n ) ,如方言、遣词用句特点、说话的习惯风格等。 这些高级信息是人类区分不同说话人的主要依据,也是说话人识别系统最 理想的特征参数。但是由于目前的技术水平还不能模仿人的这种能力,也 找不出这些高级信息同语音参量之间的定量关系所以它们还不能在自动说 话人识别系统中得到广泛的应用。除了上述高级信息外,还有一些低级的 信息( l o w 1 e v e li n f o r m a t i o n ) 。不同人的发声器言的生理结构有所差别,在不 同的环境中成长的人发同一个音时,发声器官的动作也不尽相同。这种能 够表征说话人的信息是通过共振峰频率及带宽平均基频、频谱基本形状等 这些物理可测量的参数特征表现出来的。特征参数对于不同的说话人应该 第8 页 西华大学硕士学位论文 是有差异的,这种差异称为话者间差异( i n t e r s p e c k e rv a r i a n c e ) ,说话人之间 的差异是由说话人不同的声道特性产生的,正是这种差异将不同的说话人 区分开来;另外还有一种差异称为话者本身差异( i n t r a s p e a k e rv a r i a n c e ) ,说 话人不能将一句话或一个单词完全一致的重复两次,两者之间总是有差异 的,这种差异主要是由说话人的速率、说话人的情绪、说话人周围的环境、 录音设备和传输信道的失真等因素引起的。 目前声纹识别系统中最主要采用的两种语音特征是线性预测倒谱参数 和梅尔倒谱参数。l p c c 参数和m f c c 参数分别根据人的发声原理和听觉 感知原理从人的声音提取出能量分布谱,从中获得声纹的独特特征,这两 种参数在实用中都得到了较好的效果。 梅尔频标倒谱参数( m e lf r e q u e n c yc e p s t n m lc o e f f i c i e n t ,m f c c ) p j 考虑 了人耳的听觉特性,将频谱转化为基于m e l 频标的非线性频谱,然后转换 到倒谱域上。由于充分模拟了人的听觉特性,而且没有任何前提假设,m f c c 参数具有较强的识别性能和抗噪能力,实验证明在汉语数码语音识别中m f c c 参数的性能明显优于l p c c 参数。m f c c 参数利用人听觉的临界带效应, 在语音频谱范围内设置若干个带通滤波器,每个滤波器具有三角形或正弦 形滤波特性,然后将语音能量谱通过该滤波器组,求各个滤波器输出,对 其取对数并作离散余弦变化( d i s c r e t ec o s i n et r a n s f o r m a t i o n ) ,即可得到梅尔 频谱参数。梅尔频率倒谱系数是在频谱上采用滤波器组的方法计算出来的, 将语音信号频率划分成一系列三角形的滤波器序列,这组滤波器在频率的 梅尔坐标上是等带宽的。因为人类在对1 0 0 0 h z 以下的声音频率范围的感知 遵循近似线性关系,对1 0 0 0 h z 以上的语音频率范围的感知不遵循线性关 系,而是遵循在对数频率坐标上的近似线性关系。m e l 频率尺度的值大体上 对应于实际频率的对数分布关系,可表示为: m e l ( f ) 一1 1 2 7 m ( 1 + ,1 7 0 0 ) ( 2 4 ) 公式中厂为频率,单位是舷。 特征提取的大体过程中,首先是将每个语音帧的时域信号x ) 经过 离散傅立叶变换( d f t ) 后得到线性频谱x ( k ) 。设语音信号的d f t 为: 第9 页 西华大学硕士学位论文 x 。( 七) 一罗x ( n ) g 川础川,0 5 七sn ( 2 5 ) 篙。 式中z 0 ) 为输入的语音信号,表示傅立叶变换的点数。 再求线性频谱x ( 七) 幅度的平方即能量谱。通过一组m e l 尺度的三角形 滤波器组,根据频率对能量谱进行带通滤波。其中m e l 频率滤波器组为语 音信号的频谱范围内设置的若干个带通滤波:i 器h m ( k ) ,其中心频率为 ,) ,ma1 ,2 。m ,m 为滤波器的个数,滤波器的个数通常取为2 4 4 0 之 间,每个滤波器具有三角形滤波特性,m 值小时相邻的,仰) 之间的间隔也 小,随着m 的增加相邻f ( m 1 的间隔逐渐变大,每个带通滤波器的传递函数 日。 ) 为: 0 2 ( k - f ( m - i ) ) ( f ( m + 1 ) - f ( m - 1 ) ) ( f ( m ) - j r ( m - 1 ) ) 2 ( f ( m + 1 ) - k ) ( f ( m + 1 ) - f ( m 1 ) ) ( ,( m + 1 ) 一,( 小) ) 0 k f 沏+ 1 ) 其m - 1 日 ) 1 中,m e l 滤波器组如图2 - 4 所示。 籀 fr e q u e n c y 【h z 】 f i g2 - 4m e lc e p s t r u mt r i a n g l ef i l t e r st e a m 图2 4m e l 倒谱的三角形滤波器组 第1 0 页 西华大学硕士学位论文 计算每个滤波器组输出的对数能量为: 一1 s ( 历) = h l ( i z 4 ) 1 2 日用 ) ) ,o s 历s m ( 2 7 ) e 两 最后经离散余弦变化( d 得到m f c c 参数: 1 c ( n ) 一s ( m ) c o s ( :r m ( m 一0 5 ) m ) ,0sn 墨m( 2 8 ) 石= b 其中行为m f c c 参数的阶数,我们取咒= 1 6 , c 。 。- 1 :。即为所求 的m f c c 参数。有实验表明最前若干维及最后若干维的m f c c 系数对语音 信号区分性能影响较大,m f c c 参数个数通常取最低的1 2 1 6 阶。 ( 6 ) 信号矢量量化 矢量量化是一种很重要的信号压缩方法,已广泛应用于图像压缩、语 音压缩、语音识别以及说话人识别等领域【6 】。在说话人辨认系统中,考虑到 说话人的语音信号不全部对体现个人语音特征起关键作用,需要对每帧语 音信号提取的特征矢量进行矢量量化,其基本思想就是丢弃语音信号中不 重要的数据。 在矢量量化方法中最常用的是l b g 算法。设对语音信号进行特征提取 后形成的特征矢量序列为y 一【y l y :,r ,其中y ;为d 维矢量。在矢量量 化过程中,需要选择m 个量化矢量c 。,c :,如果y ;距离c ,最近,则把 y ,量化为c ,。这m 个量化矢量c 。,c 2 ,o 成为矢量量化的码本,每一个矢 量c ,称为码字,m 称为矢量量化码本的长度。特征矢量y ;和量化矢量c ,之 间的距离d ;称为量化失真距离。量化失真距离的定义有多种如均方失真、 绝对失真和相关失真等,其中最常用的是均方量化失真,其表达式为: d 喀一1 ) ,t q r ;( y 醍一c 皿) 2 ( 2 9 ) 对于特征矢量序列y = ) ,y :,y r ) ,其定义总的量化失真为: d = 罗d f ( 2 1 0 ) 第1 1 页 西华大学硕士学位论文 l b g 算法是一个迭代的算法, 算法准则对训练的样本重新分类, 的步骤如下: 基本思想是在每次迭代时都用欧氏距离 使每次迭代后总的量化失真减小,主要 1 ) 设置量化失真阈值6 、初始量化失真d ( o 及最大迭代次数m a x 以及 码字初值c ;o ( 歹一1 , 2 ,m ) ,设迭代次数m = 1 ; 2 ) 以码字为中心,根据最邻近准则将y 分成肘类s 】 ,s 孑,若 d ( y f ,c ;“) s d ( y i ,c 用) ,v k j 则把) ,f 归入s ( m 类,即y fe s j m ) 且 d i d ( y f ,c :州) 其中上标m 表示迭代次数。距离d ;表示某种距离度量,且 一般采用欧氏距离,计算总量化失真; 3 ) 计算量化失真改进量拟( ”) 的相对值 ;筹宅掣 4 ) 计算新码字( 聚类中心) c ;2 寺y ,e 5 y z ,m 2 ,- ,m i ,厶( _ ) j 垆r “、“1 叫 其中,是第,类s5 ”) 中样本的数目; 5 ) 若6 ( “) 6 ,则转至第7 步: 6 ) 若迭代次数m 2 1 转换成 正 3 2 0 的 整数倍。 ( 2 ) 上位机与d s p 处理器通信 d s p 处理器通过u a r t 模块构成与上位机间的通信接口。u a r t 完成 d s p 处理器并行数据传输与r s 2 3 2 串行数据传输的转换,它可以在接收到 【1 - - - m a xb u f f e r 字节后向c p u 发出中断请求,m a xb u f f e r 为u a r t 芯片存储接收到字节的最大缓冲区。语音信号经过压缩后以9 6 0 0 b i t s 的速 率送入上位机,通过回调的方式接收语音数据。为了保证串行通信,必须 对u a r t 模块进行初始化,设置通信的波特率、奇偶校验位、停止位和传 第3 4 页 西华大学硕士学位论文 送一个字节所包含的位数。这里的参数必须和p c 机上的保持一致,否则将 引起通信混乱。下图4 5 为d s p 串行通信数据发送流程图。 开始 , 初始化 f i g4 - 5d s ps e r i a lc o m m u n i c a t i o ns e n df l o wc h a r t 图4 5d s p 串行通信发送流程图 在串行通信中为了确保接收端接收到正确的数据,在发送和接收数据 时必须依照一定的通信协议。通信协议是整个串行通信系统的重要组成部 分,它关系到串行 ( 3 ) 上位机语音信号数据流处理 上位机程序在运行时通过主函数m a i n 进入一个无限循环状态。在该无 限循环内主函数主动调用采集设备驱动函数d a t a i o ;当发现下位机书写的 中断信号时,通过系统a p i 接口从输入缓冲区中读出语音数据并送入到上 位机当中。程序会自动从中断信号中返回,控制权交还回主程序。最后将 语音数据的幅值按照单位长度将等比例缩小后保存到w a v 文件当中。 第3 5 页 西华大学硕士学位论文 上位机语音信号采集程序包括控制打开信号采集设备,获得信号采集 设备的旬柄,指定信号采集格式,分配若干用于信号采集的内存空间。开 始进行语音信号采集时,先将所有内存块都提供给设备用来语音信号采集, 程序会依次将语音数据写入内存当中。当一块内存被写满后,设备就会发 送一个w i n d o w 消息w mn o t i c ed a t a 给相应的窗口,通知程序作相关 的处理。这时程序的操作是从内存中复制数据并写入到w a y 文件中。操作 的过程是一个循环不断的信号采集过程,伴随着置空内存,返还给信号采 集设备以用来进行下一次信号采集;直到结束信号采集时程序释放所有内 存块并关闭信号采集设备。软件在设计中借助了临界区遏制同时读写同一 块内存区域的现象发生。 在采集过程中需要注意的是当语音信号数据是通过双声道进行采集时 语音信号数据流的格式如图4 - 6 ( a ) 所示;当采用单声道时语音信号数据流的 格式如图4 - 6 ( b ) 所示。因此实验中需要正确设定音频采集卡使用的声道数, 根据声道数确定如何读取语音数据流缓存中的数据,防止提取的语音信号 幅值出现错位现象,造成生成的音频文件无法被播放器正确的播放。 ( a ) t w oc h a n n e lv o i c ed a t as t r e a mf o r m a t ( a ) 双声道语音数据流格式 单声道 单声道单声道单声道 l ( 2 b y t e s ) ( 2 b y t e s )( 2 b y t e s )( 2 b y t e s ) c o ) s i n g l ec h a n n e lv o i c ed a t as t r e a mf o r m a t ( b ) 单声道语音数据流格式 f i g4 - 6v o i c es i g n a ld a t as t r e a mf o r m a tc h a r t 图4 6 语音信号数据流格式图 第3 6 页 西华大学硕士学位论文 采集的音频文件以w a y 文件格式存储采集到的语音数据。在数据流的 保存过程中,需要将语音信号p c m 文件格式等信息保存在w a y 文件结构的 r i f t 区域中,将数据流部分保存在w a y 文件结构的d a t a 区域中,以保证能 够被正确的解析。( 注:w a v 格式是微软公司开发的一种声音文件格式,w i n d o w s 下通用的数字音频标准,用w i n d o w s 白带的媒体播放器即可以播放;w a v 格式支持许多压缩算法,支持多种音频位数、采样频率和声道数 ) 。 3 实验内容 下图4 7 上位机语音信号采集模块所示,模块提供可供配置的音频采集 卡、采样频率、采样位数及音频文件的保存路径。上位机启动c c s 集成开 发环境,用j t a g 接口电缆把d s p 板和上位机接口板连接起来,添加模块 中所需的初始化文件、汇编程序和链接定位文件,通过交叉编译并优化后 生成的o u t 文件,烧写入d s p 处理器的片内r a m 中。此时c c s 从指令寄 存器中取出模块加电后的首指令地址,显示程序的起始地址引导入口ci n t ,当开始启动系统时让程序入口自动跳转到e,此引导入口在硬件复位 后也通常将其作为中断矢量入口;紧接着进行_ i n t m c b s p 串口初始化,包括串 口收发中断的设置和串口寄存器的初始化,通过m c b s p 控制寄存器进行相 关配置;当运行环境配置好后,将麦克风插入d s k 板上标有麦克风标记的 插孔中,点击开始按钮进行采集工作,通过上位机对实际硬件目标系统进 行监控;采集完成后点击完成按钮进行保存,采集到的语音信号在保存前 需要进行频谱分析,观察信号是否被噪声污染,如果频谱含有噪声谱,则 需要在采集模块中添加l m s 自适应滤波模块,滤除信号中的干扰噪声。 第3 7 页 西华大学硕士学位论文 嚣蘸熬黼懑魏戮戮鬃巍缀溺麟燃鬃鬻慰缕缀戮黼 r e c o r dd e v k ! e 二 。t m s 3 2 0 c g 7 13 d s kt l c 3 2 0 a d 5 3 5 熊瓢: 一* * * * m w 二j 磊纛一一; l e c o f df i l e d :m e s t w a v o 们w a v 口j z _ 、 ,一”一* x # ,w # i 徭茹i 茹嚣篱;婴= 7 1 霎i h z 。哆:。r d f f 曲面;i i g 。,三。嶙j 等警“攀5 一一”? 誓? ? ? 譬”粤一一j 薯r e c o r d j7 。 ; 二。i $ :r :t ;。- - ;一 :r 、;。n | | : i = 、一 一叫 q 蚴。 “洲舢。m 十m ,f * 耥? 删一,* ,m5 一一 删“ + t q # “、 w a y f i l e d :t e s t w a v 0 0 1 f w a v 口; l p l a y s o o0 冀硷如棼 ! :_ ;r 。h 。一;,二。= 二 。一二。;o 。,一 0 汇爨瀚满一囝k 一。; il 上一步l q 下一步 _ 口i 完成 ,旃 h g 4 - 7p cv o i c es i g n a lc o l l e c t i o nm o d u l e 图4 - 7 上位机语音信号采集模块图 采集过程中d s p 会不断从双通道缓冲中读取数据,图4 8 是当人为中 断程序运行时,通过c c s 数据监控器显示的在时域条件下从缓存中提取的 语音信号波形图( 横轴为2 5 6 个采样点数,纵轴为每个采样点的幅值) 。 f i g4 - 8d i g i t a lv o i c es i g n a lt i m ew a v e f o r mc h a r t 图4 8 数字语音信号时域波形图 第3 8 页 西华大学硕士学位论文 图4 - 9 中弹出对话框显示的是从w a v 文件r i f t 头中提取出的语音数据 流的信息( 包括w a v 文件播放时间长度,使用声道数、采样频率、采样位数 等信息) ;波形图显示的是从w a v 文件d a t a 区域根据声道数读出的音频数据 流幅值。 f i g 4
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 公园劳务服务合同标准文本
- 产品网销合同标准文本
- 供货定金合同样本
- 中宁滴灌带采购合同标准文本
- 入股购买机械合同样本
- 公司签订业务合作合同样本
- 2025《试用合同范本》
- 公司委托管理合同样本
- 事务代理合同标准文本
- 中餐预订合同标准文本
- 软测量方法原理及实际应用-课件
- 车床教学讲解课件
- 政策目标确立和方案制定概述课件
- 六年级下册英语课件-Unit 4 Lesson 23 Good-bye-冀教版(共19张PPT)
- 硬笔书法全册教案共20课时
- 张波-超高温陶瓷课件
- 特洛伊战争(英文版)
- DBJ04-T 410-2021城市停车场(库)设施配置标准
- 车站主体结构模板支架专项施工方案--终稿(专家意见修改的)-副本
- 保洁岗位培训
- 丽声北极星自然拼读绘本第二级 Pad, Pad, Pad! 课件
评论
0/150
提交评论