第12讲-基于声卡的语言识别系统_第1页
第12讲-基于声卡的语言识别系统_第2页
第12讲-基于声卡的语言识别系统_第3页
第12讲-基于声卡的语言识别系统_第4页
第12讲-基于声卡的语言识别系统_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于声卡的语音识别系统

系统简介功能:在经过密码校验后可以进行密语录制进行待测者的语音录制(多次)待测者声音与密语进行语音匹配连续2次语音匹配成功

系统就认定成功避免恶意试音,当试音失败超过10次系统就锁死。前面板操作说明1.在输入正确密码后点击声音采集按钮,绿灯亮进行“密语”的录制。

如果密码错误红灯亮,并且无法录制密语。2.点击语音识别按钮,将录制待测者的声音。3.当待测者声音录制完后,自动与录制的“密语”进行匹配。匹配成功,清0失败次数。成功次数加1,连续2次成功,系统认定成功。匹配失败,清0成功次数。失败次数+1。10次后系统自动锁死。原理声音信号转成功率谱后出现的明显特性曲线(0-3500HZ)同一人2次说“开门”产生的2条特性曲线把2次采集到的声音转成2个特性曲线(0-520HZ)计算2个特性曲线相似度高于设定相似度则“匹配”,低于设定相似度则“不匹配”

密码正确情况下进行密语的采集进行待测者声音的采集通过数学方法匹配待测声音与密语匹配成功成功次数+1清0失败次数匹配失败失败次数+1清0成功次数成功次数大于2次失败次数小于10次成功次数小于2次失败次数大于10次系统认定成功系统认定失败系统认定失败系统锁死关键点与难点1.声音信号的声音特性的采取与转换。(声音采集信号

声音波形

功率谱

选0-520HZ)2.两波形相似度的计算。(提取两波形的特性参数存于数组(1个波形2个数组)

数学方法对数组进行处理

计算出相似度)一个声音波形信号转成2个数组1.每20HZ分成一段,将每段出现波峰时所对应的频率值的均值组成一个数组(如果没有波峰出现则置0)。作用:通过2个波形对应的数组异或可以判断2个波形在每段有没相同的波峰出现。2.每20HZ分成一段,将每段的幅值(Y)的均值组成一个数组。把2个数据差值所占最大值的百分比算出来(大于百分75算不匹配)作用:减少波峰位置匹配时出现的误差(第一种方法)声音采集和训练识别

“说话人识别”的基本原理主要包括两阶段:训练和识别。在训练阶段,系统的每个使用者说出若干个训练语句,系统据此建立每个使用者的模板和模板参数。在识别阶段,待识人的语音特征提取后与系统训练时产生的模板或模板参数进行比较。在说话人确认中,通过判断测试音与所生成的说话人的模型的匹配距离是否小于一定阈值做出判断。模型训练特征提取匹配距离模型参数判决策略输入语音识别结果语音识别的机理“说话人”的识别方法有两种:发音内容依存型:是预先确定识别用语的方法。发音内容独立型:是无论讲什么话都可进行识别的方法。从声音中准确提取和分离个人信息是相当困难的。至今还没有建立起准确分离和提取个人特征的技术。当前的状况是说话人识别多采用固定声音内容的方法来提高识别率。多年来,人们对于特征参数在说话人识别系统中的有效性进行大量的验证和研究,得到许多有意义的结果。声音可以理解成由振幅和相位随时间缓慢变化的正弦波构成。人的听觉对声音的感觉特征主要包含在振幅信息中,相位信息一般不起作用。在研究声音的性质时,往往把时域信息(波形图)变换得到它的频域信息(频谱),通过研究频谱和与频谱相关联的特征获得声音的特性。

语音识别的假设语音信号是一种典型的非平稳信号,但是由于语音的形成过程是与语音器官的运动密切相关的。这种物理运动比起声音振动速度要缓慢的多。因此,语音信号常常可以假定为短时平稳的。在10~30ms这样的时间段内,其频谱特性和某些物理特征参量可近似地看作是不变的。这样我们可以采用平稳的分析方法来处理。语音识别的假设我们的设计建立在如下几点假设基础之上:将原始的声音信号转换成数字信号的过程对声音的特征造成的影响可以忽略。录音设备和外界环境对声音信号的影响可以忽略。声音特征基本反映在振幅信息中。从时域变换到频域后,语音特征体现在它的频谱中,忽略频谱失真。语音信号是短时平稳的。本系统设计思路本系统模型采用的是声音内容依存型的说话人确认系统,需要先让系统对使用者说某个特定词的语音信号进行“学习”。该特定词就成为系统确认通过的“密语”。也就是说想让系统确认通过,首先需要知道这个“密语”。本系统中我们把这个“密语”设定为汉语的“开门”一词。当然这个“密语”是可以改变的。本系统设计步骤1.语音个人特征的提取。我们通过Windows自带的录音机得到声音数字信号。这种信号是一系列离散时间上的量化的振幅样点。图1给出某人说三次“开门”时的波形图。本系统设计步骤

从上图中可以看出,虽然同一人说的都是同一个词,但三个波形图还是有一定差别的。所以即便声音特征反映在振幅信息中也很难直接从时域信号中提取出语音的个人特征。因此需要从其它的角度来提取语音的个人特征。语音的感知过程与人类听觉系统具有的频谱分析功能是紧密相关的,因此,对语音信号进行频谱分析,是认识语音信号和处理语音信号的重要方法。

自功率谱自相关函数Rxx(tao)可以了解不同时刻同一随机样本间的波形相似程度。自功率谱密度函数Sxx(f):反映相关函数在时域内表达随机信号自身与其他信号在不同时刻的内在联系。当随机信号均值为零时,自相关函数和自功率谱密度函数互为傅立叶变换对。自功率谱密度有明确的物理含义:当tao=0时,Sxx(f)曲线与频率轴f所包围的面积就是信号的平均功率。另外,Sxx(f)还表明了信号的功率密度沿频率轴的分布状况,因此称Sxx(f)为自功率谱密度函数。同一个人两次说“开门”的功率谱图

不同人说“开门”的功率谱图

同一人说不同两词的功率谱图

功率谱图的特点

可以看出功率谱图比较好地反映出声音的个人特征:在低频部分(频率低于6000Hz)。同一人说同一词:其功率谱图中的各个波峰所对应的频率基本相同;不同人说同一词:其功率谱图的出现波峰的频率比较接近。同一人说不同词:功率谱的形状差别较大。在高频部分,波峰比较密集,特征不明显。系统设计思路首先采集声音信号经滤波、加汉明窗、求自功率谱。将0~6000Hz等分为60个频段,100Hz为一频段,记录功率谱图中每一频段出现波峰的频率。(信号的采样频率为22050Hz,窗长256的Hamming窗,频率分辨率约为89Hz)我们可以将功率谱中频率较低段波峰出现的位置对应的频率值作为声音的个人特征。不妨称为这些功率谱中波峰对应的频率值hz1,hz2,…,hzn为特征频率值,它们组成的向量Hz=(hz1,hz2,…,hzn)为特征频率向量。多次提取某人(模板提供者)说同一词时功率谱中的特征频率值,这些频率值分布趋于稳定。系统设计思路以100Hz为一个频段,将频谱(0~6000)划分为60个频段。将多次提取功率谱中每一频段出现的所有频率值的平均值作为标准频率向量,F=(f1,f2,…fn)以此标准频率向量F为模板。对一个待确认声音,提取其特征频率向量G=(g1,g2,…,gm)。因为F由多次提取得到,所以有m<=n。计算F与G之间的匹配距离函数。根据这组

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论