语音声纹识别技术及应用课件_第1页
语音声纹识别技术及应用课件_第2页
语音声纹识别技术及应用课件_第3页
语音声纹识别技术及应用课件_第4页
语音声纹识别技术及应用课件_第5页
已阅读5页,还剩87页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

最新语音声纹识别技术及应用2018年1月最新语音声纹识别技术及应用2018年1月主要内容声音处理技术语音识别技术声纹识别技术技术演示2主要内容声音处理技术语音识别技术声纹识别技术技术演示2声音处理●声音的三要素

●音质声音的三要素是音调、音色和音强

音调代表声音的高低,与频率有关。频率越高,音调越高,反之亦然。音色是声音的特色。影响声音特色的主要因素是复音,即具有不同频率和不同振幅的混合声音。音强是声音的强度,也被称为声音的强度。音强与声波的振幅成正比,振幅越大,强度越大。对于数字音频信号,音质的好坏与数据采样频率和数据位数有关。音质与声音还原设备有关。音质与信号噪声比(SNR)有关。声音处理●声音的三要素●音质声音的三要素是音调、音色和●文件数字化的音频文件主要分为4类:

波形音频文件。一种最直接的表达声波的数字形式,文件扩展名是“.wav”。MIDI音频文件。一种计算机数字音乐接口生成的数字描述音频文件,扩展名是“.mid”。CD-DA音频文件。标准激光盘文件,扩展名是“.cda”。

压缩音频文件。在数字音频领域,一种MP3格式的压缩音频文件很流行,该格式的文件简称MP3文件。

声音处理●文件数字化的音频文件主要分为4类:波形音频文件。一种最声音处理获取声音●获得CD中的声音●录音●声音转换

如果希望把音乐CD中的歌曲或乐曲作为素材,需要把这些歌曲或乐曲转换成计算机能够处理的数字化声音,这就是“采样”。可以使用EasyCD-DAExtractor、CoolEdit等音频处理软件对音频进行编辑和处理。

要录制音质好的声音,有两个途径:使用性能优良的录音设备;采用较高的采样频率。可以使用Windows系统自带的“录音机”进行录音。

声音的转换只能从高质量向低质量进行,声音的转换不需要专门的软件,使用Windows的“录音机”转换即可,并且转换功能很强。如果要进一步处理,可采用CoolEdit(AdobeAudition)工具软件。声音处理获取声音●获得CD中的声音●录音●声音转换短时能量和过零率语音分帧每帧10-30ms,帧间隔10ms短时能量对数平方和绝对值过零率(ZCR)6短时能量和过零率语音分帧6参数提取的预处理预加重:—减少尖锐噪声影响,提升高频部分加窗:Hamming—减少Gibbs效应7参数提取的预处理预加重:7各种参数的比较LinearPredictionCepstrumCoefficients(LPCC)假定所处理信号为自回归信号(不适用辅音);计算简单,但抗噪性差。Mel-FrequencyCepstrumCoefficients(MFCC)模拟人的听觉模型;强调低频部分,屏蔽噪声影响;识别率高,但计算量大。能量辅助作用,需归一化。音调对算法要求高,适于二次判别。8各种参数的比较LinearPredictionCepstMel-频率目的:模拟人耳对不同频率语音的感知人类对不同频率语音有不同的感知能力1kHz以下,与频率成线性关系1kHz以上,与频率成对数关系Mel频率定义1Mel—1kHz音调感知程度的1/10009Mel-频率目的:模拟人耳对不同频率语音的感知9Mel-频率公式:频率-Mel-频率:--频率--Mel-频率Mel-频率频率(Hz)10Mel-频率公式:--频率--Mel-频率Mel-频率频MFCC计算流程:11DFT时域信号线性谱域Mel滤波器组LogDCTMel谱域对数谱域MFCCMFCC计算流程:11DFT时域信号线性谱域MelLogDC主要内容声音处理技术语音识别技术声纹识别技术技术演示12主要内容声音处理技术语音识别技术声纹识别技术技术演示12语音识别AutomaticSpeechRecognition(ASR)

的中文含意是自动语音识别。语音识别技术的目标是让机器能够“听懂”不同人说的话,实现从声音到文字的转换。13语音识别AutomaticSpeechRecogniti语音识别—基本术语特定人和非特定人(话者相关或话者无关)词汇量(大,小)孤立词,连接词,关键词和连续语音自然发音和朗读发音口音(方言)背景噪音(环境噪音)信道差异(固定电话,麦克,手机等)声学模型(HMM,mono-phone,bi-phone,tri-phone)声学特征(MFCC)解码(Viterbi)14语音识别—基本术语特定人和非特定人(话者相关或话者无关)14语音识别—基本术语识别指标:SER(SentenceErrorRate,句子错误率)WER(WordErrorRate,词错误率)CER(CharacterErrorRate,字错误率)PER(PhoneErrorRate,音节错误率)采样率,8kHz(电话或手机),16kHz(麦克风)时域,频域端点检测,静音检测或有效音检测(VAD)15语音识别—基本术语识别指标:15语音识别—分类

孤立词识别识别单元是有限的,单个的词;优点:速度快,识别正确率高缺点:应用范围窄,不能识别词表外的词应用案例:语音命令,手机语音拨号

连续语音识别识别单元可以是字,词或者句子优点:应用范围广缺点:速度慢,识别率不高,尤其是词表较大的时候应用案例:语音翻译,语音短信,听写机,语音邮件

关键词识别识别单元是词,判断输入语音中是否含有词表中的词优点:能够处理连续语音,词表可定制缺点:速度较慢,词表越大,错误率越多应用案例:电话呼叫服务,电话安全监听16语音识别—分类孤立词识别识别单元是有限的,单个的词;连续语音识别发展历史50年代-AT&TBellLab,可识别10个英文数字60年代-LP较好地解决了语音信号产生模型,DP则有效解决了不等长语音的匹配问题。70年代-DTW(DynamicTimeWarp)技术基本成熟,实现了基于LPC和DTW技术相结合的特定人孤立词语音识别系统。80年代-HMM模型和人工神经元网络(ANN)在语音识别中成功应用。1988年美国CMU大学基于VQ/HMM开发SI-CSR系统SPHINX。90年代-大规模应用,工业标准,理论进展缓慢。17语音识别发展历史50年代-AT&TBellLab,可识语音识别—潜在应用语音监听语音拨号语音命令语音导航语音搜索语音听写语音翻译18语音识别—潜在应用语音监听语音拨号语音命令语音导航语音搜索语语音识别系统框架19特征提取训练模式匹配拒识语法模型结果语音说话人自适应语音识别系统框架19特征提取训练模式匹配拒识语法模型结果语音语音识别过程20语音识别过程20HMM基础(1)隐含Markov模型观测可见,状态隐含基本要素N模型状态数π={πi}初始概率分布A={aij}状态转移矩阵B={bj(k)}输出概率矩阵21HMM基础(1)隐含Markov模型21HMM基础(2)转移概率矩阵aij-状态i到状态j发生跳转的概率22HMM基础(2)转移概率矩阵22HMM基础(3)输出概率bi(x)x属于状态i的概率23HMM基础(3)输出概率23HMM基础(4)HMM的三个基本问题

-模型评估问题(如何求:P(O|λ))-最佳路径问题(如何求:Q=q1q2…qT)-模型训练问题(如何求:A、B、π)24HMM基础(4)HMM的三个基本问题24模型评估问题(如何求:P(O|λ))前向概率给定HMM参数,在t时刻处于状态i,部分观察序列为{o1o2…ot}的概率后向概率给定HMM参数,在t时刻处于状态i,部分观察序列为{ot+1ot+2…oT}的概率25模型评估问题(如何求:P(O|λ))前向概率25模型评估问题(如何求:P(O|λ))前向和后向递推的示意图26模型评估问题(如何求:P(O|λ))前向和后向递推的示意图2最佳路径问题(如何求:Q=q1q2…qT)前向-后向算法的缺点计算量的浪费状态路径不能明确判定Viterbi算法不完全的状态空间搜索保留状态转移路径的信息27最佳路径问题(如何求:Q=q1q2…qT)前向-后向算法的缺最佳路径问题(如何求:Q=q1q2…qT)Viterbi算法的搜索空间28最佳路径问题(如何求:Q=q1q2…qT)Viterbi算法Viterbi识别算法和路径回溯29Viterbi识别算法和路径回溯29模型训练问题(如何求:A、B、π)优化问题优化目标:P(O|λ)最大Lagrange数乘法,辅助函数:30模型训练问题(如何求:A、B、π)优化问题30Baum-Welch参数重估算法:31模型训练问题(如何求:A、B、π)Baum-Welch参数重估算法:31模型训练问题(如何求:连续HMM算法连续的含义参数重估识别算法32连续HMM算法连续的含义32“连续”的含义连续混合高斯概率密度函数(pdf):每个状态表示为若干函数fn(x)的线性组合fn(x)是连续高斯概率密度函数33“连续”的含义连续混合高斯概率密度函数(pdf):33连续HMM参数重估(1)需要重估的参数:起始概率转移概率各状态中不同pdf的权各状态中不同pdf的均值和方差34连续HMM参数重估(1)需要重估的参数:34连续HMM参数重估(2)t时刻序列处于状态j、混合高斯密度l的概率35连续HMM参数重估(2)t时刻序列处于状态j、混合高斯密度l连续HMM参数重估(3)pdf的无溢出参数重估公式36连续HMM参数重估(3)pdf的无溢出参数重估公式36识别算法概率计算:P(O|λ)Viterbi算法对数形式与离散HMM相似,只需替换bjl(x)37识别算法概率计算:P(O|λ)37实际HMM系统的具体问题起始概率的问题转移概率的问题模型的自适应区别性训练38实际HMM系统的具体问题起始概率的问题38起始概率的问题自左向右结构的HMM,起始概率为:[1,0,0,…0]即:只能从第一个状态开始39起始概率的问题自左向右结构的HMM,起始概率为:39转移概率的问题大量实验证明:转移概率对识别性能的影响是微不足道的训练过程中,常常将其设定为常数:

aij=0.5识别过程中,不进行log(aij)的累加

仅考虑bi(.)的作用40转移概率的问题大量实验证明:转移概率对识别性能的影响是微不足模型的自适应(1)自适应的必要性口音感冒...MAP自适应算法MAP:最大后验概率准则本质上是重新训练一次,对原B矩阵进行微调特点:简单,对每个HMM单独自适应,只需一次发音41模型的自适应(1)自适应的必要性41模型的自适应(2)MLLR算法MLLR:最大似然线性回归本质:将原模型的参数进行线性变换后再进行识别特点:少量语音可以对所有模型进行自适应,只要得到线性变换矩阵即可42模型的自适应(2)MLLR算法42区别性训练传统HMM训练算法的缺陷MCE算法MCE:最小分类误差准则使用场合:小词表识别系统需要细致调整算法参数,才能保证收敛43区别性训练传统HMM训练算法的缺陷43中文语音识别的特点相对于西方语言来说,中文有自己的独特之处。中文是有调语言,发音的基本单元是声母和韵母并且以音节为自然单位,一个音节就是一个字甚至词,以至字词的时长很短,混淆度更大。另外,中文用415个基本的无调音节来构成7000多个基本汉字的发音,多音字很多。特别是,中文的发音和字是独立的,仅仅是中国大陆地区就有很多的方言,口音问题非常严重。特别是在做中文孤立词和短语命令识别的时候,由于没有上下文的信息并且语音的长度很短,口音会严重地降低识别率。44中文语音识别的特点相对于西方语言来说,中文有自己的独特之处中文语音建模基元比较45中文语音建模基元比较45语音识别应用举例嵌入式语音识别:智能玩具:语音对话娃娃、语音声控机器人智能家电:语音识别台灯、语音识别插座智能手机:语音拨号电话语音识别:语音电话簿:电信增值智能语音总机:企业应用46语音识别应用举例嵌入式语音识别:46嵌入式语音识别47嵌入式语音识别47智能玩具—语音对话娃娃序号问句应答句1你好3条2你叫什么名字?3条3你从哪里来?3条4你会什么?1条5背首诗15首诗6讲个故事6个故事7我要听笑话4个笑话8唱首歌5首歌曲9来首英文歌5首英文歌10你喜欢玩什么?5条11你好可爱3条12我很喜欢你3条智能玩具—语音对话娃娃序号问句应答句1你好3条2你叫什么名字智能玩具—语音声控机器人问句回答前进前进后退后退左转左转右转右转跳舞跳舞智能玩具—语音声控机器人问句回答前进后退左转右转跳舞语音增值业务企业电话簿:会议通知、语音信箱、传真信箱、企业邮箱、信息发布、定向广告。个人电话簿:个人邮件、数据同步、资讯定制、个人财经、业务定制。语音门户:天气、股票、航班查询。50语音增值业务企业电话簿:会议通知、语音信箱、传真信箱、企业邮主要内容声音处理技术语音识别技术声纹识别技术技术演示51主要内容声音处理技术语音识别技术声纹识别技术技术演示51生物识别技术优势生物识别技术优势声纹的独特性声纹识别属于生物识别技术的一种,是一项根据语音波形中反映说话人生理和行为特征的语音参数,自动识别说话人身份的技术。每个人,无论别人说话模仿的多么相似,都具有独一无二的声纹,这是由每个人的发声器官在成长过程中形成的。

声纹特征的唯一性可以用来唯一确定一个用户的身份声纹的独特性声纹识别属于生物识别技术的一种,是一项根据语音波声纹识别流程声纹识别流程声纹注册声纹数据库InterVeri提取

声纹特征可通过自动语音提示录音完成注册过程支持8k/16k,8bit

a/u-law和16bitpcm格式的语音注册有效语音在2s~60S之间,完成注册并加密存储在数据库中注册后的声纹可以存储在数据库中,并采用ODBC接口,支持SQLServer,ORACLE,DB2声纹不是音频文件,即使被偷窃也不能重播。声纹注册声纹数据库InterVeri提取

声纹特征可通过自动文本无关确认声纹验证时有效语音长度8-60s之间,最低可支持15s有效语音,以上数据可以根据需要进行配置,与语音无关,内容和注册也无关用户IVRWEBIVRInterVeri身份确认自动交互安全人工坐席文本无关确认声纹验证时有效语音长度8-60s之间,最低可支持通过文本内容识别+声纹确认,可有效防止录音欺骗。特征比对文本相关确认提取

声纹特征结果通过拒绝特征比对文本识别通过文本内容识别+声纹确认,可有效防止录音欺骗。特征比对文本注册时需要将密码重复5遍,验证身份时说出之前的密码才可以通过验证,该方式识别率高,录音时间短。特征比对声纹密码确认提取

声纹特征结果通过拒绝注册时需要将密码重复5遍,验证身份时说出之前的密码才可以通过通过和数据库中已经注册的所有人做对比,挑选出最有可能的说话人列表特征比对声纹鉴别提取

声纹特征ID得分99656060通过和数据库中已经注册的所有人做对比,挑选出最有可能的说话人声纹识别两个方向文本无关声纹识别文本相关声纹识别注册与测试可采用任意不同文本注册与测试必须采用相同的文本注册与测试录音要求较长(注册>20s,测试>8s)注册与测试录音要求较短(注册、测试均只需1~3s)注册与测试语音不必强求一致注册与测试录音尽量要求相似适合后台监控,海量数据检索可以作为声纹密码,一对一服务虚警相对较高准确度很高声纹识别两个方向文本无关声纹识别文本相关声纹识别注册与测试可提升企业形象作为高科技的生物识别方案,具有独特的亮点用户直接感受的系统特点,有效提升用户对企业整体的印象有效提升用户体验不涉及隐私,用户无任何心理障碍,用户接受程度高在自然对话中即可实现声纹识别远程控制表现更突出非接触式识别,唯一可用于远程控制领域的生物识别技术更安全可靠声纹系统的优点与其他生物识别技术(如脸型、掌形、虹膜识别等)相比较:123提升企业形象作为高科技的生物识别方案,具有独特的亮点用户直接衡量声纹系统效果指标ImposterFalseAcceptRate(FAR)UserFalseRejectRate(FRR)安全性高Balance易用性强EER:FR=FAX阈值=4X阈值=2错误接受率(FalseAcceptRate)指非本人被错误的认为是本人的次数占总共测试次数的比值错误拒绝率(FalseRejectRate)指本人被错误的认为是非本人的次数占总共测试次数的比值相等错误率(EqualErrorRate)

指FA等于FR时的百分比。是衡量声纹验证效果的重要依据衡量声纹系统效果指标ImposterFalseAccep声纹系统准确率系统EER时长标准InterVeri(非声纹密码系统)综合7%注册语音:20秒测试语音:10秒声纹密码系统0.5%(冒认者不知道密码)2.5%(冒认者知道密码)注册和测试:2秒左右基于科大讯飞深厚的研究积累,整合国际说话人识别大赛第一名的领先技术,提供业界领先的高准确率,帮助语音应用获得最佳安全性。声纹系统准确率系统EER时长标准InterVeri(非声纹密第三方评测代号代表机构三大核心测试指标在44个系统中排名MinDCFEERDCFMinDCFEERDCFifly科大讯飞0.1072.6250.187113i4uCMU、新加坡IIR与科大讯飞、澳大利亚新南威尔士、南洋理工合作提交的系统0.1233.2250.178221lpt意大利Loquendo公司0.1453.1880.1883446464参赛单位有:CMU、MIT、Stanford、清华大学、中科院自动化所、中科院声学所、Motorola研究中心、IBM研究院等国内外43家著名语音研究机构由NIST(美国国家标准技术研究院)举办,是国际上规模与影响力最大的说话人识别评测1996年第一次评测,之后每两年评测一次,2008年说话人识别任务难度接近大规模实际应用环境(不同信道、不同环境干扰)科大讯飞首次参赛就获得综合指标第一名的好成绩第三方评测代号代表机构三大核心测试指标在44个系统中排名Mi声纹产品系统结构声纹产品系统结构ISV2.1(Verification)根据系统提示自动完成身份确认,依照权限进入下一步操作当确认是VIP客户时提醒坐席人员一、应用目标通过声纹识别提升金融领域风险业务办理的安全性,整个系统对用户透明,因此用户体验不会受到影响应用案例一ISV2.1(Verification)根据系统提示自动完应用案例二一、应用流程①监控矫正对象身份②发起要求进行声纹验证④返回矫正对象身份是否通过验证社区矫正管理平台③说出最近一段时间近况应用案例二一、应用流程①监控矫正对象身份②发起要求进行声纹验应用案例二一、系统目标保外人员按照规定需要定期至当地派出所汇报当前情况,管理成本较高,采用声纹识别系统和手机定位可以有效的进行自动监控。应用案例二一、系统目标保外人员按照规定需要定期至当地派出所汇需求分析采用基础语料数据,训练提供基本业务包,建设基线系统,通过内部测试,效果达到业务基本要求(一个月)选取试点进行试运营,收集实际应用语料,进行分析与优化,对系统参数和模型进行自适应(三个月)效果、性能、稳定性达到项目要求,正式上线,持续统计分析应用情况,进行有针对性的优化提升,不断提升识别率和减少环境多系统的影响基线系统试运行上线投产定制优化声纹项目实施过程需求分析采用基础语料数据,训练提供基本业务包,建设基线系统,生物识别技术比较错误接受率错误拒绝率容易实用性处理速度/人指纹识别很低较低好2s-5s掌纹识别低5%使用困难5s-10s人脸识别低<0.2%非常好≤5s虹膜识别很低约10%需要培训才能使用,手工操作对虹膜有困难仪器自动对准虹膜需要3s-5s,手工操作需要5s-25s视网膜识别未知未知不好15s-30s声纹识别低低可以1s-3s签名识别低10%一般5s-10s生物识别技术比较错误接受率错误拒绝率容易实用性处理速度/人声纹识别技术声纹识别(又称说话人识别)技术是从说话人发出的语音信号中提取声纹信息,并对说话人进行身份验证的生物识别技术。声纹识别技术声纹识别(又称说话人识别)技术是从说话人发出的语声纹识别—基本术语类型分类:文本相关(Text-dependent)文本无关(Text-dependent)任务分类:说话人辨认(SpeakerIdentification)说话人确认(SpeakerVerification)UBM(UniversalBackgroundModel),通用背景模型GMM(GaussianMixtureModel),高斯混合模型背景噪音(环境噪音)信道差异(固定电话,手机,麦克风)身体差异,语速快慢,时间间隔声纹识别—基本术语类型分类:声纹识别—基本术语FAR(FalseAcceptRate),错误接受率;FRR(FalseRejectRate),错误拒绝率。EER(EqualErrorRate),等错误率;即FAR=FRR时的错误率。多说话人识别,分割声纹识别—基本术语FAR(FalseAcceptRate声纹识别—基本术语0.10.20.51251020404020105210.50.20.1错误接受的概率(%)错误拒绝的概率(%)等错误率(ERR)=1%平衡点减少错误接受的可能,提高系统的安全。但是由于错误拒绝率高,会给用户使用带来不便。高安全性高方便性对于安全性要求不高的应用场景,可以适当提高错误接受率,使得用户容易进入系统。DET(DetectionErrorTradeoff)曲线声纹识别—基本术语0.10.20.5经典模型——GMM(1)GMM——高斯混合模型基本原理:根据从语音信号中提取的特征参数,为每一个说话人建立一个GMM。为处理的方便,人为的使不同说话人的模型的概率密度函数在形式上都是一样的,不同的只是函数中的参数。优点:简单高效,可以很好的描述从语音信号中提取的特征参数等不规则的数据。GMM是当今应用于说话人识别的最主流模型经典模型——GMM(1)GMM——高斯混合模型经典模型——GMM(2)一个M阶高斯混合模型的概率密度函数是由M个高斯概率密度函数加权求和得到,如下:其中M是混合模型的阶数,X是一个D维随机向量wi是混合权重,满足:bi(X)是子分布,每个子分布是D维的联合高斯概率分布,表示为:

是均值向量,是协方差矩阵经典模型——GMM(2)一个M阶高斯混合模型的概率密度函数是经典模型——GMM(3)完整的高斯混合模型由参数——均值向量、协方差矩阵和混合权重共同描述。因此,一个模型可表示为如下一个三元组:GMM计算结构:经典模型——GMM(3)完整的高斯混合模型由参数——均值向量经典模型——GMM(4)GMM的说话人鉴别(SpeakerIdentification)系统经典模型——GMM(4)GMM的说话人鉴别(SpeakerUBMUBM——通用背景模型UBM也是一个GMM,只是这个GMM需要用大量的不同说话人的语音数据经过训练来表示说话人无关的特征分布,这种特征是大多数说话人的共性特征。UBMUBM——通用背景模型GMM-UBM建模 说话人需要建立自己的模型时,就可以通过自适应UBM来得到个性特征,即修正后的参数,从而得到自己的GMM。GMM-UBM优点 实现信道均衡少量训练数据得到比较理想的说话人模型GMM-UBM建模说话人确认系统GMM-UBM说话人确认系统说话人确认系统GMM-UBM说话人确认系统研究热点技术难题:跨信道、噪声实验室理想条件√实际应用场合(远程、噪声背景)

×训练阶段识别阶段研究热点技术难题:跨信道、噪声解决办法信道补偿支持向量机(SVM)联合因子分析(JFA)迁移学习(TransferLearning)解决

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论