模式识别句法方法_第1页
模式识别句法方法_第2页
模式识别句法方法_第3页
模式识别句法方法_第4页
模式识别句法方法_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

模式识别句法方法第1页,课件共48页,创作于2023年2月第十章:语音识别基础第2页,课件共48页,创作于2023年2月语音识别概述语音是人类信息交流的基本手段之一让计算机能说会听是智能计算机系统的重要特征语音识别技术的应用将从根本上改变计算机的人机界面,从而对计算机的发展以及推广应用产生深远的影响3第3页,课件共48页,创作于2023年2月语音识别概述基于电话的语音识别技术,使计算机直接为客户提供金融证券和旅游等方面的信息查询及服务成为可能,进而成为电子商务进展中的重要一环作为声控产业,语音识别技术将对编辑排版、办公自动化、工业过程和机器操作的声控技术起到重大的推进作用。可以预言,语音技术必将对工业、金融、商业、文化、教育等诸方面事业产生革命性的影响4第4页,课件共48页,创作于2023年2月语音识别概述

微软:让计算机能说会听

IBM:ViaVoice仍居主流

Intel:做语音技术倡导者

面对如此广阔的应用领域,目前国内外众多公司正积极推动语音识别技术的应用。5第5页,课件共48页,创作于2023年2月语音识别概述微软:让计算机能说会听BillGates在97年世界计算机博览会(COMDEX)主题演讲会上描绘IT事业的发展宏图时,率先指出:下一代操作系统和应用程序的用户界面将是语音识别。工业界应对语音识别领域的重大突破做好充分准备,因为那将是一场席卷全球的另一次热潮。1998年11月5日,微软中国研究院在北京成立重点研究计算机在中文环境下的易用性6第6页,课件共48页,创作于2023年2月语音识别概述IBM:ViaVoice仍居主流IBM公司潜心研究语音识别技术迄今已达30年之久,投资超过2亿美元。IBM公司于1995年在北京成立了中国研究中心,中文语音信息处理成了该中心三大研究领域之一1997年9月4日,IBM在北京推出了中文连续语音识别产品ViaVoice。7第7页,课件共48页,创作于2023年2月语音识别概述Intel:做语音技术倡导者1998年,英特尔公司也宣布致力于推广语音识别技术,除了在北京举办首届语音技术国际论坛之外,还在北京、上海、成都、广州等地展开了“基于英特尔框架的语音识别技术”的宣传活动。联合了七家世界著名学术机构(中科院自动化所、清华大学、香港科技大学、香港中文大学、麻省理工学院、俄勒岗研究院、WATERLLOO大学)成立了“国际语音技术研究组织”,致力于计算机语音技术的基础研究8第8页,课件共48页,创作于2023年2月语音识别概述国内开展语音识别的科研机构和高等院校主要有中科院声学所、自动化所、清华大学、北方交通大学。已有不少语音识别系统已研制成功清华大学电子工程系与中国电子器件公司合作研制成功特定人语音识别与理解实时系统四川大学计算机中心研发的特定人连续英语---汉语语音翻译演示系统清华大学计算机科学与技术系研制的声控电话查号系统并投入实际使用9第9页,课件共48页,创作于2023年2月语音识别概述语音中包含有多种有用的信息:语义信息、语言信息、说话人信息、情感信息等语音识别是研究如何采用数字信号处理技术自动提取以及决定语音信号中的上述信息的一门新兴的边缘学科是模式识别的重要应用领域之一10第10页,课件共48页,创作于2023年2月语音识别的分类按识别任务说话人识别:说话人辩识、说话人确认语种识别关键词识别语音识别与理解11第11页,课件共48页,创作于2023年2月语音识别的分类按识别器的类型孤立单词识别连续单词识别连续言语识别12第12页,课件共48页,创作于2023年2月语音识别的分类按使用者情况特定人语音识别非特定人语音识别按词汇表大小有限词汇识别无限词汇识别13第13页,课件共48页,创作于2023年2月语音识别的关键问题连续语音词与词之间没有明显的停顿,词与词之间的分割比较困难声学识别基元(如音素)受前后音素发音方式的影响(协同发音)使特征变得不稳定不同人、不同心理和生理以及在不同的说话环境下说同一词时,声学信号特征会发生变化一个词的读音不仅包含了词义特征,而且还包含了说话人性别、年龄、情绪等大量与词义无关的信息,而这些信息的分离是不容易的14第14页,课件共48页,创作于2023年2月语音识别系统结构语音输入预处理特征提取模型建立训练识别模式匹配判决规则判决结果15第15页,课件共48页,创作于2023年2月语音信号预处理对语音信号进行转换,使之更适合计算机处理,并符合特征提取的要求语音信号数字化频率预加重分帧加窗16第16页,课件共48页,创作于2023年2月语音信号预处理语音信号数字化

话音(也称语音),频率范围通常为300Hz~3400Hz音乐(由乐器演奏形成的规范的符号化声音),其带宽可达到20Hz~20kHz语音信号的采样频率一般为8kHz,音乐信号的采样频率则应在40kHz以上

17第17页,课件共48页,创作于2023年2月语音信号预处理语音信号数字化

采样周期(T)·xa(t):模拟波形x(n)=x(nT):取样值时间振幅··············18第18页,课件共48页,创作于2023年2月语音信号预处理频率预加重

语音信号受声门激励和口鼻辐射的影响,高频部分(清音)幅度快速跌落预加重的目的是提升高频部分,使信号频谱平坦,以便于提取特征参数通常采用一阶FIR滤波器19第19页,课件共48页,创作于2023年2月语音信号预处理分帧处理与加窗

语音信号是时变的非平稳过程由于人的发音器官运动速度较慢,可以认为语音信号是局部平稳的,或短时平稳的采用分段或分帧来进行分析,即认为在同一帧时间内语音信号是平稳的一般每秒帧数为33-100帧20第20页,课件共48页,创作于2023年2月语音信号预处理分帧处理与加窗通过加窗处理实现语音信号分帧w(n)x(n)xj(n)=x(j+n)w(n)jj+N-121第21页,课件共48页,创作于2023年2月语音信号预处理矩形窗:

汉明窗(Hamming):哈宁窗(Hanning):WR=1=(0≤n<N-1)0=(Other){WHM=0.5-0.46cos(2πn/(N-1))(0≤n<N-1)0=(Other){WHN=0.5-0.5cos(2πn/(N-1))(0≤n<N-1)0=(Other){22第22页,课件共48页,创作于2023年2月语音信号的特征时域特征短时平均能量

N-1E=∑{x(n)2}

n=0短时平均幅度

N-1M=∑|x(n)|

n=023第23页,课件共48页,创作于2023年2月语音信号的特征时域特征短时平均过零率

N-1Z=∑{neg(x(n)x(n+1))}

n=0时域特征用于判断语音信号的起止位置

24第24页,课件共48页,创作于2023年2月语音信号的特征由于说话内容的语义特征、说话人的个性特征和语言特征总是交织在一起的,目前还没有找到将三者很好地分离的方法语音识别系统主要依靠语音信号的声学特征来进行识别25第25页,课件共48页,创作于2023年2月语音信号的特征语音信号的产生音源:声带音源(浊音)、非声带音源(清音)-声带振动周期:T(F0=1/T:基本频率)声道调音:对声道形状进行调整-声道共振频率:F1、F2、F3音源产生声道调音向外辐射26第26页,课件共48页,创作于2023年2月语音信号的特征语音信号的产生冲激串发生器时变数字滤波器随机数发生器有声/无声开关语音信号声道参数幅度控制27第27页,课件共48页,创作于2023年2月语音信号的特征基音周期指发浊音时声带振动所引起的准周期运动的时间间隔时域估计法:直接由语音波形来估计基音周期(自相关法、平均幅度差法)变换域估计法:将语音信号变换到频域来估计基音周期(倒谱法)28第28页,课件共48页,创作于2023年2月语音信号的特征共振峰:汉语拼音七个韵母的共振峰频率(Hz)29第29页,课件共48页,创作于2023年2月语音信号的特征频率特征30第30页,课件共48页,创作于2023年2月语音信号的特征线性预测系数研究结果表明,声道对声源信号的影响可视为一全极点时变滤波器,其系统函数为:

其中为时变参数31第31页,课件共48页,创作于2023年2月语音信号的特征线性预测系数则语音信号合成的差分方程为:可见,是前p个语音信号采样值的线性组合,故称为线性预测(LP)模型或自回归(AR)模型称为线性预测系数32第32页,课件共48页,创作于2023年2月语音信号的特征线性预测系数由于声道形状在时间上是变化的,故预测系数也是时变的。根据语音信号的短时平稳性,可以认为语音在一个分析帧(10-30ms)上是非时变的线性预测系数可从语音信号中提取出来33第33页,课件共48页,创作于2023年2月语音信号的特征线性预测系数计算线性预测系数常用方法为自相关法基本思想是使预测误差的均方值最小计算的准则是使均方误差极小34第34页,课件共48页,创作于2023年2月语音信号的特征令得到关于线性方程组35第35页,课件共48页,创作于2023年2月语音信号的特征其中称为语音短时自相关函数,N为语音帧的样点数,p为预测器阶数。用Durbin算法可解上述方程组。36第36页,课件共48页,创作于2023年2月语音信号的特征线性预测倒谱系数(LPCC)美尔频率倒谱系数(MFCC)37第37页,课件共48页,创作于2023年2月语音识别模型在训练阶段,采用合适的模型来表征语音特征参数常用模型包括:模板匹配模型概率统计生成模型(参数模型)神经网络模型融合模型38第38页,课件共48页,创作于2023年2月语音识别模型模板匹配模型(模板匹配法)从每类模式的训练语句中提取相应的特征向量,并以此为模板识别时,从语音信号中按同样的处理方法提取测试模板通过对参考模板的比较确定待识样本的类别最近邻模型(NN)、动态时间规整(DTW)模型、矢量量化(VQ)模型

39第39页,课件共48页,创作于2023年2月语音识别模型动态时间规整模型(DTW)是模板匹配模型的典型应用解决匹配时音长不一致问题线性匹配与非线性匹配40第40页,课件共48页,创作于2023年2月语音识别模型动态时间规整模型(DTW)

待测模式T参考模式Rttttt直接匹配D1(T,R)线性匹配D2(T,R)非线性匹配D3(T,R)41第41页,课件共48页,创作于2023年2月语音识别模型动态时间规整模型(DTW)词汇表:W(n),n=1,2,…,N参考模式:R(k),k=1,2,…,N待识模式:T利用DTW算法,计算所有Dk(T,R(k))对所有Dk(T,R(k))求其最小值,该最小失真度所对应的下标n就为识别结果。

n=argmin{Dk}

42第42页,课件共48页,创作于2023年2月语音识别模型矢量量化模型语音序列经加窗处理,成为若干短时段的时间序列

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论