版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、语音信号处理与识别发展n声纹识别的起源,贝尔实验室开发的Audrey语言识别系统n60年代,线性预测编码技术(LPC)和动态规划技术(DP)n70年代,LPC和DTW的发展,提出了矢量量化(VQ)和隐马尔科夫模型(HMM)理论。n80年代,卡耐基梅隆大学突破了大量词汇、连续语音和非特定人三大障碍,实现了基于隐马尔客服模型的语言识别Sphinx系统。n90年代,语音发展相对缓慢,并没有多大创新,许多公司斥巨资将语音识别系统实用化。如:IBM的Via Voice等等。n我国在语音识别方面起步相对较晚,但经过几十年的努力也取得了很大成就。 “863计划”,大量词汇非特定人连续语音识别演示系统,多项核
2、心技术和创新性方法n21世纪,移动互动网的兴语音识别系统的发展起到了很大的推动作用,有安卓系统内嵌语音识别系统、Google语音翻译、科大讯飞推出的讯飞口讯和语音云识别等相关产品也得到了很大的应用。优缺点:n声纹识别具有很多优点:声纹识别具有很多优点:n纯天然,识别的特征是声音,不用接触n测试设备成本低,不需要特殊设备,对采样和量化的的芯片要求不高。n在远程应用和移动互联网环境中,可以通过电话和移动设备进行身份确认和辨认。n但同时也有一些缺点:但同时也有一些缺点:n一个人的声音具有易变性,易受身体状况、年龄、情绪等的影响;n不同的麦克风和信道对识别性能有影响;n环境噪音对识别有干扰;混合说话人
3、的情形下人的声纹特征不易提取 声纹识别唯一性n声纹识别:声纹识别: 声纹识别(Voiceprint Recognition, VPR),也称为说话人识别(Speaker Recognition),是从说话人发出的语音信号中提取声纹信息。具有排他性,因为每个人的自然特征不同,所以声纹和指纹一样都各具特色,声纹识别技术可以作为鉴别身份的一种重要手段 。通过声纹识别技术和位置服务技术(卫星定位等)相结合,实现远程身份确认,从而可达到被监管对象真实的地理位置或活动轨迹。 相关概念n声纹识别按任务有两类,即说话人辨认声纹识别按任务有两类,即说话人辨认(Speaker Identification)和说话
4、人确和说话人确认认(Speaker Verification)。 说话人辨认:用以判断某段语音是若干人中的哪一个所说的,是“多选一”问题。 说话人确认:用以确认某段语音是否是指定的某个人所说的,是“一对一判别”问题。 n声纹识别按类型有文本相关的声纹识别按类型有文本相关的(Text-Dependent)和文本无关的和文本无关的(Text-Independent)两种。两种。 文本相关:因此可以达到较好的识别效果,但系统需要系统要求用户按照规定的内容发音,而识别时也必须按规定的内容发音用户配合。 文本无关:系统则不规定说话人的发音内容,模型建立相对困难,但用户使用方便,可应用范围较宽。 总框图采
5、样量化首先对语音进行采样量化和预处理,预处理包括预加重处理、加窗、分帧和端点检测。采样量化采样量化n预滤波是为了防混叠和阻止工频信号的干扰,预滤波器是带通滤波器。n自动增益为了放大信号的倍数,以便于后续计算控制。nA/D转换是为了把模拟信号转换为数字信号, 以便计算机进行相关处理,但在转换中要对信号进行量化这个阶段会产生量化噪声。A/D转换器分为线性和非线性两类。预处理n采样后需要对信号进行预处理,可提高信噪比,以便后续操作。n预加重可以提升高频段;在整个频段中保持频谱平坦;方便进行频谱分析,预加重之后,开始进行分帧加窗处理,我们把10ms-30ms内语音信号看成是平稳的,为得到短时的语音信号
6、,要对其进行加窗操作,窗函数平滑地滑动,将语音信号分成帧。n在选择窗函数时,窗函数必须在时域时减小两端时间窗的坡度,使得窗口边缘缓慢平滑降为零;在频域,带宽要在3db以上。常用的窗函数有:矩形窗和汉明窗。通常情况下,选择汉明窗。n通过分桢加窗后,语音信号就被分割成短时语音信号,利用数字信号处理技术,对这些信号进行处理,提取语音信号的特征参数。语音信号时域分析n时域分析简单直观,直接分析语音信号时域波形提取特征参数,一般用于最基本信号处理。主要方法有短时平均能量、短时平均幅度、端点检测和短时平均过零率。n短时平均能量:语音信号的能量随时间发生变化,清音和浊音间的能量差别很大,浊音能量大,可以分辨
7、清音和浊音,也可以界定有声段和无声段、声母及韵母。n短时平均过零率:表示每帧内信号过零的次数,可初步判断清浊音,清音过零率高,可以很好反映信号频率变化。适合背景噪声较大的情况。n端点检测:是将短时平均能量和短时平均过零率结合起来,进行端点检测,可以很好的检测语音是否开始和结束;目的就是为了确定语音信号的起始点和结束点位置,避免无声段的干扰。n频域分析方法有:带通滤波器组法、傅里叶变换法和线性预测法。n短时傅里叶分析:语音信号非平稳,不能用标准傅里叶变换,语音信号在10-30ms时间是平稳的。短时傅里叶变换可表示为:n经过短时傅里叶变换,就可以得到短时功率谱。从而可以得到与语谱图,语谱图表示语音
8、频谱随时间变换的图形。不同说话者的语谱图的声纹是不一样的。语音信号频域分析特征参数提取n特征提取在声纹识别系统中占有很重要的作用,特征提取方法有:线性预测分析LPC、线性预测倒谱LPCC、梅尔倒谱MFCCnLPC和LPCC基本思想:语音信号当前样点的值可以用过去若干个样点值的线性组合来逼近。使实际采样值与预测值之间的均方差最小,可得LPC系数。n梅尔倒谱MFCC:模拟人的听觉模型,通常情况下,人们对声音的高低和频率并不满足线性正比关系,Mel参数值和实际声音频率成对数关系,Mel(f)=2595lg(1+f/700),对低频比高频敏感。n基本步骤:预处理-FFT变换-短时能量谱-梅尔滤波-对数
9、能量谱-DCT变换-MFCC参数n声纹注册,用户在服务器上拥有自己的声纹模型,用户说话时,说话人确认模块将用户语音和此声纹模型进行对比,确认是否用户本人,完成认证。n通过手机SIM卡实现手机绑定,可以实现定位及语音信号采集,以确认用户在那个区域及在与什么人通话,从而检测用户是否从事危险活动。n训练阶段和识别阶段是说话人识别的两个主要阶段。n训练阶段:指的是把每个说话人语音,进行预处理,特征提取,建立相应的数据库模板。n识别阶段:把测试者语音经过特征提取处理之后,和之前建立的模板进行匹配。 进行说话人辨认实验时,最接近测试语音的说话人就被认为是待识别的人。 进行说话人确认实验时,通过测试音和模板
10、的相似度,来判决是否某人。身份确认n语音资料库 该语音库的存储方式是用说话人文件包进行组织的,标注信息包括如下内容: 录音特性:录音时间,录音地点,录音通道等 说话人信息:姓名,性别,出生日期,家庭所在地,现在居住地址,联系电话,电子邮件 数据相关信息:采样频率,数据量化位数,(A/D)数据编码格式、语音文本信息及录音文本内容n特征匹配的识别方法:n动态时间规整(DTW);n矢量量化(VQ);n隐形马尔可夫模型(HMM);n人工神经网络(ANN)nDTW:人的每次发音不同,发音长短也不一样,不能直接将测试模板与参考模板直接比较。DWT可以解决在时间上不匹配的问题,设测试模板和参考模板分别为Xm和Yn,DWT就是找到函数m=f(n),使测试模板时间轴n映射到参考模板时间轴m上,使两模板匹配时的累计距离达到最小。nVQ:在训练阶段,把每个人的语音信号的特征参数进行分类,并生成码子存为码本,识别时,将测试语音参数序列与码本中的每个码子比较,计算最小距离。nHMM:是一种基于传输概率和转移概率的随机模型,把语音当作是可观察到的符号序列组成的随机过程。训练时,通过对训练语言的特征参数序列得到HMM的状态转移
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 教科版一年级上册科学期末测试卷【易错题】
- 教科版二年级上册科学期末测试卷带答案(完整版)
- 从创业成功案例看创新思维在医疗健康产业的应用与启示
- 与星共舞-小学生的天文观察日志分享
- 从实践出发分析成功案例在安全生产的启示
- 工厂应急安全培训
- 制造业创新驱动的转型升级及市场预测
- 前沿科技展会的视觉设计与活动安排
- 【中考突破】中考历史-第5讲-科学技术和思想文化复习课件-新人教版
- 亲子共游家庭教育的新趋势与活动规划
- 商场用电安全培训
- 《中小学教育惩戒规则(试行)》宣讲培训
- 结清货款合同范例
- 开题报告:职普融通与职业教育高质量发展:从国际经验到中国路径创新
- 变、配电站防火制度范文(2篇)
- 九年级上册人教版数学期末综合知识模拟试卷(含答案)
- 重大版小英小学六年级上期期末测试
- 微积分知到智慧树章节测试课后答案2024年秋铜陵学院
- 金融科技UI设计
- 《头脑风暴》课件
- 安全生产知识考试题库(有答案)-安全考试题库
评论
0/150
提交评论