南京邮电大学大学生科技创新训练计划STITP_第1页
南京邮电大学大学生科技创新训练计划STITP_第2页
南京邮电大学大学生科技创新训练计划STITP_第3页
南京邮电大学大学生科技创新训练计划STITP_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、项目编号: SZDG2016003 项目名称:基于模型自适应的高可靠性说话人身份识别研究 参加项目的学生: 徐 波 通信工程 B14010332申子健 通信工程 B14010617陈爱月 通信工程 B14010307指导教师:邵曦通信与信息工程学院成果形式:软件研究成果简介:本项目利用 MA TLAB 模型仿真功能,实现语音识别技术来确定说话人身份。在收集到 语音信号后,完成对信号的处理。主要是先进行MFCC特征提取,然后使用语音识别技术, 将提取到的信息和已有的说话人模型进行比对,来确定说话人是否为本人,最终搭建成一个 输入一处理一输出的语音识别平台。研究内容包括与文本无关的说话人身份识别实

2、现,以及 识别算法的优化。项目中应用的关键技术:MFCC 语音特征提取技术,将格式为WAV的语音文件转为 HTK格式,高斯混合模型(GMM),通用背景模型(UBM),极大似然估计算法(EM),最大后 验准则算法(MAP ),支持向量机技术(SVM )。我们为本项目详细撰写了说明书,PPT演示模板,项目结题报告。特色与创新点:1.只需要说话人的WAV文件,修改极少的代码,即可方便的扩大现有语音库以及更改 目标说话人,该算法系统可以对现实生活中的任何一个人进行识别;2在说话人身份识别的算法系统中,测试语音不需要规定具体说的内容,只要有声纹 特征,即可进行识别;3将 SVM 算法用于计算说话人得分的

3、环节,将低维度线性不可分问题转换为高维线 性可分问题,可以有效提高现有算法的识别精度。该项目基于一种新型的模型自适应方法进行说话人身份的识别,该方法采用高斯混合模 型与支持向量机技术结合,无论是在识别概率与识别时间这两方面均较传统识别方法有提 高。而且,当用户说话时背景有较大噪声时,该方法能对噪声有鲁棒性。该项目具有广阔的 应用前景和商业价值。成果图片:图 1:录入测试说话人的语音:图1录入测试说话人的语音图2:系统给出的识别结果。其中score的值的大小代表着测试说话人是目标说话人的概率,scores1.0就认为测试者是目标说话人,scores1.0认为测试者是“伪造者”图2系统识别结果图3:说话人识别的实验结果通过DET (Detection Error Tradeoff)曲线表示,该曲线在 模式识别尤其是语音识别的研究比较常见,该曲线横坐标表示错误接受率,纵坐标表示错误 拒绝率,一般情况下从原点做y=x直线与DET曲线交点的横(纵)坐标即为错误率。我们 将GMM-UBM的计算结果和GMM-SVM的计算结果在同一张图上,可以看到使用向量机技术进行 说话人身份识别能够在传统的高斯混合模型的基础上等误识率将实现将近4%的提高:2010吕 2 1 seNULj3BH 乡 1bn esi

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论