版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、School of Computer & Information 语音信号处理 Speech Signal Processing 2021/6/30 语音信号处理 基础知识以及分析、处理技术(语音信号处理 赵力编著) 隐马尔可夫模型(Fundamentals of Speech Recognition L.Rabiner 著) 专题报告 语音信号处理(参考文献) 语音信号处理 赵力编著 语音信号处理 韩纪庆编著 Fundamentals of Speech Recognition L.Rabiner 著 现代语音技术基础与应用 蔡莲红编著 音频信息处理 韩纪庆编著 国际会议(ICASSP),国
2、际期刊(speech communication) 基础知识以及分析、处理技术 语音信号处理的基础知识 语音信号的短时时域分析 线性预测分析和倒谱分析 隐马尔可夫模型 专题报告 语音信号处理 基础知识以及分析、处理技术 语音信号处理的基础知识 1.1 概述: 发音语音学、声学语音学和听觉语音学三大分支 音高、音强、音长、音色四种要素 1.2 语音生成系统及语音信号产生模型: 语音发音系统图 激励+声道+辐射模型 1.3 语音听觉系统(简略) 1.4 语音信号的语谱图(里程碑,1941,贝尔实验室) 宽带语谱图:良好的时间分辨率,频率分辨率较差; 窄带语谱图:良好的频率分辨率,时间分辨率较差。
3、基础知识以及分析、处理技术 语音信号的短时时域分析 2.1 语音信号的数字化和预处理: 分帧、加窗、预加重 2.2 语音信号的时域分析: 短时能量、短时平均幅度、短时过零率 短时自相关函数、短时平均幅度差函数 2.3 语音信号时域分析的应用 端点检测 基音周期的估计 基础知识以及分析、处理技术 倒谱分析和线性预测分析 3.1 短时傅里叶谱 3.2 同态信号处理的基本原理 3.3 线性预测分析的基本原理 基础知识以及分析、处理技术 隐马尔可夫模型(HMM) HMM的基本思想 HMM的三大算法 HMM实现中的问题 专题报告 语音信号处理 隐马尔可夫模型 HMM的基本思想 4.1 HMM的基本思想
4、l 马尔可夫链(Markov Chain) l 离散隐马尔可夫模型(Extension,urn-and-ball) l 隐马尔可夫模型的定义和元素(Definition and Elements) 隐马尔可夫模型 HMM的三大算法 4.2 HMM的三大算法 l Forward-Backward算法(Probability Evaluation) l Viterbi 算法 (Optimal State Sequence) l Baum- Welch 重估算法 (Parameter Estimation) 隐马尔可夫模型 HMM实现中的问题 l 初始模型的选取(Initial Estimates
5、of HMM) l 多个观察值序列训练(Multiple Observation Sequences) l 数据下溢问题(Underflow,Scaling) l 训练数据的不足(Insufficient Training Data, Adaptation) 4.3 HMM实现中的问题 基础知识以及分析、处理技术 隐马尔可夫模型 专题报告 语音识别 说话人识别(声纹识别) 情感语音 音视频双模态 语音检索 语音数据库设计与建立 语音信号处理 l 动态时间规整(DTW)算法 动态规划(Dynamic Programming)的思想 l Level-Building 算法 和 One-Pass 算
6、法 (难点) 参考L.Rabiner的书,但中文讲授,借助多媒体较直观地显示 前向-反向搜索的过程 专题报告 语音识别 l Mel频率倒谱系数(MFCC特征参数) 主要英文讲授,包括:主要英文讲授,包括: 专题报告 说话人识别(声纹识别) l 应用背景及基本术语 Speaker-verification & Speaker-identification Text-dependent & Text-independent l 模型框架 GMM(Gaussian Mixture Model)模型 GMM-UBM 以及 GMM-MAP-UBM 框架 l 评价指标及美国NIST比赛的实验结果 情感计算
7、是近年来研究的一个热门话题。让计算机带有情感情感计算是近年来研究的一个热门话题。让计算机带有情感, , 这是人工智能与人机交互追求的目标。作为表达信息的最自然这是人工智能与人机交互追求的目标。作为表达信息的最自然 和最直接的方式之一和最直接的方式之一, , 语音也是传递情绪的最重要媒介之一。语音也是传递情绪的最重要媒介之一。 从语音中识别出说话人的情感状态是一个模式识别问题, 包括: 专题报告 情感语音 l 情感语音特征 能量、基音 时长、共振峰 l 情感分类 ANN SVM HMM / HCRF 视觉和听觉是人类感知的两种重要方式,包括:视觉和听觉是人类感知的两种重要方式,包括: 专题报告
8、音视频双模态(Audio-Visual) l 应用背景 语音识别和说话人识别的鲁棒性问题(Visual Speech, Viseme) 情感语音识别 l 双模态的融合 特征级融合 决策级融合 模型级融合(DBN) l 美国录制的双模态数据库 (录像) 语音检索是一个重要的分支,用于大规模数据库的语声检索。语音检索是一个重要的分支,用于大规模数据库的语声检索。 关键分为:切分(关键分为:切分(SegmentationSegmentation)和聚类()和聚类(ClusteringClustering)。)。 汉语语音音节切分汉语语音音节切分 评价机制评价机制 基于说话人的语音切分基于说话人的语音切分语音数据流语音数据流 专题报告 语音检索 数据库建立是研究基础:数据库建立是研究基础: 专题报告 语音数据库设计与建立 实验设计(伪装、诱发、自然) 录制环境 注释、评估(离散、维度) 四个人一组,分工协作: 检索文献(至少检索文献(至少1 1篇英文)篇英文) 理解文献内容(列出的文献在报告中有对应的内容)理解文献内容(列出的文献在报告中有对应的内容) 写报告(一组一份)写报告(一组一份) 做陈述(可选。中英文均
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年广场景观施工合同
- 【初中生物】从种到界-2024-2025学年七年级生物上册同步教学课件(人教版2024)
- 2024租地合同协议书范本农村租地协议书范本
- 2024年度「新能源领域研究开发」合同
- 2024年冷库建造施工合同模板
- 2024年度销售合同:医疗设备供应
- 2024年店铺装修合同范本
- 2024年度」品牌代言协议明星效应助力品牌
- 2024年度智能制造生产线改造合同
- 认识梯形课件教学课件
- 天然气管网安装工程施工过程岗位操作指南
- 船用甲板刷商业机会挖掘与战略布局策略研究报告
- 公司网络安全制度
- 跨学科主题学习- 探索外来食料作物传播史(课件)七年级地理上册同步高效备课课件(人教版2024)
- 学校编制外临时代课教师聘用管理办法
- 第五单元测试卷(单元测试)-2024-2025学年统编版六年级上册语文
- 五级应急救援员职业鉴定考试题库(含答案)
- 第7课 实践出真知-【中职专用】2024年中职思想政治《哲学与人生》金牌课件(高教版2023·基础模块)
- 《电工电子技术基础》高职全套教学课件
- 国开电大-工程数学(本)-工程数学第4次作业-形考答案
- 全国文明单位测评体系(2020年版)
评论
0/150
提交评论