单片机的C语言应用程序设计_第1页
单片机的C语言应用程序设计_第2页
单片机的C语言应用程序设计_第3页
单片机的C语言应用程序设计_第4页
单片机的C语言应用程序设计_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、School of Computer & Information 语音信号处理 Speech Signal Processing 2021/6/30 语音信号处理 基础知识以及分析、处理技术(语音信号处理 赵力编著) 隐马尔可夫模型(Fundamentals of Speech Recognition L.Rabiner 著) 专题报告 语音信号处理(参考文献) 语音信号处理 赵力编著 语音信号处理 韩纪庆编著 Fundamentals of Speech Recognition L.Rabiner 著 现代语音技术基础与应用 蔡莲红编著 音频信息处理 韩纪庆编著 国际会议(ICASSP),国

2、际期刊(speech communication) 基础知识以及分析、处理技术 语音信号处理的基础知识 语音信号的短时时域分析 线性预测分析和倒谱分析 隐马尔可夫模型 专题报告 语音信号处理 基础知识以及分析、处理技术 语音信号处理的基础知识 1.1 概述: 发音语音学、声学语音学和听觉语音学三大分支 音高、音强、音长、音色四种要素 1.2 语音生成系统及语音信号产生模型: 语音发音系统图 激励+声道+辐射模型 1.3 语音听觉系统(简略) 1.4 语音信号的语谱图(里程碑,1941,贝尔实验室) 宽带语谱图:良好的时间分辨率,频率分辨率较差; 窄带语谱图:良好的频率分辨率,时间分辨率较差。

3、基础知识以及分析、处理技术 语音信号的短时时域分析 2.1 语音信号的数字化和预处理: 分帧、加窗、预加重 2.2 语音信号的时域分析: 短时能量、短时平均幅度、短时过零率 短时自相关函数、短时平均幅度差函数 2.3 语音信号时域分析的应用 端点检测 基音周期的估计 基础知识以及分析、处理技术 倒谱分析和线性预测分析 3.1 短时傅里叶谱 3.2 同态信号处理的基本原理 3.3 线性预测分析的基本原理 基础知识以及分析、处理技术 隐马尔可夫模型(HMM) HMM的基本思想 HMM的三大算法 HMM实现中的问题 专题报告 语音信号处理 隐马尔可夫模型 HMM的基本思想 4.1 HMM的基本思想

4、l 马尔可夫链(Markov Chain) l 离散隐马尔可夫模型(Extension,urn-and-ball) l 隐马尔可夫模型的定义和元素(Definition and Elements) 隐马尔可夫模型 HMM的三大算法 4.2 HMM的三大算法 l Forward-Backward算法(Probability Evaluation) l Viterbi 算法 (Optimal State Sequence) l Baum- Welch 重估算法 (Parameter Estimation) 隐马尔可夫模型 HMM实现中的问题 l 初始模型的选取(Initial Estimates

5、of HMM) l 多个观察值序列训练(Multiple Observation Sequences) l 数据下溢问题(Underflow,Scaling) l 训练数据的不足(Insufficient Training Data, Adaptation) 4.3 HMM实现中的问题 基础知识以及分析、处理技术 隐马尔可夫模型 专题报告 语音识别 说话人识别(声纹识别) 情感语音 音视频双模态 语音检索 语音数据库设计与建立 语音信号处理 l 动态时间规整(DTW)算法 动态规划(Dynamic Programming)的思想 l Level-Building 算法 和 One-Pass 算

6、法 (难点) 参考L.Rabiner的书,但中文讲授,借助多媒体较直观地显示 前向-反向搜索的过程 专题报告 语音识别 l Mel频率倒谱系数(MFCC特征参数) 主要英文讲授,包括:主要英文讲授,包括: 专题报告 说话人识别(声纹识别) l 应用背景及基本术语 Speaker-verification & Speaker-identification Text-dependent & Text-independent l 模型框架 GMM(Gaussian Mixture Model)模型 GMM-UBM 以及 GMM-MAP-UBM 框架 l 评价指标及美国NIST比赛的实验结果 情感计算

7、是近年来研究的一个热门话题。让计算机带有情感情感计算是近年来研究的一个热门话题。让计算机带有情感, , 这是人工智能与人机交互追求的目标。作为表达信息的最自然这是人工智能与人机交互追求的目标。作为表达信息的最自然 和最直接的方式之一和最直接的方式之一, , 语音也是传递情绪的最重要媒介之一。语音也是传递情绪的最重要媒介之一。 从语音中识别出说话人的情感状态是一个模式识别问题, 包括: 专题报告 情感语音 l 情感语音特征 能量、基音 时长、共振峰 l 情感分类 ANN SVM HMM / HCRF 视觉和听觉是人类感知的两种重要方式,包括:视觉和听觉是人类感知的两种重要方式,包括: 专题报告

8、音视频双模态(Audio-Visual) l 应用背景 语音识别和说话人识别的鲁棒性问题(Visual Speech, Viseme) 情感语音识别 l 双模态的融合 特征级融合 决策级融合 模型级融合(DBN) l 美国录制的双模态数据库 (录像) 语音检索是一个重要的分支,用于大规模数据库的语声检索。语音检索是一个重要的分支,用于大规模数据库的语声检索。 关键分为:切分(关键分为:切分(SegmentationSegmentation)和聚类()和聚类(ClusteringClustering)。)。 汉语语音音节切分汉语语音音节切分 评价机制评价机制 基于说话人的语音切分基于说话人的语音切分语音数据流语音数据流 专题报告 语音检索 数据库建立是研究基础:数据库建立是研究基础: 专题报告 语音数据库设计与建立 实验设计(伪装、诱发、自然) 录制环境 注释、评估(离散、维度) 四个人一组,分工协作: 检索文献(至少检索文献(至少1 1篇英文)篇英文) 理解文献内容(列出的文献在报告中有对应的内容)理解文献内容(列出的文献在报告中有对应的内容) 写报告(一组一份)写报告(一组一份) 做陈述(可选。中英文均

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论