语音信号处理期末复习_第1页
语音信号处理期末复习_第2页
语音信号处理期末复习_第3页
语音信号处理期末复习_第4页
语音信号处理期末复习_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

考试时间和地点12月26日(周四)14:00-15:40地点:4-202复习课第一章绪论一些语音处理的应用领域语音压缩语音合成语音识别说话人识别……什么是语音语音是人类发音器官发出的、具有一定意义的、能起社会交际作用的声音。能够代表一定的意义,这是语言的声音同自然界其他一切声音的本质区别。自然的风声、水声、动物叫声(不来自人体发音器官,无明确意义)吹口哨,打鼾,口技(来自发音器官,但五明确意义,不能交际)什么是语音处理语音信号处理简称语音处理,是以语音学和数字信号处理为基础而形成的一门综合性学科。处理的目的是要得到一些语音参数以便高效地传输或存储,或者通过处理的某种运算以达到某种用途的要求,例如人工合成出语音,辨识出说话者,识别讲话的内容等。它包括语音编码、语音合成、语音识别和说话人识别四大分支。(下面简单介绍)语音的物理属性物理声学认为声波具有响度音调音色三种要素。第二章语音信号处理

的基础知识语音构成音素是语音的最小构成单位根据声带是否振动,音素可以分为浊音和清音浊音由声带振动产生的音为浊音包括所有原音和一些辅音清音不由声带振动产生的音为清音包括另一部分辅音人体发声的部位声带——震动的来源Tp为基音周期,倒数为基音频率,用fp表示,取决于声带的尺寸和特性男性说话者的fp大致分布在60-200Hz范围内女性说话者和小孩的fp值在200-450Hz范围内同一个人所发出的声音有高低变化,是靠控制声带的松紧来调节的。2.4语音信号的数字模型(重点)语音信号的产生模型(p7,图2-3)激励模型声管模型共振峰模型辐射模型声道的模型声门的模型口唇的模型平均意见得分(MOS)MOS得分采用5级评分标准MOS得分质量等级失真级别5优不觉察4良刚有觉察3可有觉察且稍有可厌2差明显觉察且可厌但可忍受1坏不可忍受第三章语音信号的

时域分析语音信号的稳态——帧的概念语音自身从长时间看是非稳态过程,从短时间看是相对稳定的,既“短时性”。将语音分为一段一段的,每一段称为“一帧”,大概时间为10-30ms短时时域分析是语音处理的基本方法,也是最直观、最易理解的方法3.3短时能量分析短时能量定义短时:通过加窗来实现能量:通过求信号幅度的平方来实现窗的位置随n变化窗的类型直角窗(矩形窗)窗的类型海明窗(Hamming,也称汉明窗,升余弦)时域比较直角窗海明窗频域对比(注意纵坐标不同)直角窗海明窗短时平均幅度MnEn需要将信号求平方,大信号急剧变大,要求动态范围大Mn只是取绝对值,不需增加额外的动态范围其功能与能量是一样的,区分清、浊音等3.4短时过零分析过零率短时过零分析:过零率就是每秒内信号值通过零值的次数,短时过零就是指在一段时间内(一帧内)平均的过零率。对于窄带信号,是很好的统计其频率特性的参数最典型的是正弦波(单一频率)3.5短时相关分析3.5.1短时自相关函数自相关函数短时自相关函数3.5.2修正的短时自相关函数为了解决窗口长度对自相关函数的影响原函数修正函数作业:计算序列{0,1,2,3,0,1,2,3,0,1,2,3}求:1.窗口长度为10的自相关函数2.窗口长度为6的自相关函数3.窗口长度为6的修正自相关函数第四章语音信号的

频域分析语音信号的频域分析本质:加窗后进行傅里叶变换适合语音的短时性同时得到语音的时间、频率特性时间分辨率与频谱分辨率鱼和熊掌不能兼得!!!P36下半部分对于直角窗,频域第一个过零点N越大,主瓣越窄,频率分辨率越高,但时域分辨率越低,其实,当N大于一个语素,就失去分析的意义语谱图第五章语音信号的

同态分析目前解卷的算法主要有两种同态分析线性预测分析同态分析也称“倒谱分析”解卷的原理倒谱的作用:(1)区分清/浊音(2)求浊音的基音周期,可以得到浊音的激励信号。(3)得到声道的冲激响应h(n)第六章语音信号的

线性预测分析线性预测的概念P61页第四段基本概念:一个(当前的)语音抽样值可以用过去若干个抽样值的线性组合来逼近。线性组合的系数可以通过计算采样值与预测值的差别(如最小均方误差)等方法得到。第七章语音信号的

矢量量化矢量量化的过程以2维矢量量化为例过程见黑板重要的变量(p84最上面)矢量译码见黑板传输中只传区域的代码Yi,数据量小,且具有一定的保密性量化误差第八章隐马尔科夫模型

(HMM)HMM的独到之处我们已学过的所有算法(短时傅里叶,线性预测,……)都是基于平稳过程的语音本身是时变的,不平稳的所以需要将语音分帧所以以上方法只能提取独立的帧内特征HMM能掌握语音长时间的特性,不需要分帧第9章基音提取和

共振峰估计提取基音周期的方法自相关法并行处理法倒谱法线性预测谱第十章语音信号的

波形编码语音编码的分类(很重要)分为:波形编码、声码器和混合型波形编码声码器编码信息波形尽量恢复波形短时谱包络音源信息(音调、幅度、浊/清音)数码率32~64kbit/s中、宽带2.4~16kbit/s窄带,甚至低于1.2k适用对象任何声音人讲话的声音优点还原的声音质量高,可懂度和自然度都较好可以分别说话的人压缩率高可懂度较好自然度不好,不好分别说话人存在问题由于受量化噪声的限制,降低码率较困难环境噪声使语音质量下降误码是语音质量下降,提高语音质量困难,处理复杂典型方式时域:PCM,ADPCM,DM,ADM,APC频域:SBC,ATC通道声码器,共振峰声码器,同态声码器,LPC声码器常用波形编码方式PCM,非均匀PCM预测编码及其自适应APC自适应差分脉冲编码调制(ADPCM)及自适应增量调试(ADM)子带编码(SBC)自适应变换编码(ATC)数字化分为两步:采样和量化采样精度至少11bit(保证信噪比不低于60dB)语音质量广播质量长途电话质量通信质量合成质量质量高质量低10.3.2非均匀量化PCMA律和μ律输出的数据率为64kb/s。CCITT推荐的G.711标准A律(A-Law)压扩(G.711)主要用在欧洲和中国大陆等地区的数字电话通信中m

律(m-Law)压扩(G.711)主要用在北美和日本等地区的数字电话通信中10.5.2增量调制(DM)及ADM增量调制(DM:DeltaModulation)提高取样率后,只用1bit来量化斜率过载散弹噪声第11章声码器编码相位声码器(p136)类似子带编码在频域将语音信号分为多个子带,每个子带非常窄,大概100Hz只对子带内的“幅度”和“相位的导数”直接编码通道声码器(p137)与相位声码器类似保留频谱幅度和基音周期,不对“相位的导数”编码实际上,编码内容近似为声音信号的频谱包络,而频谱包络比声音信号本身变化慢的多第12章语音合成语音合成分类分为三类波形合成参数合成规则合成(最难的,直接阅读文本)第13章语音识别13.1概述定义:研究使机器能准确地听出人的语音内容的问题,即准确地识别人所说的话未来,对着机器(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论