




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
语音信号处理SpeechSignalProcessing中国矿业大学信息工程系第1页全书三篇,16章(讲15章)第一篇语音信号处理基础第二章语音信号处理基础知识第一章绪论第2页第二篇语音信号分析第三章语音信号时域分析第四章语音信号短时傅里叶分析第五章语音信号同态滤波及倒谱分析第六章语音信号线性预测分析第七章语音信号矢量量化第八章隐马尔可夫模型(HMM)第九章语音检测分析第3页第三篇语音信号处理技术与应用第十章语音编码(一)——波形编码第十一章语音编码(二)——声码器技术与混合编码第十二章语音合成第十三章语音识别第十四章说话人识别第十五章语音增强第4页第二章语音信号处理基础知识语音产生语音分类语音基本特性语音时间波形和频谱特性语音信号统计特性第5页声道模型语音信号产生模型鼓励模型辐射模型声管模型共振峰模型级联型并联型混合型第6页语音感知定义人耳听力范围声音三要素掩蔽效应第7页第二章思考题:什么叫语言?什么叫语音?人类发音器官包括哪些?在发音时各起了什么作用?解释下列概念:基音频率、共振峰、浊音、清音。语音信号模型包括哪些子模型?鼓励模型和辐射模型各属于什么性质滤波器?第8页第三章语音信号时域分析语音处理目标语音信号分析办法短时分析技术第9页语音信号数字化和预处理取样率选择量化字长选择预处理短时能量分析短时平均能量定义窗口形状选择窗口长度主要用途直角窗和海明窗频率特性比较第10页短时平均幅度短时过零分析过零分析概念短时平均过零数实现短时平均过零数应用第11页短时有关分析自有关函数定义自有关函数性质短时自有关函数定义修正短时自有关函数短时平均幅度差函数(AMDF)有关分析第12页第三章思考题:1.在语音信号参数分析前为何要进行预处理,有哪些预处理过程?2.短时平均能量(平均幅度)和短时平均过零率定义。这两种时域参数用途。窗口函数长度和形状对它们有什么影响?3.短时自有关函数和短时平均幅度差函数定义和用途,它们间有什么差异?第13页第四章语音信号短时傅里叶分析短时傅里叶变换定义短时傅里叶变换取样率标准傅里叶变换解释滤波器解释语音信号短时综合滤波器组求和法语谱图可同步在时间和频率上显示语音频谱随时间变化。第14页第四章思考题:语音信号短时谱定义。如何提升短时谱频率辨别率?在求语音信号短时谱时,对窗函数有什么要求?对语音信号频谱分析采取海明窗和矩形窗各有什么特点?3.什么是语谱图?它有什么特性?第15页第五章语音信号同态滤波及倒谱分析同态信号处理也叫同态滤波,它实现了将卷积关系变换为求和关系分离处理。复倒谱和倒谱同态信号处理基本原理卷积同态系统模型特性系统D*[]和D*-1[]三步数学运算语音信号两个卷积分量复倒谱避免相位卷绕算法最小相位信号序列:信号零极点所有在z平面单位圆内。第16页1.卷积同态系统组成及意义?特性系统D*[]和逆特性系统D*-1[]运算三个步骤是什么?2.什么是复倒谱?什么是倒谱?清、浊音复倒谱或倒谱各有什么特点?第五章思考题:第17页主要内容6.1概述6.2线性预测分析基本原理6.3线性预测分析解法——自有关法6.4格型法6.5线性预测分析应用---LPC谱估计和LPC复倒谱第六章语音信号的线性预测分析第18页线性预测分析就是根据已知信号s(n)对各参数和增益G进行估计。在这里为线性预测系数第19页F(z)s(n)图6-3线性预测器A(z)s(n)e(n)H(z)u(n)s(n)图6-1信号s(n)模型化第20页1.如何将信号模型化为模型参数?最常用是什么模型?什么叫线性预测?什么叫逆滤波器?2.什么叫LPC参数?PARCOR参数?LSP参数?3.什么是LPC谱?LPC谱估计特点。第六章思考题:第21页7.1概述7.2矢量量化基本原理7.3失真测度7.4最佳矢量量化器和码本设计7.5减少复杂度矢量量化系统7.6语音参数矢量量化第七章语音信号的矢量量化第22页矢量量化定义2.什么是失真测度?常用失真测度有哪些?3.矢量量化器最佳设计两个条件?4.LBG算法
第七章思考题:第23页第8章隐马尔可夫模型(HMM)8.1概述8.2隐马尔可夫模型引入8.3隐马尔可夫模型定义8.4隐马尔可夫模型三项问题求解第24页1.什么叫做隐马尔可夫过程?为何说语音信号能够当作隐马尔可夫过程?隐马尔可夫模型有哪些模型参数?请论述这些参数含义和定义式。2.HMM模型构造主要有哪两种?主要用在什么场所?3.转移概率矩阵计算。第八章思考题第25页第九章语音检测分析语音检测分析——语音特性参数提取和分析。主要包括:基音检测和共振峰参数估值。简化逆滤波法(SIFT)基音检测倒谱法自有关法共振峰估值带通滤波器法DFT法倒谱法LPC法第26页1.基音检测自有关法中中心削波处理思绪及实现过程?2.用倒谱法实现基音检测和共振峰检测原理?第九章思考题第27页第十章语音编码--波形编码语音编码概念、应用和分类等语音信号压缩编码原理对语音进行压缩编码两个基本根据等语音通信中语音质量
脉冲编码调制(PCM)及其自适应自适应量化分为前馈或反馈两种第28页预测编码及其自适应APC
自适应预测编码APC系统框图、总量化误差预测编码能够改善信噪比原因短时预测和长时预测自适应差分编码调制(ADPCM)第29页1.在语音通信中,常将语音质量分为哪四等?2.语音信号能进行压缩编码根据是什么?语音编码分类?3.自适应控制量有几个?控制方式有几个,其特点是什么?4.预测编码能够改善信噪比原因是什么?5.什么是短时预测和长时预测?第十章思考题第30页参数编码概念、与波形编码不一样声码器基本构造相位声码器和通道声码器同态声码器线性预测声码器混合编码:
MPLPC、CELP原理、传输码率计算等第十一章语音编码-声码器技术及混合编码第31页第十二章语音合成
语音合成概念、目标语音合成系统与声码器中语音合成器区分
语音合成原理语音合成办法:波形合成法、参数合成法规则合成法
语音合成系统特性共振峰合成线性预测合成:形式有两种
用预测器系数ai直接组成递归型合成滤波器采取反射系数组成格型合成滤波器第32页第十三章语音识别
语音识别概念、目标和分类语音识别原理:模式匹配原理、语音识别步骤框图理解动态时间规整(DTW):目标、原理孤立词识别系统:原理和框图理解端点检测作用第33页1.什么是语音识别?语音识别系统如何分类?目前,语音识别主流办法是什么?2.语音识别系统由哪几个部分组成?语音识别中常用语音特性参数有哪些?3.什么是动态时间规整?实际中,它处理了什么问题?4.孤立词识别系统框图?框图中,参照模式库和模式识别作用是什么?第十三章思考题第34页第十四章说话人识别说话人识别定义、目标和关键问题说话人识别分类、应用特性提取
说话人识别所用特性特性类型优选准则:F比作为有效性准则说话人识别系统构造:组成、基本构造、说话人识别系统性能评价如:说话人确认系统最主要两个性能指标:错误回绝率(FR)、错误接收率(FA)第35页说话人识别中识别办法
DTW型说话人识别系统:说话人确认系统应用VQ说话人识别系统:说话人识别系统第36页1.说话人识别和语音识别区分在什么地方?2.说话人确认和说话人识别有什么不一样?3.在说话人识别中,应选择哪些能够表征个人特性识别参数?4.如何评价说话人识别特性参数选用好坏?即F比物理意义?5.说话人确认系统最主要两个性能指标是什么?含义为何?6.基于DTW和VQ算法系统框图理解。第十四章思考题第37页人类语音是由人体发音器官在大脑控制下生理运动产生;人发音器官包括:肺、气管、喉、咽、鼻、口等。声带启动和闭合使气流形成一系列脉冲。每启动和闭合一次时间即振动周期称为基音周期,其倒数为基音频率,简称基频。基频决定了声音频率高低,频率快则音调高,频率慢则音调低。
基音范围约为70--350Hz,与说话人性别、年纪等情况有关。第38页语音由声带振动或不经声带振动来产生,其中:由声带振动产生音称为浊音(VoiceSpeech);不由声带振动产生音称为清音(UnvoiceSpeech)
。
使声道完全闭合,在闭合后建立起气压,然后突然释放,得到爆破音称为爆破音(plosiveSpeech):第39页声道能够等效为一种谐振腔,有许多谐振频率。谐振频率由每一瞬间声道外形来决定。若声道截面是均匀,则谐振频率发生在:c为声速,空气中为350m/s,L为声道长度,n为序号。第40页音质:区分与其他声音基本特性音调:声音高低;取决于频率音量:声音强弱;声波振动幅度音长:声音长短。发音连续时间长短第41页图2-7TenaboveInthesuburbs时域波形图2-8元音【∧】频谱图2-9辅音【S】语谱基音周期计算
清音浊音判断学习得到第42页图2-6输出语音频谱虚线为谱包络,恢复谱包络是许多语音处理应用中主要问题,由于谱包络携带了主要发音信息第43页根据长时间范围内一段语音信号大量取样数据绝对值计算其直方图办法概率密度修正伽玛概率密度拉普拉斯分布第44页图2-10修正伽玛密度、拉普拉斯密度和高斯密度以及天气预报语音长期幅度分布图2-11语音幅度合计频度分布观测得到语音主要集中在幅度较小区域语音动态范围都超出50dB第45页鼓励模型发不一样性质音时,鼓励情况是不一样。(1)发浊音时
声带不停张开和关闭,产生间歇脉冲波。见图2-13。则鼓励信号是一种以基音周期为周期斜三角脉冲串。
从频谱上看,是一种低通型滤波器。能够表达为Z变换全极点模型形式:第46页(2)发清音时声道被妨碍形成湍流,可模拟为随机白噪声。见图2-12。实际中使用均值为0、方差为1,并在时间或幅度上为白色分布序列第47页声道模型(1)声管模型声道数学模型目前有两种观点:将声道看为由多种不一样截面积管子串联而成系统。在“短时”期间,声道可表达为形状稳定管道。(2)共振峰模型将声道看为一种谐振腔。共振峰就是腔体谐振频率。
一般,用前三个共振峰来代表一种元音就足够了。而辅音需要五个以上第48页图2-15级联型共振峰模型级联型比较简单,用于描述一般元音。级联级数取决于声道长度。第49页图2-16并联型共振峰模型
当鼻化元音或鼻腔参与共振以及发阻塞音或摩擦音时,此时腔体具有反谐振特性,必须考虑加入零点,成为极零点模型,每个谐振器幅度都要独立控制。第50页幅度独立控制何调整,用来模拟辅音频谱特性中能量集中区专为某些频谱特性比较平坦原因而考虑图2-17第51页辐射模型一阶类高通滤波器形式从声道输出是速度波,而语音信号是声压波,二者之比为辐射阻抗ZL。它表征口唇辐射效应,也包括圆形头部绕射效应。研究表白,口唇端在高频端比较显著,而在低频端时影响比较小。因此辐射模型为嘴唇辐射影响引发输出信号高频提升作用大约有每倍频程6dB第52页4.完整语音信号数字模型语音取样值准周期脉冲序列发生器基音周期增益控制随机噪声发生器
时变线性系统时变参数浊音清音鼓励模型声道模型辐射模型第53页注意一、这种模型是“短时模型”,其中U(Z)、R(Z)保持不变,而基音频率、清音浊音幅度、清/浊音判决,声道参数ak、P是时变二、声道参数0~30ms内近似不变,鼓励参数在5ms左右近似不变,H(Z)是一种参数随时间迟缓变化模型,能够假定10~20ms内固定不变。三、对于某些音,需要用某些修正或更精确模型来模型第54页四、模型对语音产生模拟得是否成功,主要考查它所产生得语音信号听上去是否合乎预期得成果,对于它是否能精确得描述发音器官产生语音得物理过程并不主要。五、语音分析和语音合成都是基于这个模型来实现。六、模型思想起源于30年代发明声码器。其基本思想是将鼓励和系统相分离,使语音信号解体来分别描述,而不是直接研究信号波形本身特性第55页
人耳朵接收声音并转换成神经刺激。人耳听到声音后,还要通过大脑处理变成确定含义,这就是对语音感知。第56页人耳能听到频率范围大约为16Hz~16kHz,年轻人上限频率可达20kHz,老年人则衰退为10kHz第57页对于人耳感觉,用声音三要素来描述:响度:人耳对声音强弱程度反应。取决于声音幅度,并和频率有关。如:对3000~4000Hz最敏感。音调:也叫音高。人耳对声音频率高低感受。如:对频率高声音感觉音调“高”,对频率低声音感觉音调“低”。音色:也叫音质。反应了声音属性。每个声音具有特殊音色。第58页掩蔽效应当两个响度不一样声音作用于人耳时,则响度较高频率成份存在会影响到对响度较低频率成份感受,使其变得不易觉察,这就是掩蔽效应。对于中等掩蔽强度,纯音最有效掩蔽出目前它频率附近,低频纯音能够有效地掩蔽高频地纯音,而高频纯音对低频纯音掩蔽作用很小。掩蔽效应会造成因一种声音存在而使另一种声音听阈上升。当声音强度小到人耳刚才能够听见时第59页一、对语音信号进行分析,提取特性参数。二、加工语音信号。总之,在于方便有效地提取并表达语音信号所携带信息。语音处理目标:第60页
语音信号分析办法:时域分析:频域分析:倒谱域分析:第61页语音信号具有时变特性,是一种非平稳随机过程;不过,语音信号又具有“短时平稳性”,即在一种短时间范围内其特性基本保持不变。这是语音信号处理一种主要出发点。即“短时分析”。“短时分析”——对语音信号采取分段或叫分帧来处理。短时分析技术:注:语音一般在10~30ms内保持相对平稳,因此帧长取为:10~30ms第62页模拟语音数字语音,须通过取样、量化
语音信号:频率范围可高达10KHz。电话带宽语音:300~3400Hz通信系统中,数字化取样率一般为8KHz,语音信号处理中,取样率为10KHz取样率选择第63页2.量化字长选择量化过程:将整个幅度值分割为有限个区间,落入同一种区间样本都赋予相同幅度值。量化过程不可避免会产生量化误差。能够证明量化信噪比为:量化字长输入语音信号方差噪声序列方差信号峰值第64页若语音信号服从拉普拉斯(Laplacian)分布,则:可见,每比特对SNR奉献6dB。B=7Bit时,SNR=35dB,可满足一般通信系统要求;实际中,因语音波形变化动态范围可达55dB,因此,应取B>10Bit第65页二、预处理预处理:模拟语音数字化、放大及增益控制、反混叠滤波、预加重等。反混叠滤波:在取样前,为预防混叠失真和噪声干扰,采取一种截止性能良好模拟低通滤波器。反混叠滤波器一般与A/D做在一块集成片内。预加重:因语音信号高频端800Hz以上按6dB/倍频程下降,因此在A/D前,能够采取预加重办法。即提升高频部分,使信号频谱变得平坦,便于频谱分析和声道参数分析。第66页注:预加重也可在A/D后进行,此时可采取数字滤波器实现:预加重后信号在分析后,还需要进行去加重处理还原为本来语音信号。第67页一、短时平均能量定义注意:En以n为标志。由于窗序列是沿着平方值序列逐段移动。见图3-6图3-7短时能量序列计算办法表白:短时平均能量相称于语音信号平方通过一种单位脉冲响应为h(n)线性滤波器输出。第68页注
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- (一模)临沂市2025届高三高考第一次模拟考试地理试卷
- 2024五四青年节爱国主题演讲稿(3篇)
- 李白诗《独坐敬亭山》教学实录
- 日清公司战略规划案例分析与启示
- 培训课件的基本知识
- 2025年学习者行为与《小岛》课件的适配
- 股份制企业组织架构文档
- 新房装修全包合同
- 2025年福建从业资格证模拟考试题下载货运
- 技术研究项目委托开发合同
- 幼儿教师职业道德(高职学前教育专业)全套教学课件
- 苏科版八年级生物下册全册完整课件
- 第四单元复习教学设计 部编版语文七年级上册
- 医学专家谈灵芝孢子粉课件
- 开心麻花《白蛇前传》剧本
- 全部编版三年级语文下册生字读音、音序、偏旁及组词
- 六年级下册英语全册教案(冀教版)
- 血小板血浆(PRP)课件
- 腹部开放性损伤急救
- 二轮 河流专题(精心)
- 球墨铸铁管安装规范及图示课件
评论
0/150
提交评论