




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第一章 绪论(xln)1.语音(yyn)信号处理是以语音(yyn)语言学和数字信号处理为基础而形成的一门涉及面很广的综合性的学科。p1d32.语音信号处理的应用技术列举:语音编码、语音识别、语音合成、说话人识别和语种辨识、语音转换和语音隐藏(语音信息伪装、语音数字水印技术)、语音增强等p4d33.当前语音信号处理应用的3个主流技术:矢量量化技术、隐马尔可夫模型技术、人工神经网络技术。p4d3第二章 语音信号处理基础知识1.语音是组成语言的声音,是声音(Acoustic)和语言(Language)的组合体。p5d22.语音的基本声学特性包括音色,音调,音强、音长。p7d2音色:也叫音质,是一种声
2、音区别于另一种声音的基本特征。音调:是指声音的高低,它取决于声波的频率。音强:声音的强弱,它由声波的振动幅度决定。音长:声音的长短,它取决于发音时间的长短。3. 说话时一次发出的,具有一个响亮的中心,并被明显感觉到的语音片段叫音节(Syllable)。一个音节可以由一个音素(Phoneme)构成,也可以由几个音素构成。音素是语音发音的最小单位。p7d34.任何语言都有语音的元音(Vowel)和辅音(Consonant)两种音素。p7d38.当声带振动发出的声音气流从喉腔、咽腔进入口腔从唇腔出去时,这些声腔完全开放,气流顺利通过,这种音称为元音。p7d39.呼出的声流,由于通路的某一部分封闭起来
3、或受到阻碍,气流被阻不能畅通,而克服发音器官的这种阻碍而产生的音素称为辅音。p7d37.发辅音时由声带是否振动引起浊音和清音的区别,声带振动的是浊音,声带不振动的是清音。p7d38.元音构成音节的主干(因为无论从长度还是能量看,元音在音节中都占主要部分。)p7d39.元音的一个重要声学特性是共振峰(Formant)。共振峰参数是区别不同元音的重要参数,它一般包括共振峰频率(Formant Frequency)的位置和频带宽度(Formant Bandwidth)。p7d5 16.人类的声道和鼻道可以看作是非均匀截面的声道管,声道管的谐振频率称为共振峰频率(共振峰)。p7d510.汉语音节一般由
4、声母、韵母和声调三部分组成。汉语普通话中有6000多个常用字,每个汉字是一个音节。p10d610. 发浊音时,气流通过声门时使声带发生振动,产生准周期激励脉冲串,这个脉冲串的周期就称为基音周期(pitch),其倒数成为基音频率。11.汉语是一种声调语言,声调的变化就是浊音基音周期(或基音频率)的变化。p14d513. 无论是单音节语音还是连续语音,其中浊音段的基因频率是随时间(shjin)而变化的,基因频率的不同轨迹成为声调(shngdio)。p9d1114. 当两个响度不同的声音作用于人耳时,响度较高的频率成分的存在会影响到对响度较低的频率成分的感受,使其变得不易(b y)察觉,这种现象成为
5、掩蔽效应。15.语音信号的生成模型可由激励模型、声道模型和辐射模型三个子模型构成,三者是串联(串联/并联)的关系。p21-2616.语音信号激励模型一般分为浊音激励和清音激励,发浊音时激励模型为脉冲波。p21d617.语音信号激励模型一般分为浊音激励和清音激励,发清音时激励信号通常被模拟为随机白噪声。p22d216.语音信号生成模型的辐射模型是一阶类高通滤波器。 p25d217.设截取的一段语音共有160个样本,而采样频率为8kHz,则该段语音持续时间为20ms。18.设采样频率为8kHz,则25ms长的语音共有200个采样值。18.研究语音的时频分析特性所采用的与时序相关的傅立叶分析的显示图
6、形称为语谱图(Sonogram,或者Spectrogram)p29d119.语谱图是一种三维频谱,它是表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间,任一给定频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。p29d120.传输函数形式为的共振峰模型为(2)数学模型;1.全零点;2.全极点;3.极零点;4.以上都不是;21.传输函数形式为的共振峰模型在结构上为(1 )模型;1.级联型2.并联型;3.混合型;4.以上都不是;22.传输函数形式为的共振峰模型为(3)数学模型;1.全零点;2.全极点;3.极零点(ln din);4.以上(yshng)都不是;23.传输函数(hnsh)
7、形式为的共振峰模型在结构上为(2)模型;1.级联型2.并联型;3.混合型;4.以上都不是;24.简述语音产生过程的三个模型:25.基音频率、共振峰、语谱图的概念,会从语音波形中识别基音周期与共振峰频率。 发浊音时,气流通过声门时使声带发生振动,产生准周期激励脉冲串,这个脉冲串的周期就称为基音周期(pitch),其倒数成为基音频率。一般来说,男性说话的基音频率大致分布在50-200Hz范围内,女性和小孩的基因频率在200-450Hz之间。 人类的声道和鼻道可以看作是非均匀截面的声道管,声道管的谐振频率成为共振峰频率,简称共振峰。共振峰由低到高依次为第一共振峰、第二共振峰、第三共振峰、。,相应的频
8、率用F1、F2、F3。表示。一般浊音中可以辨识的共振峰有5个,其中前三个对于区别不同语音至关重要。 语谱图描述了语音信号随时间而变化的频谱特性。纵轴对应于频率、横轴对应于时间,图像的黑白度对应于信号的能量。26.汉语中的四种声调与基音频率的关系是什么? 无论是单音节语音还是连续语音,其中浊音段的基因频率是随时间而变化的,基因频率的不同轨迹成为声调。29.音调:音调是听觉分辨声音高低时,用于描述这种感受的一种特性。音调与声音的频率并不成正比,还与声音的强度及波形有关。描述音调的单位是美(mel)。一个高于听阈40dB、频率为1KHz的纯音所产生的音调定位1000mel,如果一个纯音听起来比100
9、0mel的声音调子高一倍,则其音调为2000mel。音调与频率的关系近似表示为:27.掩蔽效应:当两个响度不同的声音作用于人耳时,响度较高的频率成分的存在会影响到对响度较低的频率成分的感受(gnshu),使其变得不易察觉,这种现象成为掩蔽(ynb)效应。第三章 语音信号(xnho)分析21.语音信号分析采用短时分析技术。p32d220. 语音信号分析,根据所分析出的参数的性质的不同可以分为:时域分析、频域分析、倒频域分析、线性预测分析等。根据分析方法的不同,分为模型分析方法和非模型分析方法两种。p32d322.由于辐射模型的影响,语音信号高频部分衰减较大,所以在预处理中需采用预加重技术,即提升
10、高频部分,使信号的频谱变得平坦。23.不论是分析怎么样的参数以及采用什么分析方法,在按帧进行语音分析,提取语音参数之前,有一些经常使用的、共同的短时分析技术必须预先进行,如语音信号的数字化、语音信号的端点检测、预加重、加窗和分帧等23.语音信号加窗、分帧常用的窗函数有矩形窗、汉明窗等(列举两个)。25.对于频率分布为03400Hz的语音信号,最低无失真采样频率应为6800Hz25.若信号波形的变化足够大,或量化间隔足够小时,以下有关量化噪声描述错误的是(4)p33d21.是平稳的白噪声过程2.量化噪声与输入信号不相关3.量化噪声在量化间隔内均匀分布,即具有等概率密度分布4.是服从高斯分布的随机
11、过程26.以下那种分析不属于语音信号时域分析?(4)1.短时过零率分析;2.短时相关分析;3.短时平均幅度差函数;4.同态分析;短时能量的主要用途不包括以下那一项(4)p38d51.可以区分浊音段和清音段;2.可以用来查找声母和韵母的分界;3.可以用来查找无声和有声的分界;4.可以区分高频和低频分量;24.采用自相关函数法对基音周期进行估计时,先用60900Hz的带通滤波器对语音信号进行滤波,以下描述错误的是(4)p71d21.可减少共振峰的影响;2.可抑制50Hz的电源(dinyun)干扰;3.可保留基音(jyn)频率的一、二次谐波;4.为了防止8kHz采样时发生(fshng)混叠干扰;定义
12、语音信号的短时自相关函数为:,则以下表述错误的是(2):p40d3(1) 如果是周期的,则是同周期的周期函数;(2) 是奇函数;(3) 7.设序列x(n)的短时能量定义为:其中窗函数表示为:试求En的一个递推公式,用En-1和输入x(n)表示En8.设序列x(n)的短时能量定义为:其中窗函数表示为:试求En的一个递推公式9.设短时平均过零率的定义为:证明(zhngmng)1.语音(yyn)的时变性(binxng)与短时平稳性(p32d2):语音信号的波形有些波形段有较强的周期性,有的波形段有较强的噪声性,并且周期性语音和噪声性语音的特征也在不断变化中,从而具有时变性。但在较短时间内(10-30
13、ms)语音信号的特征可以认为基本保持不变,这就是语音信号的短时平稳性。11.常用的时域基音检测算法有哪些(任选两种作答)?它们的基本原理是什么?自相关函数法:浊音信号的自相关函数在基音周期的整数倍位置上出现峰值;而清音的自相关函数没有明显的峰值出现。因此检测是否有峰值就可判断是清音或浊音,检测峰值的位置就可提取基音周期值。短时平均幅度差函数法:对周期性的浊音语音,短时平均幅度差函数也呈现与浊音语音周期相一致的周期特性,短时平均幅度差函数在周期的各个整数倍点上具有谷值特性而不是峰值特性,可确定基音周期;而对于清音语音信号,短时平均幅度差函数却没有这种周期特性。利用短时平均幅度差函数的这种特性,可
14、以判定一段语音是浊音还是清音,并估计出浊音语音的基音周期。12.浊音与清音的短时能量、短时平均过零率、短时自相关函数和短时平均幅度差函数有什么差异?导致这些差异的根本原因是什么? 相对来说浊音的短时能量大、短时平均过零率低、短时自相关函数的峰值位置具有周期性,短时平均幅度差函数的谷值位置具有周期性。这是因为浊音是由声带振动引起的脉冲波激励声道产生的,能量较大,频率较低,具有与激励波相同的周期性结构,而清音是由白噪声激励而产生,能量较低,频率较高,不具有周期性。13.若用信号的短时傅立叶变换来定义其短时能量谱密度:同时定义信号的短时自相关函数为:证明当时,与互为傅立叶变换对。15.设阶线性预测(
15、yc)器表达式为,证明(zhngmng)在最小均方预测误差(wch)准则下,预测系数满足方程组:,其中。解:预测误差为,均方误差为,为使E2(n)最小,对aj求偏导,并令其为零,有:,即又因为,代入上式有设语音信号的线性预测模型为,模型增益,求该语音信号的线性预测谱表达式。p59解: 第四章 矢量(shling)量化技术1.根据(gnj)量化的值的维数的不同,量化可分为标量(bioling)量化和矢量量化。2.矢量量化常用的失真测度有:欧式距离测度、加权欧式距离测度、Itakura-Saito距离、似然比测度和识别失真测度。3. 训练矢量量化码本时,初始码本的生成可采用随机选取法、分裂法、链映
16、射法等。3.矢量量化LBG算法每次迭代时将训练集分割为若干个子集所依据的是(1):1.最邻近准则;2. Centroid质心条件;3.收敛准则;4.熵极大化准则;3.矢量量化LBG算法每次迭代时计算新码字所依据的是(2):1.最邻近准则;2. Centroid质心条件;3.收敛准则;4.熵极大化准则;第五章 隐马尔可夫模型1.HMM是一个双内嵌式随机过程。2.HMM的输出符号序列可见,而状态序列不可见。3.下图是一个三状态HMM,S1是起始状态,S3是终了状态,该HMM只能输出a和b两种符号,由下图的Viterbi算法可知输出aab的最佳路径为S1-S1-S2-S33.对于语音识别用HMM,可
17、用六个参数来定义,这六个参数分别表示什么? S是模型中状态的有限集合;O是输出的观测值序号的集合;A是状态转移概率(gil)的集合;B是输出观测值概率的集合;pai是系统初始状态概率的集合;F是终了状态的集合。1.从左到右型HMM(即状态的转移只能从左到右或者停留在原状态,不能返回到以前的状态)的状态转移矩阵(j zhn)具有何种形式?(1)1.上三角(snjio)矩阵;2.下三角矩阵;3.对称矩阵;4.非奇异矩阵;2.针对给定的HMM模型,寻找与给定观察字符序列对应的最佳状态序列可采用(3)1.前向算法;2.后向算法;3.Viterbi算法;4.Baum-Welch算法训练HMM模型采用(4
18、)1.前向算法;2.后向算法;3.Viterbi算法;4.Baum-Welch算法;下图是一个三状态HMM,S1是起始状态,S3是终了状态,该HMM只能输出a和b两种符号,试求解:(参考P98)1.该HMM的转移概率矩阵A;2.从S1出发到S3截止,输出符号序列abb的概率;3.最大可能的状态序列;第七章 语音(yyn)编码1.语音(yyn)编码(Speech Coding)的目的是在保证语音质量和可懂度的条件下,采用尽可能少的比特数来表示语音。即降低数码(shm)率。2.信源编码主要解决有效性问题;信道编码主要解决可靠性问题。3.语音编码通常分为三类:波形编码、参数编码与混合编码。4.波形编
19、码力图使重建后的语音时域信号的波形与原语音信号保持一致。具有适应能力强、话音质量好等优点,缺点是编码速率高。5.参数编码又称声码器技术,从听觉感知的角度注重语音的重现,通过建立语音信号的产生模型,提取其特征参数来编码,波形上不要求与原信号匹配。优点是编码速率低;缺点是语音质量差,自然度低,对环境噪声敏感。6.若普通电话通信中采用8kHz采样,并进行12bit量化,则数码率为96Kbit/s。7.对语音信号进行压缩编码的基本依据是语音信号的冗余度和人的听觉感知机理。8.人的听觉生理和心理特性对于语音感知的影响主要表现在:1)人类听觉系统具有掩蔽效应;2)人耳对不同频段声音的敏感程度不同;3)人耳
20、对语音信号的相位变化不敏感。9.感觉加权滤波器是根据人耳的掩蔽效应来设计的。p138d110.均匀量化的特点是:大信号时量化信噪比大,小信号时量化信噪比小。10.在增量调制(DM)中,语音信号波形发生急剧变化时,容易出现译码波形不能充分跟踪这种急剧变化而产生失真的现象,称为斜率过载。p150d311.利用参数编码实现语音通信的设备通常称为声码器。p161d312.LPC声码器采用的编码方式为参数编码(波形编码/参数编码)。7语音(yyn)信号中存在多种冗余度是语音信号可进行压缩(y su)的重要依据,下列选项中( 4 )属于(shy)频域冗余度(1)语音信号幅度非均匀分布性(2)语音信号样本间的强相关性(3)浊音语音段具有的准周期性(4)非均匀的长时功率谱密度9.下列选项中,( )不属于波形编码方式(1)PCM(2)APCM(3)DM(4)LPC声码器8.语音中最基本的元素是音素,设语音的音素共
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 甲方销售水泥合同协议
- 瓷砖搬运承揽合同协议
- 益生菌采购合同协议
- 2025至2030年中国稀土富集物数据监测研究报告
- 2025至2030年中国眼霜数据监测研究报告
- 2025至2030年中国玻璃转台车数据监测研究报告
- 2025至2030年中国混凝土弹性模样测定仪数据监测研究报告
- 2025至2030年中国洗车水回收再生设备数据监测研究报告
- 2025至2030年中国油压式弯管工具数据监测研究报告
- 2025至2030年中国永磁起吊器数据监测研究报告
- 广东省2024-2025学年佛山市普通高中教学质量检测物理试卷及答案(二)高三试卷(佛山二模)
- 【9数一模】2025年安徽合肥市第四十五中学九年级中考一模数学试卷(含答案)
- 2024年安徽马鞍山技师学院专任教师招聘真题
- 电网工程设备材料信息参考价(2024年第四季度)
- DB42T2305-2024高品质住宅技术标准
- 2024年浙江省中考社会试卷真题(含标准答案及评分标准)
- AIGC基础与应用全套教学课件
- 国有企业采购管理规范 T/CFLP 0027-2020
- 江苏省无锡市新吴区2023-2024学年八年级下学期期中考试数学试题
- 2023年(第九届)全国大学生统计建模大赛 论文模板及说明
- 医疗机构消毒技术规范(2023年版)
评论
0/150
提交评论