语音重点总结_第1页
语音重点总结_第2页
语音重点总结_第3页
语音重点总结_第4页
语音重点总结_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1 .function of prefilter: suppress the component of input signal which exceed fs/2, prevent aliasing; suppressinterference caused by50Hz electricityo prefilteris band-pass filter, in general,low and up cut-off frequency are: fH=3400Hz, fL=60100Hz。2. sampling: transform time continuous signal into a

2、time discrete signalb5E2RGbCAP气流从喉向上经过口腔或鼻腔后从嘴或鼻孔向外辐射,期间的传输 通道称为声道。气流流过声道时犹如通过了一个具有某种谐振特性 的腔体,放大某些频率,在频谱上形成相应位置的峰起,称为共振 峰。p1EanqFDPw短时自相关函数和长时自相关函数可以用来描述语音的幅度特性 功率谱密度:1.语音中不同频谱分量的平均概率可以用长时平均谱 密度来表示。2.语音波形高频分量对语音总能量的贡献很小,但是 高频分量带有重要的语音信息,平均功率谱约在250-500Hz处最大,而高于此频率的功率谱约以每倍频程610dB下降。3.语音信 号的短时频谱并不总是低通特

3、性。辅音有较高的频谱分量,显噪声 特性;元音从总体上看是低通的,显示明显的局部特性。 DXDiTa9E3d语音信号具有很强的“时变特性” 在有些段落中它具有很强的周期性,有些段落中又具有噪声特 性,而且周期性语音和噪声语音也在不断变化之中。RTCrpUDGiT 语音信号是非平稳的,但具有“准平稳特性” 在较短的时间间隔内一般20200ms),可以认为语音信号的 特征基本保持不变。5PCzVD7HxA嘉数字语音信号处理中,通常采取短时分析技术。元音和辅音的区别:1.从功能上来讲,元音往往能自成音节,辅音 一般不能独立地构成音节。2.在物理属性方面,元音基本上由乐音 构成,辅音则有一定的噪音。3.

4、在听觉上,发元音时,声带振动, 比较响亮;发辅音时,有的声带不振动,自然不够响亮,有的声带 即使振动,但由于在声腔中受到某种阻碍,还是不如元音响亮。4 .在生理属性方面,主要有三个方面的区别:第一,发辅音的时 候,发音器官的某一部位形成阻碍,气流在只有克服阻碍才能发出 来;发元音的时候,气流通过生门使声带发生振动,气流在其通道 上不受到阻碍,只受到各种共鸣。第二,发辅音时,因为要克服某 种阻碍,气流就比较强;发元音时,因无需克服阻碍,气流就比较 弱。jLBHrnAILg决定元音音质的因素:主要有三个方面的因素,一、舌位的高低, 二、舌位的前后,三、嘴唇的圆展。这三个因素的不同组合,便能 发出不

5、同的元音xHAQX74J0X在求语音信号频谱时,频率越高,相应的成分越小。预加重的 目的是提升高频部分,使信号的频谱变得平坦。以便于频谱分析和 声道参数分析。一般在语音信号数字化后,通过一个一阶数字滤波 器:H(z=1-mz-1, m 接近 1。LDAYtRyKfE为什么取10 - 30ms,因为根据人的发声生理结构变化的连续 性,在此时间段内,声带、声道、口腔的特性几乎不变,语音信号 近似平稳。Zzz6ZB2Ltk加窗的作用:得到连续的语音特征抑制吉尔伯特效应抑制频谱泄 漏窗口的长度卬频率分辨率Df=fs/N。Df随N的增加而减少, 频率分辨率得到提高,但时间分辨率降低(与窗长成反比。应根据

6、 不同的应用场合来选择窗口的长度N,应包含7个基音周期,因此 可选择100300点为宜。dvzfvkwMIl时域波形:幅度一时间图。大致得出音节的起始点、清音和浊 音以及浊音的基音频率频谱特性:幅度谱图。得出基音周期、共振峰频率及其位置。语音信号的时域分析:短时能量及短时平均幅度分析(1.幅度分 析的依据:是基于语音信号幅度随时间变化。清音段幅度小,其能 量集中于高频段;浊音段幅度较大,其能量集中于低频段。2.短时 能量函数和短时平均幅度函数作用:(1区分清/浊音:(2在信噪比 高的情况下,能进行有声/无声判决(3大致能定出浊音变为清音的 时刻,或反之 短时过零率分析(定义:信号跨越横轴的情况

7、。对于 连续信号,观察语音时域波形通过横轴的情况;对于离散信号,相 邻的采样值具有不同的代数符号,也就是样点改变符号的次数。作 用:1.区分清/浊音:浊音平均过零率低,集中在低频端;清音平均 过零率高,集中在高频端。2.从背景噪声中找出是否有语音,以及 语音的起点。 短时相关分析短时平均幅度差函数rqyn14ZNXI在实际应用中,短时平均过零率容易受到A/D转换是的直流偏 移、50Hz交流电源的干扰以及噪声的影响.减少这些干扰可以有两 种方法:一种是采用带通滤波器消除信号中的直流和50Hz低频分 量;另一种是用过门限率来修改过零率,减少随机噪声的影响。EmxvxOtOco短时自相关函数的定义:

8、(1说明当时域信号为周期信号时,自相关函数也是周期性函数,两者具有同样的周期。TjT(2Rn(k 为偶函数,Rn(k = Rn(k(3Rn(0最大,Rn(03 |RffBTTW*=En,对于确定信号,Rn(0是信号能量;对于随机信号或周期信号,Rn(0是平均功率。SixE2yXPq5相关函数的作用:1.区分清/浊音.浊音语音的自相关函数具有一 定的周期性。清音语音的自相关函数不具有周期性,类似噪声,有 点如语音信号本身。2.估计浊音语音信号的周期,即估计基音周 期。6ewMyirQFL短时平均幅度差函数的意义:短时自相关函数是语音信号时域分 析的重要参量,但由于乘法运算所需要的时间长。为了避免

9、乘法, 一个简单的方法就是利用差值,为此常常采用另一种与自相关函数 有类似作用的参量,短时平均幅度差函数。kavU42VRUs短时平均幅度差函数和自相关函数的关系是:浊音是一个准周期信号,在一帧语音内基音周期近似恒定,因此, 短时平均幅度差函数在浊音语音的基音周期上出现极小值,而在清 音语音中没有明显的极小值。y6v3ALoS89语谱图:宽带语谱图窄时窗,时间分辨率高,步率分辨率低纵条 纹窄带语谱图 横条纹 窄时窗,时间分辨率低,频率分辨率 高LPC:提供了预测功能;提供了声道模型和声道模型的参数估计方 法;基本思想:语音样本之间存在相关性,一个语音信号的样本可 以用过去若干个样本的线性组合来

10、逼近;M2ub6vSTnP要想使模型的假定较好的符合语音的实际产生模型主要考虑两个因 素:模型的阶数要与共振峰的个数相吻合;声门脉冲形状和口唇辐 射影响的补偿。考虑了上述两个因素的线性预测分析,预测误差序 列近似于白噪声序列,表明由某一短时信号所得到的线性预测系数 能较好的描述产生这段语音的声道特性。0YujCfmUCw线性预测阶数P的选择:P的选择应综合考虑谱估计精度、计算量、 存储量;原则:保证有足够的极点来模拟声道的谐振结构,每kHz 一 个共振峰,每共振峰需要两个极点,外加几个逼近零点的极点;经 验公式:eUts8ZQVRd 分析帧长N的选择N小,计算量小;N大,估计谱的精度高。N可取

11、23个基音周期长度;LPC谱估计的特点:在信号能量较大的区域谱峰值的地方),LPC 谱和信号谱很接近;而在谱的谷底相差比较大。sQsAEJkW5T 倒谱分析:由卷积信号求得参与卷积的各个信号的过程称为解卷过程。解卷算法可以分为两大类:第一类是首先为线性系统V(Z建立一个 模型,然后对模型参数按照某种最佳准则进行估计,这种方法称为 参数解卷方法。采用的模型可以分为全极点模型AR模型)和零极 点模型ARMA模型),如果采用最小均方误差准则对AR模型进行估 计,就得到线性预测编码算法(LPC。第二类算法称为非模型解卷。 同态信号处理完成解卷任务就是其中最重要的一种。GMsIasNXkA 倒谱分析优缺

12、点:对语音信号的某一帧同样可以分析出它的短时倒 谱参数,总的说来,无论对于语音通信、语音合成或语音识别,倒 谱参数所含的信息比其他参数多,也就是语音质量好,识别正确率 高。但其缺点是运算量比其他参数大,尽管如此,倒谱分析方法仍 不失为一种有效的语音信号的分析方法。TIrRGchYzg同态系统可以分解为两个特征系统 即特征系统和逆特征系统)指 取决于信号的组合规则)和一个线性系统 仅取决于处理要求) 7EqZcWLZNX结论:一个周期冲激的有限长度序列,其复倒谱也是一个同周期长 度的周期冲激序列,只是其长度变为无限长度、振幅随着K值的增 加而衰减,衰减速度比原来序列要快,显然,周期冲激序列的倒谱

13、 的这些性质对于语音信号的分析是很有用的,这意味着除了原点之 外,可以用“高时窗”来从语音信号的倒谱中提取浊音激励信号的 倒谱,从而使倒谱法提取音调成为现实。lzq7IGf02E.压缩编码原因:语音信号的压缩编码是研究如何降低语音信号编码 速率的问题。把数码率低于64Kbit/s的语音编码方法称为语音压缩编码技术 语音编码分类:波形编码 从语音信号的波形出发,对波形的抽样 值、预测值、预测误差进行编码,它以重建语音波形为目的,力图 使重建波形接近原信号波形。特点:利用抽样定理,恢复原始信号 的波形优点:适应能力强,重建语音质量好缺点:编码速率较高 类型:PCM,自适应增量调制ADM),自适应差

14、分编码调制 ADPCM),自适应预测编码APC。速率通常在1664kbit/s范围),参数编码提取语音的一些特征信息进行编码,在收端利用这 些特征参数合成语音。优点:编码速率低。速率通常是在 4.8kbit/s以下。缺点:语音的音质和自然度较差,很难辨别说话 人。有一定的可懂度 类型:LPC线性预测编码),混合编码波形 编码+参数编码。介于波形编码和参数编码的一种编码。即在参数编 码的基础上引入了波形编码的一些特征。可在4-16kbit/s范围 内达到良好的语音质量。类型:子带编码)zvpgeqJ1hk衡量话音编码器的参数:数据输出速率,延迟时间,话音质量,价 格实现代价)语音信号的冗余度:幅

15、度非均匀分布;样本之间的相关性;周期之 间的相关性;基音之间的相关性;静止系数话音间隙);长期相关 性long term correlation) NrpoJac3v1对大信号来说,虽然绝对量化误差较大,但是因为:1)大信号出 现的机会不多,2)信噪比相对误差)与小信号是一致的,所以对 总的话音质量影响不大。1nowfTG4KI增量调制(delta modulation,DM是一种预测编码技术,是对实际 的采样信号与预测的采样信号之差的极性进行编码,将极性变成“0”和“1”这两种可能的取值之一。如果实际的采样信号与预测 的采样信号之差的极性为“正”,则用“1”表示;相反则用“0” 表示。DM编

16、码系统又称为“1位系统”。fjnFLDa5Zo若缩小抽样值被编码信号)的变化范围,就可以在保证信噪比不变 的情况下,减小编码的位数。这就是差值编码的中心思想 tfnNhnE6e5根据前些时刻的样值来预测现时刻的样值,只要传递预测值和实际 值之差,而不需要每个样值的编码都传。这种方法就称为DPCM编 码。HbmVN777sL能够实现自适应预测功能,或者自适应量化功能或者同时实现两种 自适应功能的DPCM系统称为ADPCM系统。ADPCM的两个目标:尽可 能去掉语音信号中的冗余信号;以有效的方式将可用比特分配给语 音信号 V7l4jRB8Hs自适应预测:1前向自适应预测算法根据短时间的相关特性R(

17、i, 求短时的最佳预测系数;特点:运算量大,延迟时间大,不能用于高 速系统。)2)后向序贯自适应预测算法 采用不断修正预测系数 hi(n的方法来减小瞬时平方差Ed(n,使hi(n逐步的接近 hiopt(n。) 83lcPA59W9最佳量化:分层电平为相邻量化电平的中点量化电平是该量化间隔内经常出现的瞬时电平值自适应量化的基本思想:自适应量化的基本思想是使量化器的量化 级阶距)能够随着输入信号d(n瞬时值得变化作自适应调整,从 而使量化误差的均方值最小。即:自适应量化指量化台阶随信号变化 而变化,使量化误差减小mZkklkzaaP实现方法:前向自适应量化AQF:优点:量化误差小,信噪比 大;缺点

18、:量阶的信息要与话音信号一起送到收端译码器,否则, 收端无法知道该时刻的量阶值后向自适应量化(AQB:优点:接收 端不需要量阶的信息,因为量阶的信息可以从接收码中提取,码速 率低,实现容易。缺点:因为量化误差影响量化值得准确度,即信 噪比下降,但影响较小。AVktR43bpw32kb/sADPCM算法主要技术指标:1)语音信号经过ADPCM编码 后,客观测量SNR应完全符合PCM系统的指标要求,主观听觉测试 性能非常接近于PCM质量。2)经过四次音频转接后,主观语音测 试质量良好,主观平均分MOS)大于3.5以上。3)在信道误码低 于0.001的情况下能稳定工作ORjBnOwcEd标量量化对语

19、音信号的每个取样值,或语音信号的每个特征参数值 分别独立地进行量化,称为标量量化一维)。矢量量化将语音信号 的取样值或语音的特征参数值分成若干组,每组构成一个矢量,然 后分别对每个矢量进行量化。这种量化就称为矢量量化,也称训练矢量集码本。uEh0U1YfmhLBG算法:(1初始化(2码本分割(3码字更新(4码矢更新(5码本 大小确认失真侧度:(1欧氏距离 D (x,y=(S|x - y |r/N, (0W1WNT -均方误差-绝对值平均误差IAg9qLsgBX(2 对数频谱距离V(w=log(f(w -log(g(w D(g,f=J|V(w|r dw/2n WwghWvVhPE(3倒谱距离 D

20、 (x,y=S(c - c 2, (IWnWp语音信号的参数编码:见上参数编码:1.通道声码器2.共振峰声码器3.线性预测声码器混合编码:1.基于全极点模型MPLPC,CELP; 2.基于正弦模型MBE码激励线性预测(CELP :基本思想:是用一个矢量量化所产生的码本 中的码字表示每帧的长时预测所得到的残差;两种构成码本的方 法:确定性和随机性”码本。asfpsfpi4k语音识别方法:模版匹配法。随机模型法。概率语法分析法。基于 ANN的方法、基于模糊数学的方法、句法语音识别等ooeyYZTjjl 语音识别的问题和困难:连续语音中音素、音节或单词之间的调音 结合引起的音变使基元模型之间的边界不

21、明确;语法语义规则的建 立与理解很难;语音信息的变化很大,不同人不同,同一个人也不 同;语音的模糊性;单个字母及单个词发音时的语音特性受上下文 环境的影响,音量、音调、重音、音速等都可不同;环境噪声和干 扰对语音识别有严重影响;BkeGuInkxI语音识别原理:模式匹配原理:未知语音模式与已知语音模式逐一比 较,最佳匹配的参考模式作为识别结果。识别步骤:1.学习训练. 分析语音特征参数,建立模板库;2.识别测试.按照一定的测度和 准则与系统模型进行比较,通过判决得出结果;语音识别本质就是 模式识别PgdO0sRlMo预处理:反混叠滤波;模/数转换;自动增益控制;去除声门激励和 口腔辐射。正确选择识别单元;特征提取:从波形信号获取一组描述语音信号特征的参数;参数的好 坏对识别精度影响很大;识别参数:平均能量、过零率、频谱、共 振峰、倒谱、线性预测系数、HMM的概率函数、矢量量化的矢量。 可以一种或多种参数并用;需要考虑参数的稳定性、识别率、计算 量等;对于汉语还存在声调的提取超音段信息);3cdXwckm15 距离测度:欧氏距离及其变形;对数似然比失真测度;加权超音段信 息识别测度;HMM之间的距离测度;主观感知距离测度; h8c52WOngMDTW的基本思想:将时间规整与距离测度结合起来,采用动态规划 技术,比较两个大小不同的模式,解决语音识别中

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论