




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、上海交通大学计算机系上海交通大学计算机系吴亚栋吴亚栋::: 62932057: 629320573.1 3.1 短时分析与窗函数短时分析与窗函数3.2 3.2 时域分析时域分析3.3 3.3 频域分析频域分析3.4 3.4 倒谱域分析倒谱域分析3.5 3.5 线性预测分析线性预测分析3.6 3.6 矢量量化法矢量量化法3.1.1 3.1.1 语音信号的数字化语音信号的数字化* *3.1.2 3.1.2 短时分析概要短时分析概要* *3.1.3 3.1.3 几种典型窗口几种典型窗口* *3.2.1 平均能量、幅度及过零数 *3.
2、2.2 自相关函数与平均振幅差函数 *3.2.3 时域分析在语音识别中的用途3.3.1 短时傅里叶变换(DFT)*3.3.2 DFT与快速傅里叶变换(FFT)*3.3.3 振幅谱和功率谱*3.4.1 倒谱的概念*3.4.2 倒谱的分析流程*3.4.3 倒谱系数的求法*3.4.4 倒谱分析在语音识别中的用途*3.5.1 线性预测分析的概念*3.5.2 线性预测系数的求解*3.5.3 线性预测分析在语音识别中的用途*3.6.1 矢量量化的原理*3.6.2 码本设计* -LBG算法(2分割法)概要3.6.3 矢量量化在语音识别中的用途*l :l提交时间:提交时间:频率频率采样周期(T)xa(t)xa
3、(t):模拟波形:模拟波形x(n)= x(nT)x(n)= x(nT):取样值:取样值时间振幅 l采样:采样:l时间方向的离散化时间方向的离散化l采样频率采样频率(S)(S)l采样定理采样定理l量化:量化:l幅度方向的离散化幅度方向的离散化折叠失真折叠失真S S2S2S0 0(b) 非准确取样时(S2W)频率频率W W原信号原信号F(f)F(f)(a)准确取样(S2W)S S0 02S2Sl语音信号的短时平稳性l语音信号的短时分析l短时信号的切取l 分帧l 帧长l 帧移w(n)x(n)xj(n) = x(j+n)w(n)jj + N-1l矩形窗:矩形窗:l l汉明窗汉明窗(Hamming)(H
4、amming):l哈宁窗哈宁窗(Hanning)(Hanning):WR =1 = (0nN-1)0 = (Other)WHM =0.5-0.46cos(2n/(N-1) (0nN-1)0 = (Other)WHN =0.5-0.5cos(2n/(N-1) (0nN-1)0 = (Other) l短时平均能量的定义:短时平均能量的定义:* *l短时平均幅度的定义:短时平均幅度的定义:* *l短时平均过零数的定义:短时平均过零数的定义:* * N-1 N-1 E = x (n)2 E = x (n)2 n=0 n=0 x (n) x (n):原样本序列:原样本序列x(n)x(n)在在j j时辰起
5、,由长度为时辰起,由长度为N N 的窗口的窗口w(n)w(n)所切取出的短时语音段。所切取出的短时语音段。 Elog(j) = 10log10(1+Ej) Elog(j) = 10log10(1+Ej) Elog(j) Elog(j):语音信号的对数短时平均能量分贝。:语音信号的对数短时平均能量分贝。 j jj jj j N-1 N-1 M = x (n) M = x (n) n=0 n=0 x (n) x (n):原样本序列:原样本序列x(n)x(n)在在j j时辰起,由长度为时辰起,由长度为N N 的窗口的窗口w(n)w(n)所切取出的短时语音段。所切取出的短时语音段。 j jj jj j
6、 N-1 N-1 Z = neg(x (n)x (n+1) Z = neg(x (n)x (n+1) n=0 n=0 x (n) x (n):原样本序列:原样本序列x(n)x(n)在在j j时辰起,由长度为时辰起,由长度为N N 的窗口的窗口w(n)w(n)所切取出的短时语音段。所切取出的短时语音段。 neg(x)= neg(x)= j jj jj jj j 0 (x0)1 (x0)静息语音静息语音无声语音无声语音有声语音有声语音0 10 20 30 40 50 60 70 800 10 20 30 40 50 60 70 80静息语音静息语音无声语音无声语音有声语音有声语音0 10 20 3
7、0 40 50 60 70 800 10 20 30 40 50 60 70 80(a)(a)短时平均能能量短时平均能能量(dB) (b)(dB) (b)短时平均过零数短时平均过零数( (次次/10ms)/10ms)l短时自相关函数短时自相关函数* *l (Short-Time Auto-Correlation (Short-Time Auto-Correlation Function)Function)l短时平均幅度差函数短时平均幅度差函数* *l (Average Magnitude Differential (Average Magnitude Differential Function
8、)Function) N-1 N-1 R (m) = (x (n)x (n+m)/N (0mN-1) R (m) = (x (n)x (n+m)/N (0mN-1) n=0 n=0 N-1 N-1 r (m) = |x (n)-x (n+m)|/L (0mN-1) r (m) = |x (n)-x (n+m)|/L (0mN-1) n=0 n=0 N-1 N-1 L = |x (n)| L = |x (n)| n=0 n=0j jj jj jj jj jj jj j X (k) = x (n)exp(-j2kn/N),(0kN-1) X (k) = x (n)exp(-j2kn/N),(0kN
9、-1) j jj jN-1N-1n=0n=0j jj j x (n) = X (k)exp(j2kn/N)/N,(0kN-1) x (n) = X (k)exp(j2kn/N)/N,(0kN-1) N-1N-1n=0n=0(1) DFT(Discrete Fourier Transform)(1) DFT(Discrete Fourier Transform)(2) IDFT(2) IDFT X (k) = R(X (k)+I(X (k) X (k) = R(X (k)+I(X (k)j jj jj jl在运用算法时应留意:在运用算法时应留意:l(1) (1) 时间窗要求采用两端衰减型的窗函数
10、时间窗要求采用两端衰减型的窗函数l(2) (2) 数据长度要求满足:数据长度要求满足:N=2N=2M短时帧长:200 FFT帧长:256 补零(1) (1) 振幅谱振幅谱|X (k)|X (k)| |X (k)| = R(X (k) +I(X (k) |X (k)| = R(X (k) +I(X (k) j jj jj jj j2 22 21/21/2(2) (2) 功率谱功率谱 S (k)S (k)j j S (k) = |X (k)| / N S (k) = |X (k)| / Nj jj j2 2l定义:倒谱定义为信号短时振幅谱的对数定义:倒谱定义为信号短时振幅谱的对数傅里叶反变换。傅里
11、叶反变换。l特点:具有可近似地分别并能提取出频谱特点:具有可近似地分别并能提取出频谱包络信息和细微构造信息的特点。包络信息和细微构造信息的特点。DFTDFTLog| |Log| |IDFTIDFTXDFTDFT峰值峰值检测检测A A 倒谱窗倒谱窗(lifter)(lifter)x(n)x(n)XB BC CD DE EF F 时间窗时间窗A A:短时信号;:短时信号;B B:短时频谱;:短时频谱;C C:对数频谱;:对数频谱;D D:倒谱系数;:倒谱系数;E E:对数频谱包络;:对数频谱包络;F F:根本周期:根本周期 c (k) = log10|X (k)|exp(j2kn/N)/N c (
12、k) = log10|X (k)|exp(j2kn/N)/Nj jj jN-1N-1k=N-1k=N-1= log10|X (k)|cos(2kn/N)/N= log10|X (k)|cos(2kn/N)/NN-1N-1k=N-1k=N-1(0nN-1)(0nN-1)l提取声道特征信息:提取频谱包络特征,提取声道特征信息:提取频谱包络特征,以此作为描画音韵的特征参数而运用于语以此作为描画音韵的特征参数而运用于语音识别。音识别。l提取音源信息:提取基音特征,以此作为提取音源信息:提取基音特征,以此作为描画音韵特征的辅助参数而运用于语音识描画音韵特征的辅助参数而运用于语音识别。别。l概念:一个语音
13、取样的如今值,可以用假概念:一个语音取样的如今值,可以用假设干个语音取样的过去值的加权线性组合设干个语音取样的过去值的加权线性组合来逼近,在线性组合中的加权系数就称为来逼近,在线性组合中的加权系数就称为线性预测系数线性预测系数(LPC:Linear Predictive (LPC:Linear Predictive Coding)Coding)。l特点:利用特点:利用LPCLPC技术可以从语音信号中抽取技术可以从语音信号中抽取出声道特性。出声道特性。 x x(n) = -a1x(n-1)+ a2x(n-2)+ apx(n-p)(n) = -a1x(n-1)+ a2x(n-2)+ apx(n-p
14、)j jj jj jj j1 1设设ej(n)ej(n)表示时辰表示时辰n n的预测误差:的预测误差: ej(n) = xj(n)- x ej(n) = xj(n)- xj(n)j(n) = xj(n)+a1xj(n-1)+a2xj(n-2)+ = xj(n)+a1xj(n-1)+a2xj(n-2)+ apxj(n-p) apxj(n-p) = aixj(n-i) = aixj(n-i) 这里,这里,a0 = 1.0a0 = 1.0。2 2对在分析区内的对在分析区内的N N个语音取样值的预测误差分别取其个语音取样值的预测误差分别取其平方,然后进展累加。即,平方,然后进展累加。即, 计算预测误差
15、的能量计算预测误差的能量EjEj: N-1 N-1 Ej = ej(n)2 Ej = ej(n)2 n=0 n=03 3给出使给出使EjEj为最小的条件,即为最小的条件,即 E Ea aj ji i= 0, (1ip)= 0, (1ip)1 1基于基于LPCLPC的频谱包络的频谱包络 S(k) =2 / | aiexp(-j2ik/N) |2 S(k) =2 / | aiexp(-j2ik/N) |2 2 2基于倒谱的频谱包络基于倒谱的频谱包络i=0i=0P P1 1标量量化标量量化 对语音信号的每个取样值,或语音信号的每个特征对语音信号的每个取样值,或语音信号的每个特征参数值分别独立地进展量
16、化,称为标量量化一维。参数值分别独立地进展量化,称为标量量化一维。 - - 标量量化与传输率标量量化与传输率 - - 波形量化:采样频率为波形量化:采样频率为10kHz10kHz、振幅量化为、振幅量化为16bit16bit的语音信号的传输速率是:的语音信号的传输速率是: 16x10000 = 160,000bit/s(bps)16x10000 = 160,000bit/s(bps)。 - - 波形特征参数量化:对次数为波形特征参数量化:对次数为1010、每秒、每秒100100个特征个特征矢量如频谱包络参数,如振幅量化也为矢量如频谱包络参数,如振幅量化也为16bit16bit的话,的话,其传输速
17、率是:其传输速率是:16x100 x10=16,000bit/s16x100 x10=16,000bit/s。 i=0i=01 1矢量量化矢量量化* * 将语音信号的取样值或语音的特征参数值分成假将语音信号的取样值或语音的特征参数值分成假设干组,每组构成一个矢量,然后分别对每个矢量进设干组,每组构成一个矢量,然后分别对每个矢量进展量化。这种量化就称为矢量量化展量化。这种量化就称为矢量量化N N维。维。 - - 波形特征参数矢量量化:设波形特征参数矢量量化:设L = 1024L = 10244040种语音种语音单位,每个对应单位,每个对应2525种变形,即为了指定码本中恣意种变形,即为了指定码本
18、中恣意码矢需求码矢需求10bit10bit,那么对每秒,那么对每秒100100个特征矢量的传输需个特征矢量的传输需率就为率就为1,000bit/s1,000bit/s。2 2矢量量化过程矢量量化过程* *(1)(1)初始化初始化(2)(2)码本分割码本分割(3)(3)码字更新码字更新(4)(4)码矢更新码矢更新(5)(5)码本大小确认码本大小确认xxxxxxxxxxx-+xxxxxxxxxxx-+xxxxxxxxxxxxxxxxxxxxxx预处置预处置声学参声学参数分析数分析训练训练语音信号语音信号 输入输入VQVQ码本码本测度测度估计估计失真失真测度测度语音库语音库判决判决专家知识专家知识库
19、库识别识别结果结果矢量矢量量化量化(VQ)(VQ)1234码矢码矢No. VQ(Vector Quantization )tf1 4 2t设:设: 有限矢量集合有限矢量集合Y= yi, 1iL Y= yi, 1iL ,Y Y称为码本,称为码本,L L是码本的大小,是码本的大小,yi yi 称为码矢,码矢是称为码矢,码矢是N N维矢量,即维矢量,即yi = ( yi1, yi2, , yiN)Tyi = ( yi1, yi2, , yiN)T。 码本搜索:对输入矢量码本搜索:对输入矢量x x进展进展VQVQ的过程,就是在码本中以某种方式的过程,就是在码本中以某种方式进展搜索,寻觅一个与进展搜索,
20、寻觅一个与x x最接近的码矢之过程,即用该码矢去替代最接近的码矢之过程,即用该码矢去替代x x。这里,所谓最接近,应按某种失真测度这里,所谓最接近,应按某种失真测度d(x, yi)d(x, yi)为规范来衡量。为规范来衡量。 I = argmin d(x, yi) I = argmin d(x, yi) i i 码矢地址编码:为了传输量化后得到的码矢码矢地址编码:为了传输量化后得到的码矢yiyi,普通都需求进展编,普通都需求进展编码。通常,并不是直接对码。通常,并不是直接对yiyi进展编码,而是对进展编码,而是对yiyi在码本中的地址或在码本中的地址或标号进展编码。要传送的正是这个标号的码字标号进展编码。要传送的正是这个标号的码字I I。在接遭到标号的码。在接遭到标号的码字后,就可在接受端的码本中找到相应的码矢,这便是重建码矢。字后,就可在接受端的码本中找到相应的码矢,这便是重建码矢。对于对于L L级码本来说,为了表示其中恣意一个码矢的标号,最多只需级码本来说,为了表示其中恣意一个码矢的标号,最多只需log2Llog2L个个bitbit的二进制代码就够了。的二进制代码就够了。 设:设: 有限矢量集合有限矢量集合Y= yi, 1iL Y= yi,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 个人委托施工合同范本
- 冷库货物装卸合同范本
- wps稻草合同范本
- 内外架工合同范本
- 分批送货合同范本
- 代替承租合同范本
- 制版合同范本模板
- 农用烘干设备租赁合同范本
- 中国裁判文书赠与合同范本
- 农村羊肉销售合同范本
- 2024年社会工作者《社会工作实务(中级)》考试真题必考题
- 德育教育研究课题申报书
- 2024年岳阳职业技术学院单招职业适应性测试题库汇编
- (高清版)JTG 3810-2017 公路工程建设项目造价文件管理导则
- 《煤矿重大事故隐患判定标准》试题及答案
- 《ISO31000:2024风险管理指南》指导手册(雷泽佳译2024-04)
- 学前儿童表演游戏的组织与指导(学前儿童游戏课件)
- 建筑用真空陶瓷微珠绝热系统应用技术规程
- 2024年甘肃省公务员公共基础知识重点考试题库(含答案)
- (高清版)DZT 0214-2020 矿产地质勘查规范 铜、铅、锌、银、镍、钼
- 《拒绝校园欺凌 防霸凌主题班会》课件
评论
0/150
提交评论