已阅读5页,还剩32页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
语音识别基础,上海交通大学计算机系 吴亚栋 E-mail: Tel: 62932057,第三章 语音信号处理基础,第三章 语音信号处理基础,3.1 短时分析与窗函数 3.2 时域分析 3.3 频域分析 3.4 倒谱域分析 3.5 线性预测分析 3.6 矢量量化法,3.1 短时分析与窗函数,3.1.1 语音信号的数字化* 3.1.2 短时分析概要* 3.1.3 几种典型窗口*,3.2 时域分析,3.2.1 平均能量、幅度及过零数 * 3.2.2 自相关函数与平均振幅差函数 * 3.2.3 时域分析在语音识别中的用途,3.3 频域分析,3.3.1 短时傅里叶变换(DFT)* 3.3.2 DFT与快速傅里叶变换(FFT)* 3.3.3 振幅谱和功率谱*,3.4 倒谱域分析,3.4.1 倒谱的概念* 3.4.2 倒谱的分析流程* 3.4.3 倒谱系数的求法* 3.4.4 倒谱分析在语音识别中的用途*,3.5 线性预测分析,3.5.1 线性预测分析的概念* 3.5.2 线性预测系数的求解* 3.5.3 线性预测分析在语音识别中的用途*,3.6 矢量量化法,3.6.1 矢量量化的原理* 3.6.2 码本设计* -LBG算法(2分割法)概要 3.6.3 矢量量化在语音识别中的用途*,: 提交时间:,第三章 回家作业,3.1.1 语音信号的数字化,频率,采样周期(T),xa(t):模拟波形,x(n)= x(nT):取样值,时间,振 幅,采样: 时间方向的离散化 采样频率(S) 采样定理 量化: 幅度方向的离散化,语音信号的短时平稳性 语音信号的短时分析 短时信号的切取 分帧 帧长 帧移,3.1.2 短时分析的概要,3.1.3 几种典型的窗函数,矩形窗: 汉明窗(Hamming): 哈宁窗(Hanning):,WR =,1 = (0nN-1),0 = (Other),WHM =,0.5-0.46cos(2n/(N-1) (0nN-1),0 = (Other),WHN =,0.5-0.5cos(2n/(N-1) (0nN-1),0 = (Other),3.2.1 短时平均能量、幅度及过零数,短时平均能量的定义:* 短时平均幅度的定义:* 短时平均过零数的定义:*,短时平均能量Ej的定义,N-1 E = x (n)2 n=0 x (n):原样本序列x(n)在j时刻起,由长度为N 的窗口w(n)所切取出的短时语音段。 Elog(j) = 10log10(1+Ej) Elog(j):语音信号的对数短时平均能量(分贝)。,j,j,j,短时平均幅度Mj的定义,N-1 M = x (n) n=0 x (n):原样本序列x(n)在j时刻起,由长度为N 的窗口w(n)所切取出的短时语音段。,j,j,j,短时平均过零数Zj的定义,N-1 Z = neg(x (n)x (n+1) n=0 x (n):原样本序列x(n)在j时刻起,由长度为N 的窗口w(n)所切取出的短时语音段。 neg(x)=,j,j,0 (x0),1 (x0),静息、无声及有声语音的Ej和Zj的分布关系,静息语音,无声语音,有声语音,0 10 20 30 40 50 60 70 80,静息语音,无声语音,有声语音,0 10 20 30 40 50 60 70 80,(a)短时平均能能量(dB) (b)短时平均过零数(次/10ms),3.2.3 短时自相关函数与平均振幅函数,短时自相关函数* (Short-Time Auto-Correlation Function) 短时平均幅度差函数* (Average Magnitude Differential Function),自相关函数与AMDF函数,N-1 R (m) = (x (n)x (n+m)/N (0mN-1) n=0 N-1 r (m) = |x (n)-x (n+m)|/L (0mN-1) n=0 N-1 L = |x (n)| n=0,j,j,j,j,j,3.3.1 短时傅里叶变换(DFT),(1) DFT(Discrete Fourier Transform),(2) IDFT,3.3.2 DFT与快速傅里叶变换(FFT),在使用算法时应注意: (1) 时间窗要求采用两端衰减型的窗函数 (2) 数据长度要求满足:N=2,M,短时帧长:200,FFT帧长:256,补零,3.3.3 振幅谱和功率谱,(1) 振幅谱|X (k)|,|X (k)| = R(X (k) +I(X (k) ,j,j,j,j,2,2,1/2,(2) 功率谱 S (k),j,S (k) = |X (k)| / N,j,j,2,3.4.1 倒谱的概念,定义:倒谱定义为信号短时振幅谱的对数傅里叶反变换。 特点:具有可近似地分离并能提取出频谱包络信息和细微结构信息的特点。,3.4.2 倒谱的分析流程,DFT,Log| |,IDFT,DFT,峰值 检测,A,倒谱窗(lifter),x(n),B,C,D,E,F,时间窗,A:短时信号;B:短时频谱;C:对数频谱; D:倒谱系数;E:对数频谱包络; F:基本周期,3.4.3 倒谱系数的求法,c (k) = log10|X (k)|exp(j2kn/N)/N,j,j,= log10|X (k)|cos(2kn/N)/N,(0nN-1),3.4.4 倒谱分析在语音识别中的用途,提取声道特征信息:提取频谱包络特征,以此作为描述音韵的特征参数而应用于语音识别。 提取音源信息:提取基音特征,以此作为描述音韵特征的辅助参数而应用于语音识别。,3.5.1 线性预测分析的概念,概念:一个语音取样的现在值,可以用若干个语音取样的过去值的加权线性组合来逼近,在线性组合中的加权系数就称为线性预测系数(LPC:Linear Predictive Coding)。 特点:利用LPC技术可以从语音信号中抽取出声道特性。,x(n) = -a1x(n-1)+ a2x(n-2)+ apx(n-p),j,j,j,j,3.5.2 线性预测系数的求解概要(1),(1)设ej(n)表示时刻n的预测误差: ej(n) = xj(n)- xj(n) = xj(n)+a1xj(n-1)+a2xj(n-2)+ apxj(n-p) = aixj(n-i) (这里,a0 = 1.0。),3.5.2 线性预测系数的求解概要(2),(2)对在分析区内的N个语音取样值的预测误差分别取其平方,然后进行累加。即, 计算预测误差的能量Ej: N-1 Ej = ej(n)2 n=0 (3)给出使Ej为最小的条件,即,E,a,j,i,= 0, (1ip),3.5.3 线性预测分析在语音识别中的用途,(1)基于LPC的频谱包络 S(k) =2 / | aiexp(-j2ik/N) |2 (2)基于倒谱的频谱包络,i=0,P,3.6.1 矢量量化原理(1),(1)标量量化 对语音信号的每个取样值,或语音信号的每个特征参数值分别独立地进行量化,称为标量量化(一维)。 - 标量量化与传输率 - 波形量化:采样频率为10kHz、振幅量化为16bit的语音信号的传输速率是: 16x10000 = 160,000bit/s(bps)。 - 波形特征参数量化:对次数为10、每秒100个特征矢量(如频谱包络参数),如振幅量化也为16bit的话,其传输速率是:16x100x10=16,000bit/s。,i=0,3.6.1 矢量量化原理(2),(1)矢量量化* 将语音信号的取样值或语音的特征参数值分成若干组,每组构成一个矢量,然后分别对每个矢量进行量化。这种量化就称为矢量量化(N维)。 - 波形特征参数矢量量化:设L = 1024(40种语音单位,每个对应25种变形),即为了指定码本中任意码矢需要10bit,则对每秒100个特征矢量的传输需率就为1,000bit/s。 (2)矢量量化过程*,3.6.2 码本设计-LBG算法概要,(1)初始化 (2)码本分割 (3)码字更新 (4)码矢更新 (5)码本大小确认,3.6.3 VQ在语音识别中的用途,矢量量化示意图,1,2,3,4,码矢,No.,VQ (Vector Quantization ),1 4 2,t,矢量量化过程,设: 有限矢量集合Y= yi, 1iL ,Y称为码本,L是码本的大小,yi 称为码矢,码矢是N维矢量,即yi = ( yi1, yi2, , yiN)T。 码本搜索:对输入矢量x进行VQ的过程,就是在码本中以某种方式进行搜索,寻找一个与x最接近的码矢之过程,即用该码矢去替代x。这里,所谓最接近,应按某种失真测度d(x, yi)为标准来衡量。 I = argmin d(x, yi) i 码矢地址编码:为了传输量化后得到的码矢yi,一般都需要进行编码。通常,并不是直接对yi进行编码,而是对yi在码本中的地址或标号进行编码。要传送的正是这个标号的码字I。在接受到标号的码字后,就可在接受端的码本中找到相应的码矢,这便是重建码矢。对于L级码本来说,为了表示其中任意一个码矢的标号,最多只要log2L个bit的二进制代码就够了。,矢量量化过程,设: 有限矢量集合Y= yi, 1iL ,Y称为码本,L是码本的大小,yi 称为码矢,码矢是N维矢量,即yi = ( yi1, yi2, , yiN)T。 码本搜索:对输入矢量x进行VQ的过程,就是在码本中以某种方式进行搜索,寻找一个与x最接近的码矢之过程,即用该码矢去替代x。这里,所谓最接近,应按某种失真测度
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 美容诊所技师聘用合同范例
- 专题01 三角形(7大基础题+3大提升题)(原卷版)-2024-2025学年八年级数学上学期期中真题分类汇编
- 传染病医院护士雇佣模板
- 广告策划专员聘用意向书
- 政府票据审核要点
- 教育行业聘用合同模板范例
- 交通局隔墙装修合同
- 教育设施改造投标说明书
- 矿山防蚊施工协议
- 企业购房二手房交易合同范本
- 泰国投资指导手册
- 2024年新华社招聘笔试参考题库附带答案详解
- 全国初中数学青年教师优质课一等奖《反比例函数的图象和性质》课件
- (高清版)DZT 0265-2014 遥感影像地图制作规范(1:50000、1:250000)
- 汽车直播活动策划方案范文
- 2024中考复习必背初中英语单词词汇表(苏教译林版)
- 锁骨下动脉 (1)讲解
- 退役军人就业培训课件
- TCLPA 002.1-2023 静脉用药调配中心评估规范 第1部分:标准化文件框架及编写规则
- 20世纪时尚流行文化智慧树知到期末考试答案2024年
- 第四章-国防动员
评论
0/150
提交评论