版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1,语音信号处理,院定选修课 学时:32 学分: 2 信号信息处理的重要研究方向,2,第一章 绪 论,研究对象 语音:语言的声学表现。由人的发音器官发出的、具有一定语法和意义的声音。 重要性:最重要、最有效、最常用、最方便的信息交换手段。“四会” 语音信号处理:用数字信号处理技术对语音信号进行处理。 新兴、综合性、交叉学科;涉及到语言学、声学、认知学、心理学。 信号与信息处理的重要组成部分 热门学科,存在大量机遇,3,研究内容包括:,语音编码压缩 语音合成计算机讲话读文章 语音识别口授打字机等,翻译 关键词识别 语音增强 说话人识别“声纹”身份识别。,4,教学内容与目标: 课程内容: 基本概念
2、的建立; 各种理论和算法介绍。 教学目标: 对语音信号处理有基本了解,为以后的研究工作做储备。,5,发展概况: 39年的声码器用于通讯 40年代后期的语谱仪 60年代的数字模型 70年代的LPC 80年代的VQ以及HMM 90年代的神经元等新技术,6,第二章语音信号处理的基础知识,2.1 概述 本章讨论内容 1、语音产生模型 线性模型 2、语音学基本内容 信息交流“发音传递感知”三个阶段 发音语音学 确定发音机理 声学语音学 信号分析理论解释语音现象 听觉语音学 认识感知的过程,7,2.2 语音产生的过程 语音是具有一 定意义的声音。 经分析: 欲表达 选择词、语句 控制肌肉运动 振动空气形成
3、语音 波 与箫、唢呐比较,8,等效为激励源声道喇叭口,9,等效为激励源声道喇叭口 激励源:声带 声带振动频率基频(基音频率) 清音 声带不振动 浊音 声带振动 声道:可变谐振腔 不同形状、不同音 共振(谐振)频率,c为声速,L为声道长度,n为谐振频率的序号,分析认为,声道的谐振频率(设截面均匀):,10,共振峰 Fn的局部最大值,称为共振峰。与声道对应,反映语音的频率特性,是语音的主要特征之一。不同人不同,同一人发不同音时也不同。,第一共振峰F1,第二共振峰F2,第三共振峰F3,11,一般地:语音识别,取前3个共振峰,而对 语音合成,需取5个,12,2.3 语音信号的特性,2.3.1 语言和语
4、音的基本特性 语言,特殊的声音,按一定规则排列 声音的物理属性 音质:基本特征 音调:频率 音强:量、响度、幅度 音长:声音的长短 语音特有的属性 音节:语音流的最小单位 音素:语音的最小单位,音素构成音节 感情:重音 语调 声调等,13,2.3.2 语音的时间波形和频谱特性 看一段实际语音,放大,结论1:时间的连续函数、频率幅度随时间变化是随机的,14,元音 其中一段再放大,结论2:短时间内近似认为不变,结论3:元音是准周期函数(基频),基音周期,15,清音,结论4:清音为随机起伏,16,2.4 语音信号产生的数字模型,理想模型标准 准确 但不可能,必近似、简化 简单 最好用成熟的理论 线性
5、模型,线性系统,语音信号,脉冲序列,脉冲序列 激励源,线性系统 声道喇叭口,激励源 周期序列(浊音)/随机序列(清音) 线性系统 短时内不变,17,一个实用模型,P16 图212,激励模型 声道模型 辐射模型,18,小结 语音的时间波形 连续、随机、短时性、基频、清/浊音、共振峰 线性模型 激励 声道 辐射,19,2.4.1 激励模型 根据前节分析,激励源在清、浊音时不同,分别讨论 浊音 有人测量知,声带振动产生斜三角型脉冲波,Tp为冲激脉冲的周期,声门波模型产生单个声门脉冲,将其表示为Z变换,有: 冲激序列:E(z) 浊音激励模型: U(z) = AVG(z)E(z),清音 随机白噪声,20
6、,2.4.2 声道模型 声音在声道的传播涉及到许多物理定律(能量守恒、流体力学),需简化。有不同的模型。 1、声管模型 “短时”间声道是一个形状稳定的级联管道 声音在不同截面积 间传输会有反射, 反射系数: km(Am+1 - Am) /(Am+1 + Am) Am,Am+1是第m、m+1段的截面积 Km是声道的特性,确定Km,就确定了声道!,A1 A2 A3 .,21,2、共振峰模型 根据声道近似为谐振腔的特性,有另外模型模拟其共振峰。35个,(1)级联型 用串联网络模拟声道。一般元音用全极点模型,转移函数:,G 幅值因子 Ak 模型系数 P 极点个数(阶数),P、ak 决定了声道地特性(人
7、的特征),p越大越吻合。一般p=812,利用Z变换的知识,把H(z)分解为多个二阶极点网络的级联:,H1,H2,H3,Hp/2,22,(2)级联型 用并联网络模拟声道。大部分音用零极点模型,转移函数:,级联简单,可用于一般元音,一般35级 并联复杂,可用于许多音,但Ai难控制,23,1)辐射+声门脉冲的作用合并在线性系统中 2)时变参数:基频、开关、增益、参数 3)“终端模拟”(听输出结果)验证有效 4)模型可能要修正,2.4.3 辐射模型 声道输出的速度波,经口唇变成声压 辐射效应 研究得模型R(z) = R0 ( 1 Z-1 ),2.4.4 完整的语音信号数字模型 综上,激励声道辐射有V(
8、z)=U(z)H(z)R(z),准周期脉冲序列发生器,随机序列发生器,线性时变系统,基音周期,系统参数,清/浊音控制,增益控制,语音信号,24,2.5 语音感知 研究人对声音的感知,对语音编码识别很重要MP3。 对人的感知认识还有过程。 研究发现:,听觉(主观感觉)与声波不完全一样,声音三要属(响度、音调、音色)在人听起来相互影响,且人的敏感度不同,分配不同bit。,听觉掩蔽效应,利用感知加权滤波器改善语音质量,25,第三章 语音信号的时域分析,3.1 概述 为甚分析与怎样分析 1、通过分析,进一步了解、区别语音,提取少量参数描述语音,获得基音、开关、增益等模型参数 2、分析方法: 模型分析
9、LPC、共振峰等 非模型分析 时域、频域、倒谱域等 3、“短时分析技术” 基本方法,帧,加窗 4、必要时考虑时变性,用HMM,本章用短时分析技术,在时域提取基频、清浊、增益,26,3.2 语音信号的数字化和预处理 3.2.1 取样率与量化字长的选择 1、抽样定理 抽样频率 8K、16K等 2、量化误差 e(n)平稳、均匀分布,大小与量化 间隔、编码字长(最小8bit)有关 3、量化信噪比 SNR与信号的峰值、量化字长有关 一般分析,字长为16bit,反混叠滤波器,抽样,量化,模拟信号x(t),离散信号x(n),抽样信号,27,3.2.2 预处理 1、语音信号处理框图 2、滤波器特性要求 使混叠
10、失真足够小, 阻带 66dB,用9阶椭圆滤波器 3、加重 减小动态范围 H(z) = 1 uz-1 与滤波器同时实现,也有在AD后,28,3.3 短时能量分析 1、“短时分析” 本章一直在用。取一段的方法:加窗“分帧”,帧长与帧移: 取的点数为帧长,乘以采样周期得帧长时间,两帧间隔为帧移 两帧一定有重叠,否则有参数突变!,信号x(n),窗函数w(n),加窗后为x(m)w(n-m),29,2、短时平均能量及含义 根据前法,对加窗后的信号求解XX得短时XX 短时平均能量: 每取一个n, 得到一个En。n的间隔为帧移。 上式变形:,H(z),X2(n),En,30,3、窗口选择 以上分析见,加窗为一
11、滤波器取出一部分。 同前,滤波器的特性影响结果。希望 直角窗 1, 0nN-1 h(n) = 0, 其他,海明窗(Hamming) h(n) = 0.54-0.46cos2npi/(N-1), 0nN-1 h(n) = 0, 其他,更优,旁瓣影响大,取不出细节,但谱平滑,既平滑又能快速响应,31,4、窗口长度选择 取不同N,对h(n)求付氏变换知N大带宽窄(3-11),取En低频分量(直流),变换慢,N小En高频多,变化快,得不到平滑的值。长度要合适,1020mS,窗口形状、长度贯穿于全部短时分析,32,5、用途 区分清音浊音 En大浊音 区分有无声 大信噪比,En很小无声,6、短时平均幅度M
12、n En的不足 运算量大 x2 大小x(高低电平)对En影响不同,浊,33,3.4 短时过零分析 时域最简单的方法 1、平均过零数 过零:相邻取样值改变符号 过零数:过零次数 平均过零数:在单位时间内累计过零数。,反映信号的频率,2、语音信号的短时平均过零数,式中:sgn(x)为符号函数,取值/1 x(m)、x(m-1)是相邻取样值 w(n)为窗口函数,34,3、短时平均过零数的应用 清音/浊音判断 清音随机噪声,高频,浊音周期信号,低频,清,浊,35,(2) 单词分割与有无声 确定单词的起止点,对语音识别很重要,实验室得到的语音,36,3.5 短时相关分析 信号分析的手段,相关 相似 ,匹配
13、滤波器 3.5.1 短时自相关函数 确定信号,周期序列,自相关函数的性质 周期Np , R(k) = R(-k) ,R(0)最大 , R(0)为平均功率,短时自相关函数,hk(n)=w(n)w(n+k),hk(n-m),x(n)x(n-k)*hk(n), 计算量 设w1(n)=w(-n),m1=m-n = m=m1+n 则:,计算自相关,先乘后加,运算量大!,用来求基音周期!,37,3.5.2 修正的短时自相关函数 1、存在的问题,随k的变化,参加运算的项减少。极限k=N-1时无运算项!,2、修正的短时自相关函数 两个不同长度的窗w1(n)【0N-1】与w2(n)【0N-1+K-k】Kk,当w
14、1,w2为直角窗时 (0kK),k=250,k=0,38,3.5.3 短时平均幅度差函数 问题的提出:自相关计算量大,大在乘法! 短时平均幅度差函数(AMDF)定义:,式中R为x(n)的平均值 w1、w2同修正的自相关函数中的定义,对于浊音信号,在周期倍数点上,幅值相等,Fn0,39,第三章小结,采样与反混叠 短时分析方法、窗口与长度选择 短时能量定义 短时过零分析 短时相关分析与修正 短时平均幅度分析(AMDF),40,第四章 语音信号的短时傅立叶分析,4.1 概述 傅立叶重要性,时域频域,信号的某些特性 短时谱:分帧处理,4.2 短时傅立叶变换 4.2.1 短时傅立叶变换的定义 1、短时傅
15、立叶变换 对于第n帧语音信号,xn(m) = x(m)w(n-m),可见 既是时间n的离散函数,又是角频率的连续函数,41,讨论 :,n不变,记y(m)=xn(m) ,标准的傅立叶变换,(2) 不变,记 l=,两者卷积,w(n)系统 y(n)信号 信号经过线性系统,据此:短时傅立叶变换有两层含义,2、离散的短时傅立叶变换 令=2k/N,在0 k N-1,42,用傅立叶变换解释窗口与长度,4.2.2 标准傅立叶变换的解释 n不同,得不同值。n不变,一个一般傅立叶变换,短时功率谱:,海明,直角,分辨率,衰减,共振峰,43,改写短时傅立叶表达式:,由时域特性:,因此,可见,短时谱为信号谱与窗口谱的卷
16、积,受窗影响,(1)窗口形状的选择,若.内为冲激函数,则Xn(.)=X(.)同谱!比较矩形与海明窗主瓣,(2)窗口宽度的选择,f01=1/NT,T为采样周期。N大,f01接近0,W(.)类冲激函数! 但N大,短时性差,要综合考虑!,44,P44图4-2与图4-3海明比较,N=500(上)与N=50(下),比较,45,4.2.3 滤波器的解释,与通信原理中的幅度调制比较,46,4.3 短时傅立叶变换的取样率 短时谱既是时间n的函数,又是频率 的函数二维 即:每个n都有一个X()。为用计算机保存短时谱既 要对取样,又要对n取样。,1、时域取样率(对n) 固定 Xn(.)是w(n)的输出,设w(n)
17、带宽为BHz,则 带宽为B,时域取样率 2B (点/秒),B的确定:由 的第一零点01确定, 01=2/N N点对应的时间为NTs =N/fs 故模拟角频率01fs B= 01fs/2 = fs/N 对于直角窗,的时域取样率2B = 2fs/N (直角窗),47,2、频域取样率 当n固定时,Xn(.)是的周期函数。根据“傅立叶变 换的离散性与周期性”(如图),,3、总取样率 n固定时:L=N 时域取样率:2B 总取样率:SR=2BL,两者关系如下图,对 Xn()抽样后,为了时 域不重叠,取: T1NTs 即LN取等,共N点,T1=NTs,共L点,fs=Lf1,48,4.4 语音信号的短时综合
18、由Xn()恢复x(n)的方法:滤波器组求和法/FFT求和法,1、单一频率k 已知 则:,hk(m),取样率:x(n) 10KHz Xn()也要10KHz?,否!w(m)为低通,故Xn()带宽远小于X()可降低采样率,综合:网络综合,49,2、L个频率 取样后,有L个频率点,每个频率点有一个yk(n)。根据线性系统的理论,总输出:,可以证明y(n)=x(n),50,4.5 语谱图 一种分析短时谱的仪器,Xn()是时间n,频率的函数,要用三维显示。二维易显,三维?,n,Xn,早期用亮度,现有用图形,为实时,也有仍用亮度,声纹,51,第四章小结与作业,第四章小结 1、短时傅立叶变换定义及两层含义 2
19、、窗口形状、长度对短时谱的影响 3、短时谱的取样率(n,w) 4、短时综合 5、语谱图,52,第五章 语音信号的同态滤波及倒谱分析,5.1 概述 从模型看,激励系统,如何从语音信号中取出激励序列、声道冲击响应?,语音信号 激励与声道的卷积 解卷积,算法:“参数解卷” 线性预测分析,“非参数解卷” 同态滤波(同态信号处理) 把求卷积 求和,倒谱分析:同态分析的结果称为倒谱,53,5.2 同态信号处理的基本原理 1、不同信号的处理方法 加性信号 线性关系、叠加原理,处理方法成熟, 乘性信号 卷积信号 非线性关系,不能用叠加原理,处理困难,2、卷积同态系统,y(n) = Hx(n) = Hx1(n)
20、*Hx2(n),*表示离散时间卷积运算,卷积同态系统模型,任何同态系统可表示为三个子系统的级联,D* ,L* ,D* -1 ,*,*,+,+,+,+,特征系统,线性系统,逆特征系统,54,特征系统D* 把卷积转换为和,把非线性变为线性,逆特征系统D*1 把和转换为卷积,把线性变为非线性,线性系统L* 真正需要的处理算法,可利用信号与系统中所学过的各种处理手段,满足叠加原理,Z ,ln ,Z -1 ,*,+,+,+,Z ,exp ,Z -1 ,+,*,+,+,55,3、同态滤波的基本原理 设有x(n) = x1(n) * x2(n) (1) D* Z - ln - Z-1,(2) D*-1 Z
21、- exp - Z-1,Y1(z),Y2(z),名称?,56,5.3 复倒谱和倒谱 1、概念,是x(n)经特征系统后的值,是时域序列,是信号的频谱取对数的反变换。由于与x(n)的谱间的关系,给他起名:,复倒频谱,Complex Cepstrum Spectrum,2、DFT下的特征系统 DFT运算快,一般用DFT、IDFT代替z变换,(1) D* ,(2) D*-1 ,x(n)的频谱,x(n)的对数频谱,x(n)的复倒谱,57,3、复倒谱的幅度与相位 同傅立叶变换,复倒谱有幅频特性、相频特性,复数计算量大,考虑人的听觉对相位不敏感,为减少运算量,丢掉相位,4、倒谱,若c1(n)、c2(n)是x
22、1(n)、x2(n)的倒谱,且x(n)=x1(n)*x2(n) 有c(n)=c1(n)+c2(n),C(n)与x(n)一对多的关系,由c(n)不可还原x(n),因丢相位,58,5.4 语音信号两个卷积分量复倒谱的性质,从模型知,在时域语音为 声门序列*声道序列。用前述方法,分析这两个序列。 复倒谱求解方法,5.4.1 声门激励信号,求x(n)的复倒谱,(1)求z变换,(2)取对数,用泰勒级数展开ln(),59,5.4.2,(3)求逆变换,式中,结论:声门激励信号的复倒谱是无限冲激序列, 幅度变、周期不变,5.4.2 声道冲激响应序列,模型,实系数,值小于1,零点、极点;园内、园外,60,求对数
23、,展开为泰勒级数再求逆Z变换得:,(n = 0),(n 0),(n 0),结论: (1) 双边序列 (2) 衰减序列 (3) 集中在原点附近,据此,可以用低倒谱窗从x(n)的倒谱中取出声道特性的复倒谱。(分离声道、声门),推导过程见机械工业出版社赵力编的语音信号处理,61,5.5 避免相位卷绕的算法,1、什么是相位卷绕?,对于傅立叶的乘积,取对数后的振幅与相位,和,的值可能大于2 ,而计算只在02间,即:,主值,称为相位卷绕,2、对复倒谱的影响,计算 时,相位与实际相位差2k,不是实际相位。 误!,3、对策,改进算法,避开相位求和!,62,5.5.1 微分法 利用傅立叶变换的微分特性与对数微分
24、特性,来避开相位卷绕,由傅立叶变换的微分特性,若,则,由于,同理:,把ln(.)代入上式,可求的nx(n),避开了相位求和!,缺点:nx(n)比x(n)含更多的高频成分,用x(n)的采样率会带来频谱混叠!,63,6.5.2 最小相位信号法 设有因果序列x(n),则可分解为奇和偶:,零极在Z平面单位园内,可见:通过xe(n)求x(n),结论:求x(n)变为求xe(n),64,由傅立叶变换的奇偶虚实性知:,65,5.6 语音信号复倒谱分析实例,加窗信号,傅氏幅值,傅氏相位主值,复倒谱,倒谱,声道的倒谱,高通:声门 低通:声道,66,声道、声门序列估计 取出倒谱,经逆特征系统得到的y(n),分析得到
25、的声道幅频,分析得到的声道相频,声道冲激响应估值,声门序列估值,清音信号的例子,得共振峰,基音周期,X(n)复倒谱低倒谱窗 声道的复倒谱 逆特征 声道冲激 高倒谱窗 声门的复倒谱 逆特征 声门序列,67,第五章 小结,同态滤波作用,特征、逆特征系统 复倒谱与倒谱 声门序列、声道序列的复倒谱分析 相位卷绕与避免方法,68,第六章 语音信号的线性预测分析,6.1 概述 67年用于语音信号处理。核心技术/用于各方面/真正实用 能精确地估计语音参数,效率高,预测参数:LPC、PARCOR参数、LSP参数,基本概念:用过去的一组值估计(预测)新值,6.2 线性预测分析的基本原理 6.2.1 基本原理,全
26、极点模型,原因P70,设输出的语音信号为s(n) 激励信号为u(n),则,过去P个值的加权求和预测,语音特征:Np、G、ai,这些系数如何求?,69,6.2.2 线性预测 怎样求ai? 方法多样。其中一种:,若,则称c(n)为误差。,在最小均方误差准则下,可确定一组系数ai,称为线性预测系数(LPC) (Linear Predictive Coefficients),6.3 线性预测方程组的建立,1、线性预测系数求解,预测值,预测误差,显然,A(z)称为“逆滤波器”或“预测误差滤波器”,e(n)是随机序列,均方误差表示为集平均?时间平均?,令,求出一组系数ai,均方 误差,70,2 线性预测方
27、程,按前述方法,对误差求偏倒数,并令其为0,可得方程组,线性预 测的标 准方程组,s,若定义,则方程式为,71,3 线性预测增益 最小预测误差e(n) = s(n) s(n) 。,可见e(n) = Gu(n),式中,u(n)为声门激励序列,方差/短时为常数,可见,声道的线性预测增益,6.4 线性预测分析的解法(一) 自相关法、协方差法,有了线性方程组,如何求解?方法很多,介绍几种,自相关法是利用短时自相关函数,改写、求解方程,1、改写方程式,序列信号s(n)加窗后记为sn(k),其短时自相关函数为,72,改写方程式,写成矩阵形式,Toeplitz矩阵,线性预测方程,73,2 求解该矩阵的一种常
28、用递推算法 Levinson-Durbin,递推步骤:,1、i0,E0=Rn(0), a1(0)=1,递推次数,2、i从1到p计算:,(2) ai(i)=ki,递推0次时的a值,(3) j从1到i-1计算,aj(i) = aj(i-1) kiai-j(i-1),(4) Ei = (1-ki2)Ei-1,3、aj = aj(p),(1),以一个二阶预测器为例,求aj,第一步、求Rn(0),Rn(1),Rn(2)得方程,第二步、按左示步骤递推,1、i=0,a1(0)=1,E0=Rn(0),a1(0),3、a1=a1(2),a2=a2(2),74,3 反射系数ki与算法稳定性 出现一个重要参数ki,
29、称为反射系数或偏相关(PARCOR)系数,算法稳定条件,精度:用Rn()代替R(),有误差,故精度不高。,6.5 线性预测分析的解法(二) 格型法,直接从语音样点中得到预测系数,6.5.1 格型法基本原理,1、正向预测和反向预测的概念,Levinson-Durbin算法中,得预测系数aj(i),对应A(z)记为,75,误差: 为正向预测误差,反向预测误差:,可以导出,这里的ki就是自相关法中的系数,通过i=3可看出,比较式1、式2知a3(3)=k3,a2(3)=a2(2)-k3a1(2),Levinson-Durbin,76,2 格型滤波器,根据前面得到的递推公式,画出格型分析滤波器的结构,合
30、成,声管1,声管2,ki反射系数,77,6.5.2 格型法的求解,从递推公式看,关键是如何求ki?有正向、反向、几何平均、协方差格型法、伯格(Burg)法,定义三个均方误差:,正向,交叉,反向,正向格型法:准则使第i节正向误差最小的ki,导出,F表示正向,78,6.6 线性预测分析与应用 LPC谱估计和LPC复倒谱,谱估计 估计语音信号的能量谱或功率谱。LPC的一种应用,6.6.1 LPC谱估计,1、声道特性H(ej),由LPC分析知,求得ai = A(z) = H(z),把z=ej代入得,同ai一样,具有短时性,2、语音信号谱S(ej),由模型,冲激作用于系统,故S具有H包络,3、|S(ej
31、)|2与|H(ej)|2的比较,可以用LPC分析得到得H,近似表示S 估计,79,4、p与N的选择 p大,|H(ej)|精确匹配于|S(ej)|,但计算量大!,选择原则:保证有足够的极点来模拟声道响应的谐振结构,经验公式:p=fs/1000+2或3 一般10kHz取样时,p取1214,N:参加运算的样点数,一般N取23个基音周期,6.6.2 LPC复倒谱,用LPC系数表示的语音模型中线性系统冲激响应的复倒谱,设系统的冲激响应h(n),则:,求h(n)的复倒谱:,两边对z-1求偏导数,比较等式两边对应项,得:,称为LPC复倒谱,80,6.5.3 LPC谱估计和其他谱分析方法的比较 1、三种短时谱
32、估计方法,(1) LPC系数 = H(z) = H(e j) = 当p无穷大,近似为S(e j),(3) FFT复倒谱 用倒谱法,求出声道特性,估计出S(e j),2、结果比较,81,6.7 线谱对(LSP)分析(Line Spectrum Pair),LPC分析:用s(n)的时域表示,求解H(z)。应用这种参数,可 构造2.4kbps的声码器。为构造更低码率,有人从另一个角度求解H(z) LSP分析 (也是线性预测的一种),已知,由L-D算法,0,1,两边同乘,得,82,定义kp+1= -1时的A(p+1)(z)为P(z), kp+1= 1时的A(p+1)(z)为Q(z),则有:,去掉右上角
33、的(p):,有人证明:当p为偶数A(z)的零点在z平面单位圆内时, P(z)、Q(z)的零点都在单位圆上,且交替出现。,进一步把P(z)Q(z) 进行因式分解,83,ii是频域参数,称为“Spectrum”;成对出现,称为“Pair”;P(z)Q(z)由LPC分析导出,称为“Line”,求解方法:代数方程求根(牛顿迭代)、DFT法,说明: 1、LSP参数是LPC系数的频域表示,是LPC分析一种 2、LSP用p个离散频率ii表示|H(ej)|2 3、一对LSP参数表示一个谐振点,因此一对参数的误 差只影响该对点附近的语音特性;可根据听觉特性 分配量化比特数 4、应用在低编码速率,极零模型 全极模
34、型不能表示时 解法: 同态预测法 极零 - -全极-LPC,84,第六章小结,LPC分析 目标、原理、误差、方程 自相关求解 Levison-Durbin递推算法 格型法 正(反)向误差、准则 LPC复倒谱 谱估计 了解LSP分析,85,第九章 语音检测分析,检测语音特征 基音、共振峰 9.1 基音检测 重要性:十分重要,基音携带具有辨意作用的信息 困难性: 1、声门激励不是完全周期的 2、清音与低电平的浊音难区分 3、声道共振峰的谐波在基音范围 4、每个周期的开始与结束的判断 5、背景噪声的影响 6、基音频率范围大,提取方法:,86,9.1.1 自相关法,问题:噪声、声道的共振特性,使得语音
35、信号在求自相关函数时 出现假峰值,解决方法: 中心削波法,y(n)=cx(n),y(n) 求其自相关,87,问题与改进 由于大于门限CL保留原数值,计算时要乘以削波系数,计算复杂,修正:,自相关函数:,选直角窗:,y()只有+1、-1、0三种取值,不必作乘法!,88,9.1.2 并行处理法,时域法,比较成功,少数服从多数,m1(n)取峰值 m2(n)峰值减前一谷值 m3(n)峰值减前一峰值 m4(n)取谷值 m5(n)谷值减前一峰值 m6(n)谷值减前一谷值,89,9.1.3 倒谱法(CEP) 语音信号倒谱分析,从倒谱中用高倒谱滤波,取出声门序列的倒谱得周期,窗的选择(两周),峰值位置,清浊判
36、断 清:不输出 浊:基 音,受噪声干扰,易误判。一种改进用预测误差Gu(n)代替语音!,声门脉冲,90,9.1.4 简化逆滤波法(SIFT),是自相关法,只是用Gu(n)代替语音信号s(n)。由于去除了声道干扰, 效果更佳!,由于5:1抽取,自相关的计算量降低。,结果比较 (以男声a为例),91,9.1.5 基音检测的后处理,基音检测每帧都要作。若有异常数据,称为“野点”,得滤除 方法是,对得到的基音值进行处理,去除干扰 1、中值平滑处理 前后各取L点(共2L+1),从大到小排序,取中点 保留了跳变,但可能未滤除噪声 2、线性平滑处理 加权平均。例前后各一点记为x-1、x0、x1,权值0.25
37、,0.5,0.25 则当前值x= 0.25*(x-1+ x1)+0.5* x0 滤除了噪声,但模糊了跳变 3、组合平滑处理 1、2的组合,先中值后线性 多种组合,满足要求,92,9.2 共振峰估值,重要性:声道特性 困难性:1、虚假共振峰(声门) 2、共振峰合并(太近) 3、高基音语音(影响谱估计),9.2.1 带通滤波器法,如何选,93,9.2.2 DFT,对语音信号进行DFT分析,从中提出共振峰 浊音时:误差大(声门),清音时:较准确,9.2.3 倒谱法 原理:可分离声门声道序列(“语音信号两个序列的复倒谱”) 框图:,效果:清浊不同,浊音较好,缺点: 运算量大 对假峰无法区分 峰合并无法
38、分,9.2.4 LPC法 LPC分析,误差=声门/ai=声道特性。共振峰即H(z)的极点;解法 1、求A(z)的根(解多项式) 2、LPC谱估计(在峰值处匹配得好),94,第九章 小结,基音检测 自相关法 / 改进自相关 并行处理 倒谱法 简化逆滤波法 共振峰估值 带通滤波 DFT 倒谱法 LPC法 检测的后处理,95,第十章 语音编码(一) 波形编码,10.1 概述,需求:通信 目的:可接收的失真条件下,采用尽可能少的比特数表示语音 编码就是压缩!综合考虑:可懂度、数码率、计算量 应用:传输 移动电话、保密通信等。 低比特率的优势:窄带、小功率(信道容量)、大容量 存储 数字录音、电子字典等
39、。要求实时、语音质量 进展:起步早,有很多标准,热点是更低比特率 分类:波形编码:尽可能保持波形不变(不仅语音),一般1664Kps 参数编码:提取语音特征,对特载编码、传输、重构合成 又称“声码器技术”。不要求波形 评价:客观标准:SNR (对声码器无效) 主观标准:听后打分。MOS(平均意见得分), DRT(可懂度评价), DAM(判断满意度)。,96,10.2 语音信号的压缩编码原理,10.2.1 语音压缩的基本原理 1、压缩依据 客观冗余 信号本身特征(4) (1)语音信号样本间的相关性很强(8kHz时两点相关0.85) (2)浊音段的准周期性(一个周期的参数,多处用) (3)声道的形
40、状及其变化比较慢 (4)取值的概率分布是非均匀的 (5)静止系数(语音间隔) 主观冗余人的听觉特性 听觉掩蔽特性 听不到或不灵敏的语音分量视为冗余 2、极限码速 按信息论,可计算语音的平均信息量 人们认为,语音中基本元素为音素,大约不到256个, 等概时,按10音素/秒,I=log2(256)10 = 80(bit/秒),97,10.2.2 语音通信中的语音质量,一般分为:CD质量 FM广播质量 AM广播质量 长途电话质量 通信质量 合成质量 质量高,采样率高,比特率高 10.2.3 两种压缩编码方式的优缺点 波形编码:任何声音,音质好,但比特率高。评价:SNR 参数编码:只对语音,音质较差,
41、算法复杂,比特率低。 评价:主观评价。 10.3 PCM及其自适应 (通信原理中讨论过,均匀/非均匀量化,APCM等),98,10.4 预测编码及其自适应,10.4.1 预测编码及自适应预测编码(APC)原理 1、原理 据LPC,预测误差 e(n)=s(n)-s(n)动态范围和平均能量远远 小于s(n),同时发送e(n)与预测系数,可得低码率语音编码, 称为“预测编码” 若预测系数固定不变,为DPCM。若预测系数随语音而变,称为 自适应预测编码(APC)。,2、自适应能改善信噪比 量化噪声:,能量,预测增益,量化器定的信噪比,Es,Eq,Ee是信号、量化噪声、预测误差的平均能量!,99,10.
42、4.2 短时预测与长时预测,10.4.3 噪声整形 利用人的听觉掩蔽效应,对噪声的感觉还取决于噪声的谱包络, 将量化噪声谱整形,使人不易察觉。称为“噪声整形”,“感知加权”,实现:让噪声和信号谱包络相近,100,10.6 子带编码(SBC),也称频带分割编码,属于频域编码 子带 平移为低通 低采样率 编码 1、听觉特性与SBC 听觉:不同频率敏感度不同!一般1KHz左右 SBC:对不同频段的语音区别对待 敏感频段分配多bit,以减少量化误差 不敏感频段分配少bit,误差大点但感觉不到,以压缩码率 2、原理,101,3、“整数带”取样法,选择带宽和采样频率,避开频率搬移 选择滤波器的下截止频率为
43、带宽的整数倍 设带宽为Wk,则下截止频率flk n Wk,如图,以2Wk采样,Lk:1抽取(Lk=W/Wk),带通滤波器:过渡特性影响 采用VSB类似的方法,这 种滤波器称为QMF(正交镜像) 以2子带为例,一般要128256阶FIR 而QMF只要1632阶,两种基于SBC的编码标准: 1、AT&T的SBC QMF+APCM 4kHz分为5个子带 比特数分配16kbps 4/4/2/2/0 24kbps 5/5/4/3/0 2、CCITT的G722 QMF+ADPCM 7khz分为2个子带 总码率64kbps 低频带48kbps 高频带16kbps,102,10.7 自适应变换编码(ATC),
44、变换编码高质量语音压缩编码,有较高的压缩效率,1、原理 时域 -正交变换-变换域-系数量化编码-传输-反变换-时域,一般地:一帧语音信号s(n),0nN-1,构成一矢量 X=s(0),s(1),s(N-1)T,正交变换矩阵A 则 Y AX,对Y量化后得Y1 若 A满足A-1 AT,则X1ATY1 X,ATC的任务:设计最佳量化器量化Y,使X1与X的误差最小!,2、常用正交变换 DFT、WALSH、DCT、K-L、Wavelet,103,第十章 小结,语音编码方案、评价 自适应预测编码 子带编码、整数带取样、QMF 自适应变换编码 感知加权(Perceptually Weighted Filte
45、r),104,第11章 语音编码(二)声码器技术与混合编码,11.1 概述 1、参数编码 又称声码器(Vocoder),提取语音参数,传输、存储 是一种分析合成模式。基础:模型,只对语音有效 从听觉效果出发,不在意波形,2、优点 低码率:由短时性,参数变换率约25Hz,采样50Hz,参数 1020个,以25bit量化,码率为15kbit/s,3、常用声码器 通道声码器、共振峰声码器、LPC声码器 4、混合编码 结合波形、参数编码而设计的较优编码方案 常用:多脉冲码激励线性预测编码 MPLPC 码激励线性预测编码(CELP) G729,105,11.2 声码器的基本结构,声码器包括分析与合成两部
46、分,按分析形式分为多种类型,分 析,合 成,信道,声码器的局限: 1、阶数有限,谱精度有限 2、准周期 周期,合成中有人为特性 3、简单的清浊音划分 4、参数更新速率不适合爆破音等 5、背景噪声被分析后,在合成端性质变换,106,11.3 相位声码器和通道声码器,基于短时傅立叶变换,怎样求与传Xn(.),11.3.1 相位声码器,相位导数,对 和 进行编码、传输,称为相位声码器,107,11.3.2 通道声码器,早期声码器 为易实现,分析时提取短时谱的幅度,不传相位。(类似共振峰) 从模型看,还要激励,按听觉非均匀 取幅值 低取样,缺点:准确基音估计困难-误差, 传输值为|Xn|的一个值 通道
47、串扰加大,落入某通道的串扰,实验证明: 音质较差但可懂度好 抗背景干扰强!,108,11.4 同态声码器,11.4.1 基于倒谱的分析与合成,11.4.2 同态声码器,据报道: 20mS计算一次倒谱(每秒50次),共用26个倒谱 值,每个值用6bit量化,可产生高质量的语音 改进:c(n)差分值、不同长度的时窗,高时窗不便量化 改为传基音周期等,109,11.5 线性预测声码器,最成功、最广泛,可压缩2030倍 原理:LPC分析,波形编码中,编码端LPC产生预测误差e(n) 【APC】 参数编码中,传预测系数,用模型产生语音【LPC声码器】,110,11.5.1 LPC参数的变换和量化,因ai
48、决定H(z)的极点, H(z)对ai的量化误差敏感,不易直接传ai 实用的系统中都须变换后传输。介绍三种方法。,方法1、反射系数 研究表明,ki的取值概率分布不同。k1接近-1,k2接近+1 k3,k4,是均值为零的高斯分布。 谱灵敏度:|ki|越接近1,对谱的影响越大! 可采用非均匀量化,以降低码率。一般k1,k2用56bits,渐少,方法3、预测多项式的根 求A(z)的根再量化。,111,11.5.2 变帧率LPC声码器,根据语音信号的相关性,前后两帧间可能很相近。 变帧率:后帧与前帧比较,有较大差异才传输,降低码率,用欧氏距离,11.5.3 LPC-10编码器,1981年作为美国国家标准
49、。2.4kbps,较简单,抗噪与自然度较差,V/UV 00稳定的清音 01清向浊转换 10浊向清转换 11稳定的浊音,112,LPC-10比特分配,(Gray),44.4帧/秒 * 54bits/帧 2.4kbps,113,LPC-10接收端译码,问题:损失语音的自然度、坚韧性(Robustness)差 原因:二元激励。(问题简单化了) 改进:混合激励(多元)、混合编码,声门脉冲,114,11.6 混合编码,据前,编码效果由于二元激励,解决之道改激励,混合编码:分析时也合成,检验用何种激励合成效果最佳 一般模型,不再是基音 清浊,115,11.6.1 Multi-Pulse LPC (MPLP
50、C),每个短时期,用7/8个脉冲(位置.幅度变)为激励。以便达到误差最小!,流程: (如何确定脉冲位置与幅度) 1、加一个脉冲,调整并记下位置、幅度,使|e(n)|最小 2、再加一个脉冲,同1 3、重复2,直到|e(n)|达到设定最小值或脉冲数达到设定个数,编码结果: 声道 脉冲位置、幅度,关键点:如何找位置和幅度?“最大互相关函数搜索法”,116,11.7.1 波形编码的信号压缩技术,11.7.2 波形编码和声码器的比较,11.7.3 各种声码器的比较,11.7 各种语音编码方法的比较,设 第i个脉冲幅度为gi,位置mi, 语音s(n),合成滤波器h(n) K个脉冲合成的信号与原始语音信号的
51、误差为Ek,对gi、mi求偏导,令为0,得方程组,求得gk、mk,压缩依据,117,第11章小结,1、声码器的基本结构 2、LPC参数的变换和量化 3、LPC声码器 4、MPLPC,118,第七章 语音信号的矢量量化,7.1 概述 1、矢量与矢量量化(Vector Quantization) 多个数组合在一起,构成一个矢量X=x(1),x(2),x(m),m维空间 矢量量化:输入一组数,在集合中找相近的矢量 有效地应用了矢量中各分量间的各种相互关联的性质 2、率-失真理论 在给定速率R条件下能达到的最小失真 指出:矢量量化随矢量维数增多性能更优 3、应用 在编码、识别方面 编码已有用矢量量化得
52、到150bps的报告 4、关键 矢量集合(码本)的产生如何训练? 量化器设计,119,7.2 矢量量化的基本原理,1、标量量化 以均匀量化为例,输入连续值,输出离散值 量化台阶,输出10,2、矢量量化 设K个取样点,得k个值构成K维空间一个矢量 台阶:将K维空间划分为M个区域,每个区域有个代表值Yi 称为量化矢量 矢量量化:对输入矢量按一定规则与Yi比较 找到输入矢量对应的区域,以2维为例,如图 K=2,设M=7划分为S1、S2、S7 Y1Y7称为量化矢量,输入矢量X 分别计算用Y1Y7代替X时可能的失真 用失真最小的Yi代替X,失真最小 失真测度,进一步用i表示Yi在矢量集合中的位置,用i表
53、示X,i是下标,一维的,120,3、码书(码本)与码字(矢),Yi称为码字,集合Yi称为码书 Yi也称为重构矢量,4、矢量量化器的主要问题 (1)怎样划分M个区域:统计“训练” (2)失真测度:距离计算,5、VQ在编码中的应用,编码部分即矢量量化器 在已知的码书中找下标,解码部分按下标在码书 中找对应矢量,只传下标: M1,设计得好有很高的压缩率,特征,121,6、VQ在识别中的应用,每个要识别的单词构造一个码书,7.3 失真测度,失真测度:输入与重构间的误差度量方法 用于描述两矢量间的相似程度,也称距离测度,重要性:影响系统性能,应具备的四个条件: 设两个K维语音特征矢量X和Y (1)对称性
54、 d(X,Y) = d(Y,X) (2)正值性 d(X,Y) 0,当X=Y时相等 (3)d(X,Y)对主观评价有意义 (4)有高效的计算方法,常用三种失真测度,122,7.3.1 欧氏距离测度 均方误差,设X、Y为K维矢量,xi,yi分别表示X、Y中的各元素(1ik),则,1、平方平均误差,2、r方平均误差,3、r均方误差,4、绝对值平均误差,5、最大平均误差,反映两个量间的幅度差,对LPC系数不太适合,123,7.3.2 线性预测失真测度,LPC系数间的幅度差无主观评价意义,应比较功率谱(75年板仓提) IS距离,当p 时,有,LPC系数为a1,a2,ap构成矢量aT=(1,a1,a2,ap
55、),用码书重构矢量后,得到码书中的一组预测系数aT=(1,a1,a2,) 用来恢复语音,对应的语音功率谱,定义IS距离:,124,7.3.3 识别失真测度,语音的能量也携带语音信号信息。IS距离在用于语音识别时, 一般还要修正。一种修正如下:,式中:E 输入矢量的能量 E重构矢量的能量,含义是:能量相近(|E-E|xd),忽略能量影响 差较大,加权后加入 差过大,取一特定值,须要经过实验来确定!,125,7.4 最佳矢量量化器和码本的设计,7.4.1 矢量量化器最佳设计的两个条件 最佳设计:量化误差最小(失真最小) 由于矢量量化主要是码本训练,故最佳设计也是码本训练。 若用d(X,Y)表示X,
56、Y间的失真,最佳码本是: 在一定条件下,集合的失真统计平均值D=Ed(X,Y)最小,1、最佳划分 一是如何划分K维空间为M个区域 二是给定码书,输入X用那个Yi作为X的重构矢量? 评价依据:最近邻近准则NNR(Nearest Neighbor Rule),2、最佳码书 YL怎样选? 设所有选择码字YL的输入矢量X的集合为SL,则YL应使该集合 中所有矢量与YL间的失真最小。 若用欧氏距离,YL应为SL中所有矢量的形心,126,7.4.2 LBG算法,根据前面2个条件,有LBG算法,已知:输入矢量X (训练矢量)集合,初始码本 求:码书Y1,Y2, 步骤: (1)设定参数:码本尺寸J、最大迭代次
57、数L、失真改进阈值 (2)初始化:码字初值Y1(0),Y2(0),Yj(0),迭代次数m=1, 失真初始值D(0)= (3)根据最佳划分,找X对应的码字;即当XSL(m) d(X,YL(m-1)d(X,Yi(m-1) i不等于L (4)计算总失真D(m):,(5)计算失真改进的相对值:,(6)计算新码本各码字:,NL是SL(m)中输入矢量个数,127,7.4.3 初始码书的生成,(7)若(m),则转(9),否则(8) (8)若mL,则m=m+1并转(3),否则(9) (9)迭代终止,输出Yi(m),i=1,2,J训练成的码本,由LBG算法知,迭代由初始码字开始。初始码本的选择将影响结果,1、随机选取法 从训练序列X中随机地选取J个矢量作为初始码字 优点:简单 缺点:若选择的矢量不典型,会导致码本训练中不能收敛,2、分裂法一: (1)由所有训练矢量X,求形心Y1(0) (2)利用较小的矢量将Y1(0)一分为二,以这两个矢量为初始码本,用LBG算法,求出Y1(1),Y2(1),(3)将Y1(1),Y2(1)再二分为四,重复(2)直到有J个码字,?,3、分裂法二: 求出Y1(0)后,对所有XS找max d(Xk
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 职业学校聘用教师合同范本
- 土壤污染修复治理施工方案
- 博才实验中学数学试卷
- 数字化房地产销售策略
- 渣土车运输合同
- 鲁教版历史六年级上册第15课《匈奴的兴起及与汉朝的和战》听课评课记录
- 2025年度国际专利授权许可合同
- 鲁人版道德与法治九年级上册7.2《保护环境需用“重典”》配套听课评课记录
- 2024秋九年级物理上册 第13章 探究简单电路13.3 怎样认识和测量电流说课稿(新版)粤教沪版
- 湘教版数学七年级下册《1.4 三元一次方程组》听评课记录2
- 牙外伤的远期并发症监测
- DL-T-1846-2018变电站机器人巡检系统验收规范
- 2025年高考语文作文备考:议论文万能模板
- 重大事故隐患判定标准与相关事故案例培训课件(建筑)
- 《我的寒假生活》
- DZ/T 0430-2023 固体矿产资源储量核实报告编写规范(正式版)
- (高清版)WST 442-2024 临床实验室生物安全指南
- 历史时间轴全
- 高速行业网络安全与维护
- 2024年能源电力行业数字化转型解决方案
- (2024年)房地产销售人员心态培训
评论
0/150
提交评论