语音信号的压缩与重构_第1页
语音信号的压缩与重构_第2页
语音信号的压缩与重构_第3页
语音信号的压缩与重构_第4页
语音信号的压缩与重构_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

语音信号的压缩与重构

1压缩感知cs技术说话人识别技术是一种基于语音波形的参数来代表说话人特征的参数,并通过认证说话人的身份。在众多的生物认证技术中,说话人识别技术以其独特的方便性和经济性而受到广泛关注,并日益成为人们日常生活和工作中重要且普及的安全认证方式。当前的说话人识别系统在实验室环境下大多都可以获得较高的识别率,但实际应用中的噪声污染,将导致系统识别性能的大幅度下降。如何提高噪声环境下系统的鲁棒性是当前说话人识别领域的热点之一。本文将信号处理领域国际研究热点压缩感知CS(CompressedSensing)技术,应用于说话人识别领域来提高系统的抗噪性能。压缩感知理论[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17]是近年来针对稀疏信号提出的一种压缩方法,它实现了对未知信号的边感知边压缩,并且采样数据远远小于奈奎斯特采样定律要求的数据量。由于数据量减少,并且在一定条件下,采样数据可以精确重构原信号,所以该技术已经在传感器网络、信号的检测,估计和分类、图像、医学、雷达、通信、模式识别、盲源分离和频谱分析等领域成为研究热点。本文研究了语音信号进行压缩感知处理时重构误差与观测点数的关系,并针对压缩感知重构信号频谱在噪声环境下变化较小的特性,提出一种新的基于压缩感知重构信号的说话人识别系统抗噪方法,研究了不同信噪比环境下获得最高识别性能时观测矢量的最佳点数。2稀疏域基cs理论传统的奈奎斯特采样理论告诉我们要使信号采样后能够不失真还原,采样频率至少为信号最高频率的两倍。近几年压缩感知理论的研究表明,如果原始信号(例如语音信号)在某个基上具有稀疏性,那么采样率可以大大下降,并且在满足观测矩阵与变换基的非连贯条件以及信号重构的RIP(RestrictedIsometryProperty)条件时能够精确重构原信号。而且,CS理论打破了传统压缩编码的先抽样后压缩的处理方式,它对原始信号同时进行抽样和压缩。假设原始信号x0∈Rn在正交基Ψ={yi|yi∈Rn‚i=1‚2‚⋯‚n}Ψ={yi|yi∈Rn‚i=1‚2‚⋯‚n}上是k-稀疏的,即x0=Ψθ(1)其中稀疏系数向量θ=ΨTx0=(θ1,θ2,…,θn)T只有k个非零系数,即‖θ‖0=k。CS理论将k-稀疏信号x0随机投影到观测矩阵Φ上,由此产生了m个观测值y=(y1,y2,…,ym)T,即y=Φx0=ΦΨθ=θ(2)其中Φ=(φ1,φ2,…,φn),(φi∈Rm,i=1,2,…n)。Φ与Ψ互相不连贯。=ΦΨ称为CS矩阵。通常观测向量的维数要远远小于原始信号的维数(m<n),于是可将观测向量y看作原始信号抽样和压缩后的结果。解压缩时,根据观测向量,CS理论应用数学优化方法来重构原始信号。由y重构x0或θ时需要求解式(2),当m<n时,它有无穷多个解,所以,由式(2)无法求得确切的重构信号。但根据BP(BasisPursuit)算法:因为θ为稀疏向量,式(2)可转化如下的l0最优化问题minθ∥θ∥0subjecttoy=ΦΨθ=θ(3)其中‖·‖0是对θ的一种稀疏性度量。因为(3)是NP(Non-DeterministicPolynomial)问题,可通过求解l1最优化问题得到它的等价解:minθ∥θ∥1subjecttoy=ΦΨθ=θ(4)文献证明了l0和l1最优化问题的稀疏解的等价性。由此可见,CS理论的关键是稀疏域基(对应稀疏系数)、观测矩阵和重构算法的选取。在我们的实验研究中,参考文献中的方法,对信号进行离散余弦变换DCT(DiscreteCosineTransform)得到其稀疏系数,选择随机高斯矩阵作为观测矩阵,并采用线性规划LP(LinearProgram)中的单纯形(Simplex)方法进行信号的重构。2.1稀疏系数的获取语音信号在DCT域上具有稀疏性,并且DCT域得到的系数是实系数,运算比较方便。具体如下X(k)=n-1∑i=01√nx(i)‚k=0X(k)=n-1∑i=0√2nx(i)cos(2i+1)kπ2n‚k=1‚2‚⋯n-1(5)本文通过DCT获取语音的稀疏系数θ=(θ1,θ2,…,θn)T,其中θi=X(i-1),i=1,2,…,n。2.2rypeti条件当观测矩阵Φ为高斯随机矩阵时可以满足Φ、Ψ的非连贯条件以及信号重构的RIP(RestrictedIsometryProperty)条件:即对特定ε≤0,任何k-稀疏矢量ν,有1-ε≤‖ν‖2‖ν‖2≤1+ε(6)所以实验中采用高斯随机矩阵作为观测矩阵。矩阵中的元素采用独立同分布iid(independentandidenticallydistributed)的高斯随机变量,即各元素是相互独立的,且服从均值为零,方差为1的高斯分布。2.3使用单纯形法求解线性规划的最优解线性规划的标准形式为其中c和x为n维列向量,b为m维列向量,A为m×n矩阵。与(4)进行比较,可知(4)可用线性规划问题求解。由于标准形式里要求x具有非负性,而(4)中的θ为n维无约束变量,可令θ=u-ν,其中u,ν均为n维非负约束变量,即u≥0,ν≥0。由此,(4)问题可等价为如下的线性规划问题:其中C=(1,…,1)T,A=(,-),b=y‚x=(uν)‚θ=u-ν。针对等式线性规划问题(8),可以通过内点法IP(InteriorPointmethod)或单纯形(simplexmethod)算法求解出最优解x*,并进一步得出θ*或原始信号x0的重构信号x*0。本文采用单纯形法求解最优解。线性规划问题的所有可行解构成的集合是凸集,每个基可行解对于可行域的一个极(顶)点,若线性规划问题有最优解,必在某个顶点上得到。单纯形法是有效的找到最优解的方法。单纯形法的基本思路:从可行域中某一个顶点开始,判断此顶点是否为最优解,如不是,则再找另一个使得其目标函数值更优的顶点,称之为迭代,再判断此点是否为最优解。直到找到一个顶点为其最优解,即使其目标函数值最优的解,或者能判断出线性规划问题无最优解为止。具体算法如下:设矩阵A的秩为m,基矩阵为B,非基矩阵为N,矩阵A用(9)表示:A=(B,N)(9)x中基变量的全体构成xB=(xB1,xB2,…,xBm)T,非基变量的全体构成xN=(xN1,xN2,…,xN(n-m))T。c中与基变量对应的分量构成cB=(cB1,cB2,…,cBm)T,与非基变量对应的分量构成cN=(cN1,cN2,…,cN(n-m))T。记A=(a1,a2,…,an)(10)给定一个初始基本可行解或初始基,可通过以下算法求出最优解。设初始基为B,然后执行下述步骤:(1)解Bx=b,求得x=B-1b=b′,令xN=0,计算目标函数值cBTxB。(2)解wB=cBT,得到单纯形乘子w=cBTB-1。对于所有非基变量,计算判别数zj-cj=waj-cj。令zk-ck=maxj∈R{zj-cj}(11)R为非基变量下标集。若zk-ck≤0,则对于所有非基变量zj-cj≤0,对应的基变量的判别数总是零,因此停止计算,现行的基本可行解是最优解。否则,进行下一步。(3)解Byk=ak,得到yk=B-1ak,若yk≤0,则停止计算,问题不存在有限最优解。否则,进行下一步。(4)确定下标r,使得br´yrk=min{bi´yik|yik>0}(12)xBr为离基变量,xk为进基变量。用ak替换aBr,得到新的基矩阵B,返回步骤(1)。这里初始基本可行解可以用两阶段法或大M法确定。3实验结果与讨论本文基于CS原理,对语音信号进行压缩与重构,分析了重构误差与观测点数的关系,设原始信号为x0,用第2节描述的方法得到的重构信号为x*0,误差信号e=x-x*0。我们用原始信号x0与误差信号e=x-x*0的能量比值的大小来衡量重构误差。定义压缩感知重构信噪比CSRECSΝR=1ΝΝ∑i=110lgEx0iEei(13)其中Ex0i为原始信号x0第i帧的能量,Eei为误差信号e第i帧的能量,N是总的帧数。我们通过实验研究不同观测点数下压缩感知重构信噪比的大小。实验语音8kHz采样,20ms分帧,每帧信号对应160个样点。现在,利用压缩感知原理,用第2节中的方法减少采样点数,并进行信号的重构实验,实验中压缩感知重构信噪比CSRECSNR随观测点数m变化的关系如图1所示,总的帧数为600。实验中,将语音信号进行DCT变换,结果显示虽然平均每帧不为零的系数是80个左右,但平均每帧大于0.01的系数只有30个左右,这时可以认为语音信号在DCT域上具有近似稀疏性。由图1看出,当取DCT变换,观测矩阵选随机高斯矩阵时,观测点数越大,重构信噪比越大,即信号的重构误差越小。而且,重构信噪比CSRECSNR与观测点数m基本成线性关系,当观测点数大于120时重构信噪比大于20dB,重构效果较好。4噪声前后的cs压缩与重构信号的频谱特征因为语音信号是近似稀疏的,也就是说,它的变换域上的系数有部分并不是真正为零,而是非常接近于零,算法中为保证稀疏性条件,将对噪声敏感的小系数当成零,而系数比较大的值(对应的是频谱中幅度大的部分,也就是抗噪性好的部分)与系数小的值相比,可以被更好的恢复。因此CS重构信号的抗噪性较好。我们进行了多次频谱观察,结果显示噪声污染前后的重构信号的频谱变化比未进行CS压缩与重构处理的噪声污染前后信号的频谱变化要小。以某浊音帧为例,原始语音信号(采样频率8KHz)在加性噪声污染(此处用白噪声,SNR=10dB)前后频谱变化是比较大的,如图2所示,图2(a)是噪声污染前的频谱曲线,图2(b)是噪声污染后的频谱曲线。我们对以上噪声污染前后的语音帧分别进行CS压缩与重构(用第2节的方法,观测点数取80),噪声污染前的CS重构信号与噪声污染后的CS重构信号的频谱分别由图3(a)和图3(b)来表示,从图中看出,噪声污染前后的重构信号的频谱变化比未进行CS压缩与重构处理的噪声污染前后信号的频谱变化要小,也就是说,经CS压缩重构后的信号抗噪能力比未经CS处理的信号强。对清音帧而言,虽然清音频谱本身不够稀疏,变换域系数的大小区别不像浊音那么明显,但由于清音在语句中占据的时间很短,所以CS重构信号的抗噪性较好这一结论仍然成立。说话人识别系统力求提高噪声环境下系统的识别率,而不要求CS重构波形与原始波形的近似程度,所以我们考虑用CS压缩重构后的信号来进行说话人识别系统的训练和测试,以提高系统的抗噪性能。5观测矢量学习传统的说话人识别系统一般采用纯净语音信号作为训练语音,而进行说话人身份识别的测试语音通常都是带噪的。训练语音与测试语音的频谱变化是比较大的,所以导致实际系统识别率比较低。针对CS重构信号在无噪和带噪环境下频谱变化相对较小的特性,本文提出基于CS重构信号的说话人识别方法,即利用无噪环境下的CS重构信号作为识别系统的训练语音,用噪声环境下的CS重构信号作为识别系统的测试语音。本文研究了不同信噪比下,采用第2节的CS处理方法时(即用DCT变换求稀疏系数,高斯随机矩阵做观测矩阵,单纯形法重构信号),观测矢量取不同点数对识别率的影响,并得到了不同信噪比下的最佳观测点数。说话人识别系统采用高斯混合模型GMM(GaussianMixtureModel)方法,识别实验中,GMM模型的阶数M实验中改变测试语音的信噪比,得到识别率随CS算法中观测矢量点数m变化如表1所示。如果用未经过CS处理的相应的无噪和带噪语音分别进行训练和识别,识别率随信噪比的变化如表2所示。从表1和表2中可以得到如下结论:(1)用CS重构信号进行训练和识别时,相同观测点数下随着信噪比的增加,系统识别率提高。(2)当CS观测矢量点数为40-100时,不同信噪比下的识别性能都比未使用CS方法时改善了。(3)在不同的信噪比下,取得最高识别率的观测点数是不同的:信噪比为5dB时,40点为最佳点数;信噪比为10dB时,60点为最佳点数;信噪比为15dB时,80点为最佳点数;信噪比为20dB时,100点以上性能最好,且随着点数增加,识别性能变化不大(虽然我们从图1中得到的结论是点数越大,重构误差越小,但识别性能却不一定最佳)。(4)在每一种信噪比环境下,最佳点数对应的识别率最高,如果再增加或减小点数,系统的识别率将随着点数的增加或减小而逐渐下降。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论