第2章语音技术概述

上传人：a*** IP属地：湖北上传时间：2024-01-26 格式：PPT 页数：97 大小：2.35MB 积分：20 举报 版权申诉

已阅读5页，还剩92页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

§２.1语音和语言

构成人类语音的是声音，由人讲话所发出的声音，对语音中音的分类和研究称为语音学。1、言语的过程和作用想说阶段————大脑中枢活动说出阶段————发音器官的活动传送阶段————传送信息的物理过程起作用接收阶段————听觉系统活动理解阶段————大脑中枢活动12、一些根本概念①音素〔phoneme〕：语音的最小单位，由音素构成音节。②音节〔Syllable〕：说话时一次发出的，具有一个响亮的中心，并被明显感觉的语音片断。音素和音节2辅音和元音

音素分为两类：辅音〔Consonant〕和元音〔Vowel〕元音：声带振动产生一个准周期的空气脉冲，如i、u、ü、a、o、e等。辅音：呼出的气流，由于通路中某一局部封闭起来或受阻，气流不通畅所产生的声音，如b、p、m、f、d、t、n、l等。3辅音和元音的区别有四点：1、辅音发音时，气流在通过咽头、口腔的过程中，要受到某部位的阻碍；元音发音时，气流在咽头、口腔不受阻碍。这是元音和辅音最主要的区别。2、辅音发音时，发音器官成阻的部位特别紧张；元音发音时发音器官各部位保持均衡的紧张状态。3、辅音发音时，气流较强；元音发音时，气流较弱。4、辅音发音时，声带不一定振动，声音一般不响亮；元音发音时，声带振动，声音比辅音响亮。4半元音：声道根本通畅，但某处比较狭窄，引起轻微摩擦。[W]、[Y]元音构成音节的主干，辅音只出现在音节前端或前后两端。元音的共振峰特性：声道被看成具有均匀截面积的声管，发音时起共鸣器的作用。元音鼓励进入声道时引起共振特性，产生一组共振频率，即共振峰。5清音和浊音清音：声带不振动浊音：声带振动而发音元音都是浊音、辅音有清音也有浊音。63、汉语的声调：浊音的声带振动基频称为基音频率。无论在说一个单音节或说一段连续语音时，各个音节中韵母段的都是随时间变化的，基音频率的不同轨迹称为声调。几乎平均于横轴、平均值高从较低一直上升到较高频率先降后升从较高频率降到较低频率74、语音信号的时域波形开始/ai//k/时变特性有些段落周期性，有些段落具有噪声特性，短时平稳性8Doyoulikeit?VsDidyoulikeit?Waveform9§２.2语音产生的过程及声学特征语音产生的过程喉以上的局部称为声道，随着发出声音的不同其形状是变化的；而喉的局部称为声门。10声带〔VocalCords〕10~14mm在喉部的从喉结到杓状软骨之间的韧带褶。声门〔Glottis〕两个声带之间形成一个开闭自如的声门，声带合拢因而受声门下气流的冲击而张开；但由于声带韧性迅速地闭合，随后又张开而闭合，声带开启和闭合使气流形成一系列脉冲。声门每开启和闭合一次的时间即振动周期称为音调周期或基音周期，其倒数称为基音频率，也简称为基频。基音的范围约为70~350Hz左右。11声道〔vocaltract〕17cm由咽腔、口腔和鼻腔三个空气腔体组成。声道是一个分布参数系统，它有许多自然谐振频率〔在这些频率上其传递函数具有极大值〕，所以声道是一谐振腔，它放大某一频率而衰减其他频率分量。谐振频率由每一瞬间的声道外形决定。如果声道的截面是均匀的，谐振频率将发生在12听觉系统：

声波经过外耳的放大后，经过鼓膜和听小骨将声波转化为机械振动，传入内耳。§2.3语音感知

由外耳、中耳、内耳组成人耳的作用：1、声音放大；2、声音传导；3、声源定位13正常人的听域与听阈：听觉感知特性：正常人的听觉系统是极为灵敏的，人耳所能感觉的最低声压接近空气中分子热运动所产生的声压。正常人可听声音的频率范围为0.016-16kHz，年轻人可听到20kHz的声音，而老年人可听到的高频声音要减少到10kHz左右。正常人可听声音的强度范围为0-120dBSPL(声压级)，这里的基准声压(0dBSPL)是或。14纯音听阈是与频率有关的量，在1000Hz时约为4dB左右，而在40Hz时上升为50dB左右，在15kHz时上升为24dB左右。

感觉阈代表可容忍的最高声压。在声压级高到一定程度时，耳朵会出现不适感觉，或者具有痒、压迫及痛感。对正常人而言一般取120dB为不适阂，140dB为痛阐，且认为它与频率无关。15响度〔Londness〕---方〔phon〕是一种主观心理量，主观感觉到的声音强弱的一种衡量标准，它与频率有关。一样的音强，不一样的频率，那么响度也会有所不同。0dB声强级的1000Hz纯音的响度级为0phon;ndB声强级的1000Hz纯音的响度级为nphon;16听觉掩蔽效应掩蔽效应：一种声音的听觉感受受到同时听到的另一种声音的影响。分：同时掩蔽和短时掩蔽

17同时掩蔽：同时存在的一个弱信号和一个强信号频率接近时，强信号会提高弱信号的听阈，当弱信号的听阈升高到一定程度会导致弱信号不可闻。短时掩蔽：当A声和B声不同时出现时。后向掩蔽：掩蔽声B消失后，其作用仍持续一段时间：0.5～2s前向掩蔽：被掩蔽音A出现后，相隔0.005～0.2s之内出现掩蔽音B，也会对A起作用。18§2.4语音信号的数学模型准那么：要寻求一种可以表达一定物理状态下的数学关系，要使这种关系不仅具有最大的精确度，而且还要最简单。期望：模型既是线性的又是时不变的，这是最理想的模型。语音信号特征：一连串的时变过程；声门和声道相互耦合，还形成语音信号的非线性特性。合理假设：在较短的时间间隔内表示语音信号时，采用线性时不变模型。19发音器官的机理模型：20语音信号的产生模型21(1)发浊音时。此时气流通过绷紧的声带，冲激声带产生振动，使声门处形成准周期性的脉冲串，并用它去鼓励声道。声带绷紧的程度不同，振动频率也不同。该频率就是音调频率，其倒数为音调周期。(2)发清音时。此时声带松弛而不振动，气流通过声门直接进入声道。表示为均值为0、方差为1，并在时间或在幅度上为白色分布的序列。

1、鼓励模型22罗森贝格〔Rosenberg〕在研究中发现，如果在发浊音时声门脉冲取如下图的形状，可以获得比较好的合成语音效果。发浊音时的声门脉冲23把声道视作截面积变化的管子，研究声音沿管道是怎样传播的。2、声道模型〔一〕声管模型24管道内声波的运动方程：

其中，为在点时刻的声压

为在点时刻的体积速度

为空气密度

为声速

为管道截面积25每个管子可看作为一个四端网络，这个网络具有反射系数，声道可由一组截面积或一组反射系数来表示。

通常用A表示声管的截面积。由于语音的短时平稳性，假设在短时间内，各段管子的截面积且是常数。设第m段和第m+1段的声管的截面积分别为Am、Am+1，设称为“面积和差比〞，其取值范围为-1<km<1。它实际上是线性预测的反射系数。26共振峰与舌位关系舌位上下决定了F1共振频率。舌位越高，F1的频率越低，反那么反之。舌位前后决定了F2共振频率舌位越后，F2的频率越低，反那么反之。〔二〕共振峰模型声道被视为谐振腔，共振峰是腔体的谐振频率271〕级联共振峰模型〔适合于一般元音〕分解：282〕并联型〔非一般元音和大多数辅音〕293、混合型〔结合级联型和并联型〕：幅度控制因子AB专为一些频谱特性比较平坦的音素，如[f],[p],[b]所考虑的。30

声道的终端为口和唇。从声道输出的是速度波，而语音信号是声压波，二者之倒比称为辐射阻抗ZL。它表征口和唇的辐射效应，也包括圆形的头部的绕射效应等。

口唇的辐射效应可表示为：，它是一阶后向差分。辐射模型R(z)是一阶类高通滤波器的形式。3、辐射模型31完整的语音信号数字模型可以用三个子模型：鼓励模型、声道模型和辐射模型的串联来表示。其转移函数为：H(z)=U(z)V(z)R(z)这里，U(z)是鼓励信号——声门脉冲即斜三角波的形式；V(z)是声道传递函数，既可以用声管模型，也可以用共振峰模型来描述。在共振峰模型中，又可采用级联型、并联型或混合型等几种形式；R(z)为辐射模型。4、完整的模型

声门脉冲

声道语音信号

激励信号声道滤波器语音信号频谱传递函数频谱韵母的产生过程332.5语音的质量评估一类是音节以下(如音素、声母、韵母)的语音单元的测试，这常称为“清晰度〞测试；清晰度测试可以元音、辅音为根底或以声母、韵母为根底，再根据音节成分算出音节清晰度。一类是音节以上(如词、句)的语音单元的测试，常称为“可懂度〞测试。语音质量测试可分为两类：

342.6语音信号的时频特性分析汉语拼音“SouKe〞的时域波形采样率8kHz3536372.7语音信号的语谱图语谱仪：将语音信号(经话筒变成了电信号)送进一排频率依次相接的窄带滤波器，各窄带滤波器的输出记录在一卷按一定速度旋转的记录纸上(各滤波器的由低到高按频率排列)，信号强那么记录得浓黑一些，反之那么浅谈一些。由此得到的即是语音信号的语谱图，此图的水平方向是时间轴，垂直方向是频率轴，固上或深或浅的黑色条纹表征各个时刻的短时谱。38

自然语音a波形图

自然语音a语谱图

自然语音o波形图

自然语音o语谱图39语音信号具有时变特性，而在一个短时间范围内其特性根本保持不变即相对稳定，因而可以将其看作是一个准稳态过程。语音的重要特性是它具有“短时性〞，所以对语音的分析和处理必须建立在“短时〞的根底上，即进行“短时分析〞，§2.8语音信号的数字化与预处理语音信号处理系统框图40数字化：放大、增益控制、反混叠滤波、采样、A/D变换及编码预处理：预加重、加窗、分帧、端点检测①表示语音信号比较直观、物理意义明确。②实现起来比较简单、运算量少。③可以得到语音的一些重要参数。④采用示波器等通用设备，使用较为简单。时域分析的特点：411、预滤波、采样、A/D变换目的：1、抑制输入信号各频域分量中频率超出fs/2的所有分量，以防止混叠干扰；2、抑制50Hz工频干扰。实现：带通滤波器，上下边带截止频率分别为、42采样根据取样定理，当取样频率大于信号的两倍带宽时，取样过程中不会丧失信息，且从取样信号中可以精确地重构原始信号波形。在信号的带宽不明确时，在取样前应接入反混叠滤波器，使其带宽限制在某个范围内。语音信号频率范围：300～3400Hz采样率：8kHz～10kHz43量化：将输入的整个幅值分成有限区间，把落入同一区间的波形样本都量化成同一幅度值。44量化后的信号值与原信号之间的差值称为量化误差，又称为量化噪声。假设信号波形的变化足够大或量化间隔足够小时，可以证明量化噪声符合具有以下特性的统计模型：①它是一个平稳的白噪声过程；②量化噪声和输入信号不相关；③量化噪声在量化间隔内均匀分布，即具有等概率密度分布。452、预处理预加重：原因：语音信号的平均功率谱受声门鼓励和口鼻辐射的影响，高频端大约在800Hz以上按6dB／倍频程跌落。目的：提升高频局部，使信号的频谱变得平坦，以便于进行频谱分析或声道参数分析。位置：可在反混叠滤波之前进行，这样不仅能够进行预加重，而且可以压缩信号的动态范围，有效地提高信噪比。也可在A／D变换之后进行，用具有6dB／倍频程的提升高频特性的预加重数字滤波器实现，它一般是一阶的。式中值接近于1。

46加窗分帧：语音信号是一种典型的非平稳信号，其特性是随时间而变化的，但是语音的形成过程是与发音器官的运动密切相关的，这种物理运动比起声音振动速度来说要缓慢得多，因此语音信号常常可假定为短时平稳的，即在10～30ms的时间段内，其频谱特性和物理特征参量可近似地看作是不变的，这样，就可以采用平稳过程的分析处理方法来处理了。由这个假定导出了各种“短时〞处理方法，以后讨论的各种语音信号都是分隔为一些短段(帧)再加以处理。这些短段就好似是来自一个具有固定特性的持续语音片段一样。47将语音分成短段的根本手段是对语音加窗，即用一个有限长度的窗序列截取一段语音信号来进行分析。该窗函数可以按时间方向滑动，以便分析任一时刻附近的信号。加窗运算定义为：48帧长和帧移的例如49矩形窗：汉明窗：汉宁窗：50端点检测：端点检测是指从包含语音的一段信号中确定出语音的开始和终止点。有效的端点检测不仅能使处理时间减到最小，而且能去除无声段的噪声干扰，从而使识别系统具有良好的识别性能。一个较好的端点检测算法应该能够满足：门限值可以对背景噪声的变化有一定的适应；能够将短时冲激噪声和超过门限值的信号纳入无声段而不是有声段；对于爆破音的寂静段，应将其纳入语音的范围而不是无声段；应该尽量防止在检测中丧失鼻韵和弱摩擦音等与噪声特性相似、短时参数较少的语音；应该防止使用过零率作为判决标准，以免带来负面影响。51传统的端点检测算法1.基于能量的端点检测语音和噪音的主要区别在它们的能量上，语音段的能量比噪音段的大，语音段的能量是噪音段能量叠加语音声波能量的和。传统端点检测算法认为，如果环境噪声和系统环境噪声比较小，能够保证系统的信噪比较高，那么只要计算输入信号的短时能量或短时平均幅度就能把语音段和噪声背景区分开。实际中信噪比较低。522.双门限前端检测法利用短时过零率来检测清音，用短时能量来检测浊音。双门限法是考虑到语音开始以后总会出现能量较大的浊音，设一个较高的门限用以确定语音已开始，再取一比稍低的门限，用以确定真正的起止点及结束点。判断清音与无话的差异，是采用另一个较低的门限，求越过该门限的“过零率〞。只要取得适宜，通常背景噪声的低门限过零率将明显低于语音的低门限过零率值。这种方法普遍地用于有话、无话鉴别或词语前端检测。533.基于噪声动态检测的语音端点检测算法54仿真实验及结果分析图1“制约〞在零噪声时的检测结果图2“１〞在参加少量噪声时的检测结果图3“１〞在噪声加大时的检测结果图4“１〞在噪声进一步加大时的检测结果554.基于小波变换的语音端点检测算法依据：小波系数可以反映语音信号在各个子带内沿时间轴的能量分布，通过处理又可以捕捉到语音段的边界，因此可以利用小波变换来对语音信号进行端点检测，以到达区分语音段和非语音段的目的。56步骤：1)先将语音信号分成由1024个采样点组成的帧；2)对每帧进行10层小波分解；3)计算所选两个子带(子带4和子带5)的小波系数；4)计算两个子带的互相关系数；5)通过帧间平滑连接所有互相关系数成为一个和原信号长度相同的序列；6)计算序列前220个点(20ms)的最大值，把此最大值作为阈值；7)比较序列中各个点的值。假设小于阈值，那么记为静音；假设大于阈值，那么记为语音；8)按照上述过程对语音信号进行标记，再滤掉个别误判点，完成语音信号的端点检测。575.基于循环神经网络的语音端点检测算法

原理：选用一个三层的RNN，且隐层的输出全部反响到输入层。输入的采样语音信号被分成三种模式：浊音〔U〕、清音〔V〕、和背景噪声〔N〕。选用的RNN神经网络输出层有三个节点，对应输出的三种模式。58循环神经网络的结构593〕仿真实验与结果分析针对白噪声和汽车噪声环境对数字0~9的语音数据进行实验，用来做测试的语音文件每组50个，包括男生和女生发音，含有汽车噪声的语音信号平均信噪比10dB和5dB，分别模拟汽车中速和高速行驶环境下的录音。60实验室背景下基于能量和过零率的端点检测结果61信噪比15dB时基于能量和过零率的检测结果62信噪比15dB时基于小波变换的端点检测结果63信噪比5dB时基于小波变换的端点检测结果64信噪比5dB时基于循环神经网络小波变换的端点检测结果

65方法测度白噪声/dB汽车噪声/dB0515510Energy0.620.750.800.720.780.530.610.780.590.690.590.720.780.680.75Wavelet0.850.900.990.870.900.700.820.980.770.800.810.880.990.840.87RNN0.900.951.000.910.920.750.880.980.820.850.860.920.990.880.92噪声情况下各种语音端点检测方法比较66

基于能量和过零率的端点检测方法在实验室环境下可以获得较好的端点检测结果，随着信噪比的降低该方法检测的准确率将随之下降，基于小波变换和基于循环神经网络的端点检测方法对于噪声具有一定的鲁棒性，但是随着噪声的明显增大，小波变换的方法得到的检测结果仍然有所下降，与之相比基于循环神经网络的方法的鲁棒性要优于基于小波变换的方法，具有很大的优越性和实用性。

结果分析：672.8短时能量和平均幅度分析原理：语音信号能量随时间有相当大的变化，特别是清音段的能量一般比浊音段的小得多。

定义：1、短时能量分析68决定短时能量特性有两个条件：不同的窗口的形状和长度。

矩形窗：第一个零点：窗口形状：窗长对分辨率的影响窗长越长，频率分辨率越高，而时间分辨率越低69海明窗：第一个零点：矩形窗谱平滑性能好，但损失高频成分，波形细节丧失，海明窗与之相反。70N=51的直角窗和海明窗的对数幅频特性。海明窗的第一个零值频率位置比直角窗要大1倍左右，同时其带外衰减也比直角窗大得多。71这里窗长的选择对于反映语音信号的幅度变化起着决定的作用。如果很大，它等效于很窄的低通滤波器，此时随时间的变化很小，不能反映语音信号的幅度变化，信号的变化细节就看不出来；反之，窗长太小时，滤波器的通带变宽，随时间有急剧的变化，不能得到平滑的能量函数。窗口的长度：标准：一帧内含有1～7个基音周期，10kHz取样下，N取100～200点。722、短时平均幅度分析定义：框图：优点：1、对高电平信号不如En敏感；2、计算方法简单。缺点：浊音和清音的区分不如En明显。73短时平均能量和短时平均幅度的主要用途：

可以区分清音段与浊音段：En值大的对应于浊音段，而En值小的对应于清音段。En值的变化，可大致判定浊音变为清音或清音变为浊音的时刻。可以用来区分声母与韵母的分界，无声与有声的分界，连字(指字之间无间隙)的分界等。作为一种超音段信息，用于语音识别中。

742.9短时过零分析定义：过零就是信号通过零值。连续语音信号，考察其时域波形通过时间轴的情况；离散时间信号，相邻的取样值改变符号那么称为过零。语音信号序列是宽带信号，那么不能简单用上面的公式。75语音信号短时过零分析定义：其中：框图：76短时过零分析的意义：可以区分清音与浊音：浊音时具有较低的平均过零数，而清音时具有较高的平均过零数。利用它可以从背景噪声中找出语音信号，可用于判断寂静无语音和有语音的起点和终点位置。

在背景噪声较小时用平均能量识别较为有效，而在背景噪声较大时用平均过零数识别较为有效。

772.10语音信号的倒谱分析求语音倒谱特征参数，通过同态处理来实现。倒谱分析：运用对数运算和二次FFT/IFFT变换，将基音谐波和声道的频谱包络别离出来，用低时窗从语音信号倒谱中截取出低倒谱域局部，可以更精确的反映声道的响应，得到共振峰。2、对原语音信号分析出一组预测系数，得到语音产生模型的频率响应。同态处理〔同态滤波〕：解卷，将卷积关系变为求和处理。将语音信号的声门鼓励和声道响应别离开。78同态信号处理的根本原理信号分类：加性信号、乘积性信号、卷积性信号等。同态信号处理目的：将非线性问题转化为线性问题来处理。同态信号处理分类：乘积同态处理和卷积同态处理两种。79特征系统

D*反特征系统

D*-1：它是特征系统的反运算卷积同态系统：80特征系统D*81反特征系统D*-1：82复倒谱和倒谱是一个时域序列，我们称是x(n)的“复倒频谱”，简称为“复倒谱”，有时也称作对数复倒谱。所处的离散时域，称之为“复倒谱域”。这样，特征系统D*[]将离散时域中的卷积运算转换为复倒谱域中的加性运算。进行同态信号处理后，即可完成解卷的任务。若时域中有，则复倒谱域中。假设位于复倒谱域中不同的间隔内并且互不交替，那么适当地设计线性系统，便可将x1(n)或x2(n)分离出来。83特征系统D*反特征系统D*-1c(n)是序列x(n)对数幅度谱的傅里叶逆变换，c(n)称为“倒频谱〞或简称为“倒谱〞，有时也称“对数倒频谱〞。84复倒谱和倒谱的特点和关系：1.复倒谱要进行复对数运算，倒谱只进行实对数运算。2.倒谱情况下，一个序列经过正反两个特征系统以后不能复原成自身，因

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第2章语音技术概述

文档简介

温馨提示

最新文档

评论

第2章 语音技术概述

文档简介

温馨提示

最新文档

评论

相关文档

第2章语音技术概述