语音处理与语音识别简介_第1页
语音处理与语音识别简介_第2页
语音处理与语音识别简介_第3页
语音处理与语音识别简介_第4页
语音处理与语音识别简介_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1语音处理与语音识别简介2014年9月2主要内容主要内容数字音频基础知识音频处理基础知识语音识别技术简介3主要内容主要内容数字音频基础知识数字音频基础知识音频处理基础知识语音识别技术简介4 是指自然声是指自然声 是机械振动在弹性介质中传播的机械波是机械振动在弹性介质中传播的机械波 是随时间连续变化的物理量是随时间连续变化的物理量 声音概念声音概念 振幅振幅 波的高低幅度,表示声音的强弱波的高低幅度,表示声音的强弱 周期周期 两个相邻波之间的时间长度两个相邻波之间的时间长度 频率频率 每秒钟波振动的次数,单位是每秒钟波振动的次数,单位是 Hz 声音特性声音特性5声音的强度声音的强度 (响度或音量

2、响度或音量),与声波振幅成,与声波振幅成正比;唱盘、正比;唱盘、CD 盘等声音载体中的音强盘等声音载体中的音强不变,通过播放设备的音量控制可改变聆不变,通过播放设备的音量控制可改变聆听时强度;音频处理软件可提高声源音强听时强度;音频处理软件可提高声源音强声音的特色,主要影响因素是复音;复声音的特色,主要影响因素是复音;复音指具有不同频率和不同振幅的混合声音指具有不同频率和不同振幅的混合声音,其中最低频率是音,其中最低频率是 “基音基音”,是声音的,是声音的基调,其他频率的声音为基调,其他频率的声音为 “谐音谐音 (泛音泛音)”代表声音的高低,与频率有关;使代表声音的高低,与频率有关;使用音频处

3、理软件对声音的频率进行用音频处理软件对声音的频率进行调整时,其音调也会随之发生变化调整时,其音调也会随之发生变化 声音的三要素声音的三要素 音调音调 (高低高低) 音强音强 (强弱强弱) 音色音色 (特质特质)6 声音的频率范围声音的频率范围7数字音频数字音频声音是振动的机械波,话筒把机械振动转换成电信号,用随时间连声音是振动的机械波,话筒把机械振动转换成电信号,用随时间连续变化的物理量表示,称之为模拟音频。续变化的物理量表示,称之为模拟音频。在计算机内部,所有的信息均以数字表示,代表声音信号的物理量在计算机内部,所有的信息均以数字表示,代表声音信号的物理量也用一系列数字表示,称之为数字音频。

4、也用一系列数字表示,称之为数字音频。模拟音频在时间上是连续的,而数字音频则是一个数据序列,在时模拟音频在时间上是连续的,而数字音频则是一个数据序列,在时间上不具备连续性,因此只能是断续的。间上不具备连续性,因此只能是断续的。当把模拟声音变成数字声音时,需要每隔一个时间间隔在模拟声音当把模拟声音变成数字声音时,需要每隔一个时间间隔在模拟声音波形上取一个电压幅度值,称之为波形上取一个电压幅度值,称之为。采样得到的表示声音强弱的模拟电压幅值是连续的,把无穷多个电采样得到的表示声音强弱的模拟电压幅值是连续的,把无穷多个电压幅值用有限个数字表示,称之为压幅值用有限个数字表示,称之为。8 采样采样采样过程

5、采样过程按固定间隔按固定间隔采样声音波形采样声音波形采样声音波采样声音波形之后的结果形之后的结果声波是连续信号,声波是连续信号, 或称连续时间函数或称连续时间函数 x(t)。 用计算机处理这些信号时应先用计算机处理这些信号时应先离散化,即按一定的时间间隔离散化,即按一定的时间间隔 (T) 取值,得到取值,得到 x(nT) ( n为整数为整数 ),T 称采样称采样周期,周期,1/T 称采样频率称采样频率 ( 每秒钟采样次数每秒钟采样次数 ),x(nT) 称采样值称采样值 ( 或离散信号或离散信号 )采样概念采样概念9设连续信号设连续信号 x(t) 的频谱为的频谱为 x(f),以采样间隔,以采样间

6、隔 T 采样得到离散信号采样得到离散信号 x(nT)如果满足:当如果满足:当 | f | fc ( fc 是信号高端截止频率是信号高端截止频率 ) 时,有时,有T 1/(2fc) 或或 fc 1/(2T)则可由则可由 x(nT) 完全确定完全确定 x(t)。 当当 fN = 1/(2T) 时,称时,称 fN 为奈奎斯特频率为奈奎斯特频率采样定理采样定理奈奎斯特奈奎斯特 ( Nyqust ) 采样定理:只要采样频率大于或者等于信号中所包采样定理:只要采样频率大于或者等于信号中所包含的最高频率的两倍;即当信号是最高频率时,每个周期至少采样两个含的最高频率的两倍;即当信号是最高频率时,每个周期至少采

7、样两个点,则理论上就可以完全恢复原来的信号。点,则理论上就可以完全恢复原来的信号。 采样采样采样方法采样方法语音信号频谱在高频处迅速下降,但非限带。应用时只对一定频率范围语音信号频谱在高频处迅速下降,但非限带。应用时只对一定频率范围内的信号感兴趣,就可以对经滤波限带的音频信号采样。这样,在采样内的信号感兴趣,就可以对经滤波限带的音频信号采样。这样,在采样前,用一个锐截止模拟低通滤波器对音频信号进行滤波。前,用一个锐截止模拟低通滤波器对音频信号进行滤波。10 量化量化通过采样得到的表示声音强弱的函数通过采样得到的表示声音强弱的函数 x(nT) 是连续的,为把是连续的,为把 x(nT) 存入计存入

8、计算机,就必须将采样值离散化,即量化成一个有限个幅度值的集合算机,就必须将采样值离散化,即量化成一个有限个幅度值的集合 x(nT)量化概念量化概念量化原理量化原理先将整个幅度划分成为有限个小幅度先将整个幅度划分成为有限个小幅度(量化阶距量化阶距) 的集合,把落入某个阶距的集合,把落入某个阶距内的样值归为一类,并赋予相同的量内的样值归为一类,并赋予相同的量化值。如果量化值是均匀分布的,称化值。如果量化值是均匀分布的,称为均匀量化。设为均匀量化。设 为量化阶距,量化为量化阶距,量化器最大范围是器最大范围是 Xmax,则:,则: = 2Xmax/ /2B量化电压幅量化电压幅值之后的结果值之后的结果1

9、1 编码编码音频模拟信号经过采样与量化之后,为把数字化音频存入计算机,需对音频模拟信号经过采样与量化之后,为把数字化音频存入计算机,需对其编码,即用二进制数表示每个采样的量化值,完成整个模数转换过程其编码,即用二进制数表示每个采样的量化值,完成整个模数转换过程编码概念编码概念PCM 编码编码一种最方便简单的编码方法是脉冲编一种最方便简单的编码方法是脉冲编码调制,常称为码调制,常称为 PCM ( Pulse CodeModulation) 编码。是一种未经压缩编码。是一种未经压缩的数字音频信号,常作为一种参考信的数字音频信号,常作为一种参考信号,以便其他编码方法与之比较,或号,以便其他编码方法与

10、之比较,或者在此基础上作进一步压缩编码处理者在此基础上作进一步压缩编码处理12 衡量一种编码方法的性能有两个主要指标:码流速率和量化噪声衡量一种编码方法的性能有两个主要指标:码流速率和量化噪声 码流速率指的是音频信号编码流速率指的是音频信号编码后每秒钟产生的数据流量,以码后每秒钟产生的数据流量,以kbit/s 为单位表示,也可以表示为单位表示,也可以表示为为 kbps。例如对普通模拟话音。例如对普通模拟话音用用 8kHz 的频率采样并以的频率采样并以 8 位量位量化和编码,所形成的音频数字信化和编码,所形成的音频数字信号的码率便是号的码率便是 64kbps。 量化噪声是由量化失真引起量化噪声是

11、由量化失真引起的噪声,通常表示为量化后的音的噪声,通常表示为量化后的音频信号噪声比,简称信噪比。每频信号噪声比,简称信噪比。每增加增加 1 位量化精度,信噪比即提位量化精度,信噪比即提高高 6db。例如在高保真音响系统。例如在高保真音响系统中,要求信噪比大于中,要求信噪比大于 90db,则,则量化精度必须在量化精度必须在 16 位以上。位以上。 编码编码13 声道声道(Sound Channel) 是指声音在录制或播放时在不同空间位置采集或回是指声音在录制或播放时在不同空间位置采集或回放的相互独立的音频信号,所以声道数也就是声音录制时的音源数量或放的相互独立的音频信号,所以声道数也就是声音录制

12、时的音源数量或回放时相应的扬声器数量。回放时相应的扬声器数量。 单声道(单声道(mono):只有一个声):只有一个声道。普通的单声道录放系统使用道。普通的单声道录放系统使用一只话筒录音,信号录在一条轨一只话筒录音,信号录在一条轨迹上,放音时使用一路放大器和迹上,放音时使用一路放大器和一只扬声器,所以重放出来的声一只扬声器,所以重放出来的声音是一个点声源。音是一个点声源。 声道声道 立体声(立体声(stereo):有两个声道。):有两个声道。在录制声音时,在不同的位置用在录制声音时,在不同的位置用两只话筒进行录音,而在重放时两只话筒进行录音,而在重放时则使用两路独立的放大器和两个则使用两路独立的

13、放大器和两个扬声器,从而使听者可以较准确扬声器,从而使听者可以较准确地判断出录音中不同音源的准确地判断出录音中不同音源的准确位置。位置。1415l WAV为微软公司(为微软公司(Microsoft)开发的一种声音文件格式开发的一种声音文件格式非压缩,直接存储(采样、量化、非压缩,直接存储(采样、量化、PCM编码后的)原始数据;编码后的)原始数据;如如 果采样率高,其音质极佳;果采样率高,其音质极佳;数据量大,与采样频率、量化位数、声道数成正比。数据量大,与采样频率、量化位数、声道数成正比。 波形音频文件(波形音频文件(WAV)数字音频文件格式数字音频文件格式1617 Windows PCM W

14、AV文件头格式文件头格式偏移地址大小字节数据块类型内容00H03H44字符资源交换文件标志(RIFF)04H07H4长整数从下个地址开始到文件尾的总字节数08H0BH44字符WAV文件标志(WAVE)0CH0FH44字符波形格式标志(fmt ),最后一位空格。10H13H4整数过滤字节(一般为00000010H)14H15H2整数格式种类(值为1时,表示数据为线性PCM编码)16H17H2整数通道数,单声道为1,双声道为218H1BH4长整数采样频率1CH1FH4长整数波形数据传输速率(每秒平均字节数)20H21H2整数DATA数据块长度,字节。22H23H2整数PCM位宽24H27H44字符

15、数据标志符(data)28H2BH4长整型DATA总数据长度字节18 Windows PCM WAV文件头格式文件头格式19主要内容主要内容数字音频基础知识音频处理基础知识音频处理基础知识语音识别技术简介20l 在音频信息处理领域,在音频信息处理领域,特征提取特征提取是一个非常重要的问题。是一个非常重要的问题。l 特征提取的任务:特征提取的任务:从原始输入的原始音频信号中提取既能表征不同音频内容的声学差异,从原始输入的原始音频信号中提取既能表征不同音频内容的声学差异,又能表征相同音频内容不同样本之间的声学相似性的信息,同时减少原又能表征相同音频内容不同样本之间的声学相似性的信息,同时减少原始信

16、号的信息冗余。始信号的信息冗余。 音频特征提取音频特征提取21l 时域音频信号是非平稳信号,难以处理。但它在一个很小的时段内具有时域音频信号是非平稳信号,难以处理。但它在一个很小的时段内具有 相对的稳定性。相对的稳定性。l 因此在对其进行分析时,可以假定语音信号在一个因此在对其进行分析时,可以假定语音信号在一个时间帧(时间帧(frame)内是平稳的。通常一帧在内是平稳的。通常一帧在1030ms之间,视实际情况而定,而且分帧可连续,之间,视实际情况而定,而且分帧可连续,也可采用交叠分段的方法。也可采用交叠分段的方法。 分帧分帧10ms25ms10ms25ms22l 短时能量(短时能量(STE:S

17、hort Time Energy)是一帧的总能量)是一帧的总能量l 短时能量说明了音频信号的强度,可用于静音的检测。短时能量说明了音频信号的强度,可用于静音的检测。例如,对于一个音频信号,如果这个音频信号中的某一个短时帧的平均能量值例如,对于一个音频信号,如果这个音频信号中的某一个短时帧的平均能量值低于一个事先设定的阈值,则可判定该短时帧为静音。低于一个事先设定的阈值,则可判定该短时帧为静音。l对于一段音频,以时间或帧为横坐标,短时能量值为纵坐标,可以画出一对于一段音频,以时间或帧为横坐标,短时能量值为纵坐标,可以画出一条曲线,我们将该曲线称为能量包络(条曲线,我们将该曲线称为能量包络(Ene

18、rgy Envelop)曲线。)曲线。 短时能量短时能量020log( )wSTEF wdw21niiSTEd1|niiSTEd23l MFCC全称为美尔频标倒谱系统(全称为美尔频标倒谱系统(Mel-Frequency Cepstral Coefficients),是语音处理中常用的特征。),是语音处理中常用的特征。l MFCC正是利用三角滤波器组对傅立叶变换能量系数滤波而得,并且对正是利用三角滤波器组对傅立叶变换能量系数滤波而得,并且对其频域进行其频域进行Mel尺度变换,以更符合人类的听觉特征。尺度变换,以更符合人类的听觉特征。 MFCC24主要内容主要内容数字音频基础知识音频处理基础知识语

19、音识别技术简介语音识别技术简介6/1/202225根据处理的语音数据和识别结果分类连续语音识别(Continuous Speech Recognition)孤立词识别(Isolate Word Recognition)关键词检测(Key Word Recognition,Key Word Spotting)根据针对的发音人分类特定人语音识别(SD:Speaker Dependent)非特定人语音识别(SI:Speaker Independent)6/1/202226特征提取特征提取语言模型语言模型自适应自适应第一遍第一遍识别识别声学模型声学模型前端处理前端处理第第n遍遍识别识别语音识别结果识别结果系统框架6/1/202227前端处理消除个体的影响 声道长度归一(VTN:Vocal Tract Length Normalizati

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论