语音数据清洗_第1页
语音数据清洗_第2页
语音数据清洗_第3页
语音数据清洗_第4页
语音数据清洗_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

主讲:张群慧语音处理技术SpeechProcessingTechnology01模块1语音数据处理--数据清洗--任务目标掌握语音数据处理概念语音数据的读取和可视化写一个语音信号语音数据信号加窗语音数据信号分帧语音信号的短时时域与频域处理任务内容语音数据预处理语音数据处理的整个过程可以分为两个部分:

高质量低速率的语音编码技术是其中最主要的要求,它将模拟语音信号变成数字信号以便在信道中传输。除了通信带宽的要求外,嵌入式系统存储容量的限制也要求对语音进行压缩,以满足巨量数据情况下进行实时或准实时微处理器处理的目的。A/D转换

把原始声音的模拟输入转化为数字化信息;D/A转换

把数字信息转化为模拟数据。微处理器处理的目的。语音数据预处理任务内容语音文件的读取与可视化语音信号处理的研究起源于对发音器官的模拟。1939年美国H.杜德莱(H.Dudley)展出了一个简单的发音过程模拟系统,以后发展成为声道的数字模型。利用该模型可以对语音信号进行各种频谱及参数的分析,进行通信编码或数据压缩的研究,同时也可根据分析获得的频谱特征或参数变化规律,合成语音信号,实现机器的语音合成。语音文件的读取与可视化任务内容利用语音分析技术,还可以实现对语音的自动识别,发音人的自动辨识。

如果与人工智能技术结合,还可以实现各种语句的自动识别以至语言的自动理解,从而实现人机语音交互应答系统,真正赋予计算机以听觉的功能。语音文件的读取与可视化(续)任务内容语音信号处理语音信号的产生和感知语音信号是一个非平稳的时变信号,但语音信号是由声门的激励脉冲通过声道形成的,而声道(人的口腔、鼻腔)的肌肉运动是缓慢的,所以“短时间”(10~30ms)内可以认为语音信号是平稳时不变的。由此构成了语音信号的“短时分析技术”。在短时分析中,将语音信号分为一段一段的语音帧,每一帧一般取10~30ms,我们的研究就建立在每一帧的语音特征分析上。任务内容语音信号处理提取的不同的语音特征参数对应着不同的语音信号分析方法:由于语音信号最重要的感知特性反映在功率谱上,而相位变化只起到很小的作用,所有语音频域分析更加重要。时域分析频域分析倒谱域分析...

在对语音信号处理的过程中,语音信号的质量不仅取决于处理方法,同时取决于所提取的能够表示该语音的特征参数是否合适。有了特征参数才可能利用这些参数进行有效的处理。任务内容信号加窗通常对信号截断、分帧需要加窗,因为截断都有频域能量泄露,而窗函数可以减少截断带来的影响。信号加窗任务内容信号分帧在分帧中,相邻两帧之间会有一部分重叠。信号分帧帧长(wlen)=重叠(overlap)+帧移(inc)如果相邻两帧之间不重叠,那么由于窗函数的形状,截取到的语音帧边缘会出现损失,所以要设置重叠部分。inc为帧移,表示后一帧第前一帧的偏移量,fs表示采样率,fn表示一段语音信号的分帧数。任务内容信号分帧信号分帧的理论依据,其中x是语音信号,w是窗函数:加窗截断类似采样,为了保证相邻帧不至于差别过大,通常帧与帧之间有帧移,其实就是插值平滑的作用。任务内容语音数据的短时时域处理与频域处理短时能量和短时平均幅度短时能量和短时平均幅度的主要用途:

区分声母和韵母的分界和无话段和有话段的分界

区分浊音和清音段,因为浊音的短时能量E(i)比清音大很多;任务内容语音数据的短时时域处理与频域处理发浊音时由于声门波引起谱的高频跌落,所以语音信号能量约集中在3kHz以下,发清音时多数能量集中在较高的频率上,因为高频意味着高的短时平均过零率,低频意味着低的短时平均过零率,所以浊音时具有较低的过零率,而清音时具有较高的过零率。对于连续语音信号,过零率意味着时域波形通过时间轴,对于离散信号,如果相邻的取样值改变符号,则称为过零。短时平均过零率可以用来初步判断清音和浊音可以用于判断寂静无话段与有话段的起点和终止位置。在背景噪声较小的时候,用平均能量识别较为有效,在背景噪声较大的时候,用短时平均过零率识别较为有效。短时自相关函数主要应用于端点检测和基音的提取,在韵母基因频率整数倍处将出现峰值特性,通常根据除R(0)外的第一峰值来估计基音,而在声母的短时自相关函数中看不到明显的峰值。短时自相关函数任务内容短时自相关函数短时平均幅度差函数用于检测基音周期,而且在计算上比短时自相关函数更加简单。语音信号的短时频域处理任务内容短时自相关函数在语音信号处理中,在语音信号处理中,信号在频域或其他变换域上的分析处理占重要的位置,在频域上研究语音可以使信号在时域上无法表现出来的某些特征变得十分明显,一个音频信号的本质是由其频率内容决定的,将时域信号转换为频域信号一般对语音进行短时傅里叶变换。fft_audio=np.fft.fft(audio)将信号转换为频域之后,还需要将其转换为有用的形式,梅尔频率倒谱系数(MFCC),MFCC首先计算信号的功率谱,然后用滤波器组和离散余弦变换的组合来提取特征。梅尔频率倒谱系数任务内容频谱任务内容绝大部分信号都可以分解为若干不同频率的正弦波。这些正弦波中,频率最低的称为信号的基波,其余称为信号的谐波。基波只有一个,可以称为一次谐波,谐波可以有很多个,每次谐波的频率是基波频率的整数倍。谐波的大小可能互不相同。以谐波的频率为横坐标,幅值(大小)为纵坐标,绘制的系列条形图,称为频谱。频谱能够准确反映信号的内部构造。语谱图任务内容语谱图综合了时域和频域的特点,明显的显示出来了语音频率随时间的变化情况,语谱图的横轴为时间,纵轴为频率任意给定频率成分在给定时刻的强弱用颜色深浅表示。颜色深表示频谱值大,颜色浅表示频谱值小,语谱

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论