




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、语音信号处理杨震(教授、博士生导师)2011年2月,徐说当今世界正处于信息时代,计算机技术、通信技术和电子技术的飞速发展已经将人类社会推向了信息社会。互联网和移动通信的普及、电子购物的兴起、多媒体通信的蓬勃发展及其应用改变了人类的生活、工作和娱乐方式。信息的获取、处理、传输、显示和存储是信息技术研究的主要内容。作为社会的主人,人类一直是接收和发送信息的主要声音,也是人类相互交流最重要、最方便、最快捷的工具信息载体。信息和信号一样,信息是信号的内涵(1)信息是信号描述的对象(2)信息是信号承载的内容,信号是信息的延伸,信号是信息的载体,同一信息可以承载不同物理量的信号(声音、图像、图形和文本),
2、也可以用不同的数学方式(数字或模拟)来描述。语音信号处理是一个跨学科的研究,涉及广泛的学科,包括1。语音特征分析和建模2。语音编码3。语音识别4。语音合成。语音增强6。语音通信,教学内容,1引言2语音信号的分类和数字化3语音发声模型和人类听觉特性4语音信号的时域和频域分析方法5语音信号的线性预测编码技术6演示实验7各种语音处理和通信系统的质量评价标准8语音信号的数字压缩编码标准, 9语音波形编码技术-第一部分10语音波形编码技术-第二部分11语音参数和混合编码技术-第一部分12语音参数和混合编码技术-第二部分13人机通信第一部分语音识别原理14人机通信第二部分语音合成原理15实用系统中的语言声
3、音增强和去噪技术16语音压缩编码、去噪、识别和合成的演示实验,参考文献,1。 包长春。数字语音编码原理m .安:西安电子科技大学出版社,2007年2月,王语音编码和可变速率语音编码,西安电子科技大学出版社,2002,2004年3月,等。清华大学出版社,2004,奈语音信号处理,机械工业出版社,2003,5,汤玛斯费因斯离散时间语音信号处理的原理与应用,电子工业出版社,2004,6,王小龙计算机自然语言处理,清华大学出版社,2005,7,拉宾纳谢弗语音信号数字处理科学出版社,1977年参评论文,研究动态1。国际声学、语音和信号处理会议录。语音和音频处理3。信号处理交易4。语音通信5,ICSLP(
4、口语处理)6,IEL数据库,第1章声音信号的分类和数字化,1.1声音信号的分类语音自然语音窄带语音,也称为电话频带语音宽带语音非语言音频信号(音频)光盘质量声音高保真HiFi(高保真)和环绕效果声音,杜比AC3 5.1声道声音位置,第1章声音信号的分类和数字化,1.2声音信号的特征参数1.2.1传播速度,频率, 声音的周期和波长1.2.2声压、声功率、声强和声级1.2.3音高和频率的关系,人耳听的弗莱彻-曼森等响度级曲线,第一章声音信号的分类和数字化,1.3声音信号的数字采样量化编码计算机声音处理系统中常用的采样频率为11.025千赫、22.05千赫和44.1千赫。 广播、电影、电视和娱乐领域
5、分别为32千赫、44.1千赫和48千赫。,存储声音信号一分钟所需的存储容量,第1章声音信号的分类和数字化,压缩传感技术及其对语音信号处理的影响1。CS 2的基本原则。基于压缩感知的语音处理开放课题,第1章声音信号的分类和数字化,1.4声音信号的数字存储格式,WAV:数字音频波形格式,MidI:微软公司开发的数字乐器合成器,主要用于合成音乐。目前,我们遇到的大多数文件都是。沃夫和。MID文件。第一章:声音信号的分类和数字化。微软公司和国际商用机器公司联合开发的WAV格式文件的前四个字节是RIFF。它用来表示文件属于一种资源交互文件格式(RIFF)。Riff文件的基本结构是块,第一块是WAVE类型
6、,指定的文件是波形数字音频文件,第二块是fmt块,它定义了文件中其他数据的格式。第一章是声音信号的分类和数字化;/编码模式的标记;1个用于动力系统控制模块的字线连接器;/通道数;单声道等于0,立体声等于2个单词非立体声;/每秒采样数WORD nAvgBytesPerSec/平均每秒字节数;/数据块偏移fmt,作业,1。用计算机观察任何语音信号,然后描述你观察到的语音信号的主要特征;2.语音信号携带语义信息。请参考数据并回答:(1)语音信号的特征参数是什么?(2)人耳如何感知这些信息?第二章:语音信号的产生,人耳的特征和听觉特征;2.1语音信号生成,人体发音器官示意图;第二章:语音信号的产生,人
7、耳的特征和听觉特征。发音器官:1)肺和气管;2)喉部;3)声道(包括口腔、鼻腔等。);4)男性发音的“我的声音”的时域波形和频谱图;第二章:声音信号的产生和特征以及人耳的听觉特性;第二章:声音信号的产生和特征以及人耳的听觉特性;2.2:语音信号的分类声学语音学它可以分为:(1)浊音语音,也叫浊音语音的音高;(2)清音,也称清音;(3)爆破音语音:元音和辅音;音素,音节,第2章语音信号的产生,人耳的特性和听觉特性,2.3语音信号的产生模型常用如下:(1)声管模型:波动方程描述(2)线性预测模型:数学模型描述(3)共振峰模型:谐振腔描述,语音信号产生的简化数字模型线性预测模型关键:级联公共,混合共
8、振峰模型,第2章语音信号的产生,人耳的特性和听觉特性, 2.4人耳听觉特性的掩蔽效应和人耳临界频带的掩蔽效应是指人耳感受到一种声音并受另一种声音影响的现象。 弗莱彻和Munson在1937年发现,音调可以被以音调频率为中心频率的宽带噪声所隐藏和听不见,如果宽带噪声的带宽在不改变其能量的情况下改变,这种隐藏现象将不会受到噪声带宽改变的影响,除非噪声带宽超过临界值,这被称为临界频带。换句话说,人耳很难分辨临界频带内的声音。第二章语音信号的产生、特征和人耳的听觉特征该参数的意义在于人耳可以看作一个并行滤波器组,每个滤波器具有不同的带宽,对听觉的贡献也不同。临界频带的单位一般用巴克来表示,以纪念科学家
9、巴克豪斯。1树皮用于指示临界频带的频率宽度。如果巴克域的频率变量是B,赫兹域的频率变量是F,那么有:第2章语音信号的产生,人耳的特征和听觉特性,2.5人耳听觉效应的掩蔽效应,和同时掩蔽(频率掩蔽):同时掩蔽纯音,第2章语音信号的产生,特征和人非同时掩蔽(时间掩蔽):非同时掩蔽纯音的现象。第二章:语音信号的产生和特征以及人耳的听觉特性,人耳的2.5种其他听觉效应(1)哈斯效应(延迟掩蔽),(2)双耳效应(灵敏度和定位),以及(3)鸡尾酒效应(选择性接收)。第三章语音信号的分析方法3.1语音信号的统计特征语音:非平稳随机过程1。概率密度函数:超高斯随机信号;近似伽玛分布、拉普拉斯或高斯分布可用于近
10、似二、零均值三和非平稳时变信号;短期稳定性:1030ms 4。音高频率,音高周期5。频率分布、第3章。语音信号分析法,3.2短期语音信号分析法。语音信号加窗分析技术:(1)均匀窗:数字信号处理器教科书(2)不均匀窗:各种国际标准(3)重叠窗。常用的语音信号特征参数(1)短时能量En (2)短时平均幅度Mn (3)短时平均过零率Zn (4)短时自相关函数Rn (5)短时傅里叶变换Fn (6)基于参数模型的模型参数。第三章语音信号分析方法:1 .短期能量En和短期平均振幅Mn。浊音:大清音:小静音:最小。第三章语音信号分析方法:2 .Zn浊音短期平均过零率:小清音:大静音:小(如果没有背景噪声)大
11、(如果有背景噪声)。一般的经验数据是,对于清晰的声音,过零率为每10毫秒Zn49,而对于有声语音,过零率为每10毫秒Zn14。、4。短时傅立叶变换分析1。反映了短时间内激励和声道的频谱特性,这主要由频谱的包络特性来描述。浊音:频谱能量集中在低频区域,衰减较快,呈锯齿状无声声音:频谱能量分布在整个频率范围内,没有明显衰减。沉默:光谱能量很小。可以计算音调频率。浊音清音声谱清音声谱,第三章:语音信号分析方法;第5章:Gabor变换和小波变换平稳信号分析工具:傅里叶变换将信号分解成正弦波的线性组合;小波变换将信号分解成小波的线性组合;第3章:语音信号分析方法,3.3语音信号分类和分词方法框架分类:有
12、声、无声和无声分类技术:1。基于能量或过零率的硬决策。基于自相关函数或傅立叶变换的硬判决3。模式分类技术(如统计模式分类、结构模式分类、人工神经网络模式分类和模糊模式分类)。第三章语音信号的分析方法、语音信号帧属性划分的参数选择有许多参数可以用来判断信号帧的特征,如每帧信号的能量、过零率、低通滤波后的语音能量、高/低通能量比、一阶低通滤波器系数、一阶低通滤波器反射系数、每帧预测误差能量、基音周期自相关函数比等。文献表明,基于单个参数很难准确判断输入信号特征。即使在相对简单的二进制语音分类中,例如VAD,也经常根据多个参数进行分类。例如,G.729B标准采用四个参数。第三章,语音信号的分析方法,
13、电话语音的统计表明,各种语音信号帧(统计帧数为3000,帧长为20毫秒)的大致比例为:背景音:55.7%清音: 12.5%浊音: 32.8%,第三章,语音信号的分析方法,分词技术:大部分都是基于短时能量和过零率以及多阈值决策。能量和过零率检测法双阈值法。这种方法也常被称为显式方法,即终点的确定与后续决策无关。具体地说,第一个判断是用短期能量作出的,然后第二个判断是用短期平均过零率作出的。在第4章,语音信号的LPC分析方法中,信号的预测问题可以表示为:给定p个观测点,找到一定的函数:最小化估计误差序列的均方值,如果是线性函数,则是一个众所周知的LP问题:第4章语音信号的LPC分析方法,基音LP预
14、测分析(长期预测)T是基音周期,M通常是1或2。第四章语音信号的低通滤波分析方法,4.1低通滤波技术是语音信号处理中最成功、最成熟的技术。723.1mp-mlq/acelp g.728ld-celp(低延迟celp) g.729cs-acelp(卷积结构-代数celp)GSM RPE/被广泛用于语音编码的国际标准LTP(规则脉冲激励/长期预测)IS-54 VSELP(矢量和激励线性预测)IS-95 QCELP(CELP高通公司)FS(联邦标准)FS1015 LPC10、FS1016 CELP海事卫星APC(自适应预测编码)MPLPC基于语音发声的简化数学模型,有必要对声道和激励参数进行分析和提取。语音样本s(n)与激
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 酒店与餐饮管理培训行业跨境出海战略研究报告
- 农药自动化包装设备行业跨境出海战略研究报告
- 互联网保险理赔加速服务行业跨境出海战略研究报告
- 足球反种族歧视行业跨境出海战略研究报告
- 自然风光与生态美学企业制定与实施新质生产力战略研究报告
- VTV空调合同标准文本
- 亲人之间借贷合同样本
- 仓库置物架安装合同样本
- 临时合作合同标准文本
- 简述教育法的基本内容
- 钢栈桥施工监理细则
- 骨转移瘤课件
- 护士注册健康体检表下载【可直接打印版本】
- 核心素养视角下教师专业发展课件
- 污水处理培训课件
- 初中语文八年级下册第三单元综合性学习古诗苑漫步-综合性学习《古诗苑漫步》教案
- 中国十大阶层的划分课件
- 高中英语各种教材词组汇总大全(超级实用)
- 内燃机机油泵转子系列参数
- 远程视频会议系统建设方案课件
- 四十二手眼图(经典珍藏版)
评论
0/150
提交评论