数字语音处理_第1页
数字语音处理_第2页
数字语音处理_第3页
数字语音处理_第4页
数字语音处理_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数字语音处理期末大作业姓名:关志恒专业:电子信息科学与技术(2)班学号:121006116年级:2012级辽宁大学信息学院一、经典的数字语音信号时域处理算法有哪些,分别简述其原理?答:1.语音信号的预处理在对语音信号进行数字处理之前,首先要将模拟语音信号s(t) 离散化为s(n). 实际中获得数字语音的途径一般有两种,正式的和非正式的。正式的是指大公司或语音研究机构发布的被大家认可的语音数据库,非正式的则是研究者个人用录音软件或硬件电路加麦克风随时随地录制的一些发音或语句。语音信号的频率范围通常是3003400Hz,一般情况下取采样率为8kHz即可。本书的数字语音处理对象为语音数据文件,是已经

2、数字化了的语音。有了语音数据文件后,对语音的预处理包括:预加重、加窗分帧等。a. 语音信号的预加重处理: 预加重目的:为了对语音的高频部分进行加重,去除口唇辐射的影响,增加语音的高频分辨率。可通过一阶FIR高通数字滤波器来实现:设n时刻的语音采样值为x(n) ,经过预加重处理后的结果为: b.语音信号的加窗处理: 加窗常用的两种方法: (1)矩形窗,窗函数如右式: (2) 汉明(Hamming)窗,窗函数如下: 2.短时平均能量 定义n时刻某语音信号的短时平均能量En为: 当窗函数为矩形窗时,有 若令 En特点:En反映语音信号的幅度或能量随时间缓慢变化的规律. 窗的长短对于能否由短时能量反映

3、语音信号的幅度变化,起着决定性影响。如果窗选得很长,En不能反映语音信号幅度变化 窗选得太窄,En将不够平滑。通常,当取样频率为10kHz时,选择窗宽度N=100200是比较合适的。 3.短时平均幅度函数 为了克服短时能量函数计算x2 ( m ) 的缺点,定义了短时平均幅度函数: Mn与En的比较:1. Mn能较好地反映清音范围内的幅度变化; 2. Mn所能反映幅度变化的动态范围比En好; 3. Mn反映清音和浊音之间的电平差次于En。 4.短时平均过零率 在离散时间语音信号情况下,如果相邻的采样具有不同的代数符号就称为发生了过零。单位时间内过零的次数就称为过零率。短时平均过零率的定义为:在上

4、式中,用1/2N 作为幅值,是考虑了对该窗口范围内的过零数取平均的意思。实现短时平均过零率: 5.短时自相关分析语音信号的短时自相关函数:因为 所以 定义 那么短时自相关函数可以写成:定义 6.基于能量和过零率的语音端点检测语音端点检测就是指从包含语音的一段信号中确定出语音的起始点和结束点。可用基于MATLAB程序实现能量与过零率的端点检测算法和两级判决法及程序实现:第一级判决:(1)先根据语音短时能量的轮廓选取一个较高的门限T1,进行一次粗判:语音起止点位于该门限与短时能量包络交点所对应的时间间隔之外(即AB段之外)。(2)根据背景噪声的平均能量确定一个较低的门限T2,并从A点往左、从B点往

5、右搜索,分别找到短时能量包络与门限T2相交的两个点C和D,于是CD段就是用双门限方法根据短时能量所判定的语音段。第二级判决:以短时平均过零率为标准,从C点往左和从D点往右搜索,找到短时平均过零率低于某个门限T3的两点E和F,这便是语音段的起止点。门限T3是由背景噪声的平均过零率所确定的。注意:门限T2,T3都是由背景噪声特性确定的,因此,在进行起止点判决前,T1,T2,T3,三个门限值的确定还应当通过多次实验。基于MATLAB程序实现能量与过零率的端点检测算法步骤如下: (1)语音信号x(n)进行分帧处理。 (2)得到语音的短时帧能量。计算每一帧语音的过零率,得到短时帧过零率。考察语音的平均能

6、量设置一个较高的门限T1,用以确定语音开始,然后根据背景噪声的平均能量确定一个稍低的门限T2,用以确定第一级语音结束点。第二级判决同样根据背景噪声平均过零率ZN,设置一个门限T3,判断语音前端清音和后端尾音。 7.基音周期估值 基于短时平均幅度差函数AMDF法的基音周期估值: 对于浊音语音,在基音周期的整数倍上的幅度差值不是零,但总是很小,因此,可以通过计算短时平均幅度差函数中两相邻谷值间的距离来进行基音周期估值。这里使用修正的短时平均幅度差函数并加矩形窗,得到: AMDF函数与短时自相关函数的不同是: 自相关函数进行基音周期估计时寻找的是最大峰值点的位置,而AMDF寻找的是它的最小谷值点的位

7、置。由于清音没有周期性,所以它的自相关函数和平均幅度差函数均不具有准周期性的峰值或谷值。 基音周期估值的后处理: a. 中值平滑处理 b. 线性平滑处理 c. 组合平滑处理 二、经典的数字语音信号频域处理算法有哪些,分别简述其原理?答:傅里叶变换、滤波器。 1.傅里叶变换的解释语音信号可被看作是短时平稳信号,其某一帧的短时傅里叶变换定义式如下: (4.1)式中w(n-m)是窗函数。在式中,短时傅里叶变换有两个变量,它们是离散时间n及连续频率 将式(4.1)写作: 时变傅里叶变换是时间标号n的函数,当n变化时,窗w(n-m)沿着x(m)滑动。此外,由功率谱定义,可以写出短时功率谱与短时傅里叶变换

8、的关系:功率谱是自相关函数: 的傅里叶变换。 2.滤波器的解释 (1)短时傅里叶变换的滤波器实现形式: 如果把w(n)看作为一个滤波器的单位取样响应,则短时傅里叶变换 就是该滤波器的输出,为滤波器的输入。 用实数来运算的方法: 还可以画出短时傅里叶变换的滤波器解释的另一种形式如图2所示,也分为复数运算和实数运算两种。同样要求线性滤波器近似为一个中心频率为的窄带带通滤波器。 结论:经调制后,其付里叶变换为,这说明调制使的频谱在频率轴上向左移动了,线性滤波器输出端的频谱等于乘积,故为了使输出频谱准确等于, 应当是一个冲激。即要求线性滤波器近似为一个窄带低通滤波器。 (2)短时频谱的时域及频域采样率

9、短时傅里叶变换同时是时间n以及角频率的函数。由来恢复x(n),首先遇到的就是时域取样率和频域取样率的问题。时域取样率(为固定值) 若将w(n)的傅里叶变换记为对于大多数窗函数来说,具有低通滤波器的特性,若它的带宽为BHz,则具有与窗相同的带宽。低通滤波器的带宽是由第一个零点位置决定的。因为是 的傅里叶变换, 因而B的取值决定于窗口序列的长度N和形状。频率取样率(n为固定值 (3)总取样率 的总抽样率(SR)等于 在大多数实际窗中,B 可以表示为FS /N的倍数 其中,C是比例常数, x ( n )的抽样频率即为 SR/FS即为与一般取样频率相比而得到的“过速率采样比”。 三、结合你自身情况,谈

10、谈你对数字语音信号处理理论及应用的相关专业知识的认识?答:语音在人类社会中起了非常重要的作用。在现代信息社会中,小至人们的日常生活,大到国家大事、世界新闻、社会舆论和各种重要会议,都离不开语言和文字。近年来,普通电话、移动电话和互联网已经普及到家庭。在这些先进的工具中,语音信号处理中的语音编码和语音合成就有很大贡献。 1.在语音识别与合成中的应用 语音识别的研究是从20世纪50年代开始的,但直到60年代中期才取得了实质性进展,其重要标志就是日本学者Itakura将动态规划算法用于解决语音识别语速多变的难题,提出了动态时间收缩算法(DTW:Dy2namicTimeWarping)。其基

11、本思想是:在训练阶段,从词汇表中通过语音信号处理技术提出每个词的特征向量(时域特征、频域特征、尺度特征及联合分布特征),作为标准模板存入模板库中。在识别阶段,将输入语音的特征向量依次与模板库中的各个标准模板进行比较,计算类似度,将类似度最高的标准模板所对应的词汇输出。在这里和一般的模式识别不一样,存在几个问题:说话者语速不一致的问题;大词汇表的问题导致计算量大的问题;协同发音的问题(即同一音素的发音随上下文不同而变化);对于非特定人语音识别,还有一个语音多变性的困难。 2.语音信号处理的关键技术语音信号处理的理论基础就是一般的数字信号处理理论,它的主要研究内容是语音编码和语音压缩技术。考虑到人

12、对听觉媒体的感应特点,研究语音信号处理必须与声音心理学联系起来。因此这里我们把声音心理学也列为语音信号处理的关键技术之一。 (1)声音心理学 声音的物理属性和心理属性既有联系也有区别。声音有两个最明显的量纲,即响度和音调,其它还有音色、谐和、不谐和和乐音等等。物理属性主要有强度和频率。声音的正弦波的强度增加,声的响度也增加;频率增加,音调则增高。但这些关系不是线性的,且是耦合的,如频率的变化既影响响度也影响音调。其数量上的关系可以用等响曲线等来描述。但更精确。关系复杂,难以建立量化模型。如即使想从客观上给出声音失真度的度量都很困难。 人的大脑处理听觉信息还有一些特性,产生了

13、一些客观存在的效应,如屏蔽效应。声的响度不仅取决于自身的强度和频率,而且也依同时出现的其它声音而定。各种声音可以互相掩蔽,一种声音的出现可能使得另一种声音难于听清。它分为听觉屏蔽、频谱屏蔽和瞬态屏蔽。频谱屏蔽是高电平音调使附近频率的低电平声音不能被人耳听到。声音的屏蔽特性可以用于声音特别是语音信号的压缩。  (2)语音编码 语音编码分为三类:波形编码、参量编码和混合编码。 波形编码是将时域信号直接变换为数字代码, 其目的是尽可能精确地再现原来的话音波形。自适应量化、自适应比特分配和矢量量化等等 应用数字语音信号处理理论及应用的相关专业知识,我们可以设计制

14、造一个能够储存足够信息的机器。输入正常人所有的经历。能让他像人一样记住耳朵听到的声音和眼睛看到的图像。并经过长时间获取和学习新的语言。大家都知道这样一个观点。当你身在国外学习一门语言会变得很快。因为现在学习的时候远离现实,字就是字,并不包含什么,当深处现实环境中,你所接触到的任何语音(字)都会和现实的东西联系起来。就好比当你只说“我”这个的时候会不会在脑海中想象出自己的模样。我觉得未来的语音处理不再仅仅靠语音的特征参数,或许可以和我们生活的现实联系在一起。语音和图像的结合或许可以提高识别率。对于机器来说语音就是一段高低起伏连续的图像。可能某些字的声波图像非常相似,会产生误差。关于这个我觉得现在用的智能输入法已经很好的降低错误率。常用短语库和语言的语

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论