毕业设计(论文)-基于机器学习的数字音频分类方法研究.doc_第1页
毕业设计(论文)-基于机器学习的数字音频分类方法研究.doc_第2页
毕业设计(论文)-基于机器学习的数字音频分类方法研究.doc_第3页
毕业设计(论文)-基于机器学习的数字音频分类方法研究.doc_第4页
毕业设计(论文)-基于机器学习的数字音频分类方法研究.doc_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于机器学习的数字音频分类方法研究摘要:让计算机能听懂人类的语言,是人类自计算机诞生以来梦寐以求的想法。随着经济的发展,人们越来越迫切要求摆脱键盘的束缚而代之以语音输入这样便于使用的、自然的、人性化的输入方式。这就使语音信号分析成为社会生活中越来越重要的一部分。其中语音识别是语音信号分析的重要领域,而语音特征信号识别又是语音识别研究领域的一个重要方面。语音特征信号识别一般采用模式匹配的方法解。首先通过预处理提取语音特征,作为该语音片段的模型。将该模型与已知的参考模型相比较,获得最佳匹配的参考模式作为识别结果,在论文中研究的是基于传统的BP神经网络的音频分类与SVM技术音频分类的仿真实验结果进行比较,对比两者各自优缺点,从而熟悉这两种技术的基本工作原理和算法。通过实验对其性能进行了主观评价和客观数据分析,对于所选语音信号BP网络具有较快的训练速度,但是SVM技术具有较高的识别率。BP网络的学习和记忆具有不稳定性。也就是说,如果增加了学习样本,训练好的网络就需要从头开始训练,对于以前的权值和阈值是没有记忆的。但是可以将预测、分类或聚类做的比较好的权值保存。关键词:语音识别,特征提取,梅尔倒谱系数,BP网络,SVM(支持向量机)Research on digital audio classification base on machine-learningAbstract: Since the birth of the computer people want to let the computer can understand humans language .People are becoming more and more urgent to get rid of keyboard and replace it by voice input that is personalized、convenient and natural to be used .So that Analysis of speech signal become a more and more important part in social life.The speech recognition is an important part of Analysis of speech signal ,and the voice signal recognition is one of the most important aspects of speech recognition . Speech feature signals recognition use to use pattern matching method.Firstly, through pretreatment of phonetic feature extraction make as the model.The model is compared with known reference model, get the best matches the reference pattern as a result of recognition. In this paper research is based on the traditional BP neural network audio classification and technology of Support vector machine audio classification the experimental results were compared to find each of advantages and disadvantages, so to understand with the two technical basic principle and algorithm. Through the experiments on the performance of the subjective evaluation and objective data analysis, for selected speech signal BP network has faster training speed, but the SVM technology has higher recognition rate. BP network learning and memory have instability. That is to say that if the increase of learning samples, the trained network is needed to start training, for the previous weights and thresholds is no memory. But it can keep these better weight that do well in predict, classification or clustering.KEY WORDS:Speech recognition feature extraction Mel frequency cepstrum coefficient BP networks SVM ( support vector machine )目录第一章 绪论51.1 语音信号处理发展前景51.2 语音识别技术概述51.2.1 语音识别技术的发展历史回顾61.2.2 音频识别系统的基本原理61.2.3 语音识别的意义71.3 项目的主要研究内容71.4本文的主要章节安排7第二章 信号的预处理82.1 信号的预加重82.2音频信号的加窗分帧92.3音频信号的端点检测102.3.1 音频信号的短时能量分析102.3.2 音频信号的短时过零率分析112.3.3 基于短时平均能量和短时平均过零率的双门限端点检测12第三章 音频信号的特征矢量提取133.1 信号的倒谱分析133.2 梅尔倒谱参数14第四章 基于BP神经网络的音频信号数据分类194.1BP神经网络概述194.1.1 BP神经网络194.1.2 语音特征信号分类204.2BP 网络的MATLAB实现214.2.1 归一化方法及MATLAB实现214.2.2 数据选择选择和归一化214.2.4 仿真结果分析22第五章利用SVM建立分类器来对语音特征信号进行分类预测255.1svm技术简述255.1.1 SVM的原理和优点255.1.2SVM技术在本案例中的应用265.1.3实验的仿真结果与分析26第六章 总结与展望29致 谢30毕业设计小结31参考文献32附录33附录1:相关文献的翻译33第一章 绪论 通过语音传递信息是人类最重要、最有效、最常用和方便的交换信息的形式。语音是人类特有的功能,声音是人类最常用的工具,是相互传递信息的最主要的手段。因此,语音信号是人们构成思想沟通和感情交流的途径。1.1 语音信号处理发展前景 让计算机能听懂人类的语言,是人类自计算机诞生以来梦寐以求的想法。随着计算机越来越向便携化方向发展,以及计算环境的日趋复杂化,人们越来越迫切要求摆脱键盘的束缚而代之以语音输入这样便于使用的、自然的、人性化的输入方式。尤其是汉语,它的汉字输入一直是计算机应用普及的障碍,因此利用汉语语音进行人机交换是一个极其重要的研究课题。作为高科技应用领域的研究热点,语音信号处理技术从理论的研究到产品的开发已经走过了几十个春秋平且取得了长足的进步。它正在直接与办公、交通、金融、公安、商业、旅游的行业的语音咨询与管理,工业生产部门的语音控制,电话-电信系统的自动拨号、辅助控制与查询以及医疗卫生和福利事业的生活志愿系统等各种实际应用领域相接轨,并且有望成为下一代操作系统和应用程序的用户界面。可见,语音信号处理技术的研究将是一项极具市场价值和挑战性的生活。我们今天进行这一领域的研究与开拓就是要让语音信号处理技术走入人们的日常生活当中,并不断朝向更高目标而努力。 语音信号处理这门学科之所以能够长期地、深深地吸引广大科学工作者不断地对其进行研究和探讨,除了它的实用性之外,另一个重要原因是,它始终与当时信息科学中最活跃的前沿学科保持密切的联系,并且一起发展。语音信号处理是以语音语言学和数字信号处理为基础而形成的一门涉及面很广的综合性学科都有着非常密切的关系。对语音信号处理的研究一直是数字信号处理技术发展的重要推动力量。因为许多的处理的新方法的提出,首先是在语音处理中获得成功,然后在推广到其他领域的2。1.2 语音识别技术概述 语音识别是指机器对人类说话的语句或命令进行识别和理解并做出相应的反应。它是涉及语言学、计算机科学、生理学等诸多领域的一门交叉学科。随着计算机软硬件和信息技术的飞速发展,以语音识别技术开发出的产品也广泛地应用于声控电话交换、信息网络查询、医疗服务、银行服务、工业控制等社会和人们生活的每个方面。1.2.1 语音识别技术的发展历史回顾 对语音识别技术的研究距今已有半个多世纪的历史。1952 年,AT&Tbell 实验室的Davis 等人成功研制的Audry 系统标志着语音识别研究工作的开始。它是世界上第一个能识别十个英文数字发音的实验系统。进入20 世纪60 年代,计算机的应用推动了语音识别的发展。在这一时期产生了动态规划(DP,Dynamic Programming) 和线性预测分析技术(LP,Linear Prediction)两大重要理论,较好地解决了语音信号产生模型的问题,对语音识别的发展产生了深远影响。70 年代,语音识别领域取得了较大的突破。动态时间归正技术(DTW)基本成熟,有效地解决了语音信号特征提取和不等长语音匹配问题,同时还提出了矢量量化(VQ),隐马尔可夫模型(HMM)理论。80 年代语音识别研究进一步走向深入,各种连接词语音识别算法被开发,并从模板匹配技术转向基于统计模型技术,特别是在实践开发中成功应用了HMM 模型和人工神经网络(ANN)。1988 年Kai-FuLee 等用VQ/HMM 方法实现了997 个词汇的非特定人连续语音识别系统SPHINX,这是世界上第一个高性能的非特定人、大词汇量、连续语音识别系统。进入90 年代后,语音识别技术开始向市场提供产品。具代表性的是IBM 的Via Voice 和Dragon 公司的Dragon Dictate系统,这些语音识别系统具有说话人自适应能力,新用户不需要对全部词汇进行训练便可在使用中不断提高识别率。进入21 世纪,语音识别的研究重点包括即兴口语的识别和理解,自然口语对话,以及多语种的语音同声翻译。而基于语音识别芯片的嵌入式产品也越来越多, 如Infineon 公司的Unispeech 和Unilite 语音芯片等。我国对语音识别的研究也较早。20 世纪50 年代后期,中科院声学所用频谱分析的方法研究了汉语10 个元音的语音识别;20 世纪70 年代后期,构建了基于模板匹配的孤立词语音识别系统;20 世纪80 年代后期,研究了八五期间中科院人机语音对话研究项目。目前我国语音识别技术的研究水平已经基本上与国际相当。如以中国科学院自动化研究所模式识别国家重点实验室为依托的中科模识,其汉语连续语音、非特定人听写机系统的普通话系统的错误率可以控制在10%以内。1.2.2 音频识别系统的基本原理 语音识别属于模式识别的范畴。根据模式识别的原理,未知语音的模式与己知语音的参考模式逐一进行比较,最佳匹配的参考模式被作为识别结果。语音识别系统的工作过程可以描述如下:待识别语音经过话筒变换成电信号后加在识别系统的输入端,首先经过预处理,包括反混叠失真滤波、预加重和端点检测从而将语音信号的特征被提取出来。常用的特征包括:短时平均能量或幅度、短时平均过零率、短时自相关函数、线性预测系数、倒谱、共振峰等。根据实际需要选择语音特征参数,这些特征参数的时间序列便构成了待识别语音的模式,将其与己经存储在计算机内的参考模式逐一进行比较,获得最佳匹配的参考模式便是识别结果。参考模式是在系统使用前获得并存储起来的,为此,要输入一系列已知语音信号,提取它们的特征作为参考模式,这一过程称为训练过程。1.2.3 语音识别的意义语音识别(Speech Recognition)主要指让机器听懂人说的话,即在各种情况下,准确地识别出语音的内容,从而根据其信息,执行人的各种意图。它是一门涉及很广的交叉学科,与计算机、通信、语音语音学、数理统计、信号处理、神经生理学、神经心理学和人工智能等学科都有着密切的关系。随着计算机技术、模式识别和信号处理技术及声学技术等的发展,使得能满足各种需要的语音识别的实现成为可能。近二三十年来,语音识别在工业、军事、交通、医学、民用诸方面,特别是在计算机、信息处理、通信与电子系统、自动控制等领域中有着广泛的引用。当今,语音识别在人机交换应用中,已经占到了越来越大的比例。主要是有下面的例子:语音打印机、数据库检索。特定的环境所需的语音命令。目前在语音识别中,如何充分借鉴和利用人在语音识别和理解时所利用的方法和原理的一个重要课题1。1.3 项目的主要研究内容 通过本次毕业设计应能够熟练掌握数字信号处理、信息论、语音信号处理、模式识别等课程的相关理论知识,并将其运用到实际的工程设计中。掌握科学研究的一般方法,提高查阅文献和算法设计的能力,为今后的科学研究和工程设计打下基础。 语音特征信号识别是语音识别研究领域的一个重要方面,一般采用模式匹配的方法解决。首先通过预处理提取语音特征,作为该语音片段的模型。将该模型与已知的参考模型相比较,获得最佳匹配的参考模式作为识别结果。要求基于神经网络相关理论,编程实现对不同类型音频信号的通用分类算法。1.4本文的主要章节安排第1章 绪论:语音信号的简介、语音识别简介、课题安排、章节设置第2章 语音识别技术综述:语音识别的系统简介和模型设计、对目前主流的语音识别技术介绍第3章 信号的预处理:介绍音频信号的预处理技术,包括预加重,加窗分帧,端点检测等。第4章 音频信号的特征矢量提取:讨论音频信号的MFCC特征矢量提取方法,并给出适合本项目的MFCC矢量特征提取方案。第五章 基于BP神经网络的音频信号数据分类:建立BP网络对语音特征数据进行分类、对仿真结果进行分析第六章 利用SVM建立分类器来对语音特征信号进行分类预测:利用SVM建立分类器对特征型号进行、并对仿真结果进行分类第七章 总结与展望:对两个方法进行比较、总结本项目的主要工作,给出结论及进一步的工作设想。 第二章 信号的预处理 在对音频信号进行分析和处理之前,必须要对所采集的语音信号进行预处理。信号的预处理包括预加重,加窗分帧,短时能量,短时过零率计算以及在此基础上进行的端点检测。2.1 信号的预加重 对音频信号进行分析之前,一般要对信号加以提升(预加重)。预加重的目的是滤除低频干扰,尤其是50Hz或者60Hz的工频干扰,提升对音频识别有用的高频部分,使信号的频谱变得平坦,以便于进行频谱分析或声道参数分析。 语音信号的预加重一般在模/数转化后进行,利用6db/倍频的一阶数字预加重滤波器实现。其函数为: (2-1)、时域表达式为: (2-2)其中,的取值范围是0.950.97。 图2-1预加重时域效果 图2-2预加重频域效果对一帧信号的预加重时域效果如图2-1,频域效果如图2-2,从频域对比可以看出,信号经过预加重之后频谱相对平坦了一些,信号的高频分量得到了提升。2.2音频信号的加窗分帧由于音频信号是一种典型的非平稳信号,其特性是随时间变化的。但是可假定在1030ms这样的时间段内,音频信号是平稳信号,其频谱特性和某些物理特征参量可近似地看作不变。目前,几乎所有的音频信号处理方法都是基于这个假定将语音信号分成若干个短段,每一短段称为一个分析帧。对该分析帧进行处理就相当于对固定特性的持续语音进行处理。分析帧可以是连续的,也可以采用交叠分帧的方法。经过处理后将从原始语音序列产生一个新的依赖于时间的序列,用于描述语音信号的特征2。同时分帧也是整个识别流程的前提后面的MFCC特征矢量提取,矢量量化等都是以一帧信号为单位进行计算。为了减小音频数据帧的截断效应,降低帧两端的坡度,使音频帧的两端不引起急剧变化而平滑过渡到0,就要让音频帧乘以一个窗函数。理想窗函数的频率响应要求主瓣无限狭窄且没有旁瓣(即无频谱泄漏),但这种窗函数在实际工程中是无法实现的。窗函数越宽,对信号的平滑作用越显著,窗函数过窄,对信号平滑作用越不明显。一般需要窗函数具有以下的性质: (l) 频率分辨率高,主瓣狭窄、尖锐; (2) 频谱泄漏少,旁瓣衰减速度快。这里使用目前常用的Hamming窗: (2-3)其中N为每帧的采样点数。设长度为N的一帧信号为,则加窗后的帧信号为: (2-4)2.3音频信号的端点检测 语音的端点检测在语音的编码、语音识别、语音增强、说话人识别中起着非常重要的作用,直接影响着后续工作的正确率。在本项目中要依靠端点检测确定出一个广告音频信号处理分析的开始点。目前常用的端点检测方法有如下几种:基于短时能量的、基于短时过零率的、基于倒谱特征的、基于信息熵的端点检测的方法等5。考虑到所处理的广告音频信号是从电视机里直接引出的音频信号,一般情况下可以有可靠的信噪比(目前数字电视的音频输出信噪比可以达到80dB以上),这里采用比较简单的基于短时能量和短时过零率的端点检测13。2.3.1 音频信号的短时能量分析 语音信号的能量分析是基于语音信号能量随时间有相当大的变化,特别是清音段的能量一般比浊音段的能量小得多。能量分析包括能量和幅度两个方面。n 时刻某音频信号的短时平均能量定义为: (2-5)其中为上述分帧加窗所用的窗函数2。实际操作时计算一帧信号的短时平均能量作为端点检测的依据。一帧信号的短时平均能量可以用加窗分帧之后的信号这样描述: (2-6)短时能量可用来区分清音段和浊音段。En值大的对应于浊音段,而En值小的对应于清音段。对于高信噪比的语音信号,无语音信号的噪声能量En很小,而有语音信号的能量En显著增大到某一数值,由此可以区分语音信号的起始点和结束点。以短时平均能量为特征的起止点算法:根据发音刚开始前己知为“静”态的连续10帧内的数据,计算每帧的短时平均能量,最大值称之为IMX,最小值为IMN,则计算低能量阀值ITL及高能量阀值RTU的经验公式如下。 (3-7) (3-8) (3-9) (3-10)由此可以进行起止点判断,做起点判别时:先根据ITL算得一初始起点N1,把它定为最先升到低能量阀值的帧号,但是随着时间的后移,帧平均能量在升到ITU之前又下降到ITL之下,则原N1不作为初始起点,而改称下一个再升到ITL的点为N1,以此类推,在找到第一个平均能量超过ITU的帧时停止比较。2.3.2 音频信号的短时过零率分析短时过零率表示一帧语音信号波形穿过横轴(零电平)的次数。对于连续语音信号,过零即意味着时域波形通过时间轴,而对于离散信号,如果相邻的取样值具有不同的代数符号就称为发生了过零。一段时间内(在本项目中是一帧信号时间长度)的过零率称作平均过零率。窄带信号的过零率反映了该信号的频率。当信号为单一正弦波时,过零率是信号频率的两倍。对于宽带信号,因为过零率是随时间变化的,所以不能采用长时平均过零率,而必须采用短时平均过零率。广告音频信号不仅仅是宽带信号,而且还是时变信号,它的频谱特性是随时间变化的,故短时平均过零率实际上是描述时变频谱的一种最简单的方法。过零率的计算主要是将相邻两取样值的符号进行比较,若考虑噪声的存在,就必须规定一个噪声门限,超过这一门限正值的取样值认为是正,低于该门限负值的取样值被认为是负,界于该门限正负值之间的取样被认为是零。显然,为了能够准确判定各取样值的符号,应要求信号中不含有直流偏移,噪声和电源干扰应尽可能小以及选择合适大小的正负门限值。以短时平均过零率为特征的起止点算法:根据发音刚开始前已知为“静”态的连续10帧内的数据,计算出过零率的阀值IZCT: (2-11)其中,为根据所取样值算得的均值及标准差的估值,IF为固定值,一般取为25。由此可以进行起止点判断:根据IZCT算得一个初始起点N1,把它规定为最先升到平均过零率阀值的帧号,随着时间的后移,过零率下降到IZCT之下,则这时的帧号N2点作为终点。2.3.3 基于短时平均能量和短时平均过零率的双门限端点检测语音端点检测方法可采用测试信号的短时能量或短时对数能量联合过零率等特征参数,并采用双门限判定法来检测音频信号端点。首先为短时能量和过零率分别确定两个门限,一个是较低的门限数值较小,对信号的变化比较敏感,很容易超过;另一个是比较高的门限,数值较大。低门限被超过未必是语音的开始,有可能是很短的噪声引起的,高门限被超过并且接下来的自定义时间段内的语音超过低门限,意味着信号开始。具体方法为:先使用短时能量判别法确定一个高过高能量阈值ITU的开始帧号N1,当N1确定后,从N1帧向前N1-25帧搜索,依次比较各帧的过零率,若有3帧以上的过零率大于或等于过零率门限,则将起点N1定为满足过零率大于等于过零率门限的最前帧的帧号,否则即以原N1为起点。这种起点检测法也称双门限前端检测算法。检测效果如图2-3所示。图2-3双门限端点检测效果第三章 音频信号的特征矢量提取音频信号的的特征提取是为了从信号中提取能表示音频特征的信息。在现有的语音识别中主要有三类:时域、频域、倒频域。音频信号的时域分析就是分析和提取语音信号的时域参数。进行音频信号分析时,最先接触到并且也是最直观的是它的时域波形。音频信号本身就是时域信号,因而时域分析是最早使用,也是应用最广泛的一种分析方法,这种方法直接利用语音信号的时域波形。音频信号的时域参数有短时能量、短时过零率、短时自相关函数和短时平均幅度差函数等。音频信号的频域分析就是分析信号的频域特征、从广义上讲,音频信号的频域分析包括语音信号的频谱、功率谱、倒频谱、频谱包络分析等,而常用的频域分析方法有带通滤波器组法、傅里叶变换法,线性预测法等几种。,音频信号的倒谱分析就是求取信号倒谱特征参数的过程,它可以通过同态处理来实现。同态信号处理也称为同态滤波,它实现了将卷积关系变换为求和关系的分离处理,即解卷。对语音信号进行解卷卷,可将信号的声门激励信息及声道响应信息分离开来,从而求得声道共振特征和基音周期。其中音频信号特征参数的发展也主要是从时域到频域,再到倒频域的过程。广告音频信号是一种冗余度很高的随机信号,在进行信号处理的时候,必须经过特征提取才能有效的降低信号冗余度。所以特征提取实际上是对音频信号进行大幅度压缩的过程。广告音频信号虽然是时变信号,但是若把它分成10ms至30ms之间这样的音频段,则音频段是相对平稳的,这就是所谓的短时平稳性。因此可以把短时音频段的特征提取出来。这里介绍的特征矢量是梅尔倒频谱系数MFCC6。3.1 信号的倒谱分析数字化的音频信号是声道频率特性和激励信号源二者的共同结果,后者对于某帧而言常带有一定的随机性。音频的个性特征很大程度上体现在信号声道变化上,即声道频率特性。因此有必要采用一定的方法将这两者有效的分开,这个方法就是同态滤波。滤波的过程是将卷积处理化为乘积,然后作对数处理,使之化为可分离的相加成分,结果就形成了倒谱c(n)=h(n)+i(n)。因h(n)描述了信号的声道分量,故是非常有效的信号特征参数。倒谱定义为时间序列的z变换的模的对数的逆变换,具体说,序列x(n)的倒谱c(n)定义为: (3-1)倒谱的计算过程如下图所示:傅里叶反变换对数变换傅里叶变换语音信号 倒谱图3-1倒谱计算过程在具体实现时,用DFT来代替傅立叶变换,这样得到的倒谱将是真实倒谱的混叠形式,它是真正倒谱的逼近。对倒谱推导过程进行分析,可以得知语音信号的倒谱具有如下性质:(1)倒谱的低时部分对应信号的声道分量,且按1/n的趋势随n的增加而衰减,故用维数不多的倒谱向量足以表征信号的声道分量。(2)倒谱的高时部分对应于音频信号的音源激励分量。 由此可见,由于声道和音源激励所处的倒谱时段不同,通过信号倒谱的低时和高时段可以将它们分离,彼此基本互不干扰,尤其是可以避免声道分量受到具有随机变换的音源激励分量的干扰。由于倒谱的低时部分描述了信号的声道特性,所以常常作为广告音频识别的个性特征参数。3.2 梅尔倒谱参数前面4.1节己讲了语音的倒谱,MFCC特征参数就是在上述的过程中加入了Mel带通滤波器组,即在图4-1所示的倒谱计算过程中不直接对信号的对数谱进行逆DFT,而是先经过Mel频率坐标的尺度弯折,然后才进行逆DFT。人耳对不同频率的声音具有不同的感知能力,有实验表明在1000Hz以下,感知能力与频率成线性关系,在1000Hz以上,感知能力与频率成对数关系。即在低频部分,人耳对声音的感受比较敏锐;在高频部分,人耳对声音的感受会越来越粗糙。为了模拟人耳对不同频率语音的感知特性,于是产生了Mel频率的概念。Mel频率和线性频率的关系如下: (3-2)或 (3-3)在本文中采用4-2式,得到的Mel频率和线性频率的对应关系如图3-2:图3-2 Mel频率与一般频率关系曲线MFCC参数计算过程如图4-3: 图3-3 MFCC特征矢量计算流程(1)原始音频信号S(n)经过预加重、分帧、加窗等处理,得到每个信号帧的时域信号x(n)。然后将时域信号经过离散傅立叶变换(DFT)后得到线性频谱X(k)。设一帧信号的DFT为: (3-4)式中x(n)为输入的帧信号,N表示傅立叶变换的点数,实际计算时采用FFT计算,以减少计算量,提高程序的运行效率。(2)求线性频谱X(k)幅度的平方,即能量谱: (3-5)(3)计算Mel 滤波器组:Mel频率滤波器组是在音频信号的频谱范围内设置的若干个带通滤波器,其中心频率为,(m=1,2,M,为滤波器序号),M为滤波器的个数,通常取为2440之间。每一个三角形滤波器的中心频率在Mel频率轴上等间隔分配。设,和分别是第m个三角形滤波器的下限、中心和上限频率,则相邻三角形滤波器之间的下限、中心和上限频率有下式的关系: (3-6)每个滤波器具有三角形滤波特性,m值小时相邻f(m)之间的间隔也小,随着m的增加相邻f(m)的间隔逐渐变大,每个带通滤波器的传递函数为: (3-7)式中中心频率定义如下: (3-8)其中为DFT/FFT的窗宽,为信号的采样率,、为滤波器的频率应用范围的下限频率和上限频率,为Mel滤波器的个数,即式4-2的反函数。根据上述算法使用Matlab仿真得到的Mel滤波器组如图3-4: 图3-4 24个Mel滤波器的频域响应(4) 为了使结果对噪声和谱估计误差有更好的鲁棒性,一般将经Mel滤波器组得到Mel频谱取对数能量。因此,得到的对数频谱总传递函数为: (3-9)此过程即是通过三角带通滤波器滤波的过程。使用三角带通滤波器滤波有两个主要目的:一是对频谱进行平滑化,并消除谐波的作用,凸显原先语音的共振峰;再者可以降低资料量。(5)经离散余弦变换(DCT)得到MFCC系数:将上述通过带通滤波器组的对数能量带入离散余弦变换DCT变换到倒谱频域,求出满阶的MFCC特征参数: (3-10)其中 (3-11)图3-5 一段语音信号的MFCC系数 有实验表明最前若干维以及最后若干维的MFCC系数对语音区分性能影响较大,MFCC系数个数通常取最低的1216阶。MFCC系数的第一维的值的能量很大,故在一般的识别系统中,将称为能量系数,不作为倒谱系数中的一员。在本项目中取作12维的MFCC特征矢量。图3-5是对一段语音信号提取的MFCC系数。可以看出,低阶的MFCC系数类似于原信号的一种包络,以其作为信号的特征矢量参数是有效的。第四章 基于BP神经网络的音频信号数据分类4.1BP神经网络 人工神经网络(Artificial Neural Networks,简称为NN)是近年来发展起来的模拟人脑生物过程的人工智能技术它由大量简单的神经元广泛互连形成的复杂的非线性系统,它不需要任何先验公式,就能从已有数据中自动地归纳规则,获得这些数据的内在规律,具有很强的非线性映射能力,特别适合于因果关系复杂的非确性推理、判断、识别和分类等问题基于误差反向传播(Back propagation)算法的多层前馈网络(Multiplelayer feedforward network,简记为BP网络),是目前应用最多也是最成功的网络之一,构造一个BP网络需要确定其处理单元神经元的特性和网络的拓扑结构。在案例中选用的音频信号为流行、古筝、摇滚和民歌四类不同音乐的特征信号,新测试类我选用是横笛的特征信号7。4.1.1 BP神经网络概述基于误差反向传播(Back Propagation)算法的多层前馈网络(Multiple-layer feed forward network),简记为BP 网 络4,又称误差信号反馈网络,是神经网络的一个分支,也是目前神经网络中应用最多也是最成功的网络之一。 它是一种有教师的学习网络,能够实现从N 维到M 维的非线性映射,一般采用梯度下降法实现快速收敛。而构 造一个BP 网络需要确定其处理单元,即神经元的特性和网络的拓扑结构。BP 网络的拓扑结构神经网络的拓扑结构是指神经元之间的互连结构。BP 神经网络采用的是并行网格结构,包括输入层、隐含层和输出层,经作用函数后,再把隐节点的输出信号传递到输出节点,最后给出输出结果。由图2 可见各层次的神经 元之间形成全互连连接,各层次内的神经元之间没有连接。这种结构使多层前馈网络可在输入和输出间建立合适 的线性或非线性关系,又不致使网络输出限制在-1 和1间。图4-1是一个三层的BP 网络结构。 图4-1 三层的BP网络结构算法分为两个阶段:第一阶段(正向过程)输入信息,从输入层经隐层逐层计算各单元的输出值;根据下式计算每层的输出值: (4-1) (4-2)第二阶段(反向传播过程)输出误差,逐层向前算出隐层各个单元的误差,并用此误差修正前层的值。在BP 算法中常采用梯度法修正权值,为此要求输出函数可微,通常采用Sigmoid 函数作为输出函数。(1) 误差计算: (4-3)(2) 按照梯方向计算各层权重的修正值: (4-4)其中的计算公式: (4-5)(3) 修正层权重: (4-6)(4) 重复上述的步骤,知道误差值小于给定的阈值。4.1.2 语音特征信号分类语音识别系统的典型识别方案如图4-2 所示。这是一个基于模式匹配原理的自动语音识别系统方框图,也是目 前大多数语音识别系统都采用的设计原理5。根据这个原理,未知语音的模式要与已知语音的参考模式逐一进 行比较,选出最佳匹配的参考模式作为识别结果。 图4-2语音识别系统的典型识别方案图4-2中,待识别语音先经话筒变换成语音信号,或直接从wav 文件中读取,然后从识别系统前端输入,再 进行预处理。这时前端输入的语音信号还只是模拟信号,必须经过预处理,转化为数字语音信号。预处理包括预 滤波、采样和量化、分帧加窗、端点检测、预加重等,有时还包括模数转换器。特征提取部分用于提取语音中反 映本质特征的声学参数,常用的特征有短时平均能量或幅度、短时平均过零率、短时自相关函数、线性预测系数、 清音/浊音标志、基音频率、短时傅立叶变换、倒谱、共振峰等。训练在识别之前进行,是通过多次重复语音的 方式从原始语音样本中去除冗余信息,保留关键数据,再按一定规则对数据加以聚类,形成模式库。模式匹配是 整个语音识别系统的核心,是根据一定的准则以及专家知识(如构词规则、语法规则、语义规则等),计算输入 特征与库存模式之间的相似度,选择最相似度作为识别结果,从而判断出输入语音的语意信息。4.2BP 网络的MATLAB实现BP网络的训练所采用的算法是反向传播法,可以以任意精度逼近任意的连续函数,近年来,为了解决BP网络收敛速度慢,训练时间长等不足,技术人员又提出了许多改进算法在应用BP网络解决实际问题的过程中,选择多少层网络、每层多少个神经元节点、选择何种传递函数、何种训练算法等,均无可行的理论指导,只能通过大量的实验计算获得这无形增加了研究工作量和编程计算工作量MATLAB软件提供了一个现成的神经网络工具箱(Neural Network Toolbox,简称NNbox),为解决这个矛盾提供了便利条件下面针对BP网络的建立、传递函数的选择、网的训练等,在介绍NNbox相关函数的基础上,给出利用这些函数编程的方法根据BP神经网路理论,在MATLAB软件中编程实现基于BP神经网络的语音特征信号分类算法10。4.2.1 归一化方法及MATLAB实现 数据归一化方法是神经网络预测前对数据长做的一种处理方法。数据归一化处理把所有数据都转化为0,1之间的数,其目的是取消各维数据间数量级差别,避免以为输入输出数据数量级差别较大而造成网络预测误差较大。数据归一化的方法有两种最大最小法。函数形式如下:=(-)/(-)式子中为数据序列中的最小数;为序列中的最大数。平均数方差法,函数形式如下:=(-)/其中为数据序列的均值;为数据的方差。设计中采用第一种数据归一化方法,归一化函数采用MATLAB自带函数4.2.2 数据选择选择和归一化 首先根据倒谱系数提取四类音乐语音特征信号,不同的语音信号分别用1,2,3,4标识,提取出信号分别储存于data1.mat,data2.mat,data3.mat,data4.mat数据库文件中,每组数据为25维,第1维为类别标识,后24维为语音特征信号。把四类语音特征信号合为一组,从中随机选取1500组数据座位训练数据,其余500维数据作为测试数据,并对数据进行归一化处理。根据语音类别标识设定每组语音信号的期望输出值,如标识类为1时,期望输出向量为1 0 0 0。4.2.4 仿真结果分析用训练好的BP神经网络分类语音特征信号测试数据,BP神经网络分类误差图如下。BP网络分类误差: 图4-3 BP网络分类误差实际语音和预计语音比较图:图4-4实际语音与预测语音的比较BP神经网络分类正确率如下表第一次训练:语音信号类别第一类第二类第三类第四类识别正确率0.68911.00000.9630 0.8785第二次训练:语音信号类别第一类第二类第三类第四类识别正确率0.56671.00000.9642 0.8712第三次训练:语音信号类别第一类第二类第三类第四类识别正确率0.91671.00000.58130.8462 从BP神经网络分类结果可以看出,基于BP神经网络的语音信号分类具有一定的准确性,能够识别出语音信号的所属归类,但是对于现在这样要求高精度的识别率,这样的结果还是让感到十分的不满意,这里经过网上理论知识的补充,找到了另一种有较高识别率的技术SVM。 仍然随机选取1500组数据作为训练数据,但是其余500维数据作为测试数据的数据使用原始的数据分别进行识别观察实验结果。然后在随便一个音频作为测试类信号提取其特征值获得其特征参数,然后作为测试数据进行实验,观察结果。实验结果观察如下:第一类:语音信号类别第一类第二类第三类第四类识别正确率0.832700.13010.0372第二类:语音信号类别第一类第二类第三类第四类识别正确率01.000000第三类:语音信号类别第一类第二类第三类第四类识别正确率0.200100.70320.0967第四类:语音信号类别第一类第二类第三类第四类识别正确率0.061900.50530.8828测试类:语音信号类别第一类第二类第三类第四类识别正确率0.27980.00530.18210.5328第五章利用SVM建立分类器来对语音特征信号进行分类预测5.1支持向量机技术简述 支持向量机(SVM,Support Vector Machine)是由Vapnik首先提出的,像多层感知器网络和径向基函数网络一样,可用于模式识别和非线性回归。支持向量机的主要思想是建立一个分类超平面作为决策曲面,使得正比例和反比例之间的隔离边缘被最大化。支持向量机的理论基础是统计学习理论,更精确地说,支持向量机是结构风险最小化的近似实现11。5.1.1 SVM的原理 SVM理论原理是基于这样的事实:学习机器在测试数据上的误差率(即泛化误差率)以训练误差率和一个依赖于维数VC(Vapnik-Chervonenkis dimension)的项的和为界,在可分模式情况下,支持向量机对于前一项的值为零,并且使第二项最小化。因此,尽管它不利用问题的领域内部问题,但在模式分类问题上支持向量机能提供好的泛化性能,这个属性是支持向量机带有的。支持向量机具有以下的有点:1. 通用性:能够在很广的各种函数集中构造函数;2. 鲁棒性:不需要微调;3. 有效性:在解决实际问题中总是属于最好的方法之一;4. 计算简单:方法的实现只需要利用简单的优化技术;5. 理论上完善:基于VC推广性理论的框架。在支持向量x(i)和输入空间抽取的向量x之间的内积核这一个概念是构造支持向量机学校算法的关键。支持向量机是由算法从训练数据中抽取的小的子集构成。支持向量机的体系结构如下图5-1。 图5-1支持向量机的体系结构其中K为核函数,其种类主要有:线性核函数:K(x,)=;多项式核函数:K(x,)=(r+r,r0;径向基核函数:K(x,)=exp(-r|x|),r0;两层感知器核函数:K(x,)=tanh(r+r)。5.1.2基于SVM的数字音频分类 对于经过mfcc提取后的四组数据进行试验,为了和BP的分类效果进行比较,此处数据的分组和原来保持一样,i.e. :共有2000组语音特征信号,从中随机选择1500组数据做为训练数据训练网络,500组数据作为测试数据测试网络分类能力。 由于是从中随机选择1500组数据做为训练数据训练网络,500组数据作为测试数据测试网络分类能力 这里使用的是LIBSVM工具包是台湾大学林智仁(Lin Chih-Jen)副教授等开发设计的一个简单、易于使用和快速有效的SVM模式识别与回归的软件

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论