信息工程系__论文_第1页
信息工程系__论文_第2页
信息工程系__论文_第3页
信息工程系__论文_第4页
信息工程系__论文_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、南京邮电大学通达学院 毕 业 设 计(论 文)题 目基于时间序列的语音/音乐检测系统的研究与实现专 业通信工程学生姓名班级学号1000指导教师指导单位信息工程系 日期:2013年11月20日至2014年6月6日毕业设计(论文)原创性声明本人郑重声明:所提交的毕业设计(论文),是本人在导师指导下,独立进行研究工作所取得的成果。除文中已注明引用的内容外,本毕业设计(论文)不包含任何其他个人或集体已经发表或撰写过的作品成果。对本研究做出过重要贡献的个人和集体,均已在文中以明确方式标明并表示了谢意。 论文作者签名: 日期: 年 月 日摘 要在许多研究领域和实际应用中,音频自动分类是音频信号分析的一项重

2、要研究内容。在过去的研究中,针对广义音频的研究相对较少。但随着对音频分类技术研究的深入、分类对象范围的扩大、音频分类实际应用领域的增多,对广义音频进行分类的重要性日益凸显。音频分类主要应用于音频检索、辅助视频分析、设备智能检测等方面。论文分析了当前音频检索的现状文介绍了音频信号的基本概念及其检索方法;讨论了 wav 音频信号的特征提取及其表达方式。音频分类主要包括两个步骤:从音频信号中提取音频特征;构造合适的分类模型,对音频进行分类。本文在对现有音频分类技术进行深入分析的基础上,探讨了语音、音乐以及特定音频的分类问题,着重研究了音频特征提取。语音和音乐是最重要的两类音频信息。语音/音乐检测是基

3、于内容的音频检索一个很重要的部分。本文提出一种新的可用于广播新闻自动转录的语音/音乐检测方法。用样本熵作为语音/音乐辨别的特征值,样本熵是近似熵的变体,用来测量时间序列的规律,根据测量结果将所给信号归类为语音或音乐信号。最后实验采用了BBC广播里面的语音,和各种不同类型的音乐作为实验室数据。实验结果证明了方法对所有实验数据的准确性达到了90%以上。关键词:语音/音乐检测;音频分类;样本熵;特征提取;ABSTRACTIn many fields of research and applications, audio classification is one of the most import

4、ant problems in audio signal analysis. Generalized audio was studied less in the past. Along with the rapid development of audio classification technology and application, the study on generalized audio classification is more and more important. Audio classification is mainly applied to audio retrie

5、val, video analyze technology, intelligent detection on equipment.This paper analyses the situation and disadvantage of audio retrieval, some basic conceptions and retrieval method are introduced and discusses the feature exaction and expression of wav form audio signal. There are two key problems i

6、n audio classification, which are how to extract features from audio signal and how to implement the audio classifier. This dissertation, which is based on the summary and analysis of the existing technologies of audio classification, studies the audio classification problem on music/speech and ultr

7、asonic partial discharge. Researches are emphasized on audio feature analysis.Speech and music are the most important two types of audio information. The problem of speech/music discrimination is important in a number of content-based audio retrieval systems. In this paper, we present a new method t

8、o discriminate between speech and music related to the automatic transcription of broadcast news. In the method presented here, sample entropy (SampEn) mainly operates as a feature to discriminate speech and music. SampEn is a variant of the approximate entropy (ApEn). It measures the regularity of

9、time series. The basic idea is to classify a given audio into speech or music depending on its regularity.The effectiveness of the proposed method is tested on experiments, including broadcast news shows from BBC radio stations and different speech and music types. Results show the robustness of the

10、 proposed method achieving the discrimination accuracy higher than 90% for all tested experiments.Key words:Speech and Music Discrimination;Audio Classification;Sample Entropy;Feature Exaction;目 录第一章绪论11.1课题背景11.2本课题的研究目的及意义21.3国内外研究现状21.3.1音频特征分析与抽取发展现状31.3.2音频分类器的设计发展现状31.4本文主要研究内容和论文结构41.4.1研究目标和

11、所做的工作41.4.2论文组织结构4第二章语音信号和时间序列52.1概述52.2语音信号的时域波形52.3语音信号数字处理中的短时分析技术62.3.1预滤波、采样、A/D变换62.3.2数字化语音信号的存储及加窗72.3.3语音信号的短时能量、短时平均幅度和短时过零率72.3.4短时自相关函数8第三章音频文件格式与音频信号特征提取与表达103.1主流音频文件格式介绍103.1.1WAV 简介103.1.2MPEG 简介113.1.3MID 和 RMI 简介113.2音频信号特征提取与分析113.2.1特征抽取的相关技术123.2.2特征分析与抽取描述123.2.3语音和音乐15第四章音频分类的

12、理论基础及相关技术174.1音频分类概述174.2常用的分类方法184.2.1最小距离法184.2.2决策树法194.2.3神经网络法204.2.4高斯混合模型法204.2.5隐马尔可夫模型法204.2.6支持向量机法204.2.7常用分类方法对比21第五章基于样本熵的语音/音乐检测215.1概述215.2样本熵215.3加窗样本熵原理225.4算法步骤245.5评估实验245.6结论25结束语25致 谢27南京邮电大学2014届本科生毕业设计(论文)第一章 绪论1.1 课题背景声音被用来传递意向、情感、消息,是人类最熟悉最习惯的传递消息的方式。它携带的信息量大、准确、精细。声音作为波形信号具

13、有振幅、频率、相位等特性。由于声音是我们所能感觉到的媒体,因此声音具有物理和心理两种属性,并且是相互关联的。物理属性与波形有关,包括声强、频率、声波复合、谐波结构等属性。心理属性则与我们的感觉有关,主要包括音量、音调、音色3个属性 齐俊英.基于内容的音频检索技术的研究, 硕士学位论文, 辽宁工程技术大学, 2005: 783812. 。(1) 音量(Volume),也称响度(loudness),其大小主要由声波压力大小决定。 (2) 音调(Pitch),也称音高,其高低取决于声音的基频。基频越低,给人的感觉越低沉。 (3) 音色(Harmonicity),音色与声波的基音、泛音等声音元素的结构

14、有关,它是区分不同声源声音的重要标志。在接收和处理声音前对它进行采样和量化,变成为数字音频。人们能够听见的音频频率带宽范围是 20Hz20kHz,语音信号的频谱分量主要集中在3003400Hz,音乐和其它的自然界的声音是全频域范围分布的。按照在计算机内部表示形式的不同,音频可以分为自然音频和合成音频两类。自然音频是计算机通过声音获取设备从自然界获取的声音,一般以数字波形形式表示;合成音频是指参数化表示的计算机合成的声音,例如,MIDI音乐。近年来,国内外在多媒体数据库技术的研究中出现了一个新热点基于内容的检索 CBIR(Content-Based Retrieval)技术。人们已经不再满足于通

15、过一般的属性(如名字、年月、价格等文本信息)进行检索,而直接使用多媒体属性来完成查询检索。对图像和视频,可以采用主色调、纹理等视觉特征来检索;同样,对于音频,用户要求通过听觉特征来进行检索,基于文本检索的常规信息检索技术已不能满足用户这方面的检索需求。所谓基于内容的音频检索,是指通过音频特征分析,对不同音频数据赋以不同的语义,使具有相同语义的音频在听觉上保持相似。基于内容的音频检索是一个较新的研究方向,由于原始音频数据除了含有采样频率、量化精度、编码方法等有限的注册信息外,本身仅仅是一种非语义符号表示和非结构化的二进制流,缺乏内容语义的描述和结构化的组织,因而音频检索受到极大的限制。相对于日益

16、成熟的图像与视频检索,音频检索相对滞后。基于内容的音频检索己成为多媒体检索技术的研究热点。在当今网络化和数字化时代,多媒体数据已经成为互联网高速公路上传输的数据主要部分,其中音频占有重要地位。如何对海量的多媒体信息进行及时处理,深入分析和有效利用成了人们面对的一个重要课题,音频在多媒体信息中占有重要地位,约占总信息量的 20% 李恒峰,李国辉. 基于内容的音频检索与分类, 计算机工程与应用, 2000,7(5): 5456.,相应地,音频信息处理是多媒体信息处理的重要组成部分。不管是实时音频流信号还是文件类型音频信号的,我们的语音/音乐检测系统(speech/music discriminat

17、ion,SMD)就是要把音频分成语音和音乐两类。语音/音乐检测系统是语音识别系统的关键部分,通过语音/音乐检测我们可以把非语音部分滤除,减小语音识别系统不必要的工作量。语音/音乐检测也可用于比特率编码器,对语音编码时用语音编码器比音乐编码器效率更高,反之亦然。因此,正确区分语音和音乐信号,选用相应的编码器对其编码就显得很重要。语音/音乐检测系统的更大优点在使基于内容索引更容易实现,除了应用于音频文件,也能应用于电视节目和电影。当我们在网络上搜索时可以搜索到音频文件的内容部分,而不仅仅是文件名和文件类型了。1.2 本课题的研究目的及意义语音/音乐检测作为音频结构化的关键技术在以下方面有着重要应用

18、:1) 基于内容的音频检索基于内容的音频检索是当前多媒体信息检索领域的一个热点,它在新闻节目检索、数字图书馆、远程教学等众多领域都有极大的应用价值。而基于内容检索的第一步就是要将音频分类,因此,分类问题是基于内容的音频检索的核心问题。 2) 音频信息的深度处理音频分类是音频深度处理的基础和前提。对于随机给出的一段音频,首先使用音频分类进行分类和分割。针对不同类型的音频数据采取不同的处理过程,既减少了处理过程的时间和空间消耗,同时也提高了处理的精度。其中,通用编码器 Ludovic Tancerel, Stephane Ragot, et al. Combined speech and audi

19、o coding by discrimination. IEEE, 2000,5(2):154156. 就是音频深度处理的代表,是一种联合语音/音频编码方式,其主要思想是先对用分类算法对音频信号进行分类,然后根据分类结果采用合适的编解码方式。3) 辅助视频分析近几年,一些研究人员借助视频中的音频信号,将其与可视信息相结合,完成视频的分割、分类和索引等。在视频检索和分类中,简单的分类特征并不能很好的反映视频的内容和结构语义,而更高级地视觉语义特征的提取则相当困难。因此,Zhu Liu Liu,Zhu,Huang,J., Wang,Y. Classificaion of TV programs b

20、ased on audio information using Hidden Markov model, In: Proceedings of IEEE Signal Progcessing Society 1998 workshop on Multimedia Signal Processing. IEEE, 1998, 6(3): 2732.等人尝试根据音频特征训练马尔可夫模型,作种视频场景的分类新闻节目、天气预报、篮球比赛、广告和足球比赛。Patel Patel,N., Sethi,I. Audio characterization for video indexing. In: Pro

21、cessing of the SPIE on Storage and Retrieval for Still Image and Video Databbases, 1996,3(9): 489498. 等人在压缩数据中,利用音频信号特征把视频分成对话、非对话和沉默三种。1.3 国内外研究现状音频处理是一个涵义比较广泛的概念,包括心理声学、语音学、声乐学、音频数字信号处理以及语音信号处理技术、多媒体数据库技术和计算机技术等。音频处理已有很长的历史,并且取得了一定的成果。其主要领域是语音,对广义的声音研究的比较少,对音频分类技术的研究则是最近几年才开始的。音频分类技术是音频深度处理的基础,它在视

22、频自动处理系统和其他多媒体应用系统中有着广泛的应用1。 对音频进行处理之前,通常要进行预处理,将音频流切分成长度较短的单元,所谓的音频分类就是指对这些音频单元类别进行识别的过程。音频分类从本质上讲是一个模式识别过程,包括特征抽取和分类两个基本过程。音频分类技术是一个交叉研究领域,它涉及多个方面的知识,包括人耳的听觉特征、信号与系统、数字信号处理、语音信号处理、模式识别、统计学习、人工智能等。目前,该领域的研究重点主要在以下两个方面音频特征分析与抽取以及分类器设计。 1.3.1 音频特征分析与抽取发展现状对于一个音频分类方法而言,合适的音频特征选择与精确的分类器设计同样重要。音频特征分析和抽取是

23、音频分类的基础,所选取的特征应该能够充分表示音频时域和频域的重要分类特性,对环境的改变具有鲁棒性和一般性。语音/音乐信号检测需要提取特征值,先前提取特征值的方法大致可分为三类。一类基于时域特征,例如零点率 C. Panagiotakis and G. Tziritas. A speech/ musicdiscriminator based on rms and zero-crossings. IEEETransactions on MultiMedia, 7(1):155166, Feb 2005.、短时能量 L. Lu, H.-J. Zhang, and H. Jiang. Content

24、analysis foraudio classification and segmentation. IEEETransactions on Speech and Audio Processing, 10(7):,October 2002. T. Zhang and C.-C. J. Kuo. Audio content analysis for online audiovisual data segmentation and classification. IEEE Transactions on Speech and Audio Processing, 9(4):441457, May 2

25、001.。第二类分类方法采用频域特征,例如基础频率、色熵、熵态和动态 J. Ajmera, I. McCowan, and H. Bourlard. Speech/music segmentation using entropy and dynamism features in a hmm classification framework. Speech Communication, 40(-):351363, - 2003.,以及梅尔倒谱参数 H. Harb and L.Chen. Robust speech and music discrimiantion using spectrums

26、first order statisitcs and neural networks. In Symp on Signal Processing and Its Applicaitons, pages 125128. IEEE Int, - 2003.。第三种方法同时运用时域和频域特征来提高精确度和稳定性。在分类任务中,有标准分类方法和基于规则的启发式分类方法。基于规则的方法可以参考678隐马尔可夫链(HHM)9,神经网络10,多层感知器(MLP)9,贝叶斯网络9 A. Pikrakis, T. Giannakopoulos, and S. Theodoridis. Speech/music

27、discrimination for radio broadcasts using a hybrid hmm-bayseian network architecture. In -, pages . EUSIPCO, - 2006.,k-近邻(kNN)和高斯混合模型(GMM) E. Scheirer and M. Slaney. Construction and evaluation of a robust multifeature speec/music discrimiantion. In -, pages 13311334. IEEE ICASSP, - 1997.,这些都是标准分类技术

28、。大部分方法都要首先驱动数据流分成训练序列和测试序列两部分。一些分类技术的复杂性取决于训练序列的大小。总之,通过深入分析和借助新的信号处理方法,提取能够尽可能反映音频类别的声学特征是音频特征分析和抽取的研究重点。1.3.2 音频分类器的设计发展现状目前,音频分类器的实现主要基于以下几类方法:1) 基于规则的音频分类方法该方法的基本思路是:选取可以识别某种音频类别的合适的特征,然后设定该特征的一个阈值,根据约定的规则,用实际计算的特征值域阈值比较,来识别音频类别。这种方法操作简单,但也由于其简单,所以只适用于识别特征简单音频类型。这种方法存在一下缺点:a. 决策规则和分类顺序并不一定是最优的;b

29、. 上层的决策错误会积累到下一层而形成“雪球”效应;c. 分类误差大,需要人的先验知识和试验分析,特别是阈值的确定。所以基于规则的分类方法的分类精度较低,只适合于区别性明显的简单的音频分类工作,难于满足复杂的、多特征的音频分类应用。但由于这种分类器简单、容易实现,在大部份传统音频分类工作中基于规则的分类器应用广泛。J.Foote J.Foote. Conten-based retrieval of music and audio. In:C.C.J.Kuo et.(eds) Multimedia Storage and Archiving Systems II, Proc. of SPIE,

30、1997,12(8): 138147 采用的一种有监督的贪心算法构造分类决策树就是其中的代表。2) 最小距离音频分类方法该分类器利用模版匹配的思想,为每一个音频类型建立一个模版,然后计算实际音频帧的特征向量,用特征向量匹配模版向量(通常是计算他们在向量空间中的距离),来识别音频类别。在澳大利亚人工只能研究员的Elias Pampalk等人开发的基于SOM (Self-Organizing Maps)的音乐聚类系统 Andreas Rauder, Elias Pampalk. Using PsychoAcoustic Models and Self-Organizing Maps to Crea

31、te a Hierarchical Structuring of Music by Sound Similarity. IRCAM, 中采用了模版匹配的类型判断方法,通过计算模版向量域特征向量的欧拉距离来进行匹配。3) 基于统计学习算法的音频分类方法早期的基于统计学习算法的音频分类研究主要集中在神经网络算法的应用上。Zhu Liu4根据音频特征为每类音频训练简单的多层预报、新闻、广告等电视节目的视频场景的分类。 近年来随着人工智能,机器学习领域的快速发展,为开展决有自主学习能力和自动音频分类研究工作提供了很好的基础,越来越多的研究者将隐马尔可夫模型,K阶最近邻算法,高斯混合模型等统计学习算法应

32、用到了音频分类研究中。南京大学软件学院的卢坚博士等人提出了一种基于隐马尔可夫模型的音频 分 类 方法 卢坚, 陈毅松, 等. 语音/音乐自动分类中的特征分析. 计算机辅助设计于图形学报. 2002, 14(3):233237 ,用于语音、音乐以及它们的混合声音类型的分类;E. Wold, T.Blum E.Wold, T.Blum, and D.Keslar. Content-based classification, search, and retrieval of audio. IEEE Multimedia, Fall, 1996,15(6):2736. 等人采用最近邻算法构造分类器。1

33、.4 本文主要研究内容和论文结构1.4.1 研究目标和所做的工作本文在在对现有音频分类技术进行深入分析和总结的基础上,提出了基于样本熵的语音/音乐检测方法。文充分利用语音/音乐混合信号在其信号序列中出现的新信息量的大小及其变化幅度这一差异来实现语音/音乐识别。主要的研究包括以下三点:1) 语音信号时间序列的基本结构和特征,分析语音信号的基本手段和过程,包括它的“短时能量”、“短时过零率”、“短时相关函数”、“短时频谱”等。2) 音频信号的基本格式与音频信号的特征提取与分析。音频分类的常用技术。3) 基于样本熵的分类方法。设计了分类算法,并与其它相关技术进行了比较。1.4.2 论文组织结构论文结

34、构如下:第一章:绪论。介绍研究目的和意义,以及国内外研究现状。第二章:语音信号和时间序列。介绍了语音信号时域波形的特征和基本处理方法。第三章:音频文件格式与音频信号特征提取与表达。介绍了现今流行的三种音频文件格式 WAV、MPEG 和 MIDI,并就音频的常用特征的提取与表达方法进行了详细论述。第四章:音频分类的理论及其相关技术。介绍了一些音频分类技术并对这些技术进行了总结对比。第五章:基于样本熵的语音/音乐检测。以样本熵作为特征对语音/音乐进行分类识别,实现了相关算法。结束语:总结全文工作。第二章 语音信号和时间序列2.1 概述在研究各种语音信号数字处理技术及其应用之前,需要了解语音信号的一

35、些重要特点,应知道它是如何由一些最基本的单位组成的,在此基础上可以建立一个既实用又便于分析的语音产生模型,这些问题可以归于声学语音范畴。通过对语音信号发声过程的研究以及观察记录的各种语音波形,便可知道语音信号的频谱分量主要集中在3003400Hz的范围内。如果用防混叠的带通滤波器将此范围内的语音信号频谱分量取出,然后按8kHz采样率对语音信号进行采样,就可以得到离散时域的语音信号。下面将讨论离散时域语音信号或称数字语音信号。应该注意,为了实现更高质量的语音编译码器或者使语音识别系统得到更高的识别率,某些近代语音系统将此频率范围高端扩展到79kHz,相应的采样率也提高到1520kHz。语音信号的

36、另一个特点就是它的“短时性”。在某些短时段中它呈现出随机噪声的特性,另一些短时段中则呈现出周期信号的特性,其它一些是二者的混合。简而言之,语音信号的特征是随时间而变化的。只有在一段短时间间隔中,语音信号才保持相对稳定一致的特征,这短段时间长度一般可取为550ms。因此,对于语音信号的分析和处理必须建立在“短时”的基础上。最重要的语音信号“短时特征”和“短时参数”包括它的“短时能量”、“短时过零率”、“短时相关函数”、“短时频谱”等。短时信号最基本的组成单位是音素。音素可以分为“浊音”和“清音”两大类。如果将不存在语音而只有背景噪声的情况称之为“无声”,那么音素可以分为“无声”、“浊音”和“清音

37、”三类。在短时分析的基础上可判断一段短时语音属于哪一类。如果是浊音语段,还可测定它的另一些重要参数,如基音和共振峰等。这里将讨论语音信号数字处理的这些基本知识、术语和分析技术。2.2 语音信号的时域波形在进行语音信号数字处理时,最先接触到并且也是最直观的是它的时域波形。为了获取一段语音信号的时域波形,首先将语音用话筒转换成电信号,再用A/D变换器将其转换为离散的数字化取样信号后存入计算机的内存中,最后将此信号取出,用绘图仪绘成时域波形。图2.1所示是一个男青年说的“欢迎你到南京”这段话的语音时域波形。语音是在安静的环境下录取的。采样率为8kHz。每个采样信号用12位进行量化。这段语音的持续时间

38、为4秒图中横轴为时间,纵轴为语音信号的幅度。由于时间轴压缩的很短,从图2.1中无法识别语音波形的细节,但是可以看到语音能量的起伏,还可以大致分辨出话语中每一个字(音节)再次波形中的位置。语音信号具有很强的“时变特性”,在有些段落它具有很强的周期性,有些段落中又具有噪声特性,而且周期性语音和噪声语音的特性也在不断变化之中,只有在较短的时间间隔才可认为语音信号的基本特征保持不变。这一特点是语音信号数字处理的一个重要出发点。欢 迎 你 来 南 京图2.1一段语音信号的时域波形2.3 语音信号数字处理中的短时分析技术由于语音信号的准平稳特性,任何语音信号数字处理算法核技术都建立在“短时”基础上。为了实

39、现各种具体应用目的而做进一步复杂处理之前,有一些经常使用的、共同的短视分析技术应该给出。2.3.1 预滤波、采样、A/D变换预滤波的目的有两个:1) 抑制输入信号各频域分量中频率超出fs/2的所有分量(fs为采样频率),以防止混叠干扰。2) 抑制50Hz的电源干扰。这样,预滤波器必须是一个带通滤波器,其上、下截频分别是fh和fl。对于绝大多数语音编译码器,fh=3400Hz,fl=60100Hz,采样率为fs=8kHz。对于语音识别而言,但用于电话用户时,指标与语音编译码器相同;当时用在要求较高或很高的场合时,fh=4500Hz或8000Hz,fl=60Hz,fs=10Hz或20kHz。语音信

40、号经预滤波和采样后,由A/D变换器绝大部分是12位的(即每一采样脉冲转换为12位二进制数字)。非线性A/D变换器则是8位的,它与12位线性变换器等效,但是为了后续处理,必须将非线性的8位码转换为线性的12位码。2.3.2 数字化语音信号的存储及加窗已数字化的语音信号序列将一次存入一个数据区,在语音信号处理中一般用循环队列的方式来存储这些数据,以便用一个有限容量的数据区来应付数据量极大的语音数据(已处理过的语音数据可以依次抛弃,让出存储空间来存入新数据)。再进行处理时,按帧从此数据区中取出数据,处理完成后再取下一帧,等等。绝大部分情况下,语音信号处理的帧长都是取20ms(当fs=8kHz时,相应

41、于每帧有160个信号样值)。在取数据时,前一帧和后一帧的交叠部分称为帧移。帧移与帧长的比值一般取为01/2,图2.2给出了帧移和帧长之比为1/2时各前后帧的相对关系。图2.2帧长和帧移示例第k帧第k+1帧第k+2帧帧移帧长已取出的一帧语音s(n)要经过加窗处理,这就是用一定的窗函数w(n)来乘s(n),从而形成加窗语音sw(n) =s(n)·w(n)。在语音信号数字处理中常用的窗函数是方窗和哈明窗,它们的表达式如下(其中N为帧长):方窗(2- 1)哈明窗(2- 2)2.3.3 语音信号的短时能量、短时平均幅度和短时过零率这是语音信号的一组最基本的短时参数,在各种语音信号数字处理技术中

42、都要进一步应用。在计算这些参数时使用的一般是方窗或哈明窗。当窗起点n=0时,语音信号的短时能量用E0表示,其计算公式如下:(2- 3)如果窗w(n)的起点不是n=0而是某个其它整数m,那么相应的短时能量用Em表示,其取和限为n=m(m+N-1).窗起点为n=0时,语音信号的短时平均幅度用M0表示,其计算公式为:(2- 4)同样,当窗的起点为任意整数m时,可表示为Mm。M0也是一帧语音信号能量大小的表征,它与E0的区别在于计算时小取样值和大取样值不因取平方而造成较大差异,在某些领域中会带来一些好处。当窗起点为n=0时,语音信号的短时过零率用Z0表示,以表示一帧语音中语音信号波形穿过横轴(零电平)

43、的次数,它可以用相邻两个取样改变符合的次数来计算如下:(2- 5)其中sgn·表示取符号,即sgnx=-1, &x<01, &x0同样,当窗的起点为任意整数m时,过零率用Zm表示。2.3.4 短时自相关函数自相关函数用于衡量信号自身时间波形的相似性。清音和浊音的发声机理不同,因而在波形上也存在着较大的差异。浊音的时间波形呈现出一定的周期性,波形之间相似性较好;清音的时间波形呈现出随机噪声的特性,样点间的相似性较差。因此,我们用短时自相关函数来测定语音的相似特性。短时自相关函数定义为:(2- 6)令,并且,可以得到:(2- 7)图2.3给出了清音的短时自相关函数波

44、形,图7给出了不同矩形窗长条件下(窗长分别为N=70,N=140,N=210,N=280)浊音的短时自相关函数波形。由图6、图2.4短时自相关函数波形分析可知:清音接近于随机噪声,清音的短时自相关函数不具有周期性,也没有明显突起的峰值,且随着延时k的增大迅速减小;浊音是周期信号,浊音的短时自相关函数呈现明显的周期性,自相关函数的周期就是浊音信号的周期,根据这个性质可以判断一个语音信号是清音还是浊音,还可以判断浊音的基音周期。浊音语音的周期可用自相关函数中第一个峰值的位置来估算。所以在语音信号处理中,自相关函数常用作以下两种语音信号特征的估计:1) 区分语音是清音还是浊音;2) 估计浊音语音信号

45、的基音周期。图2.3清音的短时自相关函数图2.4不同矩形窗长条件下的浊音的短时自相关函数第三章 音频文件格式与音频信号特征提取与表达 3.1 主流音频文件格式介绍自从 PC 支持多媒体以来,陆陆续续地出现了许多存储音频信息的文件格式。 3.1.1 WAV 简介WAV 是 Microsoft Windows 本身提供的音频格式,由微软开发,WAV 是一种文件格式,符合 RIFF Resource Interchange File Format 的规范 齐俊英. 基于内容的音频检索技术的研究 辽宁工程技术大学硕士论文,2005 年 6 月。所有的 WAV都有一个文件头,这个文件头音频流的编码参数。

46、WAV 对音频流的编码没有硬性规定,除了 PCM 之外,还有几乎所有支持 ACM 规范的编码都可以为 WAV 的音频流进行编码。由于 Windows 本身的影响力,这个格式已经成为了事实上的通用音频格式。在 Windows 平台下,基于 PCM 编码的 WAV 是被支持得最好的音频格式,所有音频软件都能够完美支持,由于本身可以达到比较高的音质要求,因此,WAV 也是音乐编辑创作的首选格式,适合保存音乐素材。因此,基于 PCM 编码的 WAV 被作为一种中介的格式,常常使用在其他编码的互相转换之中,例如 MP3转换成 WMA。通常我们使用 WAV 格式都是用来保存一些没有压缩的音频,因此它的文件

47、很庞大,一般都在几 MB 以上。也正因为没有采用压缩技术,WAV 文件中声音的采样数据很容易被读出来,便于做其它处理 贺前华,陆以勤,韦岗. 一种新的 HMM 训练方法. 电子学报 Vol 28 No 9,Sep,2000:p56-58 。例如:画出声音的信号波形、做出频谱等。现在的应用程序几乎都支持 WAV 文件格式,也有专门软件可以完成从 WAV 文件格式向其它文件格式的转换,因此 WAV 文件在目前仍然有着相当广泛的应用价值。WAV 文件是资源互换文件 RIFF 的一种(如图2.1 )。 图3.1WAV 文件格式ID (RIFF) SIZE Form Type (WAVE) ID (FM

48、T) SIZE WAVE DATA ID (DATA) SIZE WAVEDATA 一个 WAV 文件至少包括三个块:RIFE 块,FMT 块和 DATA 块。每个块包含下面几个部分: 4字节块标记码域:ID4 字节块大小域:Size数据域:DataFMT 块包含 WAVE FORMAT 结构所需的信息,即波形数据 的采样频率、声道数目、每个样本存储数据长度。DAT 块是文件最大的部分,它包含所有 WAVE 波形数据,它的末尾就是 RIFF 块的末尾。3.1.2 MPEG 简介MPEG 即为活动图像专家组(Moving Picture Expert Group ),成立于 1988 年,这个组

49、织的任务是建立活动图像及相应音频的编码标准。实际上 MPEG 是一个标准系列,包括 MPEG-1,MPEG-2,MPEG-4,MPEG-7和MPEG-21等。 MPEG 的数据流主要包含3个成分:图像流,伴音流和系统流。图像流仅仅包含画面信息,伴音流包含声音信息,系统流实现图像和伴音的同步。所有播放MPEG图像和伴音数据所需的时钟同步信息都包含在系统流中。MPEG是一种有损的,非平衡编码。有损意味着为达到低比特率,采用了基于听觉和视觉心理的压缩模式,一些人眼和人耳最不敏感的图像和伴音信息将丢失;非平衡编码意味着其压缩编码过程比解码过程慢的多。 3.1.3 MID 和 RMI 简介 这两种文件扩

50、展名表示该文件是 MIDI 文件。MIDI 是数字乐器接口的国际标准,它定义了电子音乐设备与计算机的通讯接口,规定了使用数字编码来描述音乐乐谱的规范。电脑就是根据 MIDI 文件中存放的对 MIDI 设备的命令,即每个音符的频率、音量、通道号等指示信息进行音乐合成的。MIDI 文件的优点是短小,一个六分多钟、有 16 个乐器的文件也只是 80 多 KB;缺点是播放效果因软、硬件而异。使用媒体播放机可以播放,但如果想有比较好的播放效果,电脑必须支持波表功能。目前大多数人都使用软件波表,最出名的就是日本 YAMAHA 公司出品的YAMAHA SXG了。使用这一软波表进行播放,可以达到与真实乐器几乎

51、一样的效果。 MIDI 技术本来不是为了电脑发明的。该技术最初应用在电子乐器上用来记录乐手的弹奏,以便以后重播。不过随着在电脑里面引入了支持 MIDI 合成的声音卡之后 MIDI 才正式地成为了一种音频格式。有很多人都误以为 MID 工是用来记谱的,这是错的。MIDI 的内容除了乐谱之外还记录了每个音符的弹奏方法,所以有些 MIDI 文件播放起来不好听,而某些则有良好的效果。3.2 音频信号特征提取与分析音频是一种缓慢时变的信号,可以应用数字信号处理技术和信号系统理论来抽取音频的物理特征。对音频特征的抽取要用到多种方法,其中短时时域处理技术、短时频域处理技术和同态处理技术是最基本、最典型的技术

52、 王超. 基于小波和隐马尔可夫模型的音频分类, 硕士学位论文,西北工业大学, 2007: 260284. 。3.2.1 特征抽取的相关技术1) 音频短时处理技术音频信号本质上是一种非平稳的随机过程,但在大多数的音频处理方案中,例如,语音处理,都基本假定音频信号的特性随时间的变化是缓慢的。这一假定导出各种“短时”处理方法,即音频信号被分割为一些短段也称为分析帧再加以处理,这些短段就好像是来自一个具有固定特性的持续音片段一样,所以经过处理以后产生一个新的依赖于时间的序列而用于描述音频信号。短时处理技术根据在研究域上的不同分为短时时域处理技术和短时频域处理技术。短时时域处理主要是计算音频的短时能量、

53、短时平均幅度、短时平均过零率和短时自相关函数。这些计算都是以音频信号的时域抽样为基础的。短时频域处理主要是对各个短段音频信号进行频谱分析,因而又叫做短时傅立叶分析。2) 同态处理技术根据声音信号的产生模型,音乐和语音都可以看作是一个线性非时变因果稳定系统 V(Z)受到信号 E(Z)激励后产生的输出。对乐器而言,不同音调的音,有的是激励信号 E(Z)的变化产生的,如弦乐器;有的是系统函数 V(Z)的变化产生的,如吹拉乐器。有的是 E(Z)和 V(Z)同时变化产生的,如钢琴。对于语音来说,声音的变化是由系统函数 V(Z)和激励信号 E(Z)的共同作用产生的。为了对声音进行识别,需要获取 V(Z)及

54、 E(Z)。在时域上,这些音频信号 s(n)可以看成是系统的单位冲激响应 v(n)和激励信号 e(n)的卷积。由卷积信号求得参与卷积的各个信号是数字信号处理领域中普遍遇到的一项共同的任务。解决此任务的算法称为解卷算法。同态信号处理是解卷算法的一种。3.2.2 特征分析与抽取描述 音频特征抽取中,过短的处理单元将得到粒度过细的信息,不能很好地反映各类音频的区别特性,但过长的处理单元又容易导致音频特征平均化,不能反映特征的时序变化特性。文献15采用一种音频段和音频帧相结合的特征分析与抽取方法。首先将音频切分成clip序列,然后对每一个clip加窗形成帧。先计算基于帧的音频特征,在此基础上再计算基于

55、段的音频特征。一、基于音频帧(frame)的音频特性1) 频域能量(frequency energy) 频域能量定义如下:(3- 1)式中:E - 频谱能量;W - 频率;fs - 采样频率;w0 - 频率值为 fs/2;F(w) - 频谱函数。利用频域能力 E 来判断静音帧,如果某一帧的频域能量小于阈值,则将该帧标记为静音帧,否则为非静音帧。通常,语音中含有比音乐中更多的静音,因此,语音的频域能量变化要比音乐中的大的多。对非静音帧计算以下的音频特征。 2) 子带能量(sub band energy)将频域划分为 4 个子带区间sbi(i=0,1,2,3),分别为0,w0/8,,w0/8,w0

56、/4,w0/4,w0/2和w0/2,w0,并计算各自的子带能量SWi(i=0,1,2,3),计算公式为:(3- 2)不同类型的音频,其能量在各个子带区间的分布有所不同。音乐的频域能量在上述各个子带区间sbi中的分布相对比较均匀;而语音的频域能量主要集中在第 0 个子带sb0 ,约在 80以上。3) 频率中心(frequency centroid)频率中心 FC 是度量音频亮度(brightness)的指标,其定义如下:(3- 3)一般地,音乐的频率中心比语音要高,而语音的频率中心相对较低。4) 带宽(bandwidth)带宽 BW 是衡量音频频域范围的指标,其定义如下:(3- 4)一般地,语音的带宽范围在 0.3KHz3.4 KHz 左右,而音乐的带宽范围比较宽,最高可达到 20 KHz 左右。5) 过零率(zero crossing rate)在离散时间信号情况下,相邻的抽样具有不同的符号就称为发生了过零,过零率是指每帧内信号通过零值的次数。通常,语音信号是由发音的音节和不发音的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论