




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
题目:基于情感感知的个性化音乐推荐技术研究英文论文题目:Researchonpersonalizedmusicrecommendationtechnologybasedonemotionperception摘要在音乐举荐方面,目前大部分的举荐体系仍然以固有的办法为基础,情境感知在特色化的音乐举荐方面的使用仍然处在开始环节。固有的举荐办法通常仅仅重视“客户-项目”间存在的关联关系,很少思考客户行为产生的时候对照的情境数据(比如时间、天气等相关部分)。以情境感知为基础的特色化音乐举荐,举荐经过把情境数据引进举荐计算方法,不但可以符合客户特色化的举荐需要,能够从大量音乐库内协助客户迅速定位至符合本身喜爱的音乐,另外可以较佳地展现普适核算的价值,也就是数据与核算资源的获得和连入能够出现在任意时间、任何地点、通过任意模式。这篇文章探究的情境感知举荐方法,关于目前音乐举荐方面具备某一程度的真实参照价值。这篇文章从选题探究的有关环境着手,先是陈述音频划类和检查搜索技术的前提,之后具体的剖析纯音乐和语音-音乐混合型片段的高准确识别算法,接着又探析了基于MFCC(Mel-FrequencyCepstralCoefficients)和GMM(Adaptivebackgroundmixturemodelsforreal-timetracking)的歌曲个性计算方法,最后重点的研究了歌曲个性计算与推荐原型系统设计与实现。关键词:音频检索;歌曲;个性计算;音乐推荐AbstractInthefieldofmusicrecommendation,mostofthecurrentrecommendationsystemsarebasedontraditionalmethods,andtheapplicationofsituationalawarenessinpersonalizedmusicrecommendationisstillinitsinfancy.Thetraditionalmethodsofrecommendationtendtofocusonlyonthetwodimensionalrelationshipbetweenthe“userproject”andlessconsiderationofthesituationalinformation(suchastime,place,weather,etc.)whentheuser'sbehavioroccurs.Thepersonalizedmusicrecommendationbasedonsituationalawarenessisrecommendedbyintroducingthesceneinformationintotherecommendationalgorithm.Ontheonehand,itcannotonlymeetthepersonalizedrecommendationrequirementsoftheusers,thatis,itcanhelptheuserstoquicklylocatethemusictosatisfytheirownpreferencesfromthemassmusiclibrary,ontheotherhand,itcanalsoreflectthevalueofpervasivecomputing,thatis,thevalueofthepervasivecomputingismoreimportant.Accessandaccesstoinformationandcomputingresourcescanoccuratanytime,anywhere,inanyform.Thescenarioawarerecommendationalgorithmproposedinthispaperhassomepracticalreferencevalueforthecurrentmusicrecommendationfield.Startingwiththerelevantbackgroundoftheresearch,thispaperfirstexpoundsthebasisofaudioclassificationandretrievaltechnology,thenanalyzesthehighaccuraterecognitionalgorithmofpuremusicandspeechmusicmixedfragments,andthenanalysesthemethodofsongpersonalitybasedonMFCC(Mel-FrequencyCepstralCoefficients)andGMM(Adaptivebackgroundmixturemodelsforreal-timetracking),andfinallystudiesthecharactercalculationandrecommendationofthesong.Thedesignandimplementationofthetypesystem.Keywords:AudioRetrieval;Song;PersonalComputing;MusicRecommendation目录4989摘要 I28579Abstract II20708目录 III31225第1章绪论 1200661.1研究背景 1326691.2研究目的和意义 1184891.2.1研究目的 1251981.2.2研究意义 123783第2章情景感知相关理论 3252472.1情景的定义和获取 3165712.2情景用户偏好提取 3114032.3情景建模相关技术 46881第3章纯音乐与语音-音乐混合片段的高准确识别算法 6117733.1引言 6163833.2音频识别分类技术发展和主要算法分析 6140543.3纯音乐和语音-音乐混合音频识别算法模型 7242233.3.1音乐信号预处理及特征提取 7185833.3.2音频识别规则 1051093.3.3融合判决(音频片段识别) 10204733.4实验及结果分析 11214423.4.1实验目的和数据资源 11108423.4.2实验环境和条件 1293153.4.3实验结果评价指标 1245513.4.4实验过程和参数说明 12307993.4.5实验结果分析 1213578第4章基于MFCC和GMM的歌曲个性计算方法 15308664.1引言 1583874.2歌曲个性计算模型 15286754.2.1特征提取处理 1626224.2.2高斯混合模型(GMM)算法 16177364.2.3EM算法 19209734.3实验及结果分析 2086794.3.1实验目的和数据资源 206844.3.2实验结果评价指标 2058774.3.3实验过程和参数说明 21318064.3.4实验结果分析 2121540第5章歌曲个性计算与推荐原型系统设计与实现 23109185.1引言 23276975.2系统总体设计 23310465.2.1设计目标和技术路线 23148715.2.2功能需求分析和设计原则 23265975.2.3系统的总体架构 24216065.2.4交互界面设计 2764205.3系统关键功能模块的实现 28104085.3.1歌曲预处理模块 28113985.3.2歌曲特征提取模块 31263145.3.3系统训练模块的具体实现 3334145.3.4系统识别模块的具体实现 34258165.4实验及结果分析 35233785.4.1实验目的和数据资源 3596175.4.2实验过程和参数说明 3540335.4.2实验结果分析 3616538第6章结束语 37167066.1总结 3785446.2工作展望 3818355参考文献 3931204作者简历 4318498致谢 44第1章绪论1.1研究背景音乐其实是一类关键的媒体资源,对音乐实施检查搜索,这对音乐数据库、数字图书馆的建造具备特别关键的价值。网络中的多媒体具有特别庞大的资源量,民众要求有效的搜寻引擎从大量的信息内找到所需的音乐资料。此外,音乐的检查搜索在卡拉的检查搜索、协助视频检查搜索等相关部分均具备宽阔的探究远景与庞大的使用价值。因为音乐自身的特征,音乐的检查搜索有别于普通的音频检查搜索,和固有的文字检查搜索更是不一样。当前的音乐检查搜索样式大部分以文本为基础,参照音乐名、词作者、国别、文件样式、划类等一系列相关的人为标记实施检查搜索。对于持续增加的大量资源和大家对于音乐检查搜索的较高规则,鉴于近似歌唱人员的声音或近似格调、节奏乃至近似背景音乐音色的音乐检查搜索持续获得重视。这种问题具有极强的交叉性,牵涉的内容比较普遍,具有较强的综合特性,牵涉电脑科学、声学、心理学等相关部分。1.2研究目的和意义1.2.1研究目的这篇文章指出“歌曲个性”这个概念,用来归纳歌曲的格调、歌唱人员的声音特征等相关性能;指出一类鉴于的歌曲特色模型创建、核算与搭配办法,能够确保客户导入1首歌曲,以后抽取此首曲的相关性能,从而在歌曲库内搜寻歌曲特色近似的曲目,在软件页面中为客户展现,另外,客户能够从歌曲库内以自动方式选定自身喜欢的曲目,符合特色化曲目的举荐与服务。1.2.2研究意义情境感知举荐当前正在逐渐被更多探究成员的重视,并且获得某一程度的探究成绩,然而这个方面依旧是1个充斥着挑衅的新式探究领域,另外许多难题需要进行处理,对于这部分难题的改良同样是这篇文章探究的价值。情境感知举荐需要面对的难题首要展现在信息比较稀松与多维信息处置这2个部分。信息稀松特性其实是长时间扰乱举荐体系的一个较大的问题,情境数据的引进能够深层面加重了信息的稀松特性。在多维的评测矩阵内,一来,客户极难和多维情境实例进行关联,二来,即便客户和有关的情境实例具备一定的交集,然而同样未必可以较佳地在此情境下和特殊的音乐产生互动,许多情况下客户偏爱矩阵内极大部分元素均为0或是空值,极大程度上干扰了计算方法的举荐成效,怎样处理此类信息稀松特性问题早已是情境感知举荐方面的一个较大的探究焦点。对于多维信息处置难题,探究成员试着使用张量分解等相关技术,尽管在某一水平上可以得到优质的举荐成效,然而这部分办法通过舍弃较高的时间繁杂度作为成本,不能符合客户真实条件下的情境多元化特性的改变需要,当前对于多维信息处置依旧并无让人中意的处置方法。所以,这篇文章对于上述2点实施探究,关于处置情境感知举荐具备比较实用的价值。第2章情景感知相关理论2.1情景的定义和获取关于情境的探究跨过了差别的学科边界,涵盖认知科学、核算科学、哲学等相关部分。情境感知这种技术源自普适核算的探究,最初经等在公元1994年指出,把情境归于方位、人、物体周边的标记还有这部分物体的改变[37]。从情境概念指出以来,学术方面对情境的界说并没有具备统一的认识。等[38]指出的获得普遍调用的情境界说为:情境是任意能够用于陈述实体形态的数据,实体能够是人物、地点,同样能够是程序和客户间交互有关的对象。依据获得样式的差别,情境数据的获得首要涵盖显型获得、隐型获得、推导获得这3类。显型获得首要源自客户自主设置、客户咨询等。隐型获得通常鉴于本有的信息和周边环境数据以间接方式抽取有关的情境数据。推导获得要求依靠信息挖掘这种技术或是统计学的有关办法,参照核算推导获得部分暗藏的情境数据。显型获得尽管操控简洁便于完成,在差别的方面具备最为普遍的使用,然而此类样式许多情况下极难获得实际有价值的数据,所以,隐型获得与推导获得在情境感知过程内同样能够发扬关键的效用。2.2情景用户偏好提取关于情境客户的爱好抽取其实是情境感知举荐的基础,情境客户的爱好抽取主要是把情境数据引进客户爱好模块内。当前,关于情境客户的爱好抽取技术首要具备2类,分别是定量剖析、定性剖析。(1)定量剖析以定量剖析为基础的办法把情境客户的爱好通过量化模式转变成数值评分,并且联合对应的爱好抽取技术实施数学方面的核算。当前,多维向量的评测模块还有层级模块在情境客户爱好量化部分使用比较普遍。鉴于定量剖析的办法能够划为鉴于启发型、鉴于模块这2类技术,一般的启发型情境客户的爱好抽取办法涵盖近似度核算、聚类等相关部分。鉴于模块的情境客户爱好抽取办法首要涵盖贝叶斯划类器、线性部署等相关部分。这篇文章鉴于情境感知的音乐举荐计算方法,在情境客户爱好的抽取方面以定量剖析这种技术为基础。(2)定性分析和定量剖析具有差别,为抽取情境客户的爱好,鉴于定性剖析的办法从逻辑推导与偏序模块这个方面,忽视客户对于项目和特性爱好的数量值,抽取客户对于任何2个项目或是相应特性之间的偏序关联,此办法首要考查客户在情境制约下对于项目和其特性的二元偏序关联。鉴于定性剖析的办法具备如下优势:能够代表任意2个情境客户爱好实例间的关联,可以实施逻辑推导。特别是在处置未必符合全序关联或是弱序关联的情境客户爱好方面具备某一部分的优点。然而此办法因为缺少数字量化的展示模式,所以在处置核算量较大的方面具有一定的不足。2.3情景建模相关技术情景建模主要包括以下六种方法:(1)键值对模型对于情境模型创建过程内最为简洁的模型创建样式,键值对于模块[39]在分布型服务构架内使用比较普遍。分布型构架一般通过键值对于模块陈述的简洁特性去代表服务自身,另外运用服务找出程序内的搭配方法去核算特性的搭配度。(2)逻辑模块这种模块能够把情境数据分别界说成事实、表述与准则,因为较高的规则性与严苛的逻辑界说,这同样致使逻辑模块的组建偏南,妨碍了经管的顺利进行。(3)标记语言模块这种模块能够把情境数据转变成一连串标记或是注解,一来标记与注释可以调控模块的样式和架构,二来,可以使用体系解说与转化情境数据。当前在情境模型创建方面,被当作情境模型创建的标记语言从而获得普遍的使用。(4)本体模块这种模块整体使用架构化的标记语言性能,另外插入语义数据,在情境模型创建过程内使用比较普遍。以本体模型创建为基础的模块具备比较健全的本体语言参照规则,另外可以获得许多类别的软件的支撑,然而在情境表述部分具有一定的缺陷。(5)图模型这种模块首要使用这些技术,把情境通过图表模式实施贮存与表述。其实是一类规则化的模型创建语言,使用的范围比较宽泛,首要使用在信息的策划与查找操控。通过图像样式展现情境,首要优势是逼真,易于理解,便于剖析情境之间的关联。然而,因为缺少一致的规则,图模块表述样式具有一定的差别,在真实使用过程内同时缺少通用型软件和用具的支撑,模型创建的成效欠佳。(6)面向对象的模块面向对象的情境模型创建使用软件研发过程内面向对象的相关性能,把情境数据隐匿到对象里,只是对外供应一致的端口去实施拜访。此类模型创建样式具备可拓展的性能和传承的性能,能够合理精简繁杂领域与体系内的知识表述。第3章纯音乐与语音-音乐混合片段的高准确识别算法3.1引言音频作为一类特别关键的媒体,比如音频检查搜索、音频划类等相关部分均是和音频有关的应用。由于语音信号处置这种技术不断成长,目前用来处置音频信号的体系更多地依靠处置信号的有效信息,当中最为首要的是对于音频信号实施预先处置,抽取其有效信号,舍弃无效部分。对于一首歌曲,包含大量的静音和纯音乐部分,而这些部分是识别系统所不需要的,而且它们可能会影响识别系统的性能,而且如果一起处理就会浪费大量的时间和资源,所以静音和纯音乐是歌曲检索系统所不需要的,将它们当作音频信号内的无用部分实施清除,结果可以降低音频信号里面的干预,能够降低语音处置的计算量,另外能够合理提升体系的相关特性,提升甄别效力与精确特性,所以这篇文章指出以平均短时能量、过零率规则差为基础的音频段的甄别方法,用来区别相同歌曲内纯音乐、语音-音乐的混合型片段。3.2音频识别分类技术发展和主要算法分析当前,我国境内和海外的很多探究成员在音频划类和分割部分实施了许多有效的作业,首要能够划为2类:其一,鉴于准则的音频划类,其二,鉴于研习的音频划类。鉴于准则的音频划类在初期的音频划类方法一般仅选取几类特点(比如短时能量等相关部分),之后以人工方式或是自适应方式选取1个阈值,依据差别的音频种类在这部分特点部分的差别特征对于音频实施划类。在此类办法内,划类器能够确保部分启发型的准则,划类器的练习流程其实是人经过对于特点的剖析去确认划类准则的流程。比较经典的是美国企业等人实现的音频检查搜索体系,一般情况下,把它当作音频划类探究的标记牌,体系先是对于每帧信息抽取响度、亮度等相关特点,之后对于特点序列依次核算均值、方差、自关联等3个参量,还有能量最后共同生成了13个特点,最终参照最近邻规则与距离设计划类器确认音频的种类,使用的信息集涵盖笑声等16种409个样品信息,划类的准确率大概是81%。探究核心的等人抽取短时能量、过零率、频谱能量特点,对于每种音频授予差别特点通过差别的权值,区别音频混合的相关信号,比如含有背景音乐的语音等相关部分。3.3纯音乐和语音-音乐混合音频识别算法模型因为纯音乐与语音-音乐实施混合具有极高的易混度,因此对于相同的歌曲内的纯音乐与语音-音乐混合型片段的甄别划类极难。因此只是使用短时能量、过零率这2个特点无法较佳的实现划类成效。这篇文章指出一类新的计算方法,经过核算等候甄别的音频片段的平均短时能量、过零率规则差这2个特点值,能够较佳地甄别音乐片段属于哪个类别,这篇文章陈述的计算方法的机理流程图参见图3.1。图3.13.3.1音乐信号预处理及特征提取经常使用的特点参量涵盖过零率或平均过零率、基音频率等相关部分。1.短时能量它其实是在1个短时音频帧中取样点信号汇聚的所有能量,其短时能量的核算式子参见式子(3-1)(3-1)当中,代表第个短时帧,代表第个短时帧中第个取样点的信号值,代表窗长,代表长度是的窗函数。上式同样能够改成(3-2)公式中h(n)定义如下(3-3)通过式子,能够把短时能量当成语音信号的平方经过1个冲激回应为线形滤波装置后的导出。因此窗函数的选取将直接确定短时能量的特性,也就是选用哪个类别的窗函数,窗函数的长度是多少。假如窗长偏长,平滑的效用会非常显著,短时能量的曲线伴随时间改变较慢,无法展现语音的改变特点;反之,假如窗长偏短,短时能量会伴随时间猛烈改变,不能获得比较平滑的能量函数。所以一般情况下,选取的时间当作窗长。2.短时过零率它是在1个短时帧中,取样信号值穿过零值(横轴)的回数。它简洁体现了音频信号在短时段的频率均值,其核算式子是:(3-4)当中代表标记函数,界说为下:(3-5)通过界说能够发现,短时过零率这个参量对于噪音的出现特别灵敏,假如背景中产生了重复穿过坐标轴的随意噪音,则将形成海量的虚构过零,干扰了核算的成果。为提升过零率的核算稳健性,应当对于初始信号实施带通滤波,一类合理的办法是修订过零率的界说,添加门限的界说,参见图3.2。图3.2设定1个门限值T,把过零率的界说修订成穿过正负门限,含有门限的过零率核算式子为下(3-6)结果噪音信号发生振荡如果没有超越门限,那么将无法对于实际的过零率形成干扰。音频片段其实是在音频帧特点的前提下指出,得到它的基本办法是对于组成它的全部音频帧,核算它们音频帧特点的均值、规则差等相关的统计量。该办法运用的音频片段特点就是过零率规则差。通过剖析图3.3,能够找出音乐与语音的过零率规则差具备显著的差别。图3.3首先进行分帧处理,帧移长度选为半帧,窗函数选定哈明窗,参见下式(3-7)式中α=0.46,分帧完成后,分别利用公式(3-1)和公式(3-4)或公式(3-6)对于每帧抽取短时能量与过零率,也就是。之后,设置音频片段长是,选定当作1个音频片段能够提升甄别的精确度,能够比较准确地甄别纯音乐与语音-音乐的混合内容,方便深层面抽取有效的音频段之后实施处置。参照每帧的短时能量与过零率,核算得到各个音频片段的短时能量均值与过零率规则差等。(3-8)(3-9)(3-10)(3-11)3.3.2音频识别规则实施音频甄别,主要是希望把抽取的音频片段大体上分割成静音、纯音乐、语音-音乐混合这3个方面。因为这3类音频种类间具备相对显著的差别,所以能够经过鉴于音频片段的平均短时能量、过零率规则差的办法实施甄别。先是核算音频帧层级与片段层级中的特点当作判定参照;之后参照某一准则,使用真实核算的特点值和设置的阈值进行对比,把1个音频段甄别成静音、纯音乐、语音-音乐混合这3个类别。1.静音的甄别准则静音展现在声强方面则是音频信号的振幅偏低、人耳无法听见的声响。它通常能够连续一个时段,表现在能量谱上就是在一段较长的时间内能量较低,并且格外显著的特点是静音的过零率与别的方面的差别极大。虽然在每个字间同样具备极低能量的范畴,然而均非常短,因此无法当作静音区块。这里选用静音比这个特点,准则为下:(1)如果1个音频段的能量小于某一阈值,那么判定它为静音帧。(2)如果1个片段内静音帧的比重高于阈值,那么判定它为静音段。对于阈值的设置与目前声音的响度、频率相关联,如果响度较高,那么阈值偏高,因此阈值的设置务必伴随差别的音频片段从而产生改变。因此,提到的办法选用自适应的阈值判断办法:如果音频帧的短时能量和1个3s的滑动窗口中的平均短时能量的比值小于阈值,那么判定为静音帧。2.纯音乐和语音-音乐混合的甄别准则在歌曲里面,静音板块除外,大体上能够划为纯音乐、语音-音乐混合这2类。通过试验剖析,选用音频片段的平均短时能量、过零率规则差这2个特点。通常而言,语音信号的这2个特点值高于纯音乐信号,参见图3.3,能够发觉音乐与语音的过零率规则差具备显著的差别。当中,虚线左、右侧分别是音乐、语音片段。对于1个音频片段而言,如果平均短时能量、过零率规则差这2个特点值符合某一要求,那么判定为纯音乐片段,否则是语音-音乐混合片段,具体的判断条件将在3.3.3节中详细介绍。3.3.3融合判决(音频片段识别)在获得音频片段的平均短时能量、过零率规则差以后,能够对于相同歌曲里的纯音乐、语音-音乐混合型片段实施甄别。参见表3.1,表内的Yes表示语音-音乐混合型的片段,代表纯音乐的片段。当中代表经过海量信息统计获得的经验值,这篇文章选定过零率规则差2阈值平均短时能量3阈值表3.1编号过零率标准差条件平均短时能量条件决策识别结果1或NO2YES3NO4或NO5NO6YES7或NO8NO9NO当中,、依次是全部语音的平均短时能量、平均过零率规则差,、依次是各个音乐片段的平均短时能量、过零率规则差。3.4实验及结果分析3.4.1实验目的和数据资源实验目的:为了验证本文中提出的基于平均短时能量和过零率标准差的音频片段识别算法的性能,同时验证该算法对同一首歌曲中,区分纯音乐和语音-音乐混合的片段的性能;与其它方法进行比较,对算法的性能进行详细的分析;通过实验改进算法,不断提升算法的效果。试验信息:为测验与评测这篇文章陈述的计算方法,试验创建的音频库涵盖15首差别格调,差别语言与差别歌手的样式的整首歌曲(静音板块除外),取样率是,剖析度是。经详细统计,清除静音之后的歌曲具备的总时长是。当中,全部歌曲音频内的纯音乐片段具备的总时长是,语音-音乐混合型片段具备的总时长是,为了验证上述算法对同一首歌曲的处理效果,因此,不对歌曲音频文件进行片段切分,而是将每个歌曲音频文件作为一个整体进行处理。3.4.2实验环境和条件实验环境:计算机处理器英特尔i7四核,内存8G,64位操控体系,转;硬盘,显示器选定寸;操控体系;这种编译环境。3.4.3实验结果评价指标在本系统的实验中,选择查全率和识别正确率作为系统的测试评价指标。查全率(Recall):又称召回率,对于某个试验实施甄别的时候,准确检验出的音频片段数目和应当检验的音频片段数目的比值,也就是这篇文章内界说甄别准确率,对于某个试验实施甄别的时候,准确检验得到的音频片段总数目(甄别准确的纯音乐与语音-音乐混合型片段的和)和等候甄别的音频片段的总数目(纯音乐的总数目与语音-音乐混合型片段的总数目的和)的比值,也就是3.4.4实验过程和参数说明选用这篇文章指出的计算方法,对于相同歌曲里的纯音乐和音乐-语音混合型片段的划类实施甄别。先是对于音乐信号滤掉直流分量、加窗等相关的预先处置作业,然后,抽取每1帧的短时能量与过零率特点,之后以作为1个音频片段,把音频划为一些片段,提取音频段的平均短时能量和过零率标准差特征;最后利用音乐片段的平均短时能量和过零率标准差特征,根据3.3.2节和3.3.3节描述的方法,实施音乐片段的甄别,之后参照3.3.4节陈述的办法对于甄别成果实施平滑处置从而获得最后的甄别成果。鉴于平均短时能量、过零率规则差的音频甄别计算方法的框图参见图3.4。3.4.5实验结果分析通过上述的实验数据和实验方法,对上述算法进行实验,实验时分别进行对实验结果非平滑处理和对实验结果平滑处理的过程,以验证平滑处理对实验结果的查全率和识别正确率的影响。实验结果如表3.2所示。表3.2未平滑处理的实验结果数据统计表由表3.2可知,在未进行平滑处理的条件下,系统对歌曲片段进行识别,纯音乐片段的平均查全率为90.27%,语音-音乐混合片段的平均查全率为80.32%。表3.3平滑处理后的实验结果数据统计表由表3.3可知,在进行平滑处理的条件下,对检测得到的结果根据本文陈述的平滑处置准则对于歌曲片段实施平滑的处置,针对相同歌曲实施处置的时候,甄别的精确率高于固有的计算方法。通过对于表实施归纳平均,获得下表展示的相同歌曲里关于纯音乐片段、语音-音乐片段的平均甄别准确率。表3.4参见表3.4,能够推断,经过平滑处置能够提升甄别的准确率。在这篇文章的试验条件下,处置1首歌曲需要,表明此计算方法处置的速率偏高。试验成果说明,此类计算方法的准确率较高,能够对于差别格调、差别歌手、差别语言的歌曲实施处置,在实施平滑处置之后,纯音乐、语音-音乐混合的平均查全率依次是92.08%、96.33%,它们的平均准确率依次是92.30%、96.36%,能够处理纯音乐和语音-音乐混合型片段甄别易混度偏高的难题,能够精确地甄别相同歌曲里的纯音乐、语音-音乐混合型片段,为确保清除音频中无效的板块供应一类合理的预先处置办法,另外能够较佳提升信息处置的效力与特性,比起固有的计算方法,具有较好的优势,正确率也较高,而且算法的复杂度要小很多。系统利用该方法去除歌曲中纯音乐和静音部分,不但降低了歌曲信号特点抽取的干预,另外降低了语音处置的计算量,进而合理地提升体系的计算特性,提升甄别效力与成果的精确性。第4章基于MFCC和GMM的歌曲个性计算方法4.1引言当前关于音乐的检查搜索均以音乐的内容为基础实施检查搜索,经过唱1首乐曲的旋律片段,从音乐里抽取旋律等相关特点数据实施搜寻,极少使用音频检查搜索这种技术对于乐曲实施近似性的检查搜索。使用有关技术完成近似乐曲的检查搜索,歌唱人员能够参照自身的声音与格调,使用检查搜索体系检查搜索和自身近似的乐曲,从乐曲库内以自动方式选取自身喜欢的乐曲。根据音频检索的基本原理和相关关键技术的算法,以及高斯混合模型计算方法与估测模块参量的计算方法,指出一类鉴于的乐曲个性模型创建、核算与搭配的办法,选定期望最优的计算方法模块实施培训,再进行实验分析。4.2歌曲个性计算模型关于音频的检查搜索,其实是一类和音频有关的应用,音乐属于一类特别种类的音频。当前关于音乐的检查搜索均以音乐的内容为基础实施检查搜索,经过唱1首歌的旋律片段,从音乐里面抽取旋律等相关特点数据实施搜寻,极少使用音频检查搜索这种技术对于乐曲实施近似性的检查搜索。所以,这篇文章指出一类乐曲特色核算的模块,选用频率倒谱系数、高斯混合型模块计算方法去构建此模块,并且使用期望最佳的计算方法实施培训。乐曲特色核算模块的机理流程图参见图4.1。图4.1基于MFCC和GMM的歌曲个性计算模型原理框图对于导入样本乐曲实施预先处置。使用音频片段的平均短时能量、过零率规则误差的相容判定办法能够清除音乐里的纯音乐板块与静音板块,能够降低音乐信号特点抽取的干预,另外能够降低语音处置的计算量,进而合理提升体系的计算特性,提升甄别效力与成果的精确性,所以在抽取特点以前,要求对于全部的乐曲实施预先处置,清除乐曲里的静音板块与纯音乐板块,减少信号的干扰,最后将处理后的歌曲音频数据文件存为PCM格式的文件。使用技术抽取乐曲的语音特点。在实施检查搜索以前,需要对歌曲库的所有音频文件提取14维的MFCC的静态特征参数,以及14维一阶差分动态特征参数、维二阶差分动态特征参数,共42维MFCC特征参数。利用GMM算法生成该歌曲的模板。对歌曲库的所有音频文件,使用它们的特点参量,选用计算方法估测模块参量,实现乐曲模块参量的练习,模型的混合数M=32,并将产生的GMM模型参数保存在模板文件中,而且每一首歌曲对应一个模板文件。使用乐曲样板库的乐曲文件实施形式上的搭配。使用模块的甄别计算方法实施样品乐曲的特点参量和乐曲样板库乐曲的GMM模型参数的最大后验概率计算,得到它们之间的相似度值。甄别成果的后处置。对于乐曲举荐甄别的成果参照其和样品乐曲近似度的强弱实施排列导出。能够参照设定近似度(比如选用近似度高于92%的乐曲)与选用乐曲的数据(比如选用前10首乐曲)去导出相关信息。下面介绍该算法用到的MFCC参数提取的具体过程以及GMM算法和EM算法的基本原理。4.2.1特征提取处理目前最有效的提取语音特征的方法是MFCC或线性预测倒谱系数(LPCC)。其实是鉴于语音实施线性估测剖析,剖析法则是通过鉴于或是迭代计算方法求出维纳─霍夫方程得到估测系数从而获得的倒谱参量。最大限度思考人的听觉性能,并无一点假定条件,具备优质的甄别特性与抵御噪音的实力。然而其核算量与核算精密度对于的条件比较严苛。4.2.2高斯混合模型(GMM)算法高斯混合模型的含义关于高斯混合型模块[59-66],它其实是1个经常使用的陈述混合型密度布设的模块,也就是数个高斯布设的混合型布设。任意一类几率密度布设都可以通过一些正态密度布设的线性组合进行临近。通过概率论的核心极限定律能够推断,海量彼此孤立、遵从相同布设的随机变量在整体方面遵从正态布设。正态布设可以体现自然环境下大部分事物的布设规则,因为其数学方面展现出优质的特性,所以获得了比较普遍的使用。高斯混合型模块实质上属于一类多维几率分布密度函数,能够用于代表语音特点矢量的几率密度函数。经过对于特点矢量实施聚类,将每类当作1个多维高斯布设函数。之后求取每类的均值、协方差矩阵、产生的几率,把它当作练习样板。最终把观察序列代进所有的样板,找出最高的后验几率。模块的优势就是能够比较平滑地临近任何外形的几率密度函数,另外还是1个便于处置的参照模块,比较平稳。引进高斯混合型模块具备2个核心因素:(1)高斯密度函数以线性方式实施叠加可以对于任何外形的布设实施近似。(2)每1个密度布设能够展示基础声学类,比如元音、摩擦音等相关部分。办法具备特殊的优势,此计算方法的繁杂度偏低,尤其是部分改良的计算方法明显加速了处置[60][61]。高斯混合型模块的中心理论是使用数个高斯布设的几率密度函数的组合陈述特点矢量在几率空间的布设状况。在这篇文章里,进行歌曲训练时,每一首歌对应一个GMM模型参数。GMM模型描述高斯混合型模块使用数个具备高斯布设的几率密度函数的加权和进行代表,此几率密度函数的数目叫做高斯模块的混合数。1个具备个混合数的维GMM,可以表示为(4-8)(4-9)当中:属于1个维观察矢量;属于混合权重,等同于每1个高斯成员产生的几率,能够符合属于维高斯函数,表示模块的第个高斯分量;代表此高斯分量的均值矢量;代表协方差矩阵。模块通过各个混合型分量的均值矢量、协方差矩阵、混合权重这些参量实施陈述,所以能够获得1个模块参量,表示为如下:。高斯混合模型示意图如图4.3所示。图4.3高斯混合模型示意图GMM模型参数训练方法GMM模型算法流程图如图4.4所示。图4.4GMM训练流程图选定模块去实施乐曲甄别,先是要求练习乐曲模块,确保其特点参量可以较佳的表示此乐曲的特点。在指定练习乐曲之后,最为基础的练习办法是最大似然估测法。这种估测法的机理就是在指定练习矢量集的前提下,查找适宜的模块参量,致使似然函数值最高。模块参量通常会选用最大似然估测这种办法实施练习。假定某种语音练习的观测矢量序列内各个观测矢量彼此孤立并无关联,关于模块的似然度能够展示为(4-10)通常情况下,并无1个优质的方法可以获得似然函数的最高值,仅仅经过部分办法去临近极值点。它的基础方法就是先从起始模块着手实施练习,每回练习获得1个新的模块,另外符合(4-11)结果通过次迭代,如果2次练习的差值低于某1阈值,那么终止练习,这个时候的参量早已临近极大值。所以,练习的最后任务是找出1组模块参量致使最高,即(4-12)GMM模型识别方法假定有首乐曲,对照的模块依次是1,2,…s,关于乐曲,甄别的任务就是对于已知观测矢量序列,假定每1个乐曲产生的先验几率一样,也就是:,并且因为对于每1个乐曲均一样,所以,从以上模块内找出具备最高后验几率的模块对照的乐曲,也就是(4-13)在核算的时候,对于式子两边选对数,假定差别时间的观测矢量,能够单独抽取,参照模块的相关界说,高斯模块混合数是,在此处,确认乐曲的目标转换成核算(4-14)4.2.3EM算法在模块内,语音与乐曲的音频特点通过差别参量值的高斯混合几率密度函数进行独一确认,因此在练习流程内,体系需要估测得到语音与乐曲对照的参量,另外应当获得致使此音频特点序列几率最高的参量。依据最高似然估测规则,需要求取参量,致使关于语音与乐曲的特点矢量序列模块的几率最高。计算方法则是估测参量的典型计算方法,下面是此计算方法的对应陈述。计算方法其实是最大似然与最高后验几率估测经常使用的办法,适于通过不够健全的信息最佳地估测几率模块参量。在对于此计算方法实施陈述之后,计算方法着手被普遍使用。计算方法经常被用于估测高斯混合型模块的参量。计算方法从最初对于模块参量的估测着手,使用最高似然的规则,迭代估测模块参量。每回迭代先是参照已知研习样品与目前参量估测(最初值通过初始化操作获得)获得研习信息的布设,之后在假定上一步获取的布设准确的条件下,最大似然地核算模块参量,持续反复操作直至部分最高。能够表明,每次迭代均增加或是不会转变似然度(如果获得部分最高值,那么似然度值能够保持原状)。4.3实验及结果分析4.3.1实验目的和数据资源实验目的:为了验证本文采用的基于MFCC和GMM的歌曲个性计算算法的模型的性能,建立以该算法为模型的系统。通过实验,可以获得该算法的性能参数,从而能够对该算法的性能有较为全面的了解。通过获得的实验数据,对实验算法进行比较分析,并与通常的算法进行性能比较,得出实验结论。信息资源:试验创建的音频库涵盖1250首乐曲,当中涵盖132位男歌手乐曲555首,大小为2.48GB,116位女歌手歌曲695首,大小为3.21GB,乐曲库内涵盖中、英等相关类别的乐曲。先是将乐曲实施解码,转变为单声道、取样速度、剖析度的样式音频文件,之后使用鉴于音频片段的平均短时能量、过零率规则误差的相容判定办法,滤除乐曲里的纯乐曲板块和静音板块,最后生成文件。从男女歌手里依次选定2首差别歌手的乐曲,合计具有4首乐曲。先是选用这篇文章指出的计算方法完成的体系实施甄别,把体系举荐的前10首非测验歌手自己的乐曲实施记载,之后通过主观评测的办法判定举荐的乐曲和有关乐曲是不是具备一样的格调。4.3.2实验结果评价指标在系统的实验中,选择相似度和音乐推荐准确率作为系统的测试评价指标。近似度其实就是自行界说的使用极大似然概率代表的举荐乐曲和样品乐曲的近似水平,通过百分数进行展示。为了评价系统推荐结果的性能,采用音乐推荐准确率作为评价系统推荐结果的准确度,音乐推荐准确率表示系统推荐与样品乐曲近似的乐曲数目与举荐乐曲总数目的比值,通过百分比代表。也就是为区别体系内举荐的乐曲是不是和样本歌曲相似,所以需要采用人工分类的方法进行评判,确定推荐结果相似歌曲的数量。其中人工分类是经过对20人对推荐结果进行判断的成果归纳剖析获得,在试验过程内,代表和样品乐曲近似,代表和样品乐曲不近似。对于举荐成果实施乐曲近似性归纳的规则为,20人中若80%以上认为相似则认为相似,否则认为不相似。4.3.3实验过程和参数说明系统的实验过程的步骤和参数设置如下:1根据实验数据资源,完成实验的歌曲库建立过程。2对歌曲库中的MP3歌曲进行解码,转换成取样率,剖析度的样式,方便之后的处置。3利用GMM模型参数训练算法,完成歌曲库中歌曲的模型训练过程,生成歌曲模板库。4导入待识别的样本歌曲,设定体系乐曲样板库的途径与乐曲样品内歌唱人员的性别,使用乐曲样板库的乐曲文件实施形式上的搭配。5对识别结果进行处理,按照相似度由高到低排序,保存相似度最高的前歌曲信息。6根据要求进行人工分类,判断检索歌曲是否与样本歌曲相似。4.3.4实验结果分析在实验完成后,需要去除系统推荐结果中样本歌曲的歌唱者的所有歌曲,以此验证系统对相似歌曲的检验效果,因为同一歌手的歌曲是非常相似的,所以排除同一歌手的歌曲,可以验证该系统对其他歌手的相似歌曲个性的歌曲之间相似性检索的效果。为了方便,对4组实验推荐结果的歌曲分别进行了编号。第1组:样品乐曲是刘若英的。体系举荐的前10首乐曲,分别是王菲的;那英的;王菲的、、;萧亚轩的“给我重新爱你的机会”;那英的“我来因为你在”;王菲的;梁咏琪的;孙燕姿的。第2组:样品乐曲是梁静茹的。体系举荐的前10首乐曲,依次是刘若英的;真宫寺的;王菲的、;杨丞琳的;;王菲的、;;王菲的。第3组:样品乐曲是周华健的。体系举荐的前10首乐曲,依次是猫王的;郑伊健的;张信哲的;羽泉的;阿牛的;周杰伦的;阿牛的;李圣杰的;动力火车的;的。第4组:样品乐曲是王力宏的。系统推荐的前10首歌曲,依次是五月天的“心中无别人”、、、、、;;的;周杰伦的;五月天的。试验成果参见表4.1的展示。表4.1实验结果数据统计表样本歌曲刘若英“人之初”梁静茹“给未来的自己”周华健“忘忧草”王力宏“爱我的歌”编号相似度/%分类编号相似度/%分类编号相似度/%分类编号相似度/%分类系统推荐歌曲193.21Y192.29Y193.40Y191.94Y293.14Y292.19Y293.09Y291.70Y393.13Y392.07Y392.69Y391.48Y492.62Y491.96Y492.64Y491.43Y592.58Y591.82Y592.62Y591.40Y692.38N691.75Y692.36Y691.39Y792.19Y791.68Y792.34Y791.36N891.79Y891.35Y892.32N891.32Y991.01Y991.34Y992.08Y991.31Y1090.69Y1090.83Y1091.94Y1091.27N准确率90%100%90%80%通过对于表4.1内的精确率实施平均操作,获得乐曲举荐的平均精确率是90%,表明此体系举荐的近似乐曲能够实现优质的成效。使用以上办法创建的体系可以精确地从乐曲库内检查搜索出和样品乐曲近似(具备一样特点或是格调)的乐曲,可以较佳地完成特色化乐曲举荐的条件。文章中指定的试验条件,从具备1250首乐曲的乐曲库,举荐10首具备近似特点的乐曲时间低于3,检查搜索时间特性偏高,实现比较优质的成效。第5章歌曲个性计算与推荐原型系统设计与实现5.1引言参照之前章节陈述的纯音乐和语音-乐曲混合型片段的精确度较高的甄别计算方法,鉴于与的歌曲个性计算方法的模型建立方法,本章将设计并实现基于这两个模型的歌曲个性计算和推荐原型系统,能够具体陈述该选题体系的整体策划,还有各类核心板块完成详细的流程,通过设计和进行实验,验证系统的性能。该选题完成的体系研发环境选定,选定C/C++语言完成。5.2系统总体设计5.2.1设计目标和技术路线第一,体系选用平均短时能量、过零率规则差作为特点参量,依据音频甄别准则,精确区别相同的乐曲里的纯音乐与语音-乐曲混合型的片段,完成清除乐曲里纯音乐板块的功能,合理提升体系甄别的特性。第二,体系将系数、短时能量、过零率这些当作特点参量,通过音频检查搜索这种技术当作甄别的构架,选用计算方法练习乐曲的模块参量,实施样品乐曲和乐曲特点库的模块近似度的核算,完成1个乐曲特色核算与举荐体系,经过试验检验体系的相关特性。该体系选用这种编译平台,选用这种语言实施研发,全部功能板块都能够选用动态链接库实施包装。完成体系的板块化策划,加强体系的可拓展特性,全部的功能都可以选用多线程处置这种技术,提升体系的核算速率,另外,最大限度思考体系的容措性与对于反常失误的处置实力,完成体系的牢靠性策划与对于信息资源的处置实力。5.2.2功能需求分析和设计原则此体系先是需要具备乐曲文件经管功能,当中涵盖对于乐曲文件实施的增添、播放等相关功能。之后,需要具备经常使用的乐曲文件检查搜索办法,比如根据歌名、乐曲编码等实施检查搜索,对于乐曲文件的基础数据以自动方式实施抽取的功能。该体系的首要任务是经过客户置入等候甄别的乐曲样品,从本有的乐曲样板库内,实施精细选取与粗略选取,检查搜索得到和样品乐曲文件近似的乐曲。该体系具体的功能陈述为下:关于乐曲文件的操控功能,乐曲文件实施入库操控,对于它们实施解码,对于它们的相关数据实施入库操控,对于乐曲文件实施播出、继续等相关功能,供应表单数据双击播出选定的乐曲数据,对于选定表单项的右键菜单播放、终止等相关的功能操控。鉴于文档数据的检查搜索功能,形成鉴于文档数据的检查搜索窗口和鉴于乐曲文档数据特点的文字检查搜索功能,比如经过乐曲编码、乐曲名等相关数据对于乐曲实施检查搜索,检查搜索的样式具备单一要求的检查搜索和组合要求的检查搜索。乐曲置入样板库的功能,对于体系样板特点库,供应置入单个乐曲文件或是文件夹这个功能,乐曲置入之后,乐曲的样式转变成样式,滤掉静音板块与纯音乐板块,抽取特点参量,核算模块参量,形成乐曲样板文件,实现乐曲存库、练习样板这些功能。鉴于乐曲音频方面的文件实施检查搜索策划,鉴于乐曲音频文件检查搜索的页面中,能够实现置入乐曲音频文件的操控,对于其实施有关的处置,涵盖滤掉静音板块与纯音乐板块,抽取特点参量,核算近似度,展示检查搜索获得的乐曲表单,表单项涵盖乐曲的近似度、乐曲名等相关数据。检查搜索功能内涵盖粗略选取与精细选取这2个功能,关于粗略选取,能够选用乐曲库清除纯音乐之后的乐曲前秒音频练习样板与样品乐曲的特点参量核算近似度,精细选取则是选用健全的乐曲库乐曲的样板实施检查搜索。检查搜索成果的数据贮存功能,供应贮存检查搜索成果的数据到客户选用的文件途径与文件名字,记载举荐成果的关联,涵盖乐曲和样品乐曲的近似度、乐曲名等相关的数据。数据统计与协助功能,供应归纳乐曲库数据,涵盖归纳乐曲总数、男歌手的人员数目、女歌手的人员数目、男歌手的乐曲总数目、女歌手的乐曲总数目、各类乐曲文件样式的乐曲数目,检查搜索成果的有关数据等相关功能。另外,供应体系协助功能,为客户陈述体系应用办法与留意事项,比如乐曲存库的留意事项与体系设定等难题的提醒。5.2.3系统的总体架构这篇文章策划的鉴于的乐曲个性核算与举荐体系,其机理图参见下图的展示。客户经过页面能够完成乐曲文件的置入、播出、乐曲特点的抽取、乐曲样板库的创建、乐曲粗略选取与精细选取,鉴于文档数据的乐曲检查搜索等相关功能。第一,对于乐曲库实施样式的统一,把全部乐曲音频文件实施解码从而转变成样式,第二,清除乐曲的静音板块与纯音乐板块,抽取等特点参量,经过选用计算方法练习所有乐曲的模块参量,形成乐曲样板库,关于置入的等候甄别的样品乐曲一样实施清除纯音乐、抽取特点参量的流程,之后和样板库内各类样板实施近似度的甄别。第三,参照近似度降序排列乐曲库内和导入样品乐曲最临近的乐曲。图5.1体系能够划为4个首要板块,依次是乐曲预先处置板块、乐曲特点抽取板块、乐曲练习板块、乐曲甄别板块,所有功能板块经过调控板块还有与客户实施沟通,客户同样能够经过调控各个板块的相关功能。体系的整体架构图参见图5.2。该体系完成的基础功能涵盖:(1)经常使用的乐曲检查搜索,完成鉴于文档数据查询乐曲这个功能。(2)对于差别样式的乐曲音频文件完成解码操作,样式涵盖、等样式,经过解码转变成取样率,剖析度的样式;(3)对于完成解码的文件清除静音板块与纯音乐板块这些功能;(4)对于实施乐曲预先处置之后的文件抽取帧短时能量、等相关的特点参量,练习乐曲的模块参量这一功能。(5)对于导入的乐曲文件抽取的特点,实施乐曲近似度核算的检查搜索功能。图5.2系统总体结构图本文系统的数据流图如图5.3所示。图5.3系统数据流图系统的主程序流图如图5.4所示。图5.4系统主程序流图5.2.4交互界面设计参照页面优雅的规则,策划体系的页面,首要的板块涵盖2个方面,其一,体系供应的鉴于文档数据实施检查搜索乐曲的对话框,供应根据歌手、乐曲编码、乐曲名、乐曲唱片集等相关的4项查询样式,页面参见图5.5。图5.5其二,体系的主页面,在这种页面内供应乐曲置入、乐曲库置入、粗略选取、精细选取等相关功能,另外供应检查搜索的时候设定的歌手性别、乐曲近似度等相关部分,客户能够经过双击某个项或是右点击菜单结果实施播出等各类操控,实施乐曲近似性的对比。另外供应各个功能菜单,体系的运用页面与成果展现状况参见图5.6。图5.65.3系统关键功能模块的实现5.3.1歌曲预处理模块乐曲预先处置板块其实是首要直接对于导入的乐曲音频初始信息实施对应的处置,是对于乐曲信号实施甄别以前的预先处置,在实施特点抽取以前,实现要求的作业。该体系的预先处置板块的框图参见图5.7。图5.7首先,由于所获得的歌曲的音频样式并非百分之百相同,将出现各类差别的音频编码样式,比如等相关的编码样式。所以该体系内要求在抽取特点以前,对于乐曲数据样式实施统一。关于该体系的策划,选用贮存为没有编码的初始乐曲数据,信息的取样率是,每样点量化,语音文件经过转换之后将信息贮存至样式的文件内,由于如此能够确保样式内的信息都是没有被编码的初始乐曲信息,另外并未涵盖文件头数据,方便体系获取乐曲信息。另外此体系能够支撑对于差别编码样式、差别取样速度的音频文件实施转换,可以完成对于等编码样式的解码操作,另外能够经过降频操作完成乐曲音频文件符合条件的取样速度。其次,因为要求清楚导入的乐曲音频信息内静音始点、终点的部位,进而对于乐曲音频信息滤掉静音板块的流程,所以该体系选用鉴于能量的端点检验技术对于乐曲音频实施静音检验,完成对于静音板块的甄别,滤掉静音板块,进而确保抽取的语音特点具备较佳的成效。另外,体系选用聚类计算方法对于检验门限实施自动方式的刷新,从而提升静音检验的成效。因为程序内能够实时实施门限的刷新,因此程序可以通过自动方式追踪语音信号的改变状况从而设定对应的检验门限,进而实现较佳的检验成效;对于检验门限在初始化方面的难题,客户能够运用自身的静音文件对于门限实施初始化操作,同样能够不必实施任意设定,程序能够以自动方式运用最早导入的2s音频信号对于门限实施初始化操作。在客户导入静音文件的名字的时候,其实是客户自身的静音文件的名字,不然,选用导入的音频信号实施刷新操作,默许状况下运用导入的音频信号实施初始化操作。在实施分帧处置的时候,每1帧长是,帧移是,每1帧的贮存架构是structPCM_STREAM{intnBitsPerSample;//采样比特数intnSamplesPerSecond;//采样率intnSampleNum;//采样点数目intnStreamFlag;//码流标志void*pStream;//数据缓存指针};在处置实施端点检验的时候,预加重处置选定系数是,加窗板块选用哈明窗,预加重板块选用2.2节陈述的办法。程序的运转流程内在每个刷新周期对于检验门限实施自动方式的刷新,导入的语音信号具备的信噪比是。贮存每1帧核算得到的音频检验参量架构体是在预先处置板块内,使用第4章陈述的鉴于平均短时能量、过零率规则差的音频甄别办法,甄别导入乐曲音频里的纯音乐、语音-乐曲混合型的片段,在此处设定每个片段的连续时间是,完成清除相同乐曲里的纯音乐板块,之后把语音-乐曲混合型片段的语音重组至新的文件内,方便实施之后的处置。5.3.2歌曲特征提取模块特点的选取与抽取是体系组建的核心。抽取的特点参量的成效能够直接确定体系的甄别特性,此板块是确定体系胜败的核心板块。图5.8特征参数提取模块流程图该体系的音频特点选用短时能量、过零率、特点参量当作特点矢量首要参量的样式,当中特点参量抽取14维静态特点、14维一阶动态特点、14维二阶动态特点,合计具备42维。抽取能量、过零率、特点参量的时候,选用帧长是,帧移是,对于语音文件实施特点参量的抽取,之后把抽取的参量、能量参量、过零率参量重组到一块实施贮存。该板块的程序框图参见图5.8。全部音频特点的后贮存特点流的架构体为下structFEATURE_STREAM{intnSizeOfFrame;//每帧特征所占内存大小intnFrameLen;//帧长时间,单位为毫秒intnFrameLap;//帧叠时间,单位为毫秒intnFrameNum;//特征帧数intnStreamFlag;//码流标志void*pStream;//数据缓存,大小为nFrameNum*nSizeOfFrame};5.3.3系统训练模块的具体实现练习模块是该体系最为关键的板块,它的首要任务是将作为声学模块,将系数作为语音特点参量,实施声学模块的练习。模块练习的成效优劣能够直接确定体系特性的强弱。练习问题能够陈述为下:怎样估测模块的参量,确保在这个模块下,形成既定练习数据的似然值最高。练习乐曲模块,致使其模块参量可以较佳的象征此首乐曲的特点。在该体系内实施练习的时候,选用最大似然估测法实施模块练习。这种估测法的机理就是在既定练习矢量集的前提下,查找适宜的模块参量,致使似然函数值最高。模块参量通常选用最大似然估测这种办法实施练习,选用计算方法核算最大似然估测,关于计算方法估测模块参量见节,此处不再过多陈述,体系练习板块的框图参见图5.9。图5.9系统训练模块流程图5.3.4系统识别模块的具体实现乐曲甄别和检查搜索涵盖查找特点搭配与查找成果求精这2个方面。第一,对于乐曲样品抽取特点参量,核算其和乐曲样板库内各样板的近似度,第二,依据和等候甄别音频的近似性由高到低的次序,在乐曲样板库内检查搜索得到某一数目的对应乐曲,并且经过端口传回至客户。客户能够经过人机互动,对于检查搜索成果实施逐渐求精,持续减小搭配组合的范畴。所以,体系供应粗略选取与精细选取的功能,参照音频预先处置的办法,对于音频信号实施预先处置,也就是音频的特点抽取,之后使用乐曲样板库的模块,实施近似度的核算。体系甄别板块框图参见图5.10。图5.10系统识别模块流程图5.4实验及结果分析5.4.1实验目的和数据资源试验目标为:用于检验选用的鉴于平均短时能量、过零率规则差的音频甄别计算方法,还有鉴于的乐曲特色核算计算方法创建的原型体系特性。经过试验,检验体系的平稳特性,体系的容措实力与体系的牢靠特性,体系的处置速率,以及系统处理大量数据文件的性能等。数据资源:实验建立的歌曲数据库,歌曲详细信息如表5.1所示。表5.1歌曲库数据信息表格式Mp3WMAMPG男生女生男生女生男生女生歌曲数目55569548435991歌曲大小2.48G3.21G1.03G0.61G414MB52MB歌曲库中总共有2013首歌,总大小为7.80GB,其中MP3格式歌曲为1250首,首WMA格式歌曲,10首MPG格式歌曲。曲歌曲库中包含普通话、粤语、英语、韩语、日语等类型的歌曲。为提升体系运转的效力,节省乐曲库处置的时间,先是将样式的乐曲实施解码从而转变为单声道、取样速度是、剖析度是的音频文件,然后滤除歌曲中的静音和纯音乐部分,以PCM格式歌曲音频数据,实现歌曲导入音乐库的工作。5.4.2实验过程和参数说明为了测试系统的性能,系统的实验过程的步骤和参数设置如下:1设置本实验歌曲库所在的路径以及生成模板库的路径,启动系统训练的功能,该模块采用多线程设计,执行该功能时不影响系统其它功能的使用,生成歌曲模板库,每个歌曲对应两个模板,当中1个是健全的乐曲音频对照的样板,另外1个是乐曲清除纯音乐之后的前30s对应的歌曲模板,每个模板的大小为10KB。2导入样本歌曲,并且设置歌手性别、显示结果的最大数目和歌曲相似度。这里设置结果显示最大数目为30,歌曲相似度为90%,歌手性别随着样本歌曲不同而不同。3分别选择粗选和精选功能进行歌曲相似性检索,检索结果实时的显示在界面的列表中,并保存每次检索的结果。5.4.2实验结果分析通过系统对音乐库模型参数的训练过程和检索过程,系统能够实现对歌曲库中所有格式的歌曲进行自动解码和下采样的工作,系统能够正确识别音频文件的编码格式,从而进行对应的解码。能够完成歌曲的模型参数训练的功能,并且在系统进行检索时,系统能够稳定的运行,同时,系统的其它功能均可以正常使用,用户可以正常的播放样本歌曲和列表显示的已经检索到的歌曲等功能操作,进行听觉的比较。而且由于编程实现中添加了内存管理,使得系统在整个连续运行过程中,内存需要量也很少。由于在设计编程实现中进行系统的模块化设计,单一模块利用动态链接库进行封装,体系能够便利地增添别的功能,致使体系的可拓展性较佳。因为体系的全部功能都选用多线程的处置技术,结果能够提升体系处置信息的速率,并且各个功能处理大量数据时,不影响系统的继续使用,系统的其它功能仍可正常使用。同时,通过对大量数据的处理,说明系统具有较好的容错性和对异常错误的处理能力,系统能够正确处理有错误数据所导致的问题,系统的可靠性较好。综合以上描述和分析,该歌曲检索系统特点的优势如下:本系统提出了“歌曲个性”的概念,使用MFCC和GMM去构建此乐曲特色核算与举荐模块,将乐曲自身的乐曲格调、歌唱者声音特点等相关内容特征为依据对歌曲库中的歌曲个性进行计算、匹配和推荐实现了“以歌找歌”的相似歌曲检索功能。传统文本标记匹配检索技术需要人工为歌曲添加多类型的标签,因此引入了人为判断主观性和标记准确性这两个不确定因素,影响着检索系统的性能。本系统使用歌曲个性计算模型提取歌曲特性,消除了标记不准确这一不确定因素,保证了检索系统的性能。传统的基于文本标记匹配检索技术难以对“歌曲个性”所涵盖的特征进行准确的文字描述,因而无法很好地满足用户对“歌曲个性”的检索需求。本系统所采用的方法是对传统检索方法的补充。假如对于体系完成流程与计算方法接着实施改良,增添并行核算技术,并且把数据库实施预先划类,另外能够极大幅度地提升体系运转的速率,能够用来检查搜索语音和音乐混合片段,另外能够符合以网络为基础的大乐曲库检查搜索与举荐的应用,为客户自主选取喜欢的乐曲与自主举荐乐曲供应可能。第6章结束语6.1总结本文通过对音频检索的相关技术进行研究,并且对于乐曲检查搜索体系的预先处置技术、特点参量的抽取技术等相关的核心技术实施探究与剖析,指出选用“乐曲特色的概念归纳乐曲格调、歌唱人员的声音等相关特点;指出以平均短时能量、过零率规则差这些参量为基础的音频甄别方法,可以相对精确的区别相同乐曲内的纯音乐与语音-乐曲的混合型片段,从而以较高的精确度对于差别格调、差别歌手、差别语言的乐曲实施处置。另外,参照近似乐曲检查搜索的要求,指出并且策划了一类鉴于和的乐曲特色核算与举荐的办法,完成近似乐曲检查搜索这种功能,可以精确地从乐曲库内检查搜索出和样品乐曲近似的乐曲,较佳地完成特色化乐曲举荐的条件。这篇文章需要处理的首要作业涵盖:(1)探究、剖析了音频检查搜索预先处置与音频特点参量的抽取技术,陈述了音频检查搜索的首要计算方法与运用划类。(2)指出了一类鉴于平均短时能量、过零率规则差这些参量的纯音乐与语音-乐曲混合型片段以较高的精确度实施甄别的计算方法。探究了在相同乐曲内精确区别纯音乐与语音-乐曲混合型片段的办法,处理了二者甄别易混度较高的难题,为清除乐曲内不必要的板块供应了一类合理的预先处置办法。试验成果说明,经过对于差别格调、差别歌手、差别语言的乐曲实施处置,在平滑处置之后,纯音乐、语音乐曲混合型片段的查全率均值分别是92.08%、96.33%,并且它们的甄别准确率均值分别是92.30%、96.36%。
(3)指出了一类鉴于频率倒谱系数与高斯混合型模块的乐曲特色核算办法。此办法选用技术抽取乐曲的语音特点,使用计算方法形成此乐曲的样板,之后使用乐曲样板库对于乐曲文件实施近似度核算。试验成果说明,使用此模块为客户举荐的乐曲精确率的均值是90%。此计算方法可以精确地从乐曲库内检查搜索出和样品乐曲近似的乐曲,可以较佳地完成特色化乐曲举荐的条件,在文章内指定的试验平台下,体系举荐10首具备近似特点的乐曲的时候,处置乐曲样板库的任意1首乐曲的时间只有,达到了比较理想的效果。(4)策划、完成了一类乐曲自动举荐原型体系。此体系可以精确区别相同乐曲内的纯音乐、语音-乐曲混合型片段,可以精确地从乐曲库内检查搜索和样品乐曲近似的乐曲。体系完成功能首要涵盖:鉴于乐曲音频文件实施乐曲粗略选取与精细选取、鉴于文档数据的乐曲检查搜索、乐曲库置入与样板库形成等相关功
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 混合云边缘计算研究-深度研究
- 大气污染治理国际合作与交流-深度研究
- 2025年企业长期临时工合同范本
- 2025年住房买卖首期付款合同样本
- 2025年公园绿化工程合作施工合同模板
- 船舶结构健康监测-深度研究
- 电力工程施工中的风险评估与控制-深度研究
- 2025年专利权质押合同审核操作手册
- 金融安全态势感知-深度研究
- 配送网络风险管理与控制-深度研究
- 2023年苏州健雄职业技术学院单招考试面试题库及答案解析
- 公司组织架构图(可编辑模版)
- 人教版六年级科学下册教案全册
- TCITSA 24-2022 基于ETC的高速公路自由流收费技术规范
- 叉车装卸区域安全风险告知牌
- 2022届江苏省南京师范大学附属中学高三(下)考前最后一模物理试题(解析版)
- 《普通生物学教案》word版
- 贵州省就业失业登记表
- 预防电信诈骗网络诈骗讲座PPT幻灯片课件
- 反兴奋剂知识试题及答案
- 初中八年级上册音乐课件4.2欣赏沃尔塔瓦河(14张)ppt课件
评论
0/150
提交评论