2013第六届优秀第一阶段一等奖_第1页
2013第六届优秀第一阶段一等奖_第2页
2013第六届优秀第一阶段一等奖_第3页
2013第六届优秀第一阶段一等奖_第4页
2013第六届优秀第一阶段一等奖_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数学建模网络赛编号专用页2013年第六届“认证杯”数学中国 目:基于音频与用户的开放式音乐分类模关键词:Mel倒谱系 SOM神经网络分形维 核密度估 要音乐样本进行分类,开放式分类正确率达93%。乐的音频的有效性。我们就是否应该利用音乐的外部信息进行了探讨。喜好特征的“用户”的定义,并应用Parzen核密度估计的方法,针对具体 ( 填写所选题目:BThePresentPaperproposesthatwecanyzeandmakemodelsfortheInthefirstmodel,wereferencethespeechrecognitiontechnology,Thischaracteristicdoesn’trelyonthenatureofsignalandthereareforustocontinueresearching.themusic,thisnon-supervisedclassificationmodelgetsridoftheingsofthetraditionalmusicclassificationsandforthenewmusicstyles,itcanmarkoffcorrectlyatthesametime.Weclassifyreaches93%viathiswaysignal,wereferencetheconceptsinfractalgeometry,andconsiderthesoundsignalasadatasetwithfractalfeatures.Weraisethatusewhichisalsoantinoise.Inthisway,itcanfullydepictnotonlytheoverallfeaturesofthesoundsignal,butalsothestatisticalself-similaritybetweenthepartandthewhole.Meanwhile,wecanuseasignal.So,comparingwiththetraditionalwaysofextractingMFCC,thedimensionofthesoundsignaltobeitsaudiofingerprinting.Andthen,wediscusswhethertoconsiderexternalinformationofthemusic.thebox-countingdimension,weraisetwodefinitionsabouttheuser’sfingerprinting,whichreflectthecharacteristicoftheusers’like.Aimingatspecificuserdata,weapplythekerneldensityestimationtoitmakespossibletomakeanewalgorithmofmusicmendation.PAGEPAGE4音频是指从一段音频采样中提取的独特的信息,可以用于辨识不同的声音采样,是一项基于内容的识别技术(Content-BaseIdentification,CBID)[1]。从相同采样不同编码格式的音频文件提取的音频信息是相似的。 特征(后文称之为用户)。的音频提取方法。4、不考虑音乐样本的外部信息(如歌手、歌词、歌名、、歌曲榜性,会在后文进行分析讨论。11类、110mp3格乐,我们统一截取20秒的部分,作为整首音乐的代表。Mel(ffXa(kNfM三角滤波器的频率响应,其中Hmk第t第tQ倒谱系数的阶数,取值范围为KSj输入层的ijdimHDB(fffn基于听觉模型的MFCCe容易,反之则[4]。据此,人们从低频到高频这一段频带内按临界带宽的大Mel(f)2595lg(1f/(DCT),这样得到的前N维向量称为MFCC。PAGEPAGE6Figure2MFCCNXakxnej2k/N,0k采用的滤波器为三角滤波器,中心频率为fm,m1, ,本文取M240,kfm 2kfmfm1fm1fmfm1,fm1kfHk 2fm1k ,fmk

fmfm1fm1fm1f0,kfmMHmk1N SmlnXakk

Hmk,0m N nm0.5 ,0n 高系统的识别性能。差分参数的计算可以采用下面的: C,ttkCtkCtk2kdtk2kCtCt1,tQCFCCSOM也往往横跨多个风格,难以基于传统进行自动推荐。此外,随着音乐界的迅77旨在构造一个开放式的分类体系,其优势有以下两点[6]:SOM神经网络即自组织特征映射网络,该网络是由一个全连接的神经元陈列组成的无教师、自组织、习网络。SOM神经网络既可以学习训练数据输Sj。区域Sj(t)随着时间的增长而不断缩小。X(x1,x2,x3...xmTdj||XWj||wij为输入层的ijwijwij(t1)wij(t)(t)(xi(t)88(t)1/t或(t)0.2(1t计算输出jokf(min||XWjjf(x0-1函数或者其它非线形函数[8]乡村,新世纪,钢琴,古典,电子,分别记为A,B,C,…,K类,每种均有10首歌曲。首先我们把流行,摇滚,说唱,爵士,布鲁斯,古典,乡村,钢琴SOM对于我们现在利用格式转换软件,将这11组音频数据,即110首mp3格式音乐转换为wav格式。同时为了降低运算量,我们对转换后的音乐文件进行降低采样率以及转换为单声道的预处理。对于每首音乐,我们统一截取20秒部分, 软件计算其MFCC参数,并将MFCC参数作为输入值,运用前文提到的SOM神经网络进行训练( 乐样本的无监督分类。在经过迭代后,SOM神经网络得到不同类别的音乐样本。SOM6420 下图为神经元之间的距离情况SOMNeighbor6420 Figure5神经元之间的距离情6420 6420 Figure7结果类 音乐样 1C5被“错”分到了第一类(流行与摇滚。但事实上,经过我们结果SOM40类 音乐样 E8,I6,I7,I8,I9,I10, 2SPSSSOM神经网络分类结果以及样本自带的风格进行相关性分析。结果显示,和SOM神经网络分类结果与样本风格有75.96%相关。这说明,SOM神经网络分类结果与传统风格一脉相承,同时结果类 音乐样 3签类型时,SOM(即训练(K1,K692.727%,而对于训练集没有的类别,新世纪,民谣,电子,SOM神经网络能够把他们归 从相同采样不同编码格式的音频文件提取的音频信息是相似的。概念包括Jazz(爵士、Rock(摇滚、R&B(节奏布鲁斯、NewAge(新世纪)等若干 征(后文称之为用户)。同时,随着我国经济社会的发展、人民的文化需们希望探寻更加科学、有效的音频提取方法。正如前文所述,MelMFCC及空气动力学理论证明了语音信号是一个复杂的非线性过程[10],其中存在着产1973年首次提出。所谓分形,是Figure8 sH(E)infdiam(Ai) E能被集族Aj)kEHs(E)limHs 点对应的s值。严格的定义为:dimHEinfs:Hs(E)0sups:Hs(E)假设当格子的边长是N (S):limlogN( 0log(1/f(t1ft2ft3,f(tNftN1N为偶数。令Nd()f(ti)

f(it1,N/d(2) max{f(t2i1),f(t2i),f(t2i1)}min{f(t2i1),f(t2i),f(t2i1)以 N()d()/,N(2)/其中样本间隔1/fs,fsDB(f)lgN()/N(2)lgN()lgN1/1/

12MFCC特征提取相比,这极大地 Figure9由于时间关系,我们在仅在具有代表性的歌曲中随机共计11种风格、110mp3格式的音乐进行分析,涉及到的歌手(或作曲家)有周杰伦、陈SarahBrightman、Kitaro、SecretGarden、莫扎特、比才、德彪西、巴赫等。110mp3wav格式。同时,为了对于每首音乐,我们统一截取20秒部分,通过软件计算其计盒维数。在总计共110个样本中,我们按类别,将每个音乐样本的计盒维数绘制出Figure10盒维数与其所属类别的均值存在较大差异,如隶属于新世纪类别的作曲家JoeHisaishiSummer的计盒维数与钢琴类的维数均值更加接近。就听者的感用计盒维数来刻画音乐的音频,似乎更能打破不同风格间的界限,从整曲榜信息)。然而,由于这些信息本身多易于检索、易于、易于自主获息的音频在应用于个性化推荐当中将会是非常有效的。 与音频的概念类似我们定义: 用户相对容易计算和更新,并对用户进行遗忘处理[21];等等。户进行建模。我们根据前一节的讨论,提出以下基于计盒维数的用户音乐 1:设用户的音乐库有nx1x2xn f(xx[1

f(x为该用户的抽取用户特征,我们类似地定义用户点播:定义2:设用户的有n次操作,其对应的音乐作品的计盒维数分别x1,x2xn。x1,x2xn看做是从一维总体X中抽取出来的独立同分布维数的用户点播

f(x为该用户的f(x的估计基于Parzen核密度估计的用 Xf(x度这个随量的总体分布f(x)。这里我们采用Parzen核密度估计的非参数估estimationParzen所提出,属于非参数检验的方法之一。其目的是,给定数据x1,x2 xn,定义x1x2xnXX是具有未知的密度函数f的一维实函数,则f的核密度估计为:f(x)

xxj nhK(nj K为上给定的核函数,hnnfn(xffn(x作为密度函数估计的合理性,要求核函K(x)0,K(x)

1I(|u|2(1|u|)I(|u|3(1u2)I(|u|415(1u2)2I(|u|35(1u2)3I(|u| ue cos(u)I(|u| 1

K(u)

e

ixxxxiKxxixxii f(x)1之和。因而hn正是这n个窗的公共窗宽参数。可以看出,当的h14和n256Figure11而对于双峰均匀分布的估计如下图所示:可见,在h11和n256时,估计Figure12ii令2MISE(f)E{[f(x)f(x)]2 f(xMISE是关于窗宽h的函数,求它的最模型的应用:用户实交的例子。由于时间关系以及权限原因,我们无法获取一些音乐的Figure13根据这位用户的记录,我们应用Parzen核密度估计方法进行用户FigureFigure14

方法,得益于无监督算法的特性,考虑了不同音乐类别间有交叉的利用音乐信号的计盒维数作为音乐的音频,充分刻画了音频信号的果,使得基于内容的音乐推荐算法成为可能。并使用Parzen核密度估计法,对用户进行估计,效果优良。获取的音乐社交的用户数据,进行、更完善的数值试本文基于计盒维数的音频与用户可以被进一步利用,以[1]CanoPBatlleEKalkerTetal.Areviewofaudio[2]佚名,MFCC语音MFCC特征的原理介绍,文库, 13MFCC[J].算机信息,2008,1:P095.边肇祺,张学工等.模式识别第三 2010年8 13月CanoP,BatlleE,KalkerT,etal.Areviewofaudio柯世杰,岳振军,分形理论在语音信号处理中的应用, /view/0d4c90333968011ca300917a.html,2013年4月12日Applications.JohnWiley&Sons,.2003:xxv.ISBN0-470-84862-6.,2013413BigerelleM,IostA.FractaldimensionandclassificationFracals,000114:219佚名,豪斯多夫维数,百科BB%B4%E6%95%B0,2013413BoshoffHFV.AFastBoxCountingAlgorithmforDeterminingtheFractalDimensionofSampledContinuousFunctions[C]//Proceedingsofthe1992SouthAfricanSymposiumonCommunicationsandSignalProcessing.[S.l.]:ACMPress,1992.,2013413fractalfeaturesofthemodulatedsignal[J].Sciencein:SeriesE,2001,31(6):P508-513.(in) 13 /view/.htm,2013年4月12日.BC.BA.E9.BB.9E,王星非参数统计, functionr=mfcc(s,nbFrame=floor((l-n)/m)+fori=forj= j)=s(((j-1)*m)+h=M2=diag(h)*fori= =fft(M2(:,t=n/2;tmax=l/fs;m=melfb(24,n,fs);n2=1+floor(n/z=m*abs(frame(1:n2,r=r=r(1[x1x2]=vad(x);d=zeros(size(r));d(i,:)=r(i+1,:)-r(i-d=d/r=[rr=r(3:size(r,1)-iferror('cellmaxmustbe

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论