《基于机器学习的音乐情感预测的实证研究》16000字(论文)_第1页
《基于机器学习的音乐情感预测的实证研究》16000字(论文)_第2页
《基于机器学习的音乐情感预测的实证研究》16000字(论文)_第3页
《基于机器学习的音乐情感预测的实证研究》16000字(论文)_第4页
《基于机器学习的音乐情感预测的实证研究》16000字(论文)_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

SEQ表\*ARABIC\s15随机森林算法进行二分类的结果统计(续)TableSTYLEREF\s1级标题3SEQTable\*ARABIC\s15theresultsofRandomForestforbinaryclassification(continued)机器学习算法标签源原始数据维度数据选择最终数据维度准确率criterion=ginimax_dep=7estimators=100Delbouys25avg2065.91%criterion=ginimax_dep=15estimators=700Delbouys25avg+cov257.89%criterion=ginimax_dep=15estimators=300Delbouys30avg2857.30%criterion=entropymax_dep=7estimators=300Delbouys30avg+cov3160.44%criterion=entropymax_dep=15estimators=1000Bhavika24avg1665.28%criterion=giniestimators=1000Bhavika24avg+cov2465.37%criterion=entropymax_dep=12estimators=100Bhavika25avg1364.89%criterion=ginimax_dep=15estimators=700Bhavika25avg+cov3266.76%criterion=giniestimators=300Bhavika30avg2468.66%criterion=entropymax_dep=7estimators=1000Bhavika30avg+cov1562.68%表3-5显示,随机森林模型在本文的回归预测问题当中表现出来的性能比支持向量机模型的性能较差一些,性能最好的随机森林模型见表3-5第九行,该模型使用Lastfm官网发布的happy与sad标签进行训练,可以达到73%的二分类准确率。对比表3-4与表3-5可以看出:最高的两个准确率75.47%和73.33%都来自于使用了高斯核函数的支持向量机模型,随机森林算法的最高准确率只能达到73.00%。虽然高斯型核函数的支持向量机模型无法利用递归特征消除法进行进一步优化,但该算法在音乐情感二分类问题上的表现依然优于随机森林算法。二分类算法在Lastfm官网发布的happy与sad标签下的效果最好,在BhavikaTekwani等人发布的快乐/悲伤二分类标签次之,这两组标签单独训练二分类算法的效果都比把三组标签混合在一起训练算法的效果好。本章小结本章主要进行了基于支持向量机模型和随机森林算法的音乐情感二分类以及回归,对不同的标签集、数据预处理方法都进行了不同的尝试,同时也进行了超参数的搜索,对于特征维度小于100的情况还采用了递归特征消除法进行特征选择。基于深度神经网络进行音乐情感预测本章主要利用了深度神经网络进行对音乐的情感分析,实现了使用连续情感标签的回归预测和使用离散情感标签的快乐/悲伤情感二分类。接下来将会从本文使用的数据预处理算法以及神经网络结构开始,介绍一下回归以及二分类的具体实现过程。数据预处理数据预处理主要是解决第3章中讨论过的不同歌曲的片段数量不同的问题。由于本文采用的卷积神经网络适合较大量的二维数据输入,因此本文并没有选择第3章中使用的分段聚合的技术来解决这个问题。由于不同歌曲的片段数量不同,本文决定设置一个固定的片段数量,例如256段。数据集当中,片段数量小于256段的音乐将会被丢弃,片段数量大于256段的音乐将会以每份256段为标准拆分为多份数据,这样也可以增多训练数据条数,提高模型的泛化性能。与此同时,不足256段的部分将会被丢弃。之后使用数据维度和片段数量分别作为输入神经网络的二维数组的两个维度。同时,在特征数据输入神经网络之前对数据进行标准化处理。并且采用留出法将数据集划分为60%的训练集、20%的验证集和20%的测试集。深度神经网络结构本章中本文对四个不同的神经网络结构进行了尝试,最终发现net0的效果最好,部分结果见表4-1不同神经网络回归结果对比、表4-2不同神经网络二分类结果对比。表4-1不同神经网络回归结果对比Table4-1Comparisonofbinaryclassificationresultsofdifferentneuralnetworks网络数据集来源训练集Loss

(最后一轮)训练集R2

(最后一轮)验证集Loss

(最后一轮)验证集R2

(最后一轮)测试集R2net0Delbouys0.57080.45880.3259-0.49920.2203net1Delbouys0.62620.42740.3837-0.76490.0054net2Delbouys0.46940.58260.385-0.7711-0.0614net3Delbouys0.34930.68440.3722-0.71210.1744表4-1显示,net0的回归性能最好,r2score可以达到0.2203,高于net3的0.1744以及其他神经网络net1、net2的结果。表4-2不同神经网络二分类结果对比Table4-2Comparisonofbinaryclassificationresultsofdifferentneuralnetworks网络情感标签来源训练集Loss

(最后一轮)训练集准确率

(最后一轮)验证集Loss

(最后一轮)验证集准确率

(最后一轮)测试集准确率net0Lastfm0.08190.89570.36890.416768.66%net1Lastfm0.11210.87920.49940.301660.29%net2Lastfm0.04890.90520.61820.554139.62%net3Lastfm0.07660.92680.44180.311563.89%表4-2显示,net0的二分类性能最好,准确率可以达到68.66%,高于net3的63.89%以及其他神经网络net1、net2的结果。经过尝试和分析比对,本文最终选择的神经网络结构如图4-1神经网络结构示意图所示:图4-1神经网络结构示意图Figure4-1Neuralnetworkstructurediagram图4-1显示出,本文的神经网络主要包含两层卷积层、两层池化层,其中卷积层为一维卷积,卷积核大小为8,步长为1;池化层为一维池化,池化窗口为大小4,步长为4。同时,在两个池化层的输出之后还进行了批量标准化(BatchNormalization)。最后连接三层全连接层,其中一层全连接层的激活函数为tanh,并且进行了节点的随机失活(Dropout)以降低过拟合风险。输出层可以设置一个或者两个输出节点。输出层设置一个输出节点时用于回归,设置两个输出节点时用于二分类。回归本文使用了python库porch搭建神经网络,优化器采用了torch.optim.SGD,损失函数采用了常用的交叉熵损失函数torch.nn.CrossEntropyLoss。同时本文还采用了torch.optim.lr_scheduler中的ReduceLROnPlateau算法进行每轮动态的学习率优化调整,初始学习率设为0.01。本章对不同的数据特征组合、设定不同的片段数量,以及SGD优化器当中不同的weight_decay参数都进行了尝试。本章对第3章提到的不同数据特征组合进行了尝试,最后发现在本文的神经网络下进行回归时,将12维的音色数据和12维的音高数据组合为24维的数据,再加入每分钟节拍数BPM组成的25维数据效果最好。本章还尝试了在数据预处理是设定不同的片段数量,最后发现在256、512、1024,三种片段数量当中,片段数量设为512在做回归时效果最好。同时,为了解决神经网络出现的过拟合问题,本章还对几种不同的weight_decay参数进行了尝试,具体情况见表4-3。部分神经网络回归尝试的结果见表4-3深度神经网络进行回归预测的部分结果统计,测试集r2score结果见表4-3最后一列。表43深度神经网络进行回归预测的部分结果统计Table43thepartialresultsofDeepNeuralNetworkforregression数据集来源weight_decay训练集Loss

(最后一轮)训练集R2

(最后一轮)验证集Loss

(最后一轮)验证集R2

(最后一轮)测试集R2Delbouys00.57080.45880.3259-0.49920.2203Delbouys1.00E-060.89390.21950.3759-0.7291-0.1444Delbouys3.20E-060.45870.57450.3214-0.4786-0.2665Delbouys1.00E-050.69290.35120.327-0.5044-0.0061Delbouys1.60E-050.73010.29860.3546-0.6313-0.0651Delbouys8.00E-050.62850.39940.3099-0.4255-0.0127Delbouys1.00E-040.32740.70140.3353-0.5423-0.139Delbouys2.00E-040.5520.47920.3163-0.45490.32Delbouys4.00E-040.50310.54220.2902-0.3350.157二分类本文使用了python库porch搭建神经网络,采用的优化器以及损失函数与4.3相同。同时也采用了ReduceLROnPlateau算法进行每轮动态的学习率优化调整,初始学习率设为0.01。本章对不同的数据特征组合、设定不同的片段数量,以及SGD优化器当中不同的weight_decay参数都进行了尝试。本章对第3章提到的不同数据特征组合进行了尝试,最后发现在本文的神经网络下进行二分类时,将12维的音色数据和12维的音高数据组合为的24维数据效果最好。本章还尝试了在数据预处理是设定不同的片段数量,最后发现在256、512、1024,三种片段数量当中,片段数量设为256在做二分类时效果最好。同时,为了解决神经网络出现的过拟合问题,本章还对几种不同的weight_decay参数进行了尝试,具体情况见表4-4。部分神经网络二分类尝试的结果见表4-4深度神经网络进行二分类的部分结果统计。测试集的r2score结果见表4-4最后一列。表44深度神经网络进行二分类的部分结果统计Table44thepartialresultsofDeepNeuralNetworkforbinaryclassification情感标签来源weight_decay训练集Loss

(最后一轮)训练集准确率

(最后一轮)验证集Loss

(最后一轮)验证集准确率

(最后一轮)测试集准确率Bhavika0.040.51650.77060.60280.657566.11%Bhavika0.10.56360.72760.58890.663166.43%Bhavika0.110.59710.70190.59660.658667.94%Lastfm0.110.12170.93530.47660.636957.52%Lastfm0.250.42990.85040.46940.692375.62%Lastfm0.10.19070.95940.44690.555670.3%分析表4-4的结果可以得出以下结论:本章当中最高的二分类准确率就是表4-4第5行的深度神经网络在Lastfm官网发布的happy与sad标签下达到的75.62%的二分类准确率。二分类算法在Lastfm官网发布的happy与sad标签下的效果最好,在BhavikaTekwani等人发布的快乐/悲伤二分类标签次之,这两组标签单独训练二分类算法的效果都比把三组标签混合在一起训练算法的效果好。Lastfm的279条数据训练出来的二分类算法,测试集准确率最高可达75.62%;而BhavikaTekwani等人发布的1690条数据训练出来的二分类算法测试集准确率最高只有67.94%,原因可能是由于情感是比较主观的,不同情感标签来源,标签的准确度也不同。本章小结本章主要利用了本文所搭建的神经网络进行音乐情感的回归和二分类,回归的最低验证集Loss可达0.2902,最高测试集r2score可达0.32;二分类的最低验证集Loss可达0.4469,最高准确率可达75.62%。本章对不同的神经网络、标签集、数据预处理方法、超参数都进行了不同的尝试,较好的结果都展示在表4-3与表4-4当中,同时还通过适当增大SGD优化器当中的weight_decay参数,有效地调节了过拟合的问题。总结及展望本章是对本文所做工作的总结和归纳,详细阐述了论文所做的工作,并列举了论文取得的重要成果,对本文相关方向工作的展望。本章分析了目前实验中存在的问题,并据此对本文研究内容的发展方向进行了展望。论文工作总结本文首先经过大量工作,整理合并一组较大规模的音频情感数据集,然后尝试不同的数据特征选择、数据预处理方式、以及不同的机器学习算法,实现了音乐的快乐/悲伤情感二分类,以及积极/消极程度的回归预测模型。具体贡献如下:音频数据集收集与构建:获取音频数据特征,寻找音频对应情感标签,构建合适的数据集:因为目前还没有适合音乐情感分析的公开数据集,所以需要进行音频以及对应情感标签的收集。由于版权原因,无法下载到带有大量音频的公开数据集,只能获取公开数据集“百万歌曲数据集MSD”发布的,经过算法提取的音频特征,以及寻找MSD数据对应的情感标签,制作成合适的数据集用于训练。本文收集了来自MSD数据集的分段音高、分段音色、每分钟节拍数等多种音频特征,并为音频特征找到三组不同来源的情感标签,得到了三组可用特征标签对数据,一共2193条。音乐的快乐/悲伤情感二分类,以及积极/消极程度的回归预测模型:尝试了不同的机器学习算法、不同的数据特征、不同的数据预处理以及不同的超参数进行了音乐情感的回归预测和快乐/悲伤情感二分类,以寻找情感回归和快乐/悲伤情感二分类效果较好的算法、数据特征以及数据预处理方式:为了发挥不同算法的特点,设计了不同的数据预处理方式:i)针对随机森林和支持向量机模型采用了两种不同的分片聚合方式;ii)对于数据维度较多的协方差矩阵采用了PCA主成分分析进行降维,同时针对两种机器学习算法的特点设计了不同的PCA特征压缩比例;iii)针对深度神经网络采用了固定分片数量的方式进行数据处理;iv)同时对输入深度神经网络和支持向量机的数据还进行了数据标准化。对于积极/消极程度的回归预测,最终实验结果表明:本文设计的深度神经网络模型的效果比支持向量机以及随机森林表现得更好:使用12维的音色数据和12维的音高数据,再加入每分钟节拍数BPM组成的25维数据,在调整SGD优化器当中的weight_decay参数提高泛化性能后,r2score可达0.32。对于音乐的快乐/悲伤情感二分类,实验结果表明:支持向量机模型和深度神经网络模型表现的效果较好。具体性能如下:在BhavikaTekwani等人发布的一共1690条情感标签数据集上,使用12维的音色数据和12维的音高数据组成的24维数据,支持向量机模型能达到69.21%的准确率,在加入了更多音频特征,构成30维数据,能达得到71.23%的准确率。在MSDLastfm官方网站发布的279条情感标签数据集上,使用12维的音色数据和12维的音高数据组成的24维数据能达得到75.47%的准确率,而利用深度神经网络训练可进一步达到75.62%。未来工作展望本文利用了百万歌曲数据集MSD发布的音频特征以及寻找到的部分对应的情感标签进行了支持向量机、随机森林以及深度神经网络这三种机器学习算法的训练。在本文的工作中存在的一个较大的问题是音频缺少对应的情感标签,能寻找到的情感标签数量非常稀少,并且由于人们在聆听音乐时的情感感受是比较主观的,因此也难以十分客观准确地为音乐标上对应的情感标签。未来希望能够建立一个大型的听众为音乐标记情感标签的系统,统计大量听众对一首歌曲的情感标签,取众数或者平均数,得到大量的较为准确的音乐情感标签。拥有足够多的准确的情感标签,基于机器学习的音乐情感分析的研究才能拥有一个较好的数据基础。 附录参考文献ADDINEN.REFLIST[1]HevnerK.Experimentalstudiesoftheelementsofexpressioninmusic[J],1936,48(2):246-268.[2]LiT,OgiharaM.Detectingemotioninmusic[J],2003.[3]PeetersG.AgenerictrainingandclassificationsystemforMIREX08classificationtasks:audiomusicmood,audiogenre,audioartistandaudiotag[C].ProceedingsoftheInternationalSymposiumonMusicInformationRetrieval(ISMIR'08),2008.[4]TzanetakisG.MarsyassubmissionstoMIREX2007[C].ProceedingsoftheinternationalconferenceonMusicInformationRetrieval,2007.[5]HuX,DownieJS.Improvingmoodclassificationinmusicdigitallibrariesbycombininglyricsandaudio[C].Proceedingsofthe10thannualjointconferenceonDigitallibraries,2010:159-168.[6]HuX,DownieJS.WhenLyricsOutperformAudioforMusicMoodClassification:AFeatureAnalysis[C].ISMIR,2010:619-624.[7]HuX,ChoiK,DownieJS.Aframeworkforevaluatingmultimodalmusicmoodclassification[J],2017,68(2):273-285.[8]LecunY,KavukcuogluK,FarabetC.Convolutionalnetworksandapplicationsinvision[C].Proceedingsof2010IEEEinternationalsymposiumoncircuitsandsystems,2010:253-256.[9]JakubikJ,KwaśnickaH.Musicemotionanalysisusingsemanticembeddingrecurrentneuralnetworks[C].

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论