音乐信息检索技术音乐与人工智能的融合_第1页
音乐信息检索技术音乐与人工智能的融合_第2页
音乐信息检索技术音乐与人工智能的融合_第3页
音乐信息检索技术音乐与人工智能的融合_第4页
音乐信息检索技术音乐与人工智能的融合_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

音乐信息检索技术:音乐与人工智能的融合李伟;高智辉【摘要】音乐科技是一个典型的交叉学科领域,分为艺术部分和科技部分.近年来兴起的音乐信息检索技术(MIR)是音乐科技领域的重要组成部分.MIR领域包含数十个研究课题,可按照与各音乐要素的密切程度分为核心层和应用层.当前的MIR技术发展仍然面临诸多困难,但随着艺术与科技的不断融合,必将迎来其发展的辉煌时期.【期刊名称】《艺术探索》【年(卷),期】2018(032)005【总页数】5页(P112-116)【关键词】人工智能;音乐信息检索技术;音乐科技【作者】李伟;高智辉【作者单位】复旦大学计算机科学技术学院,上海201203;复旦大学信息科学与工程学院,上海200433【正文语种】中文[中图分类】J61一、音乐科技概况早在20世纪50年代,计算机刚刚产生,美国的一位化学博士就开始尝试运用计算机处理音乐。随后几十年,欧美各国相继建立了多个大型音乐科技研究机构,如1975年建立的美国斯坦福大学的音乐及声学计算机研究中心(CenterforComputerResearchinMusicandAcoustics,CCRMA)、1977年建立的法国巴黎的声学与音乐研究与协调研究所(InstituteforResearchandCoordinationAcoustic/Music,IRCAM)、1994年建立的西班牙巴塞罗那庞培法布拉(UPF)大学的音乐科技研究组(MusicTechnologyGroup,MTG)、2001年建立的英国伦敦女王大学数字音乐研究中心(CentreforDigitalMusic,C4DM)等。此外,在亚洲的日本、中国台湾等国家和地区也有多个该领域的公司(如雅马哈)和科研院所。欧洲由于其浓厚的人文和艺术气息成了音乐科技的世界中心。图1音乐科技各领域关系图音乐科技是一个典型的交叉学科领域,分为艺术部分和科技部分。(图1)艺术部分主要偏向使用各种音频软件及硬件进行音乐创作,科技部分主要进行底层计算机技术的研发,为艺术创作提供技术支撑,也叫做声音与音乐计算(SoundandMusicComputing,SMC)。SMC主要包括音频信号处理(AudioSignalProcessing)及计算机听觉(ComputerAudition,CA),音乐信息检索技术(MusicInformationRetrieval,MIR)属于计算机听觉中专门分析理解音乐内容的部分。近20年来,互联网上出现了海量的数字音乐。音频大数据与人工智能(ArticleIntelligence,AI)相结合,产生了MIR,成为音乐科技领域的重要组成部分。MIR以音乐声学为基础,基于音频信号处理提取音频特征,后端大量采用AI中的各种机器学习技术。目前,MIR已成为一个很大的科学研究领域,国内外主要的学术会议有ISMIR(音乐信息检索国际会议)、ICMC(计算机音乐国际会议)、CSMT(中国声音与音乐技术会议)、ICASSP(声学、语言、信号处理国际会议)等。二、MIR领域科研情况介绍MIR领域包含数十个研究课题,这些课题按照与各音乐要素的密切程度可划分为核心层MIR研究和应用层MIR研究。(图2)(一)核心层MIR研究音高与旋律(PitchandMelody)[1]1-5音乐中每个音符都有一定的音高,而音高由声波的频率决定。音高检测的手段大概分为三种:(1)时域检测,即在时间上对声波进行分析,具体有过零率法、自相关法(如YIN算法)、最大似然法、自适应滤波器法、超分辨率法等;(2)频域检测,如对信号进行短时傅里叶变换(STFT),由周期性信号在基频整数倍处有不同峰值的原理得到该时间段的基频,从而得到音高;(3)基于听觉模型检测,即通过模拟人类感知音高的生理过程,使用耳蜗模型对每一个通道进行独立的自相关运算,综合所有通道信息得到相对的音高。旋律是经过艺术构思,按照节奏及和声形成的反映音乐主旨的音符序列。旋律提取指的是从多声部/多音音乐(PolyphonicMusic)信号提取单声部(Monophonic)旋律的过程,典型方法有音高重要性法、歌声分离法、数据驱动的音符分类法等三种,可应用在音乐搜索、抄袭检测、歌唱评价、作曲家风格分析等方面。更进一步,音乐识谱(MusicTranscription)是识别音乐中每个时刻发声的各个音符并形成乐谱的过程。通常首先基于矩阵分解技术进行歌声和各种伴奏乐器声音的分离;接下来在各个音源上寻找每一个音符的起始点并进行分割;随后进行多音高/多基频(f0)估计,提取每个音符的基频,根据MIDI音符表转换为音符的音名;最后利用音乐领域知识或规则进行后处理纠错。音乐节奏(MusicRhythm)[2]159-171音符起始点检测(NodeOnsetDetection)的目的是检测音乐中某一音符开始的时间,是各种音乐节奏分析的预处理步骤。一个音符在波形上可以体现为Onset(音符起始点)/Attack(音符上升段)/Transient(音符持续段)/Decay(音符衰减段)等几个部分。弹拨类乐器为HardOnset(硬音符起始点),典型算法由子带分解、检测各子带能量峰值、合并后挑选结果等几个步骤组成;弦乐器吹奏类乐器为SoftOnset(软音符起始点),可通过检测和弦突变点求解。图2MIR领域包含的研究课题节拍跟踪(BeatTracking)是用计算机模拟人们在听音乐时无意识地踮脚或拍手现象的过程,是理解音乐节奏的基础,也是很多MIR任务的重要步骤。其一般依赖于音符起始点检测、打击乐或其他时间局域化时间检测。如果音乐偏重抒情没有打击乐器或者不明显,则可采用和弦改变点作为候选节拍点。速度检测(TempoDetection)通常与节拍跟踪同时进行,用于判断音乐进行的快慢,通常以BMP(BeatsperMinute)表示。其可以应用于音乐情感分析,或者帮助帕金森病人恢复行走能力。一个经典方法是用带通滤波器计算每个子带幅度包络线,与一组事先定义好的梳状滤波器卷积,并对所有子带上的能量进行求和,最高峰值即为速度。拍子检测(MeterDetection)、小节线检测(BarLine/MeasureDetection)s强拍估计(DownbeatEstimation)的技术路线类似,通常基于节拍相似性矩阵、节拍跟踪和基于音乐知识的启发式规则。节奏型检测(RhythmicPatternDetection)基于模板匹配方法或者机器学习的节奏型标注,可用于音乐流派分析和音乐教学等。音乐和声(MusicHarmony)[3]1280-1289自18世纪后半叶至今,主调音乐(Homophony)已经逐渐取代了复调音乐(Polyphony),而和声正是主调音乐最重要的要素之一。和弦识别(ChordDetection)中最重要的音频特征为半音类(PCP[PitchClassProfiles],或称Chroma),即在12个半音类上与八度无关的谱能量的聚集。识别模型有模板匹配、隐形马尔科夫模型(HiddenMarkovModel,HMM)、条件随机场(ConditionalRandomFields,CRF)、支持向量机(SupportVectorMachine,SVM)、递归神经网络(RecurrentNeuralNetwork,RNN)等。调检测(KeyDetection)通过PCP特征来描述对调的感知,还可用调高分类器平滑减少音高的波动。其可用于音乐识谱、和弦检测、音乐感情计算、音乐结构分析等。歌声信息处理(SingingInformationProcessing)[4]57-60歌声检测(Vocal/SingingVoiceDetection)是判定整首歌曲中哪些部分是歌声,哪些部分是纯乐器伴奏的过程。一般通过音频分帧,提取能够有效区分歌声和伴奏的音频特征(梅尔频率倒谱系数[Mel-FrequencyCepstralCoefficients,MFCC]、谱特征、颤音等),然后进行机器学习分类,最后使用平滑后处理去除奇异点。歌声分离(Vocal/SingingVoiceSeparation)是指将歌声与背景音乐伴奏进行分离的过程。对立体声录音,假设歌声位于中央信道,可利用声源的空间差异性来定位和分离;对单声道录音,可采用基于音高推理(Pitch-basedInference)获得歌声泛音结构,或基于矩阵分解技术,或基于计算听觉场景分析CASA(ComputationalAuditorySceneAnalysis)的方法。其可应用于在歌手识别、哼唱/歌唱检索、卡拉OK伴奏等。歌手识别(Singer/ArtistIdentification)判断一个歌曲是由集合中的哪个歌手演唱的,框架类似于说话人识别/声纹识别。歌声与语音之间存在巨大差异,技术上更困难。其可用于按歌手分类管理大量歌曲、模仿秀。歌唱评价(SingingEvaluation)含两部分。基础评价包括计算两段歌声各种音频特征如音量、音高、节奏、旋律、颤音等之间的相似度,高级评价包括感情、音域、声音质量、音色辨识度、歌唱技巧等。歌词识别(LyricsRecognition/Transcription)与语音识别技术框架类似,区别在于:歌词非匀速进行且音高变化范围大;歌唱根据旋律和节奏的进行、颤音和转音等技巧来控制声带的发声方式、发声时间和气息稳定性;同一个人歌唱和说话音色有很大不同;歌词具有一定艺术性需要押韵;等等。其可应用于歌曲检索、歌曲分类、歌词与音频或口型对齐等。应用层MIR研究音乐搜索(MusicRetrieval)[5]231-236音乐识别(MusicIdentification)录制一个音乐片段作为查询片段,计算音频指纹后与后台指纹库进行匹配,将最相似记录的歌曲名、词曲作者、演唱者、歌词等元数据返回,其核心是音频指纹技术(AudioFingerprinting)。哼唱及歌唱检索(QuerybyHumming/Singing)录制一段哼唱或歌唱声音作为查询片段,计算音频特征后在数据库中进行相似性匹配,并按匹配程度高低返回结果列表,难度比音乐识别更大。一般使用旋律编码特征(音高轮廓、音程、音长、音高变化、音长变化)等进行旋律匹配,匹配手段有字符串近似匹配、动态时间规整、编辑距离、隐形马尔科夫模型等。[4]57-60多版本音乐识别或翻唱识别(CoverSongIdentification)用于判断两首音乐是否具有同样的本源。特点是主旋律基本相同但音乐结构、音调、节奏、配曲、演唱者性别、语言等可能会发生巨大变化。一般提取稳定的音乐中高层特征,在各个版本的整首音乐或音乐片段间进行匹配。敲击检索(QuerybyTapping)根据输入的节拍信息,从数据库中返回按节拍相似度高低排序的音乐列表,没有利用音高信息。一般提取音符持续时间向量作为特征,归一化处理后动态规划比对并排序返回。音乐借用(MusicBorrowing)检测不同歌曲之间旋律相似的部分。与音乐识别相比,音乐借用也检测相似短片段,但后者不知道该片段在歌曲中的起始位置及长度。其可用于抄袭检测。音乐情感识别(MusicEmotionRecognition,MER)[6]227-244音乐情感识别涉及心理学、音乐学、AI技术。其有两种技术路线:一是利用Hevner或Thayer情感模型将MER归结为单标签或多标签分类问题;二是归结为基于Arousal和Valence(AV)值的二维AV情感空间回归预测问题。MER广泛应用于音乐选择、影视制作、音乐推荐、音乐治疗等场景。音乐流派/曲风分类(MusicGenreClassification)[7]282-289通过音频特征提取和统计分类对音乐内容进行分析,可将音乐分为流行、摇滚、爵士、乡村、经典、蓝调、嘻哈、迪斯科等类别。作曲家分类(MusicComposerClassification)读取一段音乐,通过音频特征和统计分类器(如决策树、SVM)等方式分析音频数据内在的风格,可识别出相应的作曲家信息,常用于音乐理论分析。智能乐器识别(IntelligentInstrumentRecognition)识别多声部/多音音乐中的各种乐器/主乐器。传统技术框架为音频特征提取(如LPC[LinearPredictiveCoding,线性预测编码]、MFCC、常数Q变换倒谱系数、基于频谱图时域分析的音色特征、基于稀疏特征学习得到的特征)和统计分类器GMM(GaussianMixtureModel,高斯混合模型)、SVM、贝叶斯决策等,近十年又发展了基于深度学习(DeepLearning)的新方法。音乐结构分析(MusicStructureAnalysis)[8]625-636通过自相似矩阵、递归图、子空间聚类等方式把音频流分割为一系列具有音乐意义的时间区域,如前奏、主歌、副歌、桥段和结尾,常用于音乐理解、多版本音乐检索、乐句划分、音乐摘要、音频水印等。音乐摘要/缩略图(MusicSummary/Thumbnail)通过初步的音乐结构分析寻找最合适的片段作为摘要,一般以副歌和附近乐句为主,可应用在彩铃、浏览、搜索中。音乐推荐(MusicRecommendation)[9]1366-1367分为基于用户历史行为的个性化音乐主动推荐,基于情感的推荐和基于场景(如工作、睡觉、运动)的推荐等。音乐推荐一般使用三种技术框架,即协同过滤推荐(相似偏好用户群喜好的音乐)、基于内容的推荐技术(根据音乐间的元数据或声学特征的相似性推荐),以及混合型推荐(多模态数据)。音乐标注(MusicAnnotation/Tagging/Labelling)应用于复杂的音乐发现、建立语义相似的歌唱播放列表、音效库管理、音乐推荐等场景。首先进行人工标注,给音乐和音频赋予描述性的关键字或标签;之后采用机器学习模型学习音频内容与标签之间的关系并进行自动标注。困难之处在于实际待标注的标签内容本身无法确定,且难以客观评价标注质量。歌声与歌词同步音乐电视节目的理想情况是歌声、口型、歌词三者精准同步。这是一个典型的结合音频、视频、文本三种媒体的多模态研究。截至目前,尚未发现关于三者同步的研究,仅有少量关于歌声和歌词同步的研究。三、与MIR相关的其他音乐科技研究课题介绍在传统的MIR技术中,并不包括算法作曲、歌声合成、音频水印、音视频结合等内容。考虑到这些技术也属于音乐科技中十分重要的方面,这里也进行简要介绍。(一) 自动/算法/AI作曲(Automated/Algorithmic/AIComposition)指在音乐创作时部分或全部使用计算机技术,减轻人(或作曲家)的介入程度。用编程的方式来生成音乐,一般用语法表示、概率方法、人工神经网络、基于符号规则的系统、约束规划和进化算法、马尔克夫链、随机过程、基于音乐规则的知识库系统、深度递归神经网络等对时间域旋律进行预测。(二) 歌声合成技术(SingingVoiceSynthesis,SVS)通过共振峰参数合成法、采样合成/波形拼接合成等方式,将歌词按照乐谱合成为歌声,应用于虚拟歌手、玩具、练唱、音色转换等多个场景。由西班牙MTG提供核心技术,日本雅马哈公司商业化的〃初音未来”即是一个最典型的代表。数字音频水印技术(AudioWatermarking)[10]100-111数字音频水印[10]100-111是在不影响原始音频质量的条件下向其中嵌入具有特定意义且易于提取信息的技术,嵌入的水印能够经受各种时域频域的音频信号失真及同步失真。该技术可用于保护版权、广播监控、盗版追踪、内容标注等。脆弱/半脆弱音频水印用于数字音频作品的真实性和完整性保护。脆弱水印用于检测宿主数据发生的任何变化,半脆弱水印融合鲁棒水印与脆弱水印的特性,能够抵抗有损压缩、噪声等常规音频信号失真,以及对剪切、替换、恶意篡改等非法操作敏感。音频取证(AudioForensics)包括被动音频认证,基本方式包括听觉测试、频谱图/频谱分析等,高级方式包括特征提取和统计分类。音视频结合人类感知的本能告诉我们,应大力开展融合音视频的跨媒体科技研发。典型应用有音乐可视化、基于视频速度和音乐情感进行的电影情感事件检测等。四、总结与展望当前的MIR技术发展仍然面临诸多困难。从数据角度看,很多数字音乐涉及版权无法公开,各种音频数据都源自特定场合和物体,难以搜集和标注;从信号角度看,音乐中各种乐器和歌声在音高上形成和声,在时间上形成节奏,耦合成多层次的复杂音频流,难以甚至无法分离处理,从而影响后续各个应用。由于国内教育体制原因,艺术界与科技界割裂严重。20世纪90年代时开始,各音乐院校逐渐开始设立音乐科技/音乐工程系。但是直到现在,音乐科技仍然严重依赖引进设备、软件进行艺术创作,重实践轻理论的观念根深蒂固,没有底层计算机软硬件核心技术的研发能力。在理工科领域里进行音乐科技研发的团队和相关公司近十几年刚刚起步,目前整体力量还不够强大。随着中国经济的快速发展,近五年来,社会对音乐科技类的计算机软硬件、互联网产品的需求急剧增加。可喜的是,从小接受过音乐训练的理工科大学生数量越来越多,为该领域未来的发展提供了潜在的人力资源。2013年由复旦大学和清华大学创办的全国声音与音乐技术(ConferenceonSoundandMusicTechnology,CSMT)会议及交流平台也对整个领域的发展起到了巨大的推进作用。总体来讲,在当代社会,艺术与科技相融合是大势所趋。无论从科技还是文化角度来讲,音乐科技领域都具有很强的理论、应用、文化及社会价值。在不久的将来,音乐科技一定会迎来它发展的辉煌时期。参考文献:【相关文献】李伟,冯相宜,吴益明,等.流行音乐主旋律提取技术综述[J].计算机科学,2017,44(5).M.Goto.Anaudio-basedreal-timebeattrackingsystemformusicwithorwithoutdrum-sounds[J].Journalofnewmusicresearch,2001,30(2).M.Mauch,S.Dixon.Simultaneousestimationofchordsandmusicalcontextfromaudio[J].IEEEtransactionsonaudiospeechandlanguageprocessing,2010,18(6).P.S.Huang,S.D.Chen,P.Smaragdis,etal.Singing-voiceseparationfrommonauralrecordingsusingrobustprincipalcomponentanalysis[C]//IEEEin

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论