已阅读5页,还剩64页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
抗线性速度变化的鲁棒音频指纹的研究 抗线性速度变化的鲁棒音频指纹的研究 专业:通信与信息系统 硕士生:王亮 指导教i ) i l i 康显桂副教授 摘要 近年来,由于数字化及互联网的发展,网络上出现了海量的音频多媒体信息, 使得手工选取某首或特定音频内容变得很不可能。这促使以使用计算机自动对音 乐内容进行识别的数字音频指纹技术的诞生,并成为近年来的研究及开发热点。 本文对飞利浦研究院开发出的基于音频内容特征的鲁棒音频指纹系统进行了研 究并提出了改进算法,论文的主要内容包括: 1 分析并验证了飞利浦音频指纹算法的鲁棒性。我们发现飞利浦音频指纹 算法所生成的音频指纹对线性速度变化的抵抗能力较差,虽然两种改进算法对其 进行了改善,但改善能力相当有限。造成这种结果的关键原因在于线性速度变化 使得提取出的音频指纹在时间轴方向上出现了较大的对不齐现象,并且造成了指 纹提取域频域的拉伸变化,使指纹在频域轴方向上也了产生平移。 2 提出一种采用基频归一化的鲁棒音频指纹算法。该算法的创新点在于提 取音频指纹之前先对音频的每一帧进行基频识别,并利用该基频对提取域进行归 一化,我们证明了该归一化频域在线性速度变化下的不变性。同时叠加基频前后 不相关的两段来生成指纹,以保证系统在不同音频之间指纹的区分性。我们通过 比较音频指纹之间的误码率对音频进行识别。试验结果说明,本文算法在没有明 显降低音频指纹系统区分性要求的前提下,使其对抗线性速度变化的鲁棒性有了 较大改善。 关键词:数字音频指纹,鲁棒性,线性速度变化 抗线性速度变化的鲁棒音频指纹的研究 s t u d y o fl i n e a r s p e e dc h a n g e r e s i s t a n t a ud i of i n g e r p r i n t i n g m a j o r :c o m m u n i c a t i o na n di n f o r m a t i o ns y s t e m s n a m e :w a n gl i a n g s u p e r v i s o r :v i c ep r o f k a n gx i a n g u i a bs t r a c t i nr e c e n ty e a r s ,w i t hd i g i t i z a t i o na n dt h ed e v e l o p m e n to ft h ei n t e r n e t ,m a s s i v e a u d i oi n f o r m a t i o no nt h ei n t e m e th a v em a d em a n u a ls e l e c t i o no ft h es p e c i f i ca u d i o c o n t e n tb e c o m ei m p o s s i b l e t h i sp r o b l e mh a sg i v e nar i s et ot h et e c h n i q u ec a l l e d a u d i of i n g e r p r i n t i n g , w h i c ha i m sa ta u t o m a t i cr e c o g n i t i o no fm u s i cc o n t e n t ,a n di s v e r ya c t i v ei nt h er e s e a r c ha n dd e v e l o p m e n tf i e l d s i nt h i st h e s i s ,w ee x p l o r eac o n t e n t b a s e dr o b u s ta u d i of i n g e r p r i n t i n gs y s t e mw h i c hw a sd e v e l o p e db yp h i l i p sr e s e a r c h i n s t i t u t e ,a n dp r o p o s ean e wf i n g e r p r i n t i n ga l g o r i t h m t h em a i nc o n t r i b u t i o n so fo u r w o r ka r ea sf o l l o w s : 1 i n v e s t i g a t et h er o b u s t n e s si np h i l i p sf i n g e r p r i n t i n ga l g o r i t h m w ef o u n di t s r o b u s t n e s sa g a i n s tl a r g el i n e a rs p e e dc h a n g e si sn o tg o o d a l t h o u g hs o m eo t h e r a l g o r i t h m sh a v ei m p r o v e dt h i sp r o p e r t y , t h e i ri m p r o v e m e n t sw e r eq u i t el i m i t e d t h i s i sd u et ot h ef a c tt h a tl i n e a rs p e e dc h a n g e sc a u s em i s a l i g n m e n ta l o n gb o t ht h et i m e a n df r e q u e n c yd o m a i n sf r o mw h i c ht h ef i n g e r p r i n tg e n e r a t e d 2 p r o p o s e ar o b u s t f i n g e r p r i n t i n g s c h e m eu s i n gf u n d a m e n t a l f r e q u e n c y n o r m a l i z a t i o n i no u ra l g o r i t h me a c hf r a m e sf u n d a m e n t a lf r e q u e n c yh a st ob e i d e n t i f i e df i r s t ,a n dt h ef r e q u e n c yd o m a i nf o re x t r a c t i o ni st ob en o r m a l i z e db y d i v i d i n gt h ef u n d a m e n t a lf r e q u e n c yb e f o r et h ea u d i of i n g e r p r i n t se x t r a c t i o ns t e p w e w i l lp r o v et h a tt h en e wn o r m a l i z e dd o m a i nc o u l db ei n v a r i a n ta g a i n s tl i n e a rs p e e d c h a n g e a l s ow eu s eac o m b i n a t i o no ft w os u b - b a n d sa l o n gt h ef r e q u e n c yd o m a i ns o 中山大学硕士学位论文 a st oe n s u r et h ed i s c r i m i n a t ep r o p e r t y t h ea u d i oa r em a t c h e db yc o m p a r i n gt h eb i t e r r o rr a t eb e t w e e nt h ea u d i of i n g e r p r i n td a t a b a s ea n dt h eu n l a b e l e da u d i of i n g e r p r i n t s e x p e r i m e n tr e s u l t ss h o wt h a to u rs c h e m eh a sm a d e a l li m p r o v e m e n ti nt h er o b u s t n e s s a g a i n s tl i n e a rs p e e dc h a n g e sw i t h o u tl o s i n go t h e rp r o p e r t i e s k e yw o r d s :d i g i t a la u d i of i n g e r p r i n t ,r o b u s t n e s s ,l i n e a rs p e e dc h a n g e i v 抗线性速度变化的鲁棒音频指纹的研究 插图 图1 1 基于内容的音频指纹识别系统基本框架2 图2 1 基于内容的音频指纹识别系统过程框图9 图2 2 指纹提取算法框架:前端处理和指纹建模1 0 图3 1 飞利浦音频指纹提取算法框架1 6 图3 2 临界频带频率关系图l7 图3 3 “0f o r t u n a 音频波形图l8 图3 - 4 飞利浦音频指纹算法指纹对比图19 图3 5 “s a yw h a ty o uw a n t ”音频波形图2 0 图3 - 6 飞利浦音频指纹算法区分性实验b e r 分布直方图2 2 图3 7 线性速度变化音频波形变化图2 6 图3 8 线性速度变化音频频谱变化图2 7 图3 - 9 线性速度变化子带能量变化图2 9 图3 10 利用自相关函数的音频指纹算法框图3 0 图3 1 1 利用f o u r i e r - m e l l i n 变换的音频指纹算法框图3 l 图3 1 2 自相关音频指纹算法鲁棒性实验图3 4 图3 13 自相关音频指纹算法对线性速度变化的鲁棒性实验图3 4 图3 1 4 傅立叶梅林变换音频指纹算法鲁棒性实验图3 5 图3 15 傅立叶梅林变换音频指纹算法对线性速度变化的鲁棒性实验图3 5 图4 1 线性速度变化造成音频指纹提取域跃迁的图示3 7 图4 2 线性速度变化波形对比图。3 9 图4 3 线性速度变化指纹对比图3 9 图4 4 参数模型法理论框图4 l 图4 5 周期图谱与a r 谱对比图4 5 图4 - 6 线性速度变化造成音频频谱基频变化图示4 7 图4 7 基频归一化域对线性速度变化的不变性图示4 7 图4 8 基于基频归一化的音频指纹算法框图4 9 图4 9 本文音频指纹算法指纹对比图5 1 图4 10 本文音频指纹算法鲁棒性实验图5 3 图4 1 1 本文音频指纹算法对线性速度变化的鲁棒性实验图5 3 图4 1 2 本文音频指纹算法区分性实验b e r 分布直方图5 4 v l i 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究 工作所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人 或集体已经发表或撰写过的作品成果。对本文的研究作出重要贡献的个人和集 体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。 学位论文作者签名:五彩 日期:砷年岁月叶日 学位论文使用授权声明 本人完全了解中山大学有关保留、使用学位论文的规定,即:学校有权保留 学位论文并向国家主管部门或其指定机构送交论文的电子版和纸质版,有权将学 位论文用于非赢利目的的少量拷贝并允许论文进入学校图书馆、院系资料室被查 阅,有权将学位论文的内容编入有关数据库进行检索,可以采用复印、缩印或其 他方法保存学位论文。 日 一y 乞乙 r 月 飞i l三 、p年 - qliijii 孙 协 签 : 再 习 师 期 抗线性速度变化的鲁棒音频指纹的研究 1 1 研究背景 第1 章绪论 由于大容量存储器的出现和网络技术的不断发展,使得现今的互联网存在着 数量庞大的多媒体信息,其中以各种格式存在的声音及音乐内容也相当巨大。显 然采用传统的靠人去听的识别方法已无法应对如此庞大的海量音频内容,因此使 用计算机自动地对音乐信息进行检索和识别的数字音频指纹系统便应运而生。本 文对经典的飞利浦音频指纹系统及其两个改进版本眩3 1 进行了详细讨论,并提 出了一种新的音频指纹算法。 音频指纹或者说基于内容的音频检索系统可以让用户得到自己所听到的未 知音频内容的元信息( 比如表演艺术家、词曲作者、歌名等信息) ,而对音频内容 的具体存储格式没有要求和限制。一个音频指纹系统通常包括两个部分:一个计 算听觉重要特征的指纹提取算法和一个在指纹数据库中进行有效搜索的对比算 法。音频指纹系统从一段音频内容中提取出一定量的可以代表该段音乐重要声学 特征的紧致信息,将其作为用于识别索引音乐的指纹,并和相应的元数据信息等 内容一起存储在数据库中l 4 , 5 , 6 】。当未知音频需要匹配检索时,系统先计算出该段 未知音频的指纹,再将其指纹与数据库中已存在的指纹信息进行对比并匹配。运 用数字指纹与匹配算法,经过不同失真版本的音频内容可以被准确识别,并将音 频的歌名等信息返回给用户【6 1 。 根据实际应用,音频指纹技术主要运用在如下几个方面【6 】= ( 1 ) 音乐识别:利用音频指纹技术进行音频识别的过程类似于人耳识别音乐 的过程,如图1 所示,先在离线状态下使用音频指纹提取算法将大量音乐作品的 指纹计算出来,然后将这些指纹与对应音频的元数据信息( 如歌曲名称、表演艺 术家、词曲作者、歌词等) 一并存储到数据库中。当有未知音乐需要识别时,先 用同样的音频指纹提取算法计算出未知音频的指纹,然后将其指纹与数据库中存 储的指纹进行对比和匹配,如果匹配成功则向查询者返回该未知音频的相关元数 据信息【6 1 。 中山大学硕二卜学位论文 数据 图1 1 基于内容的音频指纹识别系统基本框架( 图来自于文酬唧) ( 2 ) 内容完整性认证:内容完整性校验的目的在于检测音频数据是否遭受到 恶意操作等的修改。该应用首先从原始音频中提取指纹,其指纹可以保存在数据 库中,也可用头文件的形式附加在原始音频上,还可以采用水印方法嵌入到原始 数据中【7 1 。在认证端,则用指纹提取算法从待认证的音频中提取指纹再与上述保 存好的原始指纹信息进行对比,即可验证待认证的音频内容是否被修改以及如何 被修改。另一种进行内容认证的方法是采用半脆弱水印技术,但一般涉及版权的 水印信息只保存在发行者手里,所以限制了其应用范耐引。 ( 3 ) 辅助水印技术:音频指纹也可以用作音频水印技术的辅助手段。利用音 频指纹技术,可以将音频信号中依赖于听觉内容的音频指纹作为密钥,这样就避 免了因为许多音频使用同一密钥而引起的秘密信息的泄露问题,从而能有效防止 拷贝攻击、共谋攻击等处理,增强了水印的安全性【l j 。此外,通过指纹检测技术 在音频流中找到锚点进而重新同步水印信息的嵌入和检测区域,使音频指纹还可 协助抵抗水印技术领域的去同步攻击【9 】。 ( 4 ) 基于内容的音频检索和处理:从复杂的多媒体信息中提取紧致指纹信息 并建立高效的搜索系统是音乐检索系统的关键问题。音频指纹系统可以从音频信 号中提取从低级特征到高级特征等不同级别的重要信息,运用像节拍、旋律、和 2 抗线性速度变化的鲁棒音频指纹的研究 声、音色等高级特征信息,便可以根据实际应用将音频指纹技术从单一的音频内 容检索扩大到相似性检索、基于内容的处理与其他音频信号处理等应用领域,比 如一首音乐的指纹能用于识别和该音乐听觉相似的不同演奏或演唱版本,而不仅 仅是原版音乐【4 ,6 ,1 0 ,11 1 。 1 2 研究现状 音乐识别是音频指纹技术中研究最早的一项应用,目前已经出现了许多针对 该应用的商业产品【4 】:在2 0 0 2 年英国s h a z a m 娱乐有限公司便采用音频指纹技术 开始向用户提供音乐识别服务【1 2 】。2 0 0 4 年美国g r a c e n o t ei n c 与飞利浦研究院 ( p h i l i p sr e s e a r c h ) 共同开发出了乐曲识别软件g r a c e n o t em o b i l e 。拥有该软件的手 机用户只需用手机拨通g r a e e n o t em o b i l e 的服务电话,通过手机中的软件对周围 的声音进行5 , 1 0 秒钟的录音,再将其传送给服务器,服务器端就可根据用户传 送过来的音频信息进行识别处理,再通过短信息的方式向用户手机发送找到的乐 曲名、艺术家名等信息【1 3 】。西班牙通信运营商a m e l l - l a 公司也采用p h i l i p s 的音频 指纹技术为其用户提供一种名为m u s i w a v e 的音乐识别服务【1 4 】。在中国,北京酷 我科技有限公司应用其音频指纹技术开发出了音乐识别软件酷我m p 3 伴侣,使 用户通过互联网便可对未知的m p 3 音乐进行歌名、歌手等信息的识别【1 5 】。 目前除了音乐识别检索等应用的研究外,音频指纹技术还将应用于音频内容 的控制和跟踪上。其中包括发行端监控、传输信道监控和消费者端监控等三方面 的研究。发行端监控是指内容发布者运用音频指纹技术自动地跟踪其对外播放列 表中各音乐的播放权限。传输信道监控是指版权所有者利用音频指纹技术来自动 地监视电台在播放其版权作品时是否己支付版权费,并进行播放统计;广告商监 视电台是否按约定的协议进行广告内容的播放等。消费者监控则是利用识别歌曲 的音频指纹来对歌曲在c d 、d v d 、m p 3 等电子设备上的播放权限进行控制,以 禁止消费者播放没有版权的音乐或者收听盗版音乐等【4 6 】。 各种音频指纹系统的共同点都是基于图1 1 所示的框架模型,不同点主要在 特征选取、指纹建模、指纹的相似性度量、数据库快速对比查找算法等方面上。 其中大多数音频指纹提取算法都需要对音频提取具有一定声学鲁棒性的特征,继 中山大学硕二t 学位论文 而再生成指纹。这些鲁棒性特征包括:傅立叶系数 1 6 1 、迈尔倒谱系剡17 1 、频谱 平滑度、尖锐度【1 8 l 等。指纹生成阶段则利用量化技术【1 9 】或隐含马尔可夫模型【2 0 】 等将这些特征量表示得更加简单和紧凑。 音频指纹技术的相关领域包括:信息检索,模式识别,信号处理,数据库, 密码学与音乐认知等【6 1 。 1 3 本文内容 论文主要研究了数字音频指纹的鲁棒性,尤其是对线性速度变化的鲁棒性。 论文的主要内容安排如下: 第一章绪论,概括介绍了论文课题的研究背景及其研究与应用现状。 第二章主要介绍了数字音频指纹的相关理论,包括音频指纹的定义,音频技 术和数字水印技术的区别,数字指纹与哈希函数的区别,音频指纹的性质,音频 指纹基本框架,音频指纹的设计原则,指纹提取算法概述,相似性比较及搜索方 法等。 第三章针对数字音频指纹在线性速度变化下的鲁棒性进行详细讨论。先介绍 飞利浦经典鲁棒音频指纹模型【l 】并用实验说明其鲁棒性,再出从应用角度说明了 对抗音频线性速度变化的实际意义,并通过数学分析和实验说明了线性速度变化 对音频的时频域所造成的影响。最后介绍对算法l u 所作的两种改进模型【2 3 1 ,以 理论推导和验证性实验为依据,来说明【2 ,3 1 两种算法相较于【1 1 在对抗线性速度变 化上确实有较大的改进。 第四章提出了一种基于基频归一化的鲁棒音频指纹算法。该算法利用音频在 基频归一化域中具有线性速度变化不变性的性质,并结合基频前后分段叠加、取 频域滤波的方法,使音频对抗线性速度变化的鲁棒性得到了较大提升。实验结果 表明,这种新算法在满足音频指纹区分性的要求下,相对于目前的音频指纹算法 1 1 , 2 , 3 l 有效地改善了音频指纹对抗线性速度变化的鲁棒性。 最后是本文的结论,总结本文的研究成果与未来的研究方向。 4 抗线性速度变化的鲁棒音频指纹的研究 第2 章数字音频指纹 2 1 音频指纹技术的定义 音频指纹指的是可以代表一段音频声学特征的基于内容的紧致数字签名【i 】。 基于内容的音频指纹识别系统则是利用指纹提取算法对音乐提取基于内容的音 频指纹,并将其连同音乐的元信息( 艺术家,词曲作者等) 保存在数据库中,当 有未知音频需要识别时,先计算出未知音频的音频指纹,再用该指纹与数据库中 已经保存的海量指纹进行比对匹配。若匹配成功,则向用户返回该未知音频各方 面的信息,即完成整个识别过程 4 1 。音频指纹技术与传统的哈希算法( 例如m d 5 ) 的最主要的区别在于:音频指纹技术可以将原始版本的各种失真版本识别出来, 并判定为同一段音频信息,而对比特敏感的哈希算法则无法实现这项功能【5 6 1 , 关于该内容的介绍详见2 3 小节。 一个音频指纹系统通常包括两个部分:一个计算听觉重要特征的指纹提取算 法和一个在海量指纹数据库中进行有效对比的搜索匹配算法,本论文将主要关注 于前者,对后者将在2 8 小节做简要介绍。 我们使用音频指纹技术而不是音频数据本身来进行未知音频的识别与匹配 主要基于以下三方面的原吲4 】: ( 1 ) 音频指纹比音频数据本身在数据量上大为减小,故可以降低系统对存储 容量的要求,使存储容量固定的数据库,能保存数量更多的音频元信息内容。 ( 2 ) 由于音频指纹提取了原始音频的重要声学特征,故音频指纹对保持声学 特征不变或细微变化的各种音频失真处理均能表现出较强的鲁棒性,从而增强了 系统在识别不同版本或不同格式下的音频内容时的稳定性及准确性。 ( 3 ) 音频指纹相对于原始音频数据有着更小的维度,故可大大提高系统的检 索效率,使搜索过程中所耗费的计算及时问资源得到有效降低。 5 中山大学硕l 学位论文 2 2 音频指纹与音频水印 除了我们本文讨论的数字音频指纹,数字音频水印同样也有识别音频内容的 功能,但这两者所基于的原理是不同的。数字音频水印利用了人类心理声学模型, 在音频里面嵌入人耳所无法感知的水印信息,而该水印信息是嵌入者可以人为控 制的,是任意的。比如嵌入信息可以是音频的版权信息或者歌名作者等元信息, 所以当嵌入过水印的未知音频需要识别时,可以利用水印提取算法,将嵌入的水 印信息从音频流中提取出来,用该提取出的水印信息对音频予以身份识别2 1 1 。而 本文之前所提到的音频指纹技术则是利用音频信号里与人耳感知最相关的声学 特征来提取并生成音频的指纹信息,该指纹信息是基于音频听觉内容的,当音频 听觉内容和指纹提取算法固定之后,某段音频的指纹也即大致固定,因此指纹信 息不是任意的【6 1 。 由此可看出,修改音频指纹信息的唯一途径便是使音频的听觉内容发生改 变,故而音频指纹技术对人耳所无法感知的一些压缩失真等处理或攻击,它具有 比音频水印更加稳健的特性。同时音频指纹也适用于那些不适宜用水印技术进行 处理而发布的声乐材料,比如音像文物、文化遗产等内容,因为这些音频数据的 内容是不允许做任何修改的【6 1 。 但音频指纹的计算复杂度通常都大大高过音频水印的计算复杂度,并且需要 额外连接大型指纹数据库用于存储和识别音频指纹。相比于音频水印信息的任意 性,音频指纹信息则对音频的听觉内容非常依赖,所以使用音频指纹技术来区分 听觉内容相似的声乐片段或区分同一段音乐作品的不同拷贝版本是比较困难的。 由1 1 小节知音频指纹技术可应用于音频内容完整性的认证上,因此在这一应用 上其与水印技术中的脆弱性水印作用相似1 6 1 。 在水印技术中还存在着一种经过特殊设计用于盗版源头跟踪的水印信息,在 水印领域中将这种水印信息也叫做“指纹”。这种水印指纹采用正交码字的原理 在音像制品的每个合法的拷贝上嵌入不同的信息,版权机构可借此水印信息来寻 找盗版分发的源头【2 2 , 2 3 l 。本论文所指“音频指纹 是2 1 所用之定义,即从音频 中提取基于音频听觉内容的紧致数字签名( 指纹信息) ,再用此与数据库中的已 6 抗线性速度变化的鲁棒音频指纹昀研究 存在指纹信息进行匹配,从而对音频进行识别和检索。 2 3 音频指纹与哈希函数 音频指纹系统要解决自动识别并区分不同音频,所以音频指纹应该拥有能够 区分不同听觉内容音频所必须的维数,同时也不允许由于维数太多而导致在海量 数据库中保存和检索时的效率低下。所以直接拿原始音频流这样的高维数据来进 行对比和识别是不可取的【6 】。 密码学里的哈希( h a s h ) i 函数可以将高维数的数据x 映射成低维数的哈希值, 比如常见的m d 5 ( m e s s a g ed i g e s t5 ) 哈希算法或者c r c ( c y c l i cr e d u n d a n c y c h e c k i n g ) 哈希算法【6 l 。设x 和y 两个对象的哈希值分别为h ( x ) 和h ( y ) ,则在 密码学中可以通过检查h ( x ) 和h ( y ) 是否相等可以来说明事物x 和y 的相等性, 数学上可以证明不同事物如果产生同样的h a s h 值的概率是极其微小的【4 1 。假设 我们使用这样的h a s h 函数来提取音频的紧致数字表示,那么在识别检索过程中 就把未知音频通过哈希函数得到的哈希值与数据库中已保存的大量音频的哈希 值做匹配对比。但是如果原数据哪怕存在一个b i t 的改变,哈希函数都会使新生 成的哈希值与原来的哈希值产生巨大的变化。基于这点原因,哈希函数在听觉内 容几乎不受影响的m p 3 压缩等常用音频压缩处理和任意微小失真处理上,它表 现得非常脆弱。例如,一首音乐的c d 版本和它的1 2 8 k b p s 码率压缩的m p 3 版本 对于人耳来说其听觉质量是近乎相等的,因此人们可将其判为同一首音乐,但是 利用哈希函数为它们分别产生的哈希值确是截然不同的【1 1 。由于实际音频在应用 中经常要经过一些压缩或音讯处理等手段,而传统的哈希函数又只能关注于原始 音频信号的比特数据,不考虑实际的听觉内容,所以它不能作为需要对音讯处理 保持一定鲁棒性的基于内容的音频指纹提取算法【6 】。 2 4 音频指纹系统的性质 根据应用目的的不同,音频指纹系统的所要求满足的性质也有所区别,但是 抵抗一定失真处理的鲁棒性和高效的计算查找机制是任何一个音频指纹系统均 要满足的【们。下面所列的各项音频指纹系统的性质会根据各种实际应用目的的不 7 中山大学硕- i :学位论文 同,而有所差别 4 , 6 , 2 4 】: ( 1 ) 准确性( a c c u r a c y ) :包括正确识别率、漏检率( f a l s en e g a t i v e ) 、误检率( f a l s e p o s i t i v e ) 。正确识别率,即通过未知音频的指纹信息正确地在指纹数据库中找到 其匹配的概率。漏检率,即未知音频的指纹信息在指纹数据库中存在匹配,但没 有被准确检索识别出来的概率。误检率,未知音频的指纹信息与指纹数据库中的 指纹发生匹配错误的概率,即发生查找错误。 ( 2 ) p - i 靠性( r e l i a b i l i t y ) :版权保护组织可以通过音频指纹系统自动地判断音乐 的版权限制,在该项应用中,系统宁可将一首本没有版权限制允许公开播放的音 乐判决为不可公开播放,也必须要尽可能地避免将一首拥有版权不能公开播放的 音乐错误地在可以播放的音频指纹数据库中找到匹配,进而错误地判断成没有版 权而播放出去,唯有如此才能使版权保护系统拥有使大众放心的高信誉。与此相 反的是,对于诸如1 2 小节所提到的酷我m p 3 伴侣等自动检索识别未知音频等 的应用,其指纹系统则不会有上述可靠性方面的要求。 ( 3 ) 鲁棒性( r o b u s t n e s s ) :即健壮性,指音频在经过格式压缩,失真和叠加了 传输信道上的干扰或噪音等各种普遍的音讯处理之后,音频指纹系统通过其指纹 仍能够将其正确识别的能力。这些失真与信号处理操作包括:音调改变,均衡化, 背景噪声,d a a d 转换,m p 3 、g s m 等的压缩处理,及本文后续将详细讨论 的线性速度变化等。 ( 4 ) 粒度( g r a n u l a r i t y ) :音频指纹技术中,只利用整首音频的中一个片段就能 识别出整首音频的性质。这种性质根据不同的应用背景也有不同的要求,有些系 统需要整首歌的长度来进行识别,有些则只需要一段音频的若干秒即可。音频指 纹的粒度性质需要解决提取指纹与数据库指纹的时间平移,失同步与检索复杂性 ( 未知音频指纹在音频指纹数据库中的所有可能对齐的位置上均要进行对比) 等 问题。 ( 5 ) 安全性( s e c u r i t y ) :音频指纹对恶意破解和篡改等攻击所表现出的一定的 脆弱性。安全性与鲁棒性的要求相反,安全的音频指纹系统要对企图恶意欺骗指 纹识别系统的攻击和行为具有敏感并可将其鉴别的特点,从而可以有效地进行抵 抗。 8 抗线性速度变化自倍棒音频指纹的研究 ( 6 ) 通用性( v e r s a t i l i t y ) :不论任何格式的声乐作品,音频指纹系统均可以对其 进行识别的性质。并且,相同的音频指纹数据库可以在各种不同目的背景下的音 频指纹系统中通用。 ( 7 ) 指纹尺度( s c a l a b i l i t y ) :指纹大小一般用比特数秒或比特数歌来表示,它 不但影响着音频指纹系统对执行海量歌曲指纹操作时的运行效率,而且影响着当 有众多未知音频需要同时进行识别时的系统表现。同时,指纹尺度也影响到音频 指纹系统的数据库容量、检索识别准确性和系统复杂性。 2 5 音频指纹系统的基本框架 虽然不同的音频指纹识别系统所基于的原理有所差异,但其系统模型的基本 框架是一致的。如图2 1 所示,一个音频指纹系统通常包括两个基本处理过程: 指纹提取过程和检索识别过程。 图2 1 基于内容的音频指纹识别系统过程框图( 图来自于文献【5 q ) 2 5 1 指纹提取 指纹提取过程是将音频的一组和听觉相关的特征进行提取并用紧致、鲁棒的 数字形式进行表示的过程。对其提取的指纹有如下要求【5 6 1 : ( 1 ) 在海量的音频指纹中,不同音频的指纹要较高的区分性,极低的碰撞性。 9 中山人学硕 学位论文 ( 2 ) 对一定的失真要保持不变性。 ( 3 ) 指纹要尽量减少冗余信息,必须是紧致的、简洁的。 ( 4 ) 提取指纹的计算要简单。 满足上述要求的音频指纹系统隐含着信息降维和信息丢失这一矛盾。指纹提 取过程包含前端处理和指纹建模两个模块,其详细流程如图2 2 所示,其中,前 端处理将信号的一组特征值进行计算度量,指纹建模模块则将前端处理的结果转 换成指纹最后的表示形式【5 ,6 1 。 ,d 转换 单声道转换 采样率 预强调 归一化 带通过程 g s m 编码,译码 d f t m c l t h a a f h a d a m a r d w a v e l e t 归一化 解相关 差分 量化 音频 音频指纹 图2 - 2 指纹提取算法框架:前端处理和指纹建模( 图来自于文献【5 ,叼) l o 抗线性速度变化的鲁棒音频指纹的研究 2 5 2 检索识别 检索识别过程是将未知音频的指纹在指纹数据库中找到其最佳匹配的过程。 一种方法是将未知音频的指纹与数据库中的所有指纹逐一进行相似性比较,但这 种方法在具有海量指纹数据的数据库中,其运算量非常之大,所以在检索识别过 程中往往需要使用能提高查找速度的检索算法。一些指纹检索系统先采用较简单 粗糙的比较过程来迅速排除不匹配的指纹,继而在剩下来的候选指纹中采用更加 精确同时也更耗资源的对比来找到最佳匹配。还有一些方法则是先在离线状态下 预先计算好数据库中指纹的相似性,再由此建立起一套索引结构,从而减少在线 状态下的运算量【5 ,们。根据文酬2 5 1 ,一个优秀的检索方法需要包含以下几个方面 的性质: ( 1 ) 快速:在大型数据库中不宜采用线性序列扫描法来对比指纹间的相似性。 ( 2 ) 准确:查找所返回的信息应该是准确、没有遗漏的,即具有极低的误判 率。 ( 3 ) 内存高效:检索过程所占用的内存资源消耗较低。 ( 4 ) 更新简单:插入、删除与更新对象数据对象等操作必须简单。 音频指纹系统的最后一个模块假设实验,则为衡量一个音频指纹识别系统的 性能及可靠程度提供依据【i 6 1 。 2 6 提取指纹的设计原则 为了能为复杂的多媒体信息创建检索索引,必须为多媒体数据进行降维,以 避免维数灾难,从而减低检索和查找的计算复杂度2 5 , 2 6 , 2 7 1 。类比于密码学中的哈 希函数,基于内容的音频指纹可以被看作为一种对听觉内容不变处理保持鲁棒的 特殊的哈希值【1 ,9 1 。从模式匹配的角度看,提取音频对象基于听觉内容保持不变 的关键特征是任何一个音频分类系统最关心的问题【2 8 。3 2 l 。 现有文献主要基于两大类特征来对音频提取音频指纹【4 1 : ( 1 ) 语义特征类指纹:主要基于人耳可感知的声学特征,如音乐流派、节奏 中山大学硕士学位论文 感、音乐基调等。这些特征有明确的含义,往往被用于音乐分类等应用。 ( 2 ) 非语义类指纹:基于物理意义的音频特征,如能量、频谱特性、基频等。 这些特征有明确的数学表示,可用计算机处理,但人耳无法直接感知。 现在大多数文献都趋向于采用非语义特征,其原因是【4 1 : ( 1 ) 语义特征相对于非语义特征其计算难度更大。 ( 2 ) 由于依赖于人耳的直觉,所以语义特征无法对一部分音频给出明确而没 有歧义的划分标准,比如某些人可能认为一首歌为流行音乐,而另一些人则会将 其归类为摇滚。 本文所提出算法是基于非语义特征的频谱特性和音乐的基频特性。 2 7 指纹提取算法简述 由于本论文的工作是在指纹提取算法上,特别是以对抗音调和时间均发生变 化的线性速度变化( l s c ) 为目标,所以本节就指纹提取算法的国内外研究现状作 一简单概括: 飞利i $ ( p h i l i p s ) 研究院设计出一种经典的鲁棒音频指纹匹配系统【i l ,它先对 音频进行分帧、再利用傅立叶频谱特征从每帧中提取3 2 比特的音频指纹,该系 统能使音频经受压缩编码、滤波、均衡等多种处理。由于这套模型已成各种商业 产品和技术研究所改进的原型,所以在本文第3 章将对该模型予以介绍。文献【2 3 1 对上述模型分别利用自相关函数和f o u r i e r - m e l l i n 变换进行了改进,使音频对 抗线性速度变化攻击的能力分别提高到6 和1 0 ,第3 章也将对这两种改进 模型予以介绍并给出验证性实验结果。对飞利浦模型的改进还包括采用时频域相 结合的滤波器算法来消除频带之问的相关性,以提高音频指纹对抗背景噪声的能 力【3 3 j ;降低原模型中每帧抽取的比特数来使指纹系统达到更高的计算效率并保持 同样甚至更高的识别率3 4 1 。 目前鲁棒音频指纹提取算法所研究的声学特征还包括:基于小波变换的特征 3 5 3 6 , 3 7 】:基于m p e g 7 所提供的a u d i os p e c t r u mf l a t n e s s 、a u d i os i g n a t u r e 描述 1 2 抗线性速度变化的鲁棒音频指纹的研究 子的特征【2 9 ,3 5 , 3 9 1 ;基于子带频谱质心的特征【删;基于联合声学调制频率( j o i n t a c o u s t i ca n dm o d u l a t i o nf r e q u e n c y ) 懒t 3 0 4 2 1 :基于与音乐节奏、节拍相关的特 征【4 3 1 ;基于子带的一阶正规化矩、二阶正规化矩和频谱甲滑度的特型4 4 1 ,基于 熵谱的特础4 5 1 ,还有基于正弦波模拟的新描述子【4 6 1 等特征。 文献【4 7 】运用混合高斯模型对音频指纹系统中的短时傅立叶变换s t f t 、熵、 谱质心、谱带宽、谱平滑度、谱波峰因数和迈尔频率倒谱系数等特征进行评估, 其实验结果表明了上述特征均有较好的鲁棒性,其中谱质心效果最好。而文献【4 8 , 4 9 】则提出的一种叫做失真区分分析的算法( d i s t o r t i o nd i s c r i m i n a n t a n a l y s i s ) ,该算 法通过一个线性卷积神经网络可根据音频的内容来自动地为其提取最为鲁棒的 声学特征。 鲁棒音频哈希函数具有和音频指纹同样的性质和作用,即要根据一定的哈希 函数提取音频中的稳健特征生成鲁棒的哈希值。基于一维信号的时频分析所提出 的鲁棒音频哈希函数有:l e a s ts q u a r e sp e r i o d i c i t y e s t i m a t i o n ( l s p e ) , c o r r e l a t i o n - b a s e dp e r i o d i c i t ye s t i m a t e ( c p e ) 和s i n g u l a rv a l u ed e c o m p o s i t i o n - m e l f r e q u e n c yc e p s t r a lc o e f f i c i e n t s ( s v d m f c c ) t 5 0 l 。 2 8 相似性比较及搜索算法简述 在检索过程中进行相似性比较一般沿用【3 i 】中所提到的模式匹配规范:保存在 数据库中的音频指纹与未知音频指纹根据某种相似性度量标准来进行比较。相似 性度量标准和音频指纹系统的具体模型有关。如果比较的是两个向量序列,则最 常用相似性度量方法的是计算两者的相关矩阵【6 j 。在文献【”l 中,文章采用欧式距 离及其改进版本来度量不同长度序列的相似性。如果特征向量序列被量化,则用 曼哈坦距离( m a n h a t t a nd i s t 锄c e l ) 来进行相似性度量【5 2 】,特别的,如果特征向量序 列采用了二进制的量化标准来进行量化( 诸如经典的飞利浦音频指纹原型i 】) , 那么它的相似性度量标准则采用汉明距离( h a m m i n gd i s t a n c e ) 或误码率b e r ,本 文沿用飞利浦模型中的误码率来进行相似性的度量。文献【9 】采用一种叫做“指数 伪规i ) 1 t | ( e x p o n e n t i a lp s e u d on o r m ( e p n ) 的非线性差错矩阵度量方法。在某些系 统中,数据库中的“指纹 则指的是保存在数据库中用来进行指纹对比的参考索 中山大学硕士学位论文 引,如用来与未知音频指纹进行对比的译码书( c 州e b o o k s ) 或者隐含马尔可夫 模型的索引表,与此相关的知识读者可参阅文献【2 9 , 5 3 。 将未知音频指纹与数据库中的海量指纹进行一一对比的强制搜索算法显然 是不可取的,为了实现快速搜索,可先离线对音频数据库中的所有指纹两两计算 其相似性,再根据这些相似性对数据库中所有的音频指纹进行归类,当有未知音 频指纹需要进行查找匹配时,可先将其与大的类特征进行比较,排除肯定不属于 的类,然后在余下的类中进行指纹的一一对比检索1 2 7 1 ,如果运用相似性矩阵和向 量空间的知识还可使这种比较排除大类的方法更加高效【5 4 , 5 5 l 。另一种快速搜索的 方法是预先用一种更简单粗糙但更高效快速的相似性度量标准来对指纹数据库 进行过滤,预先排除在粗糙的相似性标准下也肯定不会匹配的指纹,然后在余下 来的候选指纹中用更加精细复杂也更耗资源的相似性度量标准来匹配出最相似 的指纹【3 8 , 5 6 。此外还有建立散列索引表【1 ,2 8 ,5 7 1 ,基于树形结构避免冗余运算【5 8 1 , 建立流行与非流行两个独立数据库【5 9 】等提高指纹检索效率的方法。 1 4 抗线性速度变化的鲁棒音频指纹的研究 第3 章三种鲁棒音频指纹算法和线性速度变化 3 1 飞利浦鲁棒音频指纹模型 飞利浦鲁棒音频指纹模型【1 l 是业界许多实际商业应用的原型和学术界不断 研究的对象,该模型对每1 1 6 毫秒的音频内容提取3 2 比特的二进制信息作为子 指纹( s u b f i n g e r p r i n t s ) ,将2 5 6 个子指纹( 约3 3 3 秒的音频内容) 作为一个指纹 块( f i n g e r p r i n tb l o c k ) 对音频进行识别,即该系统具有3 秒的粒度。该模型提取音 频指纹的算法流程如下: ( 1 ) 分帧:以每o 3 7 秒为一帧对音频进行分帧,帧与帧之间保持3 1 3 2 的高 重叠率,每一帧用相同长度的汉宁窗进行加权,公式3 1 1 为汉宁窗公式i 删,式 中为汉宁窗长度,大小为一帧音频的样点数。 w ( 刀) = o 5 - 0 5 e o s ( 百2 , 7 n ) 刀= 0 ,l ,一l ( 3 - 1 - 1 ) ( 2 ) 傅立叶变换:用快速傅立叶算法f f t 对每一帧内容进行离散傅立叶变换 d f t ,一维离散傅立叶变换的定义公式如公式3 1 2 所示,其中x ( k ) 为频域信号, x 0 ) 为时域信号,为d f r 变换的样点长度【删: 聊) = 薹m ) c x p ( - 等啪,1 ,- 1 ( 3 1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 单位管理制度合并汇编人事管理十篇
- 高中语文常见的病句类型及其辨析
- 单位管理制度呈现大合集【人员管理】十篇
- 《社交礼仪规章》课件
- 《测绘名词解释》课件
- 消费者心理与奢侈品消费-洞察分析
- 隧道施工能效管理-洞察分析
- 云计算与边缘计算的融合与发展-洞察分析
- 水星地质构造分析-洞察分析
- 移动支付与交易安全-洞察分析
- 电气自动化年终总结
- 工会上墙制度
- 与信仰对话 课件-2024年入团积极分子培训
- 中学美术《剪纸艺术》完整课件
- 国家职业技术技能标准 X4-07-99-10 礼仪主持人(试行)劳社厅发200633号
- 施工现场预防坍塌、高处坠落事故专项整治工作总结
- 医院感染暴发及处理课件
- 小学五年级体育教案全册(人教版)
- 教科版(2024秋)六年级上册1.各种形式的能量 教案
- 二年级数学看错数字问题专项练习
- 2024年1月国家开放大学专科《法理学》期末纸质考试试题及答案
评论
0/150
提交评论