版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Web搜索
郭军
北京邮电大学
第4章音频检索声学特征提取
HMM模型连续语音识别系统语音关键词发现技术语音词汇检测技术非语音音频检索音乐检索音频检索的策略音频检索起步较晚,但目前已经成为一个新热点语音类音频检索的一个自然策略是语音识别文本检索全文的转换或关键词的转换直接基于声学特征进行检索的策略越来越受到重视音频检索也有两种基本模式基于示例/基于查询词音频检索的困难音频信号种类繁多,环境噪声差异性大声学特征提取音频信号常具有高度的时变性,只有在一个较短的时间段内才可视为平稳的分帧操作:语音信号,一般以20ms左右为一帧为去除边界效应,相邻帧要相互重叠,常用的比例是1/2时域特征第n帧信号的短时能量第n帧信号的短时平均幅度第n帧信号的短时过零率频域特征—LPC参数频域上的语音谱S(z)是激励谱E(z)通过传递函数为V(z)的线性系统后产生的输出语音信号产生模型把实际声道近似为P段不同截面积的短声管的串联,采用全极点模型将上式右侧第二项看作s(n)的线性预测值s‘(n),将Ge(n)看作误差项,则声道参数ai可以通过求解线性预测参数的最小均方误差准则求得转换到时域,语音信号s(n)和激励信号e(n)之间的关系为Mel倒谱系数MFCC人耳对临界带宽内的音调具有掩蔽效应当两个频率相近的音调同时发出时只能听到一个音调MFCC的提取过程通过Mel频率滤波器组得到信号的Mel频率HMM模型Markov模型可用离散时域有限状态机FSM描述FSM有N种状态,用1~N表示,在时刻t所处的状态用qt表示每个状态下可能的输出值的为O={o1,…,oM}FSM初始化时可位于N个状态中的任何一个,其初始状态分布为πi
=P(q1=i),i=1,…,NFSM在当前状态以某种概率向任意的状态跳转,状态转移概率矩阵用A表示,A={aij}如果在任意时刻t,外界都看不到FSM的内部状态qt,只能得到一个观测值ot,而ot与qt之间的关系可用条件概率P(ot|qt=j)来描述,则称此Markov模型HMMHMM的描述HMM可用符号λ={A,B,π}来描述A为状态转移概率矩阵A={aij}N×NB为观测值概率矩阵B={bj(ot)}N×Tπ为初始状态分布π={πi}前向HMM的示意图HMM的三个基本问题识别问题对于给定的观测序列O=(o1,…,oT)和模型λ={A,B,π},计算由λ产生O的概率P(O|λ),常用前向和后向算法译码问题对于给定的O
和λ,求λ对应于O的最佳状态序列Q*,即寻找使P(O|λ)达到最大时,O所对应的状态序列,一般采用Viterbi算法求解训练问题对于给定的O,如何获得产生O的概率最大的模型λ,一般采用Baum-Welch算法求解HMM的基本问题的经典算法识别问题前向、后向算法:从入口状态或出口状态开始递推的方法。两种算法可以单独使用,也可结合使用译码问题Viterbi算法:基于动态规划的方法搜索HMM模型中对应观测序列O的可能性最大的状态序列X*训练问题Baum-Welch算法是一种广义的EM算法,利用R个观测序列迭代估计HMM的参数λ基于HMM的语音识别统一框架大词汇量连续语音识别系统语音关键词发现(SKS)技术最初用在人机口语对话系统,现开始在音频检索中应用自底向上法:先将语音识别为一串串音素,然后再检测音素串中是否包含关键词自顶向下法:以关键词的声学模型为基础进行检测基于垃圾(fillerorgarbage)模型的关键词发现
垃圾模型的建立理想的垃圾模型应有足够的能力匹配所有非关键词的语音特征,同时与关键词模型之间有足够远的距离垃圾模型的实现有显式和在线两种方法显式垃圾模型有子词垃圾和集外垃圾两种实现方法子词垃圾方法:Filler与Keyword共享一套子词模型,Keyword是子词的串接,Filler也是子词的串接集外垃圾方法为Filler建立专门的声学模型,与Keyword的声学模型相独立在线垃圾模型将每个语音帧与所有关键词模型匹配最佳的N个单元的平均分作为该帧的在线垃圾模型得分,来衡量该帧是否与某个关键词模型匹配
一个侧重确认的SKS系统以基于HMM的连续语音识别技术为核心采用I型搜索网络高性能的检出关键词确认声学模型以扩展的声韵母单元为识别单元搜索网络权值的设定减小垃圾模型组的权重/加大关键词模型组的权重关键词KWi的权重设为
基于似然比的检出关键词确认假设检验:假定某段语音特征向量O被识别成某个词W原假设H0:O的识别结果为W备择假设H1:O的识别结果为非W则两个假设成立的概率对数似然比
当LR大于阈值t时选择H0,否则选择H1词是由子词串接而成时,可将LR的计算下移到子词层,子词层的似然比可以表示为(λ为目标子词对应的HMM)
反词概率密度的建模(1/2)训练显式反词模型把反词模型分为两部分称为背景模型,用所有的训练样本生成称为冒充模型,用来对混淆音建模。利用与目标子词最容易混淆的前N个子词的样本训练得到。反词概率密度的建模(2/2)利用目标模型外的其它模型构造反词模型假定模型空间中除目标模型λ之外的其它模型为{λi}简单的方法是在{λi}中找一个得分最高的模型与目标模型比较,获得目标模型的得分这相当于用1-Best竞争模型表示反词模型。如果取前M个竞争模型的平均,则:一个通用的计算公式是:语音词汇检测STDSKS事先确定目标词的集合STD每次要检测的词是可变的STD系统一般由索引和搜索器组成索引利用语音识别对语音文档中包含的音素串建立地址和长度标记搜索器根据用户的查询词对索引进行访问索引词是语音识别系统的词汇集中的词加上音素串所能生成的集外词查询词是用户所关心的任意词2006年NIST组织了第一次STD评测,引起了广泛的关注基于Lattice建立索引的方法被多家采用
Lattice与混淆网络音节Lattice:用“网格”的形式保留HMM搜索空间中各种可能的音节路径
混淆网络:将Lattice中不同长度的词序列进行时间对齐,将Lattice简化为一种线性结构
混淆网络的生成算法及定义1:在Lattice上利用前向-后向算法计算弧的后验概率2:剪枝:剪去后验概率小于指定阈值的弧3:词内聚类:合并对应同一个词的弧,并对它们的后验概率求和4:词间聚类:将那些竞争相同时间段并且具有类似语音学特性的词组成一组,不同的时间段形成不同的组,形成一个个混淆集混淆网络的格式定义alignsliceIDsliceIDword1starttimedurationascoregscorephonesphonedurs
基于音节混淆网络的STD系统STD的索引建立利用语音识别完成语音-文本转换STT,生成音节Lattice将Lattice转化为音节混淆网络基于音节混淆网络建立音节索引通过重叠的N-gram音节语法建立前向索引将前向索引倒排,获得反向索引前向索引例(1~3元模型)tianPr:1Starttime:0.40Endtime:0.52SliceID:4tiancanPr:0.7Starttime:0.40Endtime:0.63SliceID:45tiansanPr:0.8Starttime:0.40Endtime:0.63SliceID:45tiancanxiePr:0.85Starttime:0.40Endtime:0.74SliceID:456tiancanyePr:0.95Starttime:0.40Endtime:0.74SliceID:456tiancanbiePr:0.80Starttime:0.40Endtime:0.74SliceID:456canPr:0.4Starttime:0.52Endtime:0.63SliceID:5canxiePr:0.35Starttime:0.52Endtime:0.74SliceID:56……反向索引及检索将所有语音文件的前向索引按照音节串ID(词ID)和置信度大小排序就可构成用于检索的音节串的反向索引两个反向索引I:WordIDPrStarttimeEndtimeSliceIDII:SliceIDWordID-Ptr索引I是词反向索引索引II是混淆集反向索引检索音节串时两个索引交替使用例如搜索“八达岭长城(badalingchangcheng)”时用“badaling”搜索索引I,根据返回结果得到结束SliceID序号将该SliceID加1后搜索索引II,得到一个指向索引I的入口WordID-Ptr,看从中是否可查到“changcheng”非语音音频检索非语音音频,如音乐、鸟鸣、狗叫、虎啸、马达声等无法通过语音识别的方法进行文本标注其检索问题需要采取与语音检索不同的技术来解决,可用机器学习的方法建立声学模型与语义模型之间的联系相关的研究主要有音频分类、音频检索以及图像视频检索音频分类的性能主要取决于声学特征的选取MFCC比LPC更有效音频检索研究重点QBE:哼唱查询(QuerybyHumming)QBK:研究的重点在声音的语义建模,[Buchanan05]提出了一个完整的声学—语义框架和一套建模方法Buchanan的声学—语义框架分别建立声音的声学空间和语义空间在声学空间中,对实际的音频内容进行建模在语义空间中,对描述声音的词汇进行建模两个空间均采用统计方法建模,将实例表示为特征向量在声学空间对不同声音的相似性进行推算在语义空间对不同声音的文本描述间的相似性进行推算两个空间之间的联系依靠已知声音及其文本描述来建立这种联系(对应关系)形成了两个空间分布之间的相互映射声学模型—特征抽取建立声学模型的第一步是确定采用的特征MFCC特征被证明是有效的帧尺寸应小于20ms系数的数量可在8、12、16中间选择外加能量项为捕捉声音的时变特性,需加入Delta倒谱特征,设静态倒谱为x(t),Delta倒谱定义为必要时,还可以Delta倒谱为基础计算二阶差分,即DoubleDelta倒谱,以此反映静态倒谱变化的加速性质利用上述特征,每段声音就会被映射为特征空间中大量的点,形成一个点分布声学模型—点分布的概率建模GMM是对上述点分布进行建模的理想方法将特征空间中的样本当作一个整体来建模,而不去区分它们在时间上的先后顺序尽管一段声音不一定在声学空间形成明显的分布簇,但通过足够的混合分量,它的分布能够得到近似描述一个D维的声学特征向量x,其概率密度函数p(x)的GMMGMM的参数常用EM算法进行估计,一个训练任务需要估计混合权重πi和分布参数θi={μi,Σi}两套参数,混合度K是一个需要预先确定的值GMM参数估计的EM算法E-step:估计各个样本属于各个混合分量的概率,令wij为在当前的参数估计条件下数据xi属于第j个混合分量的概率,则:M-step:利用所有训练数据计算新的权重、均值和协方差矩阵语义模型—VSM语义特征空间由各个声音的描述文档中的词汇支撑VSM用m×n的词—文档矩阵对于包含词汇t1,t2,…tm和文档d1,d2,…dn的声音描述文档集合建模每一列代表一个文档,每一行代表一个词词在各个文档以及整个集合中的权重用TF-IDF表示TF取fij的二值形式bij,IDF取熵加权的方式pij=(fij/gi),gi为ti在集合中出现的次数,n为集合中的文档数语义模型—LSI通过将词—文档矩阵A向低维空间映射来获取词汇之间潜在的关系采用SVD的方法A=USVT只取前k个特征值关于LSI的维数k的实验当k升至50左右时,LSI的效果已经赶上VSM在k等于70左右达到最大,分类错误率在VSM基础上降低50%左右在k等于70到100之间,性能基本保持稳定超过100后,性能开始缓慢下降声学空间与语义空间的联系双向检索(声音语义/语义声音)需要建立声学模型和语义模型之间的映射关系依赖于训练集合中已知的声音及其语义描述之间的关系在声学空间中,n个训练样本(声音)各有一个GMM,每个GMM对每个训练样本都有一个似然度,构成n×n的似然度矩阵在语义空间中,每个声音的描述文档有一个LSI(或VSM)模型。这n个模型之间的相似度也可以用n×n的矩阵来表示观察发现上述似然度矩阵和相似度矩阵尽管有相似之处,但却是不同的,不能相互代替需分别建立声学语义和语义声学的联系声学语义的联系基本原理:利用声学模型计算测试声音与各已知声音的相似度,根据最相似的已知声音的语义文档来描述测试声音具体过程:测试声音MFCC各GMM对该MFCC的似然度似然度最高的语义文档可将已知的n种声音聚类以建立测试声音与混合声音语义间的联系采用汇合聚类策略归一化的相似度侧度聚类结束后,对所产生的层次结构中的所有非叶子节点,都要利用其中包含的所有声音训练一个GMM聚合类用在所含子类的描述中出现频度最高的k个词描述语义声学的联系基本原理:与输入的语义查询最相关的描述所对应的声音是最可能的查询结果查询和描述之间的语义相似度可以通过LSI来计算对未标注的声音数据库进行语义查询的两种方法利用与语义查询最匹配的k个已知声学模型GMM计算未标注声音X的似然度直接利用MFCC的点分布进行计算在MFCC声学空间中,一段声音是一个点分布。可以直接利用各个点分布的质心之间的距离来估测它们之间的相似性,减小计算量质心之间的距离可用马氏距离度量音乐检索是非语音音频检索的典型代表,社会需求十分旺盛哼唱检索研究较早,已有一些系统推向了商用语义检索是新兴的一种音乐检索形式音乐中相关的基本概念(音乐语言的维度)音高(Pitch):声音的振荡频率,将440Hz的声音定为“A"音强(Intensity):与振动的幅度(能量)成正比,也叫响度音色(Timbre):人们能够感知的与发音器官或器具的物理性质有关,独立于音高和音强的声音特性音长(Duration):一个音所持续的时间长度和声(Harmony):两个以上的声音按照一定规律同时发生形成的组合节奏(Rhythm):一个声音序列的长短和强弱的变化旋律(Melody):经过艺术构思而形成的若干声音和谐的有节奏的结构,也叫“曲调”音乐的表现形式及文件格式音乐的表现有创作和表演两种形式乐谱是音乐作品的基本表现形式,是去除了表演风格和方法的“纯净”版本对于同一个作品,不同的演奏(唱)者存在着风格和方法上的差异音乐文件格式符号格式(Symbolicformat):面向乐谱的表示音频格式(Audioformat):用于音乐演出的数字化记录,常见的格式包括CD、AIFF、WAVE、AU、MP3等乐器数字接口MIDI(MusicalInstrumentDigitalInterface):是符号和音频两种格式的折衷,主要用于数字乐器之间的数据交换音乐检索的特征表示旋律和节奏是最常用的音乐检索特征旋律的表示绝对法:用字符或数字对音符的绝对音高、音长进行表示相对法:用后一个音符与前一个音符的音高之差作为音高的特征向量,而用后一个音符与前一个音符的音长的比值作为音长的特征向量轮廓法:常用S(same)、U(up)和D(down)表示一段乐曲中当前音符与其前面的音符的相对高低节奏的表示排除乐曲的旋律,有多种简单的表示方法。例如分别用a,b,c,d,e,f.⋯表示八分之一音符、八分之二音符等等音乐检索的特征提取旋律的提取符号文件十分易于提取旋律要获得音频文件的旋律需要获得每一帧的音高帧内音高提取可分别在时域和频域进行,时域有自相关函数法、平均幅度差分法等,频域有和声乘积频谱法、倒谱法等节奏的提取对于绝大多数流行和摇滚音乐,通常采用“节拍跟踪”技术进行节奏识别从信号处理的角度,可以利用信号幅度包络线的周期变化得到相应的节奏信息,具体可通过自相似矩阵或者自相关函数得以实现哼唱检索通过接收用户哼唱的一段音乐(歌曲或乐曲)片段来对数据库中的音乐进行检索是一种以声学信号查询声学文档的检索,属于QBE系统哼唱一段旋律或曲调来查询音乐是一种自然的易于被用户理解和接受的检索方式需解决的关键问题哼唱中旋律、节奏等关键特征的提取音乐文档和查询之间的相似度的计算对用户不准确的哼唱的“容错”提高系统的计算效率以使检索可以面对大量音乐文档若干代表系统MELDEX(新西兰人开发)面向1万首民间流行的歌曲采用3级音高轮廓和节奏信息表示旋律利用哼唱的前20个音符进行动态规划查询Tunesever(德国人开发)面向1万首经典音乐,1百首流行音乐,1万5千首民间歌曲和1百首国歌采用3级音高轮廓表示旋律用口哨查询MiDiLib(德国人开发)面向2千首MIDI文档采用大于3级的音高加节奏的方式表示旋律用口哨查询旋律的表示和提取用3级或5级音高轮廓线表示旋律3级表示:U/D/S5级表示:++/+/0/-/--旋律提取方法将查询信号或音乐文档信号分割为不同的音符给每个音符赋予一个用频率表示的音高比较相邻音符的音高,获得信号的U/D/S等序列查询信号的旋律提取是一个有难度的问题常要求用户按限定的方式输入查询如口哨、da音、ta音等声学信号的音高提取常采用自相关函数法
因为R(τ)在基频的整数倍处存在较大的峰值查询与索引的匹配索引:音乐文档中显著的容易被人记忆的多个段落的旋律由于用户的哼唱常包含错误,因此查询与索引的匹配需采用有弹性的方法基于最小编辑距离的动态规划方法被普遍应用面向3级轮廓线的递归式最小编辑距离计算方法设旋律A和B的轮廓线分别为(a1,…,am)和(b1,…,bn),则A和B的子串(a1,…,ai)和(b1,…,bj)之间最小编辑距离为查询提交及结果反馈用户查询的提交在客户端录制用户的查询,将其传到服务器后进行旋律提取在客户端就完成旋律提取,只向服务器提交表示旋律的字符序列检索结果的反馈按照匹配度从高到低的顺序反馈,为了提高用户的感受度,应当设置匹配度阈值基于语义描述的音乐标注及检索CAL500(ComputerAuditionLab500-Song)[Turnbull07]包含500首不同年代不同风格的西方流行歌曲每首歌曲至少得到了3个人的标注使用备选的词汇描述歌曲的风格、情感、乐器、音质等备选的描述词237个,标注完成后,只取了159个至少被使用了8次的描述词构成CAL500的词汇表Turnbull借鉴SML进行基于语义描述的音乐标注及检索将CAL500词汇表中的每个词作为一个类通过包含该词的歌曲的音频特征学习类模型GMM基于SML的音乐标注及检索系统元素的描述词汇表用集合V={w1,…,w|V|}表示,其中包含|V|个描述音乐特征的语义词,如“喜悦(happy)”、“蓝调(blues)”“电吉他(electricguitar)”、“假声(falsetto)”等。标注过程:寻找一个词的集合A={a1,…,a|A|},ai∈V,来描述一首新歌sq检索过程:给定一个查询词的集合Q={q1,…,q|Q|},qi∈V,按相关度由高到低的顺序排列r个歌曲S={s1,…,sr}歌曲的文本描述:y=(y1,…,yi,…,y|v|),如果语义词wi与被标注的歌曲有联系,则0<yi≤1,否则yi=0,yi被称为语义权重,用来表示语义词与歌曲之间的联系强度一首歌的音频内容:X={x1,…,xi,…,xT},其中xi为从歌曲的一个片段中抽取的特征向量(MFCCs),T取决于歌曲的长度歌曲标注系统词汇表中的每个语义词被看作一个类,一首歌将被词汇表中多个词赋予标签标注的根据是歌曲音频特征与语义词之间的联系,这种联系可以通过音频特征的词似然度函数P(X|wi),wi∈V来建模利用朴素Ba
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年加工合同范本大全
- 2025年中国医用一次性输液器行业市场发展监测及投资潜力预测报告
- 2025公司租赁房屋合同协议范本
- 2025年中国消费级无人机行业市场调查研究及投资前景预测报告
- 广西南宁市2024年中考语文二模试卷含答案
- 2025订房合同书(南通版)(酒店业务部)
- 2025年建工机械项目可行性研究报告
- 中国厨卫清洁用品行业发展运行现状及投资策略研究报告
- 2025年中国信用卡行业市场全景评估及发展战略研究报告
- 2021-2026年中国雾化吸入器行业发展监测及投资战略规划研究报告
- 2023年中国奥特莱斯行业白皮书
- 2024年江苏省学业水平合格性考试全真模拟语文试题(解析版)
- 第六章 绿色化学与科技课件
- 封窗安全事故免责协议书范文
- 北京市海淀区2023-2024学年高二上学期期末考试 生物 含解析
- 小学数学《比的认识单元复习课》教学设计(课例)
- 小学三年级下册数学(青岛54制)全册知识点总结
- 汽车修理业务受理程序、服务承诺、用户抱怨制度
- 河综合治理工程竣工环保验收监测调查报告
- 2024年院感多重耐药菌医院感染预防与控制技术指南专项测试题有答案
- 2023-2024学年山东省泰安市高一下学期7月期末考试物理试题(解析版)
评论
0/150
提交评论