




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、基于内容的音频检索关键技术的研究 问题: 传统的方法,其主要缺点有:一是当数据量越来越多时,人工注释的工作量加大;二是人对音频的感知有时难以用文字注释表达清楚,人工注释存在不完整性和主观性;三是不能支持实时音频数据流的检索。这里主要综述了音频检索方法,讨论了一些音频检索中的关键技术:音频特征提取、音频分类、语音识别技术等。总体介绍该图给出音频信息检索的系统结构.预处理:语音处理,音频分割、特征提取、分类等等.用户的查询:用户查询接口、检索引擎. 元数据库:特征库、索引和模型描述库等. 一段长音频, 首先进行分割处理,获得音频录音的结构关系。然后进行特征提取.通过分割处理。音频经过样本的训练和分
2、类,建立分类目录.语音识别把语音信号转换为文本,存入文本库.提取的声音特征保存在特征数据库中元数据库中的记录与音频数据库中的媒体记录关联.用户通过用户查询接口检索音频信息.用户可以查询音频信息,或浏览分类目录,对于长段的音频,可以进行基于内容的浏览,即根据音频的结构进行非线性浏览.检索引擎利用相似性和相关度来搜索用户要求的信息.查询矢量和库中音频矢量之间的相似性由距离测度.每类特征都可以有不同的距离测度方法,以便在特定应用或实现中更为有效.从以下几个方面分别细说从以下几个方面分别细说1.基于内容的音频检索操作步骤2.音频特征提取3. 音频分类4.音频检索1.基于内容的音频检索操作步骤:(1)将
3、音频数据分类,分成语音、音乐及一般类型。(2)不同类型的音频数据可以以不同的方式进行处理和索引。(3)查询音频片段要同样地进行分类、处理和索引。(4)根据查询索引和数据库中音频索引之间的相似性,对音频片段进行检索。再根据相关度进行排序。2.1 音频特征提取时域特征提取和频域特征提取(1) 音频时域特征的提取 平均能量平均能量说明了音频信号的强度, 过零率过零率指每秒内信号值通过零值的次数, 静音比静音比表示静音的声音片段的比例。 傅里叶变换可分解出音频信号的频率成分,可提取的音频频域特征有带宽、频谱中心、谐音、音调等。带宽带宽说明了声音的频率范围。频谱中心频谱中心也称亮度,是一个声音频谱能量分
4、布的中心点。谐音谐音为最低频率的倍数的频谱成分。音调音调是听觉分辨声音高低的特性,完全由频率决定,可通过频谱估计2.2 音频频域特征的提取3.1 音频分类(1) 不同类型声音的主要特征语音音乐带宽1007000Hz1620000Hz频谱中心低高静音比高低平均过零率高低3.2音频分类方法及顺序首先首先计算输入音频片段的频谱中心,如果比阈值高,则认为是音乐;否则是语音,其次其次计算静音比,如果静音比低,则认为是音乐;否则,认为它是语音或独奏音乐。最后最后计算平均过零率ZCR,如果ZCR 可变性高,则它是语音,否则它是独奏音乐。特征判定的顺序是非常重要的,一般首先判定差别性大、复杂性低的特征,这样可
5、降低整个计算量。4.音频检索 将音频分为语音和音乐,使用不同的技术对它们进行单独处理。1. 语音识别和检索语音索引和检索的基本方法是运用语音识别技术把语音信号转化为文本,然后应用IR技术进行索引和检索。1.1 语音识别自动的语音识别(ASR)问题就是一个模式匹配问题。一个ASR系统通常包括训练和模式匹配两个阶段。在训练阶段, ASR系统收集大量的发音者的语音序列,然后ASR系统提取每个语音单位的特征并存放在系统中。 在识别过程中,ASR系统用与训练阶段相似的方法对输入语音进行处理,产生特征矢量,找到与输入语音的特征矢量最匹配的特征矢量的单词序列。其中基于HMM 的技术是最为流行且语音识别性能最
6、好的,下面将详细介绍。 首先将每个音素分解成输入状态、中间状态和输出状态 3个可听到的状态,每个状态可持续超过一个帧的时间(通常为 10ms)。在训练阶段,使用训练语音数据为每个可能的音素构建 ASR 。每个 ASR都具有以上3个状态,并由状态转换概率和符号发生概率来定义。由于时间只向前流动,因此一些转换是不允许的。 在训练阶段末期,由不同的发音者、时间变化和周围的声音引起的变化,是每个音素都由捕获不同帧的特征矢量变化的一个 ASR表示。在语音识别阶段,按照帧的顺序计算每个输入音素的特征矢量。识别问题的目的是去发现哪个音素 ASR最可能产生输入音素的特征矢量序列。ASR对应的音素被认为是输入音
7、素,由于一个单词含有大量的音素,因此通常把音素序列放在一起进行识别。1.2发音者识别(2)音乐索引和检索音乐的类型有两种:结构化的(或综合的)音乐和基于样本的音乐。2.1 结构化音乐的索引和检索结构化音乐和声音效果是由一系列指令或算法来表示的。最常见的结构化音乐是 MIDI,它把音乐表示成大量的音符和控制指令。结构化音乐和声音效果非常适合于音频基于精确匹配的查询。用户可指定一个音符序列作为查询,尽管可以找到该音符序列的精确匹配,但是由于相同结构化的声音文件可以由不同的设备以不同的方式进行表现。目前一种可行的方法是基于音符序列的音调变化来检索音乐。其基本思想是:将声音文件中的每个音符(第一个音符
8、除外) 转换成相对前一个音符的音调变化。三种状态:该音符比前一音符高(U)、该音符比前一音符低 (D)和该音符与前一音符相同或相似(S)。按这种规则,任意一段旋律可转化为一个包含字母 U、D、S 的符号序列,检索任务也就变成了一个字符串匹配过程。该方法是针对基于样本的声音检索提出的,也同样适用于结构化声音检索。2.2 基于样本的音乐的索引和检索基于样本的音乐的索引和检索有两种通用的方法:一是基于抽取的声音特征集合,二是基于音乐音符的音调。1. 基于特征集的音乐检索基于特征集的音乐检索 对每种声音抽取听觉特征集,将其表示成一个矢量。通过计算查询音乐和每个存储音乐片段相应的特征矢量之间的近似度来计算它们的相似性。该方法可应用于一般的声音中,包括音乐、语音和声音效果。2.基于音调的音乐检索基于音调的音乐检索 该方法与基于音调的结构化音乐检索相似,两者之间的主要区别在于基于音调的音乐检索必须抽取或估计每个音符的音调。 将一段旋律转化为一系列相对音调转移序列的过程称为音调跟踪音调跟踪。音调跟踪是自动化音乐转录的简化形式,它把音乐声音转化成符号表示。该方法的基本思想为:由于音乐的每个音符都是由它的音调表示的,因此一个音乐片段或部分可表示成一个序列或音调串。检索是以查询音乐和每个存储音乐片段相应的音调串之间的相似性为基础,音调跟踪和串相似测量是检索
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025云南省建筑安全员知识题库
- 郑州工业安全职业学院《大数据快速运算》2023-2024学年第二学期期末试卷
- 辽宁装备制造职业技术学院《医学微生物学实验转专业》2023-2024学年第二学期期末试卷
- 山东管理学院《诊断胸肺检查》2023-2024学年第二学期期末试卷
- 广州城建职业学院《电子商务技术基础》2023-2024学年第二学期期末试卷
- 太原科技大学《城市规划与管理》2023-2024学年第二学期期末试卷
- 玉溪职业技术学院《轧制工艺学管材生产》2023-2024学年第二学期期末试卷
- 商丘职业技术学院《表面活性剂化学与应用》2023-2024学年第二学期期末试卷
- 五年级教师2025年第一季度工作计划
- 做账实操-商贸企业成本核算方法
- 狼道的读后感课件
- 2022版高中生物必修二第一章测试题及答案解析
- 【初中语文】《说和做》课件+统编版语文七年级下册
- 机修知识培训教材课件
- 跨云平台的DevOps集成
- 纺织染整行业安全培训
- 小学综合实践活动《察探究活动跟着节气去探究》课教案
- 水工建筑物维护技术
- 载重汽车的安全操作规程范本
- 平台对接技术方案
- 化妆品包装相容性评估方法
评论
0/150
提交评论