多媒体技术教程V3ch9_第1页
多媒体技术教程V3ch9_第2页
多媒体技术教程V3ch9_第3页
多媒体技术教程V3ch9_第4页
多媒体技术教程V3ch9_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、人民邮电出版社国防科学技术大学版权所有第九章多媒体信息分析与处理人民邮电出版社国防科学技术大学版权所有9.1 基于内容检索的系统结构和方法9.1.1 基于内容检索的概念基于内容检索的概念所谓基于内容检索,就是从媒体数据中提取出特定的信息线索,然后根据这些线索从大量存储在数据库中的媒体中进行查找,检索出具有相似特征的媒体数据出来。9.1.2基于内容检索系统的体系结构基于内容检索系统的体系结构插入子系统该子系统负责将媒体输入到系统之中,同时根据需要为用户提供一种工具,以全自动或半自动(即需用户部分干预)的方式对媒体进行分割或节段化,标识出需要的对象或内容关键点,以便有针对性的对目标进行特征提取。特

2、征提取子系统对用户或系统标明的媒体对象进行特征提取处理。在提取特征时,往往需要知识处理模块的辅助,由知识库提供有关的领域知识。9.1.2基于内容检索系统的体系结构基于内容检索系统的体系结构数据库媒体数据和插入时得到的特征数据分别存入媒体数据库和特征数据库媒体库包含各种媒体数据,如图像、视频、音频、文本等。特征库包含这种媒体用户输入的特征和预处理自动提取的特征。查询子系统主要以示例查询的方式向用户提供检索接口。9.4.2基于内容检索系统的体系结构基于内容检索系统的体系结构用户查询模块查询格式化媒体处理模块知识辅助模块媒体处理模块新的媒体对象示例媒体媒体1数据库媒体n数据库媒体特征媒体特征 多媒体

3、数据库中基于内容检索的结构示意插入的媒体对象查询的媒体对象媒体处理例程存储的特征值查询特征计算相似性 查询的方法示意9.1.3基于内容检索的过程和指标基于内容检索的过程和指标检索过程 初始检索说明:用户开始检索时,要形成一个检索的格式,最初可以用QBE或特定的查询语言来形成。 相似性匹配:将特征与特征库中的特征按照一定的匹配算法进行匹配。 特征调整:用户对系统返回的一组满足初始特征的检索结果进行浏览,挑选出满意的结果,检索过程完成;或者从候选结果中选择一个最接近的示例,进行特征调整,然后形成一个新的查询。 重新检索:逐步缩小查询范围,重新开始。该过程直到用户放弃或得到满意的查询结果时为止。9.

4、1.3基于内容检索的过程和指标基于内容检索的过程和指标分割 分割,是指把媒体对象划分为几个有意义的子对象的过程。 视频和音频分割主要是根据提取出来的多媒体特征,把连续的多媒体数据流在特征发生突变的地方分割成不同的物理单元,进而由这些不同的物理单元组成高级语义的场景、故事单元和故事片断。 多媒体场景本质上是由文本、图像、图形、音频和视频等多模态交互融合形成的,虽然每一模态都表示了或多或少的场景语义,但是只有多模态媒体融合在一起才能表达一个多媒体场景。 9.1.3基于内容检索的过程和指标基于内容检索的过程和指标识别分类 分割得到的只是多媒体数据的最小物理单元,而用户对多媒体信息进行检索是基于一定语

5、义的,所以还必须通过多媒体识别分类把分割出来的多媒体物理单元标注成预定义的语义类。 对分割出来的多媒体单元数据分类标注可以基于不同级别的语义层次:一是高级语义,这种语义是不同时间和空间的几个多媒体事件高度抽象概念化的结果;二是中级语义,这种语义是对单个事件的描述,不涉及几个事件的交叉;最后是低级语义,它是利用视觉和听觉信息对多媒体进行初步分类的结果。 9.1.3基于内容检索的过程和指标基于内容检索的过程和指标特征匹配 特征匹配是基于内容检索中最关键的部分。因为媒体的内容语义无法十分精确,所以要采用相似性的匹配方法。 9.1.3基于内容检索的过程和指标基于内容检索的过程和指标主要指标 由于基于内

6、容检索系统采用相似性匹配,检索到的对象往往存在一定的误差,这个误差常用查全率(Recall)和查准率(Precision)来表示。查全率是指数据库中所有的相关对象是否都查到了,查准率是指查到的对象是否都是正确的,均用百分比来表示。 人民邮电出版社国防科学技术大学版权所有9.2 图像内容分析及检索方法9.2.1图像特征的提取与表达图像特征的提取与表达 对图像进行内容分析需要考虑三个层次:原始数据层、特征层和语义层。其中,原始数据层采用像素矩阵对图像进行表示;特征层考虑像素模式的特性;语义层则关心的是图像的含义。1图像物理特征的提取与表达图像颜色特征的提取与表达 图像纹理特征的提取与表达 图像形状

7、特征的提取与表达 图像空间关系特征的提取 9.2.1图像特征的提取与表达图像特征的提取与表达2图像语义特征的提取 人们判断图像的相似性并非仅仅建立在图像视觉特征的相似性上。用户在检索图像时,存在一个大致的概念,这个概念建立在图像所描述的对象上,而不是颜色、纹理等特征,直观的进行分类并判断图像满足自己的需要程度,这就需要对图像含义的理解。这些含义就是图像的语义特征。图像的语义信息可以根据层次的不同分成场景语义、对象语义、情感语义。 感兴趣区域特征的提取 局部不变特征的提取 9.2.1图像特征的提取与表达图像特征的提取与表达3图像高维特征缩减和索引 图像高维特征缩减 图像高维特征索引9.2.2图像

8、相似性检索与匹配方法图像相似性检索与匹配方法 1利用颜色直方图进行检索 指明颜色组成 指明一幅图像 指明图像中的一个子图 2颜色直方图的相似性匹配9.2.3图像检索中的相关反馈机制图像检索中的相关反馈机制 在基于内容的图像检索中,查询得到的结果应该是一组和用户提交的查询请求相似的图像集合,然而由于基于内容的图像检索还无法达到非常精确的匹配,结果中必然含有非用户想要查询的图像。因而,用户在结果中再次选择与其检索目标最接近的图像作为示例图像进行二次查询,系统将根据用户的反馈信息对图像库进行相应的修改,并重新返回一组结果,这样的过程就是图像检索中的用户相关反馈问题。 相关反馈可以让用户的个性化反映到

9、结果中,并提高系统的适应性。 人民邮电出版社国防科学技术大学版权所有9.3 视频结构化与视频摘要9.3.1 视频媒体基本特性视频媒体基本特性 1视频序列 视频序列主要由镜头(Shot)组成,每一个镜头包含一个事件或一组连续的动作。每个镜头中的内容发生在一个场景(Scene)中,一个场景可以分散在多个镜头之中。一个故事将由一组镜头组成,这中间将会有多个场景不断地进行变化。对视频序列的分割最基本的单位就是镜头,往下就是镜头中对象的运动或图像,可以另外处理;往上是场景,将由多个镜头组成。 9.3.1 视频媒体基本特性视频媒体基本特性 2镜头的切换 镜头的切换点是视频序列中两个不同镜头之间的分隔和衔接

10、,是在导演切换台上或特技发生器上做出来的。切换的方法主要有两类。直接切换 一个镜头与另一个镜头之间没有过渡,由一个镜头的瞬间直接转换为另一个镜头。渐变切换 镜头与镜头之间的变换是缓慢过渡的,没有明显的镜头跳跃。 9.3.1 视频媒体基本特性视频媒体基本特性 3镜头的运动 在拍摄时根据剧情的需要,可以采用多种镜头的运动方式对镜头进行处理。镜头的运动方式主要包括:推拉镜头(Zooming)摇镜头(Panning) 跟踪(Tracking) 还有一些镜头运动的方式,如水平、垂直的移动,仰视、侧视拍摄,近摄、远摄等,都取决于所要表现的内容。 9.3.1 视频媒体基本特性视频媒体基本特性 4视频的层次化

11、结构 视频数据从表面上看是非结构化的数据流,其最高层是整个视频流,最低层是一帧帧的图像。而从它的拍摄和情节的组织上来讲,视频是有结构的,一般的视频节目都具有分层结构。 视频结构化工作就是要实现结构切分和内容提取,主要步骤包括镜头边界探测(Shot Bound Detection)、关键帧(Key Frame)提取和故事(场景)单元边界探测(Story Bound Detection),在此基础上可以对视频的内容进行浓缩和摘要。 9.3.2 镜头边界探测镜头边界探测 1直方图比较法 直方图比较法是一种简单的镜头分割方法。由于在连续的视频序列中,如果没有特殊的处理,相邻的两幅图像的差别是很小的。如

12、果发生了镜头转换,在帧与帧的差值上就会发生大的改变。对于突变镜头切换来说,帧与帧之间的直方图差值是很明显的,也就很容易确定出视频序列中的镜头起点和终点。 9.3.2 镜头边界探测镜头边界探测 2双重比较法 对于采用渐变类的镜头切换来说,直方图的差值虽然有,但不很明显。 所谓双重比较法,是指采用两个阈值。首先用第一个较低的阈值来确定出潜在渐变切换序列的起始帧。一旦确定了这个帧,就将它与后续的帧进行比较,用得到的差值来取代帧间的差值。这个差值必须是单调的,应该不断地加大,直至这个单调的过程中止。这时,将这个差值与第二个较大的阈值进行比较,如果超过了这个阈值,就可以认为这个不断比较差值单调增的视频序

13、列对应的就是一个渐变切换点。9.3.2 镜头边界探测镜头边界探测 3基于背景的镜头探测方法 同一镜头通常都含有相同的背景区域。摄像机在做摇动、推拉和旋转等运动时,其对象有可能移动、变化、快速运动或者消失,但是背景区域的变化相对而言却很小。基于这一特点,可以认为具有相同背景区域的图像帧可能属于同一镜头,一旦背景区域发生了显著变化,则认为出现了镜头边界。同时,为避免出现背景相似而镜头内容完全不同的情况,即漏检某些镜头,在分析背景区域的基础上,对主要对象区域进行分析,以辅助镜头边界的准确探测。 9.3.3关键帧提取关键帧提取 1首尾帧法和中间帧法 首尾帧法将切分得到镜头中的第一幅图像和最后一幅图像作

14、为镜头关键帧。中间帧法,选择在时间上居中的一幅图像作为关键帧,这种方法简单实用,适合多种类型的镜头。 首尾帧法和中间帧法虽简单,但它不考虑当前镜头视觉内容的复杂性,并且限制了镜头关键帧的个数,使长短和内容不同的视频镜头都有相同个数的关键帧,这样做并不合理。 9.3.3关键帧提取关键帧提取 2基于颜色特征法 在基于视频图像颜色特征提取关键帧的方法中,镜头当前帧与最后一个判断为关键帧的图像比较,如有较多特征发生改变,则当前帧为新的一个关键帧。9.3.3关键帧提取关键帧提取 3基于运动分析法 将相机运动造成的图像变化分成两类:一类是由相机焦距变化造成的;一类是由相机角度变化造成的。对前一种,选择首、

15、尾两帧为关键帧;对后一种,如当前帧与上一关键帧重叠小于30%,则选其为关键帧。 9.3.3关键帧提取关键帧提取 4基于聚类的方法 基于聚类的关键帧提取方法不仅计算效率高,还能有效地获取视频镜头变化显著的视觉内容。对于低活动性镜头,大多数情况下它会提取少量的关键帧或仅仅一个关键帧。但对于高活动性镜头,它会根据镜头的视觉复杂性自动提取多个关键帧。 9.3.4故事单元边界探测故事单元边界探测 故事又称“故事单元”(Story Unit),一般由多个连续的镜头组成,描述一段具体的语义内容,针对的是同一环境下的同一批对象,描述的是发生在同一环境下的一段情节。 播音员镜头(简称口播帧)是指在新闻视频中重复

16、且间隔出现的含有一个(或多个)播音员的镜头,是新闻视频所特有的结构标志,它的出现通常被视为一个新的新闻故事单元的开始。 对播音员镜头探测比较有代表性的方法包括模板匹配法、多特征融合法以及聚类法。 9.3.5 视频语义对象提取视频语义对象提取 视频中的语义对象是指用户所关注的一些重要语义内容,例如重要的人物、出现的重要文字信息等。 视频中人脸对象的探测与识别视频中字幕信息的提取运动对象探测与跟踪 9.3.6 视频摘要视频摘要 视频摘要,就是以自动或半自动的方式,通过对视频的结构和内容进行分析,从原视频中提取出有意义的部分,并将它们以某种方式合并成紧凑的、能充分表现视频语义内容的视频概要。其目标就

17、是把原始视频流的内容用一句简单的“话”表达出来。 视频摘要有多种表现形式,它可以是一段文字、一幅图像或多幅图像的组合,也可以是一段视频或者由多种媒体组合而成的多媒体文档。9.3.6 视频摘要视频摘要 (1)文字描述 这种方式是最紧凑的视频摘要形式,非常便于用户理解和建立索引,但很难由计算机自动生成能准确概括视频内容的文字描述。 (2)视频代表帧 这是一种使用较多的视频表现形式,镜头、场景和故事单元都可以用一幅或几幅从视频中抽取的图像来作为这段镜头、场景和故事单元的摘要。9.3.6 视频摘要视频摘要 (3)情节串连图 这种摘要十分类似于电影海报,它是由一组从视频中抽取的图像按照时间顺序组合而成,

18、将这些代表帧合成在一起,形成名为“漫画书”(Comic Book)的视频摘要。(4)视频剪辑 视频剪辑或称缩略视频,是由视频中的一些片段拼接而成,或者是由视频中的图像序列和声音片段合成得到。用户可以通过播放这些相对短小的视频片段了解整个视频的内容。 9.3.6 视频摘要视频摘要 (5)多媒体视频摘要 多媒体视频摘要是由多种媒体形式组成的视频内容表现方式。它将文字、图像、声音和视频等媒体综合集成在一起来表现视频的主要内容。 人民邮电出版社国防科学技术大学版权所有9.4 基于内容的音频处理与检索9.4.1音频媒体基于内容检索的概念音频媒体基于内容检索的概念 基于内容的音频检索,是指通过音频特征分析

19、,对不同音频数据赋以不同的语义,使具有相同语义的音频在听觉上保持相似。 在音频检索中,也需要经过特征提取、音频分割、音频分类识别和音频检索这几个关键步骤 9.4.2音频结构化音频结构化 音频结构化包括两个方面的内容:音频语义内容分析和音频结构分析。 音频语义内容是通过对音频数据的分析获得音频中的一些特定语义内容。原始音频是非结构化的数据流,无法直接从中提取有意义的语义内容,这就需要对原始音频按一定语义内容进行时域上的分割,即音频结构分析。9.4.2音频结构化音频结构化 分类是音频结构分析的一种主要方法,类别信息包含了音频数据的重要语义内容,它能够让用户对音频内容有一个全局概念上的认识。根据音频

20、的作用和特点一般可将音频分为如下图所示的类别层次。 9.4.2音频结构化音频结构化 另一种结构化模型类似视频的结构化,如下图所示。9.4.3音频特征提取音频特征提取 1特征抽取的相关技术 音频是一种缓慢时变的信号,可以应用数字信号处理技术和信号系统理论来抽取音频的物理特征。对音频特征的抽取要用到多种方法,其中短时时域处理技术短时频域处理技术和同态处理技术是最基本、最典型的技术。 短时处理技术将音频信号分成一些相继的短段进行处理。9.4.3音频特征提取音频特征提取 短时处理技术分为短时时域处理技术和短时频域处理技术。 短时时域处理主要是计算音频的短时能量短时平均幅度短时平均过零率和短时自相关函数

21、。这些计算都是以音频信号的时域抽样为基础的。短时频域处理主要是对各个短段音频信号进行频谱分析 。 9.4.3音频特征提取音频特征提取 2特征分析与抽取 根据短时处理技术理论,音频帧是处理音频的最小单位,通常的音频处理中帧的长度一般取为2030ms。特征抽取的基础是数字信号处理技术和信号系统理论,特征抽取包括3个步骤:原始音频预处理,特征抽取和特征集的构造。 9.4.3音频特征提取音频特征提取 (1)原始音频预处理 原始音频往往含有尖锐噪音,会影响处理效果。同时音频处理的单位是帧,所以特征提取前,需要对原始音频数据做预处理,包括预加重、切分和加窗成帧。 (2)特征抽取 首先计算帧层次上的特征,然

22、后在此基础上抽取子带能量比均值、带宽均值、频率中心均值、基音频率标准方差、和谐度、平滑基音比、High ZCR比率、Low Frequency Energy比率和频谱流量等clip层次上的特征来构造特征集。9.4.3音频特征提取音频特征提取 (3)特征集构造 在特征抽取的基础上构造音频分类的特征集合。由于不同音频特征的值有很大的差别,所以要对特征集合进行归一化处理。9.4.4音频分类音频分类 (1)基于规则的静音与噪音分类器 静音和噪音是识别相对简单的声音类别,特征与其他音频类别区别明显,所以采用基于规则的方法识别这两类音频类别。静音的识别规则 静音是指人耳听不到的声音,它与音强有关;由人的听

23、觉特性可知,静音还与音长有关。这些特性表现在能量谱上,就是在一定的时间内音频流的能量较低。 9.4.4音频分类音频分类 噪音的识别规则 噪音是指不包含任何语义内容的音频clip,主要考虑宽带噪声。宽带噪声是比较普遍的一类噪声,其来源很多,包括热噪声、气流(如风、呼吸等)噪声及各种随机噪声源。其在频域上与语音中的辅音频谱相似,宽带噪声的ZCR很高,这是因为其高频分量的能量较大,在时域上表现为信号比较杂乱、无规律。9.4.4音频分类音频分类 (2)多类分类器的构造 通常需要将非静音噪音clip分为纯语音、含背景音的语音、音乐和环境音4类。根据SVM决策树方法来构建多类分类器,则需要构建3个SVM。

24、基于SVM决策树方法的多级分类器结构图如下图所示。9.4.5音频分割音频分割 音频分割是音频镜头切分的技术基础,它直接关系到音频镜头切分的精度,进一步会影响到音频语音内容提取的准确性。音频分割完成两个方面的工作:一是根据音频连续特性对分类结果进行平滑,修正违背音频连续性的误分类;二是合并类别相同的音频clip,对音频流按类别在时间轴上进行分割,生成音频镜头。 滑窗法 基于规则的分割方法 基于熵和动态规划算法的分割方法 9.4.6基于内容的音频检索基于内容的音频检索 基于语义描述的音频查询方式 基于示例的音频检索方式 音频示例相关反馈方式 人民邮电出版社国防科学技术大学版权所有9.5 多媒体融合分析与检索 多媒体信息分析可以借助各种媒体之间的关系融合进行。例如,在对新闻视频进行分析时,可能需要对音频、视频和文本信息进行综合分析,才能得到更好的结果,如下图表示的过程。 9.5.1多媒体特征融合多媒体特征融合 下图所示的超级隐马尔科夫链(superHMM),就

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论