




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第9章多媒体内容分析和搜索,9.1内容搜索概述,9.1.1内容搜索概念,基于内容搜索从媒体数据中提取特定信息线索,然后基于这些线索在数据库内存储的大量媒体中查找,以检索具有相似特征的媒体数据。基于9.1.2内容检索系统的典型结构,插入子系统充当将媒体输入系统的角色,并根据需要提供完全自动或半自动(即需要用户部分干预)分割或分段媒体的工具。标识目标要素提取目标所需的对象或内容键。要素提取子系统执行用户或系统中显示的介质对象的要素提取。萃取图征时通常需要知识处理模组的支援,知识库(International Processing Module)通常提供相关领域的知识。根据9.1.2内容搜索系统的一
2、般结构,数据库媒体数据和插入时获取的特性数据分别存储在媒体数据库和功能数据库媒体库中。包含各种媒体数据,如图像、视频、音频、文本等。特征库包含这些媒体用户输入功能和字典处理自动提取功能。查询子系统主要是示例查询,为用户提供搜索界面。9.4.2基于内容搜索系统的体系结构、9.1.3基于内容搜索的流程和指标、搜索流程初始搜索说明:用户开始搜索时可以配置为QBE或特定查询语言以形成搜索格式。相似性匹配:在要素库中的要素和特定匹配算法之间匹配要素。要素曹征:用户浏览系统返回的搜索结果集,选择满意的结果,搜索过程完成。或者,您可以从候选结果中选择最近的示例,进行特征调整,然后创建新查询。重新搜索:逐渐缩
3、小查询范围,然后重新开始。牙齿过程将持续到用户放弃或获得满意的查询结果。9.1.3基于内容检索过程和指标将媒体对象划分为有意义的子对象的过程。视频和音频分割主要是根据提取的多媒体特征,在发生特性的突变位置将连续的多媒体数据流划分为单独的物理单元,这样的徐璐其他物理单元构成了高级意义上的场景、故事单元和故事段。多媒体场景基本上是通过多模式交互(如文本、图像、图形、音频、视频等)形成的。每个模式在一定程度上表示场景的意义,但是多模式媒体必须融合才能表示多媒体场景。基于9.1.3内容检索过程和指标,分类分割只是多媒体数据的最小物理单元,用户检索多媒体信息是基于特定语义的,因此,通过多媒体识别分类分割
4、的多媒体物理单元必须用预定义的语义类表示。分割的多媒体单位数据的分类标注可以徐璐基于不同级别的语义层次。一个是高级意义,它是根据时间和空间对多个多媒体事件进行高度抽象概念化的结果。第二,是中级语义,牙齿语义是对单个事件的解释,不包括几个茄子事件的交叉。最后,利用视觉和听觉信息,作为多媒体初步分类结果的低级语义。基于9.1.3内容搜索过程和指标,特征匹配功能匹配是内容搜索中最重要的部分。媒体的内容意义不是很准确,所以要采用相似性的匹配方法。基于9.1.3内容搜索过程和指标。主要指标基于内容搜索系统采用相似性匹配,因此检索的对象经常存在一定的误差。牙齿误差通常用“检验率”(Recall)和“准确度
5、”(Precision)表示。战栗的意思是发现了数据库内的所有相关对象,准确度是发现的对象全部正确,全部以百分比表示。、9.2图像内容分析和检索、9.2.1图像特征提取和表示、图像内容分析应考虑原始数据层、特征层和语义层次的三个茄子阶段。其中,原始数据图层使用像素矩阵表示图像。属性层考虑像素模式的属性。语义层对形象的意义感兴趣。1图像物理特征提取和表示图像颜色特征提取和表示图像纹理特征提取和表示图像形状特征提取和表示图像空间关系特征提取,9.2.1图像特征提取和表示,2图像语义特征提取人认为图像相似性不仅仅基于图像视觉特征的相似性。当使用者搜寻影像时,一般概念是建立在影像所描述的物件上,而不是
6、建立在颜色、材质等特性上。要从视觉上进行分类并确定图像满足自身需求的程度,需要理解图像的含义。这些意义是图像的语义特征。图像的语义信息可以根据层次分为场景语义、对象语义、情感语义。感兴趣的区域特征提取部分不变特征提取、9.2.1图像特征提取和表示、3图像高维特征缩小和索引图像高维特征缩小图像高维特征索引、9.2.2图像相似性搜索和匹配方法、1颜色直方图搜索表示颜色配置。表示图像的子图2颜色直方图之一的图像的相似性匹配。9.2.3图像检索的相关反馈机制,在基于内容的图像检索中,查询结果必须是与用户提交的查询请求类似的图像集,但是基于内容的图像检索还不能获得非常精确的匹配,因此结果必须包含用户要查
7、询的非图像。(David aser、Northern Exposure(美国电视电视剧)、Northern Exposure(美国电视电视剧)和基于内容的图像搜索),因此用户从结果中重新选择与搜索对象最近的图像作为示例图像,进行第二次查询。图像库根据用户的反馈进行相应的修改,并返回结果集。这些过程是图像检索中的用户相关反馈问题。通过相关反馈,可以将用户的个性化反映到结果中,并提高系统的适应性。9.3视频内容分析和搜索,9.3.1视频媒体基本特征,1视频序列视频序列主要由镜头(Shot)组成,每个镜头包含一个事件或一系列连续动作。每个镜头中的内容发生在一个场景(Scene)中,一个场景可以分布在
8、多个镜头之间。一个故事由一套镜头组成,其间多个场景会不断变化。视频序列的分割最基本的单位是镜头,下面是镜头中对象的运动或图像,可以单独处理。上面是场景,由多个镜头组成。9.3.1视频介质的基本特性,2镜头切换镜头切换点是视频序列中徐璐其他两个镜头之间的分离和连接,是在监督转换台或特技发生器中制作的。切换方法主要有两种茄子类型。没有直接切换的镜头和其他镜头之间的转换,而是在一个镜头瞬间直接转换为另一个镜头。渐变切换镜头和镜头之间的切换缓慢,没有明显的镜头跳跃。9.3.1视频媒体的基本特性,3镜头运动可以根据拍摄中剧情的需要,以多种镜头运动方式进行镜头处理。镜头运动方式主要包括推镜头(Zoomin
9、g)、晃动(Panning)、跟踪(Tracking)和镜头运动方式(水平、垂直移动、低面、侧面拍摄、近距离拍摄、远距离拍摄等)。9.3.1视频介质的基本特性,4视频层视频数据是表面上的非结构化数据流,顶层是整个视频流,底层是一帧的图像。它的拍摄和情节的组织上,有视频结构,一般视频节目都有层次结构。视频结构化任务是实现结构分割和内容提取。主要步骤包括镜头边界检测、关键帧提取和故事(场景)单元边界检测、9.3.2视频结构分析、镜头边界检测关键帧提取故事单元边界检测、1、镜头边界检测在连续的视频序列中,如果没有特殊处理,两个相邻图像的差异很小。发生镜头转换时,帧和帧之间的差异可能会发生重大变化。对
10、于突变镜头切换,帧和帧之间的直方图差异很明显。这意味着在视频序列中很容易确定镜头的起点和终点。1,镜头边界检测,使用2双比较法渐变类的镜头切换,直方图差异不明显。双比较法是指使用两个茄子阈值。首先,使用第一个低阈值确定潜在渐变切换序列的开始帧。确定牙齿帧后,将其与后续帧进行比较,并用结果差异替换帧之间的差异。牙齿差异必须单调,继续增加,直到牙齿单调过程停止。如果将牙齿差值与第二个较大的阈值进行比较,则可以认为,如果超过牙齿阈值,牙齿差值单调递增的视频序列就是渐变切换点。1,镜头边界检测,3基于背景的镜头检测方法相同的镜头通常都包含相同的背景区域。相机进行摇晃、推、旋转等运动时,对象可能会移动、
11、更改、快速运动或消失,但是背景区域的变化相对较小。基于牙齿功能,具有相同背景区域的图像帧可以属于同一镜头,如果背景区域发生重大变化,则可以认为具有镜头边界。此外,在镜头内容完全不同的情况下(即,部分镜头缺失,基于背景区域分析),分析关键对象区域,以支持镜头边界的精确检测。2,提取关键帧,1第一帧和中间帧方法将镜头中的第一个图像和最后一个图像划分为镜头关键帧。中间帧方法,选择时间中心的图像作为关键帧。牙齿方法简单实用,适用于多种镜头类型。前后和中间帧方法很简单,但不考虑当前镜头可视内容的复杂性,限制镜头关键帧的数量,使长度和内容不同的视频镜头都有相同数量的关键帧是不合理的。2,关键帧提取,2基于
12、颜色特征的方法在基于视频图像颜色特征提取关键帧的方法中,将镜头当前帧与最后确定为关键帧的图像进行比较。如果更多特征发生变化,则当前帧为新关键帧。2、关键帧提取、3根据运动分析,将相机运动导致的图像更改分为两个茄子类别。一个是相机焦距变化引起的。一是由于相机角度的变化。在前面的情况下,选择第一帧和最后两帧作为关键帧。在后一种情况下(例如,当前帧与前一个关键帧重叠小于30%),选择此选项作为关键帧。2,关键帧提取,4基于群集的方法基于群集的关键帧提取方法不仅计算效率高,而且可以有效地获得视频镜头变化的明显可视内容。对于未充分利用的镜头,大多数情况下提取较少的关键帧或仅提取一个关键帧。但是,对于高活
13、动镜头,将根据镜头视觉复杂性自动提取多个关键帧。3,故事单元边界检测,故事,又称“故事单元”,通常由多个连续镜头单元组成,描述特定含义内容,适用于在同一环境下放置相同对象。描述在同一环境中发生的情况。播音员镜头(口广播帧)是新闻视频内重复的一个或多个播音员镜头、新闻视频唯一的结构标志,通常被视为新新闻故事单元的开始。播音员镜头检测的代表性方法包括模板匹配方法、多特征融合方法和群集方法。9.3.3视频语义对象提取,视频中的语义对象是指用户感兴趣的重要语义内容(如重要人物、出现的重要文字信息等)。视频中面部对象检测和识别视频中的字幕信息提取运动对象检测和跟踪,9.3.4视频摘要,视频摘要,即自动或
14、半自动分析视频结构和内容,从原始视频中提取有意义的部分,以某种方式组合在一起的小型、视频意义内容可以充分表达的视频摘要。目标是用简单的“话”来表达远视视频流的内容。视频摘要有多种表达方式,可以是文本、图像或多个图像的组合、视频或各种媒体组合的多媒体文档。9.3.4视频摘要,(1)文字说明牙齿方法是最紧凑的视频摘要格式,用户可以理解和索引,但是计算机很难自动生成准确摘要视频内容的文字说明。(2)视频代表帧镜头、场景和故事单元从视频中获取的一个或多个图像可以用作牙齿镜头、场景和故事单元的摘要的更多视频表示。与电影海报非常相似,由从视频()中提取的一组图像组成,可形成(3)视频摘要、(3)分镜(3)
15、分镜(Comic Book)视频摘要。(4)视频剪辑视频剪辑或缩写视频、视频内的部分段接合,或在视频过程中合成为图像序列和声音段。用户可以播放这些相对较短的视频剪辑,以了解整个视频内容。9.3.4视频摘要,(5)多媒体视频摘要多媒体视频摘要是由多种媒体格式组成的视频内容的表示法。整合文字、影像、声音、视频等媒体,呈现视频主要内容。9.4音频内容分析和搜索、9.4.1内容音频搜索概述、基于内容的音频搜索、音频功能分析,徐璐为不同的音频数据徐璐赋予不同的含义,使具有相同含义的音频在听觉上保持相似。音频搜索还包括特征提取、音频分割、音频分类识别和音频搜索的主要阶段、9.4.2音频结构化分析、音频结构
16、化包括音频语义内容分析和音频结构分析两个茄子方面。音频语义内容是通过分析音频数据获得音频的特定语义内容。远视音频是非结构化数据流,不能直接提取有意义的语义内容,因此必须对原始音频进行具有特定语义内容的域(即音频结构分析)。9.4.2音频结构分析、分类是音频结构分析的主要方法,类别信息包含音频数据的重要语义内容,使用户了解音频内容的全局概念。根据音频的作用和特性,通常可以将音频分为下图所示的类别层次结构。9.4.2音频结构化分析,另一个结构化模型类似于视频结构化,如下图所示。9.4.3音频特征提取、1特征提取相关技术音频是一种缓慢的时变信号,可以应用数字信号处理技术和信号系统理论提取音频的物理特征。音频特征提取使用了多种茄子方法。其中短时间域处理技术短-频域处理技术和同态处理技术是最基本、最典型的技术。短时间处理技术将音频信号分为连续的短片段进行处理。,9.4.3音频特征提取,短时间处理技术分为短时间域处理技术和短时间频域处理技术。短时间域处理主要是计算音频短时间能量短时间平均振幅的短时间平均0和短时间自相关函数。这些计算都基于音频信号的时域采样。短时-频域处理主要是对每个短段音频信号的频谱分析。根据9.4.3音频特征提取、2特征分析和提取短时间
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 公园规划设计合同标准文本
- 五华区工程环保合同样本
- 全职助理合同样本
- 介绍中介咨询合同样本
- 入股合同样本格式
- 信托资金借贷合同样本
- 2025新能源汽车租赁服务合同
- 国家电网考试电力市场试题及答案
- 供车贷款合同标准文本
- 2025集团桥梁混凝土施工承包合同
- 水利工程(水电站)全套安全生产操作规程
- 学生宿舍宿管人员查寝记录表
- 配电间巡检记录表
- ISO 31000-2018 风险管理标准-中文版
- 双人法成生命支持评分表
- DBJ61_T 179-2021 房屋建筑与市政基础设施工程专业人员配备标准
- 毕业设计三交河煤矿2煤层开采初步设计
- 预应力锚索施工全套表格模板
- 食品流通许可证食品经营操作流程图
- 风电场工作安全培训
- 压缩机课程设计(共28页)
评论
0/150
提交评论