第五章多媒体信息检索2_第1页
第五章多媒体信息检索2_第2页
第五章多媒体信息检索2_第3页
第五章多媒体信息检索2_第4页
第五章多媒体信息检索2_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

图像检索视频检索音频检索第五章多媒体信息检索第1节基于内容的多媒体检索1概念:Content-basedRetrieval,简称CBR,主要指根据多媒体对象的听觉、视觉特征及其中蕴含的内容和语义特征进行识别,并希望能够借助于模式识别、语音识别、图像理解等相关领域的研究成果,对多媒体信息的特征进行自动分析、表达和组织。2多媒体信息检索系统框架

教材132①用户提交查询,利用系统提供的查询方式形成查询条件;②将查询特征与数据库中的特征按照一定的匹配算法进行匹配;③满足一定相似性的一组候选结果按相似度大小排列返回给用户;④对系统返回的一组初始特征的查询结果,用户可以通过遍历(浏览)挑选出满意的结果,也可以从候选结果中选择一个示例进行特征调整,形成一个新的查询,这个过程可以多次进行,直到用户对查询结果满意。整个过程是是一个逐步逼近和相关反馈的过程。第2节图像检索WhyisImageIRimportant?“apictureiswortha1000words”AlternativeformofcommunicationNoteverythingcanbedescribedintext;NoteverythingcanbedescribedinimagesPopularmediumofinformationontheInternet1.图像的构成AnImageComponentTextDescriptor

(animal,instrument,etc.)ContentDescriptionThecontentofanimagecanberepresentedasasetofnumericfeatures:

ComponentCF1F2FMText2图像检索的发展阶段主要经历了两个发展阶段text-basedretrieval:基于语词的检索Content-basedretrieval:基于内容的检索利用图像自身的特征,如颜色、纹理、形状等特征来进行检索Theimagesaredownloadedfromaspeciallydesigneddatabasesystem,usingcolour,textureandshapeasthekeyforthesearch…..图像检索系统的结构图3图像检索系统的建立

3.1图像的获取(1)首先,根据目前一些流行的搜索引擎的分类,建立相应的图像分类的层次结构;然后针对每个类别选择一些热门的、具有代表性的站点作为候选。TraversalSpider–

“assembleslistsofcandidateWebdocumentsthatmayincludeimages,videos,orhyperlinkstothem”(2)然后,设计一个高效率的软件工具(Crawler),针对选定的代表性站点自动进行图像的收集。站点内所有的页面都将送给页面分析器进行分析,页面内所有的图像都将以链接的方式存储到相应的数据库中。HyperlinkParser–

“whichextractstheWebaddressesofimagesandvideos”DataCollectionProcess3.2图像特征的抽取及索引

图像的特征分为两种,一种是图像的低层特征,如图像的颜色、纹理及其形状等。另外一类特征则是图像的语义特征。图像的低层特征,主要采用的是图像的颜色、纹理及其形状等特征。3.2.1图像的低层特征颜色特征:和图像的大小、方向无关,而且对图像的背景颜色不敏感,因此颜色特征被广泛应用于图像检索。颜色特征中包括颜色直方图、颜色相关图、颜色矩等。纹理特征:代表了物体的视觉模式,它包含了物体表面的组织结构以及与周围环境之间的关系。常用的方法有相关矩阵法,粗糙度、对比度等纹理表示方法,以及小波变换等。形状特征:一种是基于边界的形状特征,另外一种则是基于区域的形状特征。最成功的表示方法有傅利叶变换和不变矩等空间关系特征3.2.2图像的语义特征图像的文件名及其网址。如redflower.jpg、/images/animals/anim_birds.jpg图像的替代文字(AlternateText)替代文字在网页中通常用来表示图像的语义信息,而且也是最为准确的一个特征。图像周围的文字(SurroundingText)在网页中图像周围的文字是最可能表达图像所有包含的内容的,虽然有些文字可能与图像并不相关,不过这些文字在一定程度上还是表达了图像的语义信息图像所在页面的标题(title)有些图像用来加强作者的意图,因此有些图像的内容同页面的标题内容直接相关。页面的标题也就成为语义特征之一。图像的超链接(Hyperlink)图像的超链接信息在一定程度上与图像的内容相关。因此一些语义特征可以通过对超链接的分析计算得到。所有这些特征,都将通过页面分析器从网页中自动抽取出来,并被赋予不同的重要性,并按照传统的文本信息检索技术建库。SubjectClassificationProcessTermextractionExtractedfromURLs,alttags,hyperlinktextbyremovingnon-alphacharactersFkey(URL)=Fchop(“animals/domestic-beasts1/dog37”)=“animals,”

“domestic,”

“beasts,”

“dog.”DictionarynameextractionFdir(URL)=“animals/domestic-beasts.”Key-termdictionaryTermsandDictionarynamesareusedtocreatet*ktermst*ktermsidentifiedsemanticallyrelatedtosubjectclassessmMkm:t*k

sm3.2.3生成压缩图采用压缩方式生成功用户浏览和显示检索结果的压缩图“generatesanicon,ormotionicon,whichsufficientlycompactsandrepresentsthevisualinformationtobeusedforbrowsinganddisplayingqueryresults”Compressionalgorithms3.3图像的检索提交的查询将首先转换成为一个由低层特征和高层特征结合的向量,然后分别与数据库中图像的向量计算相似度。相似度的计算分类两步完成:一是计算低层特征的相似度二是计算高层语义特征的相似度,然后采用线性组合的方法得到最后的相似度。相似度高的图像成为检索的结果。SearchandRetrievalProcessSearchresultslistmanipulationA=Query(Term=“sunset”)ReturnsQueryAresultsSelectQueryBfromQueryAresultsB=Query(Term=“nature”)C=A∩B=Query(Term=“sunset”andTerm=“nature”)SearchandRetrievalProcessSearchandRetrievalProcessContent-basedTechniquesColorhistogramsdissimilarity“determinesthecolordissimilaritybetweenaqueryimageandatargetimage.”IndexesimagesbyglobalcolorIntegratedspatialandcolorquery“userscangraphicallyconstructaquerybyplacingcolorregionsonaquerygrid”Analyzes“sizes,spatiallocations,andrelationshipsofcolorregionswithintheimages”SearchandRetrievalProcess例子:Webseek“WebSEEKisaContent-BasedImageandVideoSearchandCatalogToolfortheWeb.Searchthroughmorethan650,000imagesandvideos.”(AdventProject)DevelopedbyTheAdventProjectatColumbiaUniversityFounded1995FosterindustrialcollaborationbetweenresearchersandmediatechnologyWebseekMoreSpecifically…Usesmultipleagentstoautomaticallyanalyze,index,andassignimages/videostosubjectclassesUsesbothvisualcontentandtextforcatalogingandsearchingFeaturesSearchingusingimagecontent-basedtechniquesQuerymodificationusingcontent-basedrelevancefeedbackAutomatedcollectionofvisualinformationCompactpresentationofimagesandvideosfordisplayingqueryresultsImageandvideosubjectsearchandnavigationText-basedsearchingSearchresultslistsmanipulationsintersection,subtractionandconcatenation./webseek

QBICIBM公司开发QueryByImageContent已经在俄罗斯使用。第3节视频检索

1主要概念帧:运动图像实际上是一系列图像组成的序列,其中的每幅图像称为一帧(frame)。帧速率:播放运动图像时连续两帧之间的时间间隔通常是恒定的.称为帧速率(framepersecond,fps)。帧序列之所以能够形成运动图像,在于相邻帧图像一般都是关联的,当帧速率快到-定程度时,人的视觉暂留效应会使人产生连续运动的印象,每秒20帧(20fps)差不多是人脑把静态图像序列合成感觉中的平滑动态画面的下限,电影的标准速度是24fps,PAL制式的电视为25fps,NTSC制式则为30fps,高清晰度电视(HDTV)中的一种制式的帧速率为60fps,从而使变化迅速的画面也能得到平稳的印象。2视频信息的特点1视频数据既有空间属性又有时间属性

文本、图形和图像称为离散媒体,因为它们和时间无关。

与离散媒体相反,运动图像(视频)、运动图形(动画)、声音是时间有关的,需要在一定的时间段内连续播放,故称连续媒体(也称时基媒体)。2巨大的数据量目前MPEG,DVI,H261等压缩标准的压络比可达50:1~200:1.但即使压缩后的视频数据量仍是相当大的3帧内图像特点我们可以把帧内的图像看作是一副静止的图像,因此帧内图像具有静止图像的一切特性。对帧内图像的处理也可用静止图像处理和压缩的方法。3相关技术参数

3.1光栅扫描格式

视频图像通常是二维的.将二维视频图像转换为一维电信号是通过光栅扫描实现的。主要有两种方式:(1)逐行扫描:从图像的左上角开始扫描.水平移动到图像的右端,成为一个扫描行.然后,快速返回到下一行的开始点,开始第2个扫描行,依此继续,直到扫描完整个图像,这称之为逐行扫描,所有逐行扫描行的集合称之为帧。(2)隔行扫描,顾名思义,即不是逐行进行扫描,而是隔一行后再扫描下一行.隔行扫描行的集合称之为场.逐行扫描有以下优点;图像垂直清晰度高,空间处理效果好,有利于电视转换和制式转换,能改善视频压缩效果等等.其缺点是:数码率高,行扫描频率增高.硬件难度加大.目前的电视系统(包括HDTV系统)大都采用隔行扫描,因为隔行扫描能节省频带.且硬件实现简单。3.2宽高比视频图像的宽高比指1帧图像的宽度与高度的比值.普通电视的宽高比一般为4:3,高清晰度电视的宽高比为16:9。

3.3水平分辨率水平分辨率是度量水平清晰度的指标.在电视中,水平分辨率由能够再现黑白相间的垂直线条的数目来测定。当一个系统的水平分辨率为400线时,是指其在所对应的图像高度内能交替显示200条黑线和200条白线.NTSC电视系统的最高水平分辨率为360线.3.4垂直分辨率视系统的垂直分辨率由1帧内所使用的扫描行数来决定.行数越多,垂直分辨率就越高,反之亦然.例如,NTSC为525线,PAL为625线。3.5帧频和场频帧频是指帧重复的频率,例如,每秒10帧.场频指场重复的频率.根据人眼的视觉惰性,当帧(场)重复频率太低时,会有闪烁感觉.不引起闪烁感的最低重复频率称之为临界闪烁频率,当帧频高于临界频率时,主观感觉亮度为显示亮度的平均值.隔行扫描就是利用这一特性克服闪烁现象的,这可降低行扫描的频率,使得传输频带得以压缩。4常见视频文件格式

1动画文件GIF文件--.GIFGIF是图形交换格式(GraphicsInterchangeFormat)的英文缩写,是由CompuServe公司于80年代推出的一种高压缩比的彩色图像文件格式。目前Internet上大量采用的彩色动画文件多为这种格式的GIF文件。Flic文件是Autodesk公司在其出品的AutodeskAnimator/AnimatorPro/3DStudio等2D/3D动画制作软件中采用的彩色动画文件格式。GIF和Flic文件,通常用来表示由计算机生成的动画序列,其图像相对而言比较简单,因此可以得到比较高的无损压缩率,文件尺寸也不大。然而,对于来自外部世界的真实而复杂的影像信息而言,无损压缩便显得无能为力,而且,即使采用了高效的有损压缩算法,影像文件的尺寸也仍然相当庞大。2影像文件

AVI是音频视频交错(AudioVideoInterleaved)的英文缩写,它是Microsoft公司开发的一种符合RIFF文件规范的数字音频与视频文件格式。AVI文件目前主要应用在多媒体光盘上,用来保存电影、电视等各种影像信息,有时也出现在Internet上,供用户下载、欣赏新影片的精彩片断。

QuickTime文件--.MOV/.QTQuickTime是Apple计算机公司开发的一种音频、视频文件格式,用于保存音频和视频信息,具有先进的视频和音频功能,目前已成为数字媒体软件技术领域的事实上的工业标准。MPEG文件--.MPEG/.MPG/.DATMPEG的平均压缩比为50∶1,最高可达200∶1,压缩效率非常高,同时图像和音响的质量也非常好。RealVideo文件是RealNetworks公司开发的一种新型流式视频文件格式5视频信息的检索基于文本:人工采用关键字对视频内容进行标引,在检索钟铜鼓哦匹配用户查询进行检索。基于内容:没有人工参与的情况下,自动提取并描述视频的特征和内容。5.1视频结构

镜头:由摄像机记录下来的一段连续的帧序列,它是一段视频的物理组成单元。

关键帧:描述镜头主要内容的帧。根据内容的复杂程度,一个镜头可以有一个或多个关键帧。场景:由一些语义相关的镜头组成,这些镜头不一定在时间上连续。场景描述了一个独立的故事单元(或者说是一个高层概念),它是一段视频的语义组成单元。镜头组:物理镜头和语义场景之间的结构部分。例如一段采访录像,镜头在主持人预备采访者之间频繁切换,整个采访属于一个场景,那些关于支持人的镜头属于一组,关于被采访者的镜头属于一组。一般来说,一段视频由一些描述独立故事单元的场景构成;一个场景由一些语义相关的镜头组成;而每个镜头是由一些连续的帧构成,它可由一个或多个关键帧表示。

见下图5.2基于内容的视频处理过程

视频首先被分割成各个镜头,并对每个镜头进行运动分析(主要针对摄像机运动和物体运动)。基于运动分析,我们可以提取并跟踪镜头中的对象,同时选择或构造关键帧,来描述视频内容。然后,根据提取镜头、关键帧和对象的视觉特征,进行索引。通过视觉特征的相似度计算,镜头被组织成场景。最终,用户可以通过一种简单方便的方法浏览和检索视频。

5.3关键技术(1)镜头分割通常视频流中的镜头,是由时间连续的视频帧组成的。它对应着摄像机一次纪录的起停操作,代表一个场景在时间上和空间上的连续的动作。镜头之间有多种类型的过渡方式,最常见的是“切变”,表现为在相邻两帧间发生的突变性的镜头转换。此外,还存在一些较复杂的过渡方式,如淡入、淡出等。镜头分割方法分为非压缩域和压缩域两类。(2)特征分析基本的特征分析包括:颜色、纹理、形状、运动和对象等。前三种是图像和视频共有的,属于数字图像处理中较为成熟的技术。对象提取和跟踪,是视频分析中最困难的部分,可利用运动信息进行处理:先将每帧图像分割成具有相似视觉特征(颜色、纹理等)的区域,然后根据各个区域的运动特征,按照一定的约束(例如区域之间的连通性),将它们合并成对象。国际标准MPEG-4便是以对象提取和合成作为焦点的,它提出了使用VOP(视频对象平面)的概念,对视频对象进行索引。

(3)关键帧提取

为了克服基于镜头的方法存在的问题,人们提出了一种基于内容分析的方法。这种方法通过分析视频内容(颜色直方图、运动信息)随时间的变化情况,来选取所需关键帧的数目,并按照一定的规则为镜头抽取关键帧。(4)视频结构分析

视频结构分析的过程,就是将语义相关的镜头组合、聚类的过程。假设有一段两人对话的视频段,在拍摄过程中,摄像机的焦点在两人之间来回切换,用我们前面所述的镜头分割技术,必然会把这一段视频分割为多个镜头。而这一组在时间上连续的镜头是相关的,因为这一组镜头是一个情节(称为场景)。结构分析的目的,便是使视频数据形成结构化的层次,可以方便用户进行有效的浏览。5.4基于内容的视频检索系统

·QBIC系统QueryByImageContent是由IBMAlmaden研究中心开发的,是“基于内容”检索系统的典型代表。QBIC系统允许使用例子图像、用户构建的草图和图画及其选择的颜色和纹理模式、以及镜头和目标运动等图形信息,对大型图像和视频数据库进行查询。视频方面主要利用了颜色、纹理、形状、摄像机和对象运动来描述内容。/

·VisualSeek系统美国哥伦比亚大学电子工程系与电信研究中心图像和高级电视实验室共同研究的、一种在互联网上使用的“基于内容”的检索系统。它实现了互联网上的“基于内容”的图像/视频检索系统,提供了供人们在Web上搜索和检索图像及视频的工具。

第4节音频检索声音媒体是除视觉媒体外最重要的媒体,占有总信息量的20%左右1音频信息的类型1)波形声音:对模拟声音数字化而得到的数字音频信号,它可以代表语音、音乐、自然界和合成的声响;2)语音:具有字词、语法等语素,是一种高度抽象的概念交流媒体,语音经过识别可以转换为文本,文本是语音的一种脚本形式;3)音乐:具有节奏、旋律和声音等要素,是人声和乐器音响等配合所构成的一种声音,音乐可以用乐谱来表示。1)外部特征:音频信息在计算机内部以文件格式存贮,文件属性包括:文件名、创建时间、创建者、文件格式等。2)文本著录特征:人工标引,选择主题词、关键词等来描述音频信息的内容。3)物理特征:模拟音频信息通过采样、量化、编码等过程转变成数字信号,数字信号在计算机内部以流媒体的形式存放,具有时间属性。4)声学特征:主要有音强、基音、音调、节奏、旋律、乐器标识等。5)语义特征:主要包括语音识别、检测的结果,也可以是音乐旋律和叙

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论