多媒体内容分析与检索技术课件_第1页
多媒体内容分析与检索技术课件_第2页
多媒体内容分析与检索技术课件_第3页
多媒体内容分析与检索技术课件_第4页
多媒体内容分析与检索技术课件_第5页
已阅读5页,还剩79页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多媒体分析与检索技术MultimediaAnalysisandRetrievalTechnology注:本讲内容参考了北京大学数字媒体研究所《数字媒体技术基础》课件

《数字媒体技术基础》第五讲(8课时)1精选PPT课件课程内容及安排第一部分:数字媒体导论第二部分:数字媒体基础数字彩色图像基础图像/视频处理基础第三部分:数字媒体关键技术多媒体压缩编码技术多媒体分析与检索技术多媒体通信技术数字版权管理技术2精选PPT课件教学目标通过本章的学习,掌握“多媒体分析与检索”这一多媒体领域最活跃研究方向的基本研究问题和方法,及其最新进展。ACMMultimediaACMICMRICMEMMMICIMCSICCVCVPRICIPICPR…3精选PPT课件教学内容多媒体检索概论(2)基于内容的图像分析与检索(CBIR)(2)视频分析与检索(3)音频分析与检索(1)4精选PPT课件一、多媒体检索概论5精选PPT课件InternetVideos,Images,Audio,Flash,Aminations,…LocalVideos,Images,…如何从如此海量的多媒体数据中定位到你所感兴趣的信息?Howtoeffectivelyorganize,manage,browse,retrieve?Image/VideoindexingshouldbeanalogoustotextdocumentindexingMultimediaAnalysisandRetrieval6精选PPT课件引言“多媒体搜索引擎”可以搜索多媒体文档的搜索引擎多媒体文档:可包含多种模态,如文本、图像、视频、音频等广义的:可以搜索非文字信息的搜索引擎“视/听觉”信息7精选PPT课件多媒体文档的特点多媒体文档包含丰富的非文字信息8精选PPT课件多媒体文档的特点关键字对应的非文字信息可能过于宽泛麦浪滚滚9精选PPT课件多媒体检索概念提供多媒体的查询输入可以方便地输入多媒体和文字查询对多媒体文档进行多媒体索引特征索引:文本特征(字、词、短语)、视觉特征(颜色直方图、Gabor纹理、形状特征、…)、音频特征(音高、音调….)语义索引:元数据、概念、事件提供多媒体的结果显示直观地展示多媒体和文字信息直观地展示深层信息跨文档综合(多媒体和文字信息)方便浏览大量文档10精选PPT课件如何检索?11精选PPT课件检索方法1:基于文本(QBT)关键问题:如何获得关键字标注?方法1:手工标注工作量巨大---不可行!即使对同一幅图像,不同的人有不同的描述方法2:自动标注各种机器学习的算法性能不佳:只能提取少数概念,准确率也低(<30%)12精选PPT课件检索方法1:基于文本(QBT)关键问题:如何获得关键字标注?方法3:元数据分析---URL、链接文字、标题、关联页面……Meta-data元数据东北虎:5老虎:3动物:2中国:1俄罗斯:1长白山:1。。。13精选PPT课件检索方法1:基于文本(QBT)关键问题:如何获得关键字标注?方法3:元数据分析---URL、链接文字、标题、关联页面……问题:元数据不一定与多媒体文档内容相关没有元数据或不完整!元数据与图像内容不相关!14精选PPT课件检索方法1:基于文本(QBT)关键问题:如何获得关键字标注?方法4:网络标注(Socialtagging/Folksonomy)向普通用户提供上载和分享平台鼓励所有用户对上载的文档进行评论和标注这些评论和标注是直接针对文档作出的15精选PPT课件

16精选PPT课件17精选PPT课件QBT的难题需求难以用文字精确描述非文字需求用户不愿意输入很多文字用户需求不是特别具体大多数人的想象力是不够丰富的系统提供的结果会极大地影响用户的需求需要浏览更多的文档才能发现需要的结果最重要:图像/视频/音频往往难以用文字准确描述一图胜千言各种文字标注方法普遍准确率不高18精选PPT课件视觉信息描述的复杂性19精选PPT课件检索方法2:基于内容/样例基于内容的图像/视频检索Content-basedimage/videoretrieval(CBIR/CBVR)Query-by-Example(QBE)什么是“内容”(Content)?图像和视频的视觉特性如何描述?(数学模型)如何匹配?(相似度计算方法)如何索引?(快速找到相似文档)如何提交查询?20精选PPT课件基于内容的图像/视频检索“内容”的数学模型文本文档:向量模型多媒体文档:特征提取表示视觉的多个物理量组成描述文档内容的特征视觉特征:颜色、纹理、形状、运动……音频特征:音频、音质、音调….维数特性布尔运算语义文字超高(10万级)稀疏可离散多媒体高(几千以内)致密不可连续21精选PPT课件ColorCameramotionMotionactivityMosaicColorMotiontrajectoryParametricmotionSpatio-temporalshapeColorShapePositionTextureVideosegmentsStillregionsMovingregionsAudiosegmentsSpokencontentSpectralcharacterizationMusic:timbre,melody,pitch视音频特征示例22精选PPT课件基于内容的图像检索Querybycontent:Color,texture&ObjectSearchEngineRetrievalImageDB/WWW23精选PPT课件基于内容的图像/视频检索相似度计算文字文档:余弦距离多媒体文档:欧氏距离及其改进索引文字文档:倒排文件稀疏的文档向量多媒体文档:高维索引或不索引紧致的文档向量24精选PPT课件基于内容的图像/视频检索查询提交手段如何让系统获得一个好的“特征向量”?可以较好地描述用户的需求文本查询(QBT:QueryByText)关键字:难以准确描述用户需求自然语言:NLP仍是openissue样例查询(QBE:QueryByExample)用户提交一个图像/视频作为样例,查询与样例相似的其它图像/视频概要图查询(QBS:QueryBySketch)要求用户都是优秀的画家也有系统提供手绘界面25精选PPT课件基于文本vs.基于内容基于文本查询输入方便,在有准确的文字信息描述时很方便公开难题:如何提取图像/视音频的语义描述目前商业搜索引擎常用基于内容从信号处理角度入手,试图使检索过程符合人的视听觉特性(所见即所得)查询输入不符合人的习惯公开难题:语义鸿沟(SemanticGap)仍停留在研究阶段26精选PPT课件多媒体检索框架StorageBrowseAVDescriptionFeatureextractionManual/automaticTransmissionEncoding(fortransmission)Decoding(fortransmission)RecommendationPushSearch/queryPullHumanormachine27精选PPT课件多媒体搜索引擎需要的技术多媒体内容分析技术理解多媒体文档的内容,提取语义多媒体查询输入技术方便地提交多媒体查询多媒体结果显示和浏览技术直观、方便地浏览结果多媒体特征的高维索引技术28精选PPT课件多媒体检索分类图像检索CBIR语义分类、标注相关反馈音频检索音频特征提取自动语音识别(ASR)哼唱找歌视频检索视频分割与分类特定对象检测事件检测与摘要跨媒体检索跨媒体融合29精选PPT课件图像搜索技术的应用风景图像的替换与补图[A.Efros,CVPR,2007]30精选PPT课件图像搜索技术的应用Sketch2Photo:互联网图像蒙太奇[Chen,SIGGraph2009]技术难点:自动找到高质量的、包含正确对象的图片无缝的对这些子图像进行合成31精选PPT课件图像搜索技术的应用Image2Gps:通过图像搜索推理出图像的拍摄位置[A.Efros,CVPR2008]32精选PPT课件图像搜索技术的应用Panoramio:

/借助图像匹配搜索技术,从远近不同角度观察同一景点33精选PPT课件图像搜索技术的应用ViewFocus:所指即所见[Luo,ACMMM2009]34精选PPT课件图像搜索技术的应用广告搜索:Trademark,Logo,Patent商业图像的数据挖掘版权保护商品搜索获取商品信息:用商品图像进行搜索得到相关信息网上购物,货比三家

医学图像检索……35精选PPT课件图像搜索技术的应用http://www.robots.ox.ac.uk/~james/交互式视频技术用户在观看视频时,能够选择视频中出现的各种对象(人物、地点、物品等);在屏幕上展现被选中对象的信息,例如名称等;展现与上述对象相关的业务提供者(例如服装店)链接;用户可以通过IM或者电话进一步与业务提供者联系36精选PPT课件VideoGoogle:ATextRetrievalApproachtoObjectMatchinginVideos

http://www.robots.ox.ac.uk/~vgg/research/vgoogle/37精选PPT课件二、图像分析与检索38精选PPT课件图像检索概论Datta,ACMCSUR,200839精选PPT课件SemanticGapKeywordsDescriptionsClassificationOntologiesHumanIntelligenceData40精选PPT课件ATypicalImageSearchSystemQueryUserIndexDataQueryFormationRankingIndexingResultPresentationIntentionGapIntention/SemanticGapSemanticGapUIandquerysuggestionSearchresultorganizationInteractiveFeedbackImageannotation41精选PPT课件Designingareal-worldimagesearchengine:FromauserperspectiveDotta,etal.,Imageretrieval:

Ideas,influences,andtrendsofthenewage,ACMComputingSurvey,2008(1)clarityoftheuseraboutwhatshewants,(2)whereshewantstosearch,and(3)theforminwhichtheuserhasherquery42精选PPT课件Designingareal-worldimagesearchengine:

FromasystemperspectiveDotta,etal.,Imageretrieval:

Ideas,influences,andtrendsofthenewage,ACMComputingSurvey,2008(1)howdoestheuserwishtheresultstobepresented,(2)wheredoestheuserdesiretosearch,and(3)whatisthenatureofuserinput/interaction.43精选PPT课件CBIR框架Smeulders,PARMI,200244精选PPT课件图像特征与表示Dotta,etal.,Imageretrieval:

Ideas,influences,andtrendsofthenewage,ACMComputingSurvey,2008Anoverviewofimagesignatureformulation45精选PPT课件图像特征类型颜色、纹理、形状关键点SIFT位置对象/区域Smeulders,PARMI,200246精选PPT课件图像特征汇总ColorColorHistogram“Sensitivetonoiseandsparse”-CumulativeHistogramsColorMomentsColorSets:MapRGBColorspacetoHueSaturationValue,&quantizeColorlayout-localcolorfeaturesbydividingimageintoregionsColorAutocorrelogramsTextureCo-occurrencematrixOrientationanddistanceongray-scalepixelsContrast,inversedeferencemoment,andentropyHumanvisualtextureproperties:coarseness,contrast,directionality,likeliness,regularityandroughnessWaveletTransformsextractedmeanandvariancefromwaveletsubbandsGaborFilters47精选PPT课件图像特征汇总ShapeOuterBoundarybasedvs.regionbasedFourierdescriptorsMomentinvariantsFiniteElementMethod(Stiffnessmatrix-howeachpointisconnectedtoothers;Eigenvectorsofmatrix)Turingfunctionbased(similartoFourierdescriptor)convex/concavepolygonsWavelettransformsleveragesmultiresolutionChamfermatchingforcomparing2shapes(lineardimensionratherthanarea)3-DobjectrepresentationsusingsimilarinvariantfeaturesWell-knownedgedetectionalgorithms48精选PPT课件特征举例:颜色特征Colourhistograms(CH)GlobalCHgenerateddirectlyfromRGBspace,with125(5x5x5)bins.49精选PPT课件Bosch,IVC,200650精选PPT课件特征举例:边特征Edgehistogram(EHD)Capturesthespatialdistributionoftheedgeinsixstatues:0º,45º,90º,135º,nondirectionandnoedge.GlobalEHDofanimage:Concatenating16subEHDsintoa96binsLocalEHDofasegmentGroupingtheedgehistogramoftheimage-blocksfallenintothesegment51精选PPT课件特征举例:点特征Detectpatches[MikojaczykandSchmid’02][Sivicetal.’03]ComputeSIFTdescriptor[Lowe’99]52精选PPT课件53精选PPT课件全局vs.局部特征54精选PPT课件区域分割计算机视觉领域的公开难题55精选PPT课件相似度度量Dotta,etal.,Imageretrieval:

Ideas,influences,andtrendsofthenewage,ACMComputingSurvey,200856精选PPT课件相似度度量Dotta,etal.,Imageretrieval:

Ideas,influences,andtrendsofthenewage,ACMComputingSurvey,2008CBIR不是为了进行精确的匹配,而是计算查询图像和数据库中的图像之间的视觉相似度,相应的,检索结果不是单一的一副图像,而是按照与查询图像的相似度排序的一系列图像。不同的相似度度量显著影响CBIR系统的性能。57精选PPT课件基于样例的查询QuerybyExamplePickqueryexamplesandaskthesystemtoretrieve“similar”images.QuerySampleResultsCBIR“Getsimilarimages”58精选PPT课件相关反馈RelevanceFeedbackUsergivesafeedbacktothequeryresultsSystemrecalculatesfeatureweightsInitialsample1stResultQuery2ndResultFeedbackFeedback59精选PPT课件相关反馈OnlineFeatureWeightingFromQueryExamples,thesystemdeterminesfeatureweighting(kxk)matrixWResultQueryCBIRCalculateW60精选PPT课件基于相关反馈的检索界面UserselectsrelevantimagesIfgoodimagesarefound,

addthemWhennomoreimagestoadd,

thesearchconvergesSliderorCheckbox61精选PPT课件基于相关反馈的检索界面62精选PPT课件评价指标:AveragePrecision只对返回的相关文档进行计算系统检索出来的相关文档越靠前(rank越高),AP就越高63精选PPT课件评价指标:AveragePrecisionMAP(MeanAveragePrecision)istheaverageAPforallqueries例如:假设有两个queries,query1有4个相关images,query2有5个相关image。某系统对于query1检索出4个相关image,其rank分别为1,2,4,7;对于query2检索出3个相关query,其rank分别为1,3,5。对于query1,AP为 (1/1+2/2+3/4+4/7)/4=0.83。对于query2,AP为 (1/1+2/3+3/5+0+0)/5=0.45。则MAP=(0.83+0.45)/2=0.64。64精选PPT课件现实中的CBIR系统示例VisualsimilaritysearchinSpecificDomain:aphoto-sharingcommunitywithmorethanamillionairplane-relatedpictures65精选PPT课件现实中的CBIR系统示例apublic-domainsearchenginewhichincorporatesimageretrievalandfacerecognitionforsearchingpicturesofpeopleandproductsontheWeb.66精选PPT课件ImageAnnotation/Tagging:面向图像语义检索ShipWaterTreeskyUseforkeyword-basedimageretrieval67精选PPT课件ImageAnnotation/TaggingJJeon,etal.,Automaticimageannotationandretrievalusingcross-mediarelevancemodels,Sigir,2003RelevanceModelsw1,w2,w3,….wnI68精选PPT课件AnnotationExamples69精选PPT课件BridgeUserIntentionGapUserqueriesareusuallyshort,ambiguousHowtocaptureusersearchintent?70精选PPT课件VisualQuerySuggestionZheng-JunZha,etal.,VisualQuerySuggestion,ACMMM,200971精选PPT课件VisualQuerySuggestionTohelpusersspecifyanddelivertheirsearchintentsZheng-JunZha,etal.,VisualQuerySuggestion,ACMMM,200972精选PPT课件IGroup:presentingwebimagesearchresultsinsemanticclustersTheresultof“tiger”inMSNimagesearch:mixedwith“tigerwoods”and“tigeranimal”.73精选PPT课件IGroup:presentingwebimagesearchresultsinsemanticclustersThescreenofIGroup:thegeneralview74精选PPT课件IGroup:presentingwebimagesearchresultsinsemanticclustersThescreenofIGroup:theclusterview75精选PPT课件IGroup:presentingwebimagesearchresultsinsemanticclusters76精选PPT课件3DMARS:图像检索的3D展示Imageretrievalandbrowsingin3DVirtualRealityTheusercanseemoreimageswithoutocclusionQueryresultscanbedisplayedinvariouscriteria

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论