版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
算法(中国科学院自动化研究所北京100190)汇共生关系的标注改善两个过程。文中将基本图像标注问题视为一个多标记学习问题,图像的标签先验知识作为深度神经网络的监督信息。在得到基本标注词汇的基础上,利用原始图像标签词汇的依赖关系与先所提出解决方案的有效性。,深度学习,神经网络,机器学习mageAutoAnnotationbasedondeeplearningYangYangZhangWenshengInstituteofAutomationChineseAcademyofSciencesAbstractImageauto-annotationisabasicandchallengetaskintheimageretrievalwork.Thetraditionalmachinelearningmethodshavegotalotachievementinthisfield.Thedeeplearningalgorithmhasachievedgreatsuccessinimageandtextlearningworksinceithasbeenpresented,soitcanbeanefficiencymethodtosolethesemanticgapproblems.Imageauto-annotationcanbedecomposedintotwosteps:basicimageauto-annotationbasedontherelationshipbetweenimageandtag,andannotationenhancedbasedonthemutualinformationofthetags.Inthisarticle,thebasicimageauto-annotationisviewedasamulti-labelledproblem,sothepriorknowledgeofthetagscanbeusedasthesuperviseinformationofthedeepneuralnetwork.Aftertheimagetagsgot,thedependentrelationshipofthetagsisusedtoimprovetheannotationresult.Attheend,thismodelhavebeentestedinCorelandESPdataset,andbeenprovedthatthismethodcanefficientlysolvetheimageauto-annotationproblems.Keywordsimageautoannotation,deeplearning,neuralnetwork,machinelearning1基金项目:国家自然科学基金重点项目(U1135005,跨媒体协同处理与服务的理论与应用研究)资助项目增长,互联网上每天都诞生海量的图。为了有效地组织、查询与浏览如此资源,图像检索技术应运而生。现有式主要分为两种:基于内容的图像检eRetrievalCBIR的图像检索(Text-BasedImageRetrieval,TBIR)。对图像检索需要事先获取图像的文本语义信息[1]。图泛,例如在社交媒体中大量的图像被的任通过学者们的不断努力,取得了丰硕的成标签生成算法按照标注模型的不同主要分成两大类[2]:基于统计分类的自动图像标注模型和的自动图像标注模型。基于统计分类的方一个图像的语义概念都被当作一个类别进自动图像标注就可以转换成图像的多分类denMarkovModelModel)[7]等。基于概率建模的方法尝试推断图像和。Mori[8]等提出了一种利用关键字与“视觉词汇”之间的共现关系(Co-Occurrence)来标注图像标签的网格法。近些年来流行的主题模型同样在图像自动标注领域有应用,例如,狄迪克雷分配模型[9] cationModelLDA估计过程却相对复杂。受到关联语言模型一些关联模型相继被应用到图像自动标注RelevanceModelCMRM11](ContinuousRelevanceModel,CRM)和多重伯努利相关模型[12](MultipleBernoulliRelevanceModel,两阶段的图像标注方法,第一步移除无关二步常规标注,能大幅提高图像标注正确学习在图像、文本和语音领域于受限制的玻尔兹曼机(RestrictBoltzmannMachine,RBM)的深度神经网络(DeepBeliefNetwork,DBN)的训NeuralNetwork,CNNs)是第一个真正意义上的多层结构学习算法。Krizhevsky[15]等人利用多层卷积神经网络进行海量图像的分类工作,取得了较好的成tMinst手写数字识别等常用数据集上取得了超越RBM模型的分类Flickr上,应用DBN学习得到图像和文本的语义表示并用于分类,同时该网络可以通过图像的单模信经网络做有监督的判别学习,得到g关系与先验知识改善模型得到的标模型方法为在优化入局部最优中。而深度学习的DD预训练,将网络权重首先优化后通过反向传播过程对网络权1受限玻尔兹曼机点与隐藏层节点间有对称的权连接Wij),而可见层节点之间与隐藏层节点之间没有E(v,h;9)=vTWhvTBhTADKDK(1)=viWijhjbivicDKDK(1)i=1j=1i=1j=1(2)P(v;9)=exp(E(v,h;9))(2)Z标准化项。当给定可见层节点v和隐藏Kp(vi=1|h,9)=Q(hjWij+bi)K(3)((3)(4)jDp(hj=1v,9)=Q(viWij+cj)Di=1i高斯-伯努利受限玻尔兹曼机于是定义高斯受限玻尔兹曼机(GRBM)模型,其能E(v,h;9)=viWijhjcjhj(5)p(vi=xh)=exp()(6)p(hj=1v)=Q(Wijvi)()7i=1si受限波尔兹曼机通常采用Hinton[13]等人提出的对比离差(ContrastiveDivergence,CD)的方法带噪声的自编码神经网络y=g9(f(x))x,使得输出y接近于输入x。如公Lxi,yi),学习得到模型的参数9*,其中f(x)=Q(Wx+b),y=g9(h)=Q(Wh+b),σ是逻辑斯蒂克函数。当权机的,比如每一个样本xi都是一个跟其它样本完全无关的独立同分布高据中隐含着一些特定的结构,比如彼此相关的,那么这一算法就可以的这些相关性。事实上,这一简单络通常可以学习出一个跟主元分析 (PCA)结果非常相似的输入数据的低维表示。(8)9,9nn=19*,9*=argmin1NL(x(8)9,9nn=1=argmin1=argmin1NL(xi,g9(f9(xi)))高模型参数对输入数据的鲁棒DAE图1所示。在原有自编码神经网络的基础干净的输入数据x,因此恒等函数由g9,(f9(x))必x的学习得到输入数据的特征,常常9nn=19*,9,*=argmin1NL(xi,g9,(f9(xi)))9nn=1DenoiseAutoencoderDenoiseL(xL(x,y)g9g9fqxxyxFigTheDenoisingAuto-encoderModel模型结构统的BP神经元网络采用单一隐藏层对数据藏层神经元网络。为了避免神经元络求解易陷入局部最优的问题,首先采用RBM或者DAE模型对网络权重进行预训练,然后将预权重值作为反向传播算法的权重初经元网络,最后采用反向传播算法由于神经网络输入单元vRN(N为输入图像特征GRBM深度神经网络的第自编码神经网络的反向激励函数运Layer3Layer2Layer1FigTheDeepBeliefNetworkmodel理分类问题时,设定监督向练。训练完成后,将测试数据组输多分类问题时,可以将样本多个类监督向量的维数均设为1,输出层做排序,排序靠前的类别为该神经签,但是与常见的多分类问题有类问题对应的类别信息通常是均说每个类别所属的图像数量通常图像标注问题的标注信息通常不个标签可能所属的图像较多,也的标签信息,那么标注频率低的,而无法对给不均匀的问题,本文将图像,新的监督信息在原有监督信息y的基础上除以标签有较大的返回值,能够有效(10)加标注的准确性,更加有效的再平等对待。一方面,含有低大的权重,另一方面,低频标1)(11)(12)=f(11)(12)f1=f2T=1/n重取标签所含图像的总数的倒数。对于f1通常取样像标注改善视觉相似性,但由于语义鸿沟的存难保证得到的标签与原图像的语义21]指出依据朴素贝叶斯的思想,利后验关系,可以提高文本的分类结,并引入图像作为后验来改善算法得到的标注结共生关系的图像标注改善的一组相关词汇,而词汇间存在着各式各样的语义关系。一般来讲,在训练集中,同一个样本内同时出现的词汇具有较强的语义相关性。这是由于共生频率高的词汇往往代表了两个关系密切的概念或者事物,从而存在很大的可能性被标注在同一幅图像“城市”与“建筑”等。因此利用共生词汇在同一幅图像出现的相关性可以有效的提供词汇之间的语词频数的统计,不能有效的考虑到不同词汇的不同特性。因此参照文献中给出的共生关系的度量,通过(13)式来衡量词汇的共(13)(13)词频的图像标注改善中,本文同样考虑到了词频对标注结果的影响。因此,定义词频系数KF=1/n型得到的神经网络的实际输出R,通过公式(14)得到模型的最终标注结果FR=KKRF4实验分析性,并同其它算法进图像自动标注工作中普遍使.1数据集Corel-5K图像集共包含科雷尔(Corel)公司收验:分类、检索等,Corel-5k数据集是图像实验的作为训练集,500个数据作为模型参数的评价集,画与个人肖像等。所有的图像被标2特征提取征作为深度神经网络的输述子和HUE描述子。所有特征均以词包的形式存3评价指标习的方法来实现图像的自动标注,因此首先选用分类正确率来衡量模型的训N的标签数目为n,那么模型对图像标注准确率为量模型的训练情况,给出了训确率与召回率是以某单一关键Precision=NcRecall=NcNsNr(15)了上述两个指标的联合函数(F1=2P*R/(P+R))作为另一个评价指标。了标注算法对词汇的覆盖程度,记为N+。注意:。因此,即使一个模型可以对图予精确的预测,仍无法得到一个4.4实验结果1)基于分类的图像标注准确率角度来衡量模型的标注准像的标注结果。为了衡量模型的性出了训练集的标注准确率与测试集集,预测的图像标签内容与给定的符。但由于深度学习算法对于小样拟合,导致模型在测试集上的像标注准确率TableTheannotationaccuracyofdifferentmodelNamenstM1E1)不同标签数目对图像标注的影响法的标注性能与标签数目的关系,本文还考虑到对于不同图像标签数目对图像监督信息后的深度神经网络模型得到的图像标签的准图像标注结果明显好于基于RBM模型的结果。针对图像标注问题,改进的深度神经网络得到的标注结果最好。(2)图像标注的正确率随着标签数目的增加,先上升后下降,而召回率随着标签数目的增加而不断这是因为在返回标签数目较少时,返回得到的正确标签的数目占图像原标签数目的比率在不断上升,当超过一定限度时,模型会返回一些无关标签,图像标注的准确度会下降;而模型返回正确标签的数目仍在不a目对精度的影响a.thepreciseresultofdifferentreturntagnumberb不同标签数目对召回率的影响b.therecallresultofdifferentreturntagnumberc.theF1resultofdifferentreturntagnumber率与召回率的影响Fig3Theannotationresultofdifferentreturntagnumber3)不同图像自动标注算法的比较与分析了深度神经网络方法与其他典的结果,来验证基于深度学习在Corel数据集上的实验结果详细对比,问题来解决,而非多类别分类问题分布。具体而言,当采用多分类问验分布时,采用传统的深度学习算得到的图像标签的效果与JEC的方法相当(标注验分布时,图像的标注效果有明显签先验分布的深度学习模型可以更(2)DAE(Enhence)给出在基于图像标签先验知识结果。实验结果表明,通过考虑与词频得到的图像标注标签具有标注效果。在Corel数据集上它在略微降低同样在ESP数据集上,精度也略微的下降,但召回率(40%)和返回标签的数目(16%)也得到的很大的提高。不过需要说汇的召回时,会对整体标注的正Corel习与其他实验结果的对比TableThecomparisonofannotationresultusingdeeplearningtoothermethodsinCoreldatasetNamePRN+stSquaresNetNPDERMCMEAETagAEEnhenceESP习与其他实验结果的对比TableThecomparisonofannotationresultusingdeeplearningtoothermethodsinESPdatasetNamePRN+stSquaresRMCEAETagAEEnhence4)图像自动标注在实际中的表现标注的实际结果,每标注评价指标分为两个层次,标的图像,模型自动标注得出的标dAutoannotation配的较好,而且得到的新的标签义信息。对于标注表现不好的图签与原图像相关程度低,甚至有是也存在部分标注补充的原图像二排图像的第三幅图像中的模型结论问题,本文将图像标记问题签关系的基本图像标注和基于注改善。在基本图像标注过程利用图像标签的词频信息改进深度信息。在标注改善过程中,利用标系与词频先验知识来改善已经得到图像标记结果。最后,选取合适的数据集Corel上利用标签的共生关系与先验知识Originaltagsky,sun,clouds,sky,jet,planeCoral,ocean,reefswall,cars,trackssky,water,beach,swimmers,pool,formulasandpeople,watersuncloudswater,sunsetjetplanesuncloudswater,sunsetjetplaneormationCoraloceanreefserswavesutotionformula,bearsand,shipspeople,watertiondAutoadAutoawerspetalssroadcarsowerhtshorewater,plane,lioniceplantsfrostpeopleutotiontreeice,plantsanfrostleaficecloseupplants,frozenityskywaterbridge,sunsettreegrass,fieldhutlandscapebranch,leaf,seupdisplaywerscloseupumetulipFigTherealeffectofimageautomaticannotation文献:LuH,LiuJ.ImageAnnotationBasedonGraphLearning[J].ChineseJournalofputers自适应的Web图像语义自动标注方法[J].XuH,ZhouX,XiangY,etal.AdaptiveModelforWebImageSemanticAutomaticAnnotation[J].JournalofSoftware,2010,21(9):2183-2195.[3]CusanoC,CioccaG,SchettiniR.ImageannotationusingSVM[C]//ElectronicImaging2004.InternationalSocietyforOpticsandPhotonics,2003:330-338.[4]GaoY,FanJ,XueX,etal.AutomaticimageannotationbyincorporatingfeaturehierarchyandboostingtoscaleupSVMclassifiers[C]//Proceedingsofthe14thannualACMinternationalconferenceonMultimedia.ACM,2006:901-910.[5]LiJ,WangJZ.AutomaticlinguisticindexingofpicturesbyastatisticalmodelingapproachJPatternAnalysisandMachineIntelligence,IEEETransactionson,[6]ChangE,GohK,SychayG,etal.CBSA:content-basedsoftannotationformultimodalimageretrievalusingBayespointmachines[J].CircuitsandSystemsforVideoTechnology,IEEETransactionson,2003,13(1):26-38.[7]CarneiroG,ChanAB,MorenoPJ,etal.Supervisedlearningofsemanticclassesforimageannotationandretrieval[J].PatternAnalysisandMachineIntelligence,IEEETransactionson,2007,29(3):394-410.[8]MoriY,TakahashiH,OkaR.Image-to-wordtransformationbasedondividingandvectorquantizingimageswithwords[C]//FirstInternationalWorkshoponMultimediaIntelligentStorageandRetrievalManagement.1999.[9]BleiDM,JordanMI.Modelingannotateddata[C]//Proceedingsofthe26thannualinternationalACMSIGIRconferenceonResearchanddevelopmentinionretrievalACM[10]JeonJ,LavrenkoV,ManmathaR.AutomaticimageannotationandretrievalusingssmediarelevancemodelsJACM[11]LavrenkoV,ManmathaR,JeonJ.AModelforLearningtheSemanticsofPicturesCNIPS03,1:2.[12]FengSL,ManmathaR,LavrenkoV.MultipleBernoullirelevancemodelsforimageandvideoannotationJ[13]HintonG,ApracticalguidetotrainingrestrictedBoltzmannmachines[J].Momentum2010,9(1):926.[14]LeCunY,BottouL,BengioY,etal.Gradient-basedlearningappliedtodocumentrecognition[J].ProceedingsoftheIEEE,1998,86(11):2278-2324.[15]KrizhevskyA,SutskeverI,HintonG.Image-NetClassificationwithDeepConvolutionalNeuralNetworksC]//NIPS.2012,1(2):4.[16]VincentP,LarochelleH,LajoieI,etal.Stackeddenoisingauto-encoders:Learningusefulrepresentationsinadeepnetworkwithalocaldenoisingcriterion[J].TheJournalofMachineLearningResearch,2010,9999:3371-3408.[17]SrivastavaN,SalakhutdinovR.Learningrepresentationsformultimodaldatawithdeepbeliefnets[C]//InternationalConferenceonMachineLearningWorkshop.2.[18]YavlinskyA,SchofieldE,RügerS.Automatedimageannotationusingglobalfeaturesandrobustnonparametricdensityestimat
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 广东白云学院《法语听力Ⅱ》2023-2024学年第一学期期末试卷
- 共青科技职业学院《水力学与桥涵水文》2023-2024学年第一学期期末试卷
- 小学生思维导图画法课件
- 小学生折纸教程课件图片
- 赣州师范高等专科学校《毽球运动》2023-2024学年第一学期期末试卷
- 适合小学生的课件游戏
- 赣州师范高等专科学校《物流管理软件操作》2023-2024学年第一学期期末试卷
- 赣东学院《人工智能1》2023-2024学年第一学期期末试卷
- 甘肃政法大学《五官科护理学》2023-2024学年第一学期期末试卷
- 七年级语文上册第一单元写作热爱生活热爱写作教案新人教版
- IE部成立工作规划
- 单体调试及试运方案
- 2023-2024学年浙江省杭州市城区数学四年级第一学期期末学业水平测试试题含答案
- 网球技术与战术-华东师范大学中国大学mooc课后章节答案期末考试题库2023年
- 2023年35kV集电线路直埋施工方案
- 思政教师培训心得体会2021
- HLB值的实验测定方法
- 2023年《病历书写基本规范》年度版
- 防止电力生产事故的-二十五项重点要求2023版
- 代理记账机构代理记账业务规范
- 建办号建筑工程安全防护、文明施工措施费用及使用管理规定
评论
0/150
提交评论