毕设之英文文献翻译成中文_第1页
毕设之英文文献翻译成中文_第2页
毕设之英文文献翻译成中文_第3页
毕设之英文文献翻译成中文_第4页
毕设之英文文献翻译成中文_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ANovelAutomaticImageAnnotationMethodBasedonMulti-instanceLearningAbstractAuoaticiageannotation(AIA)isthebridgeofhigh-levelseanticinforationandhelow-levelfeatur.AIAisanffectvemethodtoresolvetheproblemof“SeanticGap.AccordingtoheinrinsiccharactrofAIA,whichisanyrgionsontainedintheannotatediage,AABasdonthefraeworkofulti-instancelearnng(IL)isproposedinthispper.Eachkeywordisanalyzedhierarchicallyinlow-granulariy-levelunderhefraeworkofMIL.Throughtherepresentativeinstancesarened,heseanticsimilarityofiagescanbeeffectivelyexpressedandthebetterannotationresutsareabletobeacqured,whichtestifiestheeffectivenessoftheproposedannotationetho.IntodutionWihthedveopentofultiediaandntworktenoogy,iagedatahasbenbcoingorecomonrapidy.Facingaassofiageresource,ntentbsediageretrieval(CBIR),atechnologyoorgnize,anagendnalyzetheereourceefficiently,isbecoingahotpoint.Howvr,undertheliitationof“eanticgap,hatis,heunderlyingvisionfeaturs,uhascoor,texue,andshpe,annotreflectdatchthequyattentionpletly,CBIRconrontstheunprecdentdhallenge.Inrecentyear,nwlypropoedauoaticimageannotation(AIA)kepsfousonerctingabridgebetwenhgh-levelseanticandlow-levelfeaturs,whihisnffectveproahoolvetheaboveentionedsanticgap.ince1999-occurrnceodelproposedbyMorrisec.,thereserhofautoaticiageannotationwasinitiate[1].In[2],translationodelasdvelopedoannotateiageautoaticallybasdonanssuptionthatkeyodsdvisonfeatureswredffrentlanguagetodescrbethesameiage.Similarto[2],literature[3]proposedrossMediaRelevanceModel(CMRM)whrethevisionnforationofeahiagewasdnotdasblobsetwhichistoanifesttheseanticinorationofiage.wever,bobsetnCMRMwaseectedbasdondisreteregoncusteringhichproducdaosofvisonfeaturesothattheannotationresultsweretooprfect.Inorderocopensateforthisproble,aContinuous-paceRelvanceModl(RM)wasproposdin[4].Furtherore,n[5]Multiple-BernoulliRelevanceModelwasproposedtoiproveCMRMandCRM.Despitevarilesidesinheaboveentionedthods,thecoreideabasdonutoaticiageannotationisidentical.heoredeaofuoaticiageannotationappliesannotatediagestoeretacertainodeltodescrbeepotentialreationhporapbeweenaskewordsndiagefeatureswhichisusedtopredictunknownannotationiages.Evenifpreviousliteraturesachevedsoeresultsfromvariablesidesrespectively,seanticdescriptionofeachkeywordhasnotbeendefinedexplicitlyinthe.Forhisend,onthebasisofinvestigatingthecharactersoftheautoaticiageannotation,i.e.iagesannotaedbykeywordscoprisemultipleregions;auoaticiageannotationisregardedasaproblemofultiinstanelarnng.Theproposdethodanalyzeseahkeywordnulti-granulartyhierarhyorflecttheseanticsiilaritysohattheethodnotonlycharacterizessemanticiplicationaccuratelybutalsoiprovestheperforanceofiagennotationwhichverifiestheeffectivenessofourpposdetho.Thisarticleisorgnizedasfollows:section1intducesautoaticiageannotationbriefly;autoaticiageannotationbasedonulti-instancelearningfraeworkisdisusedindetailinsection2;ndexprientalprocesndrultsaredscribednsection3;section4ariesanddiscusseshefutureresearhbrifly.AuoaticIageAnoatoninheframworkofulti-insanceLeaningInheprviouslearnngrewok,aspleisvewedasnnstance,i.e.hereltionhipbetwensaplesandinstancesisone-to-one,whieasaplemaycontainoreinstances,thisistosay,therelationshipbtweensaplesandinstancesisone-o-any.Abguitiesbetweentrainingsaplesofulti-instancelearningdifferfromonesofuprvisedlearning,unsuprvisedlearningndreinforceentlearningopletelysothattheprevousethodshadysolvethepoposdpobls.Owingtoitscharacteristicfeaturesandwdeprospect,multi-instancelearnngisabsorbingoreandoreattentionsinachinelearnngdoainandisrefrrdtoasanwlylearningframework[7.Thecoreideaulti-instancelearnngishatthetrainngsamplestconsistsofconcept-annotatedbgswhichcontainunnnotatedstances.hepuoseofulti-instancelerningistoassgnaconcptualnnotationobgsbeyondrainingsetbylearningfromtrainingbags.Ingneral,abagisannotatedaPositiveifandonlyifatleastoneinstanceislabeledPositive,oherwisehebagisannotatedasNegative.FrameworkofImageAnnotationofMulti-instanceLearningAccordingtoheabove-entionddefinitionoftheulti-instancelearning,naely,aPositivebagcontainatleastapositiveinsance,wecandrawaconcusionhatpsitiveinstancesshouldbedistribueduchorethanngativeinsancesinPositivebgs.ThisconcusionsharescomonproprtieswithDDalgorithm[8]inulti-instancelearnngdomain.Ifsoepointcanrepresentheoreseanticofaspecifiedkeywordhananyotherpointnhefeatherspace,nolesshanoneinstanceinpositivebagsshoudbeclosetothispontwhileallinstancesinngativebgswillbefarawayfromthispoint.Inthepoposdethod,wetakentoconsderatoneahseantickeywodindepndently.venifapartofusefulnforationwillbestneglectingherelationshpbeweenkewords,variouskewordsfromeachiageareusedtocoputingthesimilaritiesbetweeniagessothattheproposedethodscanrepresenttheseanticsimilarityofiageeffectivelyinlow-granularity.Inhefollowngsections,eachkeywordwillbeanalyzedandappliedincallevelsothatirrelevantinforationwithkeywordswillbeeliinatedtoiproveheprecisionofrpresentationofheseanticofkeyword.Frstly,keywordsw,includngPositiveandNegativebags,arecollected,adtheareasurroundedbyPositivebagsareobtainedbyclusterngadaptively.Secondly,thiscusterisviewedasPositivesetofwwhihconainsostitemsthanoherclutersndisfrthestfomNegativebg.Thrdly,GussinMixtureModelGMM)isusdonhencofw.Fnally,theiagescanbeannotatedautoaticallybasedontheposterorprobabilityofeachkeywordofiagesaccordngotheprobbilityofimageinGMMbyusingBayesianestiation.Figure1illustratesthisprocess.Fig.1.Theframeworkofautomaticimageannotationbasedmulti-instancelearningAutomaticImageAnnotationInconvenience,wefirstlyputforwardsomesymbols.wisdenotedasasemantickeyword,X={Xk|k=1,…,N}asasetoftrainingsamples,whereNisthenumberoftrainingsamples;S={x1,L,xn}asasetofrepresentativeinstancesafteradaptivelyclustering,wherexnisthenthiteminaclusters.Therefore,GMMisconstructdtodescribeseanticconcptofw,i.e.GMMisusedtoestiatethedistributionofeachkeywordoffeaurepaetoerecttheone-o-oneapfromkeywordstovisonfeature.NotehatthesuperiorityofGMMliesinproducingasoohestitionoranydenstydistrbutionwhihcnrflectthefeauredisributionofseantickeywordseffetivelybynon-praeterdensityestiating.Foraspecfiedkeywordw,GMrepresntsisvisionfeauredistrbution,p(xw)isdfindasollows:WhererepresentstheGussiandistributionofithcomponent,andarethecorrespondingmeanandvariancereapectively,isweightoftheithcomponent,reflectingitssignificance,and,Misthenumberofcomponents.Eachcomponentrepresentsaclusterinfeaturespace,reflectingavisionfeatureofw.Ineachoponnt,theonditionalprobbilitydnsityoflow-levelvisionfeturevectorxcanbeoputedasfollows:Whredisthediensionoffaturevectorx.TheparaetersofGMMarestiatedbyEMethodwhichisaxiumlikelihoodestiationfordistrbutionparaetersfromincopletedata.EMconsistsofwosteps,xpectationstep,E-stp,ndaxiumstep,M-step,whiharexeutedalternatelyuntilconvergenceaftermultipleiteration.AssumingthatthekeywordwcanproduceNwrepresentativeinstances,representsmeanando-vrianceoftheithGusianoponn.Inuitively,diffrentseantickeywodsshouldrpresntdiferntvisionfeauresdthenubersofoponntsrenotidenticalwitheachothrngenrlohatanadptivevalueofMcanbeobtaindbasdonMiniumDescrptionLngh(MD[9].TheproposedethodexrctsseanticclusterigsetsfromtrainingiageswhihreusedtoconstructGMinwhihechoponntrepresntsoevisionfeatueofaspecifidkeywod.Fomtheprpectiveofseanticappn,therpoedodelescribdthee-to-anyrelationhipbewenkeywordsandthecorrespondingvisionfatures.Theextractedseanticclusterngsetcanreflecttheseanticsiilaritybetweninstancesndkeywords.Accordingtotheaboveethod,aGMMisconstructedforeachkeywordrespectivelytodescrbeheseanticofhekeyword.Andthen,foraspecifiediagetobennotaedX={x1,…,xm},wherexmsnotdshethpdgn,heobofkewordwiscoputedacordngtoforula3).(3)Finally,theimageXisannoatedaccordingto5kewordsofgreatestposeriorprobbilities.3.ExperimentalResultsandAnalysisForcoparisonwithoherageannotationagorithsfairly,COREL[2],awidelyusediagedataset,isselectedinourpermentalprocess.Thisiagesetconsistsof5000iages,4500iagesfromwhihreusdastraningsples,therest500iagesastestsaples.1through5kewordsisextractedtonnotateniage,oinal371keywordsexistsindatset.Inourxperients,eachiageisdvided10rgionsusingNoralizedCutsgenttechnology[6].42,379regonsareproducdinalloraoleiagedatase,ndthn,thsergionsareclusteredto500goupseahofhichisclledablob.reachregon,36-deensionfetures,suchasolor,shpe,oationetc.areonsderdlikeliterature[2].Inordrtoeasurethepeforancesofvarousiageannotationethods,weopthesaeevaluationetricsasliterature[5],soepoularindicatorsinautoaticiageannotationandiageretrieval.Precisionisreferredastheratioofthetiesofcorrectannotationinrelationoallthetiesofannotation,whilerecallisreferredastheratioofthetimesofcorrectannotationinrelationtoallthepositivesaples.Thedetaileddefnitionsareasfollows:(4)(5)WhreAisthenuberofagesannotaedbyekeywod;Bisthenuberofagesannotaedcorrectly;Cisthenuberofiagesannoatedbysoekeywordinthewholedataset.Asatradeoffbetwentheoveindicatos,thegoetriceanofthemisadoptedwidly,naely:(6)Moreovr,wetakeastatisticsofthenumberofkewordsannotatedcorrectlywhichareusedtoannotateanagecorrectlyatleast.Thestatisticalvaluerefectsthecovrgeofkeywordsinorpposdethod,dnotdy“NuWrd”.3.1ExperimentalResultsFigure2showsthatthennotatedreultsofthepoposdethod,MILAnnotation,kepraherahighconsistentwiththegoundtuth.hisfactvrifiestheefectivenessofourpoposdethod.Fig.2.IllustrationsofannotationresultsofMILAnnotation3.2AnnotationResultsofMILAnnotationTable1dable2owatcoparetheavergeperforancebetwenourproposdethodndsoetraditionalannotationodelssuchasCOM[1],TM[2],CMRM[3],CRM[4]andMBRM[5],onCORELiagedataset.Inperients,263keywordsareconcrned.Table1.TheperforancesofvariousannotationodelonCORELTable2.ThecoparisonofF-easurebetweenvariousodelsFromTable1andTable2,wecanknowthattheannotationperforanceoftheproposedethodoupeforsoherodelsntwokewodet,ndthepopoedethodhasasignificntiproveentrelationoistingalgorihsinaverageprecsion,vergerecallF-easuredNuWords”.Specifically,MILnnotationcnobtanasignificntiproveentovrCOM,TM,RMandCRM;inexistingprobability-basedimageannoationodels,BRMcangetabestannotationperforancewhichisequivalentotheperforanceofMILannotation.4.ConclusionsAnalyzinghepopertiesofautoaticiageannotationdeeplycanknowitcanbeviewedasaulti-instancelernngpoblemsothatwepoposdaethodtonotatdiagesauoaticallybasedonulti-instancelearning.Eahkewordisanalyzedndpendntlytoguaranteeoreeffectiveseanticsiilarityinlow-grnulrity.Andthn,undrtheframeofulti-instancelearning,eachkeywordisfurthranalyzedinvaroushierarchies.Irrelevntinformationwithkeywordswillbeeliminatedtoiprovetheprecisionofepresntationoftheseanticofkewodsbyappngkeyodstocorrepondingregon.xprentalresultsdeonstratedtheffectivnesofMR-MIL.References[1]MoriY,TakahashiH,OkaR.Iage-to-wordtransforationbasedondividingandvecorquantizingiageswithwords.In:Proc.ofIntl.orkshoponMultimedaIntelligentStorgeandRetrievalManagementMISRM'99),Orlando,Oct.1999.[2]DuguluP,BarnardK,FreitasN,ForsthD.Objectrecognitionasachinetranslation:learningalexiconforafixediagevocabular.In:Proc.ofEuropeanConf.onComuterVision(ECCV’02,Copenhagen,Denark,Ma[3]JeonJ,LavrenkoV,ManathaR.Autoaticiageannotationandretrievalusingcross-edarelevanceodels.In:Proc.ofInt.ACMSIGIRConf.onResearchandDevelopmentinInformationRetrieval(ACMSIGIR’03,Toronto,Canada,Jul.2003:119-16.[4]LavrenkoV,ManathaR,JeonJ.Aodelforlearningtheseanticsofpictures.In:Proc.OfAdvancesinNeuralInformationProcessingSystemsNIPS’03,2003.[5]FengS,ManmathaR,LavrenkoV.Multiplebernoullirelevanceodelsforiageandvideoanotation.In:Proc.ofIEEEInt.Conf.onComputerVisionandPatternRecognitionCVPR’04,ashingtonDC,USA,[6]ShiJ,MalikJ.NoralizedcutsandiageSegentation.IEEETrans.onPattrnAnalsisandMachineIntelligence,2000,22(8):888-905.[7]MaronO.Learningfromabiguit.DepartmentofElectricalEngneeringandComputrScienc,MIT,PhDdissertation.1998.[8]MaronO,LozanoPT.Afraeworkforultiple-instancelearning.In:Proc.ofAdvancesinNeuralInformationProcessingSystemsNIPS’98,Pittsburgh,USA,Oct.1998:570-576.[9]LiJ,angJ.Autoaticlinguisticindexingfpicuresbyastatisticalodelingapproach.IEEETrans.OnPatternAnalysisandMachineInteligence,2003,25():1075–1088基于多实例的新型自动图像标注方法研究ShunleZhua,XiaoqiuTana数学物理信息学院,浙江海洋大学,舟山,316000,中国摘要:图像自动标注是连接高层语义特征和底层特征的桥梁。图像自动标注是解决“语义鸿沟”的有效的方法。根据图像自动标注固有的特征,即在标注的图像中包含有很多区域,本论文提出了以多实例的框架研究为根底的图像自动标注。每个关键词都在多实例研究的框架下以低粒度级进行逐层分析。通过这些有代表性的例如的挖掘,图像的相似语义可以有效地进行传送,并且能够实现更好的标注,这也验证了本文中提出的标注方法的有效性。1.介绍随着多媒体和网络技术的开展,图像数据已经迅速普及。面对着众多图像资源,一种有效地组织、管理和分析这些资源的技术——基于内容的图像检索正成为热点。然而,在“语义鸿沟”即底层视觉特征如颜色、纹理、形状的限制下,基于内容的图像检索不能完全反映和匹配查询关注,面对着前所未有的挑战。近年来,新提出的自动语义标注集中于建立起图像的高层语义和底层特征之间的一座桥梁,这是解决上面提到的语义鸿沟的一种有效的方法。自从1999年Morris提出了共生模式,图像自动标注技术的研究便开始了。在[2]中,翻译模型被开发来实现图像自动标注,它建立在关键词和视觉特征是描述同一图像的不同的语言的假设之上。和[2]相似,文学[3]提出了跨媒体关联模型,该模型中每幅图像的视觉信息被记为BLOB集以表达图像的语义信息。然而跨媒体关联模型中的BLOB是建立在离散区域集群上的,该群会产生视觉丧失以便使标注结果更加完美。为了弥补这个缺陷,[4]中提出了一种连续空间关联模型。此外,[5]中提出了多重贝努利关联模型来改善跨媒体关联模型和连续空间关联模型。尽管上面提到的方法中易变的方面,建立在图形自动标注上的核心理念却是相同的。图像自动标注的核心理念是应用已标注的图像建立某种模型来描述关键词和用来预测未标注图像的图像特征之间潜在的关系。尽管以前的文献在不同方面都有所成就,但都没对各个关键词的语义描述准确的下定义。鉴于此,在调查了图像自动标注的特点——即图像被标注了多区域组成的关键字后,图像自动标注被当做一种多实例问题来学习。该方法分析了多粒度层次中的每个关键字来反映语义相似度,以便不仅能准确给出语义含义特征,还能提高证实我们提出的方法有效性的图像标注的性能。本文布局如下:第一局部简要介绍了图像自动标注;第二局部具体讨论了以多实例学习框架为根底的图像自动标注;第三局部给出了实验性进程和结果;第四局部总结并简要讨论了未来的研究。2.多实例学习框架下的图像自动标注在以前的学习框架里,样品被视为一个详情,即样品和详情之间的关系式一对一的,然而一个样品可能包含更多的详情,也就是说,样品盒详情之间是一对多的关系。训练多实例学习样品集之间的歧义区分于对那些监督学习、未监督学习和完全强化学习,以至于以前的方法很难解决提出的问题。由于它的典型特征和广阔的应用前景,多实例学习被机器学习领域越来越重视,它也被称为一种新型学习框架。多实例学习的核心理念是训练样本集由包含未注释实例的概念注释袋组成。多实例学习的目的是通过对训练集的学习在训练集以外给集分配一个概念标注。一般来说,一个包当且仅当至少一个实例被标正时才被标正包,否那么该包被标负包。2.1图像多实例学习的框架根据上面给出的多实例学习的定义,即一个正包至少包含一个正的实例,我们可以得出结论在正包中正实例应该分布的比负实例多。这个结论和DD算法在多实例学习领域有共同属性。如果一些某些点而不是视觉特征空间里的别的任何点能代表一个特定的关键词的更多语义。正包中应该有不少于一个实例接近这点,而负包中所有实例应该远离这点。上面提到的方法中,我们独立考虑各个语义关键词。尽管无视关键词之间的关系会使一局部有用信息丧失,每幅图像的各个关键字被用来计算图像之间的相似度,以便所提出的方法能在低粒度下有效地代表每幅图像的语义相似度。在以下局部,每个关键词会被分析和应用到局部,以便和关键词无关的信息能被剔除来提高语义关键词代表的精确性。首先,包括正包和负包的关键词被收集,被正包包围的区域被聚类自适应获得。其次,这个簇被当做比别的簇包含更多详情并最原理负包的正组。再者,高斯混合模型被用来学习w的语义。最后,通过运用贝叶斯估计根据高斯混合模型中图像的可能性,以图像的每个关键词的后可能性为根底,图像能够被自动标注。图1列出了这个进程。2.2图像自动标注为了方便,我们先提出一些标记。w被记为一个语义关键词,X={Xk|k=1,…,N}作为一种样本训练集,N是训练集的个数。自适应聚类后S={x1,L,xn}作为一种实例代表集,xn是一簇中第n个工程。因此,GMM被构建来描述w的语义概念,即GMM被用来评估每个视觉空间关键词的分布,以通过关键词和视觉特征建立一对一的关系。请注意GMM的优点在于对通过非参数密度估计能有效反映语义关键词的特征分布的任何密度分布产生顺利的估计。对一个特定的关键词,GMM代表它的视觉特征分布,p(x\w)被定义如下:N〔〕代表第i局部的高斯分布,u和是各自对应的均值和方差,π是第i局部的权重,反映它的重要性,而且。M是构成的个数。每个局部代表视觉空间的一簇,反映w的一个视觉特征。在每局部中,底层视觉特征矢量的传统概率密度可计算如下:其中d是矢量x的维数。GMM的参数通过对不完全数据的分布参数使用EM方法即最大似然估来估计。EM由两步组成,期望,E,最大步,M,这些被交替执行直到经过屡次迭代收敛。假设关键字w能产生Nw代表实例,代表第i个高斯模块的均值和协方差。直觉上,不同的语义关键字应该代表不同视觉特征,一般来讲组成局部的个数彼此并不一致以便能得到M的一个以最小描述长度为根底的适应值。前面提出的方法从用来构建GMM的训练图像中提取语义聚类,在GMM中每个局部代表一个特定关键词的一些视觉特征。从语义映射的角度来看,所提出的模型描述了关键字和相应的视觉特征之间一对多的关系。提取出的语义簇集能够反映实例和关键字间的语义相似度。根据上面的方法,一个GMM为每个关键字各自构造来描述该关键字的语义。进而,对于一个待标注的特殊图像,其中Xm被记为第m个分割区域,关键字w的可能性根据公式〔3〕来计算。〔3〕最后,X图像根据5个关键字的最大后验概率被标注。3.实验结果与分析为公平的和别的图像标注算法做比拟,实验中选用COREL[2]这个被广泛使用的图像数据集。该图像集包含5000张图片,其中的4500张图片被用做训练样本,剩下的500张图片用作测试样本。每幅图像标注有1到5个关键字,数据集中共有371个关键字。实验中,每个图像被采用归一化的切段技术分为10个区域。整个图像数据集中产生了42379个区域,然后,这些区域被聚集为500组,每组称为一个blob。每个区域的36维特征如颜色,形状,位置等像文献[2]中一样被考虑。为了测量各个图像标注方法的性能,我们采用在图像自动标注和图像恢复中图像常用的,即文献[5]中所用评价指标。精确度被称为正确标注和所有标注的次数的比率,而recall定义为正确标注次数和所有正样本的比率。详细定义如下:(4)(5)其中A是标注有某些关键字的图像个数;B是标注正确的图像个数;C是整个数据集中被某些关键字标注的图像个数;做为上面指标的一个权衡,它们的几何平均数被广泛采用,即:(6)此外,我们采取用做至少正确标注图像的关键字标注正确的个数做为统计。统计值反映了所提出的方法中关键字的覆盖,被称做“NumWords”。3.1实验结果图形2显示了所提出方法的标注结果,MIL标注,和事实保持了高度一致。这个结果证实了所提出方法的有效性。表2.MIL标注方法标注结果插图3.2MIL标注的标注结果表1和表2显示了我们提出的方法和一些传统标注模型比方COM[1],TM[2],CMRM[3],CRM[4]和NBRM[5]等在COREL图像数据集之间的平均性能比照。实验中,涉及到了263个关键字。表1.各种

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论