




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、目录TOC o 1-5 h z HYPERLINK l bookmark0第一章绪论11景1自然场景文字定位技术2基于的定位技术2基于的定位技术3的定位技术3自然场景文字定位的4文的5文的6 HYPERLINK l bookmark2第二章深度学习技术简介778910112的121314152的16度17218章20 HYPERLINK l bookmark18第三章基于深度学习的自然场景文字定位方法的设计20自然场景文字定位方法的21212122设计目223设计23MSER深度23字2324自然场景文字定位方法的243章25第四章基于深度学习的自然场景文字定位关键算法的实现2526MSER算
2、法定位27E12728304字31313334354法354法364文3743838章结38第五章实验结果及讨论38实验395实验415实验结果与41ICDAR2015结果41的465实验47MSER算法47CNN48与49章结51 HYPERLINK l bookmark40第六章总结与展望51文总结5252541的文字 # 第一章绪论1.1.研究背景和意义和Vr.章景一景一一景景研究论意义和研究景一一景景景景景景一背景景冃景景背景冃景研究景一景和一一11的文字 #1的文字 # 自然场景的文字的定位自然场景的文字定位技术现的自然技术研究技术1.2.自然场景文字定位技术研究现状自然场景文字定位
3、技术1基于滑动窗口的定位的SVMAdaBoost2基于的文字定位的MSERSWT3的1.2.1.基于滑动窗口的定位技术基于滑动窗口的文字定滑动窗口字的文Jaderberg2Pan1滑动窗口WaldboostHOGPan1的文Pan11的文字 #CRFConditionalRandomFieldJaderberg2的的合的9的于的基于的的定位的的的的的的的的的1.2.2.基于连通域的定位技术基于连通域的定基于的的基于连通域的于连通域的的连通域通的的的连通域定位技术Regions定域的的于的连通域Neumann4ICDAR2011的MSER3MaximallyStableExtremal的连通域的
4、基于连通域的定位技术ER的variation定于ER的域的域的Sung6Yin5的基95的域域Yin5ER1的文字 # #1的文字 # #通的的ICDAR2013的定位30的域的的MSER的基于MSER的MSER基于MSER的域的1.2.3混合的定位技术混合的的的混合的的Zamberletti于25MSER的Huang26Zamberletti25的MSER的MSER的连Huang26MSER1的的1的的2景的文字3的的文的的的要1.4.本文的主要工作的文本文王要的文的的的文的MSER本文的主要MSER文文本本文的本文的本文的工作 CNNICDAR2015的本文的1的纟的吉构的文文的MSER的
5、的文2MSER的的3的MSER的的1.5.本文的组织结构本本文的的文的文的本文的结构的的结构本文的的本的本文的MSER文文本的文结MSERCNNICDAR2015文的的的的结本的的第二章深度学习技术简介深度学习DeepLearning技术学习技术72012深度学习深度学习与深度学习学习1.深度学习学习ImageNet312012深度学习第82.学习特特深度学习特学习TOC o 1-5 h z特学习特特深度学习学习深度学习GPU深度学习性深度学习学习学习“学习”ShallowLearningSVMboostingKNN特性与发展历史深度学习特学习unsupervisedfeaturelearni
6、ng学习学习深度学习学习特9深度学习特特学习深度学习特度发特深度第学习edge特第二第学习motifs特第学习part特特第第学习object特神经网络神经网络 #神经10神经网络神经网络80backpropagation11神经网络111网络网络90神经网络72006GeofferyHinton神经网络pre-training神经网络12Hinton神经网络13神经网络神经网络神经网络2012HintonImageNet31卷积神经网络Convolutionalneuralnetwork15%811神经网络神经网络CNNRNN神经网络DNNRecurrentneuralnetwork神经网络
7、CNN网络RNNCNNCNNCNN卷积神经网络卷积神经网络神经网络14卷积神经网络感受野89*89感受野89*894局部28局部感受野局部局部局部局部96*96感受野感受野10096x96x100846400.(1)感受野8*8patch感受野8*8=6496*96局部局部局部8*8Eq.296-8,1x96-8,189x89.权值共享权值共享权值共享权值共享5权值共享288*8权值共享权值权值共享615权值Sobel权值Sobel featurerepresentationlearning615map2.2.3.子采样子采样子采样子采样subsample子采样pooling7问 # 715的
8、神经网络的经的的的的的89*89的经2*2的45*45的的卷积神经网络卷积卷积卷积卷积神经网络卷积卷积神经网络的结构卷积神经网络的结构卷积神经网络神经网络的卷积的卷积神经网络的构卷积卷积22卷积nn12m的1n,2m1=22nm.的经的的的卷积2.3.1.卷积层卷积层卷积层卷积卷积层8LeNet-517卷积层层卷积M*M(Mn+1)x(Mn+1).n*n(7)卷积卷积层12171217全连接层层全连接层层12171217全连接层层全连接层层C3层2.3.3.全连接层16S2层卷积OUTPUT网络cost13TOC o 1-5 h zC5的5*5的的的的5*5F6的C5F6OUTPUT的的OUT
9、PUT10卷积神经网络的训练卷积神经网络的训练的神经网络网络的的14梯度下降梯度下降梯度xy度alpha梯度度s下14梯度下降15梯度t(11)s二talpha.梯度下降 #199020StochasticGradientDescent反向传播反向传播(BackPropagation,BP) # # # #传播反向传播向传播反向传播反向向传播 # # # #157向传播Y121Z 图15前向传播在前向传播结束以后,运行反向传播。反向传播的基础原理非常简单,就是函数求导中的链式法则(chainrule)。链式法则的说明可以见Eq.12。,=z_x通过链式法则来计算残差相对前一层的输出的导数,然后
10、再推出相对于权重的导数,也就是梯度。使用反向传播,可以减轻梯度计算的复杂性,让计算量显著降低。图167是一个反向传播的具体示意图。16本2.5.本章小结本早本章本章LeNet结本章 第三章基于深度学习的自然场景文字定位方法的设计章自然场景文字定位的的文字定位方法的文的-深度学习的方法章文方法的需求分析方法的设计方法的自然场景文字定位方法的需求分析文的的深度学习设计自然场景文的自定位方法性自然场景的文字定位方法需的功能需求非功能需求需求3.1.1.功能性需求方法自然场景的性文字定位方法方法需的文字能定位场景景的字方法需分的文字能定位方法需求1性方法能的景方法于的定的性的方法能的文字的字字2方法能
11、文字的的的方法于文字的定的分能方法的的文字的80%非功能性需求1方法的定位的定的方法的性的能的定位功能的文字的定位方法2方法方法的的方法的需求的的功能性需求方法能非功能性需求非功能性需求的需求的求性的需求code需求OpenCV3.1.3.接口需求需接口需求MSER5标设需需标需需C+OpenCV3.0Caffe24设计目标需求设计需标190%ICDAR201560%285%ICDAR201555%3640*480Is3880*259254500MB250MB设计思想与依据MSER与CNN字设计思想2连体字符3处理3.3.1.与深度特征MSER度依特征与CNN计1MSER与深度特征字符MSER
12、度MSERCNN特征字MSERCNN字符据深度特征特征MSERCNN与CNN处特征CNN体连体字符处理MSER字符处理MSERCNN字符字符字符字符CNNCNN连体字连体字符连体字符MSER字符与连体字符处理连体字符处理连体字符与连体字符字符连体字符CNN连体字符 #CNN与字符字符LeNet17AlexNet8体字的检测方法的的字字的字的字的字通的体字3.3.3.多通道检测的文CrCbMSER法CrCb的Labcanny多通道检测法6的法的景的的29的文字的YMSER法文多通道的检测YCrCbLab通道的MSER的的方自然场景文字定位方法的总体框架文自然的文字定位方法的的文字定位的自然场景文
13、字定位方法测测方法MSER文字检测文检测的1的YCrCbLab然CrCbab通道法的2MSER文的MSER方法6MSERvariation定位的MSER的MSER字文字检测字体字体字3文字检测文的字的文的文字CNNLeNet-5的架自然场景的文字检测文方法的体的的4文字检测的字法文方法的的文方法的法文文17本本章小结本章本本章本章的自然场景的的自然场景的1818的18(a)18(b)度的185的法的算的度MSER的间T的间于5T的法的90%的的的OpenCV3.0的MSER算法实现间的MSER21算实算的19Rt定pq22ERB(P)B(q)vr(R),tR-Rt-deltatdeltaRt(
14、14)deltadelta5minArea和maxAreaERminArea0.00005maxAreaER20221920ER224.2.2.子路径分割和裁剪MSER子6MSER1子路径分割2子路径裁剪子路径分割MSERER路径ER路径和升了对字符提取的准确率。图21ER树6图21(a)说明了这种全路径下variation最小但却不是字符区域。21(b)是使用了子路径后的算法效果。一个路径被划分为子路径的依据是两个相邻的ER之间的一个度量-similarity,这个值由Eq.15来定义。(15)(15)s(R,R)=tt+1A(R)nA(R)tt+1A(R)A(R)tt+1ERsimilar
15、ity0.7774.2.3.正则化variation正则化“”Eq.16ERERERregularizedvariationvar+theta1x(a-a)ifaamaxmaxvar=var+theta2x(a-a)ifanext_)sub_path_length=0;if(wp.p.subPath)Rectrect_inter=rect&c-rect;Rectrect_union=rect|c-rect;floatarea_inter=float(rect_inter.area();floatarea_union=float(rect_union.area();floatsimilty=ar
16、ea_inter/area_union;if(similtyvar=0.f&varc-var)return;sub_path_length+;if(wp.p.realMSER)CompHistory*d=c-child_;CompHistory*parent=c;for(;d!=0;d=d-child_)if(wp.p.subPath)Rectrect_inter=parent-rect&d-rect;Rectrect_union=parent-rect|d-rect;floatarea_inter=float(rect_inter.area();floatarea_union=float(r
17、ect_union.area();floatsimilty=area_inter/area_union;if(similtyvar=0.f&vard-var)return;parent=d;sub_path_length+;if(wp.p.usePrune&sub_path_lengtha_max)var=var+theta_1*(aspect-a_max);elseif(aspecta_min)var=var+theta_2*(a_min-aspect);elsevar=var;5.4.2.识别CNN识别Caffe241识别stringmodel_file=model/char/char_t
18、otxt;stringtrained_file=model/char/char_network.caffemodel;stringmean_file=model/char/char_mean.binaryproto;stringlabel_file=model/char/char_labels.txt;Classifierclassifier_char(model_file,trained_file,mean_file,label_file);vectorpredictions=classifier_char.Classify(roi);Predictionpredict=prediction
19、s0;if(predict.first=isisChar&predict.second0.99)2stringtext_model_file=model/text/text_totxt;stringtext_trained_file=model/text/text_network.caffemodel;stringtext_mean_file=model/text/text_mean.binaryproto;stringtext_label_file=model/text/text_labels.txt;Classifierclassifier_text(text_model_file,tex
20、t_trained_file,text_mean_file,text_label_file);vectorpredictions=classifier_text.Classify(text_color);Predictionp=predictions0;if(p.first=isTextisText&p.second0.99)5.4.3.合并与分割合并与分割booluseSplit=true;if(1)size_trect_size=vecERRemove.size();if(rect_size=0)continue;vectorlabels;intnumbers=partition(vecE
21、RRemove,labels,&compareER);for(intj=0;jnumbers;j+)vectorcharrects;for(intt=0;trect_size;t+)intlabel=labelst;if(label=j)charrects.push_back(vecERRemovet.rect);sort(charrects.begin(),charrects.end(),rectSort);vectorvectorspiltvecvecrects;if(useSplit)intlast_spacing=0;vectorspiltvecrect;boolnew_word=tr
22、ue;for(intz=0;z3*last_spacing&last_spacing0)new_word=true,spacing=0;spiltvecvecrects.push_back(spiltvecrect);spiltvecrect=vector();continue;if(z=charrects.size()-2)spiltvecrect.push_back(charrectsz+1);spiltvecvecrects.push_back(spiltvecrect);last_spacing=spacing;elsespiltvecvecrects.push_back(charre
23、cts);本章小结本章本结本章本 # 1. 第六章总结与展望6.1.本文总结文与文工作第一步一步文本文文文下文下文与结本文工作下1展一2下文一结MSER与CNNMSERCNN文CNN与3CNN结本文CNN4ICDAR2015文本与本本文与1一结MSER与文MSER工作一MSER一步作工作MSER36.2.下一步工作下文文MSERj_R一一步MSER2本方法中在进行文字检测时,舍弃了文字的笔画等信息,因此造成了文字检测的准确率不高。同时,CNN在训练时,没有使用预先初始化的非监督训练方法以提高CNN的特征抽取能力,影响了CNN检测的效果。3本方法在定位时,会产生较多的负样本,例如墙壁,草丛等等,
24、在后续的进一步工作中,会考虑加大这些负样本的权重,从而更好地排除类似的误检物体。 1. #Pan,Y.F.,Hou,X.,Liu,C.L.:Textlocalizationinnaturalsceneimagesbasedonconditionalrandomfield.In:Proc.ICDAR.(2009)JADERBERG,M.,SIMONYAN,K.,VEDALDI,A.,ANDZISSERMAN,A.2014.Readingtextinthewildwithconvolutionalneuralnetworks.arXivpreprintarXiv:1412.1842.J.Matas
25、,O.Chum,M.Urban,andT.Pajdla,“RobustWideBaselineStereofromMaximallyStableExtremalRegions,”Proc.BritishMachineVisionConf.,pp.384-393,2002.Neumann,L.,Matas,J.:Real-timescenetextlocalizationandrecognition.In:Proc.CVPR.(2012).X.-C.Yin,X.Yin,K.Huang,andH.-W.Hao,“Robusttextdetectioninnaturalsceneimages,”Pa
26、tternAnalysisandMachineIntelligence,IEEETransactionson,vol.36,no.5,pp.970983,May2014.M.-C.Sung,B.Jun,H.ChoandD.Kim,“SceneTextDetectionwithRobustCharacterCandidateExtractionMethod”In:Proc.ICDAR.(2015).YannLeCun,YoshuaBengio&GeoffreyHinton,Deeplearningdoi:10.1038/nature14539Krizhevsky,A.,Sutskever,I.&
27、Hinton,G.ImageNetclassificationwithdeepconvolutionalneuralnetworks.InProc.AdvancesinNeuralInformationProcessingSystems251090-1098(2012).Bengio,Y.,Lamblin,P.,Popovici,D.&Larochelle,H.Greedylayer-wisetrainingofdeepnetworks.InProc.AdvancesinNeuralInformationProcessingSystems19153-160(2006).Hubel,D.H.&W
28、iesel,T.N.Receptivefields,binocularinteraction,andfunctionalarchitectureinthecatsvisualcortex.J.Physiol.160,106-154(1962).Rumelhart,D.E.,Hinton,G.E.&Williams,R.J.Learningrepresentationsbyback-propagatingerrors.Nature323,533536(1986).Hinton,G.E.,Osindero,S.&Teh,Y.-W.Afastlearningalgorithmfordeepbelie
29、fnets.NeuralComp.18,15271554(2006).Hinton,G.E.&Salakhutdinov,R.Reducingthedimensionalityofdatawithneuralnetworks.Science313,504-507(2006).LeCun,Y.etal.Handwrittendigitrecognitionwithaback-propagationnetwork.InProc.AdvancesinNeuralInformationProcessingSystems396-404(1990).AndrewNg.etal.UnsupervisedFe
30、atureLearningandDeepLearningTutorial HYPERLINK /tutorial/tutorial/.Glorot,X.,Bordes,A.&Bengio.Y.Deepsparserectifierneuralnetworks.InProc.14thInternationalConferenceonArtificialIntelligenceandStatistics315-323(2011).LeCun,Y.,Bottou,L.,Bengio,Y.&Haffner,P.Gradient-basedlearningappliedtodocumentrecogni
31、tion.Proc.IEEE86,2278-2324(1998).Srivastava,N.,Hinton,G.,Krizhevsky,A.,Sutskever,I.&Salakhutdinov,R.Dropout:asimplewaytopreventneuralnetworksfromoverfitting.J.MachineLearningRes.15,1929-1958(2014).Dauphin,Y.etal.Identifyingandattackingthesaddlepointprobleminhigh-dimensionalnon-convexoptimization.InP
32、roc.AdvancesinNeuralInformationProcessingSystems272933-2941(2014).Choromanska,A.,Henaff,M.,Mathieu,M.,Arous,G.B.&LeCun,Y.Thelosssurfaceofmultilayernetworks.InProc.ConferenceonAIandStatistics/abs/1412.0233(2014).DavidNisterandHenrikStewenius.LinearTimeMaximallyStableExtremalRegions.In:Proc.ECCV.(2008
33、).MichaelD.andHorstB.,EfficientMaximallyStableExtremalRegion(MSER)Tracking.In:Proc.CVPR.(2006).ChristianWolfandJean-MichelJolion.Objectcount/AreaGraphsfortheEvaluationofObjectDetectionandSegmentationAlgorithms,In:Proc.ICDAR.(2006).Jia,YangqingandShelhamer,Evan.etal.Caffe:ConvolutionalArchitectureforFastFeatureEmb
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025物业智能化升级改造合同协议范本
- 机器设备融资租赁合同
- 2025影院加盟合同模板
- 水果蔬菜招标合同范本
- 北京市房产赠与合同
- 2025关于卧室翻新合同范本
- 钢板加工承包协议书
- 2025年03月四川省达州市“达人英才”事业单位引才169人(广州场)笔试历年典型考题(历年真题考点)解题思路附带答案详解
- 刀轴式刨片机类项目风险评估报告
- 无汞可充电碱锰电池项目风险评估报告
- 2024年中考模拟试卷道法(全国卷)
- 幼儿园高铁小知识说课
- 《儿童友好型城市街道空间更新设计策略研究》
- 初中历史九年级上册《英国的资产阶级革命》
- DB12T 1361-2024 地热尾水回灌技术规程
- 2024年中考语文复习:非连续性文本阅读(含练习题及答案)
- 成人脑室外引流护理-中华护理学会团体 标准
- 2024年出售铝厂铝渣合同范本
- 地方导游基础知识电子教案 专题七 学习情境一 陕西省课时教案
- 项目管理工程师招聘笔试题与参考答案(某大型集团公司)2024年
- 高中文言文实词虚词总集(打印版)
评论
0/150
提交评论