




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、作者:北京矩视智能科技有限公司背景知识文本是人类最重要的信息来源之一, 自然场景中充满了形形色色的文字符号。 在过去的十几年中,研究人员一直在探索如何能够快速准确的从图像中读取文本信息,也就是现在OCRfc术。工业场景下的图像文本识别更为复杂, 它会出现在许多不同的情景下, 如医药包装上的文字、各类钢制零部件上的字符、集装箱表面喷印的字符、商铺Logo上的个性化字符等等。钢印识别个性化字体识别在这类图像中,文字部分可能会呈现为弯曲排列、曲面异形、倾斜分布、褶皱变形、残缺不全等多种形式,与标准字符的特征有较大出入,从而给图像文字的检测与识别带来了困难。二、传统算法传统OCRK术通常使用OpenC
2、Vf法库, 通过图像处理和统计机器学习方法提取图像中的文字信息,用到的技术包括二值化、噪声滤除、连通域分析和Adaboost、SVM1。按处理方式可以将传统OC敢术划分为图片预处理、文字识别、后处理三个阶段,其具体的技术流程如下表所示。阶段分类技术流程核心技木预处理文字区域定位连通域分析MSER文字矫正旋转仿射变换字符分割二值化过滤噪声投影分析识别分类器识别逻辑回归AdaboostSVM后处理后处理规则语言模型(HMMH)针对简单场景下的图片,传统OCFE经取得了很好的识别效果。但是从操作流程可以看出,传统方法是针对特定场景的图像进行建模的,一旦跳出当前场景,模型就会失效。随着近些年深度学习技
3、术的迅速发展,基于深度学习的OC敢术也已逐渐成熟,能够灵活应对不同场景。三、深度学习目前,基于深度学习的场景文字识别主要包括两种方法,第一种是分为文字检测和文字识别两个阶段;第二种则是通过端对端的模型一次性完成文字的检测和识别。3.1文字检测顾名思义,文字检测就是要检测到图片中文字所在的区域,其核心是区分文字和背景。常用的文字检测算法包括以下几种:_13.1.1CTPNCTPN1ECCV2016提出的一种文字检测算法, 由FasterRCNN:进而来, 结合了CNNtLSTM采度网络,其支持任意尺寸的图像输入,并能够直接在卷积层中定位文本行。CTPN由检测小尺度文本框、循环连接文本框、文本行边
4、细化三个部分组成,具体实现流程为:使用VGG1婀络提取特征,得到conv5_3的特征图;在所得特征图上使用3*3滑动窗口进行滑动,得到相应的特征向量;将所得特征向量输入BLSTM学习序列特征, 然后连接一个全连接FC层; 最后输出层输出结果。3.1.3EAST4CTP戏基于Anchor的算法, 在检测横向分布的文字时能得到较好的效果。 此外,BLSTM勺加入也进一步提高了其检测能力。3.1.2TextBoxes/TextBoxes+2,3TextBoxes和TextBoxes+模型都来自华中科技大学的白翔老师团队,其中TextBoxes是改进版的SSD而TextBoxes+则是在前者的基础上继
5、续扩展。TextBoxes+保留了TextBoxes的基本框架,只是对卷积层的组成进行了略微调整,同时调整了defaultbox的纵横比和输出阶段的卷积核大小,使得模型能够检测任意方向的文字。EASTS法是一个高效且准确的文字检测算法,仅包括全卷积网络检测文本行候选框和NMSS法过滤冗余候选框两个步骤。其网络结构结合了HyperNet和U-shape思想,由三部分组成:特征提取:使用PVANet/VGG1觎取四个级别的特征图;特征合并:使用上采样、用联、卷积等操作得到合并的特征图;输出层:输出单通道的分数特征图和多通道的几何特征图。Featureextractorstem(PVANet)Fea
6、tlire-mergingbranchEAST法借助其独特的结构和简练的pipline尺寸的文字且运行速度快,效率高。3.2文字识别通过文字检测对图片中的文字区域进行定位后,还需要对区域内的文字进行识别。针对文字识别部分目前存在几种架构,下面将分别展开介绍。3.2.1CNN+softmax5此方法主要用于街牌号识别,对每个字符识别的架构为:先使用卷积网络提取特征,然后使用N+1个softmax分类器对每个字符进行分类。具体流程如下图所示:Outputlayer,可以检测不同方向、不同Ws4H+i)S4Ws4H+i)S4/xDeepconvolijlionalfeatureextraction使
7、用此方法可以处理不定长的简单文字序列(如字符和字母),但是对较长的字符序列识别效果不佳。3.2.2CNN+RNN+attention6本方法是基于视觉注意力的文字识别算法。主要分为以下三步:模型首先在输入图片上运行滑动CNNW提取特征;将所得特征序列输入到推叠在CNN部的LSTM!行特征序歹【的编码;使用注意力模型进行解码,并输出标签序列。235235MoMo= =W WS5S5H+bS5H+bS5X128x128x3inputimagecRcR1010= =WsiH+bsiWsiH+bsiWSaH+bSaWSaH+bSaWSSH+4)S3ZS4ZS4 1010P(SilH)P(SilH)P(
8、S2lH)-P(S2lH)-P(S3IH|P(S3IH|P(S4IH)P(S4IH)= =soltmaxiZmi)sofimaxfZsj)softmax(ZS3)soft3Mzs41崛FeaturevectorP(S51H)P(S51H)= =softmsoftmaxfZss)axfZss)P(LIH)=softmajc(ZL)本方法采用的attention模型允许解码器在每一步的解码过程中,将编码器的隐藏状态通过加权平均,计算可变的上下文向关的信息,而不必完全依赖于上一时刻的隐藏状态3.2.3CNN+stackedCNN+CTC口上一节中提到的CNN+RNN+attention方法不可避免的
9、使用到RNNg构,RNNT以有效的学习上下文信息并捕获长期依赖关系,但其庞大的递归网络计算量和梯度消失/爆炸的问题导致RNNf艮难训练。 基于此, 有研究人员提出使用CNNfCTC结合的卷积网络生成标签序列,没有任何重复连接。这种方法的整个网络架构如下图所示,分为三个部分:注意特征编码器:提取图片中文字区域的特征向量,并生成特征序列;卷积序列建模:将特征序列转换为二维特征图输入CNN获取序列中的上下文关系;CTC获得最后的标签序列。WordCharacterDeWordCharacterDecodercoderConvolutionalFetuneConvolutionalFetuneExtr
10、actionyiV2垢1/1VisualAttentionVUiialFeatureVUiialFeatureEncoderEncoder量,因此可以时刻读取最相本方法基于CNNT法,相比RNW省了内存空间,且通过卷积的并行运算提高了运算速度。3.3端对端文字识别使用文字检测加文字识别两步法虽然可以实现场景文字的识别,但融合两个步骤的结果时仍需使用大量的手工知识,且会增加时间的消耗,而端对端文字识别能够同时完成检测和识别任务,极大的提高了文字识别的实时性。3.3.1STN-ORCOJSTN-OC粳用单个深度神经网络,以半监督学习方式从自然图像中检测和识别文本。网络实现流程如下图所示,总体分为两
11、个部分:定位网络:针对输入图像预测N个变换矩阵,相应的输出N个文本区域,最后借助双线性差值提取相应区域;识别网络:使用N个提取的文本图像进行文本识别。WW(XSamplerSamplerWRecognitionNetworkFL_irFL_ir后叮&1616AhcfilooviliaEurcCIWConvduflkffllialMjqLhri)iTHConvduflkffllialMjqLhri)iTHKlclinfKlclinf口tihk二K-匚二r*THREH6sB:步-士.ExtractedTextRegions11Output1*T TE EJXiAciianJXiAciian
12、BmnclhBmnclhTwJ1口号心、本方法的训练集不需要bbox标注,使用友好性较高;但目前此模型还不能完全检测出图像中任意位置的文本,需要在后期继续调整。3.3.2FOTS9FOTSg一个快速的端对端的文字检测与识别框架,通过共享训练特征、互补监督的方法减少了特征提取所需的时间,从而加快了整体的速度。其整体结卷积共享:从输入图象中提取特征,并将底层和高层的特征进行融合;文本检测:通过转化共享特征,输出每像素的文本预测;ROIRotate:将有角度的文本块,通过仿射变换转化为正常的轴对齐的本文块;文本识别:使用ROIRotate转换的区域特征来得到文本标签。FOTS一个将检测和识别集成化的
13、框架,具有速度快、精度高、支持多角度等优点,减少了其他模型带来的文本遗漏、误识别等问题。四、总结本文参考前沿文献,总结了当前主流的OCF景检测技术。相对来说,使用基于深度学习的端对端检测模型可以实现快速、 准确的文字识别, 且可以灵活的应用于倾斜、 弯曲、褶皱变形等复杂场景。通过对现有算法模型的细节调整,将成熟的文本识别模型集成化,即可实现工业场景中的OCRM别。/、iv、rt参考文献:1 TianZetal.DetectingtextinnaturalimagewithconnectionisttextproposalnetworkC/Europeanconferenceoncomputer
14、vision.Springer,Cham,2016.2 LiaoMetal.Textboxes:AfasttextdetectorwithasingledeepneuralnetworkC/Thirty-FirstAAAIConferenceonArtificialIntelligence.2017.3 LiaoMetal.Textboxes+:Asingle-shotorientedscenetextdetectorJ.IEEEtransactionsonimageprocessing,2018.4 ZhouXetal.EAST:anefficientandaccuratescenetext
15、detectorC/ProceedingsoftheIEEEconferenceonComputerVisionandPatternRecognition.2017.5 GoodfellowIJetal.Multi-digitnumberrecognitionfromstreetviewimageryusingdeepconvolutionalneuralnetworksJ.2013.6 DengYetal.Image-to-markupgenerationwithcoarse-to-fineattentionC/Proceedingsofthe34thInternationalConferenceonMacTextTextRceogruliofRceogruliofiBrwchiBrwchhineLearning-Volume70.JMLR.org,2017.7 GaoYetal.ReadingscenetextwithfullyconvolutionalsequencemodelingJ.Neurocomputing,2019.8
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025圆梦新年演讲稿(6篇)
- 洛阳市考古研究院引进专业人才笔试真题2024
- 电力仪表的实时监控技术考核试卷
- 玉米糊调配考核试卷
- 外研版初中英语九年级上册全册导学案含答案
- 羽绒品牌忠诚度培养策略考核试卷
- 水果罐头加工中的食品安全信息传递与沟通机制考核试卷
- 羽绒制品企业供应链优化与协同管理考核试卷
- 电子测量技术在实际工程中的应用考核试卷
- 外研版(新标准)英语九年级下册单元检测试题及答案(全册)
- 《民俗旅游学》教案-第九章 岁时节日民俗与旅游
- 软件质量证明书
- 高考标准化考场建设方案详细
- 人民医院肿瘤科临床技术操作规范2023版
- 高压-引风机电机检修文件包
- 2023届物理高考二模考前指导
- GB/T 39486-2020化学试剂电感耦合等离子体质谱分析方法通则
- GB/T 11085-1989散装液态石油产品损耗
- GXH-3011A1便携式红外线CO分析仪
- 2022年四川省阿坝州中考数学试卷及解析
- 综采工作面末采安全技术措施
评论
0/150
提交评论