计算机视觉应用开发课件:场景文字识别概述_第1页
计算机视觉应用开发课件:场景文字识别概述_第2页
计算机视觉应用开发课件:场景文字识别概述_第3页
计算机视觉应用开发课件:场景文字识别概述_第4页
计算机视觉应用开发课件:场景文字识别概述_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

场景文字识别概述场景文字识别的基本概念01任务文字识别的应用场景02任务文字识别的分类03任务学习目标了解场景文字识别的基本概念了解文字识别的应用场景和分类1场景文字识别的基本概念1场景文字识别的基本概念OCR(OpticalCharacterRecognition,光学字符识别)传统上指对输入扫描文档图像进行分析处理,识别出图像中文字信息。图为OCR的简易过程:具体流程如下:第一步,通过图像信息采集(一般是相机),得到了一幅包含待识别字符的图像,并对其结构进行了分析;第二步,采用阈值运算等图像处理方法对待测对象进行去噪,并校正待检测的物体;第三步,由于文本信息的特殊性,需要进行行和列分割用于检测单个或连续的字符;第四步,将分割后的字符图像导入识别模型进行处理,从而获得原始图像中的字符信息。1场景文字识别的基本概念图为OCR文字识别的操作步骤:其中,OCR识别的关键技术在于文字检测和文本识别部分,这也是深度学习技术可以充分发挥功效的地方。1场景文字识别的基本概念场景文字识别(SceneTextRecognition,STR)指识别自然场景图片中的文字信息。自然场景图像中的文字识别,其难度远大于扫描文档图像中的文字识别,因为它的文字展现形式极其丰富:允许多种语言文本混合,字符可以有不同的大小、字体、颜色、亮度、对比度等;文本行可能有横向、竖向、弯曲、旋转、扭曲等式样;图像中的文字区域还可能会产生变形(透视、仿射变换)、残缺、模糊等现象;自然场景图像的背景极其多样。如下图所示,文字可以出现在平面、曲面或折皱面上。文字区域附近有复杂的干扰纹理、或者非文字区域有近似文字的纹理,比如沙地、草丛、栅栏、砖墙等。1场景文字识别的基本概念也有人用OCR技术泛指所有图像文字检测和识别技术,包括传统OCR技术与场景文字识别技术,其实场景文字识别技术可以被看成是传统OCR技术的自然演进与升级换代。2文字识别的应用场景2文字识别的应用场景图像文字检测和识别技术有着广泛的应用场景。目前许多互联网公司的相关应用已经涉及了这个领域,比如识别名片,识别路牌,识别试卷,识别车牌号等。而且已经有不少的服务商都在持续增强文字检测和识别的技术,比如腾讯,百度,阿里,亚马逊,微软,谷歌等大型云服务企业,还有一些活跃在物流,教育,安防,视频直播,商务,旅游导航等服务企业。这些企业既可以使用提前训练好的模型直接提供场景图文识别、卡证识别、扫描文档识别等云服务,也可以使用客户提供的数据集训练定制化模型(如票据识别模型),以及提供定制化AI服务系统集成等。3文字识别的分类3文字识别的分类文字识别可根据待识别的文字特点采用不同的识别方法,一般分为定长文字和不定长文字。定长文字:由于字符数量固定(比如车牌号),采用的网络结构相对简单,识别也比较容易。一般构建3层卷积层,2层全连接层便能满足其识别。不定长文字:由于字符数量不固定(比如广告牌文字),因此需要更复杂的网络结构和后处理环

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论