场景文本提取方法的应用_第1页
场景文本提取方法的应用_第2页
场景文本提取方法的应用_第3页
场景文本提取方法的应用_第4页
场景文本提取方法的应用_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、场景文本提取方法的应用摘要场景图像中的文本提供了重要的语义信息,它是图像内容的重要来源。针对当前的求解算法普遍存在提取文本准确度不高等缺点,本文提出了一种有效的文本提取方法。首先对原始图片进展模糊化处理,然后进展Laplaian边缘提取和二值化,再形态学变化,最后进展连通域分析,实现了场景文本的提龋关键词文本提取;边缘检测;二值化;连通域分析随着计算机、多媒体以及通讯技术的飞速开展,相当数量的文字信息正越来越多地以图像形式出现1。图像中的文字是图像内容的一个重要来源,假如这些文字能自动地被检测、分割、识别出来,那么对图像语义的自动理解、索引和检索是非常有价值的4。图像文本可以分为人工文本和场景

2、文本。人工文本是指人工加在图像上的文本,场景文本是图像上本身存在的文本,如广告牌或运发动球衣上的号码等。由于场景文本图像具有较为复杂的背景,同时受光线和文本的字体、颜色、位置等因素影响较大,往往很难被检测、提取和识别,因此自动从场景中提取文本是一项极具挑战性的工作。目前已有的文本区域提取方法大致可以分为三类:基于连通域的方法,基于纹理的方法和基于边缘的方法2。基于连通域的方法速度快,但是当背景复杂或文本与背景颜色相近时分割困难,而基于纹理的方法非常费时而且处理复杂背景时误报比拟多。本文根据场景中的文本区域与背景比照度强,存在丰富的边缘信息,因此选择基于边缘检测的文本提取方法对场景文本的提取进展

3、研究。首先对原始图像进展模糊化处理,然后用Laplaian边缘提取降噪,再进展形态学变化,最后连通域分析,从而实现场景文本的提龋实验说明,本文的文本提取方法具有较高的正确率,边界定位较准确。1.1图像预处理由于光照等环境因素的影响在图像上会产生许多噪声,又考虑到Laplaian算子去噪才能较差,因此本文在预处理时先对原始图像进展模糊化,滤除图像中的局部噪点。本文用的是3*3的卷积来进展连续模糊。1.2边缘检测与二值化边缘检测是所有基于边界分割方法的第一步。两个具有不同灰度值的相邻区域之间总存在着边缘。由于场景中文本和背景视觉反差较大,且文本区域具有相当大的一个宽度,与此同时场景文本笔画边缘明显

4、,所以利用边缘检测方法可以较好地提取出场景中的文本边缘。本文采用的是基于二阶微分算子的Laplaian边缘检测算子。该方法对图像中的阶跃型边缘点定位准确且具有旋转不变性的特点,即各向同性的性质。而场景文本正好具有阶跃型边缘的特性,所以说Laplaian算子较合适场景文本的提龋其表达式为:1-1使用的Laplaian算子模板如下图:图1拉普拉斯算子从边缘检测结果来看,在引入经过模糊处理后的Laplaian算子可以在不影响文本边缘提取的前提下能获得很好的去噪效果。缺点是对光线影响较强和质量较差的图片处理过程中损失较大。边缘图像的二值化是很重要的问题,假如阈值过大可能会漏掉一些文字边缘,而阈值过小那

5、么可能会使较多的非文字边缘被当作文字边缘处理,导致误检较多。本文针对不同图像采用整体阈值二值化,用最小误差方法求分割阈值。这主要是由于整体阈值算法简单,时间开销小,选择适宜的阈值可以获得较好的效果。而且用最小误差方法求整体阈值的算法可以较好地别离背景和文字。1.3形态学运算形态学将图像信号与几何形状联络起来,利用构造元素的探针搜集图像的信息。形态学运算可以对图像上的物体做形状等方面的限制,常用于目的检测等。本文用形态学中的开闭运算和腐蚀膨胀的方法来检测二值边缘密度图像上的文本矩形区域。形态学运算包括以下两步:(1)对二值化的边缘密度图像做7个象素宽度的程度闭运算,连接字符笔画形成矩形区域;再做

6、15个象素宽度的程度开运算,去除孤立的背景;(2)形态学后处理(即在连通域分析后进展的二次形态学运算):对每个连通域做度的膨胀运算和度的腐蚀运算。其定义如下:in(,/8)1-2/41-3其中,分别对应连通域的高度和宽度。通过第一步形态学运算去除局部背景区域,将相连的背景和文本分开;第二步形态学运算后图像上只剩下局部规那么的矩形区域。实验说明,通过以上两步形态学运算能比拟准确的得到文本矩形区域。1.4连通域分析虽然以上方法可删除大量的非文本区域,但结果中可能还存在不包含文本的矩形区域。因此有必要对二值图像做连通域分析。连通域算法是指从二值图像中标记出所有像素连通的区域。本文的连通域分析指的是8

7、连通。该方法步骤如下:(1)将原始图像变换为行连通单元图像,如图2(b)所示,此时不考虑不同行之间的连通,同一行中的不同连通域赋予不同的标号,背景置零。(2)考虑不同行之间的连通情况,从上到下扫描图2(b)中结果,引入记录数组D,该数组用来记录连通的情况,约束是:数组下标和数组存储的内容表示两个连通域单元连通,应该合并为一个连通域,如D(5)=3,那么表示5和3本质上是一个连通域。如今使用数组D记录连通的情况,假如下一行某个行连通单元和本行中不止一个连通单元连通,那么记录本行中标号最小的单元与下一行此单元连通。按照D的记录修改图2(b),得到图2()中的结果。(3)进一步考虑不同行之间的连通情

8、况,修正图2()中结果。对图2()从下到上扫描,假如连通情况与D的记录不符就修改D。此时按照D的记录修改图2()就可以得到最终结果。见图2(d),可以看出一样的连通域已经有了一样的标号。图2连通域分析过程对于各个标记的连通分量,文本区域的横宽比、密度、宽度、高度等均有一定的限制。在本文中取如下参数:in(/,/)0.25(1-4)0.2A/()1(1-5)in,3(1-6)其中A表示连通分量的面积,表示宽度,表示高度。本文的实验数据由150幅标志牌,海报,广告标语,新闻图片,球衣照片等组成。采用计算正确率,错误率和遗漏率的方法来评价实验结果。正确率正确提取的文本区域个数/实际文本区域个数;错误

9、率错误提取的文本区域个数/实际文本区域个数;遗漏率未被检测到文本区域个数/实际文本区域个数。本文选择了较复杂的150幅图片作为测试数据,尽可能的包含了文本提取过程中可能出现的情况。实验结果为:正确率80.31,错误率11.23,遗漏率10.57。出现错误和遗漏情况的原因是图像的分辨率太低或背景与文本区域比照度太校局部实验结果如图3所示:图3局部实验结果本文介绍了一个从场景图像中提取文本有效的方法。先通过模糊化处理进展除噪,并对传统的Laplaian边缘检测方法加以改良和二值化处理。通过对边缘图像的形态学运算,去除了非文本区域。最后进展连通域的分析,使得文本提取有较高的正确率。该方法较anny算子处理的结果具有非文本连通区域少、定位准确等特点。但该方法在处理有光照等复杂背景的图像时效果不理想,阈值的依赖性较强,因此在设计算子和选取有效的阈值方法上需要进一步研究。1章毓晋.图象处理和分析根底.高等教育出版社.20012崔莹莹,杨杰,梁栋.基于边缘的标志牌文本提取方法.影像技术.20223王郑耀.数字图像的边缘检测.西安交通大学出版社.20024张引.复杂背景下文本提取方法研究与应用.浙江大学博士学位论文.19995何斌,马天予,王运坚等.Visual+数字图像处理.人民邮电出版社.20016

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论