版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、毕业设计(论文)说明书题目: 复杂背景图像中文本定位算法设计系 名 信息工程系 专 业 电子信息工程 学 号6008202349 学生姓名 杨 宇 指导教师 冀 中 2012年6月8日摘要随着多媒体技术的飞速发展,复杂背景图像中的文本定位研究不仅丰富了图像处理理论,而且在诸如Internet环境下的图像检索、交通管理中的车牌识别等具有重大的价值。复杂背景文本定位是一个具有较大难度性的研究课题,原因是文本图像的背景非常复杂,图像大多在室外拍摄,光照条件变化较大,其中不同文字的颜色、亮度、字体、大小、间距、对比度、排列方向和背景纹理等有很大差别。要提取具有复杂背景的文本,首先要找到包含文本的区域,
2、然后才能利用文本识别模块进行识别。本文综述了现有的主要文本定位方法,分析了其中的优缺点,实现了一种基于边缘检测和支持向量机的图像文本定位方法。其中,基于边缘检测的文本定位主要由金字塔分解、基于改进Canny算子的边缘检测、边缘提取和二值化、连通区域分析、以及文本区域鉴定与合并几部分组成。首先运用改进的Canny边缘检测算法检测出文本边缘,然后对检测结果进行连通区域分析、文本区域鉴定与合并得到候选的文本区域。进一步,通过将定位出的候选文本区域运用支持向量机的分类器训练的方法来提高文本定位的准确性。实验结果表明,该文本定位方法不但可以较准确的定位出相应的文本区域,而且具有一定的意义和较大的实用价值
3、。关键词:文本定位;边缘检测;特征提取;支持向量机ABSTRACTWith the development of the multimedia technology,the study of locatingtexts under complicated background has not only enriched image processing theoretically,but also has enormous value in practical application. For example,the image retrieval under Internet environ
4、ment and the discernment of the platenumber in traffic administration. The location and extraction of text from complex background is an important research problem in the computer visionThe variation of the text in terms of characters font,size, style,orientation alignment,texture color and complex
5、background makes the problem of text localization very difficult. The scene content is unconstrained and maybe bothindoor and outdoor scenes under any lighting or contrast conditionsTo extract complex background text,text areas should be located firstCurrent text location methods ale researched in t
6、hispaper,and the advantage and disadvantage of them are analyzedThen textlocation method based on edge detection and support vector machines isimplemented.Edgedetection based text location method is composed by Pyramiddecomposition,improved Canny algorithm-based edgedetection,edge abstractingand bin
7、ary,connected component analysis, text region identifying andcombination. First,the improved Canny algorithm is used to detect the text edge, then connected component and text region identifying and combination is used toget the candidate text regionThis paper uses the method of support vector machi
8、nes classifier training to improve the correctness of text location. The support vector machine is applied to reduce the number of examples effectively, and the result of the experiment is goodThe result of the experiment shows that this algorithm can well and exactly locate the text, this algorithm
9、 is valuable in theory and application. Keywords: text location;edge detection;feature extraction;support vector machines目录第一章绪论11.1 研究背景及意义11.2 文本定位研究的现状21.3 论文的主要研究内容及结构4第二章复杂背景图像中的文本定位的一般方法62.1 文本特征及类别62.2 文本流程定位72.3 文本定位方法92.4 本章小结13第三章基于边缘检测的文本定位方法研究143.1 引言143.2 边缘检测143.3 连通区域分析233.4 文本区域定位与合并
10、243.5 实验结果253.6 本章小结27第四章总结28参考文献29外文资料中文翻译致谢第一章绪论1.1研究背景及意义图像中的文本定位是以数字图像处理为基础的,涉及到模式识别、神经网络、信号检测、认识科学等多门学科。随着光学字符识别(OCR)技术的兴起,许多学者开始进行文档图像中文字定位与提取的研究。图像文本定位作为OCR系统的一个预处理部分,对识别嵌入在复杂图像中的文本具有重要的作用。近年来,随着多媒体技术和计算机网络的飞速发展,全世界的数字图像的容量正以惊人的速度增长。每天都会产生海量的图像,这些数字图像中包含了大量有用的信息。目前的计算机视觉和人工智能技术都无法自动对图像进行标注,而必
11、须依赖于人工对图像做出标注。这项工作不但费时费力,而且手工的标注往往是不准确或不完整的,还不可避免地带有主观偏差。所以如何从含有复杂背景的图像和视频中快速而准确地定位和提取文本,现在成为国际上热门的研究课题。复杂背景是指:图像中的背景含有丰富的纹理;有时文本是嵌入在纹理中的,甚至有时文本本身就是纹理;文本的可能出现的位置、所受光照、字体、大小和颜色都不尽相同,而且这些在文本定位前都是先验未知的,这三点也正是这一研究的挑战所在。如果能够找到解决这些问题的方法,构造出解决复杂背景下的文本定位模型,对于丰富图像处理理论,对于基于内容的视频检索技术的发展,具有重要的理论意义和实用价值。复杂背景下的文本
12、定位的应用:(1)实时车牌定位。通过摄像头捕获高速公路上的车牌图像,经过车牌识别系统进行分析和处理,可以实时对交通情况进行监督,实时识别出交通事故涉及车辆的号码,提高运输监管部门的工作效率。(2)互联网应用。Web服务器的数量正以惊人的速度增长,文本构成了Web页的重要组成部分,在有的网页上图像中的文字居然占去了总的文字量的一半以上,这个比例是相当惊人的,Web页中的图像包含了许多的像素文本信息。(3)图像、视频检索。随着多媒体技术和计算机网络的飞速发展,越来越多的信息以数字图像的形式传播和存储,图像、视频检索成为计算机领域研究的热点之一。传统的基于关键词的检索技术已不能满足人们的需求,基于内
13、容的图像检索应运而生,而图像中的文字是图像高层语义内容的重要来源。(4)实时处理护照、票据、身份证等。用扫描、照相等方式获得它们的数字图像后,定位并识别图像中的文字可以快速的获得它们所包含的关键信息。(5)网络过滤。一些不良网络信息的提供者将文本嵌入到图像文件中,或直接以图像文件的形式显示文本以绕开网络过滤系统。基于图像内嵌文本的语义分析可以实现基于图像内容的检索和过滤。文本区域定位就是找出图像中文本所在的位置或刚好包围文本的矩形区域,是文本识别非常关键的一步,文本定位的精确与否直接决定整个识别系统准确率的高低。但文本定位受语种、文字的颜色、分辨率、字符间距、背景、光照、倾斜等影响较大,并且某
14、些纹理、图案等很难与文字区分开来。由于数据采集设备的原因,可能会出现离焦模糊、运动模糊、传感器噪声等,这些都给文本定位带来了较大的困难,它到目前为止依然是一个有很好解决的问题。如何从复杂背景中准确快速的定位出文本区域以及如何降低遗漏的文字,这就是目前复杂背景图像中的文本定位在图像领域的一个研究热点和难点。1.2文本定位研究的现状复杂背景图像中文本定位问题的产生,是由于将OCR技术扩展到其它应用领域中而产生的问题。在很多领域中,文本是嵌入在复杂背景图像中的,要想很好的识别首先必须进行文本区域的定位,因此提出了复杂背景图像中的文本定位问题的研究。文本定位的目的主要可以分为:视频图像中的文本定位用于
15、基于内容的视频索、场景图像中的文本定位用于场景理解等。国内外很多的学术机构都开展了这一方面的研究工作。国外主要有美国的加州大学、IBM公司、MIT以及韩国和日本的主要研究机构等。国内主要从事这一研究的有中国科学院自动化研究所,中国科学院计算所进行的视频中文字定位研究,清华大学也在从事这方面的研究工作。为了能很好的分析现有文本定位方法的异同点,本文从图像中的文本具有的一般特点出发对文本定位方法进行分类。复杂背景图像中的文本具有以下的特点:(1)文本区域中的字符一般成有规律的排列,字符间隔一致,排列方向一致,一般以水平排列居多。(2)字符一般大于一定的大小,太小的字符因无法识别而不去进行定位,而字
16、符大小的上限一般没有限制。(3)字符一般由一致宽度的笔画构成,笔画的密集程度在中文各个字符中并不一致,在英文字符中笔画的密度变化不是很大。(4)一般情况下,文本与背景之间总有一定的颜色差。但是可能受到光照条件的影响,使颜色差变得很小。(5)同一文本区域中的字符一般具有统一的颜色、大小、字体。对于场景文本,这种颜色的一致性可能由于光照条件的变化而出现一些变化,字符的大小也可能因为拍摄的方向变化而变化。但是对人工文本一般都具有一致的颜色和大小。(6)字符的背景复杂多变,无法预测。有的字符的背景单一,但是大部分的图像和视频中文字的背景都很复杂的,有很多的自然界中的物体与字符的笔划很相似,比如树叶、窗
17、格等,还有一些情况既是背景又是文本。人类有着非常强的识别能力,当人类看到一幅图像,可以很快地发现文字区域并很快的识别出这些文字。但对于计算机来说,要完成这个过程就很困难了,因为计算机只能依靠如方差、水平边缘、垂直边缘等可以量化的视觉特征,而文字的特征远不止这些,特别是中国汉字。图像文本定位的研究涉及到模式识别、图像处理、生理学、心理学、认知神经科学等,和其它的检测技术、计算机人机交互领域都有着十分密切的联系。诸多因素使得复杂背景图像中的文本定位成为一项极具挑战性的研究课题。本文对复杂背景图像中的文本定位研究的主要方法概述如下:第一个文本定位算法是1995年由Yu Zhong等1提出的,实验对象
18、是杂志封面。他们提出计算图像的局部水平方差图,用Canny算子提取水平方差图上的水平方向的边缘,通过检测成对出现的边缘得到文本区域的候选矩形框。对原来输入的图像颜色聚类,如果候选矩形框附近的像素的颜色与候选矩形框内的颜色在一个阈值范围之内,则将该像素合并到候选矩形框内。该方法的不足之处在于,如果图像的对比度很低,则无法得到候选区域;其次如果字符的颜色变化很大,则颜色聚类就没有效果。在文献2中作者提出了9条人工文字的特征,在对输入图像做了分割和合并算法之后,根据9条特征去除非文本区域,然后将文本区域按一定的规则合并成文字区域,通过纹理分析去除虚假区域。但是该方法对小的字符效果不是很好,这与其中的
19、Split and.Merge算法有关。在文献3,4中也提出了类似的方法。总的来说基于图像分割或颜色分层的文本定位方法对于高清晰度的图像,如杂志、封面等效果比较理想,而对于分辨率比较低,并且字符的字体比较小的图像,则效果比较差。针对以上方法的不足,一些研究者提出了基于边缘检测和纹理分析的方法,该方法对分辨率低的图像取得了满意的效果。诺基亚中国研发中心一直致力于数码相机拍摄的图像中文字的提取,并取得了一定效果。在文献5中作者提出基于梯度的文本提取方案,在经过滤波的彩色图像中提取四个不同方向、不同尺度大小的梯度图像,然后对该图像进行二值化和聚类,最后进行连通域分析,得到单个字符。该方法对中文、韩文
20、等方形文字有很好的效果。但是该算法用了很多的规则,这就大大降低了算法的鲁棒性,限制了算法的应用范围。文献6采用了一种适应性的文本检测方法,该方法的实验对象是场景文字(Scene Text),应用多尺度边缘检测方法来弥补对比度和噪声带来的影响,采用了基于高斯混合颜色模型的搜索策略,对提取出来的候选区域进行排列分析,该方法对对比度强的场景文字效果比较突出,但是对透明的文字、相对较小的文字效果就不是很理想,并且虚检率很高。文献7提出了在YUV颜色空间上的边缘提取和选择性二值化文本提取算法,接着对文本区域进行增强、弱化、噪声的影响。应用该方法定位出来的文本块空间位置比较精确,但是该方法有很大的局限性,
21、对于字体很大的文本、对比度小的文本,效果就很差了。文献11采用了计算水平梯度和Otsu二值化的方法,对二值图像进行形态学上的处理,得到比较好的定位效果。该方法的不足之处与文献7类似。微软亚洲研究院也在进行相关方面的研究,并取得一定的成就。复杂背景图像中的文本定位是计算机视觉领域的一个非常具有挑战性的课题,有着十分广泛的应用前景,设计一个在任何复杂背景下的文本定位系统是无数研究者们追求的梦想,但从目前的研究情况来看,这样的系统在短期内是不可能设计出来的。总的来讲,有:文本定位、算法集成、算法评价。复杂背景图像的文本定位的难点主要下面分别介绍:(1)文本定位:由于所处理对象是复杂背景图像,这些样本
22、受环境的影响大,噪声干扰大,图像中文字的语种、颜色、亮度、对比度、字体、大小、间隔、排列方向和背景纹理等因素复杂多变,由于拍摄时的投影关系,有的文字可能会发生形变,这些困难如何克服;同一幅图像中既有人工文本也有场景文本,我们如何区分,采用什么特征;采用基于知识的文本定位方法时,知识如何定义,定义的知识是否准确、有效和全面,是否具有通用性;采用基于学习的文本定位方法时,特征如何选取,选取的特征是否具有很好的推广能力,训练样本如何收集,如何进行训练,所有的这些因素都制约着复杂背景图像中的文本定位算法的研究和发展。(2)算法集成:多种算法集成难点主要在于集成方案选取上,即如何制订不同算法的选择策略,
23、这将影响到整个系统的性能,另外还有一个必须要考虑的因素就是尽可能快的处理速度。(3)算法评价:对文本定位算法评价的研究目前还非常的不够,还没有一种国际通用的方法,也没有一个通用的评测数据库,导致了算法间无法客观、公正地进行比较。要定义一个通用的算法,必须考虑很多的因素;期望输出结果(Ground-truth)如何定义,定位结果与期望输出结果之间采用何种匹配方案,如何体现图像中文字的定位难度的不同,如何保证评价标准的公正性、客观性,同时还要保证评价的方法高效、简单易懂。1.3论文的主要研究内容及结构复杂背景图像中的文本定位研究涉及了图像处理、计算机视觉、模式识别和人工智能等多种学科,使用到的相关
24、技术主要包括图像分割技术、人工神经网络、小波分析、图像形态学、Hough变换、支持向量机等。本文在国内外学者研究的基础上,对复杂背景图像中文本的定位进行了进一步的研究。本文实现了一种基于边缘检测的文本定位方法,并且将其扩展到统计模型支持向量机的框架下来提高文本定位的准确性,取得了较好的效果。论文的内容、章节安排如下:第一章:绪论,介绍了复杂背景图像中文本定位的研究背景及意义,简述了文本定位研究的现状,阐明了本文的主要研究内容及结构。第二章:介绍了复杂背景图像中文本的类别,文本定位的流程,并对多种复杂背景下文本的定位方法做了详细介绍、比较和分析。第三章:实现了一种基于边缘检测的文本定位方法。首先
25、对图像进行金字塔分解;然后在Canny算子边缘检测的研究基础上,提出了一种改进的Canny算子;随后进行连通区域分析,对文本区域进行鉴定与合并,定位出候选文本区域。第四章:对全文进行总结,并展望进一步的工作。第二章复杂背景图像中的文本定位的一般方法2.1文本特征及类别在现实生活中,人们可以很快地辨认出文本区域而不用逐个识别每个字符,因为文本具有很多统计特征,使其不同于场景的其他部分,可以归纳如下(1)文本和背景之间有较大的对比度;(2)文本拥有很多频率和方向信息;(3)文本具有空间聚合性:在一定距离内的字符都沿着某条虚拟的直线对齐,并且同一个字符串内的字符都有相似的高度、方向和大小。从上面列出
26、的特征中,我们可以发现有很多信息帮助我们处理文本。通常,我们把这些特征分为两类来讲:用来进行文本检测的特征和用来验证文本的特征。前者帮助我们设计方法来从图像中找出候选的文本区域;后者则从候选区域中剔除错误,找到真正包含文本的区域。然而,不论哪种方法都必须牢记以下两点: (1)复杂背景下文本的对比度在图像的不同位置会有所变化。复杂背景通常比简单背景要求更强的对比度来保证文本的可读。 (2)由于光照的不均匀、噪声和压缩的影响,文本的色彩也是不一致的,因此文本区域内部色彩的同一性不能被严格地假设。复杂背景图像中的文本可以根据产生的原因划分为:场景文本(Scene Text)和人工文本(Artific
27、ial Text)。场景文本是指实际拍摄场景中所包含的文本,随同拍摄场景一起被拍摄到图像或视频中,它属于场景的一部分。例如:拍摄图像中的车站站牌、汽车车牌等等。场景文本容易受到光照条件、拍摄设备参数的影响,而且方向没有任何的限制,字符有可能受到照相机拍摄角度的影响而发生形变,文字本身可能与场景中的其它物体发生相连等情况。人工文本是指通过数码相机、摄像机、扫描仪等工具得到图像,再通过图像处理工具(软件或硬件)对图像或视频进行编辑,加上一些相关的文字信息所得到的。例如,在新闻视频n引中添加的新闻标题、电影视频中的字幕等等。人工本不是拍摄场景的一部分,被认为是后期添加的结果。人工文本一般比较规整,与
28、背景之间具有较大的对比度,为了便于让人阅读,字符一般都具有一定的大小,字符的颜色比较一致。这一类字符相对容易识别。一般来说,真实场景中的文本定位相对要比人工文本定位难。两者都可以统一在复杂背景图像的文本定位中。因此文本后续的研究中,对本文将不具体区分是定位人工文本还是场景文本,仅仅关注图像背景的复杂性。2.2文本流程定位复杂背景图像中的文本定位一般由特征提取、特征分类、特征聚集、候选文本区域提取和文本区域验证等五个步骤组成,如图2-1所示。图2-1 文本定位步骤首先,选择某个或某些能够把文本与背景区别开来的文本特征;其次,采用某种算法提取文本特征;接着,聚集空间相邻的特征点形成区域:然后,用文
29、本的另一些特征除去一些不可能是文本的区域得到候选文本区域;最后,再用文本的一些特征对候选文本区域进行验证得到真正的文本区域。文本特征选择文本具有尺寸、颜色与灰度值、边缘、纹理、对比度、排列方式、符间隙、运动、稳定性、背景变化、阴影和透明效果等特征,应该选那些容易把文本与背景区分开来的特征,以使文本与背景在特征空间内,类间距离较大而类内距离较小。2.2.2文本特征提取对于不同的文本特征需要采用不同的图像处理技术提取,各种文本定位方法文本特征提取与分类所用的技术,如表2-1所示。表2-1文本特征和文本特征提取与分离所用的技术文本定位的方法基于区域的方法基于纹理的方法基于边缘的方法基于学习的方法选择
30、的文本特征颜色与灰度值纹理被边缘与梯度图像块中像素灰度值或灰度值的多阶中心距,彩色梯度文本特征提取与分离所用的技术局部阀值方法,颜色聚类,颜色量化k-mean方法Soble边缘检测,Canny边缘检测人工神经网络,支持向量机文本特征聚集形成区域图像中的文本特征通常是分散的点、线段和小区域,不能构成一个完整的文本区域,因此需要聚集这些分散的文本特征形成连续的区域。连通成分分析(Connected Component)和排列分析、形态学运算、均值偏移算法(Mean ShiftAlgorithm)、水平或垂直投影方法和变异直方图方法等是一些常用的方法。连通成分分析和排列分析方法合并排列方向相同、尺寸
31、相似的相邻连通成分形成连通区域;形态学膨胀运算、均值偏移算法利用边缘点或小区域之间的空隙形成连通区域;水平或垂直投影方法和变异直方图方法统计图像水平或垂直方向全部或部分文本特征的值,然后对投影曲线或变异直方图进行分析提取文本区域。2.2.4候选文本区域提取文本特征聚集形成区域里有一些明显不是文本区域,根据区域的高、宽、高宽比、面积和区域内边缘点的密度可以除去这些噪声区域。2.2.5文本区域验证在候选文本区域提取中,为了尽量减少文本的漏检率,对文本区域的限制条件般并不严格。因此候选文本区域会有一些区域不是文本区域,需要进一步对它们进行验证。文本区域验证可以使用更多的特征,采用更严格的限制条件。文
32、本区域验证的方法有:用候选文本区域的高、宽、高宽比和面积进行文本区域验证:用候选文本区域的尺寸、偏心率、饱和度、强度变化与用置信度加权的排列值(Align Value)进行文本区域验证;用候选文本区域内边缘点的密度进行文本区域验证;用候选文本区域的直方图分布、字符的结构、字符的排列信息和字符识别进行文本区域验证;用支持向量机进行文本区域验证。2.3文本定位方法复杂图像中的文本定位属于模式识别问题,类似于人脸检测。可以将文本定位作为一个两类的分类问题(文本和非文本)。现在解决特定模式分类问题的关键就是提取有效的目标特征,然后选择适当的分类算法。大多数文本定位方法都是利用文本特征进行文本的定位。基
33、于字符颜色的一致性,提出了基于区域的分析方法;基于字符一致排列而呈现一定的纹理特征,提出了基于纹理的文本区域定位方法;基于文本区域含有较多的边缘,提出了基于边缘的文本定位方法。2.3.1基于区域的文本定位方法基于区域的文本定位方法一般假设字符区域具有一致的颜色,根据字符颜色的一致性和字符颜色与背景较大的对比度分割图像,然后对分割后的每个颜色层进行连通域的分析,得到各个候选的连通分量,将各个连通分量作为候选的字符连通分量,对每个连通分量利用一些几何特征以及利用字符的排列关系等排除一些非文本连通分量,并最终得到文本区域。根据不同的颜色分割方法,不同的确认字符连通分量的方法,以及是否利用规则方法或者
34、机器学习的方法,得到了各种基于区域的文本定位方法。基于区域的文本定位方法主要使用的分割方法有:颜色聚类,颜色量化,利用直方图的分割等。判断各种分割方法对基于连通域的文本定位的好坏主要是考查各种分割方法能否有效的将字符与背景区分开来:同时分割方法能够有效的抑制噪声连通分量的产生,从而减少后续连通分量的判别:另外分割方法的计算速度也是一个应该考虑的问题。根据这些原则还可以尝试各种更为有效的分割方法。Kim20等人利用RGB空间的颜色聚类来分割图像,然后去除明显的非文本区域,如细长的水平线段、图像边框等;文本区域通过投影分析来提取;最后将这些文本区域基于知识规则进行合并。一些门限值需要根据经验来决定
35、,所以这个方法通用性不强。利用这种方法进行的实验采用了50幅视频图像,这些图像中包含不同大小和风格的文字,准确率为87。Lienhart等人把文本区域看做是颜色相似的连通区域,用分离和合并算法对图像进行分割,并把分割得到的太大和太小的块都去掉;在形态学膨胀后,再利用相邻帧的运动估计增强文本提取效果;最后用文本的启发性知识滤除非文本区。他们的实验对象为2247帧视频图像,实验表明该算法能提取视频帧中86-100的标题文本。Jain和Yu先把24bits的真彩色图像降低为6bits的彩色图像,再用颜色聚类的方法把原图像分解成不同颜色的子图像;检查每幅子图像中是否包含满足特定启发式搜索的文本;最后将
36、每幅子图像中检测到的文本区域进行合并So-chang 2Pei等人首先用一个SOFM神经网络对输入图像进行颜色量化,然后分析三维彩色直方图;当某一颜色处的梯度大于阈值时,则认为该颜色可能是文本颜色,并将该颜色所占区域赋值为1,其它为0,从而得N-值子图像。再对各二值子图像进行形态学处理、连通域分析,得到候选文本区域。该算法的鲁棒性较强。实验采用的图像具有不同分辨率和背景复杂度,其中的文字大小、风格也各不相同,达到87.26的准确率。基于区域的文本定位方法对于具有较大文本与背景对比度的较大字符相对有较好的定位效果,实现简单,计算速度也较快,定位的文本框准确,并同时可以提取文本的颜色,方便后续的文
37、本提取操作。但是这种方法容易受到复杂背景的影响,一些类似字符的背景目标很难被区分,所以准确率相对较低。同时受到噪声污染的文本区域可能与背景物体相连而很难得到定位。2.3.2基于纹理的文本定位方法基于纹理的文本定位方法认为文本具有特定的纹理属性,这种纹理是由于字符特定的排列方向以及字符颜色与背景颜色周期性变化而产生。这类方法通常将整幅图像分割成互不重叠的子块,然后使用各种方法,如Gabor滤波、空间方差、小波变换等来得到子块中的纹理特征,然后使用一个适当的分类器对每个子块进行分类(文本和非文本),通常使用的分类器有:神经网络、支持向量机、Adaboost等。为了能够有效的对不同大小的字符进行检测
38、,基于纹理的方法一般都使用基于金字塔或者小波分解的方法,对不同分辨率的图像都进行类似的处理得到文本区域,然后融合到原始图像上。Park19等人“们利用文本的空间差异定位车辆牌照,他们采用两个时延神经网络在HSI空间检测纹理。两个神经网络中一个用于检测水平方向的纹理,一个用于检测垂直方向的纹理。最后将两个神经网络的输出结果加以合并,并结合投影分析得到牌照的矩形区域。Wu等人提出了一种多尺度纹理分割方法用于文本定位。他们用三种不同尺度的二阶高斯滤波器对图像滤波,并对滤波后的图像作非线性变换;变换后的结果作为每个像素的特征并用K-means聚类的方法进行纹理聚类、分割。由于该方法是基于不同尺度纹理检
39、测的方法,因此对图像分辨率高低不敏感,但是处理速度较慢。Mao等人利用小波变换检测图像纹理,再通过纹理分析进行文本定位。他们先对一幅图像进行Haar小波分解,并计算不同尺度图像的局部能量差异,再将局部能量差异图阈值化从而得N-值图像(通常边缘处的像素局部能量差异大,而边缘内部的像素局部能量差异小);然后在不同尺度的二值图像中进行连通域分析,利用文本的几何特性限制去除非文本区域;最后将不同尺度图像中检测到的文本区域进行合并。基于纹理信息的文本定位方法通常对文字的大小和风格很敏感,很难手工设计出一个适用于各种情况的通用的纹理分类器。因此,人们提出了基于学习的方法以自动分类纹理。Li等人利用基于学习
40、的方法定位图像中的文字。他们先用Haar小波分解得到文本和非文本的纹理特征;然后用1616的窗口扫描整个图像,采用三层BP神经网络作为分类器识别分类文本区域和非文本区域。为了解决训练样本的不足,采用fly Sung、提出的Bootstrap(自举)方法进行样本训练。由于通过纹理检测所得到的文本区域不够准确,最后再对候选文本区进行水平和竖直的投影分析,以进一步确认文本区域。Kim20将支持向量机(SVM)用于分析图像中文本的纹理特性。该方法不需要专门提取纹理特征,而是直接将像素的灰度值作为支持向量机的输入,经支持向量机处理后输出分类结果(即文本或非文本);然后再通过消除噪声和合并文字区域就可得到
41、定位结果。支持向量机对于文本定位有很好的鲁棒性,并且可在有限的样本中进行训练。基于纹理的方法有针对子窗口或者象素点提取纹理特征两种。大部分方法还是将图像分为不重叠的子窗口提取子窗口的纹理特性,并进行判断是否为文本区域。由于纹理方法的特征相对连通分量特征没有直观的意义,很难用基于规则的方法进行判断,一般使用较为复杂的分类器进行分类。而且基于纹理的文本定位方法由于假设文本是一种特殊的纹理,要求字符是成块的出现,字符数越少越难于进行有效的识别,也容易受复杂图像中具有纹理特性的背景影响,虚检率较高。但是这类方法能够很好的对很小的字符进行有效的定位。基于纹理的方法一般很难准确的定位字符区域的边框,一般在
42、利用纹理进行定位之后,还需提取定位窗口中的连通分量进行更为准确的定位和抽取。基于纹理的方法通常具有较高的鲁棒性,能够检测到字符与背景对比度较小、背景复杂的文本,但定位不够准确。另外纹理分析的计算量大、复杂度高,所以此类算法比较耗时。2.3.3基于边缘的文本定位方法基于边缘的方法,认为文本与背景颜色之间有一定的对比度,通过边缘检测的方法可以有效的检测到字符的边缘,而且文本区域通常含有较高的边缘密度。由于场景中的文本一般为了能够使读者方便阅读,制作时文本与背景在颜色上有很大的差别,所以有些研究者假设文本的边缘比较陡峭,梯度也较大。基于边缘的方法经常根据文本的水平排列特性进行有效的分析,确认文本区域
43、。Hasan和Karam先将彩色图像转换成灰度图像;然后提取灰度图像的边缘,并将边缘图像二值化,再对二值边缘图像作形态学处理;最后利用大小、高宽比、密度等启发性知识滤除非文本区域。该方法对噪声不敏感,能够定位不同排列方向的文本,包括倾斜和弯曲的文本。但是有些颜色虽然在RGB空间有明显的差异,但转换到灰度空间后灰度值却相似,这种情况下该算法处理起来就较为困难,Datong Chen等人先用Canny算子提取图像边缘,利用形态学膨胀的方法将边缘连接成块;再利用基线定位和启发性知识限制获得文本行:最后利用支持向量机进一步确认文本行。他们的实验对象为18000幅视频帧及50幅JPEG图片(包括杂志封面
44、、地图)。他们公开的实验结果为98.7的准确率及1.7的误检率。Lyu21等人也提出了一种提取视频中文字的方法。他们用多分辨分析的方法解决字符大小不同的问题,对多分辨分解后不同尺度的图像进行相同的定位算法处理,即先采用一种改进的Sobel算子提取边缘;再用一种局部自适应阈值的方法将边缘图像转换为二值图像;然后用投影分析的方法定位文本区域。基于边缘的方法中,有些方法假设字符边缘是一个整体,用连通域分析得到候选字符区域后再进行判别;有些方法认为字符区域的边缘非常密集,所以经常用形态学操作将整个文本区域连接成一个整体再进行判断;有些方法将文字的边缘作为一种纹理特征进行处理。但仅仅利用边缘很难有效的区
45、分文本区域和背景区域,因为很多的图像中背景也含有非常多的边缘。所以一般来说基于边缘的方法对文本非常密集(图像中的人工文本)的图像有较好的效果。2.3.4其它方法使用三种方法(对应三类特征)分别进行文本定位,然后再将这些定位的结果组合到一起的组合策略为:如果各个文本框之间有80是重合的就认为是文本区域,否则再用一个基于SVM的方法进行确认。使用的三种文本定位方法分别是:基于边缘的亮度变化,连通域分析,先去除较长的线,通常还要用到形态学的操作,然后利用一些特征去除非文本区域;基于颜色方差的方法,用窗口统计其中的颜色方差,认为文本区域有较大的颜色方差,并对水平和垂直进行AND操作的合并,然后利用一些
46、规则去除,如大小等;基于颜色一致性的方法,用颜色量化和聚类得到候选的文本区域,然后用一些规则去除噪声连通分量。除了以上的方法之外,Tran等人22,提出了一种利用Ridge定位文本的方法,他们先在两种不同尺度上提取图像的Ridge。大尺度的称为Central Ridge,小尺度的称为Skeleton Ridge。然后用Ridge的长度限制及两种Ridge的位置关系限制来定位文本区域。该算法可处理各种大小、类型和排列方向的文字,但是当背景复杂时效果不佳。文中实验采用四组不同类型的数据,得出平均查全率为90.7,查准率为78.3%。Jun等利用灰度图像局部领域技术识别复杂场景下的字符,识别率为71
47、.1。还有Zhong23等人,在视频文本的检测中使用了88压缩域DCT方法。Jie 24等人在视频文本的检测中,在对候选文本区进行投影分析之前,采用数学形态学方法对边缘图进行二值膨胀。Liang等采用形态学方法,从规则的背景图像中提取出文本,而字符形状几乎没有损耗。Tan25等采用金字塔方法从地图中分离字符,适用于GIS领域。Hwang26等分析了OCR中字符受噪声干扰的原因采用小波分析方法提取字符,获得的字符笔画完整无损耗。Zhou、Loprestitt27应用遗传算法从灰度图像中提取文本。混合的方法对基于区域、纹理、边缘的方法进行了融合的尝试,充分利用这三类定位的优点进行融合,是实现鲁棒的
48、文本定位的关键,但是如何进行融合、如何提取三类方法中的有效特征并组合到一个框架中是一个难点。2.4本章小结复杂背景中的文字背景是复杂多变的,本文区域定位是复杂背景中文字识别的首要环节,随着文字识别技术的逐步成熟和发展,复杂背景中文本区域定位已成为文字识别应用推广的瓶颈。复杂背景中的文字相对于其背景来说还是有着自身显著的特征,充分利用这些特征,寻找行之有效的检测算法。经过大量实验和翻阅不少相关的文献,通过各种方法的比较、分析以及复杂背景中文本的特点,本文提出了:基于边缘检测的文本定位方法定位出候选文本区域,然后根据文本的特征对文本块进行筛选,去除虚假文本块,定位出候选文本区域。由于统计模型在模式
49、识别研究中体现的优势,本文通过将定位出的候选文本区域运用支持向量机的分类器训练的方法来提高文本定位的准确性,取得了不错的效果。第三章基于边缘检测的文本定位方法研究3.1引言从视觉的角度来看,人们在观察一幅图像时,最先得到的信息就是图像的轮廓,也就是图像的边缘信息。同样,在图像处理领域中,图像的边缘信息也非常重要,有很多提取图像边缘的算法,也有很多的图像处理算法应用图像的边缘信息。基于边缘的文本定位方法,认为文本与背景之间有一定的对比度,边缘检测的方法可以有效的检测到字符的边缘,而且文本区域通常含有较高的边缘密度。基于边缘的方法经常根据文本的水平排列特性进行有效的分析,确认文本区域。本文针对图像
50、中文本定位问题首先对图像进行金字塔分解,然后利用改进的Canny算子对文本进行边缘检测,连通区域分析,最后定位出候选文本区域。3.2边缘检测边缘检测的实质是采用某种算法来提取出图像中对象与背景间的交界线。我们将边缘定义为图像中灰度发生急剧变化的区域边界。图像灰度的变化情况可以用图像灰度分布的梯度来反映,因此我们可以用局部图像微分技术来获得边缘检测算子。经典的边缘检测方法,是对原始图像中像素的某小邻域来构造边缘检测算子。3.2.1金字塔分解由于图像文本大小经常变化,有的单一字符占到整幅图像面积的50%以上,而有的不到0.1%。目前,几乎所有的文本定位算法都对字符大小很敏感,为了能够找出大小不一的
51、文本区域,本文采用金字塔模型29。所谓P阶金字塔模型(p-step Pyramid)是指对原始图像分辨率逐次进行P次缩小。例如,4阶金字塔模型,总共对图像缩小4次,在每一阶都将原来图像长宽缩小为原来的1/,对每一阶子图分别采用相同的文本定位算法,然后将不同子图上检测到的文本区域放大到原始图像大小最后综合每幅子图的定位结果就可以找出大小不同的文本区域。如图3-l中,小的字符在底层子图上被检测到,而在高层的子图上找到了较大的字符,最后的定位结果中包含了不同大小的文本区域。图3-1 金字塔分解3.2.2经典的边缘检测算子1)高斯一拉普拉斯算子边缘检测一阶微分是一个矢量,既有大小又有方向,和标量相比它
52、的存储量大。另外,在具有等斜率的宽区域上,有可能将全部区域都当作边缘检测出来。因此,有必要求出斜率的变化率,即对图像函数进行二阶微分运算。拉氏(Laplacian)算子是对二维函数进行运算的二阶导数标量算子。其定义为:+ (3-1)在数字图像中,可用差分近似微分运算,其离散形式为:+(3-2)也可以写成: (3-3)由于拉普拉斯算子是一个二阶导数,它将在边缘处产生一个陡峭的零叉,所以它是一个良好的锐化滤波器。但是它对图像中的噪声很敏感,也产生双像素宽的边缘,且也不能提供边缘方向的信息。因此,它比较少直接用于边缘检测,而主要用于已知边缘像素后确定该像素是在图像的黑暗区还是明亮区。高斯滤波器是一个
53、良好的平滑滤波器,它能比较好的把噪声点消除。高斯一拉普拉斯滤波器先平滑掉噪声,再进行边缘检测,所以效果不错。常用的高斯一拉普拉斯算子是55的模版,如图3-2所示。-2 -4 -4 -4 -2 -4 0 8 0 -4 -4 8 24 8 -4 -4 0 8 0 -4-2 -4 -4 -4 -2图3-2 拉普拉斯算子的55模版2)Roberts边缘检测由Roberts提出的算子是一种利用局部差分算子寻找边缘的算子,它在22邻域上计算对角导数: (3-4)G(x,y)又称为Roberts交叉算子,在实际应用中为了简化计算,用梯度函数的Roberts绝对值来近似: (3-5)另外还可以用Roberts
54、最大值来计算: max() (3-6)上式能够提供较好的不变性边缘取向。对于同等长度但取向不同的边缘,应用Roberts最大值算子比应用Roberts交叉算子所得到的合成幅度变化小。Roberts边缘检测算子的卷积算子为:1 , 00 , 1 0 , -1-1 , 03)Sobel边缘检测Roberts算子的一个主要问题是计算方向差分时对噪声敏感。Sobel提出一种将方向差分运算与局部平均相结合的方法,即Sobel算子。该算子是在以f(x,y)为中心的33邻域上计算x和y方向的偏导数,即:(3-7) 实际上,上式应用了f(x,y)邻域图像强度的加权平均差值。其梯度大小为: (3-8)或取绝对值
55、: (3-9)它的卷积算子-1 0 1-1 -2 -1 -2 0 20 0 0 -1 0 11 2 1由上面两个卷积算子对图像运算后,代入式(3-9),可求的图像的梯度幅值g(x,y),然后适当选取门限TH,作如下判断:g(x,y)TH,(i,j)为阶跃状边点,为一个二值图像,g(i,j也就是图像的边缘图像。Soble算子很容易在空间上实现,Soble边缘检测器不但产生较好的边缘检测效果。同时,因为Soble算子引入了局部平均,使其受噪声的影响也比较小。当使用大的领域时,抗噪声特性会更好,但这样做会增加计算量,并且得到的边缘也比较粗。Soble算子利用像素点上下、左右相邻点的灰度加权算法,根据
56、在边缘点处达到极值这一现象进行边缘的检测。因此,Soble算子对噪声具有平滑作用,提供较为精确的边缘方向信息,但是这是由于局部平均的影响,它同时也会检测出许多的伪边缘,且边缘定位精度不够高。当对精度要求不是很高时,是一种较为常用的边缘检测方法。4)Prewitt 边缘检测方法Prewitt 提出了类似的计算偏微分估计值得方法 (3-10)梯度计算则与(3-9)相同。它的卷积算子为:-1 0 1-1 -1 -1-1 0 10 0 0-1 0 11 0 1当用两个掩模板(卷积算子)组成边缘检测器时,通常取较大的幅度作为输出值,这使得它们对边缘的走向有些敏感。取它们的平方和的开方可以获得性能更一致的全方位的响应,这与真实的梯度值更接近。另一种方法是,可以将Prewitt算子扩展到八个方向,即边缘样板算子。这些算子样板由理想的边缘子图像构成,依次用边缘样板检测图像,与被检测区域最为相似的样板给出最大值。用这个最大值作为算子的输出值e(x,y),这样可将边缘像
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《兒童視力保健》课件
- 《抗菌药物概论课件》课件
- 蜂产品课件蜂产品中抗生素残留现状及检测
- 保险基础知识课件-保险的性质、功能及作用
- 奥数鸡兔同笼课件
- 地理信息系统的应用课件
- 曲线积分与曲面积分习题课课件
- 2.1 立在地球边上放号 课件(共37张)
- 植物提取物生产线项目可行性研究报告模板-立项备案
- 2024年全国爱耳日活动方案(34篇)
- 大学生计算与信息化素养-北京林业大学中国大学mooc课后章节答案期末考试题库2023年
- 2023年中国社会科学院外国文学研究所专业技术人员招聘3人(共500题含答案解析)笔试历年难、易错考点试题含答案附详解
- 2023年广东石油化工学院公开招聘部分新机制合同工20名高频考点题库(共500题含答案解析)模拟练习试卷
- 2023年国开大学期末考复习题-3987《Web开发基础》
- 《骆驼祥子》1-24章每章练习题及答案
- 《伊利乳业集团盈利能力研究》文献综述3000字
- 货车安全隐患排查表
- 《战略三环 规划 解码 执行》读书笔记思维导图PPT模板下载
- 减盐防控高血压培训课件
- 2023年百一测评-房地产企业岗位招聘工程副总经理笔试试题
- 人教版小学数学二年级口算题和应用题
评论
0/150
提交评论