彩色图像中文本提取的算法研究大学论文

上传人：可*** IP属地：江西上传时间：2023-06-12 格式：DOC 页数：37 大小：2.10MB 积分：8.4 举报 版权申诉

已阅读5页，还剩32页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

中北大学信息商务学院第第页共36页1绪论随着互联网和多媒体技术的快速发展，世界进入了一个崭新的信息化时代。以图像、动画、视频为主要元素的各种多媒体信息构成了信息传播的主力。最近几年以来随着既有拍照功能的便携式电子设备，比如智能手机，平板电脑等，随着技术的不断更新升级，人们急需一种方便的应用程序来提取处理图像中内嵌的文本信息。这都使得彩色图像下的文本的提取成为一个很有意义的研究课题。彩色图像中的文本提取即为彩色图像中文本定位，是很困难的问题。由于其广泛的应用领域越来越受到人们的重视。因此，将图像中的文本提取出来将便于不停国家，不同文化之间的交流。1.1研究意义和背景随着计算机技术、多媒体技术和通讯技术的发展，以图像、声音和视频为主的多媒体信息的应用越来越广泛，图像中的文本信息对检索和浏览有十分重要的意义。在彩色图像中，文本信息包含了丰富的高层语义信息[1]。文本可以作为图像的内容标识和索引，是图像内容重要程度的判断依据，例如出现醒目文字的帧，可以抽取出来作为对应的图像的代表帧。如果这些文字信息能自动准确的被检测、分割、识别出来，则对图像高层语义的自动理解、索引和检索是非常有价值的。随着技术的不断发展，人们对彩色图像中文字提取进行了广泛的研究，并已有许多成熟的技术应用在各个领域，如交通管理中的汽车牌照识别和港口货物管理的集装箱编码识别等。但自然场景中的文本分割依然面临着许多复杂的问题，主要原因是：(1)文字和其他自然景物混杂在一起，如树、窗户和房屋建筑等，背景复杂；(2)文字的颜色多种多样；(3)文字的字体和大小复杂多变；(4)光照的变化等。因此从自然场景图像中提取文本是一项极具挑战性的工作。目前已有的文本区域提取方法大致可以分为四类:(1)基于边缘的方法(2)基于纹理的方法(3)基于连通域的方法(4)基于学习的方法。在各种自然彩色图像中，往往可以见到各种各样的文字，这些文字一般和该图像的语义内容相关，或者提供了某种定位辅助信息。若能准确的将这些文字信息定位出来，并进行处理，使之能够被传统的OCR软件识别并被转化成为机器内码，结合自然语言处理，文本检索，文本翻译，语音合成等技术可以被应用到各种领域实现。1.2课题发展现状针对图像、视频文本检测和提取的研究，主要有以下算法：RainerLienhart[2]利用文字颜色的单一性、文本区域的大小约束、同一文本会在连续几个视频帧出现等特点，对文本进行检测和定位。首先对视频帧使用分裂—合并算法，将视频帧分解成颜色一致的连通元（connectedcomponent）。然后通过匹配算法，对连通元进行多帧跟踪，去除那些没有连续多帧出现的连通元。最后通过对比度的分析，形状分析等去除非文本的连通元。该算法要对每一个视频帧进行分裂合并算法，而且视频中生成的连通元绝大部分都不会是文本，因此算法复杂度太高，系统效率低。Boon-LockYeo[3]提出利用场景变化来检测视频文本的出现和消失。算法对相邻两个视频帧取差值，在差值图像中寻找高亮区域。这种算法只能提取高亮的视频字幕，而不能提取非高亮度的字幕，而且也会受到较亮的物体的干扰。Byung[4]提出用字符的拓扑结构特征来提取字符文本区域，然后对视频字幕区域进行复原。该算法是基于单个视频帧图像的字幕提取，效果并不明显。MarcoBertin{5]利用角点特征来进行的视频字幕检测。这种算法实质上类似于基于灰度边缘的算法等。王辰等[6]等通过灰度边缘检测来定位文本区域。首先提取视频帧的灰度边缘，然后合并相邻的边缘，生成候选文本区域，最后用一些启发式规则来去除虚假的文本区域。该算法不能提取灰度值和背景接近的文本。王勇等[7]提出一种基于边缘点密度的视频字幕自适应检测算法。采用基于边缘检测的方法，结合文字图像区域本身的特点，在对原图像进行边缘检测和形态学膨胀后，对其在水平和垂直方向的边缘密度投影采用一种自适应的检测算法，从而检测得到字幕图像区域。该算法的优点是可以检测出各种字体大小的文本行。但是算法不能提取灰度值和背景接近的文本。郭丽等[8]提出一种基于颜色边缘点和游程平滑的视频文本提取算法。黄晓东等[15]综合应用小波变换和颜色聚类技术来提取视频帧中的字幕区域。首先，通过小波变换计算视频中的局部能力特征，能量高的区域作为候选字幕区域。然后利用字幕颜色一致的特征，进行邻域颜色聚类算法，从背景中分离出字幕。最后利用字幕属性特征消除噪声。但是该算法容易受到颜色一致的物体的干扰。处理图像的时间较长。1.3本文主要研究方向课题的主要目标就是在彩色图像下提取文本信息，二值化分割进而识别文字这一特定语义对象。在各种彩色图像中，往往可以见到各种各样的文字，这些文字一般和该图像的语义内容相关，或者提供了某种定位辅助信息。若能准确的将这些文字信息定位出来，并进行处理，使之能够被传统的OCR软件识别并被转化成为机器内码，结合自然语言处理，文本检索，文本翻译，语音合成等技术可以被应用到各种应用领域。对图像中文字的提取首先确定包含文字的图像区域，滤除非文本背景的干扰，把彩色图像中的文本区域定位出来，这是文字提取工作中最难、最关键的环节，确定包含文字图像的区域后，利用文本特征制定启发式规则，滤除非文本区域，得到二值化文本字符，为了方便后面的文字抽取，在字符抽取前进行一次文字区域图像质量的改善也很有必要，对文字提取后，最终采用OCR技术对字符进行识别。1.4本文主要内容与安排论文从课题出发，第一章绪论中阐述了彩色图像中文本信息提取的四种方式，然后比较对于不同场景和复杂背景各种方式的可操作性。并将完整的文字提取系统划分为文字定位、文字分割和文字识别三个阶段，指出前两部分是本文所要解决的问题所在。第二章主要介绍了文本定位与提取方法综述，简单的介绍文本提取原理，对文本粗提取与细提取的步骤进行了阐述。第三章文本预处理，主要介绍了对文本的灰度化，直方均衡，和图像降噪等等，使提取出来的图像对后面的文本细定位做了准备。第四章结合边缘检测和数学形态学特征对文字进行定位，边缘检测算法中5种算子的比较，基于边缘的图像文本处理技术。应用了基于彩色图像的canny算子边缘的方法。结合数学形态学中各种运算做了文本细定位。第五章介绍文字分割典型的常见手法并且加以比较，针对彩色图像中文本定位提取的问题，对文本区域进行字符提取，成功提取出单个字符串。第六章展望与总结。2.彩色图像文本特征分析与提取人们识别文本的过程不是有规律的基于逻辑的思维方式，而是一种无规则的基于直觉的思维方式。目前电脑还达不到模拟人类直觉思维方式的水平,它只能利用大量的运算来逼近人们的类比识别过程，因此某一些特定的数学运算并不足以适应多种情况下大的需要，并且对于图像中的目标文本而言，文本不单单以一种特定形式表现，而是根据不同的情况存在有不同的表现方式，比如颜色、梯度、纹理、边缘等等。2.1彩色文本提取常用方法目前存在的很多图像文本提取技术有很强的针对性，对于不同的文本特征，比较适用的提取方法如表2.1所示。表2.1文本提取技术及其对应的文本特征文本提取技术对应文本特征具体实现方案基于连通分量的技术颜色、灰度值阈值化方法，颜色聚类，颜色量化基于边缘的技术边缘和梯度边缘检测算子基于纹理的技术纹理和梯度K-mean方法基于学习的技术像素灰度值、彩色梯度神经网络，支持向量机目前文字识别各种技术相对成熟并已经投入实际应用。相比之下，如何准确的将文字区域提取出来目前还处于探索阶段。其主要的难点在于:文本存在于复杂背景之中难以区分；文本存在严重的形变和几何畸变；自然环境下由于照度的不均匀、阴影、反射等原因等造成的文本图像的亮度变化。由于存在这些难点，才使得图像文字提取成为一个值得深入研究的课题。通常情况下根据文本对象的存在形式将文本分为人工文本和场景文本。目前的研究主要集中于对人工文本的研究，而场景文本的研究刚刚起步。文本提取的研究思路主要集中于应用各种图像处理的方法将文字区域的边角特征、色彩特征和纹理特征突出，然后根据一定的分类算法来划分候选的区域，经过进一步的后处理来最终确定实际的文本区域。在本文将文本的定位、定位与提取、作为文本区域提取整体来讨论，包含预处理、特征提取、分类(定位)、生成候选区域、文本区域提取几个步骤来解决文本区域的准确提取问题。在本文将文本的定位、定位与提取、作为文本区域提取整体来讨论，包含预处理、特征提取、分类(定位)、生成候选区域、文本区域提取几个步骤来解决文本区域的准确提取问题。彩色图像文本提取流程如下图所示。字符识别图像采集字符分割文字定位图像预处理字符识别图像采集字符分割文字定位图像预处理图2.1彩色图像文本提取文本信息提取流程包含了文字定位、文字分割和光学字符识别(OCR)三个串联的阶段。本文主要介绍文字定位和文字分割。在第一部分图像采集中，主要通过CCD摄像头与计算机的视频捕捉卡直接相连来完成图像采集。该部分功能可简单调用计算机视频捕捉卡厂商提供的各种软件开发包工具即可实现。彩色图像中的文本提取的关键在于后四部分。首先要对采集到的图像进行预处理，而文本定位又决定其后的文本字符识别，因此文本域定位是关键，文本区域定位就是从包含整个图像中找到文本所在区域的位置。目前，已经提出了很多种方法，一个共同的出发点是：通过文本的特征来判断区域，利用的文本特征主要包括：文本区域内的边缘灰度直方图统计“特征”、文本的几何特征、文本区域的灰度分布特征、文本区域水平或垂直投影特征、文本形状特征和频谱特征。2.2图像预处理根据三基色原理，世界上任何色彩都可以由红绿蓝（RGB）三色不同比例的混合来表示，如果红绿蓝（RGB）三个信号分别由一个字节表示，则该图像颜色位数就达到二十四位真彩，也就是说在二十四位真彩的数字图像中每个像素点由三个字节来表示，根据数字图像水平和垂直方向像素点数（即图像分辨率）可计算出一幅图像实际位图大小。通常文字在字体、大小、颜色、对齐方式和排列方向上常常有很大的变化，文字背景复杂，图像分辨率低，图像噪声高，而且很多系统在应用上还要求算法有较高的处理速度，这些都使得从图像中有效地提取出文字变得异常困难。但我们可以对图像根据不同应用特点进行识别前的预处理，尽最大可能提高文本正确识别率，这些图像预处理包括图像平滑、倾斜校正、直方图均衡化、灰度修正等。2.3文字定位彩色图像往往是在复杂的环境中得到的，图像中往往有很大的形变，如何在复杂背景中准确、快速找出文本的位置成为文本识别中的难点[10]。目前已有不少学者在这方面进行了研究。总结起来主要有如下几类方法：(1)基于水平灰度变化特征的方法，这种方法主要在文本定位以前，需要对图像进行预处理，将彩色图像转换为灰度图像。(2)基于边缘检测的定位方法，这种方法是利用文本区域丰富的边缘特征进行文字定位[11]，能够进行检测的方法有多种，如Roberts边缘算子、Prewitt算子、Sobel算子以及拉普拉斯边缘检测；(3)基于颜色特征的定位方法，这种方法主要是应用图像的纹理特征、形状特征和颜色特征即利用字符和底色具有明显的反差特征来排除干扰进行文字的定位；(4)基于数学形态学的定位方法，这种方法是利用数学形态学图像处理的基本思想，利用一个结构元素来探测一个图像，看是否能将这个结构元素很好的填放在图像内部，同时验证填放元素的方法是否有效。腐蚀、膨胀、开启和关闭是数学形态学的基本运算。这些方法各有优缺点，本文结合数学形态学的特征和边缘检测对文本进行定位，对于提高文本定位准确率提供更有利的保障。该方法包括文字区域的粗定位和细定位两个步骤。在粗定位阶段中采用了基于数学形态学的定位方法，在得到定位图像后进行细定位，在细定位中采用颜色特征的方法以获得最后定位图像。本方法对在多种光照条件下采集的彩色图像、背景复杂等情形，均能取得较好的定位效果。2.3.1文本粗定位由摄像机采集的彩色图像首先转化为灰度图像，经过灰度均衡变换、Canny边缘强化，其边缘得到了勾勒和加强。这里选用的是数学形态学的方法，其基本思想是用具有一定形态的机构元素去量度和提取图像中的对应形状以达到对图像分析和识别的目的。数学形态学的应用可以简化图像数据，保持它们基本的形态特征，并除去不相干的结构。在本文中用到了膨胀和开运算这两个基本运算。2.3.2文本细定位在获得文本粗定位后，利用彩色图像的彩色分割方法。根据图片底色等有关的先验知识，采用彩色像素点统计的方法分割出合理的文本区域，确定图片底色RGB对应的各自灰度范围，然后行方向统计在此颜色范围内的像素点数量，设定合理的阈值，确定车牌在行方向的合理区域。然后，在分割出的行区域内，统计列方向蓝色像素点的数量，最终确定完整的车牌区域。2.4文本分割图像的分割即把文本区域分割成单字符区域，以便后续进行识别。文字分割的难点在于噪声合字符粘连，断裂对字符的影响。要想从图像中直接提取出目标物体，最常用的方法就是设定一个阈值T，用T将图像的数据分成两部分：大于T的像素群和小于T的像素群，即对图像二值化。均值滤波是典型的线性滤波算法，它是指在图像上对目标像素给一个模板，该模板包括了其周围的临近像素。再用模板中的全体像素的平均值来代替原来像素值。2.5本章小结：本章主要介绍了目前彩色图像中文本信息的提取流程，对各个步骤进行了简单的概述。想要精确的提取出文本区域,必须综合考虑文本的各种特征,在初步提取的基础上利用各种限制性条件,滤除非文本区域,得到目标文本。3图像预处理因为天气或者拍摄角度等原因会造成图像模糊、歪斜或缺损的情况，所以我们在分析图像文本时要对图像进行预处理，一般动作有对输入的灰度图像进行大小归一化，避免因图像的变形而影响后续的处理，通过灰度拉伸增强图像对比度，通过二值化处理实现图像中背景和对象的分割。采用动态阈值法确定图像二值化的关键阈值，使用带修正的自适应邻域平均法消除图像干扰和噪音一般对灰度图像可以实现较好的处理效果。3.1灰度校正由于图像受到种种条件的现实和干扰，图像的灰度值往往与实际景物不完全平匹配，这将直接影响到图像的后续处理，如果造成这种影响的原因主要是被摄物体远近不同，或是由于曝光不足而使得图像灰度变化范围变窄。这时就可以采用灰度校正的方法来处理，增强灰度的变化范围，丰富灰度层次，以达到增强图像的对比率和分辨率。在RGB模型中,如果R=G=B时,则彩色表示一种灰度颜色，其中R=G=B的值叫灰度值，因此,灰度图像每个像素只需一个字节存放灰度值（又称强度值、亮度值），灰度范围为0-255。根据人类色彩感光特性，可以采用以下公式计算得到彩色图像中各个像素的灰度值。(3.1)为避免浮点数计算，加快计算速度，叫以用式(2)代替式(1)运算。(3.2)其中考虑了整数除法的四舍五入。式(3.2)可进一步简化为：(3.3)这使得运算时间进步缩短。实验时，系统采用式(4)进行灰度化计算。(3.4)一般有以下三种方法对彩色图像进行灰度化：1.分量法将彩色图像中的三分量的亮度作为三个灰度图像的灰度值，可根据应用需要选取一种灰度图像。2.最大值法将彩色图像中的三分量亮度的最大值作为灰度图的灰度值。3.平均值法将彩色图像中的三分量亮度求平均得到一个灰度图[14]。综上所述，将原图像转化为灰度化如图3.1所示。(a)原图(b)灰度化图像图3.1原图像转化为灰度化3.2图像降噪彩色图像受到光照等影响，图像的输入、采集、处理的各个环节以及最终的输出结果都会产生一定的影响,特别是在图像的输入、采集过程中,若输入伴有较大噪声,必定会对其后的处理以及最终的文字提取效果造成不利。因此，对图像进行去噪对图像文本的提取很是重要。3.2.1均值滤波均值滤波也称为线性滤波,其采用的主要方法为邻域平均法。其基本原理是用均值替代原图像中的各个像素值,即对待处理的当前像素点,选择一个模板,该模板由其近邻的若干像素组成,求模板中所有像素的均值,再把该均值赋予当前像素点,作为处理后图像在该点上的灰度:(3.5)其中,为模板,为该模板中包含当前像素在内的像素总个数。3.2.2中值滤波中值滤波是基于排序统计理论的一种能有效抑制噪声的非线性信号处理技术。其实现原理如下:将某个像素邻域中的像素按灰度值进行排序,然后选择该序列的中间值作为输出的像素值,让周围像素灰度值的差比较大的像素改取与周围的像素值接近的值,从而可以消除孤立的噪声点。其具体的操作是:首先确定一个以某个像素为中心点的领域,一般为方形领域(如3*3、5*5的矩形领域),然后将领域中的各个像素的灰度值进行排序。假设其排序为:,（3.6）取排好序的序列的中间值作为中心点像素灰度的新值,这里的邻域通常被称为窗口。当窗口在图像中上下左右进行移动后,利用中值滤波算法可以很好地对图像进行平滑处理。本文应用中值滤波对图像进行降噪，所以根据中值滤波原理可知,通过数据排序的方法,将图像中未被噪声污染的点代替噪声点的值的概率比较大,因此噪声的抑制效果很好,同时画面的轮廓依然比较清晰。如下即分别为用中值滤波处理后的图像：（a）原图（b）中值滤波处理图图3.2图像降噪处理图3.3灰度直方图修正直方图是图像的最基本的统计特征，它反映的是图像的灰度值的分布情况。直方图均衡化的目的是使图像在整个灰度值动态范围内的分布均匀化，改善图像的亮度分布状态，增强图像的视觉效果。灰度直方图是图像预处理涉及最广泛的基本概念之一。图像的直方图事实上就是图像的亮度分布的概率密度函数，是一幅图像的所有像素集合的最基本的统计规律。直方图反映了图像的明暗分布规律，可以通过图像变换进行直方图调整，获得较好的视觉效果[17]。一幅给定图像的灰度级经归一化处理后，分布在范围内。这时可以对[0,1]区间内的任意一个r值进行如下变换：（3.7）也就是说，通过上述变换，每个原始图像的像素值r都对应产生一个s值。变换函数应该满足下列条件：=1\*GB3①在区间内，是单值单调增加；=2\*GB3②对于，有这里第一个条件保证了图像的灰度级西欧哪个白到黑的次序不变和反变换函数的存在。第二个条件则保证了映射变化后的像素灰度值在允许的范围内。从s到r的反变换可用式（3.8）表示，同样也满足上述两个条件（3.8）由概率论理论可知，若已知随机变量的概率密度为，而随机变量是的函数，即，的概率密度为，所以可以由求出。因为是单调增加的，由数学分析可知，它的反函数也是单调函数。在这种情况下，当，且仅当时发生，所以可以求得随即变量的分布函数为：（3.9）对式（3.9）两边求导，即可得到随即变量的分布密度函数为：（3.10）由式（3.10）可知，对于连续情况，设和分别表示原图像和变换后图像的灰度级概率密度函数。根据概率论的知识，在已知和变换函数时，反变换函数也是单调增长，则可由式（3.10）求出。（a）原灰度图像（b）直方图均衡图3.3直方图均衡处理3.2平滑处理对于受噪声干扰严重的图像，由于噪音点多在频谱中映射为高频分量，因此可以通过中值滤波来滤除噪音，但实际中为了简化算法也可以直接在空域中用求领域平均值得方法来消弱噪音影响。这种方法就是平滑处理。经过上述方法分割出来的文本区域图像中存在目标文本、背景还有噪声，要想从图像中直接提取目标物体，最常用的方法就是设定一个阈值T，用T将图像的数据分成两部分：大于T的像素群和小于T的像素群，即对图像的二值化。均值滤波是典型的线性滤波算法，它是指在图像上对目标像素给一个模板，该模板包括了周围的临近像素，再用模板中的全体像素的平均值来代替原来的像素值。3.5本章小结：对图像中文本区域的细定位首先要是对图像进行预处理，本章着重介绍了目前常用的预处理方法，通常文字在字体、大小、颜色、对齐方式和排列方向上常常有很大的变化，文字背景复杂，图像分辨率低，图像噪声高，而且很多系统在应用上还要求算法有较高的处理速度，这些都使得从图像中有效地提取出文字变得异常困难。但我们可以对图像根据不同应用特点进行识别前的预处理，尽最大可能提高文本正确识别率，这些图像预处理包括图像平滑、倾斜校正、灰度修正等。4文本定位在获得预处理的图像后，利用彩色图像的彩色分割方法。根据图片底色等有关的先验知识，采用彩色像素点统计的方法分割出合理的文本区域，确定图片底色RGB对应的各自灰度范围，然后行方向统计在此颜色范围内的像素点数量，设定合理的阈值，确定文本在行方向的合理区域。然后，在分割出的行区域内，统计列方向蓝色像素点的数量，最终确定完整的文字区域。本文应用基于边缘的方法实现对文本的定位。仅仅依靠单一文本特征的图像分割方法不适于复杂彩色图像文本的提取,必须要在初步提取的基础上,考虑更多的文本特征,对候选文本区域进行筛选。鉴于图像的边缘是图像的最基本特征之一,人们在观察一幅图像时,最先得到的信息就是图像的外形轮廓(边缘)。因此,本章提出一种基于边缘的文本检测算法,借助图像的边缘特征为主要特征,颜色尺寸等特征为辅,更好地分割识别出彩色图像中的文本。其文本定位如下图示：（a）原图像(b)梯度分割结果图4.1图像定位结果4.1图像边缘检测技术根据边缘是图像上灰度值的变化最为剧烈的地方,反映为数学表达就是函数梯度比较大的地方,因此边缘检测的思路主要集中在研究比较好的求导算子上面[12]。边缘检测的方法主要集中于计算图像灰度值的一阶导数或二阶导数,图像的边缘点对应于一阶微分图像的峰值点,在二阶微分图像上对应于零交叉点。一般的图像边缘检测方法有三个步骤:图像滤波,使用滤波器来改善与噪声有关的边缘检测器的性能;图像增强,一般是通过计算梯度的幅值来完成;图像检测,确定哪些点是边缘点。最简单的边缘检测判断依据是梯度幅值。4.2边缘检测算子边缘检测的基本算法有很多，有梯度算子、方向算子、拉普拉斯算子和坎尼(Canny)算子等等。几种常用的边缘检测方法有属于梯度算子的Roberts算子、Sobel算子和Prewitt算子、高斯偏导滤波器(LOG)以及Canny边缘检测器等。下面介绍几种经典的边缘检测算子[13]。4.2.1Sobel算子考虑到采用3×3邻域可以避免在像素之间内插点上计算梯度，设计出下图4.1中所示的点[i,j]周围点的排列。Sobel算子即是如此排列的一种梯度幅值，（4.1）其中（4.2）其中的偏导数用下式计算(如图4.1):（4.3）其中常数c=2，和其他的梯度算子一样，和，可用卷积模板来实现，请注意这一算子把重点放在接近于模板中心的像素点。Sobel算子是边缘检测器中最常用的算子之一。4.2.2Prewitt算子Prewitt算子类似于Sobel算子,不同的是常系数c=l。由于常量c的不同，这一算子与Sobel算子不同的地方在于没有把重点放在接近模板中心的像素点。当用两个掩模板(卷积算子)组成边缘检测器时，通常取较大的幅度作为输出值。这使得它们对边缘的走向有些敏感。取它们的平方和的开方可以获得性能更一致的全方位的响应。这与真实的梯度值更接近。另一种方法是，可以将Prewitt算子扩展成八个方向，即边缘样板算子。这些算子样板由理想的边缘子图构成。依次用边缘样板去检测图像，与被检测区域最为相似的样板给出最大值。用这个最大值作为算子的输出值MIA，这样可将边缘像素检测出来[13]。4.2.3Roberts算子1963年Roberts提出了边缘检测和边缘检测的这个简单算子[14]。边缘，是指周围像素灰度有阶跃变化或屋顶等变化的那些像素的集合。图像的边缘对应着图像灰度的不连续性。显然图像的边缘很少是从一个灰度跳到另一个灰度这样的理想状况。真实图像的边缘通常都具有有限的宽度呈现出陡峭的斜坡状。边缘的锐利程度由图像灰度的梯度决定。梯度是一个向量，∇f指出灰度变化的最快的方向和数量。（4.4）梯度的大小和方向是由：（4.5）（4.6）因此最简单的边缘检测算子是用图像的垂直和水平差分来逼近梯度算子：（4.7）因此当我想寻找边缘的时候，最简单的方法是对每一个像素计算出的向量,然后求出他的绝对值，然后进行阀值操作就可以了。利用这种思想就得到了Roberts算子：（4.8）它是一个两个2×2模板作用的结果(标注.的是当前像素的位置)：和4.2.4Log算子前面都是利用边缘处的梯度最大（正的或负的）这一性质来进行边缘检测，即利用了灰度图像的拐点位置是边缘的性质。Log算法理论是从生物视觉理论导出的方法。其基本思想是:首先在一定范围内做平滑滤波，然后利用差分算子检测在相应尺度上的边缘。滤波器的选择取决于两个因素，一是要求滤波器在空间上平稳，空间位置误差要小，二是要求平滑滤波器本身是带通滤波器，在其有限带通内是平稳的，即要求频域误差△w要小。由信号处理中的测不准原理知，与△w是矛盾的，达到测不准下限的滤波器是高斯滤波器。Marr和Hildreth提出的差分算子是各向同性的拉普拉斯二阶差分算子[15]。Log边缘检测器的基本特征是：平滑滤波器是高斯滤波器2、增强步骤采用二阶导数(二维拉普拉斯函数)3、边缘检测判据是二阶导数零交叉点并对应一阶导数的较大峰值这种方法的特点是图像首先与高斯滤波器进行卷积，这一步既平滑了图像又降低了噪声，孤立的噪声点和较小的结构组织将被路滤除。由于平滑会导致边缘的延展，因此边缘检测器只考虑那些具有局部梯度最大值的点为边缘点，这一点可以用二阶倒数零交叉点来实现。拉普拉斯函数用作二维二阶倒数的近似，是因为它是一种无方向算子。为了避免检测出非显著边缘，应选择一阶导数大于某一阈值的零交叉点为边缘点[16]。Log算子的输出是通过卷积运算得到的：（4.9）根据卷积求导法有：（4.10）一阶导数的边缘算子有时会导致检测的边缘点太多,检测处的边缘较粗。而二阶导数的过零点处对应着一阶导数的局部最大值,因此利用二阶导数的算子求得局部梯度最大值对应的点,并判定它们属于边缘点,可以检测得出更加精确的边缘。Canny算子提出了评价检测性能优劣的三个准则[28],信噪比准则(真正的边缘尽可能少的丟失又要尽可能避免将非边缘点检测为边缘)、定位精度准则(检测的边缘应尽可能接近真实的边缘)、单边缘响应准则(对每一个边缘点有唯一的响应,即得到单像素宽度的边缘)。根据三个准则,可以得到最佳的边缘。4.2.5Canny算子还有一个重要的边缘检测算子，即Canny算子，它是最优的阶梯型边缘（stepedge）检测算子。从以下的3个标准意义来说，Canny边缘检测算子对白噪声影响的阶跃型边缘是最优。（1）检测标准。不丢失重要的边缘，不应有虚假的边缘。（2）定位标准。实际边缘与检测到的边缘位置之间的偏差最小。（3）单响应标准。将多个响应降低为单个边缘响应。Canny边缘检测法是高斯函数的一阶微分，它能在噪声抑制和边缘检测之间取得较好的平衡[27]。算法如下:1.用3×3高斯滤波器来对图像滤波，以取出图像中的噪声。2.对每个像素，计算其梯度的大小M和方向O。为此要使以下2×2大小的模板作为对X和Y方向偏微分的一阶近似。（4.11）由此得到梯度的大小M和方向O:（4.12）对Canny算子作如下说明:1.梯度进行“非极大抑制”。梯度的方向可以被定义为属于4个区之一，各个区有不同的邻近像素用来进行比较，以决定局部极大值。这4个区及其相应的比较方向如下模板所示：例如，如果中心像素x的梯度方向属于第3区，则把x的梯度值同它的左上和右下相邻像素的梯度值比较，看x的梯度值是否是局部极大值。如果不是，则把像素的灰度值设为0。这个过程叫做“非极大抑制”。2.梯度取两次阈值。3.边缘连接。Canny算子的实现步骤如下：（1）首先用2D高斯滤波模板与原始图像进行卷积，以消除噪声。（2）利用导数算子（如Prewitt算子、Sobel算子）找到图像灰度沿两个方向的导数,并求出梯度的大小：（3）利用（2）的结果计算出梯度的方向：。（4）求出了边缘的方向，就可以把边缘的梯度方向大致分为四种（水平、垂直、45°方向和135°方向），并可以找到这个像素梯度方向的邻接像素。（5）遍历图像。若某个像素的灰度值与其梯度方向上前后两个像素的灰度值相比不是最大的，那么将这个像素值置为0，即不是边缘。（6）使用累计直方图计算两个阈值。凡是大于高阈值的一定是边缘，凡是小于低阈值的一定不是边缘。如果检测结果在两个阈值之间，则根据这个像素的邻接像素有没有超过高阈值的边缘像素，如果有，则它就是边缘，否则不是[17]。4.3各种图像边缘检测算法的分析比较Roberts算子提取边缘的结果边缘较粗，边缘定位不很准确，Sobel算子和Prewitt算子对边缘的定位就准确了一些，而采用Log算子进行边缘提取的结果要明显优于前4种算子，特别是边缘比较完整，位置比较准确。Canny算子则能较好地体现图像的弱边缘[18]。其检测结果如下图：（a）灰度化调整图（b）边缘检测图图4.2利用Canny算子的边缘检测图4.4数学形态学处理技术边缘检测之后给出的只是二值边缘图像。边缘图像的二值化是很重要的问题,如果阈值太大可能会漏掉一些文本边缘,而阈值太小则可能会使较多的非文本边缘被当作文本边缘来处理,造成较多的误检。为了使二值化取得良好的效果,首先对边缘图像进行形态学填充,弥合孔洞去除噪声,再进行自适应的阈值分割获取二值图像。最基本的形态学算子有四个:腐蚀、膨胀、开运算以及闭运算。4.4.1二值形态学1）基本原理数学形态学是一种非线性的滤波方法，它以严格的数学理论和几何学为基础，着重研究图像的几何结构及相互关系。其基本思想是:根据原图像目标特征选取适合的结构元素，利用结构元素对原图像进行平移、交、并等运算，然后将结果图输出。数学形态学不仅可以简化图像数据，并能在保持基本形状特征的基础上去除不相干结构。数学形态学的基础是二值形态学，基本运算主要为腐蚀、膨胀、开启和闭合四种。设二值图像集合为A，结构元素集合为B。本文主要运用其中的腐蚀、开启运算对图像进行后续处理。a.腐蚀(Erosion)腐蚀是在结构元素的约束下，消除物体的部分边界点的一种过程。运算结果使物体的面积减少了相应数量的点。例如，假设结构元素是半径为r个象素的小圆，被作用的物体是一个大圆。腐蚀运算的结果是沿大圆边界向内减少了r个象素的宽度，即直径减少2r。如果被作用的图象中的物体在某一处宽度小于2r+1，腐蚀的结果将使物体在该点断开，分裂为两个物体。在任何方向宽度不大于2r个象素的物体将被消除。腐蚀运算的数学定义为：（4.13）上式的含义是，结构元素B平移至点x后仍在A中，或B完全包含在A中时，B的原点处象素点x的集合。A是由多个象素点连接成的图像物体，结构元素B是直角连接的三个象素。符号“+”代表该结构元素的原点，本例中，原点位于结构元素之内。将结构元素的原点移至图象A起始部分，如果B的全部象素都包含在A之中，则此时处在结构元素原点位置的象素记做“1”，否则，记做“0”。继续移动结构元素，直至遍历图象A全部。最后得到的图象就是腐蚀运算的结果。腐蚀运算将一幅图象中除去小且无意义的物体，突出主要感兴趣目标。针对本文腐蚀运算的处理结果如下图：图4.3对边缘后的图像进行腐蚀化处理b.开运算使用同一个结构元素对图像先腐蚀再进行膨胀的运算称为开运算。结构元素B对A的开运算记作，其定义为（4.15）即先用B对A作腐蚀运算，再作膨胀运算。为了更好的理解开运算在图像处理中的作用，现讨论下面的等价方程(4.16)这个方程表明，B对A的开运算可由对所有可以填入A的B并集得到，A的所有比B小的部分都将舍去。开运算通常用来消除小对象物、在纤细点处分离物体、平滑较大物体的边界的同时并不明显改变其面积。如图所示：图4.4对腐蚀后的图像开运算结果图在切除了非目标文本的小区域后得到定位剪切的彩色文本区域如下图所示，实现了文本的彩色细定位：图4.5文本的细定位4.5本章小结本章应用了基于边缘的文本提取方法通过形态学填充形成连通区域,得到的二值化图像特征更加突出,更加便于后续的筛选。然后对图像进行腐蚀运算，开启运算并结合形态学滤波,滤除非文本区域,最后得到目标文本。本算法对彩色图像中的文本提取具有较高的精确率和较快的运算速度,取得了较好的综合效果。5文字分割文字分割指的是指从彩色图像文字块中将背景去除，得到只含文字信息的二值图像。确定文本区域位置后下一步任务就是进行字符切分分离出字符图像。5.1文字分割问题的定义如前所述，通过文字定位，我们得到了原始图像中出现文字的一系列矩形区域。将这些区域剪裁下来，就得到了原图像的一系列子图像，我们称之为图像文字块，文字分割指的是从以上的图像文字块中将背景去除，得到只含文字信息的二值图像，从这个意义上说，文字分割也可以叫做图像文字二值化[20]。5.1.1二值化图像二值化是指整幅图像画面内仅黑、白二值的图像。在数字图像处理中二值图像占有很重要的地位。这是因为，一方面，有些需要处理的如文字图像、指纹图像、工程图纸等图像本身是二值的；另一方面，在某些情况下即使图像本身是有灰度的，我们也设法使它变成二值图像再进行处理（即灰度图像的二值化）。这是考虑到在实用系统中，要求处理的速度高、成本低、信息量大的浓淡图像处理的花销大。此外二值化的图像能够用几何学中的概念进行分析和特征描述，比灰度图像优势大得多。在实际的图像处理系统中，进行图像二值化的关键使确定合适的阈值，使得字符与背景能够分割开来，而且二值变换的结果图像必须要具备良好的保形性，不丢掉有用的形状信息，不会产生额外的空缺等。同时车牌识别系统要求处理的速度高、成本低、信息量大，采用二值图像进行处理，能大大提高处理效率[21]。二值化的关键是找到合适的阈值t来区分对象和背景。设原灰度图像为f(x,y)，二值化后的图像为g(x,y),二值化的过程表示如下：(5.1)二值化，基于实时性的要求，我力求寻找一种快速而且效果较好的方法，能够更有针对性的解决在不同条件下牌照图像的二值化问题。求解阈值的方法很多，微分直方图法、最大方差法、基于灰度的数学期望的方法、可变阈值法等。我们采用最简单的方法，当象素灰度级低于常数C时，[0-C]象素灰度为0，[C-255]象素灰度为255。将256个亮度等级的灰度图像通过适当的阀值选取而获得仍然可以反映图像整体和局部特征的二值化图像。在数字图像处理中，二值图像占有非常重要的地位，首先，图像的二值化有利于图像的进一步处理，使图像变得简单，而且数据量减小，能凸显出感兴趣的目标的轮廓。其次，要进行二值图像的处理与分析，首先要把灰度图像二值化，得到二值化图像。所有灰度大于或等于阈值的像素被判定为属于特定物体，其灰度值为255表示，否则这些像素点被排除在物体区域以外，灰度值为0，表示背景或者例外的物体区域[22]。图像的二值化如下图所示：（a）原文字区域图（b）二值化图像图5.1转为二值化图由于字符本身的灰度与背景间的灰度值存在着较大差别,使得文本区域中的边缘特性很明显,这一特征也是寻找字符的重要依据。5.1.1文字分割的主要方法近年来，研究人员在文字分割方面做了大量有意义的工作，提出了很多方法，这些方法大致可分成以下三类[23]:a基于颜色阈值的方法。基于颜色阈值的方法假定了图像中文字的亮度总是比背景高或者比背景低，通过估计背景颜色和前景颜色的阈值来达到分割的目的。文字的阈值又分为全局阈值和局部阈值两种。全局阈值是指整个图像都使用的一个阈值；局部阈值则是指根据图像的具体区域来确定的阈值，与全局阈值相比，它的优点是能处理亮度和对比度发生变化的图像。文[Liu97]首先利用了[Ostus79]的提出的二值化算法获得一系列的候选阈值，这些阈值各对应一种边缘特征，对这些边缘进行分析最后确定最优的阈值。文[Wu97]利用了局部阈值来取出背景的噪声，同时得到二值化的图像。b基于颜色模型的方法基于颜色模型的方法认为图像中的文字颜色分布是满足一定的参数模型的，这种方法首先通过机器学习为文字像素建立一个颜色模型，然后利用该模型计算图片中每一个像素属于文字像素的概率，概率高于某个阈值的像素被标记为文字像素，低于这个阈值的像素标记为背景像素。在[Chen02]中，Chen等首先为图像中的文字灰度值建立一个高斯混合模型(GaussianMixtureModel,GMM)，然后用基于马尔科夫随机场(MarkovRandomField,MRF)的方法确定每个象素所属的高斯项，从而达到分割的目的。[Ye04]中，Ye等在HSI颜色空间中使用GMM表示文字颜色的H,I两分量的分布，首先利用文字的“边缘对”特性通过采样得到一部分属于文字的像素，然后使用这些样本在线估计GMM的参数并根据GMM提取剩余的文字像素[26]。基于颜色模型的方法由于考虑到了文字颜色的多峰值分布，因而能够处理比较复杂的背景，但是对不同的图像，其文字的颜色模型往往差别很大，为多种不同的图像建立不同的模型并不容易，有时候甚至是不可能的。c基于连通分量分析的方法基于连通分量分析的方法利用了文字笔画具有连通性的特征，这种方法首先将输入的图片分割成一系列的连通分量，然后通过自底向上的方法分析确定每个分量属于前景还是背景，最后将所有前景分量组合成分割结果。文献[Sobottka99]利用一种非监督聚类的方法将图片中颜色相近的像素聚成若干个像素类，然后通过一个自底向上和一个自顶向下相结合的方法来完成文字的分割；文[Zhou97]则应用了一种基于EMST的聚类方法进行颜色的量化[27]。基于连通分量的方法由于对文字的笔画作为整体处理，因分而割的结果笔画的连贯性比较好，易于被OCR软件所识别；但是大多数这类方法进行连通分量聚合的时候只利用了文字的颜色，因而只能对具有单一颜色的图像文字有效，另一方面，较低的图像分辨率和较高的图像噪声也会影响连通分量聚合的结果。5.2阈值分割法阈值方法分为全局阈值和局部阈值两种，如果分割过程中对图像上每个像素所使用的阈值都相等，则为全局阈值方法；如果每个像素所使用的阈值可能不同，则为局部阈值方法[28]。5.2.1全局阈值法全局阈值法是指在二值化过程中只使用一个全局阈值的方法。它将图像的每个像素的灰度值与进行比较，若大于，则取为前景色（白色）；否则，取为背景色。根据文本图像的直方图或灰度空间分布确定一个阈值，以此实现灰度文本图像到二值图像的转化。其中全局阈值法又可分为基于点的阈值法和基于区域的阈值法。阈值分割法的结果很大程度上依赖于对阈值的选择，因此该方法的关键是如何选择合适的阈值。全局阈值法算法简单，对于目标和背景明显分离、直方图分布呈双峰的图像效果良好。5.2.2局部阈值法另一种方法是局部阈值化,即设定多个二值化阈值,通常由像素灰度值和此像素区域的局部灰度特性来动态地确定：(5.2)下标k表示第k个区域。由于每一个区域所包含的内容与其他区域大相径庭,因此,必须考虑区域与区域之间的关系以及每一个小区域和整幅图像之间的关系。如果依靠人眼来进行判断,不仅耗时耗力,而且由于人的主观认知误差,还会对图像的分割效果产生影响[29]。5.3本文所用到的字符切分方法由于字符本身的灰度与背景间的灰度值存在着较大差别,使得文本区域中的边缘特性很明显,这一特征也是寻找字符的重要依据。在经过边缘检测算子处理过的图像中采用逐行逐像素点相比较判断跳跃点次数的方法来寻找车牌的上下边界,这里的跳跃点是指相邻两像素之间灰度值之差在一定阈值之上的点。判断取一条穿过文字区域的直线上各个点的灰度值进行研究可以看出,穿过文字区域的灰度值具有十分明显的峰谷特征。与没有经过字符区的灰度值变化曲线比较来看,这个特征完全可以作为判断所检验的行是否穿过文字所在区域的标准[30]。基于上边分析的特点,现在寻找文本的上下边界。首先,逐行读取经过处理的文本块图像的灰度值后计算相邻像素点的灰度值的差,如果差值大于设定的阈值(这个阈值就是层次化是使用的层次段的值)把变化次数的计数器进行加1,在数组中记录各行的灰度值变化总次数,如果总次数大于15,认为这一行可能是文字所在行。因为如果是通过文本区域的话,选择15作为阈值是可行的。记录下这一可疑行,并设置一个行计数器令其值为1,继续按照上述方法计算下一行的灰度值变化次数。如果满足以上的阈值条件那么行计数器的值加1;若不满足的话对行计数器进行清0处理,直到重新得到满足条件的行。考虑到文字块的高度,若得到连续满足变化条件的行数大于15的话,则认为这个连续变化区域为车牌的上下区域。在这些连续变化的行中,,第一个满足变化的行为字符的底部,而最后的满足变化条件的一行为字符的顶部,这样就得到了字符上下边界的一个大体位置。基于前面的工作，最后完成在彩色图像中文本的提取，如下图：（a）原图对文字区域定位得到目标文本区域：（b）文字定位文本区域的提取得到字符串：（c）（文字分割）字符串图像图5.2彩色图像中的文本提取5.4本章小结本章对基于边缘检测算法的基础上对文本的细定位做了字符的切分，即实现字符串，通过文本区域的二值化，去除残余分量等算法，最后应用阈值分割法对文本块进行行扫描确定文字的上下边界，达到文字字符的单独提取。6．结论全文工作总结本文主要研究了彩色图像中的文本提取的算法研究。主要研究成果如下: 1.在分析文本图像的颜色、边缘等特征以及目标提取算法的基础上,首先将图像灰度化,继而进行边缘、检测形态学填充,然后对连通区域进行自适应阈值分割,进而根据对文本字符区域颜色、通过行扫描边界,去除非文本区域。本算法能够对彩色图像文本进行准确和有效的提取。2．研究了简单背景下文本提取中的彩色图像边缘检测的有关问题。传统的彩色图像边缘检测算子是将灰度图像边缘检测算子分别作用于颜色空间各个分量上，忽视了彩色分量间的关联关系，往往会出现多边缘和宽边缘情况，不能充分体现颜色的距离，造成复杂图像的分割困难。3．研究了彩色图像文本区域提取算法视频和彩色图像文本提取是典型的图像分割问题。在视频和彩色图像文本区域提取的已有算法大都集中在基于区域的经典方法上。我们认为充分利用文本区域强烈的空间频率特征，采用边缘检测和二值化阈值结合的方法，可以较好的指导图像分割算法完成视频和彩色图像文本区域提取的任务。我们研究了视频和彩色图像文本区域提取方法，也适用与广告、标志等的文本提取。今后工作展望文本所用的算法相较以前的算法有一些改进，但也存在着一定的局限，例如有一些经验阈值需要设定，对低分辨率的图像文字检测效果不好。对今后图像文字提取工作的发展，值得关注以下方面:(1)鉴于彩色图像中文字的字体，大小，颜色等变化多端，目前的算法主要针对某类特定图像，缺乏一个适用性广泛的算法来从图像中抽取文字。由于从彩色图像中抽取文字信息所走流程较多，定位，二值化，识别等步骤都会不同程度地引入错误，即使单看其中某些步骤可能性能良好，但整体来看能完全正确抽取出来的文字还是不多，离完全实用还有一段距离。(2)需要进一步开拓彩色图像和背景复杂图像中的文字提取的应用领域，应用需求的缺乏导致这方面研究工作开展的难度。参考文献[1]陈锻生，刘政凯.肤色检测技术综述[J]，计算机学报，2006,29(2):194-207[2]庄越挺，刘骏伟，吴飞，等.基于支持向量机的视频字幕自动定位与提取[J],计算机辅助设计与图形学学报,2002.14(8):750—753[3]YuZhong,KalleKaru,AnilKJain.LocatingTextinComplexColorImages[J].PatternRecognition,1995,28(10):1523—1535[4]徐华根，唐慧明，杨黎波.新型多媒体处理器DM642及其应用[J].电视技术，2005(1):36—38[5]陈兵旗，孙明，VisualC++使用图像处理[M].北京:清华大学出版社，2004.[6]欧文武，朱军民，刘昌平.自然场景文本定位.中文信息学报．2003，17(5)：55—60[7]JainAK,YuB.AutomaticTextL

人人文库> 全部分类> 教育资料 > 课设设计

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

彩色图像中文本提取的算法研究大学论文

文档简介

温馨提示

最新文档

评论

彩色图像中文本提取的算法研究大学论文

文档简介

温馨提示

最新文档

评论

相关文档