




已阅读5页,还剩29页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
实际生产中 OCR系统的设计 摘 要 本课题研究了光学字符图像的计算机识别问题。字符根据书写方式的不同,分为 印刷体字符和手写体字符。系统针对每种字符各自的特点,通过对字符的预处理,提 取字符本身特征,然后运用特定的识别算法,实现了字符图像的自动识别。整个系统 包括图像采集、图像预处理、特征提取与字符识别四个部分。 对于印刷体字符,在对字符进行了图像预处理后,采用网格特征和交叉点特征相 结合的方法作为其字符特征,建立字符标准特征库。 印刷体字符采用模板匹配算法实现了字符的识别,利用待识别字符与字符标准特 征库相比较,把待识别字符识别为与其特征向量的欧氏距离最小的特征向量所代表的 标准字符。 系统由 NI 公司的虚拟仪器软件 LabVIEW 及图像处理工具包 IMAQ Vision Builder 开发,实现了图像的采集、预处理、特征提取和字符识别等功能。该系统充分发挥了 虚拟仪器的开发周期短,编程简便,代码复用率高,操作简单,界面友好,可靠性高 等优点,节省了系统成本,提高了效率。 关键词:字符识别,IMAQ Vision Builder,虚拟仪器 I OCR Systems Design In The Actual Production ABSTRACT In this paper the problem of computer recognition to the character image is studied.According to the style of writings,the characters are divided into two forms:printing characters and handwriting characters.Based on every characteristic of the two styles,system realizes the function of image pre-processing,characteristic extraction and character recognition.So the whole system is divided into four parts,image collection module,image pre-processing module,characteristic extraction module and character recognition module. For the printing characters,first, the system completes the image processing and then extracts the combined characteristic of the net characteristic and the intersection characteristic.Basing on these a standard characteristic database of characters is established.The recognition arithmetic of printing character adopts template matching,which compares the character with the standard characteristic database and recognize the character as the nearest Euclid distance standard character in the standard characteristic database. The software development adopts the NI Companys Virtual Instrument LabVIEW and IMAQ Vision Builder tool.The software realizes the function of image collection,image pre- process,character extraction and character recognition.It has the merit of short period of impoldering,convenient programming,high repeated using rate,easily operation,friendly interface,high reliability and so on. Keywords:character recognition,IMAQ Vision Builder,Virtual Instrument II 目录 摘 要 .I ABSTRACT .II 1. 引言 .1 1.1 研究的目的及意义 .1 1.2 字符识别研究现状 .1 1.3 印刷体字符识别的关键 .2 1.4 本课题主要研究的内容 .3 2字符识别系统硬件设计 .4 2.1 CCD 摄像机介绍及选择 .4 2.2 字符识别系统光源及背景设计 .5 2.3 打印机的选择 .5 2.4 图像采集卡 .5 2.5 计算机设备 .6 3. 图像采集及图像处理 .7 3.1 图像采集 .7 3.1.1 图像格式的选择 .7 3.1.2 分辨率的选择 .7 3.2 图像预处理 .8 3.2.1 灰度变换 .9 3.2.2 中值滤波 11 3.2.3 图像二值化处理 12 3.2.4 形态学滤波 13 3.2.5 图像边缘提取 15 3.2.6 字符分割 .17 4. 印刷体字符识别 19 4.1 印刷体字符识别原理 19 4.2 字符标准特征库的建立 19 4.2.1 字符的归一化处理 19 4.2.2 字符的细化处理 21 423 字符的特征提取 .22 4.3 印刷体字符识别 22 4.3.1 字符的粗分类 23 III 4.3.2 字符的模板匹配 23 5 字符识别系统软件设计 24 51 LabVIEW 简介 .24 5.2 IMAQ Vision Builder 简介 25 5.3 基于 OCR 技术的字符识别系统架构设计 25 6.结论及展望 .27 6.1 结论 27 6.2 展望 27 致 谢 28 参 考 文 献 29 陕西科技大学毕业论文(设计说明书) 0 1. 引言 1.1 研究的目的及意义 人类杜会己开始进入信息时代,信息产业的发展将对国家的发达和民族的兴旺产 生重人的影响。因此,世界各国对信息产业的发展都给予了极火的关注和重视。人类 社会的不断进步带来了信息空间的增长和积累,而计算机的出现为现代化信息处理提 供了有效的手段。但是,在信息技术高速发展的同时,一个难题也摆在我们面前,那 就是计算机数据处理和网络传输的高速度与数据输入的低速度之间的矛盾。目前,人 类的许多信息是记录在纸上的文字图像。将这些信息输入计算机是非常繁琐而低效率 的工作,这在一定的程度上减缓了社会信息化的进程。 许多文档是以纸质文档的形式存在,例如银行票据税务报表、标准化考试中的机 读卡、人口普查表、彩标投注单、选票、定货单等。纸质文档不便于保存、检索、统 计和修改,而将这些信息录入计算机是一件非常繁琐的事情。长期以来人们通过键盘 手工输入,不但费时费力且容易出错。在实时性要求较高的场合(如选举中的统计选票 1 自动、快速、准确地处理文档显得尤为重要。因此,这些文档进行计算机自动录入具 有重要的现实意义。 光学字符识别技术(Optical Character Recognition,简称OCR),即通过扫描仪把印 刷体或手写体文稿扫描成图像,然后识别成相应的计算机可直接处理的字符。本技术 涉及模式识别,图像处理、数字信号处理、自然语言理解、人工智能、模糊数学、信 息论、计算机、中文信息处理等学科,是一门综合性技术,在中文信息处理、办公室 自动化、机器翻译、人工智能等高技术领域,都有着重要的实用价值和理论意义。 1.2 字符识别研究现状 最早的文字识别始于50年代初期的欧美,1955年出现了印刷体数字OCR产品,此 后转向手写体英文和数字的识别。对汉字识别研究最早的是美国IBM公司的Casey和 Nagy,1966年他们发表了第一篇关于汉字识别的文章,用模板匹配法识别1000个印刷 体汉字,从此在世界范围内拉开了汉字识别研究的序幕。而手写体汉字识别的研究最 早始于70年代中期的日本。我国则在80年代初期开始进行手写体汉字识别的研究。目 前进行手写体汉字识别研究的国家和地区主要集中在中国、日本、中国台湾、美国和 加拿大,实际应用水平最高的首推日本。日本早在70年代中期就开始进行汉字识别的 研究,1981年Fuji 等展示了一个手写体日文汉字识别器模型,第一次打破了当时普遍存 在“手写体汉字识别困难的几乎不可实现”的心理障碍,从而触发了在日本、中国以 及世界范围内的手写体汉字识别研究热潮。日本东芝,三洋电视、富士通等公司先后 实际生产中 OCR 系统的设计 1 推出了一批汉字识别装置和系统,具有代表性的是1984年东芝制造的手写印刷体汉字 识别实验装置OCR-V595,可识别2200个汉字及其他符号;1986年NTT综合通信实验室 推出了手写体汉字识别实验装置,可识别J璐第一级汉字、英文字母、数字、平假名、 片假名等3200个字符。经过20多年的努力,日本手写体汉字识别技术已达到世界先进 水平。日本研究手写体字符识别的一个显著特点是软硬件齐头并进,专用设备和纸张 无疑为整个研究提供了良好的工作环境。我国是在70年代开始进行邮政信函分检的数 字识别研究,70年代末。一些大学和研究所开始从事印刷体汉字识别的研究工作,80 年代初才开始进行手写体汉字识别的研究,1985年以后,有关手写体汉字识别研究的 文章不断出现在期刊上。目前已有十多套系统通过鉴定。从纵向发展水平来看,我国 手写体汉字识别研究一直处于平稳上升阶段,并逐步向实用化目标迈进。目前国内手 写体汉字识别主要是进行识别方法的研究,而且把研究重点集中在方法实验和软件研 制上,遗憾的是硬件专用设备的研制几乎是空白,这是国内手写体汉字识别研究的主 要特点。 虽然印刷体字符的识别率很高,但由于受采样设备及分割等因素的影响,至今未 能广泛的被应用,需要我们进一步提高算法的抗干扰性和稳定性 字符识别已经历了将近50年的研究历程,在预处理、特征提取、匹配及后处理等 各个环节产生了许多有价值的思想和方法。但是字符识别距离实际应用还有一定的距 离,可谓任重而道远尽管如此,我们可以看出引入新的工具对字符识别进行研究可 以得到新的发展,如何引入一种新的数学工具准确地刻画人类识别物体的过程,提出 更合理的识别算法是一个重要的课题。此外字符识别是一个非常复杂的多模式识别 问题,多年研究的实践表明,单一方法的效果是有限的,采用多方法的有机组合,使 其优势互补,走多特征组合、多方案集成的道路是字符识别的一个发展趋势。此外, 字符识别的心理学研究对字符识别具有启发意义。路浩如等对人类汉字的认知心理实 验研究结果进行总结后,认为入的汉字识别是经由整字属性及分层结构的多种途径复 合而成的,其中多数都可以在字符机器识别中模仿应用。这方面的研究虽然刚起步, 还没有一个实际系统来验证,但却是一个值得注意的新动向。 1.3 印刷体字符识别的关键 印刷体字符由于不存在变形,或者说变形不会像手写体数字那么大,所以识别起 来相对容易一点。不过也不像想象中的那么简单。下面,我们先介绍一下印刷体字符 的基本知识以及特征提取和识射的方法。 1.印刷体的字体 印刷体字符有很多种字体,而且新的字体还在不断地产生。不同字体的同一字符 的结构约80相同,其主要差异在于: (1)同字体的字符之间有较大的差异。 陕西科技大学毕业论文(设计说明书) 2 (2)笔划装饰及方向角度不同。 (3)笔划长短、位置有变化。 (4)笔划形态变化:如黑体笔划粗而平直,宽度一致;楷体笔划有较大曲率。 2.印刷品质的高低 由于字符笔划的不同、纸张质量的高低以及印刷版面的影响,印刷体字符在品质 上有高品质和低品质之分。印刷品质越高。正确识别率也越高,对于低品质的印刷体 字符识别起来有一定的困难。 3.采样设备质量差异 采集的待识别图像的质量与采集图像的设备质量(如摄像头,电源等)和采样外界环 境(电磁干扰 )有直接的关系,受外界因素的影响,图像的质量会出现各种各样的情况。 1.4 本课题主要研究的内容 本课题以印刷体字符为研究对象,应用人民币号码作为印刷体字符识别的实例。 利用虚拟仪器技术,根据字符本身的特征,实现对字符图像的预处理与识别。 主要研究内容有: (1)设计计算机视觉硬件系统,研究字符的光学特性,以此建立起一套适用于光学 字符识别的计算机视觉硬件系统,并完成字符图像的采集; (2)采集字符图像,完成字符识别前的低层图像处理及算法研究,将传统的图像处 理方法和现代改进的新方法及理论运用于字符图像处理、分析、研究、比较、选择出 对字符图像简单有效的实用性处理算法; (3)研究将字符图像与背景图像准确分割的有效算法并找出能消除图像格式转化 所带来的干扰和变形的方法: (4)研究适合字符识别的字符特征并选取合适的提取方法: (5)研究适合印刷体字符识别的算法,分析算法原理及特点: (6)应用LabVIEW 开发平台结合图像处理 IMAQ Vision Builder进行图像处理与分析 系统的开发,编写字符识别系统程序; 实际生产中 OCR 系统的设计 3 2字符识别系统硬件设计 字符识别系统硬件主要包括CCD摄像机、照明设备、图像采集卡、PC 机、打印机 等设备。 2.1 CCD摄像机介绍及选择 在图像测试系统中,摄像机一般都选用CD传感器阵列摄像头。在选用摄像头时, 为保证图像采集的质量,我们考虑了像素分辨率和摄像头焦距两个指标。 1.像素分辨率像素分辨率指的是,显示一个完整的被测物体和显示出被测物体上有 用的信息点的像所需要的最少的像素数。可以通过所检测物体的最小特征来决定像素 分辨率。其公式为: (检测物体最大长度物体最小特征值 )2 (2-1) 假设字符最大长度为150mm,最小特征值为1mm,根据以上公式需要的最小像素 分辨率为300。 2.镜头焦距 焦距(F)的选择由 CCD传感器的尺寸( Ss) 、工作距离 (摄像机镜头到被测物体的 距离Wd) 和摄像机的视场范围 (Os)-个参数来决定。可按以下公式计算: (2-2 )sdsOWSF/)( 如选用l/3英寸CCD 传感器 h=4.89cm,v=3.67cm 。物距 D=300mm,假定票面平均高 度V=150mm ,则F=v*(D/V)=3.67*(300/150)=7.34mm,即选择F 7.34mm的镜头即可。 根据以上分析,在本系统中我们采用了Panasonic WV-CP240/G彩色摄像机作为系 统的输入传感器,CCD 为行间变换, 752(水平) 582(垂直)像素,其水平分辨率为480行, 扫描面积为4.98mm(水平F) 3.7mm(垂直),扫描为625行/50场/25帧,摄像机镜头采用 日本SE0813型,手动光圈,焦距为6mm,很好的满足了系统要求。 但是,当遇到系统要求比较严格的时候,我们就要采用一种预防抖动的数码相机 来采集图像。富士通公司图像处理LSI“Milbeaut”系列新产品面向袖珍型数码相 机的“MB91683 ”。新产品以实现高速快门为目的,在单枚芯片上集成了通过数字处理 将图像感度提高至约4倍的功能和噪音消除功能,还可有效地防止抖动。MB91683备有 13mm 13mm、MB91686备有13mm l3mm和16mm l6mm等型号。高度均为 1.15mm 0.2mm。电源电压方面, LSI内部部分为 1.2V 0.1V。输入输出部分为 3.3V 3V,SDRAM 部分方面,使用DDR2和Mobile DDR时为1.8V 0.1V,使用DDRI 时为2.5V 0.1V。输入功率时钟频率低于48MHz,MB91683和MB91686 的CPU内核最 大工作频率分别为108MHz和132MHz。图像处理部分的最大工作频率分别为54MHz和 66MHz。 陕西科技大学毕业论文(设计说明书) 4 2.2 字符识别系统光源及背景设计 1光源的选择 照明是影响计算机视觉系统输入的重要因素,它直接影响输入数据的质量和应用 效果。光源的设计主要应满足如下要求: (1) CCD摄像机视区内光照要均匀,以避免镜面反射; (2) 字符成像的背景应一致且与字符图像有较大的对比度; (3)光源的光谱范围、辐射能量、显色性应满足成像系统的要求且具备较好的散射 性。 光源可分为可见光和不可见光。常用的几种可见光源是白炽灯、日光灯、水银灯 和钠光灯。可见光的缺点是光能不能保持稳定。如何使光能在一定的程度上保持稳定, 是实用化过程中急需要解决的问题。照明系统按其照射方法可分为:背向照明、前向 照明、结构光和频闪光照明等。其中,背向照明是将被测物放在光源和摄像机之间, 它的优点是能获得高的图像质量。所以可采用加防护屏的方法来减少环境光的影响。 前向照明是光源和摄像机位于被测物的同侧,这种方式便于安装。结构光照明是将光 栅或线光源等投射到被铡物上,根据它们产生的畸变,解调出被测物的三维信息。频 闪光照明是将高频率的光脉冲照射到物体上,摄像机拍摄要求与光源同步。 本系统采用40W 的环形日光灯,前向照明。将摄像头安装在环形灯的中心位置保 证光照箱内物体表面的反射特性均匀,使其内部反射特性接近伯朗反射,即物体表面 各点的亮度不随观测方向而变化。 2.背景选择 为了突出字符整体图像,提高图像对比度,便于后期处理,通常把字符置于一定 的背景之上。常用的背景颜色有黑色和白色。考虑到字符图像大部分为浅颜色纸上写 有黑色或彩色字符,所以系统选用黑色为背景颜色。 2.3 打印机的选择 由于打印的要求一般比较低,只要打印的速度能满足系统的要求即可,所以我们 在试验中选择HP1000d打印机。 2.4 图像采集卡 图像采集卡是基于微型计算机PCI总线结构,用于采集彩色(黑白) 图像及图像前端 处理的外插卡。它采用数字解码方式,将标准输入的PAL制,NTSC 制式或SECAM制 的复合彩色(或黑白) 视频信号或S-Vide信号( 即YC 分离信号)数字化,经解码后转换为适 用于图像处理的RGB-24bits格式的数字信息,然后通过PCI总线实时传送到PC 机系统内 存(或视频显示缓冲区) 。 实际生产中 OCR 系统的设计 5 图像采集卡可以很好地完成实时地图像解码及前端处理,从而可以与微机已有的 资源形成一个比较完整的实时图像采集处理系统。图像采集卡采用总线控制技术,可 实现摄像头图像到计算机内存的可靠实时传送,连续相邻帧的图像精确到场。图像采 集的点阵为方形,采集的图像大小和位置可选。此外,它采用中断方式。将图像数据 传送和用户程序灵活地连接起来。 本课题选用了美国NI公司的PCI-141l型图像采集卡, NI公司为图像采集卡提供了配 套的驱动模块,用户调用驱动模块就可以实现对图像采集卡的操作。 2.5 计算机设备 计算机主要完成系统信息的获取、处理、设备的控制等工作。图像信息量大、处 间长,因此要求计算机有较高的主频和较强的运算能力。 陕西科技大学毕业论文(设计说明书) 6 3. 图像采集及图像处理 3.1 图像采集 3.1.1 图像格式的选择 图像有多种存放格式,如:BMP 、PCX、GIF、JPG等,其中各有特色。其中BMP 用于Windows 下的位图(Bitmap)格式,文件几乎不用压缩,占用磁盘空间较大,它的颜 色存储格式有l位、4位、8位及24位。开发Windows 下的软件时,BMP 格式是最不容易 出问题的格式,并且DOS和Windows环境下的图像处理软件都支持该格式。因此,该 格式是当今应用最广泛的一种格式,在window里还有处理 BMP的API函数,处理起来 很方便。 3.1.2 分辨率的选择 图像数字化的精度包括两个部分,即分辨率和颜色深度。分辨率是指图像数字化 的空间精细程度,有显示分辨率和图像分辨率两种不同的分辨率。图像分辨率是指单 位长度内的像素数,其单位是每英寸的点数DIP(Dots Per Inch):显示分辨率是指把数字 图像在输出设备上能够显示的像素数目和所显示像素数之间的点距。图像分辨率说明 了图像的实际精细度,显示分辨率说明了图像的表现精度。显然对于本课题而言,必 须要求有足够的图像分辨率,而显示分辨率则显得无足轻重,原因是目标的识别主要 靠计算机的程序识别,而不是靠人的眼睛观察判断。这就要求选择摄像机的时候尽可 能选择线数较多的摄像机。 数字图像的颜色深度是指每一个像素的颜色值的二进制位数,颜色的深度越大, 则能表示的象素的颜色数目越多,它们之间的关系取决于数字图像采用的颜色模型。 由于本文要利用二值图像进行识别,而该图像又是由RGB模型转化而来的,仍然要读 取像素的R 、 G、B 分量值。 从理论上讲,分辨率越高识别的准确率越高,在实际的设备中,所选用的CCD的 分辨率是固定的,所以扫描所选用的分辨率应该与CCD设备所用的分辨率相似。 本系统是基于图像处理的字符识别系统,作实验的时候人民币号码的采集和处理 作为印刷体识别。为了获得大小合适、便于存储、特征突出的图像,对于采集到的人 民币图像进行了适当的裁减,只保留了左下部分包含人民币号码部分的图像。采集到 的整体图像和需处理的图像如图3-1、图3-2所示。 实际生产中 OCR 系统的设计 7 图3-1 人民币整体图像 图3-2 人民币号码识别部分 3.2 图像预处理 图像样本在生成时,由于摄像头聚焦不准带来的运动模糊、字符的新旧、清洁度 等诸多因素影响,造成了采集的字符图像质量下降,这样就会使图像信号产生较大的 刺峰信号。如果不予消除,将影响实验的结果。同时,系统硬件本身也会带来一定噪 声,如电子噪声,颗粒噪声等,还有一些其它可能性因素如倾斜等都会为后续的识别 带来不便。对于上述种种原因,在识别之前,进行必要的预处理操作,以改善图象质 量,提高识别率。图像经过几个步骤的预处理之后,会排除很多噪声的干扰,特征将 变得更明显因为速度是本系统考虑的重要因素之一,所以选择处理效果好,且速度 快的预处理算法也至关重要。 总体来说,这个系统图像预处理的顺序如图3-3所示。 陕西科技大学毕业论文(设计说明书) 8 图3-3 图像预处理 3.2.1 灰度变换 图像按色彩类型分类包括彩色图像、单色图像或称灰度图像。大多数图像是用32 位RGB格式表示的,在 RGB真彩色臣l像中,每个像素由相应于红、绿、蓝的3个不同 的值组成。当然彩色图像还可以表示成HSL、HSV、HSI等模式。而灰度图像是彩色图 像的一个分量之一,是8bit的,每个像素用0-255表示。只有0,1二值表示的灰度图我 们称之为二值图。为了保留更多的图像信息,减小目测结果的误差,本研究采集的是 RGB模式的彩色图像。由于印刷的污点和纸张不清洁的影响使彩色图像不容易实现图 像分割,故我们需将彩色图像转化为灰度图像,以利于待识别图像的进一步处理。采 用什么模式的彩色图像更容易转换成易于进行后继处理的灰度图像。如何将彩色图像 转换成灰度图像,是本研究的内容之一。 彩色模型的用途是在某些标准下用通常可接受的方式简化彩色规范。本质上,彩 色模型是坐标系统和子空间的规范,位于系统中的每种颜色都由单个点来表示。在数 字图像处理中,面向硬件设备最常用的是RGB模型。面向视觉感知的模型有 HSL(Hue,Lightness ,Saturation),HSI(Hue,S aturation,Intensity), HSV(Hue,Saturation,Value)模型。在此,只介绍本研究中到的彩色模型 RGB模型。 RGB模型是一种与人的视觉系统结构密切相连的模型。根据人眼结构,所有颜色都可 看作是3个基本颜色:红、绿和蓝的不同组合。为了建立标准,国际照度委员会(CIE)于 1931年规定,红、绿、蓝3种基本色的波长分别为700nm ,546.1nm ,435.8nm。由于光 源的光谱是连续渐变的,所以没有一种颜色可准确地叫做红、绿、蓝。因而需要注意, 定义3种基本波长并不表明仅由3个固定的R,G,B分量就可以组成所有颜色。 RGB模型可以建立在笛卡几坐标系统里,其中的3个轴分别为凡R,G, B。RGB 模型的空间是个正方体,原点对应黑色,离原点最远顶点为白色。在这个模型中,从 黑到白的灰度值分布在从原点到离原点最远顶点问的连线上,而立方体内其余各点对 应不同的颜色,可用从原点到该点的向量表示。一般为了方便,总将立方体归一化为 单位立方体,这样,所有的R,G,B值都在区间0, l之中。 根据这个模型每幅彩色图像包括3个独立的基色平面,或者说可以分解到3个平 面上来反过来。如果1幅图像可以被表示为3个平面,使用这个模型比较方便。色觉 的产生需要发光光源的光通过反射或投射方式传递到眼睛,刺激视网膜细胞引起神经 信号传输到大脑,然后人脑对此加以解释,产生色觉。设组成某种颜色C所需要的3个 灰度 变换 均值 滤波 图像 分割 形态学 滤波 二值 处理 实际生产中 OCR 系统的设计 9 刺激量分别为X,Y,Z,3刺激值与R,G,B有如下关系: X=0.409R+O.310G+0.200B (3-1) Y=0.177R+0.813G+0.010B (3-2) Z=0.000R+0.010G+0.990B (3-3) 对白光,有X=1,Y=l ,Z=1,设每种刺激量的比例系数为x,y,z ,则有 C=xX+yY+zZ。比例系数x,y,z也称为色系数,其定义为 (3-4)ZYXx (3-5)y (3-6)ZYXz 从以下式子可得:x+y+z=1 1931年国际照明技术委员会CIE规定,选择红色,绿色蓝色三种单色光作为表色 系统的三基色。这就是CIE的RGB颜色表色系统。在彩色图像中,图像是由RGB三分量 表示的。其中,一个像素需要三个量来表示如果每个量是8bits。那么表示一个像素 的值需要24bits。这样既不利于存储图像,也不利于图像后续处理计算。为此需要对输 入图像去掉彩色信息,进行灰度转换。 在RGB模型中,当 R=G=B时,颜色(R,G,B)表示的不是彩色而是黑白色或称灰度, 其中R=G=B的值叫做灰度值。由彩色转化为灰度的过程叫做灰度化处理。由于 KG啦的 取值范围是0-255,所以灰度的级别只有256级,即只能表现256种灰度。图3-4为R分量 灰度图,图3-5为G分量灰度图,图3-6为B分量灰度图。 图3-4 R分量灰度图 图3-5 G分量灰度图 陕西科技大学毕业论文(设计说明书) 10 图3-6B分量灰度图 由上述各分量灰度图像可以看出,G分量灰度图较其它两个分量灰度图图像清晰, 字符变形小因此。我们选取G分量灰度图实现了从彩色图像向灰度图像的转变 3.2.2 中值滤波 CCD摄像头获得的图像存在两种噪声:读出噪声和光子噪声。 读出噪声是片内电路产生的一种随机噪声。随着芯片设计的不同,每个像素的读 出噪声的范围可能从几个电子到很多电子。在暴光时间短、亮度低的情况下,光子噪 声成分较小,读出噪声成为噪声的主要来源。光子噪声是由于光的量子性导致的。例 如,如果用平均每秒每像素100个光子照射CCD,那么每个具体像素每秒接收光子的实 际数目将是一个随机数。从统计学角度讲这个数目满足泊松分布,其标准差等于均 值的平方根。在强暴光或大暗电流的条件下,常常会成为主要的噪声来源。 最常见的非线性滤波是中值滤波。中值滤波是对一个滑动的窗口内的诸像素灰度 值排序,用其中值代替窗口中心像素灰度值的滤波方法。它是一种非线性的平滑法, 对脉冲干扰及椒盐噪声的抑制效果好,在抑制随机噪声的同时能有效保护边缘少受模 糊。它是由Turky 在1971年提出的。刚开始时,中值滤波用于时间序列分析,后来被用 于图像处理。 用中值滤波进行图像去噪处理需要以下几个步骤:设定滤波器窗口大小;将窗口 在图像中漫游并将窗口中心与图像中某一像素位置重合;读取窗口下各像素的灰度 值:将这些灰度值从小到大排序;找出这些值的中间值作为中介值;将中介值赋给对 应窗口中心像素这时就可以使周围像素的灰度值差趋于零,从而消除孤立噪声 点二维中值滤波的窗121形状可以有多种,如线状、方形、十字形,圆形、菱形 等不同形状的窗口产生不同的滤波效果,使用中必须根据图像的内容和不同的要求 加以选择。 实际生产中 OCR 系统的设计 11 表3-1 各种滤波方法的试验结果 课题选用方形3x3大小的窗口作为中值滤波器窗口。 3.2.3 图像二值化处理 图像的二值化是把一幅灰度图像根据一定的阈值转化为二值图像。所谓二值图像, 就是指图像上的所有点的灰度值只用两种可能,不为“0”就为“25” ,也就是整个图 像呈现出明显的黑白效果。为了得到理想的二值图像,一般采用阈值分割技术,它对物 体与背景有较强对比的图像的分割特别有效二值化的关键是要找到合适的阈值 t 来区 分对象和背景。 本系统采用实时迭代的方法来确定阈值,首先求出图像中最小和最大灰度值 Tx 和 Ty,令初始阈值为 (3-7 )20yxT (设共有 L 个灰度级 ),然后按下式进行迭代 (3-8) 1012LTkkTkkl llll hh 式中 是灰度为 k 值的像素个数一直迭代到 结束,取结束时 值为所求kh 1ll 1lT 的阈值。 经计算,本系统选用 t=133 作为二值化的阈值,即灰度范围在133,255的像素点 序号 模版种类 耗时(ms ) 效果 1 33均值模版 1 一般 2 55均值模版 1 较差 3 33线性平滑 1 较差 4 55线性平滑 1 一般 5 33中值模版 12 较好 6 55中值模版 43 较差 7 33高斯模版 1 较好 陕西科技大学毕业论文(设计说明书) 12 转化为 1, 灰度范围在0,133的像素点转化为 0。经转化后的二值图像如图 3-7 所示。 图 3-7 二值图形 3.2.4 形态学滤波 形态学是研究动植物的形态和结构的科学,同样,它也为图像处理问题提供了一 种有力的方法。我们可以利用数学形态学作为工具从图像中提取对于表达和描述区域 形状有用的图像分量,比如边界、骨架以及凸壳等等。数学形态学也可用于图像预处 理或后处理,比如形态学滤波、细化和修剪这里首先介绍一下它在滤波方面的应用。 数学形态学是一种非线性滤波算法,Minkowski 结构和、差运算,即形态膨胀和腐蚀 是数学形态学的基础。结构元素是数学形态学中的关键概念,是一个可以在图像上平 移、且尺寸比图像小的集合,它较好的反映了以下合理的观点:所看到的一幅图像既 不是完全客观的也不是完全主观的,而是介于二者之间结构元素就起着主、客观之 间界面的作用,并且它给主观以较大的灵活性,使得可以方便的按照我们的目的选用 不同形状和尺寸的结构元素,来度量和提取图像中的与其对应的形状,从而达到对图 像进行分析和识别的目的。这种主客观的交互方式将不断找出最合适的结构元素来抽 取最希望得到的信息,并且抑制不感兴趣的信息,这似乎对人类的视觉系统是一个合 理的模拟。基本的数学形态学运算是将结构元素在图像范围内平移,同时施加交、并 等基本的几何运算。数学形态学可以用来解决抑制噪声、边缘检测、特征提取、图像 分割、形状识别、纹理分析,图像恢复与重建、图像压缩等处理问题。 最初,数学形态学是基于集合论的,是具有一定约束条件的集合变换,称之为连 续形态学,后来发展成为基于离散点集的离散形态学。从研究的对象来看,形态学也 由最早的二值形态学扩展到了灰度(多值)形态学。特别是近几十年。数学形态学与其他 相关学科的渗透与融合,使数学形态学又出现许多新的分支。例如:排序统计学的注 入,使数学形态学发展成为顺序形态学(Order Statistical Morphology)。它研究的对象主 实际生产中 OCR 系统的设计 13 要是离散多值信号(图像) ,其主要运算是局部的排序统计运算。模糊逻辑与数学形态学 的结合,又山现了模糊形态学(Fuzzy Morphology)。它是将模糊集合引入到形态学运算 中,从而构成模糊形态变换,用以处理图像信号。另外,形态学与神经网络的相互融 合,形成了另一个发展方向形态神经网络(MNM。经典的神经网络中,每个节点 的信息组合是通过相关节点的各个响应值与权值相乘,再将乘积结果相加完成的;而 在形态神经网 络中,节点的信息组合是由相加和取极值运算完成的软数学形态学也是数学形态学 发展的一个重要分支,这种方法用捧序加权统计方法代替最小、最大法。结构元素由 核心和软边界两大部分组成,具有更强的抗噪声干扰能力。对加性噪声和微小形状变 化不敏感。最近由 Goustias 提出的形态小波是一种非线性的多分辨率分析方法。兼顾 了数学形态学和小波变换的优点,具有更好的多分辨率分析特性和更好的抗噪声性能。 而今,数学形态学己经成为图像处理理论的一个重要方面,广泛的应用到图象处理的 各个领域,利用数学形态学可以进行图像增强、分割、边缘检测、形态分析、图象压 缩等各种处理。 本系统主要应用的是二值图像的形态学滤波处理。在二值图像中,所有黑色象素 的集合是图像完整的形态学描述。而且我们可以采用从小到大不同的结构元进行处理 来达到滤除全部噪声的目的,一般二值变换用于处理集合。式(3-14)到式(3-15)给出了 二值形态变换的基本变换公式。基本形态变换包括腐蚀、膨胀、开操作和闭操作。膨 胀使图像扩大而腐蚀使图像缩小。对图像先腐蚀后膨胀。称开操作,它使对象的轮廓 变得光滑,断开狭窄的间断和消除细的突出物。对图像先膨胀后腐蚀,称闭操作,它 通常弥补狭窄的问断和长细的鸿沟,消除小的孔洞,并填补轮廓线中的断裂 对二值图像分别进行膨胀、腐蚀、开操作和闭操作后的结果如图 3-8 到图 3-11 所 示。 图 3-8 膨胀后的图像 图 3-9 腐蚀后的图像 陕西科技大学毕业论文(设计说明书) 14 图 3-10 开操作后的图像 图 3-11 闭操作后的图像 根据各种形态学滤波的性质,本系统采用了膨胀、腐蚀、开操作和闭操作相结合 的综合操作, 最后形态学滤波的结果如图 3-12 所示 图 3-12 滤波结果 3.2.5 图像边缘提取 图像的边缘提取又可称为“抽取轮廓”或“边缘抽取” ,是图像处理中一项重要的 基本技术。利用提取出来的轮廓可以把特定的物体选拔出来,以便进行后续的图像认 知和理解等操作。所谓边缘是指其周围像素灰度有阶跃性变化或屋顶变化的像素的集 合物体的边缘是由灰度的不连续性所致,因此考察图像每个像素在某个邻域内灰度 的变化,利用边缘邻近一阶或二阶方向导数变化规律即可检测图像边缘。常用的边缘 检测算子有 Roberts 算子,Sobel 算子,Prewitt 算子和 Laplacian 算子。 1.Roberts 算子 Roberts 边缘检测算子是一种利用局部差分算子寻找边缘的算子。 Roberts 算子的模板为: 0110 实际生产中 OCR 系统的设计 15 从上面模板的形式来看,Roberts 计算时利用的像素数一共有 4 个。Roberts 算子边 缘定位准, 但是对噪声敏感,适用于边缘明显而且噪声较小的边缘提取经过 Roberts 算子边缘提取的效果如图 18 中(a)所示。 2Prewitt 算子 Prewitt 算子模板为: 1010 图像中的每个像素都用这两个模板做卷积,一个模板对垂直边缘影响最大,另一个 对水平边界影响最大。两个卷积的最大值作为该点的输出值。算子对噪声有抑制作 用抑制噪声的原理是通过像素平均,相当于对图像的低通滤波,所以算子对边缘的 定位不如 Roberts 算子经过 Prewitt 算子边缘提取的效果如图 18 中(b)所示 3Sobel 算子 Sobel 算子的模板为: 120102 Sobel 算子和 Prewitt 算子都是加权平均但是 Sobel 算子认为,邻域的像素对当前 像素产生的影响不是等价的,所以距离不同的像素具有不同的权值,对算子结果产生 的影响也不同,一般来说,距离越大,产生的影响越小。经过 sobd 算子边缘提取的效 果如图 18 中(c)所示。 4Laplacian 算子 以上介绍的都是利用一阶导数信息,在实际的图像处理中,二阶导数也是经常利 用的。 Laplacian 算子是二阶微分算子。它具有各向同性即与坐标轴方向无关。坐标轴 旋转后梯度结果不变。它的 4 邻域和 8 邻域模板分别为: 0142 12 Laplacian 算子对噪声比较敏感,一般情况下它要与图像的平滑处理相结合来进行 轮廓提取。 陕西科技大学毕业论文(设计说明书) 16 (a )Roberts (b)Prewitt (c)Sobel (d)Laplacian 以上是用 4 种算子提取的轮廓效果图。经比较 Roberts 算子和 Laplacian 算子提取 的轮廓明显而且连续,Prewitt 算子和 Sobel 算子提取的轮廓图有不连续现象所以, 本研究中选用了 Roberts 算子进行轮廓提取。 3.2.6字符分割 对字符进行识别,识别对象应是独立字符,所以要将字符图像中各个字符独立分 离出来。对经前述 Roberts 算子边缘提取后的字符图像,用动态阐值 T3 二值化后得到 二值边缘图像,而字符边缘点在图像中的概率分布是大致固定的(试验表明此值约为 l/8), 在边缘二值图像中一般取 满足3T (3-9) 25025)(81)(3ii H 实际生产中 OCR 系统的设计 17 利用边缘二值图像的水平投影,拽出每一个极小值点,然后根据字符和间距大小 合并这些极小值点,分割开每个字符。对分割的字符进行基于极值的局部二值化,设 字体宽度为 w,取阈值 满足4T (3-10)10)(254AiHTi 其中 A 为分割后各字符块的总像素数。设 Y(x,y)表示(x,y)点的灰度值,引入阈值 , ,567 (3-11 ))(21),(5bayxT (3-12 )6 (3-13 )),(),(5,7 lykxvergWlk 其中, ,),(max, yYlWk ),(min, lykxYbWlk 对字符块灰度图进行二值化 (3-14 ) 否 则0)(31),(1),( min46,7YTyxYyxB 至此,单个字符图像就被分割出来了,然后,将此单个字符二值图像归一化为 25x25 点阵。 陕西科技大学毕业论文(设计说明书) 18 4. 印刷体字符识别 字符识别环节是整个系统的关键环节。经过预处理和分割后的单个字符图像,经 过此环节的处理。就可以转化为便于计算机处理和存储的字符信息。根据待识别字符 书写方式的不同,本环节又分为印刷体字符识别和手写体字符识别。由于印刷体字符 识别技术相对来说是比较成熟的,所以,在本节内容中,我们就简单讨论一下印刷体 字符识别。 4.1 印刷体字符识别原理 字符识别部分的功能就是对经预处理和分割后的单个字符进行归一化和细化处理, 然后提取网格特征和交叉点特征。把这些特征与标准字符特征库中的字符特征进行比 较,来确定被识别字符是标准库中的哪一个。 本系统采用模板匹配的方法对定位后的字符进行判断和识别,即分别计算提取的 待识别字符的特征向量与字符标准库中各字符特征向量的欧氏距离,与待识别字符距 离最小的库中字符就是识别结果。 4.2 字符标准特征库的建立 对于采集到的用于建立标准特征库的字符,我们需要经过字符的归一化和细化处 理,然后提取字符的特征信息放入字符标准特征库中。考虑到字符的字体风格不同, 其特征信息就会有差异。 因此,字符标准特征库中还应该包含具有不同字体风格的相 同字符的特征信息。 4.2.1 字符的归一化处理 为了使输入字符有一致的标准,字符图像在特征提取前通常需要进行归一化处理, 归一化有大小归一化,位置归一化,笔划粗细归一化。在实际系统中,一般只用到大 小归一化和位置归一化。一个有效的归一化算法,将大大提高系统对不同字体的稳定 性,并且能很好的克服图像噪声带来的诸多影响。 字符图像的大小归一化,一般分为两部分:线性归一化和非线性归一化线性归 一化较为简单,就是把原始图像线性的拉伸、缩放到规定大小。缺点是没有考虑字符 的特征分布,不能吸收字符的形变,有时甚至会加剧原始图像的形变或产生新的形变。 本文应用的是非线性归一化,统一将任意 IJ 的点阵规范化为 25 25 点阵非线 性归一化的基本思想是,将字符的笔划“均匀”地分布到整个字符图像中。对于字符 中笔划密度大的部分, 适当放大。对结构笔划密度小的部分适当压缩可以在一定程 实际生产中 OCR 系统的设计 19 度上克服字体变形、噪声干扰。 下面是本文所采用的一种非线性归一化方法,在实际应用中证明,这种方法可以 明显地提高系统的识别效果。 设原始图像 f(i,j)大小为 IJ,归一化后图像 g(m,n)大小为 MN(M=25,N=25)。 定义原始图像中每一行(列)的行密度为该行(列) 的各点的水平(垂直)密度和: (4-1) jjjjHihidi11,),()( (4-2) iiiiVjv11),(, 定义该图像的行(列) 密度和为 (4-3) iiH1)( (4-4) jjV1 设原始图像中心点 , ,其中),(1jif 1),(NMg (4-5 )Hm (4-6 )Vin)( 设原始图像的两临界点 , 均为笔画象素点,即: )(1,jif),(2jif )(2,1,jif (4-7)1 归一化图像中与这两点对应的点为 , ,则在归一化图像中作一条)(1,nmg)(2, 连接 , ,的线段,该线段上的点均为笔划象素点。)(1,nmg)(2, 陕西科技大学毕业论文(设计说明书) 20 原始图片 线性归一图片 非线性归一图片 图 4-1 归一化效果图 图 4-1 显示了采用该归一化方法前后两字符的差别:先将原始图像线性归一化, 然后进行非线性归一化处理。非线性归一化后,原图像上笔画“密集”的区域被放大, 并且是笔划位置相对固定,这将改善同识别系统对不同字体的鲁棒性,而且,因孤立 噪声点造成的偏移动,在采用该方法后也得到了明显的纠正。 4.2.2 字符的细化处理 对字符进行细化处理是要求出字符的“骨架”部分,细化处理不仅仅是压缩冗余 信息的需要,还是进行
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《耳鸣与听力下降》课件
- 2025年个人住宅二手房买卖版合同
- 2025智能安防工程合同模板
- 《税收政策及其分类》课件
- 《微积分的原理》课件
- 2025年自有机动车融资租赁合同
- 2025打印机租赁合同协议书
- 《物质与能量转换》课件
- 赠与房产部分协议书
- 宠物协议书范本模板
- 公司IPQC巡检记录表
- 施工现场建筑垃圾处置专项方案
- 环形锻件的轧制过程的基本原理和工艺流程
- 大班音乐《水果百变秀》课件
- 妇幼保健院医疗保健服务转介工作制度和流程
- 国家职业技能鉴定考评员考试题库1100题【含答案】
- 监察机关执法工作规定学习测试
- 超细干粉灭火系统施工质量记录表格
- 2022职业病防治法宣传周PPT
- (高清版)外墙外保温工程技术标准JGJ144-2019
- 民办教师人员花名册
评论
0/150
提交评论