(计算机应用技术专业论文)基于模糊笔画方向特征的脱机手写体汉字识别系统.pdf_第1页
(计算机应用技术专业论文)基于模糊笔画方向特征的脱机手写体汉字识别系统.pdf_第2页
(计算机应用技术专业论文)基于模糊笔画方向特征的脱机手写体汉字识别系统.pdf_第3页
(计算机应用技术专业论文)基于模糊笔画方向特征的脱机手写体汉字识别系统.pdf_第4页
(计算机应用技术专业论文)基于模糊笔画方向特征的脱机手写体汉字识别系统.pdf_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

天津师范大学硕士学位论文 捅斐 汉字识别是用计算机自动辨识印刷在纸上或人写在纸上的汉字,它属于模式 识别和人工智能的范畴。汉字识别涉及到模式识别、图像处理、人工智能、形式 语言与自动机、模糊数学、组合数学、信息论、中文信息处理等学科,也涉及到 语言文字学、心理学、仿生学等,是一门综合性技术。 本文首先对汉字图像的预处理技术进行了分析,包括对样本图像的二值化、 归一化、平滑去噪、字符切分、汉字细化处理等。 模糊数学为解决计算机的精确运算与人脑思维具有模糊性这一矛盾提供了 强有力的工具。在特征提取方面,本文引入了模糊数学的思想,提出一种基于模 糊笔画方向特征的提取方法,解决了因手写体笔画随意性而使得提取的子笔画不 稳定的问题;并通过对字符点阵图像的模糊划分,克服笔画的位置对特征提取的 影响。计算字符边缘点“横、“竖、“撇”、“捺 的模糊笔画属性特征,并将其 , 与模糊网格相结合,生成模糊笔画统计特征: 在分类器设计中,研究了人工神经网络的特征及在手写体汉字识别中的应用 及人工神经网络的b p 神经网络的结构设计、神经元数目选取、b p 算法参数确 定等问题。探讨了b p 神经网络在m a t l 钮环境下的实现,并给出了b p 神经网 络分类器建立、训练和仿真的实现方法。 本文采集了十一个常用大写汉字“零、壹、贰、叁、肆、伍、陆、柒、捌、 玖、拾”作为样本,并对样本进行了实验,实验证明模糊笔画特征提取方法解决 了在抽取子笔画时的不稳定性问题。 关键词:汉字识别特征提取模糊笔画分类器b p 神经网络 天津师范大学硕士学位论文 a b s t r a c t c m n e s ec h a r a c t e rr c c o g n i t i o ni sa u t o m a t i c a l l yr e c o g l l i z i n gc i l i n e s ec h a r a c t e r s p r m 锄0 r 、砌t t 肌0 np a p e r 、历mt l l eh e l p o fc 0 叫) u t 瓯i ti sp 叭a i nt 0p a n e m r e c o 鲥t i o n a n da i t i f i c i a l i n t e l l i g e n c e n d e a l sw i 吐l p a t t e m托c o g n i t i o l l ,i n l a g e p r o c e s s 妞舀a n i j c i d a li i l t e l l i 目。i l c c ,f 0 n n a ll 硒g u a g e 觚d 锄l t o m a t a ,如z z ym a t h 既n a :t i c s , c o m p 0 岫d i n gm a m e i i l a t i c s , i i l f o n i l a t i c s ,c l l i n e s ei n f o m a t i o np r o c c s s i n g ,裙w e l l 弱 l i n g u i s t i c s ,p s y c h o l o g y ,b i o i l i c s i ti sau i l i v e r s a l t e c h n o l o g y i l l 蚰sa n i c l e ,丘s r t ,w e 咖d i e dt h ep r e l ,r o e e s s i n go ft 1 1 eh 锄d 州t t e nr e c o 印i t i o n , i n c l u d i l l gs 切n d a r d i z a t i o n ,s 印a r a t i o n ,e r a s i n g m er 削a i l c yi n f o m a t i o na n d n l i 五l l i n 酣 a f 1 1 z z ys 灯o k ee x 仃a c t i o nm e m o d i sp r o p o s e dt or 髂o l v em eu n s t e a d i n e s sb e c a u s e o ft l l eu n c o n s 仃a i n e dw t i t t e nf 瓠h i o n f i r s t c a l c u l a t i i l gm e 砌b 1 j t i o nf e a t u r co f , b o u n d a r yp o i n tr c l a t e dt 0t 1 1 ef o u rf h z z ys 们k 韶- h o r i z o n t a l 、v e r t i c a l 、l e rd i a g o n a l 柚dr i g h td i a g o n a l ,m e i lc 彻1 b i n g 缸rm e s hw i 廿l 舵z ys u b - s 仃o k ea 牡曲1 】:t i o nf i e a n 鹏 o fb 咖l d a r yp o i n t st 0o b t 豳t l l e 如z z ys u i b - s t r o k es t a t i s t i c a lf e a t u r eo fac l l i 饿;s e c :h a r a c t e r i i lm ed e s i g l l i n go fr e c o g n i t i o nc 1 嬲s i f i c r , w ed i s c u s s e dm es 伽l c t e rr e c o 嘶t i o n 柚dt h en u m b e rc h i c eo fn e ec e l l sa n dn l ep 猢e n t e r sot l l ei m p r o v e db pn e t u r a l n c t 、7 i r o k ,e t c w bd i s c u s s e d l er e a l i z a t i o no fb pn 咖a ln e t 、o r k0 nm a t l a b ,锄d p r e s 既t e dm ef o u n d a t i o n ,仃a i m n ga 1 1 ds i i n u l a t i n go f t h ei m p r 0 v e db pn e t i m ln e 研o r k i n l i s 枷c l e ,w ec o l l e c tt h ec a p i t a lh a l l d 、柑t t e nc 1 l i n e s ec h a r a c t e r s 零、壹、贰、 叁、肆、伍、陆、柒、捌、玖、拾”a st h es t y l e b o o k ,a n dm e ya r eu s e df o rt l l es i m l l l a t i o n e x p e 曲e n t s ,t l l ee x p 嘶m e i l t m 瞅l s u l t ss h o wm a t r e s o l v et l l ei u l s t e a d i n e s sb e c a u s e o ft h eu n c o n s t r a j n e dw r i t t e nf a s h i o n k e y w o r d s : c l l i n e s ec h a r a e t e rr e c o 弘i t i o n ,f e a n l r ee x t r a c t i o n , f u z z ys 仃o k e , d a s s i f i e r ib pn 饥i 仃a 1n e t w o r k 独创性声明 本人声明所呈交的论支是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得丞洼娅范太堂或其它教育机 构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献 均已在论文中作了明确的说明并表示了谢意。 签名:缴日期:礁俎 学位论文版权使用授权书 本人完全了解天津师范大学有关保留、使用学位论文的规定,即:学校有权 将学位论文的全部或部分内容编入有关数据库进行检索,并采用影印、缩印或扫 描等复制手段保存、汇编以供查阅和借阅。同意学校向国家有关部门或机构送交 论文的复印件和磁盘。 ( 保密的论文在解密后应遵守此规定) 签名:电蟊靶导师签名: 天津师范大学硕士学位论文 第一章绪论 1 1 研究手写体识别的意义及研究背景 以前人们之间的交流都是通过语言和文字进行的,现在人们已经进入信息时 代。随着计算机的普遍使用和计算机科学技术的发展,人们已不在紧紧用语言获 得这些信息交流和用手记录在纸上,而是将语言及文字快速自动的输入计算机, 用计算机来代替,用计算机对它们进行整理和编辑,保存在硬盘其他介质上,可 随时以打印机输出、通过视频进行通讯、通过显示器输出到荧光屏等的方式来满 足人们的不同需要,因此研究计算机识别文字的最终目的就是来解决文字信息高 速、自动输入计算机的问题,使计算机能方便的进行信息加工处理。 汉字识别技术应用在以下几个领域,有广泛的用途: ( 1 ) 汉字识别是智能计算机的重要组成部分智能计算机能使计算机自己看 懂输入的文字,并能阅读文字,理解文章,因而随着资料、文献的增加,对汉字 识别的需求越来越大。 ( 2 ) 可以很大的提高计算机的利用率,克服人的速度快而机器速度快的矛 盾。随着计算机应用的的发展,计算机进行信息处理的速度越来越快,输出设备 速度也是越来越快。但是,计算机的输入却还是很慢,必须由人用手指敲键盘来 输入各种信息,使计算机在大部分时间里处于闲置状态。计算机的性能越好,与 机器的矛盾就越突出。因此输入的低速度已经成为计算机系统提高使用效率的瓶 颈,解决这一问题的出路就在于计算机自动识别文字。 ( 3 ) 汉字自动识别是办公室自动化、新闻出版、机器翻译中最为理想的输 入方法。 字符识别一般可以分为两类:一类是联机手写体汉字识别,是计算机通过与 其相连的手写输入设备获得输入字符的即获得笔画的顺序,笔画的方向以及字符 的形状。因此,联机手写体汉字识别能从物理上获得更多的信息,比较容易识别 一些。但是联机字符识别要求输入者必须在指定的设备上书写,这是一个严重的 不足,因为在现实生活中这一要求不好满足,例如开具发票等。第二类是脱机手 写体的汉字识别,它不要求在固定设备上书写,应用更为广泛。它利用各种输入 天津师范大学硕七学位论文 设别例如扫描仪,数字相机等。通过设备,将书写好的文字作为图像输入到计算 机中,然后由计算机去识别。 1 2 手写体识别的发展概况【1 6 】 脱机手写汉字是汉字识别中最困难的问题之一,如果对书写过程限制较多, 则不实用;限制较少,则识别率较低。现在研究的重点有多特征融合、字形整形 变换、多分类器集成以及用于文本后处理的语言模型等。而且,有些人开始研究 汉语词语的识别,试图绕开手写汉字单字识别的难点,但目前看来只是一种探索。 脱机手写识别研究的一个趋势是转向应用研究,应用于特定场合的脱机手写 体汉字识别系统开始被研究开发,如银行票据识别、邮政地址识别等。但到目前 为止,还没有一个抗干扰能力强、性能稳定、适应各种书写体情况的高效实用系 统,因此对于手写体汉字识别还有许多工作要做。 目前存在的主要问题有:手写体汉字的行、列切分正确率仍有待于提高:在特 征提取阶段,目前尚未找到一组适用于各种字体、笔迹的特征向量。由于汉字的 特征向量维数较高,将待识别汉字的特征向量同样本库中的海量模板匹配会占用 很多识别时间,因此如何提高识别速度也是一个需要深入研究的课题。 另外,目前对汉字识别缺乏标准的鉴定和评价依据,并且没有建立标准的手 写体汉字测试机制和测试数据库,使得现在的研究成果无法进行比较和评判。因 此需要建立统一的手写体汉字字库,制定标准且完善的测试及鉴定体系、评价对 于脱机手写体汉字识别的发展不仅是重要而且也是必要的。 针对脱机手写体汉字识别研究现状,以下几点为以后脱机手写体汉字识别研 究提供了方向。 ( 1 ) 小类别手写体汉字识别系统的构建 依据现有的条件,先以小类别汉字识别为出发点,来实现专用的识别系统。 在小类别数汉字识别系统中,需识别的手写汉字类别数较少,如银行票据、支票、 账单等单字的大写金额自动识别。现在许多研究者试图以一些专用系统为突破 口,力争尽早地将脱机手写汉字识别技术推向实用。 ( 2 ) 增强手写体汉字切分的研究 目前脱机手写体单字识别的识别率已有很大进展,而汉字字符的分割是识别 2 天津师范大学硕士学位论文 系统的很大障碍。手写体汉字的字符大小、字间距、字内距变化很大,具有随意 性,其切分难度比印刷体汉字更大。常用的汉字切分方法有:基于结构分析的 切分法;基于识别的切分法;简单的直接切分法,如利用字符间隙和字符间距 以及投影法等:以词为单位的切分法。这些方法对自由手写体汉字的重叠、粘 连等情况的切分以及解决中英文、数字夹杂的字符切分的效果均不是十分理想。 因此,如何有效地利用汉字的结构特征,在汉字分割过程中融入部件识别、单字 识别和语义理解,以获得更好的分割性能是应该进一步深入研究的。 ( 3 ) 多分类器的集成 手写体汉字识别是一个非常复杂的多模式识别问题,实践表明,单一方法的 效果是有限的,采用多方法的有机组合,应用信息融合技术,使其优势互补、多 方案集成、多特征组合,这是手写体汉字识别的一个发展趋势。 单个分类器不能从根本上提高识别系统性能,应依靠多个识别器的集成来解 决问题。各种方法有其自身的特点和优点,亦有其局限性,如何解决好集成的策 略问题和层次问题,及能否将不同的方法有机地结合在一起,是要进一步深入研 究的。 由不同的原始特征向量合成新的特征向量将有利于增强特征向量的分类能 力,新特征保留了参与融合的单个特征对各个类别的有效鉴别信息,在一定程度 上消除了多个特征之间的信息冗余,实现了可观的信息压缩,有利于信息的实时 处理。 ( 4 ) 改进特征选择与提取的方法以及单分类器设计方法 怎样快速地抽取能充分描述汉字模式的稳定可靠的特征手写体汉字识别的 关键之一,良好的特征应该使不同汉字之间的差异性尽可能大,而在同一种汉字 的不同书写样本之间的差异性尽可能小。目前大部分的特征提取方法是基于经验 之上,缺乏严密合理的理论指导。 特征提取实际是一种将汉字图像转换到高维征空间的变换,从而使不同类别 的汉字更加具有可分性,以便于模式分类和识别,寻找更好的变换仍然是研究中 需要探索的问题。实践表明要取得好的识别效率,很重要的点在于特征与分类 器的匹配。 分类器通过其内置参数和拓扑结构定义了特征空间上的一族曲面,为了达到 天津师范大学硕士学位论文 分类的目的,由这族曲面将特征空间划分为不同的类。手写体汉字图像的特征空 间分布十分复杂,目前还没有找到完全可分的特征映射及相应曲面。在单分类器 设计时,期望能提出一种评价样本空间分布复杂性的度量,而且能随样本空间分 布不同调节自身结构的分类器。 ( 5 ) 基于语言模型和知识的汉字识别 在目前的手写汉字识别中,如何综合有效地利用多种知识,注意其间的互补, 解决知识的利用都是局部和不连贯性,将其全面而连贯地应用于手写体汉字识别 中,是值得深入研究的。透彻研究自然语言理解的过程,建立恰当的语言模型, 用它进行后处理,是对模式识别的有力补充,也是进一步提高识别性能的关键。 单个字的机器识别能力是有限的:近年来基于语言知识的集群识别是手写体汉字 识别的一个发展趋势。 ( 6 ) 以反馈的思想重新架构识别系统 脱机手写体汉字识别对单向的汉字识别系统的研究,虽然在心理学和生理学 方面对人脑认字的原理还缺乏系统的研究,不完全符合人类心理认知过程,但是 人们在辨认一个模糊不清的字符时,常会反复地琢磨,这意味着人类心理认知应 是一个含有反馈的过程。所以有人提出了一种基于反馈的手写体字符识别方法, 虽然应用面还不是很大,但该方为手写体汉字识别指出了一条可尝试的新途径。 1 3 手写体汉字识别的问题与困难t 1 7 1 手写体汉字识别是一种重要的、适用于把手写文稿随时输入计算机的方法, 也是机器汉字识别最为困难的一个课题。 对识别系统识别速度和识别率的要求,主要依据实际应用的需要来确定,很 难有一种严格、统一的的标准。但是作为一种输入手段,汉字识别系统的性能至 少应该可以和其它输入手段( 如人工输入) 相比拟。目前由专业人员操作的汉字输 入的错误率约为1 0 l 1 0 0 的量级,输入速度最高达2 0 0 字每分钟,平均的速度 也在5 0 字每分钟以上。这些指标应该是汉字识别系统必须达到的最低要求,在 某些需要大量输入的情况对识别系统性能的要求还应更高。 要达到上述要求困难较大,原因是由手写体汉字的困难决定的。困难和问题 表现在: 4 天津师范大学硕士学位论文 ( 1 ) 汉字数量多,字量大 中国的汉字数量多,所以汉字识别问题属于大类别( 或者称为超多类) 模式识 别问题,在模式识别理论和方法研究方面有重大意义。汉字识别是种超大类别模 式识别问题,而类别数越大,分类识别就越困难。 ( 2 ) 汉字字形结构复杂 我国的手写体分为楷书、行书和草书三大类,虽然不同字体的拓朴结构基本 相同,但笔画的位置,长短及姿态却有一定的差别,尤其是草书,可能与楷书和 行书根本就不相似。 换句话说,同一汉字的不同字体的字形点阵并不相同,这给分类识别增加了 难度。 ( 3 ) 1 汉字中的相似字很多 有些汉字的差别仅为一个笔划或一点,或者某一笔划长短略有差别,如“田、 由”、“人、入等。必须能正确一判定这些微小差异,否则就会发生错误。 ( 4 ) 结构复杂 汉字的结构复杂,笔画多,每个汉字平均有十一画,笔画最多的汉字有四十 八画,这对分类器的性能提出了较高的要求。 ( 5 ) 书写变化大 每个人书写差异而造成手写汉字的变形很大,笔画不规范,六种基本笔画, 横、竖、撇、捺、点和折。不同的人书写会出现变形,例如横不平,竖不直,直 笔画变弯,折笔画变圆弧等,点和捺互相变化,该连的不连,不该连的却相连。 笔划与笔划之间、部件与部件之间的位置发生变化。 主要有以下三点: 笔画之间、偏旁部首之间相对位置不固定,如“土 字的两横距离不定, 一竖则可能偏左或偏右,又如“仟 字的单人旁和“千 字边左右距离不固定等 等。 笔画不规范,六种基本笔画横、竖、撇、捺、点和折在书写时出现变形, 如折笔画变弧,直笔画变弯,竖笔不直,横笔不平,点和捺互变等等,笔画粗细 不匀也是不规范的现象之一。 连笔书写或笔画粘连,这是手写汉字中常见的现象,连笔或粘连将导致汉 天津师范大学硕士学位论文 字的结构出现质的变化,是手写汉字识别研究中最难解决的问题之一。 书写变化大是脱机手写汉字识别系统至今不能达到实用的根本原因。对于脱 机手写汉字,不同人使用不同的书写体可能造成笔划的粗细变化。其中,手写汉 字字形的变化是最难以解决的问题。尤其脱机手写体汉字的识别,它处理的仅是 二维的汉字点阵图像,由此,对于非特定人脱机手写汉字识别,如果对手写汉字 的书写不加任何限制( 即为自由手写体汉字) ,则识别难度相当大。 1 4 本文的结构 总结了手写体汉字识别研究方法的优点与不足,针对脱机手写体汉字识别技 术的难点,采用了在弹性网格的基础上改进的模糊网格的特征提取方法来进行脱 机手写体汉字识别的研究。 第一章绪论 介绍研究手写体识别的意义及研究背景,手写体识别的现阶段的发展概况, 手写体汉字识别遇到的问题跟困难,即本文的内容。 第二章脱机手写体汉字识别概述 介绍了汉字的输入;预处理包括汉字的二值化,平滑,规范化,字符切分, 细化等;特征提取,分类识别及后处理。 第三章基于模糊笔画方向特征提取 提出一种基于模糊笔画方向特征的提取方法,解决了因无限制手写体笔画随 意性而使得抽取的子笔画不稳定的问题。计算字符边缘点“横 、“竖 、“撇 、 “捺”的模糊笔画属性特征,并将其与模糊网格相结合,生成模糊笔画统计特征。 第四章人工神经网络分类器 简介分类器的分类。研究了b p 神经网络的结构设计、神经元数目选取、b p 算法参数确定等问题。并研究了b p 神经网络在m a t l a b 环境下的实现,并给 出了b p 神经网络分类器建立、训练和仿真的实现方法。 第五章实验结论及进一步研究方向 介绍了本文的结论及对下一步工作的展望及研究方向。 6 天津师范大学硕士学位论文 第二章脱机手写体汉字识别概述 不同的汉字识别系统,在处理不同的待识别汉字图像时,其处理的步骤可能 并不完全相同。但是就一般,一个完整的汉字识别系统分为原始图像采集、预处 理、特征抽取、分类识别和后处理等五个步骤,如下图2 1 所示: 2 1 汉字的输入 图2 1 脱机手写体汉字识别图 样本采集的一般原则是: ( 1 ) 紧凑性 采集的样本应该具有紧凑型,如果采集的样本中含有大量的冗余成分会导致 学习过程收敛困难或不收敛,容易造成模糊网格统计特征的提取。 ( 2 ) 代表性 样本要体现出输入输出之间的关系,能起到以点带面的作用,如选用特征突 出的样本,只有通过具有代表性的学习样本训练出来的b p 网络才能很好的映射 输入输出的关系。 ( 3 ) 广泛性 采集的样本要有广泛性,使其具有较好的适应能力。 本文采集输入的样本是由1 0 个人书写的“零、壹、贰、叁、肆、伍、陆、 7 天津师范大学硕上学位论文 柒、捌、玖、拾”这十个常用的大写汉字。要求书写尽量减少连笔,尽量的规范, 字与字之间是有间隔。用数码相机拍摄这组文档并输入电脑,一部分作为样本, 另一部分作为测试集。 如图2 2 所示是所采集的部分样本。 2 2 预处理 秀雪零兽露零 i 二妻熹喜蓑盖贰贰贰截贰贰 毒。差参考参参 肆辩对肆肆肄 位硅伍在位伍 陆p 1 l i 陆陆阽 荤菜袭絮袭隶 捌捌捌捌捌别 扣王k 歇久丸玖 挣袷轸拄概论 图2 2 采集样本 预处理是脱机手写体汉字识别十分重要的一步步骤,输入的图像中会含有各 种各样的噪声和畸变,好的预处理去掉这些噪声和畸变后,使得特征的提取和字 符的识别变的更容易进行,好的预处理,能保留反映文字主要特征的部分,识别 霉童式基一醉饭瞒絷栅玖格 天津师范大学硕七学位论文 就容易进行,识别率高且识别速度快。预处理包括二值化,平滑,字符切分,规 范化,细化等。 2 2 1 二值化 由于脱机手写体汉字识别只需要处理图像中的字形信息,对颜色等信息不做 处理,所以须对扫描得到的文本图像进行二值化处理,以去掉不必要的信息,提 高识别的速度,并为以后的字符特征提取打下基础 把多值图像处理成只有二值( 0 、1 ) 即只有黑( 文字) 、白( 背景) 图像的过程, 称为二值化。通常是通过设置阀值t ,如果像素点的灰度值比t 值大即为o ( 背 景点) ,如果像素点的灰度值比t 值小的即为l ( 字符点) 。 设经过扫描,模数转换后。某一点像素值是坟x ,y ) ,x _ l ,2 ;) ,= 1 ,2 一则 舣,炉 ? 愁甾 眨) 即为二值化之后的图像点阵。 常用的二值化一下几种: ( 1 ) 整体阀值二值化 人工设定整体阀值 根据实验或人的先验经验,预先给定一个固定阀值,当砸,j ) t ( i ,j ) 时为 背景点,当珩,j ) 町( i ,j ) 是为文字上的点。这是一种最简单的速度最快的二值 化方法。当文字简单清晰,没有干扰的时候,它是一种很有效的二值化方法。人 工设定整体阀值的缺点是:不能根据每个文字确定它最佳的阂值。确定闭值 厂后,光源等外界条件改变时,不能使阀值随之改变。 由灰度级直方图确定整体阐值 灰度级直方图确定整体阐值是一种根据图像和背景的灰度值自动确定整体 闭值法。 ( 2 ) 局部阀值二值化 由象素的灰度值和象素周围点的局部灰度特性,来确定阀值的方法称为局部 阀值值选择法。对于书写质量差,干扰较严重的汉字,采用全局阀值进行二值化 时,效果不太理想。局部阀值选择法有可能得到较为满意的二值化结果。 9 天津师范大学硕士学位论文 ( 3 ) 动态阀值二值化 动态阀值选择是阀值选择不仅取决于该象素阀值以及其周围各象素的灰度 值,而且还和该象素坐标位置。这种方法可以处理低质量甚至单峰直方图图像。 对文字图像而言,其文字和背景的区分是比较明显的。但是,动态阀值值法计算 时间长,在文字识别中很少采用。 但是需要说明的是,局部阀值和动态阀值值虽然能处理质量较差的文字,避 免整体阀值法带来的失真。但是,一则时间开销大,二则考虑到实际的局部阀值 和动态阀值选择算法往往在图像的某些部位上产生整体选择不会产生失真,所 以,在文字识别中,一般采用整体阀值法。 本文采用的是最大方差阀值设定法算法。最大方差阀值设定法算法是先统计 出图像的灰度直方图,然后把直方图在某一阀值处分成两组,把分成的两组的方 差最大值,设置为阀值。设汉字图像灰度为j 级,即 l ,2 ,j ,对应第1 j 级灰度的象素数为1 1 i ,则图像的象素数总数为为= 绝。则第i 级灰度的概率 f = l 为只= 乡名( i = 1 ,2 ,j ) ,显然, 当把第t 级灰度作为阀值,根据二值化的关系,所有的像素被分成f 1 t 及 t + 1 j ) 两类,并可以分别作为目标或者是背景来做处理。在此,利用统计量 来表示这两类的平均灰度值和出现的概率。 记 1 t 为第一类c 。,它出现平均弧度值和概率是: f 。= 芝:皿( f c o ) = ( f ) 彩( f ) ( 2 2 ) f 国。= e = 缈( 后) ( 2 3 ) 扛i 记 t + l ,j ) 为第二类c 。,它的平均灰度值和出现的概率为 tj 。= 理( i c 1 ) = 僻q , 国。= 只= 1 一缈( 七) 其中的鼻( f c 1 ) 和只( g ) 是对应两类的条件概率。 1 0 ( 2 4 ) ( 2 5 ) 天津师范大学硕上学位论文 由于图像的灰度平均值为 j 版= ( ,) = 嵋 扭l ( 2 6 ) 因此以= 置一( f ) 】【l 一国( f ) 】,因而全部的样本的灰度平均值为 置2 o + q l 。 我们采用c l 和c 2 两类的平均值方差即肋间方差仃;用下面的式子求出: 仃;= 莎;( r ) = 缈o ( 鳓一,) 2 = q ( l 一o ) 2 ( 2 7 ) = 【 国( f ) 一( f ) 】2 【功( f ) ( 1 一国o ) ) 】 所以,最佳的阀值是t 幸为仃;( 产) = m a ) 【盯:( f ) 所决定的t 值 l s 七s j 在实际计算中,先计算出仁1 到爿的以( t ) ,取以( t ) 最大的t 值作为所 求的二值化阀值t 幸。 上式中,当缈( t ) = o 及国( t ) = l 的特殊情况下,为了避免计算过程中数据的溢出, 我们定义它们所对应的盯;( t ) 等于零时,其理论意义是显然的。 图2 3 是本文经过二值化后样本的前后对比。 2 2 2 平滑 零零 ( a ) 样本图像( b ) 二值化后的图像 图2 3 二值化处理 输入的图像可能因为纸张质量等原因含有许多噪声。平滑处理的目的就是减 少这些噪声。平滑的目的是为了减少笔划的边缘噪声,删去孤立点,填充孤立的 空洞,在以后的处理中得到更好的效果。就是将一个n 木n 的象素窗口,依次在二 值化字符图像的每个象素点上移动,利用逻辑表达式来消除孤立象素的一种技 术。 设3 木3 的像素窗口,如图2 4 ,则新的像素点p 的表达式:p = p o 天津师范大学硕士学位论文 ( p l 木p 2 木p 3 木p 4 木p 5 术p 6 木p 7 术p 8 ) + p o ( p l + p 2 + p 3 + p 4 + p 5 + p 6 + p 7 + p 8 ) ( 2 8 ) p 4p 3p 2 p 5p op t p 6n p 3 图2 4 像素p 0 的八邻域 如图2 4 中,如果3 x 3 窗口的p o 为o ,而其它相邻点都为1 那么p 就等于l , 代替原来的0 ,从而消除了笔画上的孤立白点。如果p o 点的值为1 ,而且其他相 邻的点至少有一点为l ,则p 点的值就是1 ,从而减少了黑白噪声干扰。 本文采用的是中值滤波去噪。中值滤波的方法是选择一个像素窗口,然后用 这个窗口在汉字图像上移动,再用像素灰度值的中间值去代替中心像素的灰度 值。 图2 53 木3 窗口 例如,如图2 5 中p o 代表要处理的像素假设此时该像素的像素值为1 4 0 ,p o 周围的8 个像素的像素值分别是7 7 ,1 0 0 ,1 5 0 ,2 8 0 ,2 7 0 ,3 0 0 ,1 3 0 ,1 9 0 ,则 最终p o 的像素值应取这9 个数排序后的中间值( 即1 5 0 ) 为了显示平滑去噪后的图像与样本的不同,本文将样本去噪前后的效果对比 给出,如图2 6 所示。由下图可见,去噪前“贰”存在明显的噪点,如图2 6 ( a ) 所示,去噪后的“贰”不存在明显噪点,如图2 6 ( b ) 所示。 ( a ) 去噪前( b ) 去噪后 图2 6 平滑去噪处理 天津师范大学硕上学位论文 2 2 3 汉字切分 现在的汉字识别系统都是对单个字识别,但是经过光学仪器扫描得到的都是 整幅文本图像。汉字字符的切分就是对每个汉字字符定界,切割出单个的汉字来 识别。汉字字符数量多,复杂,而且手写体汉字字符大小、字内距变化大、字间 距,所以它的切分难度很大。 汉字间的粘连、重叠和交叠是最不利于汉字切分的。重叠是指两个字符没有 接触,属于不同的连通区,但它们的垂直投影有重叠的情况。这种情况无法用直 线将两个字符完全分开。所谓粘连就是指两个字符的轮廓线在一点或几点接触。 如果能找到粘连位置,可以用直线段将两个字符完全分开。交叠是指两个相邻的 字符不仅轮廓相接,而且共享某一部分像素区。这种情况处理起来较为复杂,但 并不常见 此外,一个汉字的左右部分如果分得太开,或者汉字内部的笔划出现断裂, 在切分时很容易被分割成两个或两个以上的字符,造成切分错误。将上述几种情 况综合就会形成更为复杂的情况,如两相邻字符既粘连又重叠,或者两相邻字符 粘连,同时其中一个或两个字符又写得过开等。上述所有这些情况都极大增加了 切分的难度,是汉字切分研究的重点和难点。 由于汉字文本存在着左右部件分离、手写字符间粘连,重叠及字的宽度不同 等情况,这样字切分比较困难。字切分的的方法有三类:第一类是基于统计方法 的切分,即根据字符的总体统计分布特征,确定字符之间的界限,判别时以字符 的平均字宽作辅助判别,统计分布特征的代表性和稳定性,对切分的正确性及收 敛性具有很重要的作用。第二类是基于汉字结构的切分,即从字与字之间以及汉 字本身的结构入手,综合分析、寻找切分的规则。可以先求出文字、符号和部件 的左右界限,再合并部件成为完整的汉字。第三类是基于识别的切分方法,即在 实际切分前,对各种可能存在的切分结果进行识别,选择合理的切分方式。 本文采用直方图投影法分割字符,本文研究的对象是相对规整的手写体汉 字,这些汉字一般是单行出现,且相对行间距较大,故本系统为了保证处理速度 降低系统消耗,采用了相对普遍的直方图投影法进行汉字切分,通过实验证明这 种方法对于无粘连无重叠的汉字在切分上有很好的效果,汉字切分效果如图2 7 所示。 天津师范大学硕士学位论文 园囡围 图2 7 字符切分处理 2 2 4 规范化 规范化是统一字符图像的尺寸,并且纠正字符的字形,对文字笔画的粗细归 一化。 规范化的算法主要有: 规范化的算法很多,大概分为: 规范化 线性规范化 基于点密度均衡的非线性规范化 基于笔画穿透数目均衡的非线性规范化 非线性规范化 基于笔画间隔均匀的非线性规范化 基于线密度均衡的非线性规范化 基于笔画间距和笔画宽度的非线性规范化 本文采用的是线性规范化。线性规范化是指通过伸缩变换来统一字符的图像 尺寸大小,并通过平移、旋转等来改变字符图像的位置。线性归一化可以表示为: ( ;) = ( :乏) ( 二) + ( 三 经过归一化处理后的效果如下图2 8 所示: 2 2 5 细化 图2 8 线性归一化 字符细化就是将二值化文字点阵逐层剥去轮廓边缘上的点,将字符重要的 像素点保留下来,变成笔画宽度只有一个象素的文字骨架图形。细化能消除字符 1 4 天津师范大学硕士学位论文 无关紧要的点,并保留原文字绝大部分重要的特征,有利于之后的特征抽取的处 理。细化后使会降低计算机处理的工作量,从而缩短识别的时间。但是细化会造 成新的畸变,会增加识别的困难,细化的好坏直接影响汉字识别系统识别的效率。 ( 1 ) 要保持原有笔画的连续性,不能造成笔画的断开。 ( 2 ) 要细化为单线,即笔画宽度只有一个象素。 ( 3 ) 细化后的骨架应尽量是原来笔画的中心线。 ( 4 ) 要保持原有的拓扑、几何特征,特别是一些明显的拐角不应被光滑掉。 细化有很多的方法。按细化后图形的连续性分,分为四邻连接算法,八邻连 接算法和混合连接算法。按细化处理过程分,可分为串行处理法、并行处理法和 串并行混合处理法。按处理方式分,有单方向细化法,双方向细化法和四方向细 化法。方向越多的细化处理方式,细化的速度愈快。 本文用的细化算法是细化效果较好的p a b i t 算法。算法的主要思想是对汉 字图像的轮廓点从外到里逐渐腐蚀笔画,使它成为宽度值为2 的像素集,接着将 宽度值为2 的双线条变为宽度值为1 的单线条。经过p 柚i t 算法细化后,字符 图像具有连通,保行,无扭曲变形较好的效果。 首先,去除非骨架轮廓像素点。 一目 用图2 9 所示的模板对汉字图像从左到右,从上到下进行扫描。其中1 代表 图像,0 代表背景。在像素点p o 的临域中的点,如果这个点不符合图2 9 中的 任何一模板,并且这个点满足n 踯= l ,则这个点p o 是背景点。如果像素点p o 的 临域点中少有一个模板与之匹配,这个点是汉字的骨架轮廓点或者是端点。 经过扫描后,背景点被去除,而字的轮廓点或端点被保留,被称为一次脱壳 处理。将以上步骤进行多次,最后得到准确的骨架轮廓点。然后,对准骨架的汉 1 s 天津师范大学硕士学位论文 字图像,再进行细化。如果p o 点的八邻域跟图2 1 0 所示的模板相匹配,则p o 点为背景像素点;如果不匹配,则像素点p o 点为字符。 l oll o o l10 l l ll 0o 图2 1 0 单像素化 本文对样本细化后效果如下图2 1 l 所示f 2 3 特征提取 参参 ( a ) 样本图像( b ) 细化后的图像 图2 1 l细化处理 oo ll l 特征提取是从原来的汉字图像中提取出用来区分不同类别的本质特征。好的 特征提取方法必须满足一下几个条件:特征之间要相互独立,并且特征向量的维 数越小越好,在减小类内距离的同时增大类间的距离。对于手写体汉字,根据抽 取特征的方法般分为两类: 一类是统计特征,统计特征是利用一些统计方法计算得到的,如对笔画密度、 笔画方向的估计等,统计特征分为局部特征跟全局特征。另一类是结构特征。结 构特征是对汉字的笔画进行分析得到的,能更好的区分局部细节,一般包括笔画 的位置、长短、方向等。 统计特征和结构特征有着各自的优缺点。统计特征对噪声不敏感,对汉字图 1 6 天津师范大学硕士学位论文 像上边细节上的细微差别不是很敏感,在识别相似汉字时容易发生错误,但是它 具有较好的稳定性。统计特征可以较为方便的设计复合多分类器的手写体汉字识 别系统。而结构特征对细节上的细微差别比较敏感,但是它对噪音也很敏感,因 此对于噪声很大的汉字图像,结构识别的识别率不高。 2 4 分类识别 分类识别是指分类器根据特征提取阶段提取的特征,用准备好的决策函数文 法规则判别对待识别的字符的类别做出判断。而获取决策函数或文法规则的这个 过程称之为学习或者是训练。学习或者训练的过程可以用手工的方法进行,还可 以用机器的方法进行,或者手工跟机器相结合的方法。分类器分为句法结构分类 器、模糊判决分类器、神经网络分类器和人工智能分类器、统计决策分类器等六 种分类器。 一般单一分类器很难获得好的分类结果,因此,在实际应用中常采用多分类 器结合的分类方法。而且很多时候,为了提高分类器的工作速度,分类的过程常 分为两级或多级分类器。先进行粗分类,然后再逐步进行细分类。 粗分类器决定出待识别汉字的所属粗类,再由细分类器最终定出这个汉字。 一般,对粗分类由如下要求: ( 1 ) 粗分类方法要和细分类方法相协调。 ( 2 ) 的分类稳定性要高和正确分类率。粗分类正确性,由噪声干扰情况下 能否正确分类决定,并且会会影响到后面的识别 ( 3 ) 粗分类类的特征要简单,使得分类字典小,节约存储空间。 ( 4 ) 粗分类的速度要快。这要求分类的算法要简单。 汉字是一种特殊的二维图像,它的特征包括结构特征和统计特征两类结构 特征。结构特征是利用字形的结构规律来提取的,所以它对汉字变形和变体的适 应性好,但因为为它对结构特征很敏感,导致了结构特征的不稳定性和抗干扰能 力低。而统计特征适宜识别有噪声的文字,它可以把局部噪声和微小畸变“掩没 在多维特征空间之中,但是它不能很好地利用汉字的结构信息,因此统计特征的 细分类能力较差。而所以,把统计特征和结构特征两者结合起来,是当前汉字识 别方法的一个主要发展方向。许多研究和实验也表明,特征的互补性对提高汉字 1 7 天津师范大学硕士学位论文 识别率有很重要的作用。 2 5 后处理 从目前的技术水平看,单字的正确识别率实际上不可能无限制地提高,所以 要求识别率达到1 0 0 是不切合实际的,因此几乎所有的识别系统都有后处理系 统。可以利用实际汉字文本的相关信息,对分类器识别结果进一步处理,提高整 个系统的识别率。经常采用的后处理方法有基于词典的汉字识别方法和基于概率 统计的汉字识别方法等。 其中一种方法是利用上下文语词相关匹配频率表,即用每个识别出的单字和 它的候补字集合,向前、向后匹配频率表,根据能否组词和组词的频度以及候补 字的优先程度综合判别,自动改正拒识、误识字。经统计得到6 7 6 3 个汉字的向 前和向后1 字和2 字( 1 ,2 ) 的相关矩阵,经简化得到每字l 、2 联字频度 表,用l 、2 联字频度表对识别出的汉字和它的候选字集合进行相关匹配,效 果比较好,能极大提高系统的识别率。 2 6 本章小结 本章首先是样本的采集,然后介绍了预处理过程:二值化,平滑,字符切分, 规范化,细化跟规范化。其次简要的介绍了一下特征提取方法。之后介绍了分类 识别方法。最后,对汉字识别后处理的概念和方法进行了简要说明 天津师范大学硕士学位论文 第三章基于模糊笔画方向特征提取 特征提取是汉字识别中的一个重要步骤。特征提取是把原始的汉字图像信息 转换成能反映汉字结构的突出特征,汉字的原始图像数据被大量压缩,以便于之 后的汉字识别。为了有利于汉字识别速度的提高,提取的特征还必须是较有代表 性的特征,并且要求提取的特征的冗余量小,具有不变的位移、比例、和旋转。 如果提取的特征不恰当,汉字识别的结果就可能不准确,甚至可能导致误识 等现象。选择有代表性的稳定的特征是一个汉字识别系统的关键。 3 1 特征提取的方法 传统的汉字识别过程大致可以分为两大步骤:特征提取和分类识别。在模式 识别中,我们所讨论的模式的特征实际是对模式的一组描述数据,识别器利用这 一组描述数据对模式进行分类。不同类的对象具有较大差异的特征值,同类对象 在一定的条件下具有相同或相近的特征值。 特征提取的作用有一下几个方面: ( 1 ) 将样本汉字图像转换为分类器容易处理的形式 从原始数据中提取的特征所包含的信息必须能被分类器利用,例如对于单层 感知机分类器,通常要求输入的是实向量,且要线性可分。因此特征提取的一个 很重要的任务是将特征信息表示为易被识别器利用的形式,不存在万能的特征提 取方法。 ( 2 ) 去除待识别信息的数据冗余信息,减少运算量 模式识别是从待识别对象的得到的各种形式原始的数据,如音频、图像、振 动信号等,光学字符识别的原始数据是字符的图像。这些数据的量往往都比较大, 可能包含各种噪声和冗余信息、,我们必须对这些数据进行精简,只提取其中与 识别最相关的信息、,以降低计算量。 ( 3 ) 提高分类的稳定性 将特征提取过程看作一个非线性变换,变换后得到的特征向量应该满足这样 的要求:同时减少同类样本的差异,增强不同类样本问的差异。 特征提取的方法: 1 9 天津师范大学硕士学位论文 ( 1 ) 结构特征 结构特征分为基于轮廓( o u t l i n e ) 的特征和基于框架( s k e l e t o n ) 的特征。基于轮 廓( o u t l i n e ) 的特征是通过对外围跟踪得到,反映了手写汉字的局部信息;基于框 架( s k e l e t o n ) 的特征反映了字符的全局形状信息,提供了整体字符的大致轮廓。因 此,这2 种特征有较好的互补特性,基于这2 种原始特征合成的新特征向量将具 有更强的区分能力。 结构特征可以消除手写汉字中笔画之间的位置变化、笔画的粗细变化曼 笔画的长短变化等问题,从而提高了识别器的分辨能力。然而结构特征方法大多 以汉字的笔画或笔段( 没有拐折的一段汉字笔画) 之间的位置关系来描述汉字特 征,因此,对汉字笔画的稳定性要求比较高。 对于规范书写的汉字来说,笔画的稳定性基本可以得到保证,然而在连笔 书写汉字和草书书写汉字时,这种稳定性很难得到保证,笔画的连接、丢失和冗 余的情况大量存在,使现有的结构识别方法无法很好地识别连笔书写汉字。 目前的结构方法存在2 个不足:已有的笔画提取方法不是很可靠,尤其是 对质量不太好的图像;结构方法不能形成严格的公式化,而是需要大量的启发知 识。 目前的汉字识别系统中用得最多的是方向元素特征( d i r e c t i o n a le l e i i l e n t f 宅a 眦) :先提取轮廓特征,再确定像素的方位,最后建立起方向元素特征。另 外,基于g a b o r 过滤器的特征和梯度特征也被广泛应用。 ( 2 ) 统计特征 统计特征分为全局统计特征和局部统计特征。 全局统计特征是将整个汉字点阵作为研究的对象,从整体上提取汉字的特

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论