(控制理论与控制工程专业论文)基于特征融合与神经网络的手写体数字识别技术研究.pdf_第1页
(控制理论与控制工程专业论文)基于特征融合与神经网络的手写体数字识别技术研究.pdf_第2页
(控制理论与控制工程专业论文)基于特征融合与神经网络的手写体数字识别技术研究.pdf_第3页
(控制理论与控制工程专业论文)基于特征融合与神经网络的手写体数字识别技术研究.pdf_第4页
(控制理论与控制工程专业论文)基于特征融合与神经网络的手写体数字识别技术研究.pdf_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

武汉科技大学硕士学位论文第1 页 摘要 手写体数字识别是利用计算机自动辨认手写体阿拉伯数字的一种技术,是光学字符识 别技术的一个分支。手写体数字识别在邮政编码、财务报表、银行票据、各种凭证以及调 查表格的识别等等方面有着重要应用,由于数字识别经常涉及财会、金融领域,其严格性 更是不言而喻的,所以对识别系统的可靠性和识别率要求很高,构成了手写体数字识别面 临的主要困难,大批量数据处理对系统速度又有相当高的要求。 手写体数字识别又分为联机识别和脱机识别。其中,最为困难的就是脱机手写字符的 识别。主要是因为脱机手写体识别过程无法获得字符书写时的一些动态信息,因此脱机手 写体数字识别更具挑战性。 本论文第一章介绍了手写体数字识别的应用前景、研究现状以及研究方法,介绍了模 式识别的五大类方法,通过分析指出手写体数字识别的难点,以及广阔的应用前景;第二 章介绍了手写体数字识别的预处理,包括数字图像的平滑滤波、二值化、细化、尺寸的归 一化:第三章介绍了本系统中手写体数字统计特征和结构特征的选择和提取;第四章介绍 了b p 神经网络的原理和算法,指出神经网络用于手写体数字识别的内在机理和独特优势。 针对传统手写体数字识别方法的复杂性和局限性,本文采用了一种基于神经网络和特 征融合技术的手写体数字识别方法,该方法提取字符图像互补性强的三个不同特征:粗网 格特征、交截特征、骨架结构特征,并将三个特征信号构成的特征向量输入三层b p 神经 网络进行融合分类,使用训练好的b p 网络进行识别。第五章用m a t l a b 软件进行仿真,实 验结果表明:该方法与传统方法相比,经过特征融合后,仅仅使用较少的特征值,就具有 较好的可靠性和较高的识别率,识别率达到9 6 5 。 关键词:手写体数字识别:b p 神经网络;特征融合 第1 i 页武汉科技大学硕士学位论文 a b s t r a c t h a n d w r i t i n gn u m e r a lr e c o g n i t i o n ( h n r ) i sat e c h n o l o g yw h i c hu s e st h ed i g i t a lc o m p u t e r s t or e c o g n i z et h ea r a b i co fo p t i c a lc h a r a c t e ra u t o m a t i c a l l y i t sab r a n c ho fo c r ( o p t i c a l c h a r a c t e rr e c o g n i t i o n ) h n rc a nb ea p p h e di nav e r yv a r i o u sf i e l d s ,s u c ha s ,i np o s t c o d e , f i n a n c i a ls t a t e m e n t s ,b a n kc h e c k ,v a r i o u sd o c u m e n t s ,c e n s u si n f o r m a t i o ne t c a si to f t e ni n v o l v e i na c c o u n t i n ga n df i n a n c i a lf i e l d s ,s oi tr e q u e s tf o rcw h i c hi st h em a j o rd i f f i c u l t yw ea r ef a c i n g a n dt h es y s t e md e m a n d sf o r 1 i g hs p e e dt op r o c e s st h em a s sd a t a h a n d w r i t i n gn u m e r a lr e c o g n i t i o nc o n t a i n st w op a r t s ,o n ei so f f i i n ea n dt h eo t h e ri so n l i n e , a n dt h eo f f i i n eh a n d w r i t t e nn u m e r a lr e c o g n i t i o ni st h em o s td i f f i c u l to n eb e c a u s ei td o e s n th a v e a n yr e a l - t i m ei n f o r m a t i o n t h e r e f o r eo f f i i n eh a n d w r i t t e nn u m e r a lr e c o g n i t i o n i sm u c hm o r e c h a l l e n g i n g i nt h i s p a p e r , t h ef i r s tc h a p t e rd e s c r i b e st h ep r e s e n tr e s e a r c hs t a t u s ,r e s e a r c hm e t h o d s , p r o s p e c t sa n dt h e e v a l u a t i o no f t h eh a n d w r i t t e nn u m e r a lr e c o g n i t i o n f i v em a i nc a t e g o r i e so f t h e p a t t e r nr e c o g n i t i o na r ei n t r o d u c e d b ya n a l y z i n gt h er e q u i r e m e n t so fh i g h - d e p e n d a b i l i t ya n d h i g h - a c c u r a c y , w es h o wt h ed i f f i c u l t i e sa n dt h eb r o a da p p l i c a t i o np r o s p e c t t h es e c o n dc h a p t e r d e s c r i b e st h ep r e t r e a t m e n tt e c h n o l o g yo ft h eh a n d w r i t t e nn u m e r a lr e c o g n i t i o n i nt h ed i g i t a l i m a g es m o o t h i n g ,m e d i a nf i l t e r i n gp r i n c i p l ei si n t r o d u c e d t h et h i r dc h a p t e rd e s c r i b e st h e s t a t i s t i cc h a r a c t e ro r i e n t e dw a y sa n ds t r u c t u r ec h a r a c t e ro r i e n t e dw a y so ft h eh n r t h ef o u r t h c h a p t e rp r e s e n t sam u l t i l a y e rf e e d f o n a r db a c k - p r o p a g a t i o nn e t w o r kl e a r n i n ga l g o r i t h m ( b p a l g o r i t h m ) ,t h ei n h e r e n ta d v a n t a g e sa n du n i q u em e c h a n i s m b e c a u s eo ft h ec o m p l e x i t ya n dl i m i t a t i o no ft r a d i t i o n a ld i g i t a ld i s t i n g u i s hm e t h o d ,s c r i p t d i g i t a ld i s t i n g u i s hs y s t e mb a s e do nf e a t u r ef u s i o na n d n e u r a ln e t w o r ki sp r o p o s e di nt h i sp a p e r s o m ed i f f e r e n tc o m p e n s a t e df e a t u r e sa r ee x t r a c t e df r o mt h es c r i p td i g i t a li m a g e t h e r ea r ec o a r s e g r i df e a t u r e i n t e r s e c t i o nf e a t u r ea n ds k e l e t o ns t r u c t u r ef e a t u r e am u l t i p l eb pn e u r a ln e t w o r ki s a p p l i e dt oc l a s s i f yt h ep a t t e mw i t ht h ef u s i o nf e a t u r e s f i n a l l y , r e c o g n i z en u m e r a lp a t t e mu s i n g t h eb pn e t w o r k w h i c hi sw e l lt r a i n e d t h er e s u l t ss h o wt h a tc o m p a r e dw i t ht h et r a d i t i o n a l m e t h o d ,t h en e w m e t h o dc a ne f f e c t i v e l yf u s i o nm u l t i p l ef e a t u r e sa n dh a v eah i g hr e c o g n i t i o nr a t e t h ef i f t hc h a p t e re x h i b i t sm a t l a bs o f t w a r et os i m u l a t et h es y s t e m t h ee x p e r i m e n t a lr e s u l t ss h o w t h a tc o m p a r e dw i t ht h et r a d i t i o n a lm e t h o d ,t h en e wo n ec a ns i m p l yu s i n gl e s sf e a t u r e sa n dc a n h a sb e t t e rr e l i a b i l i t ya n dh i g h e rr e c o g n i t i o nr a t e a n dt h er e c o g n i t i o nr a t ec a nr e a c ht o9 6 5 k e y w o r d s :h a n d w r i t t e nd i g i t a lr e c o g n i t i o n ;b p n e u r a ln e t w o r k s ;f e a t u r ef u s i o n 武汉科技大学硕士学位论文第1 页 第一章绪论 1 1 手写体数字识别概述 手写数字识别作为模式识别领域的一个重要问题,也有着重要的理论价值:( 1 ) 阿拉 伯数字是唯一的被世界各国通用的符号,在这一领域的研究基本上与文化背景无关,大家 可以互相探讨,比较各种研究方法;( 2 ) 数字识别的类别数较小,只有1 0 个类别,有助于 做深入分析及验证一些新的理论。最典型的例子就是人工神经网络( a r t i f i c i a ln c u r a n e t w o r k ,a n n ) ,相当部分的a n n 模型和算法都以手写数字识别作为具体的实验平台, 验证理论的有效性,评价各种方法的优缺点;( 3 ) 到目前为止机器的识别本领还无法与人 的认知能力相比,手写数字识别仍是一个有难度的开放问题:( 4 ) 手写数字识别的方法很 容易推广到其它一些相关问题,例如英文字母、汉语拼音等文字的识别。 手写体数字识别是利用计算机自动辨认手写体阿拉伯数字的一种技术,它属于光学字 符识别( o p t i c a lc h a r a c t e rr e c o g n i t i o n ,o c r ) 的范畴。手写体数字识别又分为联机识别和脱 机识别。其中,最为困难的就是脱机手写字符的识别。主要是因为脱机手写体识别过程无 法获得字符书写时的一些动态信息,因此脱机手写体数字识别更具挑战性。 1 2 手写体数字识别研究现状以及研究方法 由于人识字的机理及过程并未真正解开,传统方法只能停留在一般的模式识别阶段, 并没有很好地利用知识进行启发诱导,也没能模拟人脑从粗到细,从整体到局部的思维过 程。随着数学研究的深入与现代信号处理方法的发展,人工神经网络、小波分析己渗透到 手写字符识别领域,并为其发展注入了新的活力。人们模拟人脑识字的过程,即探索构造 人工神经网络( a n n ) 的模型进行字符识别。大脑是巨大数量神经元连续、异步、并行计算 系统,我们可以用层状网代替任意的复杂网,用离散系统逼近连续系统,用高速串行运算 模拟低速异步运算,建立一个脑功能的局部模型,为手写字符识别研究提供新思路。人工 神经网络因能较好地模拟人脑的思维活动过程,具有较强的分类性能,国内外的一些尝试 均表明了其在手写字符识别中的优良性能显示了其在手写字符识别中潜力。 手写数字识别在学科上属于模式识别和人工智能的范畴。在过去的四十年中,人们想 出了很多办法获取手写字符的关键特征,提出了许多识别方法和识别技巧。这些手段分为 两大类:全局分析和结构分析。对前者,我们可使用模板匹配、像素密度、矩、特征点、 数学变换等技术。这类的特征常常和统计分类方法一起使用。对于后者,多半需要从字符 的轮廓或骨架上提取字符形状的基本特征,包括:圈、端点、节点、弧、突起、凹陷、笔 画等等。这些结构特征往往与句法分类使用。 多年的研究实践表明,对于完全没有限制的手写数字,几乎可以肯定:没有一种简单 第2 页武汉科技大学硕士学位论文 的方案能达到很高的识别率和识别精度。因此,最近这方面的努力向着更为成熟、复杂、 综合的方向发展。研究工作者努力把新的知识运用到预处理、特征提取、分类当中。近年 来,人工智能中专家系统方法、人工神经网络方法已应用于手写数字识别。在手写数字识 别的研究中,神经网络技术和多种方法的综合是值得重视的方向。 针对模式特征的不同选择及其判别决策方法的不同,可将模式识别方法大致分为五大 类。这五种识别方法均可实现手写数字识别,由于它们的特点不同,必须根据条件进行选 择“。 ( 1 ) 统计模式法 统计模式法是以同类模式具有相同属性为基础的识别方法。用来描述事物属性的参量 叫特征,它可以通过对模式的多个样本的测量值进行统计分析后按一定准则来提取。例如: 在手写数字识别系统中,我们可以把每个数字的图形分为若于小方块,然后统计每- - + 方 块中的黑像素,构成一个多维特征矢量,作为该数字的特征。必须注意的是:在选择特征 时,用于代表各类模式的特征应该把同类模式的各个样本聚集在一起,而使不同类模式的 样本尽量分开,以保证识别系统能具有足够高的识别率。 ( 2 ) 句法结构方法 句法结构方法是以同类模式具有相似结构为基础的识别方法。所谓结构是指组成一个 模式的基本单元( 简称基元) 之间的关系。例如,拼音文字的基元是字母,若干个字母按一 定规律组成一个单字。在识别某一个单字时,如果能判别组成这个字的各个字母以及它们 的( 结构) 关系,就可以识别这个字。基于这种原理,拼音文字的识别系统中的“字典”应 包括字母,以及由字母组成单字的规律。在对某一个单字进行识别时,则应先提取构成这 个单字的字母并分析它的结构,然后将它跟字典中所有已知单字的基元及其结构关系逐个 加以比较,就可以确定待识单字和哪一个已知单字属于同类别。这种识别方法跟英语句子 的语法分析相似。因而,有时也称之为“句法识别法”。一般分为训练过程和识别过程: 训练过程就是用已知结构信息的模式作为训练样本,先识别出基元和它们之间的连接关 系,并用数字符号表示它门,然后用构造句子的方法来描述生成这些场景的过程,并由此 推断出生成该场景的一种文法规则;识别过程就是对未知结构的模式进行基元识别及其相 互关系分析,然后用训练过程中获得的文法对其作句法分析,如果它能被已知结构信息的 文法分析出来,则该模式具有与该文法相同的结构,否则就可判定不是这种结构。此方法 识别方便,可从简单的基元开始,由简至繁,能反映模式的结构特征,能描述模式的性质, 对图像畸变的抗干扰能力较强,但当存在干扰及噪声时,抽取基元困难,且易失误。 ( 3 ) 逻辑特征法 逻辑特征法是其特征的选择对一类模式识别问题来说是独一无二的,即在一类问题中 只有1 个模式具有某1 种( 或某l 组合的) 逻辑特征,此方法建立了关于知识表示及组织,目 标搜索及匹配的完整体系;对需通过众多规则的推理达到识别目标的问题,有很好的效果, 但当样品有缺损,背景不清晰,规则不明确甚至有歧义时,效果不好。 ( 4 ) 模糊模式方法 武汉科技大学硕士学位论文第3 页 模糊模式方法是在模式识别过程中引入了模糊集的概念,由于隶属度函数作为样品与 模板相似程度的量度,故能反映整体的、主要的特性,模糊模式有相当程度的抗干扰与畸 变,从而允许样品有相当程度的干扰与畸变,但准确合理的隶属度函数往往难以建立。目 前有学者在研究,并将其引入神经网络方法形成模糊神经网络识别系统。 ( 5 ) 神经网络方法 神经网络方法是使用人工神经网络方法实现模式识别。可用于处理一些环境信息十分 复杂,背景知识不清楚,推理规则不明确的问题,允许样品有较大的缺损、畸变。神经网 络方法的缺点是其模型在不断丰富完善中,目前能识别的模式类还不够多,神经网络方法 允许样品有较大的缺损和畸变,其运行速度快,自适应性能好,具有较高的分辨率。 上述几种识别方法各有特点。结构法比较直观,能较好反映事物的结构特性:问题是 基元的提取很不容易,各基元的关系也比较复杂,抗干扰性能也较差:统计法利用计算机 来抽取特征,比较方便,抗干扰性能较好,缺点是没有充分利用模式的结构待性。近多年 来把这两种识别方法结合起来,派生出各种行之有效的结构法与统计法相结合的模式识别 算法,取得了很好的效果。 i 3 手写体数字识别应用前景 手写体数字识别技术的应用前景非常广阔,它主要被应用在各种数字信息的自动化采 集中,如对邮政编码、财务报表、银行票据、各种凭证以及调查表格的识别等等。在大规 模的数据统计,如行业年鉴、人口普查等中,需要输入大量的数据,以前完全要手工输入, 则需要耗费大量的人力和物力。近年来在这类工作中采用o c r 技术已成为一种趋势。目前 我们国家进行的“五险一金”工程( 养老保险、医疗保险、失业保险、工伤保险、生育保 险和住房公积金) 中就有很多地方需要大量的数据采集工作。如果能够通过手写数字识别 技术实现信息的自动录入,无疑会加快这一事业的发展的速度。所以成熟的手写体数字识 别技术将会大大地加快我国信息化工程的进展。因此,可以说手写体数字识别技术是非常 有研究价值的。 i 4 手写体数字识别难点 一般情况下,当涉及到数字识别时,人们往往要求识别器有很高的识别可靠性,特别 是有关金额的数字识别时,如支票中填写的金额部分,更是如此。因此针对这类问题的处 理系统设计的关键环节之一就是设计出高可靠性和高识别率的手写体数字识别方法,此项 工作的难点主要在于以下几方面: ( 1 ) 阿拉伯数字的字形信息量很小,不同数字写法字形相差又不大,使得准确区分 某些数字相当困难。 ( 2 ) 数字虽然只有十种,而且笔划简单,但书写上带有明显的地域特性,同一数字 写法千差万别,不同地域的人写法也不相同,所以很难做到兼顾各种写法的极高识别率的 第4 页武汉科技大学硕士学位论文 通用性数字识别系统。 ( 3 ) 在实际应用中,对数字的单字识别正确率的要求要比文字要苛刻得多。这是因 为,文字有上下文关系,但数字没有上下文关系,每个单字的识别都事关重要,而且数字 识别经常涉及的财会、金融领域,其严格性更是不言而喻的。因此,用户的要求不是单纯 的高正确率,更重要的是极低的、千分之一甚至万分之一以下的误识率。 ( 4 ) 大批量数据处理对系统速度又有相当高的要求。 ( 5 ) 由于脱机手写数字的输入只是简单的一副图像,它不像联机输入那样比较容易 的从物理上获得字符笔划的顺序信息,因此脱机手写体数字识别是一个更具挑战性的问 题。 1 5 手写体数字识别系统性能评价方法 作为一个识别系统,我们最终要用某些参数来评价其性能的高低,手写数字识别也不 例外。评价的指标除了借用一般文字识别的通常做法外,还要根据数字识别的特点进行修 改和补充。对一个手写数字识别系统,可以用三方面的指标表征系统的性能: ( 1 ) 正确识别率a = 正确识别样本全部样本* 1 0 0 ; ( 2 ) 替代率( 误识率) s = 误识样本全部样本数$ 1 0 0 ; ( 3 ) 拒识率r = 拒识样本数全部样本数* 1 0 0 。 三者的关系是:a + s + r = 1 0 0 。另外,在数字识的应用中,人们往往很关心的一个 指标是“识别精度”,即:在所有识别的字符中,除去拒识字符,正确识别的比例有多大, 因此可以定义:识别精度p = a ( a + s ) * 1 0 0 。 一个理想的系统应是r ,s g 量小,而p ,a 尽可能大。而在一个实际系统中,s ,r 是相 互制约的,拒识率r 的提高总伴随着误识率s 的下降,同时正确识别率a 和识别精度p 也就提 高。因此,在评价手写数字识别系统时,我们必须弄清一个指标在怎样的样本集合下获得 的。 以上多种因素使得不同系统的性能很难做绝对比较,根据参考文献和在科研实践中, 可以认为目前手写数字识别系统的较高水平是:对自由书写的数字,在不拒识时达到9 6 以上的识别率;在拒识率少于1 5 的样本时,误识率能降n o 1 以下。 1 6 本论文主要研究内容及各章节安排 本文着重研究了手写体数字识别的特征,针对传统手写体数字识别方法的复杂性和局 限性,采用了一种基于神经网络和特征融合技术的手写体数字识别方法,将特征信号构成 的特征向量输入三层b p s g o 经网络进行融合分类,使用训练好的b p 网络进行识别。具体的内 容即各章节安排如下: 第一章简要介绍手写体数字识别的概念、目的、意义、应用研究和发展现状。 武汉科技大学硕士学位论文第5 页 第二章介绍手写体数字识别的预处理技术,包括平滑滤波、二值化、细化等内容。 第三章介绍本系统中手写体数字统计特征和结构特征的选择和提取。 第四章主要介绍b p 神经网络的原理和算法。 第五章展示用m a t l a b 软件进行的仿真实验结果,并对试验结果进行分析。 第六章总结本文所做的主要工作以及取得的成果,指出本文的不足并对将来的研究工 作进行展望。 第6 页武汉科技大学硕士学位论文 第二章手写体数字识别预处理 手写体数字、字符的识别是模式识别的重要研究内容之一,在文件自动处理、邮件自 动分捡、银行业务、通讯等方面都有较广泛的应用需求。由于离线手写字体变化较大,而 识别率要求高,因此手写字体离线识别难度较大。本文通过提取多个具有互补性的手写体 数字图像特征,利用b p 神经网络,建立从特征向量到识别目标的非线性映射关系,并进行 特征的融合分类,以实现对离线手写体数字的识别。 学习过程i 原图像卜_ 一预处理l 一特征提取l 一分类器l 鱼墨! i ! ! , i 一i 一i 一i 一 一一一一一7 _ = = _ = 二l 一一f - = ;一一芦二= 二彳一一1 卜一一一一一一一一 删艘i 罐努h 预处理h 特征提取j j 预处理 图2 1 数字手写体识别的流程图 对数字手写体字符进行离线识别的流程图如图2 1 n 示。本文首先对数字字符图像进 行二值化、细化等预处理;其次,对其进行特征提取,生成特征向量。最后,利用b p 神经 网络对特征向量进行融合分类。通过对大量数字样本的训练,确定识别分类器,并用训练 好的分类器识别待识数字样本。将实验仿真中发现的一些问题进行归类,分析其产生的原 因并寻求出解决的方案,通过实验仿真,证明方案的可行性。与传统方法相比,本系统具 有较好的可靠性和较高的正识率,具有较好的应用推广能力。 通常,待识别的手写体数字图像中含有各种各样的噪声和畸变,且规格不一,需要进 行预处理,即去掉这些噪声和畸变,并将图像归一化为标准形式。预处理的过程如图2 2 所示。 2 1 手写体数字图像平滑滤波 图2 2 数字图像的预处理流程图 2 1 1 中值滤波原理 、 中值滤波是一种非线性信号处理方法,它是1 9 7 1 年d w t u r k y 首先提出,并应用到一 维信号处理技术( 时间序列分析) 中,后来在二维图像信号处理技术中被引用。1 。中值滤 波在一定的条件喜爱可以克服线性滤波方法如最小均方滤波、均值滤波等造成图像细节模 糊缺点,而且对去除脉冲干扰和图像噪声最为有效,它不需要图像的统计信息,但对包含 武汉科技大学硕士学位论文第7 页 细节较多的图像,如含点、线等细节多的图像不宜使用中值滤波。 中值滤波的原理是把序列( s e q u e n c e ) 或数字图像( d i g i t a li m a g e ) 中一点的值,用该 点邻域中各点值的中值来替代啪,对序列而言中值的定义是这样的: 若一屯x 。为一组序列,先把其按大小排列为 x 订x ,2 x ,3 x 加( 2 1 ) 则该序列的中值y 为 j ,= m e d x l x 2 矗 = n 为奇数 ( 2 2 ) n 为偶数 式( 2 2 ) 中,若把一个点的特定长度或形状的邻域作为窗口,在一维情况下,中值滤波器 是一个含有奇数个像素的滑动窗口。窗口正中间那个像素的值用窗口各像素值的中值来代 替,设输入序列为扛,f i ) ,i 为自然数集合或子集,窗口长度为n ,且令片为自然数集 合或子集,窗口长度为n r 令u :竺,则滤波器的输出 z y f = m e d x ,) = m e d x 。x i 墨+ 。( 2 3 ) 式( 2 3 ) 表明f 点的中值仅与窗口前后各点的中值有关,y ,为序列t 的中值。 若把式( 2 3 ) 中,中值滤波的概念推广到二维,并利用某种形式的二维窗口,则可对 二维中值滤波做如下定义: 设扛,( f ,_ ,) 1 2 j 表示数字图像各点的灰度值,滤波窗口为a ,儿为窗口a 在勤点的中 值,则 趵= 坞d k = m e d x i m ( ,) ,p ,j ) 以f ,1 2 ( 2 4 ) 式( 2 4 ) 为窗口是爿的x 。点的中值表达式,二维中值滤波的窗口可以取方形,也可以取 近似圆形或十字形。 2 1 2 中值滤波过程 针对图像的中值滤波的过程为,首先将模板内( 窗口) 所涵盖的像素按灰度值由小到大 排列,再取序列中间点的值作为中值,并以此值作为滤波器的输出值。在有很强的胡椒粉式 ( 或脉冲) 干扰的情况下,因为这些灰度值的干扰值与其邻近像素的灰度值有很大的差异。 因此,经排序后取中值的结果是强迫将此干扰点变成与其邻近的某些像素的灰度值一样, 从而达到去除干扰的效果。应当注意的是中值滤波的过程是一个非线性的操作过程,它即 能保持图像的轮廓,又能消除强干扰脉冲噪声。中值滤波对于消除高斯白噪声效果不是特 盟: x+ l b x 。 一2 第8 页武汉科技大学硕士学位论文 别理想,但对消除随机干扰噪声效果却非常好。 的滤波电路。 本文采用中值滤波法对图像进行平滑滤波。 存图像的边缘。 2 2 数字图像二值化 因此,中值滤波在图像处理中是比较理想 这样,既消除了图像中的噪声,又可以保 把字符灰度图像处理成二值( 0 ,1 ) 图像的过程,称为对字符图像的二值化 ( b i n a f i z a t i o n ) 。对灰度图像二值化能显著地减小数据存储的容量,降低后续处理的复杂度。 设扫描、a d 转换后的字符图像点阵为: c = 扩( f ,川f = 1 , 2 ,p ,j = 1 , 2 ,g ( 2 5 ) 式中f ( i ,j ) 是像素( f ,_ ,) 的灰度值。有黑笔画的部分,f ( i ,j ) 小;而白背景部分,f ( i ,j ) 则 大。最简单的二值化通过设定固定灰度阈值t 完成,即当f ( i ,- ,) 值比预定阈值t 大,看成 背景,以“0 ”标志;否则看成文字笔画,以“1 ”标志。 假设: 她舻忙猢三; 川2 m j 乩2 ,g 眩s , b 2 ( g ( f ,埘即为字符二值化后的图像点阵。 对字符图像二值化,要求二值化后的图像能忠实地再现原字符。基本要求为: ( 1 ) 笔画中不出现空白点; ( 2 ) 二值化的笔画基本保持原来文字的结构特征。 图像阈值分割是根据一定的阈值将目标从视场背景分离出来的过程。在实际系统中, 图像目标和背景之间并不具备截然不同的灰度,随着可见光照射角度的不同,目标的亮度 和背景的亮度均要变化。因此阀值的正确选择是很重要的,直接影响着分割的精度及图像 描述分析的正确性。通常采用自适应阈值选取。人们通常将图像分割的方法归纳为基于灰 度直方图的闽值化方法和基于区域增长法两大类。其中阈值化方法因其简单、计算量小、 性能较稳定而成为图像分割中应用最广泛的分割技术。近年来,随着各学科新理论和方法 的提出,人们也提出了许多结合特定理论、方法和工具的分割技术,例如基于数学形态学 的分割技术、借助统计模式识别方法的分割技术、利用神经网络的分割技术等。二值化的 关键在于阈值t 的选择。下面就介绍几种常用的阈值选取方法“1 。 2 2 1 整体阈值二值化 仅由像素点( f ,) 的灰度值f ( i ) 确定闽值的方法称为整体闽值选择法。阅值t 表示为: 武汉科技大学硕士学位论文第9 页 t = r l f o ,州。 常用的几种整体阈值选择方法为: ( 1 ) 人工设定整体阈值 根据实验或人的先验经验,预先给定一个固定阈值t 。当f ( i ,j ) t ,( f ,j ) 为文字笔 画上的点,否则为背景上的点。这是一种最简单的速度最快的二值化方法。当文字清晰, 轮廓明显,干扰很小时,它是一种行之有效的二值化方法。人工设定整体阈值的缺点是: 不能根据每个文字确定它最佳的阈值。确定阈值t 后,光源等外界条件改变时,不能 使阈值随之改变。 ( 2 ) 由灰度级直方图确定整体阈值 这是一种根据图像和背景的灰度值自动确定整体阈值法。灰度级直方图给出了一幅图 像灰度值的概貌描述。设规范化灰度值g 的范围为0 茎g s l ,g = 0 为最黑,g = 1 为最白。m 为灰度级数目,p ( g 。) 为第k 级灰度的概率。是在图像中出现的灰度级为k 的次数,n 为图 像中像素的总数。则有 p ( g t ) = ! l0 g t l ,k = 1 , 2 ,m ( 2 7 ) 刀 通常称以p ( g 。) 为纵坐标,以既横坐标的图像为灰度级直方图。字符图像的直方图一 般有两个峰值,一个峰值对应字符笔画部分,另一个峰值对应字符的背景部分。阂值应取 在两个峰值的波谷处,波谷越深陡,二值化效果越好。 2 2 2 局部阈值二值化 由像素( f ,_ ,) 的灰度值f ( i ,- ,) 和像素周围点局部灰度特性确定阈值的方法称为局部阈 值选择法。阈值t 表示为:t = 丁扩( f ,) ,o ,) 】。对于书写质量差,干扰较严重的字符,采 用全局法对它进行二值化,效果不太理想时,局部阈值选择法有可能得到较为满意的二值 化结果。不同的局部闺值法源于u ( i ,j ) 的不同选择。 2 2 3 动态阈值二值化 当阂值选取不仅取决于该像素阙值以及其周围各像素的灰度值,而且还和该像素坐标 位置有关时,称之为动态阈值选择法。阈值t 表示为:t = r 【厂( f ) ,n ( i ,_ ,) ,( f ,) 】。这种方法 可以处理低质量甚至单峰直方图图像。对文字图像而言,其笔画和背景的区分是比较明显 的。而且,动态阈值法计算时间长,因此,在文字识别中很少采用。 需要指出的是,局部阂值和动态阈值虽然能处理质量较差的文字,避免整体阈值法带 第l o 页武汉科技大学硕士学位论文 来的不应有的失真。但是,一则时间开销大,二则考虑到实际的局部闽值和动态阈值选择 算法往往在图像的某些部位上产生整体选择不会产生失真,所以,在文字识别中,一般采 用整体阈值法。 2 2 4 利用空间信息进行阙值选取 有了灰度信息加上空间信息,有可能使分割的效果更可靠、更好。分割是一个分类的 过程,原来只有灰度信息一个特征,现在再抽取某个含空间信息的特征,则成为有两个特 征的分类问题,可以用二维特征空间中的聚类分析算法来解决问题。这里需要用到二维直 方图,它有两个自变量:灰度值g 和某个空间信息参量( 例如像素点的梯度l v g i ) 。其因变量 是像素个数。原来的一维直方图就是二维直方图在灰度轴g 方向上的投影。二维直方图上 ( f ,) 点的值表示灰度值为i ,l v 宫i = j 的像素个数。下面介绍三种具体做法。 ( 1 ) 灰度平均灰度法8 1 设图像由两个灰度变动平滑的区域组成,两个区域的灰度平均值分别为g 。,g :。每个 区域的内点灰度值很接近g 。或g :,但边界点的灰度值很可能介于g 。、g :之间,这些值通常 落在原始一维直方图的的谷点附近,使峰不明显,谷不凹。但是,如果看二维直方图,其 自变量为g 一主,即取每个像素的空间平均灰度作为另一个特征,则对于区域内点来说,g 和香差别小,它们集中在二维直方图中及点的附近,即在对角线上。而边界点的圣一般和g 值不同,边界点离对角线较远。如果只取在二维直方图中对角线附近的那些点向灰度轴g 作投影来重新构成一个新的一维直方图,则新直方图应该比原直方图更加峰谷分明。反之, 如果只取远离对角线上的点( 即边界上的点) ,这些点的灰度平均值也可以用来作为闽值以 分割图像。 ( 2 ) 灰度一梯度幅度法“7 4 1 本方法的原理和上述灰度平均灰度法类似,只不过在二维直方图中选用i v g f 作为第 二个轴。区域内点因为梯度幅度小,都位于横轴g 附近,而边界点在l v g i 较大的区里,故 由梯度值较小的点构成的直方图应比原直方图有更明显的峰谷,而梯度值大的点的平均灰 度值也是一个好的阈值。 ( 3 ) 检出合理边界的阈值取法”1 通常认为,合理的阈值应取在区域边界上灰度变化最剧烈的地方。因此,可以把某个 阈值t 所产生的边界两边灰度对比度的大小作为衡量的标准,找出能够检出最大平均边界 对比度的与之后来。 对某个阂值t ,先定义由边缘上的点对的集合e ( ,) ,它包含了图像中所有满足下列条 武汉科技大学硕士学位论文第1 1 页 件的空间相邻点对。条件为点对中的一个点,其灰度值小于或等于t ,而另一个点的灰度 值大于t ,即 e ( r ) = ( ( f ,- ,) ,( j | ,) ) 1 1 、( _ ,) 和( _ ,t ) 相9 2 、m i n g ( i ,- ,) ,g ( 七,o - t 0 ; t ( p ) = 1 ; ( 多p l + p 3 + p ,+ p 7s3 。 若条件成立,则目标像素p 被标记为可删除像素。在第二个子循环中,扫描整个图像, 将被标记为可删除的像素删除。该算法得到的骨架形态是不完全的8 一连接,可以看作是具 有可删除点的8 一连接图形。 , ( 5 ) p a v l i d i s 细化算法 p a v l i d i s 细化算法是一种典型的并行算法,通过与两个模板进行匹配层剥边界像素,所 得到的骨架形态是8 一连接的。p a v l i d i s 异步细化算法是通过并行和串行算法混合处理来实现 细化。采用比特运算进行特定模式的匹配,所得到的骨架形态是8 一连接的。 ( 6 ) z h a n g s u e n 细q 6 算法删 在本算法中,也是包括两个子迭代,在第一个子迭代中,一个前景像素点p 如果同时 满足下列条件则被删除: 2 n ( p ) 6 ; s ( p ) l ; p l p 3 p 7 = 0 ; p i p 5 p 7 = 0 。 在第二个子迭代中,一个前景像素如果同时满足下列条件则被删除: 2 ( p ) s 6 : s ( p ) 1 : 武汉科技大学硕士学位论文第1 7 页 p l - p 3 p j = 0 ; p 3 p j p 7 = 0 这两个迭代反复进行,直到没有前景像素点可以被删除为止。 ( 7 ) 其它细化算法 此外,较常用的算法还有r o 刚e l d8 - 连接细化,r o 础e l d4 - 连接细化,n a c c a c h e 的 s p t a 细化等。 上面介绍的是一些经典的细化算法,这些算法主要是通过对每个像素的八邻域分析和 处理来进一步得到图像的骨架。尽管这些细化算法得到了连通的骨架,但是它们却产生了 过度腐蚀以及在笔划交叉点处产生了变形和扭曲。几十年来,人们已提出了很多种细化算 法。很多细化算法是在这些经典细化算法上的演化与改进。 本文采用z h 卸g 快速并行细化算法,它属于并行算法,避免了串行算法受到扫描顺序 的影响,容易产生骨架非对称性的缺点,得到了比较严格的中心对称骨架,而且比较好地 抑制了交叉点的畸变,取得了比较好的细化效果,同时也具有很快的处理速度,从二值图 像里寻找可删除点的条件非常简单。 2 5 本章小结 本章介绍了手写体数字识别的预处理,包括数字图像的平滑滤波、二值化、细化、尺 寸的归一化,以及对应的各种算法。 第1 8 页武汉科技大学硕士学位论文 第三章手写体数字特征选择和提取 特征抽取的主要目的是从原始数据中抽取出用于区分不同类别的本质特征。按照统计 学的观点,好的特征抽取方法必须满足以下条件:特征之间相互独立,减小类内距离的同 时增大类间距离,特征向量的维数尽量小。但在实际应用中,很难达到以上的要求。 对于手写体数字,根据抽取特征的方法一般将其分为两类:统计特征( 局部特征和全 局特征) 和结构特征。统计特征是利用一些统计方法计算得到的,一般包括点密度的估计、 矩、特征区域等等。结构特征则是对字符的笔画进行分析得到的,能更好地区分局部细节, 一般包括圈、端点、交叉点、笔画、轮廓等等。不同性质的特征描述了事物的不同方面, 统计特征和结构特征有着各自的优缺点。结构特征对细节变化比较敏感,能较好地分辨出 结构上细微的差异。但是它对噪声也比较敏感,对噪声较大的图像,识别率不高。结构特 征一般使用句法类的分类器,对于任意书写的手写体数字,由于训练样本数量的限制,总 有一部分待识字符无法分类,因此拒识率较高,同时错误率较低。统计特征对噪声不敏感, 具有较好的稳定性,但对图像细节上的细微差异不敏感,在待识字符形状比较相似时易发 生错误。统计特征可使用的分类器较多。由上可知,统计特征和结构特征对于识别具有一 定的互补性。因此提取不同的特征对提高分类器的性能有很大的帮助。 手写体数字识别方法按使用特征的不同,分为两类:基于统计特征的方法”1 和基于 结构特征的方法。基于字符结构的特征的提取一般是在细化骨架的基础上实现的,而 基于统计信息的特征可以是在原字符二值化点阵图像中提取,可以在做了预处理后的字符 点阵图像中提取,也可以在细化骨架上提取。特征的提取是识别的前提,一般而言,提取 某种特征就对应了某种分类方法。某些特征用于粗分类,有些特征用于细分类,还有些特 征用于识别结果的验证。常用的字符特征有重心位置,中心位置,笔画的方向,端点,岐 点,交点,折点,特定背景点,每行或每列前景象素数目,笔画分布状况,笔画的粗细和 灰度,字符四周笔画分布密度等。 3 1 手写体特征集 实验中经常用到的特征集如下: ( 1 ) 压缩特征。抽取特征前,图像矩阵经过非线性的正规化处理成8 x 8 的图像矩阵。 则每个样本用一6 4 维的特征向量代表。 ( 2 ) k i r s c h 特征。图像的预处理过程同1 。得到每个样本用一6 4 维的特征向量代表。 ( 3 ) g a b o r 特征。采用8 8 采样点,4 个方向( 0 。,4 5 。,9 0 。,1 3 5 。) 。抽取特征前,图像被 细化成骨架。每个样本用一2 5 6 维的特征向量代表。 ( 4 ) l e g e n d r e 矩特征。其x ,y 各计算至 j 1 0 阶。抽取特征前,图像矩阵经过简单的归正 化处理,矩阵中表示数字笔画的值的个数归正为3 0 0 个。每个样本用一1 2 1 维的特征向量代 武汉科技大学硕士学位论文第1 9 页 表。 ( 5 ) p s e u d o - z e m i k e 矩特征。其被计算到8 阶。图像的预处理过程同( 4 ) 。每个样本用 一3 6 维的特征向量代表。 ( 6 ) z e m i k e 矩特征。其被计算到第9 阶。图像的预处理过程同( 4 ) 。每个样本用- - 3 0 维的特征向量代表。 ( 7 ) 质心层次特征。抽取特征前,图像被细化成骨架图像。每个样本用一1 5 0 维的特 征向量代表。 ( 8 ) 基于轮廓分段特征。首先将字符轮廓划分为特征片段:凸弧、凹弧、直线段、 端点、洞,再由这些特征片段得到特征基元,构成对字符结构的完整描述。 3 2 结构特征提取 结构特征又分为主干特征和边缘轮廓特征啪1 : 主干特征:主干特征是指描述

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论