




已阅读5页,还剩37页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 手写体数字识别是目前模式识别领域众多研究者关注的个热点,是信息录入的关 键步骤,广泛应用于公安、税务、交通、金融、教育等行业的实践活动中。目前识别的 方法是多种多样的,但识别的技术尚不能使识别率完全达到正确。为了能够将手写体数 字识别真正应用到实际工作中,本文除了在手写体识别算法的识别率提高上下功夫之 外,还设计了一个基于手写体数字识别的学生考号信息识别系统。 在对手写体数字识别技术做了充分了解、学习和比较后。本文选择了b p 神经网络 作为分类器的训练和识别算法。b p 神经网络实质上实现了一个从输入到输出的映射,理 论上它具有实现任何复杂的非线性映射的能力,适合于求解内部机制复杂的问题。 本文设计了一个学生试卷考号识别系统,系统使用扫描仪将学生试卷内容扫描到计 算机中以后,程序对手写体数字图像中学生考号进行二值化、去噪声等预处理,然后形 成神经网络分类模型的输入,并由神经网络进行识别,识别后的结果会显示在显示器上。 关键词:模式识别;手写体数字识别;b p 神经网络;图像处理 a b s t r a c t h a n d w r i t t e nn u m e r a lr e c o g n i t i o nb e l o n g st ot h ef i e l do fp a r e mr e c o g n i t i o n , w h i c hi sa h o tf i e l df o ral a r g en u m b e ro fr e s e a r c h e r sa n da l s oi sac r i t i c a ls t e pi ne n t r yo fi n f o r m a t i o n i t i sw i d e l yu s e di np u b l i cs e c u r i t y , t a x a t i o n , t r a n s p o r t a t i o n , f i n a n c e ,e d u c a t i o na n do t h e r i n d u s t r i e si nt h ep r a c t i c a la c t i v i t i e s a tp r e s e n t , i d e n t i f i c a t i o no fav a r i e t yo fw a y s ,b u tc a nn o t i d e n t i f yt h et e c h n o l o g yf u l l y t oa c h i e v eac o r r e c tr e c o g n i t i o nr a t e i no r d e rt oa p p l y h a n d w r i t t e nn u m e r a lr e c o g n i t i o nt or e a lp r a c t i c e ,w en o to n l ys t u d i e dt h eh a n d w r i t i n g r e c o g n i t i o na l g o r i t h m sb u ta l s od e s i g n e da h a n d w r i t t e nn u m e r a lr e c o g n i t i o ns y s t e ma p p l i e dt o as t u d e n tt e s ts y s t e m a f t e rd o i n gm o r el e a r n i n ga n dr e s e a r c h e so nh a n d w r i t t e nn u m e r a lr e c o g n i t i o n t e c h n o l o g y , w ec h o s et h eb pn e u r a ln e t w o r k 髂c l a s s i f i e rt r a i n i n ga n dr e c o g n i t i o na l g o r i t h m s i nf a c t ,b pn e u r a ln e t w o r ki m p l e m e n t sam a p p i n gf r o mi n p u tt oo u t p u t i nt h e o r y , i ti sc a p a b l e o ft h er e a l i z a t i o no fa n yc o m p l e xn o n - l i n e a rm a p p i n g t h u s ,i ti ss u i t a b l ef o rs o l v i n gc o m p l e x p r o b l e m s i nt h i sp a p e r , w eh a v ed e s i g n e dan u m b e ri d e n t i f i c a t i o ns y s t e m i nt h i ss y s t e m ,f i r s t , a s c a n n e rs c a n n e ds t u d e n t s t e s tp a p e r sa n ds a v e dt h e ma sd i g i t a li m a g e s ;t h e n , s o m ep r e p r o c e s s w o u l db ed o n ef o rt h ed i g i t a li m a g e ss u c ha sb i n a r i z a t i o n ,n o i s e ,e t c ;a n dt h e n ,t r a i n i n gt h e n e u r a ln e t w o r kc l a s s i f i c a t i o nm o d e l ;f i n a l l y ,i d e n t i f y i n gt h en u m b e rb yu s i n gt h i sm o d e l t h e p e r f o r m a n c eo f t h i ss y s t e mi sa c c e p t a b l e k e yw o r d s :p a t t e r nr e c o g n i t i o n ;h a n d w r i t t e nn u m e r a lr e c o g n i t i o n :a r t i f i c i a ln e u r a l 独创性声明 本人郑重声明:所提交的学位论文是本人在导师指导下独立进行研究 工作所取得的成果。据我所知,除了特别加以标注和致谢的地方外,论文 中不包含其他人已经发表或撰写过的研究成果。对本人的研究做出重要贡 献的个人和集体,均己在文中作了明确的说明。本声明的法律结果由本人 承担。 学位论文作者签名: 5 叁煞:扫期: 学位论文使用授权书 本学位论文作者完全了解东北师范大学有关保留、使用学位论文的规 定,即:东北师范大学有权保留并向国家有关部门或机构送交学位论文的 复印件和电子版,允许论文被查阅和借阅。本人授权东北师范大学可以将 学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩 印或其它复制手段保存、汇编本学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:堡照 日 期:垒西。生:兰岁 学位论文作者毕业后去向: 工作单位: 通讯地址: 指导教师签名:j 兰生 ,日 期:趔l 毖巧 电话: 邮编, 东北师范大学硕士学位论文 第1 章引言 手写体数字识别是多年来的研究热点,是指利用计算机自动识别手写在纸张上的 数字,它是模式识别领域中最成功的应用之一,具有很高的商业价值。目前,市场上也 出现了一些手写体数字识别产品,在许多特定系统( 如邮政编码自动识别系统、银行支 票自动处理系统等) 中有广泛的应用。但由于各人、各地的写法不同,要完全正确的识 别手写体数字仍是一件不容易的事情。总之,机器的识别能力与人自身的识别还是有很 大差距的,这种差距激励着更多的研究者不断的研究各种各样的手写体数字识别方法。 1 1 研究背景 目前在研究院的研究课题中,要建立一个教学资源库系统,在这个系统中可以提供 老师备课、讲课、学生练习、考试资源等。在考试资源中又分为传统纸张考试和网络电 子考试,将传统考试各个类别的成绩录入到网络系统中就可以对成绩进行分析,找出哪 些地方还需要加强学习,哪些地方还存在不足,这时候就需要对试卷中的数字进行识别 工作。完成识别之后将学生的学号和成绩录入到网络系统中,同时结合相应的文本编辑 器,将传统试卷转换为数字格式,与网络考试相一致,就为传统考试向网络考试转化打 下基础。与传统纸张考试相比,网络考试受到时间、考前培训、以及学校不具备网络考 试条件等因素制约,但网络考试却在批量阅卷、成绩分析等中具有优势。如何将传统考 试与网络考试相结合是目前研究的重点,因此手写体数字的识别成为这个研究重点的基 础。 同时在教育考试领域,每年都有各种各样的招生、报名等工作,这些工作信息量大、 种类繁多、时效性强,同时又要求必须有近乎1 0 0 的准确度,人工进行这项工作不仅 工作量大,耗时耗力,可靠性和安全性也难于保障。因此对可靠的字符识别技术的需求 己迫在眉睫。手写体数字识别系统即为适应此要求而研制开发的,它具有广泛的社会应 用前景。 1 2 国内外现状 模式识别诞生于2 0 世纪2 0 年代,随着4 0 年代计算机的出现,5 0 年代人工智能的 兴起,模式识别在2 0 世纪6 0 年代迅速发展成为一门学科。它所研究的理论和方法在很 多科学和技术领域中得到了广泛的重视,推动了人工智能系统的发展,扩大了计算机应 用的可能性。 字符识别是模式识别的一个传统研究领域。从5 0 年代开始,许多的研究者就在这 一研究领域开展了广泛的探索乜1 ,并为模式识别的发展产生了积极的影响。在过去的数 东北师范大学硕士学位论文 十年中,研究者们提出了许许多多地识别方法,按使用特征的不同,目前手写体数字识 别的方法可以分为三类乜1 :基于结构特征的方法和基于统计特征的方法以及人工神经网 络识别。统计特征通常包括密度的测量、矩、特征区域等等;结构特征通常包括圈、半 圈、交叉点、端点、节点、弧、突起、凹陷、笔画以及横纵两方向上的交叉次数等等。 一般来说,两类特征各有优势。例如使用统计特征的分类器h 1 易于训练,而且对于使用 统计特征的分类器,在给定的训练集上能得到相对较高的识别率;而结构特征的主要优 点之一是能描述字符的结构,在识别过程中能有效地结合几何和结构的知识,因此能得 到可靠性较高的识别结果。在识别系统中引入神经网络是一种近年来发展起来的新的模 式识别方法。 手写体识别被认为是模式识别领域最后一个堡垒。针对这一问题,各个领域的专家 和学者也提出了各种各样的解决方法,并取得了一定的成果。在我国邮电部第三研究所, 以信函分拣为目的,识别书写在信封上的邮政编码。其他用传统方法进行识别研究的有 中国科学院自动化研究所,该所对手写体数字识别的研究历史几乎有2 0 年,在他们新 近的报告中,利用有限状态自动机为主的识别途径识别11 0 0 个手写体数字,识别率达 9 5 2 ,拒识4 ,误识0 2 。上海交通大学基于压缩子结构特征的手写体数字识别算 法选取1 2 6 0 0 个样本组成训练集,6 0 0 0 个样本组成测试集,用b p 网络。l 进行分类,识 别正确率为9 7 5 8 ,误识率为1 0 4 ,拒识率为1 3 8 。德国的f r i e d h e l ms c h w e r i k e r 采用s vr b f 4 0 对手写体数字进行识别,测试样本1 0 0 0 0 个,识别正确率为9 8 5 6 清华 大学采用s v m 对金融票据中的手写体数字进行识别,测试样本2 0 0 0 0 个,识别率约为 9 2 。 1 3 本文的内容安排 本文共分五章。 第一章首先介绍了研究背景和国内外的研究现状。 第二章介绍了手写体数字识别、人工神经网络基本原理及b p 学习算法,指出了神 经网络之所以能够用于手写体数字识别的内在机理和独特优势。 第三章分析了手写体数字识别的基本步骤,并设计了识别系统中各个模块的功能及 应用的方法。 第四章通过采集样本训练出了具体的用于数字识别的b p 神经网络,并用程序实现 了整个识别过程。 第五章最后通过程序和实验数据对手写体数字识别技术做了一下总结和在今后发 展中的展望。 东北师范大学硕士学位论文 第2 章相关理论介绍 2 1 模式识别 2 1 1 模式识别简述 模式识别口1 ( p a t t e r nr e c o g n i t i o n ) 就是计算机识别或机器自动识别,目的在于让机器 自动识别事物。例如,智能交通管理系统,就是判断是否有汽车闯红灯,同时识别出闯 红灯的汽车车牌号码;手写体数字的识别,就是将手写在纸张上的数字分到具体的数字 类别中;还有文字识别、语音识别、图像中物体识别等等。模式识别研究的内容是使机 器能做以前只能由人类才能做的事,具备人所具有的对各种事物与现象进行分析、描述 与判断的部分能力。模式识别是直观的、无所不在的,实际上人类在日常生活的每个环 节,都从事着模式识别的活动。人和动物较容易做到模式识别,但对机器来说却是非常 困难的。让机器能识别、分类,就需要研究识别的方法。 模式识别研究的目的是利用计算机对对象进行分类,在错误概率最小的条件下,使 识别的结果尽量与客观相符合。机器辨别事物最基本的方法是计算,原则上讲是对计算 机要分析的事物与标准模板的相似程度进行比较。例如,要识别一个手写的数字,就要 将它与从0 - 9 的模板做比较,看跟哪个模板最相似,或最接近。因此首先要能从度量中 看出不同事物之间的差异,才能分辨当前要识别的事物,因此最关键的是找到有效地度 量不同类事物的差异的方法。 2 1 2 模式识别方法概述 具体的模式识别是多种多样的,如果从识别的基本方法上划分,传统的模式识别大 体上分为统计模式识别和句法模式识别h 1 。在识别系统中引入神经网络是一种近年来发 展起来的新的模式识别方法。尽管引入神经网络的方法和引入网络的结构可以各不相 同,但都可称为神经网络模式识别陆1 。而且这些识别方法在解决传统方法较难处理的某 些问题上带来了新的进展和突破,因而得到了人们越来越多的重视和研究。 模式识别中的统计法又称为决策论方法。这种识别就是用统计的方法在样本空间中 把待识别的样本划归为某一类别。一般情况下,统计法进行模式识别时需要两个步骤, 一是从输入模式中提取一组适当的特征,用这些特征表达的样本代替了模板匹配中最原 始的样本;二是在特征表达的基础上进行判别规则的设计。统计模式识别的理论基础是 统计决策理论,贝叶斯决策方法呻1 是其中的一个基本方法。应用这种理论可以在己知各 类别总体的概率分布和要决策分类的类别数是一定的情况下,使得分类的错误率最小或 者风险最小。虽然利用贝叶斯决策方法设计的分类器,可以看成是最优分类器,但是在 许多实际问题中,要预先知道各个类别出现的先验概率和类条件概率密度并不是很容 易。因此,在实际应用中,往往利用样本集直接设计分类器。具体地说,就是先给定某 3 东北师范大学硕士学位论文 个判别函数类,然后利用样本集确定出判别函数中的未知参数。而线性判别函数是一类 较为简单的判别函数,因此线性判别函数法也是在实际中更为常用的分类方法。线性函 数的分界面是简单的超平面,用这种超平面的分类结果所产生的错误率和风险可能要比 贝叶斯分类器来得大,所以只是一种次优分类器。但是由于它简单易于实现,所需计算 量和存储量都较小,所以在模式识别中被广泛使用。另外一种常用的方法就是近邻法, 它是分段线性判别函数的极端情况,其基本思想就是看被识别样本离哪一类已知样本最 近,就将其划归哪一类。具体的方法又有最近邻法和k 近邻法等。虽然这种方法直观、 易于理解但所需计算量和存储量都较大。基于统计方法的模式识别系统一般由四部分构 成:数据获取、常规处理、特征提取和选择、分类决策。 图2 1 统计法模式识别系统的构成图 结构法模式识别又称为句法模式识别。根据这种方法,每个模式由它的各个部分( 称 为子模式或者模式基元) 的组合表示。和用模式的结构与语言的句法之间的相似性,模 式的识别常以句法分析的方式进行,即依据给定的一组句法规则来分析模式的结构。一 般的句法模式识别系统可以分为两个部分:识别部分和分析部分,其中识别部分由预处 理、基元提取和句法( 或结构) 分析组成,而分析部分包括基元选择和文法推断。 图2 2 结构法模式识别系统的构成图 2 2 人工神经网络研究 人工神经网络( a n i f i c i a ln e u r a ln e t w o r k s 删忉是对生理学上真实人脑神经网络的 结构和功能的抽象、简化和模拟而构成的一种信息处理系统。人工神经网络是指由大量 与自然神经细胞类似的人工神经元互联而成的网络,具有能够模拟生物体中神经网络的 某些结构与功能,进行大规模并行信息处理的非线性模型系统。 4 东北师范大学硕士学位论文 2 2 1 人工神经元 人工神经元模型乜埘是生物神经元的模拟与抽象。这里所说的抽象是从数学角度而 言,所谓模拟是以神经元的结构和功能而言的。如图2 3 所示是一种典型的人工神经元 模型,它是模拟生物神经元的细胞体、树突、轴突、突触等主要部分而构成的。 主太 - o f 麟1 、一 r 一,y r t j 乡 _ d 图2 3 人工神经元模型 人工神经元相当于一个多输入单输出的非线性阈值器件。这里的x l 。x 2 ,x n 表示它 的n 个输入;w l ,w 2 ,w n ,表示与它相连的n 个突触的连接强度,其值称为权值; w x 称为激活值,表示这个人工神经元的输入总和,对应于生物神经细胞的膜电位;0 表 示这个人工神经元的输出;0 表示这个人工神经元的阈值。如果输入信号的加权和超过 口,则人工神经元被激活。这样,人工神经元的输出可描述为:o = f ( ew x 秒) 其中,坟) 表示神经元输入输出关系函数,称为激活函数或输出函数。 w 为权矢量( w e i g h tv e c t o r ) : 嘲= 形 a x 为输入矢量( i n p u tv e c t o r ) x = x l 石2 人 x n 阈值秒一般不是一个常数,它是随着神经元的兴奋程度而变化的。 2 2 2 人工神经网络模型 根据神经元之间连接的拓扑结构上的不同,可将神经网络结构主要分为两大类,即 - 5 一 b 2 1 2 】 厂、0 3 2 】 b 2 1 3 】 八0 3 1 3 1 图2 4 三层b p 神经网络 由于b p 神经网络有处于中间位置的隐含层,并有相应的学习规则可循,可训练这 种网络,使其具有对非线性模式的识别能力。特别是它的数学意义明确、步骤分明的学 习,更使其有广泛的应用前景。 一6 - q, r i jr , ,j j 9 , 4 z删 w 例 例 蛳 巾 h 萋f 东北师范大学硕士学位论文 2 径向基函数神经网络 径向基函数神经网络眨 【删( r a d i a lb a s i sf u n c t i o n ,简称r b f ) 是由j m o o d y 和 c d a r k e n 于2 0 世纪8 0 年代末提出的一种神经网络结构,它是具有单隐层的三层前向网 络。r b f 神经网络是一种性能良好的前向网络,具有最佳逼近,及克服局部极小值问题 的性能。另外,基于b p 网络的初始权值参数是随机产生的,而r b f 网络的有关参数则 是根据训练集中的样本模式按照一定的规则来确定或者初始化的。如果要实现同一个功 能,径向基神经网络的神经元个数可能要比前向b p 神经网络的神经元个数要多。 x y 图2 5 径向基函数神经网络 3 自组织竞争神经网络n 帕 在生物神经系统中,存在着一种“侧抑制 现象,即一个神经细胞兴奋后,通过它 的分支会对周围其他神经细胞产生抑制。由于侧抑制的作用,各个细胞之间相互竞争的 最终结果是:兴奋作用最强的神经元细胞所产生的抑制作用战胜了周围其他所有细胞的 抑制作用而“赢 了,其周围的其他神经细胞全“输修了。自组织竞争人工神经网络正 是基于上述生物结构和现象形成的。它是一种以无导师学习方式进行网络训练的,具有 自组织能力的神经网络。在网络结构上,自组织竞争人工神经网络一般是由输入层和竞 争层构成的两层网络,网络没有隐含层,输入层和竞争层之间的神经元实现双向连接, 同时竞争层各个神经元之间还存在横向连接。自组织竞争人工神经网络的基本思想是网 络竞争层各个神经元竞争对输入模式的响应机会,最后仅有一个神经元成为竞争的获胜 者,并对那些与获胜神经元有关的各个连接权值朝向更有利于竞争的方向调整,获胜神 经元表示输入模式的分类。 东北师范大学硕士学位论文 竞争 输入层 模式分类 输入模式 图2 6 自组织竞争神经网络 4 概率神经网络 径向基神经元还可以和竞争神经元一起共同组建概率神经网络( p r o b a b i l i s t i cn e u r a l n e t w o r k ,p n n ) n 引。p n n 网络首先计算输入向量与训练样本之间的距离,第一层的输出 向量表示输入向量与训练样本之间的接近程度。第二层将与输入向量相关的所有类别综 合在一起,网络输出为表示概率的向量,最后通过第二层的竞争传递函数进行取舍,概 率最大值的那一类为1 ,其它类别用0 表示。 2 2 3 人工神经网络的学习过程 人的学习过程主要有三种:有导师学习、无导师学习和强化学习。模仿人的学习过 程,人们提出了多种神经网络的学习方式n 刳,按学习方式进行神经网络模型分类,可以 分为相应的三种,即有导师学习网络、无导师学习网络和强化学习网络。有导师型的学 习或者说有监督型的学习是在有指导和考察的情况下进行的,如果学完了没有达到要 求,那么就要再继续学习。无导师的学习或者说无监督型的学习是靠学习者或者说神经 系统本身自行完成的。学习是一个相对持久的变化过程,学习往往也是一个推理的过程。 人工神经网络可从所需要的例子集合中学习,从输入与输出的映射中学习。对于有 监督学习,是在已知输入和期望输出的情况下进行的学习。对应每一个输入,有导师提 供的系统以实际输出与期望输出之间的差距作为测量误差,用来校正网络的参数,输入 输出模式的集合称为这个学习模式的训练样品集合。 神经网络最大的特点就是它有学习的能力,在学习过程中,主要是网络连接权的值 发生了相应的变化,学习到的内容也是记忆在连接权当中。 2 2 4 人工神经网络在模式识别问题上的优势 以生物神经网络为模拟基础的人工神经网络试图在模拟推理和自动学习等方面向 - 8 - 东北师范大学硕士学位论文 前发展,使人工智能更接近人脑的自组织和并行处理功能,它在模式识别、聚类分析和 专家系统等多方面显示出了新的前景和新的思路。神经网络可以看成是从输入空间到输 出空间的一个非线性映射,它通过调整权重和阈值来“学习 或发现变量间的关系,实 现对事物的分类。由于神经网络是一种对数据分布无任何要求的非线性技术,它能有效 解决非正态分布、非线性的评价问题,因而受到广泛的应用。由于神经网络具有信息的 分布存储,并行处理以及自学习能力等特点,所以它在信息处理、模式识别、智能控制 等领域有着广泛的应用前景3 1 。近年来,神经网络已成为研究的热点,并取得了广泛的 应用。 2 3 手写体数字识别研究 2 3 1 手写体数字识别简介 手写体数字识别是“光学字符识别技术”( 简称o c r ) n 町的一个分支,它研究的对象 是:如何利用电子计算机自动辨认人手写在纸张上的阿拉伯数字。 在整个o c r 领域中,最为困难的就是脱机手写字符的识别n 5 1 。到目前为止,尽管 人们在脱机手写英文、汉字识别的研究中已取得很多可喜成就。而在手写体数字识别这 个方向上,经过多年研究,研究工作者已经开始把它向各种实际应用推广,为手写数据 的高速自动输入提供了一种解决方案。 2 3 2 手写体数字识别研究的理论意义及难点 手写体数字识别作为模式识别领域的一个重要问题,也有着重要的理论价 值川: 1 阿拉伯数字是唯一的被世界各国通用的符号,对手写数字识别的研究基本上与文化背 景无关,这样就为各国、各地区的研究工作者提供了一个施展才智的大舞台。在这一领 域大家可以探讨,比较各种研究方法。 2 由于数字识别的类别数较小,有助于做深入分析及验证一些新的理论。这方面最明显 的例子就是人工神经网络,相当一部分的人工神经网络模型都以手写数字识别作为具体 的实验平台,验证理论的有效性,评价各种方法的优缺点。 3 尽管人们对手写数字的识别已从事了很长时间的研究,并已取得了很多成果,但到目 前为止机器的识别本领还无法与人的认知能力相比,这仍是一个有难度的开放问题, 4 手写数字的识别方法很容易推广到其它一些相关问题;一个最直接的应用是对英文这 样的拼音文字的识别。事实上,很多学者就是把数字和英文字母的识别放在一块儿研究 的。 手写体数字识别的研究是一项具有相当难度的工作,难点主要在以下几个方面n 们: 1 阿拉伯数字的字形信息量很小,不同数字写法字形相差不大,使得准确区分某些数字 相当困难。 2 要识别的数字虽然只有十种,而且笔划简单,但同数字写法千差万别,不同的人写 东北师范大学硕士学位论文 法也不尽相同,很难完全做到兼顾各种写法的极高识别率的通用性数字识别系统。 3 在实际应用中,对数字的单字识别正确率的要求要比文字要苛刻得多。这是因为,文 字有上下文关系,但数字没有上下文关系,每个单字的识别都至关重要,而且数字识别 经常涉及的财会、金融领域,其严格性更是不言而喻的。因此,用户的要求不是单纯的 高正确率,更重要的是极低的误识率。 4 大批量数据处理对系统速度又有相当的要求,许多理论上很完美但速度过低的方法也 是行不通的。 2 3 3 手写体数字识别系统的性能评价方法 作为一个识别系统,我们最终要用某些参数来评价其性能的高低,手写数字识别也 不例外。评价的指标除了借用一般文字识别里的通常做法外;还要根据数字识别的特点 进行修改和补充。 对一个手写数字识别系统,可以用三方面的指标表征系统的性能口7 1 : 识别率:a - 正确识别样本数全部样本数 1 0 0 误识率:s _ - 误识样本数全部样本数1 0 0 拒识率:r - 拒识样本数全部样本数堆1 0 0 三者的关系:a + s + r = 1 0 0 数字识别的应用中,人们往往很关心的一个指标是“识别精度”,即在所有识别的 字符中,除去拒识字符,正确识别的比例,表示如下: 识别精度:p = ( a 十s ) 1 0 0 一个理想的系统应是s 尽量小,p , a 尽可能大。而在一个实际系统中,s ,r 是相互制 约的,误识率s 的下降总伴随着拒识率r 的提高,与此同时识别率a 和识别精度p 的 提高。因此,在评价手写数字识别系统时,我们必须综合考虑这几个指标。另外,由于 手写数字的书写风格、工整程度可以有相当大的差别,因此必须弄清每个指标是在怎样 的样本集合下获得的。 东北师范大学硕士学位论文 第3 章基于b p 神经网络的手写体数字识别系统的设计 在本章我们将介绍一个基于b p 神经网络的手写体数字识别系统的总体设计以及主 要模块的详细功能设计。 31 基于b p 神经网络的手写体数字识别系统设计 经过相关理论学习与具体实用系统的研究,我们设计了如图3l 所示的基于b p 神 经网络的手写体数字识别系统。 属明舅霸暖两霸孵 一j i 瓣_ 。 鬻。鬻| 鬻蹇j 嚣 试卷采集与图像获取 图3 1 手写体数字识别系统结构示意图 手写体数字识别系统由样本采集与图像获取模块、图像预处理模块、神经网络训练 与识别模块组成,下面就各个模块的功能作简单介绍。 样本采集与图像获取 我们要对识别对象进行数字化的样本采集,为了减少存储空削,只截取需要识别的 区域。 数字样本采集:对于我们所建立的系统就是从学生的考试试卷中收集3 0 0 余个考试 试卷,数字样本采集的关键在于: 东北师范大学硕士学位论文 1 - 收集到的样本要具有代表性,不能干篇一律; 2 不能过于随意,要容易被人眼辨识; 3 统一样本尺寸,便于计算机批量处理。 图像获取:就是通过扫描仪获取待识别的手写体数字图像的过程。最后将获取的图 像存储在计算机中。 图像预处理 学生试卷经扫描仪获取后,由于纸张上的污点及在扫描过程中产生的字形畸 变,会对数字的识别产生干扰,为了提高识别的精度,需对获取的数字图像进行处理, 去除对识别产生干扰的噪声。 神经网络训练与识别 将提取了图像特征的训练样本送到神经网络进行训练,当网络训练成功后,这便是 一个可以进行泛化的网络,可以对未知的手写数字图像数据根据自身网络结构和权重进 行计算并得出结果。 手写体数字图像预处理和神经网络训练及识别阶段是本系统的重点部分。其中,图 像预处理是为神经网络训练及识别做准备工作的,一旦神经网络训练成功,就可以在应 用系统中充当手写体字符的识别器。鉴于这两部分的重要性,下面各节将给予详细介绍。 3 2 手写体数字图像预处理 数字识别之前,首先要将写在纸上的数字,经过光电扫描获得模拟信号,再通过模 数转换变为带灰度值的数字信号输入计算机作为原始数据保存起来。纸张的厚薄、洁白 度、粗糙度、油墨深浅、手写质量等都可能造成字形畸变,产生污点、飞白、断笔、交 连等干扰。输入设备的鉴别率、线性度、光学畸变或者量化过程等也会产生噪声。所以, 为了提高识别率,在对单个数字识别之前,必须要对这幅带有随机干扰、噪声的整幅灰 度数字信号进行预处理。 预处理包括图像的二值化、去噪声、细化、定位分割。 3 2 1 二值化 图像的二值化n 羽就是把图像中的像素根据一定的标准划分成两种颜色,就是根据像 素的灰度值处理成黑白两种颜色。原始数字图像中包含神经网络识别所不需要的灰度信 息,这些灰度信息会严重影响程序处理速度,二值化的目的就是去除这些不必要的图像 信息,将图像中的物体与背景分割开,加快程序处理速度。 二值化的方法很多,主要分为3 类:全局阈值法、局部阈值法和动态阈值法n 引。全 局阈值二值化方法是根据图像的直方图刚或灰度的空间分布确定一个阈值,并根据该阈 值实现灰度图像到二值化图像的转化。全局阈值方法的优点在于算法简单,对于目标和 背景明显分离j 直方图分布呈双峰的图像效果良好,但对输入图像量化噪声或不均匀光 照等情况抵抗能力差,应用受到极大限制。局部阈值法则是由像素灰度值和像素周围点 东北师范大学硕士学位论文 局部灰度特性来确定像素的阈值的。b e m s e n 算法是典型的局部阈值方法,非均匀光照 条件等情况虽然影响整体图像的灰度分布却不影响局部的图像性质,局部阈值法也存在 缺点和问题,如实现速度慢、不能保证字符笔划连通性、以及容易出现伪影现象等。动 态阈值法的阈值选择不仅取决于该像素灰度值以及它周围像素的灰度值,而且还和该像 素的坐标位置有关,由于充分考虑了每个像素邻域的特征,能更好的突出背景和目标的 边界,使相距很近的两条线不会产生粘连现象。在图像分割二值化中,阈值选取问题是 图像分割的关键所在。事实证明,阈值的选择的恰当与否对分割的效果起着决定性的作 用。本文采用全局阈值的方法,实现将图像二值化的功能。由于本文所用的二值化方案 比较简单,采用文献【1 9 】所介绍的全局阈值法,直接选择一个固定阈值就可以进行二值 化操作了。 阈值t 可通过分析边缘检测输出的直方图确定,由于本系统中所用到的图像只有物 体和背景两部分组成,其灰度级直方图成明显的双峰值,在此情况下,选取双峰间的谷 底处的灰度值t 作为阈值,即可将物体和背景很好地分割开。阈值分割法可用数学表达 式来描述。设图像为f ( i j ) ,其灰度级范围为【z 1 ,z 2 】,设t 为阈值,是z 1 和z 2 内任一值, 可得一幅二值图像,其数学表达式为: 。,: 2 5 5 ,如果厂( f ,) t 一7 o ,如果厂( f ,) t 频 度 阐值灰度值 图3 2 直方图的阈值选取 3 2 2 平滑去噪 尽管在操作过程中小心翼翼,扫描的试卷上也会有一些不期而至的污点、灰渍,这 些内容对于识别系统来说就是一种噪声1 ,这些噪声使图像表现为一些孤立像素点。若 输入不良伴有较大的噪声,必然严重影响处理的全过程以至输出结果。噪声的去除皇经 成为图像处理中极为重要的步骤,去噪声的操作能够去掉这些干扰神经网络训练和识别 的信息。为了获得一个稳定的样本,噪声是必须去除的。 东北师范大学硕士学位论文 对孤立像素点的处理方式上可以划分为点处理和区域处理。点处理乜门是一种输出像 素值仅由输入像素值决定的图像处理方法:区域处理乜的输出像素值不仅与输入像素值 有关,而且与输入像素在一定的范围内的相邻像素值有关。区域处理在数字图像处理中 占有重要地位。目标像素的邻域一般是由像素组成的二维矩阵,该矩阵的大小为奇数, 目标像素位于该矩阵的中央,即目标像素就是区域的中心像素。经过处理后,目标像素 的值为经过特定算法计算后所得的结果。在本系统中采用文献 2 1 1 中的区域处理的方法 将孤立的像素点去除:在8 邻域的情况下,若黑像素f i i :j ) 的周围8 个像素全为f j ( 2 5 5 ) , 则f ( i j ) 也取为2 5 5 。 同时,由于对图像进行了二值化操作,不可避免会对图像造成一定的损伤,出现孔、 笔画断裂等等。形态学运算乜2 1 是针对二值图像依据数学形态学集合论方法发展起来的图 像处理方法。数学形态学以图像的形态特征为研究对象,描述图像的基本特征和基本结 构,也就是描述图像中元素与元素、部分与部分间的关系。通常形态学图像处理表现为 一种邻域运算形式,采用邻域结构元素的方法,在每个像素位置上邻域结构元素与二值 图像对应的区域进行特定的逻辑运算,逻辑运算的结构为输出图像的相应像素。数学形 态学的运算以腐蚀和膨胀这两种基本运算为基础,引出了其他几个常用的数学形态学运 算,最常见的基本运算有:腐蚀、膨胀、开运算、闭运算比引。 由于本系统中采用的是文献 2 2 】中的这几种数学形态学方法,下面就将文献 2 2 】中 的几种数学形态学方法加以详细介绍: 腐蚀: 腐蚀在数学形态学中的作用是消除物体边界点,使边界向内部收缩的过程,可以把 小于结构元素的物体去除。如图3 3 ( a ) 所示,原始图像x 为原始二值图像,相当于一个 矩形加上了几个突出点,处理的对象为黑色像素;图( b ) 为结构元素,原点为当前处理像 素的位置。腐蚀的方法就是将结构元素b 中的点与目标图像x 上的像素点逐个对应, 倘若b 上的所有点都在x 的范围内,则该点保留,否则将该点删除( 像素值置为2 5 5 ) 。 图( c ) 为腐蚀后的结果,可以看出,由于原始二值图像中的三个尖角处都只有三个像 素,不能与结构元素b 重合,所以经腐蚀运算后,图像中的这些突出点就被消除了,同 时剥去了x 的上下边界,但腐蚀后的图像仍然在x 的范围内,只是包含的点比x 少, 就好像x 被腐蚀掉了一层似的。 ( a ) 原始图像x - 1 4 东北师范大学硕士学位论文 01 - - l- 一 i c o ) 结构元素b , 3 2 1 0 1 ( c ) 腐蚀结果 图3 3 不同结构元素对同一图像的腐蚀操作 膨胀: 。 膨胀是数学形态学中除腐蚀外的另一种基本运算。膨胀在数学形态学中的作用与腐 蚀的作用正好相反,它是对二值化物体边界点进行扩充,将与物体接触的所有背景点合 并到该物体中,使边界向外扩张的过程。膨胀对填补图像二值化后物体中的空洞很有用。 设x 为待研究的图像,b 为结构元素,假定在b 中共包括三个点,即b 1 ( 0 ,o ) ,b 主( 1 ,o ) , b 3 ( 0 ,1 ) ,如图3 4 所示。将图像x 分别平移b l ,b 2 ,b 3 ,得到三幅图像,其中x m 与原 图像重合,x m 相当于x 向右平移一个单位,而x 【b 3 】相当与x 向上平移了_ 个单位, 下一步就是将x m 、x m 、x b 3 】“合并起来成为一幅新图像,称其为x 被b 膨胀 的结果。 ( a ) 图像x 与结构元素b ( b ) x b 2 】 东北师范大学硕士学位论文 ( c ) x b a 】( d ) x0b = x b d y x b 2 yx b 3 】 图3 4 图像x 被结构元素b 膨胀的结果 如果改变结构元素b 的形状,x 被b 膨胀便会得到不同的结果: ( a ) 4 种结构元素 ( b ) 4 中结构元素和其膨胀结果 图3 5 不同结构元素下的膨胀结果 开运算与闭运算: 先腐蚀后膨胀的过程就称为开运算,原图经过开运算后,能够去除孤立的小点、毛 刺和小桥( 即连通两块区域的小点) :闭运算是先膨胀后腐蚀的过程,其功能是用来填充 物体内细小空洞、平滑其边界。 实现步骤: 对孤立黑像素的去除:遍历图像,若黑像素f ( i j ) 周围8 邻域像素全为t 兰t ( 2 5 5 ) ,则 f f i j ) 也取为2 5 5 ; 运用闭运算填充图像内细小空洞、平滑边界。图像先被结构元素b 膨胀,本系统 中结构元素b 采用三角形,如果图像当前点或上面、右边的点有一个是黑色,则将膨胀 图像的当前点赋值为黑色: 然后图像被结构元素b 腐蚀,如果图像当前点或上面、右边的点有一个是白色, 则将腐蚀图像的当前点赋值为白色。 3 2 3 细化 在传统的模式识别中,对于手写数字的特征提取往往是从字形结构的提取入手。因 1 6 一 l 一 东北师范大学硕士学位论文 而人们认为在二值化的字符图像中,对识别有价值的字符特征主要集中在字符的轮廓或 者骨架1 上。基于这种认识,在经过以上几个步骤的处理,得到干净、平滑、规范的样 本集合之后,往往要进行细化。即,将字符中的粗细不等的笔划变换成只有一层像素点 构成的统一的笔划。 细化的基本原理都是从字的边界开始逐层移去黑点,直到寻找到一个集合,此集合 与其边界相重合,这种方法被称为脱壳算法哺】。在本系统中采用的是根据像素点的8 邻 域幢钔来决定该点是否能被删除。如图3 6 所示,其中图( a ) 的中心点为一个内部点,我们 所要求的是图像骨架,因此,它不能被删除,因为如果连内部点也被删除了,骨架也将 被掏空;同样的道理。( b ) 中的中心像素点也不能被删除;( c ) 中的中心像素点不是骨架, 因而可以被删除;( d ) 中的中心像素点不能删,因为删除该点后,将破坏图像的连通性 质: ( e ) 中的中心像素点也不是骨架,可以被删除;( f ) 中的中心像素点为直线的两端, 如果删除它的话,整条直线都将被删除:( g ) 中的中心像素点为孤立点,必须保留,因为 孤立点的骨架就是它本身。 田围爵圈田田 ( b ) ( c ) ( d )( e )( f ) 图3 6 根据像素点的8 邻域来决定该点是否能被删除 3 2 4 定位分割 数字串分割乜5 3 是指把所提取的数字串分割成为单个数字,是用分类器进行单字识别 的前处理过程。 用水平投影方法汹1 进行手写体数字整体的水平定位。利用手写体数字水平方向位置 基本一致的特点,可以很好的定位出手写体数字的水平方向位置。在数字区域投影值很 大,没有数字的区域投影值为o 。根据水平方向投影值的分布定位出数字整体的上下边 界,并记录上下边界的x 坐标。根据手写体数字整体的上下边界,就可以在此上下边界 之间进行竖直方向的定位。手写体数字竖直方向定位:从左到右,先在手写体数字整体 的上下边界之间进行垂直投影。然后从左到右统计从0 变1 ( 白变黑) 的临界点记录0 点y 坐标为数字的左边界,从1 变0 ( 黑变白) 的点记录o 点y 坐标为数字的右边界,就可以 确定出单个数字的位置坐标。 3 2 5 基于对连通区域标记的数字分割 但是由于手写数字的不规律性,难免有数字重叠的现象,在做竖直方向的投影时, 不可避免的会把其它数字的部分分割到别的数字当中。本系统在探测图像边缘的基础 上采用了文献 3 2 】中将连通区域标记的方法2 1 来将数字串进行分割。下面对这一方法做 以介绍:二值图像中互相连通的o 像素集或1 像素集称之为连通成分。被1 像素包围的 东北师范大学硕士学位论文 0 像素叫做孔,比如数字0 。卜像素连通成分不含孔时,叫做单连通成分,含有一个或 多个孔的连通成分叫做多重连通成分,比如数字8 。二值化后的一幅图像内可能存在多 个连通成分,每个连通成分都对应一个目标图像区,将同一个连通区域内的像素分配相 同的标记以示区分不同的连通区域,这样就将图像分割开来。 0 列i 列2 列3 列4 列5 列6 列7 列8 列9 列1 0 列j i 列1 2 列1 3 列 0 i : 000o0o00o00o o 0 i 行0aaa0o0 0 bbbb oo 2fj :o0( )00bbhbbro : 行o a o obbb0ooo i 1 :00aa0000br000 5 行oaa0obbbboo 6f i oaaooo0o0obbbo 7 行 0 j【j( 1( jcooo0o0o 8f j : o0 00o c ccoo 0 000 9 行0 o 00c c cccc c cco j 0 ” ( ( jccccc c c 0 o o( 0 li 行 oooo0ccccccc0 o 1 2jj :o000ooocccccco 1 3 行oooooooooooooo 图3 7 数字分割 如图3 7 所示,对图像进行连通检测分割的步骤如下: 从左到右,从上到下逐个像素扫描。 若该点的左上、正上、右上及左前点共4 个点的像素值都不为物体,则把数标加 l ,且此数组值为1 。 采用( 行坐标,列坐标) 方式标记物体。若遇到( 1 ,1 ) 像素为物体,依次判断该像素 点的右上点( o ,2 ) ,正上点( o ,1 ) ,左上点( o ,0 ) 及左前点(
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 楼宇赎回贷款合同模板
- 销售合同范本正规范本
- 社区科学理论知识
- 组建与管理创业团队
- 房屋转让合同范本大全
- 运动解剖学练习题库含参考答案
- 租赁合同的可变性与调整策略
- 等待戈多课件
- 简约商务述职报告
- 航空货物运输代理合同
- 2024-2025学年下学期高一语文期中必刷常考题之作文
- 2025北京丰台高三一模化学试题及答案
- 安徽省示范高中皖北协作区2025届高三3月联考试卷语文试题(含答案)
- 儿童福利政策课件解读
- 公司关联担保效力裁判规则完善研究
- 茶台买卖合同5篇
- 辽宁省营口市大石桥市第二初级中学2024-2025学年九年级下学期开学考试数学试卷
- 2025年法治素养考试试题及答案
- 居室空间设计 课件 项目一居室空间设计概述
- 2024年北京市中考满分作文《盘中餐》
- 冲床基础板施工方案
评论
0/150
提交评论