(信号与信息处理专业论文)基于bp神经网络集成的手写体数字识别.pdf_第1页
(信号与信息处理专业论文)基于bp神经网络集成的手写体数字识别.pdf_第2页
(信号与信息处理专业论文)基于bp神经网络集成的手写体数字识别.pdf_第3页
(信号与信息处理专业论文)基于bp神经网络集成的手写体数字识别.pdf_第4页
(信号与信息处理专业论文)基于bp神经网络集成的手写体数字识别.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

硕士论文基于b p 神经网络集成的手写体数字识别 基于b p 神经网络集成的手写体数字识别 摘要 在模式识别领域,多年来的实践表明:对一个复杂的识别分类问 题,单一的方法难以获得令人满意的识别性能,同时不同的分类方法 之间往往存在着互补性,把多个分类器集成可以明显提高识别率。因 此多分类器集成方法近年来已成为研究者们关注的一个热点。本文建 立了一个集成型神经网络手写体数字识别系统,系统主要由两部分构 成,即:学习部分和识别部分。学习部分主要完成七个b p 神经网络的 学习训练,识别部分由特征提取和集成型神经网络识别构成。在整个 系统的实现过程中,本文的主要工作有以下几个方面: 1 实现了宏观,局部和微观三个层次的特征提取,分别应用于七 个不同的神经网络分类器 2 对单个分类器,为提高网络的收敛速度和避免网络假饱和现 象,对传统的b p 神经网络作了一些改进,例如修改学习因子,修改s 函数,改进最优梯度法,引进最优步长等。 3 在集成算法中,本文提出了基于判决可靠度估计的最优线性集 成算法。该方法的思想是:先根据分类器对每个样本的判决可靠度, 把训练样本分为若干个区域,在不同的区域里使用最优线性集成方法 训练出多组权值向量。在测试时,同样求出某一测试样本的判决可靠 度,根据该样本的判可靠度所在的区域得出相应的权值,再使用该权 值进行组合识别。本文对七个b p 神经网络的结果采用多种算法进行组 合,用实验证明基于各类别置信度的最优线性集成算法是最优的。 本文建立的集成型神经网络手写体数字识别系统,综合使用了多 种模式识别方法,全面反应了手写体数字各个方面的特征,试验结果 表明该系统提高了手写体数字识别的精度,还有很多地方值得深入研 究下去。 关键词:b p 算法、神经网络、手写体数字识别、特征提取、最 优线性集成、置信度 : 硕士论文 基于b p 神经网络集成的手写体数字识别 h a n d w r i t t e nd i g i t r e c o g n i t i o no fa n i n t e g r a t e db p n e u r a ln e t w o r k a b s t r a c t i nr e c e n ty e a r s ,s o m ef a c t si n d i c a t et h a ta st oa c o i n p l e xr e c o g n i z e p r o b l e m ,s i n g l em e t h o dc a nn o tg e tag o o dp e r f o m a n c e ,n l e a n t i m et h e r e a r es o m er e c i p r o c a l sd l l r i n gd i f f e r e n tr e c o g n i z em e t h o d s ,t h e yc a ni m p r o v e t h ec o r r e c t n e s sv i at h em e t h o do fg e ts o m er e c o g n i z em e t h o d st o g e m e r s o t h e s ey e a r sg e t t i n gs o m er e c o g n i z em e t h o d st o g e t h e ri sb e c o m i n ga h o t s p o t i nt 1 1 e 丘e l do fp a c t e mi - e c o g n i t i o ni nt h i s p a p e r ,ah a n d 嘶t t e nd i g i t r e c o g n i t i o ns y s t e mb a s e do ni n t e g r a t e dn e u r a ln e t w o r ki s s e tu p t h e s y s t e mw a sc o n s i s t e do ft w op 撕s :l 伽m i n gp a n ,r e c o g i l i t i o np a i t i nt h e l e a m i n gp a r t ,s e v e nb pn e u r a lr l e t w o f k sa r et r a i n e d t h e r ea r et w os t 印si n t h er e c o g n i t i o np 缸t h e ya r ef e a t l l r ee x t r a c t i o na n dc o m b i n e dr e c o g n i t i o n t h e ya r ef e a m r ee x t i a c t i o na 1 1 dc o m b i n e dr e c o g n i t i o n d u d n gt h er e a l i z i n g o ft h es y s t e m ,t h ef 0 1 l o w i n gi sd o w ni nt h i sp a p e r 1 s e v e nf e a m r e sf o rh a n d 、砸t t e nd i 百t sb a s e do nm a c r o s c o p i c a l , p a r t i a la n dm i c r o c o s m i c a r ee x t r a c t e d ,w h i c ha r e 印p l i e d i ns e v e n r e s p e c t i v en e u r a ln e 研o r k s 2 i nt h es i g n a lc l a s s i 匆 m e m o d ,m a k es o m ei m p r o v e m e n t so nb p n e u r a ln e 觚o r kt oq u i c k e nt h en e t w o r kc o n s t r i n g e n c ys p e e da n dt oa v o i d t h ef a k es a t u r a t i o np h e n o m e n o n f o re x a m p l e ,c h a n g et h el e 锄1 i n g f a c t o r , c h a n g et h es 如n c t i o n ,b e t t e n n e n tt h em e t h o do ft h ef a 吡e s tg r a d s ,f e t c h i nt h eb e t t e ra m b u l a c n l ma n ds of o r t h 3 i nt h ei n t e g r a t e 撕恤1 e t i c ,w e g i v e t h e o p t i m a l l i n e a r c o m b i n a t i o nm e m o d b a s eo nt h ed e g r e eo f j u 电e t h ei d e ao f 也i sm e t h o d i s ,矗r s tc o u n tt h ed e g r e eo fe v e 巧s t y l e b o o km v i d et 1 1 e 仃a i n i n gs t y l e b o o k i n t os o m ea r e a s ,i ne a c ha r e au s em e o p t i m a ll i n e a rc o m b i n a t i o nm e t h o d t oc o u n ts o m ep o w e rv a l u e i nt h e t e s t ,w - e6 r s tc o u n tt h ed e g r e eo f j u d g e a n dt l l e nu s e 也er e l e v a n tp o w e rva _ l u et oc o u n tm es o r t m a n yc o m b i n e d :? a n t h n l e t l ca r eu s e dt oc a l c u l a t et h el a s t 蹴o g i l i t i o nr e s u l ta c c o r d i n gt ot 1 1 e o p t i m a ll i n e a rc o m b i n a t i o nm e t h o di st h eo p t i m i z a t i o na l g o r i t b m ah a n d w n t t e nn u m e r a lr e c o g n i t i o ns y s t 锄b a s e do nm ei n t e g r a t e d n e u r a ln e 咖r ki sb u i l tu pi nt h j sp a p e r m a n y p a t t e mr e c o g l l i t i o nw a y sa n d m a n yh a n 出m t t e nn u m e r a lc h a r a c t e r sf e a t u r e sa r eu s e di nt h i ss v s t e m t h e r e s u l t so 士e x p e n m e n ts h o wm a t 锄ss y s t e mc a n g e th i g hc o n c tr a t ea ta c e i t a i ne x t e n t ni sw o r t ht ob es t l l d i e d1 a t 既 k e yw b r d s : b pa l g o r i 缸l 、 n e u r a ln e t w o r k 、 h a n d w 打t t e n d i 西tf 沁c o g n i t i o n 、f b 孤1 1 ee x t r a c t i o n 、o p t i m a l “n e a u rc o i n b i n a t i o n 、 c o n 6 d e n c e 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处, 本人签名: 缢绉 本人承担一切相关责任。 日期:丝 笙翻星呈旦 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论 文注释:本学位论文不属于保密范围,适用本授权书。 本人签名:逖遮 导师签名:日期: 硕士论文基于b p 神经网络集成的手写体数字识别 1 1 闯题的提出 第一章绪论 手写体数字识别在邮政编码自动识别,银行业务方面有重要的应用,由于字 体变化大,对识别率要求高,因此有较大的困难。神经网络具有学习能力和快速 进行实现的特点,可以用于解决这一问题。由r u m e l h a r t 提出的多层前馈神经网 络模型,由于采用误差反传的学习算法,被称为b p 网络。 1 另一方面,不同的特征空间往往反映事物不同方面,在一重特征空间很难分 辨的两种模式可能在另一重特征空间上很容易分开;而对应于同一特征空间的不 同分类器又以不同的方式将该种特征映射到相应的类别空间。因此不同的特征和 分类器能够更全面的反映出一个事物。 2 大量的实验也表明,尽管某一种方法 的总体性能最好,但是这种方法误识的样本其他方法却能够正确识别出。也就是 说,不同的识别方法对于待识别样本可能存在互补信息。我们就要挖掘出这些互 补信息,把多个分类器有机的组合起来提高总体识别性能。模式识别系统设计的 最终目的是为了尽可能的达到最好的识别性能,这一目的推动了模式识别各方面 的发展,使大量学者投入到集成型分类器的研究工作中。 1 2 手写体数字识别的发展历史 模式识别是六十年代初迅速发展起来的一门学科。由于它研究的是如何用机 器来实现人( 及某些动物对事物的学习、识别和判断能力,因而受到了很多科技 领域研究人员的注意,成为人工智能研究的一个重要方面。 字符识别是模式识别的一个传统研究领域。从5 0 年代开始,许多的研究者就 在这一研究领域开展了广泛的探索并为模式识别的发展产生了积极的影响。 字符识别一般可以分为两类:1 联机手写字符识别;2 光学字符识别 ( o p t i c a l c h a r a c t e rr e c o g i l i t i o no c r ) 或称离线字符识别。在联机手写字符识别中, 计算机能够通过与计算机相连的手写输入设备获得输入字符笔划的顺序、笔划的 方向以及字符的形状i 所以相对o c r 来说它更容易识别一些。但联机字符识别 有一个重要的不足就是要求输入者必须在指定的设备上书写,然而人们在生活中 大部分的书写情况是不满足这一要求的,比如人们填写各种表格资料,开具支票 等。如果需要计算机去认识这些已经成为文字的东西,就需要o c r 技术。比起 联机字符识别来,o c r 不要求书写者在特定输入设备上书写,他可以与平常一 ? : 1 硕士论文 基于b p 神经网络集成的手写体数字识别 样书写,所以o c r 的应用更为广泛。o c r 所使用的输入设备可以是任何一种图 像采集设备,如c c d 、扫描仪、数字相机等。通过使用这类采集设备,o c r 系 统将书写者己写好的文字作为图像输入到计算机中,然后由计算机去识别。由于 o c r 的输入只是简单的一副图像,它就不能像联机输入那样比较容易的从物理 上获得字符笔划的顺序信息,因此o c r 是一个更具挑战性的问题。 手写体数字识别是多年来的研究热点也是字符识别中的一个特别问题,它是 本文研究的重点。手写体数字识别在特定的环境下应用特别广泛,如邮政编码自 动识别系统,税表和银行支票自动处理系统等一般情况下,当涉及到数字识别时, 人们往往要求识别器有很高的识别可靠性,特别是有关金额的数字识别时,如支 票中填写的金额部分,更是如此。因此针对这类问题的处理系统设计的关键环节 之一就是设计出高可靠性和高识别率的手写体数字识别方法。然而可以说还没有 哪个手写体数字识别器达到完美的识别效果。在过去的数十年中,研究者们提出 了许许多多的识别方法按使用的特征不同,这些方泫可以分为两类;基于结构特 征的方法和基于统计特征的方法统计特征通常包括点密度的测量、矩、特征区 域等;结构特征通常包括圆、端点、交叉点、笔划、轮廓等,一般来说,两类特 征各有优势。例如,使用统计特征的分类器易于训练,而且对于使用统计特征的 分类器,在给定的训练集上能够得到相对较高的识别率;而结构特征的主要优点 之一是能描述字符的结构,在识别过程中能有效地结合几何和结构的知识,因此 能够得到可靠性较高的识别结果 1 3 手写体数字识别现阶段的发展状况 手写体识别被认为是模式识别领域最后一个堡垒。针对这一问题,各个领域 的专家和学者也提出了各种各样的解决方法,并取得了一定的成果。在我国邮电 部第三研究所,以信函分拣为目的,识别书写在信封上的邮政编码。其他用传统 方法进行识别研究的有中国科学院自动化研究所,该所对手写体数字识别的研究 历史几乎有2 0 年,在他们新近的报告中,利用有限状态自动机为主的识别途径 识别1 1 0 0 个手写体数字,识别率达9 5 2 ,拒识4 ,误识o 2 。上海交通大 学基于压缩子结构特征的手写体数字识别算法选取1 2 6 0 0 个样本组成训练集, 6 0 0 0 个样本组成测试集,用b p 网络进行分类,识别正确率为9 7 5 8 ,误识率 为1 0 4 ,拒识率为1 3 8 。德国的f r i e d l l e l n ls c h w e l l l c 盯采用s v i m f 4 0 对手 写体数字进行识别,测试样本1 0 0 0 0 个,识别正确率为9 8 5 6 清华大学采用s 对金融票据中的手写体数字进行识别,测试样本2 0 0 0 0 个,识别率约为9 2 。这 些系统,要么对书写的正规程度有要求,要么其测试样本和训练样本出于同一批 2 硕士论文基于b p 神经网络集成的手写体数字识别 人之手。总之,一般的系统对书写人员限制较多,或者对书写的正规程度有要求, 或者对书写位置有要求,或者对所用笔、纸有要求,例如对税务报表的识别就要 求用规定的字型书写数字,并且对书写的位置有要求,而真正的无限制手写体数 字识别的研究还有待进一步提高。 1 4 手写体数字识别研究的理论意义 手写数字识别作为模式识别领域的一个重要问题,也有着重要的理论价值: 1 阿拉伯数字是唯一的被世界各国通用的符号,对手写数字识别的研究基本 上与文化背景无关,这样就为各国,各地区的研究工作者提供了一个施展才智的 大舞台。在这一领域大家可以探讨,比较各种研究方法。 2 由于数字识别的类别数较小,有助于做深入分析及验证一些新的理论。这 方面最明显的例子就是人工神经网络( a n n ) - _ _ 相当一部分的a n n 模型和算 法都以手写数字识别作为具体的实验平台,验证理论的有效性,评价各种方法的 优缺点。 3 尽管人们对手写数字的识别已从事了很长时间的研究,并已取得了很多成 果,但到目前为止机器的识别本领还无法与人的认知能力相比,这仍是一个有难 度的开放问题( 0 p e np r o b l e m ) 4 手写数字的识别方法很容易推广到其它一些相关问题秉一个直接的应用 是对英文这样的拼音文字的识别。事实上,很多学者就是把数字和英文字母的识 别放在一块儿研究的 1 5 本论文所做的工作 1 介绍了手写体数字识别广阔的应用前景和常用的识别方法,通过分析指出 手写体数字识别的难点在于无法建立精确的数学模型和做出简单可行的识别系 统。 2 本文介绍了人工神经元网络基本原理,指出了神经网络之所以能够用于手 写体数字识别的内在机理和独特优势。 31 分析了常规手写体数字识别的基本步骤,并指出手写体数字识别的关键步 骤是预处理和特征提取,在特征提取方面本文采用了傅里叶变换特征提取,压缩 特征提取,边缘特征提取,基元特征提取方法,通过分析可以得到阿拉伯数字由 端点,分点,交叉点,直线,弧和圆六种基元组成,对这六种基元进行组合就可 以得到阿拉伯数字的结构特征。 硕士论文基于b p 神经网络集成的手写体数字识别 4 介绍了手写体数字分类器的设计,详细介绍了神经网络分类器的设计过程 为提高网络的收敛速度和避免网络假饱和现象,对传统的神经网络做了一些改进, 例如对最优梯度法进行了改进,鉴于最优梯度法的收敛速度慢,本文采用了共 轭梯度法代替它,并且为了加快收敛速度和避免局部极小值问题,本文采取了共 轭梯度法和牛顿法结合的混合方法,即在开局用共轭梯度法,收局用牛顿法。本 文还采用了最优步长算法以加快收敛速度,为了加快收敛速度,本文还在权值前 面加入了修正量,在s i 舯o i d 函数中引入了陡度因子等。 5 、在神经网络集成方面本文采用了基于判决可靠度估计的最优线性集成算 法,在此方法中提出了分类器判决可靠度的概念,它是由广义置信度倒推出来的, 根据分类器判决可靠度的大小,把所有的样本分成不同的区域,在各个区域中用 最优线性集成算法求出多种分类权值,对测试样本用相适应的权值来提高分类效 果。在该方法中对不同的识别样本使用了不同的权值,这相对于传统的只使用一 种权值的最优线性集成算法大大提高了识别的正确率。当。个分类器很难识别一 个样本时简单的分类器组合也很难识别出,某些分类器对于总体样本识别率不 高,但它对于某些样本的识别效果要明显的高于其它分类器,相反某些分类器的 总体识别效率高但对某些样本的识别效率却很低,在简单的分类器组合中没有充 分发挥各个分类器的互补性。而基于判决可靠度的最优线性组合方法发挥了每一 个分类器成员在整个特征区域中的某个子区域时最优的优势,可以使多个分类器 之间实现互补从而大大提高了识别效率。 3 1 6 本文的内容安排 本文共分为五章。 第一章介绍了手写体字符识别的进展,同时对神经网络集成的研究与发展以 及在手写体数字识别中的应用进行了概述。 第二章讨论了手写体数字特征提取方法,分析了不同的特征提取方法对于手 写体数字识别的不同影响,并在此基础上对实验数据得到了7 个不同的特征集。 第三章对手写体数字识别中使用的b p 神经网络分类器进行了研究,并对单个 分类器的设计方法进行了改进。 第四章对集成的手写体数字识别系统进行了研究 第五章介绍了实验步骤并通过程序和试验数据证明了基于各类别判决可靠度 的最优线性集成方法有非常高的识别率。 1 7 参考文献 4 硕士论文基于b p 神经网络集成的手写体数字识别 1 罗晓彬,董守斌。“集成型神经网络手写体数字识别”计算机工程,第2 8 卷,第8 期,2 0 0 2 年8 月,第6 9 页 2 韩宏,“多分类器组合及其在手写体数字识别中的应用”中文学术期刊, 2 0 0 0 年4 月,第l 页 3 张丽,“基于多分类器动态组合的手写体数字识别”中文学术期刊,2 0 0 2 年4 月,第l 页。 硕士论文基于b p 神经网络集成的手写体数字识别 第二章手写体数字的特征提取 2 1 概述 特征提取的主要目的是从原始数据中抽取出用于区分不同类别的本质特征。 按照统计学的观点,好的特征抽取方法必须满足以下条件,特征之间相互独立, 减小类内距离的同时增大类间距离,特征向量的维数尽量小,但在实际应用中, 很难达到以上要求。 对于手写体数字,根据抽取特征的方法一般将其分为两类:统计特征( 局部 特征和全局特征) 和结构特征。统计特征是利用一些统计方法计算得到的,一般 包括点密度的估计。矩,特征区域等等。结构特征则是对字符的笔画进行分析得 到的,能更好地区分局部细节,一般包括圆,端点,交叉点,笔画,轮廓等等。 不同性质的特征描述了事物的不同方面,统计特征和结构特征各有优缺点,结构 特征对细节变化比较敏感,能较好的区分出结构上的细微差别。但是它对噪声也 比较敏感,对噪声大的图像识别率不高。结构特征一般使用句法类的分类器,对 于任意书写的手写体数字,由于训练样本数量的限制,总有一部分待识字符无法 分类,因此拒识率比较高,同时错误率比较低。统计特征对噪声不敏感,具有较 好的稳定性,但对图像细节上的细微差异不敏感,在待识字符相似时容易发生错 误。统计特征可使用的分类器较多。由上可知,统计特征和结构特征对于识别具 有一定的互补性,因此提取不同的特征对提高分类器的性能有很大帮助。 为更稳定地描述各个类别的差异,提取的特征必须对可能发生的各种变化具 有一定的不变性。通常应对下列变换具有不变性,如旋转,尺度,倾斜,拉伸, 镜像等,但某些类别( 如“6 ”和“9 ) 的识别却需要对旋转具有可变性的特征。 如果得不到具有不变性的特征,则可以将输入的图像正规化为具有标准大小的图 像,再进行特征提取,虽然这可能减少由于旋转,尺寸,倾斜等带来的差异,但 同时也会引进新的离散化误差,一些特征提取方法能够从被抽取的特征中重建得 到原始数据,这保证了原始数据的全部信息均可从抽取的特征中获得,但通常这 样抽取的特征维数较大,而由于训练集的大小有限,如果使用统计分类器,特征 的维数必须保持一合理的数量。基本原则是:每一类的训练样本的个数应当是特 征向量维数的5 一l o 倍。通常只取对分类最有效的前n 个特征。 在手写体数字识别的研究中,对于已二值化的图像提取特征的方法有许多 种,常用的统计特征有傅里叶变换特征,l e g c n d r e 矩特征,p s e u d o z 锄i l 【e 矩特 征与z e m 诖【e 矩特征。统计特征通常反映图像点阵总体分布情况,。这些特征的图 6 硕士论文基于b p 神经网络集成的手写体数字识别 像预处理简单,对噪声不敏感,但对字的一些精细结构部分反应不灵敏。由数字 图像的骨架和轮廓可抽取出手写体数字的结构特征,它往往对字结构精细部分反 映灵敏,但图像的预处理复杂,对噪声较敏感,一个完善的基于结构特征的分类 器往往十分庞杂。一般认为,不同性质的特征往往反映物体的不同方面,在一种 特征空间很难区分的两种模式可能在另一种特征空间上很容易分开;而对应于同 一特征的不同分类器又从不同的角度将该特征映射到决策空间上,因此利用不同 性质特征和不同分类器的组合就可能全面反映出一个物体,从而得到一个较好的 分类结果。【l 】 一般认为机器( 计算机) 拥有手写数字图象中的特征信息越多,则它的识 别能力越强。但这种信息也并不是越多越好,因为对于特定的分类器,有些特征 可能反而降低其分类性能,这是由于许多原因造成的,如类别间的相似性,特征 的不稳定性等等。而且使机器具有的信息越多,则需要进行越多的处理,而一般 识别是受时间限制的。因此我们必须先对文字图像作相应的处理。分析,把一个 复杂问题分成若干个较易解决的小问题,使文字中的许多信息逐步表现出来。 我们所需的信息有: 1 宏观特征信息,需要在整幅图像上获取的特征信息; 2 局部特征信息,只需要在图像局部区域上获取的特征信息; 3 微观特征信息,只需要在部分象素点或个别象素点上获取的细微的特征信 息。 2 2 手写体数字的特征提取 对实验数据得到以下特征集: 1 傅里叶变换特征:抽取图像矩阵的低频区域即左上,右上,左下,右下, 得到一3 2 维的特征向量。 2 压缩特征。抽取特征前,图像矩阵经过非线性的正规化处理成8 8 的图 像矩阵,则每个样本用一6 4 维的特征向量代表。 3 边缘特征提取。用一3 3 的模板与图像中3 3 的区域相乘,得到的结果 作为图像中这个区域中心位置的边缘强度。抽取特征前,图像被细化成骨架图像。 每一样本用一2 5 6 维的特征向量代表。 4 基元特征提取。每一样本由7 种基元组合而成,这样得到一7 维的特征向 量。 2 】 5 l e 鲫r e 矩特征。其x ,y 各计算到1 0 阶,抽取特征前,图像矩阵经过简 单的正规化处理,将矩阵表示数字笔画的值得个数规正为3 0 0 个。每一样本用一 7 硕士论文 基于b p 神经网络集成的手写体数字识别 1 2 1 维的特征向量代表。 6 z 锄i k e 矩特征。其被计算到9 阶,图像的预处理过程同5 。每一样本用一 3 0 维的特征向量代表。 7 p s e u d o - z e n l i l 【e 矩特征。计算到8 阶,图像的预处理过程同5 。每一样本用 一3 6 维的特征向量代表。 2 2 1 压缩特征的提取 坟x ,”为一( m n ) 矩阵 贼胪击篓篓m 川* ) u = 0 ,m l ;v = o ,。n - 1 rg r o o )g ( o 一1 ) g = i 、7、7 l lg a m 一1 ,o ) 一g a m 一1 ,一1 ) i m = :n = 3 2 取其中的低频区域即( 左上,右上,左下,右下) 共3 2 的特征得到以3 2 维 特征向量。 2 2 2 傅里叶变换特征提取 假设原图像为f ( m ,n ) ,n f l ,2 ,m ,n = 1 ,2 ,n ,正规化后的图象g ( i j ) , i _ 1 ,2 ,i ,j = 1 ,2 ,j 。 设h m ) ,v ( n ) 分别为笔画像素在水平和垂直方向的投影函数, h m ) = 乏:f ( m ,n ) ,m = l ,2 ,m v ( n ) = “f ( m ,n ) , n - l ,2 ,n式( 2 1 ) 非线性正规化处理方法的目的:通过坐标变换,使得规范化后图像的特征空 间上尽量均匀分布。 j = 日( 觅) 日( 尼) j = 撼) 献) 式( 2 。2 ) 此式裂明了原始图傣i 的像素( m ,n ) 在规范化后图像中的对应位置( i i j ) 。为减少特征维 数,将规范化后1 6 1 6 图像压缩为8 8 维,它构成了字符6 4 维压缩特征。 2 2 3 边缘特征提取 硕士论文基于b p 神经网络集成的手写体数字识别 二值图像的边缘特征提取是用数学算子实现的,如s o b e l 、p r e w i t t 、k i r s c h 、 拉普拉斯等多种算子。这些算子都是以一个3 3 的模板与图像中3 3 的区域相 乘,得到的结果作为图像中这个区域中心位置的边缘强度。在计算出图像中每一 个像素的边缘强度后,将边缘强度大于一定值的点提取出来,并赋以像素值“1 ”, 其余赋以像素值“0 ”。 设f ( i ,j ) 是( i ,j ) 处的像素值,( i ,j ) 位置处的边缘强度通常用差分值或其函 数来表示。简单的差分算法有: x 方向差分值:x f ( i ,j ) = f ( i ,j ) 一f ( i ,j 一1 ) y 方向差分值:y f ( i ,j ) = f ( i ,j ) 一f ( i 一1 ,j ) 边缘强度= l x f ( i ,j ) l + l y f ( i ,j ) l 或 = x 2 f ( i ,j ) + y 2 f ( i ,j ) ,等等。 各种算子的区别实际上只是计算差分的方法不同,本文采用了p r e w i t t 算子 和s o b e l 算子。 ( 1 ) p r e w i t t 算子 101 l01 l01 11 l oo 0 11 1 计算x f 的模板为图( 1 ) ,计算y f 的模板为图( 2 ) 。其特点是:对称于 中心位置处各像素的权值相同。 x f 、y f 分别等于相应模板与图像中对应区域元素相乘之和。即: 硕士论文基于b p 神经网络集成的手写体数字识别 x f = f ( i 一1 ,j 1 ) 一f ( i 一1 ,j + 1 ) + f ( i ,j 一1 ) 一f ( i ,j + 1 ) + f ( i + 1 ,j 一1 ) 一f ( i + 1 ,j + 1 ) y f = 瞰i 1 j 1 ) 郧+ 1 j 1 ) 】+ 【坪一l j ) 嗄i + l i j ) 】+ 【f 【i 1 1 ) 坟i + l 1 ) 】 式( 2 - 3 ) 边缘强度= l x f i + i y f l 或= 眦x ( 1 x f i ,l y f i ) 。 ( 2 ) 、s o b e l 算子 10一l 202 l01 12l oo0 121 ( 2 ) 计算x f 的模板为图( 1 ) ,计算y f 的模板为图( 2 ) 。其特点是:对称 于中心位置处,左右或上下方向上与对角线方向上各像素的权值不一样。 2 2 4 基元特征提取 数字图像由六种基元组成它们是:端点,分点,交叉点,直线,弧和圆。实 际应用中的手写体数字都是由这六种基元组和而成,例如数字“6 ”就由一个端 点,一个交叉点,一条弧和一个闭合圆组成。通过实际的样本学习,获得了几种 样本的组合。由于端点的数量和位置比较稳定,不随书写者的变化而发生大的变 化,所以在点和线的组合中,以端点为起始点。一条曲线我们取三个特征点:起 始点,线段和尾点。 我们规定了起始点只有一种:端点,线段有两种:直线和弧,而尾点可能有 三种:端点,分点和交叉点。这样,线段的基元组合共有1 2 3 = 6 种,即1 端点+ 直线+ 端点,2 端点+ 弧+ 端点3 端点+ 直线+ 交叉点4 断点+ 弧+ 交叉点5 端 点+ 直线+ 分点6 端点+ 弧+ 分点,再加上闭合圆一共有7 种基元组合。通过对基 l o 硕士论文基于b p 神经网络集成的手写体数字识别 元的组合,大大简化了基元矢量的维数,减少了不同人手写习惯差异的影响,将 基元的数字化的特征转变为结构化的特征,并将基元的数量和基元相互之间的相 互位置关系结合起来。 2 2 5 矩特征提取 基于矩的特征提取主要是计算图像与给定的二维多项式乘积在给定范围内 的积分值,此积分的形式如下: m 胛= 炒( x ,j ,) 乃朋( x ,y ) d ,d y ,其中f ( x ,y ) 是二维字符图像,五朋( x ,y ) 是x 方向上p 阶,y 方向上q 阶的多项式, 在实际的运算时,这些积分值通过在离散区域上的求和来近似的。多项式的 形式有许多种7 最为简单是办朋( x ,y ) 2 x py 9 ,由此获得的是图像的几何矩。 这里我们抽取了l e g e n d r e 矩,z e m i k e 矩,p s e u d o z e n 放e 矩特征。 为使得到的矩特征具有尺寸不变性,需要对原图像进行正规化。 设图像长宽为m ,n ,f ( x ,y ) 表示图像上点( x ,y ) 的值,笔划像素值1 ,背景像素 值为o 。规正化使笔划的像素总数为,此处取= 3 0 0 。令聊0 0 = 妒( x ,y ) d ,d y , 朋 现在需要获得一长宽为m a ,n a 的新图像f 。( x ,y ) ,使得,( 工,少) d 。d ,= ,而 m = 稍( x ,少) d ;d y = 稍p ( x 口,y 口) d ,d ,= 舅( x ,y ) 抠d y _ 口2 , 碱m n m n | 蠢 因此a _ 聊0 0 故只要将原始图像长宽等比放大a _ m 。倍即可。 以下三种矩特征均是对用以e 方法预处理过的图像计算得到的。 2 2 5 1 l e g 阻d r e 矩特征提取 图像p ( x ,y ) 的( p ,q ) 阶l e g e n d r e 矩五月,定义如下: 名脚= 工p ,( 功p 。( y ) f ( 石,y ) d ,d y , 其中蹦功= 南书寿( x 2 一1 ) ,外加南木丢( x 2 1 ) 9 延w , 硕士论文基于b p 神经网络集成的手写体数字识别 在离散的情况下,计算可由下式逼近: 一mn 免胛。即( 耐) p g ( 谚) ,( 酊,谚) 蛐 扛l = l l e g e n d r e 矩不具备旋转不变性。 式。 2 2 5 2z e m i l 【e 矩特征提取 式( 2 - 4 ) z e n l i l ( e 矩引入了在单位圆( x2 + y 2 = 1 ) 内部构成完备正交集的一组复多项 令这组多项式表示为v 。( x ,y ) , 则v 。( x ,y ) 三v ( p ,p ) 2 r 。( 户) e x p o m 秒) , 式( 2 - 5 ) r c p ,2 伽萎坨c - 1 ,狐:苫习晦”缸,其中n 是正整数或o ,m 是正整数或负整数,满足n l 聊l = 偶数且i 柳l n ,p 是原点到点( x ,y ) 的距离,护是 点( x ,y ) 到原点的矢量与x 轴逆时针方向的夹角, 这组多项式满足: :j _ x ,y ) + v 脚( x ,y ) d ,d ,2 j 吾,皖a 2 1 ( a - b 时) ,瓯a 2 0 ( 其 工+ y = l 。一 它情况) a 。= 莩,( w ) v 。( p ,“x 2 + y 2 l式( 2 - 6 ) z 锄i k e 。矩真各旋转不变性 2 2 5 3p s e u d o - z e m i l 【e 矩特征提取 p s e u d 0 一z 伽1 i k e 矩与z e m i k e 矩比较相似,它们的不同在于对r 。( p ) 的定义, 在p s e u d o - z i d c e 矩中,r 。( p ) 定义为: r。(c)22薹i()5:iii;:;ii;j;!;9”一ja:c 2 7 , 其余的与z 锄i k e 矩的计算是一样的。 同样,p s e u d o z e n l i k e 矩也具备旋转不变性。 硕士论文 基于b p 神经网络集成的手写体数字识别 由于正交矩特征的计算较为复杂,故需要一种快速而且精确的算法。步骤如 下: 1 计算得到图像的几何矩特征。 2 为将图像的有效大小包含在要求的外接圆或外接矩形中,对这些获得的几何 矩还需进行一些相关计算。 3 将这些值变换为相应的矩特征。具体讲几何矩转换为对应的l e g e i l d r e 矩, z e n l i k e 矩与p s e u d o z 锄i k e 矩的过程见参考文献 4 】。 2 3 参考文献 1 金钟,胡钟山,“手写体数字有效鉴别特征的抽取与识别”,计算机研究与 发展,第3 6 卷,第1 2 期。 2 韩虹,“多分类器组合及其在手写体数字识别中的应用”中文学术期刊,2 0 0 0 年4 月 3 a b h i j i ts p a n a d y a ,r o b e r tb m a c y 著徐勇,荆涛等译神经网络模 式识别及其实现电子工业出版社 4 l i a os i m o nx a n dp a w l a km i r o s l a w ,o ni m a g ea n a l y s i sb ym o m e n t s i e e e t r a n s p a m i ,v o l ,1 8 , n o 3 ,p p , 2 5 4 2 6 6 ,19 9 6 硕士论文 基于b p 神经网络集成的手写体数字识别 3 1 分类器简介 第三章手写体数字系统的分类器设计 分类器的设计是模式识别问题最为关键的问题。针对模式特征的不同选择及 其判别决策方法的不同,可将模式识别方式大致分为五大类:统计模式分类法、 句法结构方法、逻辑特征法、模糊方法、神经网络方法。 1 其中神经网络方法 就是使用人工神经网络实现模式识别。可处理一些环境信息十分复杂,背景知识 不清楚,推理规则不明确的问题,允许样品有较大的缺损、畸变,神经网络方法 的缺点是其模型在不断丰富完善中,目前能识别的模式类还不够多i 神经网络方 法允许样品有较大的缺损和畸变,这正是识别存在较大噪声的手写体数字识别所 需要的。在数字识别中1 0 个数字并不多,所以用神经网络方法实现不必考虑其 识别类不够多的问题。 2 鉴于以上分析,神经网络模式识别具有良好的容错能力,分类能力强,并行 处理能力和自学习能力等原因,神经网络成为手写体识别较好的选择。 3 2 神经网络的基本概念 人的思维有逻辑性和直观性两种不同的基本方式。逻辑性的思维是指根据逻 辑规则进行推理的过程,它先将信息转化成概念,并用符号表示,然后根据符号 运算按串行方式进行逻辑推理;这一过程可以写成串行的指令,让计算机来执行。 直观性的思维是将分布式存储的信息并行协同处理的过程。譬如说,我们常常无 意识地将分布在大脑各部位的信息综合起来,结果是忽然间产生想法或解决问题 的方法。这种思维方式的根本之点在于以下两点: 1 信息是通过神经元上的兴奋模式分布存储在网络上; 2 信息处理是通过神经元之间同时相互作用的动态过程来完成的。 人工神经网络就是模拟人思维的第二种方式。它是一个非线性动力学系统,其特 色在于信息的分布式存储和并行协同处理。神经科学研究表明,生物神经系统是 由大量的神经细胞或神经元广泛相互连接组成的,一个神经元与另一个神经元密 切接触,传递神经冲动,实现信息传递。人的大脑皮层是由六个不同的功能区组 成的,上面布满了大约1 0 1 1 个神经细胞,它相当于一万台大型计算机并行运行。 所以说,人脑是一个广泛相互连接的复杂非线性系统,这种系统具有特殊的信息 处理功能。研究人的大脑的目的就是试图模拟人脑信息处理机制来设计新一代智 ,j 1 4 硕士论文基于b p 神经网络集成的手写体数字识别 能型计算机,所以,工程上研究的都是人工神经网络的范畴。美国的神经网络学 家h e c h tn i e l s e n 给出人工神经网络的一般定义:神经网络是由多个非常简单的 处理单元彼此按某种方式相互连接而形成的计算机系统,该系统是靠其状态对外 部输入信息的动态响应来处理信息的。 3 用数学表达式对神经元进行抽象和概括,令x ;( t ) 表示t 时刻神经元j 接收 的来自神经元i 的信息输入;o ,( t + 1 ) 表示t + l 时刻神经元j 的信息输出,则神 经元j 的状态表达式为: o ,( t + 1 ) = f 而( t ) - b ,) f - l 式( 3 1 ) 其中,b ,表示神经元的阈值;表示神经元i 到j 的权值;f ( ) 表示神经 元转移函数。有一点需要说明,上式是为了简单起见,将突触时延取为单位时间。 输入总和常称为神经元在t 时刻的净输入,用下式表示: n e t ,( t ) = t ( t ) 式( 3 2 ) f - 1 同样是为了简单起见,本文在后面用到上式时,常将其中的( t ) 省略。如 果令x o l ,缈o ,2 b ,则有一b ,2x o 国叮,因此净输入与阈值之差可表达为: 综上,神经元模型可简化为: 图3 一l ( 人工神经元模型) 虽然单个神经元的结构及其简单,功能有限,但大量神经元构成的网络系统 所能实现的行为却是及其丰富多彩的。与常规的算法相比,神经网络具

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论