基于BP神经网络的字母识别系统设计与实现_第1页
基于BP神经网络的字母识别系统设计与实现_第2页
基于BP神经网络的字母识别系统设计与实现_第3页
基于BP神经网络的字母识别系统设计与实现_第4页
基于BP神经网络的字母识别系统设计与实现_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

济南大学泉城学院毕业论文题目基于BP神经网络的字母识别系统设计与实现专业电气工程及其自动化班级07Q2学生学号指导教师济南大学泉城学院毕业论文-PAGE36-摘要基于前向反馈神经网络的字母识别技术在科学技术日新月异的今天迅速得到发展,在诸多的方面得到应用包括出版、金融、军事、现金登记、页面浏览以及任何带有重复性、变化性数据的文件。英文字母识别系统的设计经过以下几个过程:预处理、特征提取、BP神经网络的训练、识别。本文的重点在于BP神经网络。本文运用的是三层神经网络,输入层、隐含层、输出层。隐含层节点的确定本文给出了多种方法,本文运用了根值的方法。基于人工神经网络字母识别的特点和优越性,主要表现在三个方面:第一,具有自学习功能。字母识别时,只在先把许多不同的图像样板和对应的应识别的结果输入人工神经网络,然后在识别之前对神经网络进行训练形成稳定的权值这样网络通过自学习功能,慢慢学会识别类似的图像。第二,具有联想存储功能。用人工神经网络的反馈网络在字母识别时可以实现这种联想。第三,具有高速寻找优化解的能力。字母识别时寻找一个复杂问题的优化解,往往需要很大的计算量,利用一个针对某问题而设计的反馈型人工神经网络的字母识别系统,发挥计算机的高速运算能力,可能很快找到优化解。本文是在matlab环境下模拟整个英文字母的识别过程,随着科学技术的发展识别技术更加成熟,各种难题都将会得到解决。关键词:字母识别;图像处理;特征提取;BP神经网络ABSTRACTTodaythescienceandtechnologydeveloprapidly.Letterrecognitiontechnologybasedonthefeedbackneuralnetworkisappliedinmanyaspectsincludingpublication,financemilitary,cashregister,pageviews,andanywithrepeatability,andvariabilityofdatafiles.

LetterIdentificationSystemincludethefollowingprocesses:preprocessing,featureextraction,BPneuralnetworktraining,andrecognition..

Inthispaper,weuseathree-layerneuralnetwork,includinginputlayer,hiddenlayerandoutputlayer.ThispapersupplyofavarietyofmethodstodetermineHiddenlayernodes.Therootsignmethodandothermethod.thatproposedbytheNelsonandIllingwnrthareapplied.ThefeaturesandadvantagesofArtificialneuralnetworkisreflectedinthreeaspects:First,aself-learningfunction.Whenwerecognizeletters,onlyputtingmanydifferentimagesandthecorrespondingresultsintotheartificialneuralnetworkandformingastableweightbeforetheletterrecognition,thenetworkwillbethroughself-learningfunctiontoslowlyidentifysimilarimages.Second,withtheassociationstorage.Artificialneuralnetworkfeedbacknetworkcanachievethisassociationintheletterrecognition.Third,findingtheoptimalsolutionwithhighcapacity.Findingtheoptimalsolutionofacomplexoftenrequirealargeamountofcomputation.Usingadesignthatafeedbacktypeartificialneuralnetworkforproblemandplayingthehigh-speedcomputingpowerofcomputer,youmayquicklyfindtheoptimalsolution.Inthematlabenvironmentthisarticlesimulatetheentireprocessofletterrecognition,withthedevelopmentofscienceandtechnologyrecognitiontechnologyismorematureandhavevariousproblemswillbesolved.Keywords:Letteridentification;imageprocessing;featureextraction;thefeedbackneuralnetwork目录摘要 IABSTRACT II1前言 11.1研究背景及意义 11.2研究现状 21.3手写字母识别方法 31.3.1结构模式识别方法 31.3.2统计模式识别方法 31.3.3统计与结构相结合的识别方法 41.3.4人工神经网络方法 41.4识别系统性能的评价 51.5论文组织结构 52预处理 62.1系统框架 62.2预处理概述 62.3本文预处理设计 62.3.1去噪 72.3.2二值化 82.3.3归一化 102.3.4细化 113字母特征提取 133.1特征提取概述 133.2本文特征提取设计 133.2.1像素百分比特征 143.2.2提取矩阵的粗网格特征 153.2.3重心特征 163.2.4提取图像的矩阵像素特征 163.2.5笔划特征 173.2.6外轮廓特征提取 184BP神经网络 194.1人工神经网络 194.2神经网络的模型图 204.3BP神经网络的工作原理 214.4神经网络的各层节点数 224.4.1输入层和输出层 224.4.2隐含层节点数的优化确定 234.5BP神经网络的参数设计和训练过程[17] 255实验结果及分析 285.1实验设计 285.1.1实验参数 285.1.2训练和识别样本库设计 285.2隐含层节点对实验结果的影响 285.2识别样本的正确率 305.3实验结果分析 31结论 32参考文献 33致谢 35附录 361前言1.1研究背景及意义手写字母识别技术是光学字符识别(OpticalCharacterRecognition,简称OCR)的一个分支,字母识别的研究背景要追溯到早期的光学识别技术,距今已有40多年的发展历史。早在60—70年代,世界各国就开始有关于OCR的研究,而在研究的初期,多以文字的识别方法研究为主线,且识别的文字仅为0~9的数字。以同样拥有方块文字的日本为例子,其开始的光学字符识别技术走在世界前列,1960年左右开始研究光学字符识别的基本识别理论,在初期以数字为对象,直到1965至1970年之间开始有一些简单的产品,例如印刷文字的邮政编码识别系统,识别邮件上的邮政编码,帮助邮局作区域分信的作业活动;因此至到今天邮政编码一直是各国所倡导的地址书写方式。BP神经网络手写字母识别技术的研究有着重要的意义。神经网络可以用于分类、聚类、预测等诸多领域。识别技术用于计算机的数据自动输人,早期的识别系统被用于大量形式多样的数据输人方面,比如处理汽油借记卡等。这种应用能够从非打印卡的账号中辨认购买者。早期的设备与打孔处理器一起来使用,伴随着计算机和识别系统精密程度的提高。识别的浏览器能够直接访误码CPO,这项技技术也影响到了信用卡交易的付款处理的过程。目前,这些项应用仍是识别领域最主要用途之一。英语是世界上使用人数最多的文字之一。快速高效地将字母输人计算机,是信息处理的一个关键问题。人工键入速度慢而且劳动强度大,对于大量已有的文档资料,英文自动识别输人就成为了最佳的选择。它在英文信息处理、办公室自动化、机器翻译、人工智能等高技术领域,都有着重要的实用价值和理论意义。对于印刷体字符,首先采用光学的方式将文档资料转换成原始黑白点阵的图像文件,然后通过识别软件将图像中的文字转换成文本格式,以便文字处理软件的进一步加工。英文字符识别是模式识别的一个重要分支,也是文字识别领域比较困难的问题,它涉及模式识别、数字信号处理、图像处理、人工智能、模糊数学、计算机、信息论、中文信息处理等诸多学科,是一门综合性的技术。近几年来,印刷英文字符识别系统的单字母识别正确率已经超过90.5%,为了进一步提高系统的总体识别率,扫描图像、图像的预处理及识别后处理等方面的技术也都得到了深入的研究,并取得了很大的的进展,有效地提高了印刷字母识别系统的总体性能研究英文字母识别的BP神经网络模型,最终目的就是要使BP字母识别系统实现工业化,能像现在的一些手写英文字母识别系统或印刷体英文字母识别系统一样成为产品走向市场。字母识别固然有很多难题,但是相信随着科学计算机技术、人工神经网络技术的快速发展以及人脑功能的进一步揭示,英文字母识别的理论和方法必将有大的飞跃.结合人工神经网络的发展史,我们有着对BP神经网络的展望。虽然神经网络的理论研究有着广阔的发展前景,但是每个领域的研究就是既充满诱惑又充满挑战.没有人可以肯定告诉我们它的发展不会再经受挫折,也没有人会知道一旦成功实现其最终的目标会给世界带来多大的巨变.但是我们有理由相信坚持不懈地致力于BP神经网络理论方法研究必定会给21世纪科学研究带来辉煌。1.2研究现状于21世纪40年代早期人工神经网络在国外率先得到发展。下面将以时间为顺序,以著名的人物或某一方面的突出研究成果为线索,简要介绍人工神经网络的发展历程。在1943年,W·Mcculloch和W·Pitts通过分析、总结神经元的特性的基础上提出了神经元的数学模型。该模型一直沿用至今,并且一直影响该领域研究的进展。因而,称二人为人工神经网络研究领域的标志人物。1982年,美国加州工物理学院J.J.Hopfield提出了Hopfield神经网格模型,引入了“计算能量”的概念,给出了网络稳定性判断。1984年,他又提出了连续时间Hopfield神经网络模型,为神经计算机的研究做了开拓性的贡献,开创了神经网络用于联想记忆和优化计算的全新的途径,有力地推动了神经网络的研究发展,1985年,又有学者提出了波耳兹曼模型,在学习中采用统计热力学模拟退火技术,保证整个系统趋于全局的稳定点在日本的“真实世界计算”项目中,人工智能的研究成了一个重要的组成部分。[1]我国在识别领域的研究起步较晚,在20世纪70年代才开始对符号、字母、数字进行识别研究,对汉字的识别研究开始于70年代末期,到86年我国汉字的识别研究进人一个跨越性的时期,并取得了丰硕成果,并相继推出了许多中文识别的实用产品。我国的许多研究部门在80年代初期就开始对字符识别进行研究,从80年代开始,神经网络的识别研究开发就一直受到国家“863”计划的资助与支持,并已经有了初步的回报。排列浏览方法以及高速计算机的出现,产生了图像处理过程这一概念。“图像处理过程”并不要求BP识别成功地派上用场,例如,BP神经网络系统将文件转变成电子数字条目的能力,将有效地取代显微胶片。相对于处理现实中的文件式显微胶片的图片,这种系统能力为用户提供了更方便地整理图像的方法。当通过上述的排列浏览方法生成识别逻辑单元后,图像处理可以采用“离线”方式而不是过去的"实时"方式。这是区别早期识别系统的最大的优点,现在的识别系统能够允许强有力的逻辑系统持续工作,并不再对要浏览的字符的大小字体及数据位置两方面信息作出的要求。譬如金融服务业的支票处理服务的“便捷图像数据辨别”就是这样的。1.3手写字母识别方法英文字母的结构表达形式和相应的单词形成方法有多种,每种结构形式又可以选择不同的特征,并且特征有不同的抽取方法,这样识别算法、标准、举学工具也不相同,这就造成了英文字母识别的算法种类繁多,结构不尽相同。因此,不同特征提取特征和神经网络的设计方法决定了识别系统所用得处理方法。通常可以分为统计模式方法、结构模式方法、统计与结构相结合的方法和人工神经网络方法.1.3.1结构模式识别方法运用模式的基元和基元间的结构关系对模式描述与识别。在很多情况下,可以运用形式语言理论中的文法对模式的结构内容进行表示,有时也称其为句法模式识别。预处理、文法推断、模式表达、句法分析四个部分(如图1.1)构成了结构模式识别系统。输入模式输入模式分类及描述句法分析模式表达预处理句法分析模式表达预处理样本模式样本模式文法判断文法判断图1.1,句法模式识别框图1.3.2统计模式识别方法广义地说,存在于时间和空间中可以观察的事物,如果可以区别它们是否相同或相似,都可以称为模式;狭义地说,模式是通过对具体的个别事物进行观测所得到的具有时间和空间分布的信息;把模式所属的类别或同一类中模式的总体称之为模式类(又简称为类)。而“模式识别”则是在某些一定量度或观测基础上把待识模式划分到各自的模式类中去。[31]对模式的统计分类方法,即把模式类看成是用某个随机向量实现的集合,又称为决策理论识别方法。属于同一类别的各个模式之间的差异,部分是由环境噪声和传感器的性质所引起的,部分是模式本身所具有的随机性质。前者如纸的质量、墨水、污点对书写字符的影响;后者表现为同一个人书写同一字符时,虽形状相似,但不可能完全一样。因此当用特征向量来表示这些在形状上稍有差异的字符时,同这些特征向量对应的特征空间中的点便不同一,而是分布在特征空间的某个区域中。这个区域就可以用来表示该随机向量实现的集合。模式识别系统在进行工作时只要判断被识别的对象落入哪一个区域,就能确定出其所属的类别。1.3.3统计与结构相结合的识别方法统计与结构相结合的识别方法能够很好的解决字符正确识别率的问题,结构识别方法和统计识别方法分别应用在识别的不同层次上。统计识别用于基元的提取上二结构识别用于整体符号的识别上,我们可以分为以下几步:(1)符号处理:用细化和归一化对待识字符进行处理。(2)基元提取:利用神经网络和Freeman分别生成节点基元集合和连线基元集合,他们组成了符号基元集合(3)符号文法:利用得到的符号基元集合来建立符号的有向图的表示法再利用图的遍历算法遍历所有节点形成符号句再用模糊度形成三级模糊度符号句子。(4)句子匹配:对符号的三级模糊度进行匹配进而得到识别结果。[6]1.3.4人工神经网络方法人工神经网络(ArtificialNeuralNetworks,简写为ANNs)也简称为神经网络(NNs)又称作连接模型(ConnectionistModel),它模范动物的神经网络行为特征,是一种分布式并行信息处理的算法模型。该网络通过调整内部节点间相互的连接关系,进行信息处理。人工神经网络具备自学习和自适应能力,通过先前提供的大量的输入数据,进行分析,掌握输入输出之间内在的规律,最终利用这些规律,利用提取得到的新数据来计算输出结果,这种学习分析的过程被称为“训练”。人工神经网络包括LMBP神经网络、GA神经网络、BP神经网络等多种神经网络。[8]1.4识别系统性能的评价衡量一个BP神经网络系统性能好坏的主要指标有:正确识别率(正确识别率=正确识别样本数/全部样本数*100%)、错误识别率、识别速度、用户界面的友好性,产品的稳定性,易用性及可行性等诸多方面。对神经网络的研究目前许多技术不能确定,正确率永远达不到100%,只能靠近,它们之间进行着拉锯战。由于与很多因素有关,比如作者的书写习惯、扫描的质量、识别运用的算法、学习与训练的样本等,都可能影响识别正确率,所以BP神经网络产品不但需要一个核心技术,产品的操作使用方便性、所提供的除错功能及方法,也是决定产品好坏的重要因素[9]。1.5论文组织结构手写字母识别是指利用BP神经网络辨认手写英文字母的一种技术,它属于OCR范畴。基于BP网络的手写英文字母识别包括两个阶段:一个是训练阶段和一个是识别阶段,这两个阶段包含输入、预处理、特征提取、分类及输出五个部分。本文将通过五章地内容进行讨论,用MATLAB仿真得到实验数据并对全文进行总结。第一章前言当中介绍了手写体数字识别的研究背景与意义、现状、手写字母的四种实现方法,对识别系统性能的评价第二章讨论了手写英文字母识别的预处理方法,包括图像的去噪、二值、归一化、细化。图像预处理的本质是:特征提取时提取的字母特征能有效地反映手写英文字母的本质特征。本章中介绍了预处理的不同方法,并详细分析各阶段的显现过程。第三章主要讲述英文字母的特征提取,介绍了提取的特征即实现方法。本文选取的特征包括重心、像素百分比密度特征、矩阵变换特征、粗网格特征、外轮廓特征笔划密度特征六种方法。第四章介绍分类器的设计原理和实现算法,指出BP网络用于手写字母识别参数选择。并结合提取的特征向量,确定本文采用的BP网络的网络模型。第五章对实验结果进行了分析。指出了影响正确识别率的几个潜在的机理。第六章对本文所作的工作进行总结,并提出BP神经网络识别的工作展望。2预处理2.1系统框架基于BP神经网络的手写英文系目的识别过程分为学习阶段和识别阶段,学习阶段和识别阶段都要对样本字母进行预处理、特征提取,学习阶段还要进行训练确定稳定的权值,识别阶段还要经过分类在输出识别结果。样本字母样本字母预处理特征提取训练模式待识字母预处理特征提取分类结果输出学习阶段识别阶段图2.1系统的识别框架图2.2预处理概述在进行手写英文字母识别时需要对所得到的手写英文字母图像提前进行预处理,不同地域的人在书写英文字母的过程中的书写风格不尽相同即使是同一地域的人由于山谷写的任意性也会造成手写字母的形式千变万化,令外数字图像在采集过程中,受图像质量、扫描性能的影响,数字图像会带有形变和噪声,这些变化都会影响英文字母的识别效果,预处理的目的是消除原始图像中的噪声,将原来的图像转化为清晰的二值化图像,便于对手写字母的微观结构特征的提取。因此预处理过程的效果会对特征的提取、数字识别产生重要的影响。本文采用的的字母图像的预处理过程:去噪、二值化、归一化和细化。2.3本文预处理设计本章的预处理过程的设计如图2.2所示:字母图像的预处理字字母去噪处理字字母二值化处理字母图像的预处理字字母去噪处理字字母二值化处理字字母归一化处理字字母细化处理2.3.1去噪我们得到的原始图像应书写风格的不同,外部环境的影响往往存在个别的孤立点,这就是我们说的噪音。这些孤立的点在图像中是我们不想要的,必须进行去除才能提高英文字母的识别率,如何进行去噪本文涉及两种方法。(1)均值滤波:均值滤波是一种典型的线性滤波方式,它的工作原理是对于目标像素存在一个模板,在这个模板中包括目标像素周围的8个像素点,用着八个像素点的灰度平均值来代替目标像素点的灰度值。均值滤波采用的主要是平均法,因此均值滤波又叫线性滤波,它是用周边像素点G1(x1,y1)至G8(x8,y8)(G代表灰度)的平均灰度来代替当前像素点G(x0,y0)的灰度值,m为模板周围像素点的个数[15]。(2)中值滤波:相对于均值滤波来说中值滤波是一种非线性的滤波方式,它是图像预处理中有效地去噪方式,被广泛的应用。中值滤波的工作原理:用一个奇数的移动窗口,某一点的值是该奇数窗口中所有像素点的中间值,比如说,假设窗口内有七点,其值为70、80、90、200、115、120和210那么此窗口内各点的中值及为115。那么中值滤波的具体实现形式又是什么呢?我们设一个一维序列的数组f1,f2,…,fn,取移动窗口的长度为m(当然m为奇数),我们,对其进行中值滤波时,就是从我们选定的序列中连续抽出m个数fi-a,…,fi-1,fi,fi+1,…,fi+a(fi为窗口的中心值,a=(m-1)/2),再将这m个点按其数值大小进行排序,数值顺序单调上升或单调下降,取其序号的中心点的那个数作为滤波输出。设模板窗口像素点的个数为5灰度值分别为0、8、4、6、2经过中值滤波函数filter后输出序列外0、2、4、6、8在去中间值为4,则5个像素点G(x1,y1)-G(x5,y5)的灰度值为5。均值滤波和中值滤波的比较:对于均值滤波把目标像素点都用模板周围的8个像素的灰度均值来代替。可以有效地对图像进行平滑并且速度快,算法简单。但是无法有效地去除噪声,只能微弱的减弱噪声。而对于非线性滤波方法也就是我们说的中值滤波,它是图像预处理技术中最常用的核心处理技术。它在平滑去除噪声方面十分有效,并且它能够保护图像尖锐的边缘。所以均值滤波和中值滤波都有各自的利与弊,选用哪一种滤波方式这要看我们对识别的要求。如果是用在要求识别速度快但对正确率要求必是很高的场合我们可以选择运用均值滤波的方式,如果使用在要求高正确率的场合,比如银行、金融业,我们就必须运用中值滤波来实现。本文要求较高的识别率选用了中值滤波来实现英文字母的识别。对C进行滤波前后的对比如下图:滤波前滤波后图2.3手写字符滤波前后比对图2.3.2二值化在数字图像的处理当中,二值图像有着非常重要的地位。第一,图像二值化后有利于图像的进一步处理,使图像变得简单,而且整体数据量减小,能凸显出的图像的整体轮廓。第二,要进行二值图像的处理与分析,首先要把0-255的灰度图像进行二值化,得到二值化图像。图像的二值化就是将图像上的像素点的灰度值设置为0或1,0代表白色(或黑色),1代表黑色(或白色)也就是将整个图像呈现出灰度为0或255明显的黑白效果。二值化在matlab中是如何实现的呢?256个亮度等级的灰度图像经过选取适当的阀值而仍然可以获得反映图像局部和整体特征的二值化图像。(2.1)如公式(2.1)所有灰度大于或等于选定阀值T,即ƒ(x,y)>=T,的像素被判定为属于特定物体,其灰度值变为255用1(或0)来表示,否则,即ƒ(x,y)<T这些像素点被排除在物体区域之外,灰度值为0,用0(或1)来表示,表示背景或例外的物体区域。图像的二值化过程运用了许多的算法大体可以分为两类一类是全局阀值;一类是局部阀值。对于全局阀值来说选取阀值T整幅图像当中凡是大于阀值T的均为1,相反只要小于阀值T则为0二对于局部阀值来说首先要对图像进行分割,每一部分的阀值T是不一样的实质就是进行图像的局部二值化。有效地确定阀值所得到得二值化图像可以提高英文字母的正确识别率。最大类间方差方法是二值化全局阈值算法的最为杰出的代表之一。它是由Otsu于1979年提出的一种基于判别式分析的方法。基本想法是以最佳门限将图像灰度直方图分割成两部分,使两部分类间方差取最大值,即分离性最大。把图像中的像素按灰度级阀值T分成两大类C0和C1C0=(0、1……T)C1=(T、T+1……255)若用σ2w、σ2B、σ2T表示示类内、类间和总体建立三个函数式[11](2.2)则最优值(2.3)TE{0,1,Lƒ-1}运用这种方法计算简单,稳定且有效,是实际应用中经常采用的方法之一。我们用这种方法确定了阈值是0.7,如图2.3所示二值化前后的图像:二值化前二值化后图2.4二值化前后图像对于我们要鉴定的字母二值化前后的字母矩阵是什么变化呢?以125为阈值举例,运行程序后字母矩阵得到如下表结果表2.1字母二值化前后的矩阵(a)二值化前(b)二值化后4578221789047217852340481281781272912826490179941249387100100010100111010001000002.3.3归一化我们所要鉴定的字符的大小规格不尽相同,这对后续英文字母的特征提取,识别操作环节会造成一定的障碍。将每个数字图像统一到同一的高度和宽度,这就是图像的归一化。基本上归一化思想是利用图像的不变矩寻找一组参数使其能够消除其他变换函数对图像变换的影响。也就是转换成唯一的标准形式以抵抗仿射变换。还有一种归一化思想在matlab里图像数据有时候必须是浮点型才能处理,而图像数据本身是0-255的UNIT型数据所以需要归一化,转换到0-1之间。归一化使得所有的图像在识别之前都在同一个起跑线是为了加快训练网络的收敛性,归一化的具体作用是归纳统一样本的统计分布性。归一归一化有同一、统一和合一的意思。无论是为了建模还是为了计算,首先基本度量单位要同一,神经网络是以样本在事件中的统计分别几率来进行训练(概率计算)和预的。本文采用的是尺寸上的归一花,归一化通常有两种形式:一种是外轮廓归一化,另一种是重心的一化可以得到笔划均匀分布的图。重心到中心归一化后的坐标由式[12]:(2.4)公式当中:w为图像的宽度,h为图像的高度外轮廓归一化的原理是利用图像的伸缩性得到一定尺寸的图像.具体的算法如下:首先得到原来字符的高度,并与系统要求的高度进行比较,得到长或宽的变换系数,然后根据得到的变换系数求得图像变换后的宽度和高度。在得到宽度和高度之后,把新图像里面的点映射到原图像中。归一化把原始的图像放大成一个相同规格的全新的字符图像,其中新增加的像素其灰度值只是基于原始字符图像所派生出来的,所以图像的信息量并未增加,但使得图像更易于处理有利于提高识别率。归一化前后的对比字符(如下):图2.5归一化前归一化后2.3.4细化在样本图像的识别过程当中细化处理能够有效的提高字符的识别率,图像的细化过程实际上就是图像的核心骨架的提取过程。因为在识别过程当中印刷体和手写体对识别正确率有影响,不同的英文字体以及不同人的书写形式都对识别的正确率产生重要的影响,但是每个英文字母的核心骨架是不会有很大的变化,这样字符的细化处理可有效的消除这种不利的影响提高是别的正确率。细化的算法有两种:一种是非迭代一次细化完成,如图(2.6细化后图像);一种是迭代N次细化完成。细化就是就是在保留原始图像的拓扑结构的基础上尽可能的消去二值图像边缘的像素将待识别字符的宽度减少为1,即为单像素宽度,这个过程就是字符的细化。对字符进行细化的过程当中我们选取算法是要有一定的准则:(1)细化算法不应该改变待识字符的连续性。(2)细化算法不应该去除重要点例如拐点。(3)算法不应该对噪声敏感,即当待识字符边界上出现噪声时,对细化结果不产生影响。(4)细化后的图像要有效地保留原图像的核心骨架结构,比如保留细化前图像的拓扑结构等。细化前后我们用简单的二值化矩阵(如下)举例来表示:Example:L=0000000000

0111110000

0111110000

0111110000

0111110000

0111110000

0111111110

0111111110

0111111110

0111111110

0111111110

Result:L0000000000

0000000000

0000000000

0001000000

0001000000

0001000000

0001000000

0001000000

0001110000

0000000000

0000000000

图2.6细化后的图像经过上述预处理:平滑滤波去噪、二值化、大小归一化四个过程,我们所得到的新图像具有鲜明的特征,使得所有图像处在了同一个起点上,为第三章讲述的特征提取创造了条件。3字母特征提取3.1特征提取概述特征提取指的是使用计算机提取图像信息,来决定每个图像的点是否属于一个图像特征。特征提取就是把图像上的点分成不同的区域子集,这些子区域往往属于孤立的点、连续的曲线或连续的区域。在字符的识别当中,特征的选择是一个关键问题。对于某一具体的识别应用,所选择的特征往往会影响最终的正确识别率。因为在很多实际应用问题中往往不容易找到字符最重要的特征,或受某些条件限制不能对它们进行实际的测量,这就使的特征选择和提取的任务非常的困难,所以特征的有效选择成为字符识别系统最困难的任务之一。本文识别的对象是手写体的英文字母,属于字符识别的领域。字符的特征可以分为两大特征,一:结构特征二:统计特征。结构特征提取的重点是要确定以基元像素值表示出来的的结构信息,主要有轮廓、笔画、骨架等结构特征。本文用到了结构特征中的外轮廓特征和笔画特征以及重心特征。统计特征是指从原始数据图像中提取与分类最相关的信息,使各类之间的差距极小,类间差距极大。这里提到的统计特征应对同一类字符的形变最大化的保持不变。统计征可以分为全局特征和局部特整。本文用到了像素百分比的全局特征和粗网格的局部特征提取。一个好的识别系统,应该符合以下条件:(1)具有较好的平移不变性、旋转不变性和尺度不变性;(2)稳定性好,具有较好的抗噪能力;(3)具有较好的类内一致性和类间区分度。本文为了对神经网络进行训练以后提高字符的识别率。下面就对这种基于结构和统计特整提取进行详细的介绍。3.2本文特征提取设计特征提取的原则是所选用的特征能过很好的反应字母本身的特点,一般噪声不会影响字母选取的的结构特征或者说较小的形变或噪声在统计特征中的百分比很小。本文结合结构特征和统计特征采用了多种提取方法,通过matlab自编程序采用的结构特征包括:重心特征、笔画密度特征、外轮廓特征,统计特征包括:像素百分比特征、矩阵像素特征、粗网格特征,共六种特征,如图3.1所示:字母特征字母特征结构特征统计特征重心特征心笔画密度特征外轮廓特征像素百分比特征粗网格特征矩阵像素特征图3.1字母提取特征3.2.1像素百分比特征像素百分比特征是指在二值化图像当中所有的白像素点(或黑像素点)占整幅图像像素点的比例。本文采用的是黑像素点的比例。因为不同的英文字母笔画不同在归一化之后黑像素点的比例有很大的变化,所以这一特征能够很好的反应不同英文字母的个性化的特点。这正符合特征提取的要求:有效提取不同字符个性化的特点成为BP神经网络的一个输入点。相对整体的一个百分比个别孤立点所占的百分比例较小,整体黑点的百分比变化范围很小,因此像素百分比的特征对于消除孤立点或噪音有一定的能力。运行程序后所得到的百分比例如表3.1:表3.1像素百分比A0.779768054253460B0.694917103301608C0.781178312913150D0.744122399782052E0.749008522419944F0.776050039771292G0.749719561263735 H0.755041416012837I0.851217562115274J0.846864657501704 K0.737742653505588L0.828813627323599M0.704494282783832N0.719178397012967 O0.781207929733416P0.728964812979942 Q0.685704052599049 R0.689616614168822S0.773830481952580T0.836895194612914U0.761885291418201V0.715729826465678W0.664494502971236X0.731473820521079Y0.815119128355494Z0.7288758906563453.2.2提取矩阵的粗网格特征粗网格特征注重的是字符图像的局部分布特征,反应的是英文字符的局部像素比例。此种特征的一个大的好处是对噪声具有很强的抑制能力。一般来说,虽然手写数字的书写方式千变万化,但是数字笔划的分布呈现出一定的规律变化。由于26个英文字符的笔划相对于汉字来说具有比较固定的总体分布情况,从选取的特征的质量来讲是很好的,不同字符的特征向量在空间中的分布是较分散的,也就是说特征空间中不同类之间的类间距是差别是比较大的。本文采取的粗网格特征提取的核心思想是,把字符的二值像素矩阵分成16个局部区域,把每个区域上的点阵密度作为一个特征,统计每个区域字符象素占的百分比作为特征向量[18]。针对32×32的点阵,我划分成大小为4×4的16个小区域(如图3.2),因此,共得出一个十六维的粗网格特征值(如表3.2)。粗网格特征反映的是字符的局部特征,是个百分比相对值,对于本文图像局部的形变或噪声对应二值化的数字点阵就是局部元素的1的值,如果图像带有局部的形变或着噪音,与没有形变和噪声的平滑图像相比来说,因为要除一个比较大的分母,计算出来的百分比相对值变化不是不大。换句话说,这个百分比相对值对于二值化图片局部笔划的变形或孤立的噪声点带来的影响不是很大。因此,以粗网格为特征进行数字识别,具有较好的正确识别率。图3.2预处理后粗网格的分割方法表3.2白色区域依次所占的比例0.96186854362750.45089711461780.60908923456080.99848698667350.84653300706880.53075696994990.83835367419551.0000.51128867061910.74648836976150.77590546890131.000.59467132108320.56259012514000.5693938476180.98620853532383.2.3重心特征由于不同英文字符的书写方式不同,则它的象素点的分布情况千差万别不同,所以造成了不同的英文字符的重心位置发生变化,与其有关的一些离散量包含了字符几何的特征信息。令反ƒm,n表示点阵中第m行,第n列象素。定义:(3.1)QUOTE(3.2)其中,m=l,2……M-1,n=l,2……N.(,)是整个字符的重心[23]。本文采用了反色(就是将原图片中的黑白色互换,如图3.3)的方法计算白色区域的重心特征:图3.3原图像原图像反色后的图像得到的重心坐标是(29.4035,29.9914).3.2.4提取图像的矩阵像素特征在介绍图像的矩阵像素特征前先举例介绍矩阵变换如表3.3变换前后表:表3.3(a)一开始的矩阵形式12345678910111213141516171819202122232425表3.3(b)变换后的矩阵形式1234567...1112...16171825之所以采取矩阵像素特征是因为这种特征能够很好的反应手写字母的整体骨架结构对字母的正确识别有很大的作用。26个英文字母的书写方式不同进行二值化后的像素矩阵的排列方式不一样,一一提取个个像素点的值作为1024个特征,因为归一化后的矩阵是3232的矩阵所以得到了1024的向量输入点,提取之后得到的是一个矩阵形式,为了方便输出要将该矩阵变换为11024的行矩阵。3.2.5笔划特征笔划特征有很多种不同的取法,它是识别领域常选用的一种特征提取法方式,它属于一种结构特征(一)首个黑点位置特征。沿逆时针方向选取八个方向,即0度方向,45度方向.90度方向.,135度方向,180度方向。-135度方向,-90度方向,-45度方向如图3.4,统计八个不同方向上由外至内首个黑点距离边界的距离[24]。(二)笔划密度特征的提取方法是:以不同方向扫描数字,计算扫描线和笔划相交的次数,形成笔划密度特征向量。例如,对82的样本在水平方向上每隔8行扫描一次,提取了4个特征值,并在垂直方向上也每隔4行扫描一次,提取4个特征值,最后共形成8个值的特征向量。从密度特征的提取方法容易看到,笔划密度特征对字形畸变的抗干扰能力较强。图3.4八个扫描方向本文采用笔划密度的方式训练特征;从水平和垂直方向扫描数字,计算扫描线和字符相交的次数,即笔划密度特征向量。对32*32灰度图在水平方向上从上至下每4行扫描一次,提取8个特征,900方向每隔4行扫描一次,形成8+8=16个的特征值。3.2.6外轮廓特征提取英文字母的外轮廓特征能够很好的反映出字符的整体结构和特征,提取轮廓特征时。从归一化的字符中直导出字符的边缘轮廓。规整化的字符以N×N的点阵表示,在这里N为32。本文的外轮廓特征提取方法是:取得英文字母的外边框,从字符左边框向对面进行扫描,计算最初与字母笔画相碰的白色部分的面积和面积整幅图的面积之比,作为字符左边的外轮廓特征。这样依次求得四个外边框的外轮廓特征。这四个外轮廓特征量反映了字符的形状特征,是一个相对百分比值。因此,外廓特征对孤立点和噪音不敏感,次特征比较稳定对识别率有所提高。表3.4是4个字母ABCD训练的外轮廓特征数据:表3.4外轮廓数据0000000000.531000000总结本文采取了像素百分比一个特征向量,粗网格特征16个特征向量,重心特征一个,矩阵的像素特征3232,笔画密度16个,外轮廓4个共计1062个特征向量。这些特征可以有效地提高了英文字母的识别率。4BP神经网络4.1人工神经网络人工神经网络是由大量的简单基本元件—神经元相互联接而成的自适应非线性动态系统。单个神经元的结构和功能比较简单,但是大量神经元之间相互组合而产生的系统却相当复杂。人工神经网络反映出来的许多特性与人的大脑功能功能非常的相似,这并不是生物系统的逼真描述,只能算是是某种简化、抽象模仿。数相对于数字计算机来说,人工神经网更接近与人脑的功能,它不像计算机一样按编辑好的程序一步一步来执行运算操作,相对于这种死板的运算人工神经网络能够自身总结规律、适应环境完通过自身学习完成某种运算、识别或过程控制。在生物学当中神经元和其他的细胞一样,有细胞膜、细胞质、细胞核构成。但是对于神经细胞的来说比较特殊,具有许多的个性突起,所以把神经元细胞为细胞体、树突、轴突三个部分(如图4.1)。突起的作用就是用其来传递信息。树突是作为引入输入信号的突起,而轴突是作为输出端的突起。图4.1神经元每个神经元的突触数目正常,最高可达10个。各神经元之间的连接强度和极性有所不同,并且都可调整、基于这一特性,人脑具有存储信息的功能。利用大量神经元相互联接组成人工神经网络可显示出人的大脑的某些特征。下面通过人工神经网络与通用的计算机工作特点来对比一下:若从速度的角度出发,人脑神经元之间传递信息的速度要远低于计算机,前者为毫秒量级,而后者的频率往往可达几百兆赫。但是,由于人脑是一个大规模并行与串行组合处理系统,因而,在许多问题上可以作出快速判断、决策和处理,其速度则远高于串行结构的普通计算机。人工神经网络的基本结构模仿人脑,具有并行处理特征,可以大大提高工作速度。人工神经网络具有初步自适应的能力。在学习或训练过程中不断的改变权重值来适应环境的要求。同一网络学习方式及内容不同可具有不同的功能因此人工神经网络是一个具有学习能力的系统。4.2神经网络的模型图BP网络模型包括输出模型、输入模型、误差计算模型、作用函数模型和自学习模型[7]。(1)各节点输出模型:隐含层节点输出模型:

(4.1)输出节点输出模型:(4.2)f为非线形作用的函数;θ神经单元阈值。(2)作用函数模型:作用函数是反映下层输入对上层节点刺激脉冲强度的函数又称刺激函数,一般取为(0,1)内连续取值Sigmoid函数:

(4.3)(3)误差计算模型误差计算模型是反映神经网络期望输出与计算输出之间误差大小的一个函数:QUOTE

(4.4)tpi为节点的期望输出值;Opi为节点计算输出值。(4)自学习模型

神经网络的自学习过程,即连接下层和上层节点之间的权值Wij的设定和误差缩小过程。BP网络有师学习方式需要设定期望值和无师学习方式只需输入模式之分。自学习模型为:

(4.5)h为学习因子;Фi为输出节点i的计算误差;Oj为输出节点j的计算输出;a为动量因子知道了BP神经网络的各结构模型我们进一步建立本文所用到的BP神经网络的拓扑结构,如图4.2所示。BP神经网络由三层节点集合组成:输入层、输出层、隐含层。每一层节点的输出结果送到下一层节点。各个输出值由于其连接权值的不同而被放大或缩小。输入层隐含层输出层图4.2神经网络拓扑结构4.3BP神经网络的工作原理人工神经网络的实质就是模拟人思维的一种方式。这是一非线性系统,其优点是信息分布式存储和并行协同处理。虽然单个神经元的结构非常的简单,并且功能有限,但是很多神经元构成的网络系统所能够实现的具体操作却是丰富多彩的。人工神经网络必须要以一定的学习准则来进行学习,然后才能运用于实践。现以人工神经网络对手写英文字母“A”、“B”两个字母的识别为例进行说明,规定当“A”输入网络时,其输出层输出“0”,而当输入为“B”时,输出层输出为“1”。网络学习的基本准则:如果网络作出了一个错误的的判决,则通过BP神经网络的自学习能力,使得BP神经网络减少下次识别时犯同样错误的可能性。第一,给网络的各连接权值赋予(0,1)之间内的一个随机值,将“A”所对应的图象模式,其实质是一系列的值,输入给网络的输入层,BP网络把输入值进行加权求和与门限值比较然后进行非线性的运算,得到神经网络的输出值。这样网络输出值为“1”和“0”的概率都为0.5。此时如果输出值为“0”(正确),则权值就会增大,以便使网络再次遇到“A”这个字符的模式输入时,仍然能作出正确的判断。如果输出为“1”(结果错误),则把网络的权值朝着减小综合输入加权值的方向进行调整,其目是使网络下次再遇到“A”的模式输入时,减小犯错误的可能性。进行如此操作调整,当给网络大量输入手写字母“A”、“B”后,通过网络自学习能力,网络判断的正确率将会大大提高。这说明网络对这两个模式的学习是成功的自学习后BP神经网络自身已将这两个模式分布地记忆在网络的各个连接权值上。当网络再次遇到其中任何一个A或B模式时,能够作出迅速、准确的判断进行识别[22]。一般情况下,网络中所含的神经元的个数与其能记忆、识别的模式是成正比的。但是神经元的个数也不可以太多否则影响其是别的速度过多的神经元也容易出错,所以神经元也不可以太多。如图4.2所示拓扑结构的单隐层(隐含层只有一层)前馈网络,通常称为三层前向反馈神经网络,即:输入层、中间层、隐含层及输出层。其特点是:上层神经元只与下一层神经元间相互全连接,同一层内的神经元无连接,构成了具有层次结构的前向反馈型的神经网络系统。单层的前馈神经网络只能够解觉线性可分问题,能够解决非线性问题的BP神经网络必须是具有隐含层(一层或多层)的多层网络。BP神经网络模型处理图像的基本原理是:输入信号Xi通过隐含层节点作用于输出节点,经过f非线形变换,产生输出信号Yk,网络训练的每个样本包括输入向量X和期望输出量t,网络输出值Y与期望输出值t之间的偏差,通过调整输入节点与隐层节点的联接强度取值Wij和隐层节点与输出节点之间的联接强度Tjk以及阈值,使误差沿梯度方向下降,经过反复学习训练,确定与最小误差相对应的网络参数(权值和阈值),训练即告停止。此时经过训练的神经网络对类似样本的输入信息,自行处理输出误差最小的经过非线形转换的信息。[9][32]4.4神经网络的各层节点数4.4.1输入层和输出层神经网络的输入层实质就是一个缓冲存贮器,它的职责就是把提取的特征数据加到神经网络中。确定输入层的节点数就不需要确定数据源的维数这是因为输入层的节点数就是就是输入数据的个数。输入的这些数据可以是连续的也可以是离散的甚至可以是二进制数0、1,输入节点与输入数据是等价的。所以要想确定输入层节点的个数就必须确定要输入的有效数据的个数。本文提到必须确定有效数据这时因为数据源中有很多的没有经过处理甚至是虚假的数据,那就会对网络的识别正确率造成影响,要防止这种数据进入输入层,确定输入数据的合适数目分为以下4步:(1)确定能够反应字符特征的所有数据;(2)消除不可靠或边缘的数据源;(3)选择可以代表字符共同特征(或实际应用)数据源;(4)删除那些只在理论上可以但不实用的数据源;输入数据的维数是根据要解决的具体问题而确定的。在本系统中输入层的节点数就是提取的特征向量的个数。网络的输出层节点数一般就是所识别事物的类别数,比如说签名识别结果只有两种真或假,所以输出层节点数就有两个。本文是对26个英文字母进行识别所以确定输出层的节点数就是26个。本文的设计思想是希望26个输出节点对应位置上的输出是1,而其他位置上的输出为0,一次对应着A-Z26个英文字母,输入特征的影响或是训练次数较低以及训练过程中的噪声影响可能会导致输出结果不是1或0而出现其他的值,入0.2、0.4、0.7、0.9等一系列的值不符合设计的要求为了使网络具有一定的适应环境的能力将其输出结果用网络函数compet.m处理,相当于曾加一个阀值比如说是0.5,则大于0.5输出为1,小于0.5输出为0。保证输出结果的可靠性,指定位置输出为1其余位置为0,我们期望的输出形式见附录。4.4.2隐含层节点数的优化确定隐含层的节点数的确定目前为止在世界上还没有一个固定的算法。如果隐含层节点数过少的话,可能导致网络不能进行训练或导致网络性能变差;如果隐层节点数过多,虽然能够使的神经网络的整体系统误差降低,但它不仅延长了神经网络训练时间,且容易在训练过程中陷入局部极小值点而无法得到最优点,甚至不能收敛,网络的容错能力差,往往使得其反,这也是训练时网络出现“过拟合"的原因。因此在网络隐含层神经元数目的选择时我们遵循这样的原则:在能够有效地解决所提出的问题的基础上,隐含层的节点数再加上l到2个来加快误差的下降速度加快训练过程。(1)增长方法在开始的时候构造一个小规模的神经网络结构,在训练的时候,结合具体实际问题,针对网络性能要求的提高逐步来增加隐含层的节点数,直到满足所要求的误差。例如,Mezard的Tiling算法、Fahlman的CC(Cascade-Correlation)算法都是增长方法的原理。(2)进化方法该方法结合了生物进化的原理称为遗传算法(GA-GeneticAlgorithm),具有全局搜索的能力,对BP神经网络结构的优化和调整有着显著的作用。(3)修剪方法首先构造一个具有冗余节点的多层次的网络结构,然后在训练中逐步删除不必要的节点或权值。常用的方法有:复杂性调整方法、灵敏度计算方法、互相作用的修剪方法、增益方法。(4)自适应方法这一方法来之于生物神经元的各种状态变化会导致人脑空间思维方式的变化这一原理,经过网络的自适应学习来生成解决提出问题的适宜的神经网络结构,该方法在网络隐含层节点数的确定过程中综结合了增长方法和修剪方法这两种方法。

在此基础上本文有提出了一种隐含层节点的解决方法:利用逐步回归分析法结合参数的显著性检验来删除部分线形相关的隐含层节点,节点删除的标准是:当上一层节点指向的下一层节点的所有权值均落在了死区(通常取±0.1、±0.05等区间)中时,则该节点可删除。最佳隐节点数L可参考下面的公式计算:;(4.6)m:输入节点数;n:输出节点数;c:介于1~10的常数。隐含层节点的选择不仅仅是一种方法来决定,我们可以结合多种方法进行选择,在通过BP神经网络的训练来最终确定隐含层的节点[25]。本文采用了式(4.6)来确定隐含层的节点数为40(其中c取7),并加以训练结果识别率达到期望的结果,因此最终确定为40.各层节点确定之后就确定了本文采用的BP神经网络结构,如图4.3所示:像素百分比像素百分比粗网格特征矩阵变换笔画密度外轮廓特征重心特征X1X2XnW12W21W1nY1Yn输入层隐含层输出层图4.3BP神经网络结构图4.5BP神经网络的参数设计和训练过程[17]BP神经网络的参数设置直接影响到最后的识别结果决定着网络设计的好坏,有着重要的意思。下面是一些参数的设计:每迭代50步显示一次训练结果net.trainParam.show=50:学习速率决定着每一次循环训练中所产生的权值的变化量地大小。学习速率太大会导致系统不稳定,学习速率太小将导致训练时间延长使的收敛很慢,但是可以保证网络的误差值跳不出误差范围,使的训练结果趋于最小误差值。所以本文选取了较小的学习速率来保证系统的正确识别率,学习速率的选取范围一般在O.01到0.08之间[28]。本文在选取学习速率是,一般要选取几个不同的学习速率进行训练,通过观察训练后的均方误差值的下降速率来来决定学习速率的大小。如果均方误差值的下降速率较快,则说明学习速率选取的还是比较合。适的,若训练过程中的均方误差出现平坦化甚至说是震荡现象,则说明学习速率选的比较大。经过训练本文选取的学习速率是0.003.学习速率为0.003net.trainParam.1r=0.003:最大训练迭代次数为5000目标均方误差为0.00001net.trainParam.goal=0.00001:BP网络训练过程如下:(1)将权值初始值化为0-1之间的任意值;(2)从英文字母的样本组中的特征值输入BP神经网络的输入层,然后指定该神经网络的期望输出d0、d1……dM-1。(3)分别计算神经网络隐含层的输出h1、h2……hL和BP神经网络的实际输出Y0,Y1,…Y25(4)准确计算实际与期望输出间的误差:(k=0,l,2,…,M-1)(4.8)隐含层的误差:(j=0、1……L-1)(4.9)(5)利用学习速率修正隐含层和输出层的权值:(4.10)(4.11)(6)返回(2),用大量样本反复训练BP神经网络,多次迭代,直到网络中的权值趋于稳定。在实际训练时,本文定义网络实际输出与期望输出误差的平方和作为误差函数:(4.12)整个流程图如图4.5所示:开始开始设置各权值或阈值给定手写字母特征输入量和目标输出量选取学习算法求隐含层和输出层各单元输出求期望输出与实际输出误差计算权值梯度权值学习修正停止误差是否满足要求是否图4.4BP神经网络的训练过程5实验结果及分析本文中采用了45个样本进行训练,先将样本预处理,再对样本特征提取得到样本的特征向量P进行保存,再设定网络输出目标向量T和各项参数,进行网络训练训练结束后将网络输出目标向量T及设定的参数保存到train_result.m文件中,此时已经达到了较稳定的权值。网络训练结束可以进行识别.5.1实验设计5.1.1实验参数基于BP神经网络的手写字母识别为了达到所期望的实验结果使得本文的实验程序有着现实意义,本文设定了一系列的试验参数只有在达到本文所设定的预期试验参数实验才算成功。试验参数如表5.1.1所示:表5.1试验参数输入层1062训练样本45均方误差0.00001输出层26识别样本44权值(0,1)值中间层100迭代次数5000特征向量1062学习速率0.0035.1.2训练和识别样本库设计基于BP神经网络的首写字母识别的训练和识别的样本库在本文中是2288个字母。由于不同人的书写风格不尽相同即使是同一人不同时间段的书写形式也有差异在做实验是我们选取22个人在不同的时间段分别写了4遍26个字母(2288个字母图像),这样就建立了一个尽量包含各种形式的手写字母数据库目的就是多样的数据库使得权值最优化。共用了1144个样本进行训练,然后再对114个样本进行识别。1144个图像分4次进行识别鉴定,每次鉴定286个字母。5.2隐含层节点对实验结果的影响隐含层节点的选取直接影响到系统的误差系数曲线,进而影响影响识别结果,下面选取了不同隐含层节点下的系统误差系数曲线。图5.2.是隐含层分别为50(a)、40(b)对系统误差曲线:图(a)图(b)图5.2系统误差曲线因此隐含层节点数的选择非常的重要。5.2识别样本的正确率本文针对多对样本进行了识别,其结果统计如表5.3所示:表5.3识别率识别率实验次数正确率错误率第一次实验0.7460.253第二次试验0.7550.245第三次实验0.7680.232第四次实验0.7370.262本文将识别率最高的一次76.8%的原始数据记录于下:286个字母正确识别率为220个,错误识别率为66个。5.3实验结果分析(1)隐含层节点数的选择要合理,决定了系统能否完成所设定的期望误差。(2)由实验结果可知:同一训练样本下的正确识别率几乎是相同的,训练样本数目越多样本的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论