版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、一、字符识别及手写数字识别技术(jsh)概述二、手写数字识别(shbi)的难点三、手写体数字(shz)识别系统概述四、手写体数字识别中特征值提取技术1、结构特征提取2、统计特征提取第1页/共22页第一页,共22页。一、字符识别(shbi)及手写数字识别(shbi)技术的概念第2页/共22页第二页,共22页。字符识别 光学字符识别(Optical Character Recognition,简称OCR)是20世纪20年逐步发展起来的一门自动化技术,是图像处理与模式识别领域的一个重要分支。其目的就是通过扫描、摄像等光学输入方式将汉字报刊、书籍、文稿及其它印刷品的文字转化为图像信息,将图形、表格的图
2、像进行(jnxng)保存,再利用文字识别技术将图像内的文字或表格中的资料一律变成计算机能识别的文字,以便于计算机的管理维护。它能够减少存储容量、通讯交流的信息、循环利用已识别出的文字以及节省因键盘输入而浪费的人力、物力、财力和时间。一、字符识别及手写数字识别技术(jsh)的概念第3页/共22页第三页,共22页。手写(shuxi)数字识别 手写数字识别(Handwritten Numeral Recognition,简称HNR)是OCR的一个分支,它的任务是把手写阿拉伯数字(如0,1,2,9)通过非键盘方式(fngsh)输入到计算机中,以便作进一步的处理和应用,给计算机建立视觉系统,自动辨识人用
3、笔写在介质上的数字。它属于模式识别、人工智能的一个重要分支,涉及到模式识别和图像处理、人工智能、统计决策理论、模糊数学、组合数学、信息论、计算机等学科;同时也涉及心理学等,是介于基础研究与应用研究之间的一门综合性的技术,在办公室、机器翻译等方面具有重大实用意义。一、字符识别及手写数字识别技术(jsh)的概念第4页/共22页第四页,共22页。二、手写数字识别(shbi)的难点第5页/共22页第五页,共22页。 在一般情况下,当涉及到数字识别时,人们往往要求识别系统有很高的识别精度,特别是有关金融的数字识别时,如支票中填写的金额部分,更是如此。因此针对这类问题,就要求手写数字识别系统具有高可靠性和
4、高识别率。总结数字识别的难点主要(zhyo)在于以下几方面。二、手写数字识别(shbi)的难点第6页/共22页第六页,共22页。难点(ndin)1、阿拉伯数字的字型信息量很小,不同数字写法字形(z xn)相差又不大,使得准确区分某些数字相当困难;2、数字虽然只用10种,而且笔画简单,但书写上带有明显的地域特性,同一数字写法千差万别,不同地域的人写法也不相同(xin tn),所以很难做到兼顾各种写法的极高识别率的通用型数字识别系统;3、在实际应用中,对数字的单字识别正确率的要求要比文字要苛刻得多。这是因为,文字组合一般都存在上下文关系,但数字组合存在极少的或没有上下文关系,所以每个孤立数字的识别
5、都至关重要;4、由于脱机手写数字的输入只是简单的一幅图像,它不像联机输入那样可以从物理输入设备上获得字符笔画的顺序信息,因此脱机手写数字识别是一个更有挑战性的问题。二、手写数字识别的难点第7页/共22页第七页,共22页。三、手写体数字(shz)识别系统概述第8页/共22页第八页,共22页。 不同的识别系统,在具体处理一幅待识别图像时,处理的步骤可能并不完全相同。但是就一般情况看,一个完整的OCR识别系统可分为:原始图像获取,预处理,特征抽取,分类识别和判别(pnbi)处理等模块。三、手写体数字(shz)识别系统概述原始(yunsh)图像获取预处理特征提取识别结果判别处理分类识别第9页/共22页
6、第九页,共22页。1) 预处理阶段 在获取原始数字图像过程中,由于光照、背景纹理、镜头分辨率、拍摄角度等原因,难免会造成图像失真并带有噪声。由于这些噪声的影响,如果对获取得到(d do)的数字图像进行直接处理的话通常不能得到(d do)满意的结果,因此在获取原始数字图像后,需要对图像进行预处理。对于字符识别的预处理过程一般包括:滤波去噪、二值化、字符切分、图像校正、归一化处理。经过预处理后的图片不仅能够有效滤除噪声,并且能够将不同的大小、倾斜角度的字符进行归一化到一个固定大小,对大量数据进行压缩处理。预处理阶段在该系统中是一个很重要的阶段。预处理效果的好坏会直接影响到整个系统的性能。三、手写体
7、数字(shz)识别系统概述第10页/共22页第十页,共22页。2) 特征提取阶段 由于原始数字图像数据量大,冗余信息较多,一般不进行直接识别,而是进行提取有效特征数据、压缩数据,然后再进行识别。换句话说特征提取是为了去除图像信息中对分类没有帮助的部分,将图像信息集中到几个有代表性的特征上来的过程。特征值的提取一般包括:笔画、拓扑(tu p)点、结构突变点、投影形状、点(端点、连点、三叉点、四叉点、垂直交点,水平交点等)、弧、连通区域、凸凹形状、环、字符整体轮廓、检查必要的基元是否存在、不可有的基元是否出现等特征。三、手写体数字(shz)识别系统概述第11页/共22页第十一页,共22页。3) 分
8、类识别阶段 分类识别是数字识别的关键步骤之一,它是指分类器依据特征提取阶段抽取的特征,就送入分类器中做最后的字符分类识别。该环节现在普遍采用的是基于神经网络和模板匹配(ppi)两种模式。考虑到神经网络能够很好的容忍字符的形状变换、噪声的影响。因此,在分类其中,我们将提取到的特征值输入到已经训练好的神经网络中进行分类识别。三、手写体数字(shz)识别系统概述第12页/共22页第十二页,共22页。4) 判别(pnbi)处理阶段 当分类完成后,为了保持系统的识别性能,通常需要对识别结果作一次判别(pnbi)处理,认为该结果是否被接收还是拒绝。这个阶段可以根据具体的应用来设计不同的判别(pnbi)决策
9、。例如,在金融数字的识别中,要求错误识别率相当高,那么在判别(pnbi)处理时严格限制接收条件就可以降低识别的错误率。三、手写体数字(shz)识别系统概述第13页/共22页第十三页,共22页。四、手写体数字识别中特征值提取(tq)技术第14页/共22页第十四页,共22页。 特征提取是整个字符(z f)识别系统的关键,识别算法是根据选取特征的种类来进行选择的。所选取的特征是否是稳定,是否代表一类字符(z f)的特点,是系统识别率的高低关键。 手写体字符(z f)特征提取的方法可分为结构特征和统计特征两种,下面就分别简单介绍这两种特征提取方法的特点与一般方法。四、手写体数字(shz)识别中特征值提
10、取技术第15页/共22页第十五页,共22页。结构(jigu)特征提取 采用结构特征提取字符进行结构分析从而达到识别的目的,是一种非常直观的方法,其思想与人认字的原理有点相像,但又有所不同。其基本思想是:字符可以逐级分解成部件、笔划乃至笔段,识别时可以自底向上,由像素(xin s)得到笔段,由笔段结合成笔划,由笔划构成部件,由部件组成字符,逐级分析字符图像的结构,根据各元素的属性、数量及其互相关系,便可以判定待识字符。目前研究比较成熟,效果较好的是基于笔划和基于笔段分析的手写体字符识别。四、手写体数字识别中特征值提取(tq)技术第16页/共22页第十六页,共22页。结构(jigu)特征提取 对不
11、同的字符手写样本,尽管人书写风格千变万化,然而笔划与笔划之间的位置关系,以笔划为基元的字符的整体拓扑结构是不变的。人认字就是抓住了这些本质(bnzh)不变的特征,因此能适应不同的书写风格的文字。所以,基于笔划来自动识别字符一直是手写体字符识别研究的一类主要研究方法。四、手写体数字识别(shbi)中特征值提取技术第17页/共22页第十七页,共22页。结构(jigu)特征提取 虽然字符的笔划特征受字体、字形大小等影响较小,是识别字符的良好特征,但可惜笔划特征对实际的书写文本来说比较难稳定的提取。通常,用基于笔划段作为特征能较好的解决这一困难。采用结构特征提取方法的难点在于笔划或笔段等基元的准确提取
12、。虽然提取笔划或笔段的方法已有多种,但他们都是基于图像处理的方法,截然不同于人根据知识和经验而做出的视觉处理。单纯建立在图像处理方法上的笔段分析只能十分机械的按图像就事论事,结果(ji gu)提取到的笔段难免与人的判别不完全一致。这种情况在存在连笔、断笔、模糊等场合尤为不可避免。所以,书写畸变对结构特征分析法有着不可忽视的影响。因此,寻求稳定可靠的笔段提取方法仍然是当前有待进一步研究的课题。四、手写体数字(shz)识别中特征值提取技术第18页/共22页第十八页,共22页。统计(tngj)特征提取 从统计模式识别的观点来看,字符识别实际上是一个模式分类问题,人对自然物体(wt)的识别,是建立在对
13、该物体(wt)进行学习、特征分析的基础上的,计算机模式识别的过程与人的识别过程有着相似的地方。实际上就是一种通过学习或者其它方法,形成一个记忆知识库,进行模式识别时,清晰地表达出一种从物体(wt)到记忆知识库的映像,从而得到识别的结果。人在进行物体(wt)识别时,是利用大脑中通过学形成的记忆库,对识别的物体(wt)进行一种黑箱式的映像,从记忆库中找出相匹配的类别。四、手写体数字(shz)识别中特征值提取技术第19页/共22页第十九页,共22页。统计(tngj)特征提取 计算机要把人类识别物体时的这种黑箱式的映像表达出来,一般式有两个步骤(bzhu)完成的:第一步,以适当的特征来描述物体,第二步,计算机执行某种运算完成的映像。此过程实际上就是传统的统计模式识别进行物体识别时所采用的一般方法,具体来说就是特征提取和分类函数的设计的问题,而特征提取是问题难点和关键所在。因此如果特征已知,就可以利用现有的数学理论来指导设计映像函数。然而,对于特征的选择和提取,却没有可遵循的理论来指导,我们很难比较一个物体中哪些特征是实质性,哪
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 部编版语文七年级上册6《散步》公开课一等奖创新教学设计
- 《金色的草地》 公开课一等奖创新教学设计(表格式)
- 2024年项目合作协议书范本
- 化工原理课程设计装
- 教学实践基地建设协议书
- 2024代理合同协议
- 招商居间合同新凯蒙正规范本2024年
- 建筑项目劳务分包及装修合同模板
- 担保公司代偿协议书2024年
- 远程兼职编辑授权协议模板
- 报价单模板完
- 30题药品质量检测岗位常见面试问题含HR问题考察点及参考回答
- 企业战略管理概述
- 程式与意蕴-中国传统绘画
- 消防安全概述
- 食品储存不当的危害合理储存避免食物中毒
- 湖北省鄂东南联考2023-2024学年高一上学期期中考试物理
- 2023-2024学年北京北师大实验中学初二(上)期中物理试卷(含答案)
- 自体骨髓干细胞治疗急性心肌梗死的临床研究的开题报告
- 家长会课件:小学二年级学生家长会课件
- 医疗风险管理检查记录表(修)
评论
0/150
提交评论