数字图像处理第十三章_第1页
数字图像处理第十三章_第2页
数字图像处理第十三章_第3页
数字图像处理第十三章_第4页
数字图像处理第十三章_第5页
已阅读5页,还剩108页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1第十三章图像模式识别第十三章图像模式识别模式:客观世界和主观世界即物质和意识的所有方面、所有个体、所有单元、所有事物的抽象。模式还可分成概念的和具体的两种形式:前者如意识、思想、议论等,属于概念识别研究的范畴,是人工智能的另一研究分支。我们所指的模式识别主要是对语音波形、地震波、心电图、脑电图、图片、照片、文字、符号、生物的传感器等对象进行测量的具体模式进行分类和辨识。模式识别(PatternRecognition)是指对表征事物或现象的各种形式的(数值的、文字的和逻辑关系的)信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程。模式识别是信息科学和人工智能的重要组成部分。第十三章图像模式识别模式识别研究主要集中在两方面:一是研究生物体(包括人)是如何感知对象的,属于认识科学的范畴,二是在给定的任务下,如何用计算机实现模式识别的理论和方法。前者是生理学家、心理学家、生物学家和神经生理学家的研究内容。后者通过数学家、信息学专家和计算机科学工作者近几十年来的努力,已经取得了系统的研究成果。第十三章图像模式识别图像模式识别是图像处理的另一类问题:就是不要求其结果并不是一幅完整图像的本身,而是将经过前述图像处理后的图像,再经过分割和描述提取有效的特征,进而加以判决分类。例如:从遥感图像中分割出各种农作物、森林资溉、矿产资源等等,并进一步判断其产量或蕴藏量;由气象云图结合其它观察数据进行自动天气预报;用人工地震波形图寻找有油的岩层结构;根据医学X光图像判断分析各种病变;邮政系统中的信函自动分拣等。因此,可以认为把图像(或图像中的对象)进行区别分类就是图像的模式识别。模式识别方法和应用很广泛,也相当复杂,正在发展之中。第十三章图像模式识别模式识别的研究对象基本上可概括为二大类:一类是有直觉形象的如图像、相片、图案、文字等;一类是没有直觉形象而只有数据或信息波形如语音、心电脉冲、地震波等。但是,对模式识别来说,无论是数据、信号还是平面图形或立体景物都是除掉他们的物理内容而找出它们的共性,把具有同一共性的归为一类,把具有另一种共性的归为另一类。模式识别研究的任务是研究出能够自动处理某些信息的机器系统,以便代替人完成分类和辨识的任务。13.1图像模式识别的基本概念模式识别的定义:根据对某个物理对象的观测信息,利用计算机对该物理对象进行分类,从而给出该物理对象所属的类别。观测信息可以是图像、声音、温度、压力等任何可以测量的观测量。为了让机器自动完成模式识别任务,我们需要:(1)数据采集设备;(2)模式识别算法。

13.1图像模式识别的基本概念图像模式识别过程可分为三个阶段:第一阶段是图像信息的获取;第二阶段是信息的加工与处理。它的作用在于把调查了解到的数据材料进行加工、整理、分析、归纳以去伪存真,去粗取精,抽出事物本质的特征。当然,抽取什么特征,保留多少特征与采用何种判决有很大关系。第三阶段是判决或分类。这相当于人们从感性认识升到理性认识而做出结论的过程。第三阶段与特征抽取的方式密切相关。它的复杂程度也依赖于特征的抽取方式。例如:类似度、相关性、最小距离等等。13.1图像模式识别的基本概念图像模式识别的应用领域:地球资源、环境的调查研究(遥感图像识别、分类);生物医学工程(脑电图、B超、CT、MRI(核磁共振)、PET;染色体、癌细胞);生产自动化(产品缺损检查、智能机器人、机器人视觉);文件处理和管理自动化(资料、数据自动识别、登记、分类、OCR、条码);军事(目标识别、自动瞄准、自动搜索);公安侦破、身份识别(指纹、人面、虹膜);商业自动化(自动售货机、自动检票机)。13.2图像模式识别的基本方法模式识别已初步形成三大类:统计模式识别;句法模式识别;模糊集识别。

13.2图像模式识别的基本方法13.2.1统计模式识别统计模式识别是模式识别中应用最广的方法,而且对它的掌握是彻底理解各种模式识别过程的基础。统计模式识别认为图像可能包含一个或多个物体,并且每个物体属于若干事先定义的类型、范畴或模式之一。由于不确定性是客观存在的,因而发生错误的决策分类在所难免,只能借助概率论的知识,使得决策的错误率达到最小。13.2图像模式识别的基本方法13.2.1统计模式识别统计模式识别的过程如下图所示。这是计算机识别的基本过程,数字化是把图像信号变成计算机能够接受的数字信号。预处理的目的是去除干扰、噪声及差异,将原始信号变成适合于计算机进行特征抽取的形式。然后对经过预处理的信号进行特征抽取。最后进行判决分类,得到识别的结果。为了进行分类,必须有图像样本。对样本图像进行特征选择及学习是识别处理中所必要的分析工作。13.2图像模式识别的基本方法13.2.1统计模式识别一、决策理论方法如前框图所示,统计模式识别方法最终归结为分类问题。假如已抽取出N个特征,而图像可分为m类。那么就可以根据N个特征进行分类,从而决定未知图像属于m类中的哪一类。一般把识别模式看成是N维空间中的向量X,即而模式类别为ω1、

ω2、…、

ωm。识别就是要判断X是否属于ωi以及xi属于ωm中的哪一类。13.2图像模式识别的基本方法13.2.1统计模式识别一、决策理论方法在这个过程中主要解决两个问题:如何选择和抽取特征,要求特征数N尽可能小而且对分类判断有效;假设已有了代表模式的向量,如何决定它属于哪一类,即需要判别函数。例如,模式ω1、

ω2、…、

ωm共有m类,则应有D1(X)、D2(X)、D3(X)、…Dm(X)共m个判别函数。如果X属于第i类,则有问题的关键是找到合适的判别函数。13.2图像模式识别的基本方法13.2.1统计模式识别一、决策理论方法1.线性判别函数线性判别函数是应用较广的一种判别函数,所谓线性判别函数是指判别函数是图像所有特征量的线性组合,即

式中Di(X)代表第i个判别函数,ωik是系数或权,ωi0为常数或称为阈值。其判决过程可如下进行:如果Di(X)>Dj(X)或Di(X)-Dj(X)>0,则X~ωi,如果Di(X)<Dj(X)或Di(X)-Dj(X)<0,则X~ωj。13.2图像模式识别的基本方法13.2.1统计模式识别一、决策理论方法1.线性判别函数用线性判别函数进行分类是线性分类器。任何m类问题都可以分解为(m-1)个2类识别问题。方法是先把模式空间分为1类和其他类,如此进行下去即可。因此,2类线性分类器是最简单和最基本的。13.2图像模式识别的基本方法13.2.1统计模式识别一、决策理论方法1.线性判别函数分离2类的判决边界由D1-D2=0表示。对于任何特定的输入模式必须判定D1大还是D2大。若考虑函数D=D1-D2,对于1类模式D为正,对于2类模式D为负。于是,只要判断处理D的输出符号即可进行分类。执行这种运算的分类器的原理框图如右图所示。13.2图像模式识别的基本方法13.2.1统计模式识别一、决策理论方法1.线性判别函数在线性分类器中要找到合适的系数,以便使分类尽可能不出差错,唯一的办法就是试验法。例如,先设所有的系数为1,送进每一个模式,如果分类有错就调整系数,这个过程就叫做线性分类器的训练或学习。13.2图像模式识别的基本方法13.2.1统计模式识别一、决策理论方法2.最小距离分类器线性分类器中重要的一类是用输入模式与特征空间作为模板的点之间的距离作为分类的准则。假定有m类,给出m个参考向量R1、R2、R3、…、Rm,Ri与模式类ωi相联系。对于Ri的最小距离分类就是把输入的新模式X分为ωi类,其分类准则就是x与参考模型原型R1、R2、R3、…、Rm之间的距离,跟哪一个最近就属于哪一类。13.2图像模式识别的基本方法13.2.1统计模式识别一、决策理论方法2.最小距离分类器X和R之间的距离可表示为其中(X-Ri)T,是(X-Ri)的转置。由上式可得由此可设定最小距离判别函数Di(X)为最小距离分类器也是一个线性分类器。13.2图像模式识别的基本方法13.2.1统计模式识别一、决策理论方法此外还有:3.最近邻域分类法;4.非线性判别函数。等判别函数和判别方法。13.2图像模式识别的基本方法13.2.1统计模式识别二、统计分类法以上谈到的分类方法是在没有噪声干扰的情况下进行的,此时测得的特征确能代表模式。如果在抽取特征时有噪声,那么可能抽取的特征代表不了模式,这时就要用统计分类法。用统计方法对图像进行特征抽取、学习和分类是研究图像识别的主要方法之一,而统计方法的最基本内容之一是贝叶斯分析,其中包括:贝叶斯决策方法、分类器、估计理论、贝叶斯学习、贝叶斯距离等等。13.2图像模式识别的基本方法13.2.1统计模式识别二、统计分类法1.贝叶斯公式在古典概率中贝叶斯定理已为大家所熟悉:式中B1、B2、…、Bn是n个互不相容的事件,P(Bi)是事件Bi的先验概率,P(A/Bi)是A在Bi已发生条件下的条件概率。贝叶斯定理说明在给定了随机事件B1、B2、…、Bn的各先验概率P(Bi)及条件概率P(A/Bi)时,可算出事件A出现时,去掉事件Bi出现的后验概率P(Bi/A)。13.2图像模式识别的基本方法13.2.1统计模式识别二、统计分类法1.贝叶斯公式假定事件A代表肝炎病发生,而B1、B2、…、Bn分别代表引起肝炎病发生的事件,如B1代表抽血时的交叉感染,B2代表吃某种不卫生食品所引起的感染,而P(A/Bi)表示在Bi发生时,肝炎病发生的概率,则肝炎病发生时由某种原因Bi导致的后验概率就可以用贝叶斯定理来计算。13.2图像模式识别的基本方法13.2.1统计模式识别二、统计分类法1.贝叶斯公式贝叶斯公式常用于分类问题和参数估值问题中。假如设X表示事件的状态或特征的随机变量,它可以表示图像的灰度或形状等,设ωi表示事件类别的离散随机变量。对事物(比如是图像的亮度或形状)进行分类就可以用如下的公式13.2图像模式识别的基本方法13.2.1统计模式识别二、统计分类法1.贝叶斯公式式中P(ωi)称为ωi的先验概率,它表示事件属于ωi的预先粗略了解P(X/ωi)表示事件属于ωi类而具有X状态的条件概率,P(ωi/X)是X条件下ωi的后验概率,它表示对事件X的状态作观察后判断属于ωi类的可能性。由上式可见,只要类别的先验概率及X的条件概率为已知,就可以得到类别的后验概率。再加上最小误差概率或最小风险法则,就可以进行统计判决分类。13.2图像模式识别的基本方法13.2.1统计模式识别二、统计分类法1.贝叶斯公式在参数估计问题中,贝叶斯公式中二个变量常常为连续随机变量,如果写作变量X及参数Q,则有如下的公式通过上式,由参数的先验分布P(Q)及预先设定的条件分布P(X/Q),即可求得参数的后验分布P(Q/X)。贝叶斯公式是参数估计的有力工具。13.2图像模式识别的基本方法13.2.1统计模式识别二、统计分类法2.贝叶斯决策根据类别的先验概率(历史资料、经验或主观判断)及事件X的条件概率,利用贝叶斯定理求得后验概率,据以进行决策的方法,称为贝叶斯决策方法。13.2图像模式识别的基本方法13.2.1统计模式识别二、统计分类法2.贝叶斯决策贝叶斯决策过程中,可能会产生错误(如下图)。引入代价函数,贝叶斯决策方法还可进一步分为两类:最小错误率决策;最小风险决策。13.2图像模式识别的基本方法13.2.2句法(结构)模式识别方法句法:描述语言规则的一种法则。一个完整的句子一定是由主语+谓语或主语+谓语+宾语(或表语)构成,如下图。识别时,首先是将一个复杂图像分解成一个个子图像,再进一步将子图像分解成一些最简单的基元,最后按对象的结构规则去组成这些基元,形成一个句子---模式。以这个模式为准则去匹配要识别的对象,作决策输出。13.2图像模式识别的基本方法13.2.2句法(结构)模式识别方法句法的形式语言描述:G=(VN,VT,P,S)VN:非终止符的有限集VT:终止符的有限集P:写作规则〈名词短语〉〈冠词〉〈名词〉S:起始符句法模式识别的应用:次中性染色体的句法结构;13.2图像模式识别的基本方法13.2.2句法(结构)模式识别方法次中性染色体的句法结构右图上行是染色体文法的基元。顺时针跟踪染色体的边界,就可以得到由基元连接而成的串。下行的次中性染色体可以描述为babcbabdacad。染色体文法:

G=(VN,VT,P,S),其中:VN={S,S1,S2,A,B,C,D,E,F}VT={a,b,c,d,e}P:S→S1,B→e,S→S2,C→bC,S1→AAC→Cb,S2→BA,C→b,A→CA,C→dA→AC,D→bD,A→DE,D→Db,A→FDD→a,B→bB,E→CD,B→Bb,F→Dc13.2图像模式识别的基本方法13.2.3模糊集合识别方法隶属函数和判别准则13.2图像模式识别的基本方法各种模式识别方法的特点统计模式识别方法:发展早,应用广泛;对已知条件要求太多;句法(结构)模式识别方法:用分析的方法识别,还可以描述图象的内容;模糊集合识别方法:以模糊集合论为基础,识别结果并非绝对的二值,而是有隶属度的概念。13.2图像模式识别的基本方法例子:以鱼的分类为例,图像获取如右图,经预处理()后作图像分割处理,将每条鱼分割成独立的区域。每条鱼只能属于:鲈鱼(salmon)或者鲑鱼(seabass)定义ω描述鱼的类别状态ω=ω1

表示鲈鱼ω=ω2

表示鲑鱼13.2图像模式识别的基本方法例子:以鱼的分类为例(续)每条鱼只能属于:鲈鱼(salmon)或者鲑鱼(seabass)定义ω描述鱼的类别状态ω=ω1

表示鲈鱼ω=ω2

表示鲑鱼定义先验概率P(ω)P(ω1):表示下一条鱼是鲈鱼的先验概率;P(ω2):表示下一条鱼是鲑鱼的先验概率。只有鲈鱼和鲑鱼的情况下:P(ω1)+P(ω2)=1简单的判断规则:P(ω1)>P(ω2),则判为ω1,否则判为ω2如果只有一条鱼,规则尚是可行的;如果是很多条鱼,则全部归于一类。显然,还需引入其他规则。

13.2图像模式识别的基本方法例子:以鱼的分类为例:(续)特征:鱼的光泽度指标X:不同的鱼拥有不同的光泽度(根据样本而来)。

13.2图像模式识别的基本方法例子:以鱼的分类为例:(续)定义类条件概率密度p(x/ω)

p(x/ω):即类别状态为ω时的x的概率密度函数p(x/ω1)与p(x/ω2)间的区别表示了鲈鱼和鲑鱼间光泽间的区别。13.2图像模式识别的基本方法例子:以鱼的分类为例:(续)假设我们知道:先验概率P(ω1)=1/3,和P(ω2)=2/3;条件概率密度p(x/ω1)和p(x/ω2)(如前图);某条鱼的光泽度指标x;则可根据13.2图像模式识别的基本方法例子:以鱼的分类为例:(续)求得上述条件下的后验概率如下图:13.2图像模式识别的基本方法思考题:1.上例中,如果改用长度特征:salmon一般较短,seabass一般较长。识别过程将是怎样?2.上例中,如果再加入长度特征,识别过程将是怎样?13.3图像模式识别应用:光学字符识别

13.3.1概述光学字符识别OCR(OpticalCharacterRecognition)是模式识别理论的一个重要应用领域,OCR将文字的数字图像转换为计算机可处理字符代码(内码),用于将文字信息自动输入计算机,是实现智能人机接口的重要途径。按识别对象的形式,OCR可以分为:印刷体识别;手写体识别。而手写体识别又可以分为:联机(OnLine);脱机(OffLine)。13.3图像模式识别应用:光学字符识别

13.3.1概述按识别对象的种类,OCR可以分为:数字及西文字符识别;汉字识别。从识别技术的难度来说,手写体识别的难度高于印刷体识别,而在手写体识别中,脱机手写体的难度又远远超过了联机手写体识别。汉字识别问题属于超多类模式集合的分类问题,更为复杂。13.3图像模式识别应用:光学字符识别

13.3.1概述OCR的发展1929年,德国的科学家Tausheck首先提出了OCR的概念,并且申请了专利。几年后,美国科学家Handel也提出了利用技术对文字进行识别的想法。但这种梦想直到计算机的诞生才变成了现实。在60~70年代,世界各国相继开始了OCR的研究,而研究的初期,多以文字的识别方法研究为主,且识别的文字仅为0至9的数字。以同样拥有方块文字的日本为例,1960年左右开始研究OCR的基本识别理论,初期以数字为对象,直至1965至1970年之间开始有一些简单的产品,如印刷文字的邮政编码识别系统,识别邮件上的邮政编码,帮助邮局作区域分信的作业;也因此至今邮政编码一直是各国所倡导的地址书写方式。13.3图像模式识别应用:光学字符识别

13.3.1概述OCR识别系统的工作流程图像输入:经光学仪器,如影像扫描仪、传真机、摄影器材以及手写输入设备将影像转入计算机。预处理:包含图像拼接、消噪、修复粘连及断裂、倾斜矫正、去网纹、增强、二值化、版面分析和理解、行切分和字切分等处理。特征抽取:特征抽取是OCR的核心,分为两类:统计特征或结构特征。对比识别:根据不同的特征特性,对比数据库,识别出结果。后处理:可能有相似候选字,人工校正,机器学习。得出结果。

13.3图像模式识别应用:光学字符识别

13.3.1概述OCR系统的用途办公自动化中汉字英文资料的自动输入;手写输入(PDA、手机);建立汉字和英文的文献档案库;书刊资料的自动输入;智能全文信息管理系统和办公管理系统;智能汉英翻译系统;多媒体应用系统。13.3图像模式识别应用:光学字符识别

13.3.1概述OCR系统的发展方向减少错误率:出版要求万分之一;提高识别的正确率;通过改进人工校对的效率。智能化、自动化;自动分析、自动识别、版面自动恢复。适应各种质量差的文本;识别更多种字体;识别更大字符集;彩色图像处理;视频图像处理。13.3图像模式识别应用:光学字符识别

13.3.2手写字符识别手写字符因人而异,一人一个写法,而且同一个人在不同的时间书写的字符也不尽相同,具体表现在以下几个方面:基本笔画变化。横不平,竖不直,直笔变弯,折笔的拐角变成圆弧符等。笔画模糊,不规范,该连的不连,不该连的却相连。笔画与笔画之间、部件与部件之间的位置发生变化。笔画的倾斜角、笔画的长短、部件的大小发生变化。对于脱机手写字符,不同人使用不同的书写笔可能造成笔画的粗细变化。

13.3图像模式识别应用:光学字符识别

13.3.2手写字符识别手写字符识别又可分为联机识别与脱机识别两类。一般认为,联机手写字符识别较脱机手写字符识别相对容易些。联机手写字符识别是一种人工实时地把字符输入计算机的方法,它利用书写板把笔画变为一维电信号,输入计算机的是以坐标点序列表示的笔尖移动轨迹,因而被处理的是一维的线条(笔画)串,这些线条串含有笔画数目、笔画走向、笔顺和书写速度等信息。而脱机手写字符识别处理的仅是二维的字符点阵图像,是字符识别领域中一个十分困难的问题。手写字符识别中,对非特定人脱机手写字符识别则难度更大。

13.3图像模式识别应用:光学字符识别13.3.2手写字符识别如前所述,字符识别的关键是特征量的选定,而特征量选定的方法也是多种多样:下图左显示的是所谓狭缝法,它用每个狭缝切出的图形的波形作为特征量。下图右则是方向线素笔画穿透数目特征法,在图形平面上作几条直线,把字符与各条特征线的交点数作为特征量。13.3图像模式识别应用:光学字符识别13.3.2手写字符识别作为一种实用的手写文字图像的识别方法,为了提高识别精度,有必要选取较多的特征量。本法使用的特征量如下图所示,为图像平面上纵、横、斜交差的12条直线。这12条直线分别标记上1~12的序号。当图像平面上输入一个手写文字时,计算文字的各个笔划与各条直线的相交次数,把它们作为该文字的特征量。13.3图像模式识别应用:光学字符识别13.3.2手写字符识别对于任意一个输入的图像模式(字符),我们可以用相同的方法对其抽取特征量C1,C2,…,Cn,把这些特征量逐一与各个字符的标准模式的特征量计算求取相似距离值D,假设与第i个标准模式的相似距离值Di是所有求得的距离值D中最小的一个,那么我们就说输入模式最接近于第i个标准模式。这样,作为图像识别的结果,我们说输入模式就是第i个标准模式所代表的字符。相似距离D是这样计算的。设输入图像模式的特征量为C1,C2,…,Cn,某个标准模式的特征量是R1,R2,…,Rn,则输入模式与该标准模式的相似距离D由下式计算:13.3图像模式识别应用:光学字符识别

13.3.2手写字符识别设特征量

C={Ci|i=l,2,…,12}中各分量的值表示相应序号的特征线与各笔划的相交次数。这种文字识别方法对于各种文字,包括中文、英文、日文、数字等等都适用。当然,要能够用本法来识别某种文字,其先决条件是必须准备该种文字的标准模式,因为没有文字的标准模式,识别是无从谈起的。如前图,当图像平面中输入一个手写“A”字后,它的各个笔划与12条特征直线的交点分别为:

C1=1,C2=2,C3=2,C4=2,C5=2,C6=2C7=3,C8=3,C9=0,C10=1,C11=2,C12=1因此其特征量是C(A)={1,2,2,2,2,2,2,3,3,0,1,2,1}。我们把C(A)定义成“A”的标准模式特征量。13.3图像模式识别应用:光学字符识别13.3.2手写字符识别但是,单靠一次手写输入来定义标准模式特征量是不行的,因为它所具有的代表性很差。通常的作法是,由不同的书写者反复输入多次,求其平均值来作为“A”这个手写字的标准模式特征量。即C={C1,C2,…,C12}其中:式中,M是该手写文字输入的总次数。13.3图像模式识别应用:光学字符识别13.3.2手写字符识别这样作出的标准模式会更具有代表性,因而能够提高文字的识别能力。一般地,M值越大(输入的次数越多),标准模式所能提供的识别能力会越大。如果我们用这种方法作出从A到Z这26个英文字母的大写和小写字母的标准模式特征量,我们就能利用它们来识别任何一个手写的英文字母了。识别的方法还是利用前述的相似距离的概念。分别计算输入模式与各个标准模式之间的相似距离Di,然后在Di中找出最小值Dmin,就把Dmin对应的标准模式所代表的字母作为识别结果输出。13.3图像模式识别应用:光学字符识别13.3.2手写字符识别设输入模式的特征量为C’={x1,x2,…,x12},某个标准模式的特征量为C={y1,y2,…,y12},为了提高计算速度和精度,采用下式计算相似距离:其中wi为各条特征直线的权。根据每条特征直线所处位置的重要性赋给各条特征直线不同的权值。例如在前图中处于中心的两条纵、横直线(竖线2和横线5)应该有最大的权值,而9,10,11,12等四条直线可取最小的权值。究竟应赋给各个权以多大的绝对值为宜?回答是不确定的。因为对于权值来讲,有意义的是它们之间的相对大小,而不是每个权值的绝对大小。13.3图像模式识别应用:光学字符识别13.3.2手写字符识别在实用手写体识别系统中,都具备学习(训练)功能。学习功能实际上就是将标准模式的生成过程延续到每一次的实际识别过程,以期不断提高识别率的一种强化识别功能的方式。这就是说,假定某一次的识别结果正确,把这个被识别的文字模式的特征量加入到该文字的标准模式特征量中去(按前述求平均的方法);假定某一次的识别结果不正确,则通过交互的方法要求操作者用键盘输入正确的答案,而把这一次被识别的文字模式的特征量加到正确答案的标准模式特征量中去。这样,就使得每一次的实际识别过程都成了标准模式的生成过程。通过这种不断的累积,可以使得识别系统的正确识别率不断得到提高。13.3图像模式识别应用:光学字符识别13.3.2手写字符识别上述是一个脱机(离线)手写体识别系统,以下是一个联机手写数字识别系统的示例程序及其源代码,右图是其界面。13.3图像模式识别应用:光学字符识别13.3.2手写字符识别下图是微软拼音输入法所提供的汉字手写输入板。它支持简体中文、繁体中文、英语、日语和朝鲜语的手写输入,由于有提示选择,识别正确率较高,甚至支持连笔。13.3图像模式识别应用:光学字符识别13.3.3印刷体文字的识别印刷体文字识别一般指从扫描仪(传真机、数码相机等)输入到计算机里的事务文书、技术档案等文书图像中识别逐个文字。印刷体文字识别中汉字识别已经实用化。而且在向更高的性能、更完善的用户界面的方向发展。有着广泛的应用前景。13.3图像模式识别应用:光学字符识别后处理版面理解版面重构输出13.3.3印刷体文字的识别:识别系统的流程

13.3图像模式识别应用:光学字符识别13.3.3印刷体文字的识别噪声的例子强噪声使行间粘连背面图像透过噪声加倾斜13.3图像模式识别应用:光学字符识别13.3.3印刷体文字的识别消噪处理:13.3图像模式识别应用:光学字符识别13.3.3印刷体文字的识别版面分析的难点:没有简单数学模型;不能简单横竖分割;图文绕排复杂;文章数目多。版面分析常用算法:自上而下法:从整体到局部递归分割;自下而上法:从局部到整体逐步合并;综合法:综合上面的算法;其它方法:纹理分析、背景分析等。下一页是版面分析的一个实例。版面分析的例子13.3图像模式识别应用:光学字符识别倾斜或行间距过小时投影失效13.3.3印刷体文字的识别行切分投影法13.3图像模式识别应用:光学字符识别实际的行切分算法13.3图像模式识别应用:光学字符识别13.3.3印刷体文字的识别字切分投影法连通域分析法字切分的困难字符断裂字符粘连中英文判别13.3图像模式识别应用:光学字符识别13.3.3印刷体文字的识别:识别算法印刷体文字的识别的算法种类很多:印刷体文字的模式表达形式和相应的字典形成方法有多种,每种形式又可以选择不同的特征,每种特征又有不同的抽取方法,这就使得判别方法和准则以及所用的数学工具不同,形成了种类繁多、形式各异的识别方法。通常可以分为:结构模式识别(句法模式识别)方法;统计模式识别方法;统计与结构相结合的识别方法;人工神经网络方法;单以识别率而言,特征抽取可以说是OCR的核心,用什么特征,怎么抽取,直接影响识别好坏。13.3图像模式识别应用:光学字符识别13.3.3印刷体文字的识别:识别算法结构模式识别(句法模式识别)方法文字图形含有丰富的结构信息,提取这些结构特征及其组字规律的信息,作为识别的依据,这就是结构模式识别法。印刷体文字是由笔划或更小的结构基元构成的。由这些结构基元及其相互关系完全可以精确地对文字加以描述,就像一篇文章由单字、词、短语和句子按语法规律所组成一样。故亦称句法模式识别。识别时,利用上述结构信息及句法分析的方法进行识别,类似一个逻辑推理器。在实际应用中,此方法面临的主要问题:抗干扰能力差,如倾斜,扭曲,断裂,粘连,对比度差等等。结构模式识别的描述比较复杂,匹配过程的复杂度也较高。只有得到可靠、稳定、独立且数量较小的特征,结构识别方法的优势才能够最大限度地发挥出来。如果上述问题得到较好的解决的话,结构识别方法将显示出其巨大的优势:匹配方法直观、形象;识别稳定性好,算法的泛化能力强。13.3图像模式识别应用:光学字符识别13.3.3印刷体文字的识别:识别算法统计模式识别方法提取待识别模式的一组统计特征,然后按照一定准则所确定的决策函数进行分类判决。统计模式识别是将字符点阵看作一个整体,所用的特征是从这个整体上经过大量的统计而得到的。统计特征的特点是抗干扰性强,匹配与分类的算法简单,易于实现。不足之处在于细分能力较弱,区分相似字的能力差一些。特征无直观性的物理意义。常见的统计模式识别方法有:(1)模板匹配;(2)笔划密度特征;(3)外围特征;(4)特征点特征;(5)利用变换特征的方法;(6)投影直方图法;(7)几何矩(GeometricMoment)特征;(8)Spline曲线近似与傅立叶描绘子(FourierDescriptor);(9)基于微结构特征的方法。13.3图像模式识别应用:光学字符识别13.3.3印刷体文字的识别下例采用模板匹配法(像素贴近度法)进行识别。模板匹配不需要特征提取过程。字符的图像直接作为特征,与字典中的模板相比,相似度最高的模板类即为识别结果。这种方法简单易行,可以并行处理;但是一个模板只能识别同样大小、同种字体的字符,对于倾斜、笔划变粗变细均无良好的适应能力。13.3图像模式识别应用:光学字符识别13.3.3印刷体文字的识别模板匹配法把输入图像与各个标准图像分别重叠起来,观察两者的重合度有多大。具体的算法就是对这两个图像求逻辑与(and),当且仅当同一坐标点处的象素都为黑象素时结果才为黑象素,否则为白象素。然后计算求与结果的图像中黑象素的个数,越接近图像中的黑象素个数时,输入图像的文字等于该标准图像文字的概率就越高。毫无疑问,输入文字只能与相同字体、相同字型大小的标准文字图像进行比较,否则是没有意义的。13.3图像模式识别应用:光学字符识别13.3.3印刷体文字的识别另外需要注意的是,笔划较多的输入文字与笔划较少的标准文字进行重叠比较时容易发生误识别。例如,输入文字为“玉”字,标准文字为“三”字时,重叠求与的结果仍将为“三”,结果就可能把输入的“玉”认作“三”。为了避免这个缺陷,应该将输入文字尽量只与和它的笔划大致相同的标准文字图像进行比较。要做到这一点,只需计算输入文字图像中黑象素的个数m,并只使用标准文字图像集中黑象素的个数接近m的那部分标准文字与之进行比较。这样一方面可以提高正确识别率,同时也因避免了与全部标准字型进行比较,从而可以提高识别速度。13.3图像模式识别应用:光学字符识别13.3.3印刷体文字的识别:商品化软件TH-OCR9.013.3图像模式识别应用:光学字符识别13.3.3印刷体文字的识别:阅读器内嵌OCR13.3图像模式识别应用:光学字符识别13.3.3印刷体文字的识别:表格识别OCR识别还可以识别和还原各种通用型印刷体表格,在表格理解上做出了令人满意的实用结果。可实现表格自动录入,识别后按表格格式输出。表格识别的分类无模板指导的表格识别有模板指导的表格识别识别过程表格线分析表格单元定位表格线及原始内容去除单元图像切分与识别识别结果编辑修改结果送数据库13.3图像模式识别应用:光学字符识别13.3.3印刷体文字的识别:表格识别有模板的特定表格识别增值税发票识别13.3图像模式识别应用:光学字符识别13.3.3印刷体文字的识别:表格识别有模板的特定表格识别中华人民共和国出口许可证录入检测

(THOCR-97批量表格自动识别录入子系统人机界面)13.3图像模式识别应用:光学字符识别其它识别系统OMR;邮政分拣;名片识别;身份证识别;信封地址识别;票据识别;发票识别。13.3图像模式识别应用:光学字符识别思考题根据所熟悉的某一部门的工作流程,设计一个实用的文本图像处理系统。输入何种文本图像?(表格?)需要识别何种信息?用课上的何种技术?(表格分析、切分、识别?)输出结果有何用途?(减轻人工劳动?)13.4图像模式识别应用:生物特征识别我们经常需要用各种证件证明我们的身份,如身份证、工作证、信用卡等,但是,它们都容易被窃取、丢失或忘记,都不够保险。生物特征识别(Biometric)技术:根据个人独特的生理学特征自动识别个人身份的技术。生物特征识别系统最大的优点是使用方便。而且日益明显地显示出快速和准确的特点。多种生物统计学识别系统可以共同使用,这样大大地提高了准确率。13.4图像模式识别应用:生物特征识别常用的生物特征:人脸、指纹、掌纹、虹膜、DNA、语音、姿态等。13.4图像模式识别应用:生物特征识别各种生物特征识别技术应用市场报告13.4图像模式识别应用:生物特征识别13.4.1生物特征识别原理

生物特征识别系统基本上都采用相同的工作原理:采集样品:指纹、面孔的图像等,或是语音;特征提取:根据样品与众不同的特征,用一种算法为其分配一个特征代码。代码存入识别数据库:可以对人的面部特征、人手的几何形状、人的声音或人的虹膜进行检索和匹配。当某人需要被识别身份时,一种特征匹配算法将存在数据库里的该人的特征代码与被识别人的特征相匹配,从而验明其身份。13.4图像模式识别应用:生物特征识别13.4.1生物特征识别原理

生物特征识别属于有监督分类:即我们在已知一些类样本的情况下,对新的样本进行分类。它的中心问题是类内距离和类间距离。类内距离:同一个类中的样本的距离或差别;类间距离:指不同类的样本的距离或差别。理想的情况是,类内距离相当小,类间距离相当大。那么,我们就可以识别不同类别的样本。13.4图像模式识别应用:生物特征识别13.4.2人脸识别人脸识别是模式识别领域的前沿课题,它具有广泛的应用前景:公安系统(criminalmugshot);银行,海关等(Identification);自动门卫系统(Authentication)。13.4图像模式识别应用:生物特征识别13.4.2人脸识别人脸识别到目前为止,还是一个世界性的难题,即使是同一个人脸,也会因为以下原因而各不相同:表情(Expression)年龄(age)光照(light)姿态(pose)部分遮挡(帽子,围巾,眼镜)此外,我们对人脑的识别机理尚不清楚,也是导致识别困难的原因。人脸图像可以看作一个维数为M*N(图像大小)的矢量,数据量大,是一个高维空间的分类问题。13.4图像模式识别应用:生物特征识别13.4.2人脸识别人脸识别系统的框图如下:采集跟踪定位特征提取匹配识别结果活动人脸活动人脸检测静态人脸识别13.4图像模式识别应用:生物特征识别13.4.2人脸识别早期人脸识别方法人脸识别的研究始于60年代末,早期的人脸识别方法主要有两大方向:几何特征的方法:提取特征点,如眼角,嘴角,鼻尖等;模板匹配的方法:计算模板和图像灰度的自相关性。13.4图像模式识别应用:生物特征识别13.4.2人脸识别90年代以来的人脸识别方法:基于特征分析的方法提取部件的灰度及轮廓信息进行识别。基于整体的方法:模板匹配;PCA(主成分分析PrincipalComponentAnalysis);FLD(Fisher线性判别方法FisherLinearDiscriminantAnalysis);弹性匹配(ElasticGraphMatch);神经网络(NeuralNetwork);隐马尔科夫模型(HiddenMarkovModel)。13.4图像模式识别应用:生物特征识别13.4.2人脸识别主元分析(PrincipalComponentAnalysis,PCA)法:是一种基于KL(Karhunen-Loeve卡夫纳-勒维)变换的方法,KL变换是一种最优的能量压缩方法,但是它并不是最优的模式分类方法。通过对训练样本KL变换得到的特征向量也叫特征脸,是一组标准正交基,通常取部分基构成特征空间,待识别人脸在特征空间的投影作为特征字串,通过比较特征子串之间的距离来作为识别的判据。主元分析法的任务:就是构造一个能更好描述人脸的人脸空间,降低空间维数,是新的人脸空间的基向量(称为主元)能更好地描述典型的人脸模式。前N个特征值对应的特征矢量是定义在图像空间的,可以被看成是图像,它们也确实与人脸相似,称之为特征脸。特征脸技术很容易扩展到特征眼、特征鼻、特征嘴等。13.4图像模式识别应用:生物特征识别13.4.2人脸识别弹性匹配方法:在二维空间定义了一个距离,这个距离对通常的人脸变形具有一定的不变性,他用属性拓扑图来表达人脸,拓扑图的任一顶点包含一个特征矢量,识别时候计算最佳拓扑图和原拓扑图的“距离”,作为识别的判据。13.4图像模式识别应用:生物特征识别13.4.2人脸识别弹性匹配方法:最佳拓扑图的生成同时考虑了特征矢量的匹配和相对几何位置的匹配弹性匹配:即最佳拓扑图的网格发生了变形以进一步的减小能量函数。正是因为这样,弹性匹配适应了人脸表情的细微变化。13.4图像模式识别应用:生物特征识别13.4.2人脸识别结论人脸识别是一个跨学科富挑战性的前沿课题,但目前人脸识别还很不成熟,尚不是实用化领域的活跃课题研究重点从传统的点和曲线的分析方法,过渡到用新的人脸模型来表达和识别人脸,其中弹性图匹配就是较成功的尝试。人脸识别的研究也和心理学、解剖学、生理学等的研究密切相关13.4图像模式识别应用:生物特征识别13.4.3指纹识别随着社会发展,取得高度准确的自动个人身份认证的能力变得日益重要;人们注意到,包括指纹在内的许多皮肤纹路在图案、断点和交叉点上每个人是各不相同的,也就是说,是唯一的。依靠这种唯一性,我们就可以把一个人同他的指纹对应起来,通过比较他的指纹和预先保存的指纹进行比较,就可以验证他的真实身份。指纹识别是生物识别技术的一种,是目前最流行、最方便、最成熟以及最可靠的个人身份认证方法之一。当今市场上可以提供从指纹取像设备到完整的指纹识别软件开发包,包括嵌入式的系统和其他应用指纹验证的计算机软件。13.4图像模式识别应用:生物特征识别自动13.4.3指纹识别指纹识别系统简介系统框图图像增强特征提取特征匹配指纹数据库指纹输入手工确认13.4图像模式识别应用:生物特征识别自动13.4.3指纹识别指纹输入现场采集指纹要求指纹质量不能太差。对于严重蜕皮和严重出汗的手指,采集到的指纹质量较差,进行图像增强后出现较大面积的不可恢复区,很难再做特征提取,也就无法进行特征匹配。图像增强一幅指纹图像的区域分为以下三种类型:清晰区、可恢复的坏区、不可恢复的坏区。前两个又被称作可恢复区,后一个被称作不可恢复区。指纹增强的目的:提高可恢复区的清晰度并标记出不可恢复区,而且此间不能带来过多的伪细节特征。13.4图像模式识别应用:生物特征识别13.4.3指纹识别指纹的特征指纹的两类特征:总体特征;局部特征。在考虑局部特征的情况下,英国学者E.R.Herry认为,只要比对13个特征点重合,就可以确认为是同一个指纹。13.4图像模式识别应用:生物特征识别13.4.3指纹识别总体特征是指那些用肉眼直接就可以观察到的特征,包括:

纹形模式区(PatternArea)核心点(CorePoint)三角点(Delta)纹数(RidgeCount)方向(Orientation)曲率(Curvature)位置(Position)13.4图像模式

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论