《应用汉字识别》课件_第1页
《应用汉字识别》课件_第2页
《应用汉字识别》课件_第3页
《应用汉字识别》课件_第4页
《应用汉字识别》课件_第5页
已阅读5页,还剩77页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、应用汉字识别PPT课件应用汉字识别PPT课件1、文字识别问题1)汉字识别2)汉字OCR技术发展历史3)国内主要研究机构1、文字识别问题1)汉字识别1)汉字识别 汉字识别属于文字识别(OCR)的范畴,文字识别是模式识别的重要应用领域。汉字识别技术涉及到模式识别、图像处理、人工智能、模糊数学、组合论、信息论、计算机等多个学科,也涉及到语言文字学、心理学等学科,是一门综合性的技术。1)汉字识别 汉字识别属于文字识别(OCR)的范畴,文字识别根据应用情况的不同汉字识别具体又分为印刷体汉字识别和手写体汉字识别。手写体汉字识别又分为两种:在线手写体识别和离线手写体识别。本章主要讨论印刷体汉字识别问题根据应

2、用情况的不同汉字识别具体又分为印刷体汉字识别和手写体汉印刷体汉字识别,从识别字体上可分为单体(一般为宋体)印刷汉字识别和多媒体汉字识别;从识别文字品质上可分为高品质印刷汉字识别和低品质印刷汉字识别;从应用范围上可分为专用印刷汉字识别和通用印刷汉字识别。印刷体汉字识别,从识别字体上可分为单体(一般为宋体)印刷汉字汉字识别难度印刷体识别最容易已经有了大量实际应用,图书馆数字化脱机手写体识别最难脱机手写体数字的识别已有实际应用外,比如邮政编码的自动识别汉字等文字的脱机手写体识别还处在实验室阶段 联机手写体识别相对容易,PDA等的推广,大量应用汉字识别难度印刷体识别脱机手写体识别最难联机手写体识别不同

3、字体的同一汉字的结构约80%相同,但书写风格,笔划粗细形状,笔划装饰等有一定的差异。不同印刷体汉字字形差别主要有:(1)笔划装饰及方向角度不同。(2)笔划长短、位置有变化。(3)笔划形态变化:如黑体笔划粗而平直,宽度一 致;宋体横细竖粗,有装饰角;楷体笔划有较大曲率,其中撇、捺弯曲程度更大,各个文字大小相差较大;仿宋体横笔划略向上倾斜。不同字体的同一汉字的结构约80%相同,但书写风格,笔划粗细形(4)笔划关系变化:如左偏旁口,黑体为正方形,其他体左竖笔较长。(5)偏旁部首占方块字的比例、位置、形态方面,不同字体也有差异。(4)笔划关系变化:如左偏旁口,黑体为正方形,其他体左竖笔较2)汉字OCR

4、技术发展历史西文OCR技术研究始于50年代Optical Character Recognition (OCR)几乎所有的早期模式识别研究者都进行过字符识别的研究。随后的 30 多年来,字符识别一直是模式识别的重要内容之一汉字OCR技术印刷体汉字的识别最早可以追溯到60年代1966年,IBM公司的Casey和Nagy发表了第一篇关于印刷体汉字识别的论文,在这篇论文中他们利用简单的模板匹配法识别了1,000个印刷体汉字2)汉字OCR技术发展历史西文OCR技术研究始于50年代汉字2)汉字OCR技术发展历史70年代以来,日本人做了许多工作日本的常用汉字有2000个左右1977年东芝综合研究所研制了可

5、以识别2000个汉字的单体印刷汉字识别系统80年代初期,日本武藏野电气研究所研制的可以识别2300个多体汉字的印刷体汉字识别系统,代表了当时汉字识别的最高水平日本的三洋、松下、理光和富士等公司也有其研制的印刷汉字识别系统简评这些系统在方法上,大都采用基于KL数字变换的匹配方案,使用了大量专用硬件,其设备有的相当于小型机甚至大型机,价格极其昂贵,没有得到广泛应用2)汉字OCR技术发展历史70年代以来,日本人做了许多工作2)汉字OCR技术发展历史 我国自70年代后期开始字符识别方面的研究,80年代以后,台湾和香港发展的也很快70年代末期到80年代末期算法和方案探索 :单体汉字识别90年代初期由实验

6、室走向市场,初步实用90年代后期混排多语言混排文本:如中英文多字体混排文本:如:宋,楷体,)多字号混排文本:不同大小2)汉字OCR技术发展历史 我国自70年代后期开始字符识别方当前进展状态2000年代后识别率、鲁棒性的提高单纯OCR文档分析多语混排,多字号,多字体版面分析文本的结构表格,图像(如插图),公式摄像设备(非扫描仪)名片手机摄像通讯录当前进展状态2000年代后3)国内主要研究机构汉王科技中科院自动化所1985年刘迎建开发出国内第一个联机手写汉字识别系统,并获国家发明专利。1993年初,在中科院自动化研究所的支持下创办了中国汉王科技公司,出任总经理中科院计算所智能计算机研究中心3)国内

7、主要研究机构汉王科技国内主要研究机构/人物其他清华大学电子系图像所丁晓青教授北京信息工程学院沈阳自动化研究所 国内主要研究机构/人物其他2、汉字识别系统1)系统构成2)OCR技术流程3)预处理-归一化2、汉字识别系统1)系统构成1)系统构成1)系统构成信号采集方式脱机识别扫描仪或者摄像设备数字图像信号联机手写识别手写屏,手写输入板运动轨迹电信号,记录了笔划和笔顺信息电磁式或压电式,在书写时,笔在板上的运动轨迹(在板上的坐标)被转化为一系列的电信号,电信号可以串行地进入到计算机中,从这些电信号我们可以比较容易地抽取笔划和笔顺的信息.信号采集方式脱机识别2)OCR技术一般流程2)OCR技术一般流程

8、流程简介1)图像获取将文本转换为图象点阵扫描仪 (Scanner)其它光电扫描设备如传真机,摄象机不同获取设备的差异扫描仪:最优摄像机:识别难度大流程简介1)图像获取流程简介2)图像预处理滤除干扰噪声倾斜校正各种滤波处理3)版面分析完成对于文本图象的总体分析区分出文本段落及排版顺序,图象、表格的区域对于文本区域将进行识别处理对于表格区域进行专用的表格分析及识别处理对于图象区域进行压缩或简单存储。流程简介2)图像预处理流程简介4)行字切分将大幅的图象先切割为行从图象行中分离出单个字符5)特征提取模式表示问题整个环节中最重要的一环,提取的特征的稳定性及有效性,直接决定了识别的性能从单个字符图象上提

9、取统计特征或结构特征包括细化(Thinning),归一化(大小等)等步骤流程简介4)行字切分流程简介6)文字识别模式识别研究范畴从学习得到的特征库中找到与待识字符相似度最高的字符类7)后处理利用词义、词频、语法规则或语料库等语言先验知识对识别结果进行校正的过程流程简介6)文字识别3) 归一化为了消除汉字点阵位置上的偏差,需要把整个汉字点阵图形移动到规定的位置上,这个过程被称做位置归一化。有两种简单的位置归一化方法。一种是基于质心的位置归一化方法;另一种是基于文字外边框的位置归一化。基于质心的位置归一化方法需要首先计算文字的质心,然后再把质心移动到指定的位置上来。基于文字外边框的位置归一化需要首

10、先计算文字的外边框,并找出中心,然后把文字中心移动到指定的位置上来。3) 归一化为了消除汉字点阵位置上的偏差,需要把整个汉字点阵质心归一化外框归一化原始图像污点干扰后图像上图给出了两种方法的示例,从中不难看出,基于质心的位置归一化方法抗干扰力更强。质心归一化外框归一化原始图像污点干扰后图像上图给出了两种方法3)归一化常用的大小归一化方法也有两种。一种是将文字的外边框按比例线性放大或缩小成为规定尺寸的文字。另一种是根据水平和垂直两个方向文字黑像素的分布进行大小归一化。对不同大小的文字做变换,使之成为同一尺寸大小的文字,这个过程称做大小归一化。通过大小归一化,许多特征就能够用于识别不同字号混排的文

11、字。 3)归一化常用的大小归一化方法也有两种。一种是将文字的外边框对于后一种归一化方法,先计算文字的:c(i,j) 意义如下c(i,j) = 1 表示该像素点为文字黑像素;c(i,j) = 0 表示该像素点为背景。A, B, L, R分别文字的 上下左右边界。记则质心GI和GJ为对于后一种归一化方法,先计算文字的:c(i,j) 意义如下记下面计算水平和垂直方向的散度I 和 J :最后按比例将文字线性放大或缩小成规定散度的点阵。下面计算水平和垂直方向的散度I 和 J :最后按比例3、汉字的结构特性分析周边特征分析游程统计特征及分析笔划特征及分析字根统计特征及分析3、汉字的结构特性分析周边特征分析

12、汉字的图像点阵如 “大”字汉字的图像点阵可用一个离散的二元函数来表示汉字的图像点阵如 “大”字汉字的图像点阵可用一个离散的二元函周边特征分析每一个汉字用3232点阵表示,分别从左、右、上、下四个方面顺次扫描汉字点阵。 用PL( n, l ), PR( n, l ), PU( n, l ), PD( n, l ),分别表示按上述四个方向扫描汉字点阵时在第n条扫描线第l个点位置上第一次遇到笔划黑像素的概率。lnnl周边特征分析每一个汉字用3232点阵表示,分别从左、右、上周边特征分析每一个汉字用3232点阵表示,分别从左、右、上、下四个方面顺次扫描汉字点阵。用PLn(l), PRn(l), PUn

13、(l), PDn(l),n=1,32,分别表示按上述四个方向扫描汉字点阵时,在第n个扫描线、第l列点阵位置上第一次遇到笔划黑像素的概率。因此l表示在第n次扫描行上在周边上第一次遇到黑像素前白像素的个数,它称为空程长度。这样在四个方向上空程长度l的概率分布函数,可以较好的说明汉字周边结构特征的分布。周边特征分析每一个汉字用3232点阵表示,分别从左、右、上下面定义周边扫描空程长度熵,它们是四边结构特征所包含信息量的度量:左周边熵:上周边熵下周边熵根据熵的理论,PL (n,l)为等概率分布时,其信息量(熵)为最大右周边熵对于其他三个周边熵也同样如此。下面定义周边扫描空程长度熵,它们是四边结构特征所

14、包含信息量的左图给出了四种周边熵的分布,从图中可见:(1)周边熵是较高。熵值一般均大于2;2)角部位置区域的熵值最大。说明这些部位扫描线空程的长度变化多,这些部分结构开头多,所以提取周边特征和角部特征或选取角部结构作为部首的特征是合理的。左图给出了四种周边熵的分布,从图中可见:(1)周边熵是较高。游程统计特性及分析印刷体汉字的游程统计分布可以反映汉字内部笔划结构的分布情况,对汉字特征选择和汉字压缩编码都具有一定参考意义。游程(Running Length)是指在同一方向上,宽度为一个像素的扫描线条上亮度相同的连续像素的个数。由笔划像素组成的黑游程长度记为BRL,由背景像素组成的白游程长度记为W

15、RL。左图黑白点阵第二行的游程码为WRL1,2,2,1,2游程统计特性及分析印刷体汉字的游程统计分布可以反映汉字内部笔为了对汉字游程分布有一个大概的了解,对八个离散方向(00,200,450,700,900,1100,1350,1600)4040点阵的汉字进行了游程分布统计。不同角度的平均黑游程长度见下表。离散方向009004501350黑游程平均长度(像素数)4.1594.4702.6772.939离散方向70011002001600黑游程平均长度(像素数)3.4453.5472.2613.348为了对汉字游程分布有一个大概的了解,对八个离散方向(00,2笔划特性及分析每种笔划在汉字中出现的

16、频率是不同的。据统计,横为28%,竖为18%,撇为15%,点、捺为13%,折为7%,其他为19%。但是,要使用图像处理技术自动把汉字中的每种笔划都准确地提取出来,目前还有很大困难。但是提取横、竖、撇、捺笔划是可能的。笔划特性及分析每种笔划在汉字中出现的频率是不同的。据统计,横上图是笔划的数目分布图NS,NH,NV,NL和NR分别表示一个字的笔划总数、横笔划总数、竖笔划总数、撇笔划总数和捺笔划总数。上图是笔划的数目分布图NS,NH,NV,NL和NR分别表示一左图是笔划的长度分布图LH,LV,LL和LR分别表示横笔划长度、竖笔划长度、撇笔划长度和捺笔划长度(以像素为单位)。左图是笔划的长度LH,L

17、V,LL和LR分别表示横笔划长度、竖字根统计特性及分析汉字有很多字根,这些字根简繁不一。下表统计了几种字根在6763个汉字中出现的频率。字根田日口王卅土字根在字库中出现的百分比%6.6233.9366.0234.5131.7690.09以上是对汉字的一些统计结果。在汉字识别研究中可以根据设计需要对汉字的其他特征和特性做统计,从而使得识别系统更有效,更可靠。字根统计特性及分析汉字有很多字根,这些字根简繁不一。下表统计4、印刷体汉字的特征描述 1)复杂指数 2)四边码 3)粗外围特征 4)粗网格特征 5)笔划密度特征 6)汉字特征点 4、印刷体汉字的特征描述 1)复杂指数1) 复杂指数文字x方向和

18、y方向的复杂指数被定义为:式中,cx和cy分别为x方向和y方向的复杂指数。Lx和Ly分别为x方向和y方向黑像素的总数。而x和y分别为x方向和y方向质心二次矩的平方根:式中,GI和GJ分别为文字质心位置的i和j坐标值,N和M是文字点阵的长和宽。1) 复杂指数文字x方向和y方向的复杂指数被定义为:式中,c从文字四周边框开始,向内取适当宽度,以此宽度分割出文字四周的四个部分。根据每一个部分中含有文字黑像素的多少分为四级编码(0,1,2,3)。2) 四边码文字四边码举例从文字四周边框开始,向内取适当宽度,以此宽度分割出文字四周的一次粗外围特征反映了文字轮廓特征,二次粗外围特征在某种程度上反映了文字内部

19、结构。3)粗外围特征粗外围特征抽取的过程为:首先求出文字的外边框,再把pq点阵文字分割成nn份,n通常取8。再将第二次与文字线相碰的非文字部分面积和全部文字面积之比作为二次粗外围特征P2 i ( i =1,4n2 ) ,形成8n2维的特征向量p。从文字四边框各向对边扫描,计算最初与文字笔划相碰的非文字部分的面积和全部面积之比作为一次粗外围特征P1 i (i=1,4n 2 ),一次粗外围特征反映了文字轮廓特征,二次粗外围特征在某种程度上4)粗网格特征把加框pq点阵文字分割成nn份,n通常取8,取每份中黑像素数对整个文字黑像素数的比例,将所有nn值排成一列而形成n2维特征向量。粗网格特征体现了文字

20、整体形状的分布,但该特征抗笔划位置干扰的能力差。4)粗网格特征把加框pq点阵文字分割成nn份,n通常取85)笔划密度特征这种从文字四个方向抽取的笔划密度特征叫做四方向笔划密度特征。它不但对印刷体汉字分类有较好的效果,对手写印刷体汉字分类也具有价值。在加框的pq点阵中,向不同的方向投影,对文字黑像素的个数做累加计算,形成笔划密度直方图。通常取水平、垂直、450、和1350四个扫描方向,每个方向取n(通常取n=16)个值作为特征,形成4n维特征向量。5)笔划密度特征这种从文字四个方向抽取的笔划密度特征叫做四方6)汉字特征点一个汉字的笔划上和背景中的关键点是汉字结构的一种本质字形特征。汉字基本由直线

21、笔划构成,是一种直线型文字。在一幅二值化图像中,汉字信息绝大部分集中在汉字骨架上,而汉字骨架信息又大多数集中在若干特征点(称为笔划特征点)上.笔划特征点骨架一个汉字图形的背景部分,也包含了区别于其他汉字的丰富信息。在背景部分选取关键点,也可以有效地区分其他汉字。对笔划少的汉字,选取关键背景点尤其重要。6)汉字特征点一个汉字的笔划上和背景中的关键点是汉字结构的一汉字笔划特征点可以取端点、折点、歧点和交点。端点是笔划的起(或终)点且不与别的笔划相接;折点是笔划方向出现显著变化的点;歧点是三叉点,要求其中两个笔段分支方向相同:交点是四叉点且有两对相等的对顶角。见下图所示。端点折点歧点交点汉字笔划特征

22、点可以取端点、折点、歧点和交点。端点是笔划的起(汉字笔划特征点集中了主要的汉字结构信息。端、折点决定了一个汉字的笔划位置和形状;歧点、交点决定了不同笔划间的相互连接关系。当然还可以定义汉字关键背景点以弥补难以区别相似笔划特征点汉字的不足。由于汉字特征点是由汉字结构本质所决定的,所以无论是北方印刷汉字还是南方印刷汉字;无论是书版还是报纸版;无论是宋体印刷汉字还是其他体印刷汉字,甚至是书写规整的手写印刷体汉字,同一汉字的特征点很少变动。其中折点、交点更稳定。因而使用汉字特征点,原理上就能很好识别多体印刷汉字,甚至可以识别手写体汉字,把印刷体汉字和手写规整的汉字识别的方法统于一个系统中。汉字笔划特征

23、点集中了主要的汉字结构信息。端、由于汉字特征点是汉字特征点反映了汉字结构特征。和统计特征相比,汉字中非结构信息(如笔划粗细、字形位置变动、少量旋转等)的不稳定性,从理论上讲,对汉字特征点的提取无影响。所以,用特征点来识别汉字,可以增加抗噪声能力,提高实用性。通常情况下,要提取笔划的特征点,首先要对文字图像处理,将文字的笔划变细,这个过程叫做细化。因此该方法对图像处理技术提出了较高的要求。如果文字图像处理得不够理想,会影响到该方法的效果。汉字特征点反映了汉字结构特征。和统计特征相比,汉字中非结构信5、汉字识别方法1)相似性度量方法2)句法模式识别方法3)统计模式识别方法4)分类策略5、汉字识别方

24、法1)相似性度量方法1)相似性度量方法在选取了特征之后,需要选择或寻找适当的判别准则,从而判断出待识别的文字的特征与哪一个类别的特征最近。(1)(3)相似度(2)设x,G表示待识别文字的特征向量和标准类别特征矢量。常用的距离度量准则如下:1)相似性度量方法在选取了特征之后,需要选择或寻找适当的判别(4)复合相似度其中:(4)复合相似度其中:(5)混合相似度式中:是常数,Gg是和x极相似的标准文字特征向量(平均值)(5)混合相似度式中:是常数,Gg是和x极相似的标准文字特2 ) 句法模式识别方法早期汉字识别研究的主要方法特点:注意汉字的组成结构汉字图形结构复杂,但规律性强,含丰富的结构信息从汉字

25、的构成上分析.笔划(横竖撇点折)偏旁部首字.由这些基元及其相互关系完全可以精确地对汉字加以描述.类比类比文章结构单字词短语句子篇章,按语法规律组成.识别过程:编译理论中的句法分析.2 ) 句法模式识别方法早期汉字识别研究的主要方法特点:注2 ) 句法模式识别方法训练过程建立所有汉字的解析图描述基本单元基本单元之间的拓扑结构2 ) 句法模式识别方法训练过程标木示一|一一字偏旁部首基本笔划(横竖撇点折)汉字的解析图表示示例标木示一|一一字偏旁部首基本笔划(横竖撇点折)汉字的解析图2 ) 句法模式识别方法识别过程图像获取,预处理,二值化,西化基元提取基本笔画提取偏旁部首提取解析图表示2 ) 句法模式

26、识别方法识别过程2 ) 句法模式识别方法句法分析过程Top-down相似度计算方法拓扑相似性节点相似性2 ) 句法模式识别方法句法分析过程2) 句法模式识别方法优点理论上是比较恰当的,对字体变化的适应性强,区分相似字能力强缺点描述复杂,匹配过程复杂度也高抗干扰能力差,结构基元提取困难,导致推理过程难以进行实用中文本图象中存在着各种干扰,如倾斜,扭曲,断裂,粘连,纸张上的污点,对比度差等等纯结构模式识别方法已经逐渐衰落2) 句法模式识别方法优点3)统计模式识别方法基本思路将字符点阵看作一个整体,其所用的特征是从这个整体上经过大量的统计而得到的.缺点细分能力较弱,区分相似字的能力差一些.优点抗干扰

27、性强,尤其适用于有污染的数据.匹配与分类的算法简单,易于实现.3)统计模式识别方法基本思路3)统计模式识别方法直接图像特征变换特征 投影直方图 矩特征 几何描绘子 笔划密度特征 外围特征 3)统计模式识别方法直接图像特征直接图像特征 实际上并不需要特征提取过程,字符的图象直接作为特征与字典中的模板相比,相似度最高的模板类即为识别结果优点简单易行,可以并行处理缺点不同大小、不同字体需要大量模板对于倾斜、笔划变粗变细均无良好的适应能力 直接图像特征 实际上并不需要特征提取过程,字符的图象直接作为变换特征字符图象进行某种数学变换二值类变换,如Walsh, Hardama变换更复杂的变换,如KL, F

28、ourier变换, 余弦变换(DCT)优点变换后的特征的维数通常会降低,更紧凑,利于分类缺点多数变换不是旋转不变的,因此对于倾斜变形字符的识别会有较大的偏差有些最优变换特征的运算复杂度较高,如:K-L变换在最小均方误差意义下是最优的变换,但是运算量大变换特征字符图象进行某种数学变换变换特征:矩特征在线性变换下保持不变的矩:不变矩但往往很难保证线性变换这一前提条件记注:灰度概率分布中心矩则质心坐标为原点矩变换特征:矩特征在线性变换下保持不变的矩:不变矩记注:灰度概变换特征: 投影直方图利用字符图象在特定方向的投影作为特征通常使用水平及垂直方向垂直方向投影水平方向投影好jio第i条线上黑像素的个数

29、占总笔画点数的百分比第j条线上黑像素的个数占总笔画点数的百分比字符黑白图像变换特征: 投影直方图利用字符图象在特定方向的投影作为特征垂变换特征: 投影直方图该方法对倾斜旋转非常敏感,细分能力差。待识别投影直方图投影直方图库汉字投影直方图差差异-=变换特征: 投影直方图该方法对倾斜旋转非常敏感,细分能力差。变换特征:几何描绘子几何描绘子样条曲线近似在轮廓上找到曲率大的折点,利用Spline曲线来近似相邻折点之间的轮廓线,并用Spline曲线参数作为特征。傅立叶描绘子 利用傅立叶函数模拟封闭的轮廓线,将傅立叶函数的各个系数作为特征。对于轮廓线不封闭的字符图象不适用,难用于笔划断裂的字变换特征:几何

30、描绘子几何描绘子汉字识别通常都采用层次化的分类结构,即对汉字字库做多级分类,然后再细分判别,从而大大提高识别效率。一般把最后一级分类称为细分类,而前面的分类称为粗分类。一般来说,对汉字的粗分类有如下要求。4)分类策略:多级分类在汉字识别中,一般是采用在一个线性表逐一匹配的方法,由于汉字数量大,如果不对汉字字库分类而直接识别,一方面识别效果不会好,另一方面计算量往往会很大。汉字识别通常都采用层次化的分类结构,即对汉字字库做多级分类,(2)粗分类的速度要快。这要求分类的算法简单,同时要求分在各个类别中的汉字的数目比较平均,从而提高分类的效率。(3)粗分类的特征要简单,分类字典小,节约存储空间。(4

31、)粗分类方法要和细分类方法相协调。4)分类策略:多级分类(1)粗分类的正确分类率和分类稳定性要高。文字识别是先粗分类,然后再细分类。粗分类的正确与否会影响到后面的识别。这里的分类率是在噪声干扰下能够正确分类。(2)粗分类的速度要快。这要求分类的算法简单,同时要求分在各树分类具有效率高的特点,近年来在汉字识别中得到运用。但是汉字字数多造成分类树结构庞大,错分率累加,使得分类不够稳定。右图给出的是一个树形粗分类示意图。该图中“3”所代表的文字不仅在类别 A 中,在噪声情况下,也可能出现在 C 中。因此这是一种考虑了噪声干扰等因素的特殊的分类方法。ABC12345367所以要求细分判别 C 类中的文

32、字时考虑到“3”所代表的文字的存在。树分类具有效率高的特点,近年来在汉字识别中得到运用。但是汉字粗分类方法:包含配选法许多汉字具有相同的偏旁部首,包含配选法就是利用这一特点对汉字分类。分类用的摸板是汉字偏旁部首的骨架图形。分类时,将输入文字和各标准模板做“与”运算。显然,只有和输入未知文字的偏旁。部首相同的标准模板相“与”的结果才和标准模板本身的图形一致。所以,根据未知输入文字图像和分类用标准模板图像“与”的结果是否相同于该标准图像,可以判别出未知文字属于哪一类。粗分类方法:包含配选法许多汉字具有相同的偏旁部首,包含配选法在没有和标准图像相“与”匹配前,先把未知文字图像横线加粗成大于等于3个像

33、素宽,以利于包含相匹配的模板,但是也加大了包含其他标准模板的概率,因而误识率会增加。为避免文字笔划绝对位置移动带来的干扰,需要把图像沿上下左右四个方向平移一个像素,然后分别与标准模板相匹配。只要有一次匹配成功,就判断该文字属于标准模板图像的类别。由此可见,包含匹配法实际上就是模板匹配法。当识别字数增多时,由于偏旁部首的标准模板增加很少,其分类速度比粗外围和粗网络法容易提高,而存储量要求较少。在没有和标准图像相“与”匹配前,先把未知文字图像横线加粗成大细分类方法:基于小笔段特征的层次结构汉字的笔划特征受字体、字号等影响较小,是识别汉字的很好的特征。但是汉字笔划特征对实际文本来说很难提取。用基于小笔段特征的汉字层次结构,能较好地解决以上问题。若干小笔段首尾相连构成了汉字笔划,如右图所示。用小笔段作为基元一方面易于提取;另一方面它又保留了汉字基本的笔划结构信息,且在字体变化或噪声干扰条件下,仍能保持笔划结构的绝大部分信息。n10n1n2n3n4n5n6n7n8n9n11n12细分类方法:基于小笔段特征的层次结构汉字的笔划特征受字体、字小笔段组成了部件,部件又组成了汉字。由小笔段到部件,再到汉字的层次结构描述,反映了汉字结构不同层次的约束关系。汉字字体改变和干扰影响会使得小笔段特征向量有变化。因此,用层次结构法对未知

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论