




已阅读5页,还剩82页未读, 继续免费阅读
(计算机科学与技术专业论文)蒙古文古籍识别技术的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
一 m i1 1i ii ii1 11 1 1 1 t ll ii y 18 8 7 4 3 4 原创性声明 本人声明:所呈交的学位论文是本人在导师的指导下进行的研究工作及取得的研究成 果。除本文已经注明引用的内容外,论文中不包含其他人已经发表或撰写过的研究成果,也 不包含为获得凼墓直太堂及其他教育机构的学位或证书而使用过的材料。与我一同工作的同 志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名:蕉 童东 日。 期:酬z 。z 指导教师签名:醴 日掣 在学期间研究成果使用承诺书 , + 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:内蒙古大学有权将 学位论文的全部内容或部分保留并向国家有关机构、部门送交学位论文的复印件和磁盘,允 许编入有关数据库进行检索,也可以采用影印、缩印或其他复制手段保存、汇编学位论文。 为保护学院和导师的知识产权,作者在学期间取得的研究成果( 含计算机软件、程序) 属于 内蒙古大学计算机学院。作者今后使用涉及在学期间主要研究内容或研究成果,须征得内 蒙古大学计算机学院就读期间导师的同意;若用于发表论文,版权单位必须署名为内蒙古大 学计算机学院方可投稿或公开发表。 、 学位论文作者签名:荔。白蕴 e t 期:丝必么杉 指导教师签名:丝 日 期:翔红么f _ i 内蒙古大学硕士学位论文 蒙古文古籍识别技术的研究 摘要 目前,我国有大量的蒙古文古籍以图像的形式保存在图书馆中。这些古籍 文档内容涉及宗教、历史、文化、艺术、天文、地理、民族、医学等诸多方面, 是人类文化的宝贵遗产。但图像格式的古籍文档不利于研究人员的编辑,检索、 以及更进一步的统计分析。因此本文以木刻印刷的御制蒙古文甘珠尔经为 研究对象,对蒙古文古籍文档的识别进行了深入研究,对蒙古文古籍的识别提 出了行之有效的解决方案,以期推动蒙古文古籍文档的电子化,为蒙古文古籍 的挖掘和利用提供便利,从而促进蒙古文化的传播和发扬光大。 本文分析了蒙古文以及蒙古文古籍的特点,在此基础上提出了蒙古文古籍 识别的方法。在预处理阶段,通过对古籍的自身特点的分析,本文选取合适的 方法对蒙古文古籍文档进行倾斜校正,二值化和去噪处理。在文档分割阶段, 本文依据水平投影对文档图像进行列切分,然后根据最大连通域对每一列进行 词切分。在单词切分后,进一步依据主干线将蒙古文单词切分成字元( g l y p hu n i t a b b r g u ) 。每个字元由不超过三个蒙古文字母组成。在特征提取阶段,我们根 据分类要求,共提取字元的八种特征:l p ,e u l e rn u m b e r ,b d ,d c t ,d w t ,p c a , c o n & p r o ,a n de p i 。在分类阶段,我们采取三步分类的方法。在第一步,我们 利用决策树进行将所有的字元分到九组字元中的一组。在第二步,对每组字元, 我们利用5 个b p 神经网络对该组字元进行识别。5 个神经网络的输入分别为字 元的五种特征向量。在第三步,通过对5 个神经网络返回的5 组结果综合生成 每组字元的最终的识别结果。对每组识别后的结果,我们采取基于加权编辑距 离的错误校正算法对结果进行校正,并最终生成编码的蒙古文古籍文档。 蒙古义古藉识别技术的研究 一 本论文共选取了2 0 页蒙古文古籍文档进行了实验。统计实验结果,蒙古文 单词字元切分准确率9 6 2 ,最终单词识别的准确率达到了7 1 。由于蒙古文古 籍是由多人书写木刻印刷而成,每一个文字存在多个不规范的变体,字母的重 叠相交的问题比较明显,所以切分和识别难度较大。所以本文在文蒙古文古籍 的识别率是令人满意的。 关键词:蒙古文古籍,字元切分,特征提取,分类器设计,结果平滑 内蒙古大学硕士学位论文 r e s e a r c ho fm o n g o l i a n h i s t o r i c a ld o c u m e n tr e c o g n i t i o n a b s t r a c t t h e r ea r em a n yt r a d i t i o n a lm o n g o l i a nh i s t o r i c a ld o c u m e n t sw h i c ha r er e s e r v e d i ni m a g ef o r mc u r r e n t l y t h ec o n t e n to ft h e s eh i s t o r i c a ld o c u m e n t si n v o l v e sr e l i g i o n , h i s t o r y , c u l t u r e ,a r t i f i c i a l ,a s t r o n o m y , g e o g r a p h y ,n a t i o n a l i t y ,m e d i c i n e ,a n ds oo n t h e ya r ev a l u a b l eh e r i t a g eo fh u m a n h o w e v e r , t h e h i s t o r i c a ld o c u m e n t sa r ed i f f i c u l t f o rr e s e a r c h e r st oe d i t ,r e t r i e v e ,a n df u r t h e rs t a t i s t i c a la n a l y s i s i no r d e rt op r o m o t e t h ep r o c e s so fm o n g o l i a nd i g i t a l i z a t i o n ,i nt h i sp a p e rw ee x p l o r e dt h em o n g o l i a n h i s t o r i c a ld o c u m e n ta n dp r o p o s e da ne f f i c i e n ta p p r o a c ht or e c o g n i t i o ni t ,i nw h i c ht h e m o n g o l i a ns u t r am a d eb yt h ee m p e r o ro r d e ra r eu s e da st h er e s e a r c hs u b j e c t t h i s c o u l dp r o v i d et h ec o n v e n i e n c ef o rt h em i n i n ga n du t i l i t yo fm o n g o l i a nh i s t o r i c a l d o c u m e n t ,a n dp r o m o t e t h es p r e a do f m o n g o l i a n c u l t u r e i nt h i s p a p e r , w ei n v e s t i g a t e t h e p e c u l i a r i t i e s o ft r a d i t i o n a l m o n g o l i a n d o c u m e n t sa n dp r o p o s ea na p p r o a c ht or e c o g n i z et h e m i nt h ep r e p r o c e s ss t a g e ,w e s e l e c ta p p r o p r i a t em e t h o d st od os l a n tc o r r e c t i o n ,b i n e r i z a t i o n ,a n dd e n o i z a t i o nf o r m o n g o l i a n h i s t o r i c a ld o c u m e n t sa c c o r d i n gt ot h e s p e c i a l i t e s o ft h eh i s t o r i c a l d o c u m e n t s i ns e g m e n t a t i o ns t a g e ,w ed oc o l u m ns e g m e n t a t i o na c c o r d i n gt ot h e v e r t i c a l p r o j e c t i o n ,a n d d ow o r d s e g m e n t a t i o nu s i n g t h e b i g g e s tc o n n e c t e d c o m p o n e n ta l g o r i t h m w ef u r t h e rs e g m e n te a c hm o n g o l i a nw o r di n t os e v e r a lg l y p h u n i t s ( g l y p hu n i ta b b r g u ) e a c hg u i sc o n s i s t e do fn om o r et h a nt h r e ec h a r a c t e r s i nf e a t u r ee x t r a c t i o ns t a g e ,w ee x t r a c te i g h tk i n d so fg uf e a t u r e s :l p , e u l e rn u m b e r , b d ,d c t , d w t ,p c a ,c o n & p r oa n de i ei n c l a s s i f i c a t i o ns t a g e ,w eu s e da t h r e e s t e pm e t h o dt or e c o g n i z et h eg u s :t h ef i r s ts t 印i st h a t a l lt h eg u sa r e c l a s s i f i e di n t on i n eg r o u p sb yd e c i s i o nt r e e t h es e c o n ds t a g ei st h a tt h eg u s i ne a c h g r o u pa r ec l a s s i f i e di n d i v i d u a l l yb yf i v ei n d e p e n d e n tb pn e u t r a ln e t w o r k sw h o s e i n p u t sa r ef i v ek i n d so ff e a t u r e so ft h eg u s t h el a s ts t e pi st h a tw ec o m b i n e t h ef i v e r e s u l t so fe a c hg ug r o u pf r o mt h ea b o v ef i v ec l a s s i f i e r st op r o v i d et h ef i n a l r e c o g n i z e dr e s u l t w ec o r r e c tt h er e c o g n i t i o nr e s u l tw i t ha na l g o r i t h mb a s e do n h i d o c u m e n t s i nt h i s p a p e r t h et e s tc o l l e c t i o ni s2 0p a g e so ft h em o n g o l i a n s u 昀t h e s e g m e n t a t i o nr a t eo fg ui s9 6 2 ,a n dt h er e c o g n i t i o nr a t eo fm o n g o l i a n w o r d si s 7i b e c a u s et h e m o n g o l i a nh i s t o r i c a ld o c u m e n t sa r e g e n e r a t e db yt h em a n y x y l o g r a p h e r s ,a n dt h ew o r d si nt h e ma r en o ts t a n d a r d c h a r a c t e ri n t e r s e c t i o ni s a n 1 m p o r t a n tp r o b l e m ,s ot h a tr e c o g n i t i o nt h ew o r d si sa d i f f i c u l tt a s k i nt h i sp a p e r ,w e a c h i e v e dad e s i r e dp 晌m a n c e 1 l ( e y w o r d s :m o n g o l i a nh i s t o r i c a l d o c u m e n t ,c u s e g m e n t a t i o n ,f e 咖r e,t 、e x t r a c t i o n ,c l a s s i f i e rd e s i g n a t i o n ,r e s u l tc o m b i n a t i o n i v 内蒙古大学硕士学位论文 目录 摘要i a b s t r a c t i i i 目蜀乏v 图表目录v i i i 第一章绪论1 1 1 研究背景及意义1 1 2 文字识别的发展历史及现状一2 1 3 研究内容一4 1 4 结构安排5 第二章文字识别相关理论与技术6 2 1 文字的切分识别和整词识别6 2 2 文字识别的模式识别方法一8 2 2 1 模板匹配8 2 2 2 统计方法1 0 2 2 3 结构化方法1 6 2 2 4 神经网络1 8 第三章蒙古文古籍识别技术的研究2 2 3 1 蒙古文及蒙古文古籍概述2 2 3 1 1 蒙古文概述2 2 3 1 2 蒙古文古籍概述2 4 3 2 蒙古文古籍识别方法和流程2 5 3 3 预处理2 7 v 蒙古文古籍识别技术的研究 一一 3 3 1 二值化2 8 3 3 2 去噪2 9 3 3 3 倾斜校正3 2 3 4 切分3 4 3 4 1 列切分3 5 3 4 2 词切分3 6 3 4 3 字元切分3 7 3 5 字元特征提取4 1 3 5 1 l p 4 1 3 5 2e u l e r n u m b e r 4 2 3 5 3b d 4 2 3 5 4c o n & p r o 。4 2 3 5 5d c t :4 3 3 5 6d w t ? 。4 4 3 5 7p c a 4 4 3 5 8e p i 4 5 3 6 字元识别4 5 3 6 1 决策树4 6 3 6 2b p 神经网络4 7 3 6 3 结果平滑4 8 3 7 识别后处理4 8 3 7 1 后缀处理4 8 3 7 2 编码。4 9 3 7 3 错误校正4 9 v i 第四章 4 2 4 3 第五章 5 2 致谢 参考文 攻读硕士 v 蒙古文古籍识别技术的研究 图表目录 图1 1 文字识别体系一2 图2 1 一个基于切分的识别例子7 图2 2 一个整词识别的例子7 图2 3 通过轮廓变形的字母匹配9 图2 4 统计模式识别系统框1 0 图2 5 线性分类器原理框13 图2 6 结构方法示例1 7 图2 7 结构模式识别系统框图1 7 图2 8 多层感知器模型19 图2 9 神经网络识别文字的流程1 9 图3 1 蒙文单词及构成单词字母2 3 图3 2 蒙古文字本示例2 3 图3 3 甘珠尔经示例2 5 图3 4 蒙古文古籍识别流程2 7 图3 5 使用o s t u 算法二值化后的蒙古文古籍图像2 9 图3 6 文档图像小波去噪前后对比3 1 图3 7 腐蚀操作示意图3 2 图3 8 倾斜校正示例3 4 图3 9 文档垂直投影_ 3 5 图3 1 0 利用连通域检测蒙古文单词3 7 图3 11 机器印刷和木刻印刷的蒙古文单词翎w 3 8 图3 1 2 蒙古文单词及其水平投影。3 9 v i i i 内蒙古大学硕士学位论文 图3 1 3 蒙古文单词切分流程示例:( a ) 原词( b ) 主干线定位己及规范化( c ) 备选分割线( d ) 备选分割线的代表( e ) 最终分割结果4 0 图3 1 4 两个字元:4 l 图3 1 5 字元的一个示例4 2 图3 1 6 两个字元一4 2 图3 1 7 字元左轮廓特征和垂直投影特征示例一4 3 图3 1 8 一个蒙古文单词及其经过d c t 变换后的数据4 3 图3 1 9 一个蒙古文单词及其经过一级d w t 变换后的数据一4 4 图3 2 0 字元识别算法流程图4 6 图3 2 l 利用连通域检测蒙古文单词4 9 图4 1b 和d + b 两种方法在a t a t 这组实验的性能对比5 5 图4 2b 和d + b 两种方法在2 - f o l d 这组实验的性能对比5 5 图4 3b 和d + b 两种方法在5 f o l d 这组实验的性能对比5 5 图4 4 五种特征在分类方法b 上的性能对比5 6 图4 5 五种特征在分类方法d + b 上的性能对比“5 6 图4 6b 、d + b 在五种特征上的精度最大值和本文方法在三组实验上的性能对比5 7 表2 1 整词识别和切分识别的对比8 表2 - 2 决策表12 表3 1 箭e 的变体2 5 表3 2 蒙古文古籍图像校正算法3 3 表3 3 连通域检测算法3 6 表3 4 蒙古文字元切分算法3 8 表3 5 特征及其维数4 l 表3 6 四个本身不连接在一起的蒙古文单词4 9 i x 蒙古文古籍识别技术的研究 一 表3 7 改进的编辑距离的计算方法5 1 表4 1 字元类别信息5 2 表4 - 2 字元的数量和比例关系5 2 表4 - 3 字元切分的部分结果5 3 表4 - 4 字元识别结果5 4 表4 5 b 、d + b 和d + b + c 结果对比j 5 7 x 内蒙古大学硕士学位论文 1 1 研究背景及意义 第一章绪论 据了解,国家和内蒙古各大图书馆收藏了大量的清代用古典蒙古文书写的古籍文献资料 ( 古典蒙古文指十七、十八世纪的蒙古文) 。这些古籍文献资料的大部分都采用木刻印刷而成, 内容涉及宗教、历史、文化、艺术、天文地理、民族、医学等诸多方面,是人类文化的宝贵 遗产。清代( 1 7 2 0 年) 在北京木刻印刷的御制蒙古文甘珠尔经是这些文献中最有代表性 的、具有世界影响的蒙古文古籍资料。现内蒙古大学图书馆收藏有御制蒙古文甘珠尔经 一套,共1 0 8 卷,每卷8 0 0 多页,2 0 0 0 多万字。目前该古籍资料已经经过扫描以数字图像的 形式加以保存。但图像格式的文档,不利于研究人员进行编辑、检索、词汇句法统计,以及 更加深入的研究。这极大的制约了人们对该古籍文献资料的研究与利用。因此本文依托国家 自然科学基金项目木刻印刷蒙古文古籍识别与检索技术的研究,主要以御制蒙古文甘珠 尔经为研究对象,对木刻印刷蒙古文的识别技术进行深入的研究,运用文字识别技术将扫 描图像中的蒙古文识别后转换成编码的电子文档,为蒙古文古籍文献资料的抢救与挖掘提供 便利。这项研究将有利于广大读者更方便地研究和利用古籍文献资料,对传承民族文化、增 进民族情感、提高文化素养和民族素质、维护国家统一都有重要意义。 国外在文字识别领域较早地开展了工作。由于西文( 如英文、法文) 大多是拼音文字,字 母数量少且书写规整,其印刷体和手写体识别产品早已问世。在国内,由于汉字识别输入有 潜在的巨大市场,全国许多大专院校及科研单位都开展了汉字识别技术的研究工作,并卓有 成效,如中国科学院自动化所、汉王集团、清华大学等单位。近年来,清华大学、内蒙古大 学等单位对我国少数民族文字的识别进行了探索性的研究,取得了较大的成绩。但据我所知, 对蒙古文古籍识别的研究这还是第一次。目前对蒙古文古籍识别研究较少的一方面的原因是, 蒙古文书写方式独特,从左到右,从上到下,同一个字母在单词的不同位置字形不一样,音 形之间的对应关系复杂。另外一方面的原因是,木刻印刷的蒙古文古籍是多人在木板上书写 1 蒙古文古籍识别技术的研究 文字,之后根据笔画刻成母版,蘸取墨汁在纸张上印刷而成。因此文档中字形存在较大差异, 切分比较困难,同时个别笔画和现代蒙古文也有所不同。这两方面使得蒙古文古籍的识别具 有很大的挑战性。本文对蒙古文古籍的识别方法进行了深入研究,以期为少数民族古籍文献 资料的数字化、电子化起到推动和促进作用。 1 2 文字识别的发展历史及现状 文字识别( c h a r a c t e rr e c o g n i t i o na b b r c r ) 是用机械或电子的转换方法将以图像或其他 数据格式存储的印刷或手写的文本转换成编码的文本。图1 1 列出了文字识别的体系,即文 字识别分为印刷体识别和手写体识别,其中手写体识别分为联机( o n 1 i n e ) 手写体识别和脱 机( o f f - l i n e ) 手写体识别1 1 。 图卜1 文字识别体系 f i g u r e1 - 1h i e r a r c h yo f c h a r a c t e rr e c o g n i t i o n 文字识别的历史可以追溯到1 9 0 0 年俄罗斯科学家尝试发明一种工具来辅助视觉有障碍 的人们。迄今为止,科研人员在文本识别方面已经做了大量的科研工作,诸如:英文方面【2 】【3 】【4 】, 阿拉伯文方面 5 】【6 】【刀,印度文8 】【9 】【10 1 ,中文【1 1 】【1 2 】【1 3 】【1 4 】,蒙文【1 5 】【1 6 】,等等。文字识别方面的很多 产品也已经在日常的办公工作中使用,比如汉王,t a b l e tp c ,a b b f r e a d e r 。文字识别的发展 有其现实的理由,那就是浩如烟海、与日俱增的大量报刊杂志、文件资料和单据报表等文字 材料要输入计算机进行处理为字符识别提出了现实的需求,计算机性能的提高为文字识别提 2 内蒙古大学硕士学位论文 供了实现的可能性。文字识别大体经历了如下这三个阶段【1 7 】: 初期( 1 9 0 0 年一1 9 8 0 年) 文字识别早期的工作主要集中在机器印刷或词汇非常小且 非常容易区分的手写体的识别。印刷体的识别一般是使用模板匹配的方法来实现。手写体的 识别一般是在用简单技术进行特征提取的基础上使用统计的方法进行识别。这个时期,很多 算法仅仅适用于在拉丁字母和数字。日文、中文、印度文和希腊文识别的研究刚刚开始。人 们对英文识别的研究起步较早。这是由于英文单词的构成比较简单,字母的数量比较少,使 用的范围比较广。 发展期( 19 8 0 1 9 9 0 年) 随着计算机硬件性的增强和信息技术的爆炸性增长,在这个 时期先前的很多技术和方法被应用到很多实际领域,同时很多的c r 系统被开发出来1 8 】【1 9 1 。 结构化和统计相结合的方法开始在这些c r 系统中使用。这些系统将文字图像分割成一些简 单的模式,诸如直线或曲线,然后利用规则确定这些模式和哪个字母匹配【2 0 】【2 l 】。尽管如此, 这些研究基本上都集中在依赖字母外形进行识别的技术,尚未涉及到语义的层次。 成熟期( 1 9 9 0 一至今) 在这个时期,依靠新的工具和方法,c r 系统的研发取得了实 质上的进展。而信息技术的发展是背后的动力。九十年代早期,图像处理、模式识别技术与 人工智能的方法得到了有效的结合。研究人员开发出复杂的c r 算法,这些复杂的算法,这 些算法可以处理高分辨率的数据。加上高性能的计算机和更精确的电子设别,诸如扫描仪, 摄像机,当前在文字识别方面,我们有更加有效的方法可以使用,比如神经网络,隐马尔科 夫模型,模糊集推理和自然语言处理。 在手写体识别方面,联机手写体识别的准确率通常比脱机手写体识别的精度要高2 2 1 。这 是因为联机手写体识别拥有更多的信息或识别特征,比如笔画的方向,速度和顺序。b g a t o s 2 3 】 对脱机手写体的识别率达到了8 0 7 6 ,z b y a o 冽在基于词典的情况下对联机中文手写体的 识别率达到9 9 7 4 。但是这距离机器仿真自然人阅读还有一定的距离。目前,非特定人手写 体的识别、少数民族语言的识别、书写者的识别和特定领域的文字识别是文字识别方面的热 点。 蒙古文古籍识别技术的研究 在蒙古文印刷体识别和联机手写体方面,科研人员也做了大量的工作:魏宏喜和高光来 2 5 】【2 6 】中提出了蒙古文文档识别预处理中的倾斜校正和版面分析的有效方法。李伟等 1 6 】中提出 印刷体蒙古文识别中字元切分的有效方法。李振宏和高光来【2 7 1 、魏宏喜和高光来分析了适 合在识别中使用的蒙古文的结构特征和统计特征。魏宏喜1 5 1 和李伟2 9 1 所开发的系统对印刷体 蒙古文的识别率分别达到了9 2 1 6 和9 6 6 。l r p e n g 等开发的系统对包含印刷体蒙古 文和其他文字的文档的识别取得满意的效果。吴伟和白文荣吲对联机手写蒙古文的识别进 行了深入的研究,其所开发的系统对限制笔画手写的蒙古文的识别率达到了8 3 以上。 1 - 3 研究内容 本文是在国家自然科学基金课题木刻印刷蒙古文古籍识别与检索技术的研究的资助 下完成的,主要从以下几个方面对蒙古文古籍的识别进行了研究: 1 、蒙古文古籍预处理。通过对以图像形式保存的蒙古文古籍特点的分析,选取合适的方 式对蒙古文古籍进行倾斜校正,二值化和去噪,以利用迸一步的识别和检索研究。 2 、蒙古文单词切分。蒙古文古籍是通过木刻印刷而成的,具有非特定人手写的特点。因 此切分比较困难。本文希望找到一种切实可行的蒙古文单词的切分方法,该切分方法准确率 高,同时便于进一步的识别和建立索引。 3 、最小字元集的确定。我们将单词切分后的小块称为字元。在切分的基础上,选定最小 字元集( 相当于英文中的字母表或汉语中的偏旁部首) 。由该字元集可以构成蒙古文单词中的 所有单词。 3 、字元特征提取。切分后,对单词的识别就转化为对字元的识别。字元特征的选取对字 元的识别至关重要。根据我们预先设想的三阶段分类方法,我们需要选取合适的字元标量特 征作为决策树分类器的节点属性值,需要选取合适的向量特征作为b p 神经网络的输入。因 此通过实验,选取适合字元识别的特征亦是本文研究的重点内容。 4 、分类器设计。影响字元的识别的准确率的另一个至关重要的因素是分类器的设计。我 4 内蒙古大学硕士学位论文 们分析字元的特征,对比各种分类的特点,设计出一个字元分类的三阶段分类方法。实验结 果证明该分类方法的准确率令人满意。 5 、识别后处理。找出适合于蒙古文古籍识别后处理的方案,进一步降低识别错误率是本 文研究的一项内容。本文分析了蒙古文单词字母大小的不同的特点,给出了一种基于编辑距 离的加权的错误校正方法。 1 4 结构安排 本文共五部分内容,具体组织如下: 第一章首先论述了本文的研究背景和意义,接着介绍了文字识别特别是蒙古文识别在国 内外发展的现状,最后总结了本文的研究内容和结构安排。 第二章概述了手写体文字识别方法。 第三章详细蒙古文古籍的特点,识别流程以及各大模块的实现方法。 第四章选取部分蒙古文古籍图像进行识别。分析实验的结果,并对识别系统的各个模块 进行测试和性能评估。 第五章对本文的主要工作做了总结,指出了下一步的研究方向。 5 蒙古文古籍识别技术的研究 第二章文字识别相关理论与技术 文字识别是一种用计算机自动辨识出印刷( 手写) 在纸上或者其它介质上的文字,进而 将这些文字转换成计算机能够处理的国际区域码的技术。学科上它属于模式识别与图像处理 的范畴,还涉及到人工智能、形式语言与自动机、统计决策理论、模糊数学、信息论、语言 文字学、计算机科学等学科,是- i - j 综合性技术科学。下面介绍文字识别中的两种方法和四 , 种模式识别方法。 2 1 文字的切分识gj * o 整词识别 文字识别的策略分为两种:基于切分的识别和整词识别f 3 3 】。基于切分的识别方法原理是, 把每个单词分割成一系列候选字母( 词根或笔画) ,然后按照某种识别算法识别出每个字符( 词 根或笔画) 。基于切分的方案要求我们必须准确定位出切分的位置【3 4 1 。只有正确定位出切分的 位置,才能正确切分出每一个字符( 词根或笔画) 。在此基础上对字符( 词根或笔画) 进行正 确的识别,最终生成正确的文字编码。对于手写体,尤其是连笔的手写体而言,这是一个具 有挑战性的工作。通常使用一种松散的切分方案,即把那些潜在的分割点全部进行切分( 如 图2 1 ) ,这样就避免漏掉可能的字符,但是随之而来的问题是当结合了多种决策方案时算法 复杂度会产生组合爆炸。这就导致使用过切分、多切分和其他相识的策略来解决此类问题。 亦可以采用对切分模块和字符识别模块并行运行的方案来解决此问题。基于切分的识别方案 还有一个缺点,就是不能有效的运用邻近字符的“上下文信息”。而基于整词的识别算法则不 存在这个问题。虽然如此,但切分识别的最大好处就是,如果切分准确的话,那么需要识别 的模式的种类要远远小于整词识别。这降低了切分后识别的难度。在文字识别中,很多都采 用了基于切分的方案。j z e n g 3 5 1 使用马尔科夫随机域来分割中文的笔画。r s a r k a r 3 6 1 使用两 阶段的方法分割b a n g l a 单词。s w s h a h 3 刀基于轮廓和骨架特征来分割阿拉伯文字。 6 内蒙古大学硕士学位论文 图2 1 一个基于切分的识别例子 f i g u r e2 1a ne x a m p l eo fr e c o g n i t i o n b a s e do ns e g m e n t a t i o n 文字识别的另外一种方案是整词识别。整词识别的含义就是将单词当做一个整体来处理, 而不是切分成字母( 词根或笔画) 3 8 】。基于整词的识别方法首先从输入样本中提取出一个全 局特征向量,然后用它来匹配一个已知的词典中的候选单词,按照某种匹配算法,距离最近 的候选单词就是最终识别结果。整词识别方法的识别速度非常快,也避免了字符切分所遇到 的一些问题。而且整词识别也体现了人类阅读时的过程,即一个单词接着一个单词的扫描, 甚至是短语的扫描,而不是一个字符一个字符的阅读,从而更自然一些。这适合于单词切分 比较困难的情况。s m c h o i 【3 9 】在不进行切分的情况下识别粘连的字母。vl a v r e n k o 4 0 1 使用马 尔科夫模型来整体识别历史文档中的单词。但整词识别方法也存在一些缺点:由于需要识别 的模式的数目为词典中单词的数目。因此整词识别需要对词典当中的每一个单词进行训练, 这需要大量的训练样本及训练时间。此外,如何选取单词级别的特征向量以便有效的分类识 别该单词是一个比较困难的事情,需要深入的分析研究才能确定。若用以表示单词的特征向 量很大,则限制了词汇量的大小,因为受存储空间和算法效率的影响,不可能占用很大的存 储空间,分类识别的时间也必须限定在人们可以忍受的范围内。 图2 2 一个整词识别的例子 f i g u r e2 - 2a ne x a m p l eo fw o r dh o l i s 如r e c o g n i t i o n 7 蒙古文古籍识别技术的研究 表2 1 中列出了整词识别和基于分割的识别的一个简单清晰的对比【17 1 。同时从以上两 种方法的讨论可以看出,不论哪种识别方法都需要一个有效的特征提取技术,以便能明显的 标志一个字符或单词的特征,从而有效的从词典中识别出该单词。 表2 1 整词识别和切分识别的对比 t a b l e2 - 1c o m p a r i s o nb e t w e e nh o l i s t i cs t r a t e g ya n da n a l y t i cs t r a t e g y h o l i s t i cs t r a t e g y a n a l y t i cs t r a t e g y w h o l ew o r dr e c o g n i t i o n s u b - - w o r do rl e t t e rr e c o g n i t i o n li m i t e dv o c a b u l 郇j u m i m i t e dv o c a b u l a r y v u h m a b l et or 唰t i o no fl o n gw o r d s v u l r 豫r a b l et os e g m e n t a t i o ne r r o r s n os e g m e n t a t i o n r e q u i r e se x p l i c i to rim p l i c i ts e g m e n t a t i o n 2 2 文字识别的模式识别方法 手写识别的本质是模式分类,因此它的理论基础就是模式识别技术。用于文字识别的模 式识别方法大致可以分成如下四种h 1 】:模板匹配模式识别方法、结构模式识别方法、统计模 式识别方法和神经网络。模板匹配时模式识别方法中早期主要使用的一种方法,当前的热点 研究方向人工神经网络模型及统计识别方法中的h m m 模型。如上四种方法,可以独立使用, 也可以相互结合起来使用。无论是单词的整体识别还是基于切分的识别,都会用到四种模式 识别方法中的一种或几种。 2 2 1 模板匹配 根据特征集的选择的不同,文字识别的方法也有很大的变化。在文字识别的特征中,特 征可以是待识别模式的简单的一帧灰度图像,也可以是复杂的图的表示。最简单的字符识别 的方式是用存储的原型和待识别的字母或单词直接进行匹配。一般而言,匹配操作决定了带 匹配的两个对象的向量在特征空间中的相识程度。匹配的策略一般有如下三种: ( 1 ) 直接匹配 内蒙古大学硕士学位论文 直接匹配就是输入的灰度或二值化的字母或单词直接和存储的模板库中原型进行比较。 根据相识度度量标准,比如说欧式距离,j a c c a r d 相识度度量,来进行相识度计算。匹配的方 法可以是逐一比较,也可以是基于决策树的比较。模板匹配可以整合多种信息,包括匹配的 长度和不同尺度下的k n n 距离【4 2 1 。直接匹配这种方法很直观,也具有坚实的数学基础。但 是,这种方法的识别率对噪声很敏感。 ( 2 ) 可变形模板和弹性匹配 另一种可以替代的方法就是使用可变形模板进行匹配。这种方法使用数据库中已知图像 的变形去匹配带识别图像。a k j 出【4 3 1 通过变形一个字母的外形使其与另外的字母的边界的 强度相匹配。两个字母间的不相似程度通过需要变形的数量,边界的吻合的程度以及变形后 字母内部的重叠程度来计算,如图2 3 。 图2 3 通过轮廓变形的字母匹配 f i g u r e2 - 3c h a r a c t e rm a t c h e db yd e f o r m i n gt h ec o n t o u r 弹性匹配是以最优化的方式将待识
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 公司招工合同样本
- 公司委托技术咨询合同样本
- 个人和劳务公司合同样本
- 2025精简版装修合同范本
- 公司与法人合同范例
- 上海车位出租合同范例
- 临聘人员签约合同样本
- 仓库租赁及配送合同标准文本
- simtrade买卖合同样本
- 产品供货合作合同样本
- 大数据与会计专业专业的实习报告
- JT-T-4-2019公路桥梁板式橡胶支座
- 火龙罐综合灸疗法
- 特种设备使用登记表(范本)
- 汉译巴利三藏相应部5-大篇
- 2022年青海大学医学院附属藏医院医护人员招聘笔试模拟试题及答案解析
- 城市地理学-第八章城市空间分布体系
- 贵州省促进养老托育服务高质量发展实施方案
- 托利多电子秤校秤步骤
- 《DVT深静脉血栓》
- 《大豆栽培学》PPT课件.ppt
评论
0/150
提交评论