(计算机应用技术专业论文)票据中的手写金融汉字自动识别研究.pdf_第1页
(计算机应用技术专业论文)票据中的手写金融汉字自动识别研究.pdf_第2页
(计算机应用技术专业论文)票据中的手写金融汉字自动识别研究.pdf_第3页
(计算机应用技术专业论文)票据中的手写金融汉字自动识别研究.pdf_第4页
(计算机应用技术专业论文)票据中的手写金融汉字自动识别研究.pdf_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

硕士学位论文 n i 人 s i f r s n i s i s 基础。 再次, 提出了7 * 7 + 8 * 8 的网格特征分类方案,使分类结果更为稳定。 最后利用动态弹性有序匹配规则,有效的提高了识别系统的速度和精度。 c t 了 有 效 的 针 对 实 际 情 况 进 行 研 究 工 作 , 我 们 收 集 了 大 约 四 万 多 个 实 际 的 手写金融汉字字符。 经测试, 使用本系统达到了9 5 %以上的识别率。 得到了令 人 满 意 的 识 别 结 果 办 。 关 键 词 : 文 字 识 别 金 融 汉 字 金 融 表 格1 6 值 扩 廿 鸟 硕士学位论文 n 1 a s t g 2 s t i i p s i s abs t ract p r e s e n t l y , b a n k s y s t e m w a s t r y i n g t o r a i s e t h e e ff i c i e n c y i n i t s e v e r y d a y a ff a i r s . i n i t s a ff a i r s , a l o t o f k i n d s o f f o r m a r e a p p l i e d . t h e s e f o r m s a l w a y s n e e d t o b e h a n d l e d b y p e o p l e i n t h e p as t . t h e p r o c e d u r e o f i n p u tt i n g i s n o t o n l y s l o w b u t a l s o e a s y t o m a k e w r o n g . t h e c o m m e r c i a l f o r m p r o c e s s i n g s y s t e m d o e s b e c o n s t r u c t e d t o s a t is f y t h e n e e d o f b a n k s y s t e m. t h e c o m m e r c i a l f o r m p r o c e s s i n g s y s t e m u s e s c o m p u t e r s a n d o t h e r e q u i p m e n t t o f a c i l i t a t e i n p u t t i n g d a t e , a n d c o n s t i t u t e t h e d a t e b a s e t o m a n a g e t h e d a t e . b u t h o w t o i n p u t i m p o r t a n t i n f o rm a t i o n i n t o c o m p u t e r i s s t i l l a d i ff e r e n t t e c h n i c a l p r o b l e m . n o r m a l l y , h i g h - s p e e d s c a n n e r s a r e u s e d t o s c a n f o r m s a n d i n p u t t h e i r i m a g e i n t o c o m p u t e r . t h e n c o m p u t e r s m a k e s u r e t h e l o c a t i o n i m p o r ta n t i n f o r m a t i o n a n d a b s t r a c t i t . i n t h e i m p o rt a n t i n f o r m a t i o n , c h i n e s e h a n d - w r i t t e n c o m m e r c i a l c h a r a c t e r i s o n e m a i n k i n d . i f c o m p u t e r c a n b e u s e d t o r e c o g n i z e t h e i m a g e o f t h e s e c h i n e s e c h a r a c t e r s , t h e c a p a b i l i t y o f p r o c e s s i n g s y s t e m i s t o b e r a i s e d . t h i s p a p e r f o c u s e s o n t h e p r o b l e m o f a u t o - r e c o g n i t i o n f o r f i n a n c i a l c h a r a c t e r s t h r o u g h p a s t s e v e r a l d e c a d e s , t h e o c r t e c h n o l o g y h a s i m p r o v e d r a p i d ly . m an y k i n d s o f o c r t e c h n o l o g y h a s g o tt e n v e ry h i g h r e c o g n i t i o n r a t e . b u t r e c o g n i t i o n f o r h and - w r i tt e n c h a r a c t e r s i s s t i l l d i ff i c u l t . a l t h o u g h t h e s e t o f f i n anc i a l c h a r a c t e r i s n o t v e r y b i g , r e c o g n i t i o n f o r t h i s i s d i f fi c u l t b e c a u s e t h e y a r e h a n d - w r i t t e n . d i ff e r e n t p e o p l e h a v e d i ff e r e n t s t y l e i n w r i t i n g , an d t h e d i ff e r e n t w r i t i n g t o o l s a l s o e n h an c e t h e d i f f i c u l t . a c c o r d i n g t o t h e s e f e a t u r e s , w e ma d e t h e a r i t h me t i c f o r f i n a n c i a l c h i n e s e c h a r a c t e r s . t h e c h a r a c t e r i s t i c s o f t h i s a r i t h me t i c a r e l i s t e d b e l o w. f i r s t l y , w e u s e g r a v i t y - c e n t e r - t r a n s f e r m e t h o d t o d e a l w i t h t h e p r o b l e m o f o u t - o f - s h a p e f o r h a n d - w r i tt e n c h a r a c t e r s . s e c o n d l y , w e u s e 1 6 - s c a l e m e t h o d t o d e s c r i b e t h e s t r u c t u r e o f c h i n e s e c h a r a c t e r s , a n d t h i s m e t h o d m a k e s a b s t r a c t i n g t h e f e a t h e r s o f c h a r a c t e r s m o r e e asi l y . t h i r d l y , w e u s e p a n e l s ( 7 * 7 + 8 * 8 ) t o c o u n t t h e f e a t u r e s a n d t h i s m e t h o d m a k e s t h e r e s u l t mo r e r o b u s t . 硕士学位论文 a i a s t f r s t i i i s i s f i n a l l y , w e r a i s e d a m e t h o d t o m a k e t h e r e c o g n i t i o n s y s t e m m o r e r a p i d l y a n d mo r e a c c u r a t e l y . w e g a t h e r e d m o r e t h a n 4 0 , 0 0 0 h a n d - w r i tt e n c h i n e s e c h a r a c t e r s t o m a k e o u r r e s e a r c h m o r e e f f i c i e n t l y . a c c o r d i n g t o t h e t e s t , t h e r e c o g n i t i o n r a t e i s a b o v e 9 5 % . t h e r e s u l t i s s a t i s f i a b l e . k e y w o r d s : o c r c o mme r c i a l f o r m f i n a n c i a l c h a r a c t e r 1 6 - s c a l e 硕士学位论文 从4 s t r r i s i i i e s i s 第一章概述 汉字 识别 ( c h i n e s e c h a r a c t e r r e c o g n it i o n , 简称 c c r ) 是 指 给 计 算 机建 立 视觉系统, 自 动认识书写在类纸介质上的汉字, 汉字识别由于其拥有的实用价值 和汉字本身的特殊性,吸引了众多学者, 形成了模式识别领域内的一个重要分 支,是新一代智能计算机接口的一个重要组成部分 u 汉字识别技术,涉及到模式识别和图象处理,人工智能,形式语言和自 动 机,统计决策理论,模糊数学,组合数学, 信息论,汉字信息处理等学科;也 涉及到语言文字学、心理学、生物学等,是一门综合性的技术。 1 . 1金融汉字识别的提出 现在银行系统对业务处理自 动化上的要求越来越高。往来纸质票据中的大 量信息如果能高速、 准确的录入计算机, 无疑将大大提高银行的工作效率。 银 行票据中有大量手工书写的金融汉字包括 “ 壹、贰、叁、肆、 伍、 陆、 柒、 捌、 玖、零 ( 另) ”等。这一类金融汉字所包含的信息往往十分重要。它们往往涉 及到大量的往来资金,一个微小的错误,就能引起金融系统不小的混乱。 在金融票据处理系统中,往往采用人工录入或者由计算机自 动识别所提取 的金融汉字的字符图形的方式形成编码, 录入计算机。 人工录入往往能够有效 地保证录入的准确性, 但速度太慢, 发挥不了计算机的高速处理能力。 采用通 用汉字识别技术来录入金融汉字的话, 录入速度将十分快捷, 但难以保证其正 确性。 经过几十年的发展,汉字识别技术已经取得了巨大的发展。各种类型的汉 字识别技术己经达到了相当可观的识别率。 但是自由书写的汉字识别仍然是一 个难题。 这主要是因为自由书写的汉字风格各异, 不同的人有不同的书写习惯。 甚至同一个人所书写的多个相同汉字, 字型也不尽相同, 仍然存在比较明显的 差别。 所使用的书写工具的不同也会造成手写汉字的笔道粗细不同。 这些都提 高了手写汉字识别的难度。 针对大字符集的通用手写汉字识别系统的平均识别 率达到9 0 % 左右就止步不前了。 而9 0 %左右的识别率根本满足不了金融票据处 理的需求。 但是在金融票据的重要的金融填写区域, 往往只出现“ 壹、 贰、 叁、 肆、伍、陆、柒、捌、玖、零 ( 另) ”等金融汉字。如果只针对这些类字符进 行分类,优化识别算法,将很大的提高单个汉字的识别率,接近实用的要求。 所以选取金融汉字作为识别对象, 针对性的研究识别算法, 是一项十分有意义 的工作。 本文阐述的研究工作的需求来源于实际的金融票据处理系统。在系统的测 试阶段,系统在青岛市的一家银行进行了试运行。 在对大量实际票据进行的处 理中,对金融汉字的识别达到了十分可观的识别率,接近了实用水平。 1 .2汉字识别研究的范围 汉字识别研究范围可以用图形形象地表示出来, 如图1 . 1 所示, 它构成了三 维空间。按识别文字类型包括联机手写体汉字识别 ( o n -l i n e h a n d w r i t t e n c h i n e s e c h a r a c t e r r e c o g n i t i o n , 简称o l c c r ) ,单体印 刷体汉字识别 ( s i n g l e - f o n t p r i n t e d c h i n e s e c h a r a c t e r r e c o g n i t i o n . 简称s p c c r ) , 多 体印 刷体汉字识别 ( mu l t i 一 f o n t p r i n t e d c h i n e s e c h a r a c t e r r e c o g n i t i o n , 简称m p c c r ) ,手写体汉 字识别 ( h a n d - w r i t t e n c h i n e s e c h a r a c t e r r e c o g n i t i o n , 简称h c c r ) , 手写行书汉 字识别等;按识别文字和版面质量包括高、中、差三种;按版面复杂程度包括 简单、中等、复杂三种版面。 显然,离开原点愈远, 研究的难度愈大2 1 汉字识别研究范围按识别文字类型包括联机手写体汉字识别,印刷体汉字 识别,手写印刷体汉字识别。 联机 ( 亦称实时,在线)手写汉字识别是用光笔在图形输入板上写字,人 一边写, 机器一边识别,是一种方便的汉字输入手段,也是汉字识别中最简单 的一种类型。 硕士学位论文 ma s r e a s川e s i s 版面父杂程度 图1 . 1 汉字识别的研究范围 印刷体汉字识别是指识别印刷在纸上的印刷汉字以及打印机、印字机输出 的文字。根据印刷体的体型,又可分为单一印刷体汉字识别,多体印刷体汉字 识别。 手写印刷体汉字识别是识别写在纸上比较工整的汉字, 它是汉字识别中较 困难的一类。 此外,特定人手写汉字识别是手写印刷体汉字识别的一个特例。从书写汉 字的规整性而言,限制要比手写印刷体汉字识别松,甚至允许写行书。 以上三类中,后两类为脱机识别。 1 . 3国内外文字识别研究状况 随着模式识别和人工智能研究的发展。国外大约在 6 0年代末开始文字识 别的研究,7 0年代对印刷体文字研究进入活跃阶段,8 0年代末,在英文、数 硕士学位论文 ma s t e r s t i e s s 字和印刷文字识别的基础上发展起来的手写文字识别研究也日 趋活跃。9 0年 代, 各种成熟的应用系统纷纷被推出, 在办公自 动化等领域得到了广泛的应用。 国外在汉字识别方面最早开展工作的国家是日本。日本对印刷体文字识别 的研究约在7 0 年代起步,1 9 7 7 年完成了日 本通产省制定的 “ 图象信息处理系 统”中印刷体文字识别装置,并于 1 9 8 0 年1 0 月进行公开表演、该装置可识别 2 0 0 0 个文字,识别速度为 1 0 0 字 / 秒,识别率为 9 8 . 4 %. 7 0 年代中期,手 写印刷体汉字识别在日 本也开展起来,进入8 0 年代,研究取得成果。1 9 8 6 年 富士通推出f a c o m6 6 7 8 a手写印刷体汉字识别装置, 可识别3 2 0 0 个字符, 识 别速度为4 0 字/ 秒,识别率为9 0 ,可见日 本的手写印刷体文字识别水平是 很高的。但值得注意的是,在日本,文字识别采用中小型计算机,价格昂贵, 不适合我国国情。 在我国,汉字识别研究起步较晚。 7 0 年代主要从事邮政信函分拣的数字识 别和计算机输入用的英文、 数字、 符号识别。 7 0 年代末, 一些大学和研究所开 始对印刷体和手写印刷体汉字的识别进行原理性的研究, 到了8 0 年代中末期, 我国 汉字数字识别研究 才取得较大成果3 4 1 5 1 , 联机手写汉字识别装置己 有 产 品出 售。 到了9 0 年代, 联机识别技术取得了 飞 速的 发展6 7 1 , 完全达到了 实 用 化的水平。进而在 9 0年代末,各种联机识别核心被集成到手持办公设备中, 方便了输入,促使产生了一系列新兴的产业。 印刷体汉字识别从单体到多体己经达到了实用化,已有大量产品面市。手 写印刷体汉字识别研究在国内从8 0 年代中期才真正开始, 到9 0 年代日趋活跃。 自由手写汉字识别难度很大,当前只限于手写规整的汉字识别, 其识别方法的 研究和实验系统的研制向着实用的目 标迈进。 近年来,在国家重点科技计划的支持和市场的驱动下,汉字识别系统一直 朝着不断改进系统功能和实用化的方向发展。 目 前市场上已有多个汉字识别系 统投入实际使用 ( 表 1 . 1中列出我国有代表性的汉字识别系统的主要功能简 介) ,其主要性能指标: . 印刷体识别:简体,繁体,英文,多字体,多字号和中英文混排 的识别。繁体汉字字数: 。 ;印刷简体汉字字数:3 7 5 5 。规整 . 硕士学位论文 ma s t c 2 s i 1 1 g s s 手写体汉字识别:g b 2 3 1 2 的3 7 5 5 个一级简体汉字; . 印刷体识别率: 9 8 %; 高质量文本:9 9 %: 手写体汉字识别率 9 5 % ( 非特定人) ; . 有对表格的分析,识别和处理功能 . 有对一般版面分析功能, 有文本和图象处理 ( 如纠斜, 确定阑值) 功能; . 有d o s、wi n d o ws . d l l 版本和多种扫描仪捆绑销售。 1 . 4本文的组织 本文的主体部分有四部分 在第一部分,主要介绍了汉字识别技术的原理和方法。包括印刷体汉字识 别技术和手写体汉字识别技术。 在第二部分,介绍了图象处理以及汉字识别技术中常用的预处理方法。 在第三部分,介绍了金融票据处理系统中应用的金融汉字识别核心技术的 特点。 在第四部分,叙述了我们开发的为进行演示准备的票据处理系统以及金融 汉字识别结果的统计,并提出了进一步研究的设想。 硕士学位论文 n 1 人 s t t r s i 日 t s i s 表 1 . 1常见o c r系统 研制 单位 主要功能简介 北京 信息 工程 学院 -r 卜、-c 日田和-0 沪毛-b t hocr 清华 大学 电子 工程 系 汉王 ocr 对客 种 又 本 都 能识 别, 包括 汉字 和英 文, 简 体 和繁体, 印 刷 体和手写体。多字体识别,包括简体多体混排、中英文混排 和繁体多体混排、中英文混排识别。 提供自 动版面分析和交 互式版面分析功能。 提供较复杂表格识别与处理功能, 识别 出来的表格可以导入wo r d 等一些流行的字处理软件。提供 简体g b码和繁体b i g - 5 码互相转换功能。 对识别结果自 动 纠错、侦错和方便的后编改。 ” 汉英双语混排” 同时识别; 简繁体汉字和英文的” 多种字体 混排” 同时识别; 支持 wi n d o w s 环境下的” 多种汉字内 码” , 适合全球各地区使用; 支持将识别结果” 自 动送入其它的应 用程序和剪贴板伙 提供核心模块的开发接口,允许用户使用 识别技术开发自己的应用系统; 能够识别处理表格,编辑修 改图文逐字逐行对照; 印刷体汉字及英文识别;印刷体多体混排识别; 脱机和联机 手写体汉字识别; 尚 书 汉 字 识 别 系统 s hocr 中 自 汉 王 公司 台湾 蒙恬 科技 股份 有 限 公司 智 能 计算 机研 究开 发 中 l 自 印刷体汉字及英文识别; 人工智能辨识核心,能线上切换简 体版、 繁体版、香港版辩识核心;人工智能学习,使辩识核 心资料库动态更新;自 动词库校正辩识结果;自 动图文及表 格分离; 自 动侦测区块属性: 提供图象手动合并及分割功能; 具备表格分析及辩识能力; 提供表格编辑功能; 提供表格资 料库套表功能;支持wo r d多页模式; 中英文印刷体混排识别;图象自 动倾斜校正功能;识别结果 具有软、硬回车设置,便于进行自 动排版:具有文件合并功 能,便于录入多页文件;文件存盘时可自由选择 g b / b i g 5 码存储;适用于各种wi n d o ws 平台; 硕士学位论文 n l a s t r a s i i i b i s 第二章 文字识别的原理和方法 文字识别是模式识别的一个重要分支, 是迄今为止在模式识别中研究得比 较充分的一个领域。 文字识别实际上就是解决文字的分类问题.一般通过特征 判别及特征匹配的方法来进行处理。 特征判别是通过文字类 ( 例如英文或汉字)的共同的规则进行分类判别。 它不需要利用各种文字的具体知识, 而是根据特征抽取的程度 ( 知识的使用程 度)分阶段地用结构分析的办法完成字符的识别。 匹配的方法是根据各个文字的知识( 称为字典) 采取按形匹配的方法进行。 按实现的技术途径不同又可分为两种: 一种是直接利用输入的二维平面图象与 字典中记忆的图象进行全域匹配:另一种是只抽出部分图象与字典进行匹配。 然后根据各部分形状及其相对位置关系, 与保存在字典中的知识进行对照, 从 而识别出每一个具体的文字。前一种匹配方法适合于象数字、 英文符号一类的 小字符集;后一种匹配方法适合于象汉字一类的大字符集。 匹配的方法一般用于规范化的印刷文字, 特别是同一字体的印刷文字, 结 构分析方法多用于手写文字的识别。 一般说来, 采用匹配作为基本思想的算法 编制简单,字典占据空间大,识别速度高:结构分析方法程序复杂,能够处理 手写体文字的变形问题, 具有区分近似文字的优点 但将其用于初始分类则有 不稳定的缺点。 所以, 在手写体文字的识别中, 往往将两种方法结合起来使用 ( 8 j 9 1 0 2 . 1印刷体汉字识别方法 印刷体汉字识别是汉字识别的一个重要课题,因为大量的文字信息是印刷 在纸上的。大量的历史资料、文献都要进入计算机。 这就迫切要求研制高速光 学字符阅读器 ( o p t i c a l c h i n e s e c h a r a c t e r re a d e r 简称o c c r) , 目 前成本低廉,性能稳定的扫描输入装置己 经普及。因此,只需解决文字 的识别方法问题, 就可以解决汉字高速输入计算机的问题。印刷体汉字由于字 形结构稳定, 易于达到实用化的要求, 所以 研究印刷体汉字识别就成为使用汉 醛 硕士学位论文 ni wl r a , s i i i r s i s 字的国家首当其冲的热门课题。 我国在9 0 年代初己有初步实用化的系统面市。 现在各种成熟的印刷体识别软件已 经普及开来,并且具有很高的识别率。 我国 开发的印刷体汉字识别系统, 不需要另外开发硬件装置, 属于识别软件的开发, 多配置在 p c机上,符合我国国情。 为了研究实用的中国印刷体汉字识别系统,必须对中国印刷体汉字的特点 有充分的了解, 采取正确的识别策略, 才能达到识别目 标d u u z i 2 . 1 . 1 中国印刷体汉字的特点及识别策略 一、中国印刷体汉字的特点: 如前所述,中国汉字是一个复杂的平面图形,具有庞大的字符集。除此之 外,中国汉字还具有以下特点; l 、字体繁多,字号多样 在书刊杂志上出现的一般为宋体、仿宋体、黑体、楷体四大类,即使同属 于一体, 例如宋体字,也有书宋、报宋、南宋、北宋之分。不同的字体区别就 更大。 一般来说, 不同字体的同一汉字的拓朴结构约8 0 %是相同的, 但在书写 风格、 笔划粗细、部件形状、笔划装饰等方面存在一定的差异,不同印刷体汉 字字形差异主要表现在: ( 1 )笔划装饰及方向角度不同。 例如宋体横笔划末端有装饰角, 容易 误识为短竖;黑体撇捺较平,容易误识为横笔划。 ( 2 )笔划长短及位置不同。 ( 3 )笔划形态变化大,如黑体笔划粗而平直,宽度一致,宋体横细竖 粗,有装饰角:楷体笔划有较大曲率,尤以撇捺为甚,各文字大小相差大,仿 宋体横笔划略向右上倾斜。 ( 4 )笔划关系变化:如左偏旁口,黑体为正方形,其它体左竖笔长。 ( 5 )偏旁部首所占的比例、位置、形态不同。 ( 6 ) 字号多样,即使是同一字体的文字,其尺寸大小也不一样、由各 种打字机打印的文字, 在尺寸上也不遵守字号的规定。 2 、印刷质量相差很大,一般表现为: ( 1 )笔划断开、粘连,油墨深浅不均等。 8 硕士学位论文 n i 入 s r e a s l i h f s i s = t 时 f ( i , j ) = o ; f ( i , j ) t 时, f f ( i , j ) = 5 f ( i i ) = 当f ( i j ) 5 0 产les嘴.1 3 . 2 . 2 正规化 为什么要进行正规化处理?这是根据识别的需要决定的。我们知道,字符 图象的大小各异,当 采用模板进行匹配识别时, 计算机中对相同的字种只存有 一种模板。因此,需要对不同字号的尺寸进行规格化处理, 使它们变成同一尺 寸的文字图形。另外, 在扫描时也会因文稿放置不当而出现倾斜,在手写字符 中会出现文字的歪斜或笔划不均匀等, 这时就应当进行旋转纠正、 重心一中心 变换等,根据识别方案的不同,甚至对笔划的粗细也要规范化。总之,文字的 正规化处理应当按识别方案的要求进行。 1 . 位置企规化 为了消除文字点阵位置上的偏差, 将整个文字图形移到规定的位置, 称为 位置正规化。 位置正规化的方法有两种,一种是基于重心的位置正规化,另一 种是基于文字中心的位置正规化. 前者是找出文字的重心, 赋予重心规定的座 标,以重心座标为参考点,决定其它象素点的座标值。 后者是找出文字的外接 矩形框,再找出矩形的中心位置, 并赋于中心规定的座标值,以中心为参考点 决定其它的象素点的座标值。 2 .尺寸正规化 不同规格尺寸的文字,经过放缩处理变成同一尺寸的文字称为尺寸正规 化。 3 .倾斜校正 这里所说的倾斜不仅是指扫描时文本放置倾斜。还有因书写风格的不同, 使字符发生东倒西歪。 如果是放置倾斜, 只要对整幅图象进行旋转一个倾角即 可矫正。而第二种倾斜就要难矫正得多。 3 .3 细线化 对于给定的字符图形使笔道宽度变细, 从而提取线宽为1 的中心线的操作 叫细线化或细化。 细线化主要用来分析字符的结构特征, 在手写数字及英文符 号的识别中广泛地用作预处理。在手写汉字识别中,由于汉字结构极其复杂, 一些关键性的 特征在细线化过程中往往不容易保留,因而较少应用。 7 。 细线化的算法很多,对细线化一般要求: ( 1 ) 保证细线化后文字图象的连通性不变 ( 2 ) 文字图象的骨架形状不变: ( 3 ) 细化结果应是文字的中心线; ( 4 ) 处理时间要短. 下面介绍一种进行笔道跟踪的细线化方法。 这个方法分两个处理级进 行, 其结果有利于笔道分割。第一处理级是反复抹除边界象素而将笔道宽度缩 减为两个象素或三个象素; 第二级是用 2 * 2 的方阵跟踪由第一处理级所得的笔 道,使最后的细化结果是 2 * 2 方阵的轨迹。 1 边界象素的抹除处理 处理按以下三步进行: 第一步:进行边界跟踪并对跟踪点顺序编号 ( 注意:对于跟踪两次的 同一象素应给两个编号) 。 第二步: 对满足下列三个条件的边界象素予以抹除。 在这三个条件中, 所用的窗口为象素的 8 邻域。 条件 1 :窗内至少有一个内部象素; 条件 2 :窗内的边界象素不大于4 ; 条件 3 ,给窗内边界像素的号码是连续的。 第三步:终止判断,如果没有任何一个像素满足上述条件,则第一级 处理结束,否则转第一步继续进行抹除处理。 2 细线化处理 用 2 * 2 的像素方阵跟踪第一级处理所得的笔道, 跟踪的轨迹就是细线化结 果 。 第四章 金融票据处理系统中金融汉字的识别 4 . 1 票据表格处理简介 4 . 1 . 1票据表格的一般特点 金融票据是一种表格。表格一般具有十分相似的表现形式,并且大多具有 一些特定的表格要素。首先,表格一般具有表头,标识了表格的用途种类。再 者, 表格一般还具有格线, 限定了表格的信息区域并将各个填写区域划分开来。 表格中一般还有填写单元的说明,如打印体的 “ 姓名” 标明了此项中应填写姓 名而不是其他信息。 这些表格的基本元素一般都出现在表格的固定位置, 如表 头一般出现在表格的顶部。 它们构成了一张表格的概貌。 这些形式固定的信息 能够帮助计算机根据表格的扫描图象辨别表格的类型,并对表格图象进行定 位,以及提取信息。 4 . 1 . 2表格处理流程 表格处理系统有七个主要功能模块构成【 ix l 1 、空表学习: 得到空表图象中与表格识别、 数据抽取、表格重构、 o c r 及后处 理有关的各类信息。 2 、实表的预处理:对实表进行去噪,歪斜校正等一系列预处理工作,以方便 表格识别等后续过程。 3 、表格识别:接受去污、校正处理后的实表图象,通过查询表格模板信息, 确定实表属于哪一类表格。 4 、变域数据抽取:从实表中删除表格中的固有信息,生成用户填入的数据图 象。我们称仅由变域数据构成的图象为差表。 5 、表格重构:按一定的格式重新合成空表与差表,构成一张高质量的实表图 象文件。 6 . o c r :识别差表中感兴趣的字符、数字等图象信息,得到相应的文本文件。 7 、后处理:对识别和处理结果进行人工干预的校对,得到相应的文本文件。 在表格实际处理的各个环节,我们有如下经验: 表格信息通过扫描设备转化为图象输入计算机。表格处理技术是针对二值 图象进行的。所以如果扫描后得到的是灰度图象,则需要进行图象的二值化。 选取一个合适的灰度闭值是灰度图象二值化的关键。 扫描过程中难免会造成图象的倾斜,图象的倾斜往往会影响到图象的定位 以 及待识别信息的提取。 因 此需进行图象的倾斜矫正 19 2 0 。 通过座标的旋转变 换,可以实现任意角度图象的矫正,并且质量也很高,但其时间开销太大。对 于小角度图象, 其校正后的图象质量只要能满足我们进一步识别的需要就可以 了, 因此没有必要采用时间开销很大的坐标变换来进行校正。 针对较小的倾斜 角度, 可以采用快速矫斜算法,这样既节省了处理时间, 处理后的图象变形也 不大,效果比较理想。 倾斜的角度是根据表格的主要框线计算的。如可以根据表格的最外框线计 算表格的倾斜角度。再进行小角度的旋转校正。 娇斜后,需要对表格的类型进行判定。这需要针对表格的图象,进行特征 的提取。经过对大量的表格进行分析。我们发现对大部分的表格而言,表格线 的分布是表格的一个重要特征, 表格线的长短, 表格线间的相对距离, 表格线的 相交情况反映了表格线的分布状况。 求出图象上的格线以后,与表格模版库中的格线信息进行匹配,达到一定 的匹配率后, 既可认定此表格的类型。 有时通过格线匹配不能确定表格的类型。 这时可以根据表格图象的其他特征进行进一步的区分。 表头信息是表格图象的另一个重要特征。表头一般是印刷体的汉字,大致 标明了表格的用途。 利用印刷体识别方法可以根据表头对表格种类进行进一步 的区分。 表格类型识别是表格自 动处理中的一个重要部分,综上所述,我们首先根 据整个表格的最主要特征格线的分布, 来区分类别。 这样能够做到对表格 类型进行有效的区分又一般不会造成误识。如果仍不能完全区分开表格类型, 可以再根据表头等局部特征进一步区分。 判定了表格的类型后,就可以根据格线位置,提取需要进一步用计算机处 理 的 图 象 区 域 2 1(2 2 112 3 2 4 2 5 2 6 2 7 1 。 如 用 手 写 数 字 填 写 的 帐 号 、 金 额 等 。 2 0 图4 . 1表格自 动处理流程 4 . 2本系统金融汉字识别算法的特点 4 . 2 . 1手写汉字的整形变换及手写汉字特征的抽取 1 预处理 用统计模式分类方法研究手写汉字识别问题,首先碰到的难题就是因各人 书写风格不同而带来的巨大变形。一般来说,在汉字识别的粗分类阶段,因汉 字类别繁多, 多采用使输入待识汉字向某个规定的方向进行变换( 即整形变换) 的方法达到稳定分类的目的。 其中, 使用重心一中心变换就是一种典型的整形 变换方法。如果所写的汉字偏向一边。 这时采用重心一中心变换的方法, 可以 得到一个笔划均匀分布的图形 ( 如图4 .2 所示) 。具体变换方法如下: 硕士学位论文 ma s t e r s i l 1 e s i s 设输入待识汉字的外接矩形框的高为a -b 、 宽为l -r 、 文字点阵图象为 c ( i , j ) , 则可按下式求出该字的重心 ( g i , g j ) o g i = e e i * c ( i j ) / e e c ( i j ) , = l i - aj = l g j = e e j * c ( l j ) / e e c ( l j ) , = l i = a j = l 重心将c ( i , j ) 分成四块, 后拼接成 6 4 * 6 4 的点阵图象。 重心一中心变换算法: 每块经放 ( 缩) 变换成 3 2 * 3 2 的点阵图象,最 以下介绍本系统中应用的重心一中心变换算法。 c i ( p o i n t l ,p o i n t 2 ) 表示由p o i n t l 和p o i n t 2 两点确定的区 域。 f o r m a t ( w id th ,h e ig h t ,c i ( p o in t l ,p o i n t 2 ) )表 示 将c i ( p o i n t l ,p o i n t2 ) 这个区 域 正规化成宽度为w i d t h , 高 度为h e i g h t 的矩形区域 1按如上公式计算出原图象点阵的重心c ( i j ) 。 进而得到 c 1 ( ( 0 ,0 ) , ( i j ) ) c 2 ( ( 0 j ) ,( i ,6 3 ) ) c 3 ( ( i j ) ,( 6 3 , 6 3 ) ) c 4 ( ( i , 0 ) , ( 6 3 , j ) ) 四个区域。 2将c 1 , c 2 , c 3 , c 4 四个区域分别正规化成3 2 * 3 2 的点阵。 f o r m a t ( 3 2 , 3 2 , c 1 ) ; f o r m a t ( 3 2 , 3 2 , c 2 ) ; f o r m a t ( 3 2 , 3 2 ,c 3 ) ; f o r m a t ( 3 2 , 3 2 ,c 4 ) ; 3最后将4 个3 2 * 3 2 的点阵按原先的相对位置合并成一个6 4 * 6 4 的点阵。 最终得到的点阵即为最后正规化好的点阵。 2 2 硕士学位论文 m a s t e r s川g s i s 值得注意的是正规化后的点阵的重心和中心也不一定重合。实际上,正常 书写的汉字的重心也有所偏移。 这一变换的目的主要是针对有一些书写的字符 的结构过于夸张,在统计网格特征时容易造成很大的误差而设计的。 羹 图4 .2 正规化后的点阵 2 3 硕士学位论文 ma s t e r s 川 g s i s 2 手写汉字点阵的 1 6 值变换 手写汉字与印刷体汉字的本质区别在于它的笔划是不规范的。尽管如此; 但横、竖、 撇、捺四个基本方向可以分清:虽然笔划的绝对位置变化较大。但 对同一字种来说,笔划的相对位置,特别是在同部件中的相对位置是稳定的。 为了从本质上表达每一个汉字的本质特征, 下面简单介绍三种汉字点阵图象的 1 6 值变换方法; 它们都从某个侧面反映了汉字的笔划及其相互关系的特征; 是 进行汉字分类识别的基础。 ( 1 )汉字笔道的1 6 值变换 我们以二进制代码0 0 0 1 , 0 0 1 0 , 0 1 0 0 , 1 0 0 0 分别表示横、竖、 撇、捺四个 方向, 如图4 . 3 所示, 对于汉字笔道黑点 ( x , y ) 按图 所示的四个方向进行延 伸。 分别计算黑点的点数称为点 ( x , y ) 在四个方向的距离。当在某个方向上 的距离超过规定的阀值时, 就将表示该方向的二进制码赋予该点, 当在四个方 向上的黑点点数均小于规定的闽值时, 则取同一笔道上与该点最近的点的方向 赋予该点。经过这种变换的汉字将汉字笔道的端、歧、折、交点表示出来了。 图4 . 3汉字笔道的方向 ( 2 )汉字背景的1 6 值变换 在背景点的1 6值变换中,是以二进制代码0 0 0 1 , 0 0 1 0 ,0 1 0 0 , 1 0 0 0 分别表示 该背景点分别处在笔道的左,右,上,下方向、背景点的 1 6值变换图形如图 所示。 2 4 由于汉字的笔道复杂, 背景区域的 1 6 值特征比较凌乱, 所以用一个简单的 阿拉伯数字图象的背景 1 6 值变换图来表示背景 1 6 值变换的效果。 以下介绍背景 1 6 值变换的算法。 图象的背景部分与笔画部分是以笔画的边沿点为分界线的。所以在进行背 景 1 6值变换之前,需要扫描确定笔画的边沿点,并用一定的数据结构记录下 来,以方便后期进行背景 1 6 值变换时使用。 笔道的边沿点扫描算法: 数据结构描述: i n t j s ; / / 边沿点的计 数器 i n t i n d e d g 6 5 2 ;/ / 横向 和纵向的,每行或每列的边沿点数的记 录。当二维下标 为0 时表示横向,当二维下标为1 时表示纵向。 i n t i e d g m a x 2 ;/ / 记录每个边沿点在其所在行或列的位置。当二维下标为 。 时, 表示该边沿点在横向的位置;当二维下标为1 时,表示该 边沿点在纵向的位置。 i n t m w o r d 6 4 6 4 ; / / 金融汉字图 象点阵。当m w o r d i (j =0时表示背景点,当 m w o r d i j - - 1 时表示笔道点。 j s = 0 ;/ / 横向计数器归0 i n d e d g 0 0 = 0 ;/ / 第0 行边沿点为0 个。 f o r ( i = o ; i = 6 2 ; i + + ) / / 对横向的每一行进行扫描 遭 i s = 0 ;/ / 扫描的起始位置,一开始为0 . l a b l e _ 1 0 : ; f o r ( = i s j = 6 2 ) +) 弋 i f ( m w o r d i 川! = 0 ) / / 此时由背景点进入笔道点 i e d g j s 0 j;/ 由i e d g j s 0 记 录第j s 个 边沿点在 横向 上 的位置 j s + + ; 边沿点计数器加1 f o r ( k = j + 1 ; k = 6 3 ; k + + ) / / 此时进入了 笔道部分 i f ( m w o r d i k = = 0 ) / / 此时有笔道点进入背景点。 i e d g j s 0 = k - 1 ; / / 记 录下这个笔道点进入背景点的 边沿点的在横向的位置 j s + + ;/ / 又增加了 一个边沿点,计数器加i i s = k + 1 ;/ / 调整下次扫 描的 起始位置 i f ( i s 6 3 ) g o t o t a b le - 1 0 ;/ / 一行扫描没有结束, 从新 开始 g o t o l a b le _ 3 5 ;/ 如 果一 行结 束, 则 开始 下一 行 l a b l e 多5 : ; i n d e d g i+ 1 0 = j s ;/ / 记 录到目 前行,边沿点的总点数 纵向边沿点的扫描与横向的类似。为了方便处理,在进行边沿点扫描时, 对图象的最外一圈边框进行了清 0 。这样,每一行的边沿点

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论