(通信与信息系统专业论文)一种新型动态汉字字库的设计与实现.pdf_第1页
(通信与信息系统专业论文)一种新型动态汉字字库的设计与实现.pdf_第2页
(通信与信息系统专业论文)一种新型动态汉字字库的设计与实现.pdf_第3页
(通信与信息系统专业论文)一种新型动态汉字字库的设计与实现.pdf_第4页
(通信与信息系统专业论文)一种新型动态汉字字库的设计与实现.pdf_第5页
已阅读5页,还剩84页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

r 华南理工大学 学位论文原创性声明 i l ll li ii iii i iir li iiif y 1814 9 3 4 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研 究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文 不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研 究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完 全意识到本声明的法律后果由本人承担。 作者签名:1 吩1 a 日期:2 。5 年6 月1 。日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定, 同意学校保留并向国家有关部门或机构送交论文的复印件和电子版, 允许论文被查阅和借阅。本人授权华南理工大学可以将本学位论文的 全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫 描等复制手段保存和汇编本学位论文。 保密回,在三一年解密后适用本授权书。 本学位论文属于 不保密口。 ( 请在以上相应方框内打“4 ”) 作者签名:他专娟 e lm :2 0 0 5 年6 月10e l 导师签名: 夕 日期:加厂年月 本课题部分工作得到了国家自然科学基金的资助 项目名称:“低分辨率运动手写体汉字识别, 项目编号:6 0 2 7 5 0 0 5 起止日期:2 0 0 3 1 2 0 0 5 1 2 摘要 摘要 计算机字形技术经过多年的发展,经历了点阵字库、矢量字库和曲线轮廓字库 三个发展阶段。目前以微软的t t f 字库和a d o b e 的t y p e 系列字库为代表的曲线 汉字字库,充分利用曲线模拟技术,在汉字静态平滑缩放显示和数据压缩存储方 面已经取得了良好效果。 但目前比较成形的字库系统,无论是国外还是国内的中文字库,都没有包含汉 字的笔划顺序等汉字书写方面的时序信息。联系到当前发展十分迅速的计算机辅 助中文教学、多媒体字体动画设计等领域,不仅在静态显示的效果上,对汉字的 动态正确书写方面也有特别的要求,从这个角度上看,目前的字库在日新月异的 社会需求面前还有欠缺。 能够正确的读写汉字,以至掌握初步的书法技巧,都是每个中国人应有的基 本素质。虽然经过了多年的发展,但中文的c a l l ( 计算机辅助语言学习) 系统 尚处于摸索阶段。特别是在动态字库的设计上,目前的还没有独立的动态中文字 库,而各种c a l l 系统的内嵌动态字库无论在存储结构和动态显示效果上都存在 不足之处。 在这种背景下,本文设计并实现了一种全新的动态汉字字库,主要的工作包 括: ( 1 ) ( 2 ) ( 3 ) ( 4 ) 自主设计了一种全新的动态汉字字库的数据结构。这种数据结构基于汉字 笔画,用贝塞尔曲线结构存储了每个笔画的轮廓与骨架数据,并且包含了 汉字的结构,偏旁,来源等整体信息,和包含了每个笔画的笔画类型,拐 点数目等数据,信息量非常丰富。 完成了字库构建过程中的各个核心算法的编写。包括图像轮廓提取,骨架 提取,轮廓跟踪,曲线模拟等算法。并结合书法书写规则,自行设计了一 种骨架曲线自动跟踪算法,比较完整地保存了笔画时序信息。 完成了一级字库3 7 5 5 个汉字的笔画拆分过程,并在b o r l a n dc + + b u i l d e r 平 台上设计了动态字库的构建系统,完成了字库的自动构建。 融合了汉字书法书写的理念,通过骨架自动跟踪与填充策略,初步实现了 带有毛笔笔锋效果的汉字动态书写模拟。 新型汉字字库根据笔划骨架的特性,以笔划骨架的自动跟踪作为汉字书写以 至书法动态模拟的关键技术,涉及了计算机图形图像学、数字图像处理、模式识 别等各领域的知识,是对计算机辅助汉字学习领域以及汉字动态字库设计领域的 华南理工大学硕十学位论文 一次全新研究尝试。 关键词:计算机字形技术,c a l l 系统,动态汉字字库,骨架跟踪,汉字笔画识别, 计算机书法模拟 a b s t r a c t - _ _ _ - l i _ - _ _ _ _ _ _ l _ _ _ _ _ - _ _ l - - - _ l _ _ _ _ _ i i l _ _ _ - _ - _ _ - _ _ _ - - - _ _ i _ l - - - _ _ l _ _ - _ - _ _ _ - _ i _ - _ - _ l _ _ - _ _ - - l _ - _ l l l _ - _ - a b s t r a c t c o m p u t e rf o n t st e c h n o l o g yh a v eb e e nd e v e l o p p e df o rm o r et h a n4 0y e a r s a f t e r t h es t a g eo fb i t m a pt y p ea n dt h ev e t o rt y p ef o n t s ,n o wi tc o m e st ot h et h i r ds t a g e - - c u r v ec o n t o u rt y p ef o n t s t h ec u r v ec o n t o u rf o n t s ,r e p r e s e n t e db yt h et t fo f m i c r o s o f ta n dt h ea d o b et y p es e r i e sf o n t s ,m a k et h eb e s tu s eo ft h eb e z i e rc u r v e s i m u l a t i o nt e c h n o l o g ya n da c h i e v es o m eg r e a te f f e c t si ns t a t i cd i s p l a ya n dd a t a c o m p r e s s i o n a tp r e s e n t ,t h ew e l l - k n o w e dc h i n e s ec h a r a c t e rd a t a b a s e sh a v et h es a m es h o r t a g e : t h e yj u s tc a nd i s p l a yt h es p a t i a ls t a t i cf o n t s ,n e i t h e rt h ef o r e i g nn o r t h ed o m e s t i co n e s c o n t a i nt h ec h a r a c t e rw r i t i n gt e m p o r a li n f o r m a t i o n w h e ni tc o m e st ot h er i s i n g r e s e a r c hd o m a i n ss u c ha sc o m p u t e ra s s i s t e dl a n g u a g el e a r n i n gs y s t e ma n dc o m p u t e r f o n t sc a r t o o nm a k i n g ,w h i c hh a v es p e c i a ld e m a n d so ft h ea n i m a t e dd y n a m i cd i s p l a y e f f e c t s ,t h es t a t i cd a t a b a s e sc a n tm e e tt h ev a r i o u sr e q u i r m e n t sn o w a d a y s t ow r i t e ,r e a d ,c o m p r e h e n da n du s ec h i n e s ec h a r a c t e rc o r r e c t l y ,a n dt h e nl e a r n s o m ec a l l i g r a p h ys k i l l s ,a r es o m eb a s i ck n o w l e d g e m e n tt oe v e r yc h i n e s ep e o p l e b u t a f t e ry e a r so fd e v e l o p m e n t ,t h ed e s i g no fc h i n e s ec a l l ( c o m p u t e ra s s i s t e dl a n g u a g e l e a r n i n g ) s y s t e mi s s t i l la ti t sb e g i n n i n g e s p e c i a l l yo nt h ed e s i g no ft h ed y n a m i c c h i n e s ec h a r a c t e rd a t a b a s e ( d c c d ) ,t h ee m b e d e dd c c do ft h ea c t u a lc a l ls y s t e m s h a v es o m eo b v i o u s l yd i s a d v a n t a g e s ,t h ed a t as t r u c t u r ea n dt h ea n i m a t e dd i s p l a ye f f e c t h a v et ob ei m p r o v e d f r o mt h i sb a c k g r o u n d ,an o v e ld y n a m i cc h i n e s ec h a r a c t e rd a t a b a s ei sp r e s e n t e d i nt h i st h e s i s o u rm a i nw o r k si n c l u d e : ( 1 ) an e wk i n d o fd a t as t r u c t u r eo fd c c di sd e s i g n e d b a s e do nt h ec h a r a c t e rs t r o k e s , t h ed a t a b a s eu s et h eb e z i e rc u r v es t r u c t u r et or e c o r dt h es t r o k ec o n t o u ra n ds k e l e t o n c u r v ed a t a ,a n di tc o n t a i n sn o to n l yt h ei n f o r m a t i o no ft h ec h a r a c t e r ,b u ta l s os o m e s t r u c t u r em e s s a g eo fe a c hs t r o k eo ft h ec h a r a c t e r t h ec o n t e n to ft h ed a t a b a s ei s a b u n d a n t ( 2 ) t h ek e r n e la l g o r i t h m so f e a c hd a t a b a s ec o n s t r u c t i o np r o d e d u r ea r ei m p l e m e n t e d , w h i c hi n c l u d ei m a g ec o n t o u rd e t e c t i n g ,t h i n n i n g ,c o n t o u rt r a c k i n g ,c u r v es i m u l a t i o n a c c o r d i n gt ot h e t r a d i t i o n a l c a l l i g r a p h i cr u l e s ,w ed e s i g n e dt h e s k e l e t o na u t o t r a c k i n ga l g o r i t h m ,w h i c hc a nr e c o r dt h ew r i t i n gt e m p o r a li n f o r m a t i o no fe a c h s t r o k e i i i ( 3 ) c 。m p l e t i n gt h es t r o k e e x t r a c t i 。np r o c e s s 。f3 7 5 5c h a f a c t e 州n h e 觚卜k 二d 、。c h i n e s ec h a r a c t e rd a t a b a s el i s t ,b u i l t t h ea u t o - c o n s t r u c t i o ns y s t e mb a s e do nt h e b o r l a n dc + + b u i l d e r ( 4 ) c 。m b i n i n gt h ek n o w l e d g e 。f t r a d i t i o n a l c a l l i g r a p h y w e c 州o u kh 媚? p - e f f e c to ft h ed y n a m i cs i m u l a t i o na c c o r d i n gt ot h es k e l e t o n a u t ot r a c k i n ga i l do u r o u rd a t a b a s ei sb a s e do nt h es p e c i a l i t yo f t h es t r o k es k e l e c t o n ,t h ep r o p o s e d s k e l e t o na u t ot r a c k i n ga l g o r i t h mi st h ek e yt e c h n o l o g yo f t h ep r o j e c t t h ep r o j e c 。 r e f e rt ot h er e s e a r c hf i e l d ss u c h 嬲c o m p u t e rg r a p h i c s ,d i g i t a li m a g ep r o c e s s i n g a n d p a t t e mr e c o g n i t i o n ,t h ed a t a b a s ed e s i g n i sa s s i s t e dw i t hs o m e i d e a so fc h l n e s e c a l l i g r a p h yl e a r n i n ga n dd y n a m i cd i s p l a y i n gt e c h n o l o g y e x p e r i m e n t s s h o wt h a tt h e p r o p o s e dm e t h o d sw o r k sv e r yw e l l i tm a y l e a d st on o v e la p p r o a c hf o rd y n 锄1 c c h i n e s ef o n td e s i g n k e vw o r d s :c o m p u t e rf o n t st e c h n o l o g y ,c a l ls y s t e m ,d y n a m i cc h i n e s e c h a r a c t e r d a t a b a s e 、s k e l e t o nt 豫c k i n g 、s t r o k e sr e c o g n i t i o n 、c o m p u t e r c a l l i g r a p h ys i m u l a t i o n i v 目录 目录 摘要i a b s t r a c t i i i 第一章绪论1 1 1 课题研究背景与意义1 1 2 中文汉字字库发展简介2 1 2 1 中文汉字字库发展简史2 1 2 2 中文汉字字库类型简介4 1 3c a l l 系统发展简介5 1 3 1c a l l 系统结构5 1 3 2 中文c a l l 系统的发展与现状6 1 4 主要工作以及论文章节安排7 第二章动态汉字字库的结构设计9 2 1 目前中文汉字字库的结构简介9 2 1 1 静态中文字库的结构9 2 1 2 动态汉字字库的现状。12 2 2 新型动态汉字字库的结构设计15 2 3 本章小节18 第三章动态汉字字库的实现。19 3 1 动态字库的构造流程19 3 2 贝塞尔曲线介绍20 3 2 1 贝塞尔曲线的表达式与性质20 3 2 2 二阶与三阶贝塞尔曲线的表达式及其在字库技术中的应用22 3 3 汉字笔画图像的轮廓处理23 3 3 1 笔画图像轮廓提取与跟踪23 3 3 2 笔画轮廓曲线的拐点提取25 3 3 3 轮廓曲线的分段模拟27 3 4 汉字笔画图像的骨架处理27 3 4 i 骨架提取的目的与原理27 3 4 2 骨架提取算法比较与选择29 3 4 3 骨架的自动跟踪31 3 4 4 骨架曲线的分段模拟34 3 5 曲线模拟方法对比35 3 5 1 几何图形法36 v 华南理工大学硕十学位论文 3 5 2 参数型最小二乘法4o 3 5 3 两种模拟方法的对比43 3 6 本章小结44 第四章文字识别技术在本课题的应用。45 4 1 文字识别技术介绍45 4 1 1 文字识别技术历史45 4 1 2 脱机文字识别技术介绍47 4 2 汉字笔画识别51 4 2 1 汉字笔画识别的目的。51 4 2 2 汉字笔画识别流程( 以楷体为例) 。51 4 2 3 笔画识别结果分析与特殊情况处理一55 4 2 3 1 笔画识别结果分析一55 4 2 3 2 笔画识别特殊情况分析解决56 4 2 4 笔画识别与文字识别的联系与区别58 4 3 本章小结58 第五章动态字库的功能与应用。59 5 1 字库的静态显示59 5 1 1 静态显示算法59 5 1 2 静态显示效果图60 5 2 字库的动态书法模拟61 5 2 1 计算机书法模拟现状61 5 2 2 动态字库的书法模拟64 5 3 动态字库的应用设想66 5 4 本章小结。67 第六章动态字库构造与查看系统68 6 1 字库构造系统的建立一68 6 2 字库查看工具简介70 第七章总结与展望。72 7 1 全文总结与字库统计。72 7 2 展望73 参考文献。74 攻读学位期间发表的与学位论文内容相关的学术论文77 致谢7 8 第一章绪论 第一章绪论 1 1 课题研究背景与意义 中国上下五千年的悠久文化源远流长,中文汉字及其书法艺术正是其中的文 化瑰宝之一。经过几千年的历史流传至今,从汉字字体中甲骨文、篆体到今天的 宋体楷体的时代演变,从书法艺术里颜体柳体的百家争鸣到草行楷篆的百花齐放, 汉字的每一次发展与演变都是中国人民智慧的闪光与结晶。继承历史的传统,时 代发展到今天,汉字与计算机技术的结合,形成了中文信息处理技术。本论文进 行的中文汉字字库技术的研究,从广义上讲正是是中文信息处理技术的一个组成 部分【1 】。 所谓中文信息处理,就是利用计算机对汉语汉字进行自动处理,它在我国信息 技术和计算机产业中处于相当关键的位置。 中文信息处理技术主要包括以下几个方面: ( 1 )中文信息输入:包括汉字编码输入,汉字识别和语音识别技术。 ( 2 )字符集和编码; ( 3 )中文信息输出:包括汉字字型技术和语音合成技术。 ( 4 )基础研究和应用技术:包括语料库建设和开发,汉字属性研究,现代汉语 自动分词与分词规范等研究方向。 中文信息处理技术可以说是伴随着计算机科学的发展应运而生的一项新型 科技领域,在近二十年问,随着计算机技术的不断革新,其发展尤其迅速。在电 脑这一强大工具的辅助下,人们的许多创造性思维得以实现和验证,中文信息处 理领域中许多难题也迎刃而解,经过多年的科研与技术积累,中文信息处理技术 已经取得了相当瞩目的成就。 作为中文信息处理的一个重要组成部分,字形技术的发展也十分迅猛,近年 来,字形技术在国际上取得了突破性的进展,形成了字形信息产业,国内外著名的 有a d o b e 公司的p s ( p o s t s c r i p t ) 字库【4 】,微软与苹果公司的t t f ( t r u et y p ef o n t ) 字库【2 4 】以及国内的方正字库,华天字库 6 ,7 】等等。从8 0 年代出现的计算机排版 技术开始算起,字库技术在短短2 0 年间经历了点阵字库,矢量字库和曲线轮廓 字库三个阶段,在汉字的显示,结构存储等方面的取得的成果有目共睹。 但中文汉字与传统的西文字符相比具有字型繁多,字体复杂,字符数量巨大 等显著特点,对单字的结构,读音,特别是笔画顺序等都有特定的标准和要求, 华南理t 大学硕士学位论文 这使得汉字与计算机的结合仍存在众多难点,目前比较成形的字库,包括p s , t t f 的中文字库以及前面提及的国内的方正、高通【5 】、华天【6 】等的设计的中文字 库,尽管汉字数量存储结构等不尽相同,都有一个共同之处,就是没有包含汉字 的笔划顺序等汉字书写方面的时序信息。联系到当前发展十分迅速的计算机辅助 中文教学、多媒体字体动画设计等领域,不仅在静态显示的效果上,特别是对汉 字的动态正确书写方面也有特别的要求,从这个角度上看,静态字库在日新月异 的社会需求面前还有欠缺。而目前的动态字库仍处于新兴阶段,从汉字笔划的动 态播放效果和字库的存储结构上看,这些字库在动态模拟方法以及结构灵活性( 缩 放等) 等方面还有欠缺,仍存在较大的改进空间。 在这种背景下,本文提出了一种全新的动态汉字字库设计制作理念及相关技 术,它根据笔划骨架的特性,以笔划骨架的自动跟踪作为汉字书写以至书法动态 模拟的关键技术,结合当前最有效的曲线轮廓技术并加入了动态显示技术甚至一 些书法书写方面的特性,是对计算机辅助汉字学习领域以及汉字动态字库设计领 域的一次全新研究尝试。 下面首先对课题涉及的中文字库和c a l l 系统的发展进行介绍。 1 2 中文汉字字库发展简介 1 2 1 中文汉字字库发展简史 任何技术的产生和发展都是社会需要的体现,是社会生产力发展的结果。文 字有其特定的形状并被赋予特定的含义,这种特定的形状称为字形,它是一种可 以辨认的抽象图形符号。计算机字形技术与计算机图形学和计算机排版印刷业的 发展联系紧密。在计算机出现之前,没有现在所谓的“电子版 书籍杂志,汉字 基本上附着与各种印刷品流通物上,因此,字型技术与印刷业息息相关,当时印 刷主要采用活字字模来完成,工艺复杂,成本高效率低,科技含量低。更加快速 高效的排版技术成为社会发展的必需,而高速发展的计算机硬件和计算机图形学 技术为计算机排版技术提供了很好的发展契机,计算机排版的首要问题是解决怎 样以计算机来理字模,即如何把字形转换成计算机能够识别和处理的信息,也就 是在计算机内部用数字信息来表示字形,计算机字形技术应运而生。 西文计算机字形技术最早可以追溯到上世纪6 0 年代【2 】,由于当时计算机的运 算速度与存储能力还非常有限,那时的图形设备( g r a p h i c sd e v i c e s ) 还是所谓的 基于纸笔模型( p e n a n d p a p e r b a s e dd e v i c e s ) 【2 1 ,所以最初的计算机字体都非常 的粗糙,常用的一种称为“棒型体捧( s t i c k ) 字,它为了减少存储空间,尽量以 2 第一章绪论 最少数目的线段来模拟字母形状,这种字体何以随意放 大,但线段数目不变,如图l 一1 的“c 就由7 段线段构成。 到了6 0 年代末期,“储存管 终端( “s t o r a g et u b e t e r m i n a l ) 【2 】的发明引发了字形技术的一次革命,在它的基 础上设计的显示器实现了点阵的记忆显示功能,而计算机 图形设备的价格也急速下降,大大推动了计算机图形设备 的普及率,点阵字( b i t m a p p e df o n t s ) 的出现是这次字形 技术革命的标志。 图1 1 火柴型字体 f i g l - 1s t i k et y p ef o n t 储存管终端等技术的出现推动了“设备无关( d e v i c e s i n d e p e n d e n t ) 图形软件工业的发展,美国圣地亚哥的i s s c o 公司是其中的先驱 之一,也正是这件公司在l9 7 7 年提出了“轮廓字 ( o u t l i n e - - f o n t ) 的概念,计算 机字型技术的历史从此翻开了新的一页。由于点阵字很难进行无极缩放显示,所 以人们希望发明一种新的技术,能够实现“棒形字 的缩放功能,但显示效果又 更好,“轮廓字 因此被提出,最早的“轮廓字 是i s s c o 公司的“阴影字 ( s h a d e d f o n t ) ,类似于今天的矢量字。 到了上世纪8 0 年代,a d o b e 公司的p o s t s c r i p t 技术的出现标志着现代计算机 字形技术进入了发展空前迅速,字形字体设计空前繁荣的新时代【3 4 】。相继出现 了p o s t s c r i p tt y p e l 和t y p e 3 字库以及微软的t r u e t y p e f o n t 字库,1 9 9 6 年5 月微 软和a d o b e 公司联合推出了一种新的通用字体技术,名叫o p e n t y p e ( 简称o t f ) 【5 】,它集中了t r u e t y p e 和t y p e l 两种字形描述技术,o p e n t y p e 将以在i n t e r n e t 的h t m l 文本中嵌入字体信息作为一种标准机制,同时,提供流线字体管理、丰 富的格式参数。包括字体嵌入式集成i n t e r n e t 出版环境和基于i n t e r n e t 的应用管理。 与以前的专有字体嵌入技术不同,o p e n t y p e 是一个开放、无版权的字形描述技术。 o p e n t y p e 字体使用o t f 作后缀。o p e n t y p e 还允许把多个o p e n t y p e 字体组合在 一个文件中以利于数据共享。这些字体被称为t r u e t y p e 集( t r u e t y p ec o l l e c t i o n ) , 其文件后缀为t t c 。在w i n d o w s2 0 0 0 中已采用o p e n t y p e 字形技术。 为提高桌面显示器、膝上型和掌上型电脑的屏幕字体清晰度。l9 9 8 年1 1 月 微软开发了字体显示的突破性技术一一c l e a r t y p e 字体技术,它能提高3 0 0 的屏 幕显示清晰度。由于c l e a r t y p e 技术全部工作在操作系统级上,可广泛应用于图 形领域。当前,主要用于电子图书( e b o o k ) ,改善目前的电子数据表,字处理文 本和i n t e r n e t 信息的显示效果。c l e a r t y p e 在w i n d o w sx p 中有着广泛应用。 也正是在这个阶段,由于中国国际地位的提升以及科学技术的发展,国际大 公司和国内的一些公司纷纷加入中文汉字字形技术开发领域,中文汉字技术开始 蓬勃发展。 3 华南理工大学硕十学位论文 1 2 2 中文汉字字库类型简介 综上所述,从上世纪6 0 年代至今,字库技术经过了三个发展阶段,依次是点 阵字库,矢量字库和曲线轮廓字库,其中矢量和曲线字库又因为存储的是汉字的 轮廓信息而属于轮廓字类型,下面对这三种字库类型进行简介【3 、4 】。 ( 1 ) 点阵字库( b i t m a p p e dt y p e ) 直接用o 、l 点阵图形来描述的字符叫点阵字,即字库中的 字符是位图形式给出的,这是字模数字化过程中出现最早的一 种技术。点阵字的优点是:字库组织和管理简单,还原速度快, 小字质量好。在古老的d o s 时代,b i o sr o m 中包含了几种针 对不同分辨率的位图字体。当应用程序发出软件中断的要求以 图形模式显示字符时,b i o s 取得图元的数据然后在指定的位 置显示。对于w i n d o w s 3 1 以前早期的w i n d o w s 操作系统版本, 图1 - 2 点阵字 f i g l - 2b i t m a p t y p ef o i n t 位图字体是唯一被支持的字体类型。即使在现在,位图字体仍然作为库存字体广 泛使用在用户界面中,比如用在菜单、对话框和工具提示消息中,以及显示或打 印等低分辨率的输出场合。但点阵字也存在着很多明显的缺点,比如数据量大, 大字边缘产生锯齿,不易进行旋转或变形等。根据点阵的大小不同,常用的有1 2 1 2 ,1 6 1 6 ,2 4 2 4 等点阵字库。图2 为点阵汉字的一个例子。 ( 2 ) 矢量字库( v e c t o rt y p e ) 矢量字是轮廓字的一种,字符外轮廓由一系列直线线段来描述。矢量字库 中保存的构成各个字符外轮廓的所有直线线段的坐标。矢量汉字字库按照显示内 容可分为单线体,双线体,三线体和填充体等几种。矢量字相比点阵字具有很多 优点,如矢量字库文件小,其字模可以生成多套不同字号的字符、不会产生锯齿、 旋转和变形的速度快等。矢量字的出现解决了点阵字库的许多先天不足,使得字 型技术进入了全新发展阶段。但矢量字仍存在着一些缺陷,由于矢量字的弯曲部 分由多条折线来逼近,在显示高精度的字体时折线数陡增,信息量过大,并且难 以保证字符弯曲部分的自然过渡,后来出现的曲线轮廓字模解决了此问题。 ( 3 ) 曲线轮廓字库( c u r v e c o n t o u rt y p e ) 曲线轮廓字是字符外轮廓由若干直线线段和若干曲线线段组成的一种字型 技术。曲线线段采用二次曲线或三次曲线函数来描述,它充分运用曲线( 贝塞尔 函数或者b 一样条函数) 模拟技术进行轮廓模拟,解决了字体平滑缩放问题,并 通过数据的重复利用大大减少了存储空间,其丰富的指令技术还显著改善了字符 在许多边缘情况下的显示效果。曲线轮廓技术的出现也克服了中文汉字数量字型 众多,轮廓变化复杂等难点,结合汉字部件的组成特点,赋予了中文字库的新的 4 第一章绪论 发展空间。曲线字大大改善了文字显示质量,节省了储存空间,是目前应用最 为广泛的字型技术,在高精度印刷、高质量出版等领域里的应用尤其普遍。曲线 字库最具代表性的是a d o b e 公司的p o s t s c r i p t 字库和微软与苹果公司的t t f 字库。 目前成熟的汉字字库都是静态字库,所谓静态字库,即汉字在计算机上只能 静态的显示,无法显示汉字的书写过程。随着计算机字库技术的发展,目前的中 文曲线轮廓字库在静态显示与数据压缩方面已经取得了显著的成果,但因为这些 字库基本着重于静态显示,没有包含笔划顺序等有关汉字书写方面的信息,无法 应用在计算机辅助汉字教学系统( c a l l - - c o m p u t e r a s s i s t e dl a n g u a g el e a r n i n g s y s t e m ) ,计算机汉字动画等新兴领域。因此,一个新型的字形技术研究方向一一 动态汉字字库的研究进入了人们的研究视野。 1 3 c a l l 系统发展简介 1 3 1c a l l 系统结构 c a l l - - c o m p u t e ra s s i s t e dl a n g u a g el e a r n i n g 8 ,9 】,即计算机辅助语言学习。西方 的c a l l 系统的出现可以追溯到计算机技术发展的早期,2 0 世纪的6 0 年代,但由 于当时的计算机运算速度低,储存容量小,显示效果差,而且普及率非常低,所 以c a l l 系统的研究基本上仅限于发达国家的一些大学和研究所里,c a l l 系统的普 及还是随着8 0 年代个人电脑的普及而实现的。c a l l 系统的主要组成框架见图3 1 9 。 图卜3c a l l 系统框图 f i g1 3c a l ls y s t e m sf r a m e w o r k 辅导系统一一让使用者能够进行该语言中的词汇,语法学习的各程序的总称, 例如词汇拼写、语法正误、填空、多项选择等练习,一般还有一些由文档和声音 文件构成的帮助功能文件。它是c a l l 系统最基本,最常见的组成部分,常被称为 “经典( c l a s s i c ) ”部分。 工具系统一一工具在这里可以理解为语言的应用工具,用以在学习者进行语言 应用进行支持和智能反馈,例如翻译,自动修改等功能,以及在使用者进行写作, 5 华南理t 大学硕十学位论文 发音等时,给出相应规范,并对成果进行优劣判别。 资源信息系统一一存储该语言相关的各类资源,包括词库,字典,图片,声音, 地域文化历史等等资料信息,帮助使用者拓宽知识,加深对语言的理解。 根据使用者的不同,c a l l 系统可分为针对儿童的辅导系统,针对外语学习的辅 导系统和针对语言学家的专业学习系统。 1 3 2 中文c a l l 系统的发展与现状 相对与西文而言,中文c a l l 系统的研究与发展相对滞后了一些,但还是赶上 了8 0 年代个人电脑普及时期,至今也有2 0 年历史了。在中文计算机教学方面, 早在7 0 年代早期已经有学者进行相关研究( 郑锦全1 9 7 0 ) 【l o 】,但也是在8 0 年 代中期,在计算机中文系统、内码、字集与输入法开始通行,中文电脑的基础稳 固以后,中文c a l l 系统的研究才开始逐步发展,并在多媒体动画设计,图文资源 等新技术迅速普及的这l o 几年间得到长足进步。 目前,在中国大陆,香港,台湾以及新加坡等地以及北美的一些大学已经设 计出多种的中文c a l l 系统,基本上都是面向汉字初学者( 主要是小学生或者外国 人) ,针对使用人群的思维模式和记忆特点,各有特点,比较成熟的有国内的怎 样学汉字系统【1 4 】,快乐汉字系统【1 5 】,香港的现龙中文学习系统【1 1 - 1 3 】, 美国南加州大学的汉字学习系统【1 6 】等,这些学习系统有以下几个共同点: ( 1 ) 充分重视汉字书写的规范性 汉字的特点就是基本笔划丰富,笔划书写的规则也十分严谨。每一笔的起 始点和终点,书写过程中的粗细,笔划和笔划之间的比例关系,一个字的比划顺 序等,都有明确规定。如果一开始学习的时候不能很好地理解掌握,书写习惯一 旦养成就很难改正,所以这些系统都充分意识到规范的重要性,在演示时都做到 严格规范。 ( 2 ) 用循序渐进的教学策略 汉字的结构根据笔划数的多少从简到繁,汉字教学因该根据学生的水平进 行分部分时教授,以上提及的软件或者系统,包括美国南加州大学的汉字书写学 习系统,都根据汉字的难易程度进行了分组,或者根据笔划数目,或者根据偏旁 部首等来进行分类,达到循序渐进的教学效果。 ( 3 ) 辅以汉字其他内容的教授 汉字除了书写规范意外,它的读音,含义,常用词组,形似字甚至英语表 达都是汉字学习的重要组成部分,这些学习系统都或多或少的注意到这一点,加 州大学的汉字学习系统加入了英语注解,而:快乐汉字加入了诗词,汉字发音、 含义,汉字测试等内容,现龙学习系统还加入了丰富的儿歌,汉字演变、汉字 6 第一章绪论 结构、游戏等等针对儿童年龄特点的内容。 目前的各种中文c a l l 系统虽然各有特点,但仍然存在着一些不足,最明显的 是从汉字动态书写模拟效果以及其反应出的系统内嵌的各种动态汉字字库的欠 缺。 ( 1 ) 字库技术简单:基本上仍是点阵字库,全部没有缩放功能,有些甚至仅仅是 动态网页。 ( 2 ) 模拟效果各有欠缺:其中一些仅仅把笔画分为横竖两个方向,用线段动态填 充显示,效果生硬;用弧线进行填充的效果相对较好,但还没有达到模拟毛笔书 写以及其特有的笔锋效果。 汉字书写学习在传统的课堂式教学中已经积累了非常丰富的经验,但中文汉 字严谨的结构性,严格的笔划顺序,独特的书法书写规则,丰富的书法风格使实 际经验与计算机技术的结合至今仍存在许多的难题有待研究和解决。汉字的笔顺 信息是汉字区别西文字符的一个基本特征,但由于字库的发展一直是西方发达国 家作为技术引导,注重的是字符的显示与印刷效果,虽然字母也有一定的书写规 范,但由于字符量少,要求简单,对动态效果要求很少,因此关于动态字库的研 究很少,更加没有制定像静态字库一样的严格要求。 近年来,中文学习在世界各地逐渐受到重视,一则由于海外华人数目增长迅 速,再者,中国国际地位与实力的提高,越来越多的外国人来到中国希望开拓中 国巨大的潜在市场,中文学习的需求自然呈现快速成长的势头。除了世界各地为 华人移民子弟而设的中文学校数量激增外,许多国家也有将中文列入中小学正式 课程的趋势。在高等教育方面,设置中文系的机构日渐增多,如美国开设中文课 程的大学,从1 9 8 0 年的1 9 5 所增加至1 9 9 2 年5 6 5 所【1 0 】,中文学习已经在海外 蔚为壮观,以历史变迁的角度审视,从百年来的西方语言单向强势输入到如今可 以将中文反向输出,这种语言势力的转变所蕴含的深一层含义不言而喻。 上述情况显示着一个新的,属于中国文化的时机正在到来:借中文教学的东 风,将我国的历史文化,风俗人情和观念在海外华人中延续,在世界各地推广, 并造成持续的影响,重建中华民族的伟大形象。 因此,进行动态汉字字库的研究,无论是作为中文汉字c a l l 系统的发展需 要,还是中国在字形技术上的自我创新以及对西方专利垄断的突破,甚至对民族 的自强与发展,都具有重大意义。 1 4 主要工作以及论文章节安排 在课题研究过程中完成的工作主要有:通过查阅国内外相关资料,了解当前计 算机字库技术以及中文汉字字库技术的发展现状,对比当前动态汉字字库的结构 7 华南理t 大学硕士学位论文 与动态效果。在此基础上,自行设计并实现一种全新的基于笔画的,结合了目前 静态与动态汉字字库的特点,并融入了书法学习设计理念的动态汉字字库,从字 库的结构设计,字库构造过程的核心算法程序编写,构造工具

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论