蒙古文文献数字化建设与OpenType字库的优化【完整版】_第1页
蒙古文文献数字化建设与OpenType字库的优化【完整版】_第2页
蒙古文文献数字化建设与OpenType字库的优化【完整版】_第3页
蒙古文文献数字化建设与OpenType字库的优化【完整版】_第4页
蒙古文文献数字化建设与OpenType字库的优化【完整版】_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

蒙古文文献数字化建设与OpenType字库的优化【完整版】(文档可以直接使用,也可根据实际需要修订后使用,可编辑放心下载)

蒙古文文献数字化建设与OpenType字库的优化-大学语文论文蒙古文文献数字化建设与OpenType字库的优化【完整版】(文档可以直接使用,也可根据实际需要修订后使用,可编辑放心下载)蒙古文文献数字化建设与OpenType字库的优化

○宝美荣

(内蒙古师范大学图书馆,内蒙古呼和浩特010022)

[摘要]本文主要根据蒙古文文献数字化建设、检索、共享等方面阐述了蒙古文OpenType字库的重要性。详细分析了win7系统下的蒙古文OpenType字库规那么,发现一些规那么没有遵循蒙古文语法规那么,导致控制符使用繁杂。为普通用户输入蒙古文带来不必要的复杂性。本文以蒙古文的语法和书写规那么为依据,按照不用控制符或尽量少用控制符原那么对字库规那么进行优化,提出了对蒙古文字库规那么的修正方法,实验说明到达了预期效果。

[关键词 ]数字化;共享;OpenType字库;规那么

[中图分类号]G112[文献标识码]A[文章编号]1672-8610(2021)05-0066-03

利用现代信息技术进行民族文献的数字化对极其珍贵的民族文献资料保存并有效利用、广泛传播等具有深远的意义。

中国蒙古文现代图书近3万种,期刊150多种,古籍1.5万种,收藏蒙古文文献的各级图书馆400多家,所以蒙古文图书文献资源丰富且地域分布广。所以建立统一的蒙古文文献数字化共建、共享平台是非常有必要。随着软件硬件技术的不断开展对文献数字化建设提供了良好的环境和平台。因此蒙古文文献的数字化工作越来越受到人们的重视。

一、蒙古文文献数字化中的共享、检索问题

从技术层面分析,目前各高校图书馆使用的蒙古文文献管理系统不尽相同,如汇文、金盘等。而且各个系统之间不兼容,导致对资源的共享带来很大的困难。而文献数字化的最终目的是资源的广泛共享。实现共享要需要统一的文献管理平台。其根本的统一在于蒙古文编码。由于蒙古文编码国际标准制定较晚〔2002年〕导致多种编码〔形码、音码等〕并存,编码不统一,对资源共享带来一定的障碍。

从语言本身分析,蒙古文是一种复杂的拼音文字。也是唯一从左到右、从上到下竖排的文字。这个特点对文字处理技术带来了一定的难度。除此之外,蒙古文中存在一音多形、一形多音等现象,因普通用户很难100%正确掌握,文字录入过程中难免会出错,所以会影响检索效率。

从编码角度分析,自从蒙古文编码国际标准制定之后大局部蒙古文信息处理系统都遵循国际标准编码。微软从vista系统开始支持基于OpenType蒙古文字库的传统蒙古文输入法。这对蒙古文文献数字化提供了统一编码的良好平台。

但是,这套OpenType字库中一些规那么没有遵循蒙古文语法规那么,导致控制符使用繁杂,加大了用户输入蒙古文时的不必要的复杂性。所以文本重点分析了蒙古文OpenType字库中存在的问题并提出了优化方案。

二、基于Unicode编码的蒙古文OpenType字库

蒙古文编码国际标准由有码位的“名义字符〞和无码位的“变形显现字符〞两局部构成。所以显示正确的蒙古文文字时必须考虑到名义字符和变形显现字符之间的映射。而这种映射关系应该用语言知识和语法规那么表达出来,从而到达正确选形的目的。对于语言知识和语法规那么无法区分的情况,通过输入附加控制符来标识。OpenType字库技术恰好可以解决此问题,字库设计者主要利用OpenType布局〔Layout〕表设置布局规那么,表达名义字符和显现字符之间的映射关系。蒙古文OpenType字库主要涉及布局表中的字形替换(GSUB)表。

为了支持蒙古族、藏族、维吾尔族等复杂的少数民族语言文字,微软在Vista及Win7系统中设计实现了一套完全符合Unicode编码标准的蒙古文OpenType字库〔蒙古文白体〕并附带了蒙古文读音输入法,根本能满足蒙古文输入的需要。

输入蒙古文时如果频繁使用控制符会给普通用户带来不必要的困难。如蒙古文控制符种类多、用法繁杂难于记忆;发音不标准的用户会输入显现字符正确而编码错误的信息;在编辑操作及网络传输过程中控制符会发生失去控制能力、控制符丧失等现象而导致显现字符不正确。因此,从名义字符到变形显现字符的转换规那么应当尽可能利用蒙古文的拼写规那么与语法规那么,只有在拼写规那么、语法规那么无法区分的情况才使用控制符来标识。即应该按照“不用控制符〞或“尽量少用控制符〞的原那么来建立字库布局规那么。从而减少控制字符带来的副作用,使蒙古文读音输入更加便捷。

三、微软蒙古文OpenType字库布局规那么中存在的问题及优化

在蒙古文编码国际标准中定义了蒙古文所需的特殊控制字符如表1示:

这些控制字符主要用在蒙古文字符前后来一起确定字符的正确变体。

微软蒙古文Opentype字库中主要存在的问题是辅音GA与HA的变体选形规那么不完备。

该布局规那么没有完全遵循元音谐律及辅音谐律语法,导致一些词必须附加控制符才能正确输入〔选形〕,主要表达在表2中的阴性变体的选择上。如图1至图3所示:

表2辅音GA与HA的变体字符列表

以上图中的正确词形只有在附加输入控制符时才能得到。实际上,在蒙古文语法辅音谐律中规定辅音字符“GA〞的阴性词中形式只出现在阴性词中。图1中词的第一个字符〔阴性元音U〕就完全可以决定选择辅音“GA〞的阴性词中形式,无需再用控制字符来确定。同样,图2没有遵循元音和谐律,一个词中出现了两个中性元音,那么这个词就属于阴性词,就应该选择表1中辅音GA的阴性词末形式,也无需用控制字符来确定。图3规那么除了包含等阴性元音外,还应该包含等辅音与阴性元音组合的强制性合体字符,就能完全覆盖所有可能上文,就可不需要附加变体选择符了。

从方便用户和尽量少用控制符的原那么出发,对微软蒙古文OpenType字库中的显现规那么进行优化,具体实现方案如下:

利用Microsoft公司提供的字库制作工具Volt,通过Lookup关系表中的上下文替换,可以指定在哪个〔些〕字符的前面或后面出现该字符时,映射成该字符的哪个变形显现形式。为方便起见,将在该字符前面出现的字符总体称为前缀,后面出现的字符总体称为后缀。

图4是优化后的从辅音字符“GA〞的阳性词中形式到阴性词中形式的上下文转换规那么。主要优化了前缀和后缀,其中前缀calt6扩充了的阴性元音与阴性强制性合体字符词首、词中形式,前缀g-81-1包括了中性元音词中形式,后缀g-81-2包括了阴性和中性元音词中、词末形式,后缀calt39包括了辅音字符词中、词末形式。

图5中显示的是微软蒙古文OpenType字库中关于字符“GA〞的阳性词中形式到阴性词中形式转换规那么,与图4中的规那么相比过于复杂,没有合理的利用语法规那么,而且忽略了强制性合体字是一个“整体〞的概念,前缀和后缀中没有包含强制性合体字而导致了图1~3中的错误词形。

在国内外专家学者机构的共同努力下,蒙古文编码国际标准ISO/IEC10646于2000年2月通过,“从理论上,结束了由于没有统一的编码,无法共享资源的困境〞。目前,蒙古文编码国际标准的实现和应用还存在推广缓慢和应用不广等问题。通过面向普通用户优化字库中控制字符的规那么,尽可能减少输入中控制字符的类型和数量,简化输入操作方法对推广和普及蒙古文国际编码标准具有现实意义。有了较完善的标准字库对蒙古文文献的数字化共建、共享会提供良好的根底平台。

【参考文献】

[1]苏日娜.蒙古文古籍文献数字化建设探析[J].图书情报工作,2021(2):112-114.

[2]鲍玉来,刘学洪,刘川.蒙古文文献数字化理论与技术研究思路[J].科技成果管理与研究,2021(1):83-85.

[3]确精扎布.蒙古文编码[M].内蒙古大学出版社,2000.

[4]清格尔泰.蒙古语语法[M].内蒙古人民出版社,1991.

[5]乌达巴拉,巩政.蒙古文OpenType字库制作技术[J].内蒙古大学学报〔自然科学版〕,2006,37(5):570-573.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论