版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、也谈生僻字的信息处理 摘 要:汉字生僻字的输入,一直是困扰文史工作者的难题,本文试在前人的研究基础上,提出一些关于汉字信息处理的设想和相关的解决方案。 关键字:生僻字;字符集;信息处理 汉字的信息处理经过多年的摸索,冲破了以前汉字不能进入计算机的迷信,取得了可喜的成绩,但离能完全满足实际使用的需要还有很长一段距离。 我们先回顾一下计算机中的字库,然后讨论生僻字的信息处理方法。 一、汉字库发展简介 汉字库通俗地说就是计算机软件系统中的汉字仓库,依据不同的标准,字库中汉字的数量是不同的,以前的主要标准有: 1、gb 2312 汉字编码字符集 从1975年开始,我国为了研究汉字的使用频度,进行了大规
2、模的字频统计工作,内容包括工业、农业、军事、科技、政治、经济、文学、艺术、教育、体育、医药卫生、天文地理、自然、化学、文字改革、考古等多方面的出版物,在数以亿计的浩瀚文献资料中,统计出实际使用的不同的汉字数为6335个,而其中有3000多个汉字的累计使用频度达到了99.9%,而另外的3000多个累计频度不到0.1%,说明了常用汉字与次常用汉字的数量不足7000个,这就为国家制定汉字库标准提供了依据。1980年颁布了信息交换用汉字编码字符集基本集的国标交换码,国家标准号为:gb2312-80,选入了6763个汉字,分为两级,一级字库中有3755个,是常用汉字,二级字库中有3008个,是次常用汉字
3、;还选入了682个字符,包含有数字、一般符号、拉丁字母、日本假名、希腊字母、俄文字母、拼音符号、注音字母等。以前我国大陆的各种中文dos版本、windows3.1 /3.2版本,装入的字库都是国标一二级字库。遇到“?、?t、?、?、?住s、?、?、?、?摹?钡群鹤郑?任薹淙耄?植荒艽蛴 后来国家技术监督局又颁布了一个与之相对应的繁体字集,全称信息交换用汉字编码字符集辅助集,标准号为gb/t12345-90。 2、台湾 big5 字库 big-5码是通行于台湾、香港地区的一个繁体字编码方案,俗称“大五码”。地区标准号为:cns11643,这就是人们讲的big5码。 big-5码收录汉字13053
4、个,分为常用字和次常用字两部分,各部分中的汉字按笔划/部首排列。其中常用字5401个,包括台湾教育管理部门颁布的常用汉字标准字体表中的全部汉字4808个,台湾中小学教科书常用字587个,异体字6个;次常用字7652个,包括台湾教育管理部门颁布的次常用汉字标准字体表的全部汉字6341个,罕用汉字标准字体表中使用频率较高的字1311个。 后来为了协助解决众多使用big5码单位于进行公文电子传递时遇到自造字无法转换cns的问题,实行了“big5码字集扩编计划”,1986年7月扩编完成,这就是所谓的“big5+码”。 big5+码系以cns为蓝本,共增编标准字集4760个字符与推荐字集3250个字符;
5、其标准字集即纳编cns第3字面字集内之4145个,第4个字面字集内之219个字,均为一般文书常用之中文字,总支持文字量达141376个 3、大字符集字库(又叫gbk字库) 国际标准化组织为了将世界各民族的文字进行统一编码,制定了ucs标准。根据这一标准,中、日、韩三国共同制定了cjk统一汉字编码字符集,其国际标准号为:iso/iec10646,国家标准号为:gb13000-90,该汉字编码字符集就是通常人们所说的大字符集,它编入了20902个汉字,收集了大陆一二级字库中的简体字,台湾通用汉字标准交换码中的繁体字,58个香港特别用字和92个延边地区朝鲜族“吏读”字,甚至涵盖了日文与韩文中的通用汉
6、字,满足了方方面面的需要。windows95/98/nt/2000中都装入了大字符集汉字库,人们一般称它为gbk(“国家标准扩展”的拼音缩写)字库。 4、新标准汉字库 2000年3月,国家信息产业部和质量技术监督局在北京联合发布了信息技术和信息交换用汉字编码字符集、基本集的扩充,国家标准号为:gb18030-2000,收录了27000多个汉字,还收录了藏、蒙、维等主要少数民族的文字,以期一举解决邮政、户政、金融、地理信息系统等生僻汉字与主要少数民族语言的输入,该标准于2000年12月31日强制执行。 gb 18030-2000 作为 gbk for unicode 3.0 的更新而诞生,它带有
7、包含所有unicode 的扩展,完全向下兼容 gb 2312-1980 和 gbk。 二、对于汉字库设计的想法 字集不是越大越好,因为现存于大型字典辞书的字有一部分是历史用字,还有大量的异体字。根据使用的需要和研究的情况,对汉字的信息处理可以分为几个层次 1、日常生活用字:(可有一个人名、地名辅助集和错字集) 日常生活用字就是常用字,这个数字可能就在3000字左右,再加上一些次常用字,可能也就在6000字左右,当然,其中哪些是常用字,哪些是次常用字,具体的字可能要随着时代不同而发生变化。日常生活用字要求有规范性,现在进行的“规范汉字表”课题研究可能有助于此字集的确定。 人名和地名用字是一个比较
8、特殊的问题,国家语言文字工作委员会正在进行“人名、地名规范”的研究,如果此研究成果面世,则可能有助于解决现代人的人名、地名用字问题。 此集中最好还应该有一个错字集,在早期识字教育和对外汉语教学中,经常要使用到一些错别字,别字好打,缺笔少划的错字没有办法处理,所以应特置一个错字集,有利于错别字教学的信息化与错别字的集中纠正。 2、一般古籍整理用字:(应该有一个异体字辅助集) 古籍用字,数量比现代生活用字多。因为历代沉积下来的异体字、死字比较多。关于这个问题,首先应该进行异体字的整理,异体字整理完成后,正体字就可以确定一个数量。为了保持古籍版本原样,古籍整理工作者和语言文字研究者也要用到异体字,所
9、以附录一个异体字集。 还有一个问题就是方言字,很多方言字来源于古代的字典辞书、地方韵书和方言词典,少部分来源于民间文艺作品。首先方言字有一个规范的问题,那些有本字又意义比较明确的,应该首先选用本字。如本字不明,可沿用俗字。 3、古文字用字:(也有一个异体字辅助集) 关于古文字,一般定义为小篆以前的文字为古文字,其中有很多字还不可识,这种情况,就首先要区分出可识字(与小篆或楷书有对应字)与不可识字,然后进行异体字的整理。并且要能为每个不可识字设计可以调用的编码,以利于检索。 汉字库的设计,针对不同的用户与使用目的,分级分层次是很必要的。各级之中首先要全,同时要考虑各级之间正体字与异体字、繁体与简
10、体、古文字与今字的正确对应等。 此外,各种常用图符也可考虑收录到各级字库中,如传世古籍中出现的圈点符号、古文字中的有句读作用的符号。少数民族和外域的汉字型变体字,也可考虑单置一类,以有利于文字的比较研究。 三、解决方案 以下所使用的操作系统,没有特别指出的为windows98,字处理软件则为word2000。其它则专门指出。 (一)利用gbk汉字集解决生僻字的输入方法。 微软从windows 95(简体中文版)视窗操作系统起,都采用了gbk字库,该字库收字20902个,基本能满足日常生活用字(生僻人名、地名字除外)。要利用该字库,通常可采用下列几种方法。 1改用gbk输入法 windows 9
11、5版本及以后版本提供了 gbk 内码、gbk 全拼、gbk 双拼、gbk 表形码和 gbk 郑码5种 gbk 输入法。但这些输入法不是安装的默认选项,需要从“控置面板”中打开“输入法”对话框来添加。windows 98 默认安装全拼输入法则可以选择输入一般汉字和 gbk 汉字(使用该输入法的属性设置)。其它同样需要安装。 这些 gbk 输入法中只有全拼比较常用,而且,这些输入法所输入的汉字,包括了 gbk 繁体和 gbk 简体,数量非常大,所以造成两方面的不便:一是重码率高,选字非常麻烦;二是繁体简体同时出现,有些字不容易分辨繁简,同时如果不知道字的读音,也很难选择拼音输入法。 现在已有软件研
12、制商研制出能输入gbk字库的五笔字形输入法,如智能陈桥,对于熟悉五笔输入法者,比较便利。 2、用word插入符号的方法 选“插入”菜单中的“符号”命令,在“字体”下拉列表中选“标准字体”(word97是“宋体”),在“子集”中选“cjk统一汉字”(word97是“部首及难检字”)。一般可在列表中找到所需的汉字。虽然该字库大致是按部首和笔画进行编排的,但查找起来还是相当麻烦。以前有万学仁先生编有通用字符集部首表及区位码(16进制)1,有利于查找,如果没有该部首表,还有一种方法可以采用,先输入一个与所要输入的生僻字相同偏旁的汉字,并选中该汉字,然后用鼠标单击“插入”菜单中的“符号”项,此时会弹出“
13、符号”对话框,再用左右方向箭进行逐个查找和挑选,就会很快找到该生僻字的。如果是一个独体字,则可以输入一个笔画相同的的独体字(也不作偏旁)。很快会在其附近找到该字。 (二)gbk字集以外生僻字的输入 1、使用windows自带的“造字程序” 该程序操作简单,使用方便,既可以用两个字重新拆分组合成一个新字;也可以选一个相近的字加以修改而造一个新字;还可以直接在编辑框中画出您所需要的字,比较便利的是前两种方法,其步骤如下。 (l)取两个字中有用的部分,重新组合成一个新字。以“?”字为例(为便于排版,没有选用gbk以外的字作为例字,下同),单击“开始”按钮,选“程序”、“附件”、“造字程序”,出现“造
14、字程序”窗口。在弹出的“选定代码”窗口中确定所造的字的代码位置,比如aaa1后按“确定”按钮(如没有出现,则选“编辑”中的“选定代码”命令),此时在“造字”窗中出现“编辑”工作区。再选“编辑”菜单中的“调用”命令(在windows2000、xp中则为“复制字符”命令),单击“字体”按钮,选择字体后,在“形状”框中输入参考字“腊”,按“确定”按钮。在“编辑”框中出现“腊”字。再选“窗口”中的“引用”命令(在windows2000、xp中则为“参照”命令),一样选定字体,输入参考字“掴”,在“造字”窗中出现带有“掴”字的引用框。用“造字”窗左边的圈选工具圈选“编辑”框中的“昔”,按del键。圈选“
15、引用(参照)”框中的“国”,将它拖到编辑框中合适的位置,然后关闭“引用”框。再选“编辑”菜单中的“保存字符”命令,在对话框中按“确定”按钮。 此时该字已经建立,如文章中需要用到“?”字只要将输入法切换至区位输入法,键入aaa1,即可出现“?”字。 如果要在以后能以平时的输入方法输入该字,那还要补上下一步操作;选“编辑”中的“输入法链接”命令,如为第一次输入,将弹出搜索对话框,在文件名输人框中以英数方式输入你常用的输入法,单击“打开”按钮,弹出是否要创建该文件的询问,单击“是”。如有多种输入方法,则依次键入不同的输入法文件名,完成后弹出输入外码对话框,输入该字的外码(如链接了多种输入法,则有不同
16、输入法的外码)。按“注册”按钮。但要注意输入的外码必须符合该输入法的规定,计算机不承认你自行定义的外码。 (2)用相近的字修改。以“?”字为例:前边的步骤与前例相同,只是将参考字改为“插”。用上述的方法删除“插”字的提手旁后圈选“编辑”框中的“?”,将它向左拖至框的中间,通过调整八个控制点来改变形状大小至满意。以后的操作与上例相同。 该法的优点是:不管是否知道该字的读音,总能通过拆分组合的方法造出来。并且,当正确输入外码注册后,平时还能以习惯的输入方法输入该字。缺点在于如果需要将使用了该造字文件的文档拷贝到其它计算机中,还需要拷贝造字文件。 (3)对于某些类似于图形的字,可以选用各种工具画出需
17、要的字形。 2、用word组字 word2000的“格式”菜单中有“中文版式/双行合一”功能,工具栏上有“字符缩放”按钮,利用它们您可组合一些冷僻字。较之用其他方法要简便得多,操作方法如下: (l)对于左右型字体,以“?鳌弊治?菏淙搿芭?弊趾蠼艚幼攀淙搿把唷弊郑谎小芭?弊郑?鳌白址?醴拧卑磁?窈鲜实谋壤?米挚裳?0);选中“燕”字,单击“字符缩放”按钮,选择合适的比例(该字可选80);同时选中“女”与“燕”,选“格式字体”命令,单击“字符间距”标签,在“间距”框中选“紧缩”,再单击“确定”按钮即可。 (2)对于上下型字体(以“?啤弊治?杭?搿拔亩?绷阶郑?缓笱兴?凇案袷健惫呃干系摹白趾拧笨蚰谘
18、窈鲜实淖趾牛j淙搿八暮拧弊质笨裳靶濉焙牛?淙搿拔搴拧弊质笨裳靶?焙拧5?惺辈罹嗫赡芑挂?笠恍?坏鳌白址?醴拧卑磁?窈鲜实谋壤?米挚裳?00);选“格式中文版式/双行合一”命令,按“确定”按钮。 采用上法输入冷僻字要使字型漂亮,对于左右型字关键在于输入合适的比例;上下型字则在于合适的比例及“大小”框中的数值,当然字号的大小也是十分重要。但此法对于结构复杂如包围型、半包围型、声(形)占一角型等的字则不适用。采用该法组成的字,还可以作为字符串检索。 3、如果要经常运用到大量生僻字形,则可以选用已有的自造字字库进行插入。 现在已经有大型的自造字字库出现,如由日本今昔文字镜研究所制作的今昔文字镜,包括24个ttf格式的矢量字库,共包括九万个汉字。其中收录日本iso10646字符集汉字两万个,大汉和字典汉字五万个,其他四万个汉字包括:甲骨文、梵文、大陆、台、港汉字、水文、越南字喃、汉字偏旁和造字部件、日文假名、俄文、拉丁文等各种常用字母和符号。适用于windows9598nt为操作系统的各种文字处理应用软件。还提供了一个简单易用的检索应用软件。 还有如北师大汉字与中文信息处理研究所研制的说文小篆输入法,能够输
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 南阳市房屋安全维修标准
- 绿色森林公园绿化工程合同协议书
- 电子元件生产企业地磅管理办法
- 美容师离职合同样本
- 电力工程劳务派遣项目方案
- 八年级道德与法治开学摸底考试卷(山东济南卷)(答案及评分标准)
- 停车场宠物友好承诺书
- 地下物流中心引孔施工协议
- 7.1自由平等的真谛(教案)-2022-2023学年道德与法治八年级下册
- 承包公寓合同范例
- 新版工贸企业重大事故隐患-题库
- 2024年四川成都铁路局招聘1015人历年(高频重点提升专题训练)共500题附带答案详解
- 打印耗材供货协议
- 空调设备的安装和修理行业发展全景调研与投资趋势预测研究报告
- 工程认知实践体验智慧树知到期末考试答案章节答案2024年中国海洋大学
- DLT 5028.3-2015 电力工程制图标准 第3部分:电气、仪表与控制部分
- 四川省城市(县城)建成区排水管网排查技术导则
- 食品配送中心租赁合同
- 文化活动实施方案 组委会职责
- 产出导向法在译林版高中英语教材Integrated skills板块的实践探索
- 十八项医疗核心制度解读
评论
0/150
提交评论