版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
信息时代汉字标准化和共通化
冯志伟第1页汉字效用递减律7000通用汉字覆盖率和不足率汉字数增加字数覆盖率不足率
100090%10%
2400140099%1%
3800140099.9%0.1%
5200140099.99%0.01%
6600140099.999%0.001%从中能够看出,1000个汉字覆盖率为90%,以后每增加1400字,覆盖率百分比最终一个9字之后便增加一个9字。覆盖率到达99.999%6600个汉字,就组成了当代通用汉字主体,覆盖率到达99.9%3800个汉字,就包含了全部当代惯用汉字。伴随汉字频度降低,其效用递减。
第2页四种汉字代码汉字输入码:为了将汉字输入计算机而编制代码。汉字内部码:计算机内部处理汉字信息时所采取代码,其形式取决于机器本身。为了提升机器处理汉字效率,汉字内部码普通采取机器原有代码结构,码长都尽可能短,而且等长。许多汉字计算机,在输入汉字之后都要进行一次将汉字输入码变成汉字内部码转换。汉字输出码:计算机将汉字信息处理结果输出打印或显示时所用代码,普通也取决于详细机器或设备。汉字交换码:用于计算机之间汉字信息交换代码。它处于一台计算机出口与另一台计算机入口之间。除了确保一字一码之外,还要与相关国际标准和国家标准保持一致。
一台详细计算机交换码能够和输入码、内部码、输出码一致,也能够不一致,这一样取决于汉字信息处理系统设计与应用详细情况。不过,在普通情况下,一台计算机输入码、内部码和输出码是伴随计算机不一样而不一样,而交换码就必须整齐统一,才便于与其它计算机进行信息交换。第3页《信息交换用汉字编码字符集-基本集》(GB2312-80)汉字标准交换码共分两级。第一级为惯用字,有3755字,按汉语拼音字母次序排列,第二级为次惯用字,有3008字,按部首排列。字体以中国文字改革委员会1964年编印《简化汉字总表》以及中华人民共和国文化部和中国文字改革委员会联合公布《第一批异体字整理表》为准。字形以中华人民共和国文化部和中国文字改革委员会1965年联合公布《印刷通用汉字字形表》为准。除汉字之外,该标准还搜集了普通符号202个(其中包含间隔、标点符号、运算符号、单位符号、制表符号等),序号60个,数字22个,拉丁字母52个(包含大小写),日文假名169个(包含大小写),汉语拼音符号26个,汉字注音符号37个,连同汉字一起,共有7445个图形符号。这个代码表最多可收8836个图形字符,现在尚留有一些空白位置,供深入扩充之用。第4页繁体字和简体字对应编码六个字符集基本集(GB2312-80)第一辅助集(GB12345-90)第二辅助集(GB7589-87,收简体字7237个)第三辅助集(GB/T13131-91)第四辅助集(GB7590-87,收简体字7039个)第五辅助集(GB/T13132-91)。基本集和第二、第四辅助集是简体字集,第一、第三、第五辅助集是繁体字集。在这六个字符集中,简体字与繁体字存在着明确一一对应关系:基本集中简体字与第一辅助集中繁体字对应,第二辅助集中简体字与第三辅助集中繁体字对应,第四辅助集中简体字与第五辅助集中繁体字对应,而且对应简体字和繁体字在对应字符集中同码。个别汉字在简繁体之间存在着一对多关系,作为特殊情况处理。第5页《15×16、24×24、32×32汉字点阵字模集及字模数据集》所谓点阵字形,就是以点形式来表现字符或汉字形态。15×16点阵字形,能够表示《信息交换用汉字编码字符集·基本集》中绝大部分汉字。因为15×16点阵字形只能表示横向笔画和竖向笔画都不超出八笔汉字。假如一个汉字横向笔画或者竖向笔画超出了八笔(如“量、酬”等字),在点阵字模就容纳不下。在《基本集》中,这么汉字共有138个,只好压缩笔画做变通处理。15×16点阵字形适于屏幕显示,作校对之用。24×24点阵字形,能够全部表示《基本集》中6763个汉字笔形结构,用不着压缩笔画,而且能够保持横细竖粗宋体格调,适合用于针式打印、喷墨打印,是一个很有使用价值点阵字形。32×32点阵字形比24×24点阵字形更能表达宋体格调,能完整地表现汉字笔锋,使撇笔和捺笔自然婉转,舒畅流利,字体质量较高。第6页高精度点阵汉字标准GB/T14242-1993信息交换用汉字64×64点阵黑体字模集及数据集GB/T14243-1993信息交换用汉字64×64点阵楷体字模集及数据集GB/T14244-1993信息交换用汉字64×64点阵仿宋体字模集及数据集GB/T14245-1993信息交换用汉字64×64点阵宋体字模集及数据集GB/T14717-1993信息交换用汉字128×128点阵宋体字模集及数据集GB/T14718-1993信息交换用汉字128×128点阵黑体字模集及数据集GB/T13443-1992信息交换用汉字128×128点阵楷体字模集及数据集GB/T13444-1992信息交换用汉字128×128点阵仿宋体字模集及数据GB/T14719-1993信息交换用汉字256×256点阵宋体字模集及数据集GB/T14720-1993信息交换用汉字256×256点阵黑体字模集及数据集GB/T13445-1992信息交换用汉字256×256点阵楷体字模集及数据集GB/T13446-1992信息交换用汉字256×256点阵仿宋体字模集及数据集第7页矢量汉字字模集及数据集GB/T13844-1992图形信息交换用矢量汉字单线宋体字模集及数据集GB/T13845-1992图形信息交换用矢量汉字宋体字模集及数据集GB/T13846-1992图形信息交换用矢量汉字仿宋体字模集及数据集GB/T13847-1992图形信息交换用矢量汉字楷体字模集及数据集GB/T13848-1992图形信息交换用矢量汉字黑体字模集及数据集第8页汉字共通化问题在汉字文化圈内,使用汉字地域和国家还有台湾、韩国、日本、新加坡、马来西亚。除了新加坡和马来西亚同中国大陆一样使用简体字之外,这些地域和国家使用汉字并不完全相同。在信息化时代,汉字差异给信息交流带来不便,这就有必要研究汉字共通化问题。研究汉字共通化问题,首先要尽快摸清现行汉字差异程度,分析产生差异原因,在共识基础上加强合作,确定整理汉字统一标准,制订各方都能接收、符合汉字演变规律科学方案,首先在信息处理领域内实现汉字统一编码,然后再逐步地统一字形,在国际范围内促进汉字规范化和标准化。第9页中国制订《信息处理文本通信用编码字符集》(GB8586)该标准字符集由GB2312-80(基本集)和一个汉字通信子集组成。汉字通信子集搜集汉字、表示日期和时间图形字符等共705个,其中有:第二辅助集中汉字520个,第四辅助集中汉字92个,表示日期和时间图形字符69个,《第一批异体字整理表》淘汰用于人名、地名等异体字、汉字部件等23个。通信子集只限于在通信网中使用,与其它系统进行数据交换时仍要转换为汉字标准交换码。第10页台湾制订汉字字符集标准《汉字资讯交换码CCCII》,
《通用汉字标准交换码TCA-CNS11643》。第11页CCCII字符集惯用字集收4808个惯用字,作为CCCII第一册,公布于1980年4月;备用字集收6025个次惯用字、5364个罕用字、2112个异体字以及3531个其它资讯用字,共17032字,作为CCCII第二册,公布于1981年2月;罕用字集收12924个罕用字、314个次惯用字及7345个其它资讯用字,共20583字,作为CCCII第三册,公布于1987年5月;异体字集收异体字11517个,公布于1981年2月。全部汉字首先按《康熙字典》部首排序,其次按部首外笔画数排序,最终按笔顺排序。
第12页TCA-CNS11643共收汉字13051个,于1986年公布。整个编码空间分16个字面:第一字面收惯用汉字5401个,包含CCCII中惯用字4808个、中小学书本上惯用字587个以及6个异体字;第二字面收次惯用汉字7650个;第三至十一字面为标准保留区;第十二至十六字面为用户定义区,第十四字面已收罕用字6319个。每个字面上汉字按先笔画后部首次序排列。第13页JISX0208-1983和JISX0212-1990(日本汉字字符集)JISX0208-1983是日本国家交换码标准,共收字符6877个,分为84区1至15区是拼音字符及符号区,收普通图形字符、数字、拉丁字母、日本平假名、片假名、希腊字母、西里尔字母、制表符号等共524个字符;16至84区是汉字区,收日本汉字6353个,汉字分为两级,一级汉字2965个,按音排列,二级汉字3388个,按形排列。另有1959个空白码位是保留区。JISX0208-1990.JISX0212-1990是日本第二个汉字编码字符集标准,作为日本汉字交换码辅助集。该字符集共收图形字符6067个,其中非汉字字符266个,日本汉字5801个,按部首排序。另有1829个空白码位作保留区,940个空白码位作用户自定义之用。第14页韩国字符集字符集中同时收汉字字符和谚文字符。韩国于1987年制订了韩国家标准准编码字符集KSC5601-1987,共有8224个字符1至15区是拼音文字和符号区,收986个字符;16至40区是谚文字符区,收谚文字符2350个;42至93区是汉字字符区,收汉字4888个,其中有268个多音字分配了一个以上码位,出现重复编码;41区和94区共188个码位,是用户自定义区。韩国于1991年制订了编码字符集辅助集KSC5657-1991,增收汉字2856个。
第15页中日韩汉字字符集比较中国国家语言文字工作委员会曾将GB2312和JIS0208中汉字做过比较。GB汉字6763个,JIS汉字6353个,它们之间相同汉字为1851个,相近汉字为1393个,相同和相近汉字总数为3244个。从GB方面看,有48%一致,从JIS方面看,有51%一致。有些人曾将韩国文教部要求大中学用汉字1800字与GB12345中繁体字做过比较,发觉1800字中1791个汉字均可在GB12345中找到,占99.5%。这些比较研究说明,中、日、韩汉字标准,存在着大面积相互覆盖,它们为中、日、韩汉字统一编码提供了相当充分事实依据。第16页《信息技术通用多八位编码字符集(UCS)》国际标准化组织(ISO)于1984年开始研究、制订《信息技术通用多八位编码字符集(UCS)》国际标准,即ISO/IEC10646。1993年5月,该标准第一部分:体系结构与基本多文种平面(即ISO/IEC10646.1)正式公布。前后经历了九年时间。它对UCS总体体系结构和基本多文种平面(BasicMultilingualPlane,简称BMP)做了要求。在BMP内,A区用于字母文字、音节文字和各种符号编码;I区用于中、日、韩(CJK)统一表意文字编码;O区留作未来标准化之用;R区作为BMP限制使用区,用于专用字符、变形显现和兼容字符编码。第17页中日韩汉字统一编码I区中表意文字采取中、日、韩汉字统一编码方式;以现有各标准字符集为源字符集,将其中汉字按统一认同标准进行认同和甄别后,生成涵盖各源字符集;按东亚著名四大字典(《康熙字典》、《大汉和字典》、《汉语大字典》、《大字源》)页码/字位综合排序CJK汉字统一字汇和字序,组成UCS中表意文字部;共包含20902个汉字字符。第18页国际标准字符集编码标准第一,按文字(script)编码,而不是按语言、国度、地域和专业编码:在汉字文化圈内,汉字经历了许多世纪字形演变和字义漂移,它们原来形状和含义都已经发生了改变,不过,它们在字形、字音和基本含义方面依然存在着相同性,它们实际上就是一个超越语言“广义汉字”,所以,统一编码时不考虑语言、国度、地域和专业不一样。第二,不允许(或尽可能防止)重复编码。中、日、韩汉字统一编码遵照了这两条标准,这是处理表意文字编码时大字量小空间矛盾最正确方案。第19页源字符集确定统一编码是在中日韩原有汉字编码字符集基础之上进行,为中日韩汉字统一编码所选取源字符集有十三个,包含六万多个已经编码汉字。这十三个源字符集是:
类集号字符集标准字符个数
G0GB2312-80(基本集)6763
G1GB12345-90(辅一)独立字2352
CG3GB/T13131-91(辅三)7237
G5GB/T13132-91(辅五)7039
G7当代汉字通用字表(7000字表)独立字41+1
G8GB8565-89(文本通信用)独立字290
T1台湾TCA-CNS11643/第1字面5401+9
T2台湾TCA-CNS11643/第2字面7650
Te台湾TCA-CNS11643/第14字面6319+239+10
JJ0日本JISX0208-906353+1
J1日本JISX0212-905801
KK0韩国KSC5601-874888
K1韩国KSC5657-912856
另外,还收纳了少许香港用字(58个)、韩国文吏读字(92字)和台湾CCCII中独特字(200多个)。第20页汉字认同(1)汉字认同要处理横跨几个标准变体汉字,在认同过程中,要力争保留任一标准之内允许相同变异误差,当两个字形只含有微小差异时,只赋以一个代码,不然,就赋以不一样代码。汉字认同规则在相当程度上考虑了中国对通用汉字编码提议ISO/TC1/WG2/N489和日本JIS出版规则。汉字认同规则汉字认同指是表义文字字形(ideograph)认同,而不是字音、字义认同,也不是详细造型(font)强求一律,字形结构相同,只是笔画小有差异字,就给予认同所谓“笔画小有差异”是指以下情况笔形改变差异;笔画类型差异;笔画曲率差异;笔画长度差异;断笔与连笔;笔画增减一笔。第21页汉字认同(2)汉字认同规则(续前)偏旁部首有细微差异(不包含简化字偏旁)字,给予认同;因简化造成字形差异,不认同;同一字因结构方式不一样而形成变体,不认同;不作垂直认同,在同一集属下(比如,同在G属下,或同在K属下),即使字形非常靠近,也不可认同,因为它们在同一集属下,已经分别编码。非同源字(non-cognate)不认同,也就是说,在文字演变过程中互不相干汉字不认同。汉字认同中充分考虑到了中国大陆简体字,对于当前正在开发中GB标准辅助集含有当代简体字对应字,分别给予编码,共字左右。认同结果表明,中、日、韩各源字符集之间,确实存在着大面积相互覆盖。J、K与C(G,T)间不一样汉字只有744个。“认同”是一个求大同存小异正确路径,它既未修改也未曾毁灭任何文字,因而也未触动任何国家和地域文字政策,不包括文化与法律问题。第22页字汇确定经过认同与甄别,六万多个源字符集中汉字,能够归纳为28000多个“认同汉字”,其中20902个汉字已经正式收入国际标准,成为UCS表意文字区(I区)。其余8000个汉字,是G3、G5、Te中独特字,现已作为扩充需求之一提交给国际标准化组织。已经收入UCS20902个CJK汉字,从中国大陆角度看,有17124个汉字起源于GB;从中国台湾角度看,有17258个汉字起源于TCA-CNS;从日本角度看,有12157个汉字起源于JIS;从韩国角度看,有7476个汉字起源于KSC。CJK汉字统一编码完全能够满足中国(包含大陆和台湾)、日本和韩国汉字信息处理需要。这是国际大协作重大结果,是国际信息
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度钢筋原材料采购合同5篇
- 人教版九年级化学第八单元复习课件
- 2024年度政府采购服装类协议3篇
- 公司员工半年工作总结
- 2024年度定龙水库水上乐园设备采购合同2篇
- 护理文件首页书写规范
- 小讲课糖尿病护理
- 灾难现场医疗救援
- 菏泽学院《国产影视鉴赏》2022-2023学年第一学期期末试卷
- 《夜视技术及其应用》课件
- 《口腔基础知识》课件
- 肝内胆管结石的护理查房课件
- 保安保密管理制度
- 烹饪技巧培训课件
- 2023信息数据保密协议Word模板
- 第18课《狼》课件(共31张)语文七年级上册
- 村口修建公墓申请书
- 2023南方国家电网招聘笔试参考题库(共500题)答案详解版
- 2023-2024学年广东省深圳市育才二中九年级(上)期中物理试卷
- 中建盘扣式落地卸料平台施工方案
- 浅议中国特色社会主义经济建设
评论
0/150
提交评论