中文宋体字库的主要问题_第1页
中文宋体字库的主要问题_第2页
中文宋体字库的主要问题_第3页
中文宋体字库的主要问题_第4页
中文宋体字库的主要问题_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、中中文文宋宋体体字字库库的的主主要要问问题题 序 收纳七万多个宋体的ISO 10646-2012(下大多简称标准或12标准)的发布,是汉字数字化的最新里程碑。 作为人们须臾不能离开的信息交流工具 宋体字形,是当今社会中最最重要的字体,除了小学教育使用楷书之外,所 有政府文件、报纸杂志、书籍、网页、电子书等等,几乎没有例外(标题、广告 和书法等涉及的各种字体等当然不在其列,今天在网上,随便点击几下、便 可下载几百种字体,见右图); 在Windows系统中大多直接提供的宋体字库则有: 宋体、SimSun-ExtB,宋体- 方正超大字符集、华文宋体、新宋体等,此外还有异域使用的港台的PMingLi

2、U、MingLiU-ExtB,日韩的batang、MS Mincho、New Gulim、Arial Unicode MS等,以及记事本中使用的Fixedsys、PDF文件中出现的FZShuSong_GFHZB- Identity-H等 十多种,其中最重要的中文宋体字库,无疑是前3种(以及Windows从未提供过的Sun-ExtA/B)。 但是,详细阅读 一 八 各项可知,当前中文使用的电子版宋体字库存在十分严重的问题: 应当由于Unicode和ISO 10646中方参编人员的先天原因,该标准存在重大缺陷(二,三,四)。 由中易中标电子信息技术公司的宋体、SimSun-ExtB,依旧停滞在20

3、09.6(Win 7),即ISO 10646- 2003的水平,因而才会残留大量港台字形(五,六)。 而用宋体、SimSun-ExtB进行扩编,因而唯一能够全面覆盖标准的字库,Sun- ExtA/B的研制者海峰工作室,却因可以想见的原因,已经放弃努力,转而专攻海峰五笔;编码错位(七)也就无从更正 。 Office-Word 2016不适用于扩充C/D汉字(八)的问题,是中方无人监管Microsoft公司中文软件的直接后果。 中国是汉字的发源地、并以此为荣的应用大国,CJK统一汉字由中国发起,且不断派员参与Unicode和ISO 10646的编制工作,2012标准也已经发表多年; 可是,国家语委

4、依旧抱着20多年前的GB 13000.1-93颁发规范,而对中文宋体字库的重大问题不闻不问! 这些情况,使受派Unicode和ISO 10646的参编者寒心,使百姓,尤其是对于扩充C/D汉字有极大需求的辞书出版、古代文献研究、考古等方面的专家学 者对于教育部和国家语委的信赖受挫,将严重地影响国家的公信力。 笔者在此大声疾呼: “社会各界行动起来、一起发声,强烈要求国家语委对计算机宋体字库 进行有效的管理,保证其充分的准确性、高度的统一性,和必须的权威性,并开发出处置重码等的方法和软件。” 热切希望:十分准确、高度统一、足够权威的中文宋体字库,能够尽速问世! 殷诚期盼:详尽可信的电子汉字信息资料

5、,简单周全的检索及输入方法,早日诞生。 注意:因本文件含有扩充C/D文字,故请勿使用 Office 2016等软件打开,否则将在其前后出现杂杂影、乱影、乱码码! 目录 中文宋体字中文宋体字库库的主要的主要问题问题.1 序.1 一、各种字库的字形不一致(含异域).2 一a、11种字体_在不同操作系统平台的_显示状况对照表.3 一b、扩充C/D文字在 pdf文件中的隐没问题.4 二、不恰当的编码异动.5 三、存在大量电子异体字.5 四、存在大量重码.6 五、字库字形与规范字之间有差异.7 六、字库电子汉字不符合中文习惯.7 七、字库编码错位.8 八、微软2016版Office-Word不适用于扩充

6、C/D汉字.9 一、各种字库的字形不一致(含异域) 以下是本书初稿所包含的11种字体(字库,文献编号及F-L之版本涵义均见数据库): *A - Sun-extA由文献6引出,拟_扩充C之4位Ud采用,也适用于其它4位Ud(CJK统一及扩充A); *B - Sun-extB由文献6引出,拟_扩充C之5位Ud采用,也适用于扩充B; *G - batang由兼容汉字引出,部分韩国文字采用; *M - MS Mincho由兼容汉字引出,部分日本文字采用; *N - New Gulim为寻找适合于日、韩的部分汉字而采用(*NH 为尽量显示康熙字形而设置,系黑体); *P - PMingLiU由点击中文简

7、繁转换图标引出、台湾文字采用; *U - MingLiU-ExtB康熙版个别文字采用; *S 或 - SimSun-ExtB扩充B采用,其中之小部分(5849个)必须采用; *R - Arial Unicode MS为寻找适合于日/韩及康熙版的个别文字而采用; *大 - 宋体-方正超大字符集扩充A及扩充B之大部分(43392个)采用,也适用于CJK统一汉字; (无)宋体Windows缺省,文献4双字节或CJK统一汉字采用; 11 一一a、 、11种种字字体体_在在不不同同操操作作系系统统平平台台的的_显显示示状状况况对对照照表表 说说明明:Ud Unicode 编码,F L Windows W

8、ord 初始状态或处置结果 (包括表尾部的注二注八,均详见计算机汉字杂论第3篇 Windows系统_软件的安装及字体处置) 计算机当前字体文件版本状况检验 仅在采用 2007 Sub-ExtB 字体的 Windows XP_SP3 及 Vista 系统中有效;而 在 XP_SP2 系统中,扩充B 的文字及拟_扩充C之 Sub-ExtB 的文字隐没或呈现为 如果字字列显示状况与 、 列一致, 表明计算机当前字体文件的版本,满足(初稿)本系列汉字信息数据库的阅读需求 区划字体Ud 字字 *N 55E D 嗭 *R6268 扨 *M6327 挧 *G 66E A 曪 *P7668 癨 *大 鰴 *A

9、 鰴 9C3 4 鰴 E81 E E81 F 统一汉字 *宋 359 E *大3400 *N3402 扩充A *P 36A 8 *S *大 20000 *U 扩充B 24CB 8 2B735 *B 2F800 2FC 7 拟_扩充C *A FA5 F 提示 一一b、 、扩扩充充C/D文文字字在在 pdf文文件件中中的的隐隐没没问问题题 这一问题与中文宋体并无直接关系。 但是汉字的显示涉及文件的可读性,十分重要,且与其他问题有某种相似性,故作为参考附件录载于此。 Microsoft公司的Word 2010提供新功能,可将 .doc/docx 文件另存为 .pdf 文件,具有3个特点: 1)避免读

10、者计算机中的字库软件对文件显示效果的干扰、不再变形; 2)可对 .pdf文件中的内容进行检索; 3)给没有安装 word软件的读者以极大方便。 然而应用证明,当Ud处于扩充C/D范围时,转换结果显示空白(虽然仍可检索),使该功能实际上在此区间无法 应用; 作者发现,有两种状况会将隐没的文字重新显现出来: 、采用汉王 PDF OCR软件,将pdf文件拆分成单页; 、将pdf文件上传到服务器(网页)中,使用360安全浏览器7- http:/ 据此,作者认为,只需 Microsoft公司对Office软件稍作调整,便可以解决上述隐没问题 今天,Windows10及Office2016等已经问世,上述

11、问题是否得到改进请读者自行体验;Word2016对扩充C/D部分 汉字的乱码问题,则是作者刚刚发现的又一个新的问题。 以下是初稿中发现相关问题之片段片段: Doc原件 ISO 10646-2012Ud: 2B735-2B73F及2010 Sun-ExtB均空白。 2EBF*A 2ECD*A 2ECE*A 2ECF*A 2F21*A 2F26*A 2B523*B 2B524*B 2B525*B 2B526*B 2B527*B 2B528*B 2B53D*B 2B53E*B 2B53F*B 2B540*B 2B541*B 2B542*B 2B56B*B 2B56C*B 2B56D*B 2B56E*

12、B 2B56F*B 2B570*B 2B5ED*B 2B5EE*B 2B5EF*B 2B5F0*B 2B5F1*B 2B5F2*B 2B626*B 2B627*B 2B628*B 2B629*B 2B62A*B 2B62B*B 2B665*B 2B666*B 2B667*B 2B668*B 2B669*B 2B66A*B 2B6D6*B 2B6D7*B 2B6D8*B 2B6D9*B 2B6DA*B 2B6DB*B Pdf文件(截图) 汉王 PDF OCR软件,将pdf文件拆分成单页字符出现错位(截图) 浏览器显示状况略 二、不恰当的编码异动 Unicode、ISO10646标准在升级中,将编

13、码的汉字定义进行了不恰当的异动,相应造成字库的汉字变异: 字库 2007 Sun-ExtB2010 Sun-ExtB 标准Unicode 5.0ISO 10646-2012 / Unicode 6.0 备 注 T-35,J-4,K-3,V-22,-1;G略 四角号码Ud码 当前图条图条 Ud码 当前参考 左列Ud码在10字库时的无效显示图条 00107 2AF9 B 2AF6 E V 00134 2AF9 7 2AF6 A 00153 2AF9 A 无图 即 同右 , 下同 2AF6 D 279122B058 2B028 康熙 279272B068 2B038 27927 2B72 D 2B6

14、E 7 康熙 28112 2B6E 1 2B69 B 康熙 281222B151 见本表尾部注 28127 2B14 D 2B11 B 康熙 28127 2B6D 3 2B68 D 康熙 28132 2B6E A 2B6A 4 康熙 281472B15F 2B12 D 康熙 28157 2B15 B 2B129 康熙 28161 2B6D D 2B697 康熙 在本表的523个字中,有等3个未能在 ISO 10646-2012扩充C/D部分 找到。 三、存在大量电子异体字 以部首糹糹下部左点居中下部左点居中的字 1,如: 康熙:223 18为典型,因为该电子字与任何地域均无关系。 1 糹下部之

15、左点,大陆向左、港台向右(越南三点均偏左,日韩同康熙字形为 );UCS2003 ()则不偏不倚,似居中融合,不免使人产生联想 但是本书将之定义为电子异体字,因为在可以预期的几十年之内,难以实现。 四、存在大量重码 根据该字Ud码在12标准中的位置,可分为以下四种类型: a散见重码、b兼容重码、c追加重码、d部首补充及康熙部首、笔画部件部分的重码。 重码字的概念系由作者自行定义(且较初稿扩大),基本以 # 作标记,或者进一步细分为: #Z 真重码12标准(可能仅为UGTH之一)的两个字形真真的相同,如 9459鑙 /28BBA #Z; 编码不同、而字形相同,无须再做解释。 #G 改重码只有10字

16、库等的字形相同,如 哅 #G, 狦#G, #G,此时,12标准字形截图附Ud码 作者建议尽快更改改字库字形。 #D 等重码当根据文献6将部分兼容重码列为字条时,有些字形差异很大,但标准以表示2全 等等的文字,如 745C瑜 康熙:171 26 /2F92F #D,进而推广到部首补充以、康熙部首以表述的文字以及康熙字典中的避讳字; 作者建议称为等重码, 实际上,许多真重码或一般重码本身就是等重码,不再详细区分。 记事本Notepad等软件已经将93标准的 兼容汉字自动地转换成统一汉字,见附录2. CJK兼容汉字 检索表。 检阅康熙字典字头表(以下简称字头表)可以看到,绝大多数电子汉字已经改为通用

17、/行字形,典型如食部404 字中、原有的339个康熙版偏旁,现在变成飠 3偏旁,更接近原状的仅剩1个飮#B;所以,对于少量保留(或残存有) 康熙字形的文字等,可以分作以下7种类型分别处置: #B 并重码 B1、对康熙字典重见字之后者(康熙字形同),特意异构的一个电子字,如 3B36 康熙:114 20 /266E9 康熙:417 08 #B等; B2、对康熙字典中字形原本相似、常常混用(襾西覀- )的字,如 8FFA迺 康熙:323 97 /284BF康熙:420 09 #B等; B3、已经有通行字、却又另外规定一个大体上保留康熙字形的文字,如 飲-飮#B、脱- 脫#B、社-#B、録4-錄#B

18、等;或相反 B4、港台已经使用(或接近)通行的文字,本土却仍保留康熙字形的文字,如 -#B、-#B B5、因简化字、通行字的出现,使与其重合的康熙字形,如 胶-#B B6、与简化字重复的杜撰简化字,如 开-#B、愿-#B (上述)六种文字,作者建议5合并并拼音和字义。 2 全等符号被引入12标准表明,汉字的融合(统一和减少重复)早已是东亚汉字圈的共识(/#D大概是反向统一 的罕有个案,其实前者应当按GKX定字形);此外本书所引述的被重码字与的指向可能不同,如#D的指向为 郎,而其被重码为郞,两者有通行和异体之别。 3 后者属于通用字形(飠)的统一问题,数量众多。 4 少量并重码在字条角注中加列

19、依据(文献12规范字),如“康熙字典原为錄,现改通行字(录)。”。 5 字头表中的许多*P以港台文字反证的方式,表明了中文电子汉字基本通用化的现状;如果按通用化要求实现全部 统一,那么这些并重码终将被融合;因此,所谓并重码,其实只是对自1965年开始的通用汉字字形进程所作的延续 和完善工作之预案。 五、字库字形与规范字之间有差异 Ud 电子字 规范 截图 Sun-ExtA Sun-ExtB SimSun -ExtB 宋体-方正 超大字符集 宋体 华文宋体 新宋体 5165 入 0011 入-入入 入 入 5141 允 0183 允-允允 允 允 5145 充 0525 充-充充 充 充 579

20、5 垕 6859 垕-垕垕 垕 垕 2677 C 7568 - - 7C20 簠 8007 簠-簠簠 簠 簠 59D0 姐 1326 姐-姐姐 姐 姐 59B9 妹 1324 妹-妹妹 妹 妹 上表截图供字体变异时对照。 六、字库电子汉字不符合中文习惯 不符合通用字形, 与项三电子异体字的差别是:前者字形不同于任何地域,此处例子则大多按照台湾汉字出现; 与项五字库字形的差别是:前者字形有明确的规范对照,此处例子则未必。 3665 4BA7 20187 20235 202A3 203C0 七、字库编码错位 20106版Sun-ExtA/B.ttf虽是当今 唯一涵盖唯一涵盖7扩充C/D的字库,但绝非完美,除了少量重码(如

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论