第五章中文信息处理_第1页
第五章中文信息处理_第2页
第五章中文信息处理_第3页
第五章中文信息处理_第4页
第五章中文信息处理_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第五章第五章 中文信息处理中文信息处理5.25.2 中文信息在计算机内的表示中文信息在计算机内的表示在计算机内表示中文信息的最早在IBM、富士通、日立等计算机生产厂家的计算机中开始,但采用的编码形式互不兼容。为了能使汉字能够在计算机中通行,国际标准组织(ISO)、国际电子电气工程师协会(IEEE)以及各个使用汉字的国家和地区,在计算机技术发展中,都制定了各种各样的汉字编码字符集。 ISO/IEC 2022定义了七位代码和八位代码的空间及其代码空间扩充的技术。绝大多数计算机系统所采用的字符集,都是以ISO/IEC 2022为基础的。一般汉字在计算机内部的表示都是通过扩充编码长度实现的。汉字的几种

2、通行名称汉字的几种通行名称 Hanzi,Hantsu,汉字 Ideographic character,表意字符,中文字符 Kanji-日文中的叫法 Hanja-朝鲜文中的叫法 CJK-中日韩通用字符集 UnihanISO/IEC 2022ISO/IEC 2022单八位代码空间图单八位代码空间图 ISO/IEC 2022ISO/IEC 2022单八位代码空间图单八位代码空间图 00-31(十六进制为00H-1FH)为第一个控制字符集C0H的编码区域 32(十六进制为20H)为Space 127(十六进制为7FH)为DELETE符; 128-160(十六进制为80H-A0H)为第二个控制字符集C

3、1的编码区域 33-126 ( GL ) 和161-254 (GR) 则是两个图形字符的编码区域汉字在汉字在ISO/IEC 2022ISO/IEC 2022空间中的位置空间中的位置 ISO/IEC 2022ISO/IEC 2022的体系结构特点的体系结构特点 代码空间狭小,凡是C0, C1控制字符相关的空间都回避不用;汉字编码没有利用80 (十六进制) 以上的空间。 按国家/地区分别编码。 需要一整套复杂的指明/调用的控制功能来区分代码空间中的字汇。汉字代码汉字代码 汉字内码是真实世界的汉字信息在计算机系统中的最基本表示。 根据汉字信息在计算机内部使用的目的和存储的方式,汉字代码有各种不同的形

4、式和称谓。 最常使用的有交换码和内码等。 汉字交换码汉字交换码 汉字交换码是用于信息交换的汉字代码。 可以用双字节、3字节和4字节表示。 汉字交换码一般不能直接用于信息处理。例如,在GB2312中,“码”字的交换码为十六进制的42h/6Bh。无法与ASCII码的“Bk”相区别。 在实际使用中,交换码必须转换为机内码。 但是在国际标准ISO/IEC 10646和Unicode中,交换码与处理码可以是一致的,因为此时的ASCII码也采用双字节表示。汉字区位码汉字区位码 汉字区位码是汉字交换码的另一种表示形式。 在GB2312中,汉字交换码所占的方阵大小为9494,若纵向定义为区号(取值范围为十进制

5、数的0-94),横向定义为位号(取值范围为十进制数的0-94),则两个坐标明确了一个汉字的位置。区号和位号的编号都是从1开始,到94结束。 例如,在GB2312-80中,“ 码”字所在的区号为“34”,位号为“75”,故其区位码为“3475”。GB2312-80汉字编码 国标交换码: 问题:信息通信中,汉字的区位码与通信使用的控制码(00H1FH)发生冲突。 解决方案:为了避免汉字区位码与通信控制码的冲突,ISO2022规定,每个汉字的区号和位号必须分别加上32(即二进制0010 0000)。 经过这样处理得到的代码称为汉字的“国标交换码”(简称交换码)。因此,“大”字的交换码是: 00110

6、100 01110011。汉字区位码汉字区位码汉字机内码汉字机内码 用于信息处理的汉字代码,也称汉字处理码。 汉字的内码长度可以不同,通常汉字内码是双字节。 对于单字节操作系统内核,汉字代码为了与ASCII码相区别,往往把两字节(至少把第一个字节)的最高位(Bit 7)置为1。GB2312-80汉字编码 机内码: 问题:文本中的汉字与西文字符经常是混合在一起使用的,汉字信息如不予以特别的标识,它与单字节的标准ASCII码就会混淆不清。 解决方法:把一个汉字看作两个扩展ASCII码,使表示GB2312汉字的两个字节的最高位(b7)都等于“1”。这种高位为l的双字节(16位)汉字编码就称为GB23

7、12汉字的“机内码”,又称内码。如:“大”字的内码是:10110100 11110011(B4F3)汉字机内码汉字机内码交换码、交换码、 区位码和内码关系区位码和内码关系在GB2312-80中,交换码、 区位码、处理码之间存在着简单的转化关系。设交换码为JH(J为高位,H为低位,为十六进数),区位码为QW(Q为区号,W为位号,为十进制数),处理码为CL(C为高位,L为低位,为十六进制数),则:J=Q+32 -再转换为十六进制数H=W+32 -再转换为十六进制数C=J+80HL=H+80H汉字编码字符集汉字编码字符集按照一组无歧义的规则而定义的汉字字汇的有序集合。其中每一个汉字与它的代码表示之间

8、具有一一对应关系。在信息处理技术中汉字编码字符集用于汉字信息的表示、交换、传输、处理、存储、输入及显示。在国际标准化组织ISO的定义中,“无歧义的规则”很重要,制定这些规则的目的是为了确保编码的唯一性,避免重码。汉字编码的关系汉字编码的关系GBK95GB231280GB1234590GFF00FF00 FF00FF00 FF00FF27484汉字20902汉字6763汉字2个扩充的汉字字符集 GB2312GBK-95GB18030-2000虚线外的汉字,4字节表示常用汉字编码字符集常用汉字编码字符集主要汉字主要汉字( (文字文字) )编码标准与规范编码标准与规范 AS

9、CII(英文) GB2312 GBK GB13000 GB18030 BIG5 Shift_JIS ISO/IEC 10646 UnicodeASCIIASCII码码 美国信息交换标准编码(“美标”) 用从0到127的128个数字来代表信息的规范编码 包括33个控制码,一个空格码,和94个形象码形象码中包括了英文大小写字母,阿拉伯数字,标点符号等 国际上大部分电脑的通用编码国标、区位国标、区位国标:中华人民共和国国家标准信息交换用汉字编码 GB 2312 80(信息交换用汉字编码字符集 基本集(又称为GB0) GB 13000 93(信息技术 通用多八位编码字符集(UCS)第一部分) GB 1

10、8030-2000 (信息技术 信息交换用汉字编码字符集 基本集的扩充 )国标(GB2312-80)表(基本表)把七千余汉字、以及标点符号、外文字母等,排成一个94行、94列的方阵每一横行叫一个“区”,每个区有九十四个“位”一个汉字在方阵中的坐标,称为该字的“区位码”例如“中”字在方阵中处于第区第位,它的区位码就是5448区位码表区位码表区位码来源于信息交换用汉字编码字符集(基本集)国家标准(GB2312-80),该标准收汉字6763个,第一级3755个,位于16至55区,55区的最后5个字符没有定义;第二级3008个,位于56至87区第一级汉字按照汉语拼音字母顺序排列,同音字以笔形顺序横(一

11、)、直(丨)、撇(丿)、点(丶)、折(乙)为序。起笔相同按第二笔,依次类推。第二级汉字按部首排序,本标准采用的部首与一般字典用的部首基本相同,略有改变。部首次序及同部首字按笔划数排列,同笔划数的字以笔形顺序横(一)、直(丨)、撇(丿)、点(丶)、折(乙)为序。起笔相同按第二笔,依次类推。查表时先查区号,再查行、列,例如:“、”是0102,“蔼”是1610。区位码表区位码表( (GB2312-80)GB2312-80)1-9区:682个符号(2、4、5、6、7、8、9区有空位164个) 包括:一般符号(间隔、标点、运算、制表)202个 序号60个 数字22个 希腊字母48个 俄文字母66个 汉语

12、拼音26个 拉丁字母52个 日文假名169个 汉语注音37个10-15区:空88-94区:空16-87区:6763个汉字 16-55区:一级汉字3755个 55区有5个空位,从89-94 56-87区:二级汉字3008个 一级汉字按照音、笔形排列 二级汉字按照部首排列例例01 区 1 2 3 4 5 6 7 8 9 02 区 1 2 3 4 5 6 7 8 9 0 、 。 0 1 “ ” 1 2 2 3 【 】 3 4 4 5 5 6 6 7 7 8 8 9 9 例例09 区 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 例例16区 1 2 3 4 5 6 7 8

13、 9 17区 1 2 3 4 5 6 7 8 9 0 啊 阿 埃 挨 哎 唉 哀 皑 癌 0 薄 雹 保 堡 饱 宝 抱 报 暴 1 蔼 矮 艾 碍 爱 隘 鞍 氨 安 俺 1 豹 鲍 爆 杯 碑 悲 卑 北 辈 背 2 按 暗 岸 胺 案 肮 昂 盎 凹 敖 2 贝 钡 倍 狈 备 惫 焙 被 奔 苯 3 熬 翱 袄 傲 奥 懊 澳 芭 捌 扒 3 本 笨 崩 绷 甭 泵 蹦 迸 逼 鼻 4 叭 吧 笆 八 疤 巴 拔 跋 靶 把 4 比 鄙 笔 彼 碧 蓖 蔽 毕 毙 毖 5 耙 坝 霸 罢 爸 白 柏 百 摆 佰 5 币 庇 痹 闭 敝 弊 必 辟 壁 臂 6 败 拜 稗 斑 班 搬 扳

14、 般 颁 板 6 避 陛 鞭 边 编 贬 扁 便 变 卞 7 版 扮 拌 伴 瓣 半 办 绊 邦 帮 7 辨 辩 辫 遍 标 彪 膘 表 鳖 憋 8 梆 榜 膀 绑 棒 磅 蚌 镑 傍 谤 8 别 瘪 彬 斌 濒 滨 宾 摈 兵 冰 9 苞 胞 包 褒 剥 9 柄 丙 秉 饼 炳 例例54 区 1 2 3 4 5 6 7 8 9 55 区 1 2 3 4 5 6 7 8 9 0 帧 症 郑 证 芝 枝 支 吱 蜘 0 住 注 祝 驻 抓 爪 拽 专 砖 1 知 肢 脂 汁 之 织 职 直 植 殖 1 转 撰 赚 篆 桩 庄 装 妆 撞 壮 2 执 值 侄 址 指 止 趾 只 旨 纸 2 状 椎

15、 锥 追 赘 坠 缀 谆 准 捉 3 志 挚 掷 至 致 置 帜 峙 制 智 3 拙 卓 桌 琢 茁 酌 啄 着 灼 浊 4 秩 稚 质 炙 痔 滞 治 窒 中 盅 4 兹 咨 资 姿 滋 淄 孜 紫 仔 籽 5 忠 钟 衷 终 种 肿 重 仲 众 舟 5 滓 子 自 渍 字 鬃 棕 踪 宗 综 6 周 州 洲 诌 粥 轴 肘 帚 咒 皱 6 总 纵 邹 走 奏 揍 租 足 卒 族 7 宙 昼 骤 珠 株 蛛 朱 猪 诸 诛 7 祖 诅 阻 组 钻 纂 嘴 醉 最 罪 8 逐 竹 烛 煮 拄 瞩 嘱 主 著 柱 8 尊 遵 昨 左 佐 柞 做 作 坐 座 9 助 蛀 贮 铸 筑 9 例例56

16、区 1 2 3 4 5 6 7 8 9 57 区 1 2 3 4 5 6 7 8 9 0 亍 丌 兀 丐 廿 卅 丕 亘 丞 0 佟 佗 伲 伽 佶 佴 侑 侉 侃 1 鬲 孬 噩 丨 禺 丿 匕 乇 夭 爻 1 侏 佾 佻 侪 佼 侬 侔 俦 俨 俪 2 卮 氐 囟 胤 馗 毓 睾 鼗 丶 亟 2 俅 俚 俣 俜 俑 俟 俸 倩 偌 俳 3 鼐 乜 乩 亓 芈 孛 啬 嘏 仄 厍 3 倬 倏 倮 倭 俾 倜 倌 倥 倨 偾 4 厝 厣 厥 厮 靥 赝 匚 叵 匦 匮 4 偃 偕 偈 偎 偬 偻 傥 傧 傩 傺 5 匾 赜 卦 卣 刂 刈 刎 刭 刳 刿 5 僖 儆 僭 僬 僦 僮 儇 儋 仝

17、 氽 6 剀 剌 剞 剡 剜 蒯 剽 劂 劁 劐 6 佘 佥 俎 龠 汆 籴 兮 巽 黉 馘 7 劓 冂 罔 亻 仃 仉 仂 仨 仡 仫 7 冁 夔 勹 匍 訇 匐 凫 夙 兕 亠 8 仞 伛 仳 伢 佤 仵 伥 伧 伉 伫 8 兖 亳 衮 袤 亵 脔 裒 禀 嬴 蠃 9 佞 佧 攸 佚 佝 9 羸 冫 冱 冽 冼 例例86 区 1 2 3 4 5 6 7 8 9 87 区 1 2 3 4 5 6 7 8 9 0 觥 觫 觯 訾 謦 靓 雩 雳 雯 0 鳌 鳍 鳎 鳏 鳐 鳓 鳔 鳕 鳗 1 霆 霁 霈 霏 霎 霪 霭 霰 霾 龀 1 鳘 鳙 鳜 鳝 鳟 鳢 靼 鞅 鞑 鞒 2 龃 龅 龆 龇

18、 龈 龉 龊 龌 黾 鼋 2 鞔 鞯 鞫 鞣 鞲 鞴 骱 骰 骷 鹘 3 鼍 隹 隼 隽 雎 雒 瞿 雠 銎 銮 3 骶 骺 骼 髁 髀 髅 髂 髋 髌 髑 4 鋈 錾 鍪 鏊 鎏 鐾 鑫 鱿 鲂 鲅 4 魅 魃 魇 魉 魈 魍 魑 飨 餍 餮 5 鲆 鲇 鲈 稣 鲋 鲎 鲐 鲑 鲒 鲔 5 饕 饔 髟 髡 髦 髯 髫 髻 髭 髹 6 鲕 鲚 鲛 鲞 鲟 鲠 鲡 鲢 鲣 鲥 6 鬈 鬏 鬓 鬟 鬣 麽 麾 縻 麂 麇 7 鲦 鲧 鲨 鲩 鲫 鲭 鲮 鲰 鲱 鲲 7 麈 麋 麒 鏖 麝 麟 黛 黜 黝 黠 8 鲳 鲴 鲵 鲶 鲷 鲺 鲻 鲼 鲽 鳄 8 黟 黢 黩 黧 黥 黪 黯 鼢 鼬 鼯 9

19、 鳅 鳆 鳇 鳊 鳋 9 鼹 鼷 鼽 鼾 齄 国标、区位、国标、区位、“准国标准国标”、机内码、机内码94:美标中形象码的总数,33-126 汉字区、位码各加上32,就会与美标形象码的范围重合,称为该字的“国标码”,与其相对应的两个美标符号,为该字的“国标符” 如何区分国标符与美标符:国标码的两个数字各加上128,称“准国标”或“机内码”机内码=(区位码)H + 8080H +2020HBIG-5BIG-5 Big5编码是台湾地区信息业常用的汉字编码字符集的一种代码空间,可直接用作处理码。 台湾、香港、澳门等地使用 取码范围: 高位:0 x81-0 xfe 低位:0 x40-0 x70,0 x

20、a1-0 xfe Big5编码空间在一个94*157的矩阵中。Big5有94个区,每个区有157个位,因此最多可以容纳14758个码元。 Big5中收录了13494个字符(其中,13053个汉字和441个非汉字图形字符)。ISO/IEC 10646ISO/IEC 10646 一个国际标准编号,国际标准化组织(ISO)1993年正式颁布 英文全称:Information technology - Universal Multiple - Octet Coded Character Set,简称UCS 中文全称:信息技术-通用多八位编码字符集,亦称大字符集 宗旨:全球所有文种统一编码Unicode

21、Unicode英文Universal Code的缩略语统一编码是对国际标准ISO/IEC 10646编码的一种称谓是一个企业联盟集团的名称,由美国的HP、Microsoft、IBM、Apple等几家知名的大型计算机企业所组成,成立该集团的宗旨就是要推进多文种的统一编码就内容而言,Unicode和ISO/IEC 10646是一致的,并行的ISO10646/UnicodeISO10646/UnicodeISO10646的第0群组第0字面(群和面的值都为00h)称为基本多语种文字面(Basic Multi-lingual Plane, BMP),其编码字元与Unicode相同。ISO10646的BM

22、P和Unicode的编码字符。ISO/IEC 10646中中CJK汉字组成汉字组成 CJK统一编码汉字(20902) CJK扩充集A(6585) CJK扩充集B(4万-)ISO 10646/UnicodeISO 10646/Unicode的实现及其重要意义的实现及其重要意义 在全球范围内建立起实时、无障碍的信息交换模式推动了汉字典籍的数字化为数字化图书馆的建立铺平了道路为弘扬汉字文化提供了舞台Single Binary技术的诞生:同一套基本程序用于多个语言环境的技术使汉字关联活起来:正-异关联、中-日关联、繁-简关联,正-讹关联以及古今、新旧字形关联GBKGBK汉字内码扩展规范,Rules/Specifications defining the extensions of internal codes for Chinese ideograms为了推进Unicode的实施,同时也是为了向下兼容,由电子部与国家技术监督局联合颁布 在保持GB2312原貌的基础上,将其字汇扩充与ISO 10646中的CJK等量,同时也包容了台湾的工业标准Big5码汉字,此外还为用户留了1894个码位的自定义区 2字节汉字编码 在内码上兼容GB2312-80 在字汇上兼容GB13000/ISO10646 是GB2312向GB13000过渡的中间代码 收录21886个汉字和符号GB18030-20

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论