第五章中文信息处理

上传人：d*** IP属地：江西上传时间：2022-03-23 格式：PPT 页数：42 大小：1.12MB 积分：20 举报 版权申诉

已阅读5页，还剩37页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、第五章第五章中文信息处理中文信息处理5.25.2 中文信息在计算机内的表示中文信息在计算机内的表示在计算机内表示中文信息的最早在IBM、富士通、日立等计算机生产厂家的计算机中开始，但采用的编码形式互不兼容。为了能使汉字能够在计算机中通行，国际标准组织（ISO）、国际电子电气工程师协会（IEEE）以及各个使用汉字的国家和地区，在计算机技术发展中，都制定了各种各样的汉字编码字符集。 ISO/IEC 2022定义了七位代码和八位代码的空间及其代码空间扩充的技术。绝大多数计算机系统所采用的字符集，都是以ISO/IEC 2022为基础的。一般汉字在计算机内部的表示都是通过扩充编码长度实现的。汉字的几种

2、通行名称汉字的几种通行名称 Hanzi,Hantsu,汉字 Ideographic character,表意字符，中文字符 Kanji-日文中的叫法 Hanja-朝鲜文中的叫法 CJK-中日韩通用字符集 UnihanISO/IEC 2022ISO/IEC 2022单八位代码空间图单八位代码空间图 ISO/IEC 2022ISO/IEC 2022单八位代码空间图单八位代码空间图 00-31（十六进制为00H-1FH）为第一个控制字符集C0H的编码区域 32（十六进制为20H）为Space 127（十六进制为7FH）为DELETE符; 128-160（十六进制为80H-A0H）为第二个控制字符集C

3、1的编码区域 33-126 ( GL ) 和161-254 (GR) 则是两个图形字符的编码区域汉字在汉字在ISO/IEC 2022ISO/IEC 2022空间中的位置空间中的位置 ISO/IEC 2022ISO/IEC 2022的体系结构特点的体系结构特点代码空间狭小，凡是C0, C1控制字符相关的空间都回避不用；汉字编码没有利用80 (十六进制) 以上的空间。按国家/地区分别编码。需要一整套复杂的指明/调用的控制功能来区分代码空间中的字汇。汉字代码汉字代码汉字内码是真实世界的汉字信息在计算机系统中的最基本表示。根据汉字信息在计算机内部使用的目的和存储的方式，汉字代码有各种不同的形

4、式和称谓。最常使用的有交换码和内码等。汉字交换码汉字交换码汉字交换码是用于信息交换的汉字代码。可以用双字节、3字节和4字节表示。汉字交换码一般不能直接用于信息处理。例如，在GB2312中，“码”字的交换码为十六进制的42h/6Bh。无法与ASCII码的“Bk”相区别。在实际使用中，交换码必须转换为机内码。但是在国际标准ISO/IEC 10646和Unicode中，交换码与处理码可以是一致的，因为此时的ASCII码也采用双字节表示。汉字区位码汉字区位码汉字区位码是汉字交换码的另一种表示形式。在GB2312中，汉字交换码所占的方阵大小为9494，若纵向定义为区号（取值范围为十进制

5、数的0-94），横向定义为位号（取值范围为十进制数的0-94），则两个坐标明确了一个汉字的位置。区号和位号的编号都是从1开始，到94结束。例如，在GB2312-80中，“ 码”字所在的区号为“34”，位号为“75”，故其区位码为“3475”。GB2312-80汉字编码国标交换码: 问题：信息通信中，汉字的区位码与通信使用的控制码（00H1FH）发生冲突。解决方案：为了避免汉字区位码与通信控制码的冲突，ISO2022规定，每个汉字的区号和位号必须分别加上32（即二进制0010 0000）。经过这样处理得到的代码称为汉字的“国标交换码”（简称交换码）。因此，“大”字的交换码是: 00110

6、100 01110011。汉字区位码汉字区位码汉字机内码汉字机内码用于信息处理的汉字代码，也称汉字处理码。汉字的内码长度可以不同，通常汉字内码是双字节。对于单字节操作系统内核，汉字代码为了与ASCII码相区别，往往把两字节（至少把第一个字节）的最高位（Bit 7）置为1。GB2312-80汉字编码机内码：问题：文本中的汉字与西文字符经常是混合在一起使用的，汉字信息如不予以特别的标识，它与单字节的标准ASCII码就会混淆不清。解决方法：把一个汉字看作两个扩展ASCII码，使表示GB2312汉字的两个字节的最高位(b7)都等于“1”。这种高位为l的双字节(16位)汉字编码就称为GB23

7、12汉字的“机内码”，又称内码。如：“大”字的内码是：10110100 11110011（B4F3）汉字机内码汉字机内码交换码、交换码、区位码和内码关系区位码和内码关系在GB2312-80中，交换码、区位码、处理码之间存在着简单的转化关系。设交换码为JH（J为高位，H为低位，为十六进数），区位码为QW（Q为区号，W为位号，为十进制数），处理码为CL（C为高位，L为低位，为十六进制数），则：J=Q+32 -再转换为十六进制数H=W+32 -再转换为十六进制数C=J+80HL=H+80H汉字编码字符集汉字编码字符集按照一组无歧义的规则而定义的汉字字汇的有序集合。其中每一个汉字与它的代码表示之间

8、具有一一对应关系。在信息处理技术中汉字编码字符集用于汉字信息的表示、交换、传输、处理、存储、输入及显示。在国际标准化组织ISO的定义中，“无歧义的规则”很重要，制定这些规则的目的是为了确保编码的唯一性，避免重码。汉字编码的关系汉字编码的关系GBK95GB231280GB1234590GFF00FF00 FF00FF00 FF00FF27484汉字20902汉字6763汉字2个扩充的汉字字符集 GB2312GBK-95GB18030-2000虚线外的汉字，4字节表示常用汉字编码字符集常用汉字编码字符集主要汉字主要汉字( (文字文字) )编码标准与规范编码标准与规范 AS

9、CII(英文) GB2312 GBK GB13000 GB18030 BIG5 Shift_JIS ISO/IEC 10646 UnicodeASCIIASCII码码美国信息交换标准编码(“美标”) 用从0到127的128个数字来代表信息的规范编码包括33个控制码，一个空格码，和94个形象码形象码中包括了英文大小写字母，阿拉伯数字，标点符号等国际上大部分电脑的通用编码国标、区位国标、区位国标：中华人民共和国国家标准信息交换用汉字编码 GB 2312 80(信息交换用汉字编码字符集基本集（又称为GB0） GB 13000 93(信息技术通用多八位编码字符集（UCS）第一部分) GB 1

10、8030-2000 (信息技术信息交换用汉字编码字符集基本集的扩充 )国标(GB2312-80)表（基本表）把七千余汉字、以及标点符号、外文字母等，排成一个94行、94列的方阵每一横行叫一个“区”，每个区有九十四个“位”一个汉字在方阵中的坐标，称为该字的“区位码”例如“中”字在方阵中处于第区第位，它的区位码就是5448区位码表区位码表区位码来源于信息交换用汉字编码字符集（基本集）国家标准(GB2312-80)，该标准收汉字6763个，第一级3755个，位于16至55区，55区的最后5个字符没有定义；第二级3008个，位于56至87区第一级汉字按照汉语拼音字母顺序排列，同音字以笔形顺序横（一

11、）、直（丨）、撇（丿）、点（丶）、折（乙）为序。起笔相同按第二笔，依次类推。第二级汉字按部首排序，本标准采用的部首与一般字典用的部首基本相同，略有改变。部首次序及同部首字按笔划数排列，同笔划数的字以笔形顺序横（一）、直（丨）、撇（丿）、点（丶）、折（乙）为序。起笔相同按第二笔，依次类推。查表时先查区号，再查行、列，例如：“、”是0102，“蔼”是1610。区位码表区位码表( (GB2312-80)GB2312-80)1-9区：682个符号（2、4、5、6、7、8、9区有空位164个）包括：一般符号（间隔、标点、运算、制表）202个序号60个数字22个希腊字母48个俄文字母66个汉语

12、拼音26个拉丁字母52个日文假名169个汉语注音37个10-15区：空88-94区：空16-87区：6763个汉字 16-55区：一级汉字3755个 55区有5个空位，从89-94 56-87区：二级汉字3008个一级汉字按照音、笔形排列二级汉字按照部首排列例例01 区 1 2 3 4 5 6 7 8 9 02 区 1 2 3 4 5 6 7 8 9 0 、。 0 1 “ ” 1 2 2 3 【】 3 4 4 5 5 6 6 7 7 8 8 9 9 例例09 区 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 例例16区 1 2 3 4 5 6 7 8

13、 9 17区 1 2 3 4 5 6 7 8 9 0 啊阿埃挨哎唉哀皑癌 0 薄雹保堡饱宝抱报暴 1 蔼矮艾碍爱隘鞍氨安俺 1 豹鲍爆杯碑悲卑北辈背 2 按暗岸胺案肮昂盎凹敖 2 贝钡倍狈备惫焙被奔苯 3 熬翱袄傲奥懊澳芭捌扒 3 本笨崩绷甭泵蹦迸逼鼻 4 叭吧笆八疤巴拔跋靶把 4 比鄙笔彼碧蓖蔽毕毙毖 5 耙坝霸罢爸白柏百摆佰 5 币庇痹闭敝弊必辟壁臂 6 败拜稗斑班搬扳

14、般颁板 6 避陛鞭边编贬扁便变卞 7 版扮拌伴瓣半办绊邦帮 7 辨辩辫遍标彪膘表鳖憋 8 梆榜膀绑棒磅蚌镑傍谤 8 别瘪彬斌濒滨宾摈兵冰 9 苞胞包褒剥 9 柄丙秉饼炳例例54 区 1 2 3 4 5 6 7 8 9 55 区 1 2 3 4 5 6 7 8 9 0 帧症郑证芝枝支吱蜘 0 住注祝驻抓爪拽专砖 1 知肢脂汁之织职直植殖 1 转撰赚篆桩庄装妆撞壮 2 执值侄址指止趾只旨纸 2 状椎

15、锥追赘坠缀谆准捉 3 志挚掷至致置帜峙制智 3 拙卓桌琢茁酌啄着灼浊 4 秩稚质炙痔滞治窒中盅 4 兹咨资姿滋淄孜紫仔籽 5 忠钟衷终种肿重仲众舟 5 滓子自渍字鬃棕踪宗综 6 周州洲诌粥轴肘帚咒皱 6 总纵邹走奏揍租足卒族 7 宙昼骤珠株蛛朱猪诸诛 7 祖诅阻组钻纂嘴醉最罪 8 逐竹烛煮拄瞩嘱主著柱 8 尊遵昨左佐柞做作坐座 9 助蛀贮铸筑 9 例例56

16、区 1 2 3 4 5 6 7 8 9 57 区 1 2 3 4 5 6 7 8 9 0 亍丌兀丐廿卅丕亘丞 0 佟佗伲伽佶佴侑侉侃 1 鬲孬噩丨禺丿匕乇夭爻 1 侏佾佻侪佼侬侔俦俨俪 2 卮氐囟胤馗毓睾鼗丶亟 2 俅俚俣俜俑俟俸倩偌俳 3 鼐乜乩亓芈孛啬嘏仄厍 3 倬倏倮倭俾倜倌倥倨偾 4 厝厣厥厮靥赝匚叵匦匮 4 偃偕偈偎偬偻傥傧傩傺 5 匾赜卦卣刂刈刎刭刳刿 5 僖儆僭僬僦僮儇儋仝

17、氽 6 剀剌剞剡剜蒯剽劂劁劐 6 佘佥俎龠汆籴兮巽黉馘 7 劓冂罔亻仃仉仂仨仡仫 7 冁夔勹匍訇匐凫夙兕亠 8 仞伛仳伢佤仵伥伧伉伫 8 兖亳衮袤亵脔裒禀嬴蠃 9 佞佧攸佚佝 9 羸冫冱冽冼例例86 区 1 2 3 4 5 6 7 8 9 87 区 1 2 3 4 5 6 7 8 9 0 觥觫觯訾謦靓雩雳雯 0 鳌鳍鳎鳏鳐鳓鳔鳕鳗 1 霆霁霈霏霎霪霭霰霾龀 1 鳘鳙鳜鳝鳟鳢靼鞅鞑鞒 2 龃龅龆龇

18、龈龉龊龌黾鼋 2 鞔鞯鞫鞣鞲鞴骱骰骷鹘 3 鼍隹隼隽雎雒瞿雠銎銮 3 骶骺骼髁髀髅髂髋髌髑 4 鋈錾鍪鏊鎏鐾鑫鱿鲂鲅 4 魅魃魇魉魈魍魑飨餍餮 5 鲆鲇鲈稣鲋鲎鲐鲑鲒鲔 5 饕饔髟髡髦髯髫髻髭髹 6 鲕鲚鲛鲞鲟鲠鲡鲢鲣鲥 6 鬈鬏鬓鬟鬣麽麾縻麂麇 7 鲦鲧鲨鲩鲫鲭鲮鲰鲱鲲 7 麈麋麒鏖麝麟黛黜黝黠 8 鲳鲴鲵鲶鲷鲺鲻鲼鲽鳄 8 黟黢黩黧黥黪黯鼢鼬鼯 9

19、鳅鳆鳇鳊鳋 9 鼹鼷鼽鼾齄国标、区位、国标、区位、“准国标准国标”、机内码、机内码94:美标中形象码的总数,33-126 汉字区、位码各加上32，就会与美标形象码的范围重合,称为该字的“国标码”,与其相对应的两个美标符号，为该字的“国标符” 如何区分国标符与美标符：国标码的两个数字各加上128，称“准国标”或“机内码”机内码=（区位码）H + 8080H +2020HBIG-5BIG-5 Big5编码是台湾地区信息业常用的汉字编码字符集的一种代码空间，可直接用作处理码。台湾、香港、澳门等地使用取码范围：高位：0 x81-0 xfe 低位：0 x40-0 x70,0 x

20、a1-0 xfe Big5编码空间在一个94*157的矩阵中。Big5有94个区，每个区有157个位，因此最多可以容纳14758个码元。 Big5中收录了13494个字符（其中，13053个汉字和441个非汉字图形字符）。ISO/IEC 10646ISO/IEC 10646 一个国际标准编号,国际标准化组织（ISO）1993年正式颁布英文全称：Information technology - Universal Multiple - Octet Coded Character Set,简称UCS 中文全称：信息技术-通用多八位编码字符集，亦称大字符集宗旨:全球所有文种统一编码Unicode

21、Unicode英文Universal Code的缩略语统一编码是对国际标准ISO/IEC 10646编码的一种称谓是一个企业联盟集团的名称,由美国的HP、Microsoft、IBM、Apple等几家知名的大型计算机企业所组成,成立该集团的宗旨就是要推进多文种的统一编码就内容而言，Unicode和ISO/IEC 10646是一致的，并行的ISO10646/UnicodeISO10646/UnicodeISO10646的第0群组第0字面（群和面的值都为00h）称为基本多语种文字面（Basic Multi-lingual Plane, BMP），其编码字元与Unicode相同。ISO10646的BM

22、P和Unicode的编码字符。ISO/IEC 10646中中CJK汉字组成汉字组成 CJK统一编码汉字（20902） CJK扩充集A(6585) CJK扩充集B(4万-)ISO 10646/UnicodeISO 10646/Unicode的实现及其重要意义的实现及其重要意义在全球范围内建立起实时、无障碍的信息交换模式推动了汉字典籍的数字化为数字化图书馆的建立铺平了道路为弘扬汉字文化提供了舞台Single Binary技术的诞生：同一套基本程序用于多个语言环境的技术使汉字关联活起来：正-异关联、中-日关联、繁-简关联，正-讹关联以及古今、新旧字形关联GBKGBK汉字内码扩展规范，Rules/Specifications defining the extensions of internal codes for Chinese ideograms为了推进Unicode的实施，同时也是为了向下兼容,由电子部与国家技术监督局联合颁布在保持GB2312原貌的基础上，将其字汇扩充与ISO 10646中的CJK等量，同时也包容了台湾的工业标准Big5码汉字，此外还为用户留了1894个码位的自定义区 2字节汉字编码在内码上兼容GB2312-80 在字汇上兼容GB13000/ISO10646 是GB2312向GB13000过渡的中间代码收录21886个汉字和符号GB18030-20

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第五章中文信息处理

文档简介

温馨提示

最新文档

评论

第五章中文信息处理

文档简介

温馨提示

最新文档

评论

相关文档