版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
自然语言和计算机的映射字符集和编码格式计算机中储存的信息都是用二进制数表示的。英文、汉字等字符是二进制数转换之后的结果。把文字转换成二进制,称为“编码”;反之,把二进制转换成文字显示出来,称为“解码”。具体的对应关系,是早期的计算机从业者(科学家)定义的。编码、解码字符集:一系列文字、符号的集合。例如:A~Z,大写字母集;0~1,阿拉伯数字集;
所有的汉字,中文集;字符编码:一套规则。将字符集映射成二进制(计算机可识别)。若要被计算机识别,每个字符集都必须至少有一套字符编码。字符集、字符编码字符集编码规则&编码方案计算机通过告诉ASCII字符集、GB2312字符集、BIG5字符集、GB18030字符集
通常使用ANSI编码。Unicode字符集
通常使用UTF-xx编码。常见字符集ASCII(American
Standard
Codefor
Information
Interchange,美国信息交换标准代码)最早诞生的字符集。ASCII字符集主要包括:
控制字符(回车键、退格、换行键等);
可显示字符(英文大小写字符、阿拉伯数字和西文符号)。ASCII编码:
使用7位(bits)表示一个字符,共128字符;
ASCII扩展字符集使用8位(bits)表示一个字符,共256字符。为了表示更多的欧洲常用字符。ASCII字符集&编码ASCII字符集编码规则太少了,不够用。只能显示有限的128个字符,勉强可以显示应用,但是连一些英语中有重音的外来词都不能显示。中文怎么显示?GB2312,中国国家标准简体中文字符集,全称《信息交换用汉字编码字符集·基本集》ASCII字符集的不足编码规则:一个小于127的字符的意义与原来相同,但两个大于127的字符连在一起时,就表示一个汉字。前面的一个字节(高字节)从0xA1用到0xF7,后面一个字节(低字节)从0xA1到0xFE。这样我们就可以组合出大约7000多个字符了。够用么?够用,甚至还把数学符号、罗马希腊的字母、日文的假名都编进去了GB2312编码规则由中国国家标准总局发布,1981年5月1日实施。收录了6763个简体汉字,基本满足了汉字的计算机处理需要,它所收录的汉字已经覆盖中国大陆99.75%的使用频率。在设计的时候,专家们先考虑编码,然后才决定把哪些文字放进去。GB2312字符集对于人名、古汉语等方面出现的罕用字,GB2312不能处理。如中国前总理朱镕基的“镕”字。如繁体、日语、朝鲜语汉字等。这导致了后来GBK及GB18030汉字字符集的出现。GB2312没有覆盖的0.25%世界各地的编码方案的不兼容问题,严重影响到了各地区的(计算机行业的)交流。为了解决这个问题Unicode诞生了,目的是能用统一的编码系统,表达任意语言。Unicode字符集在不断扩展,目前已经包含了超过十万个字符。目前的Unicode由一个非营利性组织负责维护,目标是将已有的编码方案全部由Unicode取代。革命性的Unicode使用4字节的数字来表达每个字母、符号。每个数字代表唯一的至少在某种语言中使用的符号。被几种语言共用的字符通常使用相同的数字来编码。每个字符对应一个数字,每个数字对应一个字符。即不存在二义性。Unicode编码规则UTF-32/UTF-16/UTF-8UTF-32,直接将4字节的数据作为编码。太浪费空间。UTF-16,为了减少编码空间,用一种特殊的算法将“4字节”重新编码称为2字节。由于算法太诡异,所以使用不多。UTF-8,是一种可变长度字符编码。目前最常用的编码方案。Unicode编码方案ASCII字符只需一个字节编码(Unicode范围由U+0000至U+007F)。带有附加符号的拉丁文、希腊文、西里尔字母、亚美尼亚语、希伯来文、阿拉伯文、叙利亚文及它拿字母则需要二个字节编码(Unicode范围由U+0080至U+07FF)。其他基本多文种平面(BMP)中的字符(这包含了大部分常用字)使用三个字节编码。其他极少使用的Unicode辅助平面的字符使用四字节编码。UTF-8编码方案科学家们先设计字符编码规则,然后再填入字符集。在ASCII体系下,为了显示汉字,扩展了GB2312、GBK等编码。Unicode字符集是全世界所有语言、符号的集合
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度国产打印机节能环保认证采购合同
- 重庆2025年重庆市北碚区基层医疗卫生事业单位招聘14人笔试历年参考题库附带答案详解
- 酒泉2025年甘肃酒泉市公安局招聘留置看护岗位辅警60人笔试历年参考题库附带答案详解
- 贵州2025年贵州省文化和旅游厅直属事业单位招聘12人笔试历年参考题库附带答案详解
- 玉林2025年广西玉林市第一人民医院招聘24人笔试历年参考题库附带答案详解
- 漯河2024年河南漯河市立医院(漯河市骨科医院漯河医专二附院)招聘高层次人才笔试历年参考题库附带答案详解
- 海口海南海口市琼山区教育局招聘2025届师范毕业生笔试历年参考题库附带答案详解
- 河北2024年中国工商银行河北分行乡村振兴专项招聘20人笔试历年参考题库附带答案详解
- 2025年中国太阳能十字路口单黄闪警示灯市场调查研究报告
- 2025年艾纳素项目可行性研究报告
- 光缆线路施工安全协议书范本
- 成本合约规划培训
- 山东省济宁市2025届高三历史一轮复习高考仿真试卷 含答案
- 五年级数学(小数乘法)计算题专项练习及答案
- 交通法规教育课件
- 产前诊断室护理工作总结
- 6S管理知识培训课件
- 小学校长任期五年工作目标(2024年-2029年)
- 医院培训课件:《猴痘流行病学特点及中国大陆首例猴痘病例调查处置》
- 氢气-安全技术说明书MSDS
- 产科护士临床思维能力培养
评论
0/150
提交评论