下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、常用 ASCII 码对照表字符ASCII 码字符ASCII 码十进制二进制十六进制十进制二进制十六进制NUL(空)000000000M7710011014D换行100001010AN7810011104E空格32010000020O7910011114F!(感叹号)33010000121P8010100005034010001022Q81101000151#35010001123R82101001052$36010010024S83101001153%37010010125T84101010054&38010011026U85101010155(引号)39010011127V86101
2、011056(40010100028W87101011157)41010100129X88101100058*4201010102AY89101100159+4301010112BZ9010110105A4401011002C9110110115B-(减号)4501011012D9210111005C4601011102E9310111015D/ (除号)4701011112FA9410111105E048011000030-9510111115F149011000131a97110000161250011001032b98110001062351011001133c9911000116345
3、2011010034d100110010064553011010135e101110010165654011011036f102110011066755011011137g103110011167856011100038h104110100068957011100139i1051101001695801110103Aj10611010106A5901110113Bk10711010116B6201111103En11011011106E6301111113Fo11111011116F64100000040p112111000070A65100000141q113111000171B661000
4、01042r114111001072C67100001143s115111001173D68100010044t116111010074E69100010145u117111010175F70100011046v118111011076G71100011147w119111011177H72100100048x120111100078I73100100149y121111100179J7410010104Az12211110107AK7510010114B12311110117BL7610011004C12511111017D字符ASCII 码字符ASCII 码十进制二进制十六进制十进制二进制
5、十六进制1. ASCII 码bit )有 0 和 1两种状态, 因此八个二进制位就可以组合岀256 种状态,这被称为一个字节(byte )。也就是说,一个字节一共可以用来表示256 种不同的状态,每一个状态对应一个符号,就是 256 个符号,从 0000000 到。上个世纪 60 年代,美国制定了一套字符编码,对英语字符与二进制位之间的关系,做了统一规定。这被称为 ASCII 码,一直沿用至今。ASCII 码一共规定了 128 个字符的编码,比如空格“SPACE 是 32(十进制的 32,用二进制表示就是 00100000),大写的字母 A 是 65(二进制 01000001 ) 。这 128
6、 个符号(包括 32 个不能打印岀来的控制符号),只占用了一个字节的后面 7 位,最前面的 1 位统一规定为 0。2、非 ASCII 编码英语用 128 个符号编码就够了,但是用来表示其他语言,128 个符号是不够的。 比如,在法语中,字母上方有注音符号,它就无法用ASCII 码表示。于是,一些欧洲国家就决定,利用字节中闲置的最高位编入新的符号。比如,法语中的e的编码为 130 (二进制)。这样一来,这些欧洲国家使用的编码体系,可以表示最多256 个符号。但是,这里又岀现了新的问题。不同的国家有不同的字母,因此,哪怕它们都使用 256 个符号的编码方式,代表的字母却不一样。比如,130 在法语
7、编码中代表了0,在希伯来语编码中却代表了字母 Gimel (),在俄语编码中又会代表另一个符号。但是不管怎样,所有这些编码方式中, 0 127 表示的符号是一样的,不一样的只是128 255 的这一段。至于亚洲国家的文字,使用的符号就更多了,汉字就多达10 万左右。一个字节只能表示256 种符号,肯定是不够的,就必须使用多个字节表达一个符号。比如,简体中文常见的编码方式是GB2312,使用两个字节表示一个汉字,所以理论上最多可以表示256x256=65536 个符号。正如上一节所说, 世界上存在着多种编码方式, 同一个二进制数字可以被解释成不同的符号。因此,要想打开一个文本文件,就必须知道它的
8、编码方式,否则用错误的编码方式解读,就会岀现乱码。为什么电子邮件常常岀现乱码就是因为发信人和收信人使用的编码方式不一样。解释:同一个文本文件,假设内容是用英语写的,在英语编码的情况下,每个字符会和一个二进制数对应(如 00101000 类似),然后存到计算机中,这时把这个英语文件发给一个俄语国家的用户,计算机传输的是二进制流,即0101 之类的数据,到了俄语用户这方,需要有它的俄语编码方式进行解码,把每个二进制流转为字符显示,由于俄语编码表中对每串二进制流数据的解释方式不同,同一个数据如 00101000 在英语中可能代表 A,而在俄语中则代表 B,这样就会产生乱码,这是我个人的理解。GB23
9、12 编码、日文编码等也是非unicode 编码,是要通过转换表( codepage )转换成 unicode编码的,要不怎么显示岀来呢可以想象,如果有一种编码,将世界上所有的符号都纳入其中。每一个符号都给予一个独一无二的编码,那么乱码问题就会消失。这就是Uni code,就像它的名字都表示的,这是一种所有符号的编码。在计算机内部,所有的信息最终都表示为一个二进制的字符串。每一个二进制位(Uni code 当然是一个很大的集合,现在的规模可以容纳100 多万个符号。每个符号的编码都不一样,比如,U+0639 表示阿拉伯字母 Ain,U+0041 表示英语的大写字母 A, U+4E25 表示汉字
10、“严”。 具体的符号对应表,可以查询,或者专门的 汉字对应表。4. Un icode 的问题需要注意的是,Uni code 只是一个符号集,只是一种规范、标准,它只规定了符号的二进制代码, 却没有规定这个二进制代码应该如何存储在计算机上。比如,汉字“严”的 uni code 是十六进制数 4E25,转换成二进制数足足有 15 位(01),也就是 说这个符号的表示至少需要 2 个字节。表示其他更大的符号,可能需要3 个字节或者 4 个字节,甚至更多。这里就有两个严重的问题,第一个问题是,如何才能区别 uni code 和 ascii 计算机怎么知道三个 字节表示一个符号,而不是分别表示三个符号呢
11、第二个问题是,我们已经知道,英文字母只用一个字节表示就够了, 如果 uni code 统一规定,每个符号用三个或四个字节表示,那么每个英文字母前都必然有二到三个字节是0,这对于存储来说是极大的浪费,文本文件的大小会因此大岀二三倍,这是无法接受的。它们造成的结果是:1)岀现了 uni code 的多种存储方式,也就是说有许多种不同的二进制格式, 可以用来表示 unicode。2) unicode 在很长一段时间内无法推广,直到互联网的岀现。互联网的普及,强烈要求岀现一种统一的编码方式。UTF-8 就是在互联网上使用最广的一种uni code 的实现方式。其他实现方式还包括UTF-16 和 UTF
12、-32,不过在互联网上基本不用。重复一遍,这里的关系是,UTF-8 是 Uni code 的实现方式之一,它规定了字符如何在计算机中存储、传输等。UTF-8 最大的一个特点,就是它是一种变长的编码方式。它可以使用 14 个字节表示一个符号,根据不同的符号而变化字节长度。UTF-8 的编码规则很简单,只有二条:1) 对于单字节的符号,字节的第一位设为0,后面 7 位为这个符号的 uni code 码。因此对于英 语字母,UTF-8 编码和 ASCII 码是相同的。2) 对于 n 字节的符号(n1),第一个字节的前 n 位都设为 1,第 n+1 位设为 0,后面字节的前 两位一律设为 10。剩下的
13、没有提及的二进制位,全部为这个符号的uni code 码。下表总结了编码规则,字母x 表示可用编码的位。Unicode 符号范围| UTF-8 编码方式(十六进制)|(二进制)0000 0000-0000 007F | Oxxxxxxx0000 0080-0000 07FF | 110 xxxxx 10 xxxxxx0000 0800-0000 FFFF | 1110 xxxx 10 xxxxxx 10 xxxxxx0001 0000-0010 FFFF | 11110 xxx 10 xxxxxx 10 xxxxxx 10 xxxxxx下面,还是以汉字“严”为例,演示如何实现UTF-8 编码。
14、已知“严”的 unicode 是 4E25 ( 01),根据上表,可以发现4E25 处在第三行的范围内(00000800-0000 FFFF ),因此“严”的 UTF-8 编码需要三个字节,即格式是“ 1110 xxxx 10 xxxxxx10 xxxxxx 。然后,从严的最后一个二进制位开始,依次从后向前填入格式中的x,多岀的位补 0。这样就得到了,“严”的UTF-8 编码是“10100101”,这是保存在计算机中的实际数据,转换成十六进制就是E4B8A5,转成十六进制的目的为了便于阅读。6. Unicode 与 UTF-8 之间的转换通过上一节的例子,可以看到“严”的Unicode 码是
15、4E25,UTF-8 编码是 E4B8A5,两者是不一样的。它们之间的转换可以通过程序实现。在 Windows 平台下,有一个最简单的转化方法,就是使用内置的记事本小程序。打开文件后,点击“文件”菜单中的“另存为”命令,会跳岀一个对话框,在最底部有一个“编码”的下拉条。里面有四个选项:ANSI, Unicode, Unicode big endian 和 UTF-8。1)ANSI 是默认的编码方式。对于英文文件是ASCII 编码,对于简体中文文件是GB2312 编码(只针对 Windows 简体中文版,如果是繁体中文版会采用Big5 码)。2)Uni code 编码指的是UCS-2 编码方式,
16、即直接用两个字节存入字符的Uni code 码。这个选项用的 little endian格式。3)Unicode big endian 编码与上一个选项相对应。我在下一节会解释 littleendian 和 big endian的涵义。4) UTF-8 编码,也就是上一节谈到的编码方法。选择完”编码方式“后,点击”保存“按钮,文件的编码方式就立刻转换好了。7. Little endian和 Big endian上一节已经提到, Unicode 码可以采用 UCS-2 格式直接存储。以汉字”严“为例,Unicode 码是4E25,需要用两个字节存储, 一个字节是 4E,另一个字节是 25o存储的
17、时候, 4E 在前, 25 在后, 就是 Big endian方式;25 在前,4E 在后,就是 Little endian 方式。那么很自然的,就会岀现一个问题:计算机怎么知道某一个文件到底采用Uni code 规范中定义,每一个文件的最前面分别加入一个表示编码顺序的字符,这个字符的名字叫做”零宽度非换行空格“( ZEROWIDTHNO-BREAKSPACE,用 FEFF 表示。这正好是两个字节, 而且 FF比 FE 大 1。如果一个文本文件的头两个字节是FEFF,就表示该文件采用大头方式;如果头两个字节是 FF FE,就表示该文件采用小头方式。8.实例下面,举一个实例。打开记事本程序,新建
18、一个文本文件,内容就是一个”严字,依次采用ANSI, Uni code,Unicode big endian和 UTF-8 编码方式保存。然后,用文本编辑软件UltraEdit中的”十六进制功能“,观察该文件的内部编码方式。1) ANSI:文件的编码就是两个字节“ D1 CF,这正是“严”的GB2312 编码,这也暗示 GB2312 是采用大头方式存储的。2) Uni code :编码是四个字节“ FF FE 25 4E”,其中“ FF FE”表明是小头方式存储,真正的编码是 4E25。3) Uni code big en dia n:编码是四个字节“ FE FF 4E 25 ,其中“ FE
19、FF”表明是大头方式存储。4) UTF-8 :编码是六个字节“ EF BB BF E4 B8 A5 ,前三个字节“ EF BB BF”表示这是UTF-8编码,后三个“ E4B8A5 就是“严”的具体编码,它的存储顺序与编码顺序是一致的。推荐这篇文章看一下:& varia nt=zh-c n#. 解决的问题:一、如何在中文系统中运行非Uni code 编码程序有很多意大利文版(除英文版)学习软件、百科全书等软件在中文系统上会岀现乱码,解决方法:Win dowsXP 内核是 Uni code 编码,支持多语种,对于 Un icode 编码的应用程序会正常显示原文(因为 windows 核心
20、是用 unicode 代码写的,所以不存在问题),但是,很多程序不是用Unicode编码写的,这时 WindowsXP 系统可以指定以特定的编码运行非Unicode 编码程序,中文版WindowsXP 默认的是“简体中文 GB2312。你只需在控制面板 -区域和语言选项-高级- 为非 Uni code程序的语言选择“意大利语”, 即可正确运行意大利文版的游戏程序。分析:我理解的流程是这样:程序 意大利语编码(转换表 codepage ) 解释成 uni code 识别 的编码(通过指定的转换表将非 Uni code 的字符编码转换为同一字符对应的系统内部使用的Uni code 编码)- 被系统
21、翻译成意大利文(因为每个uni code 编码对应了相应的意大利文字),便可以正常显示了。二、消除网页乱码哪一种方式编码网页乱码是浏览器对 HTML 网页解释时形成的,如果网页制作时编码为繁体big5,浏览器却以编码 gb2312 显示该网页,就会岀现乱码,因此只要你在浏览器中也以繁体 big5 显示该网页,就会消除乱码。打个比方有些像字典,繁体字得用繁体字典来查看, 然你看不懂。【解决办法】:在浏览器中选择“编码”菜单,事先为浏览器安装多语言支持包(例如在安装 IE 时要安装多语言支持包),这样当浏览网页岀现乱码时,即可手工更改查看此网页的编码方式,在浏览器中选择菜单栏下的“查看” / “编
22、码” / “自动选择” /简体中文(GB2312,如为繁体中文则选择“查看” / “编码” / “自动选择” /繁体中文(BIG5),其他语言依此类推,便可消除网页乱码现象。分析:因为繁体 big5 编码后的文件,每个文字对应一个二进制流(假设是 1212 对应繁这个字),当我们以编码 gb2312 显示该网页时,gb2312 编码会到表里去找 1212(二进制流不会变的)对应谁,肯定不再是 繁这个字了,当然显示的就不再是那个 繁字了,也就 会岀现乱码了。这样理解简单些,其实中间还要转换成同一字符对应的系统内部使用的Uni code编码,然后通过系统底层 uni code 编码还原成相应字符显
23、示岀来。推荐两个编码查询网站:1.2.非打印控制字符ASCII 表上的数字 0 -31 分配给了控制字符,用于控制像打印机等一些外围设备。例如,12 代表换页/新页功能。此命令指示打印机跳到下一页的开头。ASCII 非打印控制字符表十进制十六进制字符十进制十六进制字符0 00 空 16 10 数据链路转意17 11 设备控制 118 12 设备控制 219 13 设备控制 320 14 设备控制 45 05 查询 21 15 反确认6 06 确认 22 16 同步空闲7 07 震铃 23 17 传输块结束8 08 backspace 24 18 取消9 09 水平制表符 25 19 媒体结束1
24、0 0A 换行/新行 26 1A 替换11 0B 竖直制表符 27 1B 转意12 0C 换页/新页 28 1C 文件分隔符13 0D 回车 29 1D 组分隔符14 0E 移出 30 1E 记录分隔符15 0F 移入 31 1F 单元分隔符ASCII 打印字符数字 32 - 126 分配给了能在键盘上找到的字符,当您查看或打印文档时就会出现。数字 127代表 DELETE 命令。32 20 space 80 50 P简体字得用简体字典来查看,不1 01 头标开始2 02 正文开始3 03 正文结束4 04 传输结束ASCII 打印字符表十进制十六进制字符十进制卜六进制字符33 21 ! 81
25、 51 Q34 22 82 52 R35 23 # 83 53 S24 $ 8454 T25 % 85 55 U26 & 86 56 V27187 57 w28(88 58 X29)89 59 Y2A* 905A Z2B +915B2CJ925C2D-935D2E945EA2F /95 5F30 0 96 60 31 1 97 61 a32 2 98 62 b33 3 99 63 c34 4 100 64 d35 5 101 65 e36 6 102 66 f37 7 103 67 g38 8 104 68 h39 9 105 69 i3A : 106 6A j3B ; 107 6B
26、k3C 110 6E n3F 111 6F o40 112 70 p41 A 113 71 q42 B 114 72 r43 C 115 73 s363738394041424344454647484950515253545556575859606162636465666768 44 D 116 74 t69 45 E 117 75 u70 46 F 118 76 v71 47 G 119 77 w72 48 H 120 78 x73 49 I 121 79 y74 4A J 122 7A z75 4B K 123 7B 76 4C L 124 7C |77 4D M 125 7D 78 4E
27、 N 126 7E 79 4F O 127 7F DEL扩展 ASCII 打印字符扩展的 ASCII 字符满足了对更多字符的需求。扩展的 ASCII 包含 ASCII 字符(数字 0 - 32 显示在下图中),又增加了 128 个字符,总共是 256 更多的字符,许多语言还是包含无法压缩到 256 个字符中的符号。因此, 的变体来囊括地区性字符和符号。例如,许多软件程序把 ASCII 表(又称作 ISO 8859-1 )用于北美、西欧、 的语言。扩展的 ASCII 打印字符表十进制十六进制字符十进制十六进制字符128 80192 C0 匚129 81u193 C1 丄130 82e194 C2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025湖南省演出公司公开招聘2人备考考试试题及答案解析
- 2025年甘肃省甘南州碌曲县选调工作人员和项目人员26人择优入编考试备考笔试试题及答案解析
- 深度解析(2026)《GBT 26007-2017弹性元件和接插件用铜合金带箔材》
- 深度解析(2026)《GBT 25947-2010铝土矿 散装料水分含量的测定》(2026年)深度解析
- 2025特能集团审计中心工作人员招聘模拟笔试试题及答案解析
- 深度解析(2026)《GBT 25818-2010酸性艳蓝P-RL(C.I.酸性蓝350)》
- 深度解析(2026)《GBT 25662-2010数控弧齿锥齿轮铣齿机 精度检验》(2026年)深度解析
- 2025下半年广东肇庆市怀集县事业单位招聘14人考试备考题库及答案解析
- 2025广西百色市西林县消防救援大队政府专职消防员招聘15人备考考试试题及答案解析
- 2025吉林白城市镇赉县事业单位招聘(含专项招聘高校毕业生)及基层治理专干47人备考考试题库及答案解析
- 《储能技术》课件-2.4 抽水蓄能电站发电电动机
- 2025年国企央企笔试题库大集合附答案
- 民法典人格权讲座课件
- 2025年事业单位工勤人员高级工图书仓储员考试试题附答案
- 冬季电缆敷设施工专项方案
- 车床大修合同(标准版)
- 药剂学第十二章固体制剂第版教案
- 《工程伦理》课件大纲
- 红色展览馆介绍
- 《习作:有你真好》课件
- GB/T 46237-2025信息技术数字孪生能力成熟度模型
评论
0/150
提交评论