版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
字符编码知识:Unicode、UTF-8、ASCII、GB2312等编码之间是如何转换的?(...字符编码是计算机技术的基石,想要熟练使用计算机,就必须懂得字符编码的知识。不注意的人可能对这个不在意,但这些名词有时候实在让人迷惑,对想学习计算机知识的人来说,搞懂它也十分重要,我也是在学习中慢慢了解了一些这方面的知识。
1.ASCII码
在计算机内部,所有的信息最终都表示为一个二进制的字符串。每一个二进制位(bit)有0和1两种状态,因此八个二进制位就可以组合出256种状态,这被称为一个字节(byte)。也就是说,一个字节一共可以用来表示256种不同的状态,每一个状态对应一个符号,就是256个符号,从0000000到11111111。上个世纪60年代,美国制定了一套字符编码,对英语字符与二进制位之间的关系,做了统一规定。这被称为ASCII码,一直沿用至今。ASCII码一共规定了128个字符的编码,比如空格“SPACE”是32(十进制的32,用二进制表示就是00100000),大写的字母A是65(二进制01000001)。这128个符号(包括32个不能打印出来的控制符号),只占用了一个字节的后面7位,最前面的1位统一规定为0。下面是截图:具体的可以到这个网页上去查下:
2、非ASCII编码英语用128个符号编码就够了,但是用来表示其他语言,128个符号是不够的。比如,在法语中,字母上方有注音符号,它就无法用ASCII码表示。于是,一些欧洲国家就决定,利用字节中闲置的最高位编入新的符号。比如,法语中的é的编码为130(二进制10000010)。这样一来,这些欧洲国家使用的编码体系,可以表示最多256个符号。但是,这里又出现了新的问题。不同的国家有不同的字母,因此,哪怕它们都使用256个符号的编码方式,代表的字母却不一样。比如,130在法语编码中代表了é,在希伯来语编码中却代表了字母Gimel(ג),在俄语编码中又会代表另一个符号。但是不管怎样,所有这些编码方式中,0—127表示的符号是一样的,不一样的只是128—255的这一段。至于亚洲国家的文字,使用的符号就更多了,汉字就多达10万左右。一个字节只能表示256种符号,肯定是不够的,就必须使用多个字节表达一个符号。比如,简体中文常见的编码方式是GB2312,使用两个字节表示一个汉字,所以理论上最多可以表示256x256=65536个符号。3.Unicode正如上一节所说,世界上存在着多种编码方式,同一个二进制数字可以被解释成不同的符号。因此,要想打开一个文本文件,就必须知道它的编码方式,否则用错误的编码方式解读,就会出现乱码。为什么电子邮件常常出现乱码?就是因为发信人和收信人使用的编码方式不一样。解释:同一个文本文件,假设内容是用英语写的,在英语编码的情况下,每个字符会和一个二进制数对应(如00101000类似),然后存到计算机中,这时把这个英语文件发给一个俄语国家的用户,计算机传输的是二进制流,即0101之类的数据,到了俄语用户这方,需要有它的俄语编码方式进行解码,把每个二进制流转为字符显示,由于俄语编码表中对每串二进制流数据的解释方式不同,同一个数据如00101000在英语中可能代表A,而在俄语中则代表B,这样就会产生乱码,这是我个人的理解。GB2312编码、日文编码等也是非unicode编码,是要通过转换表(codepage)转换成unicode编码的,要不怎么显示出来呢?可以想象,如果有一种编码,将世界上所有的符号都纳入其中。每一个符号都给予一个独一无二的编码,那么乱码问题就会消失。这就是Unicode,就像它的名字都表示的,这是一种所有符号的编码。Unicode当然是一个很大的集合,现在的规模可以容纳100多万个符号。每个符号的编码都不一样,比如,U+0639表示阿拉伯字母Ain,U+0041表示英语的大写字母A,U+4E25表示汉字“严”。具体的符号对应表,可以查询,或者专门的。4.Unicode的问题余需要根注意诉的是禾,方Un央ic猫od著e只拆是一屑个符列号集挑,只核是一烧种规刷范、束标准字,它授只规君定了快符号摸的二刷进制沸代码秒,却踩没有埋规定询这个厉二进进制代熔码应耻该如坝何存魂储在投计算古机上张。蛇比如苹,汉耳字“旅严”屋的u驼ni蛮co允de腿是十冤六进雁制数麦4E灭25腥,转姐换成浅二进久制数掌足足密有1灶5位传(1脾00异11零10疮00柜10雨01庭01秘),殿也就归是说沾这个饿符号详的表蛾示至膛少需箭要2泻个字活节。识表示禁其他佣更大朝的符背号,润可能征需要损3个洞字节锅或者棍4个陷字节很,甚洋至更匪多。倘这里钢就有肯两个皮严重裤的问剩题,变第一术个问负题是胶,如默何才女能区政别u虑ni业co广de笋和a归sc胖ii沃?计郊算机者怎么传知道例三个歌字节芽表示晴一个窜符号泪,而爪不是戴分别荒表示弃三个柴符号笋呢?谋第二卫个问独题是胆,我俘们已停经知掌道,捕英文呆字母毯只用腹一个吩字节影表示精就够底了,工如果顷un溉ic盛od迈e统束一规时定,垂每个舰符号肯用三纵个或孕四个赖字节清表示照,那棕么每缠个英菜文字娃母前门都必泻然有倾二到降三个态字节螺是0浓,这盈对于放存储粘来说突是极恐大的汉浪费踢,文狂本文逼件的幕大小否会因安此大没出二爷三倍超,这降是无机法接瘦受的强。穿它们恰造成爪的结衬果是春:1激)出专现了悟un移ic扩od零e的鼓多种雀存储冤方式夫,也赔就是乳说有避许多拼种不板同的督二进尚制格趴式,皂可以竹用来刃表示预un下ic韵od驾e。鞭2)绍un府ic男od生e在玻很长醒一段专时间份内无甩法推赢广,蝶直到帜互联念网的衫出现穿。储5.靠UT陪F-稳8绘互联盖网的株普及谈,强义烈要价求出燥现一尖种统奸一的燕编码瘦方式涛。U也TF矛-8知就是澡在互聋联网樱上使享用最厌广的舍一种扩un扩ic暗od葛e的私实现茅方式佳。其起他实眼现方贡式还移包括残UT立F-蒜16娘和U格TF慰-3自2,钞不过窄在互缩联网剩上基熔本不投用。商重复桂一遍械,这辨里的丽关系梨是,碰UT泰F-宪8是扁Un视ic学od企e的效实现刘方式烘之一消,它生规定勺了字缝符如先何在股计算鸭机中程存储轰、传孝输等性。必UT助F-危8最舍大的姑一个剑特点园,就葵是它筋是一兄种粒变长鸡的编恩码方肠式拒。它仔可以烂使用耕1~接4个筑字节奋表示墨一个拦符号呼,根铅据不袖同的川符号涝而变骗化字卡节长挺度。隆UT现F-萌8的尿编码语规则户很简漆单,绞只有贪二条宋:既1)沃对于荷单字境节的误符号哑,字航节的巩第一始位设为为0瑞,后田面7忙位为苍这个还符号追的u沾ni世co伯de典码。惩因此细对于糕英语放字母喝,U古TF树-8恭编码贸和A休SC逗II菌码是菜相同敢的。鸡2)鱼对于脉n字抽节的跪符号达(n膛>1湾),锦第一营个字储节的傻前n施位都霞设为震1,胁第n猜+1派位设富为0铅,后栽面字烂节的业前两忙位一酱律设星为1量0。耽剩下添的没飘有提驳及的蛇二进赵制位半,全需部为嫂这个警符号叹的u农ni扩co饱de擦码。备下表马总结左了编验码规分则,所字母趴x表淹示可师用编离码的兄位。灭Un览ic眉od兼e符谁号范悄围哈|峰UT主F-授8编砍码方谋式
太(十恢六进末制)干|师(朵二进惨制)
伴--朱--枪--奖--孔--何--纤--邪--敲--醉--撤+-苗--慢--湾--丛--批--工--擦--防--颤--硬--育--侦--梁--食--纳--摊--虎--坐--制--钞--打--黎--
铜00隶00篮0没00盼0-洋00粥00宰挤00锯7F凝|登0许xx搅xx乘xx爬x
销00组00钥0麦08在0-砌00掠00臣0航7F辫F顿|宁11碰0x格xx答xx豪1遇0x阀xx甜xx挤x
显00马00驼0眨80泄0-亚00吼00另F律FF侄F竿|福11箱10均xx填xx妄1诞0x楚xx咳xx降x雷10巷xx驱xx辟xx
川00岗01暂0票00潮0-咳00护10控F继FF捆F紧|悔11秧11嫁0x节xx笋1遥0x姨xx荷xx瘦x韵10唉xx易xx涌xx闷1棵0x宗xx马xx运x抗下面泥,还臂是以吩汉字监“严吃”为朽例,贯演示活如何纠实现脂UT援F-根8编键码。丑已知剖“严洒”的烦un栗ic鲁od象e是快4E躲25砖(1耳00补11坝10剃00秘10红01暂01祸),酿根据追上表读,可豆以发冻现4偷E2凭5处怀在第俩三行灿的范线围内喉(0膛00弊0确08矮00护-0奴00尤0少FF晋FF脂),页因此扭“严乌”的垒UT艳F-耗8编舅码需驻要三突个字惭节,尝即格众式是谷“1维11旁0x这xx祸x骄10掉xx伞xx故xx想1饶0x慢xx王xx萝x”墓。然闪后,躺从“乒严”醉的最你后一锹个二江进制近位开纯始,哀依次互从后冷向前尺填入栏格式横中的吃x,缩多出清的位瞧补0敌。这兼样就霜得到污了,岔“严澡”的识UT剑F-傲8编刻码是浇“匪11唇10属01倦00垄1贪01萌11营00扯0伟10置10泳01胸01轻”扎,这突是保磨存在难计算肚机中住的实今际数胆据乘,转洋换成咽十六某进制转就是隙E4益B畏8A申5,正转成娘十六漂进制避的目认的为禽了便见于阅灰读。属6.宅U桌ni熄co每de担与U冤TF红-8轰之间嘴的转婶换决通过辛上一它节的倒例子烈,可畅以看筹到“考严”眉的U捏ni总co群de庆码是浆4E忙25彩,U雪TF剧-8贺编码毕是E摔4B俊8A暑5,香两者谁是不萄一样保的。猾它们县之间馋的转唯换可狸以通绑过程筋序实辛现。啄在W钓in瑞do叉ws公平台策下,税有一矩个最咽简单拖的转漂化方怠法,树就是泡使用寒内置顶的记急事本朋小程勿序N冬ot此ep漏ad考.e岛xe轨。打汁开文海件后脊,点料击“烫文件厚”菜数单中近的“雪另存亦为”祸命令盛,会除跳出咽一个白对话图框,当在最晚底部浅有一绵个“边编码句”的馅下拉石条。蝴里面啄有四坚个选堤项:暮AN欣SI升,U乎ni仇co希de土,U越ni间co钥de默b翻ig旧e帮nd派ia徐n剖和得UT择F-浪8。搞1)漆AN否SI造是默往认的挥编码俭方式绿。对倍于英宝文文漂件是带AS哄CI辨I编霉码,搜对于语简体钥中文甜文件午是G革B2真31轻2编苹码(炎只针厦对W躲in混do坡ws喜简体罚中文村版,谜如果届是繁刑体中计文版割会采猴用B乔ig壮5码尖)。欲2)炮Un斥ic敞od泡e编挠码指旷的是统UC屿S-节2编启码方阻式,蔬即直邪接用立两个扔字节这存入课字符研的U穴ni胞co扬de搅码。型这个狡选项唇用的岁li斩tt移le俩e亮nd派ia逆n格未式。育3)呆Un奇ic袋od充e累bi半g则en顷di挖an连编码扭与上边一个敏选项渡相对爷应。苦我在崖下一霜节会京解释我li竿tt凉le俘e漏nd锦ia普n和圆bi户g仓en燕di交an胖的涵贫义。姓4)掌UT败F-扔8编纳码,段也就丸是上材一节桶谈到闲的编致码方圾法。雪选择寺完”侵编码谨方式雪“后阁,点演击”弟保存肚“按乞钮,营文件蜡的编砖码方副式就药立刻瑞转换驱好了海。蓝7.凶L油it丧tl伍e外en义di堂an景和B西ig印e剂nd迁ia坊n美上一调节已骗经提愁到,脂Un雅ic孙od烫e码腰可以蛙采用鬼UC阴S-被2格夺式直蹈接存锈储。笼以汉理字”孝严“欧为例匀,U素ni富co忠de骨码是床4E晨25疏,需痒要用熟两个折字节碍存储呜,一予个字口节是很4E香,另降一个块字节晃是2旺5。替存储败的时推候,寇4E方在前冲,2怠5在屯后,疾就是劣Bi知g守en警di让an洒方式旨;2码5在纷前,填4E忽在后费,就录是L乱it咳tl钉e吼en裙di营an习方式挣。龄那么亮很自掏然的崖,就冠会出命现一千个问甜题:践计算裤机怎饰么知顽道某煌一个搏文件米到底谨采用冰哪一帆种方拥式编清码今?航Un逗ic移od植e规杂范中之定义贱,每炉一个蛇文件屠的最恳前面辞分别膝加入串一个寨表示派编码痛顺序立的字减符,蝴这个黄字符涝的名涂字叫岂做”血零宽各度非兄换行泡空格宇“(熊ZE仔RO踏W讯ID脑TH提N冶O-幅BR滩EA恢K炮SP数AC恩E)与,用化FE杂FF胖表示蚊。这烧正好摘是两烟个字北节,轧而且房FF凯比F文E大京1。爸如果士一个节文本蝇文件棵的头杨两个杯字节汪是F报E袖FF疯,就枣表示谷该文灭件采玻用大喊头方漆式;摘如果贤头两朋个字王节是厕FF姑F艳E,待就表威示该百文件壁采用要小头乱方式建。五8.打实帮例梦下面丝,举狂一个常实例邻。余打开填”记凭事本究“程蜂序N膛ot高ep掏ad机.e滑xe福,新迅建一所个文拣本文姜件,求内容旅就是坡一个顶”严桥“字稼,依陕次采科用A获NS绢I,漠Un烤ic名od匹e,祸Un讨ic足od拼e啄bi庸g折en诵di牲an昆和秆U烟TF恨-8浓编码授方式珍保存石。区然后公,用击文本耻编辑民软件安的”搬十六庙进制量功能省“,犯观察陵该文蚀件的酸内部储编码赢方式娘。起1)让AN女SI阅:文欠件的跑编码桃就是絮两个姑字节给“D过1油CF俊”,顿这正沙是“伐严”凉的G驰B2贫31丰2编捷码,恢这也奇暗示航GB龟23刺12别是采招用大宜头方萄式存玩储的隙。拿2)牢Un荡ic兽od捕e:佛编码寇是四做个字候节“语FF览F牢E橡25退4烟E”及,其斯中“确FF绑F择E”傻表明烘是小贵头方商式存转储,编真正任的编予码是指4E骗25遭。贼3)这Un数ic纱od脖e克bi侄g饥en答di打an印:编刻码是厦四个鹅字节孔“F雷E杏FF盯4婶E五25勤”漫,其纳中“品FE早F慢F”爷表明琴是大遵头方辰式存铃储。裂4)吹UT秆F-摆8:钩编码威是六届个字不节“廉EF符B约B冈BF亩E师4箱B望8寒A损5”范,前尤三个桥字节渡“E拒F慢BB兔B碰F”隶表示突这是洪UT腿F-扇8编豪码,勉后三庙个“疯E4趴B蓄8A疮5”敌就是尚“严剖”的去具体叙编码术,它罢的存云储顺夏序与们编码应顺序井是一州致的闷。拜推荐良这篇倒文章陶看一插下:俗饿9.船解决调的问竟题:喷一、劣如何律在中间文系斧统中痕运行储非U终ni弄co丑de脆编码盒程序浊?
画有很提多意溉大利绿文版帜(除服英文讯版)蛾学习皱软件役、百睡科全猜书等宽软件滋在中椒文系值统上踢会出困现乱滥码,稍解决肺方法狐:
及Wi咱nd馅ow泳sX席P内混核是券Un搞ic虫od腐e编湾码,絮支持比多语斧种,针对于遮Un沈ic居od谜e编广码的江应用舌程序霞会正尸常显辉示原季文(耕因为滑wi玉nd纤ow绝s核绒心是所用u供ni岂co仙de梯代码酒写的程,所赖以不腥存在惩问题该)鹊,但淹是,荒很多寿程序顷不是荒用U马ni茶co砖de和编码搭写的绵,这华时W埋in姐do书ws挖XP氧系统穷可以预指定素以特紫定的耽编码尾运行还非U猎ni野co醉de粗编码筹程序场,中葡文版蕉Wi抹nd绑ow挡sX摆P默堡认的负是“亚简体盖中文喜GB果23夹12域”牺。你锡只需晶在控烛制面饰板-梯-〉燥区域谈和语喜言选商项-房-〉江高级劲--云〉为音非U莲ni婶co抖de堡程序胜的语挖言选侄择“仅意大乖利语旧”,南即可光正确晓运行篇意大拼利文阿版的违游戏堪程序铁。位分析吧:我汪理解铜的流箭程是堂这样饿:程劫序-拘--呼--僚->姿意大纲利语稿编码搅(转代换表江co布de耗pa誉ge沉)-愚--厌--号->岩解释果成u放ni徒co粮de乎识别犯的编奇码(距通过借指定藏的转补换表谈将非趣U初ni命co泽de盗的邮字符色编码带转换挎为同鹅一字穿符对块应的鹊系统觉内部郑使用姥的显Un报ic吵od祝e瞎编码悔)-估--兄--今->箭被系起统翻洋译成征意大黎利文动(因律为每籍个u增ni脖co映de丝编码迫对应蚀了相托应的继意大牛利文井字)秧,便咳可以谈正常鹊显示诸了。赞二、片消除施网页慧乱码爹?厉网页拾乱码决是浏盒览器命对H尝TM狂L网肺页解随释时营形成害的,墙如果斥网页恋制作茧时编芹码为瑞繁体呜bi勤g5搅,浏混览器溪却以墓编码责gb杯23骨12问显示璃该网缴页,亦就会顽出现倾乱码奔,因吐此只爷要你她在浏逼览器拆中也
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 的买卖合同范本
- 社工劳动合同
- 2025工程外包合同模板
- 农业机械设备采购安装合同
- 事业单位聘用人员合同
- 2025年西师新版九年级历史上册阶段测试试卷含答案
- 2025年湘教版五年级语文上册月考试卷含答案
- 2025有关个人借款合同
- 2025年外研版三年级起点八年级科学上册月考试卷含答案
- 2025砌块定作买卖合同
- 高中英语选择性必修一单词表
- 初中生物校本课程纲要
- 物业公司介绍
- JTGT H21-2011 公路桥梁技术状况评定标准
- 【永辉超市公司员工招聘问题及优化(12000字论文)】
- 汽油安全技术说明书(MSDS)
- 中国直销发展四个阶段解析
- 2024届浙江省宁波市镇海区镇海中学高一物理第一学期期末质量检测试题含解析
- 部编版语文四年级下册 教材解读
- 《一次函数与方程、不等式》说课稿
- 动火作业安全管理要求及控制措施
评论
0/150
提交评论