版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
JavaWeb中的中文编码问题
--学习笔记你将了解到:在java中经常遇到的几种编码格式的区别;在java中经常需要编码的场景;出现中文问题的原因分析;开发JavaWeb程序时可能存在编码问题的几个地方;一个Http请求怎么控制编码格式;如何避免出现中文编码问题。为什么要编码?比较通俗的讲解就是:只要不是说英语的国家,要使用计算机就必须经过编码,这是现状。如果可以把计算机中存储信息的最小单位改成汉字,这样我们就不存在编码问题了。字节字符如何“翻译”常见的编码格式有ASCII,ISO-8859-1,GB2312,GBK,UTF-8,UTF-16
(GB2312,GBK,UTF-8,UTF-16都可以表示中文)参考文献:https:///question/23374078几种编码格式的比较
GB2312与GBK编码规则类似,但是GBK范围更大,它能处理所有汉字字符,所以GB2312与GBK比较应该选择GBK。UTF-8编码与GBK和GB2312不同,不用查码表,所以在编码效率上UTF-8的效率会更好,所以在存储中文字符时UTF-8编码比较理想。相对来说UTF-16编码效率最高,字符到字节相互转换更简单,进行字符串操作也更好。如Java的内存编码就是采用UTF-16编码。但是它不适合在网络之间传输,因为网络传输容易损坏字节流,一旦字节流损坏将很难恢复。UTF-8在编码效率上和编码安全性上做了平衡,是理想的中文编码方式。Java中需要编码的场景磁盘I/O
网络I/O
JavaWeb中可能会存在编码转换用户从浏览器端发起一个HTTP请求,需要存在编码的地方是URL、Cookie、Parameter。服务器端接受到HTTP请求后要解析HTTP协议,其中URI、Cookie和POST表单参数需要解码;服务器端可能还需要读取数据库中的数据,本地或网络中其它地方的文本文件,这些数据都可能存在编码问题。一次HTTP请求的编码示例
URL的几个组成部分
GET
和POST两种方式GET方式HTTP请求的QueryString与POST方式HTTP请求的表单参数都是作为Parameters保存,都是通过request.getParameter获取参数值。对它们的解码是在request.getParameter方法第一次被调用时进行的。Get对Header中的项进行解码也是在调用request.getHeader是进行的,如果请求的Header项没有解码则调用MessageBytes的toString方法,这个方法将从byte到char的转化使用的默认编码也是ISO-8859-1,而我们也不能设置Header的其它解码格式,所以如果你设置Header中有非ASCII字符解码肯定会有乱码。解决办法:使用org.apache.catalina.util.URLEncoder编码然后再添加到Header中(或js带的编码fun),服务器接收以后按照相应的字符集解码就好了。PostPOST表单参数传递方式与QueryString不同,它是通过HTTP的BODY传递到服务端的。当我们在页面上点击submit按钮时浏览器首先将根据ContentType的Charset编码格式对表单填的参数进行编码然后提交到服务器端,在服务器端同样也是用ContentType中字符集进行解码。所以通过POST表单提交的参数一般不会出现问题,而且这个字符集编码是我们自己设置的,可以通过request.setCharacterEncoding(charset)来设置。JSP设置编码格式:
<%@pagecontentType="text/html;charset=UTF-8"%>
在JSP标准的语法中,如果pageEncoding属性存在,那么JSP页面的字符编码方式就由pageEncoding决定,否则就由contentType属性中的charset决定,如果charset也不存在,JSP页面的字符编码方式就采用默认的ISO-8859-1。常见问题分析
中文变成了看不懂的字符例如,字符串“淘!我喜欢!”变成了“ÌÔ£¡ÎÒϲ»¶£¡”编码过程如下图所示字符串在解码时所用的字符集与编码字符集不一致导致汉字变成了看不懂的乱码,而且是一个汉字字符变成两个乱码字符。一个汉字变成一个问号例如,字符串“淘!我喜欢!”变成了“??????”编码过程如下图所示将中文和中文符号经过不支持中文的ISO-8859-1编码后,所有字符变成了“?”,这是因为用ISO-8859-1进行编解码时遇到不在码值范围内的字符时统一用3f表示,这也就是通常所说的“黑洞”,所有ISO-8859-1不认识的字符都变成了“?”。一个汉字变成两个问号例如,字符串“淘!我喜欢!”变成了“????????????”编码过程如下图所示
这种情况比较复杂,中文经过多次编码,但是其中有一次编码或者解码不对仍然会出现中文字符变成“?”现象,出现这种情况要仔细查看中间的编码环节,找出出现编码错误的地方。一种不正常的正确编码还有一种情况是在我们通过request.getParameter获取参数值时,当我们直接调用Stringvalue=request.getParameter(name);会出现乱码,但是如果用下面的方式Stringvalue=String(request.getParameter(name).getBytes("ISO-8859-1"),"GBK");解析时取得的value会是正确的汉字字符,这种情况是怎么造成的呢?看下如所示:这种情况是这样的,ISO-8859-1字符集的编码范围是0000-00FF,正好和一个字节的编码范围相对应。这种特性保证了使用ISO-8859-1进行编码和解码可以保持编码数值“不变”。虽然中文字符在经过网络传输时,被错误地“拆”成了两个欧洲字符,但由于输出时也是用ISO-8859-1,结果被“拆”开的中文字的两半又被合并在一起,从而又刚好组成了一个正确的汉字。虽然最终能取得正确的汉字,但是还是不建议用这种不正常的方式取得参数值,因为这中间增加了一次额外的编码与解码,这种情况出现乱码时因为Tomcat的配置文件中useBodyEncodingForURI配置项没有设置为”true”,从而造成第一次解析式用ISO-8859-1来解析才造成乱码的。CharacterEncodingFilter-org.springframework.web.filter.CharacterEncodingFilter
常用编码工具Jsscape
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 养老院老人康复理疗师考核奖惩制度
- 【地球课件】地基基础设计理论与荷载
- 九年级历史期末试卷答题卡-教案课件-初中历史九年级上册部编版
- 房屋租赁的合同(2篇)
- 《食品安全和营养》课件
- 2025年拉萨货运从业资格证模拟试题题库及答案大全
- 2025年扬州货运从业资格证考些什么内容
- 2024年土地承包合同终止后的土地经营权租赁协议6篇
- 中国古代礼仪文明课件-婚礼
- 2025年沈阳经营性道路客货运输驾驶员从业资格考试
- 非新生儿破伤风诊疗
- 建筑施工企业八大员继续教育模拟考试题库500题(含标准答案)
- 三级综合医院评审标准(2024年版)
- 众创空间运营管理实施方案
- 2024智慧城市数据采集标准规范
- 云南省2022年中考道德与法治真题试卷
- 业委会解除小区物业服务合同的函
- Unit 7 Be wise with money(教学设计)2024-2025学年译林版英语七年级上册
- 2024-2025学年北京市海淀区数学三上期末教学质量检测试题含解析
- 车位进行特许权经营服务投标方案(技术方案)
- 8《美丽文字 民族瑰宝》教学设计2023-2024学年统编版道德与法治五年级上册
评论
0/150
提交评论