版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
JavaWeb中的中文编码问题
--学习笔记你将了解到:在java中经常遇到的几种编码格式的区别;在java中经常需要编码的场景;出现中文问题的原因分析;开发JavaWeb程序时可能存在编码问题的几个地方;一个Http请求怎么控制编码格式;如何避免出现中文编码问题。为什么要编码?比较通俗的讲解就是:只要不是说英语的国家,要使用计算机就必须经过编码,这是现状。如果可以把计算机中存储信息的最小单位改成汉字,这样我们就不存在编码问题了。字节字符如何“翻译”常见的编码格式有ASCII,ISO-8859-1,GB2312,GBK,UTF-8,UTF-16
(GB2312,GBK,UTF-8,UTF-16都可以表示中文)参考文献:https:///question/23374078几种编码格式的比较
GB2312与GBK编码规则类似,但是GBK范围更大,它能处理所有汉字字符,所以GB2312与GBK比较应该选择GBK。UTF-8编码与GBK和GB2312不同,不用查码表,所以在编码效率上UTF-8的效率会更好,所以在存储中文字符时UTF-8编码比较理想。相对来说UTF-16编码效率最高,字符到字节相互转换更简单,进行字符串操作也更好。如Java的内存编码就是采用UTF-16编码。但是它不适合在网络之间传输,因为网络传输容易损坏字节流,一旦字节流损坏将很难恢复。UTF-8在编码效率上和编码安全性上做了平衡,是理想的中文编码方式。Java中需要编码的场景磁盘I/O
网络I/O
JavaWeb中可能会存在编码转换用户从浏览器端发起一个HTTP请求,需要存在编码的地方是URL、Cookie、Parameter。服务器端接受到HTTP请求后要解析HTTP协议,其中URI、Cookie和POST表单参数需要解码;服务器端可能还需要读取数据库中的数据,本地或网络中其它地方的文本文件,这些数据都可能存在编码问题。一次HTTP请求的编码示例
URL的几个组成部分
GET
和POST两种方式GET方式HTTP请求的QueryString与POST方式HTTP请求的表单参数都是作为Parameters保存,都是通过request.getParameter获取参数值。对它们的解码是在request.getParameter方法第一次被调用时进行的。Get对Header中的项进行解码也是在调用request.getHeader是进行的,如果请求的Header项没有解码则调用MessageBytes的toString方法,这个方法将从byte到char的转化使用的默认编码也是ISO-8859-1,而我们也不能设置Header的其它解码格式,所以如果你设置Header中有非ASCII字符解码肯定会有乱码。解决办法:使用org.apache.catalina.util.URLEncoder编码然后再添加到Header中(或js带的编码fun),服务器接收以后按照相应的字符集解码就好了。PostPOST表单参数传递方式与QueryString不同,它是通过HTTP的BODY传递到服务端的。当我们在页面上点击submit按钮时浏览器首先将根据ContentType的Charset编码格式对表单填的参数进行编码然后提交到服务器端,在服务器端同样也是用ContentType中字符集进行解码。所以通过POST表单提交的参数一般不会出现问题,而且这个字符集编码是我们自己设置的,可以通过request.setCharacterEncoding(charset)来设置。JSP设置编码格式:
<%@pagecontentType="text/html;charset=UTF-8"%>
在JSP标准的语法中,如果pageEncoding属性存在,那么JSP页面的字符编码方式就由pageEncoding决定,否则就由contentType属性中的charset决定,如果charset也不存在,JSP页面的字符编码方式就采用默认的ISO-8859-1。常见问题分析
中文变成了看不懂的字符例如,字符串“淘!我喜欢!”变成了“ÌÔ£¡ÎÒϲ»¶£¡”编码过程如下图所示字符串在解码时所用的字符集与编码字符集不一致导致汉字变成了看不懂的乱码,而且是一个汉字字符变成两个乱码字符。一个汉字变成一个问号例如,字符串“淘!我喜欢!”变成了“??????”编码过程如下图所示将中文和中文符号经过不支持中文的ISO-8859-1编码后,所有字符变成了“?”,这是因为用ISO-8859-1进行编解码时遇到不在码值范围内的字符时统一用3f表示,这也就是通常所说的“黑洞”,所有ISO-8859-1不认识的字符都变成了“?”。一个汉字变成两个问号例如,字符串“淘!我喜欢!”变成了“????????????”编码过程如下图所示
这种情况比较复杂,中文经过多次编码,但是其中有一次编码或者解码不对仍然会出现中文字符变成“?”现象,出现这种情况要仔细查看中间的编码环节,找出出现编码错误的地方。一种不正常的正确编码还有一种情况是在我们通过request.getParameter获取参数值时,当我们直接调用Stringvalue=request.getParameter(name);会出现乱码,但是如果用下面的方式Stringvalue=String(request.getParameter(name).getBytes("ISO-8859-1"),"GBK");解析时取得的value会是正确的汉字字符,这种情况是怎么造成的呢?看下如所示:这种情况是这样的,ISO-8859-1字符集的编码范围是0000-00FF,正好和一个字节的编码范围相对应。这种特性保证了使用ISO-8859-1进行编码和解码可以保持编码数值“不变”。虽然中文字符在经过网络传输时,被错误地“拆”成了两个欧洲字符,但由于输出时也是用ISO-8859-1,结果被“拆”开的中文字的两半又被合并在一起,从而又刚好组成了一个正确的汉字。虽然最终能取得正确的汉字,但是还是不建议用这种不正常的方式取得参数值,因为这中间增加了一次额外的编码与解码,这种情况出现乱码时因为Tomcat的配置文件中useBodyEncodingForURI配置项没有设置为”true”,从而造成第一次解析式用ISO-8859-1来解析才造成乱码的。CharacterEncodingFilter-org.springframework.web.filter.CharacterEncodingFilter
常用编码工具Jsscape
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度互联网金融平台资金转入安全监管合同
- 二零二五年度员工业务突破与老板对赌合同
- 二零二五年度租赁保险合同书合同编号:BX-2025018
- 隔离型dcdc课程设计
- 铁路通信信号课程设计
- 阻燃课程设计
- 互联网金融公司劳动合同
- 古建筑施工合同
- 管道清洗疏通服务合同
- 新能源绿色农业开发项目投资合同
- 神经病学重症肌无力课件
- 4.2.1指数函数的概念 课件(共21张PPT)
- 数控车床电动刀架PLC控制的设计和实现 机械制造及其自动化专业
- 大学生求职和职业规划
- 部编版语文小学五年级下册第一单元集体备课(教材解读)
- 码头危险源辨识清单
- 人教版高中物理选择性必修第二册第一章安培力与洛伦兹力
- GB/T 24477-2009适用于残障人员的电梯附加要求
- GB/T 19073-2018风力发电机组齿轮箱设计要求
- GB/T 18942.2-2003高聚物多孔弹性材料压缩应力应变特性的测定第2部分:高密度材料
- 锌钢栏杆施工方案
评论
0/150
提交评论