java处理BOM文本的方法_第1页
java处理BOM文本的方法_第2页
java处理BOM文本的方法_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第页共页java处理BOM文本的方法java处理BOM文本的方法下面举个例子,针对UTF-8的文件BOM做个处理:Stringxmla=StringFileToolkit.file2String(newFile(“D:\projects\mailpost\src\a.xml”),“UTF-8”);byte[]b=xmla.getBytes(“UTF-8”);Stringxml=newString(b,3,b.length-3,“UTF-8”);Documentdoc1=DocumentHelper.parseText(xml);Elemente1=(Element)doc1.selectSingleNode(“/ResponseData/Body/RetDesc”);Elemente2=(Element)doc1.selectSingleNode(“/ResponseData/Head/RespID”);Elemente3=(Element)doc1.selectSingleNode(“/ResponseData/Body/RetCode”);Elemente4=(Element)doc1.selectSingleNode(“/ResponseData/Body/RetDesc”);思路是:先按照UTF-8编码读取文件后,跳过前三个字符,重新构建一个新的字符串,然后用Dom4j解析处理,这样就不会报错了。其他编码的方式处理思路类似,其实可以写一个通用的自动识别的BOM的工具,去掉BOM信息,返回字符串。不过这个处理过程已经有牛人解决过了:://koti.mb.fi/akini/java/unicodereader/什么是BOM在绝大多数编辑器中都看不到BOM字符,因为它们能理解Unicode,去掉了读取器看不到的题头信息。假设要查看某个Unicode文件是否以BOM开头,可以使用十六进制编辑器。下表列出了不同编码所对应的BOM。BOMEncodingEFBBBFUTF-8BOM的来历为了识别Unicode文件,Microsoft建议所有的Unicode文件应该以ZEROWIDTHNOBREAKSPACE(U+FEFF)字符开头。这作为一个“特征符”或“字节顺序标记(byte-ordermark,BOM)”来识别文件中使用的编码和字节顺序。不同的系统对BOM的支持因为一些系统或程序不支持BOM,因此带有BOM的Unicode文件有时会带来一些问题。1.JDK1.5以及之前的Reader都不能处理带有BOM的UTF-8编码的文件,解析这种格式的'xml文件时,会抛出异常:Contentisnotallowedinprolog.2.Linux/UNIX并没有使用BOM,因为它会破坏现有的ASCII文件的语法约定。不同的编辑工具对BOM的处理也各不一样。使用Windows自带的记事本将文件保存为UTF-8编码的时候,记事本会自动在文件开头插入BOM(虽然BOM对UTF-8来说并不是必须的),但是editplus就不会这样做。BOM与XMLXML解析读取XML文档时,W3C定义了3条规那么:1.假如文档中

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论