已阅读5页,还剩39页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第八章java对XML的解析,XML是扩展性标识语言的简写特点:自定义标签作用:一种通用数据交换格式,系统配置文件一般采用XML格式书写,用来记录应用程序的配置信息。优点:结构严谨规范性强标准的数据交换文件,已用于通用的配置信息文件结构简单,清晰,便于书写,增强阅读性将数据结构化,让数据间具有明确的层次关系,XML(ExtensibleMarkupLanguage),语言标记html标记是固定标记集合xml提供的是一个定义标记的标准,其中的标记是可以自由定义代码的书写html语言编写相对随意,要求松散。xml语言编写有非常严格的规范描述内容html将数据和显示结合在一起xml将数据和显示相分离,记录数据和数据间关系,只对数据进行描述,不考虑显示效果。,XML与HTML区别,张三20李四23,XML举例,XML声明(declaration)DOCTYPE声明处理指令(processingInstruction)注释(comment)元素(element)CDATA并不是每一个XML都需要所有的组成部分。,XML文档的组成部分,文档声明(xml文档首行):格式:encoding定义文档字符编码集合,“gb2312”Standalone定义文档是否独立,“yes”no”文档类型定义:指定xml文档定义文档类型所用的dtd来源处理指令为处理XML文档的应用程序提供提示信息,,XML文档的组成部分,文档注释注释不可以嵌套文档主体内容自定义标记对数据进行结构描述,通过树形结构体现文档结构文档中只能有一个顶层元素(根元素)顶层元素中包含:元素属性元素文本内容CDATA(characterdata字符数据区)各种子元素,XML文档的组成部分,所有XML标记都严格区分大小写XML只能有一个顶层元素,其他元素都包含在顶层元素中所有的标记都必须要要有开始和结束标签,如果没有单独的结束标签,则在开始标签的内部直接添加结束“/”所有标记的属性值必须用“”或括起来,XML语法规则,名字中可以包含字母、数字及一些可见字符和中文名字不以数字和下划线开头,不以“xml”开头,名称中不可以包含空格,冒号(:)命名尽量简短,一个文件中大小写尽量统一标准所有的XML标记都必须合理嵌套,不允许出现交叉嵌套,XML命名规则,存放不想被解析的原始数据格式:中示例:,CDATA区域(字符数据区域),在元素的文本中有些符号不可以直接出现,因为会出现解析错误。比如:“mike29bj,将DTD约束直接嵌套在xml文档中,文档类型名称:可以自定义,通常使用根节点名称SYSTEM:表明XML遵循的是一个组织内部的约束。示例:PUBLIC:表示XML遵循的是权威机构或特定行业提供的DTD文件。DTD名称:用于标识该DTD文件,只有在PUBLIC声明时才用到。,引入外部的DTD文件到XML文档中,元素是XML文档的基本组成部分,在XML文档中使用的每个元素及其属性都要在DTD文件中进行定义语法格式:示例:,DTD文档元素定义,元素的使用规则定义了:元素中包含的组成部分每种组成部分出现的次数各组成部分间的次序(#PCDATA)表示元素中嵌套的内容是普通文本字符串。EMPTY:元素中不包含任何子元素和普通文本字符串,这种情况用于定义XML文件中的空元素:例如,定义的元素形式为,DTD文档元素使用规则,DTD文档元素使用规则,每条元素定义语句的顺序是无关紧要的具有不同用途的元素不能使用相同的元素名在元素的使用规则中可以通过正则表达式定义子元素出现的次数:,圆括号可将括在其中的内容组合成一个可统一操作的分组,分组中可以嵌套更小的分组。,元素的各个组成成份的特点元素的使用规则中的各个组成成分用空白符分隔,他们的出现顺序没有严格要求:?用逗号分隔,出现顺序必须与排列顺序一致:用竖杠|分隔,它们在XML文档中只能出现它们之中的任何一个:,DTD文档元素使用规则,语法格式:示例:#REQUIRED:必须设置该属性#IMPLIED:可以设置也可以不设置#FIXED:说明该属性的取值固定为一个默认值,属性类型CDATA:指的是纯文本,即由字符、符号组成的字符串,DTD文档属性定义,Enumerated:属性也可以被描述为一组可接受的取值的列表,XML文件中对属性的赋值将从这个列表中选取一个值。这类属性属于枚举类型ENUMERATED,不过关键字ENUMERATED是不出现在Dtd定义中的。ID:是用属性值的方式为文件中的某个元素定义唯一标识的方法,由处理文件的程序或脚本语言使用。ENTITY:将多内容文本或者一个文件用一个简称来标识。,属性类型,lisi预览结果:学生元素的id属性会自动加载male值。,ENUMERATED,XML解析器是读取XML文档并分析其结构的代码。一般而言使用解析器需要以下步骤:创建一个解析器对象使解析器指向您的XML文档处理结果常见的解析模式DOM(DocumentObjectModel)文档对象模型,w3c的标准,DOM处理XML文档是基于将XML文档解析成树状模型,放入内存进行处理,XML解析,SAX(SimpleApiforXml)SAX则是采用基于事件驱动的处理模式,它将XML文档转化成一系列的事件,由单独的事件处理器来决定如何处理JDOM基于Java语言的解析工具。JAXP(JavaAPIforXMLProcessing)SUN推出的一套处理XML文档的工具包。DOM4J基于Java语言的优秀的XML文档解析工具,也应用在JAXM(JavaAPIforXMLMessaging)中。,XML常见解析方式,DOM:Java读入XML文档并分析其结构,将其转化为内存中的对象如果XML看成一颗数据树,那么DOM就是对这颗树的一个对象描叙,是为XML文档在逻辑上建立一个树,树的节点是一个个对象,通过存取这些对象就能够存取XML文档的内容。解析的过程:,DOM(DocumentObjectModel),节点:XML文档中的所有节点组成了一个节点树。XML文档中的每个元素、属性、文本等都代表着树中的一个节点。树起始于文档节点,并由此继续伸出枝条,直到处于这棵树最低级别的所有文本节点为止。常用节点类型如下表所示:,节点关系:下面我们从一个XML文档实例中了解一下各个节点之间的关系:工程师A,通过上面的XML文档,我们构建出如下树状文档对象模型,如下图所示,常用节点属性如下表所示:,DOM基本API,注释,载入文档,XML文件只有载入内存才能被操作,对于xml文件,载入内存之后成为Document对象载入文档的过程如下:实例化javax.xml.parsers.DocumentBuilderFactory,并通过DocumentBuilderFactory实例化javax.xml.parsers.DocumentBuilder对象:DocumentBuilderFactorydbf=DocumentBuilderFactory.newInstance();DocumentBuilderdb=dbf.newDocumentBuilder();,载入文档,通过DocumentBuilder的parse(String)方法传入文件路径,载入文档,并返回由文档在内存生成的文件树Document对象:Documentdoc=db.parse(流);使用Document对象获取XML文档的根节点rootElementel=doc.getDocumentElement();,利用Document读取数据,org.w3c.dom.Document:表示整个XML文档;同时也是Node的子接口,除了拥有Node的功能以外,还提供了面向整个文档一些特殊操作,如创建节点、获取某个名称的节点等Document常见方法:ElementgetDocumentElement():获取文档根节点;实际上,该方法的应用等价于:NodeDocument.getFirstChild()返回类型不同,不过可以将返回的Node强制转换为Element类型(Element是Node的子接口),利用DOM读取数据,利用Node读取数据org.w3c.dom.Node:是XML中所有API的父接口,Element,text等都是它的子类,提供了对节点的基本操作,如获取节点信息、获取子节点、添加节点等,这些操作可以通过Node对象的各个API来实现常见的方法:NodeListgetChildNodes():以NodeList形式存放当前节点的子节点,若无,则返回空集合NodegetFirstChild():以Node形式返回当前节点的第一个子节点,若无,则返回nullNodegetLastChild():以Node形式返回当前节点的最后一个子节点,若无,则返回null,利用DOM读取数据,NodegetNextSibling():以Node形式返回当前节点的下一个兄弟节点,若无,则返回nullNodegetPreviousSibling:以Node形式返回当前节点的下一个兄弟节点,若无,则返回nullNodegetParentNode():以Node形式返回当前节点的父节点,若无,则返回nullStringgetNodeName():得到节点名称StringgetTextContent():得到节点中的文本内容booleanhasChildNodes():返回当前节点是否存在子节点shortnodeType:获取节点类型,节点类型见前图,NodeListgetElementsByTagName(Stringname):输入标签名称,以NodeList形式返回指定标记的元素,若无,则返回空集合;该方法适用于文档中的所有元素,不需确定该元素的位置,利用Element读取数据,org.w3c.dom.Element:在DOM中,使用最多的不是普通文本,也不是注释,而是一些标签,它们含有属性,可能含有子标签Element特有的API:StringgetAttribute(Stringname):通过属性名称获得属性值NodeListgetElementsByTagName(Stringname):输入标签名称,以NodeList形式返回StringgetTagName():得到元素的名称booleanhasAttribute(Stringname):判断该元素是否存在某个名称的属性,建立xml文件文件,在其中放置数据库连接需要的数据,然后建立JSP文件和servlet文件,对xml文件中的数据进行解析及显示。,实例,利用Node修改数据,最常见的API包括以下几个:voidsetTextContent(StringtextContent):设置此节点的文本内容NoderemoveChild(NodeoldChild):从子节点列表中移除oldChild所指示的子节点并将其返回NodeinsertBefore(Nodenew,Noderef):在现有子节点ref之前插入节点newNodereplaceChild(Nodenew,Nodeold):将子节点列表中的子节点oldChild替换为newChild,并返回oldChild节点NodeappendChild(NodenewChild):将节点newChild添加到此节点的子节点列表的末尾,利用DOM持久化数据,XML文件保存,利用javax.xml.transform包中的类来进行文档的保存,过程如下:实例化TransformerFactory,并通过该工厂类实例化Transformer,利用Transformer的transform方法将源输出到目标:transformer.transfor
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 空调安装工程总包
- 矿山扩建延期协议
- 企业信用评级承诺书
- 员工入职承诺书:项目管理篇
- 停车场清洁工聘用协议
- 家电回收物流承诺书模板
- 交通运输参股管理要求
- 果园种植培训租赁协议
- 企业年金管理与资本市场动态
- 服装加工物料提升机租赁合同
- 《康复辅助器具技术》复习考试题库(附答案)
- 幼儿园大班剪纸《窗花》课件
- 2022中国大学排名Excel
- 2023年第一季度思想汇报(3篇)
- CNAS实验室评审不符合项整改报告
- 工厂围墙视频监控系统方案及报价书
- 方位介词附习题及参考答案
- “二十四节气”研究性报告
- 个人挂靠公司协议书(大全)
- 危险化学品物质氮气(N2)安全告知卡
- 一年级数学上册课件《分与合》第2课时6、7的分与合
评论
0/150
提交评论