




已阅读5页,还剩33页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 网页浏览和搜索引擎的关键字检索是人们从i n t e r n e t 上获取信息的传统方法,其局限性主要表现在: 网页浏览方式很难在i n t e r n e t 上定何特定的知识;搜索引擎则很容易将所需知识淹没往人量的无关网页中。 随着网络技术的发展,目前出现了一些全新的基于w e b 的麻用,例如监控股票市场的及时行情,比较各个 站点的商品价格等等,在此情形f 仅凭搜索引擎和w e b 杏询等技术已无法满足这些新兴的需求。为解决这 一问题,w e b 信息抽取技术应运而生,并帮助人们从网络所提供的人量信息中提炼出其所关心的特定部分 信息。与信息检索技术不同,w e b 信息抽取技术侧重于从w e b 文档集合中发现相关文档,并从中抽出j j 户 关心的数据。 在目前绝大部分基于w e b 的应用中,往往是将大量的数据保存在网站的后台数据库中,当用户提出某 种信息需求时,w e b 服务器即根据用户的查询要求或条件将相关数据注入网页模板中,动态的生成w e b 页面以展示用户所需要的信息。在这类应j 3 中有一个特性,即w e b 页面中的数据记录间具有极高的结构相 似性,并且w e b 数据记录对应的d o m 子树间也具有很高的结构相似性。因此,本文首先从分析w e b 文 档与d o m 树的对应关系及其规律入手,借鉴网页去噪的剪枝思想,提出一种基于相似性比较的信息抽取 算法,即d e s 算法,该算法通过对基于同一模板的两个相似网页内容相似度的比较,准确定位网页中的 数据区域,并在此基础上,分析数据区域中数据项之间的结构相似性,识别数据项,从而实现对w e b 信息 以数据记录的形式进行抽取。另外,为对所抽取的w e b 信息做进一步的处理,本文利用e t l 集成一l 具o d i 对抽取自不同数据源的信息行清理、转换,将信息集成到目标数据仓库中,进而使得所抽取的w e b 信息可 以直接被其它的应用程序利用,可进一步完成信息搜索、数据挖掘、机器翻译、文本摘要等后续w e b 信息 处理一r 作。 此外,本文以基于相似性比较的方法为基础,实现了一个w e b 信息抽取与集成的原型系统,并对系统 进行了实验分析。经实验证明,该算法对于各类动态w e b 网页信息有着很好的抽取效果。 关键词:w e b 信息抽取;相似页面;编辑距离;信息集成 东南人学顾i :学位论义 a b s t r a c t 1 r a d i t i o n a l lv u s e r sr e t r i e v ew e bd a t ab yb r o w s i n ga n dk e y w o r ds e a r c h i n g ,w h i c ha r ei n t u i t i v ef o r m so f a c c e s s i n gd a t ao nt h ew e b h o w e v e r , t h e s es e a r c hs t r a t e g i e sp r e s e n ts e v e r a ll i m i t a t i o n sa sf o l l o w s b r o w s i n gi sn o t s u i t a b l ef o rl o c a t i n gp a r t i c u l a ri t e m so fd a t a k e y w o r ds e a r c h i n gi ss o m e t i m e sm o r ee f f i c i e n tt h a nb r o w s i n g b u t o f t e nr e t u r n sv a s ta m o u n t so fd a t a f a rb e y o n dw h a tt h eu s e rc a nh a n d l e 场r i o u sn e w 溉ba p p l i c a t i o n si n c o m p a r i s o n s ,r e q u i r ee - b u s i n e s s ,s u c ha sm o n i t o r i n gs t o c km a r k e t ,o n l i n em u c hm o r et h a nb r o w s i n ga n dk e y w o r d s e a r c h i n g a si sd i f f e r e n tf r o mt h et r a d i t i o n a li n f o r m a t i o nr e t r i e v a lt e c h n i q u e s ,w e bd a t ae x t r a c t i o nm e t h o d sa r e i n c l i n e dt of i n do u tw e bd o c u m e n t su s e rc o n c e r n e df r o mt h ed o c u m e n t sc o l l e c t i o n sa n de x t r a c ts t r u c t u r e dd a t a u s e rc o n c e r n e df r o mt h ed o c u m e n t sd i s c o v e r e d m a n yo n l i n ei n f o r m a t i o ni s s t o r e di nt h ew e b s i t ed a t a b a s ea tt h eb a c k g r o u n d a n dt h ed a t a b a s eg e n e r a t e s d y n a m i cw e bp a g e sa c c o r d i n gt ot h eu s e r ss p e c i a lr e q u i r e m e n t so rc o n d i t i o n so ft h eq u e r y w 色bp a g ed a t ar e c o r d h a sav e r yh i g hs i m i l a r i t yo nt h es t r u c t u r e a n di t sc o r r e s p o n d i n gd o mt r e ea l s oh a sh i g hs t r u c t u r a ls i m i l a r i t y i no r d e rt oe x t r a c ti n f o r m a t i o nf r o mw 色bp a g e sp r o p e r l y , w es t a r t sf r o mt h ea n a l y s i so fr e l a t i o nb e t w e e nw r e b d o c u m e n t sa n di t sd o mt r e e t of i n do u tt h el a wo fc o r r e s p o n d e n c eb e t w e e nt h es t a r tp a g e t h e np r o p o s eaa n i n f o r m a t i o ne x t r a c t i o na l g o r i t h mb a s e do nt h ec o m p a r i s o no fs i m i l a r i t ya b s o r b i n gt h ep r u n i n gd e n o i s i n gt h o u g h t d e s a l g o r i t h m t h ea l g o r i t h mc o m p a r e st h es i m i l a r i t yo ft h es a m ew e bc o n t e n ti nt w os a m p l ew e bp a g e sg e n e r a t e df r o ms a m e t e m p l a t et op o s i t i o nt h et h ed a t aa r e aa c c u r a t e l y , a n dt h e na n a l y z et h e s t m c t u r es i m i l a r i t yo nd a t ar e c o r d st o i d e n t i f yt h er e c o r ds i z e f i n a l l ya c h i e v et h ee x t r a c t i o nr u l ea n dg e ti n f o r m a t i o nf r o mt h ew e bp a g e si nt h ef o n no f d a t ar e c o r d sa c c o r d i n gt ot h e r u l e s i na d d i t i o n f o rf u r t h e rp r o c e s s i n g ,w eu s ee t lt o o l s0 d it oi n t e g r a t et h e i n i o r m a t i o ne x t r a c t i n gf r o md i f f e r e n tw e bs i t e sb u to nt h es a m et o p i c s o m eo t h e ra p p l i c a t i o n sc a nd i r e c t l ym a k e u s eo ft h es t r u c t u r e dd a t ar e t r i e v e df r o mt h ew e bp a g e st oc o m p l e t et h ef o l l o w u pp r o c e s ss u c ha si n f o r m a t i o n s e a r c h ,d a t am i n i n g ,m a c h i n et r a n s l a t i o n ,t e x ts u m m a r yo fw 色bi n f o r m a t i o n i na d d i t i o n t h ep a p e ri m p l e m e n t sap r o t o t y p es y s t e mo fw e bi n f o r m a t i o ne x t r a c t i o na n di n t e g r a t i o nb a s e do n c o m p a r i s o no fs i m i l a r i t yt ot h o s eb a s e do nt h ei m p l e m e n t a t i o no faw b bi n f o r m a t i o ne x t r a c t i o na n di n t e g r a t i o no f t h ep r o t o t y p es y s t e m ,a n dd ot h es y s t e ma n a l y s i s t h ee x p e r i m e n t ss h o wt h a tt h ea l o r i t h mi sv e r ye f f e c t i v ef o r v a r i o u sd y n a m i cw 色bp a g e s k e y w o r d s :w e bi n f o r m a t i o ne x t r a c t i o n ,s i m i l a rp a g e s ,e d i td i s t a n c e ,i n f o r m a t i o ni n t e g r a t i o n 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究: 作及取得的研究成果。 尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过 的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料。与我 一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 研究生签名: 日期:型阻 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印 件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质 论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布( 包括 以电子信息形式刊登) 论文的全部内容或中、英文摘要等部分内容。论文的公布( 包括以电 子信息形式刊登) 授权东南大学研究生院办理。 研究生签名:埘导师签名:叠缸匕日期: 第一章引吉 1 1 研究背景 第一章引言 随着w e b 信息的快速增长,w e b 上积聚了几乎包含任何主题的数据资料,w e b 就像是一个巨人的数 字图二忙馆,但其中的人量文档并不像现实中的图书馆那样可以分类且有一定的结构。w e b 页面缺乏统一 的结构,没有分类索引,如没有按标题、作者、目次等的索引,这就使得在w e b 上搜索信息非常凼难。虽 然通过搜索引擎可以检索并浏览一些信息,但这种方式获取的信息只有很小的一部分是相关的或有川的,。 而“9 9 的w e b 信息对于9 9 的用户是无用的”。 w e b 数据挖掘是从w w w 中发现和分析有用的信息,它把w e b 数据看作是知识的源泉,从中发现与 用户相关的知识和数据。如何将传统数据挖掘的方法有效的应用在w e b 数据挖掘中,是一个很有意义的研 究领域。目前,利用数据仓库,可以为数据挖掘提供多维和层次化视图。同样,若能将w e b 信息进行抽取 集成,将半结构化的超文本数据转换为结构化的数据,就可以构造多层w e b 信息库,以提供w e b 的多维 与层次化视图,这样就可以极人的改善w e b 数据挖掘的速度以及质量。然而,对有效的数据挖掘或数据仓 库而言,w e b 似乎太庞大了。w e b 的数据量目前以几百兆兆字节计算,而且仍然在迅速的增长。许多机构 和社团都在把各自大量可访问的信息置于网上,这使得w e b 数据仓库的构建十分困难。 w e b 是一个动态性极强的信息源,它不仅以极快的速度增长,而且其信息还在不断的发生着更新。新 闻、股票市场,公司广告和w e b 服务中心都在不断的更新着各自的页面。连接信息和访问记录也在频繁的 更新之中。目前出现了一些全新的基于w e b 的应h j ,例如监控股票市场的及时行情,比较各个站点的商品 价格、跟踪合作伙伴或竞争对手的动态,集成企业内部和外部的各种信息包括位于w e b 上的信息等。此外, 人们希望利用智能代理技术或专fj 的应用程序以自动完成某些 :作。而仅凭搜索引擎和w e b 查询技术无法 满足这样的要求。 综上所述,尽管从网上可以找到几乎所有知识领域的数据资料,但是相关的数据操纵和控制却是不尽 人意。为了更加有效的组织和获取网上数据资料,有效地发现和利用i n t e r n e t 上资源,近年来,国内外很 多学者对w e b 信息的抽取进行了深入研究。利用w e b 信息抽取技术,通过对特定网页的结构和数据项特 征进行分析,可以将网页中感兴趣的信息准确地抽取出来,以结构化的形式进行集成和保存,以供s q l 语言或x m l 查询语言等查询,或者供其他应用程序使用。 1 2 研究现状 信息抽取( i n f o r m a t i o ne x t r a c t i o n ,简称i e ) 是从页面集合中抽取山相关数据的过程。w e b 信息抽取的形 式化描述可以表述如卜:对于给定的一组w e b 页s ,定义一个映射w w 将s 中的对象映射到一个具有更为结构 化、语义更为清晰的数据结构d ( 如关系数据库) ,并且映射w 对与s 在语义和结构都相似的w e b 页集合s , 具有相同的功能。国外大约在8 0 年代初就展开信息抽取的研究,并取得了一些成果,那时比较好的信息系 统有f r u m p 1 】系统、a t r a n s 系统等。剑了9 0 年代,由于w e b 的流行,研究人员开始把目光转向w e b 页面 的抽取i :作,这个时期提出了很多崭新的技术,也开发出了很多j l 具。 根据自动化程度可以将w e b 信息抽取分为人j f :方式的信息抽取、半自动化方式的信息抽取和全自动化 方式的信息抽取3 大类。这种分类方式主要根据w 曲信息抽取的核一t :, w r a p p e r ( g 装器) 生成方式的不同米分 类的。采川人一i :方式信息抽取的系统主要有:w 4 f t 2 1 ,l n f o r m i a l 3 1 , a n d e s l 4 】等,采川自动半自动化方式信息抽 取的系统主要有:x w r a p 引,w i e n i6 | ,s o f t m e a l y 7 l ,s t a l k e r l 8 j 等。 根据各种l :具所采用的原理不同可以将w e b 信息抽取分为基于自然语言处理方式的信息抽取、包装器 归纳方式的信息抽取、基 - o n t o l o g y 方式的信息抽取、基丁h t m l 结构的信息抽取和基t - w e b 查询的信息抽 取【9 】【1 0 1 。 1 ) 基于自然语言处理方式的信息抽取 这类信息抽取主要适用于源文档中包含人餐文本的情况( 特别针对于合乎文法的文本) , 在一定 程度上借鉴了臼然语言处理技术,利刖字句结构、短语和字句间的关系建立基于语法利语义的抽 取规则实现信息抽取。目前采j j 这种原理的典型系统有r a p i e r l 1 ,s r v l l2 j 币i i w h i sk i u j 。这种基于自 然语言理解方式的信息抽取技术,是将w e b 文档视为文本进行处理的( 主要适川丁含有人量文本的 东南大学顾- t j 学位论文 w e b 页面1 ,抽取的实现没有利用w e b 文档独特于酱通文本的层次特性。获得有效的抽取规则需要人 量的样本学习。 2 、包装器归纳方式的信息抽取 包装器门纳方式的信息抽取根据事先由, f ;i 户标记的样本实例应刚机器学习方式的门纳算法,生 成基于定界符的抽取规则。其中定界符实际上是对感兴趣语义项上下文的描述,即根据语义项的左 右边界来定位语义项。目前采用这种原理的典犁系统有w i e n ,s o f t m e a l y 年i i s t a l k e r 。这种包装 器 纳方式的信息抽取和基丁二自然语言理解方式的信息抽取技术的不同点在于仅仅使用语义项的上 下文米定位信息,并没有使用语言的语法约束。 3 1 基 - o n t o l o g y 方式的信息抽取 基 - - o n t o l o g y 力- 式的信息抽取主要是利用对数据本身的描述信息实现信息抽取,对网页结构的依 赖较少。目前采川这种原理的典型系统有b y u b 4 l ( b r i g h a my o n gu n i v e r s i t y 信息抽取小组开发的信息 抽取j :具1 、q u i x o t e i d 儿伯j 。 4 1基于h t m l 结构的信息抽取 基于h t m l 结构的信息抽取技术的特点是根据w e b 页面的结构定位信息,在信息抽取之前通过 解析器将w e b 文档解析成语法树,通过自动或半自动的方式产生抽取规则,将信息抽取转化为对语法 树的操作实现信息抽取。目前采用这种原理的典型系统有l i x t o t l 7 】【1 8 】,w 4 f ,x w r a p 和r o a d r u n 北r 【19 1 。 5 1基于w e b 布询的信息抽取 由于上述的信息抽取技术,采用了不同的原理,抽取规则的形式和感兴趣信息的定位方式也各 不相同,因此均不具有通用性。基于,w e b 查询的信息抽取和它们最大的不同之处在于它将w e b 信息 抽取转化为使用标准的w e b 查询语言对w e b 文档的查询,具有通j j 性。目前采用这种原理的典型系统 有w 曲o q l t 2 0 l 乘lp q a g e n t 2 1 】【2 2 】。 不同的抽取工具有其不同的实现方式,对不同的w e b 网页也有不同的抽取效果和效率,有其优点也各 有不足。 1 3 本文研究内容 根据国内外在信息抽取领域的研究现状、最新发展动态以及存在的问题,本文提出一种新的动态 网页信息抽取方法一d e s r d a t ae x t r a c t i o nb a s eo ns i m i l a r i t y ) 。该方法在既不需要大量的网页,也不 需要用户参与的情况下,能够白动、准确的生成抽取规则,实现对动态网页信息的抽取。在w e b 信息抽 取的基础上,使用了一套e t l ( 、转换、加载) j = 具勺d i ,米对抽取白不同数据源的信息行 清理、转换,将其集成到目标数据仓库中,实现w e b 信息的再利用。 1 4 本文组织结构 在后面的章:肖中,本文将对w e b 信息抽取集成研究所涉及的各个领域进行详细的分析,提出一个有效 的w e b 信息抽取集成模型,并加以实现。 本论文的结构安排如下: 第一章引言部分。主要介绍课题研究背景、研究现状,以及本文研究内容和论文组织结构等。 第二章相关技术。介绍了本文所涉及的相关技术,包括h t m l 语言、x m l 、d o m 树,) ( p a i h 以及h t t p 协议等相关技术。 第二章w e b 信息抽取关键技术。对w e b 信息抽取的相关技术进行了深入的探索和研究,总结了w e b 动态网页的规律性,提出了w e b 信息抽取的有效算法。主要介绍如何获取相似性网页样本、如何对d o m 树进行预处理,如何通过比较样本网页内容相似性定位数据区域以及如何通过数据记录的结构相似性辨别 数据记录的粒度。 第四章原型系统的设计与实现。介绍w e b 信息抽取的原型系统实现,包括实现环境、系统架构、原 型系统的功能等。选择o d i 作为数据集成的i :具,帮助本文对抽取后的信息进行集成。本章简要介绍了 o d l 的进行数据集成开发的过程。 第五章实验与总结。首先出了系统评价标准,根据标准进行实验分析。然后对全篇进行概要性总结, 指出本文所作的:f :作利创新点,提出本文所做f :作的不足之处并对朱来一i :作进行展望。 2 第二章相关知识 第二章相关知识 在本章中,主要对w e b 信息抽取技术的相关知识进行初步介绍,包括h t m l 语言、x m l 语言、x p a t h 查询语言、w e b 网页与d o m 树以及h t t p 协议的概念。 2 1h t m l 2 1 1h t m l 语言的发展 随着i n t e r n e t 的迅速发展,计算机标记语言以其自身独有的特点为信息共享提供了许多便利,从而得到 了用户的广泛重视,标记语言对促进i n t e m e t 的发展也有着不可磨灭的功劳,现就标记语言的发展历史作简 单的介绍。s g m l 是s t a n d a r dg e n e r a l i z e dm a r k u pl a n g u a g e 的简称,实际上是一种通用的文档结构描述符号 化语言,主要用来定义文档模型的逻辑和物理结构。超文本标记语言h t m l ( h y p e rt e x tm a r k u pl a n g u a g e ) 是一种基于建立超文本超媒体文档的标记语言,是s g m l 的一种应用,它具有通川的语义,适合于表示各 系统域的信息。1 9 8 9 年,欧洲物理量子实验室( c e r n ) 的信息专家蒂姆伯纳斯李发明了超文本链接语言, 使用此语言能轻松地将一个文件中的文字或图形连到其它的文件中去,这就是h t m l 的前身。1 9 9 1 年,蒂 姆伯纳斯,李在c e r n 定义了h t m l 语言的第一个规范,之后成f l :1 w 3 c ( w o r l dw i d ew e bc o n s o r t i u m ) 负责 控制,它的土要目的是成为一种通川语言,通过定义网页中的不同部分将它们按功能分类,以便浏览器能 正常显示它们。 2 1 2h t m l 的特点 h t m l 的核心是标记,而h t m l 的标记比较繁多,而且各个版本还有所不同。h t m l 文档是由标记和 元素组成的。h t m i 标记确定了浏览器所显示文档元素的格式,它由左尖括号和右尖括号组成。如 是位于h t m l 文档中的第一个条目,大多数h t m 蛳记是成对出现的,它们分别川作开始标记和结束标记, h t m l 的结束标记与开始标记的唯一区别是多了个斜杠。h t m l 文档由标题 和主体 两部 分组 图2 1h t m l 文档的基本结构 h t m l 提供如下的基本功能: 1 ) 发布带有标题、文本、表格、列表、图像等在线文档。 2 ) 通过超级链接米获取在线信息。 3 ) 设计各种表单米提交或查询信息。 4 ) 在文档中直接包含电子表格、视频流、音频流等高级麻_ 【 j 程序。 5 ) h t m l 还可以通过u r l 语法,描述跨越i n t e r n e t 各节点的超级链接,简单而实用的实现了跨越整个 i n t e m e t 空间的数据存取,并且不因系统的不同而破坏文档的完整性。 h 1 m l 的特点如1 - : 3 东南大学硕i :学位论文 从h t m l 的发展来看,它是一种用于描述文档结构的语言,而不是用来描述文档实际外观的。在 一般的字处理程序或页面布局程序当中,样式并不称作页面的“元素”,样式还包括样式信息,如字 体和字号、缩进、下划线等。当你希望把某些文字显示为标题时,可以应川“标题”样式,稃序 会自动将这些文字格式化为止确的格式。而h t m l 并不是这样,h t m l 通常并未规定某个页面如 何显示,h t m 嘛记只能说明某个元素是标题或州表,但不能说明这些标题或列表采用何种样式 来显示,所以h t m l 不能描述页面布局。 从h t m l 的文档结构来看,整个文件处于标记 与 之间, 用以声明这 是h t m l 文件,让浏览器识别并正确处理此h t m l 文件。文件分两部分,由 至 称为开头,由 至 称为本文。 从h t m l 的存储方式米看,编写的h t m l 页面是纯文本文件( a s c n ) ,其中没有包含任何与平台或 程序专j h j 的信息。支持文本的任何编辑器都可以读这些文件。 从h t m l 网页被处理的方式来看,h t m l 网页本身有一定的层次结构,h t m l 网页在被n a v i g a t o r 处理时,采用“自顶向卜”的做法。一般说来,一个w e b 网页是被n a v i g a t o r j l l 页序处理的,n a v i g a t o r 从h t m l 文件的顶部开始,一边计算怎样把输出显示在屏幕上,一边依次向后处理。这样, n a v i g a t o r 从h t m l 文档的h e a d 部分开始,然后再从b o d y 的顶部开始依次处理。 2 1 3h t m l 的局限性 h t m 眩所以能够流行,是因为它有简洁的语法,但也正是由于它过于简洁,所以也有很多地方令人 头痛。主要问题如下: 无效超链网页本身不能及时地改变自己网页中的u r l ( 统一资源定位器) 以适应链接网页的变 化,这就造成了大量的无效超链。暴露了h t m l 存在的弊端,它缺乏中心数据库来记录链接的信 息。语法检查由于缺乏严格的语法定义,h t m l 文档的正确性很难得剑确认。为了使文档的显示 过程更加强健,浏览器通常忽略语法分析,不检查语法的止确性。 结构支持h t m l 缺乏对复杂结构的支持,例如h 刑坏能支持分层嵌套信息结构。h t m l 文档 间的联系完全是平面的,这限制了全文检索技术的应用,也使得浏览的过程显得笨拙而繁琐。 内容提取搜索引擎机械地逐一检索每个页面中所有可以匹配的内容,往往得剑太多的、难以 判断的数据采样。这是由于h t m l 混淆了信息和隐含信息的表达,类型信息和逻辑信息都被显式 地弓在文档中的缘故。 数据交换h t m l 难以实现自动的数据交换。它的标签只用来控制文档的显示,却不能标示出数 据域。 信息重用h t m l 不易重复使用已有的信息。如果要重新在网上发布同样的信息,或者希望为 已有的信息编辑可打印的目录,或需要把网上的数据存入数据库时,往往不得不用手:1 :进行处 理。更糟糕的是当网上的数据发生变化时,这些过程都必须重做。 动态更新用h t m l 创建的主页不允许使用者改变页面的外观属性,诸如颜色、字体、背景等, 除1 f 使用者载入新的页面,或者使用j a v a d 、程序。但是任何存储在j a v a 中的数据都不能被搜索引 擎发现。 对象化开发者希望能够充分利用当今对象技术的强火力量。对象模型允许把网页的任何部分都 看成对象,但是现在h t m l 的标签还不能被映射成这种对象模型。 2 2x m l 2 2 1x m l 产生 这儿年随着网络技术的不断发展,特别是互联网的蓬勃兴起,h t m l 成了信息交流的标准格式。但是人 们在感受它在布局、外观方面强人的同时,也逐渐体会到了它在许多方面特别是是在信息涵义的表达能力 方面的不足。为了推动且联网技术继续向前发展,1 9 9 6 年w o r l dw i d ew e bc o n s o r t i u m ( w 3 c ) f 1 1 织制定了一 套新的标准一x m l ( e x t e n s i b l em a r k u pl a n g u a g e ) ,它是以1 9 9 8 。发展的s o m l ( s t a n d a r dg e n e r a l i z e dm a r k u p l a n g u a g e ) 为基础,是s g m l 的子集。另外x m l 比s g m l 改进的地方是,它平i i h t m l 一样地继承了w e b 的功 能,这使得x m 啪别适合在网上传输和处理。x m l 推出不久,就得剑了不少公司和机构的人力支持。 4 第二章相关知识 2 2 2x m l 概述 x m l 可扩展的标记语言是e x t e n s i b l em a r k u pl a n g u a g e 的缩写与h t m l 相似,x m l 是一种显示数据的标 记语言,它能使数据通过网络无障碍地进行传输,并显示在用户的浏览器上。x m l 是一套定义语义标记的 规则,这些标记将文档分成许多部件并对这些部件加以标识。它也是元标记语言,即定义了刚于定义其他 与特定领域有关的、语义的、结构化的标记语言的句法语言。 x m l 是一种元标记语言。与h t m l 中l 制定的标记不同,在x m l 中用户可以定义自己需要的标记。这些 标记必须根据某些通用的原理米创建,但是在标记的意义上,也具有相当的灵活性例如用户正在处理与出 版的书刊有关的事情,需要描述出版物的名称、作者、出版社、出版的时间等,这就必须创建川丁每项的 标记。新创建的标记可在文档类型定义( d o c u m e n tt y i xd e f i n i t i o n ) ,在以后的篇幅中常简称为d t d l 中加以 描述。 x m l 定义了一套元句法,与特定领域有关的标记语言( 女h m u s i cm l ,m a t hm l 和c m l ) 都必须遵守如果 一个应川程序可以理解这一元句法,那么它也就臼动地能够理解所有的由此元语言建立起来的语言。片j 户 在浏览器中浏览x m l 文档的时候,浏览器首先读入文档或它的d t d ,然后解析给定文档使用的标记,这样 浏览器就可以解释多种不同的标记了。x m t 2 , ? , 记描述的是文档的结构和意义,它不描述页面元素的格式化。 文档本身只说明文档包括什么标记和包含那些数据,至于如何显示这些标记的内容则要依赖x s t l x s l 样 式表。 2 2 3x m l 的优越性 虽然x m l 和h t m l 都是s g m l 的子集,但是w 3 c 在设计x m l 时,就考虑了现在互联网发展的要求和 h t m l 的不足,所以在x m l 与h t m i 瑚比主要有以。b j l 个优点: x m l 可以创建自己的标记,x m l 允许人们根据某些通川的原理米创建自己需要的新标记,所以在标记 的意义上,具有相当的灵活性。而不是象h t m l 那样,是一种只有一个固定标记集的特定标记语言。 这些标记可通过x m l d t d 或x m l s c h e m a h a 以定义,x m l 的可扩展性就在于此。 x m l 是自描述语言,x m l 使用的是非常简单的数据格式。x m l 文档中的数据可被任何能够对x m l 数 据进行解析的应用程序所提取、分析和处理,并以所需格式显示。x m l 以其数据和表现相分离的特性 和强大的数据表达能力,己经成为互联网和数据库之间沟通的桥梁,它的出现使文本的互联网转变为 一个全球范围的分布式数据库。 x m l 不仅可以表达数据的内容,同时可以表达数据的结构,针对特定的应用,开发人员可以创建特 定的数据类型,通过使用x m l 为中介,人们可以在不同的系统之间交换异构的结构化数据,使川x m l 有助丁结构化和非结构化数据的集成等。 x m l 数据模型与半结构化数据之间的对应是非常明显的,许多半结构化数据模型的研究可以容易地 应刚剑x m l 数据上。 2 2 4x m l 的语法结构 一个格式良好的x m l 文档由三个部分组成: 一个可选的序言( p r o l o g ) : 文档的主题( b o d y ) ,由一个和多个元素组成,其形式为一个可能包含字符数据的层次树; 可选的尾卢( e p i l o g ) ,其内容包括注释、处理指令( p r o c e s s i n gi n s t r u c t i o n ,p i ) 和或紧跟元素树后面的空 白。 由于序言和尾声部分都是可选的,下面以图2 2 所示的x m l 文档为例来介绍x m l 的语法结构。 5 东南人学倾。i j 学位论义 文档规则的简洁表示很重要; 希望用户能够通过内部参数集覆盖将类型专门化; 文档规则主要考虑元素的嵌套而不是内容的语义约束: 惯常使用的l :具支持d t d 胜丁二支持s c h e m a 。 根据系统的实际情况和d t d 的特点,在本文中采用d t d 作为设计x m l 文档的导则。 2 3d o m 树 2 3 1d o m 定义 d o m 全称是d o c u m e n t0 b j e c tm o d e l ,d o m 就是一个文档对象组成的模型w 3 c 开发了一组独立于语言 和平台的接e l ,叫做文档对象模型( d o m ) 。d o m 可以将文档当作树状数据结构,而不是一种带标记的h t m l 文本,进行访问和操作。文档中的所有内容都可以作为树结点来描述和访问。 d o m 的核心是将面向对象的概念引入h t m l x m l 文件的处理中。在d o m 以前,无论是h t m l 还是 x m l ,均被看作是包含各种组件的数据集合,以面向数据的方式管理文件。引入对象后,在d o m 看来, h t m l x m l 的组件不仅仅包含数据本身,每一个h t m i _ c x m l 中的组件( e l e m e n t ) 还包含有方法( m e t h o d ) 和 属性( a t t r i b u t e ) 。d o m 定义了使用这些方法和属性的a p ! ,通过方法和属性米存取和管理组件。 2 3 2d o m 和h t m l 树型逻辑结构 首先经过处理过的h t m l 文档被转换为x h t m l 文档,具有“格式良好”的x m i _ 特征,d o m 通过对h t m l 文件的再解释,生成一个文件的树型内部结构,称为文件的树型逻辑结构或逻辑结构,d o m 在进行了文件 解释时,将h t m l 文件看成一棵树, 作为树的根,而h t m l 文件的其它组件被看作树中的结点 ( n o d e ) ,可以作为父结点包含结点,也可以作为其它结点的子结点。同一层的结点成为兄弟结点。下面一 个简单的例子说明了d o m 是如何建立文件的逻辑结构。 一 -。1j as i m p l eh t m le x a m p l e i 文件头一 一一 1 j w e l c o m ej i 文件俸一 t h i si s t h eb o d yo fh t m l ! i 一 j j p 图2 4 格式良好h t m l 源码 图2 4 中h t m l 源码对应的的d o m 树结构,如图2 5 所示: 7 东南人学顺1 j 学位论文 臣t i t 自l e亡h i 图2 5d o m 树结构图 从上面的例子可以看出,原来的h t m l 文件被转化为一个树型结构,其中 是树型结构的根结 点; 、 都是 的子结点; 和 是他们的父结点: 和 互为兄弟结点。而 “as i m p l eh t m le x a m p l e ”是 的值( v a l u e ) 。 在本文中为了分析源网页,采用了d o m 树的方法来定义源网页的模式结构。 2 4x p a t h x p a t h 2 3 】是w 3 c 推荐的在x m l 文档中定位的技术,是一种用来标识x m l 文档特殊部分的非x m l 语言。 x p a t h 语言定义了如何在x m l 文档中精确定位和匹配x m l 的元素结点。x p a t h 类似于操作系统中的文件管 理路径,通过文件管理路径,可以按照一定的规则奄找到所需要的文件,同样,依据x p a t h 所制定的规则, 也可以很方便地找到x m l 结构文档树中的任何一个结点。在逻辑上,x p a t h 将x m l 文档以结点树的方式进 行寻址定位操作,并将结点划分为元素结点,属性结点和文本结点等类犁。 x p a t h q b 最基本的表达式是位置路径表达式( l o c a t i o np a t h ) 。通过位置路径表达式,可以精确的查找到 x m l 元素结点的位置。简单地说位置路径表达式使用如下的匹配方澍2 4 j 1 2 5 1 : 路径匹配使h j “,符号表示结点间的父子关系,使用“厂符号表示祖孙
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年证券从业资格证考试主题回顾试题及答案
- 注册会计师考生自我检查的重要性与方法试题及答案
- 通过考核2025年证券从业资格证考试试题及答案
- 微生物检验结果解释的试题与答案
- 持续完善2025年特许金融分析师考试试题及答案
- 关注2025年注册会计师考试的发展趋势试题及答案
- 注册会计师考生的心理调节与抗压能力培养试题及答案
- 叶县教师课题申报书
- 注册会计师考试案例解析技巧试题及答案
- 证券从业资格证考试难点攻克试题及答案
- 2024入团积极分子入团考试题库含答案
- 历史人物赵一曼的家书
- 前列腺癌2024治疗指南
- DL-T 5148-2021水工建筑物水泥灌浆施工技术条件-PDF解密
- 2023年广西铝业集团校园招聘试题及答案解析
- 2024-2029年中国形象设计行业发展分析及发展前景与投资研究报告
- 2024中国绿色甲醇产业研究与前景展望-云道资本
- 1500万吨-年炼化一体化项目环评
- 500字作文标准稿纸A4打印模板-直接打印
- 山东春季高考(职教高考)语文历年考试真题题库汇总(含答案)
- 儿童康复家庭指导培训课件
评论
0/150
提交评论