(计算机应用技术专业论文)web中的非结构化文本信息管理元数据技术研究.pdf_第1页
(计算机应用技术专业论文)web中的非结构化文本信息管理元数据技术研究.pdf_第2页
(计算机应用技术专业论文)web中的非结构化文本信息管理元数据技术研究.pdf_第3页
(计算机应用技术专业论文)web中的非结构化文本信息管理元数据技术研究.pdf_第4页
(计算机应用技术专业论文)web中的非结构化文本信息管理元数据技术研究.pdf_第5页
已阅读5页,还剩73页未读 继续免费阅读

(计算机应用技术专业论文)web中的非结构化文本信息管理元数据技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 随着i n t c m e t 发展进程的加快,网络信息资源在数量上呈爆炸式增长。现有 的搜索引擎大多是基于文本和关键字的通用检索,存在查询方式单一、查准率 低、用户满意度差等诸多问题。为了解决这些问题,本文利用元数据对w e b 中 非结构化文本进行描述性标记来达到提高信息检索质量的目的。 本文的主要研究工作包括以下三个方面: 其一,对w e b 中非结构化文本信息特点进行分析后,参考国内外各种网络 信息资源元数据模型,完成了w e b 中非结构化文本信息元数据的标准化工作, 并确定了元数据的核心集。 其二,研究了w e b 中非结构化文本信息元数据的自动抽取技术。通过网络 蜘蛛程序提取标题、u r l 、作者、日期等元数据。在对关键词元数据提取过程 中,采用i c t c l a s 中文分词系统,实现了分词系统的j a v a 调用。对分词系统 中n - 最短路径的粗分模型进行了改进,通过过滤无覆盖型歧义切分结构的切分 方案,使得剩余粗分结果数量大大减少。 其三,在元数据标准的基础上,对如何有效的进行元数据的存储和资源搜 索进行了深入的研究。基于元数据的搜索能提供比基于关键词的w e b 全文搜索 引擎更为精确和语义更强的索引。本文实现了基于元数据的w e b 信息检索方法。 关键词:w e b ,元数据,非结构化文本,x m l ,中文分词,d u b l i nc o r e a b s t m c t a b s t r a c t w i t l lt h eq u i c kd e v e l o p m e n to ft h ei n t e r a c t t h e r ei sa l le x p l o s i o no fn e t w o r k i n f o r m a t i o nr e s o u r c e s h o w e v e r ,t h e r ea r em a n yp r o b l e m si nt h ee x i s t i n gf u l l - t e x t w 曲s e a r c he n g i n e s ,s u c ha ss i n g l es e a r c hm e t h o d s ,l o wa c c b r a c y ,u s e r s d i s s a t i s f a c t i o ne t c n l ct h e s i si st od i s c u s sh o wt oi m p r o v ei n f o r m a t i o ni n d e xq u a l i t y b ym a k i n gu s eo f m e t a d a t at od e s c r i b et h en o n - s t r u c t u r et e x ti nt h ew 曲 t h et h e s i si n c l u d e st h ef o l l o w i n gt h r e ea s p e c t s : f i r s t t h et h e s i sa n a l y z e st e x ti n f o r m a t i o nc h a r a c t e r i s t i c si nt h ew e b :a n da f t e r c o n s u l t i n g v a r i o u sd o m e s t i ca n di n t e r n a t i o n a ln e t w o r ki n f o r m a t i o nr e s o u r c e s m e t a d a t am o d e l ,t h et h e s i sc o m p l e t e st h ew o r ko fs t a n d a r d i z a t i o nt h em e t a d a t ao f n o n s t r u c t u r et e x ti n f o r m a t i o ni nt h ew 曲a n dc o n f i r m st h ec o r eg a t h e ro f m e t a d a t a s e c o n d l y ,t h et h e s i sr e s e a r c h e so nt h ea u t o m a t i c a l l yw i t h d r a w i n gt e c h n o l o g yo f t 1 1 en o n s t r u c t u r et e x ti n f o r m a t i o nm e t a d a t ai nt h ew e b m e t a d a t ai n f o r m a t i o ns u c ha s t i t l e ,u r l ,a u t h o r , d a t ei sw i t h d r a w nb yw e bs p i d e r d u r i n gt h ew i t h d r a w i n gp r o c e s s o fk e 3 ,、】v o r dm e t a d a t a ,t h et h e s i sa d o p t si c t c l a sc h i n e s el e x i c a la n a l y s i ss y s t e m , a n dr e a l i z e st h ei n v o k i n go fj a v a n 拧m o d e lo fr o u g hs e g m e n t a t i o nb a s e do nt h e n s h o r t e s t p a t h s m e t h o di s i m p r o v e d ,a n d t h u s g r e a t l y r e d u c e st h e r o u g h s e g m e n t a t i o nr e s u l tb yd e l e t i n gt h er e s u l to fw o r ds e g m e n t a t i o nw h i c hc o n t a i n st h e u n c o v e r e da m b i g u i t y f i n a l l y , b a s e do nm e t a d a t as t a n d a r d ,t h et h e s i sd o e sf u r t h c rr e s e a r c ho nt h e e f f e c t i v es e a r c ha n dm e m o r ym e c h a n i s m c o m p a r e dj w i t ht h ee x i s t i n gf u l l - t e x tw e b s e a r c he n g i n e s ,s e a r c hm e c h a n i s mb a s e do nr a e t a d a t ac a np r o v i d em o r ea c c u r a t ea n d s e m a n t i c a l l yr i c h e rs e a r c hi n d e x e s t h et h e s i sr e a l i z e st h em e t a d a t a - b a s e dw 曲s e a r c h m e c h a n i s m k e yw o r d s :w e b ,m e t a d a t a ,n o n - s t r u c t u r et e x t ,x m l ,c h i n e s el e x i c a la n a l y s i s , d u b l i nc o r e 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作 及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方 外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为 获得石家庄铁道学院或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明 确的说明并表示了谢意。 签名:型蛆日期:垄:! :旦一! 关于论文使用授权的说明 本人完全了解石家庄铁道学院有关保留、使用学位论文的规定, 即;学院有权保留送交论文的复印件,允许论文被查阅和借阅;学校 可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手 段保存论文。 ( 保密的论文在解密后应遵守此规定) 半日期:一 第一章引言 1 1 本文研究的意义 第一章引言 随着网络覆盖范围的不断扩大以及网络技术的发展,存在于网络上的信息 资源以飞快的速度传播并迅速增长。由此带来的问题便是网络资源管理、发现 和获取的难度增加。 当前,国内外的网络信息资源检索主要是通过网络搜索引擎来实现。网络 搜索引擎【1 l 一般由信息收集软件( s p i d e r ) 、索引器( i n d e x e r ) 和查询接口( q u e r y i n t e r f a c e ) - - 部分组成。其模式如图1 1 所示。这三部分相互合作共同完成搜索任 务。 图1 - 1w e b 搜索的一般模式 ( 1 ) 信息收集软件又称为巡视程序、信息采集器,它是一种穿行w e b 空间的 计算机软件,它从一个网页跨越到另一个网页,自动追寻超文本的链接,遵循 超文本传输协议( 8 t t p ) ,从网络服务器上采集新出现的信息,并对网页的信息 进行标引,确认网页间的链接是否有效,删除不存在的链接。它标引网页的方 式将直接影响从索引数据库中检索信息的质量。 ( 2 ) 索引器其实是一个数据库,它是信息检索的基础。信息采集器将采集和 标引的信息记录在索引数据库中。不同搜索引擎记录网页的内容不同,数据库 的规模也不同。 第一章引言 ( 3 ) 查询接口,也称为检索代理。是用户与搜索引擎交互的界面。当用户提 出查询要求时,它代替用户在数据库中进行查询并返回查询结果给用户。在这 一过程中,该程序利用一些算法对文件与用户需求的相关性进行计算和评估, 并根据计算结果进行排序,将最符合用户需求的信息排在最前面。 通过对搜索引擎的工作原理分析,不难发现其存在的一些缺陷: ( 1 ) 查准率低。从上述信息检索的模型可以看出,现有搜索引擎处理的对象 都是对文档分词过后的没有任何语义修饰的词的集合,这些词的含义及词之间 的关系都不得而知。模型计算的依据都是对词在文档中的词频进行分析来判断 词在文档中的重要程度。这种重要程度缺乏语义的描述,因而是不可靠的,所 以会出现查准率低的情况。现在有很多网站在呈现查找结果时,往往罗列了很 多网页地址,但是真正和用户的意图相符的很少,有用的信息被大量无关的结 果所淹没。 ( 2 ) 搜索方式单一。现有的搜索引擎仅允许用一组关键调及逻辑运算符组成 提问。但关键词检索不能完全满足用户的要求,而且它是一种盲目的匹配。而 自然语言理解又是非常困难的任务,亦是当前研究的热点。 ( 3 ) 用户满意度差。大多数的搜索引擎都只返回一张长长的检索结果表,一 般有好几页,该表中可能包含成千上万个指向w e b 站点的链接指针。用户可能 只选择一小部分,而放弃其余部分。因为用户不可能有这么好的耐心,结果是 他们可能丢失了很多有用的信息。 出现上述问题的症结在于没有对网络资源进行恰当的信息描述。为了解决 这些问题,本文利用元数据对原始网页进行描述性标记来达到提高信息检索质 量的目的。 一般的,提高w e b 信息检索的质量包括两方面的内容:( 1 ) 如何在现有的信 息资源基础上设计更好的检索技术;( 2 ) 如何为现有的w e b 资源附加计算机可以 理解的内容,便于计算机处理,即给出一种计算机能够理解的描述资源的手段。 基于后一种考虑,我们利用由网页携带元数据的方法来提高检索的质量。 :元数据( m e t a d a t a ) z 5 】,该词最早出现于美国航空与宇宙航行局n a s a 的目录交 换格式d i f 手册中。元数据在一定程度上类似于图书馆的书目信息,但它是出 现在传统文本和书目领域之外的一个新概念。元数据的描述对象主要是网络环 境下的电子资源,它是关于最广泛意义上的“数据”一数据集、文本信息、图 像、音乐和其它任何电子化事物的数据信息。元数据与传统图书馆编目标准的 第一章引言 不同之处还在于:它除了具有描述功能外,还具有控制、管理信息资源的能力。 因此,元数据是适用于描述任何网络数据和资源,促进网络信息资源组织和获 取的数据。 国际图联对元数据的定义是“元数据就是关于数据的数据,此术语指任何用 于帮助网络电子资源的识别、描述和定位的数据”。这意味着元数据能够采用多 种形式,以不同的级别存在,为了满足不同的目的,可以通过多种方式生成。 元数据描述了资源的属性、类别以及资源之间的关系等信息,使w e b 上的 信息由不可靠变为可靠,由没有语义修饰变为带有语义修饰,为充分开发利用 w e b 资源提供了前提条件和可能。 随着网络和计算机技术的发展,元数据逐渐成为一个专门的研究领域,相 关的研究问题包括元数据的标准化,元数据的组织形式,元数据的存储,元数 据的搜索等等1 6 - 1 0 1 。随着研究的不断深入,元数据在网络、电子商务、数字图书 馆和地理信息系统中得到了十分广泛的应用,它也是目前方兴未艾的s e m a n t i c w e b 的一个重要基础。 本文中的元数据所描述的对象是w e b 中的非结构化文本资源。而用以描述 w e b 中的非结构化文本资源的信息,以促进它的分类、检索和存储的元数据就 是w e b 中的非结构化文本资源元数据。它的用途总结如下: ( 1 ) 总结数据的含义; 允许用户管理、查找、获取数据; ( 3 怖助用户理解数据,判断数据是否满足自己的需要,是否适合自己; ( 4 ) 提供一致的数据描述,促进数据的共享和互换; ( 5 ) 在元数据的基础上建立其它应用。 虽然元数据的出现为解决数据的查找、管理和共享提供了有效的途径,但 同时也带来了另一个问题:元数据使用方式的不统一使得资源无法达到有效的 共享,造成资源的重复开发和浪费。因此我们需要定义一个通用的网络资源元 数据模型,使之得到广泛的采纳,在此基础上实现网络资源统一有效的查找、 定位、评价、获取和管理。制定网络资源的元数据标准的目的即在于此。 另外,要实现网络资源的元数据信息检索,除了制定网络资源元数据标准 外,还要对网页中的元数据进行抽取和存储,这也是本文的主要研究内容。 第一章引言 1 2 本文相关的研究项目 本研究是河北省自然基金项目“电子政务安全架构及其技术研究”中重要 内容之一,通过对w e b 中的非结构化文本信息管理元数据技术的研究,为构建 电子政务专业数据库、实现电子政务内容管理系统打下良好的基础。 1 3 本文的主要工作 本文立足于w e b 中的非结构化文本信息元数据标准,从标准的研制与应用 的角度出发,对标准的本地化、w e b 中非结构化文本信息元数据自动抽取、网 络环境下基于元数据的信息检索等问题进行了研究和探讨,具体包括: ( 1 ) 在认真分析w e b 中非结构化文本信息特点的基础上,制定了w e b 中非结 构化文本信息元数据标准及其核心集,并对标准的著录规则进行了详细的定义。 ( 2 ) 对w e b 中非结构化文本信息元数据自动抽取技术进行了研究,提出了基 于元数据的w e b 信息检索模型,实现了核心元数据的自动提取。在关键词元数 据提取过程中,采用了中科院开放源代码中文分词系统,并对其中n - 最短路径 粗分模型进行了改进,使得在不考虑未登录词的情况下,对正确结果的召回率 达到1 0 0 。 ( 3 ) 研究了w e b 中非结构化文本信息元数据的存储与检索问题,遵照w e b 非 结构化文本信息元数据标准实现了元数据查询系统原型。 第二章w e b 中的非结构化文本信息元数据的标准化 第二章w e b 中的非结构化文本信息元数据的标准化 w e b 中的非结构化文本信息元数据的标准化是达到最大程度的资源共享和 应用互操作的关键。本章是作者在w e b 中的非结构化文本信息元数据标准化方 面的研究工作总结,包括w e b 中的非结构化文本信息特点分析,w e b 中的非结 构化文本信息元数据标准的内容和作用、著录规则及其元数据核心集。 2 1国外元数据标准的研究 由于国外的元数据标准制定工作要早于我国,在制定本地化的w e b 中的非 结构化文本信息元数据标准时,参考了国外较为成熟的一些元数据标准,现分 别介绍如下“。 2 1 1 艺术作品描述类目 c d w a ( c a t e g o r i e sf o rt h ed e s c r i p t i o no fw o r k so fa r t ) ,该元数据标准是由 a i t f ( t h e a r t i n f o r m a t i o n t a s k f o r c e ) 开发,主要为提供和使用艺术信息的团体( 如 博物馆和档案馆) 描述艺术作品( 包括其图像) 提供结构化工具。它的描述重点在 于“可动”的对象及其图像,包括来自不同时期和地理范围的油画、雕刻、陶艺、 金属制品、家具、设计、表演艺术等等。 该元数据标准的元素( c a t e g o r i e s ) 邑括2 7 个一级元素,有些元素下还有下一 级的子元素。例如题名,名称一项,就包括有名称正文( t e x o 、类型( t y p e ) 、日期 ( d a t e ) 、评论( r e m a r k s ) 、引文( c i t a t i o n ) 5 个子元素,有些元素中的子元素还包括 有再下一级的元素,共有2 7 0 余个类目之多。 2 1 2 都柏林核心元素集 d u b l i nc o r e ( d u b l i nc o r e ) ,都柏林核心元素集描述的对象是网络资源,最初 由美国o c l g 公司发起,国际性合作项目d u b l i n c o r e m e t a d a t a i n i t i a t i v e 设计。 目的是要建立一个广泛的元数据元素集,可以描述任何网络信息资源,并足够 的简单以至任何作者无需专门的培训就可以创建自己文件的元数据。d u b l i n c o r e 第二章w e b 中的非结构化文本信息元数据的标准化 由于具有创建和维护简单、广为理解的句法、系统互用性、可扩展性等特点, 使它成为被最广泛接受的元数据格式。目前,d u b l i nc o r e 己经拥有1 5 个基本元 素,并可以使用t y p e 和s c h e m e 限定词以及l i i l k 参照对元素进行扩展。 d u b l i nc o r e 旨在为各行各业的元数据使用提供个最精简的标准集,即其 中规定的元数据元素都是大多数被元数据描述的事物( 图书、电子资源、地理 信息) 等具备的属性,各行各业的应用者在遵循d u b l i nc o r e 的基础上,可以继 续添加自己领域的专有元素。这样,一个基本的元数据标准集就能够在尽可能 广的范围内推广使用,并在这一过程中得到反馈,不断的修订、发展和完善。 d u b l i nc o r e 的成熟和广泛使用为其它元数据相关的标准提供了参考,现今 大多数元数据标准都参考了d u b l i nc o r e ,并提供与d u b l i nc o r e 的比较以及由其 本身向d u b l i nc o r e 的映射。 2 1 3 编码档案描述 e a d ( e n c o d e d a r c h i v a l d e s c r i p t i o n ) ,由美国国会图书馆网络开发,主要用于 描述档案和手稿资源,包括文本文档、电子文档、可视材料和声音等记录。e a d 符合档案、手稿特藏的特质,提供结构化、多层式、完整详细的描述规范。在 1 9 9 8 年发表其e a dv e r s i o n1 0 。 由e a d 的文件类型定义包含的元素及其架构,可了解e a d 档案资源描述 标准,它不仅适用于描述文件与非文件的信息组织方式,也适用于多元化的网 络环境。e a d 的定义包含了结构化的资料层级,可完整的描述档案资源的层级 关系,并能在检索工具中反映描述资料本身的内容,可促进档案电子资源的检 索效益。e a d 的设计是以s o m l d t d 为依据的,提供档案检索工具详尽的多层 级的描述标准,符合档案特藏本身具备的层级关系,可表示层级间的互相关系 并加以连结,亦可将某特定层级的信息结构移转,并可支持特殊项目的索引 与检索。e a d 的描述格式除了适合档案、手稿特藏多层级的著录原则外,依据 s g m l 发展的结构化资源描述标准,更能达成电子资源交流、检索、取用的智 能控制目标。 2 1 4 联邦地理数据委员会 f o d u b l i nc o r e ( f e d e r a lg e o g r a p h i cd a t ac o m m i t t e e ) ,1 9 9 4 年通过地理空间元 第二章w e b 中的非结构化文本信息元数据的标准化 数据内容标准c s d g m ( c o n t c n ts t a n d a r d sf o rd i g i t a lg e o - s p a t i a lm e t a d a t a ) 。由美 国联邦地理数据委员会的地理元数据项目起草,目的是确定一个描述数字地理 空间数据的术语及其定义集合,包括需要的数据元素、复合元素、它们的定义 和域值以及描述数字地理空间数据集的元数据信息内容。 f g d u b l i nc o r e 元数据标准规定了三种性质的子集、复合元素和元素。这三 种性质是:必需的,即必需提供的信息:一定条件下必需的,即如果正在建立的元 数据包含某子集、某个实体,或某个元素说明的特征,则必需提供的信息:可 选的,即该信息是可选的,由用户决定是否将其包含在元数据文件中。f o d u b l i n c o r e 是按照段( s e c t i o n ) 、复合元素( c o m p o u n de l e m e n t ) 、数据元素( d a t ae l e m e n l ) 来组织的,包括7 个主要段和3 个辅助段。 f g d u b l i nc o r e 标准中既有描述数据属性的信息,如空间数据组织、空间参 照系统信息,实体和属性信息,其余都是与数据集有关的描述。这是因为对空 间信息而一言,单个矢量点上的信息并没有太多实际意义,只有构成一定规模 的数据集后才可以加以利用。因此在对数据集的描述中,侧重在数据集的获取、 使用方法、状态等方面。 2 1 5 政府信息定位服务 o i l s ( g o v e r n m e n ti n f o r m a t i o nl o c a t o rs e r v i c e ) , 目的是为公众提供可以方便 的检索、定位、获取公共信息资源的服务。 g i l s 体系是一个分布式信息资源利用体系。各政府机构利用o i l s 规定的 标准描述自己的信息资源,建立相应的资源目录和检索系统( o i l s 定位器或 o i l s 服务器) 。如果信息资源本身是数字化资源,则在资源目录和实际资源间建 立链接,公众可以通过互联网直接检索这些目录数据,并通过链接直接获得有 关数字化资源。g i l s 体系的基本构建要素是对具体资源进行描述的元数据,即 o i l s 记录( o r e sl o c a t o rr e c o r d ) ,它用来描述信息资源的内容、位置、服务方式、 存取方法等,描述对象主要是来自政府的公用信息资源。 o i l sp r o f i l e 具有重要的作用,包括了元数据标准,数据的传输格式,还详 细说明了g i l s 使用z 3 9 5 0 协议进行一致检索的方法。而且还提供了所有跟g i l s 核心元素有关的g i l s 应用的规则,包括了z 3 9 5 0 领域之外的支持g i l s 规则的 服务器的其他方面。o i l s 服务器遵循z 3 9 5 0 协议检索o i l s 数据,在实际传送 记录时支持的数据传输格式有4 种格式,可以根据对方要求选择其- - :u s m a r c , 第二章w e b 中的非结构化文本信息元数据的标准化 g r s ( g e n e r i cr e c o r ds y n t a x ) s g m l ,s u t r s ( s i m p l eu n s t r u c t u r e dt e x tr e c o r d s y n t a x ) ,其中s u t r s 是一种无结构的文本格式,数据元素内容的排列由服务器 自行定义。 2 1 6 电子文本编码标准 t e i ( t e x te n c o d i n gi n i t i a t i v e ) ,适用于对电子形式的全文的编码和描述。t e l 元数据标准同时也规定了可供数据交换的标准编码格式,使用s g m l 作为编码 语言。t e l 格式具有很大限度的灵活性、综合性、可扩展性,能支持对各种类型 或特征的文档进行编码。t e i 元数据标准可以对元数据( 通常叫做书目信息部分) 和内容数据进行描述。 2 1 。7 视觉资料核心类目 v r a c o r e ( c o r ec a t e g o r i e sf o r v i s u a lr e s o u r c e s ) ,由美国视觉资料协会制定, 为在网络环境下描述艺术、建筑、史前古器物、民间文化的艺术类可视化资源 而建立的元数据格式。v r a 著录单元集合比较简单,v r a c o r e 格式由两部分组 成: 一是作品著录类目( w o r kd e s c r i p t i o nc a t e g o r i e s ) :用于任何一种作品实体或 某种视觉文献所记载的原始作品( 多为三维作品) 的著录,包括1 9 个数据单元:作 品类型( w o r kt y p e ) 、载体材料( m a t e r i a d 、技术( t e c h n i q u e ) 、尺寸( m e a s u r e m e n t s ) 、 日期( d a t e ) 、附注( n o t e s ) ,题名( t i n e ) 、责任者( c r e a t o r ) 、责任方式( r o l e ) 、主题 f s u b j e c t ) 、相关作品( r e l a t e dw o r k ) 、与相关作品间的关系( r e l a t i o n s h i pt y p e ) 、收 藏单位名称( r e p o s i t o r yn a m e ) 、收藏地点( r e p o s i t o r yp l a c e ) 、收藏号( r e p o s i t o r y n u m b e r ) 、现存地点( c u r r e n ts i 饴) 、原始收藏或发现地点( o r i g i n a ls i r e ) 、民族文 化( n a t i o n a l i t y f u a t r e ) 、风格时期派别运动( s t y l e p e r i o d g r o u p m o v e m e n t ) 。 另一个是视觉文献著录类目( v i s u a ld o c u m e n td e s c r i p t i o nc a t e g o r i e s ) :用于记 载某一种作品实体的视觉文献的著录。所谓视觉文献,是指如某一雕塑的照片、 某一教堂的幻灯片、某一油画的数字图像等。这部分包括9 个数据单元:视觉文 献类型( v i s u a ld o c u m e n tt y p e ) 、视觉文献格式( f o r m a t ) 、视觉文献尺寸 ( m e a s u r e m e n t s ) 、视觉文献出版日期( d a t e ) 、视觉文献收藏者( o w n e 0 、视觉文献 收藏号码( o w n e rn u m b e 0 、视觉文献视点描述( v i e wd e s c r i p t i o n ) 、视觉文献主题 第二章w e b 中的非结构化文本信息元数据的标准化 ( s u b j c o t ) 、视觉文献来源( s o u r c e ) 。 2 2 w o b 中的非结构化文本信息特点分析 w e b 中的非结构化文本信息在广义上指通过国际互联网可以获得的一切非 结构化文本资源。 2 2 1w e b 中的非结构化文本信息的定义及特点 在此,w e b 中的非结构化文本信息系指网络上可以公开访问的、具有网络 标识( 例如u r l 、u r i 、d o i 等) 的非结构化文本资源对象。此外,w e b 中的 非结构化文本资源的特色还包括: ( 1 ) 信息发布自由,信息来源广泛; ( 2 ) 信息量极大,传播范围极广; ( 3 ) 信息内容庞杂,质量不; ( 4 ) 网络信息的使用与提供信息的站点的软硬件和服务有关; ( 5 ) n 站是信息活动的单位,页面是信息发布的基本单位。 2 2 2w e b 中的非结构化文本信息著录单位 ( 1 ) 对网络资源著录单位的限定 原则上,一切网络上可以公开访问的、具有网络标识( 例如u r l 、u r i 、 d o i 等) 的资源对象均可以作为著录单位。这里结合实际的应用,对著录单位 限定为: 只处理有u r l 且能用h t m l 显示的网页资源: 在万维网( w o r l dw i d e w e b ) 上可公开访问的资源。 ( 2 ) 选择网络资源的推荐准则 对于具体操作的著录单位,可参照以下准贝g 1 2 1 , 权威性 指所选择的网络资源是否具有权威性,网络资源的创建者是否为图书馆、 档案馆、政府机构、教育机构或学会等团体,即资源创建者应该具有一定的稳 定性与研究能力,在这一学科有一定的影响。 时效性 第二章w e b 中的非结构化文本信息元数据的标准化 网络资源是否代表了最新的学术信息,或者网络资源的编辑人员是否经常 更新资源。 持久性 网络资源的创建机构是否已经有定的历史,日后可持续性的发展如何。 受欢迎的程度 是否有用户推荐过此网络资源,如果该网络资源有邮件列表订阅等功能, 那么订阅者是不是很多;此网络资源是不是在这一学科领域有着广泛的用户支 持等。 网络资源的粒度的处理 指网络资源是网页( w e bp a g e ) ,还是网站( w e bs i t e ) 等。 2 3 w e b 中的非结构化文本信息元数据标准的内容和作用 2 3 1 标准的内容 根据课题研究的需求并深入分析w e b 中的非结构化文本信息的特点,w e b 中的非结构化文本信息元数据方案复用d u b l i nc o r e “”“1 ,并做一些本地化的扩 展。 前面已经对d u b l i nc o r e 元数据标准做了简要的介绍。作为一种切合网络信 息资源编目要求的元数据标准,其1 5 个要素分为三大类。 ( 1 ) 资源内容描述类元数据项 题名( r i d e ) 、主题( s u b j e c o 、描述( d e s c r i p t i o n ) 、来源( s o u r c e ) 、语种( l a n g u a g e ) 、 关联( r e l a t i o n ) 、覆盖范围( c o v e r a g e ) 。 ( 2 ) 知识产权描述类元数据项 创建者( c r e a t o r ) 、出版者( p u b l i s h e r ) 、其他责任者( c o n t r i b u t o r ) 和权限( r i g h t s ) 。 ( 3 ) 外部属性描述类元数据项 日期( d a t e ) 、类型( t y p e ) 、格式f f o r m a t ) 和标识符( i d e n t i f i e r ) 。 d u b l i nc o r e 元数据是描述、支持、发现、管理和检索网络资源的信息组织 方式,内容简洁规范,比较全面地概括了电子资源的主要特征,涵盖了资源的 重要检索点、辅助检索点或相关检索点,以及有价值的说明性信息。 d u b l i nc o r e 是一个比较简单和通用的元数据模型,但其中的一些元素没有 第二章w e b 中的非结构化文本信息元数据的标准化 入选作者本地化标准集中,例如c o v e r a g e 、r i g h t s 和r e l a t i o n 。作者认为c o v e r a g e 和r e l a t i o n 这两个元素的重要性不是非常明显,而r i g h t s 所代表的知识产权在 国内长期以来一直被忽略,现阶段的作用不大。d u b l i nc o r e 中没有但被选入我 们的标准集的元素,则是用于描述元数据本身和分类信息的元素。这些数据元 素在资源库的建设、管理以及资源的搜索和评价方面都起着较为重要的作用, 因而被选入了标准集。 具体元素及元素修饰词如表2 1 : 表2 - 1w e b 中的非结构化文本信息元数据标准元素及修饰词 元素 元素修饰词 题名交替题名 创赭1 纛 标识符 日期 出版者联络方式 语种 资源评价 各元素及元素修饰词定义如下: ( 1 ) 题名:由创建者或出版者赋于资源的名称。 ( 2 ) 交替题名( 修饰词) ;正式题名外的其他名称。 ( 3 ) 创建者;创建资源知识性内容的主要个人或团体。 ( 4 ) 机构( 修饰词) :责任者所在的单位,这里责任者主要指个人。 ( 5 ) 联络方式( 修饰词) :可以联系到责任者的任何方式。包括电话、e m a i l 、 通信地址等等。 f 6 ) 主题:资源内容的主题描述。通常,主题用描述资源论题的关键词、关 键词词组或分类号表示;建议最好从受控词表或规范分类法中取值。 ( 7 ) 标识符:在特定范围内给予资源的一个明确的标识。对资源的标识采用 符合某一正式标识体系要求的字符串或数字。例如统一资源标识符( u r i ) ,统一 资源定位符( u r l ) ,数字对象标识符( d o i ) 和国际标准书号( i s b n ) 都是正式的 标识体系。 第二章w e b 中的非结构化文本信息元数据的标准化 ( 8 ) 日期:与资源生命周期中的一个事件相关的时间。这里指资源创建的日 期。 。 ( 9 ) 描述:对资源内容的任何说明。一般指资源内容的总结、提要。 ( 1 0 ) 出版者:使资源成为可以获得并可用的责任者。出版者的实例包括个体, 组织,或服务。一般而言,应该用出版者的名称来标识这一条目。 ( 1 1 ) 语种:描述资源知识内容所使用的语种。 ( 1 2 ) 资源评价:著录人员、专家、读者等对资源的评价信息,比如资源对象 在具体应用时的重要程度或层次级别。 d u b l i nc o r e 元数据还对元素值所属的编码体系进行了限定,称为编码体系 修饰词。用某一编码体系表示元素值就意味着该值或者是来自某一控制词表的 语义符号( 如分类体系或主题词表中的术语) ,或者是格式符合某种正式编码标准 的字符串( 如“2 0 0 0 叭0 1 ”作为一个日期的标准表达) 。如果一种编码体系无法被 客户机或代理器理解,但符合该体系的元素值仍有可能被人类所理解。用于作 修饰词的编码体系的说明必须清晰明确。并能够方便地获得。w e b 中的非结构 化文本信息元数据标准的编码体系修饰词如下: ( 1 ) 主题元素编码体系修饰词 l c s h 美国国会图书馆标题表:美国国会图书馆编制的一部大型综合性标题 表。 m e s h 医学主题词表:美国国立医学图书馆编制的专业叙词表,1 9 6 0 年开 始出版。 d d u b l i nc o r e 杜威十进分类法:美国杜威,m 编制的综合性等级列举式分 类法,分为详、简两种版本。 l c c 美国国会图书馆分类法:美国国会图书馆的综合性等级列举式分类法。 u d u b l i nc o r e 国际十进分类法;国际通用的多文种综合性文献分类法,目前 由国际文献联合会( f i d ) 统一主持对它的修订工作。 c t 汉语主题词表:一部大型的、综合性的中文叙词表,包括了人类知识的 所有门类。 c l c 中图法:中国图书馆图书分类法简称“中图法”,是中国通用的大型综 合性文献分类法。 l a s c 科图法:中国科学院图书馆图书分类法的简称,是中国科学院图书馆 为科研系统图书馆编制的一部分类法。 第二章w e b 中的非结构化文本信息元数据的标准化 ( 2 ) 日期元素编码体系修饰词 w 3 c d t f :w 3 c 日期和时间的置标规则一基于i s o8 6 0 1 规则的一个应用。 ( 3 ) 标志符元素编码体系修饰词 u r j :统一资源标识符。 ( 4 ) 语种元素编码体系修饰词 i s o6 3 9 2 :语言名称的表示代码。 r f c1 7 6 6 ;互联网r f c1 7 6 6 “表示语言的标签”。 2 3 2 标准的作用 w e b 中非结构化文本信息元数据标准的作用主要包括如下三个方面: ( 1 ) 为w e b 中非结构化文本对象的查找、评估、获取和使用提供支持。同时 也支持对象的共享和互换。 ( 2 ) 通用的概念数据模型保证元数据的不同绑定之间有较高程度的语义互操 作性。这样,不同绑定之间的转换就会变得直接。 ( 3 ) 在标准规定的基本模型的基础上可以建立不同的实现。 2 4w e b 中的非结构化文本信息元数据著录规则 2 。4 1著录资源的选择标准 网络资源发布自由、来源广泛而且内容庞杂、质量不一,著录时必须在细 致的评价与比较基础上选择优质的资源。 ( 1 ) 内容评价 学科相关性 资源内容是否与所要导航的学科相关,相关程度如何。 权威性 指所选择的网络资源是否具有权威性,网络资源的创建者是否为图书馆、 档案馆、政府机构、教育机构或学会等团体,即资源创建者应该具有一定的稳 定性与研究能力,在这一学科有一定的影响。 准确性 内容是否严谨,数据是否准确等。 第二章w e b 中的非结构化文本信息元数据的标准化 时效性 网络资源是否代表了最新的学术信息,或者网络资源的编辑人员是否经常 更新资源。 持久性 网络资源的创建机构是否已经有一定的历史,日后可持续性的发展如何。 受欢迎的程度 比如是否有用户推荐过此网络资源,如果该网络资源有邮件列表订阅等功 能,那么订阅者是不是很多。再比如此网络资源是不是在这一学科领域有着广 泛的用户支持。 ( 2 ) 形式评价 资源本身的导航是否易于使用; 有无提供元数据; 资源格式是否标准,比如是否是标准的h t m l 、是否符合互联网其他标 准规范; 对用户支持程度如何,比如是否提供f a q ,是否有十分方便的检索,是 否有联系方式等等; 设计上是否美观大方; ( 3 1 性能评价 稳定性如何,是否经常无法访问; 访问速度如何; 2 4 2 著录用文字与符号 著录所用的文字为按资源所用的文字客观著录。由著录人员给出的中文摘 要、中文关键词,中文主题词、资源评价等信息,著录文字用简体中文。著录 用符号遵循d u b l i nc o r e s v 规范,d u b l i nc o r e s v ( d u b l i nc o r es t r u c t u r e dv a l u e s ) 是个元数据的s c h e m e ,其作用就是当d u b l i nc o r e 元素值中使用修饰词( q u a l i f i e r s ) 或者分类值( v a l u ec o m p o n e n t s ) 来描述资源时,规定该元素值内容的表示方法。 d u b l i nc o r e s v 中分号用于并列的数据值的分隔,假设有元数据著录时可能有超 过两个的值( 如关键词的著录) ,值与值之间用分号隔开。其他的符号请参见详 细的d u b l i nc o r e s v 规范l z 6 j 。 第二章w e b 中的非结构化文本信息元数据的标准化 2 4 3 元素属性定义 元素属性定义包括名称、命名域、定义、元素的著录内容、修饰词、规范 档、元素必备性、元素可重复性、映射、著录范例。释义如下。 ( 1 ) 名称:元素或修饰词的唯一标记。 ( 2 ) 命名域:元素的n a m c s p a c e 名称。 ( 3 ) 定义:元数据字段的定义。 ( 4 ) 元素的著录内容:在定义的基础上,详细规定著录时的相关内容。 ( 5 ) 修饰词:修饰词的名称,取值限制,必备性,可重复性。 ( 6 ) 规范档:说明元素取值的规范。元素取值可能来自各种受控词表和规范 标记或解析规则。因此,一个使用某一编码系统表达的值可能会是选自某一受 控词表的标志( 例如取自一部分类法或一套主题词表的标志) 或一串根据规范 标记格式化的字符( 例如作为日期标准表达的“2 0 0 0 - 0 1 0 1 ”) 。 ( 7 ) 元素必备性;必备( 1 v i ) 、有则必备瞰a ) 、强烈推荐及供选择( o ) 。 ( 8 1 元素可重复性:可重复,不可重复。 ( 9 ) 映射:指与其他元数据标准的映射。 2 4 4 元素著录细则 ( 1 ) 题名 元素的著录内容:一般指资源对象正式公开的题名。资源的题名通常由创 建者或出版者给出,如果没有给出,著录人员通过把标题性的内容从文字中抽 出来形成题名;如果资源创建者或出版者所给出的题名不正确,应该提供正确 的题名以使用户能够正确理解;应在题名中著录资源的主要题名,资源的其他 各种形式需著录的题名信息通过交替题名来反映;如果资源提供多语种题名,选 择资源本身语言的题名为题名,同时在交替题名著录所有其它题名;如果资源中 没有以主要题名

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论