信息组织-元数据描述完整版_第1页
信息组织-元数据描述完整版_第2页
信息组织-元数据描述完整版_第3页
信息组织-元数据描述完整版_第4页
信息组织-元数据描述完整版_第5页
已阅读5页,还剩93页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

元数据描述

Metadatadescription第一节元数据简介概念元数据语言类型功能格式WhatIsMetadata?Metadata“Dataaboutdata”“用来描述数据的数据”有一条学生信息记录,其中包括字段姓名(name)、年龄(age)、性别(male)、班级(class)等,那么name、age、male、class就形成元数据规范。通过它们的描述,一条关于学生信息的数据记录就产生了。元数据的含义PriscillaCaplan在《你称其陈词滥调,我可称其为句法》一文中指出:元数据不过就是关于数据的数据,书目记录是元数据,TEI标题也是,或其它形式的描述。RenatoIannella在《主要元数据》一文中提出:元数据是与对象相关的数据。此数据使其潜在的用户不必预先具备对这些对象的存在或特征的完整认识,它支持各种操作。ArleneG.Taylor在《信息组织》一文中提出:元数据是对信息包裹的编码描述。元数据的含义在哈佛大学数字图书馆项目里:元数据是帮助查找、存取、使用和管理信息资源的信息。国际图联:元数据是描述资料的资料,可用来协助对于网络电子资源的辨识、描述、指示其位置的任何资料。数据库专家认为:元数据是定义和描述所有的数据项、数据存储、数据结构、外部实体等详细逻辑内容和特征的工具。微软在其.net中:元数据是一种二进制信息,用以对存储在公共语言运行库可移植可执行文件或存储在内存中的程序进行描述。元数据的含义数据存储领域:元数据表现的是巨量数据如何分布在存储介质上。数据仓库领域:是描述数据及其环境的数据。首先,元数据能提供基于用户的信息。其次,元数据能支持系统对数据的管理和维护。在软件构造领域:在程序中不是被加工的对象,而是通过其值的改变来改变程序的行为的数据。在图书馆与信息界:提供关于信息资源或数据的一种结构化的数据,是对信息资源的结构化的描述。伴随着数据与数据包裹在一起元数据与数据的关系数据内部独立于数据数据元数据元数据数据元数据数据数据元数据我们对元数据的概括以数据高效利用和交换为目的的数据集说明性数据,是专门用来描述数据的特征和属性,描述和组织信息资源,发现信息资源的语言和工具。元数据的描述对象早期:元数据主要指网络资源的描述数据。后来:逐步扩大到各种以电子形式存在的信息资源的描述数据。现在:元数据适用于各种类型信息资源的描述记录。元数据能解决什么问题?描述资源(Description)对信息对象的内容和位置进行描述,为信息对象的存取与利用奠定必要的基础。定位资源(Location)元数据包含有关网络信息资源位置方面的信息,由此便可确定资源的位置所在。发现资源(Discovery)在著录过程中,元数据将信息对象中的重要信息抽出并加以组织,赋予语意,建立关系,从而有利于用户识别资源的价值,发现其真正需要的资源。评估资源(Evaluation)元数据提供有关信息对象的诸多基本属性,使用户在无需浏览信息对象本身的情况下,参照有关标准,即可对其价值进行必要的评估。选择资源(Selection)根据元数据所提供的描述信息,用户便能够做出对信息对象取舍的决定,选择适合用户使用的资源。案例分析在一个大型的医疗卫生机构,拥有一个专门的数据资料管理机构,来统一管理各类需要提交和归档的数据资料。这些要统一入库归档的数据各不相同从数据内容来看,可能有管理类、业务类和科学研究类;从学科来看,可能有基础医学、临床医学、预防医学等;从存储类型来看,可能有EXCEL、文本文件等;……总之,内容、结构、数据量、介质各不相同。元数据标准框架、元数据标准、元数据元数据记录对象类型元数据标准框架专业/非专业描述员元数据标准实体对象元数据研究者最终用户使用应用到使用应用到使用发现生产生产元数据的类型美国Getty信息研究所

类型定义使用实例管理型用于管理与控制信息资源的元数据•信息收集•版权及复制记录•获取权利控制(密级)•位置信息•数字化的选择标准•版本控制描述型用于描述与标识信息资源的元数据,一般为手工制作的元数据•编目记录•专题索引•资源之间超链接的关系•用户所做的注释保存型与信息资源的保存管理相关的元数据•资源的物理状态描述文档•有关保存资源物理或数字化版本的文档,例如数据的更新与迁移技术型与系统功能相关的元数据或元数据行为模式•硬件及软件文档•数字化信息,例如格式、压缩比及缩放比、定标例程•系统响应时间的记录•数据验证与安全,例如密码及加密密钥使用型与用户级别与类型相关的有关信息资源的元数据•展出记录•用户及利用记录•内容再利用及多个版本的信息主要元数据格式艺术作品描述类目(CDWA)编码文档描述(EAD)VRA核心类目(VRAcore)频道定义格式(CDF)科技文献书目资源格式(BibTex)博物馆信息计算机交换标准框架(CIMI)政府信息定位服务(GILS)机读目录(MARC)都柏林核心集(DC)概略对象交换格式(SOIF)每条MARC记录分三个区MARC为适应网络发展的需要,已经在原有的基础上增加538字段(系统需求和存取注释)、516字段(计算机文件类型或数据注释)、256字段(计算机文件特征)、856字段(电子地址和存取)。

0--标识块

5--相关题名块

1--编码信息块

6--主题分析块

2--著录信息块

7--知识责任块

3--附注块

8--国际使用块

4--连接块

9--本地使用块首先认识CNMARC功能块

本功能块包含国际上一致约定的不适于在0—7功能块处理的信息。本功能块已定义的字段有两个801记录来源802ISDS中心8--国际使用块元数据结构一个Metadata格式由多层次的结构予以定义。1)

内容结构(ContentStructure)对该Metadata的构成元素及其定义标准进行描述,可包括:描述性元素、技术性元素、管理性元素、结构性元素(例如与编码语言、Namespace、数据单元等的链接)。2)

句法结构(SyntaxStructure)句法结构定义格式结构及其描述方式,例如元素的分区分段组织、元素选取使用规则、元素描述方法(例如DublinCore采用ISO/IEC11179标准)、元素结构描述方法(例如MARC记录结构、SGML结构、XML结构)、结构语句描述语言(例如EBNFNotation)等。3)

语义结构(SemanticStructure)定义Metadata元素的具体描述方法,例如,描述元素时所采用的标准、最佳实践(BestPractices)或自定义的描述要求(Instructions)。元数据编码语言元数据编码语言(MetadataEncodingLanguages)对元数据元素和结构进行定义和描述的具体语法和语义规则,常称为定义描述语言。(DataDefinitionLanguage

,DDL)第二节置标语言SGML置标语言XMLHTML置标语言(MarkupLanguage)

一种用来给文本添加标记的语言文字编辑器借助置标来定义格式与外观。通信程序依靠置标来理解线路上所传输信息的语意。数据库通过置标将数据字段与一定的含义相连,并表明字段之间的关系。多媒体应用中置标则用来标识什么是图像和声音的源数据。标记语言必须定义什么样的标记是允许的,什么样的标记是必须的,标记是如何与文档的内容相区分的,以及标记的含义是什么?

什么是置标语言?是一种用来给文本添加标记的语言。根据需要,先定义一套标记,然后将这套标记添加到书面语言中去,使书面语言变成置标语言。<标题>……</标题><作者>……</作者><正文>……</正文><标题>什么是置标语言?</标题><作者<</作者><正文>是一种用来给文本添加标记的语言。</正文>标准通用标记语言

(StandardGeneralizedMarkupLanguage,SGML)起源20世纪60年代,IBM开始研究通用标记语言GML来描述文件及其格式。发展1978年,美国国家标准局将GML规范为SGML标准。1986年,ISO将SGML定位国际标准SGMLISO8879:1986。特点SGML是一种元语言,是用来描述置标语言的语言,适用于电子文档交换、管理和发布。SGML从结构和内容两个层次来描述文档,其核心是文档类型定义DTD(DocumentTypeDefinition)。

SGML可以定义各种各样的置标语言,定义一种置标语言的方法就是根据SGML的规则制定DTD文档,DTD文档规定了这类文档可能出现的置标及其组合规则。SGML的结构SGML的结构语法定义——定义文件类型和文件实例的语法结构。文件类型定义——定义文件实例的结构和组成结构的元素类型。文件实例——SGML语言程序的主体部分。SGML是怎样工作的呢?一个典型的文档可以被分为三个层次。结构(structure)SGML引入了文档类型定义(DTD)的文件,定义了文档中的元素能用什么名字,能放置在什么地方,应该怎样组合。内容(content)确定内容在DTD结构中的位置的方法称为“tagging”,创建SGML文档就是围绕内容插入相应的标签,即给结构中的每一部分的开始和结束做标记。格式(style)格式决定内容如何被显示。

SGML的目标建立一套通用、标准的方法,使其对文件内容和结构的描述做到系统独立——即能在不同系统之间处理文件;设备独立——即文件不应束缚在专有的硬件上,不论是屏幕,还是打印机;语言独立——即能在不同国家同等使用,如对拉丁字母或非拉丁字母都同等适用;应用独立——即能描述非常简单或非常复杂的文件结构及描述经常更新的文件。超文本标记语言

HyperTextMarkupLanguage,HTML

HTML是一种用来制作超文本文档的简单标记语言,它是由SGML派生的实例标记语言,不能作为定义其他标记语言的元语言。用于描述主页的格式设计和它与Web上其它主页的连结信息。HTML网页文件可由任何文字编辑器或网页专用编辑器编辑,完成后,以.htm或.html为文件后缀保存。超文本结构生成一个HTML文档的途径手工直接编写。通过某些格式转换工具将其他格式文档转换成HTML文档。由HTTP服务器一方实时动态地生成。HTML语法结构HTML文档结构<HTML>

<HEAD><TITLE>文档标题(网页标题)</TITLE>

</HEAD>

<BODY>

文档主体,正文内容(网页内容),很多标记都作用于此

</BODY>

</HTML>基本语法结构:单元和标记<!DOCTYPEhtml>(DOCTYPE声明)<html><head><title>******(网页标题)</title><metahttp-equiv="Content-Type"content="text/html;charset=gb2312"/>(网页编码声明)<metaname="keywords"content="关键字"/><metaname="description"content="本页描述或关键字描述"/></head><body>******(正文内容)</body></html>头部主体部分主要标签及描述说明文件类型<HTML></HTML>(放在开头和结尾)文件主题<TITLE></TITLE>(放在文头内)文头<HEAD></HEAD>(描述)文件主体<BODY></BODY>其他如段落<p></p>原始文字样式pre></pre>字体加粗<b></b>HTML标记语法双标记开始标签常被称为开放标签(openingtag)结束标签常称为闭合标签(closingtag)语法是:<标记>内容</标记><b>CreationofWebpage</b>ismyfavourite.显示成:

CreationofWebpageismyfavourite.

HTML标记语法单标记语法是:<标记>内容

IloveCreationofWebpage.<br>It‘sawonderfulplace.显示成:

IloveCreationofWebpage.It'sawonderfulplace.HTML标记语法标记属性语法是:<标记属性1属性2属性3…>单标记<hr>表示在文档当前位置画一条水平线,

<hr

size=3align=leftwidth=“75%”>其中:size属性定义线的粗细,属性值取整数,缺省为1;align属性表示对齐方式,可取left,center,right;width属性定义线的长度,可取相对值,也可取绝对值。

<B></B>表示用粗体显示;<I></I>用斜体表示;<EM></EM>突出显示等;<BODYtext="#000000"link="#0000FF"alink="#FF0000"vlink="#0000FF"background="bg1.gif"bgproperties="fixed">text=“#000000”用以设定文字颜色。#000000代表黑色,亦可以采用颜色的名称,即text="black"。link="#0000FF"设定一般文字连结颜色。alink="#FF0000"设定刚按下时文字连结颜色。vlink="#0000FF"设定连结后的颜色(被按过)。background="bg1.gif"设定背景墙纸。bgproperties=“fixed“固定背景墙纸,当卷动文字时墙纸不会跟著卷动。(只适用于IE)示例:字体和颜色URL格式(UniformResourceLocator)

Web信息页是用URL(统一资源定位器)来唯一标识的。

URL的一般格式为:访问方式://服务器域名/路径及文件名访问方式有HTTP(超文本传输协议)、FTP(文件传输协议)

例子:/newgdut/bmzy.htm/pub示例:标记超链和URL锚标记(anchor)HTML中的一个超链由两部分组成一部分是可被显示在Web浏览器中的超链文本及图像,当用户在它上面点击鼠标时,就触发了此链接;另一部分是用以描述当超链被触发后要连接到何处的URL信息。因而,超链标记的格式为:

<A

HREF

=“URL信息”>超链文本及图像</A>

“<A>超链文本及图像</A>”是锚标记,HREF表示超链指向。例如:<AHREF=“/news/bmzy.htm”>nextpage</A>示例:标记超链和URL指向文件中的某一处通常超链只指向一个文件的头部,若要指向一个文件内的某一特定位置,就要用到超链标记的另一个属性NAME,其格式如下:

<ANAME=“超链名”>超链文本及图像</A>

例如,在一个文件中有一部分内容是附录,可先在附录标题上定义一个超链名:<ANMEA=“appendix-A”>AppendixA</A>

这样,就可以在其他文件里引用此附录,创建一个超链来指向附录部分:

<AHREF=“/bmzy.htm#appendix-A”>AppendixA</A>示例:标记超链和URL图像、声音、视像和动画

图像:<IMGSRC=“URL信息”>

声音:<AHREF=“demo.wav”>audiodemo</A>视像:<AHREF=“demo.avi”>videodemo</A>(1)普通<html><head><title>第一个HTML示例</title></head><body>HTML的基本结构。</body></html>(2)居中对齐<html><HEAD><TITLE>测试居中对齐标签</TITLE></HEAD><BODY><PRE><CENTER>静夜思床前明月光,疑是地上霜。举头望明月,低头思故乡。</CENTER></PRE></BODY></html>

HTML举例:(1)主要使用<table></table>标签从结构上看,表格可分为表头、主体和表尾三部分,在HTML中分别用thead、tbody、tfoot表示如:<table>

<thead>

<tr>

...headerinformation...

</thead>

<tfoot>

<tr>

...footerinformation...

</tfoot>

<tbody>

<tr>

...firstrowofblockonedata...

<tr>

...secondrowofblockonedata...

</tbody>

</table>HTML表格:其他主要标签(1)<th></th>(表头数据名称)(2)<tr></tr>(一行)(3)<td></td>(表格中的数据)DreamWeaverXMLSpy4.0NetBeansVSStudioNotepad++HTML编辑器都柏林元数据描述方法都柏林核心元素集(DublinCore,简称DC)是元数据的一个标准集,是为网上资源的辨识、检索而制定的一种描述格式。对DC进行描述主要采用HTML或XML标记语言,从发展趋势来看,今后主要采用XML进行描述。XML可为用户提供灵活的标记扩展机制,使得不同内容的资源能以自定义的标记元素来表现。为了便于与其它格式的元数据进行相互交换和利用,DC元数据也采用RDF模式。《都柏林核心元素集》描述项目内容知识产权外部属性资源名(Title)主题(Subject)描述(Description)来源(Source)语种(Language)关联(Relation)覆盖范围(Coverage)创建者(Creator)出版者(Publisher)其他责任者(Contributor)权限(Rights)日期(Date)资源类型(Type)格式(Format)标识(Identifier)TitleMuseumofHPCalculatorsIdentifierURLhttp:TypeOCLCgTextdataTypeAACR2-gmd[computerfile]TypeNoteWorldWideWebResourceDescriptionFeaturestheMuseumofHPCalculators,aWebpagededicatedtoHewlett-Packard(HP)calculatorsintroducedfrom1968to1986,ProvidedbyDavidGHicksHighlightsthefirstHPcalculators,thehighenddesktopseries,classicprintingdesktop,calculators,

secondgenerationhandheldcalculators,andcomputerlikecalculators.LanguageengSubjectclassDDC681.140904SubjectnameCorporateHewlett-PackardCo.SubjecttopicalCalculators·20thcenturyDC元数据描述实例(1)TitlePekingUniversityLibraryIdentifier.URIhttp://Type.OCLCgTextdataTypetext/htmlcharse=gb2312CoveragespatialP.RChina-BeijingCoverage.temporal1902CreatornamePersonaPekingUniversityLibraryDate.created1996-10-25Descriptionlibraryhomepage,briefintroduction,electronicresources,OPAC,UserGuide,News,digitallibrary,Inter-libraryLoan,FAQ,Navigations,

Focus,Usertrainingprogram,CALLS,CAIFormattext/htmlLanguage.ISO639-2chiPublisherPekingUniversityLibraryRelation.hasVersionhttp://www.lib./enhtml/index.htmDC元数据描述实例(2)用HTML对DC元数据置标META标签格式:<metaname="DC.element(元素名)"content="Valuestring(元素值)">举例:<metaname="DC.Creator"content="Simpson,Homer">

<metaname=“PREFIX.ELEMENT_NAME”content=“ELEMENT_VALUE”>

南京师范大学图书馆主页

<html><head><metaname=“DC.Title”content=“南京师范大学图书馆主页”><metaname=“DC.Date”content=“(SCHEME=ISO8601)2000-10-01”><metaname=“DC.Creator.CorporateName”content=“南京师范大学图书馆计算机室”><metaname=“DC.Creator.CorporateName.Address”content=“wxzx@pine.njnu.edu.cn”><metaname=“DC.Subject”content=“读者指南,服务介绍,图书馆在线查询,图书馆在线资源,互联网资源,本馆主页集锦,相关链接”><metaname=“DC.Type”content=“WWW主页”><metaname=“DC.Identifier”content=“(SCHEME=URL)/index.htm”><metaname=“DC.Language”content=“(SCHEME=ISO639)zh”></head><body>……</body></html>中国美术学院主页

<html><head><metaname=“dc.Title”content=“中国美术学院”><metaname=“dc.Creater”content=“中国美术学院网络中心”><metaname=“dc.Subject”content=“学院概况;院系设置;学术机构与论坛;教学与管理;招生;展览信息;校友之窗;艺术收藏与产业;网上服务”><metaname=“dc.Decription”content=“中国美术学院网站,可以进行学科专业检索,师资力量查询,艺术作品欣赏,可以进入学院各部门机构网站、图书馆等,并有学科导航、读者留言、E-mail联系等”><metaname=“dc.Type”content=“hypertext;image”><metaname=“dc.Format”content=“htm;jpg”><metaname=“dc.Indentifer”content=“www.chinaacademyofart.com”><metaname=“dc.Language”content=“cn;en”><metaname=“dc.Right”content=“norestrictiononresue”></head></html>用HTML对DC元数据置标LINK标签HTML的LINK可以把元素名前缀与元素的参考定义关联在一起。

<linkrel=“schema.DC”href=“/DC/elements/1.0/”><linkrel=“schema.AC”href=“/ac/2.0/”>

LINK标签<html><head><title>ADirge</title><linkrel="schema.DC"href="/DC/elements/1.0/"><metaname="DC.Title"content="ADirge"><metaname="DC.Creator"content="Shelley,PercyBysshe"><metaname="DC.Type"content="poem"><metaname="DC.Date"content="1820"><metaname="DC.Format"content="text/html"><metaname="DC.Language"content="en"></head><body><pre>Roughwind,thatmoanestloudGrieftoosadforsong;Wildwind,whensullencloudKnellsallthenightlong;Sadstorm,whosetearsarevain,Barewoods,whosebranchesstrain,Deepcavesanddrearymain,-Wail,fortheworld'swrong!</pre></body></html>

XML的含义XML是可扩展标记语言的缩写,是W3C组织于1998年2月发布的标准。XML的用途一是作为元标记语言,定义各种实例标记语言标准二是作为标准交换语言,担负起描述交换数据的作用XML将信息的内容、结构和表示分开定义。可扩展标记语言

ExtensibleMarkupLanguage,XMLXML版本1998年2月10日,XML1.0作为一项W3C推荐被发布。2000年10月6日,XML1.0(SE)作为一项W3C推荐被发布。第二版仅仅是在合并第一版的勘误表的基础上进行的修正(漏洞修复)。2001年12月13日,XML1.1作为一份工作草案被发布,并作为一项候选推荐发布于2002年10月15日。XML1.1允许在名称中使用几乎所有的Unicode字符。HTML是SGML的一个实例,它的DTD作为标准被固定下来,因此,HTML不能作为定义其它置标语言的元语言。XML是SGML的一个子集,严格地讲,XML也还是SGML。与HTML不同的是,XML有DTD,因而也可以象SGML那样,作为元语言,来定义其它文件系统或称其它置标语言。如果把置标语言分为元置标语言和实例置标语言的话,SGML和XML都是元置标语言,而HTML和由XML派生的XHTML都是实例置标语言。XML、SGML、HTMLXML的语法结构文件类型定义(DTD)XMLSchema可扩展样式语言(XSL)XML应用范围

要求Web客户机在两个或多个不同的数据库之间传递信息的应用。希望将Web服务器的大量处理负荷转移给Web客户机的应用。要求Web客户机把同一数据以不同的表现方式提供给不同用户的应用。适应特定用户需求的智能Web工具应用。XML声明<?xmlversion=“1.0”standalone=“no”encoding=“GB2312”?>XML声明由“<?”开始,“?>”结束。在“<?”后面紧跟着处理指示的名称“xml”。DTDDTD规定了文档的逻辑结构。它可定义文档的语法DTD定义了页面的元素、元素的属性及元素和属性间的关系。元素与元素间用起始标记和结束标记来定界,对于空元素,用一个空元素标记来分隔。每一个元素都有一个用名字标识的类型,也称为它的通用标识符,并且它还可以有一个属性说明集。每个属性说明都有一个名字和一个值。理想定义应该面向描述与应用程序相关的数据结构,而不是如何显示数据。就是说,应该把一个元素定义为一个标题行,之后让样式表和脚本定义显示标题行。DTD例子

<!--address.dtd--><!ELEMENTaddress(name,street,city,state,postal-code)><!ELEMENTname(title?,first-name,last-name)><!ELEMENTtitle(#PCDATA)><!ELEMENTfirst-name(#PCDATA)><!ELEMENTlast-name(#PCDATA)><!ELEMENTstreet(#PCDATA)><!ELEMENTcity(#PCDATA)><!ELEMENTstate(#PCDATA)><!ELEMENTpostal-code(#PCDATA)>XSLXSL是用来规定XML文档样式的语言。XSL能使Web浏览器改变原有文档的表示法,例如改变数据的显示顺序,不必再与服务器进行交互通信。通过样式表的变换,同一文档可以显示得更大,或经过折叠只显示外面的一层,或者变为打印格式。XSL凭借其本身的可扩展性,能够控制无穷无尽的标记,而且控制每个标记的方式也是无穷尽的,这也给Web提供了高级的布局特性。如文本的旋转、多列和独立区域。同时支持国际书写格式,可在一页上混合使用从左至右、从右至左及从上至下的书写格式。就如同XML介于HTML和SGML之间一样,XSL标准是介于CSS和SGML的文档样式语义和规范语言之间的。什么是XML的命名空间为了避免XML的标签同名。XML也拥有命名空间。标签可以放入命名空间中,不同的命名空间中的相同名称标签是不同的标签。在xml文件中,命名空间的定义如下:<d:studentxmlns:d=/student>;其中:student是命名空间的标签。

是命名空间的标识。d是命名空间的前缀。命名空间标识:

命名空间标识是命名空间最重要的属性,重要到当输出一个命名空间时就直接转换为它的标识。标识有个规范的称呼:URI(统一资源定位符)。URI的最大特点是唯一性。如果不唯一就失去了辨识的意义。实际上相同URI不同的命名空间被看成同一个命名空间。URI分为两种类型:

命名空间标识:URL(统一资源定位器):

通俗的说URL就是网页地址。因为每个网页在internet上都是唯一的。

URN(统一资源名称):

可以不使用网页地址而使用唯一名称来定义。如:

urn:2007-12-9/workgrop/xin/projiectname

或:

urn:E7f73B13-05FE-44ec-81CE-F898C4A6CDB4

这个编号是在系统中注册的控件编号,因此是唯一的。

XMLSpy工具演示资源描述框架

ResourceDescriptionFramework,RDF

资源描述框架是在W3C领导下开发的用于元数据互操作性的标准。RDF是XML在元数据表示方面的一个应用,XML提供了一个为数据编码的方式,而RDF能说明数据本身,也就是语义。RDF的目标是建立一个供多种元数据标准共存的框架。在这个框架中,能够充分利用各种元数据的优势,并能够进行基于Web的数据交换和再利用。2000年3月《RDF模式规范》作为万维网协会的提案在网上出版。什么是RDF?资源(Resource)是指所有在Web上被命名、具有URI的信息。描述(Description)是对资源属性(Property)的一个陈述,以表明资源的特性或者资源之间的联系。框架(Framework)是与被描述资源无关的通用模型,以包容和管理资源的多样性、不一致性和重复性。RDF的数据模型资源(Resource)指由RDF所表达和描述的任何对象。属性(Property)指用来描述资源的特定特征或关系。属性值(Value)指关于特定资源的特定属性的取值的语句,表达一个赋值关系。对网络资源的描述就采用主-谓-宾的形式,即<S,P,O>三元组。

RDF的主、谓、宾RDF的三元组可以用带标记的有向图(directedlabeledgraph)来表示:/index.html

的作者(creator)是JohnSmith。用RDF术语表示:Subject:URL/index.htmlPredicate:creator,表示S的一个性质Object:“JohnSmith”,表示性质creator的取值SubjectObjectPredicateRDF的基本数据模型“TheauthorofDocument1isJohnSmith.”“JohnSmithistheauthorofDocument1.”RDF描述Resource资源“Value”属性值Predicate属性类型Document1Author“JohnSmith”RDF的拓展数据模型Author

Document1Author001AffiliationNameE-mail“Home,Inc.”“JohnSmith”“smith@”基于RDF的DC修饰词描述句法

http://www.Hust./mydoc.htmIllustrator郭志红gzhihong@263.net华中科技大学B0033091班vcard:fndc:creatordcq:creatorTypevcard:emailvcard:org具体源代码

<?xmlversion=“1.0”encoding=“GB2312”?><rdf:RDFxmlns:rdf=/1999/02/22-rdf-syntax-ns#

xmlns:dc=/dc/eiements/1.0/xmlns:vcard=/vcard/3.0/xmlns:dcq=”/dc/qualifiers/1.0/”><rdf:Descriptionrdf:about=/mydoc.htm><dc:creator><rdf:Description><vcard:fn>郭志红</vcard:fn><vcard:email>gzhihong@263.net</vcard:email><vcard:org>华中科技大学B0033091班</vcard:org>

<dcq:creatorType>Illustrator</dcq:creatorType></rdf:Description></dc:creator></rdf:Description></rdf:RDF>RDF容器(Container)容器用于表示一组事物。Rdf:Bag:无序的多个成员Rdf:Seq:有序的多个成员Rdf:Alt:多个成员选一RDF容器(Container)…/couses/xRdfBag…/Students/John…/Students/Tom…/Students/GreenRdf:typeRdf:_1Rdf:_2Rdf:_3学生资源描述框架的句法RDF采用XML的名称机制(namespace)来唯一识别属性类型。Document1

DC:Creator

“JohnSmith”<?xml:namespacens=“/RDF/RDF/”prefix=“RDF”?><?xml:namespacens=“/DC/”prefix=“DC”?><rdf:RDF><RDF:DescriptionRDF:HREF=“http://uri-of-Document-1”><DC:Creator>JohnSmith<DC:Creator></rdf:Description></rdf:RDF>RDF实例<?xmlversion="1.0"?><rdf:RDFxmlns:rdf=/1999/02/22-rdf-syntax-ns#xmlns:dc="/dc/elements/1.1/"><rdf:Descriptionrdf:about="http://www.phpS"><dc:title>D-LibProgram</dc:title><dc:description>phpStudy-Freetutorial</dc:description><dc:publisher>phpStudyDataas</dc:publisher><dc:date>2008-01-01</dc:date><dc:type>WebDevelopment</dc:type><dc:format>text/html</dc:format><dc:language>en</dc:language></rdf:Description></rdf:RDF><rdf:RDFxmlns:rdf="/1999/02/22-rdf-syntax-ns#"xmlns:dc="/dc/elements/1.1/"><rdf:Descriptionrdf:about=""><dc:title>D-LibProgram-ResearchinDigitalLibraries</dc:title><dc:description>TheD-Libprogramsupportsthecommunityofpeoplewithresearchinterestsindigitallibrariesandelectronicpublishing.</dc:description><dc:publisher>CorporationForNationalResearchInitiatives</dc:publisher><dc:date>1995-01-07</dc:date><dc:subject><rdf:Bag><rdf:li>Research;statisticalmethods</rdf:li><rdf:li>Education,research,relatedtopics</rdf:li><rdf:li>LibraryuseStudies</rdf:li></rdf:Bag></dc:subject><dc:type>WorldWideWebHomePage</dc:type><dc:format>text/html</dc:format><dc:language>en</dc:language></rdf:Description></rdf:RDF><rdf:RDFxmlns:rdf="/1999/02/22-rdf-syntax-ns#"xmlns:dc="/dc/elements/1.1/"xmlns:dcterms="/dc/terms/"><rdf:Descriptionrdf:about="/dlib/may98/miller/05miller.html"><dc:title>AnIntroductiontotheResourceDescriptionFramework</dc:title><dc:creator>EricJ.Miller</dc:creator><dc:description>TheResourceDescriptionFramework(RDF)isaninfrastructurethatenablestheencoding,exchangeandreuseofstructuredmetadata.rdfisanapplicationofxmlthatimposesneededstructuralconstraintstoprovideunambiguousmethodsofexpressingsemantics.rdfadditionallyprovidesameansforpublishingbothhuman-readableand…..</dc:description><dc:publisher>CorporationforNationalResearchInitiatives</dc:publisher><dc:subject><rdf:Bag><rdf:li>machine-readablecatalogrecordformats</rdf:li><rdf:li>applicationsofcomputerfileorganizationandaccessmethods</rdf:li></rdf:Bag></dc:subject><dc:rights>Copyright

?1998EricMiller</dc:rights><dc:type>ElectronicDocument</dc:type><dc:format>text/html</dc:format><dc:language>en</dc:language><dcterms:isPartOfrdf:resource="/dlib/may98/05contents.html"/></rdf:Description></rdf:RDF><?xmlversion=“10”encoding=“UTF-16”?><?xml:stylesheethref=“catalogue.xsl”type=“text/xsl”?><Bibliography><HEAD><TITLE>DublinCore书</TITLE><PREREEQCLASSIFICATION=“computer-basic”></HEAD><BODY><dc:Title>《四库全书》原文电子版</dc:Title><dc:Creatorrole=“edt(主编)”>清乾隆年间集体编制</dc:Creator><dc:Createrro1e=“bkp(制作)”>济南开发区汇文科技开发中心研制</dc:Creator><dc:Subject>四库全书</dc:Subject><dc:Description>……</dc:Descripttion><dc:Publisher>武汉大学出版社</dc:Publisher><dc:Date>1997-??--??</dc:Date><dc:Type>中华大型文化专志</dc:Type><dc:Format>电子图书(e-book)、源数据所占空间:100G</dc:Format><dc:Identifierid=“xyz”scheme=“ISBN”>7208022542</dc:Identifier><dc:Source>河北大学图书馆特藏部</dc:Source><dc:Source></dc:Source><sitehref=“……”xml:1ink=“simple”></site><dc:Language>chi</dc:Language><dc:Coverage>中国古今文化(公元??世纪-清乾隆年间)</dc:Coverage><dc:Rights>武汉大学出版社</dc:Rights></BODY></Bibliography>《四库全书》<?mxlversion=“1.0”encoding=“UTF-16”?><Bibliography><HEAD><TITLE>都柏林核心形式</TITLE></HEAD><BODY><dc:Title>中华文化通志</dc:Title><dc:Creator.PersonalName“edt(主编)”>张双鼓</dc:Creator><dc:Creator.CorporateName=“bkp(制作)”>清华万博网络技术有限公司</dc:Creator><dc:Subject>中国学者</dc:Subject><dc:Subject>中华学者</dc:Subject><dc:Description>该刊主要内容包括:中文报刊阅览室、CHISA(神州学人)周刊、《神州学人》月刊,以及若干资料库。有6个栏目,即:留学新闻、学人萍踪、学者论坛、留学生文学、服务资讯、教育国际交流。</dc:Description><dc:Publisher>上海人民出版社</dc:Publisher><dc:Contributor>上海人民出版社</dc:Contributor><dc:Date>1995-01-12</dc:Date><dc:Type>大型电子期刊</dc:Type><dc:Fomat>电子图书(eBook)</dc:Fomat><dc:Identifierscheme=“url”>http://www.chisa.edu.cn/</dc:Identifier><dc:Language>chi</dc:Language><dc:Relation>清华万博网络技术有限公司</dc:Relation><dc:Coberage>中国当代学者</dc:Coberage><dc:Righits>神州学人编辑部</dc:Righits></BODY></Bibliography>《神州学人》XML编辑器XMLSpyOxygen

XML

editorXMLExplorerNotepad++UltraEdit

DC元数据与MARC的关系DC与MARC的区别

数据形式不同标识符号不同显示形式不同记录对象不同描述主体不同DC元素与MARC的映射元数据映射(MetadataMapping/Crosswalking)利用特定转换程序对不同元数据元格式进行转换,称为元数据映射。DC核心元数据集与MARC格式的元数据能够通过国际互联网匿名文件传输协议存档模块,将它们的内容、语句、数据元素相互转换,达到信息的无接缝检索。同时将MARC复杂格式作为模版,经搜索引擎获得的简单元数据可通过映射转换成复杂格式的元数据,使各种格式间的元数据可以相互交换。

元数据映射转换的原则最相近的语义在做元数据术语映射时,无需强求两个不同规范间术语语义的完全一致性。映射的基础是语义的相似性,要坚持不同术语间的语义相似原则,而不是名称相似性。最精确的匹配映射应尽可能地转换到粒度最小的术语单元。对某一个术语的转换能够精确到修饰词就不要只映射到元素层级。并且有可能的话,应尽可能匹配到语义外延粒度最小的修饰词。最广泛的兼容如果我们在粒度较细的术语层级找不到语义对应,则可以用上一层的术语来进行映射。

题名——对应于正题名,USMARC的245@a。创建者——对应于主要款目标目或附加款目标目,USMARC:100或110或700或710。主题——可映射为USMARC:650;050或653。描述——映射为USMARC:520,DC的“描述”元素的内容可直接使用。出版者——映射为USMARC:260#b。其他贡献者——映射为USMARC:700或710。日期——在DC中只考虑了出版发行日期,即USMARC:260#c。类型——一般情况下可映射为USMARC:655,但这一元素也与字段USMARC:256、500有关。格式——映射为USMARC:856。识别符——USMARC:010、020、022、024、856。来源——可映射为USMARC:786或776。语言——可映射为USMARC:041或546。关系——可映射为USMARC:7-连接款目块。覆盖范围——其空间位置可映射为USMARC:034或255;时间期限可映射为USMARC:045。权限——可映射为USMARC:540。DC元数据与MARC的转换设计《DC格式与MARC格式转换》系统主要从这几个方面来考虑字段完整性——充分利用DC格式的15个元素,将MARC中的信息尽可能地描述清楚,反映出数据的重要特性。基于字段检索的原则——DC的15个元素,大部分是可作为检索字段,供用户在网上检索信息。《DC格式与MARC格式转换》对照表尽可能将原MARC数据中的检索项保留下来,方便读者查询。易于操作和系统兼容性——《DC格式与MARC格式转换》系统应具有友好的用户界面,用户在进行数据转换时,只需选择数据源的MARC类型,点击“转换”键即可。当数据转换结束时,系统自动提示用户。判断该条记录的合法性读入用户提供的ISO-2709格式数据截取下一条MARC记录拆分并提取需要转换的字段、子字段值从对照表中找出相匹配的DC元数据属性,并将值赋给该属性程序结束对转换结果进行质量控制,合格数据经封装后写入输出文件供输出;不合格数据写入错误文件数据是否全部完YNNYDublinCoreCNMARCUSMARCTitle200($a,$e,$d)225($a,$h,$v)245($a,$b,$h,$k,$n,$p,$s)400($a,$b,$c,$d,$n)410($a,$b,$c,$d,$n)411($a,$b,$c,$d,$n)440、490(所有子字段)Identifier

ISBNISSN010($a)011($a)020($a,$z)022($a,$z)URL856($u)856($u)Publisher210($a,$c)260($a,$b)Contributor702($a,$b)712($a,$b)700($a,$b,$c,$d,$n)710($a,$b,$c,$d,$n)711($a,$b,$c,$d,$n)730($a,$b,$c,$d,$n)Creator700($a)701($a)710($a)711($a)100($a,$b,$c,$d,$n)110($a,$b,$c,$d,$n)111($a,$b,$c,$d,$n)130($a,$b,$c,$d,$n)Description330($a)520($a)Dat

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论