第四讲 元数据_第1页
第四讲 元数据_第2页
第四讲 元数据_第3页
第四讲 元数据_第4页
第四讲 元数据_第5页
已阅读5页,还剩131页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四讲元数据12/13/20231信息管理系元数据(MetaData),就是“描述数据的数据”或“关于数据的结构化数据”。哈佛大学数字图书馆项目定义:元数据是帮助查找、存取、使用和管理信息资源的信息。一、元数据概念12/13/20232信息管理系具体:元数据是用来描述数据本身的内容特征和其它特征的数据,目地是加强对网络信息资源的发现、识别、开发、组织和评价,而且对相关的信息资源进行选择、定位、调用,追踪资源在使用过程中的变化,实现信息资源的整合、有效管理和长期保存。12/13/20233信息管理系例如:文献信息资源,元数据可以是目录、索引、摘要及主题等文献特征和属性。从元数据的提供者角度来看,元数据能改进针对文档的检索能力,特别是搜索的精确度、以及对资源的控制和管理问题。对于电子文档所存在的格式和控制方法多样性问题,元数据能支持用户决策过程。12/13/20234信息管理系DL信息体系结构12/13/20235信息管理系元数据是关于数据的数据(dataaboutdata),此术语指任何用于帮助网络电子资源的识别、描述和定位的数据。元数据是关于数据的结构化的数据(structureddataaboutdata)。12/13/20236信息管理系元数据是与对象相关的数据,此数据使其潜在的用户不必预先具备对这些对象的存在或特征的完整认识。元数据是对信息包(Informationpackage)的编码描述,其目的在于提供一个中间级别的描述,使得人们据此就可以做出选择而无需检索大量不相关的全文文本。12/13/20237信息管理系•元数据,即代表性的数据,通常被定义为数据之数据。它包含用于描述信息对象的内容和位置的数据元素集,促进了网络环境中信息对象的发展和检索。12/13/20238信息管理系应用于不同领域的Metadata格式

网络资源:Dublic

Core、ROADS

Template、CDF(Channel

Definition

Format)、Web

Collections文献资料:MARC(with856Field),Dublic

Core人文科学:TEI

Header(Text

Encoding

Initiative

Header)社会科学数据集:ICPSR

SGML

Codebook

(Inter-university

Consortium

for

Political

and

Social

Research)博物馆与艺术作品:CIMI

(Computer

Interchange

of

Museum

Information)、CDWA(Categories

for

the

Description

of

Works

of

Arts)、RLGREACHElementSet.12/13/20239信息管理系视觉资料:VRA(VisualResourcesAssociation)CoreCategoriesforVisualResources音乐资料:SMDL(StandardMusicDescriptionLanguage)政府信息:GILS(GovernmentInformationLocatorService)地理空间信息:FGDC/CSDGM(FederalGeographicDataCommittee/ContentStandardsforDigitalGeospatialMetadata)12/13/202310信息管理系数字图像:MOA2metadata、CDLmetadata、OpenArchivesFormat、VRACore、NISO/CLIR/RLGTechnicalMetadataforImages档案库与资源集合:EAD(EncodingArchivalDescription)技术报告:RFC1807:AformatforBibliographicRecordsFTP文件和FTP文件库:IAFATemplates(InternetAnonymousFTPArchivesTemplates)连续图像:MPEG-712/13/202311信息管理系二、元数据的目的12/13/202312信息管理系12/13/202313信息管理系12/13/202314信息管理系12/13/202315信息管理系三、元数据结构12/13/202316信息管理系12/13/202317信息管理系12/13/202318信息管理系12/13/202319信息管理系12/13/202320信息管理系3语义结构:12/13/202321信息管理系12/13/202322信息管理系12/13/202323信息管理系12/13/202324信息管理系12/13/202325信息管理系12/13/202326信息管理系12/13/202327信息管理系12/13/202328信息管理系12/13/202329信息管理系资源描述框架(ResourceDescriptionFramework)数据描述模式而且采用基于XML的句法提供语义、结构、句法三个层次的互操作能力模块化的互操作能力有些数据化信息需要不同的元数据描述,RDF对集成这些元数据非常有用。四、元数据描述框架RDF12/13/202330信息管理系RDF是一个与任何特定语法无关的抽象的资源表达模式,用来反映资源(Resource)、属性(Property)与属性值(Value)资源resource属性property属性值value语句statement12/13/202331信息管理系换言之…“张三是由以下网址所标识的资源的作者:/tsgzz/99-3/p22.htm”http://www.libnet.sh.cn/tsgzz/99-3/p22.htm作者author张三12/13/202332信息管理系http://www.libnet.sh.cn/tsgzz/99-3/p22.htm作者author张三<rdf:RDF><rdf:Descriptionabout=”http://www.libnet.sh.cn/tsgzz/99-3/p22.htm”><作者>张三</作者></rdf:Description></rdf:RDF>RDF基于XML的描述实例:RDF描述实例12/13/202333信息管理系http://www.libnet.sh.cn/tsgzz/99-3/p22.htmDC:Creator张三DublinCore基于RDF的描述:<rdf:RDF

xmlns:rdf="/1999/02/22-rdf-syntax-ns#"

xmlns:dc="/dc/elements/1.0/">

<rdf:Descriptionabout=”http://www.libnet.sh.cn/tsgzz/99-3/p22.htm”><dc:Creator>张三</dc:Creator></rdf:Description></rdf:RDF>基于RDF的DC描述实例12/13/202334信息管理系1)/1999/02/22-rdf-syntax-ns#RDF标准申明2)dc="/dc/elements/1.0/DC标准申明Notes:12/13/202335信息管理系五、元数据种类由于网上数字资源的形态各异,既有论文、会议录等普通电子文本,也有图像、声音、网页等,不同形式的数字资源对数据格式的要求也不一样,因此现在有多种描述网络数字资源的元数据格式,到目前为止还没有出现成熟的统一格式。

两种:Marc、DC12/13/202336信息管理系1MARC(Machine-ReadableCatalogue)元数据

机读目录格式MARC是图书情报领域广泛应用的标准格式,国际通用的MARC标准为USMARC和UNIMARC标准。我国的MARC标准(CNMARC)是在UNIMARC标准的基础上加以补充规定形成的。由于多语种图书文献的存在,目前我国的机读书目数据实际上是以CNMARC和US-MARC为主,其他MARC格式为辅的现状。12/13/202337信息管理系MARC格式可由四个部分组成,其中记录头标区固定为24个字符长,为记录处理提供基本参数。地址目次区由若干目次项组成,每个目次项为定长12个字符,标识某MARC字段在整个MARC流中的位置。数据字段区由一些可变长的数据字段组成,除了001字段和005字段由数据和一个字段分隔符组成外,其余每个字段都有两个指示符,后接若干子字段。12/13/202338信息管理系整个MARC数据流经检测有效才能成为书目数据库的正式书目数据。MARC元数据格式——主要用于描述图书文献资源。12/13/202339信息管理系MARC局限性:

(1)MARC描述手段往往只适用于图书馆;(2)MARC需要在专门的软件系统中使用,而且不太适应互联网的环境;(3)修订程序相当复杂,而且非常缓慢;(4)适用于完整的、静止的信息内容的处理,不易处理动态的多媒体信息;(5)编制一条机读目录不仅需要经过严格的专门训练,而且需要花一定的时间。12/13/202340信息管理系

2、DC元数据简介

1995年3月,在美国俄亥俄州的都柏林召开的第一届元数据研讨会上,52位来自图书馆界、电脑网络界专家共同研究产生。目的是希望建立一套描述网络电子文献的方法,以便网上信息检索。其中心议题是如何用一个简单的元数据记录来描述种类繁多的电子资源,使非图书馆专业人员都能够了解和使用著录格式,来描述网上资源。经过与会代表的商讨和辩论,产生了一个精简的元数据集——都柏林核心元素集(DublinCoreElem

entSet),简称都柏林核心(DC)。

12/13/202341信息管理系

DC由15个基本元素构成。由于它具有简练、易于理解、可扩展、能与其他元数据形式进行桥接等性能,能较好地解决网络资源的发现、控制和管理问题,使它成为一个较好的网络资源描述元数据集,已经成为美国国家标准,并正在逐步成为世界公认的标准。12/13/202342信息管理系DC产生与发展届次举办时间主办国举办地主办组织DC-11995.3美国Dublin,OhioOCLC、NCSADC-21996.4英国WarwickOCLC、UKOLNDC-31996.9美国Dublin,OhioOCLC、CNIDC-41997.3澳大利亚CanberraOCLC、DSTC、NLADC-51997.10芬兰HelsinkiOCLC、NLFDC-61998.11美国WashingtonD.C.OCLC、TLCDC-71999.10德国FrankfurtOCLCDC-82000.10加拿大OttawaOCLC、CNI、IFLADC-92001.10日本TokyoOCLC、NII、JSTDC20022002.10意大利FlorenceOCLCDC20032003.9美国西雅图OCLC12/13/202343信息管理系1)、DC元数据的类型12/13/202344信息管理系2)详细描述12/13/202345信息管理系12/13/202346信息管理系12/13/202347信息管理系12/13/202348信息管理系12/13/202349信息管理系12/13/202350信息管理系12/13/202351信息管理系12/13/202352信息管理系3)DC修饰词(分为两类):(1)元素的进一步限制该类修饰词使元素的含义更为狭窄或专指,进一步限定的元素继承了未限定元素的外延,便具有更为严格的内涵。如果使用者不明白经过进一步限定的术语的特指含义,可以忽略修饰词,直接将它作为未修饰的元数据元素来理解。用于修饰元素的进一步限定的定义应该可以方便的得到。12/13/202353信息管理系元素限定属性说明TitleAlternative

替代标题Creater暂无限制属性12/13/202354信息管理系12/13/202355信息管理系元素限定属性说明SubjectLCSH国会图书馆主题词表*

MeSH国家医学图书馆主题词表*

DDC杜威十进分类表*

LCC国会图书馆分类表*

UDC国际十进分类表*12/13/202356信息管理系12/13/202357信息管理系元素限定属性说明DescriptiontableOfContents目次

Abstract文摘Publisher

暂无限制属性12/13/202358信息管理系12/13/202359信息管理系12/13/202360信息管理系12/13/202361信息管理系12/13/202362信息管理系元素限定属性说明Contributor暂无限制词DateCreated制作日期

Valid有效日期

Available

可获得日期

Issued

发表日期

Modified

修改日期

DCMIPeriodDCMI日期编码*

W3C-DTFW3C-DTF日期编码*12/13/202363信息管理系12/13/202364信息管理系元素限定属性说明TypeDCMITypeDCMI资源类别编码*12/13/202365信息管理系12/13/202366信息管理系元素限定属性说明FormatExtent

资源范围

Medium

物理载体

IMT

internet资源格式*12/13/202367信息管理系12/13/202368信息管理系12/13/202369信息管理系12/13/202370信息管理系12/13/202371信息管理系12/13/202372信息管理系12/13/202373信息管理系12/13/202374信息管理系元素限定属性说明IdentifierURI资源唯一标识符号*12/13/202375信息管理系12/13/202376信息管理系12/13/202377信息管理系元素限定属性说明Source暂无限制词LanguageISO639-2ISO639-2语种代码*

RFC1766RFC1766语种代码*12/13/202378信息管理系12/13/202379信息管理系12/13/202380信息管理系元素限定属性说明RelationIsVersionOf

是另一种资源的一个版本

HasVersion有其他资源作为其他版本

IsreplacedBy被另一资源取代

RePlaces取代另一资源

IsRequiredBy被另一资源所需要

Requires

需要一资源

IsPartOf

是另一资源的一部分

HasPart有另一资源作为一部分

IsReferencedBy被另一资源所参见12/13/202381信息管理系元素限定属性说明RelationReferences参见另一资源

IsFormatOf是另一资源的另一格式

HasFormat有另外格式

URI

使用URI描述关联资源*12/13/202382信息管理系12/13/202383信息管理系12/13/202384信息管理系12/13/202385信息管理系12/13/202386信息管理系12/13/202387信息管理系12/13/202388信息管理系12/13/202389信息管理系12/13/202390信息管理系12/13/202391信息管理系12/13/202392信息管理系12/13/202393信息管理系12/13/202394信息管理系12/13/202395信息管理系12/13/202396信息管理系12/13/202397信息管理系12/13/202398信息管理系12/13/202399信息管理系12/13/2023100信息管理系12/13/2023101信息管理系12/13/2023102信息管理系12/13/2023103信息管理系12/13/2023104信息管理系12/13/2023105信息管理系12/13/2023106信息管理系元素限定属性说明Rights

暂无限制词12/13/2023107信息管理系元素限定属性说明CoverageSpatial空间范围

DCMIPointDCMI空间坐标系统*

ISO3166ISO3166国家名称代码*

DCMIBoxDCMI地理区限描述体系*

TGNGetty地理名称叙词表*

temporal时间范围

DCMIPeriodDCMI时期体系*

W3C-DTFW3C-DTF时间编码体系*12/13/2023108信息管理系12/13/2023109信息管理系12/13/2023110信息管理系12/13/2023111信息管理系12/13/2023112信息管理系12/13/2023113信息管理系(2)编码体系该类修饰词说明元素值所属的编码体系,以帮助理解值的含义。采用来自控制词表的表征符号(例如分类法主题词标中的术语)具有特定意义,或以一定形式组成的字符串表示正规的符号。如果一种编码体系无法被客户机或代理所理解,它的值仍能被人类所理解。用于修饰的编码体系必须有清晰明确的说明,并能够方便的得到.12/13/2023114信息管理系DCMI自己的编码规则:12/13/2023115信息管理系12/13/2023116信息管理系12/13/2023117信息管理系12/13/2023118信息管理系12/13/2023119信息管理系4)、DC的作用是:

(1)支持简单而含有信息量的元数据,以满足广大用户和群体的需要。(2)提供一个共享语义学标准,使得用各种不同规则编目的元数据可以直接交换。12/13/2023120信息管理系1)简单性。

DC是非专业层面提出来的,其目的是为网页制作者提供一种网络信息的著录格式,以供用户查找与定位所需信息。与传统的目录卡片及MARC格式相比,DC简单。2)灵活性。

DC的每一著录项目都是可以选择的,也是可以重复的。网络制作人员可以根据网页的内容与特征选择需要项目,允许不同专业团体根据专业要求

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论