信息组织期末复习要点_第1页
信息组织期末复习要点_第2页
信息组织期末复习要点_第3页
信息组织期末复习要点_第4页
信息组织期末复习要点_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、学习必备欢迎下载信息组织期末复习要点第一章信息组织导论1.1信息组织的环境与背景、信息检索工具的变化1. 手工检索时代:目录、题录、索引等2. 计算机检索时代:各种检索系统,核心是数据库3. 网络检索时代:检索型、目录型、混合型检索工具4. 各种检索工具的涌现,目前互联网上运行的搜索引擎至少有几千种之多。二、信息检索技术的进步1. 按照信息存储的载体和实现查找的技术手段,信息检索可以分为手工检索、机械检索、光电 检索、计算机检索。2. 网络信息检索米用的检索技术包括:布尔逻辑检索、自然语言检索、多语种检索、字段检索、 区分大小写检索、限制检索、二次检索、自然语言检索、多语种检索、加权检索、模糊

2、检索、 概念检索、相关反馈检索等1.2信息组织的相关概念与内容、组织与组织系统1. 组织:组织是一种有意识地行为;其目的是为了创造次序与结构2. 组织系统:资源与交互3. 组织系统的三层体系:用户界面、业务逻辑、数据4. 组织对象的种类:物理实体、关于物理实体的信息、数字资源、关于数字资源的信息5. 资源、文献与馆藏(1)资源:资源具有一般意义上的任何价值 ,可以支持面向目标的活动,如实体、对象等。资源在网络体系结构中具有特殊的意义。通常,描述网页、图像、视频等资源,以及访问它们的协议,超文本传输协议(httP),使用统一资源标识符(URI)。(2) 文献:文献通常用于数字或物理格式的信息资源

3、;工件是指由人创造的资源,以及具有经 济价值的资源的资产。(3) 馆藏:馆藏是已为某一目的选择的一组资源。相似的期限被设置(数学),聚合(数据建模), 数据集(科学和商业)和语料库(语言学和文艺分析)。6. 元数据:描述或与其他资源相关联的数据(1) 挑战1:决定哪一个资源是主要的(2) 挑战2:用于描述一个人或过程的元数据再用于描述其他资源7. 信息组织:为了方便人们检索、获取信息而奖庞杂、无序的信息进行系统化和有序化的过程。从广义上来说,包括信息搜集与选择、信息分析与揭示、信息描述与加工、信息整理与存储。1.3组织活动决策的6个方面、组织活动决策的6个方面1. 组织对象:不同组织系统的组织

4、对象存在不同,如图书馆、博物馆、档案馆。越来越多的组 织系统处理和组织的资源是原生数字资源,如音乐、照片、视频和其他非文本内容如传感器数 据。2. 组织原因:发现,识别,选择,建立分类体系,类分,整合,分割,推荐,交互等。3. 组织数量:并非所有的资源都应享有同等程度的组织。受控词汇可以产生更一致的组织,如 果正在组织一个固定的资源集合,那么可能会比需要一个能够容纳将来可能拥有的资源的组织 系统来组织它。4. 组织时间5. 如何组织:组织活动从资源产生时就开始发生,嵌入到资源的整个生命周期中。如当一个作 者撰写一篇文档时,作者通过标题、章节标题、体例、页码和其他机制对该文档进行了一定程 度的组

5、织,用以区分和识别与其他部分的关系。数字形式的照片、视频和文档在创建时往往被 自动地赋予了相应的描述,如时间和位置。6. 组织位置:可以在物理安排中组织资源, 资源安排可以鼓励或劝阻人之间的交往 ,创造自由、 安全感或监禁的感觉。对于数字资源 ,它们组织的位置通常是无形的或无关紧要的。第二章信息组织导论2.1信息组织系统中的4类活动、分别是什么?1. 选择信息资源(1 )选择是一个发现,识别,评估资源并纳入组织系统中某一集合的过程。选择的方法和标 准因不同领域而异,但它们要确保资源能够实现“面向目标的活动“。(2) 选择和保留所有资源:信息过载、弱组织原则 选择在组织之前:独特或罕见资源需要被

6、一个一个地评估 选择和组织并发:同质或可预测的资源 选择在组织之后:根据模式创建的资源(3) 选择标准:基于某些特定目的效用价值、内在价值、稀缺性或唯一性、最新、建立品牌 或声誉、适于使用。(4 )路径依赖(5)选择与采样:如果您的目标是对其进行推论而不必研究其所有实例,则通过从大量群体 中随机抽样来选择资源至关重要。基于统计的良好样本是指被选资源和未被选资源在重要方面 没有不同。2. 组织信息资源(1) 几乎任何资源的属性都可以用来组织它们,但是最适当或有效的属性因资源类型和任务 而异。在资源创建或被选择之前,就应当决定在组织中使用哪些资源属性。(2) 组织物理资源(3) 自动/预先注意:物

7、理资源通常根据诸如它们的尺寸, 颜色或形状的内在物理性质来组织, 因为人类视觉系统快速且自动地对它们给予很多关注。相近性和相似性、即格式塔原则。(4) 形状和颜色的预处理,当形状和颜色特性不相关时,预注意与处理并行是不可能的。(5) 整体由一些相互作用的部分组成,这些部分可以在整体上分开,分析和重新排列。当视 觉信息不明确时,存在将视野的一些部分视为前景而将其它部分视为背景的自然趋势。(6) 连续性(7) 伪装:类似于背景,反向阴影,阴影消除和破坏边缘检测的破坏性着色,颜色和图案证明了 Gestalt处理的力量。3. 支持交互(1 )直接交互与中介交互:与资源的交互可以是直接的,中介的或间接的

8、,或限于与资源副 本、描述的交互。(2) 交互与价值创造:物理操作,符号控制和人际交互,三者的交互有不同的地方。(3) 物理资源的价值创造(4) 数字资源的价值创造:交互的本质是对资源中包含的信息进行信息交换或符号操纵。用 于信息资源的数字资源描述可以促进查找,识别,选择和其他“价值创造”交互,即使资源本 身没有被数字化。智慧资源的价值创造符号交互和其它技术作用的分解价值创造:功能可见性和交互设计功能可见性:交互不同于那些通过有意识的描述、整理或技术之后产生的“被设计的交互”.(“信息智能”)(9)数字化与交互:数字资源交互的种类和功能由编码中的结构和语义的数量 来确定。4. 维护信息资源(1

9、)维护包括任何活动,其目的是确保资源在将来的某一时间使用或重用。可维护性和扩展性设计/组织。选择基于应用于资源的一些隐式或显式条件。保存物质资源需要保持在防止其恶化的条件下,它还包括用于改进访问或恢复资源的举 措。文档恢复(6)数字保护:副本、篡改杜绝等法律:启用文档发现的民事诉讼规则、政府问责、被遗忘权、强制披露数据泄露。记录管理:保留要求、不保留要求、访问控制,特别是分类信息禁止保留个人身份信息、清除要求和权限等。(9 )计算治疗:众包数字化 /公民科学,许多博物馆或科学存储库正在寻求帮助将他们的藏品数字化,初步分类和稀缺专家。第三章组织系统中的资源3.1什么是资源、资源的粒度1. 资源是

10、其他资源的聚合或复合材料 ,或具有内部结构,对其“属性”的粒度构成疑问。2. 我们可能需要组织和管理粒状资源、复合资源以及它们之间的关系-同时也可以在不同级别的 上下文/容器/集合中标识零件。3. 对于信息资源而言,物理资源的粒度更容易确定 二、资源的标识符1. 标识符:是一种特殊命名,它通过规则以受控的方式分配,规则定义可能的值和命名原则。例如,将一个数字资源的标识符输入到系统中,从而确定它的位置,这样它就可以被检索出来。三、资源的名称1. 名称:指的是对某一资源区别于其他资源的标签。2. 名称的选择往往受到多种因素的影响,如公众的可获取性、习惯,语言类型,机构政策,个也就意味着有同义词或别

11、人以及文化偏见等。如果一个资源有两个及以上的名称或者标识符, 名的出现。这种现象被称为“词汇问题”3. 受控词汇可用于来解决词汇问题。通过添加名称和标签, 规范资源被分配的规则, 或通过自 然语言定义映射,使其转换为权威或受控的术语。 需要注意的是,词汇控制不能消除所有歧义。3.2资源的属性、四个可区分属性 1.资源域(1 )每个资源具有一定的区别于其他资源的本质或类型,称之为资源域。言, 对于物理资源而言,域的区别较为容易,即可以粗略根据物质容易感知的属性做物质类型的 区分。 对于信息资源而言, 容易被感知的属性往往不可靠和不相关,因此更多的是基于语义特征来 进行域的区别。(2) 信息资源可

12、以被分类和分层,但有时候类别边界不清晰却更有益于从弱结构的叙事内容到高度结构化的事务性内容发现信息资源的域。由此,格鲁什科和麦格拉思提出了文档类型谱。(3 )不同结构域或类型的文档可以根据被语义规定的内容区分,即通过其内部结构数量、呈 现方式和内容结构的相关性。2. 资源格式(1 )物理环境还是数字环境,信息资源都能以各种格式存在。知道哪个是最原始或者最重要 的信息资源十分的重要,特别对于独特的或有价值的信息资源而言。(2)数字信息资源的两个维度:内容表示显性化程度和内容表示的分离程度。 信息智商,如扫描文档;数据库或 XML文档;HTML文档。具有较高“智商”格式的信息很容 易和有效地用计算

13、机处理。(3 )编码结构的部件,如章,节或类似的语义组成。信息是否被编码为文本字符的序列,以 使它是人类以及计算机可读也是十分重要的。3. 资源能动性(1 )代理是在某种程度上促使资源可以自发引起自身的行动。 被动型:组织系统中的被动型资源无处不在,这些资源通常是无形的,只有某些行动的触发 才能使得他们变得有价值。 主动型:主动型资源通常依靠自己创造效益和价值,有时候也通过触发被动型资源产生。(2)智能性连续体 感知与意识:资源媒介感知周围环境和其他资源的互动的基础,但是感知事物并不能为组织 系统创造任何价值。 刺激:当资源通过信息的感知采取行动时,才具备创造价值和影响的能力。 驱动器:通常被

14、用来描述可以控制物理机械或者系统的东西。 关联:主动型资源要发挥自身的作用,就必须要与控制其他资源的驱动器相关联。 计算或计算力:主动型资源通常可以通过阅读传感器的信息,然后分析信息的内容并不断去 调整行动。还可以可组合性与合作:智能的主动型资源不仅仅能够分析所搜集的信息和为之调整行为, 在共同遵守一定格式和规范的基础上,汇聚不同来源的信息来创造更大的价值。4. 资源格式与焦点(1)物理形式描述物理资源:描述性资源与物理资源的关系是通过将描述性资源以物理形式 进行编码。(2)数字形式描述物理资源:典型就是通过图书馆在线目录定位实体图书馆资源的馆藏所在位置。(3) 数字形式描述数字资源:描述数字

15、资源的数字资源也就是对网络原生的信息资源进行描 述。(4) 物理形式描述数字资源:报纸广告、马路广告商品货架上的可以被手机扫描商品或服务 信息的二维码就是以物理形式描述数字资源。(5) 识别资源所属的域,确定哪些属性是重要的或与人或者系统操作相关的,然后指定由其中哪些性质来定义的资源之间的关系的原理是构建组织系统最核心的任务。3.3命名资源、为什么要给资源命名 帮助我们寻找到资源、描述资源、复用资源、链接资源等。二、资源命名中存在的问题(1 )词汇问题:人们描述事物中所选择的单词与他们的经历和语境有关系。(2)同义词、多义词、假同源词等:当资源有同义词或者多义词时容易被错误辨别,难以用 自动化

16、的程序确定其正确的表示方式。(3) 不恰当联系的命名:假同源,如在中国,4是不吉祥的数字,意味着死亡(4) 通过假设常量属性的命名:通过假设常量属性来命名是建立在资源属性的基础上,但是 随着资源本身的变化,其属性的含义也会跟着改变。(5) 语义差距:指在命名和描述资源时,用自动化方式代替人为方式描述产生语义的差距。三、选择好的命名和标识符(1)需要让命名有富含信息量使用受控语言允许别名使标识唯一或者被限定区分识别和解决第四章资源描述与元数据4.1资源描述、为什么要描述一个资源 1.资源描述的目的是便于查阅、 区分、检索这些资源,以及管理资源获取入口和保存这些资源。2.不同的资源领域有特色的或标

17、准的资源描述,但是不同类型的资源一定也有用于区分的属性 或者不带偏见或有理由的区分他们。二、资源描述的框架或方法1. RDF(1) RDF是一种计算机可处理的网络资源描述的标准模型,是语义网构建的基础。资源是指带有 URI ( Uniform Resource Identifier )的任何资源。(2) 关键思想:使用 URI识别在线资源,如网页,以及线下资源,如人和国家。(3)三元组形式:资源,属性和属性值。RDF使用XML编写,它的设计编写目的不是为了显示给人看,而是设计为可被计算机阅读和理解。于是RDF信息会有若干种序列化形式,即可使用三元组表示。2. MARC21 :包括作者,标题,出

18、版年,出版商和页码等。4.2资源属性、资源属性类型 1.内在属性:资源所固有的,部分是静态的,也有动态的,但是是从资源内部发生变化,而不 是由于外部行动或努力而改变,有时可用于识别符。(1 )物理属性:物理的或可感知的属性即表面可见的。 对于自然事物,这些物理属性非常适合进行描述,这些属性具有一定的特色或一致性、可预 测性和关联性。 对于人造产品,外观属性预测性较差,重要的是外观下所具有的的功能。 对于物理形式的信息,外观与内容之间的关联因文档类型不同而不同。2.外在属性:外在属性是人为赋予的一种属性。部分是静态的,如名字或识别符,部分是动态 的,如当前位置,受欢迎程度,价格等。(1)文化属性

19、:来源于传统语言的使用或文化,或者涉及到与此类似的方面。由于文化属性 来源于文化或语言知识,因而对于缺少相同视角或经历的人来说是难以理解的。(2 )情境属性:与事物被描述时所处的情景或情境相关。情境是指与用户、应用程度和周围 环境之间交互相关的情景的特征化信息。随着情境的改变,可能基于情境的描述会变得不再使 用。(3)结构属性:事物的内在或外在结构对于描述来说是有用。组成部分的数量或排列和与其 他资源的关联的数量和类型。4.3资源描述的过程、资源描述的六个环节1. 选择范围和焦点:(1 )描述实例或馆藏:确定资源粒度之后,就是确定是否需要分别描述这些资源。(2)抽象化资源描述:一个应用于整个资

20、源类型的描述方案(如模型或元数据标准)2. 确定目标(1 )支持选择:发现、性能与兼容性、鉴别、评估(2 )支持组织:组织是为描述和配置资源指定原则或条例以便实现更好的交互能力。实体资 源通常根据其有形或可感知的属性,如大小,颜色,组成材料,形状等。(3 )支持交互:书目记录功能需求FRBR应用于组织系统的四个目的包括 发现已经存在的资源 识别所需资源 从资源集中选择一个资源 导航:当用户不清楚他们的信息需求时,使用关系性和结构化描述进行导航效果更好。具体 方式如: 概括,聚合和派生关系。(4) 支持资源维护保存元数据”关于资源格式和技术的技术性信息,保持资源完整性的 版本信息,有效期或使用期

21、限信息 使用记录3. 识别属性(1 )任何资源都要从多角度描述, 这些描述均与不同属性相关, 取决于交互类型和所处情境。(2)不同类型资源需要包含不同的属性(3 )资源描述中所使用的属性取决于描述的主体(4) 概念层次相同的属性在实现层次可能不同。基于时间的资源的总结性描述具有非常大的 挑战,如电影,歌曲等(5) 两个重要维度:属性的本质和属性持久性4. 设计描述词表(1)原则:用户便利性、表达性、充分性和必要性、标准化、整合(2)两大挑战: 需要额外的和特定的情境 原则之间可能存在一定的冲突(3 )资源描述利用的主体:资源描述必须针对不同用户群体进行设计,如图书馆用户,企业 员工,企业客户,

22、科学家等群体。(4 )受控词表和内容规则:术语表、叙词表、上位词、下位词、本体(5) 降维:目标是减少描述资源的术语数量,通过一些方法减少资源描述的维度,如特征抽 取,主成份分析,正交分解,潜在语义分析,多维标度等。5. 编制资源描述:每个编制主体都有不同的特点,最好使用混合的方式取长补短。如,由终端用户为一个新的资源领域标记相应词汇,由专家进行精确之后再借助于软件工具利用分类器生 成摘要。6. 评价资源描述:依据一些标准或维度评估其质量(1)常用:准确度、完整性、一致性其他:时效性、互操作性、可用性评价资源描述的创建评价资源描述的使用反复评价的重要性:用户显性反馈或资源交互记录的隐形反馈非常

23、重要第五章对关系和结构的描述、描述关系的五种观点(1)语义学:联想的意义词法学:如何使用特定语言中的词语来表达关系的概念描述。结构:分析资源之间的关联、排列、邻近或连接的模式(通常忽略它们的原因)。架构:强调关系组成部分的数量和抽象级别,它们一起表征其复杂性。实施层面的观点:如何以特定符号和语法实现关系,以及在某些技术环境中将关系排列 和存储的方式。二、三种广义的语义关系(1 )包含关系 种类包含:is-a, is-a-type-of, subset is-a-type-of, subset 部分-整体关系包含:部件-对象、成员-集合、部分-质量、材料-对象、地点-区域、特征-活 动、阶段-活

24、动 拓扑、位置、时间包含:is-in , the Vatican City is-in Italy(2)归属关系:为特定的资源断定或分配其属性的值注意属性与值的区别,如 color: attribute, green: value属性有时可以包含多个判断,有多种 表达方式,可以用于表达另外的关系。(3)拥有关系:表面上和部分一整体关系相似,但没有后者中“作为其中一部分”的意思。在机构组织系统里尤其重要,所有权,控制,责任及相关的转让,均是这些系统支持的交互 活动的基本部分。同时隐含持续时间和持续力,有时难于从惯常处所和做法来区分关系。三、本体和分类法(1) 分类法可以捕捉到在某个范畴的种类包含

25、关系的系统,但还有很多种关系。其他类型的 关系,都在表述着这个范畴的知识, 对了解这个范畴或者多个范畴相关的资源或活动都有帮助。(2 )本体是众多的关系组成的网络可以创建出一种资源。关于视图,显示出它也具备一种分 类法作为自身概念的展台。本体在某些组织系统,是不可或缺的部分,特别是信息密集的系统, 其资源的范围和规模需要一套全面而受控的描述词表。四、词汇关系的种类(1)下位关系和上位关系,这可对应种类包含关系。转喻关系,这可对应部分-全部关系。同义关系,绝对同义或者命题同义。多义关系,具备多种含义。反义关系,严格的双分反义词对。五、叙词表对叙词关系的表达(1)叙词表是一项参考性工作,根据语义与

26、词汇的关系组织词语,被专业人士用于描述资源。(2 )不同的范畴和主题领域都有各自的叙词表。(3) 在叙词表中,通常用宽含义(BT)和窄含义(NT)来表述上位和下位的种类包含关系。六、结构元数据以数据库或文档的概要模式, 描述信息资源的种类,也可能包括组成部分的包含和归属关系的语法细节。可用于描述数据库表格间的关系,图书章节的关系或库存管理系统的各部分关 系。七、语义网和关联数据1. 语义网在2001年提出,所有的信息都可以被自动工具和人类分享和处理。(1) XML的应用,包括RDF和OWL,使得网络更加语义化和网络资源关系更加显性化。(2) Wikepedia,就是利用语义注释的模版鼓励用户以

27、内容编码格式创建信息。2. “关联数据”运动是语义网的延伸,将网络架构的基本原则以更好的语义条目来重建。八、资源描述和获取1. 前提:在线目录在编制文献书目关系上做得并不好,原因在于目录显示的设计和目录记录中 信息组织的局限性。即使是 MARC记录,内含的数据也不能被重复使用和重新排列。2. RDA(1 )作为新一代的编目规则,希望将不相连的资源描述链接起来,呈现完整而相连的关于著 作,作者,出版物,出版商和主题的数据。(2) 利用RDF来揭示和存储书目资料中的关系。(3 )将图书馆数据变得更广泛在线和可用,同时也希望利用语义网的分布特性,使得本身更 具影响力。第六章描述资源的类和类型、为什么

28、分类以及怎样分类1. 定义:类别是指被同样对待的事物或抽象实体构成的类、集合或组。2原因:感知、交流、分析、预测、分类或试图使经验有意义时,都涉及到类别。所有人类语言和文 化将物理和经验的 世界分成类别。类别是应用先验知识的认知和语言模型,创造和使用类别是必要的人类活动;类别使我们能 够根据相似性和不相似性将事物彼此关联。3. 怎样分类 人们认识到世界中的结构,然后创建类别。通过强化结构来体现世界的意义,哪些事物应该放在一起是结果,而不是分类的原因。二、4种基本类别及其联系和区别1. 文化类别:可以理解为一种自然人认知能力,它是作为非正式和正式组织系统的基础。2. 个人类别:倾向于在我们的个人

29、活动中自发增长。3. 机构类别:符合公司、政府和其他目标企业内部和之间正式协调配合的需要。明确创建和使用,最常见的是用于许多人相互协调。在抽象和信息密集型领域中创建,其中需要明确和精确类别来规范和系统化活动,实现信息 共享和重用,并降低交易成本。 不是描述世界本来的样子,而是通过赋予比文化类别更正式和专制的语义模型定义类别进而 改变或控制世界。4. 计算类别:由计算机程序创建,用于信息检索,机器学习,预测分析和其他应用。5.联系 文化、个人、计算机和机构类别的概念有效地区分了创建类别的主要过程和目的。 这些类别描述了物体、事件、设置、内部体验、物理定向,实体之间的关系以及人类经验的 许多其他方

30、面。6.区别 融合、冲突和相互重组,不是将它们视为具有精确的边界,而是分类活动、方法上的区域。个人类别和机构类别基于文化类别而形成。文化类别倾向于描述日常经验和积累的文化知识。 文化类别的学习没有明确指导,主要是受照顾孩子的人的影响,它们与特定文化背景下的语言习得和语言使用有关。个人类别与文化类别不同:一是个别类别有时具有想象力或隐喻基础,对创造他们的人而言是有意义的,但可能会扭曲或误解文化类别。 其次,个人类别通常是专门的或综合的文化类别,可以捕捉特定的经历或个人历史。机构类别与个人类别不同,因为它需要大量努力来协调现个体类别之间的不匹配,体现了在正式制度体系中丧失了的有用的工作或语境知识。

31、机构分类工作必须克服文化类别的模糊性和不一致性,因为前者必须经常符合更严格的逻辑标准,以支持推理和符合法律要求。三、七个主要原则1.枚举:有限或可数集合中的任何资源都可以被该事实视为类别成员。该原则也称为扩展定义,集合的成员称为扩展项。2.单个属性:资源的任何单个属性都可以用于创建类别。最容易使用是内在的静态属性,是永远不会改变的属性。天然或制造物体的组成材料是可用于描述物理资源的内在和静态属性。用于为组织系统创建类别的最有用的单一属性是那些被正式分配,客观可测量和有序的,或与已建立的文化类别相关联的属性。3.多个属性和等级多级类别系统。当使用相同的资源属性序列来布置组织系统中的所有资源时,这

32、创建了逻辑等级结构。资源子集的不同属性。每个资源都针对每个属性进行评估。必要和充分的属性。一组大型的资源并不总需要许多属性和类别来组织。某些类型的类别可以只用一些基本属性来精确定义。4.家族相似性:使用统计而不是逻辑方式对属性进行分类,以得出要分类的资源和类别的其他成员之间的相似性或相似性的一些量度。使用它们在复合或集成的方式来确定相似性。5.相似性:成为分类的有用机制的前提是必须明确相似性度量的方法。基于特征或基于属性、基于几何、基于队列(alig nmen t-based)、变换6.基于理论的类别:以适合使特定分类合理的理论或形式组织事物,避免家庭相似性或相对于可见属性的相似性将导致不同的

33、类别分配。7.基于目标的类别组织并处理资源以达到目标。类别是由某个特定上下文中的特定目标导出或导出的。第七章 按照类别类分资源、Classification 的涵义1. 作为名词,分类法或分类表,是一种类别系统,即根据预先确定的一组原则对类别进行排序, 并用于组织资源集合。2. 作为动词,是以系统化方式将资源分进设置好的类别系统(通常是机构类别)的活动。二、分类法与标签的区别1. 分类法按照原则和系统化的方式实现,是精确、可靠的,效地满足机构和商业性目的。2. 标签利用资源的任何属性和词汇来描述该资源,不管该资源之间的差异,从而构建一个类目 系统。也可以称为社会分类法。3. 大众分类法,用于描

34、述特定网站或应用的标签集合4. 标签分类法:用户或社区建立原则来管理标签,旨在以一种使标签更加系统化的新词。三、分类表的排列形式 1.枚举式:一种明确将所有可能分配资源的类别列举的分类方表。2. 层级式:当所有的资源属性以一种固定的次序考虑,每种构成分类系统中的一个等级的分类 方案。3. 字母或有序化:认为这些组织原则是创建隐式或潜在的分类系统,在该类别仅在需要时生成。4. 分面分类(分析-综合法):最常见的类型的方面是枚举(互斥的);布尔(是或否);分级或分类 (逻辑控制);和频谱(一系列数值)。四、分类法的原则 1.原则镶嵌在分类表中:文献保障、科学保障、用户或使用保障。2.按照类别类分资

35、源的原则:唯一性,重新开发和遵循一套详细且通常比较主观的规则。3. 分类法维护的原则:在开始定义时构建多余的逻辑空间,图书馆分类法使用命名或编码方案 创建新的子,信息系统分类方案也能预估文档或数据库方案的演化。五、世界三大分类法的概况1. 杜威十进分类法:分为10个大类,涵盖整个知识领域。每个大类可以进一步分为 10个子类, 每个子类再包括10个部分。分类号码基本上采用层累制,有时也采用小数顺序制。2.国际际十进分类法:欧洲第一部文献分类表,最早提出概念分析和组配原则。 UDC多语种、 多版本、类目详细、组配灵活、标引能力强,能适用于成册文献的分类和排架,也能满足单篇 文献的分类要求。3. 美

36、国国会图书馆图书分类法:有21个大类,由字母进行编号。每个大类可进一步细分,使 得LCC类目层级较多,具有较强的实践性,但是缺乏一定的理论性基础。偏向于适应于美国 及国家管理层面的需求。六、杜威十进分类法的特点 1体系结构完整、严谨,类目详尽,层次清楚,易于理解,便于按学科进行检索。2. 采用严格的层累标记制,类号等级分明,具有较强的助记性,但有时号码过于冗长。3首创仿分、复分等具有组配性质的编号法。4. 最先为分类表编配详细的相关索引,提供一条简便的字顺检索的途径5. 拥有实力雄厚的管理机构,定期修订,使分类法不断得到更新。七、什么是分面在分面分类系统中,每一种资源可以使用多个分面的属性加以

37、描述,但是搜寻资源的代理 不需要考虑所有的属性(即分面),也不需要以固定的顺序来考虑。八、分面分类系统设计的步骤和原则 1。设计步骤(1 )范围:定义分类的目的,细化概念或资源的范围(2) 选择每一个组面的取值:决定组面的逻辑类型和可能的取值;细化组面的取值顺序,包 括字母、年代、处理过程、规模、流行程度、复杂性程度、地理或拓扑结构。(3) 组面识别:分析和描述资源样本实例以失却候选组面的属性或维度。(4) 设计组面层级和语法:检查组面之间的关系;决定如何组合各个组面。(5) 验证,迭代与精:利用新的实例对分类进行检验,修正各个组面和取值。2.原则(1 )正交性:组面应该是相互独立的维度,确保

38、一个资源涵盖所有组面的取值,且每一个组 面只有一个取值。(2 )语义平衡:顶层组面应该是分类领域中对资源具有最佳区分能力的属性,取值应该具有 相等的语义范围,使得资源分布在各个子类别中。覆盖范围:组面的取值应该能在预期范围内类分所有的实例。其他”值。可扩展性:组面的值应能适应需要潜在增加的一组实例,简单是增加一个(6)客观性:尽可能明确和具体。规范性:不使用特殊、隐喻或需要特定知识来解释的术语。第八章资源描述形式、使资源描述结构化的元模型 1.元模型描述了资源描述和其他信息资源中常见的结构。组织系统的任何设计师都会创建一个 特定领域的模型,但不会创建一个全新的元模型,而是从已现有标准的元模型中

39、进行选择。2.所产生的模型有时被称“领域特定语言”。标准元模型可以提高经济效益,开发人员可以用针 对这些元模型设计的工具和知识,不必从头开始。二、建模的约束条件 1.元模型对资源描述的结构施加了限制,但在组织系统方面,仍需要进一步明确所组织的具体 资源类型的描述内容和组成。2. 一旦选择了一个元模型,在特定的域中对资源和集合进行建模时,必须处理约束条件。并给出这3. 指定词汇和模式:为特定领域的资源描述创建模型涉及指定这些描述的公共元素, 些元素的标准名称。还可以指定如何将这些元素排列成较大的结构。4. 在XML中,模型在schemas单独文档中被定义。XML提供了文档中的元素和属性名称的 术

40、语词汇表。XML还定义如何将这些元素,属性及其内容排列成更高级别的结构规则。5. 控制值:模型也可限制描述的值或内容。有时,单个模型可用于将定义某些属性名称的术语 和可用于属性值的术语。三、符号和写作系统1.符号(1)ASCII (美国信息交换标准代码)是用于数字环境的已经编码和标准化的符号示例。每个 字符都必须严格定义。在 ASCII中,每个charcter的数字从0到127,所以有128个ASCII字 符。(2 )不同的符号可能包括非常相似的标记。在非数字环境中,将依靠上下文来了解书面标记是否被用作音乐符号、数学符号或英文缩写的一部分。(3)计算机没有对上下文的直观理解。Unicode将n

41、umber sign (日常生活中#的表现形式)和sharp sign (音乐中#的表现形式)编码看做两个不同的字符。2.写作系统(1 )写作系统采用一个或多个符号,并添加一组使用它们的规则。(2)声门书写系统:大多都能认知到一种特定的人类语言。(3) 许多书写系统,如数学和音乐系统,都不与人类语言相联系。用于描述资源的系统属于 后者。(4) 以自然人类语言为基础的声门书写系统难以准确,全面地描述。非声门书写系统可以使用抽象模型进行准确和全面的描述。非声门书写系统由特定元模型描述,并且适合于给定元模 型的约束条件。(5 )写作系统提供了将符号排列成有意义的结构的规则。符号中的字符没有固有的含义,字 符取决于写入系统上下文的内涵。第九章与资源进行交互、交互的前提:整合,联接,聚类或合并资源以提供更广泛的资源和更同质的描述进行检索。二、交互的决定要素 1.用户需求:人与组织系统之间的交互越抽象及之间中介的越多,从用户获取自描述组织系统到用户与人 或机器中介交互再到计算代理与其他计算代理之间交互,就应该越精确的描述交互的需求。用户信息需求决定了所需资源的类型和内容,表现为搜索请求、构建查询式、浏览

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论