信息组织与信息检索_第1页
信息组织与信息检索_第2页
信息组织与信息检索_第3页
信息组织与信息检索_第4页
信息组织与信息检索_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

信息组织与信息检索401345030第2章知识组织系统2.1知识组织系统的概念及由来2.2分类法及其在数字环境中的应用2.3主题法及其在数字环境中的应用知识组织系统是对各种人类知识结构进行表达和有组织阐述的语义工具的统称,既包括传统的文献分类法、叙词表等,也包括新产生的搜索引擎自动扩检词表、网站导航分类目录、语义网络、本体以及更泛指的情报检索语言或标引语言。最早由NKOS(NetworkedKnowledgeOrganizationSystems/Services,网络环境下的知识组织系统/服务)研究小组在美国计算机学会(AssociationforComputingMachinery,以下简称ACM)1998年的数字图书馆会议上提出。2.1知识组织系统的概念及由来知识组织系统的产生背景

随着信息环境、信息数量、信息需求的急剧变化,越来越多的新型知识组织工具陆续问世,如语义网络、概念地图、本体等,名称越来越多而区别越来越不明显。随着信息资源的激增,人们为了能够获取到真正想要的知识,对信息组织揭示程度要求越来越高,已经从文献组织层面上升到知识组织层面。超链接、标记语言、可视化等计算机网络技术,被大量引入传统检索语言之中。二者的结合,使以往以分类表、词表等形式出现的检索语言,名不副实,不得不改名。网络环境既对多种知识组织工具的集成使用提出需求,也为其创建及应用创造条件。知识组织系统的类型反映了不同类型知识组织系统受控程度(规范化程度)、结构化程度和概念揭示能力之间的这种正向关系。从谱系图中可以看出,最简单的词汇列表到复杂的关系词群,词汇的控制程度逐渐加强,知识组织系统的结构化程度也渐深,从一维结构向二维结构、三维结构甚至多维结构演进。虽然这些知识组织系统在复杂性、结构和功能上存在差异,但在信息资源的表示、组织、存取、检索中都有着不可或缺的作用。不管知识组织系统的来源、类型存在什么差异,每个知识组织系统都有一个明确的目标:

有效组织信息,提高信息检索和利用的效率。知识组织的主要类型1、词汇列表2、分类聚类体系3、关系词群1、词汇列表(TermList)词汇列表,强调专业术语,往往附有概念的定义,一般不涉及复杂的语义关系和分类结构,主要实现词义消歧和同义词控制功能,有可选词单、地名辞典、术语表、词典、规范文档和同义词环等类型,是一种简单的知识组织系统。(1)可选词单(PickList)按照某种顺序排列的有限词汇的集合。词单中的词按照年代、字顺、大小或者其他的逻辑顺序排列。一个词单中的成员词都属于同一属性词汇的集合,例如都是国家名称、或产品名称或事物名称,在意义上没有重复,在专指程度上也是一致的。可选词单将一个资源集或者概念集根据不同的角度,分门别类地划分为若干个易于检索和理解的子集,每一个门类为成员词的词义提供了上下文环境(语境),从而避免了语词歧义的问题,是一种简单有效的词义消歧的方法。可选词单举例含有名称和类型划分的有关地点的地理参考字典。传统地名辞典一般以图书形式出版,或是作为地图集的索引,每一个款目都可通过地理特征或类型来识别,如河流、城市、学校等。地名辞典在地理上的用途通常是作特定地点的地面定位,这些地名词语通常用分类框架或主题归类来组织。目前对于地名辞典的研究,已不仅仅局限于词汇层面上,而是把地名词汇与地图数据结合,通过地名词直接定位到相应的地图或GPS上。(2)地名辞典(Gazetteer)台湾中央研究院台湾地名辞典(资料来源:.tw/placename)(3)术语表(Glossary)术语表是术语及其定义的一览表。术语可来源于特定领域或特定作品,这些术语在某一特定学科或专业领域中被定义,通用性强,往往经过专家修订,很少有多种不同的含义,比如医学术语、药学术语、计算机专业术语等。(4)字典/词典(Dictionary)字典/词典是以字顺排列的字或词及其定义的列表,包括字或词的各种不同涵义。字典/词典的范围要比术语表宽泛和通用,字典/词典还可以提供字或词的起源信息,拼写或词法,以及跨学科的多种涵义;有的字典或词典还可能提供不同涵义的同义词、相关词,但它没有明确的等级层次体系,也没有试图通过概念来将字词加以分组。如《汉语大字典》《英汉牛津词典》等。亦称规范档、权威档,是用来控制同一实体(人或事物)不同的名称,或者某个特定领域中专有名词的词汇表,例如国家名称表、个人姓名表、组织结构名称列表。非规范的词汇被链接指向规范词汇。这种类型的知识组织系统并不揭示复杂的结构和组织关系,一般只揭示等同关系。如国家图书馆建有人名规范档、地名规范档、题名规范档等。国图的人名规范档“梁启超”条目下,以“梁启超”作为规范名,同时收入其字、号,如“梁卓如”、“梁任公”等,并收有“康有为”、“强学会”、“戊戌变法”等相关词等。(5)规范文档(AuthorityFile)(6)同义词环(Synonymring)

亦称同义词表,是一组同义词、准同义词、甚至下位词等的集合,类似于入口词表,但是它不强行要求环中某一个词作为“正式词”,环中任何一个词的地位都是平等的,都可以是正式词。同义词环以检索为目的,通常与搜索引擎一起使用,作为搜索引擎的自动扩检词表以帮助扩充检索式,用户只要使用同义词环中的任何一个词,就可以找到这一类的资源。例如,利用Google的同义扩展功能搜索“car”,返回结果中除了包含出现检索词“car”的信息外,还包含了大量未出现“car”但出现“BMW”、“汽车”、“Auto”、“Motor”等词语的信息,实际上Google搜索的后台中就利用了同义词环来支撑其同义扩检功能。同义词环可以根据检索环境和网站内容的变化随时增加,逐步建立。因此,它的构建投资小、效益高、实用性强,非常适合作搜索引擎的扩检入口词表。图2-4同义词环应用示例——Google同义扩展检索分类聚类体系在词汇列表的基础上增加了对概念的等级关系的控制,主要包括以下四种类型:(1)标题表(2)粗略分类体系(3)知识分类表(4)文献分类法2、分类聚类体系(1)标题表(Listofsubjectheadings)标题表提供一系列用以表达一个馆藏中各文献主题的受控词汇,以及一套将标题组配成复合标题的规则。它可以扩展到覆盖一个大范围的主题,然而它的列表结构一般非常简单,只带一个有限的等级结构,层次关系比较浅。例如,主标题词“heart”与其他副标题词组配构成一些专指概念,形成简单的等级结构:heart,disease(心脏疾病)metabolism(心脏代谢)neoplasm(肿瘤)toxicchemicalandphysicaldamage(化学中毒和物理损伤〕标题表一般根据馆藏文献来编制,也服务于相应的图书馆馆藏,如《美国国会图书馆标题表》(LCSH)主要用于美国馆藏文献的揭示和组织,在这些图书馆的馆藏文献网络服务中,标题表被融入到检索界面中,发挥导航和检索限定的作用。(2)粗略分类体系(Categorizationschemes)粗略分类体系是一个用来大致分组归类的分类体系,结构十分松散,可以是任何分组归类用的大纲。比如,一些门户网站上的频道栏和分类目录都可以看作是一种粗略分类体系。它对于通用网络信息资源的组织,具有易用性。(3)知识分类表(Taxonomies)知识分类表是根据事物的某种特征或属性,将事物分成有序的类别,例如生物分类学的严格分类体系就是根据生物种群之间的异同程度来阐明生物物种之间亲缘关系的,按门、纲、目、科、属、种来排列。随着电子商务的发展,一些购物网站和分类信息网站常常会引入商品分类表、行业分类表来组织信息、指引检索。文献分类法提供详细的层级知识分类体系,将各种对象或概念按照学科或主题归入该体系的各层次类别中。文献分类法一般使用字母或数字标记来代表类目,类目往往会有适用范围、使用说明等注释信息,如《杜威十进分类法》、《中国图书馆分类法》、《中国图书馆分类法农业专业分类表》等。文献分类法在学科结构显示、图书馆藏书排架、目录组织、文献浏览和检索等方面,具有卓越的性能,在网络信息资源的组织中也依然占有一席之地。(4)文献分类法(Libraryclassification)3、关系词群随着受控程度的强化,知识组织系统不仅强调概念,更强调概念之间的关联,从简单的线性关系,向层级关系,向更复杂的网状关系发展。(1)叙词表(Thesaurus)亦称主题词表,是表达概念及其关系的词汇集,是将文献、标引人员、用户的自然语言转化为规范语言的一种词汇控制工具。叙词表揭示了词汇之间的三种主要的概念关系:等同关系、等级关系和相关关系。叙词表形成于20世纪50年代末,是在吸收元词法、标题法以及分面组配式分类法等知识组织方法优点的基础上发展起来的。1959年美国杜邦公司编制了第一部叙词表,其后迅速发展,到目前为止,国外叙词表超过2000种,中文叙词表也已超过130种,如《汉语主题词表》、《中国分类主题词表》、《建筑和艺术叙词表》(AAT)、AGROVOC农业叙词表等。显示概念、事项、示例、问题、主题及其相互关系的图示系统,是利用概念及概念之间的关系表示和组织结构化知识的一种可视化方法。概念地图包括节点、连线、连接词。概念图用节点表示概念,连接各节点的连线表示两个概念之间存在某种关系,连线可以是单向或双向的,连接词是连线上的文字,是节点之间关系的文字描述。概念图还具有三个特征:①命题,由两个以上的概念及其关系构成表达意义的陈述;②等级结构,概念图中的概念按照宽泛概念在上,具体概念在下的顺序排列形成等级结构;③交叉关系,不同分支中的概念之间形成连接关系。(2)概念地图(Conceptmap)概念地图最早是由美国康奈尔大学的诺瓦克教授提出的一种教学工具,因此,概念地图多用于直观教学和概念的可视化描述中;而概念地图的建构过程就是一个知识表示与知识组织的过程,实现知识结构与相关资源的整合。(3)语义网络(Semanticnetwork)语义网络是为了建立概念术语之间错综复杂的关系而设计的一种语义工具,是一种按照关系网络中节点的模式构造的概念集。这种知识组织系统将概念组织成网络而不再是简单的树状层级关系。概念相当于网络中的节点,而节点间的枝节联系就是概念之间的关系。这些关系已经超越了一般的上下位层级关系、相关关系,包括更加专指的整体—部分关系、因果关系、父子关系等语义关系。著名的语义网络有普林斯顿大学的WordNet、董振东、董强的知网(HowNet)等。语义网络可以把多个不同的知识组织系统中的词汇聚合在一起,图2-6就是UMLS(UnifiedMedicalLanguageSystem,一体化医学语言系统,简称UMLS)语义网络的一部分,表明语义类型“生物功能”有生理功能和病理功能两个子类,生理功能和病理功能又有多个子类,他们之间的关系是IsA关系。(数据来源:NISOZ39.19.GuidelinesfortheConstruction,Format,andManagementofMonolingualControlledVocabularies[S].Maryland:NISOPress,2005)(4)本体(ontology)本体,亦称本体论、知识本体或实用分类系统,是最新的知识组织系统类型,可以用来表示概念间复杂的关系,其中包括语义网络所不能表示的规则和推理。本体起源于哲学,进入20世纪90年代初后,本体逐渐被引入到计算机科学,尤其是人工智能、知识工程等领域。一些计算机科学,特别是人工智能领域的专家对它进行了重新的定义,并将其应用于新的研究领域。在众多定义中,最著名的是由斯坦福大学TomGruber提出的“Anontologyisaexplicitlyformalspecificationofsharedconceptualization”,即本体就是对共享概念模型明确的形式化的规范说明。“Helloworld”ofontologiesPizzaMargherita

PizzaVegetarian

PizzaSpicyBeef

PizzaPizza

ToppingVegetable

toppingTomato

toppingMozzarella

toppingCheese

toppingPizza_baseDeep

dishbaseRegular

basehasTopping(Objectproperty)hasBase

(Objectproperty)subclassOfPizza(Aclassin

assertedhierarchy)/dullhunk/owlxmlsummerschool09本体是一种高度结构化、强受控的新型知识组织系统,是等级体系结构与元数据式的“特征”描述的结合,在对知识进行分门别类的划分后,对每一类甚至每一个类的成员进行一系列定义,比如特征、限制条件、推理规则等,而这一切都必须用机器可读的语言来描述。本体一般描述某一具体领域的知识,通常与知识挖掘、知识管理相关联。本体因其对概念及其语义关系揭示的明确化、模型化、机器可读、机器可理解等优点而成为第二代因特网——语义web环境下不可或缺的组织工具,受到了知识工程、信息管理、机器翻译、人工智能等各个领域的关注。知识组织系统的特征①知识组织系统反映了一种特定的世界观,都是按照特定的结构来认识和理解客观世界的各种实体(对象和概念)及其相互关系的体系;②同样的信息实体由于所使用的知识组织系统不同而存在不同的特征化方式;③任何一种知识组织系统反映客观世界各种实体某一方面的真实性质,通过该系统能够可靠地了解客观世界、组织有关客观世界的信息;④一般采用一套语言系统来定义、描述、表示实体及实体间的关系,定义和描述知识组织系统;⑤各种知识组织系统都带有自己的观点,往往以某学科或某领域的知识体系为模式,为特定目的而设计。知识组织系统的基本功能描述:知识组织系统是受控的标识集,是用来描述事物的;定义:通过注释、关联词、层次关系、特征属性描述对概念标识的含义进行表示和界定;翻译:知识组织系统是等价表达形式实现匹配的中介;导航:基于知识组织系统的结构和内在概念关系,能够实现在一个有组织的表达结构中的联接。知识组织系统的网络功能拥有良好的语义定义和内部一致性;具备强大的用户交互能力,方便用户利用知识组织系统学到该领域更多的知识;通过概念扩展和同义词扩展(同一语言或者跨语言的)以实现智能的后台检索扩展功能;对自动标引和自动分类系统的支持;对人工智能和语义web应用的支持;具有可互操作性和可复用性;具备可扩展性,能够动态及时更新;能够实现协同编制和开发;简单易用性。网络环境下的知识组织系统面对的用户,不仅仅是专业的信息人员,更多的是没有经过培训的因特网普通用户。知识组织系统的发展(1)语义网的应用一方面,如何将知识组织系统,尤其是本体、概念地图、语义网络等语义web技术应用于语义网中;另一方面,语义网的技术和标准的发展又将进一步促进新一代知识组织系统的发展和应用,知识组织系统将朝着形式化、集成化、功能多样化、显示多样化和可视化等方向发展。(2)术语服务术语服务可以理解为涉及各种类型知识组织资源(包括规范文档、叙词表、网络分类法、文献分类法等)的Web服务,其目标是为人和计算机获取、选择和理解知识组织资源中的概念及概念关系提供方便,帮助软件开发者研制语义工具以改进检索系统的性能,提高检索效率。知识组织系统的发展(续)(3)知识组织系统的互操作如何将多类型、多语种的知识组织系统通过映射、集成等方法整合在一起,并可被运用于多个不同系统,实现跨系统、跨学科、跨语种的浏览和检索。(4)以用户为中心的知识组织系统设计Web2.0理念就是用户参与,如何引入WIKI方式,对用户参与形成的大众标注、大众分类法等非正式的知识结构进行管理,发挥因特网用户在知识组织中的作用。(5)依赖新技术知识组织系统对新技术的依赖越来越强,自然语言处理、网络技术、数据挖掘、可视化等技术成为知识组织系统的研究和开发的重要支撑,知识组织系统的类型、结构和功能也将会继续随之发生相应的变化,更好地适应网络数字环境的变化。2.2分类法及其在数字环境中的应用

分类是人类最基本的逻辑思维方式之一,它是以事物的本质属性或其他显著特征作为依据,把各种事物聚合成类的过程;是人类认识事物、区分事物和组织事物的一种方式。人们的分类对象大致可概括为三种:一是实物,如商品;二是概念,如知识;三是概念与实物的结合体,如文献。知识分类是人类认识客观世界的科学方法,对其他两种分类有着指导意义;文献分类以知识分类为基础,结合文献实体属性和信息利用的实际;实物分类带有更多的专业或行业的特性和效用。网络信息既面向学科专业,也面向行业商品,以网页的形式展现,融合了三种常见的分类对象。因此,数字环境下的信息分类既沿袭了传统分类的思想,又糅合了网络环境的特点。分类法的类型按其处理的对象,分为文献分类法、学科分类法、网络信息分类法和实物分类法等不同类型。文献分类法学科分类法网络信息分类法实物分类法分类法对

象对象特征目

的用

户文献分类法文献

文本/纸载体

文献检索

读者/研究人员

学科分类法学科体系

知识领域

科研管理

教育/研究机构有关人员

网络信息分类法网站、网页

电子文件

搜索/导航

网民

实物分类法各类物品/产品/商品

具有各类用途/各种属性的人造物实体管理

商务过程中的各类人员

各种类型分类法比较按其编制的结构形式,可以分为:等级列举式分类法分面组配式分类法体系-组配式分类法分类法的类型(2)等级列举式分类法等级列举式分类法也称为体系分类法、枚举式分类法、等级分类法、展开式分类法、层次分类法等。它将人类知识体系按照层次关系展看,具有严密的类目等级结构,反映了信息、知识的系统联系。同时,它的类目以详尽的展开方式列举出来,概念表达直接、直观,不易产生歧义。等级列举式分类法特有的等级系统性,对于知识的系统组织和系统查询有良好的适应能力,现代文献分类法大多依据这种模式编制。其突出的缺点也体现在:一是无法列举复杂的知识主题;二是穷尽的列举必然造成分类体现的庞大,而详尽无遗的列举也是不可能的。分面组配式分类法也称为分面分类法、组面分类法、分析-综合式分类法,是根据概念的分析与综合原理,将概括文献、信息、事物的主题概念组成“知识大纲-分面-亚面-类目”的结构,按照一定的规则,通过各个分类内类目之间的组合来表达文献主题的一种分类法。印度著名图书馆学家阮冈纳赞的《冒号分类法》是这种类型的代表。分面组配式分类法也是先构建自己的知识系统,一般是一、二级类目,但是不像等级列举式分类法那样再逐层展开,而是在一级类目或二级类目下分别列出若干分面、亚面,在分面、亚面内列出相关的类目,构成组配式结构。分面分析、分面引用次序、分面标记制度是分面组配式分类法的核心理论和关键技术。体系-组配式分类法这是一种在等级列举式分类法的基础上,引入分面分析和组配技术所形成的分类法结构模式。以等级分类为基础是确保分类知识系统性的前提,引入分面分析和组配技术是为了提高体系分类对新主题、复杂主题的表达能力,因此,这种分类法同时具有体系分类法和组配分类法的优点。实际上,现在绝大多数体系分类法都在不同程度上吸收了分面分析和组配技术,完全单纯的体系分类法已不多见。分类法在数字信息组织中的应用1)分类法具有较强的系统性。分类法采用划分范畴的树状结构按事物或学科分类组织网上信息资源,具有层次清晰、体系稳定等优点。2)分类法便于浏览检索和导航。分类法的等级结构便于用户在查找时进行浏览,当用户的检索目的不明确或检索词不确定时,分类浏览方式更有效率,它引导着用户按照初始的目标一步一步接近需求的信息。3)分类法提供对非文本信息的组织。当前,网络信息资源中非文本信息占的比重越来越大,如图形、图像、声音、动画等,分类法独有的聚类功能和代码标识在组织和揭示多媒体信息中占有极大的优势。4)分类检索语言的通用性。分类法以知识分类为基础,以独立于特定语言的符号为标识,具备成为不同语言转换中介的条件,可以服务于多语种检索。5)分类主题一体化为检索用词提供语境,有助于消除歧义。分类法在网络信息组织实践中越来越普遍,Yahoo!开创了利用分类法思想组织网络信息资源的先河。目前,互联网主要以两种方式利用分类法进行组织,一种是以网站自编的分类系统或自动或人工组织本网站的信息资源,一种是以人工标引方式采用现有的图书馆文献分类法,如DDC、UDC、LCC等对网络规范的学术资源进行组织形成学科门户(Gateway)。从学科角度揭示网络信息,并建立了一些实用的分类检索系统,主要有两种类型:①利用国际通用的综合性分类法,如DDC、LCC、UDC建立的网络资源组织检索系统,既有综合性的也有针对某个专业领域的;②利用著名的专业分类表,如EI(《工程信息分类法》)、MSC(《数学主题分类法》)、《ACM计算机分类表》等建立的专业信息组织检索系统。网络分类法也称主题指南,是一种按照网络资源内容的等级和关系建立的网络检索工具,它提供网络资源的分类浏览和导航。国内外主要的综合性门户网站和综合性搜索引擎都提供了分类导航功能,这些网站一般采取自编的分类系统来组织网络信息资源。重视以事物为中心设置类目,用直观的语词表示类目名称;采用多重列类、重复反映的方式揭示类目;类目排列方式多样,按逻辑关系、字顺、用户关注程度等多种方式排列;类目动态性强,及时更新,具有很高的适应性和适用性;类目多向成族,可以通过超文本链接技术实现自由跳转,形成网站结构。雅虎谷歌搜狐新浪网易艺术与人文休闲娱乐休闲娱乐休闲经济金融商业与经济体育电脑网络求职与招聘公司企业计算机与因特网健康卫生健康艺术电脑网络教育参考工商经济生活服务社会文化娱乐商业教育培训文学新闻出版政府地区生活服务计算机与因特网教育学习健康家庭公司企业教育就业娱乐休闲新闻与媒体新闻艺术体育健身体育竞技休闲与运动游戏社会文化医疗健康艺术参考资料社会文学社会文化文学地区科学新闻媒体科学技术科学技术科学艺术政法军事社会科学医药健康社会科学计算机体育健身政法军事政法军事社会与文化购物科学技术新闻媒体旅游自然

社会科学参考资料生活资讯

国家地区个人主页少儿乐园

商业经济情感绿洲

少儿搜索个人主页

时尚搜索FolksonomyFolksonomy是因特网上的一个新词,由folk和taxonomy组合而成,表示一种由非专业信息人员创造的分类法。具体来说,Folksonomy就是由网络信息用户自发为某类信息定义一组标注(或标签,Tag),并最终选用高频标注作为该类信息标识的一种为网络信息加工方法。Folksonomy基于用户参与的、一种新型的网络信息组织工具。它的编制和使用突破了传统分类法和主题法的思路。Folksonomy与结构严谨的文献分类法、规范复杂的叙词表、以及网站预设的分类目录不同。它强调的是一种“自下而上的”、“社会性的”、“用户共同创造的”、“自由的”分类。Folksonomy完全是用户构建的,所以体现了用户的智慧和习惯,真正是以用户为中心,这也正是Web2.0的核心所在。Folksonomy是一种社会性软件,属于web2.0技术,如博客、维基等普遍采用的一种信息组织模式。Folksonomy的Web2.0特质

Folksonomy特点

与传统的文献分类法和主题法相比:平面化、非等级的类目结构,组织形式更直观、灵活用户使用自由共享性和低成本多维度、多方面揭示和检索信息动态更新快存在缺乏层次结构、语义模糊、关系简单、使用范围有限等缺点。数字信息分类体系构建关于数字信息分类体系的构建,目前有三种比较流行的观点:以传统文献分类法,比如DDC、UDC、《中图法》等为基础,对其进行适当改造以适应网络信息环境。摒弃传统文献分类法,重新编制一部全新的、适合网络特点的网络信息分类法。传统文献信息分类法的分类对象与数字信息分类体系的分类对象不同,这一根本性质决定了数字信息分类体系不能完全照搬文献信息分类法,但两者都是对知识、信息的组织,这一共性决定了数字信息分类能借鉴文献信息分类法的原理和方法来建立自己的分类体系。网站信息分类体系构建基本原则科学性实用性自然性易用性原则构建面向对象,符合用户认知的分类体系必须遵循的原则包括:网站分类体系构建基本方法知识分类体系的构建总的标准:以“主题和专题”为主要标准,学科和专业为辅助聚类标准。类目的划分与设置一级类目的划分与设置是面向用户展现知识范畴的整体框架,网站分类体系大类的数量以15-20个为宜。数量过多,主题就会过于分散;数量过少,类目的链接信息太多,相关性相对低。类目交叉关系的处理类目交叉关系分为纵向关系和横向关系两种,对于纵向等级关系的处理:从大类至各级类目之下,均可设置必要的平行体系,按不同属性分别集中相关信息。同一信息可以分别在不同的体系或不同的等级中展现。类目与信息的排列内容相关、逻辑相关、形式相关按重要程度、点击频率、字顺等类目注释与说明通过必要的说明和注释,帮助用户了解类目的含义,以减少不确定性用户界面给用户以良好的视觉感受、不同的类目排列应加以区分、分别排列子类与网站信息设置指示路径、能够在打雷之间方便调准、设置“帮助”信息等网站分类体系构建基本方法(2)2.3主题法及其在数字环境中的应用

主题法按照信息对象所反映的主题特征的异同(主题分析),用类似自然语言的形式(标识转换),采用或宽泛或特指的概念词符号来标识这些特征,形成语词型替代品;同时通过参照系统揭示概念词之间的关系,并将概念词符号按照一定顺序排列来组织信息,形成一种便于使用的面向具体概念的信息组织系统,进而提供主题检索途径。主题法概述主题法用语词来表达各种概念,在现代信息组织活动中占有十分突出的地位。主题法包括标题法、单元词法、叙词法和关键词法等,它们统称为主题法系统。第一部标题表《美国国会图书馆标题表》诞生于1909年。经过近百年的发展,主题法经历了从标题法到单元词法再到叙词法、关键词法的演变过程。其发展趋势是从先组式到后组式,从列举式到组配式发展,从人工操作向自动处理发展,从受控语言向规范语言与自然语言并用发展。主题法的作用意义以事物为中心集中信息单元以自然语言语词作为存取标识以字顺作为排检的主要依据通过参照系统等方式揭示主题之间的关系揭示信息建立信息检索系统主题法原理无论是标题法、单元词法、叙词法还是关键词法,都是用语词作为概念标识表达信息单元内容特征,将概念标识进行字顺排列,并用参照系统等方法间接显示概念之间的相互关系的主题型信息组织方法。在数字信息资源组织中,以叙词法和关键词法应用最为普遍。叙词法原理叙词法是以受控的自然语言词汇作标识,主要以标识的概念组配来表达主题概念的一种后组式主题语言。保留了单元词法单词组配的基本原理;采用了组配分类法的概念组配来代替单元词法的字面组配,以及适当采用标题法的预先组配方法(即采用词组),以克服某些词分拆后再组配时产生意义失真的缺点;采用了标题法对语词进行严格规范化的方法,以保证词与概念的一一对应。采用并进一步完善了标题法的参照系统,采用了体系分类法的基本原理编制叙词分类索引(范畴索引)和等级索引(词族索引),采用了与关键词法类似的方法编制叙词轮排索引,从多方面显示叙词间的相关关系,以保证准确、全面地选用叙词进行标引和检索。概念组配概念组配本质上是在概念分析的基础上进行概念综合。概念组配结果所表达的概念与参加组配的各方所表达的概念在逻辑上是有联系的,往往表现为下位概念(种概念、部分概念、方面概念)与上位概念(属概念、下位概念、整体概念、事物概念)的关系。字面组配是利用构词法进行词的分拆和组合,它符合构词规律,但是,不一定符合概念逻辑,字面组配的方法比较简单、直接,但是,对概念的表达时常不够准确。叙词法的特点1)采用概念组配原理,使其避免了语词字面组配可能产生的概念表达误差,不仅保证了组配语义的准确性,提高查准率,而且也减小了采用复杂句法控制措施的必要性,简化标引和检索。2)不仅采用了完善的参照系统,而且还使用多种其他方法显示概念之间的关系,从而增加了查词途径及准确理解和选用叙词的依据,有利于提高查全率和查准率。3)灵活的叙词组配,使叙词语言具有较强的概念表达能力,能专指、及时地表达各种复杂、新颖的主题。4)叙词语言提供检索同一课题的多条途径,也允许多主题因素检索或增减主题因素进行检索,在检索上有较大的灵活性。5)能同时适用于标识单元方式和文献单元方式的检索系统,兼顾手工检索和计算机检索的需要,特别有利于发挥计算机检索系统的优越性。关键词法原理所谓关键词,是指那些出现在文献的标题(篇名、章节名)以至摘要、正文中,对描述文献主题内容具有实质意义的语词,亦即对提示和描述文献主题内容来说是重要的、带关键性的(可以作为检索“入口”的)那些语词。关键词法就是将文献原来所用的,能描述其主题概念的那些具有关键性的词抽出,不加规范或只作极少量的规范化处理,按字顺排列,以提供检索途径的方法。关键词法的性能(缺点)作为标引语言和检索语言来说,质量比较差,原因在于:对自然语言中大量存在的等同关系词不加规范统一,也不显示等同关系,使相同主题文献常常因作者用词不同而被分排各处且无联系,导致漏检的可能性较大。不显示关键词之间的等级关系和相关关系,难以进行族性检索,特性检索的查全率也不高。关键词法的性能(优点)广泛应用的优势:标引时无需主题分析和查看词表,简便易行,因而降低对标引人员的要求,节省大量人力。标引和索引编制易于实现自动化,显著节省时间,缩短检索系统信息组织和报导时差,保证信息报导和传递的及时性。表达主题比较直观、专指,可以保证较高的查准率。后控制词表所谓后控制词表是只供检索的词表,这种词表实际上是一种同义词、近义词和相关词的词汇。检索者可以从任何一个词出发,在后控制词表中查到它的一批同义词、近义词和相关词,从而可以提高查全率。由于各个学科领域对语词含义理解有差异,因此后控制词表一般不能通用。后控制词表对以自然语言为基础的关键词检索系统意义重大。叙词表及其在数字信息组织中的应用叙词表的体系结构叙词表在数字环境中的发展叙词表在数字信息资源中的应用叙词表的构成1)叙词字顺表。一般是叙词表的主表,它是将叙词和非叙词完全按字顺排列,并有标注事项和显示词间关系的参照系统。2)叙词分类索引。也称分类表或范畴索引,是一种重要的辅助索引。它是将叙词按其概念所属学科或范畴分成若干大类,在大类之下再分成若干小类,在小类之下则将叙词按字顺排列,形成一个类似体系分类表的概念分类系统。3)叙词等级索引。也称族系表或词族索引。它是利用概念的等级关系(概念成族原理)将叙词汇集在一起成为一族,构成一个从泛指叙词到专指叙词的等级系统,可以从一族中外延最广的叙词(族首词)出发,找到一系列同族的叙词,并且可以明确它们之间的层层隶属关系。叙词表的构成(续)4)叙词轮排索引。也称轮排表。它是利用字面成族的原理,将有相同单词的词组叙词汇集在一起,排列在那个单词之下,从而可以从那个单词出发,查出含有该单词的某一个或全部词组叙词。5)叙词双语种对照索引。如英汉对照索引等。这是建立在两种语言之间语词等价关系的基础上,提供从另一种语言字顺入手查词途径的一种索引。6)专有叙词索引。如地区索引、人物索引、机构索引、产品索引等。这些索引一般与主表不重复,实际上是主表的一个组成部分。7)正式叙词索引和款目词索引。前者仅限于正式叙词,后者包括正式叙词和非叙

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论