版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 基于Topic Maps 的叙词表再工程朱良兵 1, 纪希禹 2四川大学公共管理学院成都 610064四川大学公共管理学院成都 610064 摘要 本文介绍了叙词表的定义、词间关系的种类以及传统叙词表存在的不足,总结了主题图技术的内涵、发展历程及其优点,选择了18 个主题词作为研究样本,分析其词间关系并进行建模,用Ontopia 公司提供的三个免费工具分别进行创建、浏览和可视化主题图。 关键词 叙词表 主题图知识组织Reengineer the Thesaurus Based on Topic MapsZhu LiangbingJi Xiyuthe School of Public Admi
2、nistration, Sichuan University , Chengdu, Sichuan 610064the School of Public Administration , Sichuan University , Chengdu, Sichuan 610064 Abstract The article firstly introduces the definition of thesaurus and the kinds of relationship between descriptors, and the shortage of the traditional thesau
3、rus.Then summarizes the meaning , history and merit of Topic Maps. Finally chooses eighteen descriptors as the research swatch, analyzes and models the relationship between them, uses three free tools to create, browser and visualize the topic map.Keywords Thesaurus; Topic Maps; Knowledge Organizati
4、on ; Relationship Information在网络信息海量增长的现实面前, 只有对信息主题进行更好的识别才能在浩如烟海的信息资源中及时、准确地获得信息。为此 , 图书情报界迫切需要对传统的信息管理工具加以创新 , 以利于网络资源的描述和发现。叙词表独有的知识组织体系和语义结构在组织和检索网络信息资源方面将发挥重要作用,Topic Maps作为一个ISO国际标准,提出了一种基于主题的元数据组织和描述方式,提供了语义级的数据导航和组织方式, 是一个表达和交换结构化信息的元数据模型,将对叙词表在网络环境下的改进和重塑中发挥重要作用。叙词表概述叙词表的定义叙词法形成于上世纪50 年代末,
5、是在吸取元词法、标题法及分面组配式分类法等知识组织方法优点的基础上发展起来的。根据 GB13190-91 汉语叙词表编制规则, 叙词表是将文献、 标引人员或用户的自然语言转换成规范语言的一种术语控制工具;它是概括各门或某一学科领域并由语义相关、族性相关的术语组成的可以不断补充的规范化的词表。叙词表词间关系的种类叙词表由叙词及叙词之间关系组成, 采用参照符号显示并清楚地区分叙词间基本语义关系。叙词表中包括以下3 种关系 :等同关系( Equivalence Relationship) , 又称同一关系、用代关系, 包含同义、近义以及用代关系, 这种关系含有概念相同或用法相同的关系。揭示等同关系有
6、利于增加检索入口和根据检索系统需要对标引和检索的专指度进行控制。等级关系(Hierarchical Relationship) ,又称属分关系, 这种关系包含属种、整部和多层级关系, 每种层级关系的下位词都必须与上位词的概念类型相同, 即两者都必须属于同一范畴内的事物、行为或性质。揭示等级关系有助于通过它扩大和缩小查找范围, 提高族性检索能力。相关关系(Associative Relationship) , 又称类缘关系, 是确立由标引和检索角度需要相互关联的一种关系。相关关系是揭示叙词间各种主要联系、扩大检索范围、进行相关信息查找的重要手段。相关关系范围广、种类多、灵活性大, 很难严格界定。
7、叙词语言对语义关系的揭示方法, 主要通过各种语义参照符号来反映和联系。其语义参照系统见表1 , “Y D S、F、Z、C” 一系列语义关系符号,显示出叙词之间同义、属分、 相关关系,形成了叙词表的语义关系网。语义参照关系参照项中文符号英文符号作用同义关系用YUSE从非叙词指引到叙词代DUF从叙词指引到非叙词属分关系属SBT从下位叙词指引到上位叙词分FNT从上位叙词指引到下位叙词族ZTT从下位叙词指引到最高位叙词相关关系参CRT从某一叙词指出其相关叙词表1叙词的语义参照关系其中,“Y”和“D”揭示的是词间同义关系, 可帮助用户区分规范和非规范检索词;“S”、“F”、“Z”揭示的是词间属分关系,可
8、帮助用户扩检或缩检;“C”揭示的是词间相关关系,可帮助用户获得当前检索主题的相关信息。. 3传统叙词表存在的不足叙词表和主题图相比而言,存在一些不足之处。叙词表中的术语均是规范的科学语言;而主题图中的主题可以用自然语言和半自然语言来表达。在组织结构上,叙词表中知识点的分布是线性的、一维的;而主题图中的知识点分布是网状的,它不单纯是一张平面的网格,而是一个在四维空间中伸缩的网状结构。叙词表相对稳定,结构保守而单一,不可能经常修订;而主题图是一个开放体系,其底层知识库与主题集合可以随着学科领域的更新和发展随 时进行修正和更新。叙词表中只包含“用、代、属、分、参、族”这样简单的语义关系;而 主题图中
9、主题之间的关系,可以被描述得更广泛、深入、细致和全面。Topic Maps 概述Topic Maps 的定义概括地说,主题图是一种用于描述信息资源的知识结构的数据格式,定位某一知识概念所在的资源位置,也可以表示知识概念间的相互联系。主题图实际上在信息资源的上层构建了一个结构化的语义网,它独立于技术平台,描述主题之间的关系及主题与具体资源的联系,通过揭示概念之间的关系,将用户指引到相关的资源。建构主题图,其目的在于建立一个个人化的知识导航界面,并给使用者一个能快速掌握轻松学习知识的操作界面。主题图被誉为信息管理和知识管理之间的桥梁,是信息世界中的GPS定位仪,它可以提供信息资源的直观的导航。To
10、pic Maps 的发展历程主题图的概念最初是由 W3C提出的,并由国际标准化组织 SGML委员会第三工作小组 的研究人员开发,用来实现索引和辞典构建过程的形式化。这些早期努力演变的结果就是 ISO/IEC13250 : 2000,这项国际标准定义出了Topic Maps的完整模型,它采用 ISO10744:1997HyTime的标准来定义主题图的语法,因此又被称为HyTM。主题图虽然早于 XML出现,但是XML与Web的迅速发展导致出现了 XML Topic Maps ,即XTM 。XTM是由Topic Maps组织负责订立,它的基础是ISO/IEC13250模型,但是定义的是一种 XML语
11、法,并限 制它只能通过 URI实现。2002年经过修订的第二版(ISO/IEC13250 :2002)同时包含HyTM和 XTM两种语法。Topic Maps 的优点主题图吸收了叙词表在词汇控制方面的思想,可以用两种机制(基本名base name和别名variant name)来定义叙词表中的用代关系,实现词汇控制,并在传统叙词表的用、代、属、 分、族、参的简单关系基础上,具有灵活定义概念间关系的类型的功能,使用者可以根据领域概念的特点灵活地定义概念之间的关系。在主题图中所表达的概念之间的关系比叙词表更为具体和确切。Topic Maps体系模型如图1所示:它的基本思想实际上是我们非常熟悉的,理
12、解它最通常的起点就是传统的书后索引。 索引是一本好书中主要论题、 领域的浓缩,主题地图的基本 概念与之相似,有“主题 Topic”(论题或名词的名称);有“主题关联 Association (参看,参考);以及“主题资源 Occurrence”(页码、或者位置描述)。与书后索引相比,主题图更加一般化,以此满足更加广阔的数字信息领域的需要,它定义了一个数据模型,并基于该模型描述底层信息内在的知识结构,用“语境范畴Scope”来确定描述的领域,为用户绘制了一副相关论题简明而富有指导价值的整体蓝图,并以知识的方式组织和管理相关的 Web信息资源。换句话说,主题图提供了一个可自定义的信息路 由策略,来
13、帮助用户有效地操纵数字资源,而信息路由策略则体现了内涵于信息之中的知识。图1 Topic Maps模型组成与此同时,主题图并不包含在所描述的信息当中,它是与信息无关的独立导航层,对于相同的底层资源,我们可以应用不同的主题图来动态地改变信息路由策略,也就是说用不同的知识看待相同的问题,这恰恰反映了不同知识结构的人看待相同的资源所表现出来的不同 视角。3研究范围界定本研究选取管理科学主题词表(1996年2月第1版)作为研究样本,以主题词“情报学”为中心,选取与之相关的词汇作为研究对象。为了避免词汇数量和词间关系永无止境,我们只选取其中18个与“情报学”相关的主题词,我们对这18个主题词及其替代词进
14、行关 联性分析后,归纳出其词间关系,并制表如下:主题词代(D)参(C)属(S)r分(闩用(U)情报信息科技情报、经济情报、 战略情报、战术情报、 商业情报、军事情报、 飞行情报信息情报档案信息、科技信息、 固定信息、环境信息、 经济信息、决策信息、 动态信息、外部信息、 直接信息、管理信息、 质里怎息情报产业咨询业信息产 业管理信息系 统管理情报系 统信息系统质量管理信息系统、成 本管理信息系统信息经济学情报经济 学信息渠道情报源情报分析情报研究经济信息经济情报信息,竞争信息、市场信息经济信息系 统信息系统市场信息物价信息、商 情经济信息情报机构信息机 构情报技术“巨息技术情报检索信息检索检索
15、手工检索、自动化检索、 追溯检索情报搜集:信息搜集情报研究情报分析科技情报研究科技情报技术情报科技信 息情报专利技术情报科技信息技术信息科技情 报信息企业科技信息自动化检索情报检索光电检索、计算机检索表2本研究所采用的18个主题词及词间关系4对叙词间的语义关系建模确定所采用的词汇及其关联性后,便可开始着手构建语义网络。语义网络是AI研究领域中的一种表现形式,包含节点(Nodes)与连接(Links),节点通常代表客体、概念或某特殊领域的情境,连接则代表节点间的语义关联。图2叙词表词间关系之语义关系模型根据表2所列出的叙词之间的关系,可提出以下的语义模型:以“主题词”为中心,其 同义关系为“同义
16、词”;属分关系为“上位词”、“下位词”;相关关系为“相关词”。此模型 如图2所示。举例来说,如以表 2中的主题词“科技情报”为例,将其语义关系按图2的方法展开,结果如下:上位词(BT)相关词(RT科技信息|科技情报 技术情报同义词(UF)下位词(NT)专利技术情报图3以“科技情报”为例之语义关系图5构建主题图用Ontopoly构建主题图Ontopoly是挪威的 Ontopia公司提供的,由本体驱动的、基于 Web的Topic Maps构建 和管理工具,Ontopia公司是世界上领先的专注于Topic Maps技术的研究和应用的公司。一个主题图是由本体和该本体的实例组成的,你可应用Ontopol
17、y对它们进行编辑。Ontopoly的强大功能和灵活性的关键在于它是建立在主题图的ISO国际标准之上的。这就使得Ontopoly可以支持各种知识结构,范围包括简单的索引和分类法,从叙词表到术 语表,以及风头正健的本体。本实验选用主题词作为主题类型(Topic Types);选用Ontopoly中自带的Description 作为主题资源类型(Occurrence Types);根据表1所列出的三种叙词间关系作为关联类型 (Association Types);用“叙词”和“非叙词”作为“同义关系”这种关联类型的角色类型 (Role Types),用“上位叙词”和“下位叙词”作为“属分关系”这种关
18、联类型的的角色类 型,由于“相关关系”是一种对称关系( symmetric relation),所以只需一个词来作为“相关 关系”这种关联类型的角色类型,在此用“相关词”来担当此任。最后,根据以上原则构建 出主题图,代码片段如下:科技f#报 科技情报是有关最近期间在各种重要的科学技术领域内,反映国 内外的成就和动向,为经济建设和为决策服务的重要信息。/occurrence 用Omnigator浏览主题图Omnigator也是由Ontopia公司提供的一个免费浏览器, 使用Omnigator可以让你通过 一个标准的 Web浏览器运行并浏览任何主题图,支持LTM HYTM XTM RDF多种格式。
19、该浏览器简易而友好的用户界面为用户快速、轻易而直观地获得所需信息提供了可能。Omnigator使用简单的基于 HTTP#议的客户机/服务器模式,需要Tomcat作为Web服务器。使用Omnigator不仅仅可以对主题图进行浏览,还可以管理、合并主题图,以及对插件、全文索引进行管理,用主题图查询语言 Tolog对主题图进行查询,验证主题图的有效性,更换Omnigator的显示模式、视图、皮肤( Modek View、Skin ,简称 MVC等等功能。如图是本文设计的主题图在Omnigator中的浏览结果的一个截屏。图4用Omnigator浏览主题图用Vizigator可视化主题图Vizigato
20、r 是Ontopia公司提供的一个免费的主题图可视化工具。主题图模型描述了蕴 涵于信息中的知识结构,这种模型反映了人类思考方式的典型关联模式。通常图形图象比烦琐的文字描述让人更容易抓住知识要点,Vizigator使用一个图形化接口提供了一个额外的主题图导航方式。它以不同颜色、不同形状来区分主题图的各个部分,节点代表主题,节点与 节点之间的连线代表主题之间的联系。尽管 Vizigator可独立作为可视化工具使用,也可很 方便地作为基于文本的浏览方式的一个补充。如图5是本文设计的主题图在Vizigator中的可视化呈现结果。产豆洋叩 安霜5 3.Gii 帆工R 传劲凶图5 用Vizigator可视
21、化浏览主题图3| Jiar V u u I uj.MiI n r 11 : e diifu T1 I n E a: r riKl Ex|i I rar h 6 结语本文成功地提出了一个以主题图构建叙词表的语义网络模型、方法与步骤,并从现有叙词表中选择18个主题词及其替代词作为研究样本,归纳出其词间关系并构建语义关系图,再以挪威 Ontopia 公司提供的免费工具Ontopoly 建立主题图,最后以 Ontopia 提供的免费浏览器Omnigator 浏览主题图,以Ontopia 公司提供的免费可视化工具Vizigator 对主题图进行可视化呈现,顺利的完成了一个实验性质的叙词表主题图。展望未来
22、,主题地图是一项结合了知识工程和知识组织的新技术,更是一种分布式的知识表示法,若能有效的加以运用可以整合众多分散于网络上的知识库,从而建构出一个强大的知识管理系统。不过, 主题图亦将如同其它新兴的标准和技术一样,一方面在各个领域展示出巨大潜力,另一方面则将遭遇各种问题的严厉挑战,是否真能成为知识组织的利器,或是成为知识管理的有效解决方案,仍然是一个颇值得探讨的议题,亦是我们未来的研究重点之一。参考文献秦铁辉 . 信息时代的“全球定位系统”主题地图 . 江西图书馆学刊,2005, 35( 1 )马建霞 . 主题图技术在数字化知识组织中的应用. 现代图书情报技术,2004( 7)张佩云,吴江, 贾
23、晖 . 主题地图标准及其应用研究. 安徽大学学报(自然科学版), 2004,28( 3)何建新 . 主题图及其应用. 中国索引. 2005, 3(1)韩泽春 . 主题地图 一种有效的知识组织与揭示方法. 忻州师范学院学报,2005, 21( 4)Lars Marius Garshol. Metadata? Thesauri? Taxonomies? Topic Maps!. HYPERLINK /topicmaps/materials/tm-vs-thesauri.html(Accessed /topicmaps/materials/tm-vs-thesauri.html(Accessed March,22,2006)Dagobert Soergel. Building a More Meaningful Web: From Traditional Knowledge Organization Systems t
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 国学教学计划
- 一年级上学期环境教育教学计划
- 2024年全职员工合同(技术岗位)3篇
- 2025年村卫生室工作计划
- 2024年度石灰石价格波动调整合同
- 小学阅读教学计划
- 2024年个人电子借款合同模板.3篇
- 中小学心理咨询室工作流程
- 车辆买卖协议
- 苏教版二年级下册音乐教学计划
- 《ic设计发展及趋势》课件
- 心血管疾病的护理常规
- 绿化养护投标方案(技术方案)
- 十八项医疗核心制度培训新版-课件
- 物业管理装修管理规定(5篇)
- 有关大雁塔课件
- 钢管海运协议条款
- 2024-2025学年初中音乐七年级上册沪教版教学设计合集
- 工业自动化设备维护保养指南
- 14《穷人》第一课时教案-2024-2025学年六年级上册语文统编版
- 2024-2030年心理咨询产业市场发展分析及前景趋势与投资战略研究报告
评论
0/150
提交评论