




已阅读5页,还剩55页未读, 继续免费阅读
(教育技术学专业论文)知识元标引系统的设计与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
硕士学位论文 m a s t e r st h e s i s 摘要 现代社会是一个知识社会,每天都会涌现大量的知识信息。目前的文献标引方 式大多是采用分类法或主题法,这两种标引方法难以有效为用户提供针对问题的解 决方案。文献信息资源可以根据文献的外形特征信息及内容特征信息进行关联检 索,但检索结果输出的仍是文献,并不能全面准确提供知识信息。 知识元标引可使知识被有效的检索、利用,实现知识创新和增值,为用户提供 针对性的知识服务,能很好的解决以上问题。知识元是知识的最小单位,以知识元 为单位的知识标引为用户提供的不再是文献,而是文献中的具体知识,在一定程度 上满足了人类对知识组织、知识管理、知识服务的需求。 本文在分析了已有信息资源存在的问题后,设计并实现了知识元标引系统,主 要研究工作体现在以下几个方面: ( 1 ) 介绍了知识元的相关理论。对目前的知识组织方式进行了综述,同时对 知识元的概念、特点、分类、结构等进行了详细阐述,并利用r d f ) ( m l 数据模型 描述知识元。 ( 2 ) 对知识元标引系统进行了详细设计,包括体系结构设计、功能模块设计、 数据库设计等。同时,根据知识元标引流程将标引系统分为三个功能子模块:预处 理模块、句子提取模块和知识元提取模块。 ( 3 ) 提出了一种基于向量空间模型和改进的t f i d f 算法的关键词提取方法。 在分析了传统的t f i d f 权重算法之后,考虑到特征项出现的位置不同对文本的影响 不同,在t f i d f 算法基础上增加了位置权重系数,对文献空间中的每个词进行权重 计算,并进行了实验,结果表明改进的算法提高了关键词提取的准确度。 ( 4 ) 实现了知识元标引系统。在研究了目前汉语分词算法和典型的分词系统 的基础上,基于海量中文智能分词技术实现了知识元标引系统,并生成相关知识元 的r d f x m l 描述文档。该系统从文献中抽取关键词,再利用关键词确定所要标引 的知识元所在句,抽取相关知识元。 论文的特色之处在于使用知识的最小单位知识元对文献进行标引,用户得 到的将是有效的知识而不是大量的文献,提高了知识的利用率。 关键词:知识元;知识元标引;自动分词;特征选择:权重计算 a b s t r a c t m o d e ms o c i e t yi sak n o w l e d g es o c i e t y , al o to fk n o w l e d g ea n di n f o r m a t i o nh a v e e m e 略e de v e r y d a y 1 1 1 ec u r r e n ti n f o r m a t i o nr e t r i e v a li sm a i n l yb a s e do nt h ef o r ma n d c o n t e n tc h a r a c t e r i s t i c so fl i t e r a t u r er e s o u r c 宅,w h i c hc a nn o t p r o v i d ei n f o r m a t i o n c o m p l e t e l y k n o w l e d g ee l e m e mi n d e x i n g c a l lb ea ne f f e c t i v er e t r i e v a la n du t i l i z i n go f k n o w l e d g e ,m a k i n gk n o w l e d g ei n n o v a t i v ea n dv a l u e - a d d e d ,i no r d e rt op r o v i d es p e c 讯c k n o w l e d g es e r v i c ef o ru s e r s k n o w l e d g ee l e m e n ti st h es m a l l e s tu n i to fk n o w l e d g e , k n o w l e d g ei n d e x i n g 谢t l lk n o w l e d g ee l e m e n te a r lp r o v i d en ol o n g e rl i t e r a t u r e ,b u t s p e c i f i ck n o w l e d g eo fl i t e r a t u r e ,w h i c hm e e t st h eh u m a n s n e e do fk n o w l e d g e o r g a n i z a t i o n , k n o w l e d g em a n a g e m e n ta n dk n o w l e d g es c i 哳c c st os o m ee x t e n t b a s e do nt h ea n a l y s i so ft h ee 虹s t i n gp r o b l e m so fi n f o r m a t i o nr e s o u r c e s ,t h e k n o w l e d g ee l e m e mi n d e x i n gs y s t e mi sd e s i g n e da n di m p l e m e n t e d 1 1 1 cm a i nr e s e a r c h w o r ke m b o d i e di nt h ef o l l o w i n ga s p e c t s : ( 1 ) r e l a t e dt h e o r i e so fk n o w l e d g ee l e m e n ta r ei n t r o d u c e d r e v i e wo ft h ec u r r e n t k n o w l e d g eo r g a n i z a t i o n ,a tt h es a m et i m ee x p a t i a t eo nt h ec o n c e p t , c h a r a c t e r i s t i c s , c l a s s i f i c a t i o na n ds t r u c t u r eo fk n o w l e d g ee l e m e n ti nd e t a i la n dd e s c r i b e k n o w l e d g e e l e m e n tb a s e do nr d f x m ld a t am o d e l ( 2 ) t h ek n o w l e d g ee l e m e n ti n d e x i n gs y s t e mi sd e s i g n e di nd e t a i l ,i n c l u d i n gt h e a r c h i t e c t u r ed e s i g n ,f u n c t i o nm o d u l ed e s i g na n dd a t a b a s ed e s i g n a n dt h es y s t e mi s d i v i d e di n t ot h r e ef u n c t i o ns u b m o d u l e s :p r e - p r o c e s s i n gm o d u l e ,t h es e n t e n c ee x t r a c t i o n m o d u l ea n dk n o w l e d g ee l e m e n te x t r a c t i o nm o d u l e ( 3 ) t h ek e y w o r d se x t r a c t i o nm e t h o db a s e do nv e c t o rs p a c em o d e la n di m p r o v e d t f i d fa l g o r i t h ma r ep r e s e n t e d a n a l y z i n gt h et r a d i t i o n a lt f i d fw e i g h ta l g o r i t h ma n d c o n s i d e r i n gd i f f e r e n ti m p a c to ft e x td u et od i f f e r e n tl o c a t i o no ft h ec h a r a c t e r i s t i c s ,t h e p a p e ra d dw e i g h tc o e f f i c i e n tt ot h et f i d fa l g o r i t h m , t a k ew e i g h tc o m p u t i n go fe v e r y w o r d si nl i t e r a t u r ev e c t o rs p a c e n l ee x p e r i m e n t a lr e s u l t ss h o wt h a tw ec a ne x t r a c tw o r d s e x a c t l yb yt h ei m p r o v e da l g o r i t h m ( 4 ) k n o w l e d g ee l e m e n ti n d e x i n gs y s t e mi si m p l e m e n t e d a f t e rs t u d y i n gt h ep r e s e n t c h i n e s ew o r ds e g m e n t a t i o na l g o r i t h ma n dt y p i c a ls e g m e n t a t i o ns y s t e m , t h ek n o w l e d g e e l e m e n ti n d e x i n gs y s t e mi si m p l e m e n t e db a s e do nm a s s i v ei n t e l l i g e n ts e g m e n t a t i o n t e c h n o l o g y , d e v e l o p i n gr d f x m ld o c u m e n t so fr e l a t e da tt h es a m et i m e t h es y s t e m e x t r a c tk e y w o r d sf r o mt h el i t e r a t u r e ,t h e ni d e n t i f yt h es e n t e n c ew h i c hi n c l u d e st h e k n o w l e d g ee l e m e n tb e i n gi n d e x e db yk e y w o r d sa n de x t r a c tk n o w l e d g e e l e m e n tr e l a t e d 硕士学位论文 m a s t e r st h e s i s t h ef e a t u r eo ft h i sp a p e ri st h a tl i t e r a t u r ea r ci n d e x e db yt h es m a l l e s tu n i to f k n o w l e d g e k n o w l e d g ee l e m e n t , t h eu s e rw i l lg e te f f e c t i v ek n o w l e d g e ,n o tal o to f l i t e r a t u r e ,i m p r o v i n g t h eu t i l i z a t i o nr a t i oo f k n o w l e d g e k e y w o r d s :k n o w l e d g ee l e m e n t ;k n o w l e d g ee l e m e n ti n d e x i n g ;w o r ds e g m e n t a t i o n ; f e a t u r es e l e c t i o n ;f e a t u r ew e i g h t i n g 硕士学位论文 m a s t e r st h e s l s 华中师范大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进行研究工作 所取得的研究成果。除文中已经标明引用的内容外,本论文不包含任何其他个人或 集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均己在 文中以明确方式标明。本声明的法律结果由本人承担。 作者签名:专日期:冲甲年a - 月弓日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权 保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借 阅。本人授权华中师范大学可以将本学位论文的全部或部分内容编入有关数据库进 行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。同意华中 师范大学可以用不同方式在不同媒体上发表、传播学位论文的全部或部分内容。 睁寻溉凤鬼 日期:声 甲年b 与日 导师叛占、f 陪、老 日期:? 年1 夕b 日 本人已经认真阅读“c a l i s 高校学位论文全文数据库发布章程”,同意将本人的 学位论文提交“c a l i s 高校学位论文全文数据库”中全文发布,并可按“章程”中的 规定享受相关权益。回童诠塞量童卮迸卮! 旦圭生;旦二生;旦三生蕉鱼! 峙叁笔:厌为。 日期:必岬年 b 弓f 日 导师鞔文1 唐咤 日期:即7 年乡月7 日 1 绪论 1 1 研究背景 2 0 世纪以来,以信息技术为代表的科学技术推动了整个社会的飞速发展。现代 社会是一个知识社会,知识已经成为这个时代发展的最大资本。如同农业社会的社 会基础是农业经济,工业社会的基础是工业经济一样,知识社会的基础是知识经济。 知识作为一种生产要素成为社会生产活动最重要的资源。因此,如何对知识在生产 实践中发挥更大作用进行研究成了当务之急。知识管理俨然成为- f - j 科学,吸引了 来自不同领域的人对其进行研究,构造一个学习型企业也成为众多企业追逐的目 标。 知识管理( k n o w l e d g em a n a g e m e n t ) 的理论产生于最早进入知识经济的美国。 几十年来,众多的管理科学家、经济学家、企业家、信息技术专家等都投身到知识 管理的研究。对于知识管理的定义,国外学者分为两种观点:第一种观点普遍将知 识管理的对象限定于知识或信息及其相关资源。另一种观点主要从不同的认识角度 对知识管理的内涵和特征做了界定。国内学者大多在国外学者观点上提出自己的见 解。主要集中在以下的几个方面1 1 i :有的认为知识管理就是对知识的管理;有的认 为知识管理是对知识资源或人力资源的管理;有的认为知识管理是对知识及与知识 有关的资源的管理;有的认为知识管理是一种信息管理策略;还有的认为知识管理 既包含信息管理,又包含对人的管理。 知识管理就是要通过对确定有效的知识单元进行处理( 包括知识标引、知识表 达、知识存储、知识检索、知识计量、知识评价等) 以达到知识服务、知识发现和 知识创新的目的f 2 j 。人类社会的知识管理经历了以文献为单元的( 文献分离) 处理 时期,以信息为基本单元的信息( 集成) 处理时期,以及以知识元为单位的知识元处 理时代。知识的控制单位逐渐由文献深化到知识元,揭示文献中包含的“知识元” 及相关领域之间的链接关系,从而产生了新的知识单元,实现知识的增值转化,推 进了人类对知识的利用以及对新知识的创造。 文献3 报道了文献处理技术的进展( 见表1 1 ) 。 对于文献处理技术进展,可以看出文献处理技术经历了文献查找、文献组织到 知识发现三个阶段,从文献中抽取的数据越来越精细,输出的内容更加深层次,最 终的目标是实现知识元链接。 硕士学位论文 m a s t e r st h e s i s 表1 1 文献处理技术进展 功能 目的技术数据表示自然语言处理 输出 文献 找出相关 字符串、关键 关键词抽取 澡题的相信息检索( 转换为库形 一组文献 查找词 关数据式) 一组关键词 文献 澡题覆盖聚类,分类 ( 矢量空间 关键词分布分一组( 族) 组织析文献 模型) 提炼过的 知识 从内容中n l p ,数据 语义分析,意信息( 趋势 抽取感兴挖掘,可视语义概念 发现图分析 模式,伙伴 趣的信息化 规则) 1 2 研究目的及意义 标弓 ( i n d e x i n g ) 是指在分析文献内容或情报问题的基础上,用某种索引语言或标 识符号把文献的主题概念及其它有检索意义的特征标识出来,作为情报存储和检索 的依据的处理过程【4 1 。传统的文献管理方法或是对文献的外部特征( 如题目、作者、 发表时间、发表期刊和其它相关内容) 进行标引,或是按文献的学科性质进行分类, 或是按照文献的主要内容选取主题词,以提供检索,但对用户需要解决的问题来说, 并不能全面准确提供知识信息。因此,如何为用户提供正确的、精简的知识,已成 为当前的热点研究之一,其核心是如何实现传统的信息资源服务向更高的知识服务 发展。 “知识服务”是指以知识资源为对象,以信息知识的组织、关联、挖掘、重构 等为手段,为用户提供个性化的智能服务。“知识服务”明确提出了现代信息服务 业的任务和目标,成为当今知识信息资源共享模式设计的核心指导思想。在这种共 享模式下,人们从信息资源中获取的不仅仅是一条一条的信息,而是一个一个针对 特定问题的解决方案,即“知识”。由于知识的多粒度、内在关联等特性,以传统文 献检索和传递为核心的知识资源服务难以满足人们对知识服务的需求t s l 。 已有的信息资源分布存储、格式异构、规模巨大、关联性强,给各个领域的信 息获取、集成和整合带来了诸多挑战性的问题。现有资源管理模式与基于关键词、 元数据等为手段的资源获取方法,难以实现预期目标,主要原因包括以下几个方面: 首先,信息资源组织模式难以满足多粒度的知识服务需求。现有资源管理模式 采用以“主题词 为核心,“资源、索引和元数据目录三要素组织为基础的资源 组织与服务模式【6 j 。传统的搜索引擎如g o o s e 、b a i d u 等以及现有的图书馆数字产 2 品都是通过概念、术语和知识点等主题信息进行资源的组织和服务。这种基于主题 词的资源组织模式难以有效为用户提供针对问题的解决方案和计划。此外传统的文 献服务方式,难以表达知识资源中的章、节、段落、概念、知识元信息,因此,现 有信息组织服务模式难以满足用户对知识单元的查找与获取需求,即不能为用户提 供多粒度的知识服务。 第二,信息资源集成难以解决海量信息问题。信息集成不能获取完整的、正确 的、及时的知识,难以满足学科和学习者的应用需求,而且信息资源集成仅从格式 和结构等方面进行组合,缺乏新的具有最大信息量的整合。主要原因是信息的异构 性、多变性以及自治性使得获取信息变得越来越困难;其次缺乏语义层次上的内容 整合研究。另外,知识的整合是一个宏观的概念,应考虑知识应用的语境。而这种 语境是通过信息资源的关联特性体现。知识的关联性体现在:( 1 ) 知识元层面,具 有完备知识表达的最小知识单位( 如定义、定理、算法等) 知识元1 7 j ;( 2 ) 概 念层面,领域概念之间也存在整体与局部、类与子类、类与实例、概念与属性等关 系( 引。目前,信息集成采用概念及关联特性的结合方式并没有从根本上解决知识的 海量信息问题。 第三,信息资源表现方式不能为用户提供宏观的、整体的学科类型和层次结构。 知识服务的目标是为用户提供良好的知识层次和逻辑结构,并具有结构良好的、与 人认知相似的组织方式。信息资源表现方式通过概念之间关系进行描述,难以体现 事物整体与局部、类与子类、类与实例之间的关系。如何对已有的事例,通过提炼 和浓缩,生成一般的领域知识,是信息资源的索引和概念描述难以实现的。 第四,现有信息服务系统还缺乏知识的发现与增值服务功能,由于一般的信息 组织和表现形式缺乏语义和结构上的推理功能,难以面向学科领域,提取有用的规 则、规律等,实现信息的有效浓缩,也就缺乏知识发现的机理。 由于知识元是构成知识的最小单位,它们的不同排列组合可以组成不同知识单 元,不同知识单元按照不同逻辑关系可组成不同的知识元链接,从知识元到知识单 元,再到知识结构,形成不同属性的知识链,无数的知识元链接可以构成知识网络。 因此进行知识元标引可以为用户提供多粒度的知识服务,有利于知识内在的关联挖 掘和利用,实现知识的发现与增值服务,较好的解决了上述问题。 1 3 研究现状 标引按照使用的索引语言或标识符号的类型,可分为分类标引、主题标引。按 照使用的标引设备,可分为手工标引、自动标引和机助标引。与自动标引相比,手 硕士学位论文 m a s t e r st h e s i s 工标引存在很多的弊端。根据文献9 、1 0 ,概括起来有以下几方面: ( 1 ) 不同的标引人员所标引出来的文献是不同的,也就是说手工标引在标引 一致性方面存在的较大的缺陷; ( 2 ) 手工标引对标引人员的素质要求较高,因为文献标引属于技术性较强的 工作,需要标引人员不但要具备较强的专业素质还要有一定的图书情报理论基础; ( 3 ) 手工标引的速度较慢。标引人员通览全文后,找出文献主题,对其进行 标引。因此手工标引的速度很难大幅度提高; ( 4 ) 手工标引费用较高。手工标引过程中所需的材料如计算机、各种软件, 以及标引人员的工资,都构成了标引的成本。 与手工标引相比,自动标引具备了较好的优势。自动标引是指利用计算机从文 献中自动提取相关知识引导的过程【i 。最早开展自动标引研究的是l u h n ,首次将计 算机技术引入文献标引领域,开创了以词频为特征的统计标引方法,其理论基础是 z i p f 觯 1 2 j 。此后,各个领域的中外专家学者开始对文献自动标引进行研究,提出 了多种自动标引的理论及算法,如s a l t o n 等将v s m 模型用于自动标引中【1 3 】: d e e r w e s t e r 与d u m a i s 等提出潜在语义分析标引法【1 4 1 ;c o h e n 提出n g r a m 分析法的自 动标引方法i b l ;简立峰提出基于n 盯树的关键词提取方法1 1 6 1 ;f r a n k 等人提出基于朴 素贝叶斯( n a i v eb a y e s ,n b ) i 扮j 关键词提取方法l l7 】;t u m e y 利用遗传算法和c 4 5 决策 树算法等机器学习方法进行关键短语提取的研究【l 剐;李素建提出基于最大熵模型的 关键词提取方法l l 等。 自1 9 8 0 年以后国内开始有人涉足自动标引领域,并取得了一些初步成果。汉语 文献自动标引方法很多,如词典标引法、切分标引法、统计标引法、机助标引法、 单字标引法、语法语义分析标引法、神经网络分词标引法等。 ( 1 ) 词典标引法 词典标引法的实现原理:文献根据设计的算法,匹配事先构造好的词典( 如主题 词词典、关键词词典、部件词典等) ,若匹配成功,该词就表示为标引词。日前国内 采用该方法的代表性自动标引系统有以下几种:赵宗仁的词语结构类比自动标引系 统口o 】;陈培久的汉语科技文献标题自动标引系统【2 1 】;毛玉蛟的汉语文献自动标引检 索系统 2 2 1 ;北京文献服务处的汉语自动切词标引系统c w s a i s l 2 3 】。 ( 2 ) 切分标记标引法 该方法的实现思想为:将能够断开或表示汉字之间联系的汉字集合组合成切分 标记词典输入计算机1 4 l 。当文档中的句子被切分标记词典切分成词组或短语后,再 按照一定的模式将其分解成单词或专用词。它的优点在于只需构造切分标记词典, 4 硕士学位论文 m a s t e r st h e s i s 而不用构造如词典标引法中使用的专用标引词典。 ( 3 ) 统计标引法 统计标引法吸收了国外的词频统计思想和加权思想,采用加权统计的方法来确 定标引词1 4 1 。统计标引法的理论基础是著名的z i p f 定律,根据词表分词,通过统计 词频、进行位置加权确定标引词。也有的系统不采用词表,如夏海的“上下文比较 标引一。 ( 4 ) 机助标引法 机助标引法是需要人工参与的标引方法,严格来讲它并不是一种自动标引方 法。该方法是通过人工阅读标引文献,确定标引词,再由计算机完成其它标引工作, 如主题词的转换、频率的统计等。 ( 5 ) 单汉字标引法 单汉字标引法是在标引时将概念词拆分成单个汉字,以单汉字作为标引词,采 取后组方式,将检索词串分解成单个汉字,以逻辑乘关系进行组配,利用汉字索引 文件实现自动标引和逻辑检索 4 1 。 ( 6 ) 语法语义分析标引法 语法语义分析标引法的基本思想是建立分词知识库( 包括词类词典、句法和语义 规则知识库、专门领域知识库、背景知识库等) ,这些知识库采用语义网络技术或者 扩充转移网络技术( a t n ) 进行构建,并以此作为语法、语义分析器推理和判断语句, 进而抽取主题词进行自动标引1 4 j 。 ( 7 ) 神经网络分词标引法 神经网络分词标引法是近几年发展起来的一种标引方法,它力图模拟人脑的思 维机制,提出了神经网络模型分词方法进行自动标引。但这种方法很大程度上取决 于人工智能的程度,因此目前还处于研究阶段,没有取得重大突破。 由上述讨论可以看出,目前很多标引方法都是基于主题的自动标引。主题是文 档所具体论述与研究的对象或问题,并且可再划分为描述事实、数据、公式等的最 小知识单位知识元。 目前文献标引成为知识服务的瓶颈,其主要原因表现在:文档存在质量差异, 要采用知识链标引与检索;不同质量的文档老化速度相差甚远,具有不同的衰减期; 知识的使用过程中,需要采用知识链进行基于结构和语义的处理:从信息服务向知 识服务需要知识链的标引。 文献2 4 对科学信息离散分布规律做了研究,首次发现文献单元的离散分布遵 循与知识单元一致的规律。这一发现为基于知识元的知识关联与发现开辟了新的研 5 硕士学位论文 m a s t e r st h e s i s 究路线,知识关联及获取的首要工作是知识元的标引。国内外对概念与概念关系层 面的知识获取已开展了研究,提出了o n t o l o g yl e a r n i n g 、k a t ( k n o w l e d g e a c q u i s i t i o nf r o mt e x t ) 等理论与方法,但是,在知识元及其关联层面的知识获 取还缺少针对性的研究,只是对相关的理论与方法开展了初步研究。 1 4 论文的组织安排 绪论 上 知识元理论综述 上 关键技术研究 ( 基于领域专业词典的分词技术,关键词抽取 技术。知识元描述技术) 上 知识元标引系统总体设计 ( 系统功能分析。系统设计,功能模块设计 数据库设计) 上 知识元标引系统的实现 ( 开发环境部署,功能模块实现,运行 与测试) 上 总结与展望 图l - 1 论文组织结构图 本文共分为六章,结构如图卜1 所示。 第一章,绪论。本章主要介绍了本文的研究背景、研究目的及意义、研究现状。 第二章,知识元相关理论综述。本章首先介绍了知识组织的相关内容,包括以 文献单元、知识单元为基础的知识组织方式、基于主题图的知识组织方式,信息标 引的两种类型。然后介绍了知识元的概念、特点、分类、结构等。 第三章,关键技术研究。本章主要针对知识元标引系统开发中的若干关键技术 进行了研究。首先对系统中的分词算法进行了介绍,本文采用了海量中文智能分词 技术,在其基础上进行了改进;然后针对关键词提取部分,介绍了v s m 模型以及t f i d f 算法,并对t f i d f 算法进行了改进;最后介绍了知识元描述技术,采用r d f x m l 语 言描述知识元。 第四章,知识元标引系统的设计。首先对系统的功能进行了需求分析,根据需 6 硕士学位论文 m a s t e r st h e s i s 求分析,设计了系统的整体结构及各功能模块,最后完成了数据库的设计。 第五章,知识元标引系统的实现。本章介绍了如何实现系统各项功能,并对系 统进行了测试,总结测试的问题。 第六章,总结与展望。本章对全文进行总结,介绍了本文的主要工作、系统特 色及创新之处,并对系统中需要继续深入研究和扩展之处作了进一步的展望。 7 硕士学位论文 m a s t e r st h e s i s 2 知识元相关理论综述 目前揭示文献内容所采用的方法主要是信息标引。信息标引方法包括有分类标 引和主题标引。这两种方法并不能标引出文献中的知识和事实,用知识元进行标引 可以有效的解决这一问题。对于知识元概念的提出,经历了长期的演变过程,无数 专家学者为此付出了艰辛的努力。目前对于知识元的研究还处在探索阶段,因此对 知识元概念、分类的理解各有不同,还没有统一的定义。本章分析了目前的知识组 织方式,并对知识元的概念、特点、类型、结构作了详细的介绍。 2 1 知识组织综述 2 1 1 知识组织的方式 l 、以文献单元为基础的知识组织方式 文献是指专门记录和传递有知识的人工载体,而文献单元是指专门记录和传递 有知识的人工载体单元【2 5 】。文献是以各种各样的单元形式呈现的,如一本书、一篇 论文、一件专利、一张光盘、一卷胶片等。经过长时间的发展,现在已经形成了一 套完善的文献管理方法,并且以文献为基本单元的知识管理较易控制和实现,有较 好的效果。 文献单元一般是一个完整的知识体系结构,根据文献的类型、主题、关键词、 题目、作者等方面进行管理。文献单元之间可以根据不同方式建立联系,形成一个 复杂的知识网络。例如,在中国知网中搜索一篇文章,可为用户提供共引文献、相 似文献、文献分类、相关作者、相关期刊等信息,文献之间可以通过这些信息建立 联系,形成关系网络。这种知识组织方式存在着一定缺陷以文献为单元的知识 组织和管理,组织管理的仍然是文献,并不是知识,不能为用户提供具体的知识, 也不能揭示知识的内在特征与联系,也就很难产生出新的知识。 2 、以知识单元为基础的知识组织方式 知识单元的概念在众多学科中都有出现,如图书馆学、情报学、教育学等。在 教育学中,一般把某章节的基本组成称为知识单元。不同的领域对知识单元的定义 也不尽相同。例如,文献2 7 定义知识单元为“构成学科知识的最小单位一。主要指 概念,还包括规律、理论和方法。文献2 8 将知识单元定义为“在知识体系中至少 表达一个客体或者一个客体联系的信息单元”。文献2 9 将知识单元定义为“认识内 容上自为一种单体形态的知识构成单位”。文献3 0 将知识单元表示为一个由标志号、 名称、说明部、知识点集、关键字、测试阈值组成的六元组。文献3 l 定义知识单 8 硕士学位论文 m a s t e r st h e s i s 元是指在知识管理中可以对关联知识进行独立、自由、有效识别、处理与组织的基 本单元。 由上述定义可以看出,知识单元应包含以下几层内容i z 如: ( 1 ) 知识单元应具有实际意义,即它可以是一个明确的概念、一个观点、一 个定理、一个公式等。 ( 2 ) 任何一个知识单元都可以归到某个知识系统,成为该知识系统内容的一 个组成部分。 ( 3 ) 知识单元必须是该知识系统的基本单位,分为可分解和不可分解两大类。 以知识单元为基础的知识组织方式在一定程度上解决了以文献单元为基础的 知识组织存在的一些问题,但是知识单元并不是知识的最小单位,难以定义其结构, 不易描述。 2 1 2 基于主题图的知识组织 主题图( t o p i cm a p s ) 在i s o i e c1 3 2 5 0 中的定义是:一套用来组织信息的方 法,使用这个可以提供最佳的信息资源导航。主题图是一种基于主题的元数据组织 和描述方式,通过统一的方式对信息资源进行分类和导航,从而在各种资源和数据 对象上建立起有价值的信息网络,使无结构的信息结构化p 引。 主题图的基本思想源于书本的书后主题索引,利用了主题索引以及网络的特 点,将主题、关联及资源三者结合起来,控制信息资源的获取和浏览,便于用户更 有效地浏览电子资源。主题图可分为三部分,即主题( t o p i c ,t ) 、关联( a s s o c i a t i o n , a ) 和事件( o c c u r r e n c e ,o ) ,简称为“t a o ”。t a o 中的t 部分是指对信息资源进行分析 后抽取出的主题:a 部分是指表示各主题之间、主题与信息资源之间的关联;o 部 分是指将主题连接到该资源的所在之处。 主题图的基本结构如图2 一l 所示。主题图分为主题域和资源域,主题域在资源 域之上,包括所需的所有主题以及它们之间的关联;资源域包括所有的信息资源, 两者通过事件连接,构成了主题图。主题图的基本结构反映了它们之阃复杂的网状 关系。 主题图可以看成是一个知识网络,其中的节点代表不同的主题知识,节点之间 的连线代表主题之间的关联。利用主题图进行知识组织,可以把知识结构以可视化 的图形形式展现出来,使用户能够清楚地了解知识以及它们之间的关系。这种知识 组织方式,在大量的信息资源基础之上创造出知识结构,当用户浏览某个特定的对 象时,不但可以帮助它们查找到同一主题的其它对象的位置,还可以引导用户快速 了解整个庞大的知识领域。也就是说,通过多层次的主题关联,领域的知识结构清 9 硕士学位论文 m a s t e r st h e s i s 晰地展现在用户面前,实现了知识的有效组织。 图2 - 1 主题图基本结构 2 1 3 信息标引 信息标引是通过分析信息的主题概念、款目记录、内容性质等标引对象的特征, 为它们赋予能够提示有关特征的简明的代码或语词标识,从而为信息提示、组织和 建设提供依据的信息加工方法f 4 l 。信息标引可分为分类标引和主题标引。 分类标引是按信息内容的学科属性来系统提示和组织信息的方法。通过分类标 引,可以将具有某些共同特点的信息聚类在一起,并依据各类信息之问的关系把所 有信息组织成一个有层次、有条理的整体。分类标引的过程,就是根据已经选定的 分类规则,分析标引对象的特征,确定所属类目,并将标引对象的学科特征及有关 信息,用分类法中规定的符号代码提示出来【4 j 。经过分类标引,原本无序的信息便 按照分类法规定的序列组织成一定的学科体系。分类标引能较好地表现出知识的系 统性,把同一领域的知识集中在起,把不同的区分开来,从而满足了用户按专业 领域进行检索的需要。 主题标引是按信息内容的主题名称来系统提示和组织信息的方法。所谓主题, 是指某件信息所涉及的事物。通过主题标引,可以把有关同一主题的信息集中在一 起,并将其按字顺序排列起来。主题标引是对信息内容进行主题分析,确定主题概 念,然后按照一定的词汇控制方式,为标引对象赋予恰当的语词标识的过程【4 l 。与 分类标引不同之处在于,主题标引可以集中有关一个主题的各种信息,且有较强的 直观性、专指性和适应性。就标引方式而言,主题标引可以采用自由标引方式,由 专业的标引人员直接从已有的描述标引对象内容和其它特征的语句中选取主题词 作为标识;也可以从规范化的主题词表( 包括标题表、叙词表) 这类标引工具中选 择相关的语词作为标识。 1 0 硕士学位论文 m a s t e r st h e s i s 虽然标引方式、标引形式和标引工具各不相同,但分类标引和主题标引的操作 规程并没有多少特殊的地方,都遵从一定的标引规则,以保证标引的准确性和一致 性。自八十年代末,我国标准部门在开展标准文献数据库建设和标准文献工作自动 化时,普遍采用了主题标引【3 3 】。 2 2 知识元概述 由2 1 节可以看出,基于文献单元的知识组织,所揭示的知识信息是粗糙的、 表面的、不精确的,很难揭示出知识的内在联系,形成新的知识。而基于知识单元 的知识组织,仍然没有细化到知识的最小单位“知识元。基于主题图的知识 组织,提供给用户的实际是一个完整的知识结构,相当于一个主题索引。 分类标引法是按照文献的科学性质进行分类:主题标引法是按文献的主要内容 选取主题词,以提供检索。这两种标引方法难以有效地为用户提供针对问题的解决 方案和计划。目前,数字图书馆中的文献可以通过题目、主题、关键词、作者、摘 要、刊名、参考文献、分类号等进行关联检索,然而对于用户所要解决的问题来说, 并不能准确的检索出来。 把文献分解为一个个独立的知识元,便于存储与查找,用户可以直接查找知识 元,创造出新的知识,加速了知识的创新。因此,用知识元标引知识,既反映了由 知识元组成的个人知识创新的结构,又反映了由知识元外部关系组成的人类知识框 架结构【3 ij 。 2 2 1 知识元概念 知识元是知识的最小单位,它通过不同的排列组合构成了不同的知识单元。同 时,知识元也是知识结构的最小元素,在知识结构中可以由知识元直接组成新的知 识单元1 3 4 1 。 文献3 5 中,文孝庭教授认为“知识元应该是可以自由切分、表达、存取、组 织、检索和利用知识的最小的、独立的知识单位 。温有奎教授认为知识元是构造 知识结构的基元,是构成知识的最小单位,是知识系统的最小元素。文献3 6 指出, 知识元是人的知识结构中的基本元素,知识元的构成为:知识元= 信息元+ 经验+ 智 慧+ 问题的解决。文献3 7 指出知识元是一个有确定意义的词组集合,是不可再分的 知识单位。 由上述定义可以看出,知识元是具有独立意义且不可再分的一个知识单位,它 是知识表示的基本单元。知识元可以表示为一个概念、一个术语、一个公式、一张 图表、一个定理、一个模型、一组数据等等。各个知识元虽然可以独立表达一个完 硕士学位论文 m a s t e r st h e s i s 整的知识,但它们并不是孤立存在的,而是存在着各种复杂的关系。因此,在研究 知识元时,不仅要研究每个知识元自身的分类、内容、性质和价值等,还要研究知 识元之间存在的各种关系。 文献是由不同的知识元组成,构成人类知识结构中的一个知识单元。知识单元 与知识结构组成了个性知识与共性知识的知识系统。个性知识是由知识元组成,知 识元的不同排列组合形成了不同的知识单元,体现在知识的创新上;共性知识结构 表现在知识的完整性上1 7 】。 2 2 2 知识元的特点 通过从文本中抽取知识元,以知识元为知识的最小组织单位实现知识元的链 接,是信息服务向知识服务过渡的一种有效方法1 3 引。文献作为一个知识单元,其知 识结构涉及多个知识元。通过知识元链接,可实现对文献信息深层次的挖掘,将信 息的组织深入到知识层次,对知识服务产生了深刻的影响。根据知识元的定义,可 以归纳出知识元具有如下特性: ( 1 ) 知识元具有独立性。知识元能够独立的表达一个完整的事实、原理、方 法、技巧等。 ( 2 ) 知识元具有拓扑性。每个知识元都具有完整的结构,由知识元名称、知 识元属性及其属性值组成,可以完整的表达知识内容。 ( 3 ) 知识元具有链接性。知识元可以自由组合,通过不同排列组合构成了不 同知识单元,不同知识单元按照不同逻辑关系可组成不同的知识元链接。当文献中 的知识元被自由提取、存储、链接,实现了知识自由组合、提取与应用,知识经过 从新演绎、组合,必然会产生新的融合,从而使知识的价值得以提升,加快了知识 增长和知识创新的步伐。 ( 4 ) 知识元具有外显性。知识元是一种显性知识( e x p l i c i tk n o w l e d g e ) 。显性知 识是指人们可以通过口头传授、教科书、参考资料、期刊杂志、专利文献、视听媒 体、软件和数据库等方式获取,以可以通过语言、书籍、文字、数据库等编码方式 传播,也容易被人们学习。文献是一种显性知识的载体,其内容是诸多知识元的组 合。目前,人们对知识的控制还停留在文献的层次,使得文献内包含的知识元没有 得到应有的揭示,也就得不到应有的利用。 ( 5 ) 知识元便于存储。由于知识元的内容比较单一、独立,因此便于选择与 之相适应的存储结构,从而构建一个动态的知识元数据库,当用户从中提取有用的 知识、放入新的知识时,知识元数据吐故纳新,不断更新。同时,数据仓库和数据 挖掘等原理和技术仍适用于对知识元的存储和利用。 硕士学位论文 m a s t e r st h e s i s 2 2 3 知识元的分类 温有奎教授在文献3 1 中将知识元分成两大类型:描述型:包括信息报道型, 名词解释型,数值型,问题描述型,文献引证型;过程型:包括步骤型,方法型, 定义型,原理型,经验型等。文献3 9 将知识元分成以概念类、原理类、方法类、 事实类、陈述类等。 对知识元的分类,不能过于细化。如文献3 l 中对知识元的分类里,包括名词 解释型和定义型,不同的人会有不同的判断,容易引起歧义。本文将知识元进行了 如下分类,包括定义型、属性型、类别型、引用型、数值型、实例型、术语型、符 号型、理论型、步骤型、方法型。 l 、定义型 定义型知识元,又称概念型知识元,是指对一个专业术语进行描述和解释的知 识元。它有特定的语法规定,如幸宰是指 ,所谓幸幸是指。 举例: 知识元名称:教学设计 知识元内容:教学设计是运用系统方法,将学习理论与教学理论的原理转换成 对教学目标、教学内容、教学方法和教学策略、教学评价等环节进行具体计划、刨 设教与学的系统“过程”和“程序”,而创设教与学的根本目的是促进学习者的学 习。 2 、属性型 属性型知识元是指描述对象的特点、优缺点的知识元。 举例: 知识元名称:研究性学习的特点 知识元内容:研究性学习的特点如下:注重学习的实践性:专题( 或问题、 项目) 是研究性学习的载体;注重学习的过程及学习过程中学生的感受和体验; 强调学习的自主性;强调学习的开发性。 3 、
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 第24课 京剧趣谈 教学设计 2024-2025学年统编版语文六年级上册
- 2025年国有企业培训与发展述职报告范文
- 移动社交对商业模式的重塑与创新研究
- 2025年建筑用地承包合同6篇
- 物业管理委托服务合同
- 消防清包工承包协议书
- 蓝天救援队免责协议书6篇
- 软件外包合同样本8篇
- 2025年机动车销售合同7篇
- 借款合同书(房产抵押)8篇
- ICP-AES分析原始记录
- 《HSK标准教程2》第2课课件-(2)
- 【课件】3.2 DNA的结构课件 2021——2022学年高一下学期生物人教版必修2
- 第五章仿生原理与创新设计ppt课件
- 枣庄防备煤矿有限公司“7.6”重大火灾事故详细分析
- 口腔科诊断证明书模板
- 小学数学问题解决(吴正宪)
- 第五节 胡静-常用正颌外科手术
- 矿井开拓方案比较
- DB23-黑龙江省建设工程施工操作技术规程-城镇道路工程.doc
- 小学数学专题讲座小学数学计算能力的培养PPT
评论
0/150
提交评论