版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
文献分类
与信息组织1课程介绍课程编号:学时:30学时课程类型:专业选修课课程名称:文献分类与信息组织首选教材:戴维民,语义网信息组织技术与方法,学林出版社,2008参考教材:GrigorisAntoniou等著,陈小平译,语义网基础教程,机械工业出版社,20082考核方式平时考勤:10%提前考作业:20%期末:70%考核形式3为什么要学习这门课?这门课能干什么??4信息组织的历史发展5
一.古代的信息组织二.近代信息组织三.现代信息组织6一.古代的信息组织(一)我国古代信息组织活动(二)古代国外的信息组织(三)古代信息组织的特点
7(一)古代信息组织活动(我国)1.分类组织――图书分类目录2.主题组织――类书3.索引――“通检”、“备检”、“串珠”
81.分类组织――图书分类目录孔子整理“六经”对《诗经》305篇的组织整理;对《尚书》按体裁分类排列汉代刘向、刘歆父子编制我国第一部大型分类目录《七略》
刘向、刘歆将当时收集到的所有藏书分门别类著录、按学科内容分为六艺略、诸子略、诗赋略、兵书略、数术略、方技略六大类,加上“辑略”部分共七类。清代《四库全书总目》收录了先秦至清初重要书籍,著录书名、卷数、著者书籍来源并有内容提要,组织成经、史、子、集四部44类,代表了我国古代目录的最高成就。
9我国古代文献分类组织方法七分法汉代刘向、刘歆的《七略》;南朝王俭的《七志》四分法西晋时,荀勗所编的国家书目《中经新簿》最早提出四部分类方式,后经逐步改易,至唐魏征所编的《隋书.经籍志》确立了经、史、子、集四部分类系统。自唐以後,各种官私书目大多采用了四部分类。清代著名的《四库全书总目》采用的已比较完善。十二分法郑樵在《通志•艺文略》十二大类三级类目102.主题组织――类书类书被视为我国主题法的滥觞。类书可以视为主题目录的扩大,如果删其繁文,仅存书目,也就现代最进步的主题目录了。我国最大的类书《永乐大典》就是一部带有主题法性质的检索工具。全书22877卷,采用了“用韵以统字,用字以统事”的组织编排方法,与主题法的字顺系统原则完全吻合。113.索引――“通检”、“备检”、“串珠”中国古代索引是在字书、韵书、类书的基础上发展起来的,曾被称为“通检”、“备检”、“串珠”等,形象地说明了它的作用和特征。魏建安年间刘劭等编纂的类书《皇览》就具索引功能,被认为是中国古代索引的起源之一。12(二)古代国外的信息组织古希腊亚里士多德的知识分类体系--三大门类理论知识(逻辑学、物理学、数学、形而上学);实践哲学(伦理学、经济学、政治学);创造哲学(史学、修辞学、艺术)古希腊学者卡利马科斯(Callimachus)为亚历山大图书馆编制藏书目录《皮纳克斯》。公元前250年左右,古希腊学者卡利马科斯(Callimachus)为当时规模最大的亚历山大图书馆编制了长达120卷的藏书目录《皮纳克斯》(Pinakes,意为“书的表册”又名《各科著名学者及其著作目录》),将藏书分为戏剧、诗歌、法律、哲学、历史、修辞学、医学、杂著等等大类,其下再按字母或年代顺序排列,并附每部著作的评价,成为古代最早的目录之一。
“目录学之父”的盖斯那(C.Gesner)编制大型书目—《世界书目》全书四卷,包括著者字顺目录、分类目录和主题字顺索引,其中第二卷将知识分为21个大类,250个细目,较全面地反映了当时的科学发展水平,成为西方第一部检索系统较为完备、著录详尽的综合性大型书目。
13、14世纪《圣经》语词索引直接以自然语言中的字、词作标目,按字顺次序查检,基本具备了主题法的要素。13(三)古代信息组织的特点古代信息组织活动处于初始阶段,呈现出以下特征:以信息的揭示、存储为基本目的;最早形式的目录和藏书组织的着眼点不在于“用”而在于“管”。信息组织对象主要是文献;信息揭示、组织的方法主要是对信息的记录和分类,着重信息外在特征的记录和描述,体现为清册职能;操作完全由个人以手工方式进行,简单且无一定标准和规范;信息组织的代表性成果是目录。14二.近代信息组织(一)近代国外信息组织(二)近代信息组织的特点
15(一)近代国外信息组织1.科学知识分类体系2.主题法――标题表3.文摘和索引161.科学知识分类体系培根将知识分为三类:历史(记忆知识)、诗歌(想象知识)、哲学(理性知识),并在其下分出细纲。恩格斯(F.Engls)分类法的基本序列为:无机体科学类(按物质运动形式的复杂程度排列);有机体科学类(由低级的、一般的运动形式向高级的、复杂的运动形式转变);社会科学类(由经济基础开始、然后是政治、法律及不同思想范畴的上层建筑)。1876年,美国图书馆学家、教育家杜威(M.Dewey)编制了《杜威十进分类法》(DDC)。这部分类法建立了结构完备、等级分明的分类体系和主题索引,体现了当时信息组织的最高水平。172.主题法――标题表最早期的类型是传统的标题法。1876年,美国图书馆学家克特发表了《字典式目录条例》,该条例在传统主词款目和字顺分类目录的基础上,明确规定了标题的意义和处理方式,制定了标题选择和使用的一系列原则和方法,从而完成了字顺分类法向字顺主题法的转变,它标志着现代主题法原则的确立。1895年出版的第一部标题表--《美国图书馆协会标题表》以及其后的〈美国国会图书馆标题表〉等即是这一理论原则指导下出现的现代标题法的代表。183.文摘和索引
更具信息报道和指引意义的文摘和索引在此时期也发展起来。1830年,世界上第一部科技文摘杂志《药学总览》在德国问世,并附有索引。英国于1856年成立了世界第一个索引学会。
19(二)近代信息组织的特点近代信息组织的活动除围绕着文献的保存开展外,开始重视对信息外在特征和内容特征的全面描述、揭示体系分类法的确立。主题法的研究和应用。确立了主题法原则,而且有了完整的主题词表和达到一定水平的主题揭示活动。索引、文摘的发展说明信息组织从载体单元到内涵单元的深化。信息组织技术方法的进步。分类法与主题法的编制技术更趋科学、完善。如为类目体系配备标记符号,设置复分表、编制分类法索引,使分类法脱离了书目形式,成为一种独立的分类检索工具。目录种类除以往通行的分类目录外,还增加了书名目录、著者目录以及直接面向用户的推荐书目、专科目录等。
20三.现代信息组织(一)现代信息组织方法的发展(二)网络信息资源组织的探讨与实践(三)现代信息组织的特点21(一)现代信息组织方法的发展1.分类法的改造2.主题法的发展3.分类主题一体化4.自然语言检索系统的探索和应用221.分类法的改造1906年,英国的布朗(J.D.Brown)在《主题分类法》中采用了主题分析法和组合原则,成为分面分类法的萌芽。1933年,印度图书馆学家阮冈纳赞(S.R.Ranganathan)编制了世界上第一部分面组配式分类法--《冒号分类法》,并系统提出了分面分类理论。在其影响下,一系列专业分面类表问世。传统分类法被不断地增加分面组配成分,朝分面组配方向改造。如DDC的通用复分表从无到有,从1个增加到7个,专类复分和仿分也在增加,在第20版则用分面分类的方法对音乐类进行了全面的改造。1976年,英国分类法研究小组的成员米尔斯(J.Mills)对布利斯(H.E.Bliss)的《书目分类法》(BC1)进行了全面的分面改造,使其由原来的等级列举式分类法发展成一部大型的分面组配式分类法--《布利斯书目分类法》(BC2),成为列举式分类法彻底分面改造的典范。23我国的《中国图书馆分类法》我国大型综合性分类表《中图法》,它广泛吸取了国内外各种分类法的优长,以科学分类为基础;同时在四次修订过程中不断地扩大分面组配技术的使用范围,逐渐增加复分、仿分方法,引入并扩大冒号组配方法的应用,成为目前我国文献信息组织使用最广泛的标准化分类体系。
242.主题法的发展20世纪50年代,美国的陶伯(M.Taube)以字面上不能再分的词汇单元――元词作标识,以字面组配表达文献主题,并结合比孔卡等设备的使用,开创了在检索阶段匹配检索的后组式检索方式。它标志着继标题法之后,一种新的主题法――单元词法问世。1947—1950年间,美国的穆尔斯(C.N.Mooers)在研究组配分类法的基础上,提出了一种新型主题法—叙词法,并创造了“叙词”、“叙词法”“情报检索”“情报检索系统”等专门术语。20世纪60年代,叙词语言吸收了标题法、单元词法、关键词法以及分类法等各种检索语言之长,逐步取代了元词法成为现代情报检索语言的主流。它以概念组配取代字面组配,并广泛揭示概念间关系,使文献信息的揭示更加准确。1959年美国杜邦公司编制了第一部叙词表。20世纪70年代,我国开始大规模编制和使用主题法。1971年,航空部情报所编制使用的《航空科技资料主题表》第2版问世,成为我国的第一部叙词表。1979年出版的《汉语主题词表》,成为世界上最大规模的叙词表。253.分类主题一体化1969年,英国学者艾奇逊(J.Aitchison)编制了世界上第一部分类主题一体化的《分面叙词表》。它将一部分面分类表与一部字顺叙词表结合起来,通过严格规范,使每一个词汇同时出现在分类表与叙词表中,实现了两种检索语言的兼容。在其影响下,英美等国陆续出版了一批分类主题一体化词表,如《伦敦教育分类法(第二版)》、《建筑工业叙词表》、《基础叙词表》等。20世纪80年代,我国先后用手工和计算机编成一系列分类主题一体化词表。《常规武器分面叙词表》和《教育分面叙词表》。这是我国图书情报界编制一体化词表的最早尝试。此后,我国又陆续编制、出版了十余部一体化词表,包括三部大型词表――《中国分类主题词表》、《农业科学叙词表》、《社会科学叙词表》和七部中型词表。
264.自然语言检索系统的探索和应用20世纪50年代,卢恩(H.P.Luhn)在前人探索的基础上,将计算机用于关键词索引的编制。其后,各种直接以自然语言为标识的检索系统相继出现。20世纪60年代初,美国匹兹堡大学健康法律中心率先建立起第一个全文检索系统――LEXIS。1957年,卢恩在对自动标引和自动编写文摘研究的基础上,提出了基于词频统计的抽词标引法,率先进行了自动标引的探索。从60年代后期到70年代末,自动标引研究取得了很大进展,提出了概率统计标引法、句法分析标引法及各种加权模型等,建立了一批应用与实验系统。至今,自动标引形成了抽词标引和赋词标引两大主要类型。我国自1980年起开始从事独具特色的汉语自动标引和分词实验研究,并逐步达到了科技文献自动分词的实用水平。
27(二)网络信息资源组织的探讨与实践1.传统图书分类和主题法的网络适用性研究2.元数据的开发应用3.搜索引擎技术的发展281.传统图书分类和主题法的网络适用性研究USMARC一体化编目格式中特设了856字段,即电子地址及检索方式字段,通过它可实现书目记录与网络信息资源的链接。国际上几部著名的分类法如UDC,DDC,LCC等都在谋求网络上的应用,并已取得相当进展。292.元数据的开发应用元数据是一个简单的、用来描述数据特征和属性的工具,网络资源通过元数据的规范描述和组织,能帮助用户很快找到所需的有关资源类型、网页标题、责任者、主题或关键词以及内容摘要等信息。目前国际上已有多种类型的元数据体系,如:描述数字文献的元数据(TEIHeader、MARC、ONIX);描述数字图象的元数据(MOA2、CDL);描述博物馆藏品的元数据(VRACore、CDWA);描述地理空间信息的元数据(FGDC/CSDGM)等。其中最受关注的是都柏林核心元数据集(DublinCore)。303.搜索引擎技术的发展搜索引擎(searchengines)指采用自动化技术对WWW站点资源和其它网络资源进行采集、标引和检索的一类检索系统机制;是提供给用户进行关键词、词组或自然语言检索的工具,是目前网络信息资源的组织和检索的主流工具。Eg.Google;Excite;AlltheWeb;AskJeeves
北大天网;百度31搜索引擎发展、变迁独立型搜索引擎混合式搜索引擎混合式搜索引擎:兼具检索型和目录型两种检索方式,既可直接输入检索词查找特定资源,又可浏览目录了解某个领域范围的资源。元搜索引擎又称为多线程式搜索引擎,是指利用统一的检索界面,实现对多个独立搜索引擎索引数据库进行检索,并将检索结果以统一格式显示的网络检索工具。分布式搜索引擎分布式搜索引擎是根据地域、主题、IP地址及其它的划分标准将全网分成若干个自治区域,在每个自治区域内设立一个检索服务器,而每个检索服务器由信息搜索机器人、索引搜索软件数据库和代理三部分组成。各个代理之间可以进行查询的重定向。32Web搜索引擎标准结构crawlthewebcreateaninvertedindexCheckforduplicates,storethedocumentsInvertedindexSearchengineserversuserqueryShowresultsTouserDocIds33(三)现代信息组织的特点信息组织的出发点充分考虑用户的需要和检索习惯。多元化的信息资源组织。信息组织对象由单纯的印刷型文献发展磁带、光盘、数据库、网络等多媒体,信息组织内容更加广泛,从各种类型的数据发展到具有丰富内容的知识,形成了信息组织方式的多样性和多层次性。检索语言的发展。分面分类理论的提出,突破了传统列举式分类法的束缚,为信息组织方法提供了新的思路。自动标引技术和分类、主题法在网络环境下的应用受到广泛关注。自然语言的研究和应用兴起。现代信息技术的应用。信息组织形式从数据结构发展到知识表示;信息以文件方式、数据库方式、主题树方式和超媒体方式组织。网络信息资源的组织成为信息组织实践与理论研究的热点。元数据技术、搜索引擎技术、数据库技术、信息挖掘、推送技术等技术成为信息组织领域内倍受关注的课题。34信息组织的瓶颈351.精确检索需求与网络信息组织语义表达模糊性之间的矛情报检索语言是信息组织的语言工具,科学的信息组织方法着情报检索语言的发展而发展起来的。现在常用的网络信织方法,包括分类法、主题法和集成法等就是在分类情报检言、主题情报检索语言和分类主题一体化检索语言的基础上而来的。基于概念逻辑和知识分类的情报检索语言,其概念本身就体现了概念的内涵与本质特征,完全独立于特定的语境。361.精确检索需求与网络信息组织语义表达模糊性之间的矛我们知道,同一概念在不同的语义环境下其含义(包括内涵与外延)是不同的,这是造成一词多义、多词一义、词义含糊和检索效率低的主要原因之一。情报检索语言在语义表达上的模糊性导致了以情报检索语言作为语言工具的常用网络信息组织方法在语义表达上的模糊性。面对信息爆炸和信息污染的恶劣的信息环境,用户的精确检索需求变得十分迫切。用户的精确检索需求客观上要求网络信息组织方法在语义表达上的清晰、准确,而这恰恰是现在常用的网络信息组织方法所欠缺的。37
(2)智能检索需求与机器“不能理解”之间的矛盾在复杂、恶劣的信息环境下进行智能检索一直以来都是用户的梦想。智能检索是建立在对网络信息资源及检索提问进行充分语义分析基础上的一种检索方式。智能检索的基础是对信息的有效组织与管理。但现有的网络信息组织方法,不论是网络信息的分类组织,还是网络信息的主题组织,不论是采用文件方式、数据库方式、主题树方式还是搜索引擎方式,它们所表达的语义都是隐含的,只能被它们的建立者或开发人员所理解、掌握和使用,而不能表达直接为机器(计算机)所理解的形式化的语义。网络信息组织方法只有提供“机器可理解”的形式化的语义,才能实现真正意义上的智能检索。38(3)共享需求与网络信息组织独立性之间的矛盾面对全新的信息环境,为了提高检索效率和信息服务质量,客观上要求信息组织单元能够共享一套领域内公认的概念集或词汇集来表达领域知识,避免因概念或词汇使用上的不一致而造成的误检、漏检或信息分散。而万维网松散、网状的组织结构使得信息的生产者、提供者、组织者相对独立和封闭,在进行网络信息组织时也没有统一的、互相认同的、形式化的描述领域知识的概念集或词汇集39
(4)检索需求的多样性与线性、一维的网络信息组织方式之间的矛盾传统的情报检索语言对领域知识(或概念)的描述主要集中于概念及其含义,而不注重对概念之间关系的揭示。对概念之间关系揭示的不足导致在进行信息组织时主要以概念为中心。以概念为中心的信息组织方式不仅是结构松散的,而且也是线性的、一维的。随着网络信息环境的变化,用户的检索需求也发生了很大的变化。人们不仅关心被检索的事物,而且更加注重事物之间的联系。这就要求网络信息组织方式从“以概念为中心“转移40信息组织的新要求41信息组织的新要求
(1)准确地表达概念含义,消除一词多义、多词一义或词义含糊而造成的误操作以及信息组织质量的下降。(2)采用新的方法和技术,揭示概念之间多层次的语义关系,从而方便计算机的描述、表达、存储和处理。
(3)包含可以直接为计算机所“理解和处理”的形式化的语义,以更好地满足网络信息组织对信息、知识的收集、分析、描述、重组、存储、检索以及推理的需要。
(4)摒弃传统情报检索语言线性、一维的信息组织方式,采用体现事物或概念间原有的,多层次、网络化的信息组织方式。(5)构建一种基于网络的情报检索语言,并易于扩展、管理与维护42信息组织的发展趋向43语义网信息组织技术与方法44万维网走向语义数据时代人类知识资源集成的三个阶段:图书馆:硬拷贝,不便复制与广泛传播互联网:数字化时代,不便机器理解和自动处理语义网:语义数据时代45万维网走向语义数据时代网络1.0
Web1.046万维网走向语义数据时代网络2.0
Web2.047万维网走向语义数据时代网络2.0
Web2.0博客Blog站点摘要RSS社会网络服务SNS维基Wiki混搭Mashup标签Tag48万维网走向语义数据时代网络3.0
Web3.049网络1.0–网络2.0–网络3.0
Web1.0–Web2.0–Web3.0万维网走向语义数据时代网络1.0:文件网
Web1.0:Webofdocuments网络2.0:人际/社会网
Web2.0:Webofpersons网络3.0:数据网
Web3.0:Webofdata(semantics)50网络发展整体观51目录语义网的由来Web上的知识表示XML(S)和RDF(S)XML和RDF进行Web知识表示的比较Ontology一个语义网应用的描述研究热点和展望52一.语义网的由来当前Web所存在的问题更好的通讯模式什么是语义网语义网同现有网络的区别语义网所要解决的问题53当前Web的特点WWW是最大的信息资源仓库,包含几乎任何领域内的文档和媒体资源,并且这些数据可以在瞬间被个人和组织访问其成功很大程度来自于分布式设计,即Web页可以存放于任何一台主机,通过超链可以访问本机或远程的页面具有无限的潜力,然而尚未发挥出来,困难在于Web页上的信息内容很难抽取54当前Web存在的问题Web的大小使得很难定位相关的信息资源目录服务(Yahoo)和搜索引擎(Google)提供了一些帮助,但远不能满足用户的需求进一步的,用户更难以让Web作更多的、功能远远超过目录和搜索的事情,比如让Web为用户安排一个完美的度假其根本的障碍在于一个事实:Web不是设计给机器处理的55人类之间的通讯人类的交流建立在语义的基础上,通过指称把客观世界和意识世界联系起来CommonKnowledge主体A主体B语言56当前Web上的通讯主体A把信息放到网页中,Web在主体B的浏览器端显示出来,实际上仍然是人之间的通讯,Web并不理解网页中的内容CommonKnowledge主体A主体BWorldWideWebWeb页面57语义网上的通讯Web携带语义信息,使机器能够理解Web页面,从而实现强大的功能。需要一个人和机器都能理解的Ontology
Ontology主体AMachine结构化Web页面58如何让机器理解Web两种途径:1.自然语言理解技术,然而仍然有很多关键问题没有解决2.用知识表达语言来描述Web页,即构造一种新的Web--语义网59什么是语义网TimBerners-Lee的定义:TheSemanticWebisnotaseparateWebbutanextensionofthecurrentone,inwhichinformationisgivenwell-definedmeaning,betterenablingcomputersandpeopletoworkincooperation.60语义Web是一个网,它包含了文档或文档的一部分,描述了事物间的明显关系,且包含语义信息,以利于机器的自动处理”。61与语义网有关的标准和技术可扩展置标语言名域国际码统一资源标识可扩展置标语言结构资源描述框架资源描述框架结构实用分类系统词表逻辑验证诚信数字化签名能自描述的文献数据数据规则62SemanticWeb-Layers最底层是URI和Unicode层,该层是整个语义网的基础,其中Unicode处理资源的编码,URI负责标识资源。第二层是XML+NS+XMLSchema层,用于表示数据的内容和结构。第三层为RDF+RDFSchema,用于描述资源及其类型。第四层为Ontology层,它用于描述各种资源之间的联系。第五层到第七层是在下面四层的基础上进行的逻辑推理操作。其中核心层为XML,RDF,Ontology,这三层用于表示Web信息的语义。63语义网的架构UnicodeURIXML+NS+XMLSchema名称空间RDF+RDFSchema数字签名本体逻辑证明信任自描述文档数据数据规则唯一标识Web上的任一资源,其思想是在需要的时候通过链接引用资源,因此不需要对资源进行拷贝或集中管理。一种新的+字符编码标准,它支持世界上所有的语言。无论在什么平台上,无论在什么程序中,无论使用什么语言,每个字符都对应于一个唯一的Unicode编码值。XML提供文档结构化的语法,实现了文档结构与文档表现形式的分离,根据不同的目的同一个文档可以有不同的表现形式。XML名称空间是名称的一个集合,用于文档元素和属性名有效性的验证。XMLSchema是约束XML文档结构的语言。RDF数据模型提供简单的语义,RDF属性可以看作是资源的属性,同时又表达了资源之间的关系;RDFSchema定义被描述资源的类,并提供约束违例的检测机制。提供一个明确形式化语言,以准确定义术语语义及术语间的关系。除了本体层定义的术语关系和推理规则外,还需要有一个功能强大的逻辑语言来实现推理。机器和软件代理可以用它来唯一的验证某个信息是否由特定的可信任的来源提供。64AscenariobyBerners-Lee彼得的妈妈需要进行理疗,让代理来安排这个预约。给语义网络代理下指令后,代理立即从医生的代理处查到了妈妈的治疗处方,在诊所清单中进行查找,从中找出那些在母亲家方圆20英里的范围内,在信用评级服务中评级为出色或很好,在母亲的保险计划范围之内的诊所。然后,它将可能的预约时间(由各家诊所通过其网页提供)和彼得日程进行匹配。几分钟之后,代理给他们提供了一个方案。彼得对此不太满意。从母亲家到这个医院要横穿整个城镇,而他从医院返回的时间又恰好是交通高峰时间。他设置了更多的时间和地点方面的限制,让自己的代理重新进行搜索。几乎一瞬间,新的方案又出来了:医院离家近了,时间也提前了。但是,同时有两点警告。首先,彼得要重新安排他的一些不太重要的预约。彼得查了一下,没什么问题。另一点是,这家医院不在保险公司的理疗医院的清单上。代理为解除彼得的顾虑,说,“通过其他方式,可以保证予以确认服务类型和保险计划,需要细节内容吗?”彼得表示同意,事情就这么定下来了。65语义网同当前Web的区别大多数当前的Web是设计给人浏览的,语义网是设计给机器处理的当前的计算机可以解析Web的显示,处理header,链接到其他页面,但是他们无法处理语义:比如这个页面是张先生的主页,这个链接会指向孙小姐的简历等等。661.面向的对象不同目前的万维网主要使用HTML表达网页内容。使用HTML标记的网页的确可以表达一些控制网页显示格式之类的信息,从而使人们认为计算机真的可以“理解”我们的意图。但实际上HTML仅注重文本的表现形式,如字体颜色、大小、类型等,而不考虑文本的具体内容与含义。虽然万维网上有一些自动的脚本程序可以帮助人们实现一部分功能,但在开放式的网络环境中,它们并不能很好地用于计算机之间的交互。因此目前我们所使用的万维网主要是供“人”阅读和使用的。而语义网则是要在万维网之上加入一些可以被计算机“理解”的语义信息,它在方便人们阅读和使用的同时,也方便计算机之间的相互交流与合作。因此,万维网面向的对象主要是“人”,而语义网面向的对象则主要是“机器”672信息组织方式不同信息组织方式不同由于两者面向的对象不同,因此在信息组织方式上自然会存在很大的差异。万维网在组织信息资源时主要以“人”为中心,按682信息组织方式不同信息组织方式不同
由于两者面向的对象不同,因此在信息组织方式上自然会存在很大的差异。万维网在组织信息资源时主要以“人”为中心,按照人们的思维习惯和方便性组织网络信息资源。语义网在组织信息资源时则必须兼顾计算机对文本内容的“理解”以及它们之间的相互交流和沟通。693.信息表现的侧重点不同·信息表现的侧重点不同万维网侧重于信息的显示格式和样式,而不关心所要显示的内容。例如对于比较重要的信息,万维网可能会在其显示上以大字体或颜色鲜明的字体表示;而语义网则更加侧重于信息的语义内容,对具有特定意义的文本必须进行一定的标注或解释。704主要任务不同主要任务不同万维网主要是供人阅读、交流和使用的,其主要任务就是信息发布与获取。通过在网络上发布或获取信息来达到共享和交流的目的。语义网的主要任务则是计算机之间的相互交流和共享,从而使计算机可以代替人们完成一部分工作,使网络应用更加智能化、自动化和人性化。715工作方式不同工作方式不同语义网与万维网面向的对象不同,它们的工作方式自然也有所不同。万维网主要面向“人”,因此其大部分工作都是由人来完成的,包括信息的收集、检索、整理、排序和分析等等。而语义网通过加入一些可以被计算机“理解”的语义信息,则可以把人从上述各类繁琐的工作中解脱出来,利用“智能代理”帮助完成上述的大部分工作。一个典型的例子就是信息检索,利用智能搜索代理,语义网将提供给人们真正需要的信息内容,而不像现在的搜72二.Web上的知识表示传统的知识表示结构Web上知识表示相对于传统知识表示的特点73传统的知识表示结构语义网络(network)在一个语义网络中,每一个概念用一个节点来表示,互相关联的概念由箭头连接起来语义网络使用特别的箭头来表示抽象概念,一个is-a箭头,表示一个概念是另一个概念的子类,而instance-of表示一个概念是另外一个概念的实例。这些箭头同基本的集合理论相关:is-a类似于子集关系,instance-of类似于元素关系。
is-a的集合定义了类序,这个类序通常称为分类法或类继承。分类法用来用一个概念来归纳很多的抽象类,或者为很多抽象概念定义一个类。Yahoo和OpenDirecotry的流行已经证明,分类法在辅助用户定位信息的时候非常有用74Web上知识表示的特点语义网依赖于将内容同形式化的意义表示对应起来。这一点上,知识表示领域为设计语义网的语言提供了一个很好的起点,因为它的研究一直在努力的将知识形式化。然而,Web的特性对传统的知识表达工作是一个挑战,需要我们从一个新的角度来看这个问题。Web的一些重要特征所带来的影响主要有:75Web上知识表示的特点Web是分布式的Web的发展的推动力量就是自由而非集中控制。然而,由于Web是许多个人的产物,缺少集中控制对信息的推理带来了很大的挑战:不同的组织可能会使用不同的词表,导致了同义和一词多义现象缺少审查和质量控制,可靠性是个问题,有相当数量的Web欺骗,其发布信息的目的是为了误导由于没有一个全球统一的信息合成,Web上不同来源的信息可能会发生冲突。76Web上知识表示的特点Web是动态的Web以惊人的速度变化着,没有任何一个用户或是智能代理可以跟的上随着新的页面不断增加,已有页面的内容也在不断变化。一些页面相对稳定一些,另外一些则定期或不定期的更新,这些变化可能会完全改变内容一个Web代理必须清楚它的数据会并且经常会过期77Web上知识表示的特点Web的数量巨大虽然每个Web页可能只有一点代理可以收集的知识,但是累计起来的数据库将使推理很难进行Web是开放的大多数情况下,代理应该假设它只采集了相当少的,并不完备的知识。然而,为了推断更多的事实,许多推理系统用来完整世界假设,即那些没有收到知识库中的都认为不真。78三.XML(S)和RDF(S)从HTML说起XML和DTD(XMLSchema)RDF和RDFSchema79从HTML说起Berners-Lee开发HTML的初衷是使用超文本作为组织分布式文档系统的一种方式,Html的标签主要是面向显示的,但其一直在努力增加一些标签来提供语义:HTML2.0引入了META元素和REL属性。META元素以名称、值的形式规定了元数据。META一个流行的用法是表示关键字,比如<METAname=“kewyords”content=“SemanticWeb”>,这样会帮助搜索引擎标引这个页面。HTML3.0增加了Class属性,可以被任何标签使用来建立该元素的子类,不过这个语义标记很少被使用,不过即使被使用了,他们所提供的语义也是很有限的。为了解决HTML的语义局限性,DobsonandBurrill试着将其同ER关系模型结合。这就是超级HTML,它由一系列简单的标签定义了文档中的实体,文档体的标记部分作为这些实体的属性,然后定义从实体的外部实体的关系。这是正式为Web页面增加结构数据的首次尝试,从而为解决这个问题提供了一种方法,也是之后XML设计的动机。80从HTML说起尽管非常流行,HTML存在两大问题:任何人只要发现HTML不足以满足其需求的时候,他们就简单的增加标签到他们的文档里,结果导致大量的非标准的HTML的出现因为HTML主要设计成显示给人看的,它很难让机器抽取内容以及执行自动的文档处理。为了解决这两个问题,W3C开发了XML。RDF和XML成为开发语义网需的两个主要技术81XMLXML让每个人都能创建自己的标签,例如<姓名>,从而支持应用程序将这些标签运用到复杂的应用中。也即XML允许用户在文档中加入了任意的结构由于结构任意,XML交换的双方需要一个使用上的一致性,这样的一致性描述就是DTD(XMLSchema)然而,XML并不提供标签的意义。标签<p>可能意味着分段(paragraph),也可能意味着一部分(part)。这需要通讯双方事先达成理解的一致82DTD&XMLSchemaDTD仅仅提供了一个简单的结构描述:他们定义了元素出现的结构,位置,可能的属性等等。XMLSchema被设计来代替DTD。XMLSchema有几个优于DTD之处:XMLSchema提供了一个丰富的语法来描述元素的结构,比如你可以定义元素出现的次数,默认值;XMLSchema提供支持数据类型。比如你可以定义电话号码是一个五位数字;XMLSchema提供了包含和继承机制,使你可以重用共同的元素定义,也可以将存在的定义运用于新的应用XMLSchema以XML作为其编码的语法(因为XML是一个元语言),使得工具的开发变简单了,因为文档和文档定义都使用了相同的语法。83DTD&XMLSchema尽管DTD为XML文档提供了一个语法规范,DTD并不提供语义信息。也就是说,DTD中的一个元素的意义,或者是由人根据在DTD中的自然语言描述的名称和注释来理解,或者在DTD之外再编写一个文档中来专门描述意义。这样,XML文档的交换就必须要求交换的实体事先在DTD的使用和意义理解上都达成一致。如果只是固定的合作实体之间,可能不会有问题,但是如果是在Web上……84DTD&XMLSchemaWeb的一个很重要的目标是建立互操作关系,从而我们无法预知信息的使用者,从而也不可能向每一个使用者解释DTD的语义这就产生了一个信息合成的问题,由于软件工具无法获取语义,它们就不可能通过DTD来合成信息资源85DTD&XMLSchema当然,如果我们在一个普遍的DTD上达成一致,DTD之间的映射问题就不存在了;但是即使在一个企业,数据标准化也是很困难和很耗时的,而Web上的数据标准化就更不可能了。即使可能有一个理解普遍的DTD,它会大到没法使用,也没法维护,修改它86RDFRDF定义了一个简单的模型,用于描述资源,属性和值之间的关系。资源是可以用URI标识的所有事物,属性是资源的一个特定的方面或特征,值可以是另一个资源,也可以是字符串。总的来说,一个RDF描述就是一个三角:一个对象,一个属性,一个值。在RDF中,文档中的声明通常是某个事物——人、网页或其他任何东西对于某些值——另一个人、另一网页拥有某些属性(例如……是……的父母,……是……的作者)。87RDFRDF是一个机制,用于描述数据。它不是一个语言,而是一个模型,用于表达Web上数据。RDF是忽略语法的,它仅仅提供一个模型用于表达元数据。这种可能的表达可以是有向图,列表或其他,当然XML也可以是一种可选的表达。以下是几个RDF的简单示例88RDF用XML表示的RDF示例:<rdf:Descriptionabout=“”><rdf:typerdf:resource=“”></rdf:Description>89RDF用列表表示的RDF示例:ObjectAttributeValue==========================created_by#anonymous#anonymousname"John"#anonymousphone"477738"90RDF虽然可以有很多种方式来表示RDF数据,RDF数据的交换必须由一个固定有序的语法来支持。XML是一个选择,而RDF规范使用的正是它。然而,RDF数据模型并没有被绑定到一个特定的语法上,它可以用任何语法来表示,它也可以从非RDF的数据资源中抽取。用XML序列语法来表示的RDF很难理解,而RDF应用程序接口使开发者可以不管序列语法的具体细节,而把RDF数据当作是图表来进行处理。91RDFRDF被设计用来为元数据提供一个基本的对象、属性、值的数据模型。对于这些语义,RDF并没有预先建模,同XML一样,RDF数据模型没有提供声明属性名的机制。RDFSchema同XMLSchame类似,提供了一个词汇定义的方式,还可以定义哪些属性可以应用到哪些对象上。换句话说,RDFSchema为RDF模型提供了一个基本的类型系统。92RDFSchemaRDFSchema,使用了一些预先定义的词汇集,比如class,subpropertyof,subclassof,来指定特定的schema。RDFSchema是一个有效的RDF表达,就像xmlSchema是一个有效的xml表达。subclassof允许开发者去定义每一个类的继承机制,subpropertyof对属性是一样的。属性的限制可以用domain和range结构来实现,这个结构可以用来扩展词汇表,下面是一些简单的示例:93RDFSchema定义类及子类<rdfs:Classrdf:ID=“Wine”/>//定义类Wine<rdfsrdf:ID=“RedWine”><rdfs:subClassOfrdf:resource=“#Wine”/></rdfs:Class>//定义Wine的子类RedWine<rdfs:Classrdf:about=“#WhiteWine”><rdfs:comment>nowineisbotharedandawhitewine</rdfs:comment>//注释<rdfs:disjointWithrdf:resource=“#RedWine”/></rdfs:Class>//定义子类WhiteWine及相斥关系94RDFSchema定义类的实例<RedWinerdf:ID=“MyFavoriteDrink”><rdfs:label>MyFavoriteDrink</rdfs:label><rdfs:comment>MyFavoriteDrinkisaRedWine.</rdfs:comment></RedWine>//RedWine的实例<RedWinerdf:ID=“MariettaZinfandel”><rdfs:label>MariettaZinfadel</rdfs:label></RedWine>95RDFSchema定义类的属性<rdf:Propertyrdf:ID=“hasWineColor”>//定义属性ID<rdfs:rangerdf:resource=“#WineColor”/>//属性所属的类<rdfs:domainrdf:resource=“#Wine”/>//属性所赋予的类</rdf:Property>96四.XML和RDF进行Web知识表示的比较Web知识表示对表示语言的要求使用XML进行知识表示使用RDF进行知识表示97知识表示对语言的要求普遍的表示能力。因为无法预测可能用途,一个基于Web的交换格式必须可以用来表达任何格式的数据。语法的互操作行。应用程序必须能够抽取数据,并将其用于开发。软件模块(比如Parser和查询API),应该可以在不同的应用程序之间尽可能的重用。当用来操作数据的Parsers和APIs很容易获得时,语法的互操作行就是很高的。语义的互操作性。数据交换格式的一个最重要的需求时数据可以被理解。语法互操作性是关于解析数据的,语义互操作性是关于定义语言到内容之间的映射,因而需要内容分析。98使用XML进行知识表示XML完全满足普遍的表示能力需求,因为一个语法所能定义的任何数据,都可以用XML来编码。它也满足语法的互操作性,因为一个XML的Parser可以解析任何XML文档,它也可以作为一个重用的模块。但是在语义的互操作性上,XML就有了弱点。XML的主要局限性在于它仅仅描述语法。我们没有办法从一个XML文档中识别一个语义单元,因为XML的目标是文档的结构,而没有对文档中使用的数据附加任何的解释。99使用XML进行知识表示假设两个组织之间要交换数据,那么他们必须使用相同的DTD(或Schema)。因此,就必须首先分析他们相关的领域和对象模型,然后通过对象关系表述出来,再将其转换为DTD而且,重要的一点,他们必须都同意并且使用DTD所给出的文档结构的隐含意义,否则就无法利用XML数据。如下图:100使用XML进行知识表示101使用XML进行知识表示但是,由于同样的域模型可以构造出很多不同的DTD,这样就丢失了从域模型到DTD之间的直接对应丢失这种直接对应,一是名称使用习惯上的差别。比如,元素<PERSON>and<INDIVIDUAL>可能是同义词;类似的,元素<SPIDER>可能是一词多义的,这里可能是爬行软件,那里可能指蜘蛛。而且名字问题在属性名称中同样存在。另一个困难是结构的差别。XML的灵活性使得DTD的作者可以有很多选择。设计者对于同样的概念可以有很多种方式来描述。102使用XML进行知识表示也就是说,在域模型和DTD之间并没有直接的联系。因此就不可能从一个DTD来推断概念以及概念之间的关系,即很难从DTD中重建域模型考虑到这一点,使用XML的优点就只有解析模块的重用性了。这只在组织间固定通讯,并且事先有一致认识时有用。而忽略了Web通讯的需求,即很多的合作者,而且他们不断的更新。XML在应用程序都知道数据是什么的时候,进行数据交换非常有用,但是它并不适合新的通讯对象不断变化的情况。而在Web上,新的信息资源不断的涌现,新的合作伙伴不断的加入。因此减少这种通讯成本就非常重要。一个域模型不能被简单的映射为另一个域模型,是因为他们都以DTD的形式编码。基于不同DTD的直接映射是很困难的,因为这不是简单的语法映射,而是一个领域到另一个的映射。103使用RDF进行知识表示RDF的对象-属性-值的结构满足我们普遍表示能力的需求。而独立于应用程序的RDFParser也可以得到,因此RDF满足语法的互操作性。在语义的互操作性方面,明显优于XML。RDF的对象-属性结构自然的给出了语义单元,而所有的对象都是实体。定义了兴趣领域中的对象和关系的域模型,可以用RDF自然表达。域模型到RDF有着直接的映射关系,因此两个RDF就可以直接进行语义的转换104使用RDF进行知识表示在某种程度上,RDF是Web应用程序之间建立互操作的最小集。由于是面向对象的,它比XML更是交换信息,而且它在定义新词表上是完全灵活的。使用RDF作为数据交换模型,提高了复用的层次,远高于Parser的重用,Parser正是XML所能提供的层次。而且,RDF模型在当前的XML语法发生变化或消失时仍然可以使用,因为RDF描述了一个独立于XML的层次。105五.为什么需要OntologyOntology为人类和应用程序系统提供了一个对于主题的共同理解Ontology为了不同来源的信息的合成,提供了一个共同的相关领域的理解Ontology为了在不同的应用程序之间共享信息和知识(用于互操作),描述应用程序的领域,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 市政广场绿化设计与施工合同
- 洗浴中心招投标授权委托书模板
- 网约车驾驶员服务协议
- 南京市摄影基地租赁合同
- 环保旅游业PTR管理办法
- 城市绿化带扩建合同
- 文化艺术兼职演员合同
- 建筑材料市场租赁合同终止
- 图书馆围墙建设合同
- 人力资源成品油市场管理办法
- 农村留守儿童心理健康状况调查研究
- 手术室锐器刺伤
- 中国食物成分表2018年(标准版)第6版
- 消防安全教育主题班会:森林防火与消防安全 课件
- 【00后大学生理财意识与规划探究(定量论文)11000字】
- 公路消防知识培训内容
- 吊车吊装方案计算书
- 2024年云南省数字经济产业投资集团有限公司招聘笔试参考题库含答案解析
- 警方开展心理辅导活动方案
- 餐厅股份合作协议书
- 成人重症患者人工气道湿化护理专家共识
评论
0/150
提交评论