《信息学概论》第3章-信息组织存储与检索课件

上传人：理*** IP属地：贵州上传时间：2023-07-20 格式：PPTX 页数：58 大小：326.52KB 积分：25 举报 版权申诉

已阅读5页，还剩53页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

信息学概论第三章信息组织、存储与检索主要内容本章内容提要信息组织概述信息组织的基本方法分类法、主题法、信息标记语言信息存储体系语义网信息检索技术与工具3.1信息组织概述3.1.1信息组织的概念1.定义“我们淹没在信息中，但却渴求知识”，“失去控制和无组织的信息不再是一种资源”-JohnNaisbitt，Megatrends

面对海量的、无序的信息，是人的个体生命（时间）的有限性和知识使用的选择性。解决尖锐对立的矛盾的根本途径是进行信息的组织。信息组织也称为信息整序，即信息的序化，是按照一定的科学规则和方法，通过对信息的外在特征和内容特征的描述和序化，实现无序信息向有序信息的转化。3.1信息组织概述序是事物的一种结构形式，是指事物或系统的各个结构要素之间的相互关系以及这种关系在时间和空间中的表现。当事物结构要素具有某种约束性且在时间序列和空间序列上呈现某种规律性时，这一事物就处于有序状态；否则就处于无序状态。信息的外在特征指信息的物质载体所直接反映的特征，它们构成信息载体外在的、形式的特征，如信息的物理形态、题名、责任者、信息的类型、生产流通等方面的特征。信息的内容特征是对信息具体内容的规范化概括。通常的信息组织指的是针对信息内容特征的描述。3.1信息组织概述2.信息组织的要求信息特征有序。将特征相同或相关的信息集中，并按一定标志呈现某种秩序，表达某种意义；相关信息单元之间的关系必须明确。信息流向明确。根据用户信息活动特征和信息环境的变化适当调整信息流动的方向。信息流速适度。不适当的信息流速对人的决策效率会有负面影响。3.信息组织的目的降低社会信息流的混乱程度；提高信息产品的质量和价值；建立信息产品与用户的关联；节省社会信息活动的总成本。3.1信息组织概述3.1.2信息组织的理论与方法1.信息组织的理论基础(1)系统科学理论

LudwigVonBertalanffy。系统是相互作用的各个要素的复合体。系统是处于一定的相互关系中并与环境发生关系的各个组成部分的总体。系统具有整体性、内部相关性、环境相关性、层次性、有序性、目的性等特征。3.1信息组织概述(2)耗散结构理论DissipativeStructureIlyaPrigogine1969。耗散结构理论主要讨论一个系统从混沌向有序转化的机理、条件和规律，研究耗散结构的性质及其形成、稳定和演化的规律。它指出，一个远离平衡态的开放系统，当某个变量变化到一定的临界值时，会通过涨落发生突变，即发生非平衡相变。原来的混沌无序状态就有可能转变为一种空间、时间、功能有序的新状态。这种在远离平衡态的非线性区形成的宏观有序结构，需要与外界不断交换物质和能量才能保持一定的稳定性，或不再因外界的微小扰动而消失。这种需要耗散物质和能量才能维持其有序性的结构称为耗散结构。3.1信息组织概述按照热力学第二定律，一个封闭的平衡系统总是趋于最大熵状态，即最无序状态。为了摆脱这种稳定的无序状态（平衡态），只有设法把系统改造成开放系统，并且通过与外界环境进行物质和能量的交换，使系统进入远离平衡态的不可逆非平衡过程，才可能出现机会，导出新的稳定的有序结构。信息系统是一种耗散结构的系统，其无序程度用“信息熵”来衡量。信息熵的存在与增长给信息的交流与利用造成了极大的障碍。信息系统要自觉形成一个有序的结构，并使其内部结构产生的熵逐渐减小，就必须与外界环境进行交流，通过系统不间断的输入、输出和转换的过程，抵消系统内熵的产生和增长，促使系统总熵减小，从而推动信息系统形成非平衡态的有序结构。这种交流即所谓“负熵流”。3.1信息组织概述信息系统从外界引入的负熵流，就是一定量、一定质的人、财、物、能量和信息。系统在运行过程中对它们加以运用消耗，才能维持系统的正常运行，使系统趋于有序的状态。与此同时，信息系统还需要利用各种手段将信息有效地提供给用户，从用户那里交换物质、能量和信息，最终使系统从近平衡状态走向动态稳定的有序结构，并得以发展和完善。从管理的角度看，输入负熵流体现为信息组织（信息整序）。3.1信息组织概述(3)协同理论SynergeticsHarmannHaken1977。协同理论研究由很多子系统构成的系统如何通过协作从无序到有序演化的规律。任何系统都可以看作由大量子系统组成，这些子系统之间的联系和作用决定着系统整体的演化过程。Haken研究了很多学科中的非平衡有序结构的形成过程，发现它们遵循着一些相同或相似的规律。他从随机理论出发，在逐步约束的条件下，导出无规则子系统组成的整体随时间演化的规律，即主方程。通过解方程可以得出主宰系统演化的序参量（描述系统的有序程度）。以此为基础建立了有序结构形成的自组织结构理论。3.1信息组织概述很多不同的学科存在着一些共同的特征。从表面上看，支配各学科的现象和理论极不相同，但完全不同的子系统，在宏观结构上所产生的质变行为（即从旧结构演变为新结构的机理）是相同的，它们遵从共同的规律。Haken指出，存在着一个一般的原理，它支配着这些彼此协同作用着的系统。比如可以为两个学科领域F1和F2建立某种类比，将F1的结果应用到F2上去。协同理论揭示了范围相当广泛的一些学科的共同特征。系统的序化或平衡化，都是大量子系统间相互作用又协调一致的结果。完全不同的系统，在它们经过非稳定点时，表现出深刻的相似。因此可以使用类比的方法，采用共同的数学模型与理论方案来研究。3.1信息组织概述协同理论的研究表明，在一定的条件下，系统原来的稳定平衡状态可以变成非稳定的。然后，在非稳定的基础上，由于涨落的作用，系统有可能过渡到一个新的稳定的平衡状态，从而实现系统的自组织过程，完成从无序到有序的转变。3.1信息组织概述信息的有序化是信息学基础理论的核心部分。信息学研究的重要内容在于如何对现有的信息进行整序，并加工提供给社会使用。信息的生产、加工、交流和利用可以利用协同理论所阐述的从混沌向有序转化的条件、机理和规律性等基本原理为指导，建立相应的理论体系。信息系统是一个综合系统，只有系统内各个子系统相互配合，发挥协同效应，才能使整个系统结构合理化和信息有序化。一旦失去这种协同，系统内部各个子系统将由开放转为封闭，导致系统混乱趋向最大，使其有序结构被破坏。因此需要从整体协同效应出发，探讨信息系统内部结构相互联系的规律性，以及系统结构与外部环境的关系，不断增强协同机制。3.1信息组织概述信息学研究信息系统由旧结构不断演变为新结构这一过程的规律性，而协同理论正是以不同学科中现象复杂多样但宏观质变行为却遵从共同规律的系统为研究对象。这就提供了运用协同理论方法研究信息学问题的可能性。这种研究的优越性还在于，信息系统是随时间变化的动态的开放系统，其内部存在着众多相互作用的子系统，运用协同理论无需从微观上具体掌握其中每一个子系统的细节，使用少量序参量就可以表征系统的宏观特性（有序度），进而可以用序参量方程描述系统由旧结构向新结构转变的复杂过程。3.1信息组织概述(4)突变理论CatastropheTheoryR.Thom1972。突变是产生有序性的重要源泉。系统内部的非平衡状态是有序化的原因，开放系统通过与外界交换物质、能量来维持或增加有序性。事物连续性中断的质变过程需要使用精确的数学模型进行揭示和预测。在自然界和人类的社会活动中，除了渐变的和连续平滑的变化现象外，还存在着大量的突然变化和跃迁现象。突变理论是研究客观世界非连续变化现象的一门新兴学科，它着力于解释事物从一种稳定状态跃迁到另一种稳定状态的现象与规律，并用形象而精确的数学模型来描述和预测事物连续性中断现象的质变过程。3.1信息组织概述突变理论表明，质变可以通过渐变的方式实现，也可以通过飞跃的方式实现。它给出了实现这两种质变方式的条件和范围。它还指出，系统的熵可以增加也可以减少，这种熵的变化可以在宏观无限小的时间内突然发生。可以认为外界条件在突变发生的过程中没有发生变化，时间间隔t

0，外界的输入输出也可以认为是0，突变过程造成了一个精确的孤立系统。突变是产生有序性的重要源泉。通常认为热力学第二定律在连续变化过程中的普遍性，但在突变过程中却发生了与之完全相反的现象。突变熵减小而产生的有序性可以抵消自然界某些自发的熵增趋势，可能造成有序性的发展，在一定程度上将非平衡性对有序性的影响发展到突变对有序性的影响。3.1信息组织概述突变理论方法可应用于研究信息对知识结构改变的影响。B.C.Brookes信息和知识方程式：k(S)+I=k(S+S)。方程式指出，知识结构k(S)通过获得信息I而变换为新的知识结构k(S+S)，其中S表示改进的效果。知识的增长并非是单纯的叠加。信息被吸收于知识结构内，可能引起知识结构的某种调整。在科学各领域中信息的增加，还可能引起知识结构的突变。突变理论还可用于信息系统的设计。突变理论指出，高度优化的设计很可能有许多不理想的性质。因为结构上最优，常常联系着对缺陷的高度敏感性以致可能发生突变。结构上最优的信息系统，由于其高度敏感性反而会容易受外部的影响而导致全面失灵。3.1信息组织概述(5)知识组织理论 H.E.Bliss。知识组织是对知识客体进行整理、加工、揭示、控制等一系列组织化过程。主观知识的组织在人的大脑中进行，表现为复杂的神经生理活动，其内在机理是人工智能、认知心理学的研究内容；客观知识的组织通过人的认知进行分类，是信息组织的研究内容。3.1信息组织概述2.信息组织的方法学基础(1)语言学要实现信息的有序化，必须建立符号系统。采用适当的符号系统或形式语言描述信息，它具有构词和语法的基本语言学特征。(2)逻辑学信息组织过程中必然要应用形式逻辑的基本方法。(3)知识分类学信息组织活动必须建立在人们对知识体系结构认识的基础之上。3.1信息组织概述3.1.3信息组织的研究内容信息组织的研究领域包括三个层次：理论层面、规范层面和操作层面。理论层面：研究信息组织的基本规律和理论基础，为规范层面和方法层面提供理论依据，指导信息组织的实施。规范层面：为信息组织的操作实现建立描述规范、检索语言和标记语言。操作层面：在理论层面的指导下，遵循规范层面规定的规则，实现信息组织的具体技术方法。3.2信息组织基本方法3.2.1分类法及其类目体系分类：“类”是指具有某种共同属性的一组事物的集合。分类是认识事物、区别事物，并在此基础上组织事物的一种科学方法，使根据事物的属性对其进行区分或类聚的过程。信息分类：是根据信息内容的学科属性与其它相关特征，对各种类型的信息予以系统的揭示和区分，并进行组织的一种方法。文献分类法：信息分类法主要指文献分类法，包括等级列举式、分面组配式和半分面分类三种基本方法。类目体系：主表（基本部类、基本大类、简表、详表）、复分表。3.2信息组织基本方法3.2.2主题法主题法：直接以表达主题内容的词语作为检索标识，以字顺为主要检索途径。主题法的类型：按照选词方法的不同，包括标题法、元词法、叙词法（如《汉语主题词表》）、关键词法等。3.2信息组织基本方法3.2.3标记语言现代标记语言与计算机信息处理的发展密切相关。它用于对信息文件的结构描述，也用于一些控制处理的目的。经典的SGML(StandardGeneralizedMarkupLanguage)HTML(HyperTextMarkupLanguage)XML(eXtensibleMarkupLanguage)3.3信息的存储3.3.1信息存储技术信息存储是指通过多种形式记录和排序信息的过程。它包括三层含义：一是将所收集的信息按照一定规则记录在相应的信息载体上；二是将这些载体按照一定的特征和内容组织成系统有序的、可供检索的集合体；三是充分应用计算机通信等现代技术手段，提高信息存储的效率和利用水平。信息存储技术可以从四个方面（对应于文献概念的四个基本要素）即信息内容、载体材料、记录符号和记录方式来讨论它们的产生和发展的物理背景和人文背景，需要注意它们的使用条件和局限性。而现代的信息存储技术与管理技术关系更加密切（如云存储技术）。3.3信息的存储信息存储技术大体上可以分为印刷存储、磁存储、缩微存储、光存储等几大类别。1.信息的印刷存储造纸和印刷术的发明对信息的存储和交流有着深刻的影响。印刷是指将文字、图像等信息经过一定的工艺过程成批量复制。在历史上，纸质印刷文献一直是信息存储的主要方式。优点和缺点。3.3信息的存储2.信息的磁存储随着技术工艺的发展，磁存储逐渐成为现代信息存储技术的主要手段。磁存储的特点：磁可以用来存储一切可以转换成电信号的信息包括文字、声音、图片、视频等等。信息可以在磁介质中长期保留，重复使用，原位擦除重写。支持多路存储。支持宽频信号存储。主要存储介质：磁带、磁鼓、硬磁盘、软磁盘。优点和缺点。3.3信息的存储3.信息的缩微存储缩微技术是所谓摄影技术的简称，它以胶片为介质，采用感光摄影原理，并逐步与计算机微电子技术、静电复印与传真等现代技术相结合，组成高效的信息存储与检索系统。缩微存储的特点：存储容量大，密度高。存储介质占用空间小，重量轻。缩微品完全忠于原件。保存时间长（50~100年）。便于检索。需要特殊的阅读器支持。与计算机技术的结合计算机输出缩微胶片(ComputerOutputMicrofilms,COM)：将计算机输出数据直接记录在缩微胶片上。CIM：将COM重新读入计算机，或取得原始胶片的数据复制品。3.3信息的存储计算机辅助缩微品检索系统：包括计算机系统、缩微品存取设备、缩微品阅读设备等。视频缩微系统：由缩微技术、视频处理技术和计算机技术结合的影像资料全文存储检索系统。优点和缺点。4.信息的光存储光存储是继磁存储后的重要信息存储技术。它以特殊波长的激光为光源，以光敏感涂层为存储材料。光存储的特点：存储密度高，容量大。存储介质更换或携带方便。存储寿命长。生产成本低，数据操作简单高效。5.其它的存储技术（半导体存储技术、铁电存储技术）3.3信息的存储3.3.2计算机信息存储体系计算机存储信息体系是利用计算机对一定范围内的信息集合进行选择、记录和存储，为用户获取信息提供支持的计算机系统。1.硬件需要大容量的辅助存储器、高性能IO控制器和必要的传输带宽。2.软件需要支持自动标引、词表管理、匹配的应用软件以及必要的DBMS。3.数据库3.3信息的存储4.数据仓库数据仓库(DataWarehouse)是一个面向主题的(SubjectOriented)、集成的(Integrated)、相对稳定的(non-Volatile)、反映历史变化(Time-variant)的数据集合，用于支持管理决策。数据仓库不同于传统意义上的数据库，它面向分析型数据管理，用于支持管理决策；其次，数据仓库可以面对多个异构的数据源进行主题重组，其中的数据一般不再修改。数据仓库体系上应该包括数据源、存储管理、OLAP(On-LineAnalyticalProcessing)服务器和前端工具集（报表、查询、分析、挖掘等）四个层次。3.4语义网1.语义网的提出互联网的核心是超文本体系，它通过统一的资源标识符(URI,UniformResourceIdentifier)对互联网上的信息进行标记，从而实现网上信息资源的定位。在大多数情况下，用户所关心的是信息资源的意义，而URI并未涉及信息的内容。通过扩展现有的互联网结构，在资源管理上增加对信息含义的描述，实现计算机与人的自动协同工作，是下一代互联网的核心。我们使用“语义网(semanticweb)”来描述下一代网络，“语义”指文本的含义。这将是一种能够理解人类语言，根据信息语义进行选择判断的智能网络。通过语义网可以构建基于网页内数据语义的链接，使网络能按照用户的要求自动搜寻和检索信息。3.4语义网语义网的创始人TimBerners-Lee表示，即使是Google，终有一日也可能会被下一代网络技术公司取代。Google在开发高效的网络搜索方式和技术方面已经极为成功，但是这种成功与“未来网络”可能达到的程度相比显得太一般。“未来网络”将能让任何人轻松链接到任何信息（甚至是片断的信息），比如一张照片或是一张银行报表。同样，随着语义网的突破性技术的发展，社群网站（如Facebook和MySpace一类）最终也将被能连接一切事物（而不仅仅是人）的新型网站取代。语义网能够识别网页里所包含的每项具体信息的意义，使用户轻易地在更具体的信息片断间实现连接，这种能力反过来肯定会触发新的服务。3.4语义网2.语义网的体系结构XML+NS+XMLSchemaUnicodeURIRDF+RDFSchemaOntologyVocabularyLogicProofTrust3.4语义网语义网的体系结构共分七层，自下而上分别是编码定位层(Unicode+URI)XML结构层(XML+NameSpace+XMLSchema)资源描述层(RDF+RDFSchema)本体层(Ontologyvocabulary)逻辑层(Logic)证明层(Proof)信任层(Trust)。各层之间相互联系，通过自下而上的逐层拓展形成了一个功能逐渐增强的体系。它以现有的Web为基础，通过逐层的功能扩展，为实现语义网构想提供了基本的思路与方法。3.4语义网(1)编码定位层(Unicode+URI)编码定位层是整个体系结构的基础。其中Unicode负责处理资源的编码，URI负责资源的标识。语义网要实现机器之间的相互交流与合作，需要使用共同的“语言”，而编码是语言的基础，只有编码相同才能保证语言相通。在当前的www中存在着各种各样不同的语言及相应的字符集，要实现不同计算机系统之间的协同，必须对这些不同的字符集进行统一的编码。Unicode字符集中的所有字符都用两个字节表示，可以表示65536个字符，基本上包括了世界上所有语言的字符。数据格式采用Unicode的好处就是它支持世界上所有主要语言的混合，并且可以同时进行检索。3.4语义网URI(UniformResourceIdentifier)即统一资源标识符，用于标识、定位网络上的资源。URI有多种形式并可扩展，其中最常见的是我们熟悉的URL,如指google公司，/People/Berners-Lee指的就是TimBerners-Lee。此外URI还有其它多种形式，包括UUID、TAG和els等。我们可以用URI唯一地标识任一事物，并且任一拥有URI的事物都可以说它是在Web上的,都可以使用URI在网络上上进行标识。编码定位层处于语义网体系的最底层。只有在对资源进行编码与标识的基础上才能对资源进行进一步的处理。3.4语义网(2)XML结构层(XML+NameSpace+XMLSchema)XML在语法上表示数据的内容和结构，通过格式语言将信息的表现形式、数据结构和内容分离。XML允许个人创造自己的标签来标注网页或网页的部分文本，它允许用户自行添加结构信息，但没有提供对这些结构的含义（语义）的说明，在语义网结构中作为语法层为语义网的建立提供语法基础。[例]

阅读文本“李开复，男，1961年12年生于台湾，1998年任微软中国研究院院长，现任Google全球副总裁兼中国区总裁。”我们很容易理解上述文本所隐藏的信息。将这些信息显式地表达出来就是：3.4语义网姓名：

李开复性别：

男出生年月：1961年12月出生地：

台湾单位名称：Google职务：

全球副总裁，中国区总裁履历：

1998年任微软中国研究院院长这些标记为蓝色的隐藏的信息称为元数据。元数据是指数据的数据。例如数据“姓名”，就是关于数据“李开复”的数据。只有显式地说明关于数据的元数据信息，才能进行完整、清晰、准确的交流。例如对于文本“Google”，如果不显式地说明它表示“单位名称”，那么有人会把它当作是一个人的名字或是一个地区名字。元数据对于人与人之间的信息交换以及机器之间的相互交流都是至关重要的。3.4语义网为了显式地表达数据的元数据，必须对数据进行一定的“标记”，并用标记名称（标签）表达数据的元数据信息。例如对数据“李开复”所做的标记“姓名”。对数据进行标记的规则和方法的总和称为标记语言。目前最常见的标记语言是超文本标记语言HTML(HyperTextMarkupLanguage)。不同的是，HTML所做的标记并不是关于数据内容的元数据，而是关于数据显示格式和显示样式的元数据。例如在HTML中，标签<B>的含义是要求网页浏览器将一段文本加粗表示，而标签<CENTER>的含义是告诉浏览器将这段文本在一行的中间显示。即<CENTER><B>李开复</B></CENTER>只是要求浏览器将文本“李开复”以加粗的格式显示在行中间位置。3.4语义网可扩展标记语言XML（eXtensibleMarkupLanguage）功能强大又易于使用，是Web上数据表示的标准。它允许用户在文档中加入任意的结构而无需说明这些结构的含意，从而可以表达丰富的信息资源。用户可以在XML中创建自己的标签、对网页进行注释，脚本（或程序）可以利用这些标签来获得信息。因此XML适用于不同应用间的数据交换，而且这种交换是不以预先规定一组数据结构定义为前提，具备很强的开放性。XML并非像HTML那样提供了一套事先定义好的标签，而是提供了一个标准，利用这个标准，可以根据实际需要定义自己的置标语言，并为这个置标语言规定它特有的一套标签。因此XML是一种元标记语言，即定义标记语言的语言。3.4语义网NS(NameSpace)即命名空间，由URI索引确定，目的是为了简化URI的书写。例如URI

“/1999/02/22-rdf-syntax-ns#”

就可以简写为“RDF”。通过在命名前加上URI索引前缀，即使具有相同命名的两个事物，只要它们的URI索引前缀不同，二者就不会混淆。XMLSchema是XML的一种应用，它本身采用XML语法，所以XML文档是一种自描述文档。XMLSchema是DTD(DocumentTypeDefinition)的替代品，但比DTD更加灵活。它不仅提供了一套完整的机制以约束XML文档中标签的使用，而且支持更多的数据类型，能更好地为有效的XML文档服务并提供数据校验机制。3.4语义网XML灵活的结构性、由URI索引的命名空间而带来的数据可确定性以及由XMLSchema所提供的多种数据类型及检验机制使得XML结构层(XML+NS+xmlschema)成为语义网体系结构的重要组成部分。该层主要负责从语法上表示数据的内容和结构，通过使用标准的置标语言将网络信息的表现形式、数据结构和信息内容相分离。但XML数据模式是一种被固定的、树状的文本表示模式，在描述元数据上缺乏灵活性。XML所表达的语义是隐含在文档的标记和结构中的，它只能被了解其标签含义的程序人员或网页制作者所使用。因此，XML只能表达数据的语法，而不能表达机器可理解的形式化的语义。3.4语义网(3)资源描述层(RDF+RDFSchema)资源描述层提供用于描述网络信息类型的语义模型。在RDF模型下，信息以RDF子句的形式存储，机器可以理解读取对象所蕴含的意义，在语义协议和语法编码之间建立联系。抽象的RDF数据模型表示为一个带标记的有向图。RDF(ResourceDescriptionFramework)即资源描述框架，是W3C(WorldWideWebConsortium)推荐的用来描述www上的信息资源及其之间关系的语言规范。RDF在语法上符合XML规范，从这个意义上可以把RDF看成是利用XML规范而定义的一种置标语言。但在语义描述上，RDF与XML却有很大分别。3.4语义网RDF适合描述Web资源的元数据信息，如题名、作者、修改日期以及版权信息等，具有简单、开放、易扩展、易交换和易综合等特点。实际上RDF可用来描述任何可以在网络上标识的信息。因此在资源描述上，RDF更像是一个数据模型。该模型以“资源－属性－属性值”的形式描述网络信息资源。资源、属性和属性值在RDF中分别用术语主语（Subject）、谓语（Predicate）、宾语（Object）表示，由主语、谓语、宾语构成的三元组（Triple）称为RDF陈述或陈述（Statement）。如果把主语和宾语看作是节点，属性看成是一条边，则一个简单的RDF陈述就可以表示成一个RDF有向图。3.4语义网RDF数据模型实质上是一种二元关系的表达，由于任何复杂的关系都可以分解为多个简单的二元关系，因此RDF的数据模型可以作为Web上任何复杂关系模型的基础模型。RDF定义了一套用来描述资源类型及其之间相互的词汇集，称为RDFSchema(RDFS)。在用RDF描述资源时，首先使用RDFSchema提供的建模原语构建被描述资源的Schema信息，然后再利用此Schema描述目标信息资源。通过RDFSchema可以定义资源的类型、属性并显式地揭示它们之间丰富的语义关系。3.4语义网RDF(S)是语义网的重要组成部分，它使用URI来标识不同的对象（包括资源节点、属性类或属性值）并可将不同的URI连接起来，清楚表达对象间的关系。为揭示对象间关系而由URI连接而成的RDF有向图摆脱了XML文档所隐含的树形资源结构的限制，可以更加灵活地表达网络上的知识或资源，揭示它们之间的相互关系，而这更加符合www开放、分布式以及结构松散的特征。在此框架下，以前在XML文档中只能为程序人员或网页制作者所理解和使用的标签转换成了定义清晰的词汇，并可显式地表达机器可理解的形式化的语义。如果把XML看作是一种标准化的元数据语法规范的话，那么就可以把RDF看作是一种标准化的元数据语义描述规范。3.4语义网与XML中使用的标签类似，RDF对属性的定义没有任何限制，不同的词汇可能表示的是同一个属性概念（或称同义词）。如使用Creator和Author都可以表示一篇论文的作者。当两个不同的系统或软件代理分别使用不同的词汇来表达同一个概念并需要进行数据交换时，同义词会带来问题。另一个问题是一词多义，表达概念的同一个词汇在不同的应用背景下其含义不同。RDF不具备解决这两个问题的能力。此外，RDFS所提供的构造元素虽然可以表达比XML更为丰富的语义信息，但仍不能满足语义网强大推理能力的要求；RDF允许把类作为实例和属性使用，并且也可以把陈述作为资源，这在理论化模型语义下相当于高阶逻辑，不可判定。从这个意义上讲，RDF的表达能力又太强了。因此必须在语言的表达能力与推理能力之间进行一定的折衷，在保障足够的表达能力的同时，提供充分的推理能力。3.4语义网(4)本体层(OntologyVocabulary)本体(Ontology)的概念最初起源于哲学领域，用于研究客观世界的本质。在语义网范畴内，本体是关于领域知识的概念化、形式化的明确规范。作用包括：概念描述即通过概念描述揭示领域知识；语义揭示本体具有比RDF更强的表达能力，可以揭示更为丰富的语义关系；一致性本体作为领域知识的明确规范，可以保证语义的一致性，从而解决一词多义、多词一义和词义含糊现象；推理支持本体在概念描述上的确定性及其强大的语义揭示能力在数据层面有力地保证了推理的有效性。3.4语义网与资源描述层相比，本体提供了对领域知识的共同理解和描述，具有更强的表达能力，支持可保证计算完整性和可判定性的逻辑推理。从整个语义网体系结构来看，本体层起着关键的作用。它不仅弥补了资源描述层的不足，而且其概念模型也是逻辑层（Logic）以上各层发挥作用的基础，因为只有在对领域知识形成一致性描述的基础上才能进行相应的规则描述、推理和验证。OWL（WebOntologyLanguage）是W3C开发的一种网络本体语言，用于对本体进行语义描述。3.4语义网(5)逻辑层(Logic)、证明层(Proof)和信任层(Trust)在RDF和本体的帮助下，语义网将包含大量富含语义信息的网页。整个语义网就像是一个巨大的全球互连的数据库。这将彻底改变人们的交流方式和生活方式。有了语义信息的帮助，人们开发出的软件代理（Agent）程序的智能和自动化程序将大大提高。它们可以从不同的资源中收集网页内容，搜索和处理信息并和其它代理进行交互、协调，这将真正显示和发挥语义网的巨大威力。在BernersLee的语义网构想中，用户将使用代理（Agent）完成各种各样的任务。3.4语义网代理的基本任务：服务发现代理在接到用户的服务请求以后，首先将用户的服务请求分解成若干个子任务，确定每个子任务的功能，然后按功能需求对网络服务进行定位，这个过程称为服务发现。协调如果定位成功，代理必须协调每个子任务之间的功能接口和工作流程，以完成用户的服务请求；如果定位失败，代理必须对子任务进行再分解或向其它代理发出帮助请求，以期寻求完成该子任务的适当途径。验证对于代理的每一步工作，语义网必须提供必要的验证机制，通过建立信任关系以确保其可靠性。3.4语义网代理在执行任务的过程中，不论是对任务的分解、定位、协调，还是对任务执行情况的验证，都涉及到推理问题。推理必须依靠数据和规则（Rule）。本体的主要任务是以概念的形式提供对领域知识的共同理解与描述，即提供推理所必需的数据。虽然本体在构建时也包含了一定的规则，但这些规则不仅数量有限，而且只与特定的本体数据相关联，描述能力有限。要实现语义网构想所期望的强大的推理能力就必须要有一套高效的，与语义网开放、分布式的体系结构相适应的规则系统，而这正是逻辑层（Logic）的主要任务。3.4语义网在语义网体系结构中，本体层以上的各层统称为规则层。逻辑层主要描述推理规则，因为它

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

《信息学概论》第3章-信息组织存储与检索课件

文档简介

温馨提示

最新文档

评论

《信息学概论》第3章-信息组织存储与检索课件

文档简介

温馨提示

最新文档

评论

相关文档