第四章信息存储与检索

上传人：她*** IP属地：贵州上传时间：2020-12-19 格式：DOC 页数：29 大小：200.50KB 积分：20 举报 版权申诉

已阅读5页，还剩24页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、第四章信息存储与检索本章讨论信息存储与信息检索的基本概念；论述信息存储的主要方法及计算机信息存储体系，介绍了语义编码及语义网，讨论信息检索的基本概念、原理并分析了两个典型的搜索引擎。学习目标（1）理解信息存储的基本概念和作用；（2）了解信息组织、存储与检索的关系；（3）掌握信息存储的主要途径及计算机信息存储体系；（4）理解语义编码的含义；（5）理解语义网的含义、作用、基本结构及其关键技术；（6）掌握搜索引擎的含义。4.1 信息存储概述信息存储是指通过多种形式记录和排序信息的过程。它包含三层含义：一是将所采集的信息按照一定规则记录在相应的信息载体上；二是将这些载体按照一定的特征和

2、内容组织成系统有序的、可供检索的集合体；三是应用计算机等先进的技术和手段，提高信息存储的效率和利用水平。信息存储是通过各种介质来记录信息并使之有序化。4.1.1 信息存储技术从早期以印刷品为载体存储信息，到现在以软盘、硬盘、缩微胶片和光盘等新型载体存储信息，信息存储技术有了迅速的发展，这不仅使信息存储高密度化，而且使信息存储与快速检索结合起来，提高了信息存储与检索的效果。下面对信息存储的主要技术加以介绍。1. 信息的印刷存储造纸和印刷术的发明，对信息的存储与交流带来了深刻的影响。印刷是指将文字、图形等信息经过一定的工艺操作，成批量地复制出来。随着印刷术的日益精湛，在各种类型的印刷载体，如各种纸

3、质、纺织品、皮革、塑料、玻璃、陶瓷上印刷的效果，已经达到了相当精美的程度。纸质以外的印刷载体，如纺织品等，尽管也起到了存储、传递、交流信息的作用，但主要还是作为生活用品及装饰用品，它们并不适合作为积累和保存大量信息的载体。长期以来，世界各国的图书馆、档案馆、文献信息中心、资料室等公益性的文献存储机构，也正是一直以纸质印刷文献为保存对象，以达到信息存储、交流、利用和共享的目的。纸质文献对信息的揭示和组织是从四个基本要素着手的：信息内容、载体材料、记录符号和记录方式。信息内容是文献最基本的要素，它是文献的内涵和实质。载体材料是文献的外在形式，是信息内容赖以存在的依附体，是信息内容得以传播的媒介。纸

4、质文献的记录符号通常为文字和图表，文字的存在历史悠久，在促进人类物质文明和精神文明的进步过程中发挥了巨大的作用。记录方式即信息内容被存储到载体材料上的方式，如手写、印刷、拍摄等。纸质文献的类型多种多样，一般按照文献编纂方法和出版特点划分，可以将纸质文献分为图书、期刊、报纸、会议文献、科技报告、标准文献、专利文献、学位论文、产品说明书等。2. 信息的磁存储信息的存贮至今仍离不开印刷存贮，并且印刷存贮也仍然是信息存贮的主要方式，但是，人们正越来越多地采用其他更为先进的信息存贮技术，而且新的信息存贮技术也将逐渐替代传统的印刷存贮。在现代信息存储技术中，磁存贮是信息存贮的主要手段，磁存贮信息系统，尤其

5、是硬磁盘存贮系统，是当今各类计算机系统的最主要存贮设备。（1）磁存储的特点磁能存储一切可以转换成电信号的信息，如声音、图像等。它具有以下特点：信息能长久保存在磁介质中，并可重复使用，而一旦所录信息无用时，又可随时抹去，再重新记录新信息；能同时进行多路信息的存储，而且当采用多路频率调制方式进行存储时，能保证这些信息之间的时间和相位关系；存储频带宽广，可存储直流2兆赫以上的信号。（2）几种主要磁存储介质计算机磁带。磁带是最早出现的一种磁表面存储载体，它始于录音介质，主要用来记录模拟信号。计算机问世后，美国IBM公司完成了将磁带作为计算机存储信息载体的研究。磁带是磁介质存储中成本最低，但信息

6、存储速度最慢的一种。磁带存储器的主要优点是价格便宜、存储量大、占用空间小和性价比高。缺点是只适于顺序存取，而且存取速度有一定限制。工作时由于磁头要与磁带表面相接触，故容易损坏磁表面层。硬盘。硬盘又称硬磁盘，是在铝合金圆盘上涂有磁表面记录层的磁记录载体。硬盘的直径有14英寸、8英寸、5.25英寸和3.5英寸等多种，其中以14英寸的硬盘用得最多。硬盘通常由多个盘片组成，称为盘组；每张盘片由若干闭合同心圆组成磁道；盘组中同一半径的磁道构成一个立体的筒壁，称为柱面；每面上又被均匀地以扇子形状划分为若干段，每段称为一个扇区。不同磁道上的扇区弧长虽不相同，但存储量相同。一般说来，盘的大小不同、密度不同，

7、盘面上的磁道数也不同，扇区的分法也不尽相同。磁盘存储器最大的优点是能够随机存取所需要的数据，数据传输速度快，适合作为大容量的检索设备。软盘。软盘技术诞生于20世纪70年代。软盘又称为软磁盘，是在柔性塑料圆盘上涂有磁记录层的载体。软盘的直径有8英寸、5.25英寸、3.5英寸等几种，其存储容量大都在180kB3MB之间。软盘的优点是它的驱动器体积小，重量轻，结构简单，价格低；缺点是存储容量小，存取速度与数据传输率都较低。目前，在计算机病毒流行的情况下，软盘是病毒的危险载体，使用时应注意防治病毒。移动存储磁盘移动存储磁盘可用于存储任何数据文件以及在电脑间方便地交换文件，是近年来兴起的新兴的信息存

8、储方法和技术，包括移动硬盘、MP3、U盘等。移动存储磁盘以其大容量、小身材、兼容性好、性能稳定等优点正逐渐取代软盘成为人们在电脑间传递数据的最佳工具。3. 信息的缩微存储缩微技术是缩微摄影技术的简称。缩微技术以胶片作为介质，采用感光摄影原理，并逐步与计算机、微电子、静电复印与传真等现代先进技术相结合，成为迄今最成熟的文献资料全文本真迹存储和检索技术。信息的缩微存储是用缩微摄影机将文件资料缩小拍摄在感光胶片上，经加工处理后作为信息载体保存起来，供以后拷贝、发行、检索与阅读之用。英国人约输丹塞于1939年成功地将20英寸的文件缩微成0.13英寸。但缩微技术真正广泛用来存储和传递信息还是从20世纪3

9、0年代开始，它以独特的形象逐步在信息存储与交流中发挥作用，尤其是20世纪70年代以后，缩微技术先后与计算机技术、光盘技术相结合，组成了完美的信息存储与检索系统。缩微存储技术有以下特点：（1）缩微品的信息存储容量大，密度高；（2）存储介质占用空间小，可节省大量空间。由于缩微品体积小、重量轻，在存储相同数量资料的情况下，缩微片比普通纸节省存储空间98，其体积与重量仅为印刷品的1；（3）缩微品忠于原件，不易出差错；（4）保存时间长，在通常环境下缩微品可以保护50年，如果在适当环境温度和湿度下可以保存100年以上；（5）便于计算机检索。采用缩微技术，可将非统一规格的原始文件规范化和标准化，从而便于管理

10、。缩微存储技术也存在一些缺点，它在检索与阅读时需要专门的缩微阅读器，长时间阅读易于疲劳，不能像在纸印刷品上那样在缩微品上进行批注，修改困难。缩微技术最令人注目的进展就是它与电子计算机及其他存储介质的结合，拓宽了它的应用领域，发挥了它的潜能，其主要成就有：（1）计算机输出缩微胶片（Computer-Output Microforms ,COM）技术。COM技术能将计算机输出的二进制信息转换成可阅读的缩微影像，并直接将它们记录在缩微片上。COM的输出速度很快，每秒可摄录数千乃至上万字符。COM设备可起到一个档案库存储器的作用。将机内占较大容量而又需长期保存的信息，利用COM输出到缩微胶片不失为一种

11、简便有效的方法。（2）计算机输入缩微片（Computer-Input Microforms，CIM）技术。CIM与COM的作用正好相反，它是把缩微胶片上的字符、文字、图像等信息转变为电脉冲，以机器可读形式记录在磁介质和光介质载体上。同样，再通过COM可获得原始缩微胶片的复制品。因此，CIM具有进一步推广COM，扩大缩微品应用的重要作用。（3）计算机辅助缩微品检索系统。计算机辅助缩微品检索系统是一种将计算机信息检索技术、缩微品及纸质资料各自特点融为一体的自动化检索系统。它的主要设备有：计算机系统、缩微品存取设备、缩微阅读机和缩微复印机。其实现方法为：将缩微胶片信息中的可检索项（主题词、关键词、分

12、类号、代码、日期等）以及信息所在胶片的地址（卷号、片号、顺序号等具有指导意义的信息）输入计算机，并组成索引；通过计算机外设输入检索要求，检索软件逻辑判断，获得命中结果（信息所在缩微品中地址），由此驱动并控制缩微存取设备取出原文，并显示在缩微阅读器上或由缩微复印机输出纸质原始资料复制品。目前，计算机辅助缩微品检索系统能在1分钟内，从一万页缩微资料中检索出任意一页的能力。（4）视频缩微系统。它是由缩微、视频和计算机三种技术结合在一起构成的影像资料全文存储检索系统。由于采用视频技术，可以把输入的影像资料先暂时存入磁盘，实现随存随用，克服传统缩微系统因制备缩微品需要时间而不能立即将新资料供用户使用的缺

13、点。而且输出的缩微影像经扫描数字化，可以通过线路向远方传送，使网络中众多的用户不但可以同时共享机读二次文献而且还能共享全文影像资料。缩微技术已经发展成为一种成熟的技术，并且已广泛应用于保存珍贵的文献和典籍。世界各地的大型图书馆常采用该技术对珍本、善本和孤本进行缩微处理，而且还利用计算机辅助缩微品检索系统和视频缩微系统，实现全文检索，并逐步通过通信网络，实现缩微品自动存储检索和缩微全文资料共享。4. 信息的光存储光存储是继磁记录之后兴起的重要信息存储技术。光存储以激光为光源，以薄膜作为信息存储材料。光存储经历了只读存储器CD-ROM，可刻录存储器CD-RW、DVD-ROM、DVD刻录等阶段。与信

14、息的磁存储相比，信息的光存储具有以下特点：（1）数据存储密度高、容量大、盘片可更换、携带方便。目前规模生产的光盘比特字长约为0.4（DVD光盘）。光盘容量很大，现市场销售的直径120的DVD光盘，面容量已达到4.7GB。（2）存储寿命长、功能多样化：光存储是利用精细聚焦能量密集的激光束，在厚度为0.6或1.2的盘基上，通过被密封在保护层之间的记录介质的相互作用来实现数据的写入、读取与删除的。盘基及记录介质均由性能稳定的材料制成，在常温环境下数据保存寿命在100年以上，而且可根据不同用途挑选不同的介质制成只读、一次写入、可直接重写等不同功能的光盘。（3）生产成本低廉、数据复制工艺简单、效率高。目

15、前光盘盘片和光盘机的生产技术都已成熟。盘基用有机高分子材料注塑而成。只读盘上的信息是在注塑过程中模压在盘基上的。复制过程中盘片所需的加工周期仅2秒左右。按现有设备工艺材料水平计算，只读光盘每兆字节的生产成本低于0.1分人民币。一次写入光盘每兆字节的成本也仅0.2分人民币，是最廉价的信息记录载体。4.1.2 信息存储体系本节主要分析计算机信息存储体系，关于传统的纸质存储体系就不多作介绍了。计算机信息存储体系是利用计算机对一定范围内的信息集合进行选择、记录和存储，以便用户采用科学手段与技术获取必要和充分信息资源的计算机信息系统。从物理结构考察，计算机信息存储系统是一个包括硬件和软件资源在内的、由多

16、部性能与作用不同的机器组合而成的有机结合体。这个资源集合体可用于接收或输入信息，并将经过存储的信息按照程序指令进行数学与逻辑运算，以便达到数据查询的目的。因此，从整体上看，计算机信息存储系统包括硬件、软件和数据库。1. 硬件设备这是计算机信息存储体系用于处理数据的各种硬设备的总称，即所谓的计算机外部设备和用于控制计算与处理数据的中央处理机（主机）以及存储数据与程序指令的主存储器和外部存储器等机器设备。主机是存储系统的核心，承担整个系统运行和管理的任务。外部存储器和输入输出设备等统称为存储系统的外围设备。信息存储系统的最大特点就是必须存储大量的以供检索查询的信息资源，这需要大容量的辅助存储器，如

17、高速磁盘机组、磁卡机、磁带机、光盘机等。此外，信息存储系统由于输入输出频繁，高性能的控制器、运算器和输入输出设备也必不可少。2. 软件设备软件设备是计算机信息存储体系中各类程序和各种文件数据的总称，分为系统软件和应用软件。系统软件是为计算机进行有效运转和管理其他程序的执行而设计的操作软件，它是关于组织控制计算机硬件资源协调工作的操作程序。计算机信息存储体系的应用软件通常包括自动标引软件、词表管理软件、各种匹配程序及数据库管理程序等，其中数据库管理程序是计算机信息存储体系最基本、最重要的组成部分。由于不同信息存储体系的设计思想和总体结构存在差异，系统软件和应用软件的构成也各不相同。3. 数据库数

18、据库是计算机信息存储体系的基础，也是用户进行计算机信息存储与检索的对象。数据库的类型很多，可以根据不同的标准进行划分。从数据的存储方式划分，可以分为层次数据库、网状数据库和关系数据库。i) 层次数据库：层次数据库是以层次结构模型为基础的数据库。层次结构模型描述了数据之间的层次关系。层次结构模型实质上是一种有根结点的定向有序树。在层次模型中，数据之间的关系需满足：有且仅有一个结点无双亲，这个结点成为根节点；其他结点有且仅有一个双亲结点。因此，层次结构模型只能描述数据之间一对一或者一对多的关系，其结构就像一棵倒栽的树，见图4.1所示。总经理（根结点）部门经理1部门经理2员工1员工2员工3员工4

19、图4.1 层次结构模型举例ii) 网状数据库：网状数据库是以网状结构模型为基础的数据库。网状模型描述了数据之间的网状关系。在网状模型中，数据之间的关系允许有一个以上的结点无双亲；结点可以有多个双亲结点。网状模型最大的特点是可以描述多对多的关系，见图4.2所示。教师1教师2课程1课程2课程3学生1学生2图4.2 网状结构模型举例iii) 关系数据库：关系数据库是以关系结构模型为基础的数据库。关系模型在三种模型中是最重要的，也是目前应用最广泛的。关系式数据结构把一些复杂的数据结构归结为简单的二元关系(即二维表格形式)，见表4.1。表中的每一行代表一个实体，称为记录；每一列代表一个实体的属性，称为数

20、据项；记录的集合称为关系。关系具有以下性质：表中每一列必须是基本数据项（即不可再分解）；表中每一列必须具有相同的数据类型（例如字符型或数值型）；表中每一列的名字必须是惟一的；表中不应有内容完全相同的行；行的顺序与列的顺序不影响表格中所表示的信息的含义；每一个关系都有一个主键，它能惟一标识关系中的一条记录。表4.1关系结构模型举例职工号姓名部门性别文化程度 0001 张强研发部男硕士由层次结构数据模型组成的数据库系统称为层次数据库系统，由网状结构数据模型组成的数据库系统称为网状数据库系统，由关系数据结构组成的数据库系统称为关系数据库系统。在关系数据库中，对数据的操作几乎全部建立

21、在一个或多个关系表格上，通过对这些关系表格的分类、合并、连接或选取等运算来实现数据的管理。从数据存储的介质划分，可以分为磁带数据库、磁盘数据库和光盘数据库。从数据类型划分，有文献数据库、数据型数据库、事实型数据库、多媒体数据库和超媒体数据库。i) 文献数据库它包括书目型数据库、全文数据库和超文本数据库三种形式。书目型数据库的信息来源于公开发行的图书、期刊、科学报告、会议论文、学位论文和政府出版物等。书目型数据库是由经过若干加工处理后，存储在计算机中的文档及其逻辑关系组成的，每一个文档又由若干按照一定方式排序存放的记录组成，每条记录由文献记录号、题名、责任者、出版日期、主题词、文摘号等字段组

22、成。全文数据库是一种存储文献全文或者其中主要文献部分的源数据库，分为直接原文型和摘录型两种。原文型是指直接存储文献的正文。摘录型是指对原文进行压缩并提炼形成若干摘录或者原文片段。超文本数据库是一种按信息之间的关系进行非线性存储的工具，其特点就是将“文本”和各文本之间的“关系”，通过“节点”和“链”有机地组织起来，使传统文本实现向超文本的转变。ii) 数据型数据库数据型数据库存储的主要内容是各类数据，也可以说，数据型数据库是机读数据库的集合。如关于经济统计与预测、财政金融等方面的数据库大多属于数据型数据库。数据型数据库因内容不同而具有不同的数据结构。如单元形式存储的数据主要有人才信息等，这是以一

23、个单元所建成的数据库；而表册形式则采用多维矩阵形式存储信息，如各类经济数据等。iii) 事实型数据库事实型数据库是一种以“事实”为对象的非文献型数据库，其存储内容多为人物、机构等一般性描述的信息。这类数据库的内容丰富，类型很多，如人物传记数据库、机构名录数据库、产品指南数据库和成果介绍数据库等均属于事实型数据库。我国影响比较大的事实型数据库有“全国科技成果交易数据库”等。iv) 多媒体数据库多媒体数据库是传统数据库的扩展。它在关系数据库的基础上增加了处理复杂对象和多媒体信息的能力，支持多媒体数据类型和变长字段类型及其相应操作，采用面向对象的概念，将每个媒体数据模型转化为存储对象。简单型多媒体数

24、据库将整体的图形、图像、声音作为不可再分的基本单位进行存储，早期基于文本方式的图像检索就采用这类数据库系统。复杂型的多媒体数据库存储模式以数据模型为基础，即不仅存储图形、图像和声音，而且存储各种媒体的特征信息和内部结构，供用户对其特征值进行提取和组合，检索十分方便。智能型多媒体数据库不仅存储图形、图像和声音等信息以及它们的特征和内部结构，而且能够对图形、图像和声音进行理解和处理，对用户进行知识引导查询。v) 超媒体数据库超媒体数据库是超文本技术与多媒体技术在网络数据库设计中的产物。超媒体数据库具有大规模、易于更新与维护的特点，具有生动活泼的多媒体表现形式，具有灵活自如的浏览方式、友好的用户界面

25、、强大的查询功能而在因特网上应用十分广泛，除应用于各类超媒体搜索引擎外，还在远程教育、电视会议、远程医疗等方面具有广泛的应用前景。4. 数据仓库著名的数据仓库专家W. H. Inmon在其著作Building the Data Warehouse一书中给予数据仓库如下描述：数据仓库（Data Warehouse）是一个面向主题的（Subject Oriented）、集成的（Integrate）、相对稳定的（Non-Volatile）、反映历史变化（Time Variant）的数据集合，用于支持管理决策。对于数据仓库的概念可以从两个层次予以理解：首先，数据仓库用于支持决策，面向分析型数据处理，它

26、不同于企业现有的操作型数据库；其次，数据仓库是对多个异构的数据源有效集成，集成后按照主题进行了重组，并包含历史数据，而且存放在数据仓库中的数据一般不再修改。（1）数据仓库的特征面向主题。操作型数据库的数据组织面向事务处理任务，各个业务系统之间各自分离，而数据仓库中的数据是按照一定的主题进行组织。主题是一个抽象的概念，是指用户使用数据仓库进行决策时所关心的重点方面，一个主题通常与多个操作型信息系统相关。集成的。面向事务处理的操作型数据库通常与某些特定的应用相关，数据库之间相互独立，并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的，

27、必须消除源数据中的不一致性，以保证数据仓库内的信息是关于整个企业的一致的全局信息。相对稳定。操作型数据库中的数据通常实时更新，数据根据需要及时发生变化。数据仓库的数据主要供企业决策分析之用，所涉及的数据操作主要是数据查询。数据进入数据仓库以后，一般会被长期保留。数据仓库修改和删除操作很少，通常只需要定期加载和刷新。反映历史变化。操作型数据库主要关心当前某一个时间段内的数据，而数据仓库中的数据通常包含历史信息，系统记录了企业从过去某一时点（如开始应用数据仓库的时点）到目前的各个阶段的信息。通过这些信息，可以对企业的发展历程和未来趋势做出定量分析和预测。（2）数据仓库系统体系结构数据仓库的建设

28、，是以现有企业业务系统和大量业务数据的积累为基础。数据仓库不是静态的概念，只有把信息及时交给需要这些信息的使用者，供他们做出改善其业务经营的决策，信息才能发挥作用，才有意义。把信息加以整理归纳和重组，并及时提供给相应的管理决策人员是数据仓库的根本任务。整个数据仓库系统是一个包含四个层次的结构体系。数据源它是数据仓库系统的基础，是整个系统的数据源泉。通常包括企业内部信息和外部信息。内部信息包括存放于RDBMS（关系数据库管理系统）中的各种业务处理数据和各类文档数据。外部信息包括各类法律法规、市场信息和竞争对手的信息等。数据的存储与管理它是整个数据仓库系统的核心。数据仓库的真正关键是数据的存储

29、和管理。数据仓库的组织管理方式决定了它有别于传统数据库，同时也决定了其对外部数据的表现形式。针对现有各业务系统的数据，进行抽取、清理，并有效集成，按照主题进行组织。数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库（通常称为数据集市）。 OLAP（在线分析技术）服务器它对分析需要的数据进行有效集成，按多维模型予以组织，以便进行多角度、多层次的分析，并发现趋势。前端工具前端工具主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。其中，数据分析工具主要针对OLAP服务器，报表工具和数据挖掘工具主要针对数据仓库。4.2 语义信息编码

30、所谓语义编码就是用一组数字或字符描述客观实体或实体的属性。例如，在描述“人”这个实体时，可以用“0”表示“女性”，“1”表示“男性”，“9”表示“未知”等。1. 语义编码的原则信息编码的目的主要是使信息描述惟一、规范、系统，因此应遵循以下三个原则。（1）惟一性原则在客观世界中，许多实体如果不加标识是无法区分的，所以将原来不能区分的实体惟一地加以标识是编码的首要任务，相同的语义编码只能描述相同的客体或客体属性。例如，在一个单位的人事管理中，常常存在姓名重复问题，为了避免二义性，准确描述此“张三”非彼“张三”，需要对职工进行编码，使其能惟一标识每名职工。从系统的角度讲，惟一性原则提高了数据的全局一

31、致性。（2）规范性原则惟一性原则限制了不同客体或客体属性的语义编码不能重复，但若随意编码，可能导致信息表述变得杂乱无章，对信息处理、管理、利用带来不便。因此，在遵循惟一性的前提下必须强调编码的规范化。例如，在学生管理中，“学号”编码都有其规范，如统一使用数字码位(0-9)。（3）标准化原则在实际应用中，实体的大部分编码都有国家或行业标准。如中华人民共和国行政区编码、一级会计科目编码、职务编码等都有国家编码标准；二级会计科目编码、产品规格编码等都有相应的行业标准。对信息进行编码应尽量标准化，以便于信息的交流和使用。2. 语义编码方法语义编码是对分类结果的一种形式化描述，如果分类问题得到解决，编码

32、问题就变成一个用什么样的符号来表示的问题。（1）顺序编码顺序编码是一种用连续数字代表编码对象的码，如01-教授、02-副教授、03-讲师、04-助教、05-未定职等。（2）分段编码分段编码是将数据项分成若干组，每段代表一个组，码中数字的值和位置都代表一定意义。（3）助记编码助记编码是用文字、数字或文字数字相结合对对象进行描述，可通过对码的联想进行记忆。例如，电冰箱型号BCD-180W表示“无霜(W)、180升(180)、冷藏(C)、冷冻(D)、冰箱(B)”就是一种典型的助记编码。3. 语义编码的校验编码的正确性直接影响整个处理工作的质量，特别是在信息手工复制过程中，如抄写、手工输入计算机，发生

33、错误的可能性更大。因此，为了保证信息在交流过程中的正确，在编码时往往引入校验位，使其对码值进行校验。语法信息编码的校验思想也适用于语义信息编码。（1）错误种类在信息复制过程中常发生的错误有以下四种。误记：如把1记成7；易位：如把1436变成1346；双易：如把34567变成36547；随机：包括上述两种或三种错误或其他错误。（2）校验方法校验方法很多，以下简单介绍一种模11校验位的确定方法。算术级数法设原代码为，其中，各码字对应的权值分别为，则原代码的加权和为：以11为模去除S，所得余数就是校验码，即校验码为：几何级数法设原代码为，其中，各码字对应的权值分别为，则原代码的加权和为：

34、以11为模去除S，所得余数就是校验码。即校验码为：质数法设原代码为，其中，各码字对应的权值为一质数序列，则原代码的加权和为：以11为模去除S，所得余数就是校验码。即校验码为：（3）例子分析例设原代码为6341，试应用模11法确定校验位。解模11法的权重有多种选择方法，因此校验位确定也有多种方法。算术级数法对应权重为5、4、3、2，故S=56+43+34+21=56校验码a=56(mod11)=1，所以含校验位的编码为63411。几何级数法取m=2，则对应权重为16、8、4、2，故S=166+83+44+21=138校验码a=138(mod11)=6，所以含校验位的编码为63416。

35、质数法取质数序列为13，7，5，3，则S=136+73+54+31=122校验码a=122(mod11)=1，所以含校验位的编码为63411。注意，在应用模11法确定校验码时，若余数为10，则将校验码取为0。4.3 语义网1语义网产生的背景及含义1990年，蒂姆伯纳斯李（Tim Berners-Lee）发明了互联网上的超文本系统，使网络互联技术用于人们的信息交流与共享，人们可以通过互联网来寻找自己关心的信息，也可以通过互联网将自己的信息发布出去。随着互联网应用的不断扩展，互联网现有技术的局限也逐渐暴露出来。比如，Google很强大，但是Google也不是万能的，很多时候它也会查找到一大堆莫名其

36、妙、毫不相关的垃圾信息。互联网技术的核心是超文本系统，它的主要思想是通过统一资源标识符（Uniform Resource Identifier，URI），对互联网上的信息进行标记，使人们可以迅速地对互联网上的信息资源进行定位。然而，现有互联网技术并没有对信息的含义进行描述，计算机在处理信息时只是按照URI来定位信息，对信息的内容并不关心。而人们真正关心的是信息的内容，也就是互联网上的文本、图片等资源所包含的意义。由于互联网现有技术的局限，互联网上信息处理的自动化、智能化程度是很低的，计算机处理器的强大功能也没有得到有效利用。互联网技术的研究者正在研究新的技术以改变这种状况，而其中最令人瞩目的就

37、是语义网技术。语义网是互联网研究者对下一代互联网的称谓，通过扩展现有互联网，在信息中加入表示其含义的内容，使计算机可以自动与人协同工作。也就是说，语义网中的各种资源不再只是各种相连的信息，还包括其信息的真正含义，从而提高计算机处理信息的自动化和智能化。计算机并不具有真正的智能，语义网的建立需要研究者们对信息进行有效的表示，制定统一的标准，使计算机可以对信息进行有效的自动处理。2语义网的体系结构为了实现语义网信息服务智能化与自动化的目标，语义网研究者们开发了许多新技术并提出了一系列的技术标准。蒂姆伯纳斯李一直致力于语义网技术的研究，并始终关注语义网技术的发展，在综合了语义网研究领域最新成果的基础

38、上，提出了语义网模型。这一模型得到了语义网研究者的认同，该模型从下到上分为六层：Unicode与URI，XML，RDF(S)，本体层（Ontology），逻辑层（Logic），证明层（Proof）和信任层（Trust），见图4.3。第一层：Unicode与URI，是整个体系结构的基础。其中Unicode负责处理资源的编码，URI负责资源的标识，它们使信息精确检索成为可能。第二层：XML+NS(Namespace)+ XML Schema。负责从语法上表示数据的内容和结构，通过使用标准的格式语言将网络信息的表现形式、数据结构和内容分离。XML使每个人可以创造自己的标签来标注网页或网页的部分文本。

39、XML允许用户为他们的文档添加结构信息，但并没有说明这些结构的含义。只有标签名并不能提供语义，所以在语义网结构中XML只是作为语法层来为语义网的建立提供语法基础。UnicodeURIXML+NS+XMLSchemaRDF+RDFSchema本体词汇层逻辑层证明层信任层图4.3 语义网的体系结构第三层：RDF+ RDF Schema，它提供的语义模型用于描述网上的信息和类型。RDF适合描述Web站点和网页，从根本上管理、搜索、过滤和个性化Web站点，特别是能改变Web上的内容搜索机制：不仅可以使机器对读取对象进行编号（即可读），而且可以理解其所蕴含的确切含义 (即可理解)。RDF事实上是一种元数

40、据模式，元数据模式能够定义数字资源的结构和语义等关系，能在语义协议与语法编码之间建立联系。RDF是对结构化的元数据编码、交换和重用的一个基础。在该语义网模型中，信息以RDF句子的形式存储，即以统一的方式来存储数据，便于机器理解。抽象的RDF数据模型表示为一个有向标记图。第四层：本体词汇层（Ontology Vocabulary）。负责定义共享的知识，描述各种信息之间的语义关系，揭示信息本身和信息之间的语义。在人工智能领域和互联网研究领域，一个本体描述了特定研究领域的形式化的、共享的概念化模型。本体非常适合描述互联网上各种不同的、分散的、半结构化的信息资源。通过定义共享的、通用的领域知识，本体帮

41、助人和机器明确地交流，支持语义级的交换，而不仅仅是语法级的。第五层：逻辑层。负责提供公理和推理原则，为智能服务提供基础。逻辑层提供了规则，从而便于进行推理。而证据层则在此基础上使代理可以交换推理的结果。为了检查这些结果，需要将各代理的内部推理机制转化为一种通用的证据表示语言。第六层证明层和第七层信任层负责提供认证和信任机制。在整个语义网体系结构中，XML、RDF(S)和Ontology是它的核心，它们支持从语义上描述网络信息和知识。3. 语义网的关键技术 RDF与RDFS（RDF Schema）RDF是实现语义网的关键技术之一，它提供了资源的通用描述方式。RDF的全称是资源描述框架（Resou

42、rce Description Framework），用来描述资源及其之间关系的语言规范，它不仅是描述数据的框架，而且是表示数据的框架。RDF模式引入一个面向对象、可扩展的类型系统到RDF中，提供方法定义合适的定义域和值域以及类和子类层次，为语义网奠定了基础。关于RDF与RDFS的具体内容请见3.5.3。（2）本体模型（Ontology） Ontology的含义Ontology旨在克服计算机系统之间的“语义鸿沟”。其概念源于哲学，即“对世界上客观存在物的系统的描述” Sheman, chris.The future of Web Search.Online, 1999(Mar/Apr): 75

43、78。按照这个定义，它和具体某个人对事物的理解以及描述的具体语言等无关。Neches等将Ontology定义为“给出构成相关领域词汇的基本术语和关系，以及利用这些术语和关系构成的规定这些词汇外延的规则的定义”2 Nechesr, Fikesre, Grubertr, Etal. Enabling Technology for Knowledge SharingJ. AIMagazine, 1999, 12(3): 36-56。其他学者给出了不同的定义。最著名、被引用得最为广泛的定义由Gruber提出，“本体是概念模型的明确的规范说明”3 Gruberctr. A Translation App

44、roach to Portable OntologiesJ. Knowledge Acquisition, 1993, 5(2): 199-220。有学者对该定义进行了引申，提出“本体是共享概念模型的形式化规范说明”，认为本体的概念包括四个主要方面：概念化：客观世界的抽象模型；明确：概念及它们之间的联系都被精确定义；形式化：精确的数学描述；共享：本体中反映的知识是其使用者共同认可的。现在，许多领域都引入本体的概念，如知识工程、知识表达、语言工程、数据库设计、信息存取、知识管理等。从内涵上来看， Ontology是某个领域内不同主体（人、机器、软件系统等）之间进行交流（对话、互操作、共享等）的一

45、种语义基础，即由Ontology提供一种明确定义的共识。在计算机领域讨论Ontology，要点在如何表达共识，即概念的形式化，这涉及Ontology的描述语言和建设方法等。 Ontology与传统数据库的区别粗略地说，本体相当于一般化的数据库模式。本体模型提供了清楚描述数据语义信息的概念化表示（或称为源数据）。它们与数据库模式有相似的作用。但是，本体可以用于描述比普通数据库更复杂的对象的语义结构，因此很适合描述异种的、分布的、半结构的信息资源，如网上的信息。本体模型与传统数据库的不同之处在于：i）定义本体模型的语言比通常数据库所使用的语言在语义、语法上更加丰富；ii）本体模型所描述的信息是半结

46、构化的自然语言文本而非列表式的信息；iii）一个本体模型必须使用进行信息共享和交换的公用的术语；iv）一个本体模型提供的是一个特定领域的知识模型而非数据容器的结构。通常，一个本体模型包含一套领域内重要概念的分层结构描述，并且通过“属性值”机制来描述每一个概念的重要属性。此外，概念间的进一步关系通过额外的逻辑语句描述。最后，对该领域内感兴趣的个体赋予一个或多个概念，从而正确地确定它们的类型。 Ontology描述语言20世纪90年代初，出现了一些基于AI（人工智能）的本体描述语言，代表性的有KIF（知识交换格式）、Ontolingua、Loom、OCML（OperationalConceptua

47、lModellingLanguage）、FLogic等。其中，KIF是基于一阶逻辑的，是一种为了在不同的计算机系统（这里的不同是指由不同的程序员在不同的时间使用不同的语言开发等）之间交换知识而设计的语言；Ontolingua、OCML和FLogic是基于框架和一阶逻辑的，而Loom是基于描述逻辑的。随着Web的发展，出现了一系列基于Web的Ontology表示语言，为Ontology在语义Web研究领域的发展注入了活力。Web应用需要通用的标准语言来表示，3先后推荐了RDF(S)，DAML（DARPA AgentMarkupLanguage）+OIL（Ontology Inference La

48、yer/Ontology Interchange Language）和OWL（Web Ontology Language，Web本体语言）作为本体描述的语言标准。RDF(S)模型可表示任意类型数据。数据类型由节点和节点之间带有标记的连接弧组成。节点表示Web资源，弧表示资源属性。模型可方便地描述对象及RDF(S)，是语义网的基础。已有的许多语言，如OIL，DAML+OIL和OWL都是对RDF(S)的扩展。OIL以RDF(S)为起点，用丰富的Ontology建模原语对RDF(S)进行扩充。OIL将框架系统、描述逻辑和Web标准（XML和RDF）这三个不同领域的优点结合起来，提供了通用的语义网标记

49、语言。基于框架的语言在AI中有很长历史，其中心建模元语是类（称为框架）和属性（称为槽）。描述逻辑(DL)通过概念（对应于类或者框架）和角色（对应于槽）描述知识，具有良好的语义和有效的推理。DAML扩展了RDF，增加了更多、更复杂的类、属性等定义。直到DAML的研究者和OIL的研究者开始合作，推出了DAML +OIL语言，成为3研究语义网中Ontology描述语言的起点，并成为标准。OWL是3最新推荐的Ontology描述语言的标准，是在WWW上发布和共享Ontology的语义标记语言。作为RDF(S)的扩展，OWL是在DAML+OIL的基础上发展起来的，目的是提供更多的原语以支持更加丰富的语义

50、表达，并支持推理。OWL有三个子语言：OWL Lite、OWL DL和OWL Full。其中，OWL Lite用于提供给那些只需要一个分类层次和简单属性约束的用户。OWL DL支持那些需要在推理系统上进行最大程度表达的用户，这里的推理系统能够保证计算完全性（ComputationalCompleteness，即所有的结论都能够保证被计算出来）和可决定性（Decidability，即所有的计算都在有限的时间内完成）。它包括了OWL语言的所有约束，但是可以被仅仅置于特定的约束下。OWL Full支持那些需要在没有计算保证的语法自由的RDF上进行最大限度表达的用户，它允许一个Ontology在预定义

51、的（RDF、OWL）词汇表上增加词汇。下例是一个本体对象模型的范例，它用本体对象语言OIL表示。Class-def animal % animals are a class Class-def plant % plants are a classSubclass-of NOT animal % that is disjoint from animals Class-def tree % trees are a type of plant Subclass-of plantClass-def branch Slot-constraint is-part-of % branches are par

52、ts of treesHas-value tree Class-def leaf Slot-constraint is-part-of % leafs are parts of branchesHas-value branch Class-def defined carnivore Subclass-of animal % carnivores are animals Slot-constraint eats % that eat only other animals Value-type animalClass-def defined herbivore Subclass-of animal

53、 % herbivores are animals Slot-constraint eats % that eat only plants or parts of plantsValue-type plant OR(slot-constraint is-part-of has-value plant)Class-def giraffe Subclass-of animal % giraffes are animals Slot-constraint eats % and they eat leafs Value-type leafClass-def lion Subclass-of anima

54、l % lions are also animals Slot-constraint eats % but they eat herbivores Value-type herbivoreValue-type tasty-plant Subclass-of plant % tasty plants are plants that are eaten by Slot-constraint eaten-by % both herbivores and carnivores Has-value herbivore， carnivore一个本体对象包含了一系列类定义(“class def”)和槽定义(“slot def”)。类定义将一个类名与一个类的描述联系起来，包括下面几个组成部分(其中任何一个都可以被省略)：类型（type）的定义。这可以是预定义的或者新定义的；预定义的类对类成员提供了必需的但不充分的描述。子类（subclass of）。零个或多个类表达式的列表，类定义中定义的类必须是该列表中每一个类表达式的子类。槽限制（slot constraint）。零个或多个槽限制表达式的列表。类定义中定义的类必须是该列表中每一个槽限制的子类（注意：槽限制定义了一个类）。类表示式（class expression）可以是一个类名或一个槽限制，

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第四章信息存储与检索

文档简介

温馨提示

最新文档

评论

第四章信息存储与检索

文档简介

温馨提示

最新文档

评论

相关文档