下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、资源信息微积分 1引子 起初,神创造天地神说:“要有光”,就有了光。神看光是好的,就把光暗分开了。神称光为昼,称暗为夜。有晚上,有早晨,这是第一日。引自圣经创世纪 有了光,世界显得五彩缤纷。同样,知识发现需要光的照明;需要有能发光又能感光的全息摄像设备以及资源信息的传播渠道。那么,什么是资源?国际普遍认为它是指anything(世界的万物)。诚然,信息本身也是一种资源,称为信息资源。信息资源用来描述资源信息,资源信息又充实了信息资源。信息资源和资源信息两者通过“廻环”的修辞,极准确地说明了信息和资源辩证结合、相依相成的关系。若用y表示资源信息,用x表示信息资源,则两者的关系可用准函数f表示。如
2、同我们可用指数求幂也可用幂求指数(对数)一样,资源信息和信息资源的辩证关系也反应了它们之间的准函数(f)和准反函数关系。从本休论(ontology)看来, 哲学 的辩证、修辞的廻环和数学的函数求反具有本质的一致性。我们可以通过信息发现资源,也可以通过资源去描述信息。用本体论的话说,也就是可用x求y(f),可用y求x。f和是一个关系的两个指向。所谓信息准微积分就是 应用 数值微积分的原理对资源信息进行微观描述和宏观整合,使其产生光的效应。信息(information)一詞的詞干“formation”含有“结构”之意。信息之所以为信息就是因为它能以某种数据(不同于数字)结构为载体进行传媒,离开数据
3、结构信息也就不成其为信息了,而f正是这种数据结构的具体表达形式,它建立了数据的联系。 2正和反逻辑函数 传统的书目已经开始不自觉应用了f和之间的知识发现互动原理。所谓的 文献 著录(标引),其实质就是用资源去描述信息,所谓检索就是利用数据的逆结构(反准函数)去寻求资源(索引),标引和反标引(索引)生动地反映了知识发现中潜在的f和互动事实,f在其中表示为某一字段元素,x和y都是资源,它们互为元数据,x、y方程组构成了一条款目的完整信息,而款目的集合就是数据库。无论是印刷型的还是 电子 型的,其本质是完全一致的。以下是一个简单的书目款目a文摘号001isbn号7-5323-5116-5题名化石漫谈
4、作者夏树芳出版发行上海 科技 出版社载体形态32开分类q911主题化石摘要 a在其中表示为某一资源的m维向量,该向量由m个元素(element)或字段组成,这样一个动态数据库的款目就可记为,数据库就可记为。e变量名反映了数据(书)和元数据(夏树芳等)之间的准函数(逻辑)关系。标引或著录就是用元素名表示资源间的准函数关系,反标引(逆向著录)同样用元素名表示资源间的准反函数关系。既然资源代表anything,那么元数据也属于anything,同样可以对它标引建立一个款目b。具体说来数据库文件的正文就是用元数据标引资源,而数据库文件的索引就是用资源标引元数据。例如本例的作者反标引可记成 款目b:夏树
5、芳(作者名)元数据文摘号(元素名)001(元素值) b款目的集合(数据库)则可记为其中元素(文摘号)的值就是元数据001,通过它指向资源(书),并可通过该书的标引了解它的全貌。如同我们可以用逻辑地址去映射物理地址,用逻辑主语去映射实际主语,我们同样可以用本体论 研究 知识发现的 方法 ,把元素称为资源的逻辑函数。利用这样的逻辑函数关系我们就能知晓某书是誰写的,而某人又写了哪些书。这种函数的映射建立了资源之间的对应关系。元素成了资源间的“血缘”。有了它,a和b保持了父子关系,而d和i就有了源和目标的关系。这里我们把a定义为父款目,把b定义为子款目。把d定义为源数据库,把i定义为源数据库扩展(索引
6、)。其关系如下图所示: 3资源信息微积分 微积分的基本思想方法就是化整为零,聚零为整,通过对研究对象的无限细分来达到无限逼近的目标。资源信息微积分和数值微积分在方法论上如出一辙,大资源可以化为小资源更细致地描述。早期的 分析 著录和综合著录已经孕育了这一基本思想,而近年rdf(resource description framework资源描述框架)的出现为资源描述提供了无限细分机制,从而为语义网的开发找到了有效的工具。任何资源信息从本体论看来,无非是由外延和内涵构成的反映事物存在状态的一种代码组合形式。这种现象在早期应用中屡见不鲜,只是并不自觉而已。在图书馆界大谈特谈的分类索引语言和主题索引
7、语言,提升一步说,不就是概念的外延和内涵吗?分类表示事物的类别概念,难道不也是主题吗?其实分类是一种特殊的主题(即分类主题),而主题则是分类中的一个实例(instance)。在资源描述的过程中,分类的职能是“分”,而主题的职能是“赋值”,有了分类大资源可化为小资源,有了主题就可对小资源进行内涵“ 计算 ”(描述)。经过这样的剖析透视,隐藏在知识发现背后大量微积分事实便可窥一斑而见全豹。因此,既然分类和主题关系的本质是外延和内涵的关系,分类和主题只是表达外延和内涵的一种语言,我们就可以利用外延和内涵的关系揭示资源信息描述的本质所在。如图所示: m表示内涵(meaning);e表示外延(exten
8、sion);e表示由分类表达的小资源,而以元素名来表示它的具体类别;s表示小资源的主题(subject),即元数据(metadata),它是元素e的值;曲线c(e)表示外延和内涵的概念(concept)关系,由于它表达的只是一种逻辑的外延和内涵,并非数值关系,这里不妨把它称之为“隐函数”以此说明隐在其中的是信息和概念而并不存在可以明显表示的数值:e和m作为变量代表具体的外延和内涵,作为函数代表主题之间的外延和内涵关系;r表示资源(resource)信息,其“值”即为s的准积分或逻辑意义上的积分;显然s就是r的微分。这样,即可建立一个资源信息的逻辑微积分数学模型:这些本不相干的元数据也可在另一概
9、念空间中统一为单变量(内涵)。资源信息变量的坐标变换和空间映射使复杂的信息关系简化为简单的信息关系而又不因此抛弃它的本质。通过e和m我们窥见到了信息所表达的“哭”、“笑”面部表情(物质的存在状态)。为了研究探索事物的本质,我们经常改变视角,有时把父对象分为子对象,如子款目、子字段等,有时又把子对象聚在一起研究。在这里我们再次应用了这一思想,把资源信息从微观空间(子信息空间)移到了宏观空间(父信息空间),成功地表述了资源信息的微积分原理,从而使我们有可能通过这一 理论 创新去克服知识发现的障碍。转贴于 4语义网解读 4.1有形和无形 有形分割是一种资源的物理分割,无形分割是一种概念分割。有形分割
10、在几何(物理)空间中进行;无形分割则在概念空间中进行。资源描述的微分始于几何空间。这种微分只是物理实体的结构分解,例如把 文献 逐层分解为书、刊、章、节、单册等,然而分别形成目录,题录,文摘等二次文献。分明分割的对象是资源的客观知识单元的物理实体。这种分割的优点是直观(有形),缺点是有限,难以在信息空间中扩展(微分)。然而,它必竟为以后的资源信息微分作了必要的前期准备。由于有形分割的空间束缚,人们梦寐以求跨越时空(泛空间)的信息传递目标即便在硬件( 网络 )支持下也难以实现,其瓶颈制约是因为缺少一座在思维空间和信息空间的“推理”桥梁。所幸,人们从以上资源信息的逻辑函数求反中再次得到了启迪,从而
11、摆脱了信息资源开发利用的根本 理论 困境。知识发现本身就是知识描述的求反,如果说其初级形式是“检索”,那么它的高级形式无疑就是“思维”了。信息的传播需要有形和无形的互动,实中有虚,虚中有实,虚虚实实才行,要善于在有形中观察描述,在无形中思索,这就是有形和无形,描述和检索,观察和思考的求反过程。离开有形,信息便会魂不附体;离开无形,网络就成行尸走肉。语义网的有形单元是网页,而无形单元就是附于其中的语义和概念。语义网络需要一座链接概念和网页的桥梁。完成网页链接至概念链接质的飞跃。 4.2资源信息微观演变 资源信息的描述坐标已经发生了很大变化。从具体坐标 发展 到抽象坐标。以下列出几个坐标体系的比较
12、:aacriimarcrdf ontology描述对象 文献资源文献资源 资源语义传输平台 纸质电脑 网络网络语言 自然 数据库xml owl等元素著录项 字段 标记标记 实际上,ontology是rdf在语义领域的 应用 和发展。它把概念作为特殊的资源对象对待。如果说后者是基于资源的描述框架。那么前者就是基于概念的描述框架。描述的坐标已经发生了从资源到概念(内涵和外延)的转变,知识发现的对象已经发生了从宏观到微观,从具体到抽象,从有形到无形的变化。rdf提供了资源拆分的技术而ontology侧重于语义的 分析 ,两者的完美的结合为我们架起了一座从宏观资源实体通向微观知识描述的桥梁。ontol
13、ogy的技术关键就是要刨根问底地弄清楚知识树“怎么种?根在哪?施什么肥?”。简言之,就是用什么去表达?怎样表达?表达什么的 问题 。 4.3语义“磁针” 尽管从aacrii(anglo-american cataloguing rules.2.ed英美编目条例)到ontology,知识发现的对象发生了从宏观到微观的变化,但对象间的抽象关系即元素仍然不变,只是具体名称有所不同。在aacrii中元素用著录事项表示,它把书和其他资源联结起来;在ontology中,随着资源对象的微观化,资源关系进一步抽象为概念(concept),而资源被抽象为外延e和内涵m。由此看出元素是各种资源的粘合剂,和普通粘合
14、剂的区别在于它犹如磁针带有极性和方向性,极性又可具体化为:外延和内涵。由此可见语义磁针是对元素功能的形象化描述。然而语义磁针不是天然物质,它需要人工导入,在导入过程中首先要对它的内涵外延进行定义使其具有明确的指向(磁极)。rdf schema(rdf的数据结构模式)担负了这一使命,它的结构化核心词汇(structured core vocabulary)分别用classes和properties来定义rdf数据文件所用元素的资源类型(外延)以及所具有的特性(内涵),确定了各元素的描述职能范围,从而为构建语义磁场打好了“地基”。以下是语义磁场各层面的简单示意: 有了语义磁针(元素),信息的传播就
15、有了“光”。其具体极性就可抽象为和,数字化为0和1二态。磁针通过彼此联结便形成“磁力线”,有了“磁力线”便能产生磁力场,产生磁感应,变离散描述为连续描述,这便是语义场的抽象化。在语义场中,语义的正负两极切换便能形成振动,振动在语义场中的传播就会产生语义波,但这种传播并不是直线的。其方向取决于语义磁针的连线轨迹,这种轨迹就是我们通常说的“思路”,人工智能就是要让电脑来产生“思路”。由于资源信息的描述方式不外乎以下几种:(1)串联(2)并联(3)循环(互逆)(4)嵌套(5)递归,对应的检索途经(思维)只是上述路径的逆。人工智能技术说到底就是上述路径的程序化。 5结语 资源信息通过微分对资源分解在资
16、源描述的不同层面创建和导入各种“磁针”,按照逻辑推理制定的布放规则,建立资源和语义在不同坐标平面间的穿梭映射;通过积分对它整合产生综合的“磁场”效应,形成语义场。资源信息微积分在语义场的点上表现是“振动”,面上表现是语义波。振动是对波的微分,而波是对振动的积分,积分是对微分的还原。架设语义网,首先需要对资源信息进行微积分运算。不能微分就无法在语义场中形成语义“磁针”,没有“磁针”就没有振动,当然也就不会产生语义波。资源信息的微观振动(即描述和标引)是借助于概念的二态(内涵和外延)切换产生的。概念的二个方面,也就是内涵和外延,组成了语义磁针的正负两极。marc开创了数据电脑处理的先河,并能利用分
17、散著录的上挂(410字段)和下连(411字段)做积和分的运算,但在信息的微分运算方面却不尽人意。它们能通过首尾相连对资源进行局部拆分和整合,但由于其数量受到了marc标准字段的限制,且是同构(含两极)异质的,即它并不像“语义场”那样具有共同的“磁性”(概念的外延和内涵),不同磁针的磁极因定义域(domain)和值域(range)的涵义不同而不能处在同一个语义场中,从而不能产生语义波。rdf拓展了的描述空间,异质磁针能够方便地进行各种类型的串接和组合,但依然不在同一个语义场,ontology通过寻求语义表达的本体寻求磁针的同质,对象的处理范围已经跳出了实物圈子,资源描述开始从“体”深入到“魂”,
18、从“形”深入到“义”,从“外延”深入到“内涵”。知识发现才开始有了“光”和透明。 上述整个过程可归纳如下:用元素的叙词元元素(schema词汇)去建立一个资源描述词集(元素),接着用描述词集中的词汇去描述(标引)具体的资源,最后再用叙词之类语义功能更强的“磁针”对资源涉及的概念进行定向,并通过逻辑定位使其有序化,借助它对思维进行导航。语义磁场是一个联结附属于各种资源的概念数据库,为人工智能推理所需而提供的操作平台,如果说windows是电脑各种硬件、软件的资源管理系统,那么人工智能就是该平台的资源管理系统。以下是一个人工智能的语义磁针导入和布放线路图: 由此可以看出,从书目到词典(dictionary)到叙词表( the saurus)到知识树(ontology),资源描述从表面深入到了“骨髓”,语义一个强于一个,就是由于“磁针”的补充群体不断导入的缘故,最后,真相大白,原来“磁针”的发生器(generator)就是各级schema。【 参考 文
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论