化学计量学第六章.ppt_第1页
化学计量学第六章.ppt_第2页
化学计量学第六章.ppt_第3页
化学计量学第六章.ppt_第4页
化学计量学第六章.ppt_第5页
已阅读5页,还剩88页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第六章 人工智能与化学专家系统,目录,6.1 人工智能用于化学计量学研究 6.2 人工智能的基本要素 6.3 化学专家系统 6.4 人工神经元网络与自适应化学模式识别,6.1 人工智能用于化学计量学研究,人工智能(AI)是一个综合性的科技领域,它吸引了众多的研究者的注意。什么是智能?提出智商概念的德国心理学家曾定义智能是适应新的(未知的)任务及生活中新情况的能力,但是,实际上动物也有这能力,故Hippe建议将智能定义为求知能力的集合,这种能力是指获取知识并用于解决新的(未知的)、理论的和/或实际的问题。而人工智能则是借助技术或理论手段,应用数学方法和/或数字逻辑研究智能的各个方面的问题。,6.1 人工智能用于化学计量学研究,简言之,就是研究如何用人工的方法与技术,即利用计算机等工具,模拟、延伸和扩展人的智能,实现某些机器思维或脑力劳动自动化。人工智能是计算机科学技术发展的前沿领域,化学计量学很自然地成为它的应用领域之一。化学量测及其数据解析中,如何将化学分析数据转化为有用信息,传统上是靠化学家,主要是分析化学家运用其智能、专门知识与经验、技巧去完成,能否设计计算机的机器专家系统,模仿化学与分析化学专家的脑力劳动?这就是化学计量学所涉及的人工智能的任务。,6.1 人工智能用于化学计量学研究,我们前面讨论的许多化学计量学方法,特别是化学模式识别方法,就是一种人工智能。的确,按许多作者的分类,模式识别是人工智能的重要组成部分,但本章讨论人工智能,将突出其某些特征。人工智能所用到的计算机程序,更多地涉及的是符号处理过程,这一点与前面各章所涉及的以数值计算为主体的计算机程序不同。人工智能所试图解决的问题,往往用通常数值算法难于求解,但这些问题的求解与决策,是人类专家在其日常活动中时刻面临的问题。,6.1 人工智能用于化学计量学研究,在化学领域中,如何从光谱图形,特别是像质谱这种复杂的谱图出发,推断化合物的结构?如何借助计算机程序,设计制取某一种化合物的最佳合成路线?这些问题,远不是都能依靠单一的数值运算可能解决的,它就自然成为化学计量学中人工智能的研究对象。这类问题的解决所用到的计算机程序,已不限于一般工程与科学数值计算(注意数值计算是以求精确解为目标的)。人工智能计算机程序涉及文字、概念的处理,就目前的发展水平,它并不一定都能保证得到问题的正确解,但必须清楚,即使是经验丰富的化学专家在作谱图解析或合成路线设计时,也不能绝对保证正确解答所有问题!,6.1 人工智能用于化学计量学研究,人工智能与一般计算机数值运算的一大区别,表现在人工智能计算机程序用的是启发式知识与启发式搜索方法。Baraiko曾引述Minsky的名言:“如果你不能告诉计算机如何以最佳方式做某件事,就编制程序让计算机试各种方法!”但是,当问题十分复杂时,像一个化合物的制备,如将原子与原子团排列组合,可能的合成路线将会多到难以计数,如何解决这种“组合爆炸”问题?人工智能所用的方法是借助于经验规则,或称“启发式”规则,以缩小搜索的范围。实际上,人类专家在处理问题时,正是这样做的。,6.1 人工智能用于化学计量学研究,人工智能的另一个特征是大量引用领域知识。作为人工智能计算机程序,在进行搜索时应能调用这些领域知识,化学计量学中的人工智能所涉及的领域知识,当然就是化学的专门知识。在人工智能程序中,通常将这种知识与控制搜索的机制分开,这样,知识需要更新时,只需修改知识库。,6.2 人工智能的基本要素,Nilsson曾讨论人工智能的四个基本要素:启发式分类与搜索、知识表达、常识推理与AI语言工具。下面就这四个方面分别讨论。 一、启发式分类与搜索 启发式知识的应用及启发式搜索是专家系统不同于其他计算机程序的特征之一。启发式知识是一些不易精确描述的知识,化学专家系统用到化学家的经验,假如谱图识别、结构判别、合成路线设计等均带有假设的色彩。启发式知识可定义为:有关目前问题状况与合适的解之间的经验性知识。,6.2 人工智能的基本要素,表面上与化学模式识别研究的是同样的分类问题,但模式识别是以描述模式形态特征的一些参量作为基础进行分类的,没有推理机制。而启发式分类是将不同分类层次上相互联系的概念,用不确定联想机制结合起来,启发式分类模型描述了专家系统的知识和推理形式的特征,表达了经验性知识的组织和使用。 用人工智能解决一个问题,常常可说作是在各种不同的可能性之间进行选择,或称“搜索”(search),这个搜索空间可以树的形式表达,如下图就是这种搜索树:,6.2 人工智能的基本要素,图 6-1,在化学中典型的问题是从化合物A出发,如何制取化合物D?这可能有若干种途径,但不可能由A直接制备D,必须经过其他中间步骤。现在我们的目标是要找到最简捷的途径。化学反应一般极其复杂,为便于初步讨论,可将上图的树理解为由东部某镇A骑车到西部某镇D,其间道路甚多,中间可经过不同市镇B、C、E,如何找出最近的路径?上图可称为状态图,问题的解是从初始状态(根结点)经过树的分支到达目标状态(终端结点)的路径。,6.2 人工智能的基本要素,图 6-1,对于大的复杂的问题,要给出这样的显式图是十分困难的,因此,搜索树常是“隐式”的,在向目标搜索的进程中,计算机程序将自动产生各种可能分支与结点,这里可区分正向推理与逆向推理两种情况,即在由起始状态A向目标状态D过渡时,(如上图所示),是正向推理,但也可以逆向由目标态朝起始态搜索,如下图,是逆向推理:,6.2 人工智能的基本要素,正向推理亦称是数据推动的(data-driven),逆向推理又称目标引导的(goal-directed),在用人工智能辅助有机合成路线设计时,就采用逆向推理。对于很简单的问题,直接的办法是进行“盲目搜索”(blind search),这当然是很费时的办法,让计算机依次产生并检验各结点可能出现的分支,随着搜索过程的进行,搜索树不断长大。以图61为例,每个结点可赋予一个水平,根结点位于0水平,接着是水平1,余类推。水平的号次代表了搜索的深度。这里,又可区分若干种盲目搜索方法,下面分别讨论。,6.2 人工智能的基本要素,(1)广度优先搜索(breadth-first search) 这种搜索方法是从根结点出发,依次在每一个水平生成并检验搜索树的各结点,在一个水平的各结点未检验完,即沿广度进行的“横向”扫描未完成前,不开始生成与校验更深水平的结点(即暂不“扩展”)。这里,认为同一水平各结点对问题的求解是等价的,只是按各结点生成的先后次序,先生成的先检验,沿“广度”遍历所有结点,然后才按原次序将先生成的结点先往后扩展,故称为广度优先搜索法。这种搜索法总是能找到以最简步骤达到目标的路线,但不一定是最经济的解决问题的方法。,6.2 人工智能的基本要素,(2)深度优先搜索(depth-first search) 当搜索进行时,由当前检验的结点作为父结点生成下一级子结点,这样由父结点生成子结点的过程继续下去,看每次检验是否出现目标结点,若未出现,再扩展最晚生成的子结点,如此下去,沿着最晚生成的子结点分支,逐级“纵向”深入发展。故此法称为深度优先搜索法,在到达顶点仍未找到目标结点时,往后“回溯”(backtrack),在前一个分支处继续沿深度搜索。,6.2 人工智能的基本要素,(2)深度优先搜索(depth-first search) 深度优先搜索不能保证一定找到最短路径的目标结点,因为如果目标结点不在最晚生成的子结点分支中,且该分支为无穷分支,则搜索过程将无限制地往下进行,即搜索失败。为改进深度优先搜索法,有人提出引入“搜索深度限制”,当沿“最晚”分支进行搜索,这种办法称有界深度优先搜索法。 值得提出的是,上述讨论的盲目搜索法是正向推理,也可使用逆向推理,例如广度优先逆向推理法,对只要求少量搜索的问题,往往可用这种办法。,6.2 人工智能的基本要素,(3)启发式搜索方法(Heuristic search) 总的来说,前面讨论的盲目搜索没有用到所涉及问题的领域知识来指导搜索。对于复杂的实际问题,如化学反应的设计,这种方法常常无法奏效,即由于排列组合太多,出现“组合爆炸”,即如果平均每个结点可有n个分支,则搜索空间将随深度d的增加按nd关系增加。解决的办法是尽可能借助领域知识的帮助,这是人工智能提高求问题解的效率的基本诀窍。,6.2 人工智能的基本要素,(3)启发式搜索方法(Heuristic search) 实际上,人们在日常生活中就是这样做的,如前面从东部A镇向西部D镇进发的例,如纯粹用盲目搜索法,可能因乡间小道错综复杂,难于到达目的地。在无人可询问的情况下,设骑车人是在日落前行进,他可利用的一条启发式规则是:“朝着太阳下山的方向前进”,这样,可能不一定能沿着最优路径行走,但他将一步步接近目标。,6.2 人工智能的基本要素,前面叙述的广度优先搜索等方法,未考虑搜索过程中的“代价”问题,只要找到目标就行。用加权树可表示出各支路的代价,这样,采用代价驱动搜索法,可求解代价最小的路径,而运用启发性知识所求解问题的有关知识和路径,如有机合成化学的知识、合成实验的化学专家的经验,能得到解的出现规律及解的某些性质,估计将要支付的代价等。,6.2 人工智能的基本要素,运用启发式搜索的一种办法是局部择优搜索法,即搜索过程中根据领域知识,在一个局部点各可能路径中选择最有希望逼近目标结点的方向,例如爬山,选最陡上升方向爬,即取梯度函数最大方向搜索,这在只有单峰极值的情况下能奏效。否则,可用全局择优搜索法,在同一级所有子结点中进行比较择优,同时,要对当前结点已付出的代价g,与根据启发信息估计达到目标结点还需付出的代价h进行权衡,如g的权较大,搜索过程倾向于广度优先搜索,强调横向扫描;如h的权较大,搜索过程倾向于深度优先搜索,强调纵向深入。用这样的指导思想,能以较低代价、较高效率搜索到最优解。,6.2 人工智能的基本要素,在结束有关启发式分类与搜索的讨论之前,还要着重指出启发式是不确定的,基于典型性假设的、有时不易理解的一种关系。不确定性是因为启发式认识跳过了大量因果关系的中间层次,而这些中间层次在特定状况下可能不成立也可能造成错误判断,但正是跳过了中间层次,问题的求解才跨出了一大步。,6.2 人工智能的基本要素,二、知识表达技术 AI研究者早就发现,强的智能与其说是由于推理功能强,不如说是由于知识丰富。因此, AI将知识视为高效智能系统的关键要素,知识的表达与管理就成为AI的中心课题之一。知识可定义为具有智能的人或机器能用以作出合理决策的信息。知识表达是指知识的表示与描述,亦即知识的形式或模型化。,6.2 人工智能的基本要素,二、知识表达技术 知识有叙述型、过程型与控制型等几种类型。叙述型知识叙述关于系统的状态、环境和条件,问题的构想、定义、事实等;过程型知识表述有关系统状态的变化、问题求解过程的操作等;控制型知识提供如何选择相应的操作、运算和行动的信息。可用于叙述型知识表达的典型方法有逻辑表达法、语义网络表达法等,而能用于表达过程型知识同时又能表达其他类型知识的表达方法最典型的是产生式规则表达法。,6.2 人工智能的基本要素,下面例介绍几种知识表达技术。 (1)逻辑表达方法 下面是一个逻辑表达的例子: 1、Vx(METAL(x) CONDUCT(x); 2、METAL(IRON); 3、CONDUCT(IRON)。 METAL(x)表示x是金属,这里x可以代表任何是金属的客体,如铜、铁,而METAL是“谓词”。谓词逻辑中,METAL(x)是一个原子谓词公式,x是客体变元,它可以有一个定义域,称为客体域。,6.2 人工智能的基本要素,一个谓词通常可以有若干个客体变元,例如谓词p(x1,x2,xn)称为n元谓词。上例中Vx(METAL(x) CONDUCT(x)表示所有的金属都导电,“Vx”称为“全称量词”,表示客体域中所有个体。在谓词分式p(x)中,x也可以是一个谓词,称x是一阶谓词,p(x)为二阶谓词。所以,知识的逻辑表达通常指用一阶谓词逻辑(First Order Predicate Logic,FOPL)描述人工智能问题。上面的例子表示的意思是所有的金属均导电,铁是金属,故铁导电。逻辑表达较严谨精确,具有通用性,接近自然语言,但灵活性较差,常使推理过程冗长,使用效率较低。,6.2 人工智能的基本要素,(2)语义网络表达法 通过概念及其语义关系用网络图表达知识,用以描述样本、事件、概念等的关系。网络图实际上是图的一种,称有向图,有向图中从一个作为起点的结点到作为终点的结点的线称为弧。语义网络起初是为描述人类记忆的心理学模型提出的,在自然语言研究中,表达复杂句型的语义很方便,语义网络中结点表示对象、概念或事件,弧可用不同方式定义,这取决于被表示的知识,用于表达结构的普通弧有isa和has-part,例如酮作为一种有机化合物概念的表述,如下图:,6.2 人工智能的基本要素,注意,酮的特征基团羰基仅需在酮这一层上存储一次,而不是在各个特定的酮这样较低层次上重复存储。通过有关弧关系含义的知识,可以搜索网络,推出“丁酮含有羰基”这样的事实。这种表达法在推理过程涉及较复杂的推理时有用,它较自然体现了联想思维过程,表达语义关系知识效率较高,但不及逻辑方法严谨,不便于表达判断性知识及动态知识。,6.2 人工智能的基本要素,(3)产生式规则表达法 这是人工智能用于解决化学课题常用的知识表达方法,这种表达方法包含:存储有关问题的状态、性质的叙述性知识的综合数据库,或称事实库;存储有关状态转移等规则的过程性知识的规则集或称规则库;用于选择控制策略、将规则与事实进行匹配、控制利用知识推理求解问题的控制器。,6.2 人工智能的基本要素,(3)产生式规则表达法 最简单的产生式规则有如下格式: IF(如果) THEN(则) 前提 结论 条件 行动 例如,在借助化学反应推测结构时,可将脱水反应表示为如下规则: IF 存在模式 CC0 THEN 转换为模式 C=C 这是脱去一个H2O的结构(H原子均已略去)。产生式系统求解问题的过程,是使事实库转移到满足解的终止条件的状态。,6.2 人工智能的基本要素,(3)产生式规则表达法 一条产生式规则的前提部分可以是能和事实库进行匹配的任何模式,若一条规则的前提部分被匹配,则该规则即属可用;使用一条规则的结果是得到一个结论或产生一个行动(如将CC0转化为C=C),这将使事实库的状态发生转移。控制器按相应策略,控制规则与事实的匹配过程,有效地求解所涉及的问题。,6.2 人工智能的基本要素,产生式系统具有通用性,接近人的自然推理方式,易为用户理解。产生式规则可自由增删、修改,便于用户自行加入领域知识,但简单的产生式系统各规则独立,求解复杂问题时会出现“组合爆炸”,因而效率不高,表达能力亦不够强,需进行扩充,使其前提不限于简单的事实,而事实、情况和条件的综合模式。,6.2 人工智能的基本要素,除上述三种知识表达技术外,还有许多别的知识表达方法,如状态空间表达法,将有关初始状态、目标状态,由前者达到后者所需的“操作”用符号形式表出,或用有向图表出;特征表表达法,即以表格形式表达样本特征,以用于检索;框架表达法,以各种大、中、小框架,相互内外嵌套组合表达状态变化与操作过程。 在研究用人工智能辅助有机合成路线设计时,用到与/或图表达法(AND/OR-graph),这是一种超图,通常为树的形式,亦称与/或树,这种表达知识的方法基于人们求解问题时的两种思维方法。,6.2 人工智能的基本要素,AND树:用于分解,将复杂的大问题分解为一组简单的小问题,将总问题分解为子问题,若所有子问题解决了,总问题亦告解决,子问题解决不了的又可继续分解。如下图:,复杂的大问题,简单的小问题,子子问题,AND树,6.2 人工智能的基本要素,OR树:用于变换,将较难的问题变换为较易的等价的问题,后者如能解决,原有难题亦告解决。如下图:,较难的问题,容易问题,更容易的问题,OR树,实际求解问题可兼用二法,即AND/OR树表达法。,6.2 人工智能的基本要素,三、常识推理 AI研究者们发现,人们的常识推理恰是最难在计算机上模拟的智能活动。常识是一种低水平的推理,是以丰富的日常生活经验为基础的,例如将一物品放手,它将下坠,这就是一种常识,并不一定是学习牛顿万有引力定律后才得出的。如何表述常识是AI中一个重要的课题,很多常识推理是非精确的,即其所依据的事实、规则、所得出的结论仅仅是近似正确,但人们仍能应用这种不十分肯定的事实和规则得出有用的结论,模糊数学是处理这类问题的有用手段之一,在化学专家的经验中,也有不少这类并不精确的常识推理,这是人工智能用于化学一个值得探讨的课题。,6.2 人工智能的基本要素,四、AI语言工具 在计算机科学中,为不同应用目的设计了不同的高级语言,对AI亦不例外。AI研究是一种试验性科学,它的任务是设计具有智能特性的计算机程序,这是一项高难度的工作,要求最优秀的程序语言工具。AI程序的特点之一是进行迭代处理,要求一个迭代环境,例如动态内存分配,许多不可预测的中间数据形态,亦对程序语言的形式与内存管理提出特殊要求。,6.2 人工智能的基本要素,四、AI语言工具 AI程序的另一个特点,是用递归函数表述来简化程序。此外,AI程序主要涉及符号处理,而不是数值运算,需要在知识信息处理方面,具有回溯即返回追踪等功能,这些构成了对AI程序语言不同于一般程序语言的要求。 最常用的AI语言是LISP和PROLOG。LISP是函数型语言,用于表处理、函数处理,它是人工智能领域中应用最广的程序设计语言,是在60年代发展起来的一种表处理语言(List Processing Language)。LISP具有递归函数功能,用于描述过程和问题。LISP语言的核心仍是表处理,它不同于大多数形式语言,设有“语句”概念,而更接近数学形式,是“函数型”语言。,6.2 人工智能的基本要素,四、AI语言工具 PROLOG(Programming in Logic)是基于演绎推理的一种逻辑型程序语言,这一语言在欧洲、日本应用较为广泛。PROLOG语言包含用FOPL表述的公理及其目标(待证明的定律),所以,PROLOG是一个定理证明系统,它有很强的模式匹配功能、回溯功能等。与LISP相同,PROLOG是一种迭代语言,使用动态内存分配。 还有许多其他AI程序设计语言,这里不详述。,6.3 化学专家系统,化学领域中的许多问题,需要专门的有丰富经验的专家才能解决,如复杂波谱的解析、有机合成路线的设计等。所谓化学专家系统,就是具有相当于化学专家的知识和经验水平以及解决专门问题能力的计算机系统,化学专家系统不同于前面各章讨论的化学计量学软件,关于其特点,在6.1一般讨论的基础上归纳如下: (1)化学知识信息处理。化学专家系统主要用于知识信息处理,而不是单纯数值信息处理,依靠化学知识表达技术,而不是单纯的数学描述方法。,6.3 化学专家系统,(2)化学知识利用系统。通过对化学知识的获取、表述、存储和编辑,建立化学知识库及其管理系统,利用化学专家的知识和经验,求解专门的化学问题。 (3)知识推理能力。由于采用基于化学知识的程序设计,化学专家系统的工作是在环境模式驱动下的化学知识推理过程,而不是限于一般化学计量学计算程序的指令执行过程。,6.3 化学专家系统,(4)咨询解释能力。在设计任何专家系统时,都考虑了为用户提问提供解答,对推理过程作出解释,对答案的可信度提供估计,这一可信度相当于数值解的置信区间,注意即使是有声望的化学专家对问题的解析也是会出错的,因此,化学专家系统提供的结论,都具有一定的可信度区间。,6.3 化学专家系统,究竟什么是化学专家系统?一个化学专家系统可定义为能应用化学知识与推理步骤解决足够难的化学问题的智能计算机程序(或今后可能出现的智能硬件机器)。所谓“足够难”,是指解决这类化学问题需要相当水平的化学专家的知识与经验。由于使用到这样高水平的知识与推理步骤,化学专家系统可以认作达到了化学领域实际工作参与者的水平。,6.3 化学专家系统,20世纪60年代开发的DENDRAL系统曾标志专家系统这一人工智能的主流分支的诞生,它就是一个有机分析化学系统,从量测到的有机化合物的质谱数据,产生出化合物的结构图。现以这一专家系统为例,说明化学家系统的基本结构。一个化学专家系统应包括如下组成部分: (1)化学知识库:包括相关化学领域的事实、与问题有关的启发推理等。DENDRAL系统的知识库中包括从实验测得的质谱数据导出有关有机物分子结构的限制的规则(哪些结构可能存在,哪些不可能存在);产生能满足这些限制的可能结构的方法;从结构预测其质谱的规则等。最常用的表达化学知识的方法是产生式规则。,6.3 化学专家系统,(2)推理步骤或控制结构:用于利用化学知识解决相关问题。DENDRAL系统用向前搜索系统。 (3)工作内存区或称“全局数据库”:存储所处理的问题的当前信息,包括输入的数据、已得到的结果等。 DENDRAL系统工作时的全局数据库,是质谱数据、产生的结构限制,可能的结构等。,6.3 化学专家系统,从化学专家系统的结构,可以看出它明显不同于一般化学计量学计算程序之处,是将有关的一般化学知识、规则与当前课题的信息(输入数据),以及用一般知识解决当前问题的方法(规则解析器)明确分开,这样,化学专家系统易于接受新的化学知识并适应新的情况,以解决新的问题。化学专家系统的基本结构示意图如下:,6.3 化学专家系统,6.3 化学专家系统,要构造一个化学专家系统,必须满足下述前提:(1)至少目前有化学专家能很好地解决涉及的问题;(2)化学专家解决涉及的问题的能力应是来源于特殊知识、判断能力与经验;(3)化学专家应能解释他所用的特殊知识、经验诀窍和解决问题的方法;(4)涉及的任务应有明确的应用对象与范围,由于构造一个专家系统相当费时,这一考虑是十分必要的。,6.3 化学专家系统,化学家与计算机专家合作构造的解析质谱及其他波谱的DENDRAL等化学专家系统、用于设计有机合成实验的LHASA等系统,即是在具备相应前提的条件下构造的。 诺贝尔奖获得者Lederberg曾致力于研究用拓朴学表征化学结构。一个给定的化学成分,有多少可能的结构?这曾是再上一世纪为发展图论作出贡献的化学家涉足过的课题, Lederberg试用递归算法,因FORTRAN使用不便,改用LISP,这就与AI发生了联系。,6.3 化学专家系统,给定C、H等原子的集合,找出各种简单基团如-CH3、 -CH2-、CH-,C等,再看由这些基团能组成多少大一些的单元。用LISP可编出这种程序,但似乎并没有任何实际课题涉及这样的问题。当时美国NASA计划向火星发射海盗探测飞船,飞船携带传感器系统。科学家一直怀疑火星现仍有生命,或在某一个时期存在过生命。海盗飞船预定的任务是寻找标志生命的化学分子,这些分子应当为有机酸、酯、醚、醇、酮、醛、胺、氨基酸和小的分子肽。,6.3 化学专家系统,Lederberg的研究与此发生了联系:需要计划实验步骤用于数据采集、分析、解析,探讨火星上有无生命的问题。当时可供选择的化学量测方法仅有质谱(MS),MS可与简化的气相色谱(GC)分离系统联结,以GC-MS分析火星土壤样,数据送回地球解析。一般而言,有机化合物可用搜索法解析,但化合物数以百万计,而当时最大的MS数据库也只有几万个MS谱,而且不能假设火星上生命形式与地球完全相同。在这一背景下, Lederberg与AI研究者协作,开展了在计算机科学领域亦属开拓性的化学专家系统研究。,6.3 化学专家系统,Lederberg先致力于研究从给定的原子集合产生所有可能的非环形分子结构,后又有人研究了能够产生环形结构的拓扑算法。要将这种算法用于实际质谱图解析的化学专家系统,需要与根据质谱图得出的限制条件结合起来,这在DENDRAL系统中得以具体实现。DENDRAL包括三个子系统:(1)启发式DENDRAL系统;(2)结构生成CONGEN系统;(3)“Meta-DENDRAL”系统。,6.3 化学专家系统,启发式DENDRAL系统用LISP语言编制了上述包括环形分子结构的穷举程序,其数据调整器从质谱图中检出对结构生成有重要意义的质谱峰;预推理器根据质谱峰进行初步分析,判断化合物属于哪一类;结构生成器根据预推理器输出的信息,生成对应于质谱图的所有可能的分子结构,将其列入可能分子结构候选表;预测器给出候选结构的预测质谱图,然后将预测质谱图与原谱图比较,检查二者符合情况,按评价函数决定其符合程度,以便按符合程度输出候选分子结构。,6.3 化学专家系统,DENDRAL系统是如何从质谱中推导出化合物属于哪一类,得出有关存在的结构(Goodlist,好表)与不存在的结构(Badlist,坏表)的?我们看一个规则的例子:如果分子的质谱在质量x1与x2处有峰,使得 (1)x1+x2=M+28 (2)x1-28处有峰 (3)x2-28处有峰 (4)在x1、x2处至少有一处有峰 则该分子含有酮基。,6.3 化学专家系统,这个规则是从下述关系导出的:,利用这种规则,对给定的碳、氢、氧原子数,限制产生程序排除大部分可能结构,将被排除的结构引入“坏表”;把产生分子结构的数目,例如从几百个减少到几个,后者列入“好表”。,6.3 化学专家系统,CONGEN(CONstrained GENerator,限制发生器)于20世纪70年代中期设计,以取代原DENDRAL系统中前面叙及的Lederberg提出的给定原子集合下枚举所有可能的非环结构的算法,它能产生环形和非环形结构。所以,CONGEN是一个功能更强的分子结构生成器。通过人机交互,使用CONGEN的化学家可以随时方便地输入启发信息,对分子结构的生成过程加入约束条件。 CONGEN还增加了对立体异构体的考虑。新的CONGEN程序系按深度优先搜索编制,并允许化学家使用时提前停止计算。,6.3 化学专家系统,MetaDENDRAL系统是能够自动建立化学知识库的学习系统。在质谱分析结构解析专家系统构造中,如何使质谱分析专家的知识和经验明确化、系统化,表述为产生式规则,是一个难题。MetaDENDRAL系统通过向样品质谱学习,自动进行归纳处理。 MetaDENDRAL的知识表达采用的是产生式规则,例如,一个简单的规则R1是: R1:NCCC NC*CC,6.3 化学专家系统,为每个分子用下述方法解释这一规则: (1)寻找分子中所有与这条规则左边匹配的分子子图部分; (2)对于每个匹配,将分子在规则右边加星号标记的键断开; (3)保留星号左边的部分(例如保留NC),并记录保留部分的质量。 在一个大分子里,规则R1可多次使用,例如,CH3CH2CH2NHCH2CH2CH2CH3的谱线,包含数据点质量在72和86,使用这个规则导出两个分裂碎片:CH3CH2CH2NHCH2和CH2NHCH2CH2CH2CH3。,6.3 化学专家系统,MetaDENDRAL系统通过学习,从已知化合物的质谱图归纳出有机化合物的裂解规则,学习过程如下图:,6.3 化学专家系统,首先,由解释程序INTSUM从训练集总结出初步的裂解规则,每个分子通过寻找能够解释每个质谱峰产生原因的一个或多个裂解过程,为该分子说明其质谱中的每个峰,利用下述限定条件可限制应取的裂解过程数目: (1)只考虑其裂解碎片与质谱峰的质量数相对应的断裂; (2)质谱领域的语义模型限制:只考虑半阶理论允许的裂解。在质谱领域知识的语义模型中,有所谓零阶理论,这是指分子内部每个键的子集都能断裂,但这个理论不足以有效限制搜索范围,因此,把某些通用的指导方针强加在它上面,称半阶理论。,6.3 化学专家系统,这一理论断言在质谱分析过程中,一些键将要断开而且原子将迁移,关于裂解有如下限制:双键和叁键不断开;芳烃键不断开;在数据中只应出现比两个碳原子还大的裂解碎片;相同碳原子的两个键不能同时断开;在任一次裂解中,断开的键不能多于三个;在一个过程中不会出现多于两次的完全裂解;在多步过程中最多只有两个环形裂解碎片。,6.3 化学专家系统,关于原子迁移有如下限制:在一次裂解之后,至多有两个氢原子能够迁移;在任一次裂解之后,至多脱除一个H2O;在任一次裂解之后,损失至多不过一个CO单位。注意,语义模型是化学与质谱学基本知识及专家经验的总结。利用语义模型,化学质谱专家可以灵活地修订增删约束条件,指导规则生成过程。在INTSUM总结出初步裂解规则以后,“工作”环节根据裂解规则形成模拟质谱,“比较”环节将模拟质谱与实际质谱进行比较,驱动“学习”环节。,6.3 化学专家系统,学习环节中有RULEGEN(规则产生)与RULEMOD(规则修正)两个程序。 RULEGEN寻找较INTSUM产生的初步裂解规则更一般的规则集,它要不仅符合已有的样本,还可解释新的质谱数据,即一般的规则应能正确解释质谱中很多数据点(正的证据),也可预测一些在任意谱图中都不出现的峰(负的证据),正的证据是成功的标志,由这些规则引进的负的证据则由RULEMOD通过规则合并、消除冗余等方法进行修正。,6.3 化学专家系统,假设某一次已成功地使用了一次规则,一旦这个规则中还有一个不合适的例子,RULEMOD能适当地修改这个规则。这里,系统的输入是样本质谱与语义模型,而输出的是关于分子结构分裂过程的产生式规则集。最后,将得到的裂解规则存储于知识库。 可以看出,上述学习过程体现出专家系统程序向训练集样本学习,而同时也吸收了化学与质谱专家的知识与经验。,6.3 化学专家系统,MetaDENDRAL 的应用,不但确证了一些过去已发现的质谱测定法的规则,而且还发现了一些过去未报导的甾烷分子的新规则。 MetaDENDRAL亦用于13C-NMR的解析,这里不涉及类似质谱分析中的裂解过程,因此不需要用到前面叙及的半阶理论。 化学专家系统中另一个突出的例子是借人工智能研究化学合成的程序:LHASA(Logic and Heuristic Applied to Synthetic Analysis,逻辑与启发式合成分析);SECS(Simulation and Evaluation of Chemical Synthesis,化学合成的模拟与评估,这是由LHASA发展的一个分支);以及SYNCHEM(SYNthetic CHEMistry,合成化学)。,6.3 化学专家系统,合成不仅对于生产有价值的药物或其他化合物有实际意义,它对于未知有机化合物的鉴定也是重要的。前面讨论到DENDRAL系统用于解析质谱或其他波谱数据确定最可能结构,这种结构的最终确证,仍需将该化合物实际合成出来,如合成出的化合物与所鉴定的化合物完全相同,则可认为是最终完成了分析鉴定。可见,人工智能辅助有机合成即使对于分析化学工作也是重要的手段与工具。,6.3 化学专家系统,规划合成某一给定组成的化合物是十分复杂的工作,这种合成往往需要很多步骤才能完成。从排列组合上看,由20个原子组成的简单的甾族化合物就有超过1018种可能的组合方法,因此,设计人工智能程序必须充分利用有机合成专家的领域知识,用启发式方法延缓这种组合爆炸的发生。,6.3 化学专家系统,合成方法能通过AND/OR树来表达与观察。AND/OR树表示从目标分子的结点(目标结点)到起始原材料的结点(起始结点),连接结点的分支是化学反应。合成路线中涉及到反应中合成的各中间化合物,用AND结构能将总任务分解为子问题;而每个中间化合物以及最终目标化合物均能有不同的合成方案,可能OR结构进行变换表出,用任何一种较容易的方法合成了该化合物,这一步就完成了。,6.3 化学专家系统,在构造化学知识库时,为设计从原材料合成出目标分子的路线,可用正向与反向两种路径树。正向是将已知反应用于原材料,然后应用于这个反应的产品,依次类推,一直达到目标。但设想合成中虽只有一个目标,却有上千种可能的原料,这样出现的组合爆炸使正向表达很难实现。反向表达则从目标分子出现,选择一种可产生这种目标分子的反应,然后又寻找这个反应的原料的生成反应,再找原料的原料的生成反应,一直到所用原料都是容易从市场上购取或用常规简单方法能合成的物质,这样,反向表达的反应路径树较利用于搜索的进行。,6.3 化学专家系统,上面提及的三种专家系统都有大的逆向化学反应知识库,使用的是产生式规则,每个规则左边代表将要同目标化合物(或中间步骤目标化合物)相匹配的物质,右边是涉及的反应的原料。 辅助有机合成的专家系统的成败取决于有机化学反应知识库的容量与精度。虽然化学反应库还远非完整、精确,但现有的知识库已经包含了大量合成反应的详细描述,LHASA与SECS是交互式程序,依赖于化学家用户与程序的相互对话,设计者们的指导思想是认为程序应能帮助化学家工作,且比化学家或专家系统单独工作更有成效,交互式方法使化学家与专家系统各自承担其最合适的任务一道工作。,6.3 化学专家系统,专家系统不是代替化学家,而是提高化学家解决问题的能力。SYNCHEM则设计为在没有化学家干预的情况下工作,是非交互式的,主要是根据合成的代价,包括原料价格、反应产率等来进行决策。SYNCHEM系统经历了不断的改善,如SYNCHEM2在分子表述中引入了立体化学概念,弥补了SYNCHEM忽略立体化学概念的缺陷。,6.3 化学专家系统,化学专家系统用于色谱分析的研究已较深入,利用专家系统,可进行分离模式和柱系统的选择、操作条件的优化、色谱图的定性与定量、仪器硬件诊断、预处理方法和检测器的选择等工作,卢佩章等在这方面的研究取得了系统的成果。,6.4 人工神经元网络与自适应化学模式识别,人工智能既然是模拟人的智能活动,人们自然想到,人类本身是怎样进行这种活动的?这就是脑模型的问题。 神经细胞是脑组织的基本单元,亦称神经元。人脑是由10101012个神经细胞组成的巨系统。神经元的结构如下图:,6.4 人工神经元网络与自适应化学模式识别,其中的团点是细胞核,能对接到的信息进行处理,细胞核周围的纤维接受信息的称树突,发出信息的称轴突。树突与轴突对接将二个神经元连接起来,众多的神经元连成一个神经元网络。,6.4 人工神经元网络与自适应化学模式识别,而人工神经元网络正是模拟人脑结构的一种大规模的并行联接机制系统,如下图所示:,图中x0,x1,xN-1是神经元的输入信息;w0,w1,wN-1为连接强度,即所谓权;表述神经元输出如下式: y=f(wixi-),N-1,i=0,6.4 人工神经元网络与自适应化学模式识别,f是一个作用函数,可以给予不同的形式,通常为非线性函数;是神经元的阈值;y是神经元的输出。 单个的神经元并不复杂,但大量神经元组成一个网络并动态运行时,则构成一个非线性动力系统,出现极为复杂、丰富的图景,这是人脑作为一个极为复杂系统的缩影,它有自适应、自组织、自学习的能力。,6.4 人工神经元网络与自适应化学模式识别,传统的计算机即所谓Von Neumann计算机的计算与推理能力完全集中在处理单元(即CPU)中,而完成计算和推理所需的知识则存放在计算机的存储器中。从原理上讲,这种计算机任何单位时间内只进行一步计算,每步计算只访问存储器的1、2个存储单元,这是与智能活动需要许多知识单元(概念、证据、前提等)密切相互作用相矛盾的。,6.4 人工神经元网络与自适应化学模式识别,因此,产生了一种设想:对每一个存储单元,不仅是把它作为信息的储藏所,而且把它作为一个处理单元,它能与类似的处理单元进行相互作用,这便是巨大型并行计算机的概念。这种计算机由极多的简单处理单元构成,它的处理能力分布在其各处理单元上,实现信息的存储与处理的结合,神经元网络正好能给这种设想提供基础。,6.4 人工神经元网络与自适应化学模式识别,神经元网络中,一个信息不是存放在一处,而是分布在整个网络,网络的某一处也不是只存储某一个外部信息。这是一种所谓分布式存储方法,这种方法在信息存储时已对其进行了加工,而在信息输出时,也经过了一种处理,而不是简单的输出,这就使系统在其一部分受到损坏时仍能恢复出原来的信息。用一个不完整的或模糊的信息,神经元网络可“联想”出存储在其中的某个完整的信息。,6.4 人工神经元网络与自适应化学模式识别,神经元网络对于不完全或不确定的知识的处理能力,可能对于化学人工智能有特别意义。就知识获取而言,神经元网络可以通过内部组织,从外界环境获取信息。人本身在这方面表现的特殊能力就说明致力于模拟人脑功能。前述人脑的运行方式,也许能解释为何化学家知识愈多,能力就愈强,例如见谱图立即说出结构。而传统的化学专家系统,所包含的知识愈多,系统解决问题时搜索时间越长,愈显“笨拙”?!,6.4 人工神经元网络与自适应化学模式识别,早在20世纪50年代,Rosenblatt提出了感知机(perceptron),这可能是人工神经元网络研究的早期重要进展,这种网络具有自学习能力,它是一个简单的网络,输入信息被送到输出节点,通过函数f作用后,给出输出信息。用感知机有可能对线性可分的模式进行分类,这相当于在d维模式空间中直接用一个超平面将两类样本分开。这种感知机的构造示意图如下:,6.4 人工神经元网络与自适应化学模式识别,6.4 人工神经元网络与自适应化学模式识别,输入细胞接受样本的信号,这里的信号是指有信号(兴奋)与无信号(抑制)两种情况,对应为0或1,例如光谱通道编码为0或1。中枢细胞是联系单元,对来自输入细胞的信号进行加权求和及阈值运算。中枢细胞与输入细胞是随机联接的,一个中枢细胞可以与若干个输入细胞任意地随机联接。当中枢细胞对输入信号的“加权和”大于或等于阈值时,其输入信号取1(兴奋状态),否则取0(抑制状态)。,6.4 人工神经元网络与自适应化学模式识别,所有中枢细胞都与一个输出细胞相联。输出细胞对来自中枢细胞的所有信号进行加权求和,以其输出信号表示感知机相联对样本分类识别的结果,其输出值设计为:当加权和小于阈值A时,输出信号为-1,表示属于甲类;当加权和大于阈值B时,输出信号为+1,表示属于乙类;当加权和在A、B之间时,输出信号为0,表示不能识别;,6.4 人工神经元网络与自适应化学模式识别,先将训练集的样本(分类已知)的参量向感知机输入(参数应设计为0、1编码方式),当输出细胞给出的答案正确时,不改变中枢神经的权值;如分类不正确,将处于兴奋态的中枢细胞的权加以修正。如分类不正确是由于加权和过大,减小权值;如分类不正确是由于加权和过小,增大权值。如此反复以迭代方式完成训练过程,直至训练集所有样本输入后,能给出指示其正确分类的输出。,6.4 人工神经元网络与自适应化学模式识别,感知机存在一个问题,即当样本在d维空间线性不可分时,算法不收敛。Minsky从理论上仔细分析了感知机这种神经元网络系统的功能及局限性,提出增加隐结点构造更复杂的网络能将这一问题解决,但怀疑能建立有效的算法。,6.4 人工神经元网络与自适应化学模式识别,Minsky等的观点对人工神经元网络研究的发展起了延缓的作用,少

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论