AI-05-12-进化计算与遗传算法-----人工智能课程--浙江大学研究生.ppt_第1页
AI-05-12-进化计算与遗传算法-----人工智能课程--浙江大学研究生.ppt_第2页
AI-05-12-进化计算与遗传算法-----人工智能课程--浙江大学研究生.ppt_第3页
AI-05-12-进化计算与遗传算法-----人工智能课程--浙江大学研究生.ppt_第4页
AI-05-12-进化计算与遗传算法-----人工智能课程--浙江大学研究生.ppt_第5页
已阅读5页,还剩82页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1,第十二章 进化计算与遗传算法,徐从富 浙江大学人工智能研究所 2003年11月,2,本章主要参考文献: 1 陈国良, 王煦法 等. 遗传算法及其应用. 人民邮电出版社, 1996. 2 王正志, 薄涛. 进化计算. 国防科技大学出版社, 2000. 3 张颖, 刘艳秋. 软计算方法. 科学出版社, 2002. pp69-108. 4 史忠植. 高级人工智能. 科学出版社, 1998. pp249-270. 5 史忠植. 知识发现. 清华大学出版社, 2002. pp265-294. 6 Mitchell, T. M.著, 曾华军等译. 机器学习. 机械工业出版社, 2003. pp179-

2、196. 7 贺前华, 韦岗, 陆以勤. 基因算法研究进展. 电子学报, 1998, 26(10): 118-122, 103.,3,内容,12.1 概述 12.2 进化系统理论的形式模型 12.3 达尔文进化算法 12.4 分类器系统 12.5 桶链算法 12.6 遗传算法 12.7 并行遗传算法 12.8 分类器系统Boole 12.9 规则发现系统 12.10 进化策略 12.11 进化程序设计,4,12.1 概述,12.1.1 背景 人们对很多高度非线性问题的内部机理还很不清楚: 智能模拟 非线性优化 图像识别,等等。 要解决上述问题,就需要一些具有自组织、自适应能力的大规模并行算法,

3、模拟生物或自然现象就成为AI中的一种自然而又重要的研究方向。因此产生了如下新方法: 人工神经网络 遗传算法、进化计算,等等。,5,生物进化的主要特点: 进化的结果非常复杂 进化的过程非常简单:繁殖、变异、竞争、选择 基于自然选择的软件设计方法解决传统方法中存在的如下最大障碍:需要事先描述问题的全部特点,并说明针对问题的特点,程序应采取的措施。 利用进化机理,人们可以“培育”程序,去解决那些结构尚不清楚的问题。,12.1.1 背景(续),6,遗传算法和进化计算的基本思想:来源于生物进化过程, 它是基于进化过程中的信息遗传机制和优胜劣汰的自然选择原则的搜索算法(以字符串表示状态空间)。遗传算法用概

4、率搜索过程在该状态空间中搜索,产生新的样本。 遗传算法和进化计算是一种通用的问题求解方法,它采用某种编码技术来表示各种复杂的结构,并将每个编码称为一个个体。算法维持一个一定数目的编码集合,称为种群,并通过对种群中的每个个体进行某些遗传操作(如变异、交叉、选择等)来模拟进化过程,最终获得一些具有较高性能指标的编码。,12.1.3 基本思想,7,发展历史,遗传算法的发展历史: 1965年,Holland首次提出了人工遗传操作的重要性,并把这些应用于自然系统和人工系统中。 1967年,Bagley在他的论文中首次提出了遗传算法(Genetic Algorithm,简称GA)这一术语,并讨论了遗传算法

5、在自动博弈中的应用。 1970年,Cavicchio把遗传算法应用于模式识别中。第一个把遗传算法应用于函数优化的是Hollstien。,8,发展历史(续),1975年是遗传算法研究的历史上十分重要的一年。这一年,Holland出版了他的著名专著“Adaptation in Natural and Artificial Systems”(自然和人工系统的自适应性)该书系统地阐述了遗传算法的基本理论和方法,并提出了对遗传算法的理论研究和发展极为重要的模式理论(Schemata Theory),该理论首次确认了结构重组遗传操作对于获得隐并行性的重要性。 同年,DeJong完成了他的重要论文“An A

6、nalysis of the Behavior of a Class of Genetic Adaptive Systems”(遗传自适应系统的行为分析)。他在该论文中所做的研究工作可看作是遗传算法发展过程中的一个里程碑,这是因为他把Holland的模式理论与他自己的实验结合起来。,9,发展历史(续),1988年Mayr提出新达尔文进化理论。 1989年Goldberg对遗传算法从理论、方法和应用上作了系统的总结.,10,特 点,特点: 通用 鲁棒 次优解、满意解 遗传算法能解决的问题: 优化 NP完全问题 NP难解问题 高度复杂的非线性问题,11,进化计算和遗传算法的主要应用领域:,12,遗

7、传算法与自然进化的比较,自然界,染色体,基因,等位基因(allele),染色体位置(locus),基因型(genotype),表型(phenotype),遗传算法,字符串,字符,特征,特征值,字符串位置,结构,参数集,译码结构,13,面向执行的学习系统,任务子系统,学习子系统,任务检测器,任务效应器,执行效应器,执行检测器,14,新达尔文进化理论的主要论点,个体是基本的选择目标; 随机过程在进化中起重大作用, 遗传变异大部分是偶然现象; 基因型变异大部分是重组的产物, 特别是突变; 逐渐进化可能与表型不连续有关; 不是所有表型变化都是自然选择的必然结果; 进化是在适应中变化的, 形式多样, 不

8、仅是基因的变化; 选择是概率型的, 而不是决定型的。,15,12.2 进化系统理论的形式模型,进化在个体群体中起作用。1974年Waddington指出基因型和表型之间关系的重要性。群体禁止异构环境。但是“后成环境”是多维空间。表型是基因型和环境的产物。然后表型通过异构“选择环境”发生作用。 【注】:这种多维选择环境与后成环境空间是不同的。现在,适应性是表型空间和选择环境空间的产物。它经常被取作一维,表示多少子孙对下一代作出贡献。 基于上述思想,1989年Muhlenbein和Kindermann提出了一种称为进化系统理论的形式模型。,16,进化系统理论的形式模型,进化的主要过程,后生环境,遗

9、传操作符,选择环境,g,p,17,进化系统理论的形式模型,其中,g 是基因型 p 是表型 基因gi的可能值称为等位基因。 在门德尔(Mendel)遗传学中,假设每个基因有有限个等位基因。,18,进化系统理论的形式模型,这个变换函数给出了模型,说明表型的发展是通过基因与环境的交互作用而实现的。 变换过程是高度非线性的。,19,进化系统理论的形式模型,质量函数q给出了具体选择环境ESi下表型的质量, 其定义如下:,质量函数定义适应度,用于达尔文选择。目前主要有三种通用模型,即 门德尔遗传学 遗传生态学 进化配子,20,门德尔遗传学,在门德尔遗传学中,基因型被详细模型化,而表型和环境几乎被忽略;在遗

10、传生态学中恰好相反;进化配子论是从社会生物学导出的模型。,首先,讨论门德尔遗传学的选择模型。为简单起见,假设一个基因具有n个等位基因a1,an。二倍基因型以元组(ai, aj)为特征。定义pi,j为总群体中基因型(ai, aj)的频度。假设基因型与表型相等。质量函数给每个表型赋值。 q (ai, aj) = qi,j qi,j可被解释为出生率减去死亡率。,21,门德尔遗传学,假设 pi,j是下一代表型(ai, aj)的频度。然后达尔文选择根据选择方程调整表型的分布:,其中,Q是群体的平均适应度。,22,门德尔遗传学,设 pi 是群体中等位基因的频率。如果 pi,j = pi pj 那么,可得基

11、因型空间GS中的一个选择方程为:,23,门德尔遗传学,这个离散的选择方程可以用连续方程近似:,如果 qi,j = qj,i, 那么这个离散的选择方程可以用连续方程近似:,24,门德尔遗传学,这个方程很容易被证明:,这个结果称作Fisher基本定理。它说明平均适应度随适应度的差别呈正比例增加。实际上,全部可能的基因型仅有一部分实现。这就是遗传操纵子探索基因型空间的任务,其个体数目相当小。这些操纵子是群体遗传变异性的来源。最重要的操纵子是突变和重组。,25,12.3 达尔文进化算法,根据定量遗传学,达尔文进化算法采用简单的突变/选择动力学。达尔文算法的一般形式可以描述如下:,其中, :是一代的双亲

12、数目, :为子孙数目, :称作“混杂”数,若双亲混合其基因,则 = 2。 【注】:仅当是最好的个体才允许产生子孙。 逗号“,”表示双亲们没有选择,加号“+”表 示双亲有选择。,26,12.3 达尔文进化算法,建立原始种体。 通过突变建立子孙。 选择: 返回到步骤(1)。,27,12.4 分类器系统,Holland和他的同事提出了一种分类器系统的认知模型,其中的规则不是规则集, 而是遗传算法操纵的内部实体。 下图给出了分类器系统的一般结构, 它由三层动作构成,即执行子系统、信用赋值子系统和发现子系统。,28,分类器系统,(1)执行子系统处在最低层, 直接与环境进行交互。它与专家系统相同,由产生式

13、规则构成。但是, 它们是通过消息传送,高度并行工作。这类规则称作分类器。 (2)分类器系统中的学习, 要求环境提供反馈, 确认所希望的状态是否达到。系统将评价这些规则的有效性, 这些活动 常常称作信用赋值。有些特定算法专门用来实现信用赋值, 例如, 桶链算法。 (3)最后一层是发现子系统, 该系统必须产生新的规则, 取代当前用处不大的规则。通过系统累积的经验产生规则。系 统根据适应值, 使用遗传算法选择、重组和取代规则。,29,分类器系统,分类器系统的一般结构,发现,遗传算法,信用赋值,桶链,执行,分类器系统,消息来自 输入接口,支付,消息送出 输出接口,(目标),来自内部监控器的消息,30,

14、分类器系统,分类器系统是平行执行、消息传递和基于规则的系统。 在简单的方案中,消息采用规定的字母, 全部为固定长度。 全部规则采用条件/动作形式。每个条件规定必须满足的 信息, 每个动作规定当条件满足时所发送的消息。 为了方便, 假设消息采用长度为l的二进制字符串 记录, 字符采用子集1, 0, #。,31,规则与消息,产生式规则:IF THEN 约定:条件的长度是固定的,用二进制数表示。 定义:,If sj = 1 or sj = 0, then mj = sj If sj = #, then mj can be either 1 or 0.,32,规则与消息,满足要求的全部消息构成子集,

15、即每个子集是在消息空间的一个超平面。分类器系统是由一组分类器 C1, C2, CN、一个消息表、输入接口、输出接口构成。每部分的主要功能如下: (1) 输入接口将当前环境状态翻译成标准消息。 (2) 分类器根据规则, 规定系统处理消息的过程。 (3) 消息表包含当前全部消息。 (4) 输出接口将结果消息翻译成效应器动作, 修改环境状态。,33,分类器系统的基本结构,分类器,消息表,(a)全部消息进行条件测试,条件,消息规约,输出接口,送到环境,输入接口,来自环境,(a),(b),(b)选中分类器产生新消息,34,分类器基本算法,将输入接口全部消息放入消息表。 将消息表中的全部消息与全部分类器所

16、有条件比较, 记录所有匹配。 满足分类器条件部分的每组匹配, 将其动作部分所规定的消息送到新的消息表。 用新的消息表取代消息表中的全部消息。 将消息表中的消息翻译成输出接口的要求, 产生系统当前的输出。 返回到步骤(1)。,35,简单的视觉分类器系统,36,性质检测器规定的值,1,如果移动对象,0,其它,(0,0),如果对象在视野的中间,(1,0),如果对象在中心的左边,(0,1),如果对象在中心的右边,1,如果系统是对象的近邻,0,其它,1,如果对象很大,0,其它,1,如果对象是狭长的,0,其它,37,规则表示,规则: IF 如果有“捕食(prey)”(small, moving,nonst

17、riped object), 处于视野中间(centered), 非邻近 (nonadjacent), THEN 迅速移向对象 (ALIGN), (FAST). 可以表示为: 00#000001 / 0100000000000000, ALIGN, FAST.,38,网络图,MOVING,SMALL,NOT STRPED,NEAR,FAR,01001 ALERT,10001 TARGET,11001 PORSUE,11010 APPROACH,11011 FLEE,11100 FREEZE,10010 DANGER,39,网络图的规则表示,MOVING和ALERT之间的箭头: 00#1/010

18、01# SMALL,NOT STRIPED and ALERT到TARGET的箭头: 00#00#,01001#/ 10001#,40,学习机制,分类器系统使用两个学习机制, 桶链(bucket brigade) 算法。基于对系统的贡献, 对现有规则分配一个信用值。 规则发现算法。这包括遗传算法,该算法可产生新规则,用于改善系统的知识库。,41,12.5 桶链算法,桶链(bucket brigade) 算法基于对系统的贡献, 对现有规则分配一个信用值。主要解决多条规则同时要求被激活时的竞争问题。 例如:下面的情况下应该选择哪条规则。,011101# #:0000,# #00:0001 00#

19、0:1100,42,主要问题,引入信用值后的两个问题: 当多条规则同时要求被激活时,如何解决竞争问题 对一规则被激活产生过作用的那些规则如何分配信用,43,桶链算法,为解决上述两个问题,引入拍卖行和票据交易所: 当有多个分类器获得匹配时,每个分类器要出一个与其强度成正比的叫价B 叫价高的分类器被激活并允许发送消息,同时通过票据交易所,将其叫价B提供给激活的分类器。 如此继续下去,一条规则可通过消费者获利(增加了强度),通过规则的不断激活形成一条消费者链,直至最终消费者(达到目标)直接从环境中得到补偿。 若链中一条规则导致错误结论,则序列上该规则的强度将减弱,并且沿着序列回溯,从而产生新的消费者

20、链,44,举例,环境0111,强度为0,叫价系数为0.1。 索引号分类器强度 101# #:0000200 200# 0:1000200 311# #:1000200 4# #00:0001200,45,第一步,分类器 强度 消息 匹配 叫价 01# #:0000 200 E 20 00# 0:1000 200 11# #:1000 200 # #00:0001 200,46,第二步,分类器 强度 消息 匹配 叫价 01# #:0000 180 0000 00# 0:1000 200 1 20 11# #:1000 200 # #00:0001 200 1 20 两条规则同时激活,47,第三步

21、,分类器 强度 消息 匹配 叫价 01# #:0000 220 00# 0:1000 180 1100 11# #:1000 200 2 20 # #00:0001 180 0001 2 18,48,第四步,分类器 强度 消息 匹配 叫价 01# #:0000 220 00# 0:1000 218 11# #:1000 180 1000 # #00:0001 162 3 16,49,第五步,分类器 强度 消息 匹配 叫价 强度 01# #:0000 220 220 00# 0:1000 218 218 11# #:1000 196 196 # #00:0001 146 0001 206 规则4

22、达到目标获得补偿60。,50,投标改变分类器的强度,在时间t满足C 送去消息的分 类器,对在t-1作 用的分类 器投标,在时间t对分类器C的支持,51,分类器中的遗传算法,遗传算法可产生新规则,用于改善系统的知识库。 可以在三种情况下应用GA: 引入一个参数T(时间间隔),用于控制何时使用GA。 特殊情况时(如消息的条件都不能匹配)使用GA。 系统的性能太差。,52,算法步骤,t=0,随机生成集合Bt,|Bt|=M(大小); 计算Bt中全体分类器的平均强度Vt,对每个分类器赋予一个标准强度St(Cj)/Vt; 给Bt中的每个分类器Cj赋予一个与其标准强度成正比的概率,并根据Bt中的概率分布,从

23、Bt中选取n个分类器,nM; 对每个分类器应用交叉算子,生成2n个分类器; 将Bt中的2n个强度最低的分类器用新生成的2n个取代; t=t+1,转(2)。,53,算法说明,算法中S0(Cj)是预知的; 实现时考虑结束条件; 该算法是经典GA的变种,其中没有变异算子; 新分类器的强度是由旧分类器的强度决定的。,54,12.6 遗传算法,遗传算法先将搜索结构编码为字符串形式, 每个字符串结构被称为个体。 然后对一组字符串结构(被称为一个群体)进行循环操作。每次循环被称作一代,包括一个保存字符串中较优结构的过程和一个有结构的、随机的字符串间的信息交换过程。 类似于自然进化,遗传算法通过作用于染色体上

24、的基因寻找好的染色体来求解问题。,55,遗传算法,与自然界相似,遗传算法对求解问题的本身一无所知,它所需要的仅是对算法所产生的每个染色体进行评价,并基于适应值来选择染色体,使适应性好的染色体有更多的繁殖机会。 在遗传算法中,位字符串扮演染色体的作用,单个位扮演了基因的作用,随机产生一个体字符串的初始群体,每个个体给予一个数值评价,称为适应度,取消低适应度的个体,选择高适应度的个体参加操作。 常用的遗传算子有复制、杂交、变异和反转。,56,遗传算法与传统优化算法的主要不同,遗传算法不是直接作用在参变量集上, 而是利用参变量集的某种编码; 遗传算法不是从单个点, 而是在群体中从一个点开始搜索; 遗

25、传算法利用适应值信息, 无需导数或其它辅助信息; 遗传算法利用概率转移规则, 而非确定性规则。,57,遗传算法的准备工作,确定表示方案; 确定适应值的度量; 确定控制该算法的参数和变量; 确定怎样指定结果及程序运行结束的标准。,58,基本的遗传算法,随机产生一个由固定长度字符串组成的初始群体; 对于字符串群体,迭代地执行下述步骤,直到选种标准被满足为止: 计算群体中的每个个体字符串的适应值; 应用下述三种操作(至少前两种)来产生新的群体: 复制: 把现有的个体字符串复制到新的群体中。 杂交: 通过遗传重组随机选择两个现有的子字符串, 产生新的字符串。 变异: 将现有字符串中某一位的字符随机变异

26、。 把在后代中出现的最高适应值的个体字符串指定为遗传算法运行的结果。这一结果可以是问题的解(或近似解)。,59,基本遗传算法的流程图,GEN=0,概率地选择遗传操作,随机创建初始群体,是否满足选中标准?,计算群体中每个个体的适应值,i:=0,i:=M,指定结果,结束,GEN:=GEN+1,是,是,否,(转下页),60,概率地选择遗传操作,根据适应值选 择一个个体,完成杂交,i:=i+1,i:=i+1,完成繁殖,p(r)繁殖,(接上页),基于适应值选 择两个个体,把新的两个孩 子加到群体中,p(c)杂交,变异p(m),把新的孩子加 入到群体中,完成变异,根据适应值选 择一个个体,把变异后个体 加

27、入到群体中,61,表示模式,所谓模式就是一个相同的构形, 它描述的是一个串的子集, 这个集合中的串之间在某些位上相同。 模式的复制生长方程: 这表明, 一个特定的模式按照其平均适应值与群体的平均适应值之间的比率生长。,62,杂交操作,杂交操作是个有结构、随机的字符串间信息交换过程。 简单的杂交操作分为三步 从当前群体B(t)中选择两个结构: 随机选择一个整数 交换a和a中位置x左边的元素, 产生两个新的结构:,63,具有强度的遗传算法,在t = 0时随机产生M字符串的群体B(t)。计算群体B(t)中字符串的平均强度 v(t), 给群体B(t)中的每个字符串赋以规范值 S(Cj, t)/v(t)

28、。 对群体B(t)中的每个字符串赋与一个概率值, 其值与规范值成正比。然后, 使用概率分布, 从B(t)中选择n对字符串, nM, 并且将它们复制。 对每对复制字符串进行杂交操作, 形成2n个新的字符串。 用步骤(3)中生成的2n个新的字符串取代群体B(t)中2n个强度最低的字符串。 时间 t 变为 t + 1, 返回步骤(1)。,64,杂交操作举例,1,0,2,2,0,2,0,1,No Offspring,Pt. of interchange Crossover,Parents,Offspring,1110#0#,1#0111#,0001#11#,010#1000,#00#11,0#01#1

29、0#,#100100,100#0111,6,17,1,1110#11#,0001#0#,0001#11#,#00#11,#00#11,0#01#10#,000#0111,1#01#10#,65,变异操作,简单的变异操作过程如下: 每个位置的字符变量都有一个变异概率, 各位置互相独立。通过随机过程选择发生变异的位置: 产生一个新结构 , 其中 是从对应位置 的字符变量的值域中随机选择的一个取值。 可以同样得到。,66,反转操作,简单反转操作的步骤如下: 从当前群体中随机选择一个结构 从中随机选择两个数i和j, 并定义 i = mini,j, j=maxi,j; 颠倒a中位置i、j之间的部分, 产

30、生新的结构,67,遗传算法举例,问题:求 (1)编码: 此时取均长为5,每个染色体 (2)初始群体生成:群体大小视情况而定,此处设置为4,随机产生四个个体: 编码: 01101,11000,01000,10011 解码: 13 24 8 19 适应度: 169 576 64 361 (3)适应度评价:,68,(4)选择:选择概率 个体: 01101,11000,01000,10011 适应度: 169 576 64 361 选择概率:0.14 0.49 0.06 0.31 选择结果:01101,11000,11000,10011 (5)交叉操作:发生交叉的概率较大 哪两个个体配对交叉是随机的

31、交叉点位置的选取是随机的(单点交叉) 0110 1 01100 11 000 11011 1100 0 11001 10 011 10000,69,(6)变异:发生变异的概率很小 (7)新群体的产生: 保留上一代最优个体,一般为10%左右,至少1个 用新个体取代旧个体,随机取代或择优取代。 11000,11011,11001,10011 (8)重复上述操作: 说明:GA的终止条件一般人为设置; GA只能求次优解或满意解。 分析:按第二代新群体进行遗传操作,若无变异,永远也找不到最优解择优取代有问题。 若随机的将个体01101选入新群体中,有可能找到最优解。,70,12.7 并行遗传算法,基于离

32、散门德尔模型的遗传算法由六部分组成: 对给定问题求解的染色体表示; 求解的原始物种; 起环境作用的品质函数; 可以生成子孙的个体的选择过程; 一种遗传操纵子,如变异、重组; 控制算法本身的参数。,71,并行遗传算法,并行遗传算法: 给定具有不同开始表型的N个个体; 每个个体计算局部最大; 选择在“近邻”中选择配对; 用重组和突变创建子孙; 返回步骤2。,72,12.8 分类器系统Boole,Wilson 于1987年开发了一个布尔问题的分类器系统 Boole(Wilson 1987)。一个布尔函数变量L 是从长度为L的字符串到 0, 1的映射。学习函数意味获得对任何输入字符串能给出正确输出0

33、或 1的能力。,73,分类器强度调整算法,将与所选动作相同的分类器形成子集 M,称作动作集 A。将不在 M中的其它分类器放在集合 NOTA中。 在A中的全部分类器强度减少一个分数e。 如果系统决策正确,则将赢利量R分配给A的强度; 如果系统决策错误,则将赢利量R(其中0RR)分配给 A的强度,从A的强度减少一个分数p。至少R和p中的一个为0。 从 NOTA中的强度减去一个分数t。,74,Boole的遗传算法,根据P中分类器的强度,通过概率选择第一个分类器 。 根据概率 , 与步骤(1)相同,选择分类器 ,并对 和 进行杂交;从结果中选择一个作为子孙,另一个被抛弃。 如果步骤 (2) 未完成,则

34、复制 形成子孙。 对子孙应用变异操作,以概率 改变每个分类的等位基因。 如果通过杂交生成子孙,每个父母的强度减少三分之一,子孙的初始强度等于父母减少的总和;否则减少 的一半,而子孙的初始强度等于减少的量。 将子孙加到P中。 根据P中分类器强度的概率分布,删除最小的一个分类器。,75,12.9 规则发现系统,在规则发现系统中, 学习经常是首先评价系统现有的规则质量, 然后进行修改。Grefenstette 研制了一种规则发现系统RUDI。 问题求解级由简化的分类器系统组成。学习级是对知识结构群 体进行遗传算法操作, 每一个表示为一组规则表。知识结构的整 个行为控制这些结构的复制。 在RUDI中,

35、 信用赋值方法赢利共享规划(Profit-Sharing Plan, 简称PSP) 和桶链算法(BBA) 对每个规则提供互补的效用信息。 根据期望的外部奖励, PSP-强度对规则效用提供更精确的评估。 当问题求解时它被用作冲突消解。与此相反, BBA-强度表示规则 之间的动态相关性, 规则点火依次会聚到相似水平。这种测度可 以用作一组协作规则的聚类。,76,规则发现系统,Grefenstette 提出一种强度修改方案称作嬴利共享规划PSP。 在这种方案中问题求解划分成情节, 按所接受的外部奖励区分。 如果任何步情节在投标竞争中获胜, 则认为该规则在该情节活动。 在情节t, PSP 修改每个活动

36、规则Ri的强度 Si(t) 如下: Si(t + 1) = Si(t) -bSi(t) + bp(t), 其中, p(t) 称作在情节结束时所获得的外部奖励, 即当获得外部 奖励,从每个活动规则搜集投标, 每个活动规则给出一部分外部奖 励。考虑PSP 对给定规则Ri 的影响, 它按照方程得到:,77,规则发现系统,其中, t 的范围是在该情节规则 Ri 是活动的, 即Si(t) 基本上 外部奖励的权值平均p(t), (1 - b) 作为指数衰减因子。如果 b 足够小,那么 S(t) 具有 p(t) 的平均值。如果外部奖励 p(t) 是常数,p*, 那么Si 收敛到一个平衡值 Si*:,78,规则发现系统,在常

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论