投影寻踪方法及其应用_第1页
投影寻踪方法及其应用_第2页
投影寻踪方法及其应用_第3页
投影寻踪方法及其应用_第4页
投影寻踪方法及其应用_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

投影寻踪方法及其应用第一页,共二十九页,编辑于2023年,星期三报告内容1投影寻踪方法的基本原理与建模步骤4总结与讨论3基于加速遗传算法的投影寻踪等级评价模型2基于加速遗传算法的投影寻踪聚类模型第二页,共二十九页,编辑于2023年,星期三1投影寻踪方法的基本原理与建模型步骤

1.1投影寻踪方法的基本原理投影寻踪(projectionpursuit,PP)方法属于直接由样本数据驱动的探索性数据分析方法。它把高维数据{x(i,j)}通过某种组合投影到低维子空间上{z(i)},对于投影到的构形,采用投影指标函数Q(z(i))来描述投影暴露原系统某种分类排序结构的可能性大小,寻找出使投影指标函数达到最优(即能反映高维数据结构或特征)的投影值z(i),然后根据该投影值来分析高维数据的分类结构特征(如投影寻踪聚类评价模型),或根据该投影值与研究系统的实际输出值之间的散点图构造适当的数学模型以模拟系统输出(如投影寻踪等级评价模型)。第三页,共二十九页,编辑于2023年,星期三1投影寻踪方法的基本原理与建模步骤

1.2投影寻踪方法的建模步骤步骤1:高维样本数据的预处理,确定系统输入。步骤2:构造投影指标函数。步骤3:优化投影指标函数。步骤4:建立系统模型。第四页,共二十九页,编辑于2023年,星期三2基于加速遗传算法的投影寻踪聚类模型AGA-PPCE

2.1基于加速遗传算法的投影寻踪聚类模型的建立步骤1:评价指标值的归一化处理。设样本集为{x*(i,j)|i=1~n,j=1~p}。其中x*(i,j)为第i个样本第j个指标值。为消除各指标值的量纲和统一各指标值的变化范围,可采用下式进行极值归一化处理:

式中,xmin(j)、xmax(j)分别为样本集中第j个指标值的最小值和最大值。

第五页,共二十九页,编辑于2023年,星期三2基于加速遗传算法的投影寻踪聚类模型AGA-PPCE

2.1基于加速遗传算法的投影寻踪聚类模型的建立步骤2:构造投影指标函数。PP方法就是把p维数据{x(i,j)|j=1~p}综合成以a=(a(1),a(2),

…,a(p))为投影方向的一维投影值z(i)

然后根据{z(i)|i=1~n}的一维散布图进行分类。式(2.2)中a为单位长度向量。在综合投影值时,要求投影值z(i)的散布特征应为:局部投影点尽可能密集,最好凝聚成若干个点团;而在整体上投影点团之间尽可能散开。据此投影指标函数可构造为

Q(a)=SzDz(2.3)式中,Sz为投影值z(i)的标准差,Dz为投影值z(i)的局部密度,即

第六页,共二十九页,编辑于2023年,星期三2基于加速遗传算法的投影寻踪聚类模型AGA-PPCE

2.1基于加速遗传算法的投影寻踪聚类模型的建立

步骤3:优化投影指标函数。当各指标值的样本集给定时,投影指标函数Q(a)只随投影方向a的变化而变化。可通过求解投影指标函数最大化问题来估计最大可能暴露高维数据某类特征结构的最佳投影方向:maxQ(a)=SzDz(2.4)

这是一个以{a(j)|j=1~p}为优化变量的复杂非线性优化问题,用模拟生物优胜劣汰规则与群体内部染色体信息交换机制的加速遗传算法(AGA)来求解上述问题较为简便和有效。

第七页,共二十九页,编辑于2023年,星期三加速遗传算法(AGA)

步骤1:模型参数的编码。设码长为e,第j个参数的变化区间为[aj,bj],j=1~p。把这些区间等分成2e-1个子区间:

cj=aj+Ijdj(2)式中子区间长度dj=(bj-aj)/(2e-1)是常数;搜索步数Ij为小于2e的十进制整数,是变数;j=1~p(下同)。把Ij转化成e位二进制数{ia(j,k)|,k=1~e}(下同),即式(3):第八页,共二十九页,编辑于2023年,星期三

步骤2:初始父代群体的随机生成。生成n组各p个均匀随机数(简称随机数){u(j,i)|,i=1~n},经下式转换成十进制整数。

Ij(i)=INT[u(j,i)2e](4)式中INT为取整函数。由式(3)得对应二进制数ia(j,k,i),它们与n组模型参数cj(i)对应,并把它们作为初始父代个体群。

编码与解码的逻辑过程:cj(i)~Ij(i)~ia(j,k,i)第九页,共二十九页,编辑于2023年,星期三

步骤3:父代个体适应能力评价。把第i组参数代入式(1)得目标函数值fi,fi越小表示模型与观测值拟合得越好,适应能力越强,设第i个个体的适应能力与fi成反比。构造选择概率序列{pi},把[0,1]区间分成n个子区间:(0,p1),(p1,p2),…,[pn-1,pn],它们与n个个体一一对应,fi越小的个体对应的子区间长度越大。第十页,共二十九页,编辑于2023年,星期三步骤4:父代个体的概率选择。生成n个随机数{ui|i=1~n},若

ui∈[pi-1,pi],则选取第i个父代个体,其二进制数记为ia1(j,k,i)。同理可得另外的n个父代个体ia2(j,k,i)。选择是遗传算法的关键,它体现了优胜劣汰的思想。第十一页,共二十九页,编辑于2023年,星期三

步骤5:父代个体的杂交。由步4得到的父代个体配对成n对双亲。生成两随机数u1和u2,再转成十进制整数:IU1=INT(1+u1·e),IU2=INT(1+u2·e),设IU1≤IU2(否则互换其值)。杂交是指第i对双亲ia1(j,k,i)和ia2(j,k,i)随机变换一段二进制数,从而生成第i对子代个体:01101——00101(5)10100——11100(6)(杂交前)(杂交后)第十二页,共二十九页,编辑于2023年,星期三步骤6:子代个体的变异。生成随机数u1,u2,u3和u4。当u1≤0.5时子代个体取式(5),否则取式(6),记其二进制数为ia(j,k,i)。把u2、u3转换为十进制整数:

IU1=INT(1+e·u2),IU2=INT(1+e·u3)设子代变异的概率(称为变异率)为pm。变异是当u4≤pm时对子代个体的IU1位和IU2位的值进行翻转操作:01101——00111(变异前)(变异后)第十三页,共二十九页,编辑于2023年,星期三

步骤7:进化迭代。第i个子代个体经式(3)、式(2)转化成第i组模型参数。这n个子代个体作为新的父代,算法转入步3,进入下一轮进化过程,重新评价、选择、杂交、变异,如此反复进化,使个体的适应能力不断提高,直到最优个体的优化准则值小于某一指定值或最优个体的优化准则值不再改善,则终止进化迭代,算法结束。第十四页,共二十九页,编辑于2023年,星期三

(a)初始分布(b)第20次进化迭代后的分布

(c)第60次进化迭代后的分布

第十五页,共二十九页,编辑于2023年,星期三步骤8:加速循环。用第一次、第二次进化迭代所产生的优秀个体的变量变化区间作为变量新的初始变化区间,算法进入步骤1,重新运行SGA算法,如此加速循环,优秀个体的变化区间将逐步调整和收缩,与最优点的距离将越来越近,直到最优个体的优化准则函数值小于某一设定值或算法运行达到预定加速(循环)次数,结束整个算法的运行。此时,就把当前群体中最佳个体或优秀个体的平均值指定为AGA的结果。

第十六页,共二十九页,编辑于2023年,星期三[AGA的主要特点]利用标准遗传算法演化过程中的优秀个体子群体来逐步调整、压缩算法的搜索空间。控制参数设置:二进制编码长度e、杂交概率和变异率分别固定设置为10、1.0和1.0;群体规模n与优秀个体数目s关系:s/n>n/(e·2e),(n,s)的常用配置有(300,10)、(400,20)和(500,30);每次加速循环中AGA只进行两次SGA的进化迭代。p个变量、加速循环q次,优秀个体包围最优点的概率为(1-0.52s)pq第十七页,共二十九页,编辑于2023年,星期三

步骤4:建立聚类模型。把由步骤3求得的最佳投影方向a*代入式(2.2)后,得各样本点的投影值z*(i)。投影值z*(i)与z*(j)越接近,表示样本i与样本j越倾向于分为同一类。按z*(i)值从大到小排序,据此可把各指标的样本集进行分类。第十八页,共二十九页,编辑于2023年,星期三2基于加速遗传算法的投影寻踪聚类模型AGA-PPCE

2.2基于加速遗传算法的投影寻踪聚类模型在气候区划中的应用气候区划就是把研究区域划分成若干个分区,在同一分区内具有相似的气候条件,以便调整种植结构,因地制宜地发展农业生产。

表2.1气候样本集及其投影值

气候因子j

j=1j=2j=3j=4j=5j=6j=7j=8j=9j=10样本年平均极端最高极端最低≥10年年降水年日照年均相对无霜海拔凌冻天投影值气温/°C气温/°C气温/°C积温/°C量/mm数/h湿度/%期/d高度/m数/dz*(i)1毕节12.933.6–10.13672.0904.31236.0822501510.615.21.2952大方11.831.5–8.83332.81176.91265.9842561700.033.21.2833黔西14.135.4–8.64047.4964.11263.6812741272.114.61.7224金沙15.136.0–6.24703.31049.71091.681304920.07.52.1915织金14.233.1–9.54264.21432.61165.6822801319.011.81.7286纳雍13.733.5–8.44005.61234.31447.7812681457.114.21.6257威宁10.431.1–14.52572.8943.51960.3801902234.563.90.2718赫章13.435.7–11.63948.9892.81400.8792441534.912.41.282

第十九页,共二十九页,编辑于2023年,星期三图2.1气候样本投影值z*(i)的散布图由表2.1和图2.1可知:①该样本集按投影值z*(i)从大到小排序的样本序号依次为样本点4、5、3、6、1、2、8和7。其中,样本4可单独分为A类,样本5、3、6、1、2和8可分为B类,样本7可单独分为C类,该分类结果与文献“刘崇欣.黔西北林木气候区划的聚类分析.农业系统科学与综合研究,1997,13(3)”的模糊聚类结果和根据表2.1各样本的对比分析结果都是一致的。②B类可进一步细分为由样本5、3和6组成的B-1类和由样本1、2和8组成的B-2类。③根据文献所示各样本的地理位置可知,以上分类具有明确的地理意义:A类、B类和C类分别位于研究区域的东部、中部和西部,B-1类和B-2类分别位于研究区域的中南部和中北部。

第二十页,共二十九页,编辑于2023年,星期三3基于加速遗传算法的投影寻踪等级评价模型AGA-PPGE

3.1AGA-PPGE的建立步骤1:评价指标值的标准化处理。设样本集为{x*(i,j)|i=1~n,j=1~p}。其中x*(i,j)为第i个样本第j个指标值。为消除各指标值的量纲和统一各指标值的变化范围,可采用下式进行标准化处理:

式中,Ex(j)、Sx(j)分别为原第j个评价指标{x*(j,i)|i=1~n}的均值和标准差。

第二十一页,共二十九页,编辑于2023年,星期三3基于加速遗传算法的投影寻踪等级评价模型AGA-PPGE

3.1AGA-PPGE的建立步骤2:构造投影指标函数。PP方法就是把p维数据{x(i,j)|j=1~p}综合成以a=(a(1),a(2),

…,a(p))为投影方向的一维投影值z(i)

式中,a为单位长度向量。在综合投影值时,要求投影值z(i)应尽可能多地提取{x(j,i)}中的变异信息,即z(i)的标准差Sz达到尽可能大,同时要求z(i)与已知标准等级值y(i)的相关系数的绝对值|Rzy|达到尽可能大。为此,投影指标函数可构造为

Q(a)=Sz|Rzy|式中,Sz和Rzy分别为

第二十二页,共二十九页,编辑于2023年,星期三3基于加速遗传算法的投影寻踪等级评价模型AGA-PPGE

3.1AGA-PPGE的建立

步骤3:优化投影指标函数。当给定标准等级及其评价指标的样本数据{y(i)|i=1~n}和{x*(j,i)|j=1~p,i=1~n}时,投影指标函数Q(a)只随投影方向a的变化而变化。不同的投影方向反映不同的数据结构特征,最佳投影方向就是最大可能暴露高维数据某类特征结构的投影方向。可通过求解投影指标函数最大化问题来估计最佳投影方向:

maxQ(a)=Sz|Rzy|这是一个以{a(j)|j=1~p}为优化变量的复杂的非线性优化问题,用AGA可方便地求解上述优化问题。

第二十三页,共二十九页,编辑于2023年,星期三3基于加速遗传算法的投影寻踪等级评价模型AGA-PPGE

3.1AGA-PPGE的建立

步骤4:建立投影寻踪等级评价模型。把由步骤3求得的最佳投影方向的估计值a*代入投影值公式后,得第i个样本投影值的计算值z*(i),根据z*(i)~y(i)的散点图建立相应的等级评价模型。z*(i)与y(i)之间一般呈单调非降关系,当z*(i)值超过某门限值时就判定为最高等级(N级),当指标值低于另门限值时就判定为最低等级(1级),当z*(i)值介于这两门限值之间时则为中等等级,可用逻辑斯谛曲线来描述:

式中y*(i)为第i个样本等级的计算值;模型参数c(1)、c(2)分别为积分常数和增长率,可通过求解如下优化问题来确定:

第二十四页,共二十九页,编辑于2023年,星期三3基于加速遗传算法的投影寻踪等级评价模型AGA-PPGE

3.2AGA-PPGE在洪水灾情等级评价中的应用表3.1河南省洪水灾情等级标准灾情等级指标一般灾较大灾大灾特大灾成灾面积(hm2)<46.746.7~136.7136.7~283.3>283.3直接经济损失(亿元)<9.59.5~31.031.0~85.0>85.0根据表3.1,可用如下方法随机产生各灾情指标值及其对应的标准灾情等级样本系列:①四个灾情等级值一般灾、较大灾、大灾、特大灾分别对应标准灾情等级值1、2、3、4。②确定一般灾的左端点值和特大灾的右端点值,这里分别取为一般灾的右端点值的0.5倍和特大灾的左端点值的3倍,这样,所有灾级都有一个范围。③利用均匀随机数在每个灾级范围内产生5个值,考虑到直接经济损失一般与成灾面积具有正相关性,同一样本点的直接经济损失的随机数应与成灾面积的随机数相同。④在灾情等级标准表中取边界值各一次,灾情等级值取与该边界值有关的两个灾级值的算术平均值。这样得到的样本点如表3.2序号1~23所示。

第二十五页,共二十九页,编辑于2023年,星期三表3.2洪水灾情等级的标准值和PPGE模型的计算值的对比结果序号灾情指标投影洪水灾情等级序号灾情指标投影洪水灾情等级

ix*(1,i)x*(2,i)值z*(i)标准值计算值ix*(1,i)x*(2,i)值z*(i)标准值计算值

138.707.900-1.1781.01.36917157.3038.600-0.4693.02.486238.507.800-1.1801.01.36618283.3085.0000.4223.53.498332.106.500-1.2151.01.31519556.90167.1002.1714.03.967424.204.900-1.2571.01.25620649.50194.9002.7634.03.987536.407.400-1.1911.01.35021602.30180.7002.4614.03.979646.709.500-1.1351.51.43222446.50134.0001.4664.03.897797.6021.700-0.8402.01.89523694.90208.5003.0534.03.992860.4012.800-1.0562.01.552195072.929.900-1.0422.01.5749112.6025.200-0.7552.02.0331954148.1320.656-0.6792.02.1561056.2011.800-1.0802.01.5151956203.9227.521-0.4213.02.5591180.6017.600-0.9392.0

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论