下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于熵最优化的工程项目风险预警方法
项目风险预警系统是根据项目的实际特点,在不同的建设阶段研究和评估风险因素,确定风险等级,建立预警系统,采取风险防范和控制措施,降低风险损失,确保项目顺利进行。然而,由于项目的复杂性,在风险评估过程中,人们无法全面、正确地识别项目的真实状态,只能依靠一些指标(特征)来评估其所属类别。显然,这些指标的选择非常重要,这也将严重影响分类器的设计和性能。然而,当前项目指标的选择和评价主要集中在对专家的咨询和评估上。因此,解决资源选择问题是项目风险预算模型设计的一项重要课题。本工作使用最小干扰阈值和专家评估的方法,完成了评价模型中的资源选择。在风险分类中,基于极云原理,设计了公共簇中的公共熵函数。然后,利用优化理论,提出了一种新的集群聚类算法。这是c-平均值算法的推广。1项目风险评价模型的设计1.1判别熵概率分布描述工程项目经营管理状况的指标涉及到技术开发风险、生产风险、市场风险、资金风险、金融风险、技术管理风险、社会环境风险等各个方面.特征选取基本任务是从许多特征中找出那些最有效的特征.作为不确定性的一种度量的表达式shannon熵,这样一种概念也可以用来作为某个概率分布密度p(xi)偏离给定标准分布ω(xi)的程度的度量,把它叫做相对熵,即V(p,ω)=-∑p(xi)log[p(xi)/ω(xi)]≤0(1)求和应在该特征所有可能的取值上进行.相对熵越小,这两类概率分布的差别就越大,但两类概率分布完全相同时,相对熵达最大值(等于零).根据相对熵的特点,可以定义判别熵W(p,q)来表征两类分布p(xi)和q(xi)的差别大小.w(p,q)=V(p,q)+V(q,p)=-∑p(xi)logp(xi)-∑q(xi)logq(xi)+∑p(xi)logq(xi)+∑q(xi)logp(xi)≤0(2)在多种情况下,可以用∑i∑jW(p(i),q(j))来表示各类分布之间的分离程度.i,j代表类别号.对于特征提取来说,在给定维数d的条件下,应该求得这样d个指标,它使上述判别熵最小.为了计算方便起见,可以用下列函数U(p,q)=-∑i(pi-qi)2≤0(3)来代替W(p,q),而不影响选取d个最优指标的结果.在不对概率分布作估计的情况下,可以用经过归一化处理的样本指标值来代替上式中的概率分布:p(1)i=1Ν1Ν1∑k=1(x(1)ki)2D∑i=1(x(1)ki)2=1}(4)式中,k是第一类样本集中的样本号;N1是第一类的样本总数;i是特征号.由于D∑i=1pi=1,所以这样做是合理的.同理计算qi.1.2极大熵聚类算法若按判别熵最小原则,即依据式(3),式(4),在n个项目样本组成的样本集中,选定样本的k个指标,指标矩阵可表示为X=[x11x12⋯x1nx21x22⋯x2n⋮⋮⋮xk1xk2⋯xkn](5)式中,xij为样本j指标i的指标值,i=1,2,…,k,j=1,2,…,n.亦可将X表示成一个指标向量集X={x1,x2,…,xk}⊂Rn.若将项目风险状态等级总数记为c,即c个评语等级,考虑某种相似性度量,则可将X聚合成c个分离开的子集X1,X2,…,Xc.每个子集表示一类,分别包括n1,n2,…,nc个指标向量,设Xj={x(j)1,x(j)2,…,x(j)nj}.为了衡量聚类的质量,常采用误差平方和J为目标函数,即J(X,V)=c∑j=1∑xk∈Xjp(xk)∥xk-vj∥2(6)式中,p(xk)是抽样概率;V={v1,v2,…,vc}⊂Rn是码本;而vj(j=1,2,…,c)称为码向量;它被定义为第j类Xj的均值,即vj=1njn∑k=1x(j)k;指标向量xk∈Xj由最近邻原理定义,即当∥xk-vj∥2=minl∥xk-vl∥2,xk∈Xj.C-均值算法就是由最近邻原理和vj=1njn∑k=1x(j)k定义的,但它是一个启发过程,而不是一个最优化过程,这是由于函数J是不可微的,于是无约束最优化的梯度方法不能够直接应用.这类算法最大的问题是算法训练没有一个终止准则,算法最后结果严重依赖码向量的初始值.从最优化理论的角度看,求式(6)的最小问题其实是个不可微优化问题.人们常用一簇可微函数逼近目标函数来处理该问题.比如,文献借助极大熵原理构造了一致逼近目标函数的熵函数,本文根据这一思想,研究了一种极大熵聚类算法进行分类.对于指标向量x,定义函数fx:Rcn→Rc,fx(V)=fx(v1,v2,…,vc)=(-‖x-v1‖2,-‖x-v2‖2,…,-‖x-vc‖2)T,则∥fx(V)∥∞=maxj(-∥x-vi∥2)=-minj(∥x-vj∥)2.于是式(6)可以改写为J(X‚V)=Κ∑k=1p(xk)(-∥fxk(V)∥∞)(7)下面引入一种新的衡量聚类质量的目标函数,Jc=Jc(X,V)=c∑j=1∑xk∈Xjp(xk)p(vj|xk)∥xk-vj∥2=c∑i=1∑xk∈Xjp(xk,vj)∥xk-vj∥2=Κ∑k=1p(xk)Jc(V|xk)(8)式中,p(xk,vj)是xk和vj的联合概率;p(vj,xk)是条件概率;Jc(V|xk)定义为Jc(V|xk)=Jc(v1,v2,⋯,vc|xk)=c∑j=kp(vj|xk)∥xk-vj∥2(9)当完全分配一个指标向量给与之最近的码向量,即条件概率由下式定义时,p(vj|xk)={1,xk∈Xj0,其他(10)式(8)退化为式(6).此时关于自由参数{vj,p(vj|xk)}(k=1,2,…,K;j=1,2,…,c)求式(8)定义的Jc最小,立即可以产生一个硬聚类解.然而可以把这个最优化问题考虑为去寻找一个分布,在满足一定程度随机性下它最小化目标函数Jc.自然,随机程度可以用X和V的Shannon联合熵来度量,即Η(X,V)=-Κ∑k=1c∑j=1p(xk,vj)lnp(xk,vj)(11)于是这个最优化问题可以简单地变为Lagrange最小化问题:L(X,V)=Jc(X,V)-ΤΗ(X,V)(12)T是Lagrange乘子.很明显,对大的T,主要是试图最大熵,随着T的降低,以熵换取失真的减少,当T趋于零,最小Jc直接获得一个非随机解.进一步分析由式(12)定义的Lagrange函数L,首先注意到可以分解联合熵:Η(X,V)=-Κ∑k=1c∑j=1p(xk,vj)lnp(xk,vj)=-Κ∑k=1c∑j=1p(xk)p(vj|xk)ln(p(xk)p(vj|xk))=-Κ∑k=1c∑j=1p(xk)p(vj|xk)(lnp(xk)+lnp(vj|xk))=-Κ∑k=1p(xk)lnp(xk)-Κ∑k=1p(xk)c∑j=1p(vj|xk)lnp(vj|xk)=Η(X)+Κ∑k=1p(xk)Η(V|xk)=Η(X)+Η(V|X)(13)其中Η(X)=-Κ∑k=1p(xk)lnp(xk)(14)Η(V|xk)=Η(v1,v2,⋯,vc|xk)=-c∑j=1p(vj|xk)lnp(vj|xk)(15)Η(V|X)=-Κ∑k=1p(xk)c∑j=1p(vj|xk)lnp(vj|xk)=Κ∑k=1p(xk)Η(V|xk)(16)由于H(X)是信源熵,它独立于聚类,因而可以从函数L中抽取常数H(X),而主要集中于条件熵H(V|X).另一方面,由式(6)定义的目标函数J总是非负的,自然也希望逼近它的函数L同样非负,但由于-H(V|X)是负的,因而这个条件不能够得到保证.然而知道H(V|X)=Κ∑k=1p(xk)⋅H(V|xk)≤Κ∑k=1p(xk)lnC=lnC,并且min(-H(V|X))同min(lnC-H(V|X))是等价的.于是可以把最小化问题式(12)变为min{LΤ(X,V)=Jc(X,V)+Τ(lnC-Η(V|X))=Κ∑k=1p(xk)LΤ(V|xk)}(17)LΤ(V|xk)=Jc(V|xk)+Τ(lnC-Η(V|xk))(18)关于p(vj,xk)直接最小化LT(X,V),可以得到p(vj|xk)满足Gibbs分布,即p(vj|xk)=exp[-∥xk-vj∥2/Τ]Ζxk(19)正则参数Zxk为Ζxk=C∑j=1exp[-∥xk-vj∥2/Τ](20)把式(19)代入到式(17),就可以获得函数LT(X,V)相应的最小形式L*T(X,V):LΤ*(X,V)=minp(vj|xk)LΤ(X,V)=Τ∑k=1Κp(xk)⋅[lnC-ln∑t=1cexp[-∥xk-vj∥2/Τ]]=∑k=1Κp(xk)LΤ*(V|xk)(21)其中,L*T(X,V)称为熵函数(或凝聚函数).LΤ*(V|xk)=-Τln∑j=1Cexp[-∥xk-vj∥2Τ]+ΤlnC(22)关于码向量vj最小化L*T(X,V),设置它的梯度为零,经过简单计算得到:∑k=1Κp(xk)p(vj|xk)(xk-vj)=0(23)或∑k=1Κp(xk,vj)(xk-vj)=0(24)所以vj=∑k=1Κp(xk,vj)xk∑k=1Κp(xk|vj)=∑k=1Κp(vj)p(xk|vj)xkp(vj)=∑k=1Κp(xk|vj)xkj=1,2,⋯,c(25)在实际应用中,一般都假设X={x1,x2,…,xk}⊂RN中的指标向量是相互独立的,即p(xk)=1/K时,此时由式(23)可得vj=∑k=1Κp(vj|xk)xk∑k=1Κp(vj|xk)j=1,2,⋯,c(26)综上所述,由于该聚类算法起源于极大熵函数,称之为极大熵聚类算法.可以看出,当T→0时极大熵聚类算法就是C-均值算法,由此可以说极大熵聚类算法是C-均值算法的一种推广格式;而当T→∞时,由于所有的码向量的值相等,因而实际上是把所有的指标向量聚成一类.由式(25)或式(26)可知,算法对于任一指标向量是以概率为比例分配给所有码向量,而不是仅仅只完全分配给与之最近的码向量,它在一定程度上能克服标准C-聚类对初始码向量选取敏感的问题.而且算法对具有噪声干扰的指标向量进行聚类时具有较强的鲁棒性.2案例研究以某高速公路路面结构设计和道路工程质量检验为例,对公路工程质量进行风险预警.2.1特征提取指标根据公路工程质量评定国家标准,将评定要素取为特征集,利用专家评价法从中选择10个特征,对每一个要评判的具体工程,其评定结果可分为2类:优,劣.通过德尔斐法选择12条优质和12条劣质高速公路的数据作为训练样本.现要将10个指标值通过特征提取后得到4个指标,用pi表示第1类(劣质)样本的第i个指标值的概率分布,qi表示第2类(优质)样本的第i个指标值的概率分布,通过式(6)计算得出pi和qi的值.为保证式(5)成立,只需找出使-(pi-qi)2最小的4个指标即可.从而得到特征提取后的4个指标为:路基路面,安全舒适,桥梁涵洞,排水防护.2.2确定初始值迭代规则将某高速公路路面结构设计和道路工程质量检验作为测试样本,取出其4个指标值.根据极大熵聚类算法的步骤:定义危机等级c=2,Lagrange乘子
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五版美发培训学校师资聘用标准合同4篇
- 2025年度门面租赁合同电子版(含租金递增与调整机制)
- 2025年度签竞业协议打工人财产保全及职业规划合同
- 二零二五年度酒店前台员工权益保障与劳动合同
- 二零二五年度超市与物流公司货物扣点运输合同
- 2025年度复杂地质条件顶管施工安全协议书
- 2025年度住宅室内装修工程保修协议
- 2025年度签竞业协议打工人财产保全及心理支持合同
- 2025年度跆拳道青少年运动员培养合作协议
- 二零二五年度退休人员教育辅助教学劳务合同
- 2024公共数据授权运营实施方案
- 2024年国家焊工职业技能理论考试题库(含答案)
- 《向心力》 教学课件
- 结构力学数值方法:边界元法(BEM):边界元法的基本原理与步骤
- 2024年山东省泰安市高考语文一模试卷
- 北师大版物理九年级全一册课件
- 2024年第三师图木舒克市市场监督管理局招录2人《行政职业能力测验》高频考点、难点(含详细答案)
- RFJ 006-2021 RFP型人防过滤吸收器制造与验收规范(暂行)
- 盆腔炎教学查房课件
- 110kv各类型变压器的计算单
- 新概念英语课件NCE3-lesson15(共34张)
评论
0/150
提交评论