




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
./主成分-聚类分析在各地区火灾事故中的应用摘要:消防安全是公共安全的重要组成部分,火灾事故不仅严重威胁着人们的生命财产安全,而且还会引起社会恐慌和不安。鉴于近年来我国火情比较严重,本文根据国家统计局《统计年鉴-2010》年中的火灾事故统计表,通过主成分、聚类法对30个省市火灾事故情况进行了分析。并探讨了这两种方法的可行性,得出了火灾事故严重性评价的主要因素,及根据火灾严重性对各省市进行分类情况,对相关管理部门有一定的参考价值。关键字:火灾事故;主成分分析;聚类分析问题提出火灾事故是现代社会危害较大,发生较频繁的灾害,其不仅严重威胁着人民的生命财产安全,而且火灾造成的负面影响也严重危害着社会的安定。据国家统计局统计数据显示,20XX全国共发生火灾事故132497起,造成人员死亡1205人,重伤624人,直接经济损失达195945.2万元,造成了巨大的社会负面影响。另一方面,随着人们生活水平的提高,人们对安全的保障要求也越来越高,因此消防安全就愈发显得重要紧迫,那么如何更加合理的对消防安全进行管理,这就涉及到对以往火灾事故的分析总结,寻前车之鉴来更好的防未来。因此,根据主成分分析不同因素对火灾事故严重程度评价的的影响关系,找出主要影响因素,这对火灾严重程度的评判具有重要的意义。进而根据严重程度的主要因素,运用聚类分析把各地的火灾事故情况进行聚类,划分出各个严重性所包含的区域,对有关部门的统筹管理是很有必要的。问题解决的理论方法1.主成分分析原理:主成分分析是一种把原来多个指标化为少数几个互不相关〔或相互独立〔在总体是多维正态总体时的综合指标的一种统计方法,可以达到数据简化、揭示变量之间的关系和进行统计解释的目的,为进一步分析总体的性质和数据的统计特性提供一些重要信息[1]。在实际中有重要的应用地位。例如在社会经济的研究中,为了全面系统的分析和研究问题,必须考虑许多经济指标,这些指标能从不同的侧面反映我们所研究的对象的特征,但在某种程度上存在信息的重叠,具有一定的相关性。能否从着众多的指标中构造出很少几个互不相关的所谓综合指标,而且这几个综合指标应尽可能充分的反映原来众多指标的信息。从而使辨识系统从高维空间转化成低维空间,降低问题的难度。对于总体X=<x1,…,xp>’,我们给出X的综合指标F1,…,Fk的确定原则为:Fi是X的线性函数,即要求Fi=Li’X,Li是p*1维待定常数向量,i=1,…,k;要求D<yi>尽可能大,即yi能充分反映X的变化情况,i=1,2,…,k;要求F1,…,Fk互不相关,即Cov<Fi,Fj>=0,或者说F1,…,Fk之间尽可能不含重复信息。这样的F1,…,Fk均称为X的主成分。注意主成分的个数营销与原始变量的个数,至于应该保留几个主成分应该权衡主成分个数和保留的信息。主成分的具体求解为:第一主成分,设X的协方差阵为由于Σx为非负定的对称阵,则有利用线性代数的知识可得,必存在正交阵U,使得其中1,2,…,p为Σx的特征根,不妨假设12…p。而U恰好是由特征根相对应的特征向量所组成的正交阵。i=1,2,…,p则为系统的第一主成分,若第一主成分信息量不够则找第二主成分,确定原则相似,即是找第二大特征值对应的特征向量,与X相乘即可。所以,求主成分即是求X的协方差阵的特征向量Ui,UiX即是第i个主成分。主成分分析本身往往并不是最终目的,而是达到目的的一种手段。它大多用于大型研究项目的某个中间环节。例如用在回归分析、聚类分析等研究项目中。2.聚类分析原理:聚类分析的研究目的就是把相似的对象归并成类,研究的主要容是如何度量相似性以及怎样构造聚类的具体方法以达到分类的目的,所用的工具乃是数学[2]。它是在没有知道类型的个数或对于各种类型的结构未做任何假设情况下的一种比较原始的方法。聚类的依据是相似性或距离。所以,需要引进一些能够刻画相似性的度量指标或数据。聚类分析的基本思想是我们所研究的样品或指标〔变量之间存在程度不同的相似性〔亲疏关系——以样品间距离衡量。于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间相似程度的统计量,以这些统计量为划分类型的依据。把一些相似程度较大的样品〔或指标聚合为一类,把另外一些彼此之间相似程度较大的样品〔或指标又聚合为另一类,直到把所有的样品〔或指标聚合完毕,这就是分类的基本思想。在聚类分析中,通常我们将根据分类对象的不同分为变量聚类分析和样本聚类分析两大类。变量聚类分析的主要作用是:不但可以了解个别变量之间的关系的亲疏程度,而且可以了解各个变量组合之间的亲疏程度;样本聚类分析的优点是:可以综合利用多个变量的信息对样本进行分类,分类结果是直观的,聚类谱系图非常清楚地表现其数值分类结果,聚类分析所得到的结果比传统分类方法更细致、全面、合理。聚类分析方法主要有系统聚类法和动态聚类法。系统聚类法的基本思想是:先将每个研究对象〔样品或指标各自看成一类,按某种顺序分别称作第1,第2,…,第h类,然后根据对象间的相似度量,将h中的相似的两类合并为一类,这样得到h-1类,再在这h-1类中选出最相似的两类合并,得到h-2类,如此下去知道将所有的对象合并成一个大类为止。动态聚类的基本思想是:先给出一个粗糙的初始分类,然后用某种原则进行修改,直到分类比较合理为止。方法应用数据资料来源:国家统计局:《中国年统计年鉴—2010》中的"公共管理及其他"部分[4],"全国各地区火灾事故情况"中的30个省、直辖市的30组数据,将数据列成表格形式为:全国各地区火灾事安全评价指标<20XX>序号地区发生数死亡人数受伤人数直接经济损失人口火灾发生率X1<起>X2<人>X3<人>X4<万元>X5<1/10万人>1北京546832134361.043.342天津1148233624.711.603河北475729145692.66.524山西443926146331.712.785878951145306.735.836辽宁556642143756.513.097吉林786243257129.128.868294426135444.27.669上海570243547149.240.3710江529685528975.57.0911浙江383488426835.58.0812安徽517335218474.37.5813福建401655189374.811.3814江西471521118074.410.0515山东7226321513315.07.5816河南353416133781.93.2717湖北93832593821.315.2618湖南29153348388.04.1219广东61581326417825.17.2320广西128732146094.22.4121海南1052311201.311.7422重庆5040432413689.315.2623四川6204372111197.86.8924贵州166173414566.23.9725云南206964207363.94.5726陕西462023118354.211.9327甘肃114116132887.94.2128青海16231213926.029.5129宁夏3447511338.253.6430新疆520960413040.924.07数据来源:各个指标值根据《中国年统计年鉴——2010》的"公共管理及其他",由于信息不全故不做统计计算。1、主成分分析过程:下面对各个指标的数据进行应用统计分析,为了对各地区的火灾发生数x1、死亡人数x2、受伤人数x3、直接经济损失〔万元x4、人口火灾发生率x5,进行主成分分析,也就是对这五个指标进行降维处理。找出火灾严重程度的评价的主要因素,具体程序分析如下:主成分分析程序:dataw;inputx1-x5;cards;5468 32 13 4361.0 43.341148 23 3 624.7 11.604757 29 14 5692.6 6.524439 26 14 6331.7 12.788789 51 14 5306.7 35.835566 42 14 3756.5 13.097862 43 25 7129.1 28.862944 26 13 5444.2 7.665702 43 54 7149.2 40.375296 85 52 8975.5 7.093834 88 42 6835.5 8.085173 35 21 8474.3 7.584016 55 18 9374.8 11.384715 21 11 8074.4 10.057226 32 15 13315.0 7.583534 16 13 3781.9 3.279383 25 9 3821.3 15.262915 33 4 8388.0 4.126158 132 64 17825.1 7.231287 32 14 6094.2 2.411052 3 1 1201.3 11.745040 43 24 13689.3 15.266204 37 21 11197.8 6.891661 73 41 4566.2 3.972069 64 20 7363.9 4.574620 23 11 8354.2 11.931141 16 13 2887.9 4.211623 12 13 926.0 29.513447 5 1 1338.2 53.645209 60 41 3040.9 24.07;procprincompdata=w;varx1-x5;run;运行结果如下:TheSASSystem21:45Sunday,April11,20121ThePRINCOMPProcedureObservations30Variables5SimpleStatisticsx1x2x3x4x5Mean4409.26666740.1666666720.433333336510.71333314.99633333StD2247.90435627.3648192616.106720243969.76656113.35252772CorrelationMatrixx1x2x3x4x5x11.00000.23620.22990.41000.2963x20.23621.00000.84880.5793-.2025x30.22990.84881.00000.4837-.0421x40.41000.57930.48371.0000-.3140x50.2963-.2025-.0421-.31401.0000EigenvaluesoftheCorrelationMatrixEigenvalueDifferenceProportionCumulative12.485960491.193140890.49720.497221.292819600.493086420.25860.755830.799733180.510446310.15990.915740.289286870.157087010.05790.973650.132199860.02641.0000TheSASSystem21:45Sunday,April11,20122ThePRINCOMPProcedureEigenvectorsPrin1Prin2Prin3Prin4Prin5x10.2890410.631186-.500386-.514779-.051716x20.577733-.0856200.322199-.1667340.726142x30.5459740.0244750.496424-.078685-.669840x40.513375-.068206-.4993950.693635-.035635x5-.1450470.7674780.3872580.4689150.141735结果分析:上述程序分析结果表明样本为30组5维的观测数据,其中X1、X2、X3、X4、X5的均值分别为4409.266667,40.16666667,20.43333333,6510.713333,14.99633333,方差分别为2247.904356,27.36481926,16.10672024,3969.766561,13.35252772。样本的相关矩阵对应上述结果中的CorrelationMatrix所示,相关矩阵的特征表如EigenvaluesoftheCorrelationMatrix〔分别列出了矩阵的特征值,方差,贡献率,累计贡献率所示,特征值越大,它所对应的主成分变量包含的信息就越多,并且由该图可知X1-X5贡献率分别为,49.72%,25.86%,15.99%,5.79%,2.64%;由第四列的累计贡献率可知前3个成分就包含了原来5个指标的91.57%的信息,也就是前三个主成分已经完全符合统计的要求。因此在分析中取三个主成分进行分析。结果中的Eigenvectors部分列出了主成分的表达式,由最大特征值的特征向量知,第一主成分是:Y1=0.289041x1*+0.57773x2*+0.545974x3*+0.513375x4*-0.145047x5*由第二大特征值的特征向量知,第二主成分是:Y2=0.631186x1*-0.085620x2*+0.024475x3*-0.068206x4*-0.145047x5*由第三大特征值的特征向量知,第三主成分是:Y3=0.500386x1*+0.322199x2*+0.496424x3*-0.499395x4*-0.387258x5*其中x1*、x2*、x3*、x4*、x5*分别为变量标准化后的数据。由于x1-x5的量纲不同,为了准确需对其进行标准化,标准化后的数据如下图所示:变量X1-X5标准化后的数据表:序号地区x1*x2*x3*x4*x5*1北京0.470987-0.29844-0.46151-0.541522.1227192天津-1.4508-0.62733-1.08236-1.48271-0.254363河北0.154692-0.40807-0.39942-0.20609-0.634814山西0.013227-0.5177-0.39942-0.04509-0.1659951.9483630.395885-0.39942-0.30331.5602796辽宁0.5145830.066996-0.39942-0.6938-0.142777吉林1.5359790.1035390.2835260.1557741.038288-0.65184-0.5177-0.46151-0.26866-0.549439上海0.5750840.1035392.0840160.1608371.90028910江0.3944711.6383571.9598440.62089-0.5921211浙江-0.255911.7479861.3389860.081815-0.5179812安徽0.339753-0.188810.0351820.494635-0.5554313福建-0.174950.542059-0.151080.721475-0.2708414江西0.136008-0.70041-0.585680.393899-0.3704415山东1.253049-0.29844-0.337331.714027-0.5554316河南-0.38937-0.88313-0.46151-0.6874-0.8782117湖北2.212609-0.55424-0.70985-0.677470.01974718湖南-0.66474-0.26189-1.020280.472896-0.8145519广东0.7779393.355892.7048752.850139-0.5816420广西-1.38897-0.29844-0.39942-0.10492-0.9426221海南-1.49351-1.35819-1.20654-1.33746-0.2438722重庆0.2805870.1035390.221441.8083150.01974723四川0.798403-0.115720.0351821.180696-0.607124贵州-1.222591.1998371.2769-0.48983-0.8257925云南-1.041090.870948-0.02690.214921-0.7808526陕西0.093747-0.62733-0.585680.464382-0.2296427甘肃-1.45392-0.88313-0.46151-0.9126-0.8078128青海-1.2395-1.0293-0.46151-1.406811.0869629宁夏-0.42807-1.28511-1.20654-1.302982.89410930新疆0.3557680.7247751.2769-0.874060.679547计算综合评价值:Z=0.4972Y1+0.2586Y2+0.1599*Y3根据上述得到的主成分分析结果算出各个样本的主成分Y1、Y2、Y3及综合评价指标Z如下表所示:表:各省市个主成分值及Z值〔从大到小排序编号城市Y1Y2Y2Z值省市1北京-0.258360.040578-0.641192.7951932天津-2.17079-0.75048-0.626441.4854993河北-0.606990.2289360.09640.973118山西-0.560560.07005-0.271660.95972850.6444080.9804810.451440.7246076辽宁-0.407520.3773150.4825620.6667597吉林0.8891460.8063380.4628160.6461378-0.95708-0.28038-0.375130.5554619上海1.722060.1185250.5394560.50518410江2.3634340.2002131.6174140.48771311浙江1.633817-0.208871.2595830.31972712安徽0.1817020.27830.0947140.30816613福建0.511216-0.17046-0.243310.17745614江西-0.536620.158347-0.501610.17119115山东0.8049670.771859-0.27749-0.0278816河南-1.355-0.00718-0.0251-0.0814617湖北-0.413161.4699920.906877-0.2204918湖南-0.77586-0.33623-0.84422-0.2271819广东5.0192720.1598631.615198-0.29220广西-0.98254-0.71704-0.57202-0.3040421海南-2.59708-0.72933-1.02153-0.3060622重庆1.1930270.047455-0.62702-0.607723四川0.7012060.5222370.025161-0.6083524贵州0.665713-0.689970.973114-0.6795825云南0.184642-0.63375-0.05862-0.76541广西26陕西-0.450.100184-0.58894-1.1289527甘肃-1.7681-0.67396-0.47259-1.2219828青海-1.76945-0.76723-0.89935-1.2880829宁夏-1.77405-0.5206-1.69728-1.3735630新疆0.8685560.1548031.218768-1.64322Z值在一定程度上代表该地区的火灾严重程度,z值越大表明火灾事故严重程度也高,从排序结果可以看出首先是最为严重,最低,这也为后面聚类分析提供了相应的对比。2、聚类分析过程:利用上面主成分分析后降维的结果,选择Y1、Y2、Y3三个因子作为聚类变量,对这30个省市的火灾事故情况进行分类,用SAS系统聚类程序,即是使用CLUSTER过程和TREE过程进行系统聚类。CLUSTER过程的一般用法为:PROCCLUSTERDATA=输入数据集METHOD聚类方法选项;VAR聚类用变量;RUN;其中:VAR语句指定用来聚类的变量;PROCCLUSTER语句主要选项有:输入DATA=数据集,可以使原始观测数据集,也可以是距离矩阵数据;METHOD=选项,这是必须指定的,此选项决定了我们要用的聚类方法,主要由类间距离定义决定,方法有AVERAGE、CENTROID、COMPLETE、SINGLE、DENSITY等等。OUTTREE=输出系统聚类树数据集,把系统聚类数据输出到一个数据集,可以用TREE过程绘图并实际分类。Std选项,把变量标准化为均值0,标准差1。如果不能通过专业知识确定数据实际分类个数,就可以考察CCC,PSEUDO等统计量来确定一个合理的分类个数。TREE过程用法:TREE过程可以把CLUSTER过程产生的OUTTREE=数据集作为输入,画出谱系聚类的树图,并按照用户指定的聚类水平〔类数产生分类结果数据集。一般格式如下:PROCTREEDATA=输入聚类结果数据集;OUT=输出数据集GRAPHICSNCLUSTER=类数选项;RUN;PROCTREE语句的重要选项有:DATA=数据集,指定从CLUSTER过程生成的OUTTREE=数据集作为输入。OUT=数据集,指定包含最后分类结果〔每一个观测属于哪一类,用一个CLUSTER变量区分的输出数据集。CLUSTERS=选项,由用户指定最后把样本观测分为几类。GRAPHICS是指定画谱系聚类的树图时使用高分辨率图形〔要求有SAA/GRAPH模块。HORIZONTAL,画树图时横向画[3]。聚类程序如下:Datad1;inputgroup$y1-y3;cards;-0.258360.040578-0.64119-2.17079-0.75048-0.62644-0.606990.2289360.0964-0.560560.07005-0.271660.6444080.9804810.45144-0.407520.3773150.4825620.8891460.8063380.462816-0.95708-0.28038-0.375131.722060.1185250.5394562.3634340.2002131.6174141.633817-0.208871.2595830.1817020.27830.0947140.511216-0.17046-0.24331-0.536620.158347-0.501610.8049670.771859-0.27749-1.355-0.00718-0.0251-0.413161.4699920.906877-0.77586-0.33623-0.844225.0192720.1598631.615198广西-0.98254-0.71704-0.57202-2.59708-0.72933-1.021531.1930270.047455-0.627020.7012060.5222370.0251610.665713-0.689970.9731140.184642-0.63375-0.05862-0.450.100184-0.58894-1.7681-0.67396-0.47259-1.76945-0.76723-0.89935-1.77405-0.5206-1.697280.8685560.1548031.218768;Procclustermethod=avepsedocccouttree=wintree1;vary1-y3;idgroup;proctreedata=wintree1horizontalgraphics;run;运行结果如下:图1.类平均聚类法的聚类过程图2.使用类平均法的谱系聚类图结果分析:图1表示了类平均聚类法的聚类过程,并列出样本数据协方差矩阵的特征值,两相邻特征值只差,各个特征值占总方差的百分比,累计百分比。ClusterHistory表显示的具体的聚类过程,NCL表示聚类的次数,FREQ为新类中所含的样本数,SPRSQ为半偏R2,表示每一次合并对信息的损失程度。看这一列数据可知:虽然从两类聚成一类时候损失跟从三类聚成两类时候的损失差不多,均为0.29均可以作为最大值,因此选择聚成三类比较合适,具体的聚类情况见图2分析。图2为利用类平均法做成的谱系聚类图,由图可知和具有最大的相似性,其次是和……总体聚类情况如图所示,根据图中聚类距离的远近来判断不同省份的火灾事故严重程度的相似性。按照图1的分析可知应将总体分为三大类合适,分别为:A={};B={、、、、、广西、、、、、、、、、、、、、、、、、、};C={,、、、};由分类结果可知,将30样本分为三类,分别为A、B、C,通过其与"表:各省市个主成分值及Z值〔从大到小排序"中的Z值相比可以明显看出,其与表示危险性的Z值完全吻合,证明了此聚类方法的可行性和正确性。可以定义A类为火灾严重区,定义B类为一般区域,同样C区为较安全区。因此将全国各省市按照火灾事故严重程度大致划分四个区域分别如下:严重区:A={};一般区域:B={、、、、、广西、、、、、、、、、、、、、、、、、、};较安全区:C={,、、、};结论:根据上述分析可知,利用主成分分析对火灾事故的严重性分析得出了影响火灾事故严重性评价的主要因素Y1,Y2,Y3,接着根据主成分分析得到的主要影响因素,使用聚类分析方法对各省市的火灾事故严重程度进行聚类,得到三类,分别定义为严重区、一般区和较安全区域。通过与现实情况及Z值的对比,可以看出此方法可信可行,对进行火灾事故的严重性评价具有较高的价值,而且聚类结果还可以为有关管理部分提供一定的参考。参考文献资料:吴、永乐、胡庆军.应用数理统计.国防科技大学。286吴、永乐、胡庆军.应用数理统计.国防科技大学.341曲庆云、晓梅,阮桂海等.统计分析方法—SAS实例精选.清华大学.271—272国家统计局,统计年鉴2011,.附:主成分分析程序:dataw;inputx1-x5;cards;5468 32 13 4361.0 43.341148 23 3 624.7 11.604757 29 14 5692.6 6.524439 26 14 6331.7 12.788789 51 14 5306.7 35.835566 42 14 3756.5 13.097862 43 25 7129.1 28.862944 26 13 5444.2 7.665702 43 54 7149.2 40.375296 85 52 8975.5 7.093834 88 42 6
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 劳动单位合同范例
- 农业项目招商合同范例
- 加盟食品店进货合同范例
- 创新创业合同范例
- 南川危化品快递合同范本
- 个人采购工厂合同范例
- 供货代理合同范例
- 保本型理财合同范例
- 医务人员竞业合同范例
- 单位雇佣合同范例山
- 江苏省无锡市锡山区2024-2025学年七年级上学期期末考试历史试卷
- 跨公路管道桁架施工方案
- 无人机操控知识培训课件
- 2025年中日友好环境保护中心(生态环境部环境发展中心)招聘历年高频重点提升(共500题)附带答案详解
- 《小讲课示范与要求》课件
- 竣工后清场的施工方案
- 2023-2024学年广西示范性高中高一(下)期末考试物理试卷(含答案)
- 22 成长与经历-2023年中考英语热点话题写作
- 工程机械承包合同模板2025年
- 微生物系列专题03人体微生态研究常见思路及案例详解
- 排土场安全管理培训
评论
0/150
提交评论