




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第二节模糊聚类分析方法在科学技术、经济管理中常常要按一定的标准 (相似程度或亲疏关系)进行 分类。例如,根据生物的某些性状可对生物分类, 根据土壤的性质可对土壤分类 等。对所研究的事物按一定标准进行分类的数学方法称为聚类分析,它是多元统计“物以类聚”的一种分类方法。由于科学技术、经济管理中的分类界限往往不 分明,因此采用模糊聚类方法通常比较符合实际。一、模糊聚类分析的一般步骤1、第一步:数据标准化9(1)数据矩阵设论域U二X-X2,,Xn为被分类对象,每个对象又有m个指标表示其性状,Xi 二Xj1, Xj2, ,Xim于是,得到原始数据矩阵为Xi 1X2 1XnlXn2Xnm其中Xnm表示第n
2、个分类对象的第m个指标的原始数据。(2)数据标准化在实际问题中,不同的数据一般有不同的量纲,为了使不同的量纲也能进行 比较,通常需要对数据做适当的变换。 但是,即使这样,得到的数据也不一定在 区间0,1上。因此,这里说的数据标准化,就是要根据模糊矩阵的要求,将数据 压缩到区间0,1上。通常有以下几种变换:平移标准差变换其中f Xj k _ x kXikSk(i 二 1 , 2 , n , Q 1,2mn1 ¥XkX j k,n j -io经过变换后,每个变量的均值为0,标准差为1,且消除了量纲的影响。但是,再用得到的Xik还不一定在区间0,1上。平移极差变换Xikxk-m i n X
3、 k =1 空m a XXik -口九n '1岂兰1岂兰(k =1,2,m)显然有0 Xik <1,而且也消除了量纲的影响对数变换Xik =lg Xik(i = 1 , 2 , n , y 1,2m取对数以缩小变量间的数量级。2、第二步:标定(建立模糊相似矩阵)设论域U二X-X2,Xn , Xi =Xi1, Xi2 ,Xim,依照传统聚类方法确定相似系数,建立模糊相似矩阵,Xj与Xj的相似程度5二R(Xj,Xj)。确定q = R(Xi,Xj)的方法主要借用传统聚类的相似系数法、距离法以及其他方法。具体用什么方法, 可根据问题的性质,选取下列公式之一计算。(1)相似系数法夹角余弦法
4、m二XikXjk 最大最小法m(XikXjk )k ±rij。mV (XikXjk)算术平均最小法rij2 二XkX jk )k丄7 (Xik Xjk)k丄几何平均最小法rij2 一 X k X j k) kVXik :Xjkk .1以上3种方法中要求Xij否则也要做适当变换。 数量积法rijXikXjk,其中 相关系数法其中mmmXiXjjk ° 指数相似系数法rij丄2(Nk Xjk) exp42Sk其中Skn i ±(Xik2一 Xik )二1'. Xik k =(1,2,m)。(2)距离法直接距离法i j C d( x,Xj,其中C为适当选取的参数
5、,使得o .“ij <1 , d(Xi,Xj)表示他们之间的距离。经常 用的距离有海明距离md(X,X)=W XiT X j°kk显欧几里得距离d( X , X 卜匕送(Xtt Xj k>切比雪夫距离md(X,X A討 Xk X。 倒数距离法I1 ,i 二 j ,几=<M. , . °,i 乞,d(,Xj)其中M为适当选取的参数,使得0乞q <1。 指数距离法咕=ex p-d Xi Xj o )3、第三步:聚类(求动态聚类图)(1)基于模糊等价矩阵聚类方法 传递闭包法根据标定所得的模糊矩阵R还要将其改造称模糊等价矩阵 R*。用二次方法求R的传递闭包,
6、即t(R) = R*。再让由大变小,就可形成动态聚类图。 布尔矩阵法10布尔矩阵法的理论依据是下面的定理:定理2.2.1设R是U二X-X2,,Xn上的一个相似的布尔矩阵,则 R具有传递性(当R是等价布尔矩阵时)二矩阵R在任一排列下的矩阵都没有形如(11)41)0:兀1的特殊子矩阵。1I布尔矩阵法的具体步骤如下: 求模糊相似矩阵的,-截矩阵R. 若R,按定理2.2.1判定为等价的,则由R,可得U在,水平上的分类,/u/u若R,判定为不等价,则R.在某一排列下有上述形式的特殊子矩阵,此时只要将 其中特殊子矩阵的0 律改成1直到不再产生上述形式的子矩阵即可。如此得到的R:为等价矩阵。因此,由R*可得
7、,水平上的分类fijZb(2)直接聚类法所谓直接聚类法,是指在建立模糊相似矩阵之后,不去求传递闭包t(R),也不用布尔矩阵法,而是直接从模糊相似矩阵出发求得聚类图。其步骤如下:取=1 (最大值),对每个X作相似类XiR,且xJr =Xj |rj h,即将满足ij J的Xi与Xj放在一类,构成相似类。相似类与等价类的不同之处是,不同的相似类可能有公共元素,即可出现Xi r= X i ,X k,XiR =Xj,Xk ,Xi- Xj.此时只要将有公共元素的相似类合并,即可得,=1水平上的等价分类。 取2为次大值,从R中直接找出相似度为2的元素对(Xi,Xj)(即 ij = '2 ),将对应于
8、'! =1的等价分类中Xi所在的类与Xj所在的类合并,将所有的 这些情况合并后,即得到对应于 2的等价分类。 取3为第三大值,从R中直接找出相似度为3的元素对(Xi,Xj)(即rij = K),将对应于打的等价分类中Xi所在的类与Xj所在的类合并,将所有的这 些情况合并后,即得到对应于 3的等价分类。以此类推,直到合并到U成为一类为止二、最佳阈值的确定在模糊聚类分析中对于各个不同的 0,1,可得到不同的分类,许多实际问题需要选择某个阈值,确定样本的一个具体分类,这就提出了如何确定阈值的问题。一般有以下两个方法: 按实际需要,在动态聚类图中,调整的值以得到适当的分类,而不需 要事先准确地
9、估计好样本应分成几类。 当然,也可由具有丰富经验的专家结合专 业知识确定阈值,从而得出在水平上的等价分类 用F统计量确定最佳值。11设论域U二 X- X2,Xn为样本空间(样本总数为n ),而每个样本Xi有m个特征:Xi二X", Xi2,Xim,(i =1,2,n)。于是得到原始数据矩阵,如下表所示,1其中Xk 7 Xik(k =1,2,m), X称为总体样本的中心向量。 n i仝样本指标12kmXX11X12X1k-X1 mX3X21X22sy入2kaX八2maX3Xi1Xi2s入ikaXimaX.Xn1Xn2Xnk-X 八nmX(X1X2XkXm)设对应于'值的分类数为r
10、,第j类的样本数为nj,第j类的样本记为:(j) (j).X1, X2,(j)Xn,第j类的聚类中心为向量X=G(j),XW,x:j),其中Xk为第k个特征的平均值,即1(j)Xk(k =1,2,m),作F统计量r nj其中rr jj =1?二二 |xij 4 i =12为X(j)与X间的距离,XiX为第j类中第i个样本X与其中心x(j)间的距 离。称为F统计量,它是遵从自由度为r -1 , n _r的F分布。它的分子表征类 与类之间的距离,分母表征类内样本间的距离。因此,F值越大,说明类与类之 间的距离越大;类与类间的差异越大,分类就越好。基于模糊聚类分析的多属性决策方法的实际应用聚类分析是
11、将事物根据一定的特征,并按某种特定要求或规律分类的方法。 由于聚类分析的对象必定是尚未分类的群体, 而且现实的分类问题往往带有模糊 性,对带有模糊特征的事物进行聚类分析, 分类过程中不是仅仅考虑事物之间有 无关系,而是考虑事物之间关系的深浅程度, 显然用模糊数学的方法处理更为自 然,因此称为模糊聚类分析。第一节雨量站问题、问题的提出某地区设置有11个雨量站,其分布图见图1,10年来各雨量站所测得的年 降雨量列入表1中。现因经费问题,希望撤销几个雨量站,问撤销那些雨量站, 而不会太多的减少降雨信息?表1各雨量站10年间测得的降雨量年序号X1X2X3X4X5X6X7X8X9X 10Xu127632
12、415941329225831130317524332022512873493443104542854514023074703192433290563479502221220320411232424623224328126731027331528532735252913115023883304103522676032902926466158224178164203502320240278350725832743240136138130141340219942184533653574523844204822283603162529158271410308283410201179430342185
13、10324406235520442520358343251282371二、问题的分析应该撤销那些雨量站,涉及雨量站的分布,地形,地貌,人员,设备等众多因素。我们仅考虑尽可能地减少降雨信息问题。一个自然的想法是就10年来各雨量站所获得的降雨信息之间的相似性,对全部雨量站进行分类,撤去“同类”(所获降雨信息十分相似)的雨量站中“多余”的站。问题求解假设为使问题简化,特作如下假设 每个观测站具有同等规模及仪器设备; 每个观测站的经费开支均等;具有相同的被裁可能性。分析:对上述撤销观测站的问题用基于模糊等价矩阵的模糊聚类方法进行分 析,原始数据如上。三、问题的解决求解步骤:1、数据的收集原始数据如表1
14、所示。2、建立模糊相似矩阵利用相关系数法,构造模糊相似关系矩阵,其中n rij_n_22_2 7- Xi) (Xjk -Xj)k 二、'一 I (Xik - Xi ) |(X jk - x j ) 1 k 二nD (Xkk ±其中二丄1010xikk 土,11 o代入公式得,11。5=0.839,由于运算量巨大用 C语言编程计算出其余数值,得模糊相似关系矩阵仆,具体程序如下#i nclude<stdio.h>#in clude<math.h> double r1111;double x11;void mai n() int i,j,k; double
15、fen zi=0,fe nm u1=0,fe nm u2=0,fe nmu=0;int year1011=276,324,159,413,292 ,258,311,303,175,243,320,251 ,287,349,344,310,454,285,451,402,307,470,192 ,433,290,563,479,502,221,220,320,411,232,246 ,232,243,281,267,310,273,315,285,327,352,291,311,502,388 ,330,410,352,267,603,290,292,466 ,158,224,178,164,2
16、03,502,320,240,278,350,258,327,432 ,401,361,381,301,413,402,199,421,453,365,357 ,452,384,420,482,228,360,316,252,158 ,271,410,308,283,410,201,179,430,342,185,324,406,235,520 ,442,520,358,343,251,282,371;for(i=0;i<11;i+) for(k=0;k<10;k+) xi=xi+yearki;xi=xi/10;for(i=0;i<11;i+)for(j=0;j<11;
17、j+) for(k=0;k<10;k+) fenzi=fenzi+fabs(yearki-xi)*(yearkj-xj);fenmu1=fenmu1+(yearki-xi)*(yearki-xi);fenmu2=fenmu2+(yearkj-xj)*(yearkj-xj);fenmu=sqrt(fenmu1)*sqrt(fenmu2);rij=fenzi/fenmu;fenmu=fenmu1=fenmu2=fenzi=0;for(i=0;i<11;i+) for(j=0;j<11;j+)printf("%6.3f",rij);printf("n&
18、quot;);getchar();得到模糊相似矩阵 R1.000 0.839 0.528 0.844 0.828 0.702 0.995 0.671 0.431 0.573 0.7120.839 1.000 0.542 0.996 0.989 0.899 0.855 0.510 0.475 0.617 0.5720.528 0.542 1.000 0.562 0.585 0.697 0.571 0.551 0.962 0.642 0.5680.844 0.996 0.562 1.000 0.992 0.908 0.861 0.542 0.499 0.639 0.6070.828 0.989 0
19、.585 0.992 1.000 0.922 0.843 0.526 0.512 0.686 0.5840.702 0.899 0.697 0.908 0.922 1.000 0.726 0.455 0.667 0.596 0.5110.995 0.855 0.571 0.861 0.843 0.726 1.000 0.676 0.489 0.587 0.7190.671 0.510 0.551 0.542 0.526 0.455 0.676 1.000 0.467 0.678 0.9940.431 0.475 0.962 0.499 0.512 0.667 0.489 0.467 1.000
20、 0.487 0.4850.573 0.617 0.642 0.639 0.686 0.596 0.587 0.678 0.487 1.000 0.6880.712 0.572 0.568 0.607 0.584 0.511 0.719 0.994 0.485 0.688 1.000对这个模糊相似矩阵用平方法作传递闭包运算,求R2,R4:R4即4*t(R)二 R R o3、聚类注:R是对称矩阵,-1.0000.86110.6970.69710.8610.9960.6970.8610.9960.697*R =0.8610.9950.6970.9940.8610.6970.7190.7190.69
21、70.6970.6970.9620.6880.6880.68810.7190.7190.697取 = 0.996,贝U故只写出它的下三角矩阵10.99210.9220.92210.8610.8610.86110.7190.7190.7190.7190.6970.6970.6970.6970.6880.6880.6880.6880.7190.7190.7190.71910.67610.6880.69710.6880.6970.688110.99611 11 11111X2,X4,X5在置信水平为0.996的阈值下相似度为1,故X2*,为同属一类,所以此时可以将观测站分为9 类 X2,X4 , X
22、5 , X1 , X3 , X6 , X7 , X8 , X9 , X10 , Xn 。降低置信水平对不同的,作同样分析,得到:'=0.995 时,可分为 8 类,即 X2,X4,X5, X6, xj, Xs, X7 , X8 , X9 , X10 ,X110.719 时,可分为 5 类 X2,X4 , X5 , X 6 , X1 , X7 , X3 7X9 , X8 ,X11 , X10 。10.719 时,可分为 5 类 X2,X4 , X5 , X 6 , X1 , X7 , X3 7X9 , X8 ,X11 , X10 。1'=0.994 时,可分为 7 类 X2, X
23、4, X5 , X6, X! , X7 , X3 , Xg, X9 , X10 , X11 。'=0.962 时,可分为 6 类 X2 , X4, X5 , X6 , X! , X7 , X3, X9 , Xg , X10 ,X110.719 时,可分为 5 类 X2,X4 , X5 , X 6 , X1 , X7 , X3 7X9 , X8 ,X11 , X10 。3 = 0.96211-0.71910第二节成绩评价问题一、问题的提出某高中高二有7个班级,学生成绩的好与差,没有明确的评定界限,并且班 级间成绩好坏的表现具有一定的模糊不确定性。二、问题的分析解决上述问题可运用模糊聚类分
24、析方法。现以7个班级某次其中考试的四门主课成绩为依据,对7个班级成绩好坏的相关程度分类。设7个班级组成一个分类集合:X =(X1,X2X7)分别代表1班到7班。每 个班级成绩均是四门基础课(语文、数学、英语、综合)作为四项统计指标,即有 Xij - Xi!,Xi2,Xi3, Xi4这里Xij表示为第i个班级的第j门基础课指标(i =1,2,,7; j =1,2,,4)。这四项成绩指标为:语文平均成绩X”,数学平均成绩Xi2,英语平均成绩Xi3,综合平均成绩Xi4。各班级成绩指标值见表1。表1 7个班4门基础课的成绩指标班级1班2班3班4班5班6班7班62.03624878.5272J274J8
25、73.9566.8359.47637072.3873.2867+0768.3276.0468,1761.0475J777.686727470,0976.8772.4568J774.6570.7770.43687373.18三、问题的解决1、数据标准化采用极差变换Xx X(1)ijm inX X maxmin式中Xij是第I I个班级第j门基础课平均成绩的原始数据,Xmax和Xmin分别为不同 班级的同一门基础课平均成绩的最大值和最小值。 X j为第I个班级第j门基础课平均成绩指标的标准化数值。当Xj二Xmin时,x'=0,当Xij二X皿ax时,X、1表2平均成绩指标值的标准化数值班级兀
26、 1班2班3班4班5班6班7班血 o0.027310.61190.7368072290,2911兀 00.2553077910.83850.45870.53411心 0.428500.849210.39660.54390.9513心 0.660501040120.34880.0864077312、用最大最小法建立相似矩阵计算模糊相似矩阵R,根据标准化数值建立各班级之间四门基础课成绩指标的相似关系矩阵,采用最大最小法来计算ij:7 (XikXjk)k -1rij m 7 (XikXjk )k -1其中r 0,1, (i =1,2,,7 j *,2,3,4)是表示第i个班级与第j个班级在四门基础课
27、成绩指标上的相似程度的量。取i =2, j =1 , ° =0,其余运算量可以通过MATLAB编程运算,程序如下:13clc clear allmea np=00.027310.61190.73680.72290.2911;00.25530.77910.83850.45870.53411;0.428500.849210.39660.54390.9513;0.66050 10.40120.34880.08640.7731;% 平均成绩指标值的标准化数值Ca=0;0;0;0;%初始化比较的数据 Cb=0;0;0;0;%初始化比较的数据 mina=0;%初始化比较的数据 maxa=0;%初
28、始化比较的数据 for i=1:7for j=1:7for m=1:4Ca=mea np(m,i);Cb=mea np(m,j);min a(1,m)=mi n(Ca,Cb);%计算任意两横的最小值 maxa(1,m)=max(Ca,Cb);%计算任意两横的最大值 endR(i,j)=sum(mina)/sum(maxa);% 计算 口,即相似程度的量end endR%显示相似矩阵-' 100.210.330.300.270.36010.150.140.080.100.090.210.1510.770.520.600.42得相似矩阵:R =0.330.140.7710.530.610.
29、430.300.080.520.5310.690.680.270.100.600.610.6910.730.360.090.420.430.680.7313、改造相似关系为等价关系进行聚类分析R进行矩阵R满足自反性和对称性,但不具有传递性,为求等价矩阵, 改造,只需求其传递闭包。由平方法可得-10.150.360.360.360.360.360.1510.150.150.150.150.150.360.1510.770.600.610.600.360.150.7710.610.610.610.360.150.600.6110.690.690.360.150.610.610.6910.730.3
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 江苏省无锡市怀仁中学2024-2025学年高一下学期期中考试数学试卷
- 2025年铸件项目建议书
- 通达OA系统应用培训
- 澳大利亚新西兰市场拓展股权投资合作框架协议
- 日韩房地产跨境合伙开发合同
- 基因治疗载体研发与临床试验伦理审查合作框架协议
- 私人游艇航海雷达租赁与航行培训合同
- 网红爆款面包区域代理权许可合同
- 景区旅游文化园区股权合作开发合同
- 公共设施建设塔吊操作人员派遣与进度管理合同
- 2024年杭州良渚文化城集团有限公司招聘真题
- 苏州苏州工业园区部分单位招聘51人笔试历年参考题库附带答案详解
- 北京2025年国家艺术基金管理中心招聘应届毕业生笔试历年参考题库附带答案详解
- 四川省攀枝花市2025届高三第三次统一考试地理试题及答案
- 安徽省皖南八校2025届高三下学期第三次联考物理试卷 含解析
- 安徽省部分高中2025届高考生物四模试卷含解析
- 2025-2030全球及中国燃气轮机服务行业市场现状供需分析及市场深度研究发展前景及规划可行性分析研究报告
- 2025-2030中国老年教育行业发展前景及发展策略与投资风险研究报告
- 初中学生安全教育课件
- 2025年下半年度云南云勤服务集团限责任公司高校毕业生公开招聘13人易考易错模拟试题(共500题)试卷后附参考答案
- 2024年延安通和电业有限责任公司招聘考试真题
评论
0/150
提交评论