版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、.标准偏差的计算标准偏差时,可按照公式一步步计算,这种方法比较麻烦,而且在计算平均值时,由于最后一位数字的取舍,可能带来一些误差。因此,通常将计算公式稍加变换,以便直接根据各测量值计算标准偏差。由于因此分子中原为“偏差平方和(又称差方和)”,经适当变换后,变为”测量值的平方和减去测量值和的平方的1/n,可直接利用测量值来计算标准偏差。例:测定钢铁中Ni的百分含量,得到结果如下表,计算标准偏差。表1 数据计算表Ni含量/%10.4810.3710.4710.4310.400.050.060.040.000.030.00250.00360.00160.00000.00090.480.370.470
2、.430.400.2300.1370.2210.1850.16011010631210100369平均10.43=0.046%=0.046%=4.6%1、误差传递基本公式设分析结果N与各直接测量值、.之间的函数关系为N=f(,) (1)对上式进行全微分,可得(2)(2)式为绝对误差的传递公式,它表明间接测量值或函数的误差等于各直接测量值或自变量的各项分误差之和,而分误差的大小又取决于直接测量误差和误差传递系数。所以函数或间接测量值的绝对误差为 (3)相对误差的计算公式为 (4)从最保险的角度,不考虑误差实际上有正负抵消的可能,所以上两式中各分误差都取绝对值,此时函数的误差最大。 所以间接测量值
3、或函数的真值 例:测量静止流体内部某处的静压强p(Pa),计算公式为:式中液面上方的压强,Pa;液体的密度,;重力加速度,取9.81;测压点距液面的距离,m。已知在某次测量中,。试求p的最大绝对误差、最大相对误差。解:各变量的绝对误差为:根据静压强p的计算公式,各变量的误差传递系数为:根据误差传递公式,最大绝对误差为:又故真值为:最大相对误差为:离群值检验(2)Q检验法将一组数据从小到大排列,其中或可能为离群值,计算统计量Q。若为离群值,则 若为离群值,则 Q即邻差与极差之比。如果Q不小于下表中所列的临界值,离群值应舍去,否则应保留。置信度即“舍去离群值的判断是正确的”这一事件的概率。Q值表测
4、定次数 3 4 5 6 7 8 9 100.940.970.990.760.840.930.640.730.820.560.640.740.510.590.680.470.540.630.440.510.600.410.490.57 例:测定碱灰的总碱量(),得到5个数据:40.02,40.13,40.15, 40.16, .40.20。试用Q检验法判断40.02是否应舍去?(P=95%)解: 因为所以40.02应保留。 (4)格鲁布斯(Grubbs)法 用格鲁布斯(Grubbs)法判断上例中40.02是否应舍去?(P=95%)解:,s=0.068 所以40.02应保留。32双因素试验的方差分
5、析 双因素试验的方差分析是讨论两个因素对试验结果影响的显著性,所以又称二元方差分析。根据两因素每种组合水平上的试验次数,可以将双因素试验的方差分析分为无重复试验和重复试验的方差分析。 321 双因素无重复试验的方差分析设在某试验中,有两个因素A和B在变化,A有r种水平A1,A2,ArB有s种水平B1,B2,Bs,在每一种组合水平()上做1次试验,试验结果为(i=1,2,r; j=1,2,s),所有相互独立,且服从正态分布。双因素无重复试验数据如下表1所示。表1 双因素无重复试验数据表因素 对于任一个试验值,其中i表示A因素对应的水平,j表示B因素对应的水平。例如,表示的是在(,)组合水平上的试
6、验,显然总试验次数n=rs。 双因素无重复试验的方差分析的基本步骤如下。 (1)计算平均值 令式中所有试验值的算术平均值,称为总平均; 水平时所有试验值的算术平均值;水平时所有试验值的算术平均值。(2)计算偏差平方和总偏差平方和:各偏差平方和可用以下简化公式计算: 式中 水平时,S个试验值之和; 水平时,r个试验值之和; 水平时,S个试验值的平方和; 水平时,r个试验值的平方和; T所有n个试验值之和; Q一所有n个试验值的平方和。 于是有: (3)计算自由度的自由度为:的自由度为:的自由度为:的自由度为:显然: (4)计算均方(5)F检验 无重复试验双因素方差分析表差异源偏差平方和自由度均方
7、F显著性因素A因素B误差总和 例:为了考察pH值和硫酸铜溶液浓度对化验血清中白蛋白与球蛋白的影响,对蒸馏水中的pH值(A)取了4个不同水平,对硫酸铜溶液浓度(B)取了3个不同水平,在不同水平组合下各测了一次白蛋白与球蛋白之比,结果列于下表中,试检验两个因素对化验结果有无显著影响。试验结果pH值硫酸铜溶液浓度BlB2B3A1A2A3A4352620142320150820191203 解:依题意,A因素水平数r=4,i=1,2,3,4;因素B水平数s=3,i=1,2,3;总试验次数n=rs=12,方差分析计算表如下表所示。pH值硫酸铜溶液浓度BlB2B3A1A2A3A43.52.62.01.42
8、.32.01.50.82.01.91.20.37.86.54.72.560.8442.2522.096.2521.5414.377.692.699.5 6.6 5.4 T=21.5 90.25 43.56 29.16 Q=46.2924.97 12.18 9.14计算自由度: 均方:F值:方差分析表差异源偏差平方和自由度均方F显著性pH值硫酸铜溶液浓度误差5.292.220.263261.761.110.04340.625.6*总和7.7711从F分布表中查得,所以pH值和硫酸铜溶液浓度对化验结果都有非常显著的影响。例2:为了研究酵解作用对血糖浓度的影响,分别从8位健康人体中抽取血液并制备成血
9、滤液。再将每一个受试者的血滤液分成4份,分别放置0min,45min,90min,135min,测定其中的血糖浓度,试问1)不同受试者的血糖浓度是否存在显著性差异?2)放置不同时间段血糖浓度的差别是否明显?受试者放置时间t0min45min90min135min1234567895951069810211210595959410597981121039289888795971019790838490908894888036236138838038541939335713104413032115054414440014822517556115444912744932860326613793036
10、1383716144125387873198980865286481888796633616795167445535366937869748580960869T=3045 Q= 291651 计算自由度: 均方:F值:方差分析表差异源偏差平方和自由度均方FF临界值显著性受试者差异放置时间误差747.47977.34175.417321106.78325.788.3512.7939.01*总和1900.223161.30结论:不同受试者的血糖浓度的差异是显著的,不同放置时间引起的血糖浓度的差异更显著。322双因素重复试验的方差分析 在以上的讨论中,假设两因素是相互独立的。但是在双因素试验中,有时
11、还存在着两因素对试验结果的联合影响,这种联合影响称作交互作用(interaction),记为AB。如果要检验交互作用对试验指标的影响是否显著,则要求在两个因素的每一个组合(,)上至少做2次试验。设在某项试验中,有A,B两个因素在变化,A有r种水平A1,A2,Ar。B有s种水平B1,B2,Bs,为研究交互作用AB的影响,在每一种组合水平(,) 上重复做c(c2)次试验(称为等重复性试验),每个试验值记为(i=1,2,r; j=1,2,s;k=1,2,.,c),如下表所示。 双因素重复试验方差分析试验表因素从上表可以看出,对于任一个试验值,其中i表示A因素对应的水平,j表示B因素对应的水平,k表示
12、在组合水平(,) 上的第k次试验。例如,表示的是在(A1,B2)组合水平上的第3次试验。显然总试验次数n=rsc。双因素等重复试验的方差分析的基本步骤如下。 (1)计算平均值 令式中所有试验值的算术平均值,称为总平均; 在任一组合水平(,) 上c次试验值的算术平均值;水平时所有试验值的算术平均值。水平时所有试验值的算术平均值。(2)计算偏差平方和总偏差平方和:各偏差平方和可用以下简化公式计算: 式中在任一组合水平(,) 上c次试验值之和;水平时,sc个试验值之和; 水平时,rc个试验值之和; T所有n个试验值之和; Q一所有n个试验值的平方和。 于是有: (3)计算自由度的自由度为:的自由度为
13、:的自由度为的自由度为:的自由度为:显然: (4)计算均方(5)F检验 有重复试验双因素方差分析表差异源偏差平方和自由度均方F显著性ABAB误差总和 例:下表给出了某种化工产品在3种浓度、4种温度水平下得率的数据,设浓度为A因素,其水平数r=3,i=1,2,3;温度为B因素,其水平数s=4,j=1,2,3,4;在因素A,B的每种组合水平上重复试验次数c=2,总试验次数n=rsc=342=24。试检验各因素及交互作用对产品得率的影响是否显著。浓度/%1024385224624(14,10)16(9,7)16(5,11)5622(11,11)18(10,8)27(13,14)6722(13,9)1
14、8(7,11)25(12,13)6522(10,12)16(6,10)24(14,10)62906892T=250 于是有: 差异源偏差平方和自由度均方F显著性浓度温度交互误差44.311.527.065.0*总和147.8=23 从F分布表中查得, ,所以只有因素A,即浓度对产品得率有显著影响,温度和交互作号对试验结果的影响不显著。例2 为探讨化学反应中温度和催化剂对收率的影响,有人选了4个温度(B)和3种催化剂(A)甲、乙、丙进行实验,结果如表1所示,试进行方差分析。表1 实验结果及数据初步处理因素A(催化剂)因素B(温度)708090100甲乙丙61,63(124)63,64(127)6
15、5,67(132)3831466892446964,66(130)66,67(133)67,68(135)3981584042641065,66(131)67,69(136)69,70(139)4061648362749269,68(137)68,71(139)72,74(146)422178084297105225355521609(T)648013108081(Q)272484286225304704863413108081 于是有: 差异源偏差平方和自由度均方FF临界值显著性催化剂温度交互误差571324.517.5r-1=2s-1=33.89,6.933.49,5.95*总和211=2
16、39.174从F分布表中查得,所以因素A和B均对试验结果的影响高度显著。习 题3 1、某饮料生产企业研制出一种新型饮料。饮料的颜色共有四种,分别为橘黄色、粉色、绿色和无色透明。随机从五家超级市场收集了前一期该种饮料的销售量,如下表所示,试问饮料的颜色是否对销售量产生影响。超 市橘黄色粉 色绿 色无 色123452652872512912723122833082792962792512852422653082963243173282、在用原子吸收分光光度法测定镍电解液中微量杂质铜时,研究了乙炔和空气流量变化对铜在某波长上吸光度的影响,得到下表所示的吸光度数据。试根据表中数据分析乙炔和空气流量的变
17、化对铜吸光度的影响。乙缺流量(Lmin)8(Lmin)9(Lmin)10(Lmin)11(Lmin)12(Lmin)1O152O2581181475060481581876167980379475468780O791754698 77O7597086873、为了研究铝材材质的差异对于它们在高温水中腐蚀性能的影响,用三种不同的铝材在去离子水和自来水中于170进行一个月的腐蚀试验,测得的深蚀率(um)如下表所示。试由下表所述结果考察铝材材质和水质对铝材腐蚀的影响。铝材材质去离子水自来水12323,1815,1518,2356,5353,4874,7483主成分分析831 概述 上节介绍了如何建立两
18、个变量或三个变量之间的线性回归方程。但对于许多实际问题,仅仅二三个变量远远不能描述客观事物的全貌。仍以小学生的健康状况为例,如果要进行全面、深入的研究,除了身高、年龄、体重这三个指标外,还需测量胸围、腕力、百米成绩、肺活量、血压、视力、语言表达能力、运算能力等,或其中的一部分。又如,要研究某玉米新品种的性状,需测定株高、穗位、生长期、千粒重、单株产量、籽粒蛋白质含量、干物重、抗螟及抗倒伏能力等多项指标。此外,土壤肥力的测定,疾病诊断,心理学研究,考评干部,考核公司职员,考核工厂或商业企业的经济效益,乃至对一个国家的综合国力的研究,都需要测定许多指标,即需要处理维数很大的多元变量。变量个数越多,
19、问题就越复杂。 能否对问题进行简化使变量减少,又如何使多变量问题得以简化呢?一个重要方法就是通过适当变换,得到少数几个(如一二个,二三个)有代表性的综合指标,用以描述客观对象的基本特征,如小学生的综合健康指标,土壤的综合肥力指标,企业的综合效益指标等。综合指标就是新的变量。用少数综合指标代替原来的变量,新变量的维数就大大减小了。这就是主成分分析法的实质,其中的综合指标都叫原来变量的主成分。 设两个变量测得了数据如表87所示。表87测得的变量数据2468103691215 若以为坐标作图,则可得一条直线,5个样品点完全落在该直线上,这条直线的方程是如图8-3所示。图8-3 在这条直线上建立数轴,
20、并在图83中的坐标系中考察这6个样品点,显然轴是不必要的。于是原来的()两个变量可用一个新的变量来代替,新变量的6个样品值依次为 显然,这5个数据包含了原来10个数据的全部信息,用变量代替变量(),变量的维数就从2降为1,如图84所示。图8 -4这就是对主成分分析法的一个简单图示,但这只是一个特例,一般情况下数据可能相当分散。 如果用图84中新的坐标()来表示样品点,则可明显看出样品点的坐标变化幅度很大,即的方差较大,而的变化幅度相对较小,即的方差较小。即变量()的信息大部分集中在新变量上,小部分集中在新变量上。故称是()的第一主成分,是()的第二主成分。在一定条件下,第二主成分可以省略,而只
21、用第一主成分来度量原来的全部样品,从而维数由2降为1。与此类似,3维变量可以降为2维或1维,10维变量呵以降为3维或2维。这就是主成分分析的基本思路。 总之,主成分分析经常用于简化数据结构,寻找综合因子,进行样品排序等。样本数据经过主成分变换得以简化后,为进一步的统计分析(如回归分析、聚类分析等)打下基础。因此,主成分分析在生物科学、医学、气象、经济、心理学、教育学、管理科学等领域有着广泛的应用。832主成分的计算 设图84的两个变量()的样本数据如表88所示。表8-8样本数据 . . . . 求得平均值和协方差矩阵分别为 在图84中,的坐标原点已经处于平均值()处,从而使。因而 适当选取()
22、使处于方差最大的方向。 数学上已证明,协方差矩阵S的最大特征值所对应的单位特征向量就是所求的(),而且该特征值正是的方差。同样,的方差和方向由S的较小的特征值及对应的单位特征向量来决定。 【例88】表8-9是8个学生两门课的成绩。表8-9 8个学生两门课的成绩英语100 90 70 70 85 55 55 45数学65 85 70 90 65 45 55 65试进行主成因分析。 解 平均值和协方差分别为 可得求特征值的方程为 进而求出所对应的单位特征向量()=(0.88,0.47) 所对应的单位特征向量 ()=(0.47,0.88) 于是可得第一主成分的表达式为 把()的数值代入,就得到主成分
23、的样品数据,如将样品的数据代入,得 而第二主成分的数学表达式为可以求得8个学生的主成分如表810所示。表810 8个学生的主成分24.125 24.725 0.075 9.475 10.925 -24.875 -20.175 -24.27515.7125 -6.5875 1.6125 -20.3875 8.6625 12.2625 3.3625 -10.1375 讨论 由于右端的两个系数都取正值,故可看成是和的加权和,的权是088,的权是0.47,二者之和不是l,因为这不是归一化。显然,当英语和数学成绩都高时,主成分的得分也高,因此可根据得分对学生排序。这与普通的平均值排序不同。因为权与方差有
24、关,方差大,权也大;而普通的排序不考虑方差的影响,虽然有时也加权,但一般情况下权是人为规定的。从数理的角度说,这种排序可能更有意义。因为它客观,没有人为因素的影响。 按不同计算方法得到不同的排序结果,这并不是自相矛盾,而是反映了用统计方法解决实际问题的灵活性。在一个具体问题中,如果主成分是原变量的一个有重要实用价值的综合指标,并集中了原数据的绝大部分信息(这一点下面将要详述),则按的得分来排序就具有重要意义和可靠性,这正是主成分分析法的实际功能之一。例如在小学健康状况研究中,可能是反映健康程度的综合指标。当然,对一个主成分如何加以解释,不仅仅是个统计学或数学问题,更重要的是要依据专业知识,具体
25、加以分析。 在本例中,观察的表达式,发现这个主成分的解释是很容易的:如果一个学生的英语成绩偏高,而数学成绩偏低,则主成分的得分偏高。可见是英语成绩与数学成绩的比较。当大时,意味着与8个学生的平均倾向相比,该生的两科成绩不平衡,当接近零时,说明该生的两科成绩较均衡。 一般情况下,设在某一批(几个)样品中共测定p个指标,即p个变量,, ,则样品数据排成的矩阵为 这是一个P行n列矩阵,简记为 其中,是对j个样品测得的第i个指标的值。根据测量数据可算出全部方差、协方差,从而列出协方差矩阵为其特征方程为 解上述方程,就可得出S的特征值。但应注意的是特征值不能为负数。 例 89】 表811列出了lO名初中
26、男学生的身高()、胸围()、体重()的数据,进行主成分分析并讨论。表8-11 10名初中男学生相关数据 身高()119.6 162.5 162.7 162.2 156.3 156.1 l72.0 173.2 159.5 157.7胸围()69.5 77.0 78.5 87.5 74.5 74.5 76.5 81.5 74.5 79体重()38.5 55.5 50.8 65.5 49.0 45.5 51.0 59.5 43.5 53.5解:协方差矩阵的特征方程为解出三个特征值和对应的三个特征向量分别为1) 三个主成因的表达式分别为2) 贡献率 主成分的方差占总方差的比率,称为主成分的贡献率。它表
27、示了主成分的相对重要性。主成分的贡献率也可用特征值的相对比率来计算。因此,三个主成分的贡献率分别为由于第三个主成分的贡献率极小,故可以舍掉。只保留前两个主成分,从而变量的维数从3降为2.而前两个主成分的累积贡献率是它们各自的贡献率之和,即8.3.3 主成因分析在企业效益中的应用例:某市为了全面分析机械类各企业的经济效益,选择了8种不同的利润指标,14个企业的统计数据(%)如下表所示,各指标的平均值和标准差也同时列入表内。表 企业统计数据企业序号净产值利润率固定资产利润率总产值利润率销售收入利润率产品成本利润率物耗利润率人均利润率流动资金利润率123456789101112131440.425.
28、013.322.234.335.622.948.440.624.812.51.832.338.524.712.73.36.711.812.57.813.419.18.09.70.013.99.17.211.23.95.67.115.49.910.919.89.84.20.79.111.36.111.04.33.77.116.710.29.910.08.94.20.78.39.58.312.94.46.08.022.812.610.929.711.94.60.89.812.28.720.25.57.48.929.317.613.930.616.26.51.113.316.42.4423.5420
29、.5780.1761.7263.0170.8471.7722.4490.7890.8740.0562.1261.32720.09.13.67.327.526.610.617.835.813.73.91.017.111.6平均标准差28.0412.9410.916.189.014.887.903.9711.067.4913.978.611.551.0714.6910.13计算得相关矩阵如下:利用相关矩阵进行主成因分析。由于前三个主成分的累积贡献率已达到95%,故舍去其余5个主成分,特征向量的计算结果见下表:表 特征向量的计算结果变量主成分0.8150.7330.9550.8630.9200.91
30、30.8170.8630.3870.622-0.230-0.305-0.296-0.3940.1990.209-0.1530.055-0.1150.242-0.1670.0180.501-0.334累积贡献率74.3786.9793.08是原来8个变量的加权和,是反映总效益大小的综合指标。由于的贡献率高达74.37%,故用的得分来排序,能从整体上反映企业之间的效益差别。求得14个企业的得分依次为1)0.32028;2)0.51415;3)-1.18004;4)-0.91586;5)0.04426;6)1.51854;7)-0.05574;8)0.46897;9)1.82725;10)-0.08
31、494;11)-0.99033;12)-1.86169;13)0.19285;14)0.2023。14个企业按得分的大小顺序为9-6-2-8-1-14-13-5-7-10-4-11-3-12第2个主成分的贡献率12.6也不容忽视。的系数表明,它是中间4个效益指标与前后4个效益指标的比较,的正负代表了企业的两种不同效益类型。但细致的解释需参考相关其他经济学概念和知识,在此不多叙述。有两个变量(一个因变量、一个自变量),就可以根据”对观测数据在直角坐标系上点j冬由散点图大致便可看出它们是否存在线性相关。因此,在聚类分析中寻找将多变量的样晶在平面上进行点图的方法长期以来为人们所关注的一个课题。非线性
32、映像降维法和比较实的星座图法是比较常用的方法。主成分分析法就是一种较常用的降维的方法。若将。个维点画在一个上半圆内,一个样品点对应一颗星,同类样品组成一个星座,不同类的样品。不同的星座,称为星座图,这就是星座图法的含义。 有序样品聚类 有些实际问题中样品是有顺序的,分类不能打乱顺序。如地质勘j中通过钻井的岩心样品将地层分类,此时,岩心样品是由浅到深的顺序排列的;又如气象:料是按时问排列的,其样品也是有序的。 按顺序的”个样品,它们之间有”一1个空隙,在某空隙进行分割,则分割为二段;在某两个空隙进行分割,则分割为三段若在每个空隙处进行分割,则每一个样品各成段。要将”个样品分成走段,所有可能的分割
33、有c:二;种。找出一种分割使得是个段的段差异尽可能小,各段之问的差异尽可能大,称这种分割为相应于是个样品段的最优分割。在科学研究领域,分类问题的重要性自不必说,因为许多研究本身,就是(或包含)分类问题,分类问题无处不在。例如作物品种的分类,企业或干部的分类,教师、学生的分类,学校分类,家庭分类,化工产品分类,化工原料分类,煤炭分类,矿石分类等。 例如作物品种的分类问题,不仅仪足产量,还有成熟期、千粒重、抗倒伏能力以及某些物质的容量等,都是必须考虑的重要方面,因此必须同时测量多个指标。一位教师如果仅就学习成绩对学生进行分类,就要分析多门课程的得分。如果还要考虑到学生的发育和健康状况,那就要增加更
34、多的变量。一位管理者要对企业进行分类,仅仪使用总产值这个指标是远远不够的,还要使用人均利润率,固定资产利润率等重要指标。 随着近代科学和计算技术的发展,分类已成为人们认识世界的不可缺少的手段。聚类分析的应用也日益广泛,在许多领域都发挥了重要作用。842样品间的距离 测得一批矿石中某成分的含量如表814所示。 轰814矿石中某成分的含量若按含量将矿石分类,首先按该成分含量将6个样品描绘出来,见图85。 一j ,;、 9|、, 尘 皇 芏 型 t34 I 36 13 8 140 142 图8 5矿石成分含量分布 9t1l中很容易看出,与两个样品比较接近,、和四个样品比较接近,6个样品被分成I、两组
35、,即 I:, 1I:, 显然,通常是将距离近的若干点归为一类或并为一类。这样并类的结果,同一类的点距离较近,而不同类的点之问距离较远。可见这种并类方法符合分类的目的。聚类分析法的基本原理即在于此。所以,在对一批样品进行聚类的时候,第一步是计算两样品问的距离。但在多变量的场合,如何计算样品问的距离呢? 聚类分析中可用的距离算法有多种,此处介绍其中的四种。 (1)欧氏距离 欧氏距离是几何学上应用最多的计。算距离的方法之一,这种方法是基于勾股定理。欧氏距离很容易推广到三个以上变量的情况。对于变量(z-,Tz),两样品问的欧氏距离为 d。一d(Xll-rlj)2+(352i-X2j)2 (838) 若
36、变量多于两个,则可以作如下推广,即 d沪、亿ii百严玎i二弭(弧一zs+【例8一ll】 表815是某中学女生身高(cm)和体重(kg)的数值。用上述公式可求得任意两同学问的欧氏距离,如 d。:=、亿百i百F玎i=j(839)鑫1000 0675 1000 0773071307780600O78706860622。会利累翟委蓑阵差凳去譬竺分堑?由于前二个主成分的累积贡献率已1达00到0。9。,故舍去5昙余 个主成分,特征向量的计算结果见表813所示。 一“以石态表8。13 特征向量的计算结果yl 81 5 733955863920 _vl091 3081 70863主成分0394 01 9902
37、098697001805010334 9308累积贡献率7437一 j:是墨来8个变量的加权和,是反映总效益大小的综合指标。一。三翟,。警骨-的得分来排序,能从整体上反映企业之高晶聂亲:-得分依次为 一由于1的贡献率高达别。求得14个企业的: 032028二、0。415;一118004;091586;o04426;151854;-三005574二。4。897;182725;川08494;吨咖33;玉二赢篙0 019285;02023。 一 “ 14个企业按yl得分的大小顺序为 ll:,篆言篓老璧竺兰墨献率1。26当二穿忽视。yz的系数表明,它是中问4个效益指标与前三三S慧篓冀篓竺堂竺:簟的l负
38、代表了企业的两种不同效益类型。细妄牙茹蕃言篓罢嘲关其他经济学概念和知识,在此不多叙述。 。一一。一“仟“。罗勺84聚类分析 聚类分析是用多元统计技术进行分类的一种方法。0 7 4 2 7跳研叭勉啪叭m m眈眈7 O 9 D 9跏伽嘲渤嘲眈C;吼吼吼9 9 5 7 )渤啪聊吼m m m L弘M仰6 4 8 0 m吼叽L=二让K歹卧叭C;吼L汀旧孙眦m L叭O 船5 M 2盯兰m ll O一0一 善黧 爵一:。: 驯n n“B(160163)。干万乒面:以i一361(xl s-X1 9)。f五i习(157172)。干葡可一丽:=1860(2)闵氏距离闵氏距离的表达式为一。 d玎一(J zl zTl
39、J I七十I z2i-x2j f。)1i同例810,当志一1时k一2时,同欧氏距离;是一3时d1 2一f 160163f+I 4850j一5d39一f 157172 J+i 4152 J:26 d12一(j 160163 f。+J 4850 f。)ii一丽一327 d39一(f 157172 l。+4152 i。)_i:刁丽一1676kCxD时(840) d12。maxf 160163 f+4850 f一3 d39一maxf 157172 f+J 4152 f一15 (3)标准化欧氏距离鹰垦耋夏望篓“杏鍪苎竺篓:氅现象,也为了避免不同量纲导致的混乱,将每个变量除以该娄妻呈甚孽腼麒贿标准的均方籼
40、州,。这个过是亲淼嚣柔甚霍于漂羞笼蜒鹭氏距离为 一”。小耻儿dii圻亭露=(;li-JClj)2(122i-X2j)2j对于例810,求得斫以sll一4929,j222889九挈罕 r:?一一坐0163)。(48-50)一刘丽矿十丽一03210一如i厚三童葺亟三娈 V 51l 522一应亘了匝F1可可刈面矿十游一875320567959(841) (4)氏趴离:述距离都没有考虑到变量之问的丰【】关关系。没变量(,艘)的样本饥方篾矩阵足 一P轧。I (8 42S 4 一l I (5 Ls2I$22 J并用s表示s的退矩阵,则马氏距离的公式是 妒(xll-xU,x2i-x2j)S 1臣列 4j c
41、Ul例810,求得 r 49291089 S一 j L1089 2889 j 1 r2889 1089 Fo0221 00083l S l一二I 1一l l 。 l S I L1089 4929 J Lo0083 00378J 所以口J得 忙(Tt J-1 2,21-X22)S 1T。11-21 2I Jh,J f FO0221 00083-1 r160163-1 1 一(160一16348一。0lo0083 o0378J14850 J f r0022l 00083-1 r 3l 1- 一卜孔2)l O(。83 0(378儿一2 J 7 00221(一3)2200083(一3)(一2)4-O0
42、378(一2)。 一025 f F00221 00083-1 r一15-1 1- (,舶一一瓦1 1)lo0083 o0378儿一11 J f 一00221(一1 5)。一200083(一15)(一11)4-O0378(一11)。 一681843 聚类方法 (1)系统聚类法 聚类分析最常刚的方法是系统聚类法。现以例8 11为例介绍这一方法。 首先,视10个学生为】0类。选定某一公式计算两两学生问的距离。从伞部距离中找出最小距离,把相应的两个学生并为一类,从而类数由10减为9。按一定法则计算新并成的类与其余8个类问的距离,从而得到9类之问的全部相互距离。再从中找m最小距离并把ll Jastq,J
43、两类并为一类,从而类数从9减为8。依此类推,直至把1()个学生并成一类为止。这就足系统聚类的幕本思路。下而是具体做法。 首咒,计算1()个学,卜之间的欧氏距离,并排成矩阵格式,如表816所示。 表t,最小距离足2,它是和之11I】的距离,故将和并为一类,按顺序定为类 一,) 这样,类数变为9类分别为 ,。, 【1I于类是合并产生的新的一类。它与其他类之fhj的距离还需进行计算。表8一16 10个学生间的欧氏距离矩阵(一)由于类含两个样品,它们与的距离分别是 d21361,d2,10一224取最短距离d2m为第类与第类之间的距离,这就足“最短距离”的概念。即!一224。同理 d113一d13,d
44、1(,3中的最小者一762,860中的最小者=762 d114一dl,4,d10,4中的最小者一316,316中的最小行一316 d11j一“l,j,dl中的最小者一15。1664中的最小者一15 d6一d16,dlo,6中的最小者一1487,1360中的最小者一1360 d7一(,17,dlo。7中的最小者一608,671中的最小者一608 d1I8一d,d10,8)中的最小者一949,762)中的最小者一762 d11,9一d1,9,d10,9巾的最小者一1 265。1077ff】的最小者一1077这样,新的9类问的距离可以排成如表817的距离矩阵。 表8-17距离矩阵(二:)DI类问的最
45、短距离为224为与、与问的距离,该j一类合并为新的一类,即妻: 一,这样,类数减为7类,这7类为 , 0类与其他类问的距离需重新计算,如 +:3一d2,3,d,“ll,3中的最小者一1082,】O77,762【fl的最小者一762 茸出类与其他各类的距离,排成新的矩阵如表818所示。表818距离矩阵(1二) 睦到1860l 9237类问的最短距离仍为224,为与之间的距离。二者合并为一类,为类,即 一,)这样,类数减为6类,这6类为 ,类与其他类问的距离需重新计算,如 d1一d蛐,7,5)中的最小者 一1836,1860中的最小者一1836算出类与其他各类的距离,排成新的矩阵如表819所示。表8一19距离矩阵(四)6类问的最短距离为283,它为与问的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 教育技术培训学习心得体会
- 2024年卫星导航定位系统项目资金申请报告代可行性研究报告
- 幼师国旗下的讲话演讲稿(31篇)
- 金蟒蛇读后感
- 关于安全大讨论个人心得体会800字(3篇)
- 择业与理想演讲稿
- 有关劳动合同
- 高考地理二轮复习综合题专项训练2原因分析类含答案
- 辽宁省朝阳市2024-2025学年高一上学期第二次联考英语(含答案无听力原文及音频)
- 广东省广深珠联考2024-2025学年高三上学期11月期中物理试题(无答案)
- 商业银行旺季营销开门红
- 2024版《保密法》培训课件
- 企业的所得税自查报告5篇
- 2024-2030年输液架行业市场现状供需分析及重点企业投资评估规划分析研究报告
- 海口市国土空间总体规划(2020-2035)(公众版)
- 备战2024年高考英语考试易错点25 语法填空:无提示词之连词(4大陷阱)(解析版)
- 安徽省淮南市2023-2024学年高一上学期第二次月考数学试题
- 产科疼痛管理制度及流程
- 桥本甲状腺炎-90天治疗方案
- 学校班主任培训制度
- MOOC 新时代中国特色社会主义理论与实践-武汉理工大学 中国大学慕课答案
评论
0/150
提交评论