实验报告八-SAS聚类分析与判别分析_第1页
实验报告八-SAS聚类分析与判别分析_第2页
实验报告八-SAS聚类分析与判别分析_第3页
实验报告八-SAS聚类分析与判别分析_第4页
实验报告八-SAS聚类分析与判别分析_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

实验报告实验项目名称聚类分析与判别分析所属课程名称统计分析及SAS实现实验类型验证性实验实验日期2016-12-19班级数学与应用数学学号姓名成绩实验概述:【实验目的及要求】掌握SAS中根据样本或变量按照其性质上的亲疏、相似程度进行聚类分析的方法以及判别样品所属类型的判别分析的方法。掌握SAS系统中编程实现聚类分析与判别分析的方法。【实验原理】SAS软件的操作方法及原理【实验环境】(使用的软件)SAS9.3实验内容:【实验方案设计】理解聚类分析、判别分析的基本概念;掌握系统聚类法的基本思想和步骤;掌握判别分析的距离判别法、Fisher判别法和Bayes判别法;利用编程proc过程步实现系统聚类法与判别分析。【实验过程】(实验步骤、记录、数据、分析)【练习8-1】为了更深入了解我国人口文化程度状况,现利用1990年全国人口普查数据对全国30个省、直辖市、自治区进行聚类分析。分析选用了三个指标变量:大学以上文化程度的人口占全部人口的比例(DXBZ),初中文化程度的人口占全部人口的比例(CZBZ),文盲半文盲人口占全部人口的比例(DXBZ),原始数据如表所示。表1990年全国人口普查文化程度人口比例RegionNumDXBZCZBZWMBZBeijing19.330.558.7Tianjing24.6729.388.92Hebei30.9624.6915.21Shanxi41.3829.2411.3Neimeng51.4825.4715.39Liaoning62.632.328.81Jilin72.1526.3110.49Heilongj82.1428.4610.87Shanghai96.5331.5911.04Jiangsu101.4726.4317.23Zhejiang111.1723.7417.46Anhui120.8819.9724.43Fujian131.2316.8715.63Jiangxi140.9918.8416.22Shandong150.9825.1816.87Henan160.8526.5516.15Hubei171.5723.1615.79Hunan181.1422.5712.1Guangdong191.3423.0410.45Guangxi200.7919.1410.61Hainan211.2422.5313.97Sichuan220.9621.6516.24Guizhou230.7814.6524.27Yunnan240.8113.8525.44Xizang250.573.8544.43Shanxi261.6724.3617.62Gansu271.116.8527.93Qinghai281.4917.7627.7Ningxia291.6120.2722.06Xinjjiang301.8520.6612.75【解答】①利用proccluster过程步实现聚类分析:libnamelmf"E:\sashomework\lmf";procclusterdata=Lmf.p81standardmethod=wardouttree=Lmf.tree1pseudo;varDXBZCZBZWMBZ;copyRegion;run;结果:表8.1Ward'sMinimumVarianceClusterAnalysisEigenvaluesoftheCorrelationMatrixEigenvalueDifferenceProportionCumulative12.219459561.588644790.73980.739820.630814770.481089090.21030.950130.149725680.04991.0000Thedatahavebeenstandardizedtomean0andvariance1Root-Mean-SquareTotal-SampleStandardDeviation1Root-Mean-SquareDistanceBetweenObservations2.44949由表8.1Ward离差平方和法得出相关系数的特征值,其中各列数据分别为特征值(Eigenvalue)、与相邻特征值之差(Difference)、占总方差的百分比(Proportion)、占总方差累计百分比(Cumulative)。本题数据经过标准化,样本均值(mean)为0,方差(variance)为1。其中样本均方根标准差(Root-Mean-SquareTotal-SampleStandardDeviation)为1,样品间均方根距离(Root-Mean-SquareDistanceBetweenObservations)为2.44949。表8.2ClusterHistoryNumber

of

ClustersClustersJoinedFreqSemipartial

R-SquareR-SquarePseudoF

StatisticPseudo

t-SquaredTie29OB23OB2420.00021.00150.28OB3OB1520.0003.999135.27OB18OB2120.0004.999126.26OB27OB2820.0004.999123.25OB5OB1020.0005.998117.24OB11OB2620.0005.998115.23CL28OB1630.0006.9971111.922CL24OB1730.0006.9971091.321OB13OB1420.0007.996106.20OB7OB820.0007.995106.19CL27OB1930.0010.9941022.718CL23CL2550.0013.99396.92.817OB12OB2920.0015.99192.6.16CL22OB2240.0018.99088.23.215CL19OB3040.0020.98884.93.014OB4CL2030.0021.98583.42.813CL15OB2050.0038.98275.83.412CL18CL1690.0046.97769.65.811CL29CL2640.0055.97264.817.610CL14OB640.0063.96561.64.59OB2OB920.0070.95860.2.8CL17CL1160.0106.94856.85.67CL21CL1370.0108.93756.86.96CL12CL7160.0292.90847.114.25OB1CL930.0308.87744.54.44CL6CL10200.0608.81638.416.33CL8OB2570.1113.70532.230.52CL5CL4230.3030.40218.838.41CL2CL3300.4016.000.18.8由表8.2聚类分析的完整过程(ClusterHistory)得出,类别数量(Number

ofClusters)表示新类别形成后类别的总数;合并的类别(ClustersJoined)指明这一步合并了哪两个类,例如第一行表示聚为29类,合并了Num为23和Num为24的两个地区四川(Sichuan)和贵州(Guizhou),例如聚为19类,合并了类水平为27(CL27)与Num为19的两类,也就是OB18(Hunan)、OB20(Guangxi)、OB19(Guangdong)。样品频数(FREQ)表示这次合并得到的类有多少个样品。通过观察分类数的统计量半偏R2(SemipartialR-Square),R2(R-Square),伪F统计量(PseudoFStatistic),伪t2统计量(Pseudot-Squared),分析出分类个数的结果:半偏R2(SemipartialR-Square)最大值与次大值分别为类别数量(Number

ofClusters)为1、2时的0.4016、0.3030,说明将地区分为2类或3类较好;从表8.1中R2(R-Square)看出,数据是逐渐减小,但在类别数量(Number

ofClusters)为3时,突然骤减,说明分为4个类合适;伪F统计量(PseudoFStatistic)数据是逐渐减小,没有骤减情况出现,说明不能用伪F统计量进行分类;伪t2统计量(Pseudot-Squared)最大值与次大值分别为类别数量(Number

ofClusters)为2、3时的38.4、30.5,说明将地区分为3类或4类较好。距离最小的候选类对数(Tie),本题无数据。图8.1聚类谱系图图8.1为proccluster过程不得出的谱系图,为更方便直观,我们利用proctree过程步得出图8.2。②利用proctree过程步得出聚类谱系图。过程步:proctreedata=Lmf.tree1horizontal;idregion;run;结果:TheTREEProcedureWard'sMinimumVarianceClusterAnalysis图8.2聚类谱系图由表8.2、图8.2得出,分为三类较合适,第一类为北京、天津、上海,第二类为河北、山东、河南、内蒙、江苏、浙江、山西、湖北、四川、福建、江西、湖南、海南、广东、新疆、广西、吉林、黑龙江、辽宁、陕西,第三类为安徽、宁夏、贵州、云南、甘肃、青海、西藏。【练习8-2】有6个铅弹头,用“中子活化”方法测得7种微量元素含量数据。表7种微量元素含量数据NumAgAlCuCaSbBiSn10.057985.515347.121.918586174261.6920.084413.97347.219.7179472000244030.072171.15354.853.05238601445949740.15011.702307.515.03122901461638055.7442.854229.69.657809912661252060.2130.7058240.313.91898028204135①试用多种系统聚类分析方法对6个铅弹头和7种微量元素进行分类,并进行分类结果。②试用VARCLUS过程对7中微量元素进行分类。【解答】①通过比较⑴⑵⑶三种系统聚类的方法类平均法、ward离差平方和法、最长距离法,对6个铅弹头进行分类。⑴利用proccluster过程步实现系统聚类分析中类平均法聚类:lmf"E:\sashomework\lmf";procclusterdata=Lmf.p82standardmethod=averageouttree=Lmf.tree2pseudo;varAgAlCuCaSbBiSn;copyNum;run;结果:表8.3AverageLinkageClusterAnalysisEigenvaluesoftheCorrelationMatrixEigenvalueDifferenceProportionCumulative13.740480862.082360430.53440.534421.658120430.611440070.23690.771231.046680360.518835290.14950.920840.527845070.500971790.07540.996250.026873280.026873280.00381.000060.000000000.000000000.00001.000070.000000000.00001.0000Thedatahavebeenstandardizedtomean0andvariance1Root-Mean-SquareTotal-SampleStandardDeviation1

Root-Mean-SquareDistanceBetweenObservations3.741657由表8.3类平均法(AverageLinkage)得出相关系数的特征值,其中各列数据分别为特征值(Eigenvalue)、与相邻特征值之差(Difference)、占总方差的百分比(Proportion)、占总方差累计百分比(Cumulative)。本题数据经过标准化,样本均值(mean)为0,方差(variance)为1。其中样本均方根标准差(Root-Mean-SquareTotal-SampleStandardDeviation)为1,样品间均方根距离(Root-Mean-SquareDistanceBetweenObservations)为3.741657。

表8.4ClusterHistoryNumber

of

ClustersClustersJoinedFreqPseudoF

StatisticPseudo

t-SquaredNormRMS

DistanceTie5OB1OB2212.8.0.30924CL5OB433.47.50.75113CL4OB643.12.00.82982OB3OB523.7.0.97811CL3CL26.3.71.1594

由表8.4聚类分析的完整过程(ClusterHistory)得出,类别数量(Number

ofClusters)表示新类别形成后类别的总数;合并的类别(ClustersJoined)指明这一步合并了哪两个类,例如第二行表示聚为4类,合并了类水平为5(CL5)与Num为4的两类,也就是OB1、OB2、OB4三个铅弹头。样品频数(FREQ)表示这次合并得到的类有多少个样品。通过观察分类数的统计量伪t2统计量(Pseudot-Squared),分析出分类个数的结果:伪F统计量(PseudoFStatistic)最大值与次大值分别为类别数量(NumberofClusters)为5、2时的12.8、3.7,说明将铅弹头分为6类或3类较好;;伪t2统计量(Pseudot-Squared)最大值与次大值分别为类别数量(NumberofClusters)为4、1时的7.5、3.7,说明将铅弹头分为5类或2类较好。NormRMSDistance数据在类别数量(NumberofClusters)为4时骤减,说明分为5类较合适。距离最小的候选类对数(Tie),本题无数据。图8.3聚类谱系图由表8.4、图8.3得出,分为五类或四类较合适,第一类为5号铅弹头,第二类为3号铅弹头,第三类为6号铅弹头,第四类为4号铅弹头,第五类为1、2号铅弹头;或者第一类为5号铅弹头,第二类为3号铅弹头,第三类为6号铅弹头,第四类为1、2、4号铅弹头。⑵利用proccluster过程步实现系统聚类分析中ward离差平方和法聚类:libnamelmf"E:\sashomework\lmf";procclusterdata=Lmf.p82standardmethod=wardouttree=Lmf.tree2pseudo;varAgAlCuCaSbBiSn;copyNum;run;结果:表8.5Ward'sMinimumVarianceClusterAnalysisEigenvaluesoftheCorrelationMatrixEigenvalueDifferenceProportionCumulative13.740480862.082360430.53440.534421.658120430.611440070.23690.771231.046680360.518835290.14950.920840.527845070.500971790.07540.996250.026873280.026873280.00381.000060.000000000.000000000.00001.000070.000000000.00001.0000Thedatahavebeenstandardizedtomean0andvariance1Root-Mean-SquareTotal-SampleStandardDeviation1

Root-Mean-SquareDistanceBetweenObservations3.741657由表8.5Ward离差平方和法(Ward'sMinimumVarianceMethod)得出相关系数的特征值,其中各列数据分别为特征值(Eigenvalue)、与相邻特征值之差(Difference)、占总方差的百分比(Proportion)、占总方差累计百分比(Cumulative)。本题数据经过标准化,样本均值(mean)为0,方差(variance)为1。其中样本均方根标准差(Root-Mean-SquareTotal-SampleStandardDeviation)为1,样品间均方根距离(Root-Mean-SquareDistanceBetweenObservations)为3.741657。

表8.6ClusterHistoryNumber

of

ClustersClustersJoinedFreqSemipartial

R-SquareR-SquarePseudoF

StatisticPseudo

t-SquaredTie5OB1OB220.0191.98112.8.4OB4OB620.1168.8644.2.3OB3OB520.1913.6733.1.2CL5CL440.1930.4803.72.81CL2CL360.4797.000.3.7由表8.6聚类分析的完整过程(ClusterHistory)得出,类别数量(Number

ofClusters)表示新类别形成后类别的总数;合并的类别(ClustersJoined)指明这一步合并了哪两个类,例如第三行表示聚为3类,合并了Num为3与Num为5的两类,也就是3、4号铅弹头。样品频数(FREQ)表示这次合并得到的类有多少个样品。通过观察分类数的统计量半偏R2(SemipartialR-Square),R2(R-Square),伪F统计量(PseudoFStatistic),伪t2统计量(Pseudot-Squared),分析出分类个数的结果:半偏R2(SemipartialR-Square)最大值与次大值分别为类别数量(Number

ofClusters)为1、2时的0.4797、0.1930,说明将铅弹头分为2类或3类较好;从表8.6中R2(R-Square)看出,数据是逐渐减小,但在类别数量(Number

ofClusters)为3时,突然骤减,说明分为4个类合适;伪F统计量(PseudoFStatistic)数据减小,在类别数量(NumberofClusters)为2时突然增大,说明将铅弹头分为3类较好。;伪t2统计量(Pseudot-Squared)最大值与次大值分别为类别数量(NumberofClusters)为1、2时的2.8、3.7,说明将铅弹头分为3类或2类较好。距离最小的候选类对数(Tie),本题无数据。图8.4聚类谱系图由表8.6、图8.4得出,分为四类较合适,第一类为5号铅弹头,第二类为3号铅弹头,第三类为4、6号铅弹头,第四类为1、2号铅弹头。⑶利用proccluster过程步实现系统聚类分析中最长距离法聚类:libnameLmf"E:\sashomework\lmf";procclusterdata=Lmf.p82standardmethod=completeouttree=Lmf.tree3pseudo;varAgAlCuCaSbBiSn;copyNum;run;结果:表8.7CompleteLinkageClusterAnalysisEigenvaluesoftheCorrelationMatrixEigenvalueDifferenceProportionCumulative13.740480862.082360430.53440.534421.658120430.611440070.23690.771231.046680360.518835290.14950.920840.527845070.500971790.07540.996250.026873280.026873280.00381.000060.000000000.000000000.00001.000070.000000000.00001.0000Thedatahavebeenstandardizedtomean0andvariance1Root-Mean-SquareTotal-SampleStandardDeviation1MeanDistanceBetweenObservations3.60714由表8.7Ward离差平方和法(Ward'sMinimumVarianceMethod)得出相关系数的特征值,其中各列数据分别为特征值(Eigenvalue)、与相邻特征值之差(Difference)、占总方差的百分比(Proportion)、占总方差累计百分比(Cumulative)。本题数据经过标准化,样本均值(mean)为0,方差(variance)为1。其中样本均方根标准差(Root-Mean-SquareTotal-SampleStandardDeviation)为1,样品间均方根距离(Root-Mean-SquareDistanceBetweenObservations)为3.60714。表8.8ClusterHistoryClusterHistoryNumber

of

ClustersClustersJoinedFreqPseudoF

StatisticPseudo

t-SquaredNorm

Maximum

DistanceTie5OB1OB2212.8.0.32074OB4OB624.2.0.79273OB3OB523.1.1.01452CL5CL443.72.81.02081CL2CL36.3.71.4611由表8.8聚类分析的完整过程(ClusterHistory)得出,类别数量(Number

ofClusters)表示新类别形成后类别的总数;合并的类别(ClustersJoined)指明这一步合并了哪两个类。样品频数(FREQ)表示这次合并得到的类有多少个样品。通过观察分类数的统计量伪F统计量(PseudoFStatistic),伪t2统计量(Pseudot-Squared),得出的结果与Ward离差平方和法的结果一样。但在NormMaximumDistance中类别数量(NumberofClusters)为4、3时增大的数值较小,说明将铅弹头分为4类或3类较好。距离最小的候选类对数(Tie),本题无数据。图8.5聚类谱系图由表8.8、图8.5得出,分为四类较合适,第一类为5号铅弹头,第二类为3号铅弹头,第三类为4、6号铅弹头,第四类为1、2号铅弹头。通过比较⑴⑵⑶三种系统聚类的方法类平均法、ward离差平方和法、最长距离法,综合比较对6个铅弹头分为四类较合适。②利用procvarclus过程步实现变量聚类分析:procvarclusdata=Lmf.p82ourtree=Lmf.tree3;varAgAlCuCaSbBiSn;run;表8.9ObliquePrincipalComponentClusterAnalysisObservations6Proportion0Variables7Maxeigen1Clusteringalgorithmconverged.ClusterSummaryfor1ClusterClusterMembersCluster

VariationVariation

ExplainedProportion

ExplainedSecond

Eigenvalue1773.7404810.53441.6581Totalvariationexplained=3.740481Proportion=0.5344Cluster1willbesplitbecauseithasthelargestsecondeigenvalue,1.65812,whichisgreaterthantheMAXEIGEN=1value.表8.9分解法思想进行斜交主成分聚类(ObliquePrincipalComponentClusterAnalysis),把全部7个变量聚成一类,能解释的方差为3.740481,占总方差的53.44%,第二特征值为1.6581>1,并预告这一类将被分裂。

表8.10ClusterSummaryfor2Clusters:ClusterMembersCluster

VariationVariation

ExplainedProportion

ExplainedSecond

Eigenvalue1442.9255140.73140.93802332.13760.71250.5903Totalvariationexplained=5.063113Proportion=0.7233由表8.10分为两类的聚类概要(ClusterSummaryfor2Clusters)得出,由类内变量个数(ClusterVariation)可知第一类有4个变量,第二类有3个变量,能解释的方差(Variation

Explained)为5.063113,占总方差(ProportionExplained)的72.33%,第二特征值(SecondEigenvalue)分别为0.9380、0.5903。

表8.11R-squaredwith:2ClustersR-squaredwith1-R**2

RatioVariable

LabelClusterVariableOwn

ClusterNext

ClosestCluster1Al0.51880.01690.4895AlCu0.98050.16050.0232CuCa0.93970.35720.0938CaSb0.48650.02850.5286SbCluster2Ag0.73780.01790.2670AgBi0.58230.02410.4281BiSn0.81750.49180.3591Sn由表8.11相关系数的平方(R-squaredwith)可知,每个变量与所属类分量之间相关系数的平方R2(R-SquaredWithOwnCluster)例如变量Al在第1类中,它与第1类分量之间的R2是0.5188。每个变量与相邻类的类分量之间的相关系数的平方R2(R-squaredwithNextClosest),例如:Al与第2类分量之间的相关系数平方R2为0.0169,该值较小,说明分类较合理。由于此值越小,表明分类越合理。从此列可看出,比值不是很大,说明这7个变量分成两类可能较合适的。

表8.12StandardizedScoringCoefficientsCluster12AgAg0.0000000.401833AlAl0.2462040.000000CuCu0.3384760.000000CaCa0.3313530.000000SbSb0.2384180.000000BiBi0.000000-.356975SnSn0.0000000.422982由表8.12从标准化变量预测类分量的标准回归系数(StandardizedScoringCoefficients)看出各变量只对本类的类分量有贡献,对其他类分量的回归系数为0。若设C1、C2分别为第一类、第二类分量,则有:表8.13ClusterStructureCluster12AgAg-.1338960.858957AlAl0.720274-.130117CuCu0.990216-.400574CaCa0.969377-.597652SbSb0.697494-.168898BiBi0.155401-.763069SnSn-.7013150.904167由表8.13给出类结构(ClusterStructure)得出,因类结构相当于因子分析中的因子模型,则有:

表8.14Inter-ClusterCorrelations:Cluster1211.00000-0.405922-0.405921.00000Noclustermeetsthecriterionforsplitting.由表8.14类内相关系数(Inter-ClusterCorrelations)得出相关系数为0.40592,大于0.3,小于0.5,第一、二类为低度相关。表8.15:Number

of

ClustersTotal

Variation

Explained

by

ClustersProportion

of

Variation

Explained

byClustersMinimum

Proportion

Explained

bya

ClusterMaximum

Second

Eigenvalue

ina

ClusterMinimum

R-squared

fora

VariableMaximum

1-R**2

Ratio

fora

Variable13.7404810.53440.53441.6581200.173125.0631130.72330.71250.9380330.48650.5286由表8.15汇总信息得出,第一类能解释的总方差量为3.740481,解释的方差占7个变量的总方差的53.44%,由一类成分能解释的方差占全部7个变量的总方差的最小百分比为0.5344,1个变量与其所在类的类分量的最小相关系数的平方R2(MinimumR-squaredforaVariable)为0.1731,各类中的最大比值(Maximum1-R**2RatioforaVariable)为空。第二类能解释的总方差量为5.063113,解释的方差占7个变量的总方差的72.33%,由一类成分能解释的方差占全部7个变量的总方差的最小百分比为0.7125,1个变量与其所在类的类分量的最小相关系数的平方R2(MinimumR-squaredforaVariable)为0.4865,各类中的最大比值(Maximum1-R**2RatioforaVariable)为0.5286,。最大的第二特征值分成两类时已经小于1,说明分类数为二合适。图8.6聚类谱系图由图8.6得出,分为两类较合适,第一类为Sn、Bi、Ag,第二类为Sb、Ca、Cu、Al。【练习8-4】根据经验,今天与昨天的湿度差x1及今天的压温差(气压与温度之差)x2是预报明天是否下雨的两个重要因素。现收集到一批样本数据如表。今测得,,假定两组的协方差矩阵相等。RaDWetPesT1-1.93.21-6.910.415.22152.517.3016.812.710.9-15.41-12.5-2.511.51.313.86.820.26.22-0.17.520.414.622.78.322.10.82-4.64.32-1.710.92-2.613.122.612.82-2.810(“1”表示雨天,“2”表示非雨天)①试用距离判别法预报明天是否会下雨,并估计误判概率;②假定两组均服从二元正态分布,且根据其他信息及经验给出先验概率,,试用贝叶斯判别法预报明天是否下雨;【解答】利用编程过程实现题目数据:dataLmf.p84;inputRaDWetPesT@@;cards;1-1.93.21-6.910.415.22.015.02.517.30.016.812.710.9-15.41-12.5-2.511.51.313.86.820.26.22-0.17.520.414.622.78.322.10.82-4.64.32-1.710.92-2.613.122.612.82-2.810.0;run;①试用距离判别法预报明天是否会下雨,并估计误判概率;利用procdiscrim过程步实现距离判别分析:procdiscrimdata=lmf.p84distancelister;classRaD;varWetPesT;run;结果:表8.16TheDISCRIMProcedureTotalSampleSize20DFTotal19Variables2DFWithinClasses18Classes2DFBetweenClasses1由表8.16判别分析过程(TheDISCRIMProcedure)得知,总样本数(TotalSampleSize)为20,变量(Variables)个数为2,分类(Classes)个数为2及自由度。表8.17ClassLevelInformationRaDVariable

NameFrequencyWeightProportionPrior

Probability1_11010.00000.5000000.5000002_21010.00000.5000000.500000由表8.17各类别信息(ClassLevelInformation)得知,第一、二类的样本数(Frequency)分别为10、10;两类别权重(Weight)分别为10、10;两类别分别占样本数(Proportion)的50%、50%,两类别的先验概率(PriorProbability)为0.5、0.5。表8.18PooledCovarianceMatrixInformation:Covariance

MatrixRankNaturalLogofthe

Determinantofthe

CovarianceMatrix26.81587表8.18合并协方差矩阵信息(PooledCovarianceMatrixInformation),协方差矩阵的秩(CovarianceMatrixRank)为2,协方差矩阵行列式的自然对数(NaturalLogoftheDeterminantoftheCovarianceMatrix)为6.81587。表8.19SquaredDistancetoRaD:FromRaD12101.3068521.306850(a)FStatistics,NDF=2,DDF=17for

SquaredDistancetoRaDFromRaD12103.0856123.085610(b)Prob>MahalanobisDistancefor

SquaredDistancetoRaDFromRaD1211.00000.071920.07191.0000(c)GeneralizedSquaredDistanceto

RaDFromRaD12101.3068521.306850(d)由表8.19组间距离平方(SquaredDistancetoRaD)得知,两组间的距离平方(马氏距离)为1.30685,检验H0:μ1=μ2的F统计量为3.08561,p值为0.0719<0.1,说明雨天、非雨天有较显著的差异,判别归类具有一定意义。广义组间距离平方(GeneralizedSquaredDistancetoRaD)与组间的马氏距离平方相等。

表8.20LinearDiscriminantFunctionforRaD:Variable12Constant-0.06870-1.02533Wet0.03251-0.04553PesT0.051180.22976由表8.20得出线性判别函数:表8.21PosteriorProbabilityofMembershipinRaDPosteriorProbabilityofMembership

inRaDObsFromRaDClassifiedinto

RaD12212*0.19170.8083612*0.31420.68581521*0.72660.273421.1*0.72110.2789*Misclassifiedobservation由表8.21组中成员的后验概率(PosteriorProbabilityofMembershipinRaD)得知,第2个观测值被误判为第一类雨天,根据线性判别函数得出第2个观测值在第一、二类的后验概率分别为0.1917、0.8083;第6个观测值被误判为第一类雨天,根据线性判别函数得出第6个观测值在第一、二类的后验概率分别为0.3142、0.6858;第15个观测值被误判为第二类非雨天,根据线性判别函数得出第15个观测值在第一、二类的后验概率分别为0.7266、0.2734。并由此得到,当湿度差(Wet)为0.6,压温差(PesT)为0.3时,分为第一类,为雨天。表8.22NumberofObservationsandPercentClassifiedintoRaD:FromRaD12Total1880.00220.0010100.002110.00990.0010100.00Total945.001155.0020100.00Priors0.5

0.5

由表8.22得知已知第一类雨天的样本被判别函数归入第一、二类的频数分别为8、2,百分比分别为80%、20%;已知第二类非雨天的样本被判别函数归入第一、二类的频数分别为1、9,百分比分别为10%、90%。表8.23ErrorCountEstimatesforRaD:

12TotalRate0.20000.10000.1500Priors0.50000.5000

由表8.23各类别的错误分类率(ErrorCountEstimatesforRaD)得出第一类的错分率高,为20%,各类别的总错分率为0.15=0.2*0.5+0.1*0.5。综上,利用距离判别法预报明天会下雨,误判概率为0.15。②假定两组均服从二元正态分布,且根据其他信息及经验给出先验概率,,试用贝叶斯判别法预报明天是否下雨;⑴利用procdiscrim过程步实现Bayes判别分析:预处理:由于两个总体的协方差矩阵不知道是否相等,因此我们利用语句pool=test确定两个总体的协方差矩阵的相等性。procdiscrimdata=Lmf.p84pool=testcrosslist;classRaD;priors'1'=0.3'2'=0.7;varWetPesT;run;结果:Chi-SquareDFPr>ChiSq8.73352830.0331由于P值为0.0331<0.05,因此拒绝两正态总体相等的假设,因此两正态总体协方差矩阵不相等。利用procdiscrim过程步实现Bayes判别分析:OPTIONSPS=500;procdiscrimdata=Lmf.p84pool=nocrosslist;classRaD;priors'1'=0.3'2'=0.7;varWetPesT;run;结果:表8.24TheDISCRIMProcedure:TotalSampleSize20DFTotal19Variables2DFWithinClasses18Classes2DFBetweenClasses1由表8.24判别分析过程(TheDISCRIMProcedure)得知,总样本数(TotalSampleSize)为20,变量(Variables)个数为2,分类(Classes)个数为2及自由度。

表8.25ClassLevelInformation:RaDVariable

NameFrequencyWeightProportionPrior

Probability1_11010.00000.5000000.3000002_21010.00000.5000000.700000由表8.25各类别信息(ClassLevelInformation)得知,第一、二类的样本数(Frequency)分别为10、10;两类别权重(Weight)分别为10、10;两类别分别占样本数(Proportion)的50%、50%,两类别的先验概率(PriorProbability)为0.3、0.7,由题目给出。

表8.26WithinCovarianceMatrixInformation:RaDCovariance

MatrixRankNaturalLogofthe

Determinantofthe

CovarianceMatrix127.78344224.74512表8.26组内协方差矩阵信息(WithinCovarianceMatrixInformation),协方差矩阵的秩(CovarianceMatrixRank)为2,协方差矩阵行列式的自然对数(NaturalLogoftheDeterminantoftheCovarianceMatrix)分别为7.78344、4.74512。表8.27GeneralizedSquaredDistancetoRaD:GeneralizedSquaredDistanceto

RaDFromRaD12110.191398.13871211.056185.45847表8.27广义组间距离平方(GeneralizedSquaredDistancetoRaD)两两配对的组间平方距离为,,,。表8.28NumberofObservationsandPercentClassifiedintoRaD:ClassificationSummaryforCalibrationData:LMF.P84ResubstitutionSummaryusingQuadraticDiscriminantFunctionFromRaD12Total.00.001100.001100.001660.00440.0010100.00200.0010100.0010100.00Total628.571571.4321100.00Priors0.3

0.7

因在正态总体的情况下,按Bayes判别的思想,在错判造成的损失认为相等的情况下得到的判别函数相当于马氏距离判别在考虑先验概率及协方差阵相等情况下的推广,因此得出表8.28的结果,第一类雨天的样本被判别函数归入第一、二类的频数分别为6、4,百分比分别为60%、40%;已知第二类非雨天的样本被判别函数归入第一、二类的频数分别为0、10,百分比分别为0%、100%。

表8.29ErrorCountEstimatesforRaD

12TotalRate0.40000.00000.1200Priors0.30000.7000

由表8.23各类别的错误分类率(ErrorCountEstimatesforRaD)得出第一类的错分率高,为40%,各类别的总错分率为0.12=0.4*0.3+0*0.7。表8.30PosteriorProbabilityofMembershipinRaDObsFromRaDClassifiedinto

RaD12112*0.17810.8219212*0.18930.8107311

0.71960.2804411

0.65180.3482511

0.97130.0287611

0.60170.3983711

0.99730.0027811

0.99970.0003912*0.32890.67111012*0.22200.77801122

0.10090.89911222

0.07790.92211322

0.08590.91411422

0.16090.83911521*0.92690.07311621*0.81830.18171722

0.05740.94261822

0.07860.92141922

0.17180.82822022

0.07790.922121.2*0.40900.5910*Misclassifiedobservation由表8.30组中成员的后验概率(PosteriorProbabilityofMembershipinRaD)得知,第1个观测值被误判为第一类雨天,根据线性判别函数得出第1个观测值在第一、二类的后验概率分别为0.1781、0.8219;第2个观测值被误判为第一类雨天,根据线性判别函数得出第2个观测值在第一、二类的后验概率分别为0.1893、0.8107;第9个观测值被误判为第一类雨天,根据线性判别函数得出第9个观测值在第一、二类的后验概率分别为0.3289、0.6711;第10个观测值被误判为第一类雨天,根据线性判别函数得出第10个观测值在第一、二类的后验概率分别为0.2220、0.7780;第15个观测值被误判为第二类非雨天,根据线性判别函数得出第15个观测值在第一、二类的后验概率分别为0.9269、0.0731;第16个观测值被误判为第二类非雨天,根据线性判别函数得出第16个观测值在第一、二类的后验概率分别为0.8183、0.1817。并由此得到,当湿度差(Wet)为0.6,压温差(PesT)为0.3时,分为第二类,为非雨天。表8.31NumberofObservationsandPercentClassifiedintoRaD:ClassificationSummaryforCalibrationData:LMF.P84Cross-validationSummaryusingQuadraticDiscriminantFunctionFromRaD12Total.00.001100.001100.001660.00440.0010100.002220.00880.0010100.00Total838.101361.9021100.00Priors0.3

0.7

利用交叉验证判别分类得出表8.31观察值频数及分类百分比(NumberofObservationsandPercentClassifiedintoRaD),由表得知,第一类雨天的样本被判别函数归入第一、二类的频数分别为6、4,百分比分别为60%、40%;已知第二类非雨天的样本被判别函数归入第一、二类的频数分别为2、8,百分比分别为20%、80%。表8.32ErrorCountEstimatesforRaD:

12TotalRate0.40000.20000.2600Priors0.30000.7000

利用交叉验证判别分类得出表8.32各类别的错误分类率(ErrorCountEstimatesforRaD),由表知第一类的错分率高,为40%,各类别的总错分率为0.26=0.4*0.3+0.2*0.7,综上,利用Bayes判别法预报明天不会下雨的误判概率为0.26。与训练样本回带的判别分类结果相比,交叉验证的错分率明显增大,但交叉验证的分类结果更加真实和客观,在没有验证数据集时交叉验证的结果是评价判别函数的判别效能的重要指标。⑵由于错误分类率达到0.26,这可能与数据不符合参数法判别分析的条件有关,因此,接下来采用非参数法的判别分析方法:经过尝试,当k=4时,得出的错分率最低,效果最佳。利用procdiscrim过程步实现非参数判别:libnameLmf"E:\sashomework\lmf";OPTIONSPS=500;procdiscrimdata=Lmf.p84method=npark=4crosslist;classRaD;priors'1'=0.3'2'=0.7;varWetPesT;run;表8.33TheDISCRIMProcedureTotalSampleSize20DFTotal19Variables2DFWithinClasses18Classes2DFBetweenClasses1由表8.33判别分析过程(TheDISCRIMProcedure)得知,总样本数(TotalSampleSize)为20,变量(Variables)个数为2,分类(Classes)个数为2及自由度。

表8.34ClassLevelInformationRaDVariable

NameFrequencyWeightProportionPrior

Probability1_11010.00000.5000000.3000002_21010.00000.5000000.700000由表8.34各类别信息(ClassLevelInformation)得知,第一、二类的样本数(Frequency)分别为10、10;两类别权重(Weight)分别为10、10;两类别分别占样本数(Proportion)的50%、50%,两类别的先验概率(PriorProbability)为0.3、0.7。表8.35NumberofObservationsandPercentClassifiedintoRaDClassificationSummaryforCalibrationData:LMF.P84ResubstitutionSummaryusing4NearestNeighborsFromRaD12Total.1100.0000.001100.001660.00440.0010100.002110.00990.0010100.00Total838.101361.9021100.00Priors0.3

0.7

因在正态总体的情况下,按Bayes判别的思想,在错判造成的损失认为相等的情况下得到的判别函数相当于马氏距离判别在考虑先验概率及协方差阵相等情况下的推广,因此得出表8.35的结果,第一类雨天的样本被判别函数归入第一、二类的频数分别为6、4,百分比分别为60%、40%;已知第二类非雨天的样本被判别函数归入第一、二类的频数分别为1、9,百分比分别为10%、90%。表8.36ErrorCountEstimatesforRaD

12TotalRate0.40000.10000.1900Priors0.30000.7000

由表8.36各类别的错误分类率(ErrorCountEstimatesforRaD)得出第一类的错分率高,为40%,各类别的总错分率为0.19=0.4*0.3+0.1*0.7。表8.37PosteriorProbabilityofMembershipinRaDClassificationResultsforCalibrationData:LMF.P84Cross-validationResultsusing4NearestNeighborsObsFromRaDClassifiedinto

RaD12112*0.13700.8630212*0.00001.0000311

0.58820.4118411

0.58820.4118511

0.58820.4118612*0.13700.8630711

0.58820.4118812*0.32260.6774911

0.58820.41181012*0.13700.86301122

0.27840.72161222

0.00001.00001322

0.00001.00001422

0.11390.88611521*1.00000.00001622

0.11390.88611722

0.00001.00001822

0.11390.88611922

0.11390.88612022

0.11390.886121.2*0.39130.6087*Misclassifiedobservation由表8.37组中成员的后验概率(PosteriorProbabilityofMembershipinRaD)得知,第1个观测值被误判为第一类雨天,根据线性判别函数得出第1个观测值在第一、二类的后验概率分别为0.1370、0.8630;第2个观测值被误判为第一类雨天,根据线性判别函数得出第2个观测值在第一、二类的后验概率分别为0、1;第6个观测值被误判为第一类雨天,根据线性判别函数得出第6个观测值在第一、二类的后验概率分别为0.1370、0.8630;第8个观测值被误判为第一类雨天,根据线性判别函数得出第8个观测值在第一、二类的后验概率分别为0.3226、0.6774。第10个观测值被误判为第一类雨天,根据线性判别函数得出第10个观测值在第一、二类的后验概率分别为0.1370、0.8630;第15个观测值被误判为第二类非雨天,根据线性判别函数得出第15个观测值在第一、二类的后验概率分别为1、0;并由此得到,当湿度差(Wet)为0.6,压温差(PesT)为0.3时,分为第二类,为非雨天。表8.38NumberofObservationsandPercentClassifiedintoRaDClassificationSummaryforCalibrationData:LMF.P84Cross-validationSummaryusing4NearestNeighborsFromRaD12Total.00.001100.001100.001550.00550.0010100.002110.00990.0010100.00Total628.571571.4321100.00Priors0.3

0.7

利用交叉验证判别分类得出表8.38观察值频数及分类百分比(NumberofObservationsandPercentClassifiedintoRaD),由表得知,第一类雨天的样本被判别函数归入第一、二类的频数分别为5、5,百分比分别为50%、50%;已知第二类非雨天的样本被判别函数归入第一、二类的频数分别为1、9,百分比分别为10%、90%。表8.39ErrorCountEstimatesforRaD:

12TotalRate0.50000.10000.2200Priors0.30000.7000

利用交叉验证判别分类得出表8.39各类别的错误分类率(ErrorCountEstimatesforRaD),由表知第一类的错分率高,为50%,各类别的总错分率为0.22=0.5*0.3+0.1*0.7,综上,利用Bayes判别法预报明天不会下雨的误判概率为0.22。综上,利用Bayes判别分析,非参数法判别得出,明天不会下雨。【练习8-5】对28名一级和25名健将级标枪运动员测试了6个影响标枪成绩的训练项目,这些训练成绩:30m跑(x1)、投掷小球(x2)、挺举重量(x3)、抛实心球(x4)、前抛铅球(x5)、五级跳(x6),另14名未定级运动员也测试了6个项目,全部数据列于表中。表训练项目成绩NumGroupx1x2x3x4x5x6113.64.382.3709018.52213.34.187.488010018.48313.34.2287.748511518.56413.214.0588.67510019.1513.14.3889.989512020.14613.24.989.18510519.44713.34.289758519.17813.54.584.28010018.8913.74.682.1708517.681013.44.490.187510019.141113.64.382.1709018.11213.64.582557017.41313.64.282.2709018.121413.44.285.48510018.661513.34.390.18010019.861613.124.28985100201713.14.280.28511520.81813.64.281.96658017.21913.74.4818095172013.34.3908011019.82113.84.0980608016.892213.74.383.98510018.762313.54.285.48510018.72413.44.186.78511018.52513.34.188.1758518.962613.74.184.1709518.72713.64.382709018.42813.24.289.28511519.882923.441039511024.83023.34.51189012025.73123.14.51058511025.13223.84.1104.538010024.9833234.21129512525.353423.93.798.2859021.83523.54.198.79012022.783623.13.998.2609021.983723.33.910910012025.33823.13.9598.49511525.23923.143.995.39011021.424023.64.393.6758520.844123.123.995.88010521.842233.993.8859021.084323.43.9196.311012021.984423.633.7898.568512022.364523.33.9897.48510022.344623.34.41127511025.14723.54.1107.787.511025.14823.44.292.18012022.164923.64.199.488512023.15023.14.41167511025.35123.124102.78011024.685223.64.11158511523.75323.54.397.87510024.1543.54.185.37510518.65553.44.485.4759518.6563.64.385.36759018.6573.64.183077510518.6583.24.189.35759520.28593.44.1586.286077.518.9603.64.284.18010018.7613.14.1989513022.36234.112210011527.1633.24.392.688010520.68643.14.291.768510022.2653.34.298.46510022.86663.34.6928019523.07673.44.397.367511022.12假定两组数据均来自于多元正态总体,且C(1|2)=C(2|1)(其中C(i|j)为假定本来属于Gi的样品被判为属于Gj时造成的损失)。①对14名未定级运动员,假设先验概率p1=p2,试在Σ1=Σ2=Σ和Σ1≠Σ2的两种情形下分别对他们归属何组作出Bayes判别;②试对①的误判概率作出估计;③假设Σ1=Σ2=Σ,p1=0.8,p2=0.2,试对着14名未定级运动员的归属做Bayes判别。【解答】①对14名未定级运动员,假设先验概率p1=p2,试在Σ1=Σ2=Σ和Σ1≠Σ2的两种情形下分别对他们归属何组作出Bayes判别;⑴当Σ1=Σ2=Σ时:利用procdiscrim过程步实现Bayes判别分析:libnameLmf"E:\sashomework\lmf";procdiscrimdata=Lmf.p85pool=yescrosslist;classGroup;priorsequal;varx1x2x3x4x5x6;run;结果:表8.40TheDISCRIMProcedure:TotalSampleSize53DFTotal52Variables6DFWithinClasses51Classes2DFBetweenClasses1由表8.40判别分析过程(TheDISCRIMProcedure)得知,总样本数(TotalSampleSize)为53,变量(Variables)个数为6,分类(Classes)个数为2及自由度。

表8.41ClassLevelInformation:GroupVariable

NameFrequencyWeightProportionPrior

Probability1_12828.00000.5283020.5000002_22525.00000.4716980.500000由表8.41各类别信息(ClassLevelInformation)得知,第一、二类的样本数(Frequency)分别为28、25;两类别权重(Weight)分别为28、25;两类别分别占样本数(Proportion)的52.8302%、47.1698%,两类别的先验概率(PriorProbability)为0.5、0.5。表8.42PooledCovarianceMatrixInformationCovariance

MatrixRankNaturalLogofthe

Determinantofthe

CovarianceMatrix64.90654表8.42合并协方差矩阵信息(PooledCovarianceMatrixInformation),协方差矩阵的秩(CovarianceMatrixRank)为6,协方差矩阵行列式的自然对数(NaturalLogoftheDeterminantoftheCovarianceMatrix)为4.90654。表8.43GeneralizedSquaredDistancetoGroup:FromGroup121021.81939221.819390由表8.43广义组间距离平方(GeneralizedSquaredDistancetoRaD)知,广义组间距离平方与组间的马氏距离平方相等,为21.81939。

表8.44LinearDiscriminantFunctionforGroup:VariableLabel12Constant-562.18224-605.39869x1x1110.73670115.69677x2x299.2702985.61780x3x30.843091.02903x4x41.535251.54102x5x5-0.10404-0.23674x6x67.4119611.16207由表8.44得出线性判别函数:表8.45NumberofObservationsandPercentClassifiedintoGroupClassificationSummaryforCalibrationData:LMF.P85ResubstitutionSummaryusing

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论