上机课第8讲 判别分析过程_第1页
上机课第8讲 判别分析过程_第2页
上机课第8讲 判别分析过程_第3页
上机课第8讲 判别分析过程_第4页
上机课第8讲 判别分析过程_第5页
已阅读5页,还剩79页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

判别分析过程1、DISCRIM过程2、CANDISC(典型判别)过程3、STEPDISC(逐步判别)过程11、DISCRIM过程DISCRIM过程在一个或多个定量变量的基础上计算出各种判别函数.使用的方法都是后验概率最大的原则,如果假设每组内分布为多元正态分布,得到广义平方距离的判别准则.否则,使用非参数的方法.2PROCDISCRIM<options>;

CLASSvariable;

BYvariables;

FREQvariable;

IDvariable;

PRIORSprobabilities;

TESTCLASSvariable;

TESTFREQvariable;

TESTIDvariable;

VARvariables;

WEIGHTvariable;基本语句必需的语句与testdata=的数据集有关3PROCDISCRIM语句的选择项(49项)输入数据集选项:Data=SAS-data-setTestdata=SAS-data-set

指定待判别归类的数据集,定量变量的变量名必须与data=指定的建立判别函数的数据集中的变量名一致.4输出数据集选项Outstat=SAS-data-set

各种统计量,比如均值,标准差,相关矩阵及判别统计量等.2)Out=SAS-data-set

输入数据集,后验概率和每个观测重新被归入的类等.3)Outcross=SAS-data-set

输入数据集,后验概率和每个观测通过舍一法被归入的类等.5输出数据集选项4)Outd=SAS-data-set

包括输入数据和每个观测的类密度估计.

5)Testout=SAS-data-set

待判别归类的数据集,后验概率和每个观测被归入的类等.6)Testoutd=SAS-data-set

包括待判别归类的数据和每个观测的类密度估计.6选择判别分析类型的选项Method=normal|npar

缺省值为method=normal,假设每类样本服从正态分布.如指定method=npar时,采用非参数方法估计类密度,所以必须指定选项k=或r=中的一个.2)Pool=no|test|yes

当Pool=test时,要求对组内协差阵的齐性进行似然比检验,然后根据检验结果建立线性或非线性函数再进行判别归类.缺省值为yes(假定各类的协方差矩阵相等).7选择判别分析类型的选项3)Slpool=p----指定协差阵齐性检验的显著水平,缺省值为0.1.8有关非参数法的选项K=k----为k最近邻规则指定一个k值.R=r----为核密度估计指定一个半径r.Kernal=Biweight|Epanechnikov|Normal|Triweight|Uniform

指定核函数,缺省为Uniform|uni.4)Metric=diagonal|full|identity

为计算平方距离时指定所选用的距离,缺省为full.Diagonal为对角阵,identity为单位阵,如method=normal,则metric=full.9proc

discrimdata=ex612method=npar

r=0.5list;

classgroup;

varx1-x4;run;10ClassificationResultsforCalibrationData:WORK.EX612ResubstitutionResultsusingUniformKernelDensityPosteriorProbabilityofMembership

ingroupObsFromgroupClassifiedinto

groupAB1AA

1.00000.00002AA

1.00000.00003AA

1.00000.00004AA

1.00000.00005AA

1.00000.00006BB

0.00001.00007BB

0.00001.00008BB

0.00001.00009BB

0.00001.000010BB

0.00001.000011有关分类规则的选项

threshold=p----指定分类中可以接受的最小后验概率,小于该值归为other组,缺省值为0.确定奇异性的选项

Singular=p----指定矩阵奇异的准则,0<p<1,缺省为10-8.127.有关典型判别分析的选项Can----进行典型判别分析.Canprefix=name为典型判别变量指定前缀,缺省时典型变量名为CAN1,CAN2,…,CANm.3)Ncan=number

指定将被计算的典型变量的个数.13重新分类选项List----输出重新分类结果Listerr----仅输出被错误分类的观测noclassify----不对输入DATA=数据集进行重新判别分类14交叉确认(舍一法)分类选项crosslist----输出交叉确认(舍一法)的分类结果.crosslisterr----仅输出使用交叉确认(舍一法)分类方法被错误分类的观测.crossvalidate----要求对输入DATA=数据集进行交叉确定分类.只在输出窗口给出概括分类的列联表,没有每个观测具体的分类结果.如果已有选项crosslist,crosslisterr或outcross=,该选项不需要再指定.15PosteriorProbabilityofMembership

ingroupObsFromgroupClassifiedinto

groupAB1AA

0.99990.00012AA

1.00000.00003AA

1.00000.00004AA

1.00000.00005AA

1.00000.00006BB

0.00001.00007BB

0.09790.90218BA*0.99990.00019BB

0.00010.999910BB

0.00001.0000ClassificationResultsforCalibrationData:WORK.EX612Cross-validationResultsusingLinearDiscriminantFunction16ClassificationResultsforCalibrationData:WORK.EX612Cross-validationResultsusingQuadraticDiscriminantFunctionPosteriorProbabilityofMembership

ingroupObsFromgroupClassifiedinto

groupAB1AB*0.00001.00002AB*0.00001.00003AB*0.00001.00004AB*0.00001.00005AB*0.00001.00006BA*1.00000.00007BA*1.00000.00008BA*1.00000.00009BA*1.00000.000010BA*1.00000.000017检验数据分类选项Testlist----列出testdata=的数据集中全部观测的分类结果.Testlisterr----仅当使用testclass语句给出检验集中各观测所属类别时,该选项要求列出testdata=数据集中被错误分类的观测.错误率估计选项

Posterr----输出后验概率错误率估计.注:后验概率错误率估计的方法在帮助系统中可以查到.其原理是利用后验概率估计总的错判率和来自第i类而被错判为其它类的概率,但该值可能为负值,因为是估计值.后面有具体的解释.18打印控制选项Bcorr,Pcorr,Tcorr,Wcorr;Bcov,Pcov,Tcov,Wcov;Bsscp,Psscp,Tsscp,Wsscp;All,Anova,Distance,manova,Simple,Stdmean.

注:选项stdmean的含义是先把训练样本标准化,然后计算每个类的均值,若均值差别大说明判别是有意义的.Distance输出类之间的马氏距离.限制输出选项

Noprint,Short

19Stdmean选项的输出结果:Total-SampleStandardizedClassMeansVariableABx10.7722769345-.7722769345x20.8405436025-.8405436025x30.7878758859-.7878758859x40.7622380696-.7622380696先把全部训练样本标准化为均值为0,方差为1,然后分别计算标准化数据每个类的均值,若均值差别大说明判别是有意义的.20Stdmean选项的输出结果:PooledWithin-ClassStandardizedClass

MeansVariableABx11.253647724-1.253647724x21.709149135-1.709149135x31.333536711-1.333536711x41.207104773-1.207104773先把全部训练样本标准化,但与前面的表不同,这里减总均值,除以合并的组内方差,而不是总方差,然后分别计算每个类的均值,若均值差别大说明判别是有意义的.21ErrorCountEstimatesforgroup

ABTotalRate0.00000.00000.0000Priors0.50000.5000

Posterr选项的输出结果:注:后验概率错误率估计的方法在帮助系统中可以查到.其原理是利用后验概率估计总的错判率和来自第i类而被错判为其它类的概率,但该值可能为负值,因为是估计值.22NumberofObservationsand

AveragePosteriorProbabilities

ClassifiedintogroupFromgroupAB

5

1.00003

0.9718A5

1.00000

.B0

.5

1.0000Total10

1.00008

0.9894Priors0.5

0.5

ClassificationResultsforCalibrationData:WORK.EX611ResubstitutionResultsusingLinearDiscriminantFunction23PosteriorProbabilityErrorRateEstimates

forgroupEstimateABTotalStratified0.00000.00000.0000Unstratified-0.11110.12050.0047Priors0.50000.5000

总的错判率:第t类的观测被错误地分到其他类的概率24其中Rt为落在第t类的后验概率最大的区域.et表示第t类的观测被错误地判别为其他类的概率.25其中n为总的观测个数,包括类别为缺失的观测,后面的后验概率的和是对判别为第t类的所有观测取和.若分子比期望落在第t类的观测个数nqt大,则该估计值为负数.26其中Rut为来自第u类而落在第t类的后验概率最大的区域.nu表示第u类的观测个数.此时类别为缺失的观测在估计et不使用.27Priors语句:指定先验概率Priorsequal;----所有先验概率相等.Priorsproportional|prop;----为各类样本 出现的比例.Priorsprobabilities;为每组指定先验概率,如分类变量的取值为小写字母或数值时,要用引号,格式为:28其他语句参考SAS的帮助部分.PriorsA=0.4B=0.6;Priors‘a’=0.4‘b’=0.6;Priors‘1’=0.4‘2’=0.6;29dataex611;

inputx1-x4group$;

cards;13.852.797.8049.60A22.314.6712.3147.80A28.824.6316.1862.15A15.293.547.543.20A28.794.9016.1258.10A2.181.061.2220.60B3.850.804.0647.10B11.400.003.500.00B3.662.422.1415.10B12.100.005.680.00B8.853.385.1726.10.3028.602.401.20127.00.20.706.707.6030.20.7.902.404.3033.20.3.193.201.439.90.12.405.104.4324.60.16.805.402.3131.30.15.002.705.0264.00.;proc

discrim

data=ex611simplewcov distancelistposterr;

classgroup;

varx1-x4;run;31Observations10DFTotal9Variables4DFWithinClasses8Classes2DFBetweenClasses1ClassLevelInformationgroupVariable

NameFrequencyWeightProportionPrior

ProbabilityAA55.00000.5000000.500000BB55.00000.5000000.500000TheDISCRIMProcedure

32Within-ClassCovarianceMatricesgroup=A,DF=4Variablex1x2x3x4x150.995620005.9157600030.2466450047.02695000x25.915760000.818830003.427660003.98310000x330.246645003.4276600018.1078200028.98807500x447.026950003.9831000028.9880750060.23200000group=B,DF=4Variablex1x2x3x4x122.2563200-3.54066006.1400500-67.0293500x2-3.54066000.9890800-1.12240006.2953000x36.1400500-1.12240002.9880000-6.5560000x4-67.02935006.2953000-6.5560000374.903000033SquaredDistancetogroupFromgroupABA037.02876B37.028760FStatistics,NDF=4,DDF=5for

SquaredDistancetogroupFromgroupABA014.46436B14.464360Prob>MahalanobisDistancefor

SquaredDistancetogroupFromgroupABA1.00000.0059B0.00591.000034上页输出的解释:A类和B类的距离为3536LinearDiscriminantFunctionfor

groupVariableABConstant-42.24731-5.16272x17.674122.93107x25.548811.35698x3-13.96307-5.37383x41.181310.4558337PosteriorProbabilityofMembership

ingroupObsFromgroupClassifiedinto

groupAB1AA

0.99990.00012AA

1.00000.00003AA

1.00000.00004AA

1.00000.00005AA

1.00000.00006BB

0.00001.00007BB

0.00001.00008BB

0.00001.00009BB

0.00001.000010BB

0.00001.000038*MisclassifiedobservationPosteriorProbabilityofMembership

ingroupObsFromgroupClassifiedinto

groupAB11

B*0.00160.998412

A*1.00000.000013

A*1.00000.000014

B*0.08300.917015

B*0.00001.000016

A*1.00000.000017

A*1.00000.000018

A*1.00000.000039ResubstitutionSummaryusingLinearDiscriminantFunctionNumberofObservationsandPercent

ClassifiedintogroupFromgroupABTotal

5

62.503

37.508

100.00A5

100.000

0.005

100.00B0

0.005

100.005

100.00Total10

55.568

44.4418

100.00Priors0.5

0.5

40proc

sortdata=ex611out=ex611_1;

bygroup;run;

proc

princomp

data=ex611_1cov

outstat=out1noprint;

bygroup;

varx1-x4;run;proc

print;run;二次判别(马氏距离)的程序41datacov1;

setout1;

ifgroup='A'and_type_='COV';

keepx1-x4;datacov2;

setout1;

ifgroup='B'and_type_='COV';

keepx1-x4;datam1;

setout1;

ifgroup='A'and_type_='MEAN';

keepx1-x4;42datam2;

setout1;

ifgroup='B'and_type_='MEAN';

keepx1-x4;datatest;

setex611;

dropgroup;43proc

iml;

reset

noprint;

editcov1;

readallintocov1;

editcov2;

readallintocov2;

editm1;

readallintom1;

editm2;

readallintom2;44

edittest;

readallintotest;y=j(18,1,0);

doi=1to18;

y[i]=(test[i,]-m1)*inv(cov1)*(test[i,]-m1)’;

end;z=j(18,1,0);

doi=1to18;

z[i]=(test[i,]-m2)*inv(cov2)*(test[i,]-m2)’;

end;dist=y||z;run

TABPRT(dist);run;quit;45

COL1COL2ROW13.200113.734ROW23.200323.584ROW33.200512.895ROW43.200162.972ROW53.200513.304ROW62661.3863.200ROW7197.9603.200ROW824039.4663.200ROW91616.6423.200ROW1027108.9273.200ROW11328.94341.638ROW1225940.2362080.226ROW13919.457481.207ROW14336.25327.790ROW15934.8848.604ROW16189.576177.780ROW171256.204468.048ROW181531.768279.167462、CANDISC(典型判别)过程CANDISC过程完成典型判别分析,计算平方Mahalanobis距离并作单变量与多变量的方差分析.该过程产生包括典型系数和典型变量得分的输出数据集.47为什么要进行典型判别?有利于画图;使的分母尽量不是0;

(检验各组的均值是否相等的统计量).48PROCCANDISC

<options>;

CLASSvariable;

BYvariables;

FREQvariable;

VARvariables;

WEIGHTvariable;基本语句:必需的语句49PROCCANDISC语句的选择项(25项)数据集选项:Data=SAS-data-setOut=SAS-data-set----包含原始变量和典型变量得分.Outstat=SAS-data-set----包含各种统计量50典型变量选项Ncan=nPrefix=name----为命名典型变量指定前缀.奇异性选项Singular=p----判断矩阵奇异的标准,缺省值为Singular=10-8.51打印控制选项Bcorr,Pcorr,Tcorr,Wcorr;Bcov,Pcov,Tcov,Wcov;Bsscp,Psscp,Tsscp,Wsscp;All,Anova,Distance,Simple,Stdmean.抑制打印选项

Noprint,Short52P173---例6.4.2SAS例题中----典型判别两种方式:(1)在discrim过程中使用典型判别的选项.(2)先用candisc过程降维,然后再用discrim过程判别.53dataex621;

inputtype1$type2$no$x1x2x3x4@@;

cards;yy12281342011yy22451341040yy32001671227yy417015078yy51001672014nw6225125714nw7130100612nw815011776nw91201331026nw10160100510nn11185115519nn1217012564nn1316514253nn1510011772;run;54proc

discrimdata=ex621out=can642 ncan=2distancesimple;

classtype2;

varx1x2x3x4;run;proc

gplotdata=can642;

plotcan2*can1=type2;run;55proc

candiscdata=ex621out=can642 ncan=2distancesimple;

classtype2;

varx1x2x3x4;run;procdiscrimdata=can642distancelist;

classtype2;

varcan1can2;run;56

AdjustedApproximateSquaredCanonicalCanonicalStandardCanonicalCorrelationCorrelationErrorCorrelation10.8676020.8330620.0660850.75273320.4143610.2942660.2213740.171695例6.4.2的输出结果此表是计算分析变量组与把分类变量变为k-1个哑变量组的典型相关系数.57EigenvaluesofInv(E)*H=CanRsq/(1-CanRsq)

EigenvalueDifferenceProportionCumulative13.04422.83690.93620.9362

20.20730.06381.000058

TestofH0:ThecanonicalcorrelationsinthecurrentrowandallthatfollowarezeroLikelihoodApproximateRatioFValueNumDFDenDFPr>F0.204812722.728180.03700.828304920.693100.578159

TotalCanonicalStructureVariableCan1Can2x10.4353320.057877x20.844529-0.463052x30.8531330.238735x40.5185610.458387原始变量与典型变量之间的相关矩阵.60

BetweenCanonicalStructureVariableCan1Can2x10.9979900.063368x20.967382-0.253321x30.9911870.132469x40.9212650.38893461

PooledWithinCanonicalStructureVariableCan1Can2x10.2338680.056907x20.643181-0.645446x30.6378500.326684x40.2954920.47806862

Total-SampleStandardizedCanonicalCoefficientsVariableCan1Can2x10.453270170-0.175023456x20.845703479-1.149650085x30.9209452630.835387123x40.3174376560.64488051163

PooledWithin-ClassStandardizedCanonicalCoefficientsVariableCan1Can2x10.4531720478-.1749855680x20.5964259477-.8107819809x30.66159048610.6001270597x40.29920554210.607841632764

RawCanonicalCoefficientsVariableCan1Can2x10.0100479384-.0038798602x20.0401775618-.0546174144x301600101791x40.03054814660.062059128965

ClassMeansonCanonicalVariablestype2Can1Can2n-1.262949592-0.472278377w-0.9359327390.521545394y2.198882331-0.04926701766Obstype1type2x1x2x3x4Can1Can21yy22813420112.754591.127122yy24513410402.047321.260783yy20016712272.87670-0.853754yy170150780.42984-1.788035yy10016720142.885960.007556nw2251257140.16132-0.263647nw130100612-2.035171.186268nw15011776-1.15808-0.032189nw12013310260.323480.9315510nw160100510-1.971220.7857311nn185115519-0.842430.4280112nn17012564-0.87319-0.8308413nn16514253-0.44736-1.9620114nn135108212-2.369100.0898815nn10011772-1.78267-0.08642先将分析变量中心化,然后得到典型变量的得分,即典型变量的均值为0.67TheDISCRIMProcedureLinearDiscriminantFunctionConstant=-.5Xj'COV-1XjCoefficientVector=COV-1XjLinearDiscriminantFunctionfortype2

VariablenwyConstant-0.90904-0.57399-2.41876Can1-1.26295-0.935932.19888Can2-0.472280.52155-0.0492768小结典型判别过程仅起到把多个分析变量降维的作用;最后需要把典型变量作为新的分析变量利用距离判别法或Bayes判别法进行判别.693、STEPDISC(逐步判别)过程

stepdisc过程通过向前选入,向后剔除或逐步选择法选择对判别有用的定量变量来完成逐步判别分析.70为什么要进行逐步判别?节约费用(如医学检查,指标越少越好);使的分母尽量不是0;

(检验各组的均值是否相等的统计量)减少计算量,提高计算精度;提高判别函数的稳定性.71基本语句PROCSTEPDISC<options>;

CLASSvariable;

BYvariables;

FREQvariable;

VARvariables;

WEIGHTvariable;必需的语句72PROCSTEPDISC语句的选择项(27项)数据集选项:Data=SAS-data-set选择方法选项Method=FW|FORWARD|BW|BACKWARD|SW|STEPWISE73选择准则选项SLENTRY=p----缺省为0.15,小于该值的变量被引入.SLSTAY=p----缺省为0.15,大于该值的变量被剔除.PR2ENTRY=p----在向前选择方式中,指定选入变量的偏R2,即该值大于p引入该变量.(p

1)PR2STAY=p----在向后选择方式中,指定保留变量的偏R2,即该值大于p保留该变量.(p

1)74选择过程选项INCLUDE=n----要求var语句中前n个变量包含在每一个模型中,缺省为0.MAXSTEP=n----指定最多步数,缺省为var语句中变量数的两倍.START=n----指定var语句中前n个变量被用来开始选择过程.STOP=p----指定最终模型中的变量数.75奇异性选项Singular=p----指定选入变量的奇异标准,0<p<1.STEPDISC过程当一个变量与已在模型中的变量的平方多重相关超过1-p时,拒绝该变量进入模型,缺省值为10-8.76打印控制选项Bcorr,Pcorr,Tcorr,WcorrBcov,Pcov,Tcov,WcovBsscp,Psscp,Tsscp,Wssc

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论