




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
判别分析过程1、DISCRIM过程2、CANDISC(典型判别)过程3、STEPDISC(逐步判别)过程11、DISCRIM过程DISCRIM过程在一个或多个定量变量的基础上计算出各种判别函数.使用的方法都是后验概率最大的原则,如果假设每组内分布为多元正态分布,得到广义平方距离的判别准则.否则,使用非参数的方法.2PROCDISCRIM<options>;
CLASSvariable;
BYvariables;
FREQvariable;
IDvariable;
PRIORSprobabilities;
TESTCLASSvariable;
TESTFREQvariable;
TESTIDvariable;
VARvariables;
WEIGHTvariable;基本语句必需的语句与testdata=的数据集有关3PROCDISCRIM语句的选择项(49项)输入数据集选项:Data=SAS-data-setTestdata=SAS-data-set
指定待判别归类的数据集,定量变量的变量名必须与data=指定的建立判别函数的数据集中的变量名一致.4输出数据集选项Outstat=SAS-data-set
各种统计量,比如均值,标准差,相关矩阵及判别统计量等.2)Out=SAS-data-set
输入数据集,后验概率和每个观测重新被归入的类等.3)Outcross=SAS-data-set
输入数据集,后验概率和每个观测通过舍一法被归入的类等.5输出数据集选项4)Outd=SAS-data-set
包括输入数据和每个观测的类密度估计.
5)Testout=SAS-data-set
待判别归类的数据集,后验概率和每个观测被归入的类等.6)Testoutd=SAS-data-set
包括待判别归类的数据和每个观测的类密度估计.6选择判别分析类型的选项Method=normal|npar
缺省值为method=normal,假设每类样本服从正态分布.如指定method=npar时,采用非参数方法估计类密度,所以必须指定选项k=或r=中的一个.2)Pool=no|test|yes
当Pool=test时,要求对组内协差阵的齐性进行似然比检验,然后根据检验结果建立线性或非线性函数再进行判别归类.缺省值为yes(假定各类的协方差矩阵相等).7选择判别分析类型的选项3)Slpool=p----指定协差阵齐性检验的显著水平,缺省值为0.1.8有关非参数法的选项K=k----为k最近邻规则指定一个k值.R=r----为核密度估计指定一个半径r.Kernal=Biweight|Epanechnikov|Normal|Triweight|Uniform
指定核函数,缺省为Uniform|uni.4)Metric=diagonal|full|identity
为计算平方距离时指定所选用的距离,缺省为full.Diagonal为对角阵,identity为单位阵,如method=normal,则metric=full.9proc
discrimdata=ex612method=npar
r=0.5list;
classgroup;
varx1-x4;run;10ClassificationResultsforCalibrationData:WORK.EX612ResubstitutionResultsusingUniformKernelDensityPosteriorProbabilityofMembership
ingroupObsFromgroupClassifiedinto
groupAB1AA
1.00000.00002AA
1.00000.00003AA
1.00000.00004AA
1.00000.00005AA
1.00000.00006BB
0.00001.00007BB
0.00001.00008BB
0.00001.00009BB
0.00001.000010BB
0.00001.000011有关分类规则的选项
threshold=p----指定分类中可以接受的最小后验概率,小于该值归为other组,缺省值为0.确定奇异性的选项
Singular=p----指定矩阵奇异的准则,0<p<1,缺省为10-8.127.有关典型判别分析的选项Can----进行典型判别分析.Canprefix=name为典型判别变量指定前缀,缺省时典型变量名为CAN1,CAN2,…,CANm.3)Ncan=number
指定将被计算的典型变量的个数.13重新分类选项List----输出重新分类结果Listerr----仅输出被错误分类的观测noclassify----不对输入DATA=数据集进行重新判别分类14交叉确认(舍一法)分类选项crosslist----输出交叉确认(舍一法)的分类结果.crosslisterr----仅输出使用交叉确认(舍一法)分类方法被错误分类的观测.crossvalidate----要求对输入DATA=数据集进行交叉确定分类.只在输出窗口给出概括分类的列联表,没有每个观测具体的分类结果.如果已有选项crosslist,crosslisterr或outcross=,该选项不需要再指定.15PosteriorProbabilityofMembership
ingroupObsFromgroupClassifiedinto
groupAB1AA
0.99990.00012AA
1.00000.00003AA
1.00000.00004AA
1.00000.00005AA
1.00000.00006BB
0.00001.00007BB
0.09790.90218BA*0.99990.00019BB
0.00010.999910BB
0.00001.0000ClassificationResultsforCalibrationData:WORK.EX612Cross-validationResultsusingLinearDiscriminantFunction16ClassificationResultsforCalibrationData:WORK.EX612Cross-validationResultsusingQuadraticDiscriminantFunctionPosteriorProbabilityofMembership
ingroupObsFromgroupClassifiedinto
groupAB1AB*0.00001.00002AB*0.00001.00003AB*0.00001.00004AB*0.00001.00005AB*0.00001.00006BA*1.00000.00007BA*1.00000.00008BA*1.00000.00009BA*1.00000.000010BA*1.00000.000017检验数据分类选项Testlist----列出testdata=的数据集中全部观测的分类结果.Testlisterr----仅当使用testclass语句给出检验集中各观测所属类别时,该选项要求列出testdata=数据集中被错误分类的观测.错误率估计选项
Posterr----输出后验概率错误率估计.注:后验概率错误率估计的方法在帮助系统中可以查到.其原理是利用后验概率估计总的错判率和来自第i类而被错判为其它类的概率,但该值可能为负值,因为是估计值.后面有具体的解释.18打印控制选项Bcorr,Pcorr,Tcorr,Wcorr;Bcov,Pcov,Tcov,Wcov;Bsscp,Psscp,Tsscp,Wsscp;All,Anova,Distance,manova,Simple,Stdmean.
注:选项stdmean的含义是先把训练样本标准化,然后计算每个类的均值,若均值差别大说明判别是有意义的.Distance输出类之间的马氏距离.限制输出选项
Noprint,Short
19Stdmean选项的输出结果:Total-SampleStandardizedClassMeansVariableABx10.7722769345-.7722769345x20.8405436025-.8405436025x30.7878758859-.7878758859x40.7622380696-.7622380696先把全部训练样本标准化为均值为0,方差为1,然后分别计算标准化数据每个类的均值,若均值差别大说明判别是有意义的.20Stdmean选项的输出结果:PooledWithin-ClassStandardizedClass
MeansVariableABx11.253647724-1.253647724x21.709149135-1.709149135x31.333536711-1.333536711x41.207104773-1.207104773先把全部训练样本标准化,但与前面的表不同,这里减总均值,除以合并的组内方差,而不是总方差,然后分别计算每个类的均值,若均值差别大说明判别是有意义的.21ErrorCountEstimatesforgroup
ABTotalRate0.00000.00000.0000Priors0.50000.5000
Posterr选项的输出结果:注:后验概率错误率估计的方法在帮助系统中可以查到.其原理是利用后验概率估计总的错判率和来自第i类而被错判为其它类的概率,但该值可能为负值,因为是估计值.22NumberofObservationsand
AveragePosteriorProbabilities
ClassifiedintogroupFromgroupAB
5
1.00003
0.9718A5
1.00000
.B0
.5
1.0000Total10
1.00008
0.9894Priors0.5
0.5
ClassificationResultsforCalibrationData:WORK.EX611ResubstitutionResultsusingLinearDiscriminantFunction23PosteriorProbabilityErrorRateEstimates
forgroupEstimateABTotalStratified0.00000.00000.0000Unstratified-0.11110.12050.0047Priors0.50000.5000
总的错判率:第t类的观测被错误地分到其他类的概率24其中Rt为落在第t类的后验概率最大的区域.et表示第t类的观测被错误地判别为其他类的概率.25其中n为总的观测个数,包括类别为缺失的观测,后面的后验概率的和是对判别为第t类的所有观测取和.若分子比期望落在第t类的观测个数nqt大,则该估计值为负数.26其中Rut为来自第u类而落在第t类的后验概率最大的区域.nu表示第u类的观测个数.此时类别为缺失的观测在估计et不使用.27Priors语句:指定先验概率Priorsequal;----所有先验概率相等.Priorsproportional|prop;----为各类样本 出现的比例.Priorsprobabilities;为每组指定先验概率,如分类变量的取值为小写字母或数值时,要用引号,格式为:28其他语句参考SAS的帮助部分.PriorsA=0.4B=0.6;Priors‘a’=0.4‘b’=0.6;Priors‘1’=0.4‘2’=0.6;29dataex611;
inputx1-x4group$;
cards;13.852.797.8049.60A22.314.6712.3147.80A28.824.6316.1862.15A15.293.547.543.20A28.794.9016.1258.10A2.181.061.2220.60B3.850.804.0647.10B11.400.003.500.00B3.662.422.1415.10B12.100.005.680.00B8.853.385.1726.10.3028.602.401.20127.00.20.706.707.6030.20.7.902.404.3033.20.3.193.201.439.90.12.405.104.4324.60.16.805.402.3131.30.15.002.705.0264.00.;proc
discrim
data=ex611simplewcov distancelistposterr;
classgroup;
varx1-x4;run;31Observations10DFTotal9Variables4DFWithinClasses8Classes2DFBetweenClasses1ClassLevelInformationgroupVariable
NameFrequencyWeightProportionPrior
ProbabilityAA55.00000.5000000.500000BB55.00000.5000000.500000TheDISCRIMProcedure
32Within-ClassCovarianceMatricesgroup=A,DF=4Variablex1x2x3x4x150.995620005.9157600030.2466450047.02695000x25.915760000.818830003.427660003.98310000x330.246645003.4276600018.1078200028.98807500x447.026950003.9831000028.9880750060.23200000group=B,DF=4Variablex1x2x3x4x122.2563200-3.54066006.1400500-67.0293500x2-3.54066000.9890800-1.12240006.2953000x36.1400500-1.12240002.9880000-6.5560000x4-67.02935006.2953000-6.5560000374.903000033SquaredDistancetogroupFromgroupABA037.02876B37.028760FStatistics,NDF=4,DDF=5for
SquaredDistancetogroupFromgroupABA014.46436B14.464360Prob>MahalanobisDistancefor
SquaredDistancetogroupFromgroupABA1.00000.0059B0.00591.000034上页输出的解释:A类和B类的距离为3536LinearDiscriminantFunctionfor
groupVariableABConstant-42.24731-5.16272x17.674122.93107x25.548811.35698x3-13.96307-5.37383x41.181310.4558337PosteriorProbabilityofMembership
ingroupObsFromgroupClassifiedinto
groupAB1AA
0.99990.00012AA
1.00000.00003AA
1.00000.00004AA
1.00000.00005AA
1.00000.00006BB
0.00001.00007BB
0.00001.00008BB
0.00001.00009BB
0.00001.000010BB
0.00001.000038*MisclassifiedobservationPosteriorProbabilityofMembership
ingroupObsFromgroupClassifiedinto
groupAB11
B*0.00160.998412
A*1.00000.000013
A*1.00000.000014
B*0.08300.917015
B*0.00001.000016
A*1.00000.000017
A*1.00000.000018
A*1.00000.000039ResubstitutionSummaryusingLinearDiscriminantFunctionNumberofObservationsandPercent
ClassifiedintogroupFromgroupABTotal
5
62.503
37.508
100.00A5
100.000
0.005
100.00B0
0.005
100.005
100.00Total10
55.568
44.4418
100.00Priors0.5
0.5
40proc
sortdata=ex611out=ex611_1;
bygroup;run;
proc
princomp
data=ex611_1cov
outstat=out1noprint;
bygroup;
varx1-x4;run;proc
print;run;二次判别(马氏距离)的程序41datacov1;
setout1;
ifgroup='A'and_type_='COV';
keepx1-x4;datacov2;
setout1;
ifgroup='B'and_type_='COV';
keepx1-x4;datam1;
setout1;
ifgroup='A'and_type_='MEAN';
keepx1-x4;42datam2;
setout1;
ifgroup='B'and_type_='MEAN';
keepx1-x4;datatest;
setex611;
dropgroup;43proc
iml;
reset
noprint;
editcov1;
readallintocov1;
editcov2;
readallintocov2;
editm1;
readallintom1;
editm2;
readallintom2;44
edittest;
readallintotest;y=j(18,1,0);
doi=1to18;
y[i]=(test[i,]-m1)*inv(cov1)*(test[i,]-m1)’;
end;z=j(18,1,0);
doi=1to18;
z[i]=(test[i,]-m2)*inv(cov2)*(test[i,]-m2)’;
end;dist=y||z;run
TABPRT(dist);run;quit;45
COL1COL2ROW13.200113.734ROW23.200323.584ROW33.200512.895ROW43.200162.972ROW53.200513.304ROW62661.3863.200ROW7197.9603.200ROW824039.4663.200ROW91616.6423.200ROW1027108.9273.200ROW11328.94341.638ROW1225940.2362080.226ROW13919.457481.207ROW14336.25327.790ROW15934.8848.604ROW16189.576177.780ROW171256.204468.048ROW181531.768279.167462、CANDISC(典型判别)过程CANDISC过程完成典型判别分析,计算平方Mahalanobis距离并作单变量与多变量的方差分析.该过程产生包括典型系数和典型变量得分的输出数据集.47为什么要进行典型判别?有利于画图;使的分母尽量不是0;
(检验各组的均值是否相等的统计量).48PROCCANDISC
<options>;
CLASSvariable;
BYvariables;
FREQvariable;
VARvariables;
WEIGHTvariable;基本语句:必需的语句49PROCCANDISC语句的选择项(25项)数据集选项:Data=SAS-data-setOut=SAS-data-set----包含原始变量和典型变量得分.Outstat=SAS-data-set----包含各种统计量50典型变量选项Ncan=nPrefix=name----为命名典型变量指定前缀.奇异性选项Singular=p----判断矩阵奇异的标准,缺省值为Singular=10-8.51打印控制选项Bcorr,Pcorr,Tcorr,Wcorr;Bcov,Pcov,Tcov,Wcov;Bsscp,Psscp,Tsscp,Wsscp;All,Anova,Distance,Simple,Stdmean.抑制打印选项
Noprint,Short52P173---例6.4.2SAS例题中----典型判别两种方式:(1)在discrim过程中使用典型判别的选项.(2)先用candisc过程降维,然后再用discrim过程判别.53dataex621;
inputtype1$type2$no$x1x2x3x4@@;
cards;yy12281342011yy22451341040yy32001671227yy417015078yy51001672014nw6225125714nw7130100612nw815011776nw91201331026nw10160100510nn11185115519nn1217012564nn1316514253nn1510011772;run;54proc
discrimdata=ex621out=can642 ncan=2distancesimple;
classtype2;
varx1x2x3x4;run;proc
gplotdata=can642;
plotcan2*can1=type2;run;55proc
candiscdata=ex621out=can642 ncan=2distancesimple;
classtype2;
varx1x2x3x4;run;procdiscrimdata=can642distancelist;
classtype2;
varcan1can2;run;56
AdjustedApproximateSquaredCanonicalCanonicalStandardCanonicalCorrelationCorrelationErrorCorrelation10.8676020.8330620.0660850.75273320.4143610.2942660.2213740.171695例6.4.2的输出结果此表是计算分析变量组与把分类变量变为k-1个哑变量组的典型相关系数.57EigenvaluesofInv(E)*H=CanRsq/(1-CanRsq)
EigenvalueDifferenceProportionCumulative13.04422.83690.93620.9362
20.20730.06381.000058
TestofH0:ThecanonicalcorrelationsinthecurrentrowandallthatfollowarezeroLikelihoodApproximateRatioFValueNumDFDenDFPr>F0.204812722.728180.03700.828304920.693100.578159
TotalCanonicalStructureVariableCan1Can2x10.4353320.057877x20.844529-0.463052x30.8531330.238735x40.5185610.458387原始变量与典型变量之间的相关矩阵.60
BetweenCanonicalStructureVariableCan1Can2x10.9979900.063368x20.967382-0.253321x30.9911870.132469x40.9212650.38893461
PooledWithinCanonicalStructureVariableCan1Can2x10.2338680.056907x20.643181-0.645446x30.6378500.326684x40.2954920.47806862
Total-SampleStandardizedCanonicalCoefficientsVariableCan1Can2x10.453270170-0.175023456x20.845703479-1.149650085x30.9209452630.835387123x40.3174376560.64488051163
PooledWithin-ClassStandardizedCanonicalCoefficientsVariableCan1Can2x10.4531720478-.1749855680x20.5964259477-.8107819809x30.66159048610.6001270597x40.29920554210.607841632764
RawCanonicalCoefficientsVariableCan1Can2x10.0100479384-.0038798602x20.0401775618-.0546174144x301600101791x40.03054814660.062059128965
ClassMeansonCanonicalVariablestype2Can1Can2n-1.262949592-0.472278377w-0.9359327390.521545394y2.198882331-0.04926701766Obstype1type2x1x2x3x4Can1Can21yy22813420112.754591.127122yy24513410402.047321.260783yy20016712272.87670-0.853754yy170150780.42984-1.788035yy10016720142.885960.007556nw2251257140.16132-0.263647nw130100612-2.035171.186268nw15011776-1.15808-0.032189nw12013310260.323480.9315510nw160100510-1.971220.7857311nn185115519-0.842430.4280112nn17012564-0.87319-0.8308413nn16514253-0.44736-1.9620114nn135108212-2.369100.0898815nn10011772-1.78267-0.08642先将分析变量中心化,然后得到典型变量的得分,即典型变量的均值为0.67TheDISCRIMProcedureLinearDiscriminantFunctionConstant=-.5Xj'COV-1XjCoefficientVector=COV-1XjLinearDiscriminantFunctionfortype2
VariablenwyConstant-0.90904-0.57399-2.41876Can1-1.26295-0.935932.19888Can2-0.472280.52155-0.0492768小结典型判别过程仅起到把多个分析变量降维的作用;最后需要把典型变量作为新的分析变量利用距离判别法或Bayes判别法进行判别.693、STEPDISC(逐步判别)过程
stepdisc过程通过向前选入,向后剔除或逐步选择法选择对判别有用的定量变量来完成逐步判别分析.70为什么要进行逐步判别?节约费用(如医学检查,指标越少越好);使的分母尽量不是0;
(检验各组的均值是否相等的统计量)减少计算量,提高计算精度;提高判别函数的稳定性.71基本语句PROCSTEPDISC<options>;
CLASSvariable;
BYvariables;
FREQvariable;
VARvariables;
WEIGHTvariable;必需的语句72PROCSTEPDISC语句的选择项(27项)数据集选项:Data=SAS-data-set选择方法选项Method=FW|FORWARD|BW|BACKWARD|SW|STEPWISE73选择准则选项SLENTRY=p----缺省为0.15,小于该值的变量被引入.SLSTAY=p----缺省为0.15,大于该值的变量被剔除.PR2ENTRY=p----在向前选择方式中,指定选入变量的偏R2,即该值大于p引入该变量.(p
1)PR2STAY=p----在向后选择方式中,指定保留变量的偏R2,即该值大于p保留该变量.(p
1)74选择过程选项INCLUDE=n----要求var语句中前n个变量包含在每一个模型中,缺省为0.MAXSTEP=n----指定最多步数,缺省为var语句中变量数的两倍.START=n----指定var语句中前n个变量被用来开始选择过程.STOP=p----指定最终模型中的变量数.75奇异性选项Singular=p----指定选入变量的奇异标准,0<p<1.STEPDISC过程当一个变量与已在模型中的变量的平方多重相关超过1-p时,拒绝该变量进入模型,缺省值为10-8.76打印控制选项Bcorr,Pcorr,Tcorr,WcorrBcov,Pcov,Tcov,WcovBsscp,Psscp,Tsscp,Wssc
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 全媒体运营师备考经验分享试题及答案
- 2024年银行从业资格考试常见问题试题及答案
- 商场美陈设计与制作合同
- 八年级语文上册 第六单元 品味经典 24 周亚夫军细柳高效教学实录 新人教版
- 小学防溺水主题课件视频
- 2023七年级数学下册 第2章 整式的乘法2.1 整式的乘法2.1.4 多项式的乘法第2课时 多项式与多项式相乘教学实录 (新版)湘教版
- 第四章 第8节 物理性质与化学性质 教学设计教学反思-2023-2024学年浙教版科学七年级上册
- 浙教版科学七年级上 第二章 第一节 生物与非生物 教学设计
- 18富饶的西沙群岛(教学设计)-2024-2025学年语文三年级上册统编版
- 2024-2025学年八年级语文下册 第三单元 综合性学习 古诗苑漫步教学实录 新人教版
- 一年级综合实践-集中注意力
- 《大学物理学》精美课件(全)
- 廉洁谈话一问一答简短六篇
- 校服采购投标方案(技术标)
- 儿童压力性损伤评估量表与预防措施
- 微生物课件(老师版) 1.流感病毒
- 解读电子病历系统应用水平分级评价和标准
- KET词汇表(英文中文完整版)
- DBJ61-T 112-2021 高延性混凝土应用技术规程-(高清版)
- CJJT-82-99-《城市绿化工程施工及验收规范》
- 医疗机构手术分级管理办法
评论
0/150
提交评论