




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
判别分析(DiscriminateAnalysis)知识要点:
1、什么是判别分析?2、理解距离判别、Bayes判别以及Fisher判别的基本思想3、结合SPSS软件进行案例分析4、判别分析的应用(※※)2021/5/91医学:
例1:在医学诊断中,一个病人肺部有阴影,医生要判断他患的是肺结核、肺部良性肿瘤还是肺癌?肺结核病人、肺部良性肿瘤病人、肺癌病人组成三个总体,病人来自其中一个总体,可通过病人的指标(阴影大小、边缘是否光滑等)用判别分析判断他来自哪个总体(即判断他患的什么病?)判别分析的应用2021/5/9222经济学:例2:股票持有者根据股票近期的变化情况判断此种股票价格下一周是上升还是下跌?例3:依据一个企业税务报表的数据,判断该企业是否逃税;2021/5/9333例4:为了研究中小企业的破产模型,选定4个经济指标:
X1总负债率(现金收益/总负债)
X2收益性指标(纯收入/总财产)
X3短期支付能力(流动资产/流动负债)
X4生产效率性指标(流动资产/纯销售额)对17个破产企业(1类)和21个正常运行企业(2类)进行了调查,得如下资料:2021/5/9444总负债率收益性指标短期支付能力生产效率指标类别-.45-.411.09.451-.56-.311.51.161.06.021.01.401-.07-.091.45.261-.10-.091.56.671-.14-.07.71.281-.23-.30.22.181.07.021.31.251.01.002.15.701-.28-.231.19.661.15.051.88.271.37.111.99.381-.08-.081.51.421.05.031.68.951.01.001.26.601.12.111.14.171-.28-.271.27.511.51.102.49.542.08.022.01.5322021/5/9555.38.113.27.552.19.052.25.332.32.074.24.632.31.054.45.692.12.052.52.692-.02.022.05.352.22.082.35.402.17.071.80.522.15.052.17.552-.10-1.012.50.582.14-.03.46.262.14.072.61.522-.33-.093.01.472.48.091.24.182.56.114.29.452.20.081.99.302.47.142.92.452.17.042.45.142.58.045.06.132.04.011.50.71待判-.06-.061.37.40待判2021/5/9666.07-.011.37.34待判-.13-.141.42.44待判.15.062.23.56待判.16.052.31.20待判.29.061.84.38待判.54.112.33.48待判2021/5/9777企业序号判别类型判别函数得分判别为1的概率判别的为2概率11-.56509.69479.3052121-.89817.80234.1976631-.59642.70620.2938041-1.02182.83420.1658052.25719.35312.6468862.34253.32005.6799572.27925.34442.65558821.24010.09012.909882021/5/9888如何进行判类?
---判别分析的基本思想一、什么是判别分析?判别分析:根据已知对象的某些观测指标和所属类别来判断未知对象所属类别的一种统计学方法。判别分析的特点(基本思想):(1)根据已掌握的、历史上若干样本的p个指标数据及所属类别的信息,总结出该事物分类的规律性,建立判别公式和判别准则。(2)根据总结出来的判别公式和判别准则,判别未知类别的样本点所属的类别。2021/5/9999二、判别分析的要求和假设条件变量属性:被解释变量是属性变量(nonmetricvariables)
;解释变量是度量变量(metricvariables)判别分析最基本的要求:(1)分组类型在两组以上;(2)已知分类的样本中,每组案例的规模必须至少在一个以上;(3)解释变量必须是可测量的,才能计算其平均值和方差,使其合理地应用于统计函数。2021/5/9101010假设条件:(1)每一个判别变量(解释变量)不能是其他判别变量的线性组合(避免多重共线性问题)。否则,参数估计的标准误将很大,以至于参数估计统计上不显著。(2)各组变量的协方差矩阵相等。在此假设下,可以使用很简单的公式计算判别函数和进行显著性检验。(3)各判别变量之间具有多元正态分布,即每个变量对于所有其他变量的固定值有正态分布。在此条件下,可精确计算显著性检验值和分组归属的概率。2021/5/9111111三、判别分析方法2021/5/9121212首先根据已知分类的数据,分别计算各类的重心即各组(类)的均值,判别的准则是对任给样品,计算它到各类平均数的距离,哪个距离最小就将它判归哪个类。(一)两个总体的距离判别法设有两个p维正态总体G1、G2,对给定的样本Y,可用如下规则判别:若样本Y到总体G1的距离小于到总体G2的距离,则认为样本Y属于总体G1;反之,则认为样本Y属于总体G2;若样本Y到总体G1和G2的距离相等,则让它待判。距离判别2021/5/9131313判别函数,令判别法则:W是关于y的线性函数,是已知的p维向量,是W的判别系数1、方差相等:2021/5/91414142、总体协方差已知,且不相等:判别函数:判别法则:2021/5/9151515
设有个K总体,分别有均值向量(i=1,2,…,k)和协方差阵∑i=∑
,又设Y是一个待判样品。则Y与各总体的距离为(即判别函数):(二)多总体的距离判别法判别函数:判别法则:注:这与距离判别是等价的.协方差阵相等:距离判别缺点:没有考虑到每个总体出现的机会大小,即先验概率,没有考虑到错判的损失判别函数:判别法则:判别函数:注:这与距离判别是等价的.判别法则:判别函数:注:这与距离判别是等价的.判别法则:判别函数:2021/5/9161616(三)距离判别法的优缺点:该方法简单实用,但没有考虑到每个总体出现的机会大小,即先验概率,没有考虑到错判的损失。贝叶斯判别法正是为了解决这两个问题提出的判别分析方法。2021/5/9171717通过计算被判样本x属于k个总体的条件概率P(n/x),n=1,2…..k.比较k个概率的大小,将样本判归为来自出现概率最大的总体(或归属于错判概率最小的总体)的判别方法。考虑误判损失,比较各类错判损失大小,选取其中最小的,则判定样品属于该总体。贝叶斯(Bayes)判别2021/5/9181818例:下表是某金融机构客户的个人资料,这些资料对一个金融机构来说,对于客户信用度的了解至关重要,因为利用这些资料,可以挖掘出许多的信息,建立客户的信用度评价体系。所选变量为:
x1:月收入
x2:月生活费支出
x3:虚拟变量,住房的所有权,自己的为“1”,租用的“0”
x4:目前工作的年限
x5:前一个工作的年限
x6:目前住所的年限
x7:前一个住所的年限X8:家庭赡养的人口数X9:信用程度,“5”的信用度最高,“1”的信用度最低。2021/5/91919192021/5/92020202021/5/9212121用投影的方法将k个不同总体的p维数据投影到某一个方向,使不同总体之间的p维数据投影尽可能分开,同一总体内的各样本点尽可能的集中。用方差分析的思想则可构建一个较好区分各个总体的线性判别法。
Fisher判别2021/5/9222222变量选择和逐步判别法向后剔除开始时,所有变量都在模型中。每一步,在Wilks的统计量的准则下对模型中判别能力贡献最小的变量剔除。当所有余下的变量都达到留在模型中的标准时,向后剔除过程停止。向前选入开始时模型中没有变量。每一步,Wilks的统计量最小者,进入模型。当不再有未被选入的变量小于选入的临界值时,向前选入过程停止。2021/5/9232323逐步选择开始时如同向前选择一样,模型中没有变量,每一步都被检查。如果在Wilks的准则下统计量对模型的判别能力贡献最小的变量达不到留在模型中的标准,它就被剔除。否则,不在模型中对模型的判别能力贡献最大的变量被选入模型。当模型中的所有变量都达到留在模型中的标准而没有其他变量能达到进入模型的标准,逐步选择过程停止。逐步判别法采用有进有出的算法,即每一步都进行检验。首先,将判别能力最强的变量引进判别函数,而对较早进入判别函数的变量,随着其他变量的进入,其显著性可能发生变化,如果其判别能力不强了,则删除。2021/5/9242424判别分析方法步骤及框图
2021/5/9252525判别分析的案例分析与SPSS操作步骤执行菜单命令,单击[分析Analyze]、[分类Classify]、[判别Discriminant]2021/5/9262626⑴指定分组变量及其取值范围。
将分组变量从源变量窗口通过选择箭头选到分组变量窗口“Groupingvariable”。并从“DefineRange”按钮定义分组变量的取值范围,给定最小值Minimum和最大值Maximum。⑵指定判别函数中的自变量。
将自变量从源变量窗口通过选择箭头选到自变量窗口。⑶选择使用自变量的方法。
对于选定的自变量可以全部应用到判别函数中去,这是系统默认的使用全部自变量法“Enterindependenttogether”。如果要对变量进行筛选检验,将使用选项逐步进入法“Usestepwisemethod”。使用该方法后,按钮“Method”将被激活2021/5/9272727λ=组内平方和/总平方和2021/5/92828282021/5/9292929计算各类别及总体各变量均值、标准差⑷统计量、矩阵和函数系数的计算按钮“Statistics”将打开统计计算窗口。输出单变量方差分析结果各类协方差矩阵相等的检验选择判别函数系数输出形式Fisher判别系数非标准化判别系数组内相关矩阵合并组内协方差矩阵组间协方差矩阵总协方差矩阵指定自变量的相关矩阵2021/5/93030302021/5/9313131⑸分类方式和判别结果单击按钮“Classify”将设置分类所依据的判别先验概率和协方差矩阵,以及输出图形和显示结果先验概率的设定各类取相等先验概率根据各类样本个数计算先验概率输出分析结果输出各样本的分类结果如判别得分、判别类等交叉检验结果将缺失值用均值替代选择分类使用的协方差阵组内协方差阵分组协方差阵作图生成一张包括各类的散点图分类显示各个类的散点图分界图,将坐标平面划分为不同的区域,每个区域将代表一个类2021/5/93232322021/5/93333332021/5/9343434⑹在SPSS数据文件中生成新变量单击“SAVE”按钮,保存预测的组别,判别得分和各组成员的事后概率建立一个标明每个样本所属的类别的变量生成一个判别得分变量样本属于某类的概率2021/5/9353535案例解析:人类发展状况判类1990联合国开发计划署公布的《人类发展报告》,用出生时的预期寿命(x1)、成人识字率(x2)、调整后的人均GDP(x3)等三个变量衡量人类发展状况,现从高发展水平国家和中等发展水平国家中各选了5个样本,另选中国、希腊等作为待判样本。要求:构建判别函数进行判别分析。(见数据1995人类发展报告部分数据.SAV)2021/5/93636362021/5/9373737该案例的SPSS操作步骤:1、Analyze-Classify-Discriminant2、在判别分析窗口将分组变量‘经济发展程度(region)’选入“Groupingvariable”框。并从“DefineRange”按钮定义分组变量的取值范围,给定最小值Minimum设定为1和最大值Maximum设定为2。2021/5/93838382021/5/93939393、将判别依据变量出生时的预期寿命、成人识字率、调整后的人均GDP从源变量窗口通过选择箭头选到自变量窗口点击Statistics按钮4、在Statistics对话框选择方差分析(UnivariateANOVAs)和方差相等检验(Box’sM)以及判别函数系数中的Fisher’s和Unstandardized.点击Statistics按钮2021/5/9404040点击Classify按钮5、在Classify对话框在display中选择‘Summarytable’和‘Leaf-one-outclassification’;在plots中选择分界图‘Territorialmap’点击Classify按钮2021/5/9414141点击Save按钮5、在Save对话框在中选择预测分组变量‘Predictedgroupmembership’和判别函数得分变量‘Discriminantscores’以及各组的条件概率变量‘Probabilitiesofgroupmembership’
6、点击Save对话框中的‘Continue’;再点击DiscriminantAnlysis对话框中‘Ok’2021/5/9424242输出结果及分析样本描述:该例中有效样本有10个,有效率为71.4%;缺失样本为4,缺失率为28.8%判别依据变量在各组及总体中有效样本量情况2021/5/9434343方差分析表:判别依据变量在各组中的均值相等检验。从该表中可看出各组之间的调整后的人均GDP存在显著差异,该变量对分组起着重要作用各组协方差矩阵的行列式值各组协方差矩阵相等的检验。零假设认为各组方差相等,该例中零假设出现的可能性为0.02,说明各组方差不等,严格意义上应构建非线性判别函数2021/5/9444444SummaryofCanonicalDiscriminantFunctions(典型判别函数的相关描述)构建的典型判别函数的贡献率:对原始信息的包含量。从表中可看出,本例构建了1个典型判别函数,其贡献率为100%。构建的典型判别函数模型显著性检验。零假设为:典型判别函数模型不显著;从表中可看出,本例构建的典型判别函数是显著的(Sig值为0.008)。2021/5/9454545标准化的典型判别函数系数表。从该表可写出标准化的典型判别函数模型:f1=0.625*标准化的出生时的预期寿命-0.025*标准化的成人识字率*+0.975*标准化的调整后的人均GDP从该表中各函数系数的绝对值大小进行比较,还可看出哪些变量对构建判别函数起着重要作用:本例中调整后的人均GDP对构建的判别函数起着重要作用;出生时的预期寿命则次之。该表反映的是判别依据变量与判别函数之间的相关关系;系数值越大,说明相应变量对判类起着重要作用(与上表功用类似)2021/5/9464646非标准化的典型判别函数系数表。从该表可写出非标准化的典型判别函数模型:f1=0.159*出生时的预期寿命-0.003*成人识字率*+0.002*调整后的人均GDP-19.334每组重心代入非标准化的典型判别函数系数后的取值。由该重心的函数取值可计算分类的临界值:本例为临界值Z=(2.046-2.046)/2=0;将14个样本数据代入非标准化的典型判别函数模型,得到各样本的函数取值;取值大于0的样本,判到‘高发展水平国家’;反之,判到‘中等发展水平国家’。2021/5/9474747以下3个表为在Statistics对话框中的判别函数系数中选择Fisher’s出现的结果。(通常可不选择该选项,不列示以下结果)以下结果是依据Bayes判别法,设定先验概率(Priorprobabilities),将后验概率判别转化为距离判别,得到分组的线性判别函数。进入分析的样本数每组先验概率设定情况,本例中两组的先验概率为相等,为0.5。分组的线性判别函数系数表。该例中,高发达国家的函数模型:f=5.742*出生时的预期寿命+0.221*成人识字率*+0.081*调整后的人均GDP-311.823;中等发展国家的函数模型:f=5.093*出生时的预期寿命+0.234*成人识字率*+0.024*调整后的人均GDP-232.705;依据两模型每个样本有两个函数取值,哪个大判到哪一类。2021/5/9484848分类预测效果表依据函数的分类预测情况交叉检验:分类预测效果检验从该表的Original部分,可看出:高发展水平国家原始样本有5个,正确判类个数为5个,正判率为100%;中等发展国家原始样本有5个,正确判类个数为5个,正判率为100%;待判样本有5个,其中2个判到高发展国家,有2个判到中等发展国家。总体正判率为100%;从该表的Cross-validated(交叉检验)部分,可看出:高发展水平国家原始样本有5个,正确判类个数为4个,正判率为80%,误判率为20%;中等发展国家原始样本有5个,正确判类个数为5个,正判率为100%;总体正判率为90%。2021/5/9494949最终的数据文件,增加了4个新变量。这是点击Save按钮中选择预测分组变量‘Predictedgroupmembership’和判别函数得分变量‘Discriminantscores’以及各组的条件概率变量‘Probabilitiesofgroupmembership’等后,系统将这些变量信息保存到数据文件的结果。2021/5/9505050例1:企图用一套打分体系来描绘企业的状况。该体系对每个企业的一些指标(变量)进行评分。这些指标包括:企业规模(is)、服务(se)、雇员工资比例(sa)、利润增长(prr)、市场份额(ms)、市场份额增长(msr)、流动资金比例(cp)、资金周转速度(cs)等等。另外,有一些企业已经被某杂志划分为上升企业、稳定企业和下降企业。我们希望根据这些企业的上述变量的打分和它们已知的类别找出一个分类标准,以对没有被该刊物分类的企业进行分类。2021/5/9515151利用SPSS软件的逐步判别法淘汰了不显著的流动资金比例(cp),还剩下七个变量is,se,sa,prr,ms,msr,cs,得到两个典则判别函数(CanonicalDiscriminantFunctionCoefficients):这两个函数实际上是由Fisher判别法得到的向两个方向的投影。这两个典则判别函数的系数是下面的SPSS输出得到的:2021/5/9525252SPSS分析结果之一:典型判别函数系数矩阵利用逐步判别法淘汰了不显著的流动资金比例(cp)两个典型判别函数:这两个函数实际上是由Fisher判别法得到的向两个方向的投影。2021/5/9535353SPSS分析结果之一:样本分组散点图根据两个典型判别函数算出的样本观测值绘制处二维平面图从上图可以看出,第一个投影(相应于来自于第一个典则判别函数横坐标值)已经能够很好地分辨出三个企业类型了。这两个典则判别函数并不是平等的。其实一个函数就已经能够把这三类分清楚了。2021/5/9545454SPSS分析结果之一:
特征根表(反映构建的判别函数(投影)的重要程度)该表说明第一个函数的贡献率已经是99%了,而第二个只有1%。2021/5/9555555SPSS分析结果之一:分类线性函数系数矩阵该表给出了三个线性分类函数的系数。把每个观测点带入三个函数,就可以得到分别代表三类的三个值,哪个值最大,该点就属于相应的那一类。见下页幻灯2021/5/9565656样本Y到Gi的距离:注:这与距离判别是等价的.判别法则:判别函数:备注:2021/5/9575757SPSS分析结果之一:利用构建的判别函数分类情况及交叉检验结果该表反映构建的判别函数进行预测判类的效果状况。从该表可看出该例对所有样本进行预测的准确率为100%;进行交叉检验也可看到判别函数的判类准确率也为100%。说明构建的函数模型进行预测非常有效。2021/5/9585858例2:鸢尾花数据(花瓣,花萼的长宽)5个变量:花瓣长(slen),花瓣宽(swid),花萼长(plen),花萼宽(pwid),分类号(1:Setosa,2:Versicolor,3:Virginica)(data14-04)2021/5/9595959鸢尾花数据(数据分析过程简明表)2021/5/9606060鸢尾花数据(原始数据的描述)2021/5/9616161鸢尾花数据(合并类内相关阵和协方差阵)2021/5/9626262鸢尾花数据(总协方差阵)2021/5/9636363鸢尾花数据(特征值表)Eigenvalue:用于分析的前两个典型判别函数的特征值,是组间平方和与组内平方和之比值.最大特征值与组均值最大的向量对应,第二大特征值对应着次大的组均值向量
典型相关系数(canonicalcorrelation):是组间平方和与总平方和之比的平方根.2021/5/9646464鸢尾花数据(Wilks’Lambda统计量)检验判别函数1和2是否显著.2021/5/9656565鸢尾花数据(有关判别函数的输出)标准化的典型判别函数系数(使用时必须用标准化的自变量)2021/5/9666666典型判别函数系数2021/5/9676767类均值(重心)处的典则判别函数值2021/5/9686868鸢尾花数据(用判别函数对观测量分类结果)先验概率费歇判别函数系数把自变量代入三个式子,哪个大归谁.2021/5/9696969TerritoryMap(区域图)CanonicalDiscriminateFunction1VersusCanonicalDiscriminateFunction2三种鸢尾花的典型变量值把一个典型变量组成的坐标平面分成三个区域.*为中心坐标.
TerritorialMapCanonicalDiscriminantFunction2-12.0-8.0-4.0.04.08.012.0
趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌12.01223122312231223122312238.01223122312231223122312234.0122312231223122312231223*.0*122312*231223122312231223-4.0122312231223122312231223-8.0122312231223122312231223-12.01223
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 成都小区物业管理合同
- 招投标委托中介合同
- 伸缩缝安装劳务承包合同
- 涵洞混凝土垫层施工方案
- 围墙改造施工方案范本
- TDGAS 044-2024 服装领域众包车间评价技术规范
- 邢台篮球场围栏网施工方案
- 设备拆除再利用施工方案
- 普洱太阳能电池板施工方案
- 河北省邯郸市三龙育华中学2023-2024学年高一下学期第一次月考语文试题(原卷版+解析版)
- 双机抬吊法吊运箱梁安全控制要点课件
- 房建工程样板节点参考照片图文并茂
- 2023年高考语文全国乙卷《长出一地的好荞麦》解析
- ICC国际冠军杯传播及招商方案
- 丰田车系卡罗拉(双擎)轿车用户使用手册【含书签】
- 商品价格表(全)
- 管理系统中计算机应用详细课件
- 危险废弃物管理培训资料
- 三月三主题班会课件
- 2023年上海市普陀区高考历史二模试卷及答案解析
- 瑞达峰环境友好型高附加值关键医药中间体、特色原料药及 GMP 成品药(仿制药与创新药)规模化生产项目(一期)环评报告书
评论
0/150
提交评论