




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第五章把对象归类
—判别分析
(DiscriminantAnalysis)2008.8安徽财经大学统计与应用数学学院第五章把对象归类—判别分析(DiscriminantAna第5章判别分析要点5.1判别分析的基本思想5.2距离判别5.3贝叶斯判别推荐阅读5.4费雪尔判别5.5建立判别函数的方法5.6SPSS判别分析过程2008.8安徽财经大学统计与应用数学学院第5章判别分析要点5.1判别分析的基本思想5.2返回第5章判别分析学习目的和要求:
通过本章的学习,使学生了解判别分析概念及其适用范围,掌握四种判别分析的方法及其应用。应用SPSS进行计算处理。2008.8安徽财经大学统计与应用数学学院返回第5章判别分析学习目的和要求:2008.8安徽财经5.1.1引例5.1.2判别分析的基本思想5.1.3判别分析的类型5.1判别分析的基本思想返回5.1.4与聚类的区别和联系2008.8安徽财经大学统计与应用数学学院5.1.1引例5.1.2判别分析的基本思想5.1.1、引例12、引例2返回5.1.1引例5.1.2判别分析的基本思想5.1.3判别分析的类型5.1判别分析的基本思想5.1.4与聚类的区别和联系2008.8安徽财经大学统计与应用数学学院1、引例12、引例2返回5.1.1引例5.1.1、引例15.1.1引例
某医院已有1000个分别患有胃炎、肝炎、冠心病、糖尿病等的病人的资料,记录了他们每个人若干项症状指标数据,就可以从这些指标数据发现各类病人的区别。把这种区别表示为一个判别公式,在测得一个新病人若干项症状指标的数据时,就可以根据其指标数据用判别公式诊断,判定他患的是哪种病。2008.8安徽财经大学统计与应用数学学院1、引例15.1.1引例某医院已有12、引例25.1.1引例有一些昆虫的性别很难看出,只有通过解剖才能够判别;但是雄性和雌性昆虫在若干体表度量上有些综合的差异。于是统计学家就根据已知雌雄的昆虫体表度量(这些用作度量的变量亦称为预测变量)得到一个标准,并且利用这个标准来判别其他未知性别的昆虫。2008.8安徽财经大学统计与应用数学学院2、引例25.1.1引例有一些昆虫的2、引例25.1.1引例
这样的判别虽然不能保证百分之百准确,但至少大部分判别都是对的,而且用不着杀死昆虫来进行判别了。2008.8安徽财经大学统计与应用数学学院2、引例25.1.1引例这样的判别5.1.1引例在生产、科研和日常生活中经常遇到需要判别的问题:
在经济学中,根据人均国民收入、人均消费水平、人均住房面积等多种指标来判定一个国家的经济发展程度所属类型。在考古学中,根据发掘出来的人类头盖骨的高、宽等特征来判断其性别是男性还是女性。在税务稽查中,要判断某纳税户是诚实户还是偷税户。……2008.8安徽财经大学统计与应用数学学院5.1.1引例在生产、科研和日常生活中经常遇到需要这些问题有一个共同的特点,就是事先已有“类”的划分,或事先已对某种已知样本分好了“类”。
判别分析要解决的问题就是在已知历史上用某些方法已把研究对象分成若干类的情况下,来判定新的观测样品属于已知类别中的哪一类。5.1.1引例2008.8安徽财经大学统计与应用数学学院这些问题有一个共同的特点,就是事先已有“类”的1、判别分析基本思想2、判别分析基本思路返回5.1.1引例5.1.2判别分析的基本思想5.1.3判别分析的类型5.1判别分析的基本思想5.1.4与聚类的区别和联系3、数据格式2008.8安徽财经大学统计与应用数学学院1、判别分析基本思想2、判别分析基本思路返回5.1.1引
1、判别分析基本思想5.1.2判别分析的基本思想
判别分析就是在已知研究对象分为若干类型(组别)并已经取得各种类型的一批已知样品的观测数据基础上,根据某些准则,建立起尽可能把属于不同类型的数据区分开来的判别函数,然后用它们来判别未知类型的样品应该属于哪一类。2008.8安徽财经大学统计与应用数学学院1、判别分析基本思想5.1.2判别分析的基本
用统计的语言来表达,判别问题可以表述为:对于K个(类)总体G1,G2,……,GK(所有类的样品都测量了相同的p个指标,可表示为一个p维向量),其分布函数分别为F1(X),F2(X),……FK(X)(均为p元分布函数),希望建立一个准则,对于一个给定样品X,依据这个准则就能判断出这个样品来自哪个总体。1、判别分析基本思想5.1.2判别分析的基本思想
判别分析的主要问题就是如何寻找最佳的判别函数和建立判别规则。当然,我们应该要求判别准则在某种意义下是最优,例如错判的概率最小或错判的损失最小等。2008.8安徽财经大学统计与应用数学学院用统计的语言来表达,判别问题可以表述为:对设有G1、G2、…GK个总体;从不同的总体中抽出不同的样本;根据样本建立判别法则判别新的样品属于哪一个总体;当然,根据不同的方法,建立的判别法则也是不同的,常用的判别方法有:距离判别、Fisher判别、Bayes判别。2、判别分析基本思路5.1.2判别分析的基本思想2008.8安徽财经大学统计与应用数学学院设有G1、G2、…GK个总体;2、判别分析基本思路53、判别分析的数据格式5.1.2判别分析的基本思想2008.8安徽财经大学统计与应用数学学院3、判别分析的数据格式5.1.2判别分析的基本思想201、按判别的组数2、按判别函数的形式返回5.1.1引例5.1.2判别分析的基本思想5.1.3判别分析的类型5.1判别分析的基本思想5.1.4与聚类的区别和联系3、按处理变量的方法4、按判别准则2008.8安徽财经大学统计与应用数学学院1、按判别的组数2、按判别函数的形式返回5.1.1引例5.1.3判别分析的类型根据资料的性质,分为定性资料的判别分析和定量资料的判别分析。本章的大部分内容是讨论定量资料的判别分析。2008.8安徽财经大学统计与应用数学学院5.1.3判别分析的类型根据资料的性质,分1、按判别的组数分5.1.3判别分析的类型按判别的组数分,有两组判别分析和多组判别分析。本章的大部分内容是讨论两组判别分析。2008.8安徽财经大学统计与应用数学学院1、按判别的组数分5.1.3判别分析的类型按判别的组数2、按判别函数的形式分5.1.3判别分析的类型
按判别函数的形式(区分不同总体所用的数学模型)分,有线性判别和非线性判别。本章的大部分内容是讨论线性判别函数及其应用。2008.8安徽财经大学统计与应用数学学院2、按判别函数的形式分5.1.3判别分析的类型3、按判别时处理变量的方法不同5.1.3判别分析的类型根据判别时处理变量的方法不同,有逐步判别和序贯判别。本章的大部分内容是讨论序贯判别。2008.8安徽财经大学统计与应用数学学院3、按判别时处理变量的方法不同5.1.3判别分析的类型4、按判别准则不同5.1.3判别分析的类型按判别准则(判别的依据或标准)的不同有距离判别、费歇尔(Fisher)判别和贝叶斯(Bayes)判别。距离判别原理简单,直观易懂。2008.8安徽财经大学统计与应用数学学院4、按判别准则不同5.1.3判别分析的类型1、与聚类分析的区别2、与聚类分析的联系返回5.1.1引例5.1.2判别分析的基本思想5.1.3判别分析的类型5.1判别分析的基本思想5.1.4与聚类的区别和联系2008.8安徽财经大学统计与应用数学学院1、与聚类分析的区别2、与聚类分析的联系返回5.1.1引1、与聚类分析的区别判别分析必须事先知道需要判别的类型和数目,并且要有一批来自已知类型的样品(训练样本),才能建立判别式(判别函数),然后对新样品进行判别归类(带有“预测”的意义)。对类的事先划分常常通过聚类分析得到;5.1.4判别分析与聚类分析的区别和联系2008.8安徽财经大学统计与应用数学学院1、与聚类分析的区别判别分析必须事先知道需要判别1、与聚类分析的区别对于聚类分析来说,一批给定样品划分的类型和数目事先都不知道,完全根据一批样品的数据特征用某种方法对样品进行合理的分类,使的同一类的事物比较接近,把不相似的事物分在不同类中(只是描述性的统计)。5.1.4判别分析与聚类分析的区别和联系2008.8安徽财经大学统计与应用数学学院1、与聚类分析的区别对于聚类分析来说,一批给定5.1.4判别分析与聚类分析的区别和联系2、与聚类分析的联系
聚类分析和判别分析有相似之处,即两者都是研究分类问题;在实际中两者往往结合起来使用,样品聚类是进行判别分析之前的必要工作,根据样品聚类的结果进行判别分析。2008.8安徽财经大学统计与应用数学学院5.1.4判别分析与聚类分析的区别和联系2、与聚类分析聚类与判别聚类(clustering)分成几类?每个样品属于哪一类?判别(discriminate)已知分成几类(有师分类)根据训练样品建立判别函数根据判别函数对待判样品进行归类2008.8安徽财经大学统计与应用数学学院聚类与判别聚类(clustering)2008.8安徽财经大5.2距离判别返回5.2.1距离判别的基本思想5.2.2两总体判别5.2.3多总体判别2008.8安徽财经大学统计与应用数学学院5.2距离判别返回5.2.1距离判别的基本思想5.21、距离判别基本思想返回5.2.1距离判别的基本思想5.2.2两总体距离判别5.2.3多总体距离判别5.2距离判别2008.8安徽财经大学统计与应用数学学院1、距离判别基本思想返回5.2.1距离判别的基本思想5.1、距离判别基本思想5.2.1距离判别的基本思想距离判别的基本思想——按就近原则归类:
首先根据已知分类的数据,分别计算各类的重心即分组(类)的均值,判别准则是对任给的一次观测,若它与第i
类的重心距离最近,就认为它来自第i类。2008.8安徽财经大学统计与应用数学学院1、距离判别基本思想5.2.1距离判别的基本思想
用统计语言表述:已知总体G1,G2,……,GK,从每个总体中分别抽取n1,n2,……,nk个样品,每个样品皆测量P个指标,对新样品X=(X1,X2,……,XP),计算X到G1,G2,……,GK的距离,记D(X,G1),D(X,G2)……,D(X,GK),按距离最近准则判别归类:即根据资料建立关于各总体的距离判别函数式,将各样品数据逐一代入计算,得出各样品与各总体之间的距离值,判样品属于距离值最小的那个总体。2008.8安徽财经大学统计与应用数学学院用统计语言表述:已知总体G1,G2,……,GK
所以,我们首先考虑的是是否能够构造一个恰当的距离函数,通过样品与某类别之间距离的大小,判别其所属类别。
距离判别也称为直观判别法,因其方法直观、简单。该方法适用于连续型变量的判别分类;对变量的概率分布不要求有什么限制。1、距离判别基本思想5.2.1距离判别的基本思想2008.8安徽财经大学统计与应用数学学院所以,我们首先考虑的是是否能够构造一个恰当的1、两总体距离判别返回5.2.1距离判别的基本思想5.2.2两总体距离判别5.2.3多总体距离判别5.2距离判别2、应用实例2008.8安徽财经大学统计与应用数学学院1、两总体距离判别返回5.2.1距离判别的基本思想5.21、两总体距离判别5.2.2两总体距离判别
设有两个总体G1和G2,X是一个P维样本,定义样本X到总体G1和G2的距离d2(X,G1)和d2(X,G2),当总体G1和G2为正态总体且协差阵相等时,距离选用马氏距离,即其中:1,2,∑1,∑2分别为总体G1和G2的均值和协差阵。2008.8安徽财经大学统计与应用数学学院1、两总体距离判别5.2.2两总体距离判别设1、两总体距离判别5.2.2两总体距离判别用如下的规则进行判别:若样本X到总体G1的距离小于到总体G2的距离,则认为样本X属于总体G1,反之则认为样本X属于总体G2;若样本X到总体G1和G2的距离相等,则让它待判。这个准则的数学模型为:2008.8安徽财经大学统计与应用数学学院1、两总体距离判别5.2.2两总体距离判别1、两总体距离判别5.2.2两总体距离判别(5.1)2008.8安徽财经大学统计与应用数学学院1、两总体距离判别5.2.2两总体距离判别(5.1)21、两总体距离判别5.2.2两总体距离判别与上述准则等价的想法,就是算出样品x到总体G2和G1的距离差,若差值为正,则样品X属于G1,否则,X属于G2,据此考查二者的差,假设则可证明:2008.8安徽财经大学统计与应用数学学院1、两总体距离判别5.2.2两总体距离判别1、两总体距离判别5.2.2两总体距离判别2008.8安徽财经大学统计与应用数学学院1、两总体距离判别5.2.2两总体距离判别2008.8已知时,令W(X)=W(x)=令当(是一个已知的p维向量)2008.8安徽财经大学统计与应用数学学院已知时,令W(X)=W(x)=令当(是一个已知的p维向量)2于是判别规则(5.1)可表示为:如W(X)>0如W(X)<0待判如W(X)=0称W(X)为判别函数。由于它是线性函数,又称为线性判别函数,
称为判别系数(
类似回归系数)。用线性判别函数进行判别分析非常直观,使用起来最方便,在实际中的应用也最广泛。1、两总体距离判别5.2.2两总体距离判别2008.8安徽财经大学统计与应用数学学院于是判别规则(5.1)可表示为:如W(X)>0如W(X)<0未知时,可用样本来估计。设是从G1中取出的样本,是从G2中取出的样本,则的估计为:当1、两总体距离判别5.2.2两总体距离判别2008.8安徽财经大学统计与应用数学学院未知时,可用样本来估计。设是从G1中取出的样本,是从G2中取2008.8安徽财经大学统计与应用数学学院2008.8安徽财经大学统计与应用数学学院它是x的二次函数,相应的判别规则为:2008.8安徽财经大学统计与应用数学学院它是x的二次函数,相应的判别规则为:2008.8安徽财
需要指出的是,按最小距离规则判别是会产生误判的。为了说明问题,不妨设G1和G2为正态分布,分别为N(μ1,σ2)和N(μ2,
σ2)(μ1>μ2),那么由图5-1可以看出:当Y事实上属于G1,它的观察值(测量值)在μ=(μ1+μ2)/2的右边,这时如果按上面讨论的规则就应把Y判断为属于G2,因为Y距G2的均值比距G1的均值要近。这就造成了错判。
1、两总体距离判别5.2.2两总体距离判别2008.8安徽财经大学统计与应用数学学院需要指出的是,按最小距离规则判别是会产生误判的。为了图5-11、两总体距离判别5.2.2两总体距离判别2008.8安徽财经大学统计与应用数学学院图5-11、两总体距离判别5.2.2两总体距离判别2由图可以看出,当两总体G1与G2十分接近时,则无论用什么方法,误判概率都很大,这时的判别是没有意义的。即如果两个总体(类别)间的差异本来就不显著,那么就根本没有必要去作判别,即有效的判别必须以显著的差异为前提。因此,在考虑建立判别函数之前,应首先检验总体间是否存在显著的差异(在判别之前应对两总体的均值是否有显著差异进行检验)。
H0:H1:2008.8安徽财经大学统计与应用数学学院由图可以看出,当两总体G1与G2十分接近时,则无论
另外,以上讨论的判别函数及规则并没有涉及到总体的具体分布类型,只要逆矩阵存在就可以。当两总体的协方差矩阵不同时,就不能用前文的W(X)进行判别,这时可直接计算马氏距离进行判别。1、两总体距离判别5.2.2两总体距离判别2008.8安徽财经大学统计与应用数学学院另外,以上讨论的判别函数及规则并没有涉及到总体的2、应用实例5.2.2两总体距离判别
例5.2:例4.4.3中我们曾研究过全国城镇居民月平均消费情况,当划分为两类时,结果列于spssex-5:表5-1。1~20号省区为一类,记为G1,21~27号省、市、区为另一类,记为G2。试判别西藏、上海、广东三个省、市、区应归属哪一类(表后三行是待判的三省区数据)?2008.8安徽财经大学统计与应用数学学院2、应用实例5.2.2两总体距离判别例5
类G1为低消费的总体,类G2为高消费的总体。经计算,各类样品的指标均值为:2、应用实例5.2.2两总体距离判别2008.8安徽财经大学统计与应用数学学院类G1为低消费的总体,类G2为高消费的总体。经计总体协差阵的逆矩阵为:0.5390.044-0.1060.0030.0880.0640.179-0.0530.0440.032-0.040-0.0250.106-0.052-0.042-0.123-0.106-0.0400.385-0.006-0.1430.0610.0670.0590.003-0.025-0.0060.620-0.4950.1220.627-0.0830.0880.106-0.143-0.4950.713-0.331-0.583-0.0120.064-0.052-0.0610.122-0.3310.5030.433-0.0760.179-0.0420.0670.627-0.5830.4334.780-0.015-0.053-0.1230.059-0.083-0.012-0.076-0.0150.6522008.8安徽财经大学统计与应用数学学院总体协差阵的逆矩阵为:0.5390.044-0.1将原27个样品的回判结果及3个待判样品的判别结果列于表Spssex-5:5-2和表5-3,回判误判率为零,西藏、上海、广东三个省区应归属于高消费的总体G2。2008.8安徽财经大学统计与应用数学学院将原27个样品的回判结果及3个待判样品的判别结果列于表三个省1、多总体距离判别返回5.2.1距离判别的基本思想5.2.2两总体距离判别5.2.3多总体距离判别5.2距离判别2008.8安徽财经大学统计与应用数学学院1、多总体距离判别返回5.2.1距离判别的基本思想5.2类似于两总体情况,计算样品X到每个总体的距离d2(X,Gi)(i=1,2,---k,),然后比较这些距离,如X距离总体Gi的距离最短,则判X属于总体Gi。1、多总体距离判别5.2.3多总体距离判别2008.8安徽财经大学统计与应用数学学院类似于两总体情况,计算样品X到每个总体的设有个总体G1,…,Gk,它们的均值分别是,协方差矩阵均是,则(1)协方差矩阵相同1、多总体距离判别5.2.3多总体距离判别2008.8安徽财经大学统计与应用数学学院设有个总体G1,…,Gk,它们的均值分别是判别函数为:1、多总体距离判别5.2.3多总体距离判别2008.8安徽财经大学统计与应用数学学院判别函数为:1、多总体距离判别5.2.3多总体距离判别相应的判别准则为:当若有某一个,对一切待判,当未知时可用其估计量代替。1、多总体距离判别5.2.3多总体距离判别2008.8安徽财经大学统计与应用数学学院当若有某一个,对一切待判,当未知时可用其估计量代替。1、多1、多总体距离判别5.2.3多总体距离判别此时判别函数为:(2)协方差矩阵不相同2008.8安徽财经大学统计与应用数学学院1、多总体距离判别5.2.3多总体距离判别此时判别函数相应的判别准则为当未知时,可用
的估计量代替。1、多总体距离判别5.2.3多总体距离判别2008.8安徽财经大学统计与应用数学学院相应的判别准则为当未知时,可用的估计量代替。1、多总体距5.3贝叶斯判别返回5.3.1Bayes判别的概念5.3.2Bayes判别的基本思想2008.8安徽财经大学统计与应用数学学院5.3贝叶斯判别返回5.3.1Bayes判别的概念5.1、距离判别的不足之处返回5.3.1Bayes判别的概念5.3.2Bayes判别的统计思想5.3贝叶斯判别2、Bayes判别的概念2008.8安徽财经大学统计与应用数学学院1、距离判别的不足之处返回5.3.1Bayes判别的概念51、距离判别的不足之处5.3.1Bayes判别的概念距离判别只要求知道总体的特征量(参数)——均值和协差阵,不涉及总体的分布类型,当参数未知时,就用样本均值和样本协差阵来估计。距离判别方法简单、结论明确,是很实用的方法。
但距离判别方法也有缺点,一是判别法与各总体出现的机会大小(先验概率)完全无关;二是判别方法没有考虑错判造成的损失,这是不合理的。Bayes判别法正是为解决这两方面问题而提出的判别方法。2008.8安徽财经大学统计与应用数学学院1、距离判别的不足之处5.3.1Bayes判别的概念1、距离判别的不足之处5.3.1Bayes判别的概念
设有两个总体G1和G2,根据某一判别规则,将实际上为G1的概率判为G2或者将实际上为G2的个体判为G1的概率就是误判概率,一个好的判别规则应当使误判概率最小。2008.8安徽财经大学统计与应用数学学院1、距离判别的不足之处5.3.1Bayes判别的概念
除此之外,还有一个误判损失问题或者说误判产生的花费问题,如把G1的个体误判到G2的损失比G2的个体误判到G1严重得多,则在作前一种判断时就要特别谨慎。譬如在药品检验中把有毒的个体判为无毒的其后果比无毒个体判为有毒的严重得多,因此一个好的判别规则还必须使得误判损失为最小。
实际应用中,由于错判损失不容易确定,因此,判别分析中各种误判的后果允许看作是相同的。1、距离判别的不足之处5.3.1Bayes判别的概念2008.8安徽财经大学统计与应用数学学院除此之外,还有一个误判损失问题或者说误判产生的花
我们仍以两个总体的情况来讨论,设所考虑的两个总体G1与G2分别具有密度函数f1(x)与f2(x),其中x为p维向量,R1为根据我们的规则要判为G1的那些x的全体,而R2=Ω-R1是要判G2的那些x的全体。显然R1与R2互斥完备,某个个体实际是来自G1,但被判为G2的概率为
来自G1被判为G1的概率为
2008.8安徽财经大学统计与应用数学学院我们仍以两个总体的情况来讨论,设所考虑的两个总体类似地,来自G2被判为G1以及来自G2被判为G2的概率分别为1、距离判别的不足之处5.3.1Bayes判别的概念2008.8安徽财经大学统计与应用数学学院类似地,来自G2被判为G1以及来自G2被判为G2的概率分别为又设P1和P2分别表示总体G1和G2的先验概率,且P1+P2=1,于是:2008.8安徽财经大学统计与应用数学学院又设P1和P2分别表示总体G1和G2的先验概率,
判别样品的归属时,考虑的不是建立判别式,而是计算新给样品属于各总体的后验概率P(Gi|x)i=1,…,k。比较这k个概率的大小,然后将新样品判归为来自概率最大的总体,这种判别法称为Bayes判别法——通常用于多组判別。2、Bayes判别的概念5.3.1Bayes判别的概念2008.8安徽财经大学统计与应用数学学院判别样品的归属时,考虑的不是建立判别式,而是计1、Bayes判别的统计思想返回5.3.1Bayes判别的概念5.3.2Bayes判别的统计思想5.3距离判别2、先验概率3、后验概率4、判别函数和判别准则2008.8安徽财经大学统计与应用数学学院1、Bayes判别的统计思想返回5.3.1Bayes判别的1、Bayes判别的统计思想5.3.2Bayes判别的统计思想
假定对研究的对象已有一定的认识,常用先验概率分布来描述这种认识。然后我们抽取一个样本,用样本来修证已有的认识(先验概率分布),得到后验概率分布。比较这些概率的大小,将待判样品判归为来自概率最大的总体。简单地说:贝叶斯判别是根据先验概率分布,求出后验概率分布,对多个总体的判别考虑的不是建立判别式,而是比较后验概率的大小。2008.8安徽财经大学统计与应用数学学院1、Bayes判别的统计思想5.3.2Bayes判别的2、先验概率5.3.2Bayes判别的统计思想用概率来描述人们事先对所研究对象的认识的程度,或称为验前概率(qi)。即已知K个总体(G1,G2,…,GK
)各自出现的概率为q1,q2,……,qk
(qi>0,q1+q2+……+qk
=1)。
比如:研究人群中得癌症(G1)和没有得癌症(G2)两类群体的问题,由长期经验知:q1=0.001,q2=0.999。这组验前概率q1,q2,……,qk称为先验概率。2008.8安徽财经大学统计与应用数学学院2、先验概率5.3.2Bayes判别的统计思想2、先验概率5.3.2Bayes判别的统计思想
先验概率是一种权重(比例),所谓“先验”是指先于我们抽取样品作判别分析之前。Bayes判别准则要求给出qi的值。qi
的赋值方法有以下几种:2008.8安徽财经大学统计与应用数学学院2、先验概率5.3.2Bayes判别的统计思想
(1)利用历史资料及经验进行估计。例如,某地区成年人中得癌症的概率为P(癌)=0.001q1,而P(无癌)=0.999q2。2、先验概率5.3.2Bayes判别的统计思想2008.8安徽财经大学统计与应用数学学院(1)利用历史资料及经验进行估计。例如,某地区2、先验概率5.3.2Bayes判别的统计思想(2)利用训练样本中各类占的比例作为qi的值,其中ni是第i类总体的样品数;,这时要求训练样本是通过随机抽样得到的,各类样品被抽到的机会大小就是验前概率。2008.8安徽财经大学统计与应用数学学院2、先验概率5.3.2Bayes判别的统计思想(3)假定q1=q2=…=qk=2、先验概率5.3.2Bayes判别的统计思想2008.8安徽财经大学统计与应用数学学院2、先验概率5.3.2Bayes判别的统计思想2003、后验概率5.3.2Bayes判别的统计思想
根据具体资料、先验概率、特定的判别规则所计算出来的概率,它是对先验概率修正后的结果,或称为条件概率。2008.8安徽财经大学统计与应用数学学院3、后验概率5.3.2Bayes判别的统计思想又设样品x来自总体Gi的先验概率为qi,i=1,…,k,满足q1+…+qk=1.X到Gi的平方马氏距离是设有k个总体G1,…,Gk,且2008.8安徽财经大学统计与应用数学学院又设样品x来自总体Gi的先验概率为qi,i=1,来自Gi的X的概率密度为:利用贝叶斯理论,x属于Gi的后验概率(即当样品x已知时,它属于Gi的概率)为2008.8安徽财经大学统计与应用数学学院来自Gi的X的概率密度为:利用贝叶斯理论,x属于Gi的4、判别函数和判别准则5.3.2Bayes判别的统计思想判别函数可为后验概率P(g/x)或错判的平均损失E(h/x)。2008.8安徽财经大学统计与应用数学学院4、判别函数和判别准则5.3.2Bayes判别的统计4、判别函数和判别准则5.3.2Bayes判别的统计思想判别准则为后验概率最大或错判的平均损失最小,可以证明两者是等价的。Bayes判别可直接用于待判样品的分类。2008.8安徽财经大学统计与应用数学学院4、判别函数和判别准则5.3.2Bayes判别的统计
建立的判别规则为:计算样品X到每一个组中心的广义平方距离,并把X判入最近的类。广义平方距离的计算可能使用合并的协方差阵估计或者单独的协方差阵估计,并与先验概率有关。
2008.8安徽财经大学统计与应用数学学院建立的判别规则为:计算样品X到每一个组X到Gi的广义平方距离定义为gi=ln若0hi=-2lnqi,
若q1,…qk不全相等0若若2008.8安徽财经大学统计与应用数学学院X到Gi的广义平方距离定义为gi=ln若0hi=-2lnqi由此可推出属于Gi的后验概率为:可采用如下的判别规则:2008.8安徽财经大学统计与应用数学学院由此可推出属于Gi的后验概率为:可采用如下的判别规则:200则广义平方距离将退化为平方马氏距离,即实际应用中,以上各式中的
一般都是未知的,需要通过样本进行估计。2008.8安徽财经大学统计与应用数学学院则广义平方距离将退化为平方马氏距离,即实际应用中,以上各式中5.4费雪尔判别返回5.4.1Fisher判别的基本思想5.4.2Fisher判别函数和准则2008.8安徽财经大学统计与应用数学学院5.4费雪尔判别返回5.4.1Fisher判别的基本思1、Fisher判别基本思想返回5.4.1Fisher判别的基本思想5.4.2Fisher判别函数和准则5.4费雪尔判别2008.8安徽财经大学统计与应用数学学院1、Fisher判别基本思想返回5.4.1Fisher判别1、Fisher判别的基本思想5.4.1Fisher判别的基本思想Fisher判别法是一种线性判别的方法,通过将多维数据投影到某个方向上,投影的原则是将总体与总体之间尽可能分开,然后再选择合适的判别准则,将待判的样品进行分类判别——通常用于两组判別问题。
2008.8安徽财经大学统计与应用数学学院1、Fisher判别的基本思想5.4.1Fishe1、Fisher判别函数和准则返回5.4.1Fisher判别的基本思想5.4.2Fisher判别函数和准则5.4费雪尔判别2、应用实例2008.8安徽财经大学统计与应用数学学院1、Fisher判别函数和准则返回5.4.1Fisher判1、Fisher判别函数和判别准则5.4.2Fisher判别函数和判别准则假定判别函数为:Yi=C1X1+C2X2+……+CPXP(i=1,2……k)其中:K:判别类别数目;Y:判别分数或判别值;X1;…;XP:判别变量或自变量;C1;…;CP:判别系数,表示各判别变量对判别值的影响;2008.8安徽财经大学统计与应用数学学院1、Fisher判别函数和判别准则5.4.2Fish1、Fisher判别函数和判别准则2008.8安徽财经大学统计与应用数学学院1、Fisher判别函数和判别准则2008.8安徽财经大学1、Fisher判别函数和判别准则2008.8安徽财经大学统计与应用数学学院1、Fisher判别函数和判别准则2008.8安徽财经大学1、Fisher判别函数和判别准则5.4.2Fisher判别函数和判别准则2008.8安徽财经大学统计与应用数学学院1、Fisher判别函数和判别准则5.4.2Fish2008.8安徽财经大学统计与应用数学学院2008.8安徽财经大学统计与应用数学学院2、应用实例5.4.2Fisher判别函数和判别准则2008.8安徽财经大学统计与应用数学学院2、应用实例5.4.2Fisher判别函数和判别准则2008.8安徽财经大学统计与应用数学学院2008.8安徽财经大学统计与应用数学学院2、应用实例5.4.2Fisher判别函数和判别准则2008.8安徽财经大学统计与应用数学学院2、应用实例5.4.2Fisher判别函数和判别准则2、应用实例5.4.2Fisher判别函数和判别准则2008.8安徽财经大学统计与应用数学学院2、应用实例5.4.2Fisher判别函数和判别准则
多元分析中有一个非常重要的思想方法,就是采用降维技术,把RP中的点通过适当方式投影到低维空间,即用低维向量近似地替代P维向量,然后在低维空间上在进行组的判别。2008.8安徽财经大学统计与应用数学学院多元分析中有一个非常重要的思想方法,就是采用考虑只有两个(预测)变量的判别分析问题。假定这里只有两类。数据中的每个观测值是二维空间的一个点。见图。这里只有两种已知类型的训练样本。其中一类有38个点(用“o”表示),另一类有44个点(用“*”表示)。按照原来的变量(横坐标和纵坐标),很难将这两种点分开。2008.8安徽财经大学统计与应用数学学院考虑只有两个(预测)变量的判别分析问题。2008.8安徽财经2008.8安徽财经大学统计与应用数学学院2008.8安徽财经大学统计与应用数学学院
于是就寻找一个方向,也就是图上的虚线方向,沿着这个方向朝和这个虚线垂直的一条直线进行投影会使得这两类分得最清楚。可以看出,如果向其他方向投影,判别效果不会比这个好。有了投影之后,再用前面讲到的距离远近的方法来得到判别准则。这种首先进行投影的判别方法就是Fisher判别法。2008.8安徽财经大学统计与应用数学学院于是就寻找一个方向,也就是图上的虚线方向,沿着这两类Fisher判别示意图X2X1Y=b1X1+b2X2G1G22008.8安徽财经大学统计与应用数学学院两类Fisher判别示意图X2X1Y=b1X1+b2X2G1投影(变换):将多元观测值X变换成一元观测值Y,使得由总体G1和G2导出的尽可能地分开。费歇尔建议用X的线性组合来建立Y,因为它是X的非常简单的函数,易于掌握;费歇尔的方法并未假定总体具有正态性,但是隐含有总体协方差矩阵相等的假定,因为使用了公共协方差矩阵的联合估计量。2008.8安徽财经大学统计与应用数学学院投影(变换):将多元观测值X变换成一元观测值Y,
这个线性函数把P维空间中的已知类别总体以及已知类别归属的样本都变换为一维数据,再根据其间的亲疏程度把未知归属的样本点判定其归属。这个线性函数应该能够在把P维空间中的所有点转化为一维数值之后,既能最大限度地缩小同类中各个样本点之间的差异,又能最大限度地扩大不同类别中各个样本点之间的差异,这样才可能获得较高的判别效率。在这里借用了一元方差分析的思想,即依据组间均方差与组内均方差之比最大的原则来进行判别。2008.8安徽财经大学统计与应用数学学院这个线性函数把P维空间中的已知类别总体以及已
设有两个总体G1、G2,其均值分别为2008.8安徽财经大学统计与应用数学学院设有两个总体G1、G2,其均值分别为2008.8安2008.8安徽财经大学统计与应用数学学院2008.8安徽财经大学统计与应用数学学院5.5.1引例5.5.2判别分析的基本思想5.5建立判别函数的方法返回2008.8安徽财经大学统计与应用数学学院5.5.1引例5.5.2判别分析的基本思想5.51、全模型法返回5.5.1建立判别函数的方法5.5.2判别分析的基本模型5.5建立判别函数的方法2、逐步判别法2008.8安徽财经大学统计与应用数学学院1、全模型法返回5.5.1建立判别函数的方法5.5.2选择变量是判别分析中的一个重要问题,变量选择是否恰当,是判别效果优劣的关键。一般来说,各变量在判别式中的判别能力不同,有些很重要,有些不重要,如果在判别式中将其最主要的变量忽略了,相应的判别效果一定不好;如果一些判别能力差的变量保留在判别式中,不仅会增加计算量,而且会产生干扰影响判别效果。同时,由于指标之间有相关性,一个指标可能由其他几个指标来代替。因此,筛选具有显著判别能力的变量来建立判别式就有特别重要的意义。5.5.1建立判别函数的方法2008.8安徽财经大学统计与应用数学学院选择变量是判别分析中的一个重要问题,变量选择是否建立判别函数常用的方法有全模型法和逐步判别法。5.5.1建立判别函数的方法2008.8安徽财经大学统计与应用数学学院建立判别函数常用的方法有全模型法和逐步判别法。1、全模型法
将用户指定的全部变量作为判别函数的自变量,而不管该变量是否对研究对象显著或对判别函数的贡献大小(是SPSS预设的方法),适合于对研究对象的各变量有全面认识的时候使用。否则未加选择的使用全部变量,可能会产生较大的偏差。5.5.1建立判别函数的方法2008.8安徽财经大学统计与应用数学学院1、全模型法将用户指定的全部变量作为判别函数的2、逐步判别法
从模型中没有任何变量开始,每一步都对模型进行检验,将模型外对模型的判别贡献大的变量加入到模型中去,同时也检验在模型中是否存在由于新变量的引入而对判别贡献不太显著的变量,如果有,将其从模型中删除,直到模型中的所有变量都符合引入模型的条件,而模型外的变量都不符合引入模型的条件为止,整个过程结束。在选择变量进入模型时,每步只有一个变量可被选入。选择过程不考虑未被选入的变量之间的关系,因此,一些重要变量可能被排除。逐步判别选出的L个变量,不一定是所有L个变量组合中最优的组合。但在L不大时,往往是最优组合。5.5.1建立判别函数的方法2008.8安徽财经大学统计与应用数学学院2、逐步判别法从模型中没有任何变量开始,每4、逐步判别法整个筛选过程实质就是作假设检验,通过检验引入显著性变量,剔除不显著变量。反映在输出结果上,通常可以用F值的大小作为变量引入模型的标准,即一个变量是否能进入模型主要取决于协方差分析的F检验的显著水平。逐步判别过程本身并不建立判别函数,筛选出重要变量后,可用前面所讲的方法建立判别函数和判别准则,对新样品进行判别归类。5.5.1建立判别函数的方法2008.8安徽财经大学统计与应用数学学院4、逐步判别法整个筛选过程实质就是作假设检1、基本模型2、模型估计过程返回5.5.1建立判别函数的方法5.5.2判别分析的基本模型5.5建立判别函数的方法3、判别分析的假设条件2008.8安徽财经大学统计与应用数学学院1、基本模型2、模型估计过程返回5.5.1建立判别函数的5.5.2判别分析的基本模型1、基本模型判别分析的基本模型是判别函数:其中:y时判别值;xi为各判别变量;Ci为相应的判别系数,它表示个判别变量对于判别函数值的影响在判别分析时,判别变量较多时,判别函数也往往有多个。2008.8安徽财经大学统计与应用数学学院5.5.2判别分析的基本模型1、基本模型判别分析的基本
对于分为m类的研究对象,建立m个线性判别函数。对于每个个体进行判别时,把测试的各变量值代入判别函数,得出判别分数,从而确定该个体属于哪一类。5.5.2判别分析的基本模型1、基本模型2008.8安徽财经大学统计与应用数学学院对于分为m类的研究对象,建立m个线性判别函数5.5.2判别分析的基本模型2、模型估计过程的简略描述
首先将判别变量表示的k维空间进行选管,寻找某个角度是个分组平均值的产别尽可能大,然后将其作为判别的第一维度(即投影)。在这一维度上可以代表或解释原始变量组间方差中最大的部分。上述判别函数就表达了原始数量值转换至这一维度的系数方程式。2008.8安徽财经大学统计与应用数学学院5.5.2判别分析的基本模型2、模型估计过程的简略描述
对应第一维度的判别函数称为第一判别函数。然后按照同一原则寻找第二维度,并建立第二判别函数。如此下去,直至推导出所有的判别函数。建立后续判别函数的条件是:判别函数之间完全独立。实际上这样推导出的函数有:5.5.2判别分析的基本模型2、模型估计过程的简略描述2008.8安徽财经大学统计与应用数学学院对应第一维度的判别函数称为第一判别函数。判别分析的假设条件分组类型在两种及以上,即:各判别变量必须是定量变量,并且要求观察值数量(case≥k+2)。每一个判别变量不能是其他判别变量的线性组合。各组案例的协方差阵相等。各判别变量之间具有多元正态分布。2008.8安徽财经大学统计与应用数学学院判别分析的假设条件分组类型在两种及以上,即:2008典则判别分析典则判别分析建立典则变量代替原始数据文件中指定的自变量。典则变量是原始自变量的线性组合。用少量的典则变量代替原始的多个变量可以比较方便地描述各类之间的关系。对于分为K组的研究对象,建立K-1个典则判别函数而不管自变量有几个。它是一种降维的技术,因为判别函数个数少于分类组数,因此它不能用于对待判样品的分类,可以用于计算判别分及画散点图和区域图。2008.8安徽财经大学统计与应用数学学院典则判别分析典则判别分析建立典则变量代替原始数5.6SPSS判别分析过程返回
在SPSS主菜单中选择Analyze→Classify→Discriminant,可实现判别分析。2008.8安徽财经大学统计与应用数学学院5.6SPSS判别分析过程返回在SPSS主菜Discriminant
2008.8安徽财经大学统计与应用数学学院Discriminant2008.8安徽财经大学统计与应用GroupingVariable:已知的观测量所属类别的变量(分类变量)在主对话框中左面的矩形框中选择表明已知的观测量所属类别的变量(一定是离散变量,按上面一个箭头按钮,使该变量名移到箭头按钮右面,“GroupingVariable”下面的矩形框此时矩形框下面的“Definerange…”按钮加亮,按该按钮,屏幕显示一个小对话框,供指定该分类变量的数值范围。2008.8安徽财经大学统计与应用数学学院GroupingVariable:已知的观测量Discriminant对话框
2008.8安徽财经大学统计与应用数学学院Discriminant对话框2008.8安徽财经大学统计选择分类变量及其范围定义分类变量范围的小对话框如下图
所示。
在"Minimum:"后面的矩形框中输入该分类变量的最小值;在"Muximurn:"后面的矩形框中输入该分类变量的最大值。
2008.8安徽财经大学统计与应用数学学院选择分类变量及其范围定义分类变量范围的小对话框如下图所示。分类变量范围对话框
22008.8安徽财经大学统计与应用数学学院分类变量范围对话框22008.8安徽财经大学统计与应用数学指定判别分析的自变量在主对话框的左面的变量表中选择表明观测量特征的变量,按下面一个箭头按钮,把选中的变量移到“Independents:”下面的矩形框中,作为参与判别分析的变量。2008.8安徽财经大学统计与应用数学学院指定判别分析的自变量2008.8安徽财经大学统计与应用数学学Indepents对话框数据变量输入框2008.8安徽财经大学统计与应用数学学院Indepents对话框数据变量输入框2008.8安徽财经数据判别分析完成前面四步骤的操作即可使用各种系统默认值对工作数据集的数据进行判别分析了。2008.8安徽财经大学统计与应用数学学院数据判别分析2008.8安徽财经大学统计与应用数学学院选择观测量如果希望使用一部分观测量进行判别函数的推导,而且有一个变量的某个值可以作为某些观测量的标识,则用Select功能进行选择。操作方法是,单击“Select”按钮展开小选择框,在“Vaiable:”后面矩形框中输入该变量的变量名,在“Value:”后面输入标识参与分析的观测量所具有的该变量值。一般均使用数据文件中的所有合法观测量。此步骤可以省略。
2008.8安徽财经大学统计与应用数学学院选择观测量2008.8安徽财经大学统计与应用数学学院Select功能选择2008.8安徽财经大学统计与应用数学学院Select功能选择2008.8安徽财经大学统计与应用数学学选择分析方法
在主对话框中自变量矩形框下面有两个选择项,被选中的方法前面的圆圈中加有黑点。这两个选择项是选择判别分析方法的。(1)Enterindependenttogether当你认为所有自变量都能对观测量特性提供丰富的信息时,使用该选择项。选择该项将不加选择地使用所有自变量进行判别分析,建立全模型。不需要进一步进行选择。
2008.8安徽财经大学统计与应用数学学院选择分析方法2008.8安徽财经大学统计与应用数学学院(2)UseStepwisemethod当你不认为所有自变量都能对观测量特性提供丰富的信息时,使用该选择项。因此根据对判别贡献的大小进行选择。当鼠标单击该项时,"Method"按钮加亮。可以进一步判别分析方法。单击“Method”按钮,展开“Stepwisemethod”对话框(子对话框)如下图所示。
2008.8安徽财经大学统计与应用数学学院(2)UseStepwisemethod2008.8安Stepwisemethod对话框
2008.8安徽财经大学统计与应用数学学院Stepwisemethod对话框2008.8安徽财经大指定输出的统计量单击“statistics”按钮,展开相应的子对话框,如下图所示。可以选择的输出统计量分为以下三类:(1)描述统计量
2008.8安徽财经大学统计与应用数学学院指定输出的统计量2008.8安徽财经大学统计与应用数学学院Statistics2008.8安徽财经大学统计与应用数学学院Statistics2008.8安徽财经大学统计与应用数学学(2)判别函数系数在Fuctioncoefficients组的矩形框中选择判别函数系数的输出形式:①Fisher‘s可以直接用于对新样本进行判别分类的Bayes判别系数。②Unstandardized未经标准化处理的判别系数。可用于计算判别分数。
2008.8安徽财经大学统计与应用数学学院(2)判别函数系数2008.8安徽财经大学统计与应用数学学院在SPSS中,选中diseriminantanalysi下staffstic中的functionc~ficients中的fisher‘s选项,在输出结果的末尾,给出的ClassificationFunctionCoeffieients下注明是Fisherslineardiseriminanfunctions。但是,经验证实为一般教课书中的Bayes线性判别函数。命名出现不致的原因是:按判别函数用Fisher对Bayes方法进行命名。值最大的一组进行归类这种思想是Fisimr提出来的,因此SPSS2008.8安徽财经大学统计与应用数学学院在SPSS中,选中diseriminantSPSS中的典则判别函数实际是我们一般意义的Fisher判别函数,但是二者仍然有区别,在SPSS中的输出窗口中,Fisher的结果又被称为canonicaldiseriminant,也就是说Fisher的结果是以典则判别函数的形式给出的。两种方法的结果基本相同,只是相差一个常数项。SPSS中的输出结果中CanonicalDiseriminantFunetionCoefficients中保存的系数在剔除掉常数项后的结果就是Fisher判别的系数。2008.8安徽财经大学统计与应用数学学院SPSS中的典则判别函数实际是我们一般意义指定分类参数和判别结果在主对话框中单击“classify”按钮,展开相应的子对话框,如下图所示。(1)在PriorProbabilities组的矩形框中选择先验概率,两者选其一。①Allgroupsequal各类先验概率相等。若分为m类,则各类先验概率均为1/m。
②computerfromgroupsizes由各类的样本量计算决定在各类的先验概率与其样本比。
2008.8安徽财经大学统计与应用数学学院指定分类参数和判别结果2008.8安徽财经大学统计与应用数学
Classifiction对话框2008.8安徽财经大学统计与应用数学学院Classifiction对话框2008.8安徽财经大学统(2)选择分类使用的协方差矩阵在UsecovarianceMatrix组的矩形框中选择分析使用的协方差矩阵。两者选其一。①Within-groups指定使用组内协方差矩阵。②Seperate-groups指定使用组间协方差矩阵。2008.8安徽财经大学统计与应用数学学院(2)选择分类使用的协方差矩阵2008.8安徽财经大学统计与SPSS数据窗口中的最终结果是按照Bayes的后验概率的大小确定的。
在SPSS中,可以在数据窗口中给出用判别函数计算出的样品的类型,并且可以和事先给定的样吕的类型进行比较。但是虽然SPSS在输出窗口给出了Fisher和Bayes两种判别函数的系数,在数据窗口给出的结果却是按照Bayes计算的后验概率的大小最终确定的判定结果,而不是Fisher判别函数的结果。2008.8安徽财经大学统计与应用数学学院SPSS数据窗口中的最终结果是按照Baye(4)选择生成到输出窗中的分类结果
在Displsy组的矩形框中选择输出项:①Resultsforeachcase要求输出每个观测量的分类结果。
②Summarytable要求输出分类的小结,给出错分率。(3)选择要求输出的统计图2008.8安徽财经大学统计与应用数学学院(4)选择生成到输出窗中的分类结果在Displsy组指定生成并保存在数据文件中的新变量Descriminant过程可以在数据文件中建立新变量,通过"SaveNewVaiables"子对话框进行选择。在主对话框中单击“Save”按钮,展开“SaveNewVaiables”子对话框。如下图所示。
2008.8安徽财经大
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 项目管理全生命周期试题及答案
- 现代棉纺纱新技术发展趋势考核试卷
- 2025年黑龙江省安全员B证证考试题及答案
- 高校辅导员考试应考者心理建设试题及答案
- 皮革物理强度测试设备考核试卷
- 2025年注会学习小组活动试题及答案
- 电力系统中的能源路由器应用考核试卷
- 项目需求分析与变更的考核试题及答案
- 2023年中国电信贵州公司社会人才招聘41名笔试参考题库附带答案详解
- 2023年中国林业出版社有限公司公开招聘工作人员4人笔试参考题库附带答案详解
- 高等工程数学Ⅲ智慧树知到期末考试答案章节答案2024年南京理工大学
- 2024年美国商用车和乘用车市场现状及上下游分析报告
- 2024医疗设备器械试用协议书
- DB32T3748-2020 35kV及以下客户端变电所建设标准
- 中国近代三种建国方案
- 数学奥秘揭秘-揭开数学背后的奥秘
- 温度传感器Pt100-阻值-温度对照表(方便实用)
- 《幽门螺杆菌检测》课件
- 《云南土壤类型》课件
- 小儿肝脏间叶错构瘤课件
- 2022智慧园区设计、建设与验收技术规范
评论
0/150
提交评论