第六章判别分析方案课件_第1页
第六章判别分析方案课件_第2页
第六章判别分析方案课件_第3页
第六章判别分析方案课件_第4页
第六章判别分析方案课件_第5页
已阅读5页,还剩78页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第六章判别分析

discriminantanalysis判别分析的基本概念两总体判别分析多总体判别分析SPSS的判别分析过程第六章判别分析

discriminantanalysis

一、判别分析的基本概念判别分析问题的描述:已知若干组分类数据现有一新样本,要求判定新样本数据属于已知分类中的哪一类判别分析的关键:判别函数:由描述各类的数值指标构成的分类规则,明确已知各类应如何区别例:肝炎病人的诊断两总体判别:肝炎病人和正常人判别依据:一些化验指标,形成判别公式-判别函数一、判别分析的基本概念判别分析问题的描述:Simple,Two-GroupDAMeanofgroup1–fromdatayouhaveMeanofgroup2–fromdatayouhaveUnknownobservationx如何判别:x与哪类距离近,就归属于哪类:若dx1<dx2,则x属于第1类若dx1>dx2,则x属于第2类判别函数:f=dx1-dx2>0,x∈2,<0,x∈1判别规则中国属于发展中国家还是发达国家?Simple,Two-GroupDAMeanofgrPatternRecognitionProblem

PatternRecognitionProblem

判别分析与方差分析、聚类分析判别分析与方差分析、聚类分析聚类分析与判别分析间的联系

先采用聚类分析获得各个个体的类别(classification);然后采用判别分析建立判别函数,对新个体进行类型识别(identification)聚类分析与判别分析间的联系先采用聚类分析获得各聚类分析的数据格式k聚类分析的数据格式k判别分析的数据格式判别分析的数据格式判别分析的方法与数学描述数据描述对于m类总体G1,G2,……,Gm,其分布函数分别为f1(y),f2(y),……fm(y),对于一个给定样品y,我们要判断出这个样本来自哪个总体。判别分析的主要问题就是如何寻找最佳的判别函数和建立判别规则。误判问题肝功指标高就一定是肝炎病人吗?判别分析的方法与数学描述数据描述误判率Misclassification(1-Dcase)

两总体单指标的判别分析,假设正态分布,等方差判别规则转氨酶肝炎患者非患者非典??误判率Misclassification(1-DcaseBest-InWhatSense?MinimizesprobabilityofmisclassificationMaximizesposteriorprobabilityofcorrectclassificationManyothersForexampleminimizesthecostofmisclassification具体问题具体分析疾病的诊断市场分析LotsofperspectivessuggestthisbasicruleasbestBest-InWhatSense?Minimizes影响误判率的因素

当分布中心过于接近,误判率很高三总体单指标——组均值差异影响误判率的因素

当分布中心过于接近,误判率很高三总体单指标Threegroups-Twofeatures

Threegroups-Twofeatures

二、两总体判别分析基本思想:样品和哪个总体距离最近,就判断它属于那个总体。设:两个总体G1和G2,x是一个p维样本,x到总体G1和G2的马氏距离分别记为d2(x,G1)和d2(x,G2),判别规则:若d2(x,G1)<d2(x,G2),则认为x属于G1

,反之若d2(x,G1)>d2(x,G2),认为x属于G2

。或判别函数:

W(x)=d2(x,G2)-d2(x,G1)>0,x∈

G1<0,x∈G2所谓“等距离”:到两总体距离相等的点构成类分界线1.马氏等距离法二、两总体判别分析基本思想:样品和哪个总体距离最近,就判断它两指标、正态分布且方差相等的两总体类分界线样本点到某一类的距离越近,属于该类的概率越大两指标、正态分布且方差相等的两总体类分界线样本点到某一类的距线性判别函数设G1~N(

1,∑1)和G2~N(

2,∑2)为两正态总体,且协差阵相等,即∑1=∑2=∑,则样本x到G1、G2的马氏距离为可以证明:线性判别函数设G1~N(1,∑1)和G2~N(2,∑2)容易看出上述函数W(x)为x的线性函数,称为线性判别函数,判别准则:W(x)与0比较x∈G1,当W(x)>0,x∈G2当W(x)<0,令W(x)=0可以得到两类分界线容易看出上述函数W(x)为x的线性函数,称为线性判别函数,判LinearDiscriminationRule

W(x1,x2)=0W(x1,x2)>0LinearDiscriminationRule

W(x01G1G2考察p=1的情况设G1~N(

1,2)和G2~N(

2,2),判别函数为:x=0.5误判率P(2/1)=0.3085误判率P(1/2)=?01G1G2考察p=1的情况设G1~N(1,2)和G2~∑1≠∑2时,非线性判别函数判别函数W(x)为x的二次函数∑1≠∑2时,非线性判别函数判别函数W(x)为x的二次函数直观判断x0属于哪一类?G1:N(80,0.25)G2:N(75,4)7580x0=78

已知G1是设备A生产的产品,G2是设备B生产的产品。A设备质量高,其产品平均耐磨度

1=80,方差12=0.25,B设备质量较差,其产品平均耐磨度2=75,方差22=4。现有一产品X0,其耐磨度x0=78,试判断该产品是哪台设备生产的。建立判别规则,误判率多大?考察p=1的情况直观上看,x0距

1较近,但是考虑到相对分散度,判别准则x1x2误判率:4.5%直观判断x0属于哪一类?G1:N(80,0.25)G2:N(2.Fisher判别法判别思想:投影,使多维问题简化为一维问题来处理方法:寻找原变量x的一个线性组合,使得各组在此方向上投影的差异最大化,再选择合适的判别规则对样品进行分类判别。2.Fisher判别法判别思想:投影,使多维问题简化为Fisher’sapproachFindalinearcombinationofvariablesxthatwouldproduce“maximallydifferent”discriminantscoresacrossgroupFisher’sapproachFindalinear数学模型设:线性组合的系数向量为a,考虑线性组合:z=xa——z:x在a方向的投影通过寻找合适的a,使投影到此方向的组间变异大,组内变异比较小,即使组间变异/组内变异(离差平方和)取最大值。数学模型设:线性组合的系数向量为a,考虑线性组合:z=xa两总体Fisher判别函数设:两协差阵相等的总体G1:n1个样本,G2:n2,

1,2和分别表示两总体均值和总均值线性组合的系数向量为a,考虑线性组合:z=xa投影后的组内变异:组内离差平方和为两总体Fisher判别函数设:两协差阵相等的总体G1:n1个投影后的组间变异:组间离差平方和为投影后的组间变异:组间离差平方和为以上证明,当a∝

-1(2-1)时满足我们的要求,即:判别投影方向在两类均值点的连线上。通常我们将a标准化。∴判别函数为:z=x-1(2-1)判别规则:z>c时,x∈G2;z<c时,x∈G1,以上证明,当a∝-1(2-1)时满足我们的要求,即:判LinearDiscriminators

criticalvalue投影方向判别函数判别得分c2<c1,x∈G1c3<c1,x∈G2LinearDiscriminators

critical练习题两类总体相关统计资料如下:一个新的样本为x=(0.0,0.5),问x属于(1)类还是(2)类。

解法1:马式等距离法解法2:Fisher法练习题两类总体相关统计资料如下:一个新的样本为x=(0.0解:求Fisher判别函数z=x-1(2-1)C=0Z(1)Z(2)Z结论:x属于(1)类解:求Fisher判别函数z=x-1(2-1)C=0Z例:booksbymail某书商从事邮购书业务。有50,000个顾客的统计数据,现公司计划推销一本新的艺术类书“thearthistoryofFlorence”。希望有针对性地邮寄订购单,即只向有可能购买该书的顾客推销,以降低成本。为了了解顾客情况,公司从50,000个现有顾客中随机抽取1000人发订购单,其中83人购买了该书。要求利用此数据中分析潜在购买者的特征。对1000个顾客样本进行判别分析,选取“最近一次购买至今的月数”和“购买艺术类书的本数”为判别变量。分类变量“buystatu”:0未购买者,1购买者例:booksbymail某书商从事邮购书业务。有50,求判别函数系数a∝

-1(

2-

1)∴判别函数为z=-0.056month+1.577artnumz2=-0.056×9.41+1.577×1=1.05,z1=-0.056×12.73+1.577×0.33=-0.19c=(1.05-0.19)/2=0.43判别规则:z>0.43∈buyer求判别函数系数a∝-1(2-1)∴判别函数为z=-0.SPSS输出结果判别规则:z>c=(1.018-0.0922)/2=0.4629∈buyer判别函数:SPSS输出结果判别规则:z>c=(1.018-0.0922判别变量和标准化判别函数的相关系数购买艺术书越多的顾客越可能购买,越近期的顾客越可能购买判别变量和标准化判别函数的相关系数购买艺术书越多的顾客越可能判别得分的分布Non-buyersbuyersz=0z=0判别得分的分布Non-buyersbuyersz=0z=0回判结果误判率25%发出263封订购信,约18.3%会订购回判结果误判率25%发出263封订购信,约18.3%会订购协方差阵相等的检验-Box’stestH0:

1=2=…=m协方差不等时的判别:非线性判别函数如果仍用线性判别,误判率增大组内协方差相等时G1G2G2协方差阵相等的检验-Box’stestH0:1=2=Booksbymail协方差相等算法的误判率协方差不等算法的误判率发出263封订购信,约18.3%会订购发出197封订购信,约20.3%会订购Booksbymail协方差相等算法的误判率协方差不等算判别函数的鉴别能力

类中心差异的显著检验Wilks’stest为什么要检验?类中心距离太近时,误判率高。如果某个判别函数不能拒绝原假设,则这个判别函数的判别能力很差

如何检验:该判别函数在各类中心相等

H0:

1=2判别函数的鉴别能力

类中心差异的显著检验Wilks’s3.Bayesianapproach前面两种方法中都没有考虑各类中样本数的差异没有考虑误判带来的不对称经济损失当各类样本数不同/误判损失不对称时,是否会影响判别函数的选取或判别规则?3.Bayesianapproach前面两种方法中都没IncorporatingPriorProbs

考虑先验概率R1的误判率高于R2考虑到各类样本容量不同对误判率的影响,判别规则应作适当调整IncorporatingPriorProbs

考虑先验3.Bayesianapproach贝叶斯的统计思想:假定对研究的对象已有一定的认识(常用先验概率反映这种认识),然后抽取一个样本,用样本来修正已有的认识。3.Bayesianapproach贝叶斯的统计思想:影响分类的因素先验概率用概率描述的人们事先对所研究对象的认识误判损失costofmisclassification:x被判为属于G2,而它实际属于G1,则称发生了误判误判可能会带来经济损失当误判损失不对称时(比如G1样本误判为G2的成本是G2样本误判为G1的成本的10倍时),我们通常会改变判别准则(使之偏向误判成本低的一方),宁可将G2误判给G1,也不愿相反。影响分类的因素先验概率3.Bayesianapproach基本思路:误判期望损失最小化设有m个总体G1,…Gm,其概率密度函数分别为fi(x),i=1,2…m。来自总体Gi的样品x被错判为总体Gj所产生的损失为C(j/i),那么,对于判别规则R产生的误判概率记为P(j/i,R),有:如果已知x来自总体Gi的先验概率为qi(i=1,2,…m),则在规则R下,误判期望损失为:3.Bayesianapproach基本思路:误判期望贝叶斯定理若总体G1,…Gm的先验概率为{qi},且相应的密度函数为{fi(x)},损失是{C(j/i)}时,则划分R的贝叶斯解为:当抽取了一个未知总体的样品值x(p维向量),要判断它属于哪个总体,只要先计算出m个按先验分布加权的误判平均损失hj(x),然后比较这m个平均损失的大小,取其中最小的,则判定x来自该总体贝叶斯定理若总体G1,…Gm的先验概率为{qi},且相应的两总体判别设有2个总体,其先验概率分别为q1,q2,满足:qi≥0,∑qi=1,误判成本分别为C(1/2),C(2/1),h1(x)=q2f2(x)C(1/2),h2(x)=q1f1(x)C(2/1),R1={x|q2f2(x)C(1/2)<q1f1(x)C(2/1)}R2={x|q2f2(x)C(1/2)>q1f1(x)C(2/1)}两总体判别设有2个总体,其先验概率分别为q1,q2,满足:q两总体判别其中:z-Fisher判别函数得分,c-两个类中心连线的中点(Fisher判别准则)当先验概率和误判损失各类都相等时,即为Fisher判别。先验概率/误判损失不对称时,相当于对原判别值做一个修正如果f1(x)与f2(x)分别为Np(

1,∑)和Np(

2,∑),则两总体判别其中:z-Fisher判别函数得分,c-两个类中心练习题考虑下列判别分析问题:随机抽取60个样本,相关统计资料如下:一个新的样本为x=(0.0,0.5),问x属于(1)类还是(2)类。

练习题考虑下列判别分析问题:随机抽取60个样本,相关统计资料Booksbymail1000个样本顾客中,buyer只有83人,其他917名都是non-buyer,先验概率相差很大。做先验概率修正后,分类结果:修正后(Bayers法)发出197封订购信,约20.3%会订购发出44封订购信,约43.2%会订购修正前Booksbymail1000个样本顾客中,buyer只误判损失修正此例为典型非对称误判损失:非买者误判为买者,损失较小(邮资费、资料费、人工费),设为1元;买者误判为非买者损失较大,为一本书的净利润,设为6元发出160封订购信,约21.3%会订购:准确率下降!净利润=$6×34-$1×126=78净利润=$6×11-$1×10=56注意:误判损失修正需用syntax语句编程,人工输入先验概率(0.648)仅先验概率修正误判损失修正此例为典型非对称误判损失:非买者误判为买者,损失3Groupsin2Dimensions

三、多总体判别分析3Groupsin2Dimensions

三、多总体Partitioning2-DSpace

Partitioning2-DSpace

AlternateView

AlternateView

LikelihoodView

LikelihoodView

Non-LinearDiscriminators

两个判别变量、三类Non-LinearDiscriminators

两个判别四、SPSS的Discriminant过程Discriminant过程的大部分功能都可以通过对话框来指定,还有一些功能可以在Syntax页中给予补充或修改。例如,指定各类的先验概率;显示旋转方式和结构矩阵;限制提取的判别函数的数目;读取一个相关矩阵;分析后把相关矩阵写入文件;指定对参与分析的观测量进行回代分类,对没有参与分析的观测量进行预测分类等。四、SPSS的Discriminant过程SPSS的判别分析方法

为研究舒张期血压和血浆胆固醇对冠心病的作用,某医院测定了50-59岁冠心病人15例和正常人16例的舒张压和胆固醇指标,结果如下,试作判别分析,建立判别函数以便在临床中用于筛选冠心病人。SPSS的判别分析方法为研究舒张期血压和血浆胆判别分析数据结构设一分组变量表示分组类别判别分析数据结构设一分组变量表示分组类别判别分析过程

分析→分类→判别...

,弹出判别分析对话框。定义分组变量取值范围SPSS提供6种方法进行判别函数分析:强迫变量进入法及其他5种逐步进入法强迫进入法:已选变量全部进入模型逐步进入法选择满足指定条件的样本进行分析判别分析过程分析→分类→判别...,弹出定义分组变量取值范围分组变量最大值分组变量最小值定义分组变量取值范围分组变量最大值分组变量最小值逐步进入方法选择对话框“组间最小F比率”值最大的变量具有最小总体Wilk‘s

值的变量进入模型具有最小未被解释的组间方差的变量具有近邻组间最大马式距离的变量具有最大RaosV增量的变量显示每步每个变量的统计量显示两两类间的F统计量逐步判别停止判据根据F值:F>entry值保留,F<removal剔除根据F的精确p值逐步进入方法选择对话框“组间最小F比率”值最大的变量具有最小“统计量”对话框输出各类中各自变量均值单变量方差分析,H0:各类中同一自变量均值相等各类协方差矩阵相等的检验判别函数系数的输出形式对新样本进行判别分类的费雪系数,对每一类给出一组系数,并给出该组中判别分数最大的观测量非标准化的判别系数类内相关阵合并类内协方差阵每类显示一个协方差阵总样本协方差阵“统计量”对话框输出各类中各自变量均值单变量方差分析,H0“分类”对话框

指定分类参数和判别结果选择先验概率各类先验概率相等:若分为m类,先验概率为1/m根据各类样本容量的比例:先验概率与其样本量成正比选择分类使用的协方差阵显示各样本分类结果:判别分数、实际类、预测类、后验概率各组协方差阵用于协差阵不等时一张包含各类的散点图对每一类生成一张散点图根据函数值分组的边界图每个观测量的分类结果:判别依据是由除该观测量以外的其它观测量导出的,也称交互检验结果合并组内协方差阵,用于类协方差相等时“分类”对话框

指定分类参数和判别结果选择先验概率各类先验“保存”对话框根据判别分数把观测量按后验概率最大指派所属类保存判别分数保存观测量属于某一类的概率:若分m类,每个观测量将保存m个概率值“保存”对话框根据判别分数把观测量按后验概率最大指派所属类计算结果舒张压对冠心病的影响大于胆固醇计算结果舒张压对冠心病的影响大于胆固醇类均值处的线性判别函数判别方程为:D=0.638X1+0.800X2-10.753依此方程,病人组的中心得分点为1.11198,正常人组的中心得分点为-1.04248。本例为二类判别,二类判别以0为分界点,若将某人的舒张压和胆固醇值代入判别方程,求出的判别分>0的为冠心病人,判别分<0的为正常人。类均值处的线性判别函数判别方程为:第六章判别分析方案课件例:mba-car-preferrence前一章MBA汽车偏好例先用快速聚类将偏好数据分为3类再用判别分析建立判别函数首先进行方差检验,以确定判别方法再进行相应的判别分析,给出误判率例:mba-car-preferrence前一章MBA汽车偏协方差相等假设下的判别结果协方差相等假设下的判别结果TerritorialPlotTerritorialPlotTerritorialPlotDrawinperpendicularbisectorsTerritorialPlotDrawinperpenTerritorialPlotThisis“closestmean”classification.TerritorialPlotThisis“close用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论