Modeler分类预测判别分析_第1页
Modeler分类预测判别分析_第2页
Modeler分类预测判别分析_第3页
Modeler分类预测判别分析_第4页
Modeler分类预测判别分析_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

分类预测:判别分析判别分析的一般内容判别分析是一种实现统计分类的分析方法例如:不同类型客户的预测应用特点:数据中包含用于预测的判别变量(自变量),其类型可以为定距,也可以为定类数据中包含所属类别的类别变量(因变量),为定类型判别分析可以根据已有数据,确定分类与判别变量之间的数量关系,建立判别函数,并可通过判别函数实现对未知数据类别的判定和预测判别分析的一般内容判别分析与聚类分析的不同点:聚类分析中的类别是未知的,完全通过数据来确定判别分析,通过对类别的“训练样本〞的学习,建立判别准那么,具有“预测〞意义判别分析方法的划分:根据类数:两组判别分析、多组判别分析根据数学模型:线性判别、非线性判别根据判别准那么:距离判别法、Fisher判别法、Bayes判别法距离判别设有来自k2个总体的k组样本,每组样本有ni(i=1,2,..k)个关于X1,X2,…,Xp个输入(判别)变量的观察值(p>k)将n个样本数据看成p维空间中的点,计算出每个类别的中心(分类均值)分别计算任一样本点到各个类别中心的马氏距离根据距离最近的原那么,距离哪个中心近,那么属于哪个类距离判别假设有两个总体G1和G2,从第一个总体中抽取n个样本,从第二个总体中抽取m个样本,每个样本有p个判别变量(1),(2),(1),(2)分别为G1和G2的均值向量和协差阵,那么点X到Gi的马氏距离定义为:为什么用马氏距离?距离判别根据D(X,G1)、D(X,G2)判断:如果D(X,G1)<D(X,G2),那么:X∈G1如果D(X,G2)<D(X,G1),那么:X∈G2如果D(X,G1)=D(X,G2),那么待判判别函数:W(X)=D(X,G2)-D(X,G1),判断:如果W(X)>0,那么:X∈G1如果W(X)<0,那么:X∈G2如果W(X)=0,那么待判距离判别的目的:求D2(X,G2)=D2(X,G1),即判别函数等于0时X的解。解集形成的轨迹是一条分隔线或平面或超平面分隔线与两类的中心连线垂直且垂足为连线的中点可见:只有当两个总体的均值存在显著差异时,判别分析才有意义距离判别距离判别计算时:(i)未知时,可用样本估计如果各组协方差阵相等,采用(pooledwithin-groupscovariance),记为:那么判别函数(线性):距离判别计算时:如果各组协方差阵不相等(separated-groupscovariance),那么判别函数(非线性):Fisher判别Fisher判别也称典型判别根本思想是投影,即将原来p维空间的样本点投影到低维y空间中,以简化问题和提高判别精度Fisher判别---根本模型Fisher判别的根本模型即是Fisher判别函数,是判别变量的线性函数形式:系数ai称为判别系数,表示各判别变量对于判别函数的影响Y反映的是样本在低维空间中某个维度上的坐标判别函数通常为多个,于是得到在低维空间中多个维度上的坐标,进而决定了样本点在低空间中的位置寻找最正确的投影方向:能够将总体尽可能分开的方向Fisher判别---根本计算假设有两个总体G1和G2,从第一个总体中抽取n个样本,从第二个总体中抽取m个样本,每个样本有p个判别变量假设所建立的判别函数为将属于不同两类的样本观测值代入判别函数中,那么:为使判别函数很好地区分来自两个不同总体的样本,希望:相差越大越好,且组内的离差平方和越小越好Fisher判别---根本计算即下式越大越好。利用求极值原理,可以求出使I到达最大时的系数bFisher判别---根本计算首先,在判别变量的p维空间中,找到某个线性组合,使各类别的平均值差异最大,作为判别的第一维度,代表判别变量组间方差中的最大局部,得到第一判别函数然后,按照同样规那么依次找到第二判别函数、第三判别函数等,这些判别函数之间完全独立得到的每个函数都可以反映判别变量组间方差的一局部,各判别函数所代表的组间方差比例之和为100%。前面的判别函数相对重要,后面的判别函数只代表很少一局部方差,可以被忽略Fisher判别---根本思想点x在以a为法方向的投影为a’x,那么各组数据的投影为:将Gm组中数据投影的均值记为有:记k组数据投影的总均值为有:

Fisher判别---根本计算组间离差平方和为:组内离差平方和为:Fisher判别---根本计算希望寻找a使得SSG尽可能大而SSE尽可能小,即记方程|B-lE|=0的全部特征根为l1≥…≥lr>0,相应的特征向量为v1,…,vr.那么判别函数为:yi(x)=vi’x(=a’x)记pi为第I个判别函数的判别能力(效率),有:m个判别函数的判别能力为:最大的值为方程|B-lE|=0的最大特征根l1使Fisher判别---根本计算如果y空间是一维的,那么只需要计算判别阈值y0,并将新样本的判别得分与阈值进行比较即可得到判别结果通常y空间不是一维的,需要在y维空间中建立基于距离判别的判别函数对新样本,求出它们离各个类别中心的距离,依据判别函数,判别属于哪个类别Bayes判别在先验概率的根底上,利用判别函数所提供的信息对先验概率进行调整,最后得到某个样本属于哪个类别的概率估计首先,计算样本点X属于总体Gi〔i=1,2,…,k〕的概率然后,根据k个概率值的大小决策,样本点X应属于概率最大的类别〔总体〕Bayes判别第一,计算先验概率,设k个总体G1,G2…,Gk的先验概率分别为q1,q2,…qk第二,计算样本似然,即在总体Gi〔i=1,2,…,k〕中抽到样本X的概率例如:输入变量服从多元正态分布,且各总体协差阵相等,那么在总体G1中抽到样本X的概率为Bayes判别第三,计算样本属于总体Gi〔i=1,2,…,k〕的概率判别分析的应用例如采用一份某商学院招收MBA学生的数据:大学平均学分绩〔X1〕、管理才能得分〔X2〕以及录取结果〔Y,1表示录取,2不录取,3待定〕判别分析的应用例如--准备工作均值检验原假设:某输入变量各总体的均值无显著差异操作:Means:输出输入变量的均值、方差等根本描述统计量;UnivariateANOVAS,进行Wilks均值检验判别分析的应用例如--准备工作方差齐性检验:直接观测Matrix框下:Within-groupscorrelation;Within-groupscovariance;Separate-group

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论