logistic判别分析应用.doc_第1页
logistic判别分析应用.doc_第2页
logistic判别分析应用.doc_第3页
logistic判别分析应用.doc_第4页
logistic判别分析应用.doc_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

利用-Logistic 回归二次判别法提高判别分析效率 朱勇华 张庆丰华北电力大学,北京, 102206三、利用 Logistic 回归提高判别分析效率,一般情况下,距离判别分析对资料的基本要求是:分组类型在两组或两组以上;在第一阶段工作时每组案例的规模必须至少在一个以上;预测变量必须是可测量的以计算其平均值和方差来得到相应的统计函数。另外还需要有一定的假设条件:1、每一个判别变量(预测变量)不能是其他的判别变量的线性组合;2、各组变量的协方差矩阵相等;3、各判别变量之间具有多元正态分布。与此相比,Logistic 回归没有类似假设,而且当这些假设不满足时结果非常稳定,具有很好的稳健性。比如我们可以采用主成分分析来有效减轻预测变量之间的多元共线性,当预测变量是非度量变量是可以采用引入哑变量的方法来进行回归从而达到判别个体归属的目的等。从另一个方面讲,判别分析实际上是一种针对资料结构进行的分析方法,而回归分析则是基于资料之间的相关关系进行的分析方法,可以说这两种方法各有长处,将这两种方法的优点进行结合,显然有助于我们的分析。接下来我们看一下具体操作方法。首先需要确定判别准则,Logistic 回归意在对回应变量Y 取 0 或 1 两个值的概率建模。由此,我们可以根据预测变量 X 的不同水平来计算 的预测概率。如果所得预测概率值相当大,那么我们当然要预测要发生了。反之如果预测概率相当小,我们当然要预测 要发生了。这里存在一个问题即如何确定所谓“相当大或“相当小。也就是如何确定这两者之间的分割点。关于如何确定分割点目前主要存在以下几种做法:1、采用 0.5 作为分割点;2、选用“最佳分割点;3、根据先验概率和误判损失来确定分割点。Y = 1Y = 1Y = 0在此,我们推荐采用一种新的确定分割点的方法,即二阶段判别的方法。所谓二阶段判别,即在第一阶段,分别尝试用距离判别法和 Logistic 回归进行模型拟合,如果效果很好,可以考虑判别分析到此为止。反之,根据 Logistic 回归得到的预测概率值选定一个筛选标准将样本分为三类:“1组、“0组和“不确定组,然后对不确定组的样本采用第三种方法,即根据先验概率和误判损失来确定分割点。这样的话我们就可以最大限度地发挥 Logistic 回归的模型优势并且可以充分利用样本信息。为了进一步说明理论依据,我们采用图示的方法进行说明:假设样本分布如上图,我们显然可以首先将分布区域、中的样本做出判别,然后再依据样本在区域中的频数信息确定分割点以对分布区域中的样本点进行判别。此例中,如果直接依据总样本的频数信息来进行判别的话显然有些不合理。特别刊 管理科学与统计决策 Special issue 2006 年 11 月 Management Science & Statistical Decision Nov.2006 60四、案例验证为了了解学习口语和交际策略对于英语学习的影响,以研究对策,改进教学和学习方法,从而最终使广大同学更快更好地学习英语,我们搞了一个问卷调查。具体调查结果见下表:表 1 关于英语口语学习与交际策略的调查分析表IDYX1X2 X3X4X5X6PG1G2112.51.882.832.221.50.06079112132.252.672.22.171.830.088911313.752.252.672.62.52.170.1891411412.752.3832.42.171.5053.672.62.172.50.0888116132.63332.6730753.833.42.332.670.3512311813.752.752.833.433.170.38762119132.883.172.82.52.830.157651110133432.52.830.22117111113.2533.532.332.330.40597111213.53.132.833.233.330.32839111313.53.132.833.233.330.32839111413.753.133.172.82.332.670.32223111513.53.2532.42.332.330.26847111614.53.253.173.83.53.670.70461221713.253.383.333.23.333.170.43879111813.753.383.672.62.172.50.33002111913.53.52.832.62.832.170.5473221*20143.53.53.62.832.670.83607222113.53.6332.82.172.830.382421122143.6343.833.670.67922222323.52.52.1721.671.830.09859112423.52.633.173.42.6720.67336222522.752.753.52.622.50.101951126232.753.673.63.52.830.5126222722.7533.174.23.172.330.8909222824.53.133.332.82.332.670.41669112923.253.253.53.42.672.830.54195223023.53.253.673.22.832.670.54531223123.753.253.673.83.332.670.84758223224.53.253.333.44.52.330.91477223323.753.383.173.42.53.670.35805113423.253.53.53.22.671.830.82388223523.53.53.53.643.830.53661223624.253.53.333.43.173.330.64499223723.53.6333.82.53.670.605732238243.6343.841.330.98909223924.53.633.333.63.673.50.7808224024.53.753.833.64.53.330.87265224124.543.333.233.330.72137224224.254.1343.43.53.670.72663224324.54.133.174.83.673.830.97966224423.54.383.174.43.333.330.9683522上表中,Y代表根据学习成绩进行的分组情况,1组为低分组,2组为高分组;X1代表学生的记忆策略得分;X2代表学生的认知策略得分;X3代表学生的补偿策略;X4代表学生的情感策略;X5代表学生的社交策略;X6代表学生的原认知策略。该样本取自华北电力大学2003级外语系学生。首先采用一般距离判别分析,可得到其最终判别效果见下表:接下来就让我们看一下 Logistic 回归判别的效果。首先得到预测概率回归方程式分别为:然后由此计算的出各个样本点的预测概率值,见表 1 的 P 列,这里的 P 值是对样本点属于第二组的预测概率;接下来选择0.5 为分割点对样本进行判别归类,其预测组别见表 1 的 G1 列;最后对预测结果进行汇总可知其最终判别效果如下表:接下来让我们采用本文所提出的二次判别确定分割点法对此例进行进一步的分析看能不能提高分析效率。如前所述,我们首先依据表 2 中的 P列,也即预测概率值,确定一个筛选标准。比如说选择 0.8 为筛选标准,即预测概率达到或超过 0.8 的则直接将其判断为第二组,预测概率低于0.2的则直接将其判断为第一组,剩下的将其归为“不确定组。此例中,“不确定组包括第 7、8、10、11、12、13、14、15、16、17、18、19、21、24、26、28、29、30、33、35、36、37、39、41、42号样本,其中属于第一组的有 14 个样本,属于第二组的有 12 个样本,然后对不确定组样本进行二次判别,其判别结果见表 2 的G2 列。可见第 19 号样本原来错误的判归为第二组,现在则成功地判归为第一组,由此可见本方法还是有效的。五、研究展望通过以上理论说明及案例验证,我们可以看出采用本文所介绍的 Logistic 回归二次判别法可以有效的提高我们的判别效率。实际上我们还可以根据回归方程式,然后根据此式可以对影响学生成绩的因素进行深入分析。根据各种学习策略在回归方程中的系数可以看出在影响学生英语成绩的各种学习策略中,认知策略、情感策略和原认知策略对学生英语成绩的影响要比记忆策略、补偿策略和社交策略的影响重要许多。当然了,根据各预测变量的系数符号可以看出记忆策略、任职策略、情感策略和社交策略对学生

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论