《统计学毕业论文》word版.doc_第1页
《统计学毕业论文》word版.doc_第2页
《统计学毕业论文》word版.doc_第3页
《统计学毕业论文》word版.doc_第4页
《统计学毕业论文》word版.doc_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数学与统计学院2009级毕业论文分类号 o212 编 号 2009030136 毕业论文题 目 学 院 姓 名 专 业 学 号 研究类型 指导教师 提交日期 原创性声明本人郑重声明:本人所呈交的论文是在指导教师的指导下独立进行研究所取得的成果。学位论文中凡是引用他人已经发表或未经发表的成果、数据、观点等均已明确注明出处。除文中已经注明引用的内容外,不包含任何其他个人或集体已经发表或撰写过的科研成果。本声明的法律责任由本人承担。论文作者签名: 年 月 日 论文指导教师签名:目录引言51:Logistic回归模型概述61.1 二分类logistic回归分析6(1)分组数据的logistic回归模型.6(2)未分组数据的logistic回归模型.81.2 多类别logistic回归分析102:判别分析的概述112.1模型113 利用logistic回归进行二次判别提高判别分析效率124.实例分析13结束语17参考文献18致谢19附表120Logistic回归与判别分析的比较【摘要】 通过介绍logistic回归与判别分析的判别功能的思想、原理、条件及定义,来说明在实际中的回判优越性。利用随机比较方法 ,研究判别分析和 Logistic 回归分类回判正确率。结果显示 ,Logistic 回归回判正确率优于判别分析。在处理因变量为定性变量的回归分析中,Logistic回归模型具有很好的预测准确度和应用推广性。关键词 :判 别 分 析 ; Logistic 回 归 ; 回 判 率中图分类号: 文献标识码:A。 Logistic regression model and discriminate analysis is comparisonAbstract: this article introduces the application of Logistic model and discriminate analysis of thinking principle and utilization. To discriminate and forecast the discrimination accuracy rate, stochastic comparison the discriminate accuracy rate of discriminate analysis and logistic regression is studied .The result shows that the discriminate accuracy rate of logistic regression is better show than discriminate analysis. And the analysis results show that logistic regression model has well. Predictive accuracy and practical promotional value is handing regression analysis of qualitative dependent variable. Key words: Logistic regression model; discriminate analysis; discriminate accuracy rate.引言 生活中,在研究实际问题时,经常遇到分类问题。在很多情况下,为了研究目的,将研究对象经常分为两类,成为二分类问题。例如:在一次住房展销会上,与房地产商签订初步购房意向书的顾客中,在随后的3个月的时间内,只有一部分顾客确实买到了房屋。确实购买了房屋的顾客记为1,没有购买到房屋的记为0.再如,在是否参加赔偿责任保险公司的研究中,根据户主的年龄、流动资产额和户主的职业,因变量y被规定有两种可能的结果:户主有赔偿责任保险单,户主没有赔偿责任保险单。这种结果也可以用虚拟变量0或1来表示。 再如在一项社会安全问题的调查中,一个人在家是否害怕生人来,因变量y=1表示害怕,y=0表示。 上面的例子说明,因变量的结果只取两种可能情况的应用很广泛。 在统计学中,常用的分类方法是判别分析和logistic回归。这两种方法简单实用,很多统计软件可以完成有关的计算,他们应用很广,特别是医学、生物学领域和经济管理等研究领域。在医学生物学领域中,Biometrics, Biometrical Journal 等学术刊物每年都刊登很多判别分析或 logistic回归应用的论文; 在2004年其所著Applied Liner Regression Models一片中对logistic回归在线性回归中的应用进行了研究,得出了许多有关;易尚辉等对因大肠癌而住院的病历按治愈和未治愈分两组进行非条件多元素logistic ;白玉峰等借助于判别分析对心血管功能进行定量的判别和;陈希孺在数理统计与管理上发表了一个关于广义线性模型的专题讲座,其中对logistic回归做了一些统计理论方面的。在上述应用中,判别分析和logistic回归对解决实际问题提供了许多有用的信息。然而两种统计方法的统计理论并不完全相同。Logistic回归采用极大似然估计方法估计模型参数,依据回归函数值对观测数据进行分类;判别分析基于观测值与两个不同类别之间距离差异进行分类,距离包括马氏距离和欧氏距离等。Logistic回归具有良好的判别和预测功能,尤其在资料类型不能满足Fisher判别和判别的条件时,更能显示出logistic回归判别的优势与功能。本文通过对比来研究两种方法的回归正确率,分类方法对全部观测值进行分类,其中分类结果正确的观测点所占比例为回判正确率。从医学生物学、经济管理领域等领域中的例子显示,logistic回归比判别分析稳健,回判正确率优于判别分析。在很多应用中,直接采用logistic回归进行分类。1:Logistic回归模型概述通常意义上的logistic回归要求因变量只有两种取值(二分类),但当的取值有两种意义上时,就要用多分类logistic回归分析 .1.1 二分类logistic回归分析(1)分组数据的logistic回归模型 下面首先考虑一般的回归模型: ; =1,2,,n.其中满足;为0-1型随机变量,其概率分布为显然有。 针对0-1型因变量产生的问题,我们对因变量模型因该做两方面的改进。第一, 回归函数应该改用限制在0,1区间内的连续曲线,而不能在沿用直线回归方程。限制在0,1区间内的连续曲线很多,例如所有连续型随机变量的分布函数都符合要求,我们常用的是Logistic函数与正态分布函数。Logistic函数的形式为Logistic函数的中文名称是逻辑斯谛函数,或简称逻辑函数。第二,因变量本身只取0,1两个离散值,不适于直接作为回归模型中的因变量,由于回归函数表示自变量为的条件下等于1的比例。这提示我们可以用等于1的比例代替本身作为因变量。 (1)由于是0-1型贝努利随机变量,则得如下概率分布 显然有,故当因变量为0-1型随机变量时,因变量均值表示给定自变量时的概率,又因为所以因变量均值受到限制。另外,误差项为具有异方差性的的两点型离散分布。由于与只是相差一个常数,因而与的方差是相等的。0-1型随机变量的方差为 (2)有(2)式可得的方差依赖于,误差项方差随着的不同水平而变化,是异方差。这时对一个取值为0和1的因变量,误差项只能取两个值: 当=1时, = 当=0时, =对以上回归方程作线性变化,令 (3)(3)式变换称为逻辑变换,变换后的线性回归模型为 (4)Logistic回归模型成功的拟合了因变量为定型变量的回归模型,但是仍然从在一个不足之处,就是异方差性并没有解决。(4)式的回归模型不是等方差的,应该对(4)式用加权最小二乘估计,当较大时,的近似方差为 其证明参考文献【6】.其中,=,因而选定权数为 分组数据的Logistic回归只使用于大样本的分组数据,对于小样本的未分组的数据不适用,并且以组数c为回归拟合的样本量,使拟合的精度低。实际上,我们可以用极大似然估计直接拟合未分组数据的logistic回归模型。(2)未分组数据的logistic回归模型 设是0-1型变量,是与相关的确定型变量,组观测数据为,其中,是取值为0或1的随机变量,与的关系如下 其中,函数是值域在0,1区间内的单调函数。对于logistic回归 于是是均值为的0-1型分布,且每个都服从分布。设 可以把的概率函数合写为 于是,的似然函数为 对似然函数取自然对数为 对于logistic回归,将 代入得到 5 这里用来表明5式可视为在给定样本之后估计参数的对数似然函数。 为了得到最大似然函数估计,将5式分别对求偏导,然后领它们等于0,可以求得估计值,使得5式达到最大。1.2 多类别logistic回归分析 记为定性变量取得个类别,为取第个类别的概率 因变量取值于每个类别的概率与一组自变量有关,对于样本数据,多类别logistic回归模型第组样本的因变量取第个类别的概率为 上式中各回归系数不是唯一确定的,每个回归系数同时加减一个常数后的数值保持不变。为此,把分母的第一项中的系数都设为0,得到的回归函数的表达式 此表达式中每个回归系数都是唯一确定的,第一个类别的回归系数都取做0,其他类别回归系数数值的大小都以第一个类别为参照。2:判别分析的概述2.1模型 判别分析是用于判断样品所属类型的一种统计方法。在生产、科研和日常生活中经常遇到如何根据观测到的数据资料对所研究的对象进行判别归类问题。例如:在医学诊断中,一个病人肺部有阴影,医生要判断他是肺结核、肺部良性肿瘤,还是肺癌。这里肺结核病人良性肿瘤病人肺结核病人组成三个总体,病人来源于这三个总体之一,判别分析的目的是通过待侧病人的指标(阴影的大小,边缘是否光滑,体温多少)来判断他应该属哪个总体(即判断他生什么病)。 在气象方面主要应用在划分气候类型、降雨类型等方面,可以是各个待测因素的本质得以区别出来;在经济学中,根据人均国民收入,人均工农业产值,人均消费水平等多种指标来判定一个国家经济发展程度所属类型。在环境科学中,根据某地区的气象条件、大气污染元素浓度等来判断该地区是属于严重污染、一般污染,还是无污染。在农林虫害预报中,根据以往的虫情及多种气象因子判别一个多月后的虫情是大发生、中发生或正常,等等。 总之,判别分析是应用性很强的一种多元统计方法,已经渗到各个领域。但不管到哪个领域,判别分析问题都可以这样描述:设有个维总体其分布特征已知(如已知分布函数分别为或知道来自各个总体的训练样本),对给定的一个新样品,我们要判断它来自哪个总体。 在进行判别归类时,有假设的前提,判别的依据及处理的手法不同,可得出不同判别方法。如距离判别,判别,判别或典型判别,逐步判别,序贯判别等。但是,这些方法没有考虑被判对象是否有“序”的问题。而许多实际问题中,被判对象都是有“序”的。不考虑“序”的影响,就丢失了重大信息。根据总体的不同,选择不同的判别方法。此处,假设知道总体的特征量(即参数)均值和协方差阵,用距离判别来用。3 利用logistic回归进行二次判别提高判别分析效率 一般情况下,距离判别分析对数据的基本要求是:分组类型在两组或两组以上;在第一阶段工作时每组案例的规模必须在一个以上;预测变量必须是可测量的以计算其平均值和方差来得到相应的统计函数。另外还需要有一定的假设条件:1)每一个判别变量(预测变量)不能是其他的判别变量的线性组合;2)各组的变量的协方差阵相等;3)各判别变量之间具有多元正态。 与此相比,logistic回归没有类似假设,而且当这些假设不满足时结果非常稳定,具有很好的稳定性。比如我们可以采用主成分分析来有效的减轻预测变量之间的多元共线性,当预测变量是非度变量是可以采用引入哑变量的方法来进行回归从而达到判别个体归属的目的。 从另一个方面讲,判别分析实际上是一种针对数据结果进行分析的方法,而回归分析是基于数据之间的相关关系进行的分析方法,可以说这两种方法各有长处,将这两种方法的优点进行结合,显然有助于我们分析。 如何利用logistic回归来完成判别分析呢? Logistic回归意在对相应变量取0或1两个值得概率建模。由此,只需建立一定的判别准则,然后根据预测变量的不同水平来计算=1的预测概率,如果所得预测概率值相当大,就可预测=1要发生了,也即判别相应样本为1组。反之,如果预测概率相当小,预测相应样本为0组。4.实例分析 某省天水市环保局监测站于2008年在全市均匀地布置了14个监测点,每日三次定时抽取大气样品,测量大气中二氧化硫、氮氧化物和飘尘的含量。前后5天,每个取样点(监测点)每种污染元素的含量(见附表1)。表中最后一列给出的类号是使用聚类分析方法得到的结果(第一类为严重污染区,第二类为一般污染区,第三类为基本没有污染区)。 (1)试用广义平方距离判别法建立判别准则,并列出回判结果得; 由上表可得出每两组间的平方距离, 由于协方差阵相等,所以平方距离相等。,。以及相对应的F值,相应的P值都0.01,说明有显著差异,有回判意义。得到的线性判别函数为:由上表及下表可看出没有错判信息,错判的比率为0.(2)用logistic回归建立回归方程。Anovab模型平方和df均方FSig.1回归2.5373.84626.388.000a残差.32010.032总计2.85713a. 预测变量: (常量), x3, x1, x2。b. 因变量: y系数a模型非标准化系数标准系数tSig.共线性统计量B标准 误差试用版容差VIF1(常量)1.319.1777.445.000x11.7301.122.2691.542.154.3682.717x2-14.4904.119-.829-3.518.006.2024.948x3-2.4191.301-.352-1.859.093.3133.195a. 因变量: y结束语 本文通过分析比较logistic回归模型与判别分析的思想、原理等,进而通过实例应用,在研究数据而分类问题上,研究判别分析和logistic回归分类回判优越性。分析得出判别分析和logistic回归分类的回判正确率受随机误差大小和变量个数的影响很大,一般情况下,logistic回归的回判率优于判别分析。但随着随机误差的变大,lo

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论