




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
统计学─从数据到结论第七章相关和回归分析§7.1问题的提出对于现实世界,不仅要知其然,而且要知其所以然。顾客对商品和服务的反映对于企业是至关重要的,但是仅仅有满意顾客的比例是不够的;商家希望了解什么是影响顾客观点的因素,及这些因素如何起作用。类似地,医疗卫生部门不能仅仅知道某流行病的发病率,而且想知道什么变量影响发病率,以及如何影响。§7.1问题的提出发现变量之间的统计关系,并且用此规律来帮助我们进行决策才是统计实践的最终目的。一般来说,统计可以根据目前所拥有的信息(数据)来建立人们所关心的变量和其他有关变量的关系。这种关系一般称为模型(model)。§7.1问题的提出假如用Y表示感兴趣的变量,用X表示其他可能与Y有关的变量(X也可能是若干变量组成的向量)。则所需要的是建立一个函数关系Y=f(X)。这里Y称为因变量或响应变量(dependentvariable,responsevariable),而X称为自变量,也称为解释变量或协变量(independentvariable,explanatoryvariable,covariate)。建立这种关系的过程就叫做回归(regression)。§7.1问题的提出一旦建立了回归模型,除了对变量的关系有了进一步的定量理解之外,还可以利用该模型(函数)通过自变量对因变量做预测(prediction)。这里所说的预测,是用已知的自变量的值通过模型对未知的因变量值进行估计;它并不一定涉及时间先后。先看几个后面还要讨论的数值例子。§7.1问题的提出例7.1有50个从初中升到高中的学生。为了比较初三的成绩是否和高中的成绩相关,得到了他们在初三和高一的各科平均成绩(数据在highschool.txt)。这两个成绩的散点图展示在图7.1中。有个上升趋势;即初三时成绩相对较高的学生,在高一时的成绩也较高。但对于具体个人来说,大约有一半的学生的高一平均成绩比初三时下降,而另一半没有变化或有进步§7.1问题的提出目前的问题是怎么判断这两个变量是否相关、如何相关及如何度量相关?能否以初三成绩为自变量,高一成绩为因变量来建立一个回归模型以描述这样的关系,或用于预测。§7.1问题的提出该数据中,除了初三和高一的成绩之外,还有一个定性变量(没有出现在上面的散点图中)。它是学生在高一时的家庭收入状况;它有三个水平:低、中、高,分别在数据中用1、2、3表示。为研究家庭收收入情况对学学生成绩变化化的影响,下下面点出两个个盒形图,左左边一个是不不同收入群体体的高一成绩绩的盒形图,,右边一个是是不同收入群群体的高一和和初三成绩之之差的盒形图图。可以看出收入入高低对高一一成绩稍有影影响,但不如如收入对成绩绩的变化(高高一和初三成成绩之差)的的影响那么明明显。§7.1问问题的提出到底学生在高高一的家庭收收入对成绩有有影响吗?是是什么样的影影响?是否可以取初初三成绩(这这是定量变量量)或(和))家庭收入((定性变量))为自变量,,而取高一成成绩为因变量量,来建立一一个描述这些些变量之间关关系的回归模模型呢?§7.1问问题的提出例7.2这是200个个不同年龄和和性别的人对对某项服务产产品的认可的的数据(logi.txt)。。这里年龄是连续变量,,性别是有男和女((分别用1和和0表示)两两个水平的定定性变量,而而变量观点则为包含认可可(用1表示示)和不认可(用用0表示)两两个水平的定定性变量(见见下页数据))。想要知道的是是年龄和性别别对观点有没没有影响,有有什么样的影影响,以及能能否用统计模模型表示出这这个关系。年龄龄和和观观点点的的散散点点图图(左左)和和性性别别与与观观点点的的条条形形图图;;§7.2定定量量变变量量的的相相关关如果果两两个个定定量量变变量量没没有有关关系系,,就就谈谈不不上上建建立立模模型型或或进进行行回回归归。。但但怎怎样样才才能能发发现现两两个个变变量量有有没没有有关关系系呢呢??最简简单单的的直直观观办办法法就就是是画画出出它它们们的的散散点点图图。。下下面面是是四四组组数数据据的的散散点点图图;;每每一一组组数数据据表表示示了了两两个个变变量量x和y的样样本本。。不相相关关正线线性性相相关关负线线性性相相关关相关关但但非非线线性性相相关关§7.2定定量量变变量量的的相相关关但如如何何在在数数量量上上描描述述相相关关呢呢??下下面面引引进进几几种种对对相相关关程程度度的的度度量量。。Pearson相相关关系系数数((Pearson’’scorrelationcoefficient))又叫叫相相关关系系数数或或线线性性相相关关系系数数。。它它一一般般用用字字母母r表示。它它是由两两个变量量的样本本取值得得到,这这是一个个描述线线性相关关强度的的量,取取值于-1和1之间。。当两个个变量有有很强的的线性相相关时,,相关系系数接近近于1((正相关关)或-1(负负相关)),而当当两个变变量不那那么线性性相关时时,相关关系数就就接近0。§7.2定量量变量的的相关Kendallt相关系数数(Kendall’’st)这里的度度量原理理是把所所有的样样本点配配对(如如果每一一个点由由x和y组成的坐坐标(x,y)代表,,一对点点就是诸诸如(x1,y1)和(x2,y2)的点对对),然然后看每每一对中中的x和y的观测值值是否同同时增加加(或减减少)。。比如由由点对(x1,y1)和(x2,y2),可以以算出乘乘积(x2-x1)(y2-y1)是否大于于0;如果果大于0,,则说明x和y同时增长或或同时下降降,称这两两点协同(concordant);否则就就是不协同同。如果样样本中协同同的点数目目多,两个个变量就更更加相关一一些;如果果样本中不不协同(discordant)的点点数目多,,两个变量量就不很相相关。§7.2定定量变量量的相关Spearman秩秩相关系系数(Spearmanrankcorrelationcoefficient或或Spearman’sr)它和Pearson相关系数数定义有些些类似,只只不过在定定义中把点点的坐标换换成各自样样本的秩((即样本点点大小的““座次”))。Spearman相关系系数也是取取值在-1和1之间间,也有类类似的解释释。通过它它也可以进进行不依赖赖于总体分分布的非参参数检验。。§7.2定定量变量量的相关人们可能会会问,上面面的三种对对相关的度度量都是在在其值接近近1或-1时相关,,而接近于于0时不相相关。到底底如何才能能够称为““接近”呢呢?这很难一概概而论。但但在计算机机输出中都都有和这些些相关度量量相应的检检验和p-值;因此此可以根据据这些结果果来判断是是否相关(见下面例例7.1的的继续)。。§7.2定定量变量量的相关例7.1((继续)得得到初三和和高一成绩绩的Pearson相关系数数,Kendallt相关系数和和Spearman秩相关关系数分别别为0.795,0.595和0.758。。这三个统计计量相关的的检验(零零假设均为为不相关)全部显著著,p-值都是0.000。注意这这种0.000的表表示并不表表示这些p-值恰好等等于零,只只是小数点点前三位是是0而已。。§7.3定定量变量量的线性回回归分析对例7.1中的两个个变量的数数据进行线线性回归,,就是要找找到一条直直线来适当当地代表图图1中的那那些点的趋趋势。首先需要确确定选择这这条直线的的标准。这这里介绍最小二乘回回归(leastsquaresregression)。古汉语““二乘”是是平方的意意思。这就是寻找找一条直线线,使得所所有点到该该直线的豎豎直距离的的平方和最最小。用数数据寻找一一条直线的的过程也叫叫做拟合(fit)一条直线。。§7.3定定量变量量的线性回回归分析例7.1((继续)根根据计算,,找到初三三成绩和高高一成绩的的回归直线线。计算机机输出给出出来截距((Constant)26.444和和斜率(变变量j3的的系数)0.651。截距=26.444;斜率率=0.651§7.3定定量变量量的线性回回归分析这个直线实实际上是对对所假设的的下面线性性回归模型型的估计((这里的e是随机误差差):我们得到的的截距和斜斜率(26.444和0.651)是是对b0和b1的估计。§7.3定定量变量量的线性回回归分析由于不同的的样本产生生不同的估估计,所以以估计量是是个随机变变量,它们们也有分布布,也可以以用由他们们构造检验验统计量来来检验b0和b1是不是显著。。拿回归主要要关心的来说说,假设检验验问题是计算机输出也也给出了这个个检验:t检检验统计量为为9.089,而p-值为0.000。§7.3定定量变量的线线性回归分析析除了对的检检验之外,,还有一个个说明自变变量解释因因变量变化化百分比的的度量,叫叫做决定系数((coefficientofdetermination,也叫测定系数或可决系数),用R2表示。对于例1,,R2=0.632;这说说明这里的的自变量可可以大约解解释63%%的因变量量的变化。。R2越接近1,,回归就越越成功。由由于R2有当变量数数目增加而而增大的缺缺点,人们们对其进行行修改;有有一修正的R2(adjustedRsquare)。§7.3定定量变量量的线性回回归分析此外,计算算机还计算算了一个在在零假设下下有F分布布的检验统统计量,它它是用来检检验回归拟拟合好坏的的(零假设设是因变量量和自变量量没有关系系)。§7.3定定量变量量的线性回回归分析和刚才简单单的回归模模型类似,,一般的有有k个(定量))自变量x1,x2…,xk的对因变量量y的线性回归归模型为((称为多元元回归)这里b0,b1,…,bk称为回归系系数。对计计算机来说说,计算多多个自变量量的回归和和计算一个个自变量的的情况类似似,计算机机也会自动动输出相应应的检验结结果。§7.3定定量变量量的线性回回归分析并且用数据据来拟合所所选的一个个模型时,,并不一定定所有的变变量都显著著(并不一一定所有的的系数都有有意义)。。软件有一一种一边边回归,,一边检检验的所所谓逐步回归归(stepwiseregression))方法。该方法或或者从只只有常数数项开始始,逐个个地把显显著的变变量加入入;或者者从包含含所有变变量的模模型开始始,逐步步把不显显著的变变量减去去。注意意不同方方向逐步步回归的的结果也也不一定定相同。。§7.4自变变量中有有定性变变量的回回归在例7.1的数数据中,,还有一一个自变变量是收收入,但但它是定定性变量量,以虚拟变量量或哑元(dummyvariable)的方式出出现。((这里收收入的““低”,,“中””,“高高”,用用1,2,3来来代表))。如果果要用这这种哑元元进行7.2节节的回归归就没有有道理了了。可以以用下面面模型描描述:§7.4自变变量中有有定性变变量的回回归注意,哑哑元的各各个参数数a1,a2,a3本身只有有相对意意义,无法三三个都估估计,只只能够在在有约束束条件下下才能够够得到估估计。约约束条件件可以有有很多选选择,一一种默认认的条件件是把一一个参数数设为0,比如如a3=0,这这样和它它有相对对意义的的a1和a2就可以估估计出来来了。对对于例7.1得得到对于例7.1,,对b0,b1,a1,a2,a3的估计分分别为28.708,0.688,-11.066,-4.679,0。。§7.5Logistic回归归但是如果果因变量量为取两两个值的的定性变变量,前前面介绍绍的回归归模型就就无法解解决了。。我们通过过例7.2来介介绍另一一种回归归,即Logistic回归归(logisticregression))。例7.2数据前前面已经经见到,,有自变变量性别别、年龄龄和因变变量观点点§7.5Logistic回归归对此,人人们通常常会考虑虑下面的的模型((称为logistic回归归模型))为了循序序渐近,,先拟合合没有性性别作为为自变量量(只有有年龄x)的模型型§7.5Logistic回归归很容易得得到b0和b1的估计分分别为2.381和-0.069。。拟合的的模型为为§7.5Logistic回归归下面再加上性性别变量进行行拟合,,得到对对b0,b1和a0,a1的估计((同样事事先确定定为a1=0)分分别为1.722,-0.072,1.778,0。对对于女性性和男性性,该拟拟合模型型分别可可以表示示为SPSS实现(logi.sav)Analize-Regression--BinaryLogistic,再把因变变量(opinion)选入入DependentVariable,把自自变量((age和sex)选选入Covariates,,Categorical,再再把定性性变量sex选选入CategoricalCovariate,回到主对对话框,,点击OK即可可得到结结果。注:SPSS的的syntax:LOGISTICREGRESSIONVAR=opinion/METHOD=ENTERagesex/CONTRAST(sex)=Indicator/CRITERIAPIN(.05)POUT(.10)ITERATE(20)CUT(.5).SPSS的的数据输入数据的键入入(T01.sav)数据从其他他文本读入入:File-Open-Data-文件件类型(Sav,Excel,SAS,dBase,TXT等等等)(T02.txt);散点图定性变量的的加权(每一行的的权数等于于该行被观观测到的次次数)(T03.sav)和不加权(T04.sav);条形图,饼饼图数据的变换换(T01.sav)(多重散点点图,图的的编辑)SPSS的的相关分析相关分析(hischool.sav)利用SPSS选项::Analize--Correlate-Bivariate再把两个有有关的变量量(这里为为j3和s1)选入入,选择Pearson,Spearman和和Kendall就就可以得出出这三个相相关系数和和有关的检检验结果了了(零假设设均为不相相关)。SPSS的的回归归分分析析自变变量量和和因因变变量量都都是是定定量量变变量量时时的的线线性性回回归归分分析析(hischool.sav)利用用SPSS选项项::Analize-Regression-Linear再把把有有关关的的自自变变量量选选入入Independent,把把因因变变量量选选入入Dependent,然然后后OK即可可。。如如果果自自变变量量有有多多个个((多多元元回回归归模模型型)),,只只要要都都选选入入就就行行。。SPSS的的回归归分分析析自变变量量中中有有定定性性变变量量((哑哑元元))和和定定量量变变量量而而因因变变量量为为定定量量变变量量时时的的线线性性回回归归分分析析(
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 乡村振兴战略下职业技能培训对乡村经济结构调整的影响报告
- 808激光脱毛培训课件
- 中国卫生监督培训课件
- 员工安全操作课件
- 系文宣部培训大会
- 中国传统节日课件背景
- 幼师教育案例分享
- 浙大中控培训
- 制作商务培训
- 企业法治教育培训
- 儿童脓毒血症护理
- 顶板事故应急演练
- 智研咨询发布:中国企业数字化解决方案行业市场发展环境及前景研究报告
- 《大学计算机基础案例教程(微课版)第2版》全套教学课件
- 双轮铣搅拌桩施工方案
- 食堂食材配送采购 投标方案(技术方案)
- 贵州遵义四中2022自主招生物理试卷试题真题(含答案)
- NBT 35095-2017 水电工程小流域水文计算规范
- 2024年广东省中考生物试卷(含答案)
- 江苏省宿迁市泗洪县2023-2024学年六年级下学期期末综合(道德与法治+科学)试卷
- 烟叶道路运输服务方案
评论
0/150
提交评论