版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第9章spss的相关分析和线性回归分析相关分析和回归分析是统计分析方法中最重要内容之一,是多元统计分析方法的基础。相关分析和回归分析主要用于研究和分析变量之间的相关关系,在变量之间寻求合适的函数关系式,特别是线性表达式。本章主要内容:对变量之间的相关关系进行分析(Correlate)。其中包括简单相关分析(Bivariate)和偏相关分析(Partial)。建立因变量和自变量之间回归模型(Regression),其中包括线性回归分析(Linear)和曲线估计(CurveEstimation)。数据条件:参与分析的变量数据是数值型变量或有序变量。本章内容9.1相关分析9.2偏相关分析9.3线性回归分析9.4曲线估计9.5二项Logistic回归相关分析用于测量了解变量之间的密切程度。如:教育事业的发展与科学技术的发展存在着一定的关系,学生的数学成绩与物理成绩存在着一定的关系,相关分析就是要分析这种密切程度。相关类型:1、直线相关:两变量呈线性共同增大,或一增一减。2、曲线相关:两变量存在相关趋势,但非线性。此时若进行直线相关,有可能出现无相关性的结论,曲线相关分析是一般都先将变量进行变量变换,以将趋势变换为直线分析,或者采用曲线回归方法来分析。相关的方向
依照两种变量变动的方向分,有正相关、负相关和无相关(零相关)。相关分析基本步骤:1.绘制散点图2.计算相关系数3.进行相关系数检验如果两个定量变量没有关系,就谈不上建立模型或进行回归。但怎样才能发现两个变量有没有关系呢?最简单的直观办法就是画出它们的散点图。下面是四组数据的散点图;每一组数据表示了两个变量x和y的样本。第1点不相关正线性相关负线性相关相关但非线性相关但如何在数量上描述相关呢?下面引进几种对相关程度的度量。Pearson相关系数Spearman秩相关系数Kendallt
相关系数Pearson相关系数(Pearson’scorrelationcoefficient)又叫相关系数或线性相关系数。它一般用字母r表示。
它是由两个变量的样本取值得到,这是一个描述线性相关强度的量,取值于-1和1之间。当两个变量有很强的线性相关时,相关系数接近于1(正相关)或-1(负相关),而当两个变量不那么线性相关时,相关系数就接近0。Pearson相关系数的局限性:①要求变量服从正态分布②只能度量线性相关性,对于曲线相关等更为复杂的情形,该相关系数的大小并不能代表相关性的强弱。如果Pearson系数很低,只能说明两变量之间没有线性关系,并不能说明两者之间没有相关关系。也就是说,该指标只能度量线性相关性,而不是相关性。(线性相关性隐含着相关性,而相关性并不隐含着线性相关性)另外:样本中存在的极端值对Pearson相关系数的影响极大,因此要慎重考虑和处理,必要时可以对其进行剔出,或者加以变量变换,以避免因为一两个数值导致出现错误的结论。Spearman秩相关系数
它和Pearson相关系数定义有些类似,只不过在定义中把点的坐标换成各自样本的秩(即样本点大小的“座次”)。,为两变量各自对应的秩,为对应的秩之差。Spearman相关系数也是取值在-1和1之间,也有类似的解释。Spearman秩相关系数适用范围:Spearman相关系数更多用于测量两个有序分类变量之间的相关程度。对于适合Pearson相关系数的数据亦可计算Spearman相关系数,但统计效能要低一些。通过它也可以进行不依赖于总体分布的非参数检验。侧重于两个分类变量均为有序分类的情况。这里的度量原理是把所有的样本点配对(如果每一个点由x和y的秩组成的坐标(x,y)代表,一对点就是诸如(x1,y1)和(x2,y2)的点对),然后看每一对中的x和y的的秩的观测值是否同时增加(或减少)。比如由点对(x1,y1)和(x2,y2),可以算出乘积(x2-x1)(y2-y1)是否大于0;如果大于0,则说明x和y同时增长或同时下降,称这两点协同(concordant);否则就是不协同。如果样本中协同的点数目多,两个变量就更加正相关一些否则就更负相关些;如果样本中不协同(discordant)与协同的点数差不过一样多,两个变量相关性就弱。Kendallτ
相关系数(Kendall’sτ
)Kendall’sτ统计量的数学定义为:Kendallτ
相关系数(Kendall’sτ
)U、V分别为协同和不协同的数目大样本下采用的检验统计量为:Z统计量近似服从标准正态分布人们可能会问,上面的三种对相关的度量都是在其值接近1或-1时相关,而接近于0时不相关。到底如何才能够称为“接近”呢?这很难一概而论。但在计算机输出中都有和这些相关度量相应的检验和p-值;因此可以根据这些结果来判断是否相关画散点图Graphs→Scatter选择散点图的类型根据所选择的散点图类型,单击Define对散点图作具体定义。计算相关系数Analyze→Correlate→Bivariate选择参加计算的变量到Variable中在CorrelationCoefficents框中选择计算哪种相关系数在TestofSignificance框中选择输出单尾还是双尾p值选择Flagsignificancecorrelations输出星号标记在Options中选择其他描述统计量简单相关分析菜单简单相关分析实例:有50个从初中升到高中的学生。有他们在初三和高一的各科平均成绩(数据在highschool.sav)。要求比较初三的成绩是否和高中的成绩相关。练习:利用数据SY-8.sav,对城镇居民消费额与人均国内生产总值两变量进行相关分析。分析结果从运行结果看,城镇居民消费额与人均国内生产总值有很强的线形相关关系.本章内容9.1相关分析9.2偏相关分析9.3线性回归分析9.4曲线估计9.5二项Logistic回归偏相关分析
简单相关分析计算两个变量间的相关系数,分析两个变量间线性关系的程度。往往因为第三个变量的作用,使相关系数不能真正反应两个变量间的线性程度。例如用简单相关系数检验,可以得到肺活量与身高、体重均存在较强的线性关系,如果对体重相同的人,分析身高和肺活量,是否身高越高肺活量越大呢?因为身高与体重有线性关系,体重又与肺活量存在线性关系,因此,很容易得出身高与肺活量存在较强线性关系的错误结论。
偏相关分析的任务就是在研究两个变量之间的线性相关关系时控制可能对其产生影响的变量。分析身高与肺活量之间的相关性,就要控制体重在相关分析中的影响。正确运用偏相关分析,可以解释变量间的真实关系,识别干扰变量并寻找隐含的相关性。偏相关系数的计算
控制了变量z,变量x、y之间的偏相关系数和控制了两个变量,变量x、y之间的偏相关系数分别为
是控制了z的条件下,x、y之间的偏相关系数。是变量x、y间的简单相关系数。偏相关系数的检验
检验的零假设:两个变量间的偏相关系数为0。使用t检验,公式如下:r是相应的偏相关系数。n是观测个数,k是控制变量的数目,n-k-2是自由度。在SPSS的偏相关分析过程的输出中只给出偏相关系数和假设成立的概率p值。偏相关分析的操作
与简单相关分析操作类似,只不过菜单为Analyze→Correlate→Partial实例:利用数据相关回归分析(高校科研研究).sav,分析发表立项课题数与论文数之间的偏相关关系,其中投入高级职称的人数为控制变量。练习:利用数据data10-03.sav,分析中山柏月生长量与4个气候因素哪个因素有关。本章内容9.1相关分析9.2偏相关分析9.3线性回归分析9.4曲线估计9.5二项Logistic回归线性回归分析
线性回归是统计分析方法中最常用的方法之一。如果所研究的现象有若干个影响因素,且这些因素对现象的综合影响是线性的,则可以使用线性回归的方法建立现象(因变量)与影响因素(自变量)之间的线性函数关系式。由于多元线性回归的计算量比较大,所以有必要应用统计分析软件实现。这一节将专门介绍SPSS软件的线性回归分析的操作方法,包括求回归系数,给出回归模型的各项检验统计量值及相应的概率,对输出结果的分析等相关内容。线性回归模型假设条件与模型的各种检验1、线性回归的假设理论(1)正态性假设:即所研究的变量均服从正态分布;(2)等方差假设:即各变量总体的方差是相等的;(3)独立性假设,即各变量之间是相互独立的;(4)残差项无自相关性,即误差项之间互不相关,
Cov(i,j)=02、线性回归模型的检验项目(1)回归系数的检验(t检验)。(2)回归方程的检验(F检验)。(3)拟合程度判定(可决系数R2
)。(4)D.W检验(残差项是否自相关)。(5)共线性检验(多元线性回归)。(6)残差图示分析(判断异方差性和残差序列自相关)。
对初三和高一的各科平均成绩这两个变量的数据进行线性回归,就是要找到一条直线来适当地代表图中的那些点的趋势。首先需要确定选择这条直线的标准。这里介绍最小二乘回归(leastsquaresregression)。古汉语“二乘”是平方的意思。这就是寻找一条直线,使得所有点到该直线的竖直距离的平方和最小。用数据寻找一条直线的过程也叫做拟合(fit)一条直线。根据计算,找到初三成绩和高一成绩的回归直线。计算机输出给出来截距(Constant)26.444和斜率(变量j3的系数)0.651。截距=26.444;斜率=0.651这个直线实际上是对所假设的下面线性回归模型的估计(这里的e
是随机误差):我们得到的截距和斜率(26.444和0.651)是对b0和b1的估计。由于不同的样本产生不同的估计,所以估计量是个随机变量,它们也有分布,也可以用由他们构造检验统计量来检验b0和b1是不是显著。拿回归主要关心的来说,假设检验问题是计算机输出也给出了这个检验:t检验统计量为9.089,而p-值为0.000。除了对b1的检验之外,还有一个说明自变量解释因变量变化百分比的度量,叫做决定系数(coefficientofdetermination,也叫测定系数或可决系数),用R2表示。R2=0.632;这说明这里的自变量可以大约解释63%的因变量的变化。R2越接近1,回归就越成功。由于R2有当变量数目增加而增大的缺点,人们对其进行修改;有一修正的R2(adjustedRsquare)。此外,计算机还计算了一个在零假设下有F分布的检验统计量,它是用来检验回归拟合好坏的(零假设是因变量和自变量没有关系)。和刚才简单的回归模型类似,一般的有k个(定量)自变量x1,x2…,xk的对因变量y的线性回归模型为(称为多元回归)这里b0,b1,…,bk称为回归系数。对计算机来说,计算多个自变量的回归和计算一个自变量的情况类似,计算机也会自动输出相应的检验结果。
用数据来拟合所选的一个模型时,并不一定所有的变量都显著(并不一定所有的系数都有意义)。在多元回归分析中,自变量的筛选一般有三种的策略和方法:
1.向前筛选法(Forward)。
2.向后筛选法(Backward)。
3.逐步回归法(Stepwise)。各种方法的思路见课本P203。多元回归中变量筛选问题画散点图先做数据散点图,观测因变量与自变量之间关系是否有线性特点若散点图的趋势大概呈线性关系,可以建立线性回归模型Analyze→Regression→Linear选择因变量变量到Dependent中,因变量选入Independent.在Method框中选择回归分析自变量筛选策略。选择一个变量作为条件变量放到SelectionVariable中,并单击Rule给定一个判断条件,只有变量值满足给定条件才参与回归分析。在CaseLables框中指定哪个变量作为样本数据点的标志变量,该变量的值将标在回归分析的输出图形中。回归分析基本操作线性回归分析实例:利用数据相关回归分析(高校科研研究).sav,分析发表立项课题数受那些因素的影响。练习:利用美国收入消费数据.sav,建立用消费来预测收入的回归方程。利用数据A商品需求多元回归.sav
建立一个以居民人均收入、A商品单价为自变量,销售量为因变量的回归模型。A商品需求多元回归要注意的值有3个:adjustedRsquare,F,t由此得,回归方程为Y=4.588+1.868X1-1.8X2t值(1.82)(6.93)(-2.455)本章内容9.1相关分析9.2偏相关分析9.3线性回归分析9.4曲线估计9.5二项Logistic回归对于一元回归,若散点图的趋势不呈线性分布,可以利用曲线估计方便地进行线性拟合(liner)、二次拟合(Quadratic)、三次拟合(Cubic)等。不同模型的表示模型名称回归方程相应的线性回归方程Linear(一元线性)Y=b0+b1tQuadratic(二次曲线)Y=b0+b1t+b2t2Compound(复合曲线)Y=b0(b1t)Ln(Y)=ln(b0)+ln(b1)tGrowth(增长曲线)Y=eb0+b1tLn(Y)=b0+b1tLogarithmic(对数曲线)Y=b0+b1ln(t)Cubic(三次曲线)Y=b0+b1t+b2t2+b3t3S曲线Y=eb0+b1/tLn(Y)=b0+b1/
tExponential(指数曲线)Y=b0*
eb1*tLn(Y)=ln(b0)+b1tInverse(逆函数)Y=b0+b1/tPower(幂函数)Y=b0(tb1)Ln(Y)=ln(b0)+b1ln(t)Logistic(逻辑函数)Y=1/(1/u+b0b1t)Ln(1/Y-1/u)=ln(b0+ln(b1)t)采用哪种拟合方式,可以画散点图判断,但更主要的是取决于各种拟合模型对数据的充分描述(看修正AdjustedR2)曲线估计的基本操作Analyze→Regression→CurveEstimation选择因变量变量到Dependent中。曲线估计的自变量可以是相关因素变量也可以是时间变量。如果自变量是相关因素变量,则选择Variable选项,并把一个自变量指定到Independt里,如果是时间变量则选择Time选项。在Models中选择模型。选择PlotModels选项绘制回归线;选择DisplayANOVAtable输出各个模型的方差分析表和各回归系数显著性检验结果。在Save中选择要保存的数据。实例:数据相关回归分析(年人均消费支出和教育).sav1.利用1990~2002年的数据,以年人均消费性支出为自变量,教育支出为因变量拟合回归模型。2.利用1981~2002年居民在外就餐消费的数据,对居民未来在外就餐的趋势进行分析和预测。练习:利用数据居民收入支出情况,以人均生活费收入为自变量,人均生活费支出为因变量拟合回归模型。曲线估计本章内容9.1相关分析9.2偏相关分析9.3线性回归分析9.4曲线估计9.5二项Logistic回归在现实中,经常需要判断一些事情是否将要发生,候选人是否会当选?为什么一些人易患冠心病?为什么一些人的生意会获得成功?此问题的特点是因变量只有两个值,不发生(0)和发生(1)。这时,就无法直接采用一般线性回归模型来分析了。Logistic(逻辑)回归模型
设某一事件
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年低洼地出租合同范本
- 2024年出售工地加工棚合同范本
- 2024年承接造型树基地合同范本
- 2024年骨科年终总结
- 伤口导管的护理
- 2024年银行消防培训
- 劳动节安全培训
- 医疗政策宣传
- 全面预算培训
- 2024简易车辆租用合同(无租金)
- 英汉笔译智慧树知到答案2024年温州大学
- 2024年全国职业院校技能大赛高职组(智能节水系统设计与安装赛项)考试题库-下(多选、判断题)
- 2024信息咨询服务合同
- 2024新教科版一年级科学上册第二单元《我们自己》全部课件
- 2024至2030年中国岩土工程市场深度分析及发展趋势研究报告
- 双碳综合能源平台方案建设
- 2024年秋一年级上册8升国旗 公开课一等奖创新教学设计(表格式2课时)
- 【课件】纪念与象征-空间中的实体艺术+课件-高中美术人美版(2019)美术鉴赏
- 2024年广西应急厅事业单位笔试真题
- “十四五”期间推进智慧水利建设实施方案
- 七年级开学第一次家长会课件
评论
0/150
提交评论