方差分析和回归分析课件_第1页
方差分析和回归分析课件_第2页
方差分析和回归分析课件_第3页
方差分析和回归分析课件_第4页
方差分析和回归分析课件_第5页
已阅读5页,还剩225页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第五章 方差分析和回归分析第一节 单因素方差分析第二节 双因素方差分析第三节 相关分析第四节 回归分析第五章 方差分析和回归分析第一节 单因素方差分析掌握单因素方差分析F检验的内容并理解多重比较的基本原理了解双因素方差分析的基本概念与原理掌握相关关系的概念、皮尔逊相关系数的估计和检验了解斯皮尔曼秩相关和肯德尔相关的原理学习要求掌握单因素方差分析F检验的内容并理解多重比较的基本原理学习掌握一元线性回归模型的基本概念、回归系数的最小二乘估计理解因变量与自变量之间线性关系的检验和回归系数的检验了解多元线性回归分析和逻辑斯蒂回归分析学习要求掌握一元线性回归模型的基本概念、回归系数的最小二乘估计学习知识

2、结构图第五章方差分析与回归分析单因素方差分析方差分析的F检验方差分析的多重比较多因素方差分析无交互作用的双因素方差分析有交互作用的双因素方差分析相关分析皮尔逊相关系数斯皮尔曼秩相关系数肯德尔相关系数回归分析一元线性相关分析多元线性相关分析逻辑斯蒂回归知识结构图第五章单因素方差分析方差分析的F检验方差分析的多重第一节 单因素方差分析一、方差分析的概念二、单因素方差分析的F检验三、方差分析中的多重比较第一节 单因素方差分析一、方差分析的概念方差分析(Analysis of Variance;ANOVA)是费希尔(R.A.Fisher)在分析生物和农业实验数据时提出来的,通过检验多个总体均值是否相等

3、,来判断一个或多个分类型变量对某一关心的数值型变量是否有影响。数值型变量被称为因变量,分类型自变量被称为“因素”或“因子”,因素的不同状态被称为水平或处理一、方差分析的概念方差分析(Analysis of Variance;ANOV进行方差分析需要满足三个基本假定:(1)每个因素水平组合下的观测或实验数据服从正态分布(2)正态分布的方差是相等的(3)观测或实验数据相互独立,即这些观测或实验时是互不干扰、独立进行的一、方差分析的概念进行方差分析需要满足三个基本假定:一、方差分析的概念按照所研究的因素个数的不同:方差分析单因素方差分析多因素方差分析二、单因素方差分析的F检验按照所研究的因素个数的不

4、同:方差分析单因素方差分析多因素方差记因素为A,它有k个水平: 在每个水平 下有数据 这里 ,并且不要求每个水平下的数据量 相等,总样本量记为 在数据满足三个基本假定的前提下,所谓的“因素没有影响”就意味着每个水平下的总体均值是相等的,“因素有影响”就意味着这些均值必然不全相等。二、单因素方差分析的F检验记因素为A,它有k个水平: 二、单因素方差分析的F检验因此,方差分析实际上就是要对如下的原假设与备择假设进行假设检验:二、单因素方差分析的F检验因此,方差分析实际上就是要对如下的二、单因素方差分析的F检验表5-1 单因素方差分析的数据结构二、单因素方差分析的F检验表5-1 单因素方差分析的数据

5、结二、单因素方差分析的F检验基于表5-1的数据,可有如下定义:总离差平方和组间离差平方和二、单因素方差分析的F检验基于表5-1的数据,可有如下定义:二、单因素方差分析的F检验组内离差平方和其中 为第i 个水平下的样本平均数, 为总样本平均数。二、单因素方差分析的F检验组内离差平方和二、单因素方差分析的F检验可以证明: 其中: SST反映了因变量全部观测值的总变动 SSA反映了样本均值不同水平之间的差异程度,它一般有两个方面的来源,一是由于因素取不同水平所导致的因变量取不同值的影响,即系统因素,二是随机误差的影响 SSE反映的是每一因素水平下样本内各个观测值的变动程度,它源于随机误差的影响。二、

6、单因素方差分析的F检验可以证明: 二、单因素方差分析的F检验定义 它近似反映了在因变量的总变动中可以由因素解释的部分所占的比例,是一种对因素与因变量之间的关系强度的测量二、单因素方差分析的F检验定义 二、单因素方差分析的F检验可以证明,在原假设成立的条件下,下面的统计量服从自由度为 的 分布,即上式中k-1, n-k分别是组间离差平方和与组内离差平方和的自由度二、单因素方差分析的F检验可以证明,在原假设成立的条件下,下二、单因素方差分析的F检验在原假设成立的情况下,由于因素的不同水平对于因变量的取值没有影响,那么组间离差平方和中就只包含随机误差的影响而没有系统误差的影响,这时组间均方误差MSA

7、(组间离差平方和除以它的自由度k-1)与组内均方误差MSE(组内离差平方和除以它的自由度n-k)就应该很接近,它们的比值就会接近1二、单因素方差分析的F检验在原假设成立的情况下,由于因素的不二、单因素方差分析的F检验如果原假设不成立,即因素的不同水平对于因变量的取值有显著影响,那么组间离差平方和中除了包含随机误差的影响外,还会受到系统误差的影响,这时组间均方误差MSA就会大于组内均方误差MSE,它们的比值就会大于1。当这个比值大到某种程度时,根据小概率事件原理,就认为因素的不同水平对因变量的取值有显著影响,即自变量对因变量有显著影响。二、单因素方差分析的F检验如果原假设不成立,即因素的不同水平

8、二、单因素方差分析的F检验做统计判断时,可以利用样本数据计算检验统计量的具体值,然后计算该具体值所对应的p值,用p值与给定的显著性水平 的大小进行比较来决策,若 时,就拒绝原假设,否则不拒绝。或者根据所给定的显著性水平 计算相应的临界值 ,然后比较其与检验统计量的具体值F的大小进行判断,若 时,就拒绝原假设,否则不拒绝。二、单因素方差分析的F检验做统计判断时,可以利用样本数据计算三、方差分析中的多重比较多重比较方法是通过对各水平下总体均值之间的配对比较来进一步检验到底是哪些水平之间存在差异。多重比较的方法很多,常用的有最小显著差异法(Least Significant Difference;L

9、SD)、Bonferroni法、Scheffe法、Tukey法、Duncan多重区域检验法等,这里仅介绍LSD三、方差分析中的多重比较多重比较方法是通过对各水平下总体均值三、方差分析中的多重比较第一步:提出原假设与备择假设 第二步:计算具体的 的值;三、方差分析中的多重比较第一步:提出原假设与备择假设三、方差分析中的多重比较第三步:计算LSD,其公式为 是自由度为 的t分布的临界值 是给定的显著性水平第四步:进行决策,如果 则拒绝 ;否则不拒绝 三、方差分析中的多重比较第三步:计算LSD,其公式为【例5-1】一家管理咨询公司为不同的客户举办人力资源讲座。每次讲座的内容基本上是一样的,但讲座的听

10、课者有时是高级管理者,有时是中级管理者,有时是初级管理者。该咨询公司认为,不同层次的管理者对讲座的满意度可能存在差异。听完讲座后随机抽取不同层次的管理者的满意度评分如表5-2所示(评分标准为1-10,10代表非常满意):【例5-1】一家管理咨询公司为不同的客户举办人力资源讲座。每【例5-1】表5-2 不同层次管理者的满意度高级管理者中级管理者初级管理者77879898109108565748【例5-1】表5-2 不同层次管理者的满意度高级管理者中级【解】(1)建立原假设与备择假设(2)计算有关的均值及离差平方和试据此检验管理者的层次不同是否会导致评分的显著差异,如果是,究竟存在于哪些层次之间(

11、取显著性水平 )【解】(1)建立原假设与备择假设试据此检验管理者的层次不同是【解】【解】【解】(3)列出方差分析表表5-3 方差分析表方差来源离差平方和S自由度df均方MSF组间29.610214.80511.756组内18.890151.259总计48.50017【解】(3)列出方差分析表表5-3 方差分析表方差来源离差【解】(4)统计决策对显著性水平 ,能够得到 由于检验统计量 所以拒绝原假设,即有95%的把握认为不同层次的管理者对讲座的满意度是不同的。当然也可以通过比较p值与显著性水平 的大小来决策,在这里可以计算出p值为0.001,它远远小于0.05 ,因此决策结果同样是拒绝原假设。【

12、解】(4)统计决策【解】(5)多重比较拒绝了原假设,说明管理者层次对讲座的满意度得分确实存在显著性差异,但具体是哪些水平之间存在差异,还需要进行多重比较才能判断。由题意及计算可知:【解】(5)多重比较【解】(5)多重比较第一步:提出假设第二步:计算检验统计量的值【解】(5)多重比较【解】(5)多重比较第三步:计算LSD由表5-3可知, MSE=1.259 ,又知道 ,得到下面LSD值【解】(5)多重比较【解】(5)多重比较第四步:进行决策由以上计算可知, 显示中级管理者与初级管理者之间以及高级管理者与初级管理者之间的差异显著,但高级管理者与中级管理者之间的差异在统计上不显著。【解】(5)多重比

13、较【在SPSS中的实现】具体操作步骤如下:(1)选择菜单“分析(A)比较均值(M)单因素(ANOVA)”,于是出现图5-1所示的主对话框;(2)选择“满意度得分”到“因变量列表(E) “框,选择“所属管理层次”到“因子(F)”框;【在SPSS中的实现】具体操作步骤如下:图5-1 单因素方差分析主对话框图5-1 单因素方差分析主对话框具体操作步骤如下:(3)单击“两两比较(H)”按钮 ,打开两级对话框如图5-2所示,勾中复选框“LSD(L)”,然后点击按钮“继续”回到原窗口。【在SPSS中的实现】具体操作步骤如下:【在SPSS中的实现】图5-2 两两比较对话框图5-2 两两比较对话框(4)单击“

14、确定”按钮,SPSS的输出结果如表5-4和表5-5所示。表5-4 满意度得分的方差分析表平方和自由度df均方F显著性组间29.610214.80511.756.001组内18.890151.259总数48.50017【在SPSS中的实现】(4)单击“确定”按钮,SPSS的输出结果如表5-4和表5-表5-5 满意度得分的多重比较(I) 所属管理层次(J) 所属管理层次均值差 (I-J)标准误显著性95% 置信区间下限上限高级中级-1.257.657.075-2.66.14初级1.767*.680.020.323.22中级高级1.257.657.075-.142.66初级3.024*.624.00

15、01.694.35初级高级-1.767*.680.020-3.22-.32中级-3.024*.624.000-4.35-1.69*意味着结果显著 【在SPSS中的实现】表5-5 满意度得分的多重比较(I) 所属管理层次(J) 第五章 方差分析和回归分析第一节 单因素方差分析第二节 双因素方差分析第三节 相关分析第四节 回归分析第五章 方差分析和回归分析第一节 单因素方差分析第二节 双因素方差分析一、问题的提出二、无交互作用的双因素方差分析三、有交互作用的双因素方差分析第二节 双因素方差分析一、问题的提出单因素方差分析只考虑一个因素对因变量的影响,它可以进一步拓展为多因素方差分析。双因素方差分析

16、是多因素方差分析最简单的一种情形,它旨在判断两个因素中某一个或两个因素对因变量是否有显著影响,以及两个因素的不同搭配是否有新效应。一、问题的提出单因素方差分析只考虑一个因素对因变量的影响,它可以进一步拓展记某一因素为A,它有r个水平记另一个因素为B,它有s个水平因变量记为X研究的目的:要分析因素A和因素B对因变量X取值的影响一、问题的提出记某一因素为A,它有r个水平一、问题的提出如果因素A和因素B对因变量X取值的影响是相互独立的,这时只需分别判断这两个因素的影响,这被称为无交互作用的双因素方差分析如果这两个因素的影响不是相互独立的,也就是说两个因素互相搭配的效果会对因变量X的取值产生一种新的影

17、响,也就是说两个因素有交互效应,就称之为有交互作用的双因素方差分析一、问题的提出如果因素A和因素B对因变量X取值的影响是相互独立的,这时只需二、无交互作用的双因素方差分析在A的r个水平和B的s个水平的每一种组合下做一次观测或试验,可以得到无交互作用的双因素方差分析的数据结构,如表5-6所示。如果在每一组合下做两次以上的观测或试验,就能进一步考察交互作用了。二、无交互作用的双因素方差分析在A的r个水平和B的s个水平的二、无交互作用的双因素方差分析表5-6 无交互作用双因素方差分析的数据结构二、无交互作用的双因素方差分析表5-6 无交互作用双因素方二、无交互作用的双因素方差分析在表5-6中:二、无

18、交互作用的双因素方差分析在表5-6中:二、无交互作用的双因素方差分析对于无交互作用的双因素方差分析,其分析原理与单因素方差分析相同。判断因素A的影响是否显著等价于检验原假设:判断因素B的影响是否显著等价于检验原假设:其中 表示A的第i个水平构成的总体的均值; 表示B的第j个水平构成的总体的均值。二、无交互作用的双因素方差分析对于无交互作用的双因素方差分析二、无交互作用的双因素方差分析为了检验这些假设,同样需要对总离差平方和SST进行分解,可以证明其中二、无交互作用的双因素方差分析为了检验这些假设,同样需要对总二、无交互作用的双因素方差分析二、无交互作用的双因素方差分析二、无交互作用的双因素方差

19、分析SSA主要反映了因素A的不同水平引起的因变量的变动,如果因素A各水平之间没有差异,SSA仅仅反映了随机误差的纯效应SSB主要反映了因素B的不同水平引起的变动,如果因素B各水平之间没有差异, SSB也仅仅反映了随机误差的纯效应;SSE中只有数据随机误差效应的影响。二、无交互作用的双因素方差分析SSA主要反映了因素A的不同水二、无交互作用的双因素方差分析在一定条件下,可以证明在原假设 成立的条件下二、无交互作用的双因素方差分析在一定条件下,可以证明在原假设二、无交互作用的双因素方差分析在原假设 成立的条件下上列式子中, 和 分别是SSA、SSB和SSE的自由度,可以利用上面两个表达式作为检验统

20、计量。二、无交互作用的双因素方差分析在原假设上列式子中, 和 二、无交互作用的双因素方差分析表5-7 无交互作用的双因素方差分析表方差来源平方和S自由度df均方MSF值因素ASSAr-1MSA=SSA/(r-1)MSA/MSE因素BSSBs-1MSB=SSB/(s-1)MSB/MSE随机误差SSE(r-1)(s-1)MSE=SSE/(r-1)(s-1)总计SSTrs-1二、无交互作用的双因素方差分析表5-7 无交互作用的双因素【例5-2】为研究食品的包装方法和销售部门对其销量是否有影响,在三个销售部门用三种不同包装进行销售,获得的销量数据如下,取显著性水平为0.05,检验不同的销售部门和不同的

21、包装方法对该食品的销量是否有显著影响。【例5-2】为研究食品的包装方法和销售部门对其销量是否有影响【例5-2】表5-7 无交互作用的双因素方差分析表销售部门(A)包装方法(B)盒装袋装散装一部二部三部420480530228245270347369412【例5-2】表5-7 无交互作用的双因素方差分析表销售部门【解】(1)建立原假设(2)计算相应的离差平方和【解】(1)建立原假设【解】【解】【解】(3)列出方差分析表方差来源平方和SS自由度df均方MSF值因素A7868.2223934.1112.32因素B79044.22239522.11123.79随机误差1277.114319.28总计8

22、8189.568表5-9 方差分析表【解】(3)列出方差分析表方差来源平方和SS自由度df均方M【解】(4)统计判断对于显著性水平0.05,能够查表或用软件得到临界值 因为由此可以判断,销售部门和包装方法对于销售量的影响均是显著的。【解】(4)统计判断具体操作步骤如下:(1)选择菜单“分析(A)一般线性模型(G)单变量(U)”,就会出现如图5-3所示的窗口。选择“销售量”到“因变量(D)”框,选择“销售部门”和“包装方法”到“固定因子(F)”框。【在SPSS中的实现】具体操作步骤如下:【在SPSS中的实现】图5-3 双因素方差分析主对话框图5-3 双因素方差分析主对话框具体操作步骤如下:(2)

23、点击“模型(M)”按钮,打开如图5-4所示的对话框,“指定模型”选择“设定(C)”,然后设定模型结构:把“因子与协变量(F)”中的因素列表选入“模型(M)”框,“构建项”选择“主效应”;“平方和(Q)”选择“类型III”,勾中复选框“在模型中包含截距(I)”,具体见图5-4。【在SPSS中的实现】具体操作步骤如下:【在SPSS中的实现】图5-4 模型设定对话框图5-4 模型设定对话框(3)点击“继续”回到图5-3的窗口,点击“确定”即可得到最终的输出结果,整理后见表5-10。【在SPSS中的实现】表5-10 销售量的无交互作用的双因素方差分析表源III 型平方和df均方FSig.校正模型869

24、12.444421728.11168.054.001截距1210733.44411210733.4443792.101.000销售部门7868.22223934.11112.322.020包装方法79044.222239522.111123.786.000误差1277.1114319.278总计1298923.0009校正的总计88189.5568(3)点击“继续”回到图5-3的窗口,点击“确定”即可得到最由上表可以看出,因素A对应的p值为0.020(实际为0.01951),因素B对应的p值为0.000(实际为0.00025),通过与显著性水平0.05比较,两者都小于0.05,均拒绝原假设,同

25、样得到了销售部门和包装方法对于销售量的影响均是显著的结论。【在SPSS中的实现】由上表可以看出,因素A对应的p值为0.020(实际为0.01三、有交互作用的双因素方差分析交互作用,就是两个因素对观测或试验数据值的影响效应不是简单的叠加,而是跟具体的搭配方式有关。这个时候共要做三个检验:判断因素A对因变量X是否有显著影响,判断因素B对因变量X是否有显著影响,判断因素A和因素B的交互作用对因变量X是否有显著影响。三、有交互作用的双因素方差分析交互作用,就是两个因素对观测或三、有交互作用的双因素方差分析为了能分辨出两个因素的交互作用,要求每一个水平组合下至少取得两个数据值。设两个影响因素为A和B,分

26、别有r和s个水平,在每一个水平组合下取得t个数据值(t可以不等,为简单起见假设是相等的),从而可以得到如表5-11的数据结构。三、有交互作用的双因素方差分析为了能分辨出两个因素的交互作用三、有交互作用的双因素方差分析表5-11 有交互作用的双因素方差分析数据结构三、有交互作用的双因素方差分析表5-11 有交互作用的双因三、有交互作用的双因素方差分析三个检验的原假设分别是:在这里因素A和因素B的每一种搭配组合都是一个总体,因此共有rs个总体,每一种搭配组合比如 下的数据值是随机样本,其期望值为 。三、有交互作用的双因素方差分析三个检验的原假设分别是:三、有交互作用的双因素方差分析定义:同样,首先

27、建立样本数据的方差分解恒等式其中三、有交互作用的双因素方差分析定义:三、有交互作用的双因素方差分析三、有交互作用的双因素方差分析三、有交互作用的双因素方差分析上面式中各种样本平均数的定义分别为三、有交互作用的双因素方差分析上面式中各种样本平均数的定义分三、有交互作用的双因素方差分析针对前面的三个原假设可建立下面的检验统计量:三、有交互作用的双因素方差分析针对前面的三个原假设可建立下面三、有交互作用的双因素方差分析方差来源平方和SS自由度df均方MSF值因素ASSAr-1MSA=SSA/(r-1)MSA/MSE因素BSSBs-1MSB=SSB/(s-1)MSB/MSE因素ABSSAB(r-1)(

28、s-1)MSAB=SSAB/(r-1)(s-1)MSAB/MSE随机误差SSErs(t-1)MSE=SSE/rs(t-1)总计SSTrst-1表5-12 有交互作用的双因素方差分析表三、有交互作用的双因素方差分析方差来源平方和SS自由度df均【例5-3】用两种不同的教学方法和三种不同的教材在6个小班进行英语口语教学试验,在每个小班随机抽取3人,共抽取18人进行测验,得到他们的成绩如表5-13所示,判断教材、教学方法及它们的交互作用对成绩的影响是否显著( )。【例5-3】用两种不同的教学方法和三种不同的教材在6个小班进【例5-3】表5-13 教学方法与教材的交互作用教学方法(A)教材(B)教材一

29、教材二教材三教学方法一教学方法二64、67、7075、73、7488、86、9284、82、8390、92、8785、83、89【例5-3】表5-13 教学方法与教材的交互作用教学方法(【解】(1)建立原假设(2)计算相应的离差平方和【解】(1)建立原假设【解】(2)计算相应的离差平方和【解】(2)计算相应的离差平方和【解】(3)列出方差分析表表5-14 方差分析表方差来源平方和SS自由度df均方MSF值因素A3.55613.5560.593因素B1066.3332533.16788.861因素AB142.111271.05611.843随机误差72.000126.000总计1284.0001

30、7【解】(3)列出方差分析表表5-14 方差分析表方差来源平【解】(4)统计判断对于显著性水平0.05,能够查表或用软件得到临界值 因为由此得到的结论是,因素A也即教学方法的效应是不显著的,因素B也即教材自身的主效应及它与教学方法的交互效应对于成绩的影响均是显著的【解】(4)统计判断具体操作步骤如下:(1)选择菜单“分析(A)一般线性模型(G)单变量(U)”,就会出现如图5-5所示的窗口。选择“成绩”到“因变量(D)”框,选择“教材”和“方法”到“固定因子(F)”框。【在SPSS中的实现】具体操作步骤如下:【在SPSS中的实现】具体操作步骤如下:(2)点击“模型(M)”按钮,打开如图5-6所示

31、的对话框,“指定模型”选择“全因子(A)”、“平方和(Q)”选择“类型III”,勾中复选框“在模型中包含截距(I)”【在SPSS中的实现】具体操作步骤如下:【在SPSS中的实现】图5-3 双因素方差分析主对话框图5-3 双因素方差分析主对话框图5-4 模型设定对话框图5-4 模型设定对话框(3)点击“继续”回到图5-5的窗口,点击“确定”得到最终的输出结果。【在SPSS中的实现】表5-15 成绩的有交互作用的双因素方差分析表源III 型平方和df均方FSig.校正模型1212.0005242.40040.400.000截距119072.0001119072.00019845.333.000教材

32、1066.3332533.16788.861.000教学方法3.55613.556.593.456教材 * 教学方法142.111271.05611.843.001误差72.000126.000总计120356.00018校正的总计1284.00017(3)点击“继续”回到图5-5的窗口,点击“确定”得到最终的由上表可以看出,因素A(教学方法)对应的p值为0.456,因素B(教材)对应的p值接近于0,因素A与因素B的交互作用对应的p值为0.001,通过与显著性水平0.05比较,得到与前述相同的结论,即因素A(教学方法)的影响是不显著的,因素B(教材)自身的影响以及它与教学方法的交互效应对于成绩

33、的影响均是显著的。【在SPSS中的实现】由上表可以看出,因素A(教学方法)对应的p值为0.456,因第五章 方差分析和回归分析第一节 单因素方差分析第二节 双因素方差分析第三节 相关分析第四节 回归分析第五章 方差分析和回归分析第一节 单因素方差分析第三节 相关分析一、相关的基本问题二、相关图三、皮尔逊相关系数四、斯皮尔曼秩相关系数五、肯德尔相关系数第三节 相关分析一、相关的基本问题现实世界的现象之间都是相互联系的,这些联系可以概括为三类,即函数关系、相关关系和相互独立关系。函数关系是指变量之间存在的严格确定的依赖关系相关关系是指变量之间客观存在的非严格确定的依赖关系独立关系也称为不相关关系,

34、意指变量间的取值互不影响,没有联系一、相关的基本问题(一)相关关系的概念现实世界的现象之间都是相互联系的,这些联系可以概括为三类,即相关关系可以从不同的角度加以分类:1按变量的多少可分为单相关、复相关和偏相关单相关是指一个变量与另一个变量之间的相关关系复相关则是指一个变量与两个或两个以上变量之间的相关关系一、相关的基本问题(二)相关关系的分类相关关系可以从不同的角度加以分类:一、相关的基本问题(二)相单相关按变量间的相关方向不同又可分为正相关和负相关。当一个变量的数值由小变大时,另一个变量的数值也相应地由小变大,则称这种相关为正相关当一个变量的数值由小变大,另一个变量的数值却相应地由大变小,则

35、这两个变量间的相关关系称为负相关一、相关的基本问题(二)相关关系的分类单相关按变量间的相关方向不同又可分为正相关和负相关。一、相关现实中的变量之间的关系很复杂,一个变量的变化可能受到不止一个变量的影响,单相关一般不能够真实地反映出两个变量之间的相关性,这个时候就要进一步开展偏相关分析它是当研究某一个变量对另一个变量的影响程度时,将其它变量的影响视作常数,即暂时不考虑其它变量的影响,单独研究两个变量之间的相互联系的程度。一、相关的基本问题(二)相关关系的分类现实中的变量之间的关系很复杂,一个变量的变化可能受到不止一个2按变量间相关的表现形式可分为线性相关和非线性相关若一个变量与另一个或一组变量之

36、间的关系显著呈现某种线性组合时,称之为线性相关若一个变量与另一个或一组变量之间的关系并不表现为直线关系,而是大致表现为曲线、曲面或更复杂的形式时,称这种相关关系为非线性相关一、相关的基本问题(二)相关关系的分类2按变量间相关的表现形式可分为线性相关和非线性相关一、相关3按变量间相关的密切程度可分为完全相关、不完全相关和不相关若一个变量的值完全由另一个或一组变量的值所决定,则称变量之间的这种相关关系为完全相关,即函数关系。若一个变量的值与另一个或一组变量的值有关,但并不能由其完全确定,还受随机因素的影响,则称变量之间的这种相关关系为不完全相关。一、相关的基本问题(二)相关关系的分类3按变量间相关

37、的密切程度可分为完全相关、不完全相关和不相关3按变量间相关的密切程度可分为完全相关、不完全相关和不相关若一个变量的值完全不受另一个或一组变量值的影响,则称变量之间不相关,即相互独立。大量社会经济现象之间的相关关系都属于不完全相关,不完全相关是相关分析的基本内容,完全相关和不相关可视为相关关系中的特例。一、相关的基本问题(二)相关关系的分类3按变量间相关的密切程度可分为完全相关、不完全相关和不相关刻画变量之间相关关系的方法较多,常用的有相关图和相关系数。相关图能够反映变量之间相关的形式和密切程度,其优点是形象直观,但不够精确相关系数提供了一套对变量之间线性相关的方向和密切程度进行刻画的完整的统计

38、分析框架,包括对相关程度的估计和假设检验,以及对相关关系的数学形式进行描述。一、相关的基本问题(三)相关关系的研究方法刻画变量之间相关关系的方法较多,常用的有相关图和相关系数。一关系数测定方法与变量的数据类型有关对于数值型变量,通常采用皮尔逊相关系数进行测定;对于定序变量,通常采用斯皮尔曼秩相关系数或肯德尔相关系数进行测定;对于定类变量,通常采用列联系数进行测定。一、相关的基本问题(三)相关关系的研究方法关系数测定方法与变量的数据类型有关一、相关的基本问题(三)相相关图又叫散点图它是以直角坐标系的横轴代表某一变量X,纵轴代表另一变量Y,将两个变量间相对应的变量值用坐标点的形式描绘出来,用来反映

39、两变量之间相关关系的状态。二、相关图相关图又叫散点图二、相关图常见的相关关系示意图二、相关图(a)完全正线性相关(b)完全负线性相关(c)正线性相关(d)负线性相关(e)非线性相关(f)不相关常见的相关关系示意图二、相关图(a)完全正线性相关(b)完全1皮尔逊相关系数的概念皮尔逊相关系数用于对两个数值型变量的线性相关程度进行度量,是一种定量刻画变量间相关关系的方法。总体相关系数:总体相关系数一般是未知的三、皮尔逊(K. Pearson)相关系数1皮尔逊相关系数的概念三、皮尔逊(K. Pearson)相根据样本数据计算总体相关系数的估计值,称之为样本相关系数,记为r。设样本 是总体 的大小为n的

40、样本观测值,两个变量之间的样本相关系数的计算公式如下:三、皮尔逊(K. Pearson)相关系数根据样本数据计算总体相关系数的估计值,称之为样本相关系数,记式中:三、皮尔逊(K. Pearson)相关系数式中:三、皮尔逊(K. Pearson)相关系数2相关系数的性质(1)r的取值在-1与1之间,当 时表示正相关,当 时表示负相关。(2)当 时表示X与Y的样本观测值之间完全正线性相关;当 时表示X与Y的样本观测值之间完全负线性相关;当 时,表示X与Y的样本观测值之间没有线性相关关系,但不表示没有相关关系。三、皮尔逊(K. Pearson)相关系数2相关系数的性质三、皮尔逊(K. Pearson

41、)相关系数2相关系数的性质(3) 越趋近于1说明X与Y的样本观测值之间 线性相关关系越强 越趋近于0说明X与Y的样本观测值之间 线性相关关系越弱。三、皮尔逊(K. Pearson)相关系数2相关系数的性质三、皮尔逊(K. Pearson)相关系数2相关系数的性质对于样本相关系数r,可以根据经验分为以下几种情况:当 时,可视为高度相关当 时,可视为中等程度的相关当 时,视为低度相关而当 时,就说明两个变量之间相关程度极弱,可以视为几乎不存在线性相关关系了。 三、皮尔逊(K. Pearson)相关系数2相关系数的性质三、皮尔逊(K. Pearson)相关系数3相关系数的显著性检验样本相关系数r是根

42、据样本数据计算出来的,会受到抽样误差的影响,因此在估计出样本相关系数后,还需要对它的显著性做假设检验。如果样本数据服从二元正态分布,可以采用t检验方法,其原假设和备择假设分别为 检验统计量为 三、皮尔逊(K. Pearson)相关系数3相关系数的显著性检验三、皮尔逊(K. Pearson)相【例5-4】为研究在统计学期末考试之前用于复习的时间和考试分数之间是否存在相关关系,一位研究者随机抽取了某高校的8名学生进行跟踪调查,得到的数据如表5-16所示,假设学生的复习时间与考试分数服从二元正态分布,请做出分析。这里的显著性水平为0.05。【例5-4】为研究在统计学期末考试之前用于复习的时间和考试分

43、表5-16 8名学生的复习时间(单位:小时)与考试分数(单位:分)【例5-4】复习时间2016342327321822考试分数6461847088927277表5-16 8名学生的复习时间(单位:小时)与考试分数(单【解】(1)根据数据做出相关图,在SPSS中选择菜单“图形(G)散点/点状(S)”,在打开的对话框中把“考试分数”选入“Y轴”、把“复习时间”选入“X轴”,然后点击“确定”按钮,得到的相关图如图5-8所示【解】(1)根据数据做出相关图,在SPSS中选择菜单“图形(【解】由图可知复习时间与考试分数之间有一定的正相关性。图5-8 学生的复习时间与考试分数相关图【解】由图可知复习时间与考

44、试分数之间有一定的正相关性。图5-【解】(2)计算复习时间与考试分数的样本相关系数表5-17 样本相关系数计算表【解】(2)计算复习时间与考试分数的样本相关系数表5-17 【解】将上表的合计数据代入公式即得【解】将上表的合计数据代入公式【解】(3)检验原假设与备择假设由于显著性水平值0.05对应的临界值是2.447,10.21远远大于2.447,因此,可以认为复习时间与考试成绩之间的线性相关关系是显著的。【解】(3)检验原假设与备择假设具体操作步骤如下:(1)选择菜单“分析(A)相关(C)双变量(B)”,出现图5-9所示的窗口。把”复习时间”与”考试分数”选入”变量(V)”框;相关系数框根据需

45、要勾选相应的相关度量方法,本例勾选了复选框“Pearson”;显著性检验选择了“双尾检验”【在SPSS中的实现】具体操作步骤如下:【在SPSS中的实现】图5-9 相关系数对话框图5-9 相关系数对话框具体操作步骤如下:(2)点击“确定”得到输出结果,如表5-18所示。表中显示了皮尔逊相关系数的样本估计值及相应的双侧检验的p值。【在SPSS中的实现】具体操作步骤如下:【在SPSS中的实现】表5-18 皮尔逊相关系数及检验表同样可得到复习时间与考试分数是高度相关的结论。复习时间考试分数复习时间皮尔逊相关性1.862显著性(双侧).006N88考试分数皮尔逊相关性.8621显著性(双侧).006N8

46、8【在SPSS中的实现】表5-18 皮尔逊相关系数及检验表同样可得到复习时间与考试四、斯皮尔曼(C. E. Spearman)秩相关系数斯皮尔曼秩相关是对皮尔逊相关系数的改进,以便用于数据分布明显偏离正态分布的场合。对于样本容量为n的互不相等的独立同分布样本 ,用 表示 的秩,即样本中小于或等于 的样本点的个数用公式表示为 如果样本中有相同的样本点(称为打结),就取这些相同样本点的秩的平均数作为共同的秩。四、斯皮尔曼(C. E. Spearman)秩相关系数斯皮尔四、斯皮尔曼(C. E. Spearman)秩相关系数考虑样本数据对 ,若以 代表 在样本x的秩,以 表示 在样本y中的秩,则斯皮尔

47、曼秩相关系数定义为 其中四、斯皮尔曼(C. E. Spearman)秩相关系数考虑样四、斯皮尔曼(C. E. Spearman)秩相关系数可看出来,斯皮尔曼秩相关仅仅是模仿了皮尔逊相关的思想,区别是把公式中具体的数值变换成数据在样本中的秩。需要指出的是斯皮尔曼秩相关系数定义公式的第二个等号只有在数据没有打结的情况下才成立,在结很少的情况下近似成立。与皮尔逊相关系数一样,斯皮尔曼秩相关系数同样取值于-1到1之间,且绝对值越大相关性越强。在大样本情况下, 可以将其用来进行假设检验。四、斯皮尔曼(C. E. Spearman)秩相关系数可看出【例5-5】两名裁判员X、Y对六名歌手评分的结果如下 X:

48、9.97,9.95,9.87,9.85,9.90,9.94 Y:9.89,9.93,9.88,9.91,9.95,9.96。用斯皮尔曼秩相关系数分析两位裁判员评分的相关程度。【例5-5】两名裁判员X、Y对六名歌手评分的结果如下【解】(1)首先把裁判员对6名歌手的打分分别转化成相应的秩 X的秩:6,5,2,1,3,4 Y的秩:2,4,1,3,5,6【解】(1)首先把裁判员对6名歌手的打分分别转化成相应的秩【解】(2)计算过程表5-19 斯皮尔曼秩相关系数的计算【解】(2)计算过程表5-19 斯皮尔曼秩相关系数的计算【解】(3)因为 ,将其代入公式即可求得具体的数值 【解】(3)因为 ,将其代入公

49、式即可求得具体的数值五、肯德尔(M. Kendall)相关系数肯德尔相关同斯皮尔曼秩相关一样,可以用于数据分布明显偏离正态分布的场合,但两者的思想也有明显区别。肯德尔相关首先引入两个新的概念,即协同对与不协同对,然后在此基础上定义肯德尔相关系数。五、肯德尔(M. Kendall)相关系数五、肯德尔(M. Kendall)相关系数考虑数据对 ,对任意的ij,如果乘积 ,称数据对 为协同对,显然协同意味着它们有相同的趋势如果乘积 ,称数据对 为不协同对,不协同意味着它们有相反的趋势。五、肯德尔(M. Kendall)相关系数五、肯德尔(M. Kendall)相关系数令定义肯德尔为其中, 表示协同对

50、的数目 表示不协同对的数目五、肯德尔(M. Kendall)相关系数令五、肯德尔(M. Kendall)相关系数在数据没有打结,即没有 的情况下,容易看出, 。如果所有的数据对都是协同对,则在没有打结时反之如果所有的数据对都是不协同对,则在没有打结时五、肯德尔(M. Kendall)相关系数在数据没有打结,五、肯德尔(M. Kendall)相关系数对于的检验,可以通过检验K来实现在样本量足够大时,原假设成立的条件下有五、肯德尔(M. Kendall)相关系数对于的检验,可【例5-6】用肯德尔相关系数分析例5-5。【解】(1)利用求得的秩,重新对歌手排序,结果为X的秩:1,2,3,4,5,6 Y

51、的秩:3,1,5,6,4,2【例5-6】用肯德尔相关系数分析例5-5。【解】(1)利用【解】(2)容易得到协同对的数目为8,不协同对的数目为肯德尔相关系数为【解】(2)容易得到协同对的数目为8,不协同对的数目为具体操作步骤如下:(1)选择菜单“分析(A)相关(C)双变量(B)”,出现如图5-10所示的窗口。把X与Y选入“变量(V)”框;在相关系数框中勾选复选框“Kendalls tau-b”和“Spearman”;显著性检验选择“双尾检验”。【在SPSS中的实现】具体操作步骤如下:【在SPSS中的实现】图5-10 相关系数对话框图5-10 相关系数对话框具体操作步骤如下:(2)点击“确定”得到

52、输出结果【在SPSS中的实现】Y肯德尔相关X相关系数.067Sig.(双侧).851N6斯皮尔曼秩相关X相关系数.143Sig.(双侧).787N6表5-20 对歌手评分的秩相关与相关检验表具体操作步骤如下:【在SPSS中的实现】Y肯德尔相关X相表5-20显示了斯皮尔曼秩相关系数和肯德尔相关系数的样本估计值以及相应的双侧检验的p值,两者均表明,两位裁判员对6名歌手打分结果的相关性不显著。【在SPSS中的实现】表5-20显示了斯皮尔曼秩相关系数和肯德尔相关系数的样本估第五章 方差分析和回归分析第一节 单因素方差分析第二节 双因素方差分析第三节 相关分析第四节 回归分析第五章 方差分析和回归分析第

53、一节 单因素方差分析第四节 回归分析一、回归分析的基本问题二、一元线性回归模型三、多元线性回归模型四、逻辑斯蒂(Logistic)回归第四节 回归分析一、回归分析的基本问题通过相关分析,可以判断变量之间相关关系的方向和密切程度,但相关分析未给出变量之间具体的数量变动依存关系,从而不能根据一个变量估计另一个变量的取值因此,为了探求变量之间的具体数量变动关系,一般要在相关分析的基础上再进行回归分析。一、回归分析的基本问题(一)回归分析的概念通过相关分析,可以判断变量之间相关关系的方向和密切程度,但相回归分析就是对具有相关关系的两个或两个以上变量之间的数量变动的一般关系进行测定,确定因变量和自变量之

54、间数量变动关系的数学表达式,以便对因变量进行估计和预测的统计分析方法。简言之,相关分析的主要任务是研究变量之间相关关系的表现形式和密切程度,而回归分析则是在相关分析的基础上,确定变量间具体的数量变动依存关系。一、回归分析的基本问题(一)回归分析的概念回归分析就是对具有相关关系的两个或两个以上变量之间的数量变动假设对某个现象要估计或预测其某一变量的具体取值是多少,这个变量就是“因变量”或“被解释变量”,记为y可以考虑与该变量有相关关系的一组k 个变量,也就是“自变量”或“解释变量”,记为一、回归分析的基本问题(一)回归分析的概念假设对某个现象要估计或预测其某一变量的具体取值是多少,这个变根据变量

55、之间相关关系的含义,可以设想因变量的取值依赖于两部分:一部分是用来描述因变量与自变量之间确定依赖关系的,它是自变量的函数,称为回归方程,记为另一部分是不能由自变量的变化来解释的那一部分,通常用一个随机变量来表示,称为随机误差,记为一、回归分析的基本问题(一)回归分析的概念根据变量之间相关关系的含义,可以设想因变量的取值依赖于两部分假设因变量是由回归方程和随机误差叠加生成的,即 回归分析的目的:利用样本数据在某些假定下对 的具体形式进行估计。一、回归分析的基本问题(一)回归分析的概念假设因变量是由回归方程和随机误差叠加生成的,即 一、回归分析回归分析按照自变量的个数多少可分为一元回归分析和多元回

56、归分析一元回归模型中只包含一个自变量多元回归模型则是对两个及以上的自变量进行考察。一、回归分析的基本问题(二)回归分析的分类回归分析按照自变量的个数多少可分为一元回归分析和多元回归分析如果按照变量间相关关系的形态划分,回归分析可分为线性回归和非线性回归当变量之间的相关关系表现为线性相关时,拟合的模型称为线性回归模型,模型的确定部分称为线性回归方程一、回归分析的基本问题(二)回归分析的分类如果按照变量间相关关系的形态划分,回归分析可分为线性回归和非当变量之间的相关关系表现为非线性的曲线相关模式时,拟合的模型称为非线性回归模型,模型的确定部分称为曲线回归方程。上述分类还可以交叉进行,进一步细分为一

57、元线性回归和多元线性回归,一元非线性回归和多元非线性回归等一、回归分析的基本问题(二)回归分析的分类当变量之间的相关关系表现为非线性的曲线相关模式时,拟合的模型一元线性回归模型假定只有一个自变量x,而且关于自变量的函数表达式是线性的,模型的具体形式为:上式中,回归方程 部分也称为回归直线, 和 是待估的参数称为回归系数, 表示自变量每变动一个单位,因变量的平均变动值,它具有比较明确的意义, 是保证方程成立的截距项,又称为回归常数。 是随机误差。二、一元线性回归模型(一)一元线性回归模型概述一元线性回归模型假定只有一个自变量x,而且关于自变量的函数表关于随机误差的假定是:(1) 是均值为0的随机

58、变量;(2) 的方差(或标准差)对于所有x的值是不变的;(3) 是相互独立的且其与自变量也是不相关的。(4) 是正态分布的随机变量,即 二、一元线性回归模型(一)一元线性回归模型概述关于随机误差的假定是:二、一元线性回归模型(一)一元线性回归在一般情况下,回归系数均是未知的,只能根据样本数据进行估计,根据样本数据估计出来的回归系数称为样本回归系数,记为 和相应的回归方程称为样本回归方程,记为二、一元线性回归模型(一)一元线性回归模型概述在一般情况下,回归系数均是未知的,只能根据样本数据进行估计,假设一个大小为n的随机样本 对于某一个样本点i,由样本回归方程根据自变量的取值估计的因变量称为拟合值

59、即 因变量的实际观测值与拟合值之差称为残差,记为 ,二、一元线性回归模型(二)回归参数的估计假设一个大小为n的随机样本 二、一元线性回归模型(二)回归参在根据样本数据确定样本回归方程时,总是希望y的估计值从整体来看尽可能地接近其实际观测值,也就是说 的总量越小越好,可是 有正有负,简单的求和会导致正负互相抵消(见图5-11)因此为了便于处理,通常采用残差平方和作为衡量总偏差的尺度。二、一元线性回归模型(二)回归参数的估计在根据样本数据确定样本回归方程时,总是希望y的估计值从整体来二、一元线性回归模型(二)回归参数的估计图5-11 最小二乘法残差示意图二、一元线性回归模型(二)回归参数的估计图5

60、-11 最小二二、一元线性回归模型(二)回归参数的估计所谓最小二乘法,就是根据这一思路,通过使残差平方为最小来估计回归系数的一种方法。用数学符号表示二、一元线性回归模型(二)回归参数的估计所谓最小二乘法,就是二、一元线性回归模型(二)回归参数的估计由于 的非负的二次函数,因而它的最小值是确定存在的,根据微积分知识,最小值位于 的一阶偏导数都为0的点,也即二、一元线性回归模型(二)回归参数的估计由于 二、一元线性回归模型(二)回归参数的估计求解上面的方程组,就得到了 的 最小二乘(OLS)估计量,即二、一元线性回归模型(二)回归参数的估计求解上面的方程组,就二、一元线性回归模型(二)回归参数的估

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论