版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第四章第四章 相关分析和回归分析相关分析和回归分析相关分析和回归分析相关分析和回归分析第一节第一节 地理要素间的地理要素间的相关分析相关分析第二节第二节 地理要素间的地理要素间的回归分析回归分析一一 相关关系与函数关系相关关系与函数关系二二 地理要素的相关类型地理要素的相关类型三三 相关程度的程度方法及显相关程度的程度方法及显著性检验著性检验 第一节第一节 地理要素间的地理要素间的相关分析相关分析一一 相关关系与函数关系相关关系与函数关系 1.确定性的函数关系确定性的函数关系 。 2.不确定性的统计关系不确定性的统计关系相关关系相关关系3. 相关关系与函数关系的共同点,区别与联系相关关系与函数
2、关系的共同点,区别与联系(1) 共同点:都是反映现象变量之间存在的相互依存关系。共同点:都是反映现象变量之间存在的相互依存关系。 (2) 区别:相关关系是一种不严格的依存关系,函数关系区别:相关关系是一种不严格的依存关系,函数关系是严格确定的依存关系。是严格确定的依存关系。 (3) 联系:由于观察值和测量误差的存在,函数关系在现联系:由于观察值和测量误差的存在,函数关系在现实生活中往往通过相关关系表现出来;而相关关系又往往要实生活中往往通过相关关系表现出来;而相关关系又往往要使用函数关系的形式来模拟描述使用函数关系的形式来模拟描述。()Yf X()Yf Xn为了研究父亲与成年儿为了研究父亲与成
3、年儿子身高之间的关系,卡子身高之间的关系,卡尔尔.皮尔逊测量了皮尔逊测量了1078对对父子的身高。把父子的身高。把1078对对数字表示在坐标上,如数字表示在坐标上,如图。图。n它的形状象一块橄榄状它的形状象一块橄榄状的云,中间的点密集,的云,中间的点密集,边沿的点稀少,其主要边沿的点稀少,其主要部分是一个椭圆。部分是一个椭圆。正相关 负相关 完全正相关 完全负相关 零相关 二二 地理要素间的相关类型地理要素间的相关类型曲线相关(非线性相关)曲线相关(非线性相关)按变量按变量 数量数量两个变量两个变量两个以上两个以上 变量变量直线相关(线性相关)直线相关(线性相关)复相关复相关偏相关偏相关按质量
4、按质量等级相关(顺序相关)等级相关(顺序相关)品质相关品质相关 三三 相关程度的度量及显著性检验相关程度的度量及显著性检验由于地理相关类型各不相同,因此测度的方法也不同。由于地理相关类型各不相同,因此测度的方法也不同。(一)线性相关程度的测度(一)线性相关程度的测度所谓所谓相关程度相关程度,就是研究它们之间的相互关系是否密切。,就是研究它们之间的相互关系是否密切。所谓所谓相关方向相关方向,又可以分两种,即正相关和负相关。,又可以分两种,即正相关和负相关。n正相关正相关变量同方向变化,同增同减变量同方向变化,同增同减n负相关负相关变量反方向变化,一增一减变量反方向变化,一增一减n 不相关不相关用
5、来测度直线相关程度和方向的指标就是相关系数。用来测度直线相关程度和方向的指标就是相关系数。 当两个变量之间为直线相关时当两个变量之间为直线相关时,可以利用皮尔逊相关系数可以利用皮尔逊相关系数表示变量之间的相关关系及程度表示变量之间的相关关系及程度 设设 表示变量表示变量 , 的取值的取值, 为两为两个变量的算术平均数个变量的算术平均数, , 为这两个变量的标准差为这两个变量的标准差, 为自为自变量数列与因变量数列的协方差,变量数列与因变量数列的协方差, 为相关系数,则直线相关为相关系数,则直线相关系数定义为:系数定义为:),2 , 1)(,(niyxiiXYyx,x2yxyxyxr2y1. 简
6、单相关系数公式及检验简单相关系数公式及检验 r(1) 简单相关系数公式简单相关系数公式22)(1)(xxnnxxx)(12yyxxnxy22)(1)(yynnyyy22)()()(yyxxyyxxr222222)2()(xxxxxxxxxxnyyyy222)(nyxxyyyxx)( )(2222)(22nxnxnxxxnxxxnxx22)(nxxxx222)()(22)()()(yyxxyyxxrnyynxxyxnxyr22221(2)相关系数的性质)相关系数的性质相关系数的分布范围,介于相关系数的分布范围,介于-1-1和和+1+1之间之间当相关系数为正值时,表示两个要素(或变数)之间呈正相当
7、相关系数为正值时,表示两个要素(或变数)之间呈正相关,相关系数为负值时,表示两个要素(或变数)之间为负相关;关,相关系数为负值时,表示两个要素(或变数)之间为负相关;相关系数的绝对值越大。表示两个要素间相关程度越密切。相关系数的绝对值越大。表示两个要素间相关程度越密切。当r=+1时,为完全正相关。R=-1时,为完全负相关;r=0则完全无直线相关,可能存在其他形式的相关关系。 (3)相关程度的判断)相关程度的判断当当 时,时,X与与Y高度相关高度相关当当 时,时,X与与Y显著相关显著相关当当 时,时,X与与Y低度相关低度相关当当 时,时,X与与Y微相关或不相关微相关或不相关0 . 18 . 0r
8、8 . 05 . 0r5 . 03 . 0r3 . 00 . 0r 例 某企业生产某种产品的月产量和生产费用的统计资料如表,试判断月产量与生产费用之间存在怎样相关关系,相关程度为多少。 序号 月产量 生产费用 序号 月产量 生产费用 1 2 3 4 1.2 2.0 3.1 3.8 62 86 80 110 5 6 7 8 5.0 6.1 7.2 8.0 115 132 135 160 表 月产量和生产费用的统计资料(4)简单相关系数的应用)简单相关系数的应用序号 iX iY 2iX 2iY iiYX 1 2 3 4 5 6 7 8 1.2 2.0 3.1 3.8 5.0 6.1 7.2 8.0
9、 62 86 80 110 115 132 135 160 1.44 4.00 9.61 14.44 25.00 37.21 51.84 64.00 3844 7396 6400 12100 13225 17424 18225 25600 74.4 172.0 248.0 418.0 575.0 805.2 972.0 1280.0 合计 36.4 880 207.54 104214 4544.6 相关系数数据计算表 nyynxxyxnxyr22221)8880104214)(84 .3654.207()880)(4 .36(816 .45442297. 0741492.416 .540表明X
10、与Y之间存在线性相关关系,且是高度相关。 和和 都是相互对称的随机变量都是相互对称的随机变量 线性线性相关系数只反映变量间的线性相关程度,不相关系数只反映变量间的线性相关程度,不 能说明非线性相关关系能说明非线性相关关系 样本相关系数是总体相关系数的样本估计值,由样本相关系数是总体相关系数的样本估计值,由 于抽样波动,样本相关系数是个随机变量,其统于抽样波动,样本相关系数是个随机变量,其统 计显著性有待检验计显著性有待检验 相关系数只能反映线性相关程度,不能确定因果相关系数只能反映线性相关程度,不能确定因果关系,不能说明相关关系具体接近哪条直线关系,不能说明相关关系具体接近哪条直线 使用简单相
11、关系数时的注意事项使用简单相关系数时的注意事项XY 相关系数是根据要素之间的样本值计算出来相关系数是根据要素之间的样本值计算出来的,它随着样本数的多少或取样方式的不同而不的,它随着样本数的多少或取样方式的不同而不同,因此它只是要素之间的样本相关系数,只有同,因此它只是要素之间的样本相关系数,只有通过检验,才能知道它的可信度。通过检验,才能知道它的可信度。 (5)相关系数的显著性检验)相关系数的显著性检验 一般情况下,相关系数的检验,是在给定的一般情况下,相关系数的检验,是在给定的置信水平下,通过查相关系数检验的临界值表来置信水平下,通过查相关系数检验的临界值表来完成的。完成的。检验相关系数检验
12、相关系数=0的临界值(的临界值(ra)表表prra=f f值称为自由度,值称为自由度,其数值为其数值为f=n-2f=n-2,这里这里n n为样本数为样本数a a代表不同的代表不同的显著性水平显著性水平表内的数值表内的数值代表不同的代表不同的置信水平下置信水平下相关系数相关系数=0=0的临界的临界值,值,即即ra公式公式p=p=r rrara=a=a的意的意思是当所计算的相关系数思是当所计算的相关系数r r的的绝对值大于在绝对值大于在a a水平下的临界水平下的临界值值rara时,两要素不相关(即时,两要素不相关(即=0)=0)的可能性只有的可能性只有a a。相关系数相关系数r的具体检验方法步骤如
13、下:的具体检验方法步骤如下:(1)计算相关系数)计算相关系数r(2)给定显著水平)给定显著水平,按按n-2查相关系数临界值,查相关系数临界值,查出相应的临界值查出相应的临界值(3)比较)比较r的绝对值与临界值的大小。当的绝对值与临界值的大小。当r的绝的绝对值大于或等于临界值时,说明两变量在对值大于或等于临界值时,说明两变量在水平水平上达到显著性;若小于临界值,则说明两变量没上达到显著性;若小于临界值,则说明两变量没有达到所要求的精度。有达到所要求的精度。如果仍需研究二者的关系如果仍需研究二者的关系,可考虑降低精度,即修改显著性水平,可考虑降低精度,即修改显著性水平、相关系数的显著性检验步骤相关
14、系数的显著性检验步骤2、等级相关系数的计算公式及检验、等级相关系数的计算公式及检验表示两个变量顺序间直线相关程度和方向表示两个变量顺序间直线相关程度和方向的系数,称为等级(或顺序)相关系数。等级的系数,称为等级(或顺序)相关系数。等级相关系数不仅适用于数量指标的相关分析,同相关系数不仅适用于数量指标的相关分析,同时亦适用于质量指标的相关分析。时亦适用于质量指标的相关分析。等级相关系数,又称顺序相关系数是将两等级相关系数,又称顺序相关系数是将两要素的样本值按数值的大小顺序排列位次,以要素的样本值按数值的大小顺序排列位次,以各要素样本值的位次代替实际数据而求得的一各要素样本值的位次代替实际数据而求
15、得的一种统计量。实际上,它是位次分析方法的数量种统计量。实际上,它是位次分析方法的数量化。化。(1)等级相关系数的计算公式)等级相关系数的计算公式) 1(*61212nndRniid(2)等级相关系数的计算及检验)等级相关系数的计算及检验1985年全国各省(市,区年全国各省(市,区)总人口与社会总产值总人口与社会总产值即:总人口(即:总人口(x)x)与社会总产值(与社会总产值(y)y)的等级相关系的等级相关系数为数为0.7260.726等级相关系数检验的临界值等级相关系数检验的临界值在上例中,在上例中,n=29n=29,表中没有给出相应的样本数,表中没有给出相应的样本数下的临界值下的临界值ra
16、ra,但我们发现,在同一显著水平,但我们发现,在同一显著水平下,随着样本数的增大,临界值下,随着样本数的增大,临界值rara减少。在减少。在n = 2 8n = 2 8 时 , 查 表 可 知 :时 , 查 表 可 知 : r 0 . 0 5 = 0 . 3 1 7r 0 . 0 5 = 0 . 3 1 7 ,r0.01=0.448r0.01=0.448,由于,由于rxy=0.726rxy=0.726r0.01=0.448r0.01=0.448,故故rxyrxy在在a=0.01a=0.01的置信水平上是显著的。的置信水平上是显著的。等级相关系数检验结果等级相关系数检验结果(二)(二)多要素间相
17、关程度的测定多要素间相关程度的测定1.偏相关系数的计算与检验偏相关系数的计算与检验 在多要素所构成的地理系统中,当我们研究在多要素所构成的地理系统中,当我们研究某一个要素对另一个要素的影响或相关程度时,某一个要素对另一个要素的影响或相关程度时,把其它要素的影响视为常数(保持不变把其它要素的影响视为常数(保持不变),即,即暂不考虑其它要素的影响,而单独研究那两个暂不考虑其它要素的影响,而单独研究那两个要素之间的相互关系的密切程度时,则称为偏要素之间的相互关系的密切程度时,则称为偏相关。用以度量偏相关程度的统计量,称为偏相关。用以度量偏相关程度的统计量,称为偏相关系数。相关系数。624C当研究当研
18、究2 2个相关变量个相关变量x1x1、x2x2的关系时的关系时,用直线相关,用直线相关系数系数r12r12表示表示x1x1与与x2x2线性相关的性质与程度。此时固定的线性相关的性质与程度。此时固定的变量个数为变量个数为0 0,所以直线相关系数,所以直线相关系数r12r12又叫做零级偏相关系又叫做零级偏相关系数。数。当研究当研究3 3个相关变量个相关变量x1x1、x2x2、x3x3的相关时的相关时,我们把我们把x3x3保持固定不变,保持固定不变,x1x1与与x2x2的相关系数称为的相关系数称为x1x1与与x2x2的偏相关的偏相关系数,记为系数,记为r12.3r12.3,类似地,还有偏相关系数,类
19、似地,还有偏相关系数r13.2r13.2、 r23.1r23.1。这。这3 3个偏相关系数固定的变量个数为个偏相关系数固定的变量个数为1 1,所以都叫,所以都叫做一级偏相关系数。做一级偏相关系数。当研究当研究4 4个相关变量个相关变量x1x1、x2x2、x3x3、x4x4的相关时的相关时,须将其中的须将其中的2 2个变量固定不变,研究另外两个变量间的相个变量固定不变,研究另外两个变量间的相关。即此时只有二级偏相关系数才真实地反映两个相关变关。即此时只有二级偏相关系数才真实地反映两个相关变量间线性相关的性质与程度。二级偏相关系数共有量间线性相关的性质与程度。二级偏相关系数共有6 6个:个:r12
20、.34r12.34,r13.24r13.24,r14.23r14.23,r23.14r23.14,r24.13r24.13,r34.12r34.12。624C2/ ) 1(2mmCm一般,当研究一般,当研究m个相关变量个相关变量x1、x2、xm的的相关时,只有将其中的相关时,只有将其中的m-2个变量保持固定不变,个变量保持固定不变,研究另外两个变量的相关才能真实地反映这两个研究另外两个变量的相关才能真实地反映这两个相关变量间的相关,即此时只有相关变量间的相关,即此时只有m-2级偏相关系数级偏相关系数才真实地反映了这两个相关变量间线性相关的性才真实地反映了这两个相关变量间线性相关的性质与程度。质
21、与程度。m-2级偏相关系数共有级偏相关系数共有个。个。xi与与xj的的m-2级偏相关系数记为级偏相关系数记为rij.(i,j=1,2,m,ij)。偏相关系数,可利用单相关系数来计算。偏相关系数,可利用单相关系数来计算。假设有三个要素假设有三个要素x1,x2,x3,其两两间单,其两两间单相关系数矩阵为相关系数矩阵为对于上述三个要素对于上述三个要素x1,x2,x3,它们之间的偏,它们之间的偏相关系数共有三个,即相关系数共有三个,即r123,r132,r231(下(下标点后面的数字,代表在计算偏相关系数时,保标点后面的数字,代表在计算偏相关系数时,保持不变量,如持不变量,如r123即表示即表示x3保
22、持不变保持不变),其计算,其计算公式分别如下:公式分别如下:式(式(5)(7)表示三个偏表示三个偏相关系数,相关系数,称为一级偏称为一级偏相关系数。相关系数。若有四个要素若有四个要素X1,X2,X3,X4,则有六个偏相,则有六个偏相关系数,即关系数,即r1234,r1324,r1423,r2314,r2412,r3412,它们称为二级偏相关系数,其,它们称为二级偏相关系数,其计算公式分别如下:计算公式分别如下:在式(在式(8)8)中,中,r1234r1234表示在表示在x3x3和和x4x4保持不变保持不变的条件,的条件,x1x1和和x2x2的偏相的偏相关系数。关系数。为了计算二级偏相关系数,需
23、要先计算一级偏相为了计算二级偏相关系数,需要先计算一级偏相关系数,由(关系数,由(5)式可求得式可求得 同理,依次可以计算出其它各一级偏相关系数,同理,依次可以计算出其它各一级偏相关系数,见下表见下表 在一级偏相关系数求出以后,便可代入公式计算二级偏相关系数,如由(8)式计算可得同理,依次可计算出其它各二级偏相关系数,见同理,依次可计算出其它各二级偏相关系数,见下表下表 偏相关系数具有下述性质:偏相关系数具有下述性质:(1)偏相关系数分布的范围在偏相关系数分布的范围在-1到到1之间;之间;(2) 偏相关系数的绝对值越大,表示其偏相关程偏相关系数的绝对值越大,表示其偏相关程度越大;度越大;(3)
24、偏相关系数的绝对值必小于或最多等于由同)偏相关系数的绝对值必小于或最多等于由同一系列资料所求得的复相关系数,即一系列资料所求得的复相关系数,即 R123|r123|。偏相关系数的显著性检验偏相关系数的显著性检验偏相关系数的显著性检验,一般采用偏相关系数的显著性检验,一般采用t检验法。检验法。其统计量计算公式为其统计量计算公式为在(在(15)15)式中,式中,r1234mr1234m为偏相关系数,为偏相关系数,n n为为样本数,样本数,m m为自变量个数。为自变量个数。对于前述计算得到的偏相关系数对于前述计算得到的偏相关系数r2413=0.821,由于由于n=23,m=3,故,故查查t分布表,可
25、得出不同显著水平上的临界值分布表,可得出不同显著水平上的临界值ta,若若t ta ,则表示偏相关显著;反之,则表示偏相关显著;反之,tta,则,则偏相关不显著。在自由度为偏相关不显著。在自由度为23-3-1=19时,查表得时,查表得t0.001=3.883,所以,所以tta,这表明在显著性水平,这表明在显著性水平a=0.001上,偏相关系数上,偏相关系数r2413是显著的。是显著的。Correlations1.943*.998*.000.000171717.943*1.940*.000.000171717.998*.940*1.000.000.171717Pearson Correlation
26、Sig. (2-tailed)NPearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)NVAR00001VAR00002VAR00003VAR00001VAR00002VAR00003Correlation is significant at the 0.01 level (2-tailed).*. 1.计算简单相关系数计算简单相关系数n- - - P A R T I A L C O R R E L A T I O N C O E F F I C I E N T S - - Controlling for. 时
27、间时间n GDP 人口人口nGDP 1.0000 -.0690n人口人口 -.0690 1.0000 2.计算偏相关系数计算偏相关系数 如果令时间如果令时间 T不变不变 ,计算人口与计算人口与 GDP的偏相关系数为的偏相关系数为 =- 0. 0690 ,且且 t = -0.259 0. 8 =。由此可以看出。由此可以看出 ,如果如果去掉时间的因素去掉时间的因素 ,人口与人口与 GDP之间的偏相关系数很小之间的偏相关系数很小 ,即即如果固定时间不变如果固定时间不变 ,人口与人口与 GDP 之间的关系是微弱的之间的关系是微弱的 ,且且经检验人口与经检验人口与 GDP之间没有什么内在的必然的线性联系
28、。之间没有什么内在的必然的线性联系。人口越多未必人口越多未必 GDP越高越高 ,这是比较合乎实际的。这是比较合乎实际的。2.复相关系数的计算与检验复相关系数的计算与检验 复相关系数:反映几个要素与某一个要复相关系数:反映几个要素与某一个要素之间的复相关程度素之间的复相关程度 。n复相关系数的计算复相关系数的计算 当有两个自变量时当有两个自变量时 当有三个自变量时当有三个自变量时)1)(1 (11 . 221212.yyyrrR)1)(1)(1 (112. 321 . 2212123.yyyyrrrR当有当有k个自变量时个自变量时)1 )1)(1 (1) 1.(12.21 . 2212.12.
29、kykyykyrrrR复相关系数的性质复相关系数的性质 复相关系数介于复相关系数介于0到到1之间,即之间,即1012.kyR 复相关系数越大,则表明要素(变量)之间的相复相关系数越大,则表明要素(变量)之间的相关程度越密切。复相关系数为关程度越密切。复相关系数为1,表示完全相关;,表示完全相关;复相关系数为复相关系数为0,表示完全无关。,表示完全无关。 复相关系数必大于或至少等于单相关系数的绝对复相关系数必大于或至少等于单相关系数的绝对值。值。n复相关系数的显著性检验复相关系数的显著性检验 F检验法。其统计量计算公式为检验法。其统计量计算公式为kknRRFkyky11212.212.例题:在上
30、例中,若以例题:在上例中,若以x4为因变量,为因变量,x1,x2,x3为自为自变量,试计算变量,试计算x4与与x1,x2,x3之间的复相关系数。之间的复相关系数。 解:按照公式计算解:按照公式计算 检验:检验: ,故复相关达到了,故复相关达到了极显著水平。极显著水平。974. 0337. 01)(956. 01)(579. 01 (1)1)(1)(1 (1222212.4321 .42241123. 4)rrrR3010. 57190.12001. 0FF一一 回归分析的意义与研究内容回归分析的意义与研究内容二二 一元回归分析一元回归分析三三 多元回归分析多元回归分析四四 非线性回归模型非线性
31、回归模型第二节第二节 地理要素间的地理要素间的回归分析回归分析1 1、 回归分析意义回归分析意义回归的古典意义回归的古典意义: 高尔顿遗传学的回归概念高尔顿遗传学的回归概念 ( 父母身高与子女身高的关系父母身高与子女身高的关系)回归的现代意义回归的现代意义: 一个因变量对若干自变量一个因变量对若干自变量 依存关系依存关系 的研究的研究回归的目的(实质)回归的目的(实质): 由固定的自变量去由固定的自变量去 估计因变量的平均值估计因变量的平均值一一 回归分析的意义与研究内容回归分析的意义与研究内容2、回归分析的概念、回归分析的概念 就是对具有相互联系的要素,根据其就是对具有相互联系的要素,根据其
32、联系的形态,选择一个合适的数学模式,联系的形态,选择一个合适的数学模式,用来近似地表达要素间平均变化关系的用来近似地表达要素间平均变化关系的数理统计方法。这个数学模式称为回归数理统计方法。这个数学模式称为回归模型(回归方程)模型(回归方程) 3、回归分析的目的、回归分析的目的10 用样本回归函数去估计总体回归函数。用样本回归函数去估计总体回归函数。 由于样本对总体总是存在代表性误差,样本回归函由于样本对总体总是存在代表性误差,样本回归函数总会过数总会过 高或过低估计总体回归函数。高或过低估计总体回归函数。要解决的问题:要解决的问题:寻求一种规则和方法,使得到的样本回归函数的参寻求一种规则和方法
33、,使得到的样本回归函数的参数数 和和 尽可能尽可能“接近接近”总体回归函数中的参数总体回归函数中的参数 和和 。这样的这样的“规则和方法规则和方法”有多种,最常用的是最小二有多种,最常用的是最小二乘法乘法10iY 样本 总体 A iY()iiE Y XiYYiXX4、回归分析研究的主要内容回归分析研究的主要内容 从一组地理数据出发,确定这些要素(变量)从一组地理数据出发,确定这些要素(变量)间的定量数学表达式,即回归模型。间的定量数学表达式,即回归模型。 根据一个或几个要素(自变量)的值来预测根据一个或几个要素(自变量)的值来预测或控制另一个要素(因变量)的取值。或控制另一个要素(因变量)的取
34、值。 从影响某一地理过程中的许多要素中,找出从影响某一地理过程中的许多要素中,找出哪些要素(变量)是主要的,哪些因素是次要的,哪些要素(变量)是主要的,哪些因素是次要的,这些要素之间又有什么联系。这些要素之间又有什么联系。 回归分析研究的地理数学模型,依要素(变量)的回归分析研究的地理数学模型,依要素(变量)的多少可分为一元地理回归模型和多元地理回归模型。多少可分为一元地理回归模型和多元地理回归模型。5、回归分析与相关分析回归分析与相关分析 相关分析所研究的变量是对等关系;回归分析所相关分析所研究的变量是对等关系;回归分析所研究的两个变量不是对等关系。研究的两个变量不是对等关系。 对两个变量来
35、说,相关分析只能计算出一个相关对两个变量来说,相关分析只能计算出一个相关系数,而回归分析,可分别建立两个不同的回归方程。系数,而回归分析,可分别建立两个不同的回归方程。 相关分析要求两个变量都必须是随机的,而回归相关分析要求两个变量都必须是随机的,而回归分析的要求,自变量是给定的,因变量是随机的。分析的要求,自变量是给定的,因变量是随机的。计量地理学关心:变量间的因果关系及隐藏在计量地理学关心:变量间的因果关系及隐藏在随机性后面的统计规律性,这有赖于回归分析随机性后面的统计规律性,这有赖于回归分析方法方法二、二、 一元回归分析一元回归分析(一)一元线性回归及其基本思想(一)一元线性回归及其基本
36、思想 1. 一元线性回归的最小二乘法一元线性回归的最小二乘法某城市各年居民生活费收入与消费支出额的数据表序号生活费收入消费支出额序号生活费收入消费支出额12345250290360420450170250290310330678910490570650750820370400500550640根据表中的资料,确定生活费收入与消费支出之间存在的关系。 用X表示生活费收入,Y表示消费支出,把表中数据的关系用坐标系中的相关点表示, XY10)(iiYY iX 从图中我们看到,相关点的分布呈现出线性的形态,这说明,生活费收入与消费支出之间不仅存在着相关关系相关关系,而且它们之间具有线性关系线性关系。因
37、此我们就希望通过这些相关点确定出一条直线,利用这条直线表示它们的线性关系。 设这条直线的方程为XY10 对于这些相关点,可以做出多条直线表示变量之间的关系,我们希望在这些直线中找出最有“代表性”的直线。寻找最有“代表性”直线的常用方法是“最小二乘法”。称为回归系数称为回归方程,1010,XY)(n3 , 2 , 1ieYii10iX或 最小二乘法的基本思想是最小二乘法的基本思想是:最有 “代表性” 的直线应该是直线到各点的距离最近。等价的提法是:各点到直线的纵向距离最近。 对于变量X 的每一个值,相关点到直线的纵向距离是离差 ,为避免出现负号可用 表示。对于多个点,点到直线的距离用 表示。即利
38、用离差的平方和表示多个点到直线的距离。 根据最小二乘法的原理,最佳的直线是“的实际值与估计值 之间的离差平方和为最小” iXiYiiYY2)(iiYY2)(iiYYiYiYYniiiXYSSE121010)(),(最小即使得niiiYYSSE12)(SSE 称为误差平方和,将 代入上式得到 iiXY10达到最小的条件是:根据极值理论SSE,0)(0)(10SSESSE,02)(100XYSSE02)(101XXYSSE22110)(11XnXYXnXYXY0021010XXXYXnYXYXXYXn21010解方程组得2.一元回归方程参数的求解公式一元回归方程参数的求解公式22110)(11Xn
39、XYXnXYXY22110)(1111XnXYXnXYXnYn( (手算)手算)3 3、具体计算方法、具体计算方法(1 1)将原始数据根据需要列表)将原始数据根据需要列表(2 2)根据公式计算)根据公式计算(3 3)计算)计算(4 4)写出回归模型)写出回归模型(5 5)一般情况下还要求出相关系数)一般情况下还要求出相关系数01序号 iX iY 2iX 2iY iiYX 1 2 3 4 5 6 7 8 9 10 250 290 360 420 450 490 570 650 750 820 170 250 290 310 330 370 400 500 550 640 62500 84100
40、129600 176400 202500 240100 324900 422500 562500 672400 28900 62500 84100 96100 108900 136900 160000 250000 302500 409600 42500 72500 104400 130200 148500 181300 228000 325000 412500 524800 合计 5050 3810 2877500 1639500 2169700 回归方程数据表回归方程数据表50501niiX38101niiY287750012niiX163950012niiY21697001niiiYX2
41、1)5050(1012877503810505010121697003272502456507506.0974. 150501017506. 038101010X7506.0974.1XY10得回归方程为:iX(二)一元线性回归模型应用条件(二)一元线性回归模型应用条件 自变量X与因变量Y,X与Y之间的线性相关关系用函数关系表达式一般可以表示为 XY10德国数学家高斯提出了如下理论假设. 1. 零均值假设。又称为无偏性假设,在给定 的条件下, 的条件数学期望等于0.即 2 同方差假设。又称为等方差性假设。即对所有的 , 的条件方差都相等,且为常数。即 i0)(iEi)(iDiX 3. 无自相关
42、假设。又称为独立性假设。它假设随机误差项的逐次观察值互不相关,即4. 与X不相关假设。回归模型中的随机误差项 与自变量 各自独立影响因变量Yi。即 5. 正态性假设。假设随机误差项 服从均值为零,方差为 的正态分布。即: 0),(jiCOVi0),(jixCOV2iX), 0(2Ni 1、 线性关系检验线性关系检验 线性关系检验:是指检验自变量与因变量之间关系能否用一个线性模型来表示。 拟合优度检验拟合优度检验判定系数法判定系数法 拟合优度检验就是检验回归模型拟和实际数据的拟和程度。 一元分析中Y值的变化可以看成是由两个原因两个原因的变化引起的,一个是由于自变量自变量X变动引起的,二是由于其它
43、因素其它因素变动引起的,如图。(三)回归模型的检验(三)回归模型的检验拟合优度拟合优度? ? 概念概念:样本回归线是对样本数据样本回归线是对样本数据的一种拟合,不同估计方的一种拟合,不同估计方法可拟合出不同的回归线,法可拟合出不同的回归线,拟合的回归线与样本观测拟合的回归线与样本观测值总有偏离。值总有偏离。 样本回归线对样本观测数据拟合的优劣程度样本回归线对样本观测数据拟合的优劣程度 拟合优度拟合优度拟合优度的度量建立在对总变差分解的基础上拟合优度的度量建立在对总变差分解的基础上XY总变差的分解总变差的分解 分析分析Y Y 的观测值、估计值与平均值的关系的观测值、估计值与平均值的关系将上式两边
44、平方加总,可证得将上式两边平方加总,可证得 (TSSTSS) (ESSESS) (RSSRSS) )()(iiiiYYYYYY222)()()(iiiiYYYYYY 总变差总变差 (TSSTSS):因变量):因变量Y Y的观测值与其平均值的观测值与其平均值的离差平方和(总平方和)的离差平方和(总平方和) 解释了的变差解释了的变差 (ESSESS):因变量):因变量Y Y的估计值与其的估计值与其平均值的离差平方和(回归平方和)平均值的离差平方和(回归平方和) 剩余平方和剩余平方和 (RSSRSS):因变量观测值与估计值之):因变量观测值与估计值之差的平方和(未解释的平方和)差的平方和(未解释的平
45、方和)2iy2iy2ieiY 总变差i(Y -Y)i(Y -Y )来自回归ie来自残差iXY变差分解的图示变差分解的图示YX可决系数可决系数 以TSS同除总变差等式两边: 或 定义:定义:回归平方和(解释了的变差回归平方和(解释了的变差ESS) 在总变在总变 差(差(TSS) 中所占的比重称为可决系数,用中所占的比重称为可决系数,用 表示表示: 或 222iyyrTSSRSSTSSESSTSSTSS2iy2r2iy2221iiyer22221iiiyeyy 简捷计算公式: YnYYnXYY22102r222)()(rYYYY或 222)()(1rYYYYR作用:作用:可决系数越大,说明在总变差
46、中由模型作出了可决系数越大,说明在总变差中由模型作出了解释的部分占的比重越大,模型拟合优度越好。反解释的部分占的比重越大,模型拟合优度越好。反之可决系数小,说明模型对样本观测值的拟合程度之可决系数小,说明模型对样本观测值的拟合程度越差。越差。特点:特点:可决系数取值范围:可决系数取值范围: 随抽样波动,样本可决系数随抽样波动,样本可决系数 是随抽样是随抽样 而变动的随机变量而变动的随机变量 可决系数是非负的统计可决系数是非负的统计可决系数的作用和特点可决系数的作用和特点102 r2r可决系数与相关系数的关系可决系数与相关系数的关系a联系联系 数值上,可决系数等于因变量与自变量之间简单相数值上,
47、可决系数等于因变量与自变量之间简单相关系数的平方关系数的平方:222222222222222()()()()iiiiiiiiiiiiiyxx yxRyyxyx yrxy可决系数与相关系数的关系可决系数与相关系数的关系b区别区别 在上例 中50501niiX38101niiY287750012niiX974. 1021697001niiiYXYnYYnXYYR221027506. 01222) 1 .38(101639500) 1 .38(1021697007506. 03810974. 1R1 .1451616395001 .1451682.162857694.75209 .162498366
48、.1621581997906. 02R2、 回归系数检验回归系数检验 回归系数检验主要是对 检验 10:10H(1) 假设(2) 计算检验统计量其中 是 的标准差,111St 2)(1XXSy2)(2nYYyn为样本中数据的个数1给定显著性水平 ,查 自由度为n-2的 t 分布表得临界值(3)根据统计知识可知 服从自由度为n-2的 分布)2(2nt(4) 用样本计算 t 的值 若: 则拒绝 ,认为X,Y之间有线性关系 若: 则接受 ,认为X,Y之间无线性关系)(2tt )(2tt 0H0H1tt)2(1ntt即0:1OH55.20)2(111St231. 255.201tt31. 22t现对上
49、例中的模型进行t检验(1) 假设 (3) 给定显著性水平=0.05,查自由度为8的 t 分布临界值表,得(4) 因为则方程的 t 检验通过,说明X与Y之间是线性关系的假设成立.基本思想基本思想在多元回归中有多个解释变量,需要说明所有解在多元回归中有多个解释变量,需要说明所有解释变量联合起来对应变量影响的总显著性或整个释变量联合起来对应变量影响的总显著性或整个方程总的联合显著性。对方程总显著性检验需要方程总的联合显著性。对方程总显著性检验需要在方差分析的基础上进行在方差分析的基础上进行F检验。检验。3、回归方程的显著性检。、回归方程的显著性检。 总变差 自由度 模型解释了的变差 自由度 剩余变差
50、 自由度变差来源变差来源 平方和平方和 自由度自由度 方差方差归于回归模型归于回归模型归于剩余归于剩余总变差总变差方差分析表方差分析表22TSS( - )iiY Yy2ESS(- )iY Y2RSS( - )iiY Y2ESS( - )iY Y1n-2TSS( - )iY Y2RSS( - )iiY YTSS/ -1nE S S / -1kR SS/ n-k1n-检验的步骤为: F0:iOH(1) 提出假设 (2) 计算回归方程的 检验值 F(3) 确定检验的临界值 F1)() 1,(22knYYkYYknkFiii)( 服从自由度为 , 的 分布,对于给定的显著性水平 ,可以通过 分布表查得
51、显著性水平为 、自由度分别为 、 的临界值 ) 1,( knkFkn 1FFkn 112knnF12knn 1) 若 ,则否定假设,回归方程总体线性关系的显著性检验通过, 将 值与临界值 比较 ) 1,( knkFFF 2) 若 ,则接受假设,回归方程总体线性关系的显著性检验未通过, ) 1,( knkFF) 1,( knkF 对上例中的模型进行检验 1) 假设 2) 计算 3) 给定显著性水平0.05,查 分布的临界值表 4) 检验: 5.23= ,则模型的 检验通过。0:1OH325.422) 2, 1 (nF21)() 2, 1 (22nYYYYnF)(325.4228988.34921
52、0246.184397)2, 1 (nFF32. 5FFF三、多元线性回归分析三、多元线性回归分析 (一)二元线性回归分析(一)二元线性回归分析 二元线性回归分析的模型可以由下式表示: 22110XXY,是回归值Y,210是参数称为偏回归系数是自变量21,XX二元线性回归分析就是根据 n 个已知的样本观察值),(21111XXY),(22122XXY),(21nnnXXY, 来计算出参数值,得到回归模型 参数的计算主要是采用最小二乘法 )(或n3 , 2 , 1ieYii 22i 110iXX由最小二乘法,参数的计算是使SSE 最小2210)(),(YYSSE222110210)(),(XXY
53、SSE0)(0SSE0)(1SSE0)(2SSE0)(20)(20)(222211021221101221100XXXYSSEXXXYSSEXXYSSE22221120221221110122110XXXXYXXXXXYXXXnY221222121121222212221212221122110)()(XXXXXXYXXYXXXXXXXYXXYXXXY(二)(二) 多元线性回归分析多元线性回归分析 kkXXXY ,22110k元线性回归模型为 kkiiiiniXXXY,), 2 , 1(),(1021,计算出,根据观察值 1、 多元线性回归模型多元线性回归模型 模型中参数模型中参数 是偏回归系
54、数。是偏回归系数。偏回归系数偏回归系数:控制其它自变量不变的条件下,:控制其它自变量不变的条件下,第第k个自变量的单位变动对因变量平均值的个自变量的单位变动对因变量平均值的影响。影响。k,10,)(n3 , 2 , 1ie,iii22i 110i kkXXX或或2、多元线性回归模型的矩阵表示、多元线性回归模型的矩阵表示 K K个解释变量的多元线性回归模型的个解释变量的多元线性回归模型的n n个观测个观测样本,可表示为样本,可表示为 1112211101e, kkXXX1222221102e, kkXXX1nn22n110e,n kkXXX 1n用矩阵表示用矩阵表示1nXYnyyy21knnnk
55、kxxxxxxxxxxxx2132313222121k211111.11k10neee21)(1kn11k )(e样本回归函数样本回归函数或或其中:其中:Y,e都是有都是有n个元素的列向量个元素的列向量是有是有k+1个元素的列向量个元素的列向量X是第一列为是第一列为1的的n*( k+1)阶自)阶自变量数据矩阵变量数据矩阵 (截距项可视为解截距项可视为解释变量取值为释变量取值为1)XeXi22110e, kkXXXY最小210)(),(YYSSEk nikikiiiXXXY1222110)(0)(0SSE0)(1SSE0)(kSSEk元线性回归模型为 kkiiiiniXXXY,), 2 , 1(
56、),(1021,计算出,根据观察值 由最小二乘法 , 3、 最小二乘法确定回归模型最小二乘法确定回归模型 0),(20),(20)(2122110112211011221100nikikikiiikniikikiiinikikiiiXXXXYSSEXXXXYSSEXXXYSSEnikikniikinikiniikinikiikniiniiniiinikikniiniiniiXXXXYXXXXXYXXXXnY1211110111121111011112211101 方程组式称为正规方程组。 引入矩阵knnnkkxxxxxxxxxxxxX2132313222121k211111.11knnnkkk
57、knkkknnxxxxxxxxxxxxxxxxxxxxxxxxXXA213231322212121113212232221113121111111111nknknknknknnnnnnnnknnxxxxxxxxxxxxxxxxxxxxxn1i2i1iii21iii 11ii1iii21i2i21ii2i 11ii21iii 11ii2i 11i2i 11ii 11ii1ii21ii 1nyyyY21n210 则正规方程组式可以进一步写成矩阵形式BAnknnnnknkkknnyyyxyxyyyyyxxxxxxxxxxxxYX1iii1iii21iii 11ii321321223222111312
58、111111B-1 = (X X) X Y(三)多元线性回归模型的检验(三)多元线性回归模型的检验 1、判定系数检验、判定系数检验 222)()()(YYYYYYiiii2222)()()()(1YYYYYYYYiiiii222)()(YYYYRii222)()(1YYYYRiii222)()(1YYYYRiii1)(1)(1222nYYknYYRiii11)1 (122knnRR调整判定系数2、回归系数显著性检验、回归系数显著性检验 ), 2 , 1(kj式中 是回归系数 的标准差, jSjjjCSSj22), 2 , 1(kj122knCSjj1/knYXXYjjjbCSSj2jjStj是
59、矩阵是矩阵 中第中第j行第行第j列的元素列的元素1 -)( XXjjC给定显著性水平 ,查自由度为n-k-1的 t 分布表得临界值根据统计知识可知 服从自由度为n-k-1的 分布 )1(2 knt用样本计算 t 的值 若: 认为 之间有线性关系 若: 认为 之间无线性关系)(2tt )(2tt jtt) 1(knttj即YXj与YXj与3、回归方程的显著性检验、回归方程的显著性检验假设 0:21kOH1)() 1,(22knYYkYYknkFiii)( 服从自由度为 , 的 分布,对于给定的显著性水平 ,可以通过 分布表查得显著性水平为 、自由度分别为 、 的临界值 ) 1,( knkFkn
60、1FFkn 112knnF12knn 1) 若 ,则否定假设,回归方程总体线性关系的显著性检验通过, 将 值与临界值 比较 ) 1,( knkFFF 2) 若 ,则接受假设,回归方程总体线性关系的显著性检验未通过, ) 1,( knkFF) 1,( knkF某市近几年的工农业总产值与社会商品的零售额资料如表某市近几年的工农业总产值与社会商品的零售额资料如表工农业总产值与社会商品的零售额资料表年 份 1990 1991 1992 1993 1994 1995 1996 工业总产值 6.1 7.2 6.8 8.2 8.8 9.6 9.8 农业总产值 5.9 6.2 6.4 6.3 6.8 7.2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 酒泉消防电气检测施工方案
- 二零二五年度个人与个人间艺术品购买借款合同
- 二零二五年度金融纠纷诉讼保全担保合同大全3篇
- 2025版选矿厂承包合同及矿山安全生产技术服务协议3篇
- 预制塑料梯形槽施工方案
- 通风窗更换施工方案
- 镇江交通标志施工方案
- 购销合同合同
- 全新融资合作协议合同下载
- 二零二五版水坝应急抢修与维修服务承包协议3篇
- 中医门诊病历
- 广西华银铝业财务分析报告
- 无违法犯罪记录证明申请表(个人)
- 电捕焦油器火灾爆炸事故分析
- 大学生劳动教育PPT完整全套教学课件
- 继电保护原理应用及配置课件
- 《杀死一只知更鸟》读书分享PPT
- 盖洛普Q12解读和实施完整版
- 2023年Web前端技术试题
- 品牌策划与推广-项目5-品牌推广课件
- DB31T 685-2019 养老机构设施与服务要求
评论
0/150
提交评论