版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第四章第四章 地理要素间的相关分地理要素间的相关分析与回归分析析与回归分析 问题的引入问题的引入地理系统,是由多种要素相复合而构成的复杂巨系地理系统,是由多种要素相复合而构成的复杂巨系统。在这个系统中,一方面,各种要素之间存在着统。在这个系统中,一方面,各种要素之间存在着相互联系、相互影响和相互制约的关系;另一方面,相互联系、相互影响和相互制约的关系;另一方面,各种要素的复合作用又使各种地理事物和地理现象各种要素的复合作用又使各种地理事物和地理现象表现出强烈的地域差异性。表现出强烈的地域差异性。为了定量地揭示各种地理要素之间的相互关系,以为了定量地揭示各种地理要素之间的相互关系,以及各种地理事
2、物和地理现象所表现出来的地域分异及各种地理事物和地理现象所表现出来的地域分异规律,就必须采用以规律,就必须采用以概率论和多元统计分析方法概率论和多元统计分析方法对对地理系统进行深入研究。地理系统进行深入研究。问题的引入问题的引入全球变化:过去一直认为地球气候变暖是由二氧化全球变化:过去一直认为地球气候变暖是由二氧化碳的温室效应造成的,但近年来有人指出,地表特碳的温室效应造成的,但近年来有人指出,地表特别是海面的水蒸气(别是海面的水蒸气(water vapor)是更重要的影)是更重要的影响因素,二氧化碳只不过是一个响因素,二氧化碳只不过是一个“帮凶帮凶”。如果这。如果这种观点成立,则气候变暖至少
3、有两个原因:水蒸气种观点成立,则气候变暖至少有两个原因:水蒸气和二氧化碳。和二氧化碳。有些物理学家经过研究指出,无论二氧化碳还是水有些物理学家经过研究指出,无论二氧化碳还是水蒸汽都不是全球升温的真正原因,导致全球升温的蒸汽都不是全球升温的真正原因,导致全球升温的根本原因在于太阳活动的变化。这样看来,全球升根本原因在于太阳活动的变化。这样看来,全球升温和二氧化碳含量的变化乃至水蒸汽的变化其实都温和二氧化碳含量的变化乃至水蒸汽的变化其实都是太阳活动的共同反映,而太阳活动就是过去没有是太阳活动的共同反映,而太阳活动就是过去没有引起人们注意的潜伏变量。引起人们注意的潜伏变量。Intergovernme
4、ntal Panel on Climate Change联合国政府间气候变化专门委员会联合国政府间气候变化专门委员会再如,干旱地区,山上的积雪深度影响山下再如,干旱地区,山上的积雪深度影响山下的灌溉面积;根据天灾和地震的关系开展地的灌溉面积;根据天灾和地震的关系开展地震预报,预报效果良好。震预报,预报效果良好。为了处理诸如此类的一果多因、多果多因的为了处理诸如此类的一果多因、多果多因的因果关系问题,这就需要掌握相关分析和回因果关系问题,这就需要掌握相关分析和回归分析。归分析。在地理研究中,回归分析和相关分析是最常在地理研究中,回归分析和相关分析是最常用,也是最重要的两种统计分析技术用,也是最重
5、要的两种统计分析技术,主要,主要被用于回答一些定义明确的数值变量之间的被用于回答一些定义明确的数值变量之间的关系问题。关系问题。科学研究的主要功能是科学研究的主要功能是借助因果关系进行解释和预借助因果关系进行解释和预测测。回归分析和相关分析是利用建立数学模型的过程和回归分析和相关分析是利用建立数学模型的过程和结果进行解释和预测的重要途径。结果进行解释和预测的重要途径。另外,回归分析还是学习其他许多更为复杂的数学另外,回归分析还是学习其他许多更为复杂的数学方法的基础,如主成分分析、判别分析、灰色预测方法的基础,如主成分分析、判别分析、灰色预测、小波分析、神经网络分析等。、小波分析、神经网络分析等
6、。本章内容包括本章内容包括地理要素间的相关分析地理要素间的相关分析地理要素间的回归分析地理要素间的回归分析空间趋势面分析空间趋势面分析 地理要素的时间序列分析地理要素的时间序列分析地理要素的逐步回归模型分析地理要素的逐步回归模型分析 第1节 相关分析 相关分析的任务,是相关分析的任务,是揭示地理要素之揭示地理要素之间相互关系的密切程度。间相互关系的密切程度。 地理要素之间相互关系密切程度的测地理要素之间相互关系密切程度的测定,主要是通过定,主要是通过对相关系数的计算与检验对相关系数的计算与检验来完成的。来完成的。地理要素间的相关类型根据相关所涉及变量的多少,相关关系分为单相关与复相根据相关所涉
7、及变量的多少,相关关系分为单相关与复相关。两个变量之间的相关关系称为单相关;多个变量之间关。两个变量之间的相关关系称为单相关;多个变量之间的相关关系称为复相关。的相关关系称为复相关。根据相关的形式不同,相关关系分为线性相关与非线性相根据相关的形式不同,相关关系分为线性相关与非线性相关。如果变量之间的关系近似地表现为一条直线,则称为关。如果变量之间的关系近似地表现为一条直线,则称为线性相关;如果变量之间的关系近似地表现为一条曲线,线性相关;如果变量之间的关系近似地表现为一条曲线,则称为非线性相关或曲线相关。则称为非线性相关或曲线相关。根据变量相关方向的不同,相关关系分为正相关与负相关。根据变量相
8、关方向的不同,相关关系分为正相关与负相关。正相关是指两个变量之间的变化方向一致,都是增长或下正相关是指两个变量之间的变化方向一致,都是增长或下降趋势,如居民收入增加,居民消费额随之增加,故它们降趋势,如居民收入增加,居民消费额随之增加,故它们是正相关;负相关是指两个变量变化趋势方向相反,如产是正相关;负相关是指两个变量变化趋势方向相反,如产品单位成本降低,利润随之增加,故它们是负相关。品单位成本降低,利润随之增加,故它们是负相关。根据相关程度的不同,相关关系分为不相关、完全相关和不完全相关。根据相关程度的不同,相关关系分为不相关、完全相关和不完全相关。如果两个变量彼此的数量变化相互独立,这种关
9、系称为不相关;如果一个如果两个变量彼此的数量变化相互独立,这种关系称为不相关;如果一个变量的数量变化完全由另一个变量的数量变化所唯一确定,这种关系称为变量的数量变化完全由另一个变量的数量变化所唯一确定,这种关系称为完全相关;介于不相关与完全相关之间的关系,称为不完全相关。完全相关;介于不相关与完全相关之间的关系,称为不完全相关。本节主要内容:两要素之间相关程度的测定多要素间相关程度的测定一、两要素之间相关程度的测定简单相关系数(simple correlation coefficient )的计算与检验秩相关系数(rank correlation coefficient )的计算与检验相关系数
10、的计算相关系数的计算 定义: 和 为两要素的平均值。 niiniiniiixyyyxxyyxxr12121)()()(yx(3.1.1)(一)相关系数的计算与检验(一)相关系数的计算与检验两个变量之间的协方差和标准差的商 说明 :- 1 = 0.432,所以在=0.01的置信水平上来看,中国大陆各省(直辖市、自治区)人口规模与GDP是等级相关的。 rr01. 0rxyr01. 0r在在零假设零假设下近似服从自由度为下近似服从自由度为 n 2的的t分布分布SPSS-双变量相关分析建立数据文件单击Analyze / Correlate / Bivariate选择分析变量提交运行 输出结果及对其解释
11、课后作业在山东省统计信息网,搜集1984-2012年城镇人均可支配收入(见10-2 城镇居民年人均收入中的人均可支配收入)与人均消费性支出(见表10-3 城镇居民年人均支出中的消费性支出)。做出散点图(收入为X轴,消费为Y轴),计算简单相关系数并检验。在国家统计局官网上,找到”2013年中国统计年鉴“,搜集2012年全国各省市区城镇人均可支配收入(见表11-14)和人均全年现金消费支出(见表11-15)。做出散点图(收入为X轴,消费为Y轴),计算秩相关系数并检验。二、多要素间相关程度的测定偏相关系数的计算与检验复相关系数的计算与检验 偏相关和复相关是两个相对应的概念 (一)偏相关系数的计算与检
12、验(一)偏相关系数的计算与检验 定义:在多要素所构成的地理系统中,先不考虑其他要素的影响,而单独研究单独研究两个要素之间的相互关系的密切程度,这两个要素之间的相互关系的密切程度,这称为偏相关称为偏相关。用以度量偏相关程度的统计量,称为偏相关系数。n偏相关系数偏相关系数(partial correlation coefficient)624C2/ ) 1(2mmCm当研究当研究2个相关变量个相关变量x1、x2的关系时,用直线相关系数的关系时,用直线相关系数r12表示表示x1与与x2线性线性相关的性质与程度。此时固定的变量个数为相关的性质与程度。此时固定的变量个数为0,所以直线相关系数,所以直线相
13、关系数r12又叫做又叫做零级偏相关系数。零级偏相关系数。当研究当研究3个相关变量个相关变量x1、x2、x3的相关时,我们把的相关时,我们把x3保持固定不变,保持固定不变,x1与与x2的相关系数称为的相关系数称为x1与与x2的偏相关系数,记为的偏相关系数,记为r12.3,类似地,还有偏相关系数,类似地,还有偏相关系数r13.2、 r23.1。这。这3个偏相关系数固定的变量个数为个偏相关系数固定的变量个数为1,所以都叫做一级偏相关,所以都叫做一级偏相关系数。系数。当研究当研究4个相关变量个相关变量x1、x2、x3、x4的相关时,须将其中的的相关时,须将其中的2个变量固定不个变量固定不变,研究另外两
14、个变量间的相关。即此时只有二级偏相关系数才真实地反变,研究另外两个变量间的相关。即此时只有二级偏相关系数才真实地反映两个相关变量间线性相关的性质与程度。二级偏相关系数共有映两个相关变量间线性相关的性质与程度。二级偏相关系数共有个:个:r12.34,r13.24,r14.23,r23.14,r24.13,r34.12。一般,当研究一般,当研究m个相关变量个相关变量x1、x2、xm的相关时,只有将其中的相关时,只有将其中的的m-2个变量保持固定不变,研究另外两个变量的相关才能真实地反映这个变量保持固定不变,研究另外两个变量的相关才能真实地反映这两个相关变量间的相关,即此时只有两个相关变量间的相关,
15、即此时只有m-2级偏相关系数才真实地反映了这级偏相关系数才真实地反映了这两个相关变量间线性相关的性质与程度。两个相关变量间线性相关的性质与程度。m-2级偏相关系数共有级偏相关系数共有个。个。xi与与xj的的m-2级偏相关系数记为级偏相关系数记为rij.(i,j=1,2,m,ij)。偏相关系数的取值范围为偏相关系数的取值范围为-1,1,即:,即:-1rij.1。 计算:3个要素的偏相关系数)1)(1(2232132313123.12rrrrrr(3.1.5) (3.1.6) )1)(1(2232122312132.13rrrrrr)1)(1(2132121312231.23rrrrrr(3.1.
16、7) 要单纯反映要单纯反映x1与与x2的相的相关程度,必须扣除关程度,必须扣除x1 与与x3的相关性以及的相关性以及x2与与x3的相关性,由于这两的相关性,由于这两种相关不是独立的,因种相关不是独立的,因此扣除二者的乘积。同此扣除二者的乘积。同时,还要考虑时,还要考虑x1解释解释x3的剩余部分和的剩余部分和x2解释解释x3的剩余部分的影响,他的剩余部分的影响,他们的共同影响也是越小们的共同影响也是越小越好,因此除以二者乘越好,因此除以二者乘积的平方根。积的平方根。4个要素的偏相关系数(3.1.8) )1)(1(23.2423.143.243.143.1234.12rrrrrr)1)(1(22.
17、3422.142.342.142.1324.13rrrrrr(3.1.9) )1)(1(22.4322.132.432.132.1423.14rrrrrr(3.1.10) )1)(1(21.3421.241.341.241.2314.23rrrrrr(3.1.11) 例如:对于某4个地理要素x1,x2,x3,x4的23个样本数据,经过计算得到了如下的单相关系数矩阵: 1469.0950.0579.0469.01592.0346.0950.0592.01416.0579.0346.0416.0144434241343332312423222114131211rrrrrrrrrrrrrrrrR 利
18、用公式计算一级偏向关系数,如表3.1.6所示:r1234r1324r1423r2314r2413r3412-0.1700.8020.635-0.1870.821 -0.337r123r132r142r143r231r241r243r341r3420.8210.8080.6470.895- -0.8630.9560.945- -0.8750.371 利用公式计算二级偏相关系数,如表3.1.7所示: 4个要素的一级偏相关系数有12个,这里给出了9个;二级偏相关系数有6个,这里全部给出来了。 写出其余3个一级偏相关系数表表3.1.6 3.1.6 一级偏相关系数一级偏相关系数 表表3.1.7 3.1.
19、7 二级偏相关系数二级偏相关系数 n 偏相关系数的性质偏相关系数的性质 偏相关系数分布的范围在偏相关系数分布的范围在-1到到1之间;之间; 偏相关系数的绝对值越大,表示其偏偏相关系数的绝对值越大,表示其偏相关程度越大;相关程度越大; 偏相关系数的绝对值必小于或最多等偏相关系数的绝对值必小于或最多等于由同一系列资料所求得的复相关系数,即于由同一系列资料所求得的复相关系数,即 R123|r123|。偏相关系数的显著性检验偏相关系数的显著性检验 偏相关系数的显著性检验,一般采用t检验法。其统计量计算公式为 式中: 为偏相关系数;n为样本数;m为自变量个数。 11341223412 mnrrtmm(3
20、.1.14) mr312 查t分布表,在自由度为23-3-1=19时,t0.001=3.883,显然 ,这表明在置信度水平 =0.001上,偏相关系数r2413是显著的。268. 61323821. 01821. 02ttt 譬如,对于上例计算得到的偏相关系数 ,由于n=23,m=3,故821. 01324r小结偏相关分析 ( Partial ) 是研究在多变量的情况下,变量之间的复杂相关关系。在多变量的情况下, 2 个变量间的简单相关系数往往不能正确揭示这 2 个变量间的关系,只有在除去其他变量影响的情况下,计算它们之间的相关系数,才能更确切地揭示他们间的相关关系。简单相关关系有时不能真实反
21、映现象的关系简单相关关系有时不能真实反映现象的关系, 如:在研究商品的需求量和价格、消费者收入之间的关系时会发现,需求量和价格之间的相关关系实际上还包含了消费者收入对商品需求量的影响。 例如,一种商品的需求既受收入水平的影响又受其价格的影响。按照经济学理论,在一定收入水平下,该商品的价格越高,商品的需求量就越小。也就是说,需求与价格之间应当是负相需求与价格之间应当是负相关关。可是,在现实经济生活中,由于收入和价格常常收入和价格常常都有不断提高的趋势都有不断提高的趋势,如果不考虑收入对需求的影响,仅仅利用需求和价格的时间序列数据去计算简单相关系数简单相关系数,就有可能得出价格越高需求越大的错误结
22、论。 所以,我们在进行相关分析时往往要控制第三个变量,而研究变量之间的相关关系。通过偏相关系数与相关系数的比较,来确定这两个变量之间的内在线性联系会更真实,更可靠SPPS 偏相关分析建立工作数据文件 单击Analyze/ Correlate / Partial.菜单项,打开Partial Correlations对话框。 指定分析变量和控制变量。 假设检验类型的选择。可以选择单尾检验或者双尾检验。 选择Options中的选择项。 运行偏相关过程并对结果进行解释。偏相关的选择项Statistics:统计量选择项Means and standard deviations:均值和标准差Zero-or
23、der correlations:要求显示零阶相关矩阵,即Pearson相关矩阵Missing Values:缺失值处理Exclude cases listwise:剔除所有带有缺失值的观测量。Exclude cases pairwise:成对剔除带有缺失值的观测量自然因素中平均坡度和平均海拔均表现出与土地生产率的负相关关系,其中以低值区的系数绝对值最大,平均海拔的相关系数达到平均海拔的相关系数达到-0.599 的显著负相的显著负相关关,说明当前该地区的土地生产率水平受到地形海拔高度的明显负向影响。社会经济因素中,化肥投入量和有效灌溉率化肥投入量和有效灌溉率与土地生产率的正向偏相关关系显著,尤
24、其是中值区中值区的正相关度较高,明显高于其他地区.(二)复相关系数的计算与检验(二)复相关系数的计算与检验 复相关系数(multiple correlation analysis ) :反映几个要素与某一个要素之间的复相关程度 。复相关系数的计算复相关系数的计算 当有两个自变量时 当有三个自变量时(3.1.15) )1)(1 (11 . 221212.yyyrrR)1)(1)(1 (112. 321 . 2212123.yyyyrrrR(3.1.16)可利用单相关系数和偏相关系数求得 当有k个自变量时)1 )1)(1 (1)1.(12.21 .2212.12. kykyykyrrrR(3.1.
25、17) 复相关系数的性质 复相关系数介于0到1之间,即1012.kyR 复相关系数越大,则表明要素(变量)之间的相关程度越密切。复相关系数为1,表示完全相关;复相关系数为0,表示完全无关。 复相关系数必大于或至少等于单相关系数的绝对值。复相关系数的显著性检验复相关系数的显著性检验 F检验法。其统计量计算公式为kknRRFkyky11212.212.(3.1.18)例题:在上例中,若以x4为因变量,x1,x2,x3为自变量,试计算x4与x1,x2,x3之间的复相关系数。 解:按照公式(3.1.16)计算 检验: ,故复相关达到了极显著水平。974.0337.01)(956.01)(579.01
26、(1)1)(1)(1 (1222212.4321 .42241123.4)rrrR3010. 57190.12001. 0FF相关系数取值在相关系数取值在 -1 与与 1 之间。之间。相关系数是一种对称测量。相关系数是一种对称测量。相关系数无量纲,可以进行比较。相关系数无量纲,可以进行比较。2222)()( yynxxnyxxynr使用相关系数时应注意的问题:使用相关系数时应注意的问题:相关关系不等于因果关系;相关关系不等于因果关系;相关系数只度量变量间的线性关系,因此,相关系数只度量变量间的线性关系,因此,弱相关不一定表明变量间没有关系;弱相关不一定表明变量间没有关系;极端值可能影响相关系数
27、。极端值可能影响相关系数。注意相关关系成立的数据范围。注意相关关系成立的数据范围。警惕虚假相关警惕虚假相关第2节 地理要素间的回归分析Regression Analysis回归分析的意义和作用l一、一元线性回归模型l二、一元非线性回归模型l三、多元线性回归模型l四、多元非线性回归模型相关与回归统计方法的创始人相关与回归统计方法的创始人-弗朗西斯弗朗西斯高尔顿高尔顿(Francis Galton), 1877年年;研究人类身长的遗传研究人类身长的遗传 “回归回归”到平均数到平均数回归:退回回归:退回regression平均身高平均身高回归名称来自于早期研究父母和他们的孩子的身高早期研究父母和他们
28、的孩子的身高时所采用的方法。Galton发展的研究两个数值变量关系的统计方法称发展的研究两个数值变量关系的统计方法称为回归分析。为回归分析。回归分析,就是对具有相互联系的要素,根据其联系的形态,选择一个合适的数学模式,用来近似地表达要素间平均变化关系。回归分析是研究要素之间具体的数量关系的一种强有力的工具,运用这种方法能够建立反映地理要素之间具体的数量关系的数学模型,即回归模型。 回归分析的定义地理回归分析的意义和作用地理系统是一个要素众多、联系复杂的大系统。各个因素之间存在着错综复杂的关系。在水文、气象、地震等预报中,人文地理与经济地理分析中,常常需要选择对某一地理变量(因变量)有影响的因子
29、(自变量)。虽然可以从理论上分析,选出影响因子,但是影响程度不是单凭理论分析就可判定的。需要回归分析来测定各变量(因素)对不同地理现象的影响程度;并以此建立模型进行预测或控制。因此,在地理研究中回归分析具有极其重要的作用回归分回归分析分类析分类按自变量按自变量个数分类个数分类一元回归一元回归简单回归简单回归多元回归多元回归复回归复回归按模型特按模型特征分类征分类线性回归线性回归非线性回归非线性回归Simple Linear regression一一 元元线线性性回回归归 为了研究钢材消费量与国民收入之间的关系,在统计年鉴上查得某地区一组历史数据。引例:钢材消费量与国民收入的关系 年年 份份19
30、9419951996200720082009钢材消费钢材消费(吨吨)698872988144627362825国民收入国民收入(亿亿)109712841502294831553372 试分析预测若2010年到2015年该地区国民收入以4.5%的速度递增,2015年钢材消费量将达到什么样的水平? 钢材消费量-因变量y dependent variable 被被解释变量,待估测的变量解释变量,待估测的变量国民收入-自变量 x independent variable解释变量,给定的或可以控制的变量,作为估测根据的变量解释变量,给定的或可以控制的变量,作为估测根据的变量建立数据拟合函数 y = E(
31、Y | x)= f(x);作拟合曲线图形分析。 问题分析:10001500200025003000350050010001500200025003000y=a+bx 钢材消费量y与国民收入x的散点图 钢材消费量y国民收入x 定义:假设有两个地理要素(变量)x 和y,x为自变量,y为因变量。则一元线性回归模型的基本结构形式为 式中:a和b为待定参数; 为各组观测数据的下标; 为随机变量。iiibxay(3.2.1) ni,1,2,i一、一元线性回归模型需要解决的问题: 1) 在回归模型中如何估计参数a、b? 2) 模型的假设是否正确?需要检验。3)利用回归方程对y进行预测或对x进行控制? 记 和
32、 分别为参数a与b的拟合值,则一元线性回归模型为 (3.2.2)式代表x与y之间相关关系的拟合直线,称为回归直线; 是y的估计值,亦称回归值。a bxbay(3.2.2) y 1.参数估计:最小二乘法(Ordinary Least Squares)截距截距斜率斜率xbay10001500200025003000350050010001500200025003000 钢材消费量y与国民收入x的散点图ei(xi , yi)y 钢材消费量y国民收入xmin)(1122niniiiiyyeQ 参数a与b的最小二乘拟合原则要求yi与 的误差ei的平方和达到最小,即 根据取极值的必要条件,有 niiini
33、niiiibxayyyeQ121122min)()(niiiiniiixbxaybQbxayaQ110)(20)(2(3.2.4) iy 参数参数a、b的的最小二乘估计(最小二乘估计(OLSOLS) (3.2.3) 正规方程组iniiniiniiniiniiyxbxaxybxan112111(3.2.5) 解上述正规方程组(3.2.5)式,得到参数a与b的拟合值代数法求解参数a、bxxxyniiniiiLLxxyyxxb121)()(xbya2112111)(1)(1niiniininiiniiiixnxyxnyx(3.2.6) (3.2.7) 矩阵法求解参数a、biniiniiniiniin
34、iiyxbxaxybxan112111111211iiiiiniiniiniiyxybaxxxn121221221221111111111nnnnnnnnyyyxxxbaxxxxxxXXATYXBTBAb )()(11 -YXXXBAbTT实例:最大积雪深度与灌溉面积在我国西北的干旱地区,灌溉用水在相当程度上依赖于山上的积雪。因此,积雪量与灌溉面积之间会形成因果关系。为了估计山上积雪融化对河流下游灌溉的影响,在山上建立观测站,测得连续10年的观测数据。借助回归分析,建立数学模型,进行某种预测和解释性的分析。例1:为了估计山上积雪融化后对下游灌溉的影响,在山上建立了一个观测站,测量了最大积雪深度
35、(X)与当年灌溉面积(Y),得到连续10年的数据。最大积雪深度与灌溉面积的10年观测数据年序年序最大积雪最大积雪深度深度X(X(尺尺) )灌溉面积灌溉面积Y(Y(千亩千亩 ) )年序年序最大积雪最大积雪深度深度X(X(尺尺) )灌溉面积灌溉面积Y(Y(千亩千亩 ) )1 115.215.228.628.66 623.423.445452 210.410.419.319.37 713.513.529.229.23 321.221.240.540.58 816.716.734.134.14 418.618.635.635.69 9242446.746.75 526.426.448.948.9101
36、019.119.137.437.4数据来源:苏宏宇和莫力,数据来源:苏宏宇和莫力,2001.数据单位沿用原书数据单位沿用原书.第一步:判断是否存在线性关系首先,正确的分析和判断两个变量之间的关系是线性关系还是非线性关系?方法:作散点图法(scatter plot)、差分法、曲度法、计算器法等。从散点图可以看出:两个变量间关系的性质(是正相关还是负相关)和程度(是相关密切还是不密切);两个变量间关系的类型,是直线型还是曲线型(如果数据接近一条直线,则认为变量间存在线性关系;如果数据接近一条光滑的曲线,则称之为非线性关系);是否有异常观测值的干扰。做出散点图xbay第二步:求解a和b年序年序 x
37、y(x- )(x- )2 2 ( y- )2(x- )* ( y- )1 115.215.228.628.613.362.88 28.94 2 210.410.419.319.371.4296.87 145.59 3 321.221.240.540.55.5215.76 9.33 4 418.618.635.635.60.060.86 0.23 5 526.426.448.948.957153.02 93.39 6 623.423.4454520.771.74 38.54 7 713.513.529.229.228.653.73 39.22 8 816.716.734.134.14.625.9
38、0 5.22 9 9242446.746.726.5103.43 52.38 101019.119.137.437.40.060.76 0.22 求和求和188.5188.5365.3365.3228228764.96764.96413.06413.06平均值平均值18.8518.8536.5336.53xyyxxy813. 1256. 2256.285.18*813.153.6xbya813. 122806.413xxxyLLb一元线性回归模型的显著性检验一元线性回归模型的显著性检验:F检验检验(方差分析) 。一般步骤如下:。一般步骤如下: 计算检验的统计量F值构造F统计量来衡量回归模型的效
39、果。2. 回归模型的假设检验自由度剩余平方和自由度回归平方和1knQkUF(3.2.8) 总的离差平方和:在回归分析中,表示y的n次观测值之间的差异,记为) () ()(yyyyyy两端平方,然后对所有的n点求和,则有2)(yy2)()( yyyy) )( (2) () (22yyyyyyyyxbya又因为)(xxbybxay)(xxbyy) )() )(yyxxbyyyy)()(xxbyyxxb)()()(xxbxxbyyxxbxxxyLbLb202xxxxxyxyxxxyLLLLLLxxxyLLb niiyyyyLS12)(总niiyyyyLS12)(总niniiiiUQyyyy1122)
40、()((3.2.9) (3.2.10) Q称为误差平方和,或剩余平方和;U称为回归平方和。 可以证明可以证明: :在假设在假设y y和和x x不存在线性关系(不存在线性关系(原假设原假设H H0 0:b=0b=0)时,)时,F F统计量统计量 因此,在给定的显著水平(通常=0.01或0.05)下,若FF,拒绝原假设,则认为 x与y之间在 显著性水平下存在线性统计关系。一般地,当FF(0.01,1,8)=11.25;回归效果显著Finding the Critical F显著性水平又叫弃真概率显著性水平又叫弃真概率-推断为假的概率;推断为假的概率;置信度对应于存真概率置信度对应于存真概率-推断为
41、真的概率。推断为真的概率。Finding the Computed FConclusion on Significance of SlopesSPSS 一元线性回归模型(Graphs -Scatter-Simple)X Axis: Y Axis: 回归分析结果00 xbay点估计量3. 预测与控制给定的自变量x0,给出: 但是由于各种因素的影响但是由于各种因素的影响,在在x= x0时时,实际上的观察到的数值实际上的观察到的数值y0一般不会恰好等于一般不会恰好等于 , 它们之间总是存在一定的偏差它们之间总是存在一定的偏差,即预即预测误差。为了掌握预测的精度,要对误差的变动范围作出测定。测误差。为
42、了掌握预测的精度,要对误差的变动范围作出测定。通常用通常用估计标准误差估计标准误差S来说明来说明 与与 的差异程度的差异程度 0 yiy iy2)(2nyySiiStandard error区间估计一般情况下,若一般情况下,若y为正态分布,当为正态分布,当n很大时,并且自变量很大时,并且自变量x不远离不远离均值时,则可以确定预测区间为:均值时,则可以确定预测区间为:以以0.6287概率保证的概率保证的y预测区间为:预测区间为:以以0.9545概率保证的概率保证的y预测区间为:预测区间为:以以0.9973概率保证的概率保证的y预测区间为:预测区间为:可见,可见,S 越小,数据越集中,由回归模型估
43、计越小,数据越集中,由回归模型估计y值,其精度越高值,其精度越高SySySySySySy3,32,2,000000,020200yyStyStyy0的(的(1-)的预测区间:的预测区间:例1 : 预测2009年最大积雪深度(X)达到28尺,概率度取1 时,预测2009年灌溉面积将是多少千亩?灌溉面积应在51.702, 54.538千亩。418. 128*813. 1356. 200Sxbay4. SPSS 回归模型预测5. 课堂练习二、一元非线性回归模型1选配曲线的基本方法确定曲线类型 数学表达式 化曲为直 利用最小二乘法求参数曲线回归分析(curvilinear regression ana
44、lysis)的基本任务是通过两个相关变量x与y的实际观测数据建立曲线回归方程,以揭示x与y间的曲线联系的形式。曲线回归分析最困难和首要的工作是确定变量与x间的曲线关系的类型。通常通过两个途径来确定:1、利用已有的有关专业知识,根据已知的理论规律和实践经验。例如,谋取与人口增长常具有“S”型曲线的形状,即Logistic曲线的形式等。2、若没有已知的理论规律和经验可资利用,则可用描点法将实测点在直角坐标纸上描出Scatter diagram ,观察实测点的分布趋势与哪一类已知的函数曲线最接近,然后再选用该函数关系式来拟合实测点。非线性关系线性化的几种情况非线性关系线性化的几种情况对于指数曲线 ,
45、令 , 可以将其转化为直线形式: , 其中, ; 对于对数曲线 ,令 , ,可以将其转化为直线形式: ;对于幂函数曲线 ,令 , ,可以将其转化为直线形式: 其中, ; bxdyexbayxbaylnxbaybdxy xbayyylnxx dalnyy xxlnyylnxxlndaln对于双曲线 令 ,转化为直线形式: ; 对于S型曲线 ,可 转化为直线形式: ; 对于幂乘积 ,只要令 ,就可以将其转化为线性形式 其中, ;xbay1xbayxxxyybaye,1,e1令xbaykkxxdxy2121kkxxxy22110 xxyy1,1kkxxxxxxyyln,ln,ln,ln2211dln
46、0对数模型双曲线模型Analyze-regression-curve estimationLinear: y=b0+b1xQuadratic: y= b0+b1x+b2x2Compound: y=b0b1xGrowth: y=e(b0+b1x)Logarithmic: y= b0+b1lnxCubic: y= b0+b1x+b2x2+b3x3SPSS 一元非线性回归模型一元非线性回归模型 S: y=e(b0+b1/x) Exponential: y=b0eb1x Inverse: y=b0+b1/x Power: y=b0 xb1 Logistic: y=1/(1/u+b0b1x)不同模型的表
47、示不同模型的表示模型名称模型名称回归方程回归方程相应的线性回归方程相应的线性回归方程Linear(线性线性)Y=b0+b1tQuadratic(二次二次)Y=b0+b1t+b2t2Compound(复合复合)Y=b0(b1t)Ln(Y)=ln(b0)+ln(b1)tGrowth(生长生长)Y=eb0+b1tLn(Y)=b0+b1tLogarithmic(对数对数)Y=b0+b1ln(t)Cubic(三次三次)Y=b0+b1t+b2t2+b3t3SY=eb0+b1/tLn(Y)=b0+b1 / tExponential(指数指数)Y=b0 * eb1*tLn(Y)=ln(b0)+b1tInver
48、se(逆逆)Y=b0+b1/tPower(幂幂)Y=b0(tb1 )Ln(Y)=ln(b0)+b1ln(t)Logistic(逻辑逻辑)Y=1/(1/u+b0b1t)Ln(1/Y-1/u)=ln(b0+ln(b1)t)采用哪种拟合方式主要取决于各种拟合模型对数据的充分采用哪种拟合方式主要取决于各种拟合模型对数据的充分描述描述(看修正看修正Adjusted R2 -1)课本例题一元非线性回归模型的建立一元非线性回归模型的检验总离差平方和回归平方和2222)()()(1yyyyyycRiii22)(2nQnyySi相关系数越大,表明回归模型效果越好;反之,越差。剩余标准差越小,表明回归模型效果越好
49、;反之,越差。F检验法对于对数函数和 只要令 ,就可以将其化为线性形式 例例: :表3.2.1给出了某地区林地景观斑块面积(area)与周长(perimeter)的数据。下面我们建立林地景观斑块面积A与周长P之间的非线性回归模型 。 kkxxxylnlnln22110kkxxxy22110kkxxxxxxyyln,ln,ln,2211 序号序号面积面积A周长周长P序号序号面积面积A周长周长P110 447.370625.39242232 844.3004 282.043215 974.730612.286434 054.660289.307330 976.770775.7124430 833.
50、840895.98049 442.902530.202451 823.355205.131510 858.9201 906.1034626 270.300968.060621 532.9101 297.9624713 573.9601 045.07276 891.680417.0584865 590.0802 250.43583 695.195243.90749157 270.4002 407.54992 260.180197.239502 086.426266.54110334.33299.729513 109.070261.8181111 749.080558.921522 038.617
51、320.396122 372.105199.667533 432.137253.335138 390.633592.893541 600.391230.030146 003.719459.467553 867.586419.406表3.2.1 某地区各个林地景观斑块面积(m2)与周长(m) 15527 620.2006 545.291561 946.184198.66116179 686.2002 960.4755777.30556.9021714 196.460597.993587 977.719715.7521822 809.1801 103.0705919 271.8201 011.12
52、71971 195.9401 154.118608 263.480680.710203 064.242245.049 6114 697.1301 234.1142146 9416.7008 226.009624 519.867326.317225 738.953498.6566313 157.6601 172.916238 359.465415.151646 617.270609.801246 205.016414.790 654 064.137437.355256 0619.0201 549.871665 645.820432.355261 4517.740791.943676 993.35
53、5503.7842731 020.1001 700.965684 304.281267.9512826 447.1601 246.977696 336.383347.136297 985.926918.312702 651.414292.235303 638.766399.725712 656.824298.4733158 5425.10011 474.770721 846.988179.8663235 220.6401 877.476731 616.684172.8083310 067.820497.394741 730.563172.1433427 422.5701 934.5967511
54、 303.970881.0423543 071.5501 171.4137614 019.790638.1763657 585.9402 275.389779 277.172862.0883728 254.1301 322.7957813 684.750712.78738497 261.0009 581.298791 949.164228.4033924 255.030994.906804 846.016324.481401 837.699229.40181521 457.4007 393.938411 608.625225.84282564 370.80012 212.410 解解:(1)作
55、变量替换,令: , ,将表3.2.1中的原始数据进行对数变换,变换后得到的各新变量对应的观测数据如表3.2.2所示。 AylnPxln序号序号y=lnAx=LnP序号序号y=lnAx=LnP1 9.254 1066.438 3794212.358 138.362 1862 9.678 7636.417 243 8.307 6225.667 487310.340 996.653 7824410.336 376.797 9184 9.153 0196.273 258457.508 4335.323 655 9.292 7427.552 8164610.176 196.875 2946 9.977
56、3387.168 551479.515 9096.951 8417 8.838 076.033 2264811.091 187.718 8798 8.214 7895.496 7894911.965 727.786 3649 7.723 25.284 414507.643 2085.585 52810 5.812 1354.602 457518.042 0795.567 65111 9.371 536.326 008527.620 0275.7695 58表3.2.2 经对数变换后的数据127.771 5335.296 653538.140 9385.534 711139.034 8716.3
57、85 013547.378 0035.438 211148.700 1346.130 066558.260 3866.038 8391513.176 138.786 501567.573 6265.291 5971612.098 977.993 105574.347 7554.041 328179.560 7486.393 579588.984 4086.573 3341810.034 927.005 852599.866 3996.918 8211911.173 197.051 092609.019 6016.523 136208.027 5565.501 457619.595 4087.1
58、18 1092113.059 259.0150 56628.416 2385.787 871228.655 0326.211 917639.484 7597.067 248239.031 156.028 643648.797 4386.413 133248.733 1136.027 773658.309 9576.080 7442511.012 367.345 927668.638 6716.069 247269.583 1276.674 49678.852 7166.222 1472710.342 397.438 951688.367 3655.590 8062810.182 97.128
59、478698.754 0635.849 717298.985 4366.822 537707.882 8485.677 56308.199 45.990 776717.884 8875.698 6783113.280 099.347 906727.521 3115.192 2133210.469 397.537 684737.388 1325.152 181339.217 0996.209 381747.456 2025.148 3263410.219 127.567 654759.332 9096.781 1053510.670 627.065 966769.548 2256.458 614
60、3610.961 037.729 906779.135 3126.759 3583710.248 997.187 502789.524 0376.569 1823813.116 879.167 568797.575 1565.431 1123910.096 386.902 648808.485 9125.782 227407.516 275.435 4718113.164 388.908 416417.383 1355.419 8378213.243 479.410 208 (2) 以x为横坐标、y为纵坐标,在平面直角坐标系中作出散点图。很明显,y与x呈线性关系。图3.2.2 林地景观斑块面积
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024跨境教育服务与合作合同
- 2025年消防现场施工安全文明施工合同范本
- 2025年度高风险投资借贷合同风险预警版3篇
- 2024版建筑工程勘察合同书
- 二零二五年度酒水行业专业论坛与合作交流合同3篇
- 个人与企业间产品代理合同(2024版)
- 2025年豆粕代销委托管理标准合同3篇
- 2024版政府定点采购合同书
- 2024施工项目BIM技术应用中介服务协议2篇
- 2025年智能小区绿化节能技术应用承包合同2篇
- 建筑史智慧树知到期末考试答案2024年
- 金蓉颗粒-临床用药解读
- 社区健康服务与管理教案
- 2023-2024年家政服务员职业技能培训考试题库(含答案)
- 2023年(中级)电工职业技能鉴定考试题库(必刷500题)
- 藏历新年文化活动的工作方案
- 果酒酿造完整
- 第4章-理想气体的热力过程
- 生涯发展展示
- 手术室应对突发事件、批量伤员应急预案及处理流程
- 动机-行为背后的原因课件
评论
0/150
提交评论