spss相关分析和回归分析_第1页
spss相关分析和回归分析_第2页
spss相关分析和回归分析_第3页
spss相关分析和回归分析_第4页
spss相关分析和回归分析_第5页
已阅读5页,还剩82页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章相关分析和回归分析2/5/20231相关分析和回归分析第一节

地理要素间的相关分析第二节地理要素间的回归分析2/5/20232一相关分析的概念二地理要素的相关类型三相关程度的程度方法及显著性检验

第一节

地理要素间的相关分析2/5/20233一相关分析的概念——就是测度各个变量之间的关系密切程度的数学方法。——相关分析仅限于测定两个或两个以上变量具有相关关系者,其主要目的在于计算出表示两个或两个以上变量间相关程度和性质。2/5/20234图地理事物的空间分布类型

所谓地理相关,就是运用相关分析法来研究各地理要素间的相互关系和联系强度的一种度量指标。2/5/20235为了研究父亲与成年儿子身高之间的关系,卡尔.皮尔逊测量了1078对父子的身高。把1078对数字表示在坐标上,如图。它的形状象一块橄榄状的云,中间的点密集,边沿的点稀少,其主要部分是一个椭圆。2/5/20236★正相关★负相关★完全正相关

★完全负相关★零相关

2/5/20237二地理要素间的相关类型曲线相关(非线性相关)按变量多少两个变量两个以上变量直线相关(线性相关)复相关偏相关按质量等级相关(顺序相关)品质相关2/5/20238

三相关程度的测度方法及显著性检验由于地理相关类型各不相同,因此测度的方法也不同。(一)线性相关程度的测度所谓相关程度,就是研究它们之间的相互关系是否密切。所谓相关方向,又可以分两种,即正相关和负相关。用来测度直线相关程度和方向的指标就是相关系数。2/5/202391、常用的相关系数的计算公式及检验(1)相关系数的性质●相关系数的分布范围,介于-1和+1之间●当相关系数为正值时,表示两个要素(或变数)之间呈正相关,相关系数为负值时,表示两个要素(或变数)之间为负相关;●相关系数的绝对值越大。表示两个要素间相关程度越密切。当r=+1时,为完全正相关。R=-1时,为完全负相关;r=0则完全无关。2/5/202310

相关系数公式简化:

公式可简化为2/5/202311相关系数是根据要素之间的样本值计算出来的,它随着样本数的多少或取样方式的不同而不同,因此它只是要素之间的样本相关系数,只有通过检验,才能知道它的可信度。

(2)相关系数的显著性检验为什么?

一般情况下,相关系数的检验,是在给定的置信水平下,通过查相关系数检验的临界值表来完成的。

2/5/202312检验相关系数ρ=0的临界值(ra)表p{|r|>ra}=α

f值称为自由度,其数值为f=n-2,这里n为样本数

a代表不同的显著性水平

表内的数值代表不同的置信水平下相关系数ρ=0的临界值,即ra

公式p={|r|>ra}=a的意思是当所计算的相关系数r的绝对值大于在a水平下的临界值ra时,两要素不相关(即ρ=0)的可能性只有a。

2/5/202313相关系数r的具体检验方法步骤如下:(1)计算相关系数r(2)给定显著水平α,按n-2查相关系数临界值,查出相应的临界值(3)比较r的绝对值与临界值的大小。当r的绝对值大于或等于临界值时,说明两变量在α水平上达到显著性;若小于临界值,则说明两变量没有达到所要求的精度。如果仍需研究二者的关系,可考虑降低精度,即修改显著性水平α、相关系数的显著性检验步骤2/5/2023142、等级相关系数的计算公式及检验——表示两个变量顺序间直线相关程度和方向的系数,称为等级(或顺序)相关系数。等级相关系数不仅适用于数量指标的相关分析,同时亦适用于质量指标的相关分析。——等级相关系数,又称顺序相关系数是将两要素的样本值按数值的大小顺序排列位次,以各要素样本值的位次代替实际数据而求得的一种统计量。实际上,它是位次分析方法的数量化。

2/5/202315(1)等级相关系数的计算公式2/5/202316(2)等级相关系数的计算及检验1985年全国各省(市,区)总人口与社会总产值

2/5/2023172/5/202318即:总人口(x)与社会总产值(y)的等级相关系数为0.7262/5/202319等级相关系数检验的临界值

2/5/202320在上例中,n=29,表中没有给出相应的样本数下的临界值ra,但我们发现,在同一显著水平下,随着样本数的增大,临界值ra减少。在n=28时,查表可知:r0.05=0.317,r0.01=0.448,由于r′xy=0.726>r0.01=0.448,故r′xy在a=0.01的置信水平上是显著的。

等级相关系数检验结果

2/5/202321(二)简单非线性相关程度的测度(见课本)(三)多要素间相关程度的测定

1.偏相关系数的计算与检验在多要素所构成的地理系统中,当我们研究某一个要素对另一个要素的影响或相关程度时,把其它要素的影响视为常数(保持不变),即暂不考虑其它要素的影响,而单独研究那两个要素之间的相互关系的密切程度时,则称为偏相关。用以度量偏相关程度的统计量,称为偏相关系数。

2/5/202322当研究2个相关变量x1、x2的关系时,用直线相关系数r12表示x1与x2线性相关的性质与程度。此时固定的变量个数为0,所以直线相关系数r12又叫做零级偏相关系数。当研究3个相关变量x1、x2、x3的相关时,我们把x3保持固定不变,x1与x2的相关系数称为x1与x2的偏相关系数,记为r12.3,类似地,还有偏相关系数r13.2、r23.1。这3个偏相关系数固定的变量个数为1,所以都叫做一级偏相关系数。当研究4个相关变量x1、x2、x3、x4的相关时,须将其中的2个变量固定不变,研究另外两个变量间的相关。即此时只有二级偏相关系数才真实地反映两个相关变量间线性相关的性质与程度。二级偏相关系数共有6个:r12.34,r13.24,r14.23,r23.14,r24.13,r34.12。2/5/202323一般,当研究m个相关变量x1、x2、、、…、xm的相关时,只有将其中的m-2个变量保持固定不变,研究另外两个变量的相关才能真实地反映这两个相关变量间的相关,即此时只有m-2级偏相关系数才真实地反映了这两个相关变量间线性相关的性质与程度。m-2级偏相关系数共有个。xi与xj的m-2级偏相关系数记为rij.(i,j=1,2,…,m,i≠j)。2/5/202324偏相关系数,可利用单相关系数来计算。假设有三个要素x1,x2,x3,其两两间单相关系数矩阵为2/5/202325对于上述三个要素x1,x2,x3,它们之间的偏相关系数共有三个,即r12·3,r13·2,r23·1(下标点后面的数字,代表在计算偏相关系数时,保持不变量,如r12·3即表示x3保持不变),其计算公式分别如下:式(5)—(7)表示三个偏相关系数,称为一级偏相关系数。2/5/202326若有四个要素X1,X2,X3,X4,则有六个偏相关系数,即r12·34,r13·24,r14·23,r23·14,r24·12,r34·12,它们称为二级偏相关系数,其计算公式分别如下:在式(8)中,r12·34表示在x3和x4保持不变的条件,x1和x2的偏相关系数。

2/5/202327实例:对于某四个地理要素X1,X2,X3,X4的23个样本数据,经过计算得到了如下的单相关系数矩阵:2/5/202328为了计算二级偏相关系数,需要先计算一级偏相关系数,由(5)式可求得

同理,依次可以计算出其它各一级偏相关系数,见下表

2/5/202329在一级偏相关系数求出以后,便可代入公式计算二级偏相关系数,如由(8)式计算可得同理,依次可计算出其它各二级偏相关系数,见下表

2/5/202330偏相关系数具有下述性质:(1)偏相关系数分布的范围在-1到1之间;(2)偏相关系数的绝对值越大,表示其偏相关程度越大;(3)偏相关系数的绝对值必小于或最多等于由同一系列资料所求得的复相关系数,即R1·23≥|r12·3|。2/5/202331偏相关系数的显著性检验偏相关系数的显著性检验,一般采用t检验法。其统计量计算公式为在(15)式中,r12·34…m为偏相关系数,n为样本数,m为自变量个数。+1+12/5/202332对于前述计算得到的偏相关系数r24·13=0.821,由于n=23,m=3,故查t分布表,可得出不同显著水平上的临界值ta,若t>ta

,则表示偏相关显著;反之,t<ta,则偏相关不显著。在自由度为23-3-1=19时,查表得t0.001=3.883,所以t>ta,这表明在显著性水平a=0.001上,偏相关系数r24·13是显著的。2/5/202333年份GDP(亿元)人口(万人)19901511.19842419911810.54853419922196.53858019932770.37862019943844.5865319954953.35870119965883.8874719976537.07881019987021.35887219997493.84892220008337.47897520019195.049024200210275.59069200312078.159108200415021.849163200518516.879212200622077.369282山东省1990-2006年GDP和人口情况2/5/2023341.计算简单相关系数2/5/202335---PARTIALCORRELATIONCOEFFICIENTS--Controllingfor..时间

GDP人口GDP1.0000-.0690人口-.06901.00002.计算偏相关系数如果令时间T不变,计算人口与GDP的偏相关系数为=-0.0690,且t=-0.259>0.8=α。由此可以看出,如果去掉时间的因素,人口与GDP之间的偏相关系数很小,即如果固定时间不变,人口与GDP之间的关系是微弱的,且经检验人口与GDP之间没有什么内在的必然的线性联系。人口越多未必GDP越高,这是比较合乎实际的。2/5/2023362.复相关系数的计算与检验复相关系数:反映几个要素与某一个要素之间的复相关程度。复相关系数的计算当有两个自变量时当有三个自变量时2/5/202337当有k个自变量时复相关系数的性质

①复相关系数介于0到1之间,即2/5/202338

复相关系数越大,则表明要素(变量)之间的相关程度越密切。复相关系数为1,表示完全相关;复相关系数为0,表示完全无关。

复相关系数必大于或至少等于单相关系数的绝对值。复相关系数的显著性检验

F检验法。其统计量计算公式为2/5/202339例题:在上例中,若以x4为因变量,x1,x2,x3为自变量,试计算x4与x1,x2,x3之间的复相关系数。解:按照公式计算检验:,故复相关达到了极显著水平。2/5/202340一回归分析的意义及其作用二一元回归模型的建立三多元回归模型四非线性回归模型第二节地理要素间的相关分析2/5/202341一回归分析的意义及其作用(一)回归分析的概念就是对具有相互联系的要素,根据其联系的形态,选择一个合适的数学模式,用来近似地表达要素间平均变化关系的数理统计方法。这个数学模式称为回归模型(回归方程)2/5/202342(三)回归分析与相关分析的区别与联系

①相关分析所研究的变量是对等关系;回归分析所研究的两个变量不是对等关系。

②对两个变量来说,相关分析只能计算出一个相关系数,而回归分析,可分别建立两个不同的回归方程。③相关分析要求两个变量都必须是随机的,而回归分析的要求,自变量是给定的,因变量是随机的。2/5/202343(三)回归分析研究的主要内容

——从一组地理数据出发,确定这些要素(变量)间的定量数学表达式,即回归模型。

——根据一个或几个要素(自变量)的值来预测或控制另一个要素(因变量)的取值。

——从影响某一地理过程中的许多要素中,找出哪些要素(变量)是主要的,哪些因素是次要的,这些要素之间又有什么联系。

回归分析研究的地理数学模型,依要素(变量)的多少可分为一元地理回归模型和多元地理回归模型。2/5/202344

二一元回归模型的建立一元地理回归所处理的问题,是要解决两个要素(变量)之间的定量关系。有的是线性关系,有的是非线性关系。因此判断研究的变量之间的线性与非线性归属问题是非常重要的。2/5/202345(一)一元回归模型类型的判断方法

作图法、差分法、曲度法和计算器法等。2/5/202346(二)一元线性地理回归模型的建立定义:假设有两个地理要素(变量)x和y,x为自变量,y为因变量。则一元线性回归模型的基本结构形式为式中:a和b为待定参数;为各组观测数据的下标;为随机变量。

2/5/202347记和分别为参数a与b的拟合值,则一元线性回归模型为

上式代表x与y之间相关关系的拟合直线,称为回归直线;是y的估计值,亦称回归值。2/5/202348①

参数a与b的最小二乘拟合原则要求yi与的误差ei的平方和达到最小,即1、参数a、b的最小二乘估计

②根据取极值的必要条件,有

2/5/202349③解上述正规方程组式,得到参数a与b的拟合值2/5/202350——以课本的例子为例(手算)2、具体计算方法(1)将原始数据根据需要列表(2)根据公式计算b(3)计算a(4)写出回归模型(5)一般情况下还要求出相关系数2/5/202351——用Excel建立回归模型及其进行预测(1)确定变量,建立数据库(2)作图,选择散点图(3)图完成后,点击图表,然后点击添加趋势线,选择线性方程;然后点击选项,在选项栏中点中显示公式和相关系数的平方。2/5/202352(4)对图进行修饰(5)利用建立的回归方程,可以对原始数据进行递推,检验误差;同时可以对未来的趋势进行预测。——用Excel建立回归模型及其进行预测2/5/202353江苏省1985-1994年耕地面积利用所给数据:(1)建立江苏省耕地面积与时间的回归模型(2)计算耕地面积与时间的相关系数(3)并预测2010年江苏耕地面积2/5/202354将2010带入上述方程中,可以求得2010年江苏省耕地面积2/5/202355①

方法:F检验法。②

总的离差平方和:在回归分析中,表示y的n次观测值之间的差异,记为

可以证明

3、一元线性回归模型的显著性检验2/5/202356在上式中,Q称为误差平方和,或剩余平方和而

称为回归平方和。2/5/202357

统计量F

F越大,模型的效果越佳。统计量F~F(1,n-2)。在显著水平α下,若F>Fα,则认为回归方程效果在此水平下显著。一般地,当F<F0.10(1,n-2)时,则认为方程效果不明显。2/5/202358变差来源平方和自由度方差F回归(因素x)1S2u=U/1剩余(随机因素)n-2S2Q=Q/n-2总和n-12/5/2023594、利用回归模型进行预测对所建立的回归模型经过检验效果显著时,便可以利用回归模型进行地理预测。所谓地理预测就是利用建立的回归模型,在给出一定信度条件下,求出在的水平上预测y值的出现范围(或预测区间)。具体例子见课本。2/5/202360例:某地人口随着时间的推移而呈线性增加,利用所给数据写出a、b的计算公式写出回归模型,并计算相关系数和进行F检验并分别预测该地2010年和2020年的人口数时间20002001200220032004人口(万人)246892/5/202361三、多元线性回归模型回归模型的建立

多元线性回归模型的结构形式为

式中:为待定参数;为随机变量。2/5/202362②回归方程:

如果分别为上式中

的拟和值,则回归方程为在上式中,b0为常数,b1,b2,…bk称为偏回归系数。偏回归系数的意义是,当其他自变量都固定时,自变量每变化一个单位而使因变量平均改变的数值。2/5/202363③

偏回归系数的推导过程:根据最小二乘法原理,的估计值应该使

由求极值的必要条件得

方程组式经展开整理后得

2/5/202364方程组式称为正规方程组。

引入矩阵2/5/2023652/5/2023662/5/202367则正规方程组式可以进一步写成矩阵形式2/5/202368求解得引入记号2/5/202369正规方程组也可以写成2/5/202370回归模型的显著性检验

回归平方和U与剩余平方和Q:②

回归平方和③

剩余平方和为④

F统计量为计算出来F之后,可以查F分布表对模型进行显著性检验。2/5/202371四非线性回归模型的建立在许多实际地理问题中,有时变量之间的关系并不是线性的,而是某种非线性,这时就需要选配适当类型的曲线,近似地表达两要素之间的平均变化关系。2/5/202372非线性关系线性化的几种情况对于指数曲线,令,可以将其转化为直线形式:,其中,;对于对数曲线,令,,可以将其转化为直线形式:;对于幂函数曲线,令,,可以将其转化为直线形式:其中,;2/5/202373对于双曲线,令,转化为直线形式:;对于S型曲线,可转化为直线形式:;对于幂乘积,只要令,就可以将其转化为线性形式其中,;2/5/202374对于对数函数和只要令,就可以将其化为线性形式

例:表3.2.1给出了某地区林地景观斑块面积(area)与周长(perimeter)的数据。下面我们建立林地景观斑块面积A与周长P之间的非线性回归模型。2/5/202375

序号面积A周长P序号面积A周长P110447.370625.39242232844.3004282.043215974.730612.286434054.660289.307330976.770775.7124430833.840895.98049442.902530.202451823.355205.131510858.9201906.1034626270.300968.060621532.9101297.9624713573.9601045.07276891.680417.0584865590.0802250.43583695.195243.90749157270.4002407.54992260.180197.239502086.426266.54110334.33299.729513109.070261.8181111749.080558.921522038.617320.396122372.105199.667533432.137253.335138390.633592.893541600.391230.030146003.719459.467553867.586419.406表3.2.1某地区各个林地景观斑块面积(m2)与周长(m)

2/5/20237615527620.2006545.291561946.184198.66116179686.2002960.4755777.30556.9021714196.460597.993587977.719715.7521822809.1801103.0705919271.8201011.1271971195.9401154.118608263.480680.710203064.242245.049

6114697.1301234.11421469416.7008226.009624519.867326.317225738.953498.6566313157.6601172.916238359.465415.151646617.270609.801246205.016414.790

654064.137437.3552560619.0201549.871665645.820432.3552614517.740791.943676993.355503.7842731020.1001700.965684304.281267.9512826447.1601246.977696336.383347.136297985.926918.312702651.414292.2352/5/202377303638.766399.725712656.824298.47331585425.10011474.770721846.988179.8663235220.6401877.476731616.684172.8083310067.820497.394741730.563172.1433427422.5701934.5967511303.970881.0423543071.5501171.4137614019.790638.1763657585.9402275.389779277.172862.0883728254.1301322.7957813684.750712.78738497261.0009581.298791949.164228.4033924255.030994.906804846.016324.481401837.699229.40181521457.4007393.938411608.625225.84282564370.80012212.4102/5/202378解:(1)作变量替换,令:,,将表3.2.1中的原始数据进行对数变换,变换后得到的各新变量对应的观测数据如表3.2.2所示。

序号y=lnAx=LnP序号y=lnAx=LnP19.2541066.4383794212.358138.36218629.6787636.4172438.3076225.667487310.340996.6537824410.336376.79791849.1530196.273258457.5084335.3236559.2927427.5528164610.176196.87529469.9773387.168551479.5159096.95184178.838076.0332264811.091187.71887988.2147895.4967894911.965727.78636497.72325.284414507.6432085.585528105.8121354.602457518.0420795.567651119.371536.326008527.6200275.769558表3.2.2经对数变换后的数据2/5/202379127.7715335.296653538.1409385.534711139.0348716.385013547.3780035.438211148.7001346.130066558.2603866.0388391513.176138.786501567.5736265.2915971612.098977.993105574.3477554.041328179.5607486.393579588.9844086.5733341810.034927.005852599.8663996.9188211911.173197.051092609.0196016.523136208.0275565.5

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论