版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第四章相关分析和回归分析10/16/20231相关分析和回归分析第一节
地理要素间的相关分析第二节地理要素间的回归分析10/16/20232一相关关系与函数关系二地理要素的相关类型三相关程度的程度方法及显著性检验
第一节地理要素间的相关分析10/16/20233一相关关系与函数关系1.确定性的函数关系
。
2.不确定性的统计关系—相关关系
3.相关关系与函数关系的共同点,区别与联系(1)共同点:都是反映现象变量之间存在的相互依存关系。(2)区别:相关关系是一种不严格的依存关系,函数关系是严格确定的依存关系。(3)联系:由于观察值和测量误差的存在,函数关系在现实生活中往往通过相关关系表现出来;而相关关系又往往要使用函数关系的形式来模拟描述。10/16/20234为了研究父亲与成年儿子身高之间的关系,卡尔.皮尔逊测量了1078对父子的身高。把1078对数字表示在坐标上,如图。它的形状象一块橄榄状的云,中间的点密集,边沿的点稀少,其主要部分是一个椭圆。10/16/20235★正相关★负相关★完全正相关★完全负相关★零相关
10/16/20236二地理要素间的相关类型曲线相关(非线性相关)按变量数量两个变量两个以上变量直线相关(线性相关)复相关偏相关按质量等级相关(顺序相关)品质相关10/16/20237
三相关程度的度量及显著性检验由于地理相关类型各不相同,因此测度的方法也不同。(一)线性相关程度的测度所谓相关程度,就是研究它们之间的相互关系是否密切。所谓相关方向,又可以分两种,即正相关和负相关。正相关——变量同方向变化,同增同减负相关——变量反方向变化,一增一减不相关用来测度直线相关程度和方向的指标就是相关系数。10/16/20238当两个变量之间为直线相关时,可以利用皮尔逊相关系数表示变量之间的相关关系及程度
设表示变量,的取值,为两个变量的算术平均数,,为这两个变量的标准差,为自变量数列与因变量数列的协方差,为相关系数,则直线相关系数定义为:1.简单相关系数公式及检验(1)简单相关系数公式10/16/2023910/16/20231010/16/20231110/16/202312(2)相关系数的性质●相关系数的分布范围,介于-1和+1之间●当相关系数为正值时,表示两个要素(或变数)之间呈正相关,相关系数为负值时,表示两个要素(或变数)之间为负相关;●相关系数的绝对值越大。表示两个要素间相关程度越密切。当r=+1时,为完全正相关。R=-1时,为完全负相关;r=0则完全无直线相关,可能存在其他形式的相关关系。10/16/202313(3)相关程度的判断当时,X与Y高度相关当时,X与Y显著相关当时,X与Y低度相关当时,X与Y微相关或不相关10/16/202314例某企业生产某种产品的月产量和生产费用的统计资料如表,试判断月产量与生产费用之间存在怎样相关关系,相关程度为多少。表月产量和生产费用的统计资料(4)简单相关系数的应用10/16/202315相关系数数据计算表10/16/202316表明X与Y之间存在线性相关关系,且是高度相关。10/16/202317●和都是相互对称的随机变量●
线性相关系数只反映变量间的线性相关程度,不能说明非线性相关关系●
样本相关系数是总体相关系数的样本估计值,由于抽样波动,样本相关系数是个随机变量,其统计显著性有待检验●
相关系数只能反映线性相关程度,不能确定因果关系,不能说明相关关系具体接近哪条直线
使用简单相关系数时的注意事项10/16/202318相关系数是根据要素之间的样本值计算出来的,它随着样本数的多少或取样方式的不同而不同,因此它只是要素之间的样本相关系数,只有通过检验,才能知道它的可信度。
(5)相关系数的显著性检验为什么?
一般情况下,相关系数的检验,是在给定的置信水平下,通过查相关系数检验的临界值表来完成的。
10/16/202319检验相关系数ρ=0的临界值(ra)表p{|r|>ra}=α
f值称为自由度,其数值为f=n-2,这里n为样本数
a代表不同的显著性水平
表内的数值代表不同的置信水平下相关系数ρ=0的临界值,即ra
公式p={|r|>ra}=a的意思是当所计算的相关系数r的绝对值大于在a水平下的临界值ra时,两要素不相关(即ρ=0)的可能性只有a。
10/16/202320相关系数r的具体检验方法步骤如下:(1)计算相关系数r(2)给定显著水平α,按n-2查相关系数临界值,查出相应的临界值(3)比较r的绝对值与临界值的大小。当r的绝对值大于或等于临界值时,说明两变量在α水平上达到显著性;若小于临界值,则说明两变量没有达到所要求的精度。如果仍需研究二者的关系,可考虑降低精度,即修改显著性水平α、相关系数的显著性检验步骤10/16/2023212、等级相关系数的计算公式及检验——表示两个变量顺序间直线相关程度和方向的系数,称为等级(或顺序)相关系数。等级相关系数不仅适用于数量指标的相关分析,同时亦适用于质量指标的相关分析。——等级相关系数,又称顺序相关系数是将两要素的样本值按数值的大小顺序排列位次,以各要素样本值的位次代替实际数据而求得的一种统计量。实际上,它是位次分析方法的数量化。
10/16/202322(1)等级相关系数的计算公式10/16/202323(2)等级相关系数的计算及检验1985年全国各省(市,区)总人口与社会总产值
10/16/20232410/16/202325即:总人口(x)与社会总产值(y)的等级相关系数为0.72610/16/202326等级相关系数检验的临界值
10/16/202327在上例中,n=29,表中没有给出相应的样本数下的临界值ra,但我们发现,在同一显著水平下,随着样本数的增大,临界值ra减少。在n=28时,查表可知:r0.05=0.317,r0.01=0.448,由于r′xy=0.726>r0.01=0.448,故r′xy在a=0.01的置信水平上是显著的。
等级相关系数检验结果
10/16/202328(二)多要素间相关程度的测定
1.偏相关系数的计算与检验在多要素所构成的地理系统中,当我们研究某一个要素对另一个要素的影响或相关程度时,把其它要素的影响视为常数(保持不变),即暂不考虑其它要素的影响,而单独研究那两个要素之间的相互关系的密切程度时,则称为偏相关。用以度量偏相关程度的统计量,称为偏相关系数。
10/16/202329当研究2个相关变量x1、x2的关系时,用直线相关系数r12表示x1与x2线性相关的性质与程度。此时固定的变量个数为0,所以直线相关系数r12又叫做零级偏相关系数。当研究3个相关变量x1、x2、x3的相关时,我们把x3保持固定不变,x1与x2的相关系数称为x1与x2的偏相关系数,记为r12.3,类似地,还有偏相关系数r13.2、r23.1。这3个偏相关系数固定的变量个数为1,所以都叫做一级偏相关系数。当研究4个相关变量x1、x2、x3、x4的相关时,须将其中的2个变量固定不变,研究另外两个变量间的相关。即此时只有二级偏相关系数才真实地反映两个相关变量间线性相关的性质与程度。二级偏相关系数共有6个:r12.34,r13.24,r14.23,r23.14,r24.13,r34.12。10/16/202330一般,当研究m个相关变量x1、x2、、、…、xm的相关时,只有将其中的m-2个变量保持固定不变,研究另外两个变量的相关才能真实地反映这两个相关变量间的相关,即此时只有m-2级偏相关系数才真实地反映了这两个相关变量间线性相关的性质与程度。m-2级偏相关系数共有个。xi与xj的m-2级偏相关系数记为rij.(i,j=1,2,…,m,i≠j)。10/16/202331偏相关系数,可利用单相关系数来计算。假设有三个要素x1,x2,x3,其两两间单相关系数矩阵为10/16/202332对于上述三个要素x1,x2,x3,它们之间的偏相关系数共有三个,即r12·3,r13·2,r23·1(下标点后面的数字,代表在计算偏相关系数时,保持不变量,如r12·3即表示x3保持不变),其计算公式分别如下:式(5)—(7)表示三个偏相关系数,称为一级偏相关系数。10/16/202333若有四个要素X1,X2,X3,X4,则有六个偏相关系数,即r12·34,r13·24,r14·23,r23·14,r24·12,r34·12,它们称为二级偏相关系数,其计算公式分别如下:在式(8)中,r12·34表示在x3和x4保持不变的条件,x1和x2的偏相关系数。
10/16/202334实例:对于某四个地理要素X1,X2,X3,X4的23个样本数据,经过计算得到了如下的单相关系数矩阵:10/16/202335为了计算二级偏相关系数,需要先计算一级偏相关系数,由(5)式可求得
同理,依次可以计算出其它各一级偏相关系数,见下表
10/16/202336在一级偏相关系数求出以后,便可代入公式计算二级偏相关系数,如由(8)式计算可得同理,依次可计算出其它各二级偏相关系数,见下表
10/16/202337偏相关系数具有下述性质:(1)偏相关系数分布的范围在-1到1之间;(2)偏相关系数的绝对值越大,表示其偏相关程度越大;(3)偏相关系数的绝对值必小于或最多等于由同一系列资料所求得的复相关系数,即R1·23≥|r12·3|。10/16/202338偏相关系数的显著性检验偏相关系数的显著性检验,一般采用t检验法。其统计量计算公式为在(15)式中,r12·34…m为偏相关系数,n为样本数,m为自变量个数。10/16/202339对于前述计算得到的偏相关系数r24·13=0.821,由于n=23,m=3,故查t分布表,可得出不同显著水平上的临界值ta,若t>ta
,则表示偏相关显著;反之,t<ta,则偏相关不显著。在自由度为23-3-1=19时,查表得t0.001=3.883,所以t>ta,这表明在显著性水平a=0.001上,偏相关系数r24·13是显著的。10/16/202340年份GDP(亿元)人口(万人)19901511.19842419911810.54853419922196.53858019932770.37862019943844.5865319954953.35870119965883.8874719976537.07881019987021.35887219997493.84892220008337.47897520019195.049024200210275.59069200312078.159108200415021.849163200518516.879212200622077.369282山东省1990-2006年GDP和人口情况10/16/2023411.计算简单相关系数10/16/202342---PARTIALCORRELATIONCOEFFICIENTS--Controllingfor..时间
GDP人口GDP1.0000-.0690人口-.06901.00002.计算偏相关系数如果令时间T不变,计算人口与GDP的偏相关系数为=-0.0690,且t=-0.259>0.8=α。由此可以看出,如果去掉时间的因素,人口与GDP之间的偏相关系数很小,即如果固定时间不变,人口与GDP之间的关系是微弱的,且经检验人口与GDP之间没有什么内在的必然的线性联系。人口越多未必GDP越高,这是比较合乎实际的。10/16/2023432.复相关系数的计算与检验复相关系数:反映几个要素与某一个要素之间的复相关程度。复相关系数的计算当有两个自变量时当有三个自变量时10/16/202344当有k个自变量时复相关系数的性质
①复相关系数介于0到1之间,即10/16/202345
②复相关系数越大,则表明要素(变量)之间的相关程度越密切。复相关系数为1,表示完全相关;复相关系数为0,表示完全无关。
③复相关系数必大于或至少等于单相关系数的绝对值。复相关系数的显著性检验F检验法。其统计量计算公式为10/16/202346例题:在上例中,若以x4为因变量,x1,x2,x3为自变量,试计算x4与x1,x2,x3之间的复相关系数。解:按照公式计算检验:,故复相关达到了极显著水平。10/16/202347一回归分析的意义与研究内容二一元回归分析三多元回归分析四非线性回归模型第二节地理要素间的回归分析10/16/2023481、回归分析意义回归的古典意义:高尔顿遗传学的回归概念(父母身高与子女身高的关系)回归的现代意义:一个因变量对若干自变量依存关系的研究回归的目的(实质):由固定的自变量去估计因变量的平均值一回归分析的意义与研究内容10/16/2023492、回归分析的概念就是对具有相互联系的要素,根据其联系的形态,选择一个合适的数学模式,用来近似地表达要素间平均变化关系的数理统计方法。这个数学模式称为回归模型(回归方程)10/16/2023503、回归分析的目的
用样本回归函数去估计总体回归函数。由于样本对总体总是存在代表性误差,样本回归函数总会过高或过低估计总体回归函数。要解决的问题:寻求一种规则和方法,使得到的样本回归函数的参数和尽可能“接近”总体回归函数中的参数和。这样的“规则和方法”有多种,最常用的是最小二乘法10/16/202351
样本
总体
A
10/16/2023524、回归分析研究的主要内容——从一组地理数据出发,确定这些要素(变量)间的定量数学表达式,即回归模型。——根据一个或几个要素(自变量)的值来预测或控制另一个要素(因变量)的取值。——从影响某一地理过程中的许多要素中,找出哪些要素(变量)是主要的,哪些因素是次要的,这些要素之间又有什么联系。
回归分析研究的地理数学模型,依要素(变量)的多少可分为一元地理回归模型和多元地理回归模型。10/16/2023535、回归分析与相关分析①相关分析所研究的变量是对等关系;回归分析所研究的两个变量不是对等关系。②对两个变量来说,相关分析只能计算出一个相关系数,而回归分析,可分别建立两个不同的回归方程。③相关分析要求两个变量都必须是随机的,而回归分析的要求,自变量是给定的,因变量是随机的。计量地理学关心:变量间的因果关系及隐藏在随机性后面的统计规律性,这有赖于回归分析方法10/16/202354二、一元回归分析(一)一元线性回归及其基本思想1.一元线性回归的最小二乘法某城市各年居民生活费收入与消费支出额的数据表序号生活费收入消费支出额序号生活费收入消费支出额1234525029036042045017025029031033067891049057065075082037040050055064010/16/202355根据表中的资料,确定生活费收入与消费支出之间存在的关系。用X表示生活费收入,Y表示消费支出,把表中数据的关系用坐标系中的相关点表示,10/16/202356从图中我们看到,相关点的分布呈现出线性的形态,这说明,生活费收入与消费支出之间不仅存在着相关关系,而且它们之间具有线性关系。因此我们就希望通过这些相关点确定出一条直线,利用这条直线表示它们的线性关系。设这条直线的方程为对于这些相关点,可以做出多条直线表示变量之间的关系,我们希望在这些直线中找出最有“代表性”的直线。寻找最有“代表性”直线的常用方法是“最小二乘法”。或10/16/202357
最小二乘法的基本思想是:最有“代表性”的直线应该是直线到各点的距离最近。等价的提法是:各点到直线的纵向距离最近。对于变量X的每一个值,相关点到直线的纵向距离是离差,为避免出现负号可用表示。对于多个点,点到直线的距离用表示。即利用离差的平方和表示多个点到直线的距离。根据最小二乘法的原理,最佳的直线是“的实际值与估计值之间的离差平方和为最小”10/16/202358称为误差平方和,将代入上式得到10/16/202359解方程组得10/16/2023602.一元回归方程参数的求解公式10/16/202361(手算)3、具体计算方法(1)将原始数据根据需要列表(2)根据公式计算b(3)计算a(4)写出回归模型(5)一般情况下还要求出相关系数10/16/202362回归方程数据表10/16/20236310/16/202364得回归方程为:10/16/202365(二)一元线性回归模型应用条件
自变量X与因变量Y,X与Y之间的线性相关关系用函数关系表达式一般可以表示为德国数学家高斯提出了如下理论假设.1.零均值假设。又称为无偏性假设,在给定的条件下,的条件数学期望等于0.即2同方差假设。又称为等方差性假设。即对所有的,的条件方差都相等,且为常数。即10/16/2023663.无自相关假设。又称为独立性假设。它假设随机误差项的逐次观察值互不相关,即4.与X不相关假设。回归模型中的随机误差项与自变量各自独立影响因变量Yi。即5.正态性假设。假设随机误差项服从均值为零,方差为的正态分布。即:
10/16/2023671、线性关系检验线性关系检验:是指检验自变量与因变量之间关系能否用一个线性模型来表示。
拟合优度检验—判定系数法
拟合优度检验就是检验回归模型拟和实际数据的拟和程度。一元分析中Y值的变化可以看成是由两个原因的变化引起的,一个是由于自变量X变动引起的,二是由于其它因素变动引起的,如图。(三)回归模型的检验10/16/202368①拟合优度?
概念:样本回归线是对样本数据的一种拟合,不同估计方法可拟合出不同的回归线,拟合的回归线与样本观测值总有偏离。样本回归线对样本观测数据拟合的优劣程度——拟合优度拟合优度的度量建立在对总变差分解的基础上10/16/202369②总变差的分解
分析Y的观测值、估计值与平均值的关系将上式两边平方加总,可证得
(TSS)(ESS)(RSS)
10/16/202370
总变差(TSS):因变量Y的观测值与其平均值的离差平方和(总平方和)
解释了的变差(ESS):因变量Y的估计值与其平均值的离差平方和(回归平方和)
剩余平方和(RSS):因变量观测值与估计值之差的平方和(未解释的平方和)10/16/202371
变差分解的图示10/16/202372③可决系数以TSS同除总变差等式两边:或
定义:回归平方和(解释了的变差ESS)在总变差(TSS)中所占的比重称为可决系数,用表示:
或
10/16/202373简捷计算公式:或10/16/202374作用:可决系数越大,说明在总变差中由模型作出了解释的部分占的比重越大,模型拟合优度越好。反之可决系数小,说明模型对样本观测值的拟合程度越差。特点:●可决系数取值范围:●随抽样波动,样本可决系数是随抽样而变动的随机变量●可决系数是非负的统计可决系数的作用和特点10/16/202375可决系数与相关系数的关系a联系
数值上,可决系数等于因变量与自变量之间简单相关系数的平方:10/16/202376可决系数与相关系数的关系可决系数相关系数就模型而言就两个变量而言说明解释变量对应变量的解释程度度量两个变量线性依存程度。度量不对称的因果关系度量不含因果关系的对称相关关系取值:[0,1]取值:[-1,1]b区别10/16/202377在上例中10/16/20237810/16/2023792、回归系数检验回归系数检验主要是对检验(1)假设(2)计算检验统计量其中是的标准差,n为样本中数据的个数10/16/202380(3)根据统计知识可知服从自由度为n-2的分布(4)用样本计算t的值若:则拒绝,认为X,Y之间有线性关系若:则接受,认为X,Y之间无线性关系给定显著性水平,查自由度为n-2的t分布表得临界值10/16/202381现对上例中的模型进行t检验(1)假设(3)给定显著性水平α=0.05,查自由度为8的t分布临界值表,得(4)因为则方程的t检验通过,说明X与Y之间是线性关系的假设成立.10/16/202382基本思想在多元回归中有多个解释变量,需要说明所有解释变量联合起来对应变量影响的总显著性或整个方程总的联合显著性。对方程总显著性检验需要在方差分析的基础上进行F检验。3、回归方程的显著性检。10/16/202383总变差自由度
模型解释了的变差自由度
剩余变差自由度变差来源平方和自由度方差归于回归模型归于剩余总变差方差分析表10/16/202384检验的步骤为:(1)提出假设(2)计算回归方程的检验值(3)确定检验的临界值10/16/202385服从自由度为,的分布,对于给定的显著性水平,可以通过分布表查得显著性水平为、自由度分别为、的临界值
(4)检验1)若〉,则否定假设,回归方程总体线性关系的显著性检验通过,
将值与临界值比较2)若〈,则接受假设,回归方程总体线性关系的显著性检验未通过,
10/16/202386对上例中的模型进行检验1)假设2)
计算3)
给定显著性水平0.05,查分布的临界值表4)检验:≥5.23=,则模型的检验通过。10/16/202387三、多元线性回归分析(一)二元线性回归分析二元线性回归分析的模型可以由下式表示:二元线性回归分析就是根据n个已知的样本观察值…,来计算出参数值,得到回归模型参数的计算主要是采用最小二乘法10/16/202388由最小二乘法,参数的计算是使SSE10/16/20238910/16/202390(二)多元线性回归分析k元线性回归模型为1、多元线性回归模型模型中参数是偏回归系数。偏回归系数:控制其它自变量不变的条件下,第k个自变量的单位变动对因变量平均值的影响。或10/16/2023912、多元线性回归模型的矩阵表示
K个解释变量的多元线性回归模型的n个观测样本,可表示为
10/16/202392
用矩阵表
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 幕墙工程售后服务承诺书(35篇)
- 《榜样的力量》观后感(5篇)
- DB12-T 1072-2021 呼吸道传染病集中隔离医学观察点消毒技术指南
- 茶文化与茶艺鉴赏 教案 项目四 知茶性-茶叶基础知识
- 2024年碳金融项目资金申请报告代可行性研究报告
- 华中科技大学建规学院设计素描教案
- 供应链运营 教案项目一 供应链及供应链管理
- 新建民用装配式建筑防护设计与施工技术规范征求意见稿
- 中小学生防火安全主题班会教案
- 上海市县(2024年-2025年小学五年级语文)统编版竞赛题(下学期)试卷及答案
- T-ESD 3008-2021 热固性防静电粉末涂料通用规范
- 2023年四川农信校园招聘笔试题库及答案解析
- 液压传动课程设计-专用铣床液压系统
- 浮点数运算方法
- YS/T 591-2006变形铝及铝合金热处理
- 第9讲:为新中国而奋斗
- GB/T 31883-2015道路车辆牵引连接件、牵引杆孔、牵引座牵引销、连接钩及环形孔机械连接件使用磨损极限
- GB/T 23679-2009集装箱机械箱封
- GB/T 23505-2017石油天然气工业钻机和修井机
- 公务员职业道德与行为规范课件
- 初中英语-名词-单复数-练习题-含答案
评论
0/150
提交评论