新大计量地理学讲义05地理学中的经典统计分析方法_第1页
新大计量地理学讲义05地理学中的经典统计分析方法_第2页
新大计量地理学讲义05地理学中的经典统计分析方法_第3页
新大计量地理学讲义05地理学中的经典统计分析方法_第4页
新大计量地理学讲义05地理学中的经典统计分析方法_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第5章地理学中的经典统计分析方法

经典统计分析方法在地理学研究中的应用,是计量革命的主要成果之一。它是随着计量

革命较早发展起来的,直至今天还仍然是计量地理学中的常用的一类传统方法,使用于随即

地理现象、地理事件和地理过程的处理。

本章结合有关实例,主要介绍主成分分析、趋势面分析和马尔可夫预测等统计方法的基

本原理及其在地理学中的应用。

第1节主成分分析

5.1.1主成分分析的基本原理

主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法,从数学角度

来看,这是一种降维处理技术。假定有n个地理样本,每个样本共有p个变量,这样就构成

了一个n*p阶的地理数据矩阵

葭x1

当P较大时,如果在P维空间中考察问题,是比较麻烦的。为了克服这一困难,就需要

进行降维处理,即用较少的几个综合指标代替原来较多的变量指标,而且使这些较少的综合

指标既能尽量地反映原来较多变量指标所反映的信息,同时它们之间又是彼此独立的。那么,

这些综合指标(即新变量)应该如何选取呢?显然,其最简单的形式就是取原来变量的线性

组合,适当调整组合系数,使心的变量之间相互独立且代表性最好。

如果记原来的变量指标为屈,龙2…毛,它们的综合指标一一新变量指标为Z,,Z2...Zm

(m<p),则

J4=/滔+/|2%+…+/两

IZ]=暴|+1再+...+//

I(4=/,,%+/〃,西+...+/“再

⑸1.2)

在(5.1.2)式中,系数%由下列原则来决定:

(一)马与马(i彳,”•,/=1,2,...m)相互无关。

(―)z,是项,巧,…毛的一切线性组合中方差最大者;z?是与Z1不相关的,x}xp...xp

的一切线性组合中方差最大者;…Z,"是与Z'...Z,“T都不相关的,丸马…毛的所有线性组

合中方差最大者。

这样决定的新变量指标ZIZ2…Z,"分别称为原变量指标也即的第一,第二,…,第m

主成分。其中,4在总方差中所占得比例最大,Z1Z2...Z,”的方差依次递减。在实际问题的分

析中,常担诞前几个最大的主成分,这样既减少了变量的数目,又抓住了主要矛盾,简化了

变量之间的关系。

找主成分,就是确定原来变量可。=1,2,...p)在诸主成分z,(i=1,2,m)上载荷%

(i=1,2,m,J=1,2,...p)o从数学上可以证明,它们分别是Mx...x的相关矩阵的m

个比较大的特征值所对应的特征向量。

5.1.2主成分分析的计算步聚

根据上述的主成分分析的基本原理,可以把主成分分析的步聚归纳如下:

(一)计算相关系数矩阵:

八)r\p1

R=’"…r2P(5.1.3)

r

bpiP2J|

式中:%(i,j=1,2,…,p)为原变量的七•与%之间的相关系数,其计算公式为

*

r.==丝i--------------------(5.1.4)

因为R是实对称矩阵(即%=F),所以只需计算上三角元素或下三角元素即可。

(二)计算特征值与特征向量:

首先解特征方程也一同=。,通常用雅可比(Jacobi)法求出特征值«i=1,2,...,p),

并使其按大小顺序排列,即/\,>/\2>然后分别求出对应于特征值人的特征

向量eg=1,2,...,p)。这里要求6=1,即始=1,其中与表示向量e,.的第j个分量。

(=)计算主成分贡献率及累计贡献率:

主成分z,的贡献率为:

L2,…,p)

A«l

累计贡献率为:

£4

一般取累计贡献率达85%-95%的特征值人,儿,…人,所对应的第一,第二,…,第m

(m<p)个主成分。

(四)计算主成分载荷:

计算公式为:

%=p(z”Xj)=人,节(z,j=1,2,(5.1.5)

得到个各主成分的载荷以后,还可以按照(5.5.2)式进一步计算,得到各主成分的得分

ZllZI2•••Zlml

II

zJ221Z22…z2».I(5.1.6)

.Z"|Z“2•••z„,„.

5.1.3应用实例

下面我们根据表3.1.1给出的数据(见第3章),对耕地规模变化的驱动做主成分分析,

其步骤如下:

(1)将表3.1.1中的数据做标准化处理,然后就爱那个它们代入公式(5.1.4),计算

相关系数矩阵(见表5.1.1)

5.1.1相关系数矩阵

XiX2X3X.XsXeX?XsX9y

X11

X2-0.82831

X30.9678-0.70331

X..0.8902-0.52020.92531

X.50.8887-0.52200.92470.99891

Xb0.8770-0.56180.88170.92230.91261

X70.8306-0.58230.86520.87340.88330.76701

XK0.8495-0.51090.85780.90750.89410.93330.68841

X9-0.21790.3686-0.1158-0.0774-0.0602-0.2430.102-0.28761

y0.8187-0.35990.89500.94680.94130.88150.76110.8985-0.03931

(2)由相关系数矩阵计算特征值,一级各个主成分的贡献率和累计贡献率(见5.1.2)。

由表(5.1.2)可知第一、第二主成分的累计贡献率已达到88%以上(大于85%),故只需要

求出第一、第二主成分。

5.1.2特征值与主成分贡献率

因子特征值贡献率%累计贡献率%

16.780575.339175.3391

21.209813.441788.7809

30.64827.202295.9831

40.17791.976697.9597

50.08100.899598.8592

60.05080.564599.4237

70.04610.512699.9362

80.00520.057599.9937

90.00060.0063100.0000

(3)对于特征值4=6.7805,4=1.2098,4=0.6482分别求出特征向量%,e?,e,,在用

公式(5.1.5)计算各变量内,.…与在主成分上的载荷矩阵(表5.1.3)

表5.1.3主成分载荷

主成分1主成分2主成分3

Xi0.9715-0.0894-0.1842

X2-0.70470.39980.5735

X30.97200.0531-0.0913

x«0.96460.16500.1606

Xs0.96210.18140.1411

X«0.9427-0.03170.2212

X?0.87960.3002-0.1823

X80.9161-0.07530.3168

X9-0.19370.9392-0.2208

上述过程可以在SPSS、STATICTICA或MATLAB软件系统中实现。

结果分析:从表5.1.2可知,第一、二主成分的累计贡献率已达95.983%,完全符合主

成分分析要求。由此进一步得出主成分载荷矩、阵主成分载荷矩阵是主成分与各个解释变量

之间的相关系数。从表5.1.3中可以看,第一主成分与%1,%3,%4,%5,16之间存在很大

的正相关关系矩阵。第二主成分与%9具有大的正相关性。据此,且末绿洲耕地数量变化的

驱动力可以归纳为经济发展、粮食生产驱动和社会系统推动这两驱动因素。

L经济发展从第一主成分的构成因子看,GDP、人均GDP和社会消费品零售总额占重

要地位,经济系统中的动态因素对耕地数量变化的影响尤为显著。当前,且末县社会经济水

平较低,经济基本处于传统的自然经济状态,农业人口占66%,农业总产值占GDP的86.62%

(2004年)。这种情况下,人们开始寻找提高收入的新途径。因为可以获取直接物质产出及

经济收入,耕地开发与投资成为人们最安全,理想的选择,直接驱动耕地数量变化

2.粮食生产驱动第二主成分的主要构成因子是粮食总产量(X,),与第二主成分的相

关系数达0.9392。粮食生产驱动有两重意义,一方面,粮食是人类生存的最基本的要素,耕

地是粮食生产的最终源泉。且末绿洲在人口迅速增长的背景下,保证最基本的粮食供给,维

持集体和个人安全的前提是保证一定数量的耕地;另一方面,随着农业生产中科技因素的强

化,土地生产率的提高,食物产品价值增长,食物生产变成了且末农村经济的一个重要组成

部分。

第2节趋势面分析方法

趋势面分析,是利用数学曲面模拟地理系统要素在空间上的分布及变化趋势的一种数学

方法。它实质上是通过回归分析原理,运用最小二乘法拟合一个二维非线性函数,模拟地理

要素在空间上的分布规律,展示地理要素在地域空间上的变化趋势。

趋势面分析方法常常被用来模拟资源、环境、人口及经济要素在空间上的分布规律,它

在空间分析方面具有重要的应用价值。下面我们结合实例分析,介绍趋势面分析的主要原理

与方法。

5.2.1趋势面分析的一般基本原理

趋势面是一种抽象的数学曲面,它抽象并过滤掉了一些局域随机因素的影响,使地理要

素的空间分布规律明显化。可见,所谓空间趋势面并不是地理要素的实际分布面,而是模拟

地理要素空间分布的近似曲面。空间趋势面分析,正是从地理要素分布的实际数据中分解出

趋势值和剩余值,从而揭示地理要素空间分布的的趋势与规律。

(一)建立趋势面模型

设某地理要素的实际观测数据为马(4%)(i=1,2,…,〃),趋势面拟合值为三,(4y),

则有

马(七,X)=±(七,X)+⑸2.1)

式中:即为剩余值(残差值)。

显然,当a,y)在空间上变动时,(5.2.1)式就刻画了地理要素的实际分布曲面、趋

势面和剩余面之间的互动关系。

趋势面分析的核心就是从实际观测值出发推算趋势面,一般采用回归分析方法,使得残

差平方和趋于最小,即

Q=£/=£[4(%,X)-EG,Tmin

Ml

以此来估计趋势面参数。这就是在最小二乘法意义下的趋势面拟合。

用来计算趋势面的数学方程式有多项式函数和傅立叶级数,其中最为常用的是多项式函

数形式。因为任何一个函数都可以在一个适当的范围内用多项式来逼近,而且调整多项式的

次数,可使所求的回归方程适合实际问题的需要。

多项式趋势面的形式

一次趋势面模型z=4+qx+a2y(5.2.2)

1

二次趋势面模型z=生+q龙+牝,+t/jT+a4xy+a^y(5.2.3)

2

三次趋势面模型z=4+axx+a2y+a/+a4xy+%,+a6v++aQ?+a9y

(5.2.4)

(二)趋势而模型参数的估计

趋势面模型参数的估计实际上就是根据观测值z,,玉,y(i=1,2,确定多项式的系

数4,%为使残差平方和最小,其具体过程如下:

将多项式回归(非线性模型)模型转化为多元线性回归模型。

若令

22

X]=X,%="毛=x,x4-xy,x5-y….

z=4+qjq+a/2+L+a^p

这样就多项式回归(非线性模型)模型转化为多元线性回归模型。其残差平方和为

nn

axax2

Q=X(A-=X[z;-(a0+\u+22i+L+apxpi)](5.2.5)

根据最小二乘法的原理,求。对,…'册的偏导数,令其等于0,化简所求出的正

规方程组,可得

(■■«

I叫+卬汇”

II1

(%£八+Q巨",+L+a,£x>A・亦后⑸2.6)

4*1"1|«|!•1

■・4fl

火工》“+/工3jL+“工%,%=V3

经化简,可得矩阵形式表达式

则以上方程组(5.2.6)变为

XTX4=XTZ(5.2.7)

对于二元二次多项式有:

22

z=%+a[x+<22y+flyt+a4xy+a5y

其正规方程组为

*JIILJI

由式⑸2.7)求解,可得

r

A=(X'X)XZ(5.2.8)

5.2.2趋势面模型的适度检验

趋势面分析拟合程度与回归模型的效果直接相关,因此,对趋势面分析进行适度性检验

是一个关系到趋势面能否在实际研究中加以应用的关键问题,也是趋势面分析中不可缺少的

重要环节。这可以通过趋势而适度的拟合度心检验,F检验以及逐次检验来完成。

(一)趋势面拟合适度的尸检验

趋势面与实际面的拟合度系数〃是测定回归模型拟合优度的重要指标。一般用变量z

的总离差平方和中回归平方和所占的比重表示回归模型的拟合优度总离差平方和等于回归

平方和与剩余平方和之和。即

ssr=V(4一三)2+V(=_2)2=SS。+SSR

Ml

上式中:SS°=S(Zj—W)2为剩余平方和,它表示随机因素对离差的影响

SSR=£(三,一丁)2为回归平方和,它表示P个自变量对因变量z的离差的总影响。

SSR越大(或SS。越小)就表示因变量与自变量的关系越密切,回归的规律性越强、

效果越好。记

R2_SSR_।ssD(5.2.9)

SSTSST

显然,居越大,趋势面的拟合度就越高。

(二)趋势面拟合适度的显著性检验

趋势而适度的碓验,是对趋势面回归模型整体的显著性检验。检验的方法是利用变量

Z的总离差平方和中剩余平方和与回归平方和的比值,确定变量Z与自变量X、y之间的回

归关系是否显著。即

SSJP

(5.2.10)

=SSD!n—p—1

检验的在显著性水平a下,查尸分布表得尸。,若计算的碓大于临界值心,则认为

趋势面方程显著;反之则不显著。

(三)趋势面适度的逐次检验

趋势面适度的逐次检验的基本思想与方法可以如下概括:

(1)求出较高次多项式方程的回归平方和与较低次多项式方程的回归平方和之差;

(2)将此差除以回归平方和的自由度之差,得出由于多项式次数增高所产生的回归均方

差;

(3)将此均方差除以较高次多项式的剩余均方差,得出相继两个阶次趋势面模型的适度

性比较检验值F。

若所得的雁[是显著的,则较高次多项式对回归作出了新贡献,若横不显著,则较高

次多项式对于回归并无新贡献。

表5.2.1多项式趋势面由歇增高至(心1)次的回归显著性检验

离差来源平方和自由度均方差碓验

(的1)次回归SS,+“pMS"=SS:+Vp

ss『n-p-MS片

(於1)次剩余

1=SS'+!,/(n-p-l)

ss:>

修欠回归QMS”q

ss.MS户=MS}IMS?

欷剩余z?-q-1

由五次增高至SS3=MS?=

p-q

(a1)次的回归XS;*-,*-xs*SS:/(p-q)

总离差SSTss

需要注意的是,在实际应用中,往往用次数低的趋势面逼近变化比较小的地理要素数据,

用次数高的趋势而逼近起伏变化比较复杂的地理要素数据。次数低的趋势面使用起来比较方

便,但具体到某点拟合较差;次数较高的趋势面只在观测点附近效果较好,而在外推和内插

时则效果较差。

5.2.3趋势面分析应用实例

某流域1月份降水量与各观测点的坐标位置数据如表5.2.2所示。下面,我们以降水量

为因变量z,地理位置的横坐标和纵坐标分别为自变量X、必进行趋势面分析,并对趋势面

方程进行适度抽验。

表5.2.2流域降水量及观测点的地理位置数据

横坐标纵坐标

序号降水量Z/ixn

A/104my/104m

127.601

238.41.10.6

3241.80

424.72.950

5323.40.2

655.51.81.7

740.40.71.3

837.50.22

9310.853.35

1031.71.653.15

11532.653.1

1244.93.652.55

(1)建立趋势面模型

①二次趋势面模型

首先采用二次多项式进行趋势面拟合,用最小二乘法求得拟合方程为:

Z=5.998+17.438X+29.787〉一3.558》4-0.357砂-8.070y

(川=0.839,F=6.236)

图5.2.1展示了该二次多项式趋势面的图形。

图5.2.1某流域降水量的二次多项式趋势面

②再采用三次趋势而进行拟合,用最小二乘法求得拟合方程为

z=-48.810+37.557X+130.130y+8.389f-33.166xy-62.740/-4.133?

+6.138<y+2.566xy+9.785/

(R?=0.965,F=6.054)

图5.2.2某流域降水量的三次多项式趋势面

(二)模型的检验

①趋势而拟合适度的〃检验

根据R2检验方法计算,结果表明,二次趋势面的判定系数为=0.839,三次趋势面

的判定系数为=0.965,可见二次趋势面回归模型和三次趋势面回归模型的显著性都较

高,而且三次趋势面较二次趋势面具有更高的拟合程度。

②趋势面适度的显著性检验

根据用佥验方法计算,结果表明,二次趋势面和三次趋势面的户值分别为工=6.236和

「3=6.054.在置信水平a=0.05下,查尸分布表得

F2a="05(5,6)=4.53,Ka=FftO5(9,2)=19.4。显然F2>居〃而尸3VF3a,故二次趋

势面的回归方程显著而三次趋势面不显著。因此,/检验的结果表明,用二次趋势面进行拟

合比较合理。

③趋势面适度的逐次检验

趋势面比较:在二次和三次趋势面检验中,对两个阶次趋势面模型的适度进行比较,相

应的方差分析计算结果见表5.2.2。

表5.2.3二次和三次趋势面回归模型的逐次检验方差分析表

离差来源平方和自由度均方差雨验

三次回归

1129.7899125.532

三次剩余

41.47412-9-120.7376.054

二次回归

982.2445196.449

二次剩余

189.01812-5-131.5036.236

由二次增高至

147.545436.8861.779

三次的回归

结果分析:从二次趋势面增加到三次趋势面,A-2=l.779。在置信度水平a=0.05下,

查分分布表得尺皿(4,2)=6.94,由于A-〈凡(4,2)=6.94,故将趋势面拟合次数由二次增

高至三次,对回归方程并无新贡献,因而选取二次趋势面比较合适。这也进一步验证了趋势

面拟合适度的显著性方检验的结论。

第3节马尔可夫预测方法

对于地理事件的预测,不仅要能够指出事件发生的各种可能结果,而且还必须给出每一

种结果出现的概率,说明被预测的事件在预测期内出现每一种结果的可能性程度。

马尔可夫(Markov)预测法,就是一种预测地理事件发生概率的方法。它是基于马尔可

夫链,根据事件的目前状况预测其将来各个时刻(或时期)变动状况的一种预测方法。马尔

可夫预测法是对地理事件进行预测的基本方法,它是地理预测中常用的重要方法之一。

5.3.1几个基本概念

(一)状态、状态转移过程与马尔可夫过程

(1)状态指某一事件在某个时刻(或时期)出现的某种结果。

(2)状态转移过程事件的发展,从一种状态转变为另一种状态,称为状态转移。

(3)马尔可夫过程在事件的发展过程中,若每次状态的转移都仅与前一时刻的状态

有关,而与过去的状态无关,或者说状态转移过程是无后效性的,则这样的状态转移过程就

称为马尔可夫过程。

(二)状态转移概率与状态转移概率矩阵

(1)状态转移概率在事件的发展变化过程中,从某一种状态出发,下一时刻转移到

其它状态的可能性,称为状态转移概率。由状态Ei转为状态Ej的状态转移概率P(耳一4)

P(E,一4)=P(4/耳)=%(5.3.1)

⑵状态转移概率矩阵假定某一个事件的发展过程有n个可能的状态,即E,.E2,…,

&»记为从状态Ei转变为状态E,)的状态转移概率P(耳tE),则矩阵

P”=…p-]|

「二1I⑸3.2)

IMNMIII

出“尸"2…

称为状态转移概率矩阵。满足条件:

<I«(5.2.3)

(L

一般地,将满足条件⑸2.3)的任何矩阵都称为随机矩阵,或概率矩阵。

状态转移概率矩阵的计算。计算状态转移概率矩阵P,就是求从每个状态转移到其它任何一

个状态的状态转移概率1,2,…。不难证明,如果次概率矩阵,则对于任何整

数®>0,矩阵都是概率矩阵。

(3)标准概率矩阵、平衡向量

如果仍概率矩阵,而且存在整数册0,使得概率矩阵中诸元素皆非零,则称仍

标准概率矩阵。可以证明,如果。为标准概率矩阵,则存在非零向量。=[花,/一..,%],

而且占满足

0<x,<1,Vx;=1

r»l

使得:

aP=a(5.3.4)

这样的向量。称为平衡向量,或终极向量。这就是说,标准概率矩阵一定存在平衡向量。

(三)实例分析

例1考虑某地区农业收成变化的三个状态,即“丰收”、“平收”和“欠收”。记Ei

为“丰收”状态,良为“平收”状态,出为“欠收”状态。表5.2.1给出了该地区19601999

年期间农业收成的状态变化情况。试计算该地区农业收成变化的状态转移概率矩阵。

5.3.1表某地区农业收成变化的状态转移

年份1960196119621963196419651966196719681969

序号12345678910

状态E.EiE2E:sE2EiE」E2Ei邑

年份1970197119721973197419751976197719781979

序号11121314151617181920

状态E3EiE2E3EiE2EJE3E3E)

年份1980198119821983198419851986198719881989

序号21222324252627282930

状态E3E3E2EiEiEsE2E2E1E2

年份1990199119921993199419951996199719981999

序号31323334353637383940

状态EiE3E2EiEiE2E2E3EiEs

(1)计算从表5.3.2中可以知道,在15个从口出发(转移出去)的状态中:

儿=P(&TEJ=P(E,E)=—=0.2000

tIS

……)=S)q=0.4667

九=P(EitEJ=P(&区)=1=0.3333

15

P”=P(E?->£,)=P(2忸2)=];=0.5385

P22=P(E2tEQ=P(4忸2)=:=0.1538

P23=P(E2^E3)=P(E3|E2)=—=0.3077

13

8=P(E3TEJ=P田区)=:=03636

P32=P(&f反)=P(反厨)=A=04545

.2

P33=P(&->E3)=P闺卮)=1=0.1818

结果分析该地区农业收成变化的状态转移概率矩阵为

0.20000.46670.3333

P=0.53850.15380.3077«35)

LO.36360.45450.18181I

5.3.2马尔可夫预测法

(一)状态概率及其计算

为了运用马尔可夫预测法对事件发展过程状态出现的概率进行预测,还需要在介绍一个

名词,即专题概率TTj®0

乃代)表示事件在初始(k=0)状态为已知的条件下,经过k次状态转移后,在第k个

时亥U(时期)处于状态g的概率显然:

.

工TTj(k)=1(5.3.6)

计算公式为:

.

巧女)=Z%(z-1)P"(J=1,2,…,〃)(5.3.7)

若记行向量万(若=[5伏),万2因,…,""(初则由(3.3.7)式可以得到逐次计算状态概率

的递推公式:

伉1)=TT(0)p

{1爪2)=61)尸=60)尸(5.3.8)

(租目=n(k-l)P=...=爪0)产

(二)马尔可夫预测法

(1)第k和时刻(时期)的状态概率预测

有上述讨论可知,如果某一事件在第0个时刻(或时期)的初始状态已知,即"(0)已

知,则利用递推公式(5.3.8)式,就可以求得它经过k次状态转移后,在第k个时刻(时期)

处于各种可能的状态的概率,即7T(k),从而就得到该事件在第k个时刻(时期)的状态概

率预测。

实例分析将例1中2004年的农业收成状态记为77(0)=[0,1,0],将状态转移概率矩

阵(5.3.5)式及代入递推公式(5.3.8)式,可求得2000~2010年可能出现的各种状态的

概率(见表5.3.2),

表5.3.2某地区2005-2010年农业收成状态概率预测值

年份2000200120022003

状态E2

E,Ea

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论