GIS的核心之三空间统计分析

上传人：蜡*** IP属地：天津上传时间：2022-07-26 格式：DOCX 页数：32 大小：683.35KB 积分：25 举报 版权申诉

已阅读5页，还剩27页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、第10章空间统计分析统计分析是空间分析的主要手段，贯穿于空间分析的各个主要环节。空间统计分析方法不仅仅限于常规统计方法，还包括利用空间位置的空间自相关分析。本章主要介绍常用统计量、数据特征分析（即探索性数据分析）、分级统计分析、空间插值和空间回归分析五方面内容。10.1概述基本概念空间统计分析可包括“空间数据的统计分析”及“数据的空间统计分析”，前者着重于空间物体和现象的非空间特性的统计分析，解决的一个中心议题就是如何以数学统计模型来描述和模拟空间现象和过程，即将地理模型转换成数学统计模型，以便于定量描述和计算机处理，着重于常规的统计分析方法，尤其是多元统计分析方法对空间数据的处理，而空间数据

2、所描述的事物的空间位置在这些分析中不起制约作用。如趋势面拟合被广泛应用于地理数据的趋势分析中，但在这种分析中，仅考虑了样本值的大小，而并不考虑这些样本在地理空间的分布特征及其相互间的位置关系。从这个意义上讲，空间数据的统计分析在很多方面，与一般的数据分析并无本质差别，但是对空间数据的统计分析结果的解释则必然要依托于地理空间进行，在很多情况下，分析的结果以地图方式来描述和表达的。因此，空间数据的统计分析尽管在分析过程中没有考虑数据抽样点的空间位置，但描述的仍然是空间过程，揭示的也是空间规律和空间机制。数据的空间统计分析则是直接从空间物体的空间位置、联系等方面出发，研究既具有随机性又具有结构性，或

3、具有空间相关性和依赖性的自然现象。凡是与空间数据的结构性和随机性，或空间相关性和依赖性，或空间格局与变异有关的研究，并对这些数据进行最优无偏内插估计，或模拟这些数据的离散性、波动性，都是数据的空间统计分析的研究内容。数据的空间统计分析不是抛弃了传统的统计学的理论和方法，它是在传统的统计学基础上发展起来的。数据的空间统计学与经典统计学的共同之处在于：它们都是在大量采样的基础上，通过对样本属性值的频率分布、均值、方差等关系及其相应规则的分析，确定其空间分布格局与相关关系。数据的空间统计学区别于经典统计学的最大特点是：数据的空间统计学既考虑到样本值的大小，又重视样本空间位置及样本间的距离。空间数据具

4、有空间依赖性（空间自相关）和空间非均质性（空间结构），扭曲了经典统计方法的假设条件，使得经典统计模型对空间数据的分析会产生虚假的解释。经典统计学模型是在观测结果相互独立的假设基础上建立的，但实际上地理现象之间大都不具有独立性。数据的空间统计学研究的基础是空间对象间的相关性和非独立的观测，它们与距离有关，并随着距离的增加而变化。这些问题为经典的统计学所忽视，但却成为数据的空间统计学的核心。10.1.2主要分析内容空间统计分析与经典统计学的内容往往是交叉的。空间统计分析使用统计方法解释空间数据，分析数据在统计上是否是“典型”的，或“期望”的。同时，它又具有自己独有的空间自相关分析。主要分析内容包含

5、以下几点：1.基本统计量统计量是数据特征的反映，也是统计分析的基础。2.探索性数据分析探索性数据分析能让用户更深入了解数据，认识研究对象，从而对与其数据相关的问题做出更好的决策。探索性数据分析主要包括确定统计数据属性、探测数据分布、全局和局部异常值（过大值或过小值）、寻求全局的变化趋势、研究空间自相关和理解多种数据集之间相关性。3.分级统计分析分级统计是对数据的进一步处理分析，以便于更好得揭示数据规律或在制图中获得更好的效果。4.空间插值基于探索性数据分析结果，选择合适的数据内插模型，由已知样点来创建表面，研究空间分布。5.空间回归研究两个或两个以上的变量之间统计关系，通过空间关系，包括考虑空

6、间的自相关性，把属性数据与空间位置关系结合起来，更好的解释地理事物的空间关系。6.空间分类基于地图表达，采用与变量聚类分析相类似的方法来产生新的综合性或者简洁性专题地图。包括多变量统计分析，如主成分分析、层次分析，以及空间分类统计分析，如系统聚类分析、判别分析等。10.2基本统计量常用的基本统计量主要包括：最大值、最小值、极差、均值、中值、总和、众数、种类、离差、方差、标准差、变差系数、峰度和偏度等。这些统计量反映了数据集的范围、集中情况、离散程度、空间分布等特征，对进一步的数据分析起着铺垫作用（见图10.1）。图10.1基本统计量代表数据集中趋势的统计量代表数据集中趋势的统计量包括平均数、中

7、位数、众数，它们都可以用来表示数据的分布位置和一般水平。表10.1中，列出了各统计量的含义以及在实际应用的作用。其中，xi表示数据集中的第i个变量，i=1，2，n。表10.1代表集中趋势的统计量的含义、特点及作用表10.1代表集中趋势的统计量的含义、特点及作用统计量含义特点及作用n个数据的总和与数据的总个数n的比值平均数是最常用的表示数据集中趋势的指标，工Xi1=1n平均数可分为三种：算术平均数、几何平均数、调和平均数。其中，前两者在GIS分析中最常用到。算术平均数代表了数据集的平均水平，不受总体范围的影响，因此可以作为比较分析的指标，还在求算术平均数时，考虑到数据集中的n个可作为评价事物的客

8、观标准。如一个地区某一年的值有时会含有不同的比重，对平均数的影响人均收入可以作为衡量该地区当年经济状况的指也就不同。所以用加权平均法来计算其算术标；要比较该地区近几年的经济增长水平，也需要平均数。用该地区近几年的人均收入来比较，因为人均收入能代表该地区经济状况的平均水平，可以用来做比权重厶为Xi出现的频数，加权平均数较分析。可以按下式计算：另外求取离差、平均离差、离差平方和、方差、fX+X=11X+fX2nn标准差、变差系数、偏度系数和峰度系数等时，要先求得算术平均数；算术平均数也可用于图像处理=丄乞fXniii=1其中，中的平滑运算。加权平均数与算术平均数的应用是大致相同n=f1+f2+f1

9、2n=Yfi的，但加权平均数要考虑各数据点的贡献作用。n个数据的连乘积再开n次方所得的方根数几何平均数用于分析和研究平均改变率、平均增长率、平均定比等，还在偏相关系数里有应用。若将数据值按大小顺序排列，位于中间的那个值就是中位数或称中值。中位数不受极端数值的影响，如果数据集的分当数据集中有奇数个数据时，数据按大布形状是左右对称的，则中位数等于平均数；当数n+1小顺序排列，那么第2位数就是中位数据集的分布形状呈左偏或右偏，以中位数表示它们的集中趋势比算术平均数更合理。n当有偶数个数据时，中位数为第2项与第众数是数据集中最常出现的，因此一定是数据集中的某个值，代表了多少意见，不受极端值的影zn八（

10、2+1）项的平均数。响，在频数分布曲线上位居最高点，即曲线的峰值。众数常用于投票选举。若数据集的分布并不是众数是数据集中出现频数（次数）最多明显集中在某个数值上，用众数来代表集中情形就的某个（或某几个）数。没有多大意义，甚至会有误导作用。10.2.2代表数据离散程度的统计量平均数、中位数、众数在反映总体一般数量水平的同时，也掩盖了总体中各单位的数量2=.i2=.i差异。所以，只有这些统计量还不能充分说明一个数列中数值的分布情况和波动状态。有时虽然两个数据集的平均数相等，但各数据分布在平均数左右的疏密程度却不相同，也就是它们的离散程度不一样，为了把一个数据集的离散程度表现出来，就需要研究离散度。

11、代表数据离散程度的统计量包括最大值、最小值、分位数、极差、离差、平均离差、离差平方和、方差、标准差、变差系数等。离散程度越大，数据波动性越大，以小样本数据代表数据总体的可靠性越低；离散程度越小，则数据波动性小，以小样本数据代表数据总体的可靠性越高。表10.2列出了表示离散程度各个统计量的含义及在实际应用的作用。表10.2代表离散程度的统计量及其特点、作用统计量含义特点及作用最大值与最小把数据从小到大排列，最前端的值通过最大、最小值和极差，可以了解数据的取值范围、分散程度，就是最小值，最后一个就是最大值一个数据集的最大值与最小值的极差差值称为极差，它表示这个数据集同地区，虽然它们的平均高程相同，

12、但最高点、最低点及高差不同，说的取值范围明了这两个地区的高程分布状况有差异。将数列按大小排列，把数列划分位数剔除了数据集中极端值的影响，但计算麻烦，且没有用到数分为相等个数的分段，处于分段点据集中的所有数据点。分位数在数据分级中应用较多。易于计算，容易理解，但他们都易受极端数值的影响，漠视了其他值的存在，无法精确地反映所有数据的分散情形，因此可能会有误导作用。在地形分析中，极差主要用于求取一定区域内的高差。对于两个不上的值就是分位数。离差表示各数值与其平均值的离散程度，其值等于某个数值与该数两个数据集的均值相同，但其离差可以有很大的差别，这说明这两离差据集的平均值之差个数据集与各自平均值的离散

13、程度不同。xdi=xi-z(x-x)平均离差和离差平方和可以克服ii恒等于零的缺点，还平均离差是把离差取决对值，然后可以把负数消除，只剩正值，这样更易于描述离散程度，而且离差平方求和，再除以变量个数和得到的结果较大，使离散程度更明显。平均离差离差平方和用于相关分析中求取相关系数在回归分析中，对回归方程进行显著性检验时，需要对原始数据进i行离差平方和的分解，即把离差平方和分解为剩余平方和与回归平方和离差平方和方差标准差离差平方和是把离差求平方，然后求和方差是均方差的简称。它是以离差平方和除以变量个数而得到Ln对方差进行开方，即为标准差Z(X-X)2两部分，这两部分的比值可以反映回归方程的显著性。

14、在趋势面分析中，对于趋势面的拟合程度可以用离差平方和来检验，其方法也是将原始数据的离差平方和分解为剩余平方和与回归平方和两部分，回归平方和的值越大，表明拟合程度越高。它们是表示一组数据对于平均值的离散程度的很重要的指标，为了应用上的方便，常对方差进行开方，即为标准差。方差和标准差都可应用于相关分析、回归分析、正态分布检验等，还可用于误差分析、评价数据精度、求取变差系数、偏度系数和峰度系数等。标准差还可用于数据分级。峰度是刻画数据在均值两侧的集中程度的参数，用峰度系数来变差系数也称为离差系数或变异系数，是标准差与均值的比C值，以v表示变差系数vxxioo%变差系数是用相对数的形式来刻画数据离散程

15、度的指标，它可以用来衡量数据在时间与空间上的相对变化（波动）的程度。变差系数可用来求算地形高程变异系数。C式中v为变差系数，其值为百分率；s是标准差；为平均值。10.2.3代表数据分布形态的统计量分布形态可以从两个角度考虑，一是数据分布对称程度，另一个是数据分布集中程度。前者的测定参数称为偏度或偏斜度，后者的测定参数称为峰度。偏度和峰度是衡量数据分布特征的重要指标。表10.3代表分布形态的统计量及其作用统计量含义作用偏度是刻画数据在均值两侧的对称程度的参数，用偏度系数来衡量。偏度可以表示数据分布的不对称性，刻标准偏度系数（gi）：31x-X、3X(i)6nS丿g1=当g10时，数据的分布情况如

16、下图：偏度画出是向正的方向偏还是向负的方向偏（小XX于或大于）峰度可以表示数据频数分布曲线峰形的相对高耸程度或尖平程度。这两个指标主要用于分析数据的频率统计图以及评价正态分布性，当g1=0且g2=0时，数据是标准正态分布。Xf（x）是数据分布的密度函数，是数据的平均值衡量。标准峰度系数g2按下式计算：n1xx4(Z(一)3)2?nS丿峰度g2=if(x)是数据分布的密度函数，X是数据的平均值，S是标准差10.2.4其它统计量表10.4其他统计量统计量含义作用总和数据集中所有数据相加得到的值总和一般用于求取总值及各种比值。通过求取一定流域内的沟壑总长度与总面积，可以获得该流域的沟壑密度。比率两类

17、物体或现象的数值之比地表粗糙度即是以比率来表达的，它是地表单元的曲面面积与其在水平面上的投影面积之比。比例某类物体或现象的数值与其总数之比高程变异系数以某区域高程标准差和平均值的比值来表示。例如在不同高程区域内植物、动物或其它研究对象的种类的统计。种类一定区域内，出现多少种不同的值。反映区域生物的多样性。10.3探索性数据分析数据分析包括探索阶段和证实阶段。探索性数据分析首先分离出数据的模式和特点，再根据数据特点选择合适的模型。探索性数据分析还可以用来揭示数据对于常见模型的意想不到的偏离。探索性方法既要灵活适应数据的结构，也要对后续分析步骤揭露的模式灵活反应。1031基本分析工具图10.2直方

18、图示意图1.直方图直方图指对采样数据按一定的分级方案（等间隔分级、标准差分等）进行分级，统计采样点落入各个级别中的个数或占总采样数的百分比，并通过条带图或柱状图表现出来。直方图可以直观的反映采样数据分布特征、总体规律，可以用来检验数据分布和寻找数据离群值。如图10.2为直方图示意图。QQplot图（1）正态QQPlot分布图正态QQPlot（NormalQQPlot）分布图主要用来评估具有n个值的单变量样本数据是否服从正态分布。构建正态QQPlot分布图的通用过程为（图10.3）：首先对采样值进行排序；计算出每个排序后的数据的累积值（低于该值的数据的百分比）；绘制累积值分布图；在累积值之间使用

19、线性内插技术，构建一个与其具有相同累积分布的理论正态分布图，求出对应的正态分布值；以横轴为理论正态分布值，竖轴为采样点值，绘制样本数据相对于其标准正态分布值的散点图。口0C丄9-D15图10.3正态QQPlot示意图如果采样数据服从正态分布，其正态QQPlot分布图中采样点分布应该是一条直线。如果有个别采样点偏离直线太多，那么这些采样点可能是一些异常点，应对其进行检验。此外,如果在正态QQ图中数据没有显示出正态分布，那么就有必要在应用某种克里格插值法之前将数据进行转换，使之服从正态分布。（2）普通QQPlot分布图普通QQPlotCGeneralQQPlot）分布图用来评估两个数据集的分布的相

20、似性。普通QQPlot分布图通过两个数据集中具有相同累积分布值作图来生成，如图10.4所示。累积分布值的作法参阅正态QQPlot分布图内容。图10.4普通QQPlot示意图普通QQPlot图揭示了两个物体（变量）之间的相关关系，如果在QQPlot图中曲线呈直线，说明两物体呈一种线性关系，可以用一元一次方程式来拟合。如果QQPlot图中曲线呈抛物线，说明两物体的关系可以用个二次多项式来拟合。方差变异分析工具半变异函数和协方差函数把统计相关系数的大小作为一个距离的函数，是地理学相近相似定理的定量化。图10.5和图10.6为一典型的半变异函数图和其对应的协方差函数图。图10.5和图10.6显示，半变

21、异值的变化随着距离的加大而增加，协方差随着距离的加大而减小。这主要是由于半变异函数和协方差函数都是事物空间相关系数的表现，当两事物彼此距离较小时，它们是相似的，因此协方差值较大，而半变异值较小；反之，协方差值较小，而半变异值较大。半变异函数曲线图和协方差函数曲线反映了一个采样点与其相邻采样点的空间关系。它们对异常采样点具有很好的探测作用，在空间分析的地统计分析中可以使用两者中的任意一个，一般采用半变异函数。在半变异曲线图中有两个非常重要的点：间隔为0时的点和半变异函数趋近平稳时的拐点，由这两个点产生四个相应的参数:块金值(Nugget)、变程(Range)、基台值(Sill)和偏基台值(Par

22、tialSill)。块金值(Nugget)：理论上，当采样点间的距离为0时，半变异函数值应为0；但由于存在测量误差和空间变异，使得两采样点非常接近时，它们的半变异函数值不为0，即存在块金值。测量误差是仪器内在误差引起的，空间变异是自然现象在一定空间范围内的变化。它们任意一方或两者共同作用产生了块金值。基台值(Sill)：当采样点间的距离h增大时，半变异函数r(h)从初始的块金值达到一个相对稳定的常数时，该常数值称为基台值。当半变异函数值超过基台值时，即函数值不随采样点间隔距离而改变时，空间相关性不存在。偏基台值(PartialSill)：基台值与块金值的差值。变程(Range)：当半变异函数的

23、取值由初始的块金值达到基台值时，采样点的间隔距离称为变程。变程表示了在某种观测尺度下，空间相关性的作用范围，其大小受观测尺度的限定。在变程范围内，样点间的距离越小，其相似性，即空间相关性越大。当hR时，区域化变量Z(x)的空间相关性不存在，即当某点与已知点的距离大于变程时，该点数据不能用于内插或外推。Voronoi图Voronoi地图是由在样点周围形成的一系列多边形组成的。某一样点的Voronoi多边形的生成方法是：多边形内任何位置距这一样点的距离都比该多边形到其它样点的距离要近。Voronoi多边形生成之后，相邻的点就被定义为具有相同连接边的样点。Voronoi图中多边形值可以采用多种分配和

24、计算方法：简化(Simple):分配到某个多边形单元的值是该多边形单元的值；平均(Mean):分配到某个多边形单元的值是这个单元与其相邻单元的平均值；模式(Mode):所有的多边形单元被分为五级区间，分配到某个多边形单元的值是这个单元与其相邻单元的模式(即出现频率最多的区间)；聚类（Cluster）：所有的多边形单元被分配到这五级区间中，如果某个多边形单元的级区间与它的相邻单元的级区间都有不同，这个单元用灰色表示，以区别于其它单元；熵（Entropy）：所有单元都根据数据值的自然分组分配到这五级中。分配到某个多边形单元的值是根据该单元和其相邻单元计算出来的熵；中值（Median）：分配给某多边

25、形的值是根据该单元和其相邻单元的频率分布计算的中值；标准差（StDev）：分配给某多边形的值是根据该单元和其相邻单元计算出的标准差；四分位数间间隔（IQR）：第一和第三四分位数是根据某单元和其相邻单元的频率分布得出的。分配给某多边形单元的值是用第三四分位数减去第一四分位数得到的差。图10.7简化（Simple）Voronoi地图图10.8熵（Entropy）Voronoi地图图10.7为简化（Simple）Voronoi地图，图10.8为熵（Entropy）Voronoi地图，显然不同的多边形赋值方式，获取的Voronoi地图提供信息也不同。简化（Simple）Voronoi图可以了解到每个采

26、样点控制的区域范围，也可以体现出每个采样点对区域内插的重要性。利用简化（Simple）Voronoi地图中就可以找出一些对区域内插作用不大且可能影响内插精度的采样点值，可以将它剔除。用聚类和熵的方法生成的Vonoroi图可用来帮助识别可能的离群值。熵值是量度相邻单元相异性的一个指标。自然界中，距离相近的事物比距离远的事物具有更大的相似性，因此，局部离群值可以通过高熵值的区域识别出来。同样，一般认为某个特定单元的值至少应与它周围单元中的某一个的值相近。因此聚类方法也能将那些与周围单元不相同的单元识别出来。10.3.2检验数据分布在空间统计的分析中，许多统计分析模型，如地统计分析，都是建立在平稳假

27、设的基础上，这种假设在一定程度上要求所有数据值具有相同的变异性。另外，一些克里格插值（如普通克里格法、简单克里格法和泛克里格法等）都假设数据服从正态分布。如果数据不服从正态分布，需要进行一定的数据变换，从而使其服从正态分布。因此，在进行地统计分析前，检验数据分布特征，了解和认识数据具有非常重要的意义。数据的检验可以通过直方图和正态QQPlot分布图完成。如果数据服从正态分布，数据的直方图应该呈钟形曲线，在正态QQPlot图中，数据的分布近似成为一条直线。10.3.3寻找数据离群值数据离群值分为全局离群值和局部离群值两大类。全局离群值是指对于数据集中所有点来讲，具有很高或很低的值的观测样点。局部

28、离群值值对于整个数据集来讲，观测样点的值处于正常范围，但与其相邻测量点比较，它又偏高或偏低。离群点的出现有可能就是真实异常值，也可能是由于不正确的测量或记录引起的。如果离群值是真实异常值，这个点可能就是研究和理解这个现象的最重要的点。反之，如果它是由于测量或数据输入的明显错误引起的，在生成表面之前，它们就需要改正或剔除。对于预测表面，离群值可能引起多方面的有害影响，包括影响半变异建模和邻域分析的取值。离群值的寻找可以通过三种方式实现：利用直方图查找离群值离群值在直方图上表现为孤立存在或被一群显著不同的值包围。但需注意的是，在直方图中孤立存在或被一群显著不同的值包围的样点不一定是离群值。用半变异

29、/协方差函数云图识别离群值如果数据集中有一个异常高值的离群值，则与这个离群值形成的样点对，无论距离远近,在半变异/协方差函数云图中都具有很高的值。用Voronoi图查找局部离群值用聚类和熵的方法生成的Voronoi图可用来帮助识别可能的离群值。熵值是量度相邻单元相异性的指标。通常，距离近的事物比距离远的事物具有更大的相似性。因此，局部离群值可以通过高熵值的区域识别出来。同理，聚类方法也可将那些与它们周围单元不相同的单元识别出来。(7hnel4.:1SI4Si!wxi.xa:3.池KriTts:ifl.iflTul-3tUnHjrtilfe:13TH颔鯛1ediu:lT53fi:1233_riS

30、msrtilft:2201C#+*5.54L5.SE25.22$5.06-44.$W.ME4.74.4234.2E-!M.LL2.窗Dal*-ID-3I:ip匸lisleardrdvk*1-ktlLisLddIdL3du*IB-ursRo自FStatistics/TrmiEars.LienTrxnxfamatsijfciDLQAtIrabu-/D-itaSaiiFCi图10.9直方图查找离群值图如图10.9,直方图最右边被选中的一个柱状条即是该数据的离群值。相应地，数据点层面上对应的样点也被刷光。10.3.4全局趋势分析(a)(b)图10.10趋势面分析透视面图通常一个表面主要由两部分组成：确

31、定的全局趋势和随机的短程变异。空间趋势反映了空间物体在空间区域上变化的主体特征，它主要揭示了空间物体的总体规律，而忽略局部的变异。趋势面分析是根据空间抽样数据，拟合一个数学曲面，用该数学曲面来反映空间分布的变化情况。它可分为趋势面和偏差两大部分，其中趋势面反映了空间数据总体的变化趋势，受全局性、大范围的因素影响。如果能够准确识别和量化全局趋势，在空间分析统计建模中就可以方便的剔除全局趋势，从而能更准确地模拟短程随机变异。透视分析是探测全局趋势常用方法，准确的判定趋势特征关键在于选择合适的透视角度。同样的采样数据，透视角度不同，反映的趋势信息也不相同。图10.10(a)为显示某地区东西方向(X轴

32、)和南北方向(Y轴)的高程趋势图。图10.10(b)逆时针旋转45度后，显示东南-西北方向和西南-东北方向的高程趋势图。趋势分析过程中，透视面的选择应尽可能使采样数据在透视面上的投影点分布比较集中，通过投影点拟合的趋势方程才具有代表性，才能有效反映采样数据集全局趋势。显然，图10.10(a)反映的趋势比图10.10(b)更为准确。10.3.5空间自相关及方向变异大部分的地理现象都具有空间相关特性，即距离越近的两事物越相似。这一特性也是空间地统计分析的基础。半变异/协方差函数云图就是这种相似性的定量化表示。空间自相关分析包括全程空间自相关分析和局部空间自相关分析，自相关分析的结果可用来解释和寻找

33、存在的空间聚集性或“焦点”空间自相关分析需要的空间数据类型是点或面数据，分析的对象是具有点/面分布特征的特定属性。全程空间自相关用来分析在整个研究范围内指定的属性是否具有自相关性。局部空间自相关用来分析在特定的局部地点指定的属性是否具有自相关性。具有正自相关的属性，其相邻位置值与当前位置的值具有较高的相似性。下面介绍两个常用的分析空间自相关的参数：Moransi和GearyC。1.空间权重矩阵地理事物在空间上的此起彼伏和相互影响是通过它们之间的相互联系得以实现的，空间权重矩阵是传载这一作用过程的实现方法。因此，构建空间权重矩阵是研究空间自相关的基本前提之一。空间数据中隐含的拓扑信息提供了空间邻

34、近的基本度量。通常定义一个二元对称空间权重矩阵WnXi来表达n个空间对象的空间邻近关系，可根据邻接标准或距离标准来度量，还可以根据属性值x.和二元空间权重矩阵来定义一个加权空间邻近度量方法。空间权重矩阵的表达形式为WWW11121nWWW21222n10.1)WWWn1n2nn根据邻接标准，当空间对象i和空间对象j相邻时，空间权重矩阵的元素Wij为1,其他情况为0，表达式如下：（i与j相邻）10.2)0（i=j或i与j不相邻）根据距离标准，当空间对象i和空间对象j在给定距离d之内时，空间权重矩阵的元素Wij为1，否则为0，表达式为Wj=（对象i与对象j距离小于d时）0（其他）10.3)如果采用

35、属性值xj和二元空间权重矩阵来定义一个加权空间邻近度量方法，则对应的空间权重矩阵可以定义如下:WxW*=好1jWxijjj=110.4)2.Morans参数Moransi是应用最广的一个参数。对于全程空间自相关，Moransi定义是:Morans工艺w(x-x)(x-x)ijijI=_ji-S2工Wijij知10.5)对于局部位置i的空间自相关，Moransi定义是:I.(d)=zwZiiijjj*i10.6)其中：n是观察值的数目；x.是在位置i的观察值；是x.的标准化变换,iii-1nx=xwj是对称的空间权重矩阵，如果i与j相邻，取值为w1,否则取值为0。j按照行和归一化后的权重矩阵（每

36、行的和为1）,非对称的空间权重矩阵。Moransi值介于-1到1之间，0为不相关。按照假定的空间数据分布可以计算Moransi的期望值和期望方差。对于正态分布假设，E(I)=(n-1)10.7)n2w-nw+3w2Var(I)=+20-w2(n2-1)0对于随机分布假设，10.8)E(I)=1(n-1)10.9)(八n(n2-3n+3)w-nw+3w2)-k(n2-n)w-2nw+6w2Var(I)+2o2+20-w2(n-1)(n-2)(n-3)010.10)w=其中0工Kwijijw=1工艺(12ijw+wijjiw=K(w+w2i.ii,Wi.是第i行权重值之和，Wi是第i列权重值之和。

37、亍-nK(x-x)4ik=*2n(K(x-x)2)2ii原假设是没有空间自相关。根据下面标准化统计量参照正态分布表可以进行假设检验。Z=iVar(I)10.11)MoransI如果是正的而且显著，表明具有正的空间相关性。即在一定范围内各位置的值是相似的，如果是负值而且显著的，则具有负的空间相关性，数据之间不相似。接近于0则表明数据的空间分布是随机的，没有空间相关性。3.GerayC参数对于全局空间自相关：(n-1)KKw(x-x)2ijijC(d)V2nS2KnKnwij10.12)对于局部位置i的空间自相关：C（d）=2w（x-x）2iijijj*i（10.13）其中，Wj是空间权重矩阵。C

38、的值总是正的。假设检验是如果没有空间自相关，C的均值为1。显著性的低值（0和1之间）表明具有正的空间自相关，显著性的高值（大于1）表明具有负的空间自相关。10.4分级统计分析分级是对数据进行加工处理的一种重要方法，通过分级可以把数据划分成不同的级别，体现数据自身的特征，为应用研究及专题制图提供基础。分级的概念与目的数据分级根据一定的方法或标准把数据分成不同的级别，也就是把一个数据集划分成不同的子集，在此过程中，还可设置分级精度和分级数目等。数据分级之后，仅使原来的数据重新归类，数据的属性没有发生改变，研究人员可以根据分级后的数据进行下一步的应用分析。数据分级的根本目的在于区分数据集中个体的差别

39、，分级统计的过程就是区别个体性质的过程。分级的应用目的有两点：一是为了分级后，图面制图效果好，有利于用户读图；二是用不同的分级方法来突出显示制图区域内不同的地貌特征。分级的原则科学性原则：分级指标的确定要遵循一定的科学规律；完整性原则：整个数据集中的所有数据都应被分到不同的级别中，没有遗漏，而且同一数据集中的每一数据只能被分到某一级别中，不能同时分到两个或多个级别中；适用性原则：对于一个数据集，应该根据研究或应用的需要选择合适的分级方法，使得分级结果能较好地满足目的；美观性原则：分级方法及分级数目的确定不但要依据研究目的，还要注重制图效果，制作专题地图不仅要体现数据的空间分布特征，还要使得图面

40、色彩平衡，特征明显，易于理解。分级统计的方法分级方法多种多样，在应用时应根据研究的需要选择合适的方法来突出需要的数据信息。分级方法的种类也很多，本书主要介绍以下三种：按使用分级方法的多少可分为单一分级法和复合分级法：单一分级是指对于一个数据集只用了一种分级方法；复合分级是指由于数据自身的特点，需要对一部分数据使用某种分级方法，对另一部分数据使用另外一种分级方法，才能更好地满足研究的需要。如一组坡度数据，一部分较小（坡面平缓），而另一部分很大（地势陡峭），对这两部分数据，就应选用两种不同的分级方法，才能更好地突出变化特征。按级差是否相等可分为等值分级法和不等值分级法：等值分级法又可以分为等面积分

41、级、等间距分级、分位数分级等：不等值分级法可以分为自然裂点法、标准差分级、平均值嵌套分级等。按确定级差的方法可分为自定义分级法和模式分级法。本节就是按这种分类体系展开讨论的，其结构图如下：图10.11分级方法的类型自定义分级自定义分级即对一个数据集，根据自己的应用目的设定各个级别的数值范围来实现分级的方法。这种方法适用于研究者对该数据集比较了解，能够找到合适的分级临界点。在自定义分级中，临界点的选择非常重要，临界点选择得好，就能够增强同一级别区域间的同质性分级和各级之间的差异性，分级结果就能够很好地满足各种分析需求。如在对坡度进行分级的过程中，应根据应用目标的要求，确定临界坡度。模式分级模式分

42、级就是指按固定模式进行分级，在固定模式中，级差由特定的算法自动设定。模式分级分为等间距分级、分位数分级、等面积分级、标准差分级、自然裂点法分级等。等间距分级等间距分级是一种最简单的分级方法，它按某个恒定间隔来对数据进行分级。假定数据最大值最小值集里有最大值和最小值，那么间距D=分级数。图10.12等间距分级示意图图10.13分位数分级示意图等间距方法原理简单、易操作，但当数据集中在某一小范围内时，各分级之间数据个数的差别太大会造成图面配置不均衡，影响了制图效果。可见，当数据具有均匀变化的分布特征时，等间距分级法就简明实用；若数据分布差异过大，将会以响制图与对统计结果的分析。图10.12为某一地

43、区温度数据的等间距分级示意图。分位数分级分位数分级是把数列划分为相等个数的分段，根据实际需要选择四分位、五分位、六分位十分位。为此，要先将数列按大小排列，从一端开始计算其分位数，把处于分位数上的那个值作为分级值。分位数分级可以使每一级别的数据个数接近一致，往往能产生较好的制图效果。图10.13为某地区温度数据的分位数分级示意图。等面积分级对于矢量数据而言，对每个多边形都可以求出其面积，将面积的值按大小顺序排列并累加，把累加面积分为相等的几段，作为分级范围，这样，每个级别中包含的样本数目虽然不同，但总面积基本一致。等面积方法使得每一级在图上占据的面积相等（或大致相等）。这种方法的特点是在图面上只

44、反映各级占有相同的面积，制图效果好，但是没有充分利用图面表示级间的差异。对于规则栅格数据而言,一定区域内的面积可由该区域内的栅格个数乘以栅格分辨率得到，所以按等面积分级只需考虑栅格个数即可。这时可以将数据按大小顺序排列，将数据个数累加，并把累加的个数分为相等的几段，这与分位数分级法得到的分级结果基本上是一致的。标准差分级标准差可以反映各数据间的离散程度，按标准差分级，首先要保证数据的分布具有正态分布的规律，才可计算平均值x和标准差Std.Dev,然后根据数据波动情况划分等级。以算术平均值作为中间级别的一个分界点，以一倍标准差参与分级时其余分界点为：x土Std.Dev，x2Std.Dev,x3S

45、td.Devx土iStd.Dev。当然也可以采用1/2倍标准差参与分级，即x1/2Std.Dev,x2/2Std.Dev,x3/2Std.Devx土i/2Std.Dev的形式，也可以用1/3倍标准差或1/4倍标准差。显然，分级数目是由数据本身所决定的，且对于同一数据集，采用一倍标准差时，分级数目最少，采用1/4倍标准差时，分级数目最多。图10.14为某地区温度数据的标准差分级示意图。自然裂点法分级任何统计数列都存在一些自然转折点、特征点，用这些点可以把研究的对象分成性质相似的群组，因此，裂点本身就是分级的良好界限。将统计数据制成频率直方图、坡度曲线图、积累频率直方图，都有助于找出数据的自然裂点

46、。如果频率最低点与峰值构成一个近似正态分布曲线，可以把任意两个正态分布曲线交点作为分级界线。图10.14标准差分级示意图图1015自然裂点法分级示意图自然裂点法基本上是基于让各级别中的变异总和达到最小的原则来选择分级断点的。由于自然裂点法是根据数据本身特征找出一些自然裂点进行分级的。图10.15为某地区温度数据的自然裂点法分级示意图。其他分级方法有规律的不等间距分级这种方法与等间距分级法的区别在于它的间距是按一定规律变化的，而不是一个恒定的间隔。该方法采用的间隔或级差有算术级数和几何级数两种，每种又都可通过以下六种变化方法来确定各级的分级间隔：按某一恒定速率递增、按某一加速度递增、按某一减速度

47、递增、按某一恒定速率递减、按某一加速度递减、按某一减速度递减。按嵌套平均值分级该方法先计算整个数据集的平均值，它将数据集分为两部分，每部分中再计算平均值，又各自把所有的那一部分分成两段，以此类推，就可以把数据集区分为2n个等级，即2的几何级数。n是计算中的平均值的嵌套序数，用这种方法只能得到偶数个级别，而不可能得到奇数个级别。按面积正态分布分级按数据的大小排列，累加其面积，然后按正态分布的规则使中间级别所占的面积较大，往高端和低端的级别中所占的面积都依次减小，并由此来确定每级的分界线。显然，这种方法不仅使每个级别中样本的数目不相等，而且各级别的累加面积呈正态分布。总之，关于数据的统计分级的研究

48、还很多，其目的都在于改善分级间隔的规则性、同级之中的同质性和不同级别之间的差异性等等。10.5空间插值空间数据插值是进行数据外推的基本方法。常用的插值方法有很多，分类并没有统一的标准，例如从数据分布规律来讲，有基于规则分布数据的内插方法、基于不规则分布的内插方法和适合于等高线数据的内插方法等；从内插函数与参考点的关系方面，又分为曲面通过所有采样点的纯二维插值方法和曲面不通过参考点的曲面拟合插值方法；从内插曲面的数学性质来讲，有多项式内插、样条内插、最小二乘配置内插等内插函数；从对地形曲面理解的角度，内插方法有克立金法、多层曲面叠加法、加权平均法、分形内插等；从内插点的分布范围，内插方法分为整体

49、内插、局部内插和逐点内插法。空间内插的根本是对空间曲面特征的认识和理解，具体到方法上，则是内插点邻域范围的确定、权值确定方法（自相关程度）、内插函数的选择等三方面的问题。由于每一种内插方法都有其自身的特点和适用范围，了解方法的特点是本质所在。本书并不打算对各种内插算法从数学实现方法上进行分析讨论，而是从内插范围分类方法入手对每一类内插方法的特点进行简要的分析归纳，同时为保证内容上的完整性和连续性，在本节只介绍概念上的东西，而具体的实现方法与相应内容请查阅相关文档。整体内插整体内插，就是在整个区域用一个数学函数来表达地形曲面，如图10.16所示。整体内插函数通常是高次多项式，要求地形采样点的个数

50、大于或等于多项式的系数数目。当地形采样点的个数与多项式的系数相等时，这时能得到一个唯一的解，多项式通过所有的地形采样点，属纯二维插值；而当采样点个数多于多项式系数时，没有唯一解，这时一般采用最小二乘法求解，即要求多项式曲面与地形采样点之间差值的平方和为最小，属曲面拟合插值或趋势面插值。从数学角度讲，任何复杂的曲面都可用多项式在任意精度上逼近，但由于以下原因，在空间内插中整体内插并不常用：曲面拟合Z=f(x,y)图10.16整体内插整体内插函数保凸性较差，高次多项式虽然能在任意精度上逼近地形曲面，并且能使数学曲面与实际地形曲面有更多的重合点，但由于多项式是自变量幕函数的和的形式，采样点的增减或移

51、动都需要对多项式的系数作全面调整，从而采样点之间会出现难以控制的振荡现象，致使函数极不稳定，从而导致保凸性较差；不容易得到稳定的数值解解，高次多项式的系数求解一般要解算较高阶的线性方程组，计算的舍入误差和数据采样误差（平面位置误差），都有可能引起多项式系数发生较大变化，使高次多项式不容易得到稳定的数值解。而且这种微小的数据扰动影响，在二元高次多项式中更为严重，因为在一元函数插值时，自变量误差仅在一个方向上（x轴），而在二维平面上，采样点的偏移方向却是无限的。多项式系数物理意义不明显，在低阶多项式中，各个系数的物理意义非常明确，例如线性多项是H=ax+by+c中，a、b分别为两个坐标轴方向的斜率

52、，而在高次多项式中，各个系数的物理意义一般不明确，容易导致无意义的地形起伏现象。解算速度慢且对计算机容量要求较高。b.三次趋势拟合图10.17江苏某地区GDP全局多项式趋势拟合不能提供内插区域的局部地形特征；整体内插虽然有如上的缺点，但其优点也是明显的，例如整个区域上函数的唯一性、能得到全局光滑连续的空间曲面、充分反映宏观地形特征等。整体内插函数常常用来揭示整个区域内的地形宏观起伏态势。在空间内插中，一般是与局部内插方法配合使用，例如在使用局部内插方法前，利用整体内插去掉不符合总体趋势的宏观地物特征。图10.17(a)和图10.17(b)分别为江苏某地区GDP二次拟合及三次拟合的全局多项式拟合

53、图。显然，次数越低，拟合的表面越粗糙，实际表面拟合的效果越差，大致代表了此区域的宏观趋势；次数越高，拟合面越光滑，拟合的结果更接近实际的表面。但并不是次数越高越好，次数过高使得计算量大大增加而精度提高不大，一般选用到三次即可。局部分块内插利用数学曲面来模拟实际地形表面，是地形表达的一个常用的手段。例如一阶线性平面可模拟具有单一坡度的斜坡地形表面，二次曲面方程可表达山头、洼地区域，而三次曲面则能描述较为复杂的地形曲面。然而低阶多项式虽然可表达各种地形曲面，但一个地区确常常包含各种复杂的地貌形态，简单的曲面并不能很好的表达这些地形曲面。理论上任何复杂的曲面都可用多项式进行逼近，但高阶多项式的上述缺

54、点，也不是理想的地形描述工具。解决这类问题的办法就是采取分而治之的办法，即将复杂的地形地貌分解成一系列的局部单元，在这些局部单元内部地形曲面具有单一的结构，由于范围的缩小和曲面形态的简化，用简单曲面就可较好的描述地形曲面。将地形区域按一定的方法进行分块，对每一块根据地形曲面特征单独进行曲面拟合和高程内插，称为空间分块内插(图10.18)。区域分块简化了地形的曲面形态，使得每一块都可用不同的曲面进行表达，但随之而来的是如何进行分块和如何保证各个分块之间的曲面的连续性。一般的可按地形结构线或规则区域进行分块，而分块大小取决于地形的复杂程度、地形采样点的密度和分布；为保证相邻分块之间的平滑连接，相邻

55、分块之间要有一定宽度的重图10.18局部分块内插方法叠，另外一种分块之间的平滑连接是对内插曲面补充一定的连续性条件。不同的分块单元可用不同的内插函数，常用的内插数函数有线性内插、双线性内插、多项式内插、样条函数、多层曲面叠加法等。线性内插和双线性内插形如H二ox+by+c的多项式称为线性平面,它将分块单元内部的地形曲面视为平面。如果在线性多项式中增加了交叉项xy，线性内插则变成双线性内插函数：H二ax+by+cxy+d，之所以称为双线性内插，是因为当y为常数时，表达的是x方向的线性函数，而当x为常数时，则为y方向的线性函数。线性内插函数中有三个未知数，需要三个采样点才能唯一确定，而双线性内插函

56、数中有四个未知数，需要四个已知点。线性内插和双线性内插函数由于物理意义明确，计算简单，是基于TIN和基于正方形格网分布采样数据的DEM内插和分析应用的最常用的方法。二元样条函数内插所谓样条曲面，就是将一张具有弹性的薄板压定在各个采样点上，而其它的地方自由弯曲。从数学上讲，就是一个分段的低次多项式，多项式的次数一般不超过三阶。通过样条函数，可以获取在各个采样点上具有最小曲率的拟合曲面。二元样条函数首先对采样区域进行分块，对每一块用一个多项式进行拟合，为保证各个分块之间的平滑过渡，按照弹性力学条件设立分块之间的连续性条件，即公共边界上的导数连续条件。虽然样条函数可适合的任意形状的分块单元，但一般还

57、是将其应用在规则格网分布的采样数据中。与整体内插函数相比较，样条函数不但保留了局部地形的细部特征，还能获取连续光滑的DEM。同时样条函数在拟合时，由于多项式的阶数比较低，对数据误差的响应不敏感，具有较好的保凸性和逼真性，同时也有良好的平滑性。图10.19为江苏某地区GDP的张力样条函数插值结果，图10.19(A)取权重为0,图10.19(B)取权重为5,图10.19(C)为两次插值结果的差值的绝对值。可以看出，权重越高，表面越粗糙，权重不同，局部地区插值结果变化比较剧烈。样条函数将地表分块视为弹性刚体，采取具有弹性力学条件的光滑连续条件。然后地形并不是一个狭义的刚体，也不具备满足弹性力学光滑性

58、条件。因此虽然样条函数具有严密的理论基础，但未必是数字地形内插的理想数学模型。spbtij-ij口-46】-q,7口阳-曲申.151-M.435叫416-问TH；理JT5-丁屯畑肥,：湖-讯.洽皑曲g-10*2511M,-L】E】Q119.231-l：H.-口斬-L暮LLBL5.1L3-K.W0口羽.K1-H.&qLlq.a2-5Q隹Fisa.703-71,SG1讥兗厅-09.-1S5曲.费-ICq.28TLD4-.2BS-LI9.L4SU2LQ9-LM.CO9图10.19张力样条函数插值结果Coons曲面与Geomap曲面Coons曲面是基于任意四边形的曲面拟合方法。它把复杂的地形曲面用两组

59、相交的曲线进行划分，构成一个曲线网络，其中的每一个网眼看作是由四条边界曲线围成的曲面片（曲边四边形），整个曲面则由各个曲面片拼接而成，曲面片的拼接可得到不同程度的连续性。地形曲面上的结构线如山脊线、山谷线为地形表面上的两类棱线，一般不呈横向坡角连续，因此Coons曲面可用于由地性线围成的地貌形态单元。但要注意，Coons曲面仅考虑的曲边四边形的边界曲线，而没有考虑曲面内部的信息，对于恰当描述地貌形态有一定缺陷。Geomap曲面是Bezier曲面在不规则格网划分上的推广形式，它通过控制点的增加和只考虑每条边界与相邻曲面片之间的连续性条件，较为简单地解决了在不规则格网划分上的光滑曲面构造。本质上，

60、Coons和Geomap属于同一类曲面拟合问题，因此Geomap在地形曲面上应用具有与Coons曲面类似的不足。多层曲面叠加内插多层曲面叠加法是美国依阿华州的Hardy教授在1977年提出的，它认为任何一个规则或不规则的连续曲面都可看成由若干个简单的曲面来叠加逼近。具体实现是在每个数据点上建立一个曲面，然后在垂直方向上将各个曲面按一定比例进行叠加，形成一张整体连续的曲面，曲面严格通过每一个数据点。多层曲面叠加法的核心是简单曲面的设计，也称为核函数。自该方法提出以来，已经发展了许多种核函数的设计方法，如锥面、双曲面、三次曲面、高斯曲面（以高斯曲线为母线的旋转曲面）、Authur法、吕言法、Wil

人人文库> 全部分类> 图纸下载 > 毕业设计

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

GIS的核心之三空间统计分析

文档简介

温馨提示

最新文档

评论