空间数据分析课件

上传人：2*** IP属地：贵州上传时间：2023-08-15 格式：PPT 页数：354 大小：3.01MB 积分：30 举报 版权申诉

已阅读5页，还剩349页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

空间分析的概念与研究进展1.空间分析的概念4种相互联系的空间分析概念:空间数据操作,空间数据分析,空间统计分析,空间建模.1.1空间数据操作主要应用于GIS中,包括缓冲区分析,距离,路径,面积计算及空间查询1.2空间数据分析空间分析的概念与研究进展1.空间分析的概念1.1空间数据操作1空间数据描述性与探索性分析技术与方法,特别是对规模庞大的数据集,通过数据图形化与地图化的探索性分析,研究数据中潜在的模式,异常等,为后续分析做准备.1.3空间统计分析用统计的方法研究空间数据的性质,这种统计方法与传统的统计分析方法不同.空间数据描述性与探索性分析技术与方法,21.4空间建模建立模型预测空间过程与结果2空间分析的研究进展线性回归是计量革命的核心技术,于是就出现了计量地理学,但计量地理学主要移植了统计分析方法,如相关分析，回归分析,聚类分析,因子分析,而对空间模式,空间过程,空间相互作用等理论与方法介绍的很少,因此受到了批评.1.4空间建模3

1970-1980,空间分析方法发展中非常重要的时代,在这一时期围绕地理现象的空间本质或地理数据的空间性质,建立了地理学的空间分析方法与体系.1969年,Tobler提出了地理学第一定理:任何事物都是空间相关的,距离近的事物空间相关性大.Clifford在1973年出版的专著中揭示了空间自相关的概念,展示空间随机条件下如何检验回归误差,1970-1980,空间分析方法发展中非常重要的时代4并揭示了空间加权矩阵的本质.1981年Ripley对空间点分布模式进行了研究,提出了测度空间点模式的K函数方法,OpenShaw对空间数据中的可塑面积单元问题进行了深入研究,这对正确使用空间数据及解释空间结果意义重大.并揭示了空间加权矩阵的本质.5Anslin提出描述局部相关性的测度方法与统计量,这一时期空间相关性的空间回归模型与空间自回归模型被提出,导致空间计量经济学的出现.20世纪90年代,空间分析的发展与GIS的发展紧密结合在一起,GIS为空间分析提供了广泛的数据源,空间分析集中体现在以下4个方面:Anslin提出描述局部相关性的测度方法与统计量,61)GIS的数据革命极大地促进了空间分析在众多领域的应用.2)数据环境发生了巨大的变化,空间分析需要的海量数据,迫切需要新一代的以数据为驱动的地理探索与建模工具,使分析处理过程中多维复杂性不被忽略.3)高性能计算机的出现,使复杂数据处理的空间分析成为可能.4)神经网络,遗传算法成为空间分析的范例1)GIS的数据革命极大地促进了空间分析在众多领域的应用.7空间分析的研究内容1)空间数据模型与地理世界的表示2)探索性空间数据分析与可视化3)空间数据的性质4)空间数据分析的点模式方法5)面数据的空间分析方法与空间回归模型6)空间连续数据的分析方法7)地图代数与栅格数据建模技术空间分析的研究内容1)空间数据模型与地理世界的88)地理模型与决策支持第2章空间数据的性质2.1地理世界的概念模型与数据模型对现实世界进行高度抽象,概括其概念模型,然后建立适应于计算机存储与表示的数据模型.2.1.1地理世界的概念模型8)地理模型与决策支持第2章空间数据的性质2.1地理世界91)离散实体通过其独特的局部化特征相互区别,通过特定属性的个体被识别,如建筑物,街道等.离散对象观的重要特征是可以计数.维数是离散实体的显著特征,实体自然被抽象为点(只有位置的0维实体),线(具有长度属性的一维实体)和多边形(占据一定面积的2维实体).1)离散实体10点,线与多边形的抽象与研究与空间尺度有关,如大尺度时城市就是一个点,城市为研究对象时就是一个多边形.具有连续变化的自然现象不适合用离散对象方法表示.空间对象的几何形态与属性特征共同构成地理信息的完整信息.属性特征常用表描述,表的一行是一个离散实体,一列是对象一个属性.点,线与多边形的抽象与研究与空间尺度有关,如大尺度时城11离散对象也可以表示连续变化的场,如用等高线表示地形的连续起伏,线的稀疏表示空间变化的剃度.2)连续场(标量场与矢量场)用连续表面描述地理现象的方法叫场的观点,场的观点认为世界被很多变量描述,每一变量在任何可能的位置都是可测量的.连续场描述的是空间-时间框架下地理变量的空间变化.离散对象也可以表示连续变化的场,如用等高线表示地形的连12表示连续世界的空间数据模型都是某种程度的近似,这些模型包括:规则(不规则)的空间点,等值线,规则单元格,不规则三角网,及多边形等.点模型与线模型不能完整地表示场,因为所关心的地理变量的值只存在于特定的点或线的位置上.空间插值的方法将基于点或线的模型转化为基于面的模型,如三角网,多边形.表示连续世界的空间数据模型都是某种程度的近似,这些模13不规则多边形表示场是经常使用的一种近似技术,如Thiessen多边形.提出及原理:荷兰气候学A·H·Thiessen提出根据离散分布气象站的降雨量计算平均降雨量的方法，即将所有相邻气象站连成三角形，作这些三角形各边的垂直平分线，每个气象站周围的若干垂直平分线便围成一个多边形。用这个多边形内所包含的一个唯一气象站的降雨强度来表示这个多边形区域内的降雨强度不规则多边形表示场是经常使用的一种近似技术,如Thi14泰森多边形的特性是：1),每个泰森多边形内仅含有一个离散点数据；2),泰森多边形内的点到相应离散点的距离最近；3),位于泰森多边形边上的点到其两边的离散点的距离相等泰森多边形的特性是：152.1.2GIS空间数据模型---矢量与栅格离散对象与连续场只考虑了地理现象的概念或方式,不能以数字的形式表示地理数据.1)栅格数据栅格表示中,地理空间被划分成矩形单元格矩阵,所有的地理变化通过对单元格赋予性质或属性来表示,但单元格内部的细节变化信息都丢失了,单元格有时被称为像素,如遥感影象是典型的栅格数据.2.1.2GIS空间数据模型---矢量与栅格16最大份额法:当一个单元格是多个区域的交叉地域时,单元格中占面积份额最大的区域拥有这个单元格.中心点法:中心点所属区域拥有此单元格.2)矢量数据矢量数据表示中,所有的线通过点直线连接而成,区域通过一系列点之间的直线连接,用多折线表示曲线.最大份额法:当一个单元格是多个区域的交叉地域时,单元格中17矢量形式表示的区域:形成区域多边形顶点的点被获取,此方法表示区域比栅格简单,因栅格表示多边形需列出所有单元格.2.1.3属性数据的测度地理信息中的属性非常广泛,有的是自然或环境的，有的是社会或经济的,区分属性信息的测度类型很重要.量测层次上将属性数据分为离散尺度或连续尺度,定性的或定量的.矢量形式表示的区域:形成区域多边形顶点的点被获取,此方法表18更详细的划分如下:变量类型空间表示点线面表示名义(=)案发地的分类道路是否在修补环境保护的功能区土地利用类型序数()区域中城镇按收入水平排序道路的等级分类城市中各县的收入水平土壤质量等级间距各城镇的产值份额河流的平均海拔高度城市中各县的产值份额地表温度比率连锁店销售额道路.河流长度区域的人均收入降水量更详细的划分如下:变量类型空间表示点线19名义属性:是对地理实体的分类,地理对象的名称是最好的例子,名义属性包括数字,文字,甚至颜色.对数字的名义属性进行运算没有任何意义.序数属性:序数属性的类型存在等级关系,序数属性的算术运算也没有任何意义.如区域收入等级划分.平均数无意义,中位数则有意义.间距属性:一个值对另一个值的差异幅度,而不是该值与真实零点之间的差值,因此数量关系的运算受到限制,加减运算有效,乘除无效.名义属性:是对地理实体的分类,地理对象的名称20比率属性:数值与真实零点之间差异幅度的度量,两个比率数值之间的加减乘除运算是有效的,如100Kg人的重量是50Kg人的两倍.空间广延量(面积)与空间强度量(密度).此外还要注意数据的方向与周期.空间数据的性质空间数据的性质直接影响空间分析与建模.比率属性:数值与真实零点之间差异幅度的度量,两个比率211空间依赖性与空间异质性1.1空间依赖性空间上距离相近事物的相似性比距离远的事物的相似性大.其含义如下:空间某一位置i,某变量的值与其邻近位置j上的观测值有关,其形式为:1空间依赖性与空间异质性22假如地理现象是由一个过程及其表述的环境定义,过程表示现象基本因素的变化,环境表示现象的观测框架(空间与时间),空间依赖性表示环境对过程的重要影响.这样传统统计理论关于独立同分布的假设是不成立的.空间依赖性是通过空间自相关测度的,空间自相关的指标多样,可分为全局测度与局部测度.假如地理现象是由一个过程及其表述的环境定义,过程表示23全局测度给出研究区域整体的一个参数或指数局部测度提供与数据观测点等量的参数或指数1.2空间异质性异质性表明空间数据的变化不是平稳的,但在局部其变化可能是一致的,于是就出现了局部模型,但局部模型的应用会增加空间数据分析的误差与不确定性.空间每一点的地理要素之间存在不同的关系:如都是空间观测数据全局测度给出研究区域整体的一个参数或指数都是空间观测数据24如房屋价格与CBD距离关系的空间异质性1.3可塑性面积单元问题与生态缪误面积单元对分析结果的影响,1)尺度效应:空间单元经聚合改变尺度大小时,空间数据的统计分析结果也会发生变化,且不同聚合方案得到不同的结果.2)划区效应:不同聚合方式对分析结果的影响.可塑性面积单元问题是由区域数量,规模,形状对空间数据分析的影响.如房屋价格与CBD距离关系的空间异质性25P24有关两种效应的说明MAUP对政治也有影响.分析结果仅对所采用的面积单元有效,在其他尺度上无效,因此将某一尺度上的结果推广到其他尺度上将导致生态缪误.P24有关两种效应的说明26空间数据的不确定性空间数据的质量对建模分析，表示,结果及决策的正确性意义重大.空间数据使用者主要依赖二次数据源,且记录的时间误差也隐含在数据集中,空间数据的不确定性取决于误差结构随着地图上位置的而变化.如遥感数据虽然经过几何校正,但位置误差还是不均匀的.空间数据的不确定性空间数据的质量对建模分析，表示,结果27明确不确定性的类型,来源及产生机制对提高空间数据质量,建立控制与修正机制意义重大.1.不确定性的类型1.1空间不确定性这种不确定性是由对象定义的主观性引起的,如不清晰的边界,空间对象的属性具有主观性.明确不确定性的类型,来源及产生机制对提高空间数据质量281.2对象定义的不确定性对象定义依赖于人为规定1.3关系不确定性生物量与测树因子的关系1.4分区问题气候类型区的划分,很多专家意见不一.2地理现象测度的不确定性2.1物理测量误差(高山海拔测量)1.2对象定义的不确定性292.2数字化误差2.3不同来源数据集整合时的误差3地理对象表示的不确定性3.1栅格数据表示的不确定性栅格数据将空间划分为等面积的单元格(像素),一个单元格不完全是一个属性构成,而包含了某几个属性,这样的单元格为混合元,但一个单元格只能有一个值,这样混合元的值为其优势值或中心点值.2.2数字化误差30这样就会丢失某些信息,使栅格数据结构扭曲空间对象的形状.3.2矢量数据表示的不确定性(数据聚集引起)这样就会丢失某些信息,使栅格数据结构扭曲空间对象的形状.31探索性空间数据分析与可视化1.EDAESDA与可视化EDA技术的特点是数据不做假设,而是利用统计图表,图形和统计概括方法对数据特征进行分析与描述,从而对数据进行更为复杂的建模分析.ESDA技术是EDA的推广,空间数据存在自相关性,使数据无法满足独立性假设.探索性空间数据分析与可视化1.EDAESDA与可视化321.1EDA与可视化基本方法包括两种类型:1)计算EDA,2)图形EDA技术1.1.1箱线图属性数据表不能反映总体特征,分布特征与相互之间关系,需要通过统计方法集中反映数据集中性,分散性,偏态性,异常性等.箱线图是反映属性数据这些特征的常用方法.1)中位数与分位数某一变量的n个记录为:1.1EDA与可视化基本方法33数据的值从小到大进行排序中位数是从小到大排列数据中位于中间位置的数:中位数的本质是数据排列的位置,不受异常值的影响,比均值稳定.数据的值从小到大进行排序中位数是从小到大排列数据中位于中间位34中位数反映数据的集中性,描述分散性的统计量是极差:分位数是另一种利用数据的位序描述数据的统计量,设p是[0,1)之间的一个数,有n个位序统计量,则p分位数为:中位数反映数据的集中性,描述分散性的统计量是极差:分位数是另35是np位序位置上的数值,最常用的分位数:p=0.75,p=0.25,分别记为,其含义为小于的数据的个数分别占数据总数的75%和25%,因此也称为上,下四分位数.2)极差上下四分位数之间的差值为半极差(H):极差是度量数据分散性的指标.是np位序位置上的数值,最常用的分位数:p=0.75,p=036若数据序列符合正台分布总体,则其总体的上下四分位数为:当数据存在异常值时,标准差缺乏稳定性,因此可作为数据分散性的稳健度量.3)三均值若数据序列符合正台分布总体,374)异常数据与极端数据异常数据的判断标准:设A1,A2分别是异常数据的上下截断点,非异常数据的分布区间为:异常数据的分布范围为:异常数据中分离出极端数据的分布范围:以外的数据4)异常数据与极端数据非异常数据的分布区间为:异常数据的分布385)箱线图1.1.2茎叶图与直方图1)茎叶图的构造P39的数据,P40表示构造方法.2)茎叶图的行数选择根据数据个数n确定行数的方法有:5)箱线图393)直方图的区间宽度([f,xt]=hist(x,k))H为极差,L的计算见以上3式.1.1.3散点图与散点图矩阵1)散点图与变量之间关系的可视化P41的4组数据说明.2)散点图与异常点的分析bar(xt,f),3)直方图的区间宽度([f,xt]=hist(x,k))H403)散点图与不同类别的数据4)散点图矩阵研究多个变量之间的关系,但只能研究多个成对变量间的关系.5)平行坐标图具体方法是将相邻两坐标轴的间距设为等距,坐标轴之间平行的,就可以表示高维空间变量之间的关系.3)散点图与不同类别的数据41对于连续变量首先进行标准化,然后画平行坐标图.绘制方法:从y轴开始，做实轴的N个拷贝，标记为x1,x2,…,xN,等距放置并且垂直于x轴,N个轴都具有和y轴一样的正方向,点被表示成一条折线,其N个顶点位于轴上,从而建立了RN中的点与顶点分别在x1,x2,…,xN轴上的平面折线间的一一对应关系对于连续变量首先进行标准化,然后画平行坐标图.从y轴开始，做42欧式空间与平行坐标空间的映射关系**点的对应关系欧式空间的点对应平行坐标的直线，如M(A,B)**线的对应关系在笛卡尔坐标系下的线由两点唯一确定，同理在平行坐标下的两点也确定一线，不过这时的线表示成一点，如ax+by=c欧式空间与平行坐标空间的映射关系**点的对应关系43ESDA与空间数据可视化地图是空间数据可视化的重要手段,ESDA是将地图与各种统计图结合起来.1主题地图名义变量用独立值表示,但该数值不能进行任何运算.序数变量用等级符号与分层设色图表示.间隔变量与比率变量体现数据的连续变化,用等级符号,范围图表示.ESDA与空间数据可视化地图是空间数据可视化的重要手442主题地图表示的数据分类问题数据分类方法有:等间隔,等范围,自然分割法,分位数分类,自定义等.同一数据用不同的分类方法会产生不同的解释.分类需要注意的问题:1)包含所有范围的数据(最大与最小)2)使用不重叠的值和不空的类3)分类数量足够大以保证数据的精确性分类数量n:2主题地图表示的数据分类问题分类数量n:455)划分数据集到合理等价的观测组中6)如果可能给出一个逻辑数学关系P49的分类实例**应根据实际情况进行自定义分类5)划分数据集到合理等价的观测组中46空间点模式方法根据地理实体或时间的空间位置研究其分布模式的方法为空间点模式1.点模式的概念及空间分析技术研究区域R内的一系列点的组合是第i个观测事件的空间位置.空间点模式方法根据地理实体或时间的空间位置研究其分布47点模式分为3种类型:聚集分布,随机分布,均匀分布.点模式的分析方法:1)以聚集性为基础的基于密度的方法,常用样方计数法和核函数法,2)以分散性为基础的基于距离的方法,常用最近邻指数,G-函数,F-函数,K-函数等.空间依赖性所产生的空间效应:1)一阶效应,描述某个参数均值的总体变化,即全局趋势点模式分为3种类型:聚集分布,随机分布,均匀分布.482)二阶效应,是由空间依赖性产生的,表达的是邻近值相互趋同的倾向,通过与均值的偏差获得.一阶效应用点过程密度描述,在点s处单位面积内事件的平均数目.:点s周围一个足够小的领域,:内的事件数目2)二阶效应,是由空间依赖性产生的,表达的是邻近值相互趋同的49二阶效应通过研究区域中两个足够够小的子区域内事件数目之间的相互关系,基于密度的方法—样方计数法与核函数法1.样方计数法将区域划分为面积相等的子区域(样方),根据每一个样方中的事件数量计算与概括统计量,再将计算值除样方面积得点分布的密度.二阶效应通过研究区域中两个足够够小的子区域内事件数目之间的相50一般使用随机分布模式作为理论上的标准分布,然后将计算得到的点密度与理论分布作比较,判断点模式是属于聚集分布,均匀分布还是随机分布.样方形状,采样方式,样方起点、方向、大小都会影响到点的观测频次与分布.样方的形状与大小必须一样,以保证采样的均匀性.样方尺寸的计算公式为:一般使用随机分布模式作为理论上的标准分布,然后将计算51:样方面积,A:研究区域面积,n:研究区域中点的数量.观测频率与已知频率的显著性差异用K-S检验,1.1K-S检验通过比较观测频率分布与某一标准频率分布,确定观测分布模式的显著性.过程如下:1)假设两个频率分布之间不存在显著性差异.:样方面积,A:研究区域面积,n:研究区域中点的数量.观测频522)给出一个显著性水平a,如a=0.053)计算两个频率分布的累积频率分布4)计算K-S检验的D统计量,分别是两个分布的第i个等级上的累积频率.5)计算作为比较基础的门限值(m是样方数量)2)给出一个显著性水平a,如a=0.05分别是两个分布的第i53如果是两个样本模式的比较,则使用如下公式:m1,m2分别是两个样本模式的数量.6)如果计算得到的D值大于,则两个分布的差异在统计意义上是显著的.1.2实例(P62-P64)如果是两个样本模式的比较,则使用如下公式:m1,m2分别是两54随机分布点模式是通过泊松过程产生,泊松分布公式:随机分布点模式:研究区域中存在n个随机分布的点时,一个样方中恰好有1,2,…,k,…,n个点落入其中的概率分布,其含义是平均每个样方中包含的点的数量.随机分布点模式是通过泊松过程产生,泊松分布公式:随机分布点模55概率计算的递推公式为:1.3方差均值比的X2检验泊松分布的重要特征是均值=方差=因此,X2检验是随机分布点模式的另外一种方法.概率计算的递推公式为:1.3方差均值比的X2检验56方差均值比,如果空间点模式接近泊松分布,则1)基本原理:假设m个样方中分别有个事件的记数,然后定义统计量I(分散性指数):方差均值比,如果空间点57根据样方计数计算I,后将I与显著性水平为a的值进行比较,如果I显著大于表示聚集分布,反之表示均匀分布.还可以定义聚集性指数如果E(ICS)>0,表示聚集分布模式,反之表示规则分布模式.**样方计数法只能获得样方内的信息,不能获得样方内点之间的信息,有局限性(P66)根据样方计数计算I,后将I与显著性水平为a的值581.2核函数方法地理事件可以发生在空间的任意位置上,不同位置上事件发生的概率不一样,点密集的区域事件发生的概率高.空间模式在点s上的密度通过研究区域中单位面积上的事件数量来估计,最常用的方法是使用滑动的圆来统计落在圆域内的事件数量,再除以圆的面积,就得到点s处的事件密度.1.2核函数方法59设s处的事件密度为,则:以s为中心,r为半径的圆域#表示事件S落在圆域C中的数量核密度估计的定义为:设X1,X2,…,Xn是从密度函数f的总体中抽取的样本,要依据这些样本对每一个x估计设s处的事件密度为,则:以s为中心,r为半径的圆60f(x)的值,f(x)的估计有参数与非参数估计问题,这里讨论非参数估计:用点把直线分成若干个小计数区间,这样计数区间的端点与宽度都是固定的,记Ni为样本点落在第i个区间[ai,ai+1)里的个数,则f(x)在[ai,ai+1)里的函数估计值为:f(x)的值,f(x)的估计有参数与非参数估计问题,这里讨61如果对每个x各作一个以x为中心的小计数区间[x-h,x+h],再对落在该区间的样本点计数,设为N(x,h),则密度估计为:再引进函数则有如果对每个x各作一个以x为中心的小计数区间[x-h,x+h]62加权模型事实上可以对这种矩形核函数放宽限制,只需要以下条件的K(x)都可以:对于一般的概率密度函数这些条件都满足.加权模型事实上可以对这种矩形核函数放宽限制,只需要以下条件的63K():核函数,h>0,为宽度,(x-Xi):估计点到事件Xi处的距离.K()一般为概率密度函数,常用正态核函数,四次多项式核函数,均匀核函数等,h的选择很重要:取得太小，会增加随机的影响，使fn(x)波动较大，呈现出不规则的形态,K():核函数,h>0,为宽度,(x-Xi):估计点到事件X64取得太大，则x经过了（x-Xi）/h的压缩之后平均作用变得突出，会使得fn(x)过于平稳,灵敏性不好,一般来说在数据密集区，h选小一点,反之大一点.**h选择问题:取得太大，则x经过了（x-Xi）/h的压缩之后平均作用变得突651)核函数估计的边缘效应靠近研究区域R边界的地方会扭曲核估计的边缘效应,因此在区域R的边界上建立一个警戒区,另外还可以边缘校正的核函数:1)核函数估计的边缘效应66计算样本向量x的概率密度估计，返回在xi点的概率密度f，使用plot(xi,f)就可以绘制出概率密度曲线2)实例ksdensity[f,xi]=ksdensity(x)f=ksdensity(x,xi),与上面相同，只是此时的xi已经给定计算样本向量x的概率密度估计，返回在xi点的概率密度f，使用67基于距离的方法1.最邻近距离法使用最邻近点对之间的距离描述分布模式,形式上相当于密度的倒数,可看作是与点密度相反的概念.计算最邻近点对之间的平均距离,再比较观测模式与已知模式(随机模式)之间的相似性,基于距离的方法68当观测模式的最邻近距离大于随机模式的最邻近距离,则观测模式趋于均匀,否则趋于聚集.1.1最邻近距离任意一点到其最邻近点之间的距离。事件si的最邻近距离记为dmin(si),点对之间的最邻近距离不是相互的,但必然存在很多点对之间的最邻近距离是相互的.(P71)当观测模式的最邻近距离大于随机模式的最邻近距离,则观691.2最邻近指数测度方法1)计算任意一点到其最邻近点的距离(dmin)2)对所有的dmin按照模式中的点的数量n,求平均距离,3)在CSR模式中同样可以得到平均的最邻近距离,其期望为E(dmin),最邻近指数R定义为:1.2最邻近指数测度方法70考虑区域边界的修正,则:P为边界周长考虑区域边界的修正,则:P为边界周长71判断如下:1)当R=1,观测事件过程来自于完全随机模式,属于随机分布.2)R<1,表明大量事件点在空间上相互接近,属于空间聚集模式.3)R<1,表明事件模式中的空间点相互排斥趋向于均匀分布.另外还存在极端聚集,事件发生在区域的同一位置,这时R=0,判断如下:72极端均匀模式是均质区域上邻近的3个点构成等边三角形,这一分布模式的平均最邻近距离为,最邻近指数R=2.149.1.3显著性检验首先计算观测的平均最邻近距离与CSR的期望平均距离差,并与作比较,如果前者小于后者,则点模式属于CSR.否则相反极端均匀模式是均质区域上邻近的3个点构成等边三角形,73理论上得到的标准差为这一标准差可构造一个服从N(0,1)的统计量:当显著水平为a时,Z的置信区间为如果Z>ZaorZ<-Za则观测模式与CSR之间存在显著差异.如果存在显著差异,则当Z为负数时,模式趋于聚集,否则趋于均匀.理论上得到的标准差为741.4实例G函数与F函数最邻近距离揭示空间点模式分布特征存在忽略最邻近距离分布信息的缺陷(P76所示是一种偏态分布与P75得到的均匀分布不一致).G函数与F函数是用最邻近距离的分布特征揭示空间点模式的方法.1.4实例751.G函数G函数记为G(d),使用所有最邻近事件的距离构造出一个最邻近距离的累积频率函数:为研究区域的一个事件,n是事件的数量,d是距离,#dmin(si)<=d:距离小于d的最邻近点的计数,随着d的增大,最邻近距离点积累个数也增加,G(d)也增加,0<=G(d)<=11.G函数为研究区域的一个事件,n是事件的数量,d是距离,#76计算G(d)的过程如下:1)计算任意一点到其最邻近点的距离dmin.2)将所有最邻近距离列表,并按照从小到大顺序排序.3)计算最邻近距离的变程R和组距D,R=max(dmin)-min(dmin),k=1+Lg(n)/Lg(2),D=R/k,4)根据组距的上限值,累积计数点的数量,并计算累计频数G(d).计算G(d)的过程如下:775)画G(d)关于d的曲线图.G函数分析空间点模式的依据是G(d)曲线的形状,如果空间点分布计较聚集,则具有较小的最邻近距离的点数目就多,则G函数会在较短的距离内快速上升,G函数先平缓后快速增长,则是均匀分布模式.2.F函数F函数与G函数的思想一致,F函数在被研究5)画G(d)关于d的曲线图.78的区域内产生一新的随机点集是第i个随机点位置然后计算随机点到事件点S之间的最邻近距离,再沿用G函数的思想,计算不同最邻近距离上的累积点数和累积频率,公式为:随机选择的pi点到事件点S的最邻近距离,即任一随机点到其最邻近事件点的距离.的区域内产生一新的随机点集是第i个随机点位置然后计算随机点到79**G函数与F函数的区别:G函数通过事件点之间的接近性描述分布模式,F函数是通过选择的随机点与事件之间的分散程度描述分布模式,F函数曲线缓慢增加到最大,表明是聚集,快速增加到最大表明是均匀分布模式.3.F函数与G函数的统计推断3.1.CSR过程中的G和F完全随机过程的泊松点过程,在最邻近距离**G函数与F函数的区别:G函数通过事件点之间的接近性描述80变化范围内的某个距离d内,点的数量均值等于,在最邻近距离小于等于d时的累计概率分布为:*G(d)与CSR(G(d))判断点分布模式见P81*F(d)与CSR(F(d))判断点分布模式见P81*G-F坐标图判断点分布模式见P82变化范围内的某个距离d内,点的数量均值等于,在814显著性检验的随机模拟方法检验方法用蒙特卡罗随机模拟方法:首先在研究区域R上利用蒙特卡罗随机模拟方法,产生m次的CSR点模式,并估计理论分布:是在R区域上模拟的n个CSR事件的m次独立随机模拟,且没有经过边4显著性检验的随机模拟方法是在R区域上模拟的n个CSR事件的82缘校正的经验分布函数的估计.为了评价观测模式与CSR模式差异的显著性,需要计算m次随机模拟中分布函数G的上界U(d)与下界L(d):画出及观测模式的如果观测模式与CSR一致,则画出的是直线,缘校正的经验分布函数的估计.画出83计算得到的模拟m次CSR经验分布函数的上界与下界提供了与CSR差异显著性的方法,得到的概率公式为:显著性水平决定产生的随机模拟次数,如果G(d)函数曲线位于U(d)的上方,则观测模式为显著聚集,位于L(d)下放,则显著均匀,位于U(d)与L(d)之间,则与CSR(d)无显著差异.计算得到的模拟m次CSR经验分布函数的上界与下界提供了与CS84K函数与L函数最邻近距离只考虑了点在最短尺度上的关系,实际的地理事件可能存在多种不同的尺度作用,于是出现了基于二阶性质的K函数与L函数方法.1.K函数1.1定义与K函数估计K函数与L函数最邻近距离只考虑了点在最短尺度上的关85K函数也是基于研究区域R中所有事件间距离的方法。对于变量为一系列距离为d的K函数,计算的最容易方法是依次在各个事件中心设置半径为d的圆，计算落入每个半径为d的圆内其它事件的数量,并计算出所有事件的平均数量。对于一系列d值这个过程不断重复.K函数也是基于研究区域R中所有事件间距离的方法。对于86空间数据分析ppt课件87在研究区域R内的两个点S1,S2的每一个领域内发现至少一个点的概率(),忽略在一个领域中发现多于一个点的概率,于是有:r是二阶性质的描述,引入一阶性质,有:是二阶性质与一阶性质比值,在研究区域R内的两个点S1,S2的每一个领域内发现至少一个点88称为径向分布函数,或点对相关函数,将其记为:如果点过程是各向同性的,那么g(.)仅依赖于两个点S1与S2之间的距离d,记为g(d),若点过程又是独立分布的,则于是g(.)=1.称为径向分布函数,或点对相关函数,将其记为:如果点过程是各向891)定义点Si的近邻是距离小于等于给定距离d的所有点,近邻点数量的数学期望记为于是有:则K函数定义为:1)定义90表示以任意点为中心,半径为d的圆域内点的数量.2)K函数的估计,a为研究区域的面积.K(d)的计算过程如下:表示以任意点为中心,半径为d的圆域内点的数量.,a为研究区域91(1)对每一个事件设置一个半径为d的圆,(2)计算d距离内点的数量,(3)将所有事件d距离内点的数量求和,然后用n乘以密度,这样可得到每一个事件.(4)对任意距离d重复执行上述过程.3)K函数的边缘效应与校正(1)对每一个事件设置一个半径为d的圆,92当dij超出研究区域范围时,需进行校正消除边缘效应.wij是较正因子,实际中周长校正法与面积校正法较常用,具体见有关文献.1.2K函数点模式判别准则如果点过程是相互独立的CSR,对于所有的当dij超出研究区域范围时,需进行校正消除边缘效应.wij是93有,且,或,比较就能建立判别空间点模式的准则.,表示d距离上和CSR过程事件的期望值相同.2),表示d距离上点的数量比期望数量多,d距离上的点是聚集的.有,且94,情况与上相反.1.3实例P86L函数K函数在使用上不灵活,于是就提出了L函数,CSR模式中,L(d)=0,因此L函数更容易比较观测值与CSR模式的理论值之间的差异.L函数中,正峰值表示点在这一尺度上聚集,情况与上相反.CSR模式中95负的峰值表示点的均匀分布.(P87)蒙特卡罗方法:所求解问题是某种随机事件出现的概率，或者是某个随机变量的期望值时，通过某种“实验”的方法，以这种事件出现的频率估计这一随机事件的概率，或者得到这个随机变量的某些数字特征，并将其作为问题的解。三个主要步骤:1）构造或描述概率过程负的峰值表示点的均匀分布.(P87)蒙特卡罗方法:所求解问题96对于本来不是随机性质的确定性问题，比如计算定积分，就必须事先构造一个人为的概率过程，它的某些参量正好是所要求问题的解。即要将不具有随机性质的问题转化为随机性质的问题。2）实现从已知概率分布抽样(0,1)上的均匀分布3）建立各种估计量实现模拟实验后，要确定一个随机变量，作为对于本来不是随机性质的确定性问题，(0,1)上的均匀97所要求问题的解2.1显著性检验---蒙特卡罗方法观测值与理论值的比较给出了点模式的判别准则,但无法给出显著性检验.原理如下:按CSR过程生成m次的分布数据,计算每一次CSR过程的L(d),如果的观测值小于给定的d尺度上对应CSR过程中的最小值或大于最大值时,可判点模式在这所要求问题的解98一尺度上显著异于CSR.具体过程如下:1)按照CSR过程,创建于观测事件模式数量相同的点,2)计算,3)以上两步骤重复n,4)对于每个d,确定最小与最大的模拟值5)根据最大与最小的,画出的包迹线.2.2实例P89一尺度上显著异于CSR.具体过程如下:99K函数方法的扩展--二元模式与时间空间模式当考虑某种类型的事件聚集分布与其他类型事件聚集有关时,若两事件模式趋于比期望的两个独立模式更接近时,则在空间上相互吸引,否则相互排斥.由于地理过程的动态性,随着时间的变化,事件发生在不同的点上,引起对时间-空间聚集性的探索.K函数方法的扩展--二元模式与时间空间模式当考虑某种1001.两元模式与交叉K函数设观测的第一类事件为案例事件,共有n1个,第二类事件为环境异质性的控制事件,共有n2个.将两个事件合并在一起,希望n1个案例事件随机地附在两个事件的组合中,是事件的一个随机标记,在随机标记的条件下,证明了案例事件K11函数与控制事件的K22函数完全相同,用此结果研究二元模式的空间集聚性问题.1.两元模式与交叉K函数101交叉K函数定义为:或S1是模式2中以任意事件S2i为中心,距离d为半径的范围内第一个模式中事件的数量.不管两个事件模式基本分布如何,如果相互之间是独立的,则交叉K函数与CSR的相同交叉K函数定义为:或S1是模式2中以任意事件S2i为中心,距1022.D函数在CSR条件下,K11(d)=K22(d)=K12(d),于是将两个事件合并为一个点集,计算案例事件样本与控制事件样本K函数的差异,定义一个D函数检验案例事件是否有显著的聚集性:当,环境的空间异质性存在,案例事件在尺度d上聚集,2.D函数当,环境的空间异质性存103环境的空间异质性存在,案例事件在尺度d上均匀.3.显著性检验1)案例事件(S1)与控制事件(S2)组合为一个点集.2)在组合的点集中随机抽取n1个事件样本模拟案例事件.3)根据模拟案例事件与控制事件,计算环境的空间异质性存在,案例事件在尺度d上均匀.1044)重复m次,5)获得随机模拟的最大与最小的根据以上准则,就可判断案例事件与控制事件的空间点模式.4.实例P915.空间-时间模式与D函数对每一个事件附加一个时间标记,于是空间-时间K函数定义为:4)重复m次,105事件的空间密度,事件的时间密度,在时间间隔t内,以任意点Si为中心,d为半径的距离内事件数量的期望.如果运行在时间与空间上的过程是独立的,则K(d,t)=K(d)K(t).事件的空间密度,事件的时间密度,在时间间隔t内,以任意点Si106这时的D函数为:面状数据空间模式分析方法空间接近性与空间权重矩阵1.空间接近性空间接近性实质上是面积单元之间的距离关系,而接近程度用空间权矩阵描述.1.1边界邻接法这时的D函数为:面状数据空间模式分析方法107面积单元之间具有共享的边界,称为是空间接近的,用边界邻接定义一个面积单元的直接邻接,后根据临界的邻接关系定义间接邻接或多重邻接.1.2重心距离法(P95中图5.2的说明)面积单元的重心或中心之间的距离小于某个指定的距离,则面积单元在空间上是接近的.面积单元之间具有共享的边界,称为是空间接近的,用边界邻接定义1082.空间权重矩阵假设研究区域中有n个多边形,任意两个多边形都存在一个空间关系,这样就有n*n对关系,需要n阶矩阵存储这些空间关系.2.1二元邻接矩阵共享边界定义邻接:2.空间权重矩阵109重心距离法也可以类似的定义:这样构成的权重矩阵称为二元邻接矩阵.二元邻接矩阵的性质:1)对角线元素cii=0;2)矩阵具有对称性,cij=cji;3)矩阵的行元素和等于该空间单元直接邻居的数量;重心距离法也可以类似的定义:这样构成的权重矩阵称为二元邻接矩110高阶形式的二元邻接矩阵,考虑任意一个面积单元的三阶最近邻,则得接近性矩阵W,这是一个非对称的接近性矩阵,矩阵各行求和值等于该行对应面积单元的3阶近邻数量.2.2行标准化权重矩阵行和记为Ci,Wij=Cij/Ci.2.3重心矩阵与权重矩阵(距离描述近邻关系)高阶形式的二元邻接矩阵,考虑任意一个面积单元的三阶最近邻,则111一般采用二次方的倒数.面状数据的趋势分析1.空间滑动平均一般采用二次方的倒数.面状数据的趋势分析1.空间滑动平均112空间滑动平均:利用近邻面积单元的值计算均值的一种方法.设区域R中有m个面积单元,对应于第j个面积单元的变量Y的值为yj,面积单元i邻近的面积单元数为n,则滑动平均公式:或2.中位数光滑空间滑动平均:利用近邻面积单元的值计算或2.中位数光滑113当数值中存在离群值时,中位数更加稳定.一个变量的空间分布可看作是多种因素影响下的空间过程的一个实现,这个空间过程包含了全局趋势,局部效应和随机误差.变量yij分解为::总趋势,:行和列效应或局部效应总的均值为:当数值中存在离群值时,中位数更加稳定.:总趋势,114中位数光滑算法的一般过程如下:1)将每一行的中位数记录在该行的边上,并在每一行中减去中位数.2)计算行中位数的中位数,将其作为总的效应,从每一行中位数中减去总效应.3)将每一列的中位数记录在该列的边上,并在每一列中减去中位数.4)计算列中位数的中位数,将其和总效应相加,从每一列中位数的总效应中减去这一数值.中位数光滑算法的一般过程如下:1155)重复步骤1-4,直到行列中位数不再发生变化.例子:P101-1023.核密度估计方法考虑面积单元之间的距离,首先计算各个面积单元的重心Si,用面积单元S(重心)周围的单元Si的变量值估计S的值,d=S-Si,则面积单元S的估计值为:5)重复步骤1-4,直到行列中位数不再发生变化.116该值适合于面积单元中变量是连续的情况,如果变量是计数值,则用下式:该值适合于面积单元中变量是连续的情况,如果变量是计数值,则用1171)最近邻重心赋值法根据两种面积单元重心的接近程度进行,原则是用变换后面积单元重心计算其变换前最邻近面积单元的重心,最邻近重心对应面积单元的值对变换后面积单元赋值.2)重心对多边形赋值法将变换前面积单元的重心和变换后的面积单元进行多边形叠加,根据重心落入的多边形对新的1)最近邻重心赋值法118面积单元赋值.3)面积权重法根据一组面积单元和另一组面积单元进行叠加,用前一组面积单元落入的面积权重平均对另一组面积单元进行插值.空间自相关空间自相关是空间域中位置s上的变量与其邻近位置sj上同一变量的相关性.面积单元赋值.119对任意空间变量Z,空间自相关测度的是Z的近邻值对于Z相似或不相似的程度.一般通过交叉乘积,平方差异或绝对差异描述空间自相关,这些值小,则空间正相关,大则空间负相关.1空间随机性如果任意位置上观测的属性值不依赖于近邻位置上的属性值,则空间过程是随机的.对任意空间变量Z,空间自相关测度的是Z的近邻值对于Z相120对于连续空间变量Y,若下式成立，则空间独立:n为区域中面积单元的数量.以下三种空间随机过程:(1)赋值到n个位置的连续变量{Xj}来自于正态分布.(2)赋值到n个位置的离散变量的值来自于n次硬币的投掷.对于连续空间变量Y,若下式成立，则空间独立:n为区域中面积单121(3)坐标为(i,j)位置上的变量值Yij在一定程度上受到近邻位置值的影响.名义变量的空间自相关测度-连接记数法设规则网格中分布的二元数据的变量或属性为x,则变量在任意网格单元的取值只能是1或0两个数,或黑白两种颜色:(3)坐标为(i,j)位置上的变量值Yij在一定程度上受到近122二元数据网格单元的连接类型为:BB,WW,BW/WB设研究区域共划分为n个单元,其中编码为1的单元有n1,编码为0的单元有n2,于是以上3种情况的计数分别为:二元数据网格单元的连接类型为:BB,WW,BW/WB设研究区123Wij为接近性矩阵,取值根据邻接规则的不同而不同.Wij为接近性矩阵,取值根据邻接规则的不同而不同.124**比较BB,WW,WB的计数判断空间模式的结论:当相邻单元具有相似名义变量时,存在正空间相关;当相邻单元具有不相似名义变量时,存在负空间相关;但是与随机空间模式进行比较才能给出空间模式的推断.完全随机条件下,3种模式期望计数值分别为:**比较BB,WW,WB的计数判断空间模式的结论:当相邻单元125在采样位置不可置换情况下,3种连接方式期望计数值为:J=JBB+JWW+JWB,pB:单元编码为B概率若相似的编码相互排列在一起,若不相似的编码相互排列在一起,则在采样位置不可置换情况下,3种连接方式期望计数值为:J=JB126完全随机条件下,标准差的期望分别为:式中m为:Ji为第i个单元的连接数完全随机条件下,标准差的期望分别为:式中m为:Ji为第i个单127在随机条件下,得到各种连接类型计数的均值与方差的基础上,可构建一个服从正态分布的统计量:J*:上述3种连接方式的计数值,通过实际计算的Z值和一定显著性水平p上对应的Zp值,可知空间模式是否异于随机模式.在随机条件下,得到各种连接类型计数的均值与方差的基础上,可构128空间自相关统计量-Moran’sI和Geary,sC连接计数存在一些缺陷:1)连接计数目只适应于二元名义变量,2)计算复杂且统计量Z解释困难,3)现实世界的大部分变量是以间距或比率尺度测度的Moran’sI统计研究区域中存在n个面积单元,第i个单元上空间自相关统计量-Moran’sI和Geary,sC129的观测值为yi,观测变量在n个单元中的均值为,则Moran’sI定义为:是一个协方差,I值的大小决定于i和j单元中的变量值对均值的观测值为yi,观测变量在n个单元中的均值为是一个协方差,I130的偏离符号,在相邻位置上,yi与yj同号,则I为正,否则为负.写成矩阵的形式为:Moran’sI指数的变化范围是(-1,1),如果空间过程不相关,则I的期望接近于0,当I取负值时,表示负自相关,否则表示正自相关.*I指数与随机模式中的I指数比较推断空间模式的偏离符号,在相邻位置上,yi与yj同号,则I为正,否则为负131假设随机变量Y的观测值来自于正态分布,且Yi与Yj是空间依赖的,则抽样得到I的分布是近似的正态分布,且有:式中假设随机变量Y的观测值来自于正态分布,且式中132构造服从正态分布的Z统计量:2Geary,sC统计量C是非负的,完全空间随机过程的期望值C=1构造服从正态分布的Z统计量:2Geary,sC统计量C是非133C<1,表示正的空间自相关,C>1,表示负的空间自相关,当相似的值聚集时,C趋向于0,当不聚集时,C趋向于2,C与I比较,是一种反方向的.C<1,表示正的空间自相关,C>1,表示负的空间自相关,当134广义G统计量当高值面积单元或低值面积单元相互之间接近时,I与C都指示相对高的正空间自相关.广义G统计量:式中i不等于j.距离d之内的面积单元作为i的近邻,当i与j的距离小于d时,Wij(d)=1,否则为0,当i与j的距离大于d时,xi与xj的点对不包括广义G统计量当高值面积单元或135在分子中,分母包括所有的xi与xj.在计算广义G统计量之前,需定义近邻距离d.为了检验广义统计量,需知G(d)的期望与方差.其它符号见P114.在分子中,分母包括所有的xi与xj.其它符号见P114.136局部空间自相关统计量由于空间异质性的存在,使研究区域的某一部分中是正的空间自相关,另一些区域中是负的空间自相关.1.空间联系局部指标LISA说明局部尺度上空间自相关水平,对面积单元i,其局部Moran,sI统计量为:局部空间自相关统计量由于空间异质性的存在,使研究区域的137zi,zj分别是对于均值和标准差的标准化变量,是xi的标准差.局部Moran,sI值高说明具有相似变量值的面积单元空间聚集.局部Moran,sI值低说明具有不相似变量值的面积单元空间聚集.空间权重定义了i与j之间的关系.zi,zj分别是对于均值和标准差的标准化变量,138见P117C的局部化:见P117C的局部化:1392.局部G统计量标准化后的值容易得到解释,其均值与方差如下:2.局部G统计量标准化后的值容易得到解释,其均值与方差如下:140当相似的高值面积单元形成空间聚集时,会产生高的z值,如果空间积聚由低值的面积单元产生,则z值趋于高的负值.零附近的z值没有明显的空间联系模式.第6章空间回归分析,残差独立时,残差不独立时,即矩阵C仍不能说明空间依赖性当相似的高值面积单元形成空间聚集时,会产生高的z值,如果空间141空间自回归模型回归分析忽略了地理问题的空间性质,不能给出空间模式有效描述.在回归模型中加入自相关与空间非平稳项能克服回归模型的不足.空间自相关要借助空间单元之间的邻接关系,在实际分析中,经常将W转化为行和为1的矩阵C.利用标准化矩阵C,得到某一位置变量值受邻近位置影响的表达式空间自回归模型回归分析忽略了地理问题的空间性质,不能给142这样一般的空间自回归模型表示为:为需要估计的回归参数,反映样本数据内在的空间依赖性.为随机误差1.空间自回归模型这样一般的空间自回归模型表示为:为需要估计的回归参数,反映样143Y:因变量,X:解释变量矩阵,u:随空间变化误差项,:白噪声,W1,W2:已知的空间加权矩阵,该模型可以得到很多空间自回归模型.1)X=0,W2=0,得一阶空间自相关模型y的变化是邻接空间单元因变量的线性组合,解释变量X对y变化没贡献.该式与时间序列的自回归模型类似.Y:因变量,X:解释变量矩阵,u:随空间变化误差项,1442)设W2=0,回归空间自回归组合模型为:y的变化与邻近单元的因变化及解释变量X有关.3)W1=0,则有:2)设W2=0,回归空间自回归组合模型为:y的变化与邻近单元1454)空间Durbin模型,将因变量的空间延拓项与自变量的空间延拓项加在模型中.空间延拓与时间序列分析的延拖算子类似,空间延拓是空间位置上的位移.2.完全空间自回归模型4)空间Durbin模型,将因变量的空间延拓项与自变量的空间146:空间自相关系数,W是对于y的空间加权矩阵,对每一个观测位置,有:该模型中,通常用标准化的空间邻接矩阵,用最小二乘表示参数为:但该参数估计是有偏的,导致有偏的原因是由于空间自相关的存在,空间采用过程不独立,:空间自相关系数,W是对于y的空间加权矩阵,对每一个147类似时间序列模型,也可采用高阶空间自相关模型研究空间问题,W(i)是第i阶空间邻接权重矩阵,为相应的自相关系数,使用高阶空间自相关模型时,p阶邻接矩阵可以产生空间延拓,但也会产生信息的沉余,故用一定的方法,消除高阶邻接矩阵中沉余的邻近信息.类似时间序列模型,也可采用高阶空间自相关模型研究空间问题,W148补充极大似然函数:X的概率密度函数为,X1,…,Xn是来自X的样本,x1,…,xn是其取值,则样本的似然函数为:极大似然估计就是使似然函数达到极大补充极大似然函数:1493.空间自回归-回归组合模型模型系数估计过程:1)对模型,实施最小二乘估计2)对模型,实施最小二乘估计3)计算残差4)找到使似然函数极大的3.空间自回归-回归组合模型模型系数估计过程:1504)设使Lc最大,计算5空间自回归误差模型4)设使Lc最大,计算5空间自回归误差模型151是空间相关误差的系数,该式需要检验多元回归模型残差的空间自相关性,若存在空间自相关性,则使用该式合理.常用的检验方法如下:Moran’sI检验方法1)非标准化的W:2)标准化的W:构建标准正态分布统计量:1)非标准化的W情况下,见P1262)标准化的W情况下,见P126是空间相关误差的系数,该式需要检验多元回归模型残差的空间自相152利用检验残差是否存在空间自相关.Ward统计量检验法:1)式中利用检验残差153拉格朗日算子统计量:6.空间Durbin模型或含有解释变量的空间延拓,其贡献通过表示拉格朗日算子统计量:6.空间Durbin模型或含有解释变量的154模型的参数通过极大似然估计,通过下式估计(使似然函数取最大值)5.广义空间自相关模型模型的参数通过极大似然估计,通过下式估计(使似然函数取最大值155W1,W2一般写成不同的形式,系数的估计采用极大似然估计.W1,W2一般写成不同的形式,系数的估计采用极大似然估计.156地理加权回归模型空间自回归模型的参数不随空间位置的变化,本质上是全局模型,但由于空间异质性的存在,不同空间子区域上自变量与因变量之间的关系可能不同,这样就产生了空间局部回归模型,地理加权回归模型(GWR)就产生了.GWR模型的一般形式是:是与观测位置i对应的参数地理加权回归模型空间自回归模型的参数不随空间位置的变157每个位置对应一个参数向量,局部加权回归获得空间每一点的参数估计为:1.GWR模型及估计方法自变量的回归系数随空间位置的变化而变化.:因变量y与解释变量在位置(ui,vi)处的观测值.每个位置对应一个参数向量,局部加权回归获得空间每一点的参数估158是关于空间位置的p个未知函数.在每个位置处用加权最小二乘对系数进行估计2.参数估计方法每个位置的权重是从该位置到其他观测位置距离的函数.是关于空间位置的p个未知函数.在每个位置处用加权最小二乘对系1593.权重与带宽的选择用交叉检验方法确定带宽h,画h与离差平方和的函数图来确定3.权重与带宽的选择用交叉检验方法确定带宽h,160局部模型显著好于全局模型吗?要检验,4.GWR模型显著性检验方法中至少一个是随空间位置变化的在H0假设下,用最小二乘拟合线性模型,获得离差平方和RSS(H0).在H1假设下,用拟合地理加权回归,获得离差平方和RSS(H1),于是构造F检验统计量:局部模型显著好于全局模型吗?要检验,中至少一个是随空间位置变161用p值方法检验两个假设:,f是统计量F的观测值计算P值后，给定显著性水平α与P值比较:如果α>P值，显著性水平α下拒绝原假设。如果α≤P值，显著性水平α下接受原假设。4.1地理加权回归模型残差的空间自相关设为空间变系数模型的残差,是特定的权重矩阵,用p值方法检验两个假设:,f是统计量F的观测值计算P值后，162残差的Moran’sI与Geary’sC为:检验空间自相关的p值为:5.组合地理加权回归模型残差的Moran’sI与Geary’sC为:检验空间自相163按照先全局变量后局部变量,MGWR如下:使用MGWR模型，需先识别那些项具有常数参数,那些项目有可变参数.5.1MGWR常数参数项的识别不是所有的都相等按照先全局变量后局部变量,MGWR如下:使用MGWR模型，需164拟合GWR参数:为处系数向量的估计.ek为单位向量.于是构建如下统计量:拟合GWR参数:为处系数向量的估计.ek165J为每一元素为单位值的n阶矩阵6.MGWR模型的估计与推断J为每一元素为单位值的n阶矩阵6.MGWR模型的估计与推断1661)重写MWGR模型获得(ui,vi)处的空间变系数估计1)重写MWGR模型获得(ui,vi)处的空间变系数估计167其中2)将代入原始的MGWR模型中,得写成矩阵形式为:其中2)将代入原始的MGWR模型中168空间数据分析ppt课件169可再得7.地理加权回归模型实例组合地理加权回归模型可写为：根据最小二乘客估计后将带入下式：可再得7.地理加权回归模型实例组合地理加权回归模型可写为：根170第7章空间连续数据分析方法探索性分析方法1.空间滑动平均近邻点的平均值估计未知点的方法,公式如下:对于采样点不规则的空间,权重的计算用距离的倒数:第7章空间连续数据分析方法1.空间滑动平均对于171该方法的缺陷是:1)需要多大的局部领域内的样本点对未知点数据进行估计是未知的,2)存在空间异质性时,领域大小,方向,形状会对估计产生影响,3)权重的确定依赖经验,缺乏理论支持,4)估计结果依赖于采样点的布局.2.基于嵌块的空间插值方法2.1不规则三角形TIN该方法的缺陷是:172相邻数据点连线产生不规则三角网,用三角法沿着顶点计算3维空间中两点之间的距离,由于构成三角形的3个顶点的属性值不同,3个顶点构成的面用一个3维空间上的平面函数表示,任意位置上的数值用这个平面函数计算.2.2Voronoi多边形方法该方法的插值有两种:1)利用样本点的分布构建Voronoi多边形,每一多边形内任意点要素的值等于位于这个多边形内样本点的属性值.相邻数据点连线产生不规则三角网,用三角法沿着顶点计算1732)利用已知样本点构造Voronoi多边形,当数据集中加入新的数据点时,自动修改这些Voronoi多边形,利用未知点最邻近多边形面积为权重,采用滑动平均公式计算未知点的属性值.构造方法如下:将空间分为n个区域,每个区域包含一个点,该点所在区域是距离该点最近点的集合,这样的区域是Voronoi多边形.2)利用已知样本点构造Voronoi多边形,当数据集中加入新1742.3核密度估计方法位置s处属性y的均值如下:趋势面分析根据样本点数据对研究区域进行全局建模的一种方法,矩阵形式表示趋势面模型如下:2.3核密度估计方法趋势面分析根据样本175e(s):均值为0的随机变量,表示趋势面的波动,是空间坐标(x,y)的p阶函数,1)线性趋势面的p函数是(1,x,y);2)二次趋势面的p函数(1,x,y,xy,x2,y2);在趋势面分析中,假设误差具有常数方差且相互独立,于是最小二乘估计为:e(s):均值为0的随机变量,表示趋势面的波动,176二次趋势面的X为:显著性检验统计量为:二次趋势面的X为:显著性检验统计量为:177连续数据的空间依赖性测度1.协方差图与半方差图假设空间随机过程满足:对于任意的两点si,sj,空间随机过程的协方差:相关系数与方差为:连续数据的空间依赖性测度1.协方差图与半方差图对于任意的两点178若,则过程是平稳的,均值与方差独立于空间位置,有:为过程的协方差函数.2变异函数区域变量si,sj差的方差的一半定义为变异函数.其表达式为:若,则过179对协方差函数有:为了简单起见,把区域化随机变量si写为Z(x)sj写为Z(x+h).对协方差函数有:为了简单起见,把区域化随机变量si写为Z(x180h=si-sj,平稳条件下这样有C(h)=C(0)-r(h)空间相关函数:3.协方差函数和变异函数的计算公式3.1.协方差函数的计算公式变异函数为:h=si-sj,平稳条件下空间相关函数:3.协方差函数和变异181设Z(x)为区域化随机变量，并满足二阶平稳条件，h为两样本点空间分隔距离,Z(xi)和Z(xi+h)分别是Z(x)在空间位置xi和xi+h上的观测值(i＝1．2，……,N(h)),则有如下公式:设Z(x)为区域化随机变量，并满足二阶平182是分隔距离为h时的样本对总数Z(xi)的样本平均数如果,则是分隔距离为h时的样本对总数Z(xi)的样本平均数如果183协方差函数与相关函数有密切的关系是先验方差,其值为:协方差函数与相关函数有密切的关系是先验方差,其值为:184样本平均数3.2.变异函数的计算公式设Z(x)为区域化随机变量，并满足二阶平稳与本征假设.则变异函数的计算公式为:样本平均数3.2.变异函数的计算公式设Z(x)为区域化随机变1853.3计算实例1)一维变异函数的计算设Z(x)是一维区域化随机变量、满足二阶平稳和本征假设:点之间分隔距离h=1(m)3.3计算实例1)一维变异函数的计算设Z(x)是一维区186当h=1,2,…,8时,计算当h=1,2,…,8时,计算187变异函数的结构分析1协方差函数和变异函数的性质区域化变量的结构分析是以变异函数模型为基础的，结构分析的主要目的是指导我们怎样根据实际观测数据建立有效且合适的变异函数模型，并对模型进行理论分析及专业解释。为此、了解协方差函数和变异函数的性质非常重要。变异函数的结构分析1协方差函数和变异函数的性质1881.1协方差函数的性质设Z(x)是区域化变量，在满足二阶平稳的假设条件下，协方差函数存在，并定义为:协方差函数具有下列性质：1.1协方差函数的性质设Z(x)是区域化变量，在满足二189先验方差不能小于0.C(h)是偶函数.5)C(h)是非负定函数.1.2变异函数的性质h增大,相关性降低先验方差不能小于0.C(h)是偶函数.5)C(h)是非负定函190设Z(x)是区域化变量，在满足二阶平稳的假设条件下，变异函数存在，并定义为:变异函数具有如下性质:设Z(x)是区域化变量，在满足二阶平稳的假设条件下，变1911.3协方差函数与变异函数的关系在讨论区域化变量二阶平稳件条件时，协方差函数和变异函数关系为:在二阶平稳假设条件下。Z(x)的协方差函数C(h)和变异函数r(h)存在且平稳1.3协方差函数与变异函数的关系在讨论区域化变192协方差函数与变异函数2者之间的关系为:协方差函数与变异函数2者之间的关系为:193h>=a时,即h足够大,可使这里a是变程,变程a的大小,反映区域化变量影响范围的大小,因此变程a为区域化变量空间变异尺度或空间自相关尺度.时,区域化变量是空间自相关的,否则自相关不存在.h>=a时,即h足够大,可使194变异函数的跃迁现象跃迁现象解释如下:变异函数的跃迁现象跃迁现象解释如下:195r(h)的极限值称为“基台值”,它等于区域化变量的先验方差C(0).凡具有一个变程a和一个基台值的变异函数称为跃迁型变异函数.的任意数据Z(x)必然与落在同一范围内的任意其他数据Z(x+h)互相关,这种相关随着2点间距离的加大而下降.r(h)的极限值称为“基台值”,它

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

空间数据分析课件

文档简介

温馨提示

最新文档

评论

空间数据分析课件

文档简介

温馨提示

最新文档

评论

相关文档