第四章GIS空间分析与查询1-2改安全_第1页
第四章GIS空间分析与查询1-2改安全_第2页
第四章GIS空间分析与查询1-2改安全_第3页
第四章GIS空间分析与查询1-2改安全_第4页
第四章GIS空间分析与查询1-2改安全_第5页
已阅读5页,还剩154页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第四章空间数据查询、分析及应用模型 天津理工大学主要内容 空间数据的查询空间数据的分析 空间分析的模型方法 应用分析模型与GIS系统工具的集成和GIS应用系统的环境模式 天津理工大学第一节 空间数据的查询 空间数据查询的含义 空间数据查询的方式 查询结果的显示方式 天津理工大学空间数据查询的含义空间数据查询就是指:作用在GIS数据上的函数,它返回满足条件的内容。 查询是GIS用户最经常使用的功能,用户提出的很大一部分问题都可以以查询的方式解决,查询的方法和查询的范围在很大程度上决定了GIS的应用程度和应用水平。 天津理工大学空间数据查询的方式 基于属性数据的查询 基于图形数据的查询 图形属性混

2、合查询 模糊查询 自然语言空间查询 超文本查询 符号查询 天津理工大学 基于属性数据的查询:根据空间目标的属性数据来查询该目标的其他属性信息或者相应的图形信息。 属性 属性属性 图形天津理工大学 基于图形数据的查询:基于图形的查询是可视化的查询,用户通过在屏幕上选取地物目标来查询其对应的图形和属性信息。基于图形的查询包括两种方式:区域查询和点选查询。天津理工大学 图形与属性的混合查询:图形与属性的混合查询是指查询条件同时包括了图形部分的内容和属性方面的内容,查询结果集应该同时满足这两个方面的要求。天津理工大学 模糊查询:一般意义上的模糊查询指的是限定需要查询的数据项的部分内容,查询所有数据项中

3、具有该内容的数据库记录。天津理工大学 自然语言空间查询:所谓自然语言查询就是在GIS的数据查询中引入人类使用的自然语言(区别于程序语言和数据库SQL语言),通过简单而意义直接的自然语言来表达数据查询的要求。天津理工大学 超文本查询:超文本方式查询是一种基于IE浏览器的查询,在浏览器里面,可以把图形、图像、字符等皆当作文本,并设置一些“热点”(HotSpot),“热点”可以是文本、键、图形或者其部分等。用户用鼠标点击“热点”后,浏览器可以弹出说明信息、播放声音、完成某项工作等,这些信息往往都是与该目标相关联的信息,从而达到“查询”的目的。但超文本查询只能预先设置好,用户不能实时构建自己要求的各种

4、查询。天津理工大学 符号查询:地物在GIS中都是以一定的符号系统表示的,系统应该提供根据地物符号来进行查询的功能。其实质是通过用户指定某种符号,在符号库中查询其代表的地物类型,在属性库中查询该地物属性信息或者图形信息。天津理工大学查询结果的显示方式 地图:空间数据的最佳表示方式。 选定参数,基于SQL查询天津理工大学第二节 空间数据的分析 空间分析是基于空间数据的分析技术,它以地学原理为依托,通过分析算法,从空间数据中获取有关地理对象的空间位置,空间分布、空间形态、空间形成、空间演变等信息。 目的通过对空间数据的深加工或分析,获取新的信息,为空间行为提供决策依据。天津理工大学空间数据的缓冲区分

5、析空间数据的叠置分析空间数据的网络分析空间数据的统计分析空间数据的泰森多边形分析天津理工大学缓冲区分析 概念是指围绕地理要素的一定宽度的区域性。缓冲区分析是指根据分析对象的点、线、面实体、自动建立它们周围一定距离的带状区,用来确定这些实体的辐射范围和影响度。天津理工大学分类 数据类型分 基于矢量数据的缓冲区分析 基于栅格数据的缓冲区分析 从图形分 点缓冲区 先缓冲区 面缓冲区天津理工大学 作用:一般用于求地理实体的影响范围,即邻近度的问题 如道路的噪声影响范围就是沿道路建一定宽度的缓冲区,车流量决定缓冲区的半径。 如某地区有危险品仓库,要分析一旦仓库爆炸所涉及的范围,这就需要进行点缓冲区分析。

6、 如果要分析因为道路改造需拆除的建筑物和需要搬迁的居民,则需要进行线缓冲区分析。缓冲区的作用天津理工大学天津理工大学基于矢量数据的缓冲区的建立天津理工大学天津理工大学线类主体对两侧邻近对象施加的作用和线类主体对两侧邻近对象施加的作用和强度不同强度不同-不对称缓冲区不对称缓冲区天津理工大学天津理工大学天津理工大学天津理工大学天津理工大学栅格数据的缓冲区分析 相对于矢量数据,栅格数据的缓冲区分析操作较为简单。在栅格数据中可以将缓冲区看作是对网格单元向其周围8个方向进行一定距离的扩展。种子扩展算法是一种典型的建立栅格数据缓冲区的方法。单个网格单元的缓冲区天津理工大学天津理工大学叠置(合)分析天津理工

7、大学天津理工大学12AB2A1A1B2B10a12bcdefgab区域类型数面积101143合成叠合统计叠合地貌图土壤图合成图土壤图行政图统计表11天津理工大学天津理工大学天津理工大学类型: 点与多边形叠合 线与多边形叠合 多边形与多边形叠合天津理工大学天津理工大学1234ACBD点号属性1属性2多边形号属性31A2C3B4D点与多边形叠合分析点与多边形叠合分析天津理工大学天津理工大学线号原线号多边形号11B21C32C43C线与多边形叠合分析线与多边形叠合分析213BACD天津理工大学天津理工大学多边形与多边形叠合 将两个或多个多边形图层进行叠合产生一个新多边形图层的操作,其结果将原来多边形

8、要素分割成新要素,新要素综合了原来两层或多层的属性。 叠合过程可分为几何求交过程和属性分配过程两步。被叠合的多边形本底多边形用来叠合的多边形上覆多边形产生的具有多重属性的多边形新多边形天津理工大学 几何求交过程首先求出所有多边形边界线的交点,再根据这些交点重新进行多边形拓扑运算,对新生成的拓扑多边形图层的每个对象赋以多边形唯一标识码,同时生成一个与新多边形对象一一对应的属性表。 属性分配过程最典型的方法是将输入图层对象的属性拷贝到新对象的属性表中,或把输入图层对象的标识作为外键,直接关联到输入图层的属性表。也可以结合多种统计方法为新多边形赋属性值。天津理工大学叠加分析实例叠加分析实例AB123

9、451B2B1A2A4A3A5B3B4B降雨量土壤类型适宜农作物矢量图层叠加分析矢量图层叠加分析天津理工大学天津理工大学栅格图层叠加分析栅格图层叠加分析栅格图层叠加栅格图层叠加天津理工大学天津理工大学天津理工大学应用 如何得到某市区内危险化学品储存场所的个数? 如何知道某省区内雨量站点的个数? 如何获得某城市的消防所分布的密度? .天津理工大学栅格数据的空间叠置分析 在GIS中基于栅格数据的空间叠置分析有时是必要的,并且算法比基于矢量的空间叠置分析要简单的多,栅格数据的空间叠置分析可以概括为三种变换运算: 点变换 区域变换 邻域变换天津理工大学 点变换 是指对单个栅格单元进行属性值的运算,点变

10、换函数不受邻域点上属性值的影响,也不受区域内一般特征的影响.其运算函数可以是加、减、乘、除、指数、对数、三角函数等。天津理工大学 主要的点变换算法原理:赋常数(constant):将上一层所有的像元赋予一个常数加法(Add):各层上属性相加得到新层上相应点的值减法(Substract):两层上对应点的属性相减覆盖(Cover),用第二幅图上的非零像元覆盖第一幅图产生新图。天津理工大学 提取(Extract):从一层上选取特定属性值或值的区间产生新层 分类(Slice):将连续值按数据区间分成类别 逻辑组合(Cross):把几幅图的属性按布尔逻辑关系组合成新图。天津理工大学 区域变换: 指在计算

11、新层属性时,不仅与原叠置层的栅格属性值有关,也与栅格所在地的区域长度、范围、周长、形状有关,与原图层同名栅格的个数有关。天津理工大学 主要变换函数:按面积分类(SIZE) :按计算出的每个区域的面积大小和输出地图的要求重新给予每个区域一个名称。确定区域形状(RULER):确定一定区域的形状和某一层上分离开的区域数量。天津理工大学 邻域变换: P163 指在计算新层属性时,不仅考虑叠置层对应栅格本身和其它属性值相同的区域,而且也要考虑与该栅格相关联的邻域或影响半径范围内的栅格属性值的影响。天津理工大学例:洪水淹没损失估算损失与如下因素有关(1)地形高程,高程值大于500米的范围不受洪水淹没,由高

12、程多边形的最大高程属性(Hight)决定。(2)土地使用,只对住宅用地分析,由地块多边形的土地使用属性(landuse)决定(3)地基类型,房屋的损失在差地基上比好地基上大,由地基损失参数表(found,dbf)中的地基类型(Class)和损失系数确定。(4)地块上居民的财产,由地块的估计财产属性(Value)决定。天津理工大学叠置分析的步骤 确定空间分析的目标与标准 准备空间操作的数据 空间操作 为表格分析准备数据 表格分析 评价并解释分析结果 进一步分析结果 产生分析结果天津理工大学天津理工大学数据处理过程 计算地块财产密度 空间叠合 计算叠合后的多边形面积 计算地块估计损失、地块损失密度

13、 过滤地块,表达分析结果。天津理工大学天津理工大学天津理工大学天津理工大学计算结果为叠合后多边形的面积计算结果为叠合后多边形的面积天津理工大学天津理工大学天津理工大学天津理工大学天津理工大学天津理工大学天津理工大学天津理工大学天津理工大学天津理工大学天津理工大学空间数据的网络分析概念空间网络分析(spacial network analysis)是GIS空间分析的重要组成部分。网络是一个由点、线的二元关系构成的系统,通常用来描述某种资源或物质在空间上的运动。GIS中的网络分析是依据网络的拓扑关系(线性实体之间,线性实体与结点之间,结点与节点之间的连接,连通关系),通过考察网络元素的空间及属性数

14、据,以数学理论模型为基础,对网络的性能特征进行多方面的一种分析计算。天津理工大学网络的组成一个网络由以下一个网络由以下基本要素组成:基本要素组成:节点(节点(node)链(链(links)障碍(障碍(barries)拐角(拐角( turn)中心(中心(centers)站点(站点(stops)天津理工大学 (1)结点。网络中任意两条线段或路径的结点。网络中任意两条线段或路径的交点,其属性如方向数、资源数量等。交点,其属性如方向数、资源数量等。(2)链或弧段。连接两个结点的弧段或路链或弧段。连接两个结点的弧段或路径,是网络中资源运移的通道。其属性径,是网络中资源运移的通道。其属性如资源流动的时间、

15、速度、资源种类和如资源流动的时间、速度、资源种类和数量、弧段长度等。数量、弧段长度等。(3)障碍。指资源不能通过的结点,如被障碍。指资源不能通过的结点,如被破坏的桥梁和禁止通行的关口等。它是破坏的桥梁和禁止通行的关口等。它是惟一不表示任何属性的元素。惟一不表示任何属性的元素。天津理工大学 (4)拐角。在网络的结点处,资源运移方向可拐角。在网络的结点处,资源运移方向可能转变,从一个链经结点转向另一个链,例能转变,从一个链经结点转向另一个链,例如在十字路口禁止车辆左拐,便构成拐角。如在十字路口禁止车辆左拐,便构成拐角。其拐角的类型及其属性描述见表其拐角的类型及其属性描述见表512。(5)中心。指网

16、络中具有从链上接受或发送资中心。指网络中具有从链上接受或发送资源能力的结点所在地,如水库属于河网的中源能力的结点所在地,如水库属于河网的中心,学校属于路网的中心等等。其属性如资心,学校属于路网的中心等等。其属性如资源最大容量、最大服务半径等。源最大容量、最大服务半径等。(6)站点。是网络中装卸资源的结点所在地,站点。是网络中装卸资源的结点所在地,例如车站、码头等。其属性如资源需求量,例如车站、码头等。其属性如资源需求量,正值表示装载量,负值表示下卸量。正值表示装载量,负值表示下卸量。天津理工大学天津理工大学天津理工大学空间网络分析方法 路径优化(最短路径) 定位配置分析天津理工大学路径优化(最

17、短路径)在空间网络分析中,路径问题占有重要位置,人们通常比较关心网络的两个指定的结点之间是否存在路径,如果有,则特别希望找出其中的最短路径则特别希望找出其中的最短路径。这种路径问题对于交通、消防、信息传输、救灾、抢险有着重要的意义,天津理工大学例如:1、在运输网络中,有时要找出运费最小的路径;2、在通讯网络中,要找出两点间进行信息传递具有最大可靠性的路径,由于大量的最优化问题等价于找一个网络。天津理工大学 最优最优( (佳佳) )路径选择:足球是沿最路径选择:足球是沿最优路径下落优路径下落天津理工大学P177-178Dijkstra算法天津理工大学无向图G,它的距离矩阵W 天津理工大学v1到v

18、7的最短路径的标号过程 v1到v7的最短路径的长度是7,经由路径为v1-v3-v8-v7天津理工大学17)7(544101)7()7(544101)7()7()5(44101)7()5()4(4101)5()4()4(10) 1 ()4()4(10) 1 () 1 (00确定起点134586781234567vvvvvvvvvvvvvvv天津理工大学考虑到道路的单向性,通常用有向图表示之。在图中,考虑到道路的单向性,通常用有向图表示之。在图中,每个顶点每个顶点(结点)表示一地点,边则表示各地点之间的结点)表示一地点,边则表示各地点之间的距离。路径的长度是指路径上各个边的加权值之和。距离。路径的

19、长度是指路径上各个边的加权值之和。路径的起始点称为源点,路径的最后一个顶点称为终路径的起始点称为源点,路径的最后一个顶点称为终点。点。如:有如:有5个地点个地点V1,V2,V3,V4,V5相互间通路如下面相互间通路如下面有向网络图所示。图中各边上所标的数字为其具有的有向网络图所示。图中各边上所标的数字为其具有的权重值。权重值。 天津理工大学以以V1为源,其到为源,其到V5点的路径为:点的路径为: 的长度为的长度为100 为为30+60 = 90 的长度为的长度为30+20+10 = 60 的长度为的长度为10+50+10 = 70 显然路径显然路径长度最短。尽管它含有长度最短。尽管它含有3条边

20、,条边,但仍比含有但仍比含有1条边的条边的路径短。路径短。 从源点从源点V1到各顶点的最短路径表到各顶点的最短路径表源点源点 中间点中间点 终点终点 路径长度路径长度 V1 V2 10 V1 V4 30 V1 V4 V3 50 V1 V4,V3 V5 60 如何采用如何采用Dijkstra迪杰斯特拉迪杰斯特拉算法上表的最短路径算法上表的最短路径? Dijkstra算法算法实质上是一种实质上是一种按路径长度递增的次序求最短路径按路径长度递增的次序求最短路径:从从源出发,求到达其它顶点的最短路径时,当前正在生成的源出发,求到达其它顶点的最短路径时,当前正在生成的最短路径上,除终点之外,其余顶点的最

21、短路径均已生成最短路径上,除终点之外,其余顶点的最短路径均已生成。如生成如生成V1到到V5的最短路径的最短路径时,时,的的路径已经生成。这是因为路径已经生成。这是因为的路径比的路径比的最短路径长度短。的最短路径长度短。根据这个思路,首先求出有向图的带权重的邻接矩阵根据这个思路,首先求出有向图的带权重的邻接矩阵W 0 10 30 100 0 50 W = 0 10 20 0 60 0 其中其中Wi,j表示有向边表示有向边上的权重值。若上的权重值。若不存在,则不存在,则取取Wi,j= 。若。若i=j则取则取Wi,j=0。按上图所示,从按上图所示,从V1源出发的各边中选出取权重值最小的边,作为源源出

22、发的各边中选出取权重值最小的边,作为源点点V1出发的最短路径。而下一个次短路径出发的最短路径。而下一个次短路径Vk可能是可能是,也可,也可能是能是和和权重值之和。这样权重值之和。这样每求出某个顶点的最短每求出某个顶点的最短路径之后路径之后,就可能对其它尚未最终确定最短路径的顶点就可能对其它尚未最终确定最短路径的顶点的最短路径的最短路径长度长度产生影响产生影响。这里引入一个。这里引入一个N维辅助向量维辅助向量distance(N个顶点),个顶点),它的每个分量它的每个分量distancei表示当前找到从始点表示当前找到从始点V到每个终点到每个终点Vi的最的最短路径的短路径的长度长度,S为已求得的

23、为已求得的最短路径的终点最短路径的终点的集合。算法描述可的集合。算法描述可归纳成如下步骤:归纳成如下步骤: 求从求从V出发到图上各顶点出发到图上各顶点Vi(终点),可能达到的最短路径长度(终点),可能达到的最短路径长度的初值的初值distancei。选择选择Vj,使得,使得distancej = Min distancei | Vi VS Vj为当前的一条从为当前的一条从V出发的最短路径的终点。出发的最短路径的终点。修改修改V出发到集合出发到集合VS上的所有顶点上的所有顶点Vk可能达到的最短路径长度。可能达到的最短路径长度。如果如果 distancej + Wj,k distancek 即找到

24、了更短的路径即找到了更短的路径则修改则修改 distancek 为为 distancek = distancej + Wj,k 重复重复和和,直到求得,直到求得V到图上的各个顶点的到图上的各个顶点的最最短路径长度递增序列短路径长度递增序列为止。为止。该算法求单源最短路径的该算法求单源最短路径的示例如图示。根据邻接矩示例如图示。根据邻接矩阵对有向图执行该算法,阵对有向图执行该算法,得下表得下表 。从。从V1点到其余各点到其余各顶点的最短距离路径以及顶点的最短距离路径以及运算过程中,运算过程中,distance向向量的变化情况为:量的变化情况为: 从从V1开始由开始由(a)得,得,最短最短路径路径

25、V1V2 =10;由由(b)得,得,次短路径次短路径V1V4= 30; 由由 ( c ) 得 ,得 , 更 次 短 路 径更 次 短 路 径V1V4V3=50;由;由(d)得,得,最次短路径最次短路径V1V4V3V5 = 60; (e)为最短路径全貌图。为最短路径全貌图。Dijkstra算法的执行过程算法的执行过程 终点终点 V1点到各终点的值及最短路径点到各终点的值及最短路径 V1 0 V2 , 10 distancek 的变化情况的变化情况 V3 , 60 , 50 V4 ,30 , 30 V5 ,100 ,100 , 90 , 60 Vj V2, 10, V4, 30 V3, 50 V5

26、, 60 图中图中W权重值矩阵权重值矩阵Wi,j 为从为从顶点顶点i到到j的权重值的权重值 K 源点源点(起始点起始点)点号点号 L 终止结点终止结点 点号点号 N 顶点顶点(结点结点)数目数目 数组数组LA(N):最短路径长度。:最短路径长度。先记录各结点的暂时标号,先记录各结点的暂时标号,后为标号的值后为标号的值 数组数组LV(N):结点定标标识。:结点定标标识。定标的置定标的置1,否则置,否则置0 数组数组LB(N):最短路径结点序:最短路径结点序列。列。 记录记录j点被定标时,它的点被定标时,它的上一个点上一个点i的标号,即的标号,即LB(j)=i 。由此可回溯求出从起点由此可回溯求出

27、从起点K到任到任意一结点最短路径经由的点。意一结点最短路径经由的点。 上述最短路径分析是从某源点出发求到其它各点的最短路上述最短路径分析是从某源点出发求到其它各点的最短路径。若要求每对顶点之间的最短路径,只要每次以一个顶径。若要求每对顶点之间的最短路径,只要每次以一个顶点为源,重复执行上述算法。点为源,重复执行上述算法。Dijkstra算法描述和实现在许多教参可见:算法描述和实现在许多教参可见:地理信息系统实习教程地理信息系统实习教程P146148 地理信息系统实用教程地理信息系统实用教程P102105应用地理信息系统设计与实现应用地理信息系统设计与实现P104105天津理工大学定位配置分析

28、定位配置分析是指根据中心地理论框架,通过对供给系统和需求系统两者空间行为相互作用的分析,来实现网络设施布局的最优化。、若已设定需求点(如居民区),求供给点(消防站),则涉及定位问题(location);2、若已设定供给点,求需求分配点,则涉及配置问题(allocation);3、若同时求供给点和需求分配点,则涉及定位配置问题(location-allocation)。天津理工大学定位-配置分析的算法包括 P一中心问题:是要在m个候选点中,选择P个供应点,为n个需求点服务,并使得从服务中心到需求点之间的总距离(或时间、费用)为最小。 中心服务范围的确定:中心服务范围是指一个服务设施在给定的时间或

29、距离内,能够到达的区域。 中心资源的分配范围:资源分配就是将空间网络的边或结点,按照中心的供应量及网络边和结点的需求量,分配给一个中心的过程,它用来模拟空间网络上资源的供需关系。 天津理工大学设一个带中心的空间网络G=(V,E,C),其中: V表示空间网络结点的集合, E表示边的集合, C为该网络的一个中心。若已知:1、该中心的阻值为cw,2、网络边eij的费用为wij, 3、r表示空间网络上任何结点到中心的(vi,ve)间的一条路径,4、ric是该路径的费用,那么 在不考虑货源量和需求量的情况下,中心的服务范围应为满足下列条件的网络边和结点的集合F: 天津理工大学 为确定该中心的服务范围,须

30、依次求出到服务中心费用不超过中心最大阻值的路径,于是组成这些路径的网络结点和边的集合,就构成该中心的服务范围。rvcwwrervcwrvFiijicijiici,天津理工大学例1天津理工大学例2天津理工大学例3天津理工大学爆管分析爆管分析定义定义 管网中某一点出现故障后,分析应关闭的阀门和影响管网中某一点出现故障后,分析应关闭的阀门和影响的管段、用户区域等。水、油、气等物质网络上管道或的管段、用户区域等。水、油、气等物质网络上管道或点设备(法门、仪表等)发生故障的分析问题。点设备(法门、仪表等)发生故障的分析问题。 目的目的 对该点断流,即检索出全部与该点直接相连的各种断对该点断流,即检索出全

31、部与该点直接相连的各种断流设备流设备 算法算法 基于矢量数据的爆管算法基于矢量数据的爆管算法 基于栅格数据的爆管算法基于栅格数据的爆管算法例4天津理工大学天津理工大学 弧段最佳游历方案求解(中国邮递员问弧段最佳游历方案求解(中国邮递员问题)题) :给定:给定一个边的集合和一个结点一个边的集合和一个结点,使之,使之由由指定结点指定结点出发出发至少经过每条边一次至少经过每条边一次而回到而回到起始结点。起始结点。 结点最佳游历方案求解(旅行推销员问结点最佳游历方案求解(旅行推销员问题):给定一个题):给定一个起始结点起始结点、一个、一个终止结点终止结点和和若干中间结点若干中间结点,求解最佳路径,使之

32、由起点,求解最佳路径,使之由起点出发遍历(不重复)全部中间结点而到达终出发遍历(不重复)全部中间结点而到达终点。点。例5 最佳游历方案的求解最佳游历方案的求解天津理工大学18世纪,东普鲁土的哥尼斯城堡中有七座桥,当时有人提出:世纪,东普鲁土的哥尼斯城堡中有七座桥,当时有人提出:怎样才能一次走遍七座桥,不重复,最后返回出发点。怎样才能一次走遍七座桥,不重复,最后返回出发点。1736年,大数学家欧拉用数学方法严格证明了这个问题提出年,大数学家欧拉用数学方法严格证明了这个问题提出的走法是不可能的。的走法是不可能的。天津理工大学泰森多边形分析 GIS和地理分析中经常采用泰森多边形进行快速插值和分析地理

33、实体的影响区域,是解决邻接度问题的又一常用工具。 天津理工大学 泰森多边形及其特性荷兰气候学家AHThiessen提出了一种根据离散分布的气象站的降雨量来计算平均降雨量的方法,即将所有相邻气象站连成三角形,作这些三角形各边的垂直平分线,于是每个气象站周围的若干垂直平分线便围成一个多边形。用这个多边形内所包含的一个唯一气象站的降雨强度来表示这个多边形区域内的降雨强度,并称这个多边形为泰森多边形。如图,其中虚线构成的多边形就是泰森多边形。泰森多边形每个顶点是每个三角形的外接圆圆心。泰森多边形也称为Voronoi图,或dirichlet图。 天津理工大学PiabcdefabcdefPi的邻近范围的邻

34、近范围天津理工大学Piabcdefabcdef天津理工大学 泰森多边形的特性是: 1、每个泰森多边形内仅含有一个离散点数据; 2、泰森多边形内的点到相应离散点的距离最近; 3、位于泰森多边形边上的点到其两边的离散点的距离相等。 4、泰森多边形的边数和其周围离散点的个数一致。 5、泰森多边形的任意一个顶点周围存在三个离散点,将其连成三角形后其外接圆的圆心即为该顶点,该三角形称泰森三角形天津理工大学泰森多边形可用于定性分析、统计分析、邻近分析等。(1)可以用离散点的性质(数据)来描述泰森多边形区域的性质;(2)判断一个离散点与其它哪些离散点相邻时,可根据泰森多边形直接得出,且若泰森多边形是n边形,

35、则就与n个离散点相邻;(3)当某一数据点落入某一泰森多边形中时,它与相应的离散点最邻近,无需计算距离。 天津理工大学应用应用某一地区内有某一地区内有7个气象站,测得降雨量分别为个气象站,测得降雨量分别为R1、R2、R3、R4、R5、R6、R7,求该地区平均降雨量。,求该地区平均降雨量。解:根据该区域图及解:根据该区域图及7个离散点,求出个离散点,求出7个泰森多边个泰森多边形,面积分别为:形,面积分别为:A1、A2、A3、A4、A5、A6、A7,平均降雨量为:,平均降雨量为:7171iiiiiARAR天津理工大学空间数据的统计分析 常规统计分析: 属性数据的集中特征数 属性数据的离散特征数 空间

36、自相关分析 回归分析 趋势分析 专家打分模型 统计数据的分类分级 系统聚类法 最优分割分级法 天津理工大学 属性数据集中特性的参数: 频数和频率(frequency) 平均数(mean)(算数平均数) 数学期望 中数 (median) 众数(MODE )、 和(sum)天津理工大学 数学期望 以概率为权值的加权平均数称为数学期望,用于反映数据分布的集中趋势。计算公式为:niiixPEx1其中Pi为事件发生的概率天津理工大学 中数中数 对于有序数据集X,如果有一个数x,能同时满足以下两式: 则称x为数据集X的中数,记为Me。奇数和偶数数据集的中数不同。1,3,5,6,71,2,5,6,8,9 2

37、1)(21)(xXPxXP天津理工大学 众数(mode) 众数是具有最大可能出现的数值。如果数据X是离散的,则称X中出现最大可能性的值x为众数;如果X是连续的,则以X分布的概率密度P(x)取最大值的x为X的众数。显然,众数可能不是唯一的。天津理工大学 属性数据的离散特征数 标准差标准差 (standard deviation) 方差(方差(variance) 极差极差 全距全距 (range) 最大值与最小值最大值与最小值 标准误差(标准误差(standard error mean) 变差系数变差系数 离差、平均离差与离差平方和离差、平均离差与离差平方和天津理工大学 方差与标准差方差与标准差

38、(与样本有区别) 方差是均方差的简称,是以离差平方和除以变量个数求得的,记为2,即: 标准差是方差的平方根,记为:1/)(212nxxniiniinxx11/总体nxxnii/)(212niinxx1/样本天津理工大学 极差(表达了变量的取值范围) 极差是一组数据中最大值与最小值之差,即:,min,max2121nnxxxxxxR天津理工大学 离差、平均离差与离差平方和 一组数据中的各数据值与平均数之差称为离差,即 若把离差求平方和,即得离差平方和,记为 若将离差取绝对值,然后求和,再取平均数,得平均离差,记为xxdi212niixxdnxxmdnii/1天津理工大学 标准误差标准误差( st

39、andard error mean)是指均值的标准差,一般来说,标准误差是指点估计的标准差。有助于确定样本均值与总体均值之间的偏离程度。 标准差(标准差( standard deviation)是一个样本中各个观测值的标准偏离程度。也就是某变量个体观察值变异的大小天津理工大学 变差系数 变差系数用来衡量数据在时间和空间上的相对变化的程度,它是无量纲的量,记为Cv其中,为标准差, 为平均数。%100XC天津理工大学分布特性指标(distribution) K阶中心距 偏度系数(Skewness) 峰度系数(Kurtosis)n1ikkxxin1u)(天津理工大学 偏度系数(Skewness)描述

40、变量的非对称性方向和程度,g10表示正偏度,均值在大于峰值的一边,右边有一条长尾:g1=0表示表示数据均匀分布或正态分布。23231uug 天津理工大学Skewness=1.741天津理工大学Skewness=-1.555天津理工大学3uug2242峰度系数(Kurtosis)表示密度函数图形的凸尖度,意义为在均值附近的集中程度,峰度系数g2越大,表示数据分布越集中,即多数观测值在均值附近,峰度系数g2越小,表示数据分布越离散,峰的形状越平坦,标准正态分布的g2=0.天津理工大学g2=2.476.天津理工大学g2=3.849.天津理工大学空间自相关分析 空间自相关分析是认识空间分布特征、选择适

41、宜的空间尺度来完成空间分析的最常用的方法。目前,普遍使用空间自相关系数Moran I指数,其计算公式如下:xxxxxxWWNIijiijij)(其中,N表示空间实体数目;xi表示空间实体的属性值; x 是x的平均值;Wij1表示空间实体i与j相邻,Wij0表示空间实体i与j不相邻。 I的值介于的值介于-1与与1之间,之间,I1表示空间自正相关,空间实体呈聚合分布;表示空间自正相关,空间实体呈聚合分布;I-1表示空间自负相关,空间实体呈离散分布;表示空间自负相关,空间实体呈离散分布;I0则表示空间实体则表示空间实体是随机分布的。是随机分布的。Wij表示实体表示实体i与与j的空间关系,它通过拓扑关

42、系获得。的空间关系,它通过拓扑关系获得。 天津理工大学回归分析 回归分析用于分析两组或多组变量之间的相关关系,常见回归分析方程有线性回归、指数回归、对数回归、多元回归等。 天津理工大学趋势分析 通过数学模型模拟地理特征的空间分布与时间过程,把地理要素时空分布的实测数据点之间的不足部分内插或预测出来。 天津理工大学专家打分模型 专家打分模型将相关的影响因素按其相对重要性排队,给出各因素所占的权重值;对每一要素内部进行进一步分析,按其内部的分类进行排队,按各类对结果的影响给分,从而得到该要素内各类别对结果的影响量,最后系统进行复合,得出排序结果,以表示对结果影响的优劣程度,作为决策的依据。其数学表

43、达式为:GpWiCip式中,Gp表示点的最终复合结果值,Wi表示第i个要素的权重,Cip表示第i个要素在p 点的类别的专家打分分值。天津理工大学统计数据的分类分级为了把GIS地理数据中的统计数据用专题地图的形式表示出来,通常需要对统计数据进行分类和分级(土地分等定级、水土流失强度分级 )。分类和分级的方法很多,常用到的算法有:系统聚类法天津理工大学系统聚类法系统聚类法 基本思想 统计数据的标准化 距离系数 最短距离法系统聚类 系统聚类法类间距离计算的统一公式天津理工大学基本思想首先是n个样本各自成一类,然后规定类与类之间的距离,选择距离最小的两类合并成一个新类,计算新类与其它类的距离,再将距离

44、最小的两类进行合并,这样每次减少一类,直到达到所需的分类数或所有的样本都归为一类为止。天津理工大学统计数据的标准化统计数据的标准化每个样本单元有多种变量的原始数据,各种变量的量纲和数量大小是很不一致的,变化的幅度也不一样。假如直接用原始数据进行计算,就会突出绝对值大的变量的作用,而压低绝对小的变量的作用。为了给每种变量以统一量度,在进行模型的统计计算前,往往需要对原始数据进行标准化变换。标准化天津理工大学数据标准化处理方法有 总和标准化。分别求出各聚类要素所对应的数据的总和,以各要素的数据除以该要素的数据的总和,即 这种标准化方法所得到的新数据满足), 2 , 1;, 2 , 1(1njmix

45、xxmiijijij(3.4.1) miijnjx1), 2 , 1(1天津理工大学 标准差标准化,即 由这种标准化方法所得到的新数据,各要素的平均值为0,标准差为1,即有),2, 1;,2, 1(njmisxxxjjijij(3.4.2) 1)(101121mijijjmiijjxxmsxmx天津理工大学 极大值标准化,即 经过这种标准化所得的新数据,各要素的极大值为1,其余各数值小于1。 极差的标准化,即 经过这种标准化所得的新数据,各要素的极大值为1,极小值为0,其余的数值均在0与1之间。 ), 2 , 1;, 2 , 1(maxnjmixxxijiijij(3.4.3) ), 2 ,

46、1;, 2 , 1(minmaxminnjmixxxxxijiijiijiijij(3.4.4)天津理工大学表表 某地区九个农业区的七项经济指标数据某地区九个农业区的七项经济指标数据 区代号人均耕地X1(hm2/人)劳均耕地X2(hm2/个)水田比重X3(%)复种指数x4(%)粮食亩产x5(kg/ hm2)人均粮食x6(kg/人)稻谷占粮食比重x7(% )G10.2941.0935.63113.64510.51036.412.2G20.3150.9710.3995.12773.5683.70.85G30.1230.3165.28148.56934.5611.16.49G40.1790.5270

47、.391114458632.60.92G50.0810.21272.04217.812249791.180.38G60.0820.21143.78179.68973636.548.17G70.0750.18165.15194.710689634.380.17G80.2930.6665.3594.93679.5771.77.8G90.1670.4142.994.84231.5574.61.17天津理工大学x1x2x3x4X5X6X7G10.911.000.070.150.181.000.14G21.000.870.000.000.000.240.00G30.200.150.070.440.440

48、.080.07G40.440.380.000.130.180.130.00G50.030.031.001.001.000.451.00G60.030.030.610.690.650.130.59G70.000.000.900.810.840.131.00G80.910.530.070.000.100.430.09G90.380.260.040.000.150.000.00表表3.4.3 极差标准化处理后的数据极差标准化处理后的数据天津理工大学距离的计算 对样本进行分类时,个体之间的相似性程度往往用“距离”来度量。它是将每个样本看成是高维空间的一个点,点与点之间用某种法则规定距离,距离近的点归为

49、一类。 常用的计算方法天津理工大学 设有n个样本,每个样本测得m项指标,则每个变量记为Xij,i=1,2,n;j=1,2,m。若在标准化变量互不相关时采用欧氏距离。两样本i和j的距离记为dij,则:mkjkikijXXd12)(表示数据点表示数据点i与与j之间的距离,之间的距离,x为相应点的变量为相应点的变量k数据。数据。距离越小,表明两者的相似性越大。距离越小,表明两者的相似性越大。采用绝对值距离), 2 , 1,(1mjixxdnijkikij天津理工大学最短距离法系统聚类最短距离法系统聚类 在最短距离法中,定义两类之间的距离用两类间最近样本的距离来表示。用dij表示样本i和j的距离,用G

50、1,G2,表示类,用Dpq表示类Gp和类Gq的距离,则有:qpijpqGjGidD,min天津理工大学最短距离法聚类的步骤:最短距离法聚类的步骤: 计算每两个样本的距离。由于样本i和样本j的距离dij与样本j和样本i的距离dji是相等的,所以只要计算一个。开始时每个样本自成一类,则类之间的距离Dpq就等于样本之间的距离dpq。 找出最小的类间距,设为Dpq,则把Gp的Gq合并为一个新类,记为Gr。 计算新类与其它类的距离。新类Gr和某一类Gk的距离为Drk,则Drk可用下面公式计算出:Drk = minDpkDqk天津理工大学重复第、步,直到所有元素都成为一类或达到设定的分类数。天津理工大学例

51、:绝对值距离公式式计算得到九个农业区之间的绝对值距离矩阵如下: 040. 132. 306. 384. 451. 020. 166. 162. 2003. 596. 314. 529. 124. 288. 032. 1007. 183. 006. 493. 253. 579. 5078. 199. 286. 146. 472. 4077. 464. 302. 686. 5023. 147. 119. 2070. 210. 3052. 10)(99ijdD 在99阶距离矩阵D中,非对角元素中最小者是d94=0.51,首先将第4区与第9区并为一类,记为即G10=G4,G9。按照公式分别计算G1,G2,G3,G5,G6,G7,G8与G10之间的距离得: d1,10=mind14,d19= min2.19,2.62=2.19d2,10=mind24,d29= min1.47,1.66=1.47d3,10=mind34,d39= min1.23,1.20=1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论