第四章GIS空间分析与查询1-2改安全_第1页
第四章GIS空间分析与查询1-2改安全_第2页
第四章GIS空间分析与查询1-2改安全_第3页
第四章GIS空间分析与查询1-2改安全_第4页
第四章GIS空间分析与查询1-2改安全_第5页
已阅读5页,还剩154页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章

空间数据查询、分析及应用模型主要内容空间数据的查询空间数据的分析空间分析的模型方法应用分析模型与GIS系统工具的集成和GIS应用系统的环境模式天津理工大学第一节空间数据的查询空间数据查询的含义空间数据查询的方式查询结果的显示方式天津理工大学空间数据查询的含义空间数据查询就是指:作用在GIS数据上的函数,它返回满足条件的内容。

查询是GIS用户最经常使用的功能,用户提出的很大一部分问题都可以以查询的方式解决,查询的方法和查询的范围在很大程度上决定了GIS的应用程度和应用水平。

天津理工大学空间数据查询的方式基于属性数据的查询基于图形数据的查询图形属性混合查询模糊查询自然语言空间查询超文本查询符号查询天津理工大学基于属性数据的查询:根据空间目标的属性数据来查询该目标的其他属性信息或者相应的图形信息。属性属性属性图形天津理工大学基于图形数据的查询:基于图形的查询是可视化的查询,用户通过在屏幕上选取地物目标来查询其对应的图形和属性信息。 基于图形的查询包括两种方式:区域查询和点选查询。天津理工大学图形与属性的混合查询:图形与属性的混合查询是指查询条件同时包括了图形部分的内容和属性方面的内容,查询结果集应该同时满足这两个方面的要求。天津理工大学模糊查询:一般意义上的模糊查询指的是限定需要查询的数据项的部分内容,查询所有数据项中具有该内容的数据库记录。天津理工大学自然语言空间查询:所谓自然语言查询就是在GIS的数据查询中引入人类使用的自然语言(区别于程序语言和数据库SQL语言),通过简单而意义直接的自然语言来表达数据查询的要求。天津理工大学超文本查询:超文本方式查询是一种基于IE浏览器的查询,在浏览器里面,可以把图形、图像、字符等皆当作文本,并设置一些“热点”(HotSpot),“热点”可以是文本、键、图形或者其部分等。用户用鼠标点击“热点”后,浏览器可以弹出说明信息、播放声音、完成某项工作等,这些信息往往都是与该目标相关联的信息,从而达到“查询”的目的。但超文本查询只能预先设置好,用户不能实时构建自己要求的各种查询。天津理工大学符号查询:地物在GIS中都是以一定的符号系统表示的,系统应该提供根据地物符号来进行查询的功能。 其实质是通过用户指定某种符号,在符号库中查询其代表的地物类型,在属性库中查询该地物属性信息或者图形信息。天津理工大学查询结果的显示方式地图:空间数据的最佳表示方式。选定参数,基于SQL查询天津理工大学第二节空间数据的分析空间分析是基于空间数据的分析技术,它以地学原理为依托,通过分析算法,从空间数据中获取有关地理对象的空间位置,空间分布、空间形态、空间形成、空间演变等信息。目的——通过对空间数据的深加工或分析,获取新的信息,为空间行为提供决策依据。天津理工大学空间数据的缓冲区分析空间数据的叠置分析空间数据的网络分析空间数据的统计分析空间数据的泰森多边形分析天津理工大学缓冲区分析概念——是指围绕地理要素的一定宽度的区域性。缓冲区分析是指根据分析对象的点、线、面实体、自动建立它们周围一定距离的带状区,用来确定这些实体的辐射范围和影响度。天津理工大学分类数据类型分基于矢量数据的缓冲区分析基于栅格数据的缓冲区分析从图形分点缓冲区先缓冲区面缓冲区天津理工大学作用:一般用于求地理实体的影响范围,即邻近度的问题如道路的噪声影响范围就是沿道路建一定宽度的缓冲区,车流量决定缓冲区的半径。如某地区有危险品仓库,要分析一旦仓库爆炸所涉及的范围,这就需要进行点缓冲区分析。如果要分析因为道路改造需拆除的建筑物和需要搬迁的居民,则需要进行线缓冲区分析。缓冲区的作用天津理工大学天津理工大学基于矢量数据的缓冲区的建立天津理工大学天津理工大学线类主体对两侧邻近对象施加的作用和强度不同-----不对称缓冲区天津理工大学天津理工大学天津理工大学天津理工大学天津理工大学栅格数据的缓冲区分析相对于矢量数据,栅格数据的缓冲区分析操作较为简单。在栅格数据中可以将缓冲区看作是对网格单元向其周围8个方向进行一定距离的扩展。种子扩展算法是一种典型的建立栅格数据缓冲区的方法。单个网格单元的缓冲区天津理工大学天津理工大学叠置(合)分析天津理工大学天津理工大学12AB2A1A1B2B10a12bcdefgab……………………区域类型数面积101143合成叠合统计叠合地貌图土壤图合成图土壤图行政图统计表11天津理工大学天津理工大学天津理工大学类型:点与多边形叠合线与多边形叠合多边形与多边形叠合天津理工大学天津理工大学1234ACBD点号属性1属性2多边形号属性31A2C3B4D点与多边形叠合分析天津理工大学天津理工大学线号原线号多边形号11B21C32C43C线与多边形叠合分析213BACD天津理工大学天津理工大学多边形与多边形叠合将两个或多个多边形图层进行叠合产生一个新多边形图层的操作,其结果将原来多边形要素分割成新要素,新要素综合了原来两层或多层的属性。叠合过程可分为几何求交过程和属性分配过程两步。被叠合的多边形——本底多边形用来叠合的多边形——上覆多边形产生的具有多重属性的多边形————新多边形天津理工大学几何求交过程首先求出所有多边形边界线的交点,再根据这些交点重新进行多边形拓扑运算,对新生成的拓扑多边形图层的每个对象赋以多边形唯一标识码,同时生成一个与新多边形对象一一对应的属性表。属性分配过程最典型的方法是将输入图层对象的属性拷贝到新对象的属性表中,或把输入图层对象的标识作为外键,直接关联到输入图层的属性表。也可以结合多种统计方法为新多边形赋属性值。天津理工大学叠加分析实例AB123451B2B1A2A4A3A5B3B4B降雨量土壤类型适宜农作物矢量图层叠加分析天津理工大学天津理工大学栅格图层叠加分析栅格图层叠加天津理工大学天津理工大学天津理工大学应用如何得到某市区内危险化学品储存场所的个数?如何知道某省区内雨量站点的个数?如何获得某城市的消防所分布的密度?……….天津理工大学栅格数据的空间叠置分析在GIS中基于栅格数据的空间叠置分析有时是必要的,并且算法比基于矢量的空间叠置分析要简单的多,栅格数据的空间叠置分析可以概括为三种变换运算:点变换区域变换邻域变换天津理工大学点变换

是指对单个栅格单元进行属性值的运算,点变换函数不受邻域点上属性值的影响,也不受区域内一般特征的影响.其运算函数可以是加、减、乘、除、指数、对数、三角函数等。天津理工大学主要的点变换算法原理:赋常数(constant):将上一层所有的像元赋予一个常数加法(Add):各层上属性相加得到新层上相应点的值减法(Substract):两层上对应点的属性相减覆盖(Cover),用第二幅图上的非零像元覆盖第一幅图产生新图。天津理工大学提取(Extract):从一层上选取特定属性值或值的区间产生新层分类(Slice):将连续值按数据区间分成类别逻辑组合(Cross):把几幅图的属性按布尔逻辑关系组合成新图。天津理工大学区域变换:指在计算新层属性时,不仅与原叠置层的栅格属性值有关,也与栅格所在地的区域长度、范围、周长、形状有关,与原图层同名栅格的个数有关。天津理工大学主要变换函数:按面积分类(SIZE):按计算出的每个区域的面积大小和输出地图的要求重新给予每个区域一个名称。确定区域形状(RULER):确定一定区域的形状和某一层上分离开的区域数量。天津理工大学邻域变换:P163指在计算新层属性时,不仅考虑叠置层对应栅格本身和其它属性值相同的区域,而且也要考虑与该栅格相关联的邻域或影响半径范围内的栅格属性值的影响。天津理工大学例:洪水淹没损失估算损失与如下因素有关(1)地形高程,高程值大于500米的范围不受洪水淹没,由高程多边形的最大高程属性(Hight)决定。(2)土地使用,只对住宅用地分析,由地块多边形的土地使用属性(landuse)决定(3)地基类型,房屋的损失在差地基上比好地基上大,由地基损失参数表(found,dbf)中的地基类型(Class)和损失系数确定。(4)地块上居民的财产,由地块的估计财产属性(Value)决定。天津理工大学叠置分析的步骤确定空间分析的目标与标准准备空间操作的数据空间操作为表格分析准备数据表格分析评价并解释分析结果进一步分析结果产生分析结果天津理工大学天津理工大学数据处理过程计算地块财产密度空间叠合计算叠合后的多边形面积计算地块估计损失、地块损失密度过滤地块,表达分析结果。天津理工大学天津理工大学天津理工大学天津理工大学计算结果为叠合后多边形的面积天津理工大学天津理工大学天津理工大学天津理工大学天津理工大学天津理工大学天津理工大学天津理工大学天津理工大学天津理工大学天津理工大学空间数据的网络分析概念 空间网络分析(spacialnetworkanalysis)是GIS空间分析的重要组成部分。网络是一个由点、线的二元关系构成的系统,通常用来描述某种资源或物质在空间上的运动。

GIS中的网络分析是依据网络的拓扑关系(线性实体之间,线性实体与结点之间,结点与节点之间的连接,连通关系),通过考察网络元素的空间及属性数据,以数学理论模型为基础,对网络的性能特征进行多方面的一种分析计算。天津理工大学网络的组成 一个网络由以下基本要素组成:节点(node)链(links)障碍(barries)拐角(turn)中心(centers)站点(stops)天津理工大学(1)结点。网络中任意两条线段或路径的交点,其属性如方向数、资源数量等。

(2)链或弧段。连接两个结点的弧段或路径,是网络中资源运移的通道。其属性如资源流动的时间、速度、资源种类和数量、弧段长度等。

(3)障碍。指资源不能通过的结点,如被破坏的桥梁和禁止通行的关口等。它是惟一不表示任何属性的元素。天津理工大学(4)拐角。在网络的结点处,资源运移方向可能转变,从一个链经结点转向另一个链,例如在十字路口禁止车辆左拐,便构成拐角。其拐角的类型及其属性描述见表5—12。

(5)中心。指网络中具有从链上接受或发送资源能力的结点所在地,如水库属于河网的中心,学校属于路网的中心等等。其属性如资源最大容量、最大服务半径等。

(6)站点。是网络中装卸资源的结点所在地,例如车站、码头等。其属性如资源需求量,正值表示装载量,负值表示下卸量。天津理工大学天津理工大学天津理工大学空间网络分析方法路径优化(最短路径)定位--配置分析天津理工大学路径优化(最短路径) 在空间网络分析中,路径问题占有重要位置,人们通常比较关心网络的两个指定的结点之间是否存在路径,如果有,则特别希望找出其中的最短路径。这种路径问题对于交通、消防、信息传输、救灾、抢险有着重要的意义,天津理工大学例如:1、在运输网络中,有时要找出运费最小的路径;2、在通讯网络中,要找出两点间进行信息传递具有最大可靠性的路径,由于大量的最优化问题等价于找一个网络。。。。。。。。天津理工大学最优(佳)路径选择:足球是沿最优路径下落天津理工大学P177-178Dijkstra算法天津理工大学无向图G,它的距离矩阵W天津理工大学v1到v7的最短路径的标号过程v1到v7的最短路径的长度是7,经由路径为v1-------v3-------v8-------v7天津理工大学天津理工大学考虑到道路的单向性,通常用有向图表示之。在图中,每个顶点(结点)表示一地点,边则表示各地点之间的距离。路径的长度是指路径上各个边的加权值之和。路径的起始点称为源点,路径的最后一个顶点称为终点。如:有5个地点V1,V2,V3,V4,V5相互间通路如下面有向网络图所示。图中各边上所标的数字为其具有的权重值。天津理工大学以V1为源,其到V5点的路径为:<V1,V5>的长度为100<V1,V4,V5>为30+60=90<V1,V4,V3,V5>的长度为30+20+10=60<V1,V2,V3,V5>的长度为10+50+10=70

天津理工大学显然路径<V1,V4,V3,V5>长度最短。尽管它含有3条边,但仍比含有1条边的<V1,V5>路径短。从源点V1到各顶点的最短路径表源点中间点终点路径长度V1V210V1V430V1V4V350V1V4,V3V560如何采用Dijkstra迪杰斯特拉算法上表的最短路径?

天津理工大学Dijkstra算法实质上是一种按路径长度递增的次序求最短路径:从源出发,求到达其它顶点的最短路径时,当前正在生成的最短路径上,除终点之外,其余顶点的最短路径均已生成。如生成V1到V5的最短路径<V1,V4,V3,V5>时,<V1,V4,V3>的路径已经生成。这是因为<V1,V4,V3>的路径比<V1,V4,V3,V5>的最短路径长度短。根据这个思路,首先求出有向图的带权重的邻接矩阵W

01030100

050

W=

0

10

20060

0其中W[i,j]表示有向边<Vi,Vj>上的权重值。若<Vi,Vj>不存在,则取W[i,j]=。若i=j则取W[i,j]=0。天津理工大学按上图所示,从V1源出发的各边中选出取权重值最小的边,作为源点V1出发的最短路径。而下一个次短路径Vk可能是<V1,Vk>,也可能是<V1,Vj>和<Vj,Vk>权重值之和。这样每求出某个顶点的最短路径之后,就可能对其它尚未最终确定最短路径的顶点的最短路径长度产生影响。这里引入一个N维辅助向量distance(N个顶点),它的每个分量distance[i]表示当前找到从始点V到每个终点Vi的最短路径的长度,S为已求得的最短路径的终点的集合。算法描述可归纳成如下步骤:①求从V出发到图上各顶点Vi(终点),可能达到的最短路径长度的初值distance[i]。②选择Vj,使得distance[j]=Min{distance[i]|Vi

V—S}

Vj为当前的一条从V出发的最短路径的终点。③修改V出发到集合V—S上的所有顶点Vk可能达到的最短路径长度。如果

distance[j]+W[j,k]<distance[k]

即找到了更短的路径则修改

distance[k]为distance[k]=distance[j]+W[j,k]

天津理工大学④重复②和③,直到求得V到图上的各个顶点的最短路径长度递增序列为止。该算法求单源最短路径的示例如图示。根据邻接矩阵对有向图执行该算法,得下表。从V1点到其余各顶点的最短距离路径以及运算过程中,distance向量的变化情况为:从V1开始由(a)得,最短路径V1V2=10;由(b)得,次短路径V1V4=30;由(c)得,更次短路径V1V4V3=50;由(d)得,最次短路径V1V4V3V5=60;(e)为最短路径全貌图。天津理工大学Dijkstra算法的执行过程

终点V1点到各终点的值及最短路径V10V2<V1,V2>,10distance[k]的变化情况V3

<V1,V2,V3>,60<V1,V4,V3>,50V4<V1,V4>,30<V1,V4>,30V5<V1,V5>,100<V1,V5>,100<V1,V4,V5>,90<V1,V4,V3,V5>,60VjV2,10,V4,30V3,50V5,60天津理工大学图中W权重值矩阵Wi,j为从顶点i到j的权重值K源点(起始点)点号L终止结点点号N顶点(结点)数目数组LA(N):最短路径长度。先记录各结点的暂时标号,后为标号的值数组LV(N):结点定标标识。定标的置1,否则置0数组LB(N):最短路径结点序列。记录j点被定标时,它的上一个点i的标号,即LB(j)=i。由此可回溯求出从起点K到任意一结点最短路径经由的点。

天津理工大学上述最短路径分析是从某源点出发求到其它各点的最短路径。若要求每对顶点之间的最短路径,只要每次以一个顶点为源,重复执行上述算法。Dijkstra算法描述和实现在许多教参可见:《地理信息系统实习教程》P146~148《地理信息系统实用教程》P102~105《应用地理信息系统设计与实现》P104~105天津理工大学定位-配置分析

定位-配置分析是指根据中心地理论框架,通过对供给系统和需求系统两者空间行为相互作用的分析,来实现网络设施布局的最优化。1、若已设定需求点(如居民区),求供给点(消防站),则涉及定位问题(location);2、若已设定供给点,求需求分配点,则涉及配置问题(allocation);3、若同时求供给点和需求分配点,则涉及定位-配置问题(location-allocation)。天津理工大学定位-配置分析的算法包括P一中心问题:是要在m个候选点中,选择P个供应点,为n个需求点服务,并使得从服务中心到需求点之间的总距离(或时间、费用)为最小。中心服务范围的确定:中心服务范围是指一个服务设施在给定的时间或距离内,能够到达的区域。中心资源的分配范围:资源分配就是将空间网络的边或结点,按照中心的供应量及网络边和结点的需求量,分配给一个中心的过程,它用来模拟空间网络上资源的供需关系。天津理工大学设一个带中心的空间网络G=(V,E,C),其中:V表示空间网络结点的集合,E表示边的集合,C为该网络的一个中心。若已知:1、该中心的阻值为cw,2、网络边eij的费用为wij,3、r表示空间网络上任何结点到中心的(vi,ve)间的一条路径,4、ric是该路径的费用,那么在不考虑货源量和需求量的情况下,中心的服务范围应为满足下列条件的网络边和结点的集合F:天津理工大学为确定该中心的服务范围,须依次求出到服务中心费用不超过中心最大阻值的路径,于是组成这些路径的网络结点和边的集合,就构成该中心的服务范围。天津理工大学例1天津理工大学例2天津理工大学例3天津理工大学爆管分析定义管网中某一点出现故障后,分析应关闭的阀门和影响的管段、用户区域等。水、油、气等物质网络上管道或点设备(法门、仪表等)发生故障的分析问题。目的

对该点断流,即检索出全部与该点直接相连的各种断流设备算法基于矢量数据的爆管算法基于栅格数据的爆管算法例4天津理工大学天津理工大学弧段最佳游历方案求解(中国邮递员问题):给定一个边的集合和一个结点,使之由指定结点出发至少经过每条边一次而回到起始结点。结点最佳游历方案求解(旅行推销员问题):给定一个起始结点、一个终止结点和若干中间结点,求解最佳路径,使之由起点出发遍历(不重复)全部中间结点而到达终点。例5最佳游历方案的求解天津理工大学18世纪,东普鲁土的哥尼斯城堡中有七座桥,当时有人提出:怎样才能一次走遍七座桥,不重复,最后返回出发点。1736年,大数学家欧拉用数学方法严格证明了这个问题提出的走法是不可能的。天津理工大学泰森多边形分析

GIS和地理分析中经常采用泰森多边形进行快速插值和分析地理实体的影响区域,是解决邻接度问题的又一常用工具。天津理工大学泰森多边形及其特性 荷兰气候学家A·H·Thiessen提出了一种根据离散分布的气象站的降雨量来计算平均降雨量的方法,即将所有相邻气象站连成三角形,作这些三角形各边的垂直平分线,于是每个气象站周围的若干垂直平分线便围成一个多边形。用这个多边形内所包含的一个唯一气象站的降雨强度来表示这个多边形区域内的降雨强度,并称这个多边形为泰森多边形。如图,其中虚线构成的多边形就是泰森多边形。泰森多边形每个顶点是每个三角形的外接圆圆心。泰森多边形也称为Voronoi图,或dirichlet图。天津理工大学Piabcdefa'b'c'd'e'f'Pi的邻近范围天津理工大学Piabcdefa'b'c'd'e'f'天津理工大学泰森多边形的特性是:

1、每个泰森多边形内仅含有一个离散点数据;

2、泰森多边形内的点到相应离散点的距离最近;

3、位于泰森多边形边上的点到其两边的离散点的距离相等。4、泰森多边形的边数和其周围离散点的个数一致。5、泰森多边形的任意一个顶点周围存在三个离散点,将其连成三角形后其外接圆的圆心即为该顶点,该三角形称泰森三角形天津理工大学 泰森多边形可用于定性分析、统计分析、邻近分析等。(1)可以用离散点的性质(数据)来描述泰森多边形区域的性质;(2)判断一个离散点与其它哪些离散点相邻时,可根据泰森多边形直接得出,且若泰森多边形是n边形,则就与n个离散点相邻;(3)当某一数据点落入某一泰森多边形中时,它与相应的离散点最邻近,无需计算距离。

天津理工大学应用某一地区内有7个气象站,测得降雨量分别为R1、R2、R3、R4、R5、R6、R7,求该地区平均降雨量。解:根据该区域图及7个离散点,求出7个泰森多边形,面积分别为:A1、A2、A3、A4、A5、A6、A7,平均降雨量为:天津理工大学空间数据的统计分析常规统计分析:属性数据的集中特征数属性数据的离散特征数空间自相关分析回归分析趋势分析专家打分模型统计数据的分类分级系统聚类法最优分割分级法

天津理工大学属性数据集中特性的参数:频数和频率(frequency)平均数(mean)(算数平均数)数学期望中数(median)众数(MODE)、和(sum)天津理工大学数学期望以概率为权值的加权平均数称为数学期望,用于反映数据分布的集中趋势。计算公式为:其中Pi为事件发生的概率天津理工大学中数对于有序数据集X,如果有一个数x,能同时满足以下两式:

则称x为数据集X的中数,记为Me。奇数和偶数数据集的中数不同。1,3,5,6,71,2,5,6,8,9

天津理工大学众数(mode)众数是具有最大可能出现的数值。如果数据X是离散的,则称X中出现最大可能性的值x为众数;如果X是连续的,则以X分布的概率密度P(x)取最大值的x为X的众数。显然,众数可能不是唯一的。天津理工大学属性数据的离散特征数标准差

(standarddeviation)方差(variance)极差

全距

(range)最大值与最小值标准误差(standarderrormean)变差系数

离差、平均离差与离差平方和天津理工大学方差与标准差(与样本有区别)方差是均方差的简称,是以离差平方和除以变量个数求得的,记为σ2,即:

标准差是方差的平方根,记为:总体样本天津理工大学极差(表达了变量的取值范围)极差是一组数据中最大值与最小值之差,即:天津理工大学离差、平均离差与离差平方和一组数据中的各数据值与平均数之差称为离差,即若把离差求平方和,即得离差平方和,记为若将离差取绝对值,然后求和,再取平均数,得平均离差,记为天津理工大学标准误差(standarderrormean)是指均值的标准差,,一般来说,标准误差是指点估计的标准差。有助于确定样本均值与总体均值之间的偏离程度。标准差(standarddeviation)是一个样本中各个观测值的标准偏离程度。也就是某变量个体观察值变异的大小天津理工大学变差系数变差系数用来衡量数据在时间和空间上的相对变化的程度,它是无量纲的量,记为Cv其中,σ为标准差,为平均数。天津理工大学分布特性指标(distribution)K阶中心距偏度系数(Skewness)峰度系数(Kurtosis)天津理工大学偏度系数(Skewness)描述变量的非对称性方向和程度,g1<0表示负偏度,均值在小于峰值的一边,左边有一条长尾:g1>0表示正偏度,均值在大于峰值的一边,右边有一条长尾:g1=0表示表示数据均匀分布或正态分布。天津理工大学Skewness=1.741天津理工大学Skewness=-1.555天津理工大学峰度系数(Kurtosis)表示密度函数图形的凸尖度,意义为在均值附近的集中程度,峰度系数g2越大,表示数据分布越集中,即多数观测值在均值附近,峰度系数g2越小,表示数据分布越离散,峰的形状越平坦,标准正态分布的g2=0.天津理工大学g2=2.476.天津理工大学g2=3.849.天津理工大学空间自相关分析空间自相关分析是认识空间分布特征、选择适宜的空间尺度来完成空间分析的最常用的方法。目前,普遍使用空间自相关系数—MoranI指数,其计算公式如下:其中,N表示空间实体数目;xi表示空间实体的属性值;x是x的平均值;Wij=1表示空间实体i与j相邻,Wij=0表示空间实体i与j不相邻。

I的值介于-1与1之间,I=1表示空间自正相关,空间实体呈聚合分布;I=-1表示空间自负相关,空间实体呈离散分布;I=0则表示空间实体是随机分布的。Wij表示实体i与j的空间关系,它通过拓扑关系获得。

天津理工大学回归分析回归分析用于分析两组或多组变量之间的相关关系,常见回归分析方程有线性回归、指数回归、对数回归、多元回归等。天津理工大学趋势分析通过数学模型模拟地理特征的空间分布与时间过程,把地理要素时空分布的实测数据点之间的不足部分内插或预测出来。天津理工大学专家打分模型 专家打分模型将相关的影响因素按其相对重要性排队,给出各因素所占的权重值;对每一要素内部进行进一步分析,按其内部的分类进行排队,按各类对结果的影响给分,从而得到该要素内各类别对结果的影响量,最后系统进行复合,得出排序结果,以表示对结果影响的优劣程度,作为决策的依据。其数学表达式为:Gp=WiCip 式中,Gp表示点的最终复合结果值,Wi表示第i个要素的权重,Cip表示第i个要素在p点的类别的专家打分分值。天津理工大学统计数据的分类分级 为了把GIS地理数据中的统计数据用专题地图的形式表示出来,通常需要对统计数据进行分类和分级(土地分等定级、水土流失强度分级)。分类和分级的方法很多,常用到的算法有:系统聚类法天津理工大学系统聚类法基本思想统计数据的标准化距离系数最短距离法系统聚类系统聚类法类间距离计算的统一公式天津理工大学基本思想 首先是n个样本各自成一类,然后规定类与类之间的距离,选择距离最小的两类合并成一个新类,计算新类与其它类的距离,再将距离最小的两类进行合并,这样每次减少一类,直到达到所需的分类数或所有的样本都归为一类为止。天津理工大学统计数据的标准化 每个样本单元有多种变量的原始数据,各种变量的量纲和数量大小是很不一致的,变化的幅度也不一样。假如直接用原始数据进行计算,就会突出绝对值大的变量的作用,而压低绝对小的变量的作用。为了给每种变量以统一量度,在进行模型的统计计算前,往往需要对原始数据进行标准化变换。——标准化天津理工大学数据标准化处理方法有①

总和标准化。分别求出各聚类要素所对应的数据的总和,以各要素的数据除以该要素的数据的总和,即这种标准化方法所得到的新数据满足(3.4.1)天津理工大学②

标准差标准化,即由这种标准化方法所得到的新数据,各要素的平均值为0,标准差为1,即有(3.4.2)

天津理工大学

③极大值标准化,即经过这种标准化所得的新数据,各要素的极大值为1,其余各数值小于1。

④极差的标准化,即

经过这种标准化所得的新数据,各要素的极大值为1,极小值为0,其余的数值均在0与1之间。

(3.4.3)(3.4.4)天津理工大学表某地区九个农业区的七项经济指标数据

区代号人均耕地X1(hm2/人)劳均耕地X2(hm2/个)水田比重X3(%)复种指数x4(%)粮食亩产x5(kg/hm2)人均粮食x6(kg/人)稻谷占粮食比重x7(%)G10.2941.0935.63113.64510.51036.412.2G20.3150.9710.3995.12773.5683.70.85G30.1230.3165.28148.56934.5611.16.49G40.1790.5270.391114458632.60.92G50.0810.21272.04217.812249791.180.38G60.0820.21143.78179.68973636.548.17G70.0750.18165.15194.710689634.380.17G80.2930.6665.3594.93679.5771.77.8G90.1670.4142.994.84231.5574.61.17天津理工大学x1x2x3x4X5X6X7G10.911.000.070.150.181.000.14G21.000.870.000.000.000.240.00G30.200.150.070.440.440.080.07G40.440.380.000.130.180.130.00G50.030.031.001.001.000.451.00G60.030.030.610.690.650.130.59G70.000.000.900.810.840.131.00G80.910.530.070.000.100.430.09G90.380.260.040.000.150.000.00表3.4.3极差标准化处理后的数据天津理工大学距离的计算对样本进行分类时,个体之间的相似性程度往往用“距离”来度量。它是将每个样本看成是高维空间的一个点,点与点之间用某种法则规定距离,距离近的点归为一类。常用的计算方法天津理工大学

设有n个样本,每个样本测得m项指标,则每个变量记为Xij,i=1,2,…n;j=1,2,…m。若在标准化变量互不相关时采用欧氏距离。两样本i和j的距离记为dij,则:表示数据点i与j之间的距离,x为相应点的变量k数据。距离越小,表明两者的相似性越大。采用绝对值距离天津理工大学最短距离法系统聚类在最短距离法中,定义两类之间的距离用两类间最近样本的距离来表示。用dij表示样本i和j的距离,用G1,G2,…表示类,用Dpq表示类Gp和类Gq的距离,则有:天津理工大学最短距离法聚类的步骤:

①计算每两个样本的距离。由于样本i和样本j的距离dij与样本j和样本i的距离dji是相等的,所以只要计算一个。开始时每个样本自成一类,则类之间的距离Dpq就等于样本之间的距离dpq。②找出最小的类间距,设为Dpq,则把Gp的Gq合并为一个新类,记为Gr。③计算新类与其它类的距离。新类Gr和某一类Gk的距离为Drk,则Drk可用下面公式计算出:Drk=min{Dpk·Dqk}天津理工大学④重复第②、③步,直到所有元素都成为一类或达到设定的分类数。天津理工大学例:绝对值距离公式式计算得到九个农业区之间的绝对值距离矩阵如下:

①在9×9阶距离矩阵D中,非对角元素中最小者是d94=0.51,首先将第4区与第9区并为一类,记为即G10={G4,G9}。按照公式分别计算G1,G2,G3,G5,G6,G7,G8与G10之间的距离得:d1,10=min{d14,d19}=min{2.19,2.62}=2.19d2,10=min{d24

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论