地理信息系统原理-空间分析与建模_第1页
地理信息系统原理-空间分析与建模_第2页
地理信息系统原理-空间分析与建模_第3页
地理信息系统原理-空间分析与建模_第4页
地理信息系统原理-空间分析与建模_第5页
已阅读5页,还剩288页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

空间分析与建模Spatialanalysisandmodeling数据采集与输入数据编辑与更新数据存储与管理空间查询与分析数据显示与输出缓冲区分析叠合分析空间查询网络分析地形分析……GIS基本功能GIS能作什么?5.1概述空间分析的概念

空间分析是基于空间数据的分析技术,它以地学原理为依托,通过分析算法与模型,从空间数据中获取有关地理对象的空间位置、空间分布、空间形态、空间形成和空间演变等信息。空间分析是GIS的本质,是GIS区别于MIS、CAD等的关键所在,也是评价一个GIS功能的主要指标之一。空间分析中的核心概念是空间位置,关心的是“什么事情(what)”发生在“什么地方(where)”,并将特征和现象与位置连接起来。空间分析是对数据的空间信息、属性信息或二者共同信息的统计描述或说明(Goodchild,1987)。空间分析是对于地理空间现象的定量研究,其常规能力是操纵空间数据成为不同的形式,并且提取其潜在信息(Openshaw,1997;Bailyetal.,1995)。空间分析研究的主要目标有:认知。有效获取空间数据,并对其进行科学的组织描述,利用数据再现事物本身,例如绘制风险图。解释。理解和解释地理空间数据的背景过程,认识事件的本质规律,例如住房价格中的地理邻居效应。预报。在了解、掌握事件发生现状与规律的前提下,运用有关预测模型对未来的状况做出预测,例如传染病的爆发。调控。对地理空间发生的事件进行调控,例如合理分配资源。从GIS应用角度看,空间分析大致可以归纳为如下两大类:一类是基于点、线、面基本地理要素的空间分析,通过空间信息查询与量测、缓冲区分析、叠置分析、网络分析、地统计分析等空间分析方法挖掘出新的信息;另一类是地理问题模拟,解决应用领域对空间数据处理与输出的特殊要求,地理实体和空间关系通过专业模型得到简化和抽象,而系统则通过模型进行深入分析操作。考虑到GIS环境下空间分析的易理解性和可操作性,这里将GIS环境下空间分析方法分为如下六个方面:确定性空间分析探索性空间数据分析时空数据分析专业模型集成分析智能化的空间分析可视化空间分析确定性空间分析是指分析处理确定性空间数据或解决确定性空间问题的方法,它是高级空间分析的基础。从算法来看,确定性空间分析的算法基本上是基于经典数学方法建模的,其在GIS空间分析技术中已经相当成熟。探索性空间数据分析(ExploratorySpatialDataAnalysis,ESDA)是利用统计学原理和图形图表相结合对空间数据的性质进行分析、鉴别,用以引导确定性模型的结构和解法的一种技术,本质上是一种“数据驱动”的分析方法。ESDA技术注重研究数据的空间相关性与空间异质性,在知识发现中用于选取感兴趣的数据子集,以发现隐含在数据中的某些特征和规律。相对于传统的统计分析而言,ESDA技术不是预设数据具有某种分布或某种规律,而是一步步地、试探性地分析数据,逐步地认识和理解数据。

探索性归纳学习方法(ExploratoryInductiveLearning,EIL)是ESDA方法中灵活通用的空间数据分析方法,可以从空间数据库中发现普遍知识、属性依赖、分类知识等多种知识。EIL方法表现结果的手段除传统的图形图表外,还可与GIS相结合,利用GIS的可视化技术,把相关结果表示到基础底图上,增强直观效果。用EIL方法从GIS数据库中发现知识基本流程定义探测性分析的空间范围EIL方法+GIS技术发现知识先验知识检验研究的问题感兴趣的GIS数据集知识库用户数据探测性归纳学习结果可视化时空数据分析的基础是时空数据模型,时空数据模型通常由数据结构、数据操作和完整性约束三部分组成(张祖勋等,1996)。目前,较典型的时空数据模型概括起来有以下四种:(1)把时间作为新的维数;(2)面向对象建模;(3)将时间作为属性附加项;(4)基于状态和变化建模。智能化空间分析方法经历了从决策树、基于知识的专家系统到基于智能计算的分析方法的发展历程。随着计算机智能技术的不断进步,智能化空间分析方法可以解决越来越复杂的地理问题,并使其效率与精度得以提高。将智能计算技术与空间分析有效地融合起来,能够有效地解决GIS环境下空间分析中的不确定性问题。可视化空间分析主要用于分析空间对象的空间分布规律,进行空间对象的空间性质计算,表现数据的内在复杂结构、关系和规律。目前,可视化空间分析已由静态空间关系的可视化发展到动态表示系统演变过程的可视化例子

与空间相关UsingMachineLearningtopredictparkingdifficultySoweneededmorerobustaggregatefeatures.Perhapsnotsurprisingly,theinspirationforoneofthesefeaturescamefromourownbackyardindowntownMountainView.IfGooglenavigationobservesmanyuserscirclingdowntownMountainViewduringlunchtimealongtrajectorieslikethisone,itstronglysuggeststhatparkingmightbedifficult:常用空间分析方法—基本方法1.基于空间关系的查询空间实体间存在着多种空间关系,包括拓扑、顺序、距离、方位等关系。通过空间关系查询和定位空间实体是GIS不同于一般数据库系统的功能之一。2.空间量算对于线状地物求长度、曲率、方向,对于面状地物求面积、周长、形状、曲率等;求几何体的质心;空间实体间的距离等。3.缓冲区分析所谓缓冲区就是地理空间目标的一种影响范围或服务范围。(邻近度)常用空间分析方法—基本方法4.叠加(置)分析GIS的叠加分析是将有关主题层组成的数据层面,进行叠加产生一个新数据层面的操作,其结果综合了原来两层或多层要素所具有的属性。叠加分析不仅包含空间关系的比较,还包含属性关系的比较。叠加分析可以分为以下几类:视觉信息叠加、点与多边形叠加、线与多边形叠加、多边形叠加、栅格图层叠加。5.网络分析网络分析是运筹学模型中的一个基本模型,它的根本目的是研究、筹划一项网络工程如何安排,并使其运行效果最好,如一定资源的最佳分配,从一地到另一地的运输费用最低等。6.空间统计分类分析多变量统计分析主要用于数据分类和综合评价。在使用不同GIS软件提供的相同空间分析方法时,可能产生不相一致的结果。导致这种不一致的原因较多,如:不同的软件结构及实现这些方法的不同算法;原始资料及对其解释上的误差;编码错误;不同的模拟、存储和操控数据的方式;对一些特殊条件的处理,如缺失值、边界等。试图在一个GIS软件上集成所有的空间分析方法是徒劳的。在很多情况下,GIS软件允许空间分析工具结合其它统计分析工具使用,输入和输出模式的软件包被设计成批处理的模式,数学模式工具提供更强有力的数学计算。很多不同种类的GIS软件包是可以利用的,每种软件都有其优势和弱点。§5.2空间统计分析空间统计分析主要用于空间和非空间数据的分类、统计、分析和综合评价。空间统计分析的方法有很多,包括统计图表分析、描述统计分析、空间自相关分析、回归分析、空间信息分类。为什么要用空间统计分析?空间统计分析,其核心就是认识与地理位置相关的数据间的空间依赖、空间关联或空间自相关,通过空间位置建立数据间的统计关系。空间统计分析的任务,就是运用有关统计方法,建立空间统计模型,从凌乱的数据中挖掘空间自相关与空间变异规律。为什么要用空间统计分析?空间数据分析与传统统计分析主要有两大差异:空间数据间并非独立,而是在多维空间中具有某种空间相关性,且在不同的空间分辨率下呈现不同之相关程度;地球只有一个,大多数空间问题仅有一组(空间分布不规则的)观测值,而无重复观测数据。因此,空间现象的了解与描述是极为复杂的,而传统方法,尤其是建立在独立样本上的统计方法,不适合分析空间数据。经典统计:独立性、随机性假设空间统计:自相关(结构性)、依赖性、异质性地理学第一定律(FLG):everythingisrelatedtoeverythingelse,butnearthingsaremorerelatedthandistantthings(Tobler,1970).空间统计的基本思想:WaldoTobler(bornin1930)receivingaplaqueforhiscontributionstogeography.OntheeventofhisNovember2000birthday./wiki/Waldo_R._Tobler

Tobler,

W.R.(1970)."AcomputermoviesimulatingurbangrowthintheDetroitregion".EconomicGeography,

46(2):234-240.FLG的一般性:自然地理、人文地理、社会经济空间自相关是普遍存在的,否则地理分析便没有多大意义。(空间模式、空间格局、空间变化规律)

经典统计:独立

空间自相关的存在,使得经典统计学所要求的样本独立性假设不满足。如果地理学从根本上值得研究,必然是因为地理现象在空间上的变化不是随机的。

经典统计:随机霍乱病死者居住分布图(JohnSnow,

1854)1854年8月到9月英国伦敦霍乱流行时,当局始终找不到发病的原因,后来医生约翰·斯诺(JohnSnow)参与调查。他在绘有霍乱流行地区所有道路、房屋、饮用水机井等内容的1:6500比例尺地图上,标出了每个霍乱病死者的居住位置,得到了霍乱病死者居住分布图。斯诺博士分析了这张分布图,马上明白了霍乱病源之所在,死者住家都集中于饮用“布洛多斯托”井水的地方及周围。1.统计图表分析2.描述统计分析—基本统计量2.描述统计分析3.空间自相关分析

通常定义一个二元对称空间权重矩阵W,来表达n个位置的空间区域的邻近关系,其形式如下式中:wij表示区域i与j的邻近关系,它可以根据邻接标准或距离标准来度量。

基本原理与方法

空间权重矩阵

①简单的二进制邻接矩阵②基于距离的二进制空间权重矩阵两种最常用的确定空间权重矩阵的规则

全局空间自相关

Moran指数反映的是空间邻接或空间邻近的区域单元属性值的相似程度。

Geary系数与Moran指数存在负相关关系。

PatrickA.P.Moran(1917-1988)

Moran指数和Geary系数是两个用来度量空间自相关的全局指标。全局空间自相关概括了在一个总的空间范围内空间依赖的程度。

如果x是位置(区域)的观测值,则该变量的全局Moran指数I,用如下公式计算式中:I为Moran指数;

;。Geary系数C计算公式如下

式中:C为Geary系数;其他变量同上式。如果引入记号

Moran指数I的取值一般在[-1,1]之间,小于0表示负相关,等于0表示不相关,大于0表示正相关;

Geary系数C的取值一般在[0,2]之间,大于1表示负相关,等于1表示不相关,而小于1表示正相关。

局部空间自相关(扩展)描述一个空间单元与其邻域的相似程度,能够表示每个局部单元服从全局总趋势的程度(包括方向和量级),反映了空间异质性,说明空间依赖是如何随位置变化的。局部空间自相关分析方法包括3种:

空间联系的局部指标(LISA);

G统计量;

Moran散点图空间联系的局部指标(LISA)

空间联系的局部指标(localindicatorsofspatialassociation,缩写为LISA)满足下列两个条件:(1)每个区域单元的LISA,是描述该区域单元周围显著的相似值区域单元之间空间集聚程度的指标;(2)所有区域单元LISA的总和与全局的空间联系指标成比例。LISA包括局部Moran指数(localMoranindex)和局部Geary指数(localGearyindex),下面重点介绍和讨论局部Moran指数。局部Moran指数被定义为可进一步写成

式中:和是经过标准差标准化的观测值。局部Moran指数检验的标准化统计量为

G统计量全局G统计量的计算公式为对每一个区域单元的统计量为

探测区域单元是属于高值集聚还是低值集聚的空间分布模式.对统计量的检验与局部Moran指数相似,其检验值为

显著的正值表示在该区域单元周围,高观测值的区域单元趋于空间集聚,而显著的负值表示低观测值的区域单元趋于空间集聚,与Moran指数只能发现相似值(正关联)或非相似性观测值(负关联)的空间集聚模式相比,具有能够探测出区域单元属于高值集聚还是低值集聚的空间分布模式。

Moran散点图

以(Wz,z)为坐标点的Moran散点图,常来研究局部的空间不稳定性,它对空间滞后因子Wz(即该观测值周围邻居的加权平均)和z数据对进行了可视化的二维图示。全局Moran指数,可以看作是Wz对于z的线性回归系数,对界外值以及对Moran指数具有强烈影响的区域单元,可通过标准回归来诊断出。由于数据对(Wz,z)经过了标准化,因此界外值可易由2-sigma规则可视化地识别出来。Moran散点图的4个象限,分别对应于区域单元与其邻居之间4种类型的局部空间联系形式:第1象限代表了高观测值的区域单元被高值的区域所包围的空间联系形式;第2象限代表了低观测值的区域单元被高值的区域所包围的空间联系形式;HHLHLLHL

第3象限代表了低观测值的区域单元被低值的区域所包围的空间联系形式;第4象限代表了高观测值的区域单元被低值的区域所包围的空间联系形式。HHLHLLHL2.应用实例

中国大陆30个省级行政区人均GDP的空间关联分析。根据各省(直辖市、自治区)之间的邻接关系,采用二进制邻接权重矩阵,选取各省(直辖市、自治区)1998—2002年人均GDP的自然对数,依照公式计算全局Moran指数I,计算其检验的标准化统计量Z(I),结果如下表所示。年份IZP19980.50014.50350.000019990.50694.55510.000020000.51124.59780.000020010.50594.55320.000020020.50134.53260.0000

从表中可以看出,在1998—2002年期间,中国大陆30个省级行政区人均GDP的全局Moran指数均为正值;在正态分布假设之上,对Moran指数检验的结果也高度显著。这就是说,在1998—2002年期间,中国大陆30个省级行政区人均GDP存在着显著的、正的空间自相关,也就是说各省级行政区人均GDP水平的空间分布表现出相似值之间的空间集聚,其空间联系的特征是:较高人均GDP水平的省级行政区相对地趋于和较高人均GDP水平的省级行政区相邻,或者较低人均GDP水平的省级行政区相对地趋于和较低人均GDP水平的省级行政区相邻。

选取2001年我国30个省级行政区人均GDP数据,计算局部Gi统计量和局部Gi统计量的检验值Z(Gi),并绘制统计地图如下。

检验结果表明,贵州、四川、云南西部3省的Z值在0.05的显著性水平下显著,重庆的Z值在0.1的显著性水平下显著,该4省市在空间上相连成片分布,而且从统计学意义上来说,与该区域相邻的省区,其人均GDP趋于为同样是人均GDP低值的省区所包围。由此形成人均GDP低值与低值的空间集聚,据此可认识到西部落后省区趋于空间集聚的分布特征。

东部的江苏、上海、浙江三省市的Z值在0.05的显著性水平下显著,天津的Z值在0.1的显著性水平下显著。而东部上海、江浙等发达省市趋于为一些相邻经济发展水平相对较高的省份所包围,东部发达地区的空间集聚分布特征也显现出来。

以(Wz,z)为坐标,进一步绘制Moran散点图可以发现,多数省(直辖市、自治区)位于第1和第3象限内,为正的空间联系,属于低低集聚和高高集聚类型,而且位于第3象限内的低低集聚类型的省(直辖市、自治区)比位于第1象限内的高高集聚类型的省(直辖市、自治区)更多一些。

上图进一步显示了30个省级行政区人均GDP局部集聚的空间结构。可以看出,从人均GDP水平相对地来看:高值被高值包围的高高集聚省(直辖市)有:北京、天津、河南、安徽、湖北、江西、海南、广东、福建、浙江、山东、上海、江苏;低值被低值包围的低低集聚省(自治区)有:黑龙江、内蒙古、新疆、吉林、甘肃、山西、陕西、青海、西藏、四川、云南、辽宁、贵州;被低值包围的高值省(直辖市)有:重庆、广西、河北;被高值包围的低值省份只有湖南。4.回归分析回归分析用于分析两组或多组变量之间的相关关系,常见回归分析方程有线性回归、指数回归、对数回归、多元回归等。线性回归Logistic回归Poisson回归负二项回归Weibull回归Cox回归分位数回归Tobit回归…………回归分析工作的基本原理在实际工作中,我们可能会遇到以下类似的问题

在我们国家是否有持续发生年轻人早逝的地方?

哪里为犯罪或火灾的高发地点?

城市中哪里的交通事故发生率比预期的要高?

……回归分析工作的基本原理在实际工作中,我们可能会遇到以下类似的问题

在我们国家是否有持续发生年轻人早逝的地方?

哪里为犯罪或火灾的高发地点?

城市中哪里的交通事故发生率比预期的要高?

……119紧急呼叫数据的

分析结果,显示了

呼叫热点(红色)、呼叫冷点(蓝色)以及负责事故处理的消防和警察分队的位置(绿色十字)可以通过热点分析的方法弄清以上问题对于上面的每一个问题都询问了“where”,但是我们自然会想到“why”为什么国家会存在持续发生年轻人早逝的地方?是什么导致了这种情况?我们能否对犯罪、119呼叫或火灾频发地区的特征进行建模,

以帮助减少这些事件的发生?导致交通事故发生率比预期要高的因素有哪些,有没有相关政策或者措施来减少整个城市或特定事故高发区的交通事故?使用回归分析的主要原因1.对某一现象建模,测量一个或多个变量的变化对另一变量变化的影响程度。2.对某种现象建模以预测其他地点或其他时间的数值,构建一个持续准确的预测模型。3.深入探索某些假设情况。

假设您正在对住宅区的犯罪活动进行建模,以更好的了解犯罪活动并希望实施可能阻止犯罪活动的策略,开始分析时,就会有很多问题或想要检验的假设情况:

1)“破窗理论”表明公共财产的破坏(涂鸦、被毁坏的建筑物等)可招致其他犯罪行为,破坏财产行为与入世盗窃之间是

否存在正关系?

2)非法使用毒品与盗窃行为之间存在某种关系吗(吸毒成瘾的人又可能通过偷取财物来维持他们吸毒的习惯吗)?r2

=

r=

1Se=

0.0Sy

=

2b=

2perfectpositiver =

0.94

r

=.97Se=

0.32r =

0.51

r

=.71Se=

1.1b=

1.12Very

strongstrongr2

=

0.26

r

=.51Se=

1.3b=

0.8r2

=

0.07Se=

1.8b=

0.1r2

=

r=

0.00Se=

Sy

=2moderateweaknoneRegressionline

inblueAsthecoefficient

of

determination

gets

smaller,

theslope

of

theregression

line(b)

gets

closer

to

zero.Asthecoefficient

of

determination

gets

smaller,

thestandard

error

getslarger,

and

closer

to

the

standard

deviation

of

the

dependent

variable

(Y)(Sy

=2)Coefficient

of

determination

(r2

),

correlation

coefficinet

(r),regression

coefficient

(b),

and

standard

error (Se)b=

0(Values

are

hypothetical

andfor

illustration

of

relative

change

only)注意判定系数、相关系数、回归系数的意义与不同Sample

Statistics,Population

Parameters

andStatistical

SignificancetestsYi =

a

+bXi

+

iYi

α

βXi

εia

andb

are

sample

statisticswhich

are

estimates

ofpopulation

parameters

α

and

βTestStatisticsin

SimpleRegressionTest

statistic

for

b

is

distributed

according

to

the

Student’s

tT检验是针对单个变量的系数进行显著性检验F检验是针对整个回归方程做显著性检验( Y –

)2

/

n

2i i

Distribution

(similar

to

normal):where

se is

the

variance

of

the

estimate,with degrees

of

freedom

=n

2iA

test

can

also

be

conducted

on

the

coefficient

ofdetermination

(r2

)to

test

if

it

is

significantly

greater

than

zero,

using

the

F

frequencydistribution.- Y)2

/

1

( YˆRegression

S.S./d.f.Residual

S.S./d.f.i

F

(

X

X

)2SE(b)s2t

eb b2一般OLS回归方程Anscombe,

Francis

J.

(1973).

"Graphs

in

statistical

analysis".

The

AmericanStatistician

27:

17–21.Alwayslook

at

your

dataDon’t

justrely

onthe

statistics!Anscombe's

quartetSummary

statistics

are

thesamefor

all

four

data

sets:mean (7.5),standard

deviation

(4.12),correlation (0.816)regression

line(y

=3

+

0.5x).注:不仅要注意回归方程,还要看数据本身的散点图!!!Waiting

timebetween

eruptions

and

the

duration

ofthe

eruption

for

the

OldFaithful

Geyser

in

Yellowstone

National

Park,

Wyoming,

USA.

This

chartsuggests

there

are

generally

two"types"

of

eruptions:

short-wait-short-duration,

andlong-wait-long-duration.Source:

Wikipedia注:不仅要注意回归方程,还要看数据本身的散点图!!!可能需要分组回归 Real

data

is

almostalways

more

complexthanthe

simple,

straight

linerelationship

assumed

inregression.Spuriousrelationships12000100008000600040002000014000050001000015000200002500030000 35000Ice

Cream

sales

relatedto

DrowningsEating

ice

creaminhibits

swimmingability.--eat

too

much,

youcannot

swimOmitted

variableproblem--both

are

related

to

athird

variable

notincluded

inthe

analysisSummer

temperatures:--morepeople

swim(and

some

drown)--moreice

cream

issoldHelp!注:回归要注意属性间的逻辑,要有意义,否则可能出现虚假关系!Regression

does

not

prove

directionorcause!Income

and

IlliteracyProvinces

with

higher

incomes

can

affordto

spend

more

on

education,

so

illiteracy

islowerHigher

Income>>>>Less

IlliteracyThe

higher

the

level

of

literacy

(and

thusthe

lower

the

level

of

illiteracy)

the

morehigh

income

jobs.Less

Illiteracy>>>>Higher

IncomeRegression

will

not

decide!IncomeIlliteracyIncomeIlliteracy回归模型中常见的问题1.遗漏自变量2.非线性关系

3.数据异常值4.不稳定性5.多重共线性。6.残差的方差不一致

7.空间自相关残差8.正态分布偏差模型评估(1)评估模型性能。(2)评估模型中的每一个解释变量(3)评估模型是否具有显著性(4)评估稳定性(5)评估模型偏差(6)评估残差空间自相关

在空间分析(Spatial

analysis)中,变量的观测值(数据)一般都是按照某给定的地理单位为抽样单位得到的,随着地理位置的变化,变量间的关系或者结构会发生变化,这种因地理位置的变化而引起的变量间关系或结构的变化称之为空间非平稳性(spatialnonstationarity)。

这种空间非平稳性普遍存在于空间数据中,如果采用通常的线性回归模型或某一特定形式的非线性回归函数来分析空间数据,一般很难得到满意的结果,因为全局模型(global

model)在分析之前就假定了变量间的关系具有同质性(homogeneity),从而掩盖了变量间关系的局部特性,所得结果也只有研究区域内的某种“平均”,因此需要对传统的分析方法进行改进。GeographicallyWeighted

RegressionThe

idea

of

LocalIndicators can

also

be

applied

toregressionIts

called

geographically

weighted

regressionIt

calculates

a

separate

regression

for

each

polygon

and

its

neighbors,then

maps

the

parameters

from

the

model,

such

as

the

regression

coefficient

(b)

and/or

its

significance

valueMathematically,

this

is

done

by

applying

the

spatial

weights

matrix

(Wij)to

the

standard

formulae

for

regressionXi注:GWR考虑局部,建议阅读参考文献Problems

with

Geographically

WeightedRegressionEach

regression

is

based

on few

observationsthe

estimates

of

the

regression

parameters

(b)

are

unreliableNeedto

use

more

observations

than

just

those

with

sharedborder,

buthow

far

out

do

we

go?How

far

out

is

the

“local

effect”?Need

strong

theory

to

explain

why

the

regressionparameters

are

different

at

different

placesSerious

questions

about

validity

of

statistical

inferencetests

since

observations

not

independent49Xi趋势上有剧烈变化5.趋势分析6.空间信息分类(1)主成分分析(PrincipalComponentAnalysis,PCA)主成分分析就是把原有的多个指标转化成少数几个代表性较好的综合指标,这少数几个指标能够反映原来指标大部分的信息(85%以上),并且各个指标之间保持独立,避免出现重叠信息。主成分分析主要起着降维和简化数据结构的作用。

假设我们所讨论的实际问题中,有p个指标,我们把这p个指标看作p个随机变量,记为X1,X2,…,Xp,主成分分析就是要把这p个指标的问题,转变为讨论m个新的指标F1,F2,…,Fm(m<p),按照保留主要信息量的原则充分反映原指标的信息,并且相互独立。其中主成分分析通常的做法是,寻求原指标的线性组合Fi。满足如下的条件:主成分之间相互独立,即无重叠的信息。即主成分的方差依次递减,重要性依次递减,即每个主成分的系数平方和为1。即••••••••••••••••••••••••••••••••••••••(2)层次分析法日常生活中有许多决策问题。决策是指在面临多种方案时需要依据一定的标准选择某一种方案。例

择业面临毕业,可能有高校、科研单位、企业等单位可以去选择,一般依据工作环境、工资待遇、发展前途、住房条件等因素择业。层次分析法(AnalyticHierarchyProcess,

AHP)是一种定性和定量相结合的、系统化的、层次化的分析方法。研究自然和社会现象主要的主要方法有机理分析法,用经典的数学工具分析现象的因果关系统计分析法,以随机数学为工具,通过大量的观察数据寻求统计规律。近年发展的系统分析是又一种方法,而层次分析法是系统分析的数学工具之一。层次分析法的基本思路:与人们对某一复杂决策问题的思维、判断过程大体一致。选择钢笔质量、颜色、价格、外形、实用钢笔1、钢笔2、钢笔3、钢笔4将各个钢笔的质量、颜色、价格、外形、实用进行排序经综合分析决定买哪支钢笔层次分析法的基本步骤买钢笔质量颜色价格外形实用可供选择的笔建立层次结构模型(1)将决策问题分为三层,最上面为目标层,最下面为方案层,中间是准则层或指标层;(2)通过相互比较确定各准则对于目标的权重,及各方案对于每一准则的权重;(3)将方案层对准则层的权重及准则层对目标层的权重进行综合,最终确定方案层对目标层的权重。例

选择钢笔的层次结构

准则层

方案层目标层选择旅游地景色费用居住饮食旅途苏杭、北戴河、桂林例

选择旅游地的层次结构

准则层A

方案层B目标层Z

人们在决策的时候凭自己的经验和知识进行判断,当因素较多时给出的结果往往是不全面和不准确的,如果只是定性的结果,则常常不被别人接受。Saaty等人的做法,一是不把所有因素放在一起比较,而是两两相互对比;二是对比时采用相对尺度,以尽可能地减少性质不同的诸因素相互比较的困难,提高准确度。设某层有个因素,构造成对比较矩阵要比较它们对上一层某一准则(或目标)的影响程度,确定在该层中相对于某一准则所占的比重。(即把个因素对上层某一目标的影响程度排序)用表示第个因素相对于第个因素的比较结果,则则称为成对比较矩阵。上述比较是两两因素之间进行的比较,比较时取1~9尺度。13579尺度第个因素与第个因素的影响相同第个因素比第个因素的影响稍强第个因素比第个因素的影响强第个因素比第个因素的影响明显强第个因素比第个因素的影响绝对地强含义比较尺度:(1~9尺度的含义)2,4,6,8表示第i个因素相对于第j个因素的影响介于上述两个相邻等级之间。不难定义以上各尺度倒数的含义,根据。由上述定义知,成对比较矩阵则称为正互反阵。比如,在旅游问题中,某人给出第二层A的各因素对目标层Z的影响两两比较结果如下:满足以下性质:

ZA1A2A3A4A5A1A2A3A4A511/2433217551/41/711/21/31/31/52111/31/5311分别表示景色、费用、居住、饮食、旅途。由上表,可得成对比较矩阵

表示景色与费用之比为1:2,表示景色居住条件之比为4:1,…,可以看出,此人在选择旅游地时,费用因素最重要,景色次之,居住条件再次。旅游问题的成对比较矩阵共有6个(一个5阶,5个3阶)。问题:两两进行比较后,怎样才能知道,下层各因素对上层某因素的影响程度的排序结果呢?既然与之比为1:2,与之比为4:1,那么应该有:,而不是7:1,才能说明成对比较是一致的。但是,n个因素要作n(n-1)/2次成对比较,全部一致的要求是太苛刻了!因此,Saaty等人给出了在成对比较不一致的情况下计算各因素对因素z的权重的方法,并且确定了这种不一致的容许范围,为了说明这一点,我们先看成对比较完全一致的情况。层次单排序及一致性检验层次单排序:确定下层各因素对上层某因素影响程度的过程。由线性代数的相关知识,有以下几个结论:

阶互反阵的最大特征根,当且仅当

时,为一致阵。由于连续的依赖于,则比大的越多,的不一致性越严重。用最大特征值对应的特征向量作为被比较因素对上层某因素影响程度的权向量,其不一致程度越大,引起的判断误差越大。因而可以用数值的大小来衡量的不一致程度。定义一致性指标CI=0时,A为一致阵;CI越大A的不一致程度越严重。注意到A的n个特征根之和恰好为n,所以CI相当于除λ外其余的特征根的平均值。则可得一致性指标定义随机一致性指标随机构造500个成对比较矩阵随机一致性指标RI的数值:n1234567891011RI000.580.901.121.241.321.411.451.491.51一致性检验:利用一致性指标和一致性比率<0.1及随机一致性指标的数值表,对进行检验的过程。

一般,当一致性比率的不一致程度在容许范围之内,可用其归一化特征向量作为权向量,否则要重新构造成对比较矩阵,对加以调整。时,认为层次单排序:确定下层各因素对上层某因素影响程度的过程。用权值表示影响程度,先从一个简单的例子看如何确定权值。例如一块石头重量记为1,打碎分成各小块,各块的重量分别记为:则可得成对比较矩阵由右面矩阵可以看出,即,但在例2的成对比较矩阵中,在正互反矩阵中,若,则称为一致阵。一致阵的性质:5.的任一列(行)都是对应于特征根的特征向量。1.和法(近似计算)2.根法(近似计算)无论是和法还是根法,作为权重,应再将W归一化1,2中判断矩阵A的最大特征值可由下面的公式得到:3.迭代法(MATLAB软件计算)4层次总排序及其一致性检验

确定某层所有因素对于总目标相对重要性的排序权值过程,称为层次总排序

从最高层到最低层逐层进行。设:对总目标Z的排序为的层次单排序为即层第个因素对总目标的权值为:层的层次总排序为:B层的层次总排序AB层次总排序的一致性检验设层对上层(层)中因素的层次单排序一致性指标为,随机一致性指为,则层次总排序的一致性比率为:当时,认为层次总排序通过一致性检验。到此,根据最下层(决策层)的层次总排序做出最后决策。1.建立层次结构模型该结构图包括目标层,准则层,方案层。层次分析法的基本步骤归纳如下3.计算单排序权向量并做一致性检验2.构造成对比较矩阵从第二层开始用成对比较矩阵和1~9尺度。

对每个成对比较矩阵计算最大特征值及其对应的特征向量,利用一致性指标、随机一致性指标和一致性比率做一致性检验。若检验通过,特征向量(归一化后)即为权向量;若不通过,需要重新构造成对比较矩阵。计算最下层对最上层总排序的权向量。4.计算总排序权向量并做一致性检验进行检验。若通过,则可按照总排序权向量表示的结果进行决策,否则需要重新考虑模型或重新构造那些一致性比率较大的成对比较矩阵。利用总排序一致性比率层次分析法建模举例旅游问题(1)建模分别分别表示景色、费用、居住、饮食、旅途。分别表示苏杭、北戴河、桂林。(2)构造成对比较矩阵(3)计算层次单排序的权向量和一致性检验成对比较矩阵的最大特征值表明通过了一致性验证。故则该特征值对应的归一化特征向量

对成对比较矩阵可以求层次总排序的权向量并进行一致性检验,结果如下:计算可知通过一致性检验。0.00520.001700.00860选择旅游地景色费用居住饮食旅途利用层次结构图绘出从目标层到方案层的计算结果:对总目标的权值为:(4)计算层次总排序权值和一致性检验又决策层对总目标的权向量为:同理得对总目标的权值分别为:故,层次总排序通过一致性检验。可作为最后的决策依据。故最后的决策应为去桂林。又分别表示苏杭、北戴河、桂林,即各方案的权重排序为层次分析法的优点和局限性1系统性

层次分析法把研究对象作为一个系统,按照分解、比较判断、综合的思维方式进行决策,成为继机理分析、统计分析之后发展起来的系统分析的重要工具。2实用性层次分析法把定性和定量方法结合起来,能处理许多用传统的最优化技术无法着手的实际问题,应用范围很广,同时,这种方法使得决策者与决策分析者能够相互沟通,决策者甚至可以直接应用它,这就增加了决策的有效性。3简洁性具有中等文化程度的人即可以了解层次分析法的基本原理并掌握该法的基本步骤,计算也非常简便,并且所得结果简单明确,容易被决策者了解和掌握。以上三点体现了层次分析法的优点,该法的局限性主要表现在以下几个方面:第一只能从原有的方案中优选一个出来,没有办法得出更好的新方案。第二该法中的比较、判断以及结果的计算过程都是粗糙的,不适用于精度较高的问题。第三从建立层次结构模型到给出成对比较矩阵,主观因素对整个过程的影响很大,这就使得结果难以让所有的决策者接受。当然采取专家群体判断的办法是克服这个缺点的一种途径。思考:多名专家的综合决策问题(3)聚类分析判别分析与聚类分析同属分类问题,所不同的是判别分析预先根据理论与实践确定等级序列的因子标准,再将待分析的地理实体安排到序列的合理位置上,对于诸如水土流失评价、土地适宜性评价等有一定理论根据的分类系统定级问题比较适用。(4)判别分析§5.3空间查询分析空间数据的查询属于数据库的范畴,一般定义为从数据库中找出所有满足属性约束条件和空间约束条件的地理对象。属性约束条件:带比较运算符的逻辑表达式。空间约束条件:带空间谓词的逻辑表达式。

空间谓词由地理对象间的空间关系演变而来,如包含、相交、相离、重叠、距离、方向等。1.空间数据查询过程2.空间查询的方式给出图形信息:如鼠标点取,拉框等方式检索其相应属性检索其空间拓扑关系给出属性特征条件检索对应的空间实体查询属性单纯查询:单纯的查询属性,或只查询空间拓扑关系联合查询:将空间数据与属性数据联合查询。3.空间数据查询种类几何参数查询空间定位查询空间关系查询属性查询4.几何参数查询包括点的位置坐标,两点间的距离,一个或一段线目标的长度,一个面目标的周长或面积等。

实现:查询属性库或空间计算ManhattanDistance形状系数5.空间定位查询给定一个点或一个几何图形,检索该图形范围内的空间对象及其属性。按点查询:给定一个鼠标点,查询离它最近的对象及属性——点的捕捉。开窗查询——按矩形、圆、多边形查询

分为该窗口包含和穿过的区别。

实现:根据空间索引,检索哪些对象可能位于该窗口,然后根据点、线、面在查询开窗内的判别计算,检索到目标。

——空间运算方法6.空间关系查询相邻分析检索

——通过检索拓扑关系面—面(如查询与面状地物相邻的多边形)线—线(与某干流A相连的所有支流)点—点(A与B是否相通)相关分析检索(不同要素类型之间的关系)

——通过检索拓扑关系线—面(我国边境线总长度)点—线(自来水GIS中,与某阀门相关的水管)点—面包含关系查询查询某个面状地物所包含的空间对象。通过叠置分析检索ABC6.空间关系查询(续)穿越查询某公路穿越了某些县,采用空间运算的方法执行,根据一个线目标的空间坐标,计算哪些面或线与之相交。落入查询一个空间对象落入哪个空间对象之内。——空间运算缓冲区查询根据用户给定的一个点、线、面缓冲的距离,从而形成一个缓冲区的多边形,再根据多边形检索原理,检索该缓冲区内的空间实体。7.属性查询查找仅选择一个属性表,给定一个属性值,找出对应的属性记录或图形。在屏幕上已有一个属性表,用户任意点取记录,对应的图形以高亮显示。实现:执行数据库查询语言,找到满足要求的记录,得到它的目标标识,再通过目标标识在图形数据文件中找到对应的空间对象,并显示出来。

SQL查询Select属性项From属性表Where条件or条件and条件实现:交互式选择各项,输入后,系统再转换为标准的SQL,由数据库系统执行,得到结果,提取目标标识,在图形文件中找到空间对象并显示。8.空间查询的方法基于关系查询语言扩充的空间查询方法可视化空间查询方法(图符查询)基于自然语言的查询方法超文本查询方法(1)扩展SQL空间数据查询语言是通过对标准SQL的扩展来形成的,即在数据库查询语言上加入空间关系查询。为此需要增加空间数据类型(如点、线、面等)和空间操作算子(如求长度、面积、叠加等)。在给定查询条件时也需含有空间概念,如距离、邻近、叠加等。

例如,“查询长江流域人口大于50万的县或市”,可表示为:

SELECT* FROM县或市

WHERE县或市.人口>50万ANDCROSS(河流.名称=“长江”)主要优点是:保留了SQL的风格,便于熟悉SQL的用户的掌握,通用性较好,易于与关系数据库连接。执行扩展SQL,如果要将属性和空间关系整体统一起来,从底层进行查询优化,有一定困难。目前一般将两层分开进行查询。(2)可视化空间查询方法可视化查询是指将查询语言的元素,特别是空间关系,用直观的图形或符号表示。查询主要使用图形、图像、图标、符号来表达概念。具有简单、直观、易于使用的特点。缺点:当空间约束条件复杂时,很难用图符描述;用二维图符表示图形之间的关系时,可能会出现歧义;难以表示“非”关系;不易进行范围(圆、矩形、多边形等)约束;无法进行屏幕定位查询等。(3)自然语言空间查询在SQL查询中引入一些自然语言,如温度高的城市

SELECTname FROMCities WHEREtemperatureishighSELECTname FROMCities WHEREtemperature>=33.75这种查询方式需要模糊概念的量化,适用于某个专业领域的地理信息系统,而不能作为地理信息系统中的通用数据库查询语言。(4)超文本查询图形、图像、字符等皆当作文本,并设置一些“热点”(HotSpot),“热点”可以是文本、键等。用鼠标点击“热点”后,可以弹出说明信息、播放声音、完成某项工作等。但超文本查询只能预先设置好,用户不能实时构建自己要求的各种查询。§5.4缓冲区分析空间缓冲区分析(Spatialbufferanalysis):指根据分析对象的点、线、面实体,自动建立它们周围一定距离的带状区,用以识别这些实体或主体邻近对象的辐射范围或影响程度,以便为某项分析或决策提供依据。内部重要性一致?缓冲区(buffer)是地理空间目标的一种影响范围或服务范围,它是对一组或一类地图要素(点、线或面)按设定的距离条件,围绕这组要素而形成具有一定范围的多边形实体,从而实现数据在二维空间扩展的信息分析方法。建立空间缓冲区的分析模型用于缓冲半径的确定根据空间实体对邻近对象作用性质的不同,可采用不同的分析模型,主要有:线性模型:用于当实体对邻近对象的影响度随距离的增大呈线性衰减的情况。二次模型:用于当实体对邻近对象的影响度随距离的增大呈二次形式衰减时。指数模型:用于当实体对邻近对象的影响度随距离的增大呈指数形式衰减时。分级缓冲区域动态缓冲区Bufferingwith

different

buffer

distances.Bufferingwithrings.缓冲区的重叠处理Bufferzonesnotdissolvedordissolved.缓冲区分析的三要素

在进行空间缓冲区分析时,通常要将研究的问题抽象为以下三类要素:①主体:表示分析的主要目标,一般分为点源、线源和面源三种。②邻近对象:表示受主体影响的客体,例如行政界线变更时所涉及的居民区、森林遭砍伐时所影响的水土流失范围等。③对象的作用条件:表示主体对邻近对象施加作用的影响条件或影响强度。练习—空间分析实例1

已知一伐木公司,获准在某林区采伐,为防止水土流失,规定不得在河流周围1km内采伐林木。另外,为便于运输,决定将采伐区定在道路周围5km之内。请找出符合上述条件的采伐区,输出森林采伐图。实例1解析解题流程解题过程

首先要以区域的道路分布图、河流分布图、森林分布图为数据源。解题流程见图示。道路分布图森林分布图河流分布图结束生成道路周围5km缓冲区叠合生成河流周围1km缓冲区叠合已知一伐木公司,获准在某林区采伐,为防止水土流失,规定不得在河流周围1km内采伐林木。另外,为便于运输,决定将采伐区定在道路周围5km之内。请找出符合上述条件的采伐区,输出森林采伐图。将该地区具有相同比例尺且进行配准的道路分布图、河流分布图、森林分布图,进行预处理和数字化;利用河流分布图生成1km的等距离缓冲区;利用道路分布图生成5km的等距离缓冲区;森林分布图中可采伐林地、道路缓冲区及河流缓冲区图进行叠加,加条件表达式为:

采伐区=森林分布图中可伐林地∩道路周围5km缓冲区∩非河流周围1km缓冲区将上述3张图进行两两叠合,所得结果即为森林采伐图。

实例1解析

如已知一湖泊,要求在它周围5000m内必需禁止任何污染性工业企业存在,在它周围500m内必需禁止建筑任何永久性建筑物。练习—空间分析实例2

如已知一湖泊,要求在它周围5000m内必需禁止任何污染性工业企业存在,在它周围500m内必需禁止建筑任何永久性建筑物。解题步骤:(1)先建立缓冲区;(2)同现有污染性工业企业图叠加,显示在范围内应禁止的污染性工业企业;(3)同现有永久性建筑物图叠加,显示在范围内应禁止的永久性建筑物。实例2解析§5.5空间叠加分析空间叠加分析(SpatialOverlayanalysis):又称叠合分析、叠置分析,在统一空间参照系统条件下,每次将同一地区两个地理对象的图层进行叠合,以产生空间区域的多重属性特征,或建立地理对象之间的空间对应关系。空间合成叠合空间统计叠合空间合成叠合用于搜索同时具有几种地理属性的分布区域,或对叠合后产生的多重属性进行新的分类。空间统计叠合用于提取某个区域范围内某些专题内容的数量特征。(1)基于矢量数据的叠合分析Point-in-polygonoverlayLine-in-polygonoverlayPolygon-in-polygonoverlayPoint-in-polygonoverlay包含点的图层与包含多边形的图层判断点包含在哪一个多边形里面,从而为点设置新的多边性属性Point-in-polygonoverlay示例IDcity_name1南京2苏州3上海4杭州1243123IDprovince_name1江苏2上海3浙江Point-in-polygonoverlay结果12431231243IDcity_nameprovince_name1南京江苏2苏州江苏3上海上海4杭州浙江Line-in-polygonoverlay包含线的图层与包含多边形的图层判断线包含在哪一个多边形里面,从而为线设置新的多边性属性Line-in-polygonoverlay示例IDroad_namelength1沪宁高速4002沪杭高速3803宁杭高速330123IDprovince_name1江苏2上海3浙江123Line-in-polygonoverlay结果123123456123456IDroad_nameprovince_namelength1沪宁高速江苏3502沪宁高速上海503沪杭高速上海3204沪杭高速浙江605宁杭高速浙江1006宁杭高速江苏230Polygon-in-polygonoverlay两个多边形图层的比较分析(图形和属性)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论