




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、会计学1空间数据的统计分析空间数据的统计分析1本本第一页,共88页。2主要内容主要内容(nirng):GIS属性数据属性数据一般统计分析一般统计分析探索性数据分析探索性数据分析探索性空间数据分析方法探索性空间数据分析方法空间点模式分析方法空间点模式分析方法格网或面状数据空间统计分析格网或面状数据空间统计分析方法方法地统计分析概述地统计分析概述空间变异函数空间变异函数克里金估计方法克里金估计方法地统计分析研究展望地统计分析研究展望空间统计分析软件空间统计分析软件第1页/共88页第二页,共88页。3GIS属性数据属性数据第2页/共88页第三页,共88页。4nGIS属性数据属性数据n属性数据是属性数
2、据是GIS的重要特征。的重要特征。n属性数据包含了两方面的含义:属性数据包含了两方面的含义:n它是什么,即它有什么样的特性它是什么,即它有什么样的特性(txng),划分为,划分为地物的哪一类;(类别属性)地物的哪一类;(类别属性)n实体的详细描述信息,例如一栋房子的建造年限实体的详细描述信息,例如一栋房子的建造年限、房主、住户等。、房主、住户等。 (描述属性)(描述属性)第3页/共88页第四页,共88页。5一般一般(ybn)统计分析统计分析第4页/共88页第五页,共88页。6n一般统计分析一般统计分析n指对指对GIS地理空间数据库中的属性数据进行常规统地理空间数据库中的属性数据进行常规统计分析
3、。计分析。n先对数据进行描述性统计分析,先对数据进行描述性统计分析,n再选择进一步分析的方法。再选择进一步分析的方法。n描述性统计分析:对调查总体所有变量的有关描述性统计分析:对调查总体所有变量的有关(yugun)数据进行统计性描述,主要包括数据的频数数据进行统计性描述,主要包括数据的频数分析、数据的集中趋势分析、数据的离散程度分析、分析、数据的集中趋势分析、数据的离散程度分析、数据的分布、以及一些基本的统计图形。数据的分布、以及一些基本的统计图形。第5页/共88页第六页,共88页。7对于空间数据来说,描述性分析是空间数据分析的第一步,通过(tnggu)描述性分析,提取有价值的空间信息,便于后
4、续的空间分析和处理。第6页/共88页第七页,共88页。8n数据的频数分析数据的频数分析n频数:频数: 将变量将变量xi(i=1,2,n)按大小顺序排列按大小顺序排列,并按一定的间距分组。变量在各组出现或发,并按一定的间距分组。变量在各组出现或发生的次数生的次数(csh)称为频数。称为频数。n频率:各组频数与总频数之比叫做频率。频率:各组频数与总频数之比叫做频率。n频率分布图:计算出各组的频率后,就可以频率分布图:计算出各组的频率后,就可以做出频率分布图。做出频率分布图。n频率直方图:若以纵轴表示频率,横轴表示频率直方图:若以纵轴表示频率,横轴表示分组,就可做出频率直方图,用以表示事件发分组,就
5、可做出频率直方图,用以表示事件发生的概率和分布状况。生的概率和分布状况。第7页/共88页第八页,共88页。9n数据的集中趋势分析数据的集中趋势分析n数据的集中趋势分析是用来反映数据的一般数据的集中趋势分析是用来反映数据的一般水平,常用水平,常用(chn yn)的指标有平均值、中位的指标有平均值、中位数和众数等。数和众数等。n平均值:平均值:n是衡量数据的中心位置的重要指标,反映了是衡量数据的中心位置的重要指标,反映了一些数据必然性的特点,包括算术平均值、加一些数据必然性的特点,包括算术平均值、加权算术平均值、调和平均值和几何平均值。权算术平均值、调和平均值和几何平均值。第8页/共88页第九页,
6、共88页。10n数据的集中趋势分析数据的集中趋势分析n算术平均值:将所有算术平均值:将所有(suyu)数据相加,再除以数数据相加,再除以数据的总数目。据的总数目。niixnX11加权算术(sunsh)平均值:考虑数据对数据总体的影响的权重值的不同,将每个数据乘以其权值后再相加,所得的和除以数据的总体权重数。 ninpiiipPxPX11/Pi为数据(shj)xi的权值 第9页/共88页第十页,共88页。11调和平均值:各个(gg)数据的倒数的算术平均数的倒数,又称为倒数平均值。调和平均值也分为简单调和平均数和加权调和平均数l简单(jindn)调和平均数: )1/(11nxXniitl加权调和(
7、tio h)平均数: )/(111npiniiitpPxPX第10页/共88页第十一页,共88页。12l几何(j h)平均数:是n个数据连乘的积开n次方根。 nniigxX1第11页/共88页第十二页,共88页。13中位数:一种反映数据的中心位置的指标,其确定方法是将所有数据以由小到大的顺序排列,位于中央的数据值就是中位数。众数:在数据中发生频率最高的数据值。 如果各个数据之间的差异程度较小,用平均值就有较好的代表性;如果数据之间的差异程度较大(jio d),特别是有个别极端值的情况,用中位数或众数有较好的代表性。 第12页/共88页第十三页,共88页。14n数据的离散程度分析n数据的离散程度
8、分析主要是用来反映数据之间的差异程度,n常用的指标(zhbio)有:方差和标准差。n方差是标准差的平方,根据不同的数据类型有不同的计算方法。 n反映数据的离散程度的指标(zhbio)还包括:n极差、离差、平均离差、离差平方和、变差系数等。 第13页/共88页第十四页,共88页。15方差和标准差方差和标准差方差是均方差的简称方差是均方差的简称(jinchng),是以离差平方和除以变量,是以离差平方和除以变量个数求得的。个数求得的。 nxxnii/)(122) 1/()(122nxxnii第14页/共88页第十五页,共88页。16方差方差(fn ch)和标准差和标准差标准差是方差标准差是方差(fn
9、 ch)的平方根。的平方根。niinxx12/)(niinxx12) 1/()(第15页/共88页第十六页,共88页。17极差极差极差是一组数据极差是一组数据(shj)中最大值与最小值之差,即:中最大值与最小值之差,即:R=maxx1, x2, , xn - minx1, x2, , xn第16页/共88页第十七页,共88页。18离差、平均离差与离差平方和离差、平均离差与离差平方和离差:一组数据集中的各数据值与其平均数之差离差:一组数据集中的各数据值与其平均数之差称为离差。称为离差。一个一个(y )数据集的离差和恒等于数据集的离差和恒等于0。平均离差:将离差取绝对值,然后求和,再取平平均离差:
10、将离差取绝对值,然后求和,再取平均数,就得到平均离差。均数,就得到平均离差。 xxdi0)(xxniixxnd1|1l离差平方和:对离差求平方和就得到(d do)离差平方和。niixxd122)(第17页/共88页第十八页,共88页。19数据的分布数据的分布在统计分析中,通常要假设样本的分布属于正态在统计分析中,通常要假设样本的分布属于正态分布,因此需要用偏度和峰度两个指标来检查样本分布,因此需要用偏度和峰度两个指标来检查样本是否符合正态分布。是否符合正态分布。偏度:衡量的是样本分布的偏斜方向和程度;偏度:衡量的是样本分布的偏斜方向和程度;峰度:衡量的是样本分布曲线的尖峰程度。峰度:衡量的是样
11、本分布曲线的尖峰程度。一般情况下,如果一般情况下,如果(rgu)样本的偏度接近于样本的偏度接近于0,而峰度接近于而峰度接近于3,就可以判断总体的分布接近于正,就可以判断总体的分布接近于正态分布。态分布。 第18页/共88页第十九页,共88页。20统计图表分析统计图表分析用图形的形式表达数据用图形的形式表达数据(shj),比用文字表达更,比用文字表达更清晰、更简明。清晰、更简明。对于属性数据对于属性数据(shj),统计图的主要类型有柱状,统计图的主要类型有柱状图、扇形图、直方图、折线图和散点图等。图、扇形图、直方图、折线图和散点图等。 第19页/共88页第二十页,共88页。21柱状图:用水平或垂
12、直长方形表示不同种类间某一属性的差异,每个长方形表示一个种类,其长度表示这个种类的属性数值。扇形图:将圆划分为若干个扇形,表示各种成分在总体(zngt)中的比重,各种成分的比重可以用扇形的面积或者弧长来表示,当有很多种成分或成分比重差异悬殊时表示效果不好。第20页/共88页第二十一页,共88页。22散点图:以两个(lin )属性作为坐标系的轴,将与这两种属性相关的现象标在图上,表示出两种属性间的相互关系,在此基础上可以分析这两种属性是否相关和相关关系的种类。折线图:反映某一属性随时间变化的过程,它以时间为图形的一个坐标轴,以属性为另一坐标轴,将各个时间的属性值标到图上,并将这些点按时间顺序连接
13、起来,反映实体发展的动态过程和趋势。第21页/共88页第二十二页,共88页。23直方图:表示单一属性在各个种类中的分布情况,可以确定属性在不同区间的分布,如某种现象的分布是否是正态分布。统计表格:是详尽表示非空间数据的方法,它不直观,但可提供详细数据,可对数据再处理。统计表格分为表头和表体两部分,除直接数据外有时还有汇总、比重(bzhng)等派生项。 第22页/共88页第二十三页,共88页。24探索性空间探索性空间(kngjin)数据分析数据分析第23页/共88页第二十四页,共88页。25Hoaglin D C, Mosteller F, Tukey J W美著. 陈忠琏, 郭德媛译. 199
14、8. 探索性数据分析. 北京: 中国(zhn u)统计出版社n探索性数据分析:第24页/共88页第二十五页,共88页。26n探索性数据分析:n统计学是数据分析的主要(zhyo)工具,大量的统计分析方法以数据总体满足正态假设为依据,并在此基础上建立模型和推演。n然而实践中大量的数据不能满足正态假设,并且基于均值、方差等的模型在实际数据分析中缺乏稳健性,于是导致很多统计分析方法不能满足海量数据分析的要求。n19世纪60年代的Tukey面向数据分析的主题,提出了探索性数据分析(exploratory data analysis, EDA)的新思路。第25页/共88页第二十六页,共88页。27n探索性
15、数据分析(fnx):n探索性数据分析(fnx)(EDA)的特点:对数据来源的总体不作假设,并且假设检验也经常被排除在外。n这一技术使用统计图表、图形和统计概括方法对数据的特征进行分析(fnx)和描述。nEDA技术的核心:“让数据说话”,在探索的基础上再对数据进行更为复杂的建模分析(fnx)。第26页/共88页第二十七页,共88页。28n探索性数据分析的基本方法探索性数据分析的基本方法nEDA是不对数据总体做任何假设是不对数据总体做任何假设(或很少假设或很少假设)的条件下识别数据特征的条件下识别数据特征(tzhng)和关系的分析技和关系的分析技术。术。n主要有两类方法:主要有两类方法:n计算计算
16、EDA方法:包括从简单的统计计算到高级方法:包括从简单的统计计算到高级的用于探索分析多变量数据集中模式的多元统计的用于探索分析多变量数据集中模式的多元统计分析方法分析方法n图形图形EDA方法:即可视化的探索数据分析。常方法:即可视化的探索数据分析。常用的图形方法有直方图用的图形方法有直方图(histogram)、茎叶图、茎叶图(stem leaf)、箱线图、箱线图(box plot)、散点图、散点图(scatter plot)、平行坐标图、平行坐标图(parallel coordinate plot)等。等。第27页/共88页第二十八页,共88页。29(1)直方图与茎叶图)直方图与茎叶图直方图
17、和茎叶图用于表述数据的分布信息,可根据数直方图和茎叶图用于表述数据的分布信息,可根据数据的分布进一步作出相关的假设。据的分布进一步作出相关的假设。直方图:直方图:是一种二维统计图表,它的两个坐标分别是统计样本是一种二维统计图表,它的两个坐标分别是统计样本和该样本对应的某个属性的度量。和该样本对应的某个属性的度量。在图像处理在图像处理(t xin ch l)领域的常用概念是灰度直领域的常用概念是灰度直方图,描述的是图像中具有该灰度级的像素的个数:方图,描述的是图像中具有该灰度级的像素的个数:横坐标是灰度级,纵坐标是该灰度出现的频率横坐标是灰度级,纵坐标是该灰度出现的频率(像素个像素个数数)。 第
18、28页/共88页第二十九页,共88页。30茎叶图:又称“枝叶图”,将数组中的数按位数进行比较,将数的大小基本不变或变化不大的位作为一个主干(茎),将变化大的位的数作为分枝(叶),列在主干的后面,这样可以清楚(qng chu)地看到每个主干后面的几个数,每个数具体是多少。茎叶图是一个与直方图类似的工具,茎叶图保留了原始资料的信息,直方图则失去原始数据的讯息。茎 | 叶 频数(pn sh)0 | 1569 41 | 0569 42 | 24 23 | 1 14 | 016 35 | 257 36 | 0159 47 | 0159 48 | 59 29 | 124 341, 52, 6, 19, 9
19、2, 10, 40, 55, 60, 75, 22, 15, 31, 61, 9, 70, 91, 65, 69, 16, 94, 85, 89, 79, 57, 46, 1, 24, 71, 5 第29页/共88页第三十页,共88页。31茎叶图的特征:用茎叶图表示数据有两个优点:(1)从统计图上没有原始数据信息的损失,所有(suyu)数据信息都可以从茎叶图中得到;(2)茎叶图中的数据可以随时记录、随时添加,方便记录与表示。茎叶图只便于表示两位有效数字的数据。 茎 | 叶 频数(pn sh)0 | 1569 41 | 0569 42 | 24 23 | 1 14 | 016 35 | 257
20、36 | 0159 47 | 0159 48 | 59 29 | 124 341, 52, 6, 19, 92, 10, 40, 55, 60, 75, 22, 15, 31, 61, 9, 70, 91, 65, 69, 16, 94, 85, 89, 79, 57, 46, 1, 24, 71, 5 第30页/共88页第三十一页,共88页。32(2)箱线图)箱线图(盒须图盒须图)箱线图箱线图(Box plot),亦称箱须图,亦称箱须图(Box-whisker plot),或骨,或骨架图架图(Schematic Plot)。箱线图能够直观明了地识别数据集中的异常值,利用数箱线图能够直观明了地
21、识别数据集中的异常值,利用数据中的五个统计量:最小值、第一四分位数据中的五个统计量:最小值、第一四分位数Q1、中位数、中位数F、第三、第三(d sn)四分位数四分位数Q3、最大值来描述数据。、最大值来描述数据。第一四分位数Q1:又称“下四分位数”,等于该样本(yngbn)中所有数值由小到大排列后第25%的数字。 中位数F:又称第二四分位数(Q2),又称“中位数”,等于该样本(yngbn)中所有数值由小到大排列后第50%的数字。 第三四分位数:又称“上四分位数”,等于该样本(yngbn)中所有数值由小到大排列后第75%的数字。 第31页/共88页第三十二页,共88页。33(2)箱线图)箱线图(盒
22、须图盒须图)箱线图的绘制依靠实际数据,不需要事先假定数据服从特箱线图的绘制依靠实际数据,不需要事先假定数据服从特定的分布定的分布(fnb)形式,没有对数据作任何限制性要求,它形式,没有对数据作任何限制性要求,它只是真实直观地表现数据形状的本来面貌;只是真实直观地表现数据形状的本来面貌;箱线图判断异常值的标准以四分位数和四分位距为基础。箱线图判断异常值的标准以四分位数和四分位距为基础。四分位距四分位距(QR, Quartile range):上四分位数与下四分位数:上四分位数与下四分位数之间的间距,即上四分位数减去下四分位数(之间的间距,即上四分位数减去下四分位数(Q3-Q1)。)。箱线图识别异
23、常(ychng)值的结果比较客观,在识别异常(ychng)值方面有一定的优越性。第32页/共88页第三十三页,共88页。34箱线图的制作过程:画一个矩形盒,两端边的位置分别对应数据集的上下四分位数。在矩形盒内部的中位数位置画一条(y tio)线段为中位线。 在Q3+1.5QR(四分位距)和Q1-1.5QR处画两条与中位线一样的线段,这两条线段为异常值截断点,称其为内限;在Q3+3QR和Q1-3QR处画两条线段,称其为外限。内限以外位置的点表示的数据都是异常值(x Q3+1.5QR)在内限与外限之间的异常值为温和(wnh)异常值(Q1-3QR x Q1-1.5QR; Q3+1.5QR x Q3+
24、3QR)在外限以外的为极端异常值。一般的统计软件中表示外限的线并不画出,这里用虚线表示第33页/共88页第三十四页,共88页。35(3)散点图与散点图矩阵)散点图与散点图矩阵散点图用于初步图示两个数据之间的关系散点图用于初步图示两个数据之间的关系(gun x),是分析两个要素或变量之间关系是分析两个要素或变量之间关系(gun x)时常用的方时常用的方法和技术。法和技术。散点图的作法:将两个变量的坐标点对画在(散点图的作法:将两个变量的坐标点对画在(x, y)坐)坐标平面上。在分析变量之间的关系标平面上。在分析变量之间的关系(gun x)、判断异、判断异常点以及数据的分类等方面,散点图都有重要的
25、作用常点以及数据的分类等方面,散点图都有重要的作用。第34页/共88页第三十五页,共88页。361)散点图与变量)散点图与变量(binling)之间关系的之间关系的可视化可视化4组数据:统计分析的结果(ji gu)是相同的(忽略残差)第35页/共88页第三十六页,共88页。37散点图展示(zhnsh)了变量之间的差异性信息第36页/共88页第三十七页,共88页。382)散点图与异常)散点图与异常(ychng)点分析点分析异常(ychng)数据或者有着特别的价值,或者会引起错误的结果或判断。异常(ychng)数据一般是非典型的,较少见的观测数据。在回归线的确定中,异常(ychng)数据的出现将对
26、回归方程的斜率和数据的相关关系产生深远的影响,由于异常(ychng)点参与了计算,可能导致虚假的关系。第37页/共88页第三十八页,共88页。39在异常点消除之前,两个变量的的相关系数r=0.88,表明存在很强的正相关;消除了异常数据后,r=0.08,出于随机(su j)水平。在回归模型建立之前通过散点图技术进行数据的探索性分析,有利于消除异常数据,寻找更为合理的关系或模式。第38页/共88页第三十九页,共88页。40如果样本的规模相对较小,是否包含“异常数据”不是非常清晰,需要仔细判断。是否剔除数据可能(knng)会对变量之间的关系产生很大的影响。第39页/共88页第四十页,共88页。413
27、)散点图与不同类别)散点图与不同类别(libi)的数的数据据散点图中的两个变量是房屋价格和人口密度的关系(gun x)(a)反应了房屋的价格和人口密度之间存在正的空间相关关系(gun x)。(b)这些数据来自两个不同的地区,按照区位做出散点图后,就可轻易地发现:任何一个区位的人口密度和价格之间都变现出负的相关关系(gun x)。有些异常(ychng)数据可能来自于另外的类型。第40页/共88页第四十一页,共88页。424)散点图矩阵)散点图矩阵(j zhn)散点图矩阵通过建立(jinl)任意两个变量之间的关系的图形表示来初步获得相关信息和异常信息,相当于在由m个变量构成的矩阵中,用相应的两个变
28、量之间的散点图替代矩阵中的元素构成的图形。5个变量(binling)间的散点图矩阵在对角线上是变量自身的关系,在这些位置上一般由测量这个变量分布特征的图形(直方图、箱线图等)构成第41页/共88页第四十二页,共88页。43平行坐标图平行坐标图平行坐标图将高维数据在二维空间上表示,为可视平行坐标图将高维数据在二维空间上表示,为可视化地探索分析高维数据空间中的关系建立可行的途径化地探索分析高维数据空间中的关系建立可行的途径。平行坐标图提供的是一种在平行坐标图提供的是一种在2维平面上表示高维空维平面上表示高维空间中变量之间关系的技术。间中变量之间关系的技术。传统的坐标系中所有传统的坐标系中所有(su
29、yu)的变量轴都是交叉的的变量轴都是交叉的,而平行坐标系中所有,而平行坐标系中所有(suyu)的变量轴都是平行的的变量轴都是平行的。6维空间的两个(lin )点A(-5, 3, 4, -2, 0, 3)、B(4, -1, 3, 3, 0, -1)的平行坐标图第42页/共88页第四十三页,共88页。44平行坐标图表示(biosh)高维空间数据的实例第43页/共88页第四十四页,共88页。45平行坐标图的优点:可以在平行坐标图的优点:可以在2维空间上考察分析维空间上考察分析m维维变量的相关性。但是为了表示变量的相关性。但是为了表示m维数据,所有的变量维数据,所有的变量都以折线的形式画在平行坐标图上
30、,对于非常大的都以折线的形式画在平行坐标图上,对于非常大的数据集,平行坐标图容易引起视觉上的混淆。数据集,平行坐标图容易引起视觉上的混淆。平行坐标图更为重要的作用平行坐标图更为重要的作用(zuyng)在于:在于:1)可用于突出显示异常数据;)可用于突出显示异常数据;2)根据某一变量选择数据子集;)根据某一变量选择数据子集;3)与其他可视化技术结合探索数据中的模式。)与其他可视化技术结合探索数据中的模式。平行坐标图技术成为高维空间变量关系显示的重要平行坐标图技术成为高维空间变量关系显示的重要技术。技术。高维数据在高维数据在2维平面中的其它可视化技术:径向坐标维平面中的其它可视化技术:径向坐标可视
31、化可视化(RADVIZ)及其组合变化形式等。及其组合变化形式等。第44页/共88页第四十五页,共88页。46探索性空间探索性空间(kngjin)数据数据分析分析(exploratory spatial data analysis, ESDA)第45页/共88页第四十六页,共88页。47探索性空间数据分析(ESDA)是探索性数据分析(EDA)在空间数据分析领域的推广。ESDA着重于概括空间数据的性质,探索空间数据中的模式,产生和地理数据相关的假设,并在地图上识别异常数据的分布位置,发现是否存在热点区域(hot spots)等。ESDA将数据的统计分析和地图定位紧密结合在一起。地图能够定位案例及其
32、空间关系,并能在分析、检验和表示(biosh)模型的结果中发挥重要作用。第46页/共88页第四十七页,共88页。48ESDA通过地理空间(地图表示)和属性空间(数据空间)的关联分析来凸显空间关系。可以回答以下问题:直方图上的极端数值分布在地图的什么地方?地图上某一部分的属性值在散点图上的分布状况如何?落入地图上的一个子区域(qy)内并满足属性标准的个例有哪些?第47页/共88页第四十八页,共88页。49在GIS环境中的ESDA的主要方法是动态联系窗口(dynamic linking windows)和刷新(brushing)技术,通过(tnggu)地图、统计图表、属性记录等多种方式解释空间模式
33、,能对多种形式的信息表示进行可视化的操作分析。第48页/共88页第四十九页,共88页。50动态联系窗口通过刷新技术将地理空间和属性空间的各种视图组合在一起(yq),是一种交互式探索空间数据的选择、聚集、趋势、分类、异常识别的工具。第49页/共88页第五十页,共88页。51动态联系窗口的动态交互技术的特点: (1)在一种信息窗口中点击或选择,其它的信息窗口产生相应的响应,并高亮显示选中的信息。例如,在地图窗口中选择一些地理实体,则地图上选中的部分和属性表中相应的记录都以高亮的方式显示一般(ybn)GIS软件也提供了交互的操作方式,但是缺乏多种探索性数据分析工具,利用现有的GIS软件难以快速地完成
34、趋势分析和异常数据识别等分析工作。第50页/共88页第五十一页,共88页。52动态(dngti)联系窗口的动态(dngti)交互技术的特点:(2)ESDA将多种可视化的数据分析工具和地图分析结合在一起,并提供了丰富的交互工具,不仅可以进行选择操作,而且能够进行改变数据参数等模式的探索。第51页/共88页第五十二页,共88页。53ESDA与空间数据挖掘:ESDA需要熟知空间数据的特殊性及数据分析的探索性方法。ESDA和数据挖掘一样是交互的、迭代的搜索过程,其中数据中的模式和关系被用于精炼并搜索更多的兴趣模式和关系。在庞大的数据集中,ESDA等价于空间数据挖掘,其基本的思想是极力使用(shyng)
35、数据来表示其本身,以识别兴趣模式并帮助产生有关的假设。第52页/共88页第五十三页,共88页。54邸凯昌等将探索性数据分析方法、面向属性的归纳和粗糙集方法结合起来,形成了一种灵活通用的探测性归纳学习方法(Exploratory Inductive Learning, EIL),该方法可以从空间(kngjin)数据库中发现普遍知识、属性依赖、分类知识等多种知识。利用中国分省农业统计数据的空间(kngjin)数据挖掘实验说明了EIL方法的可行性和有效性。第53页/共88页第五十四页,共88页。55ESDA提供了两类统计分析方法:全局方法(global):对所有实例的一个或多个属性数据(shj)进行
36、处理;局部方法(local):对某个时段的数据(shj)子集进行统计分析。第54页/共88页第五十五页,共88页。56ESDA对空间数据的处理包括(boku):对非空间属性数据的处理对空间数据的处理第55页/共88页第五十六页,共88页。57ESDA对非空间属性数据的处理:中值分析:计算属性值分布(fnb)的中心;提供ESDA查询:查询在中值之上或之下的区域。四分位和四分位间的分布(fnb)分析:对中值的分布(fnb)进行分析;提供ESDA查询:查询高于或低于四分位的数值区域箱线图分析:对属性值的分布(fnb)进行图形化的总结;ESDA查询:查询实例位于箱线图的哪个特定部分?例外实例位于地图的
37、哪个区域?第56页/共88页第五十七页,共88页。58ESDA对空间数据的处理方法:平滑:地图中包含的许多小的区域,可以利用(lyng)平滑方法进行处理。具体处理依赖于于平滑算子的尺度。利用(lyng)平滑处理有利于解释总体模式;ESDA的平滑处理:最简单的形式是空间平均,计算一个区域的属性及其邻域的属性,并取其平均值,然后对每个区域利用(lyng)类似方法重复该步骤。识别地图数据的趋势和梯度:包括核估计方法、生成数据的横断面并且绘图、对于特定区域进行空间滞后箱线图分析、非规则格网数据的中值分析等。第57页/共88页第五十八页,共88页。59空间自相关分析(spatial autocorrel
38、ation):ESDA技术使用散点图进行(jnxng)分析,该散点图将垂直轴对应区域本身的属性值,水平轴对应其邻域的属性值的均值。呈现向上倾斜的散点图显示了一种正空间相关(邻域值倾向于相同)呈现向下倾斜的散点图显示了一种负空间自相关(邻域值倾向于不同)第58页/共88页第五十九页,共88页。60检测空间例外:检测区域值在邻域范围中具有极端值的情况。相应的ESDA方法包括:使用散点图技术对空间自相关进行分析,然后进行最小均方回归分析。例如(lr),那些标准残差值大于3.0或小于-3.0的实例可能属于例外。第59页/共88页第六十页,共88页。61ESDA与空间数据可视化与空间数据可视化第60页/
39、共88页第六十一页,共88页。62地学可视化:地理学分析方法和GIS以及其他相关学科的密切结合导致了“地学可视化”这一新的研究领域的产生。地学可视化被定义为使用地理空间视觉显示(包括虚拟现实)探索空间数据,并通过这种探索回答问题,产生假设,提出问题的解决方案,构建领域知识等。地学可视化为地理学研究提供(tgng)了新的技术手段与方法第61页/共88页第六十二页,共88页。63探索性空间数据分析技术:探索性空间数据分析技术的重要领域是空间参考数据,这种数据的可视化必须包括地图,地图用于表示空间关系和模式。静态的、非交互的地图不能满足探索性数据分析的基本需要。当前努力(n l)的方向是直接面向支持
40、各种分析活动的地图显示技术的发展,其中最重要好的技术是地图与各种统计图动态联系的技术。第62页/共88页第六十三页,共88页。64空间数据的地图化表示空间数据的地图化表示(biosh)-主题地图主题地图地图不仅是地理空间信息的表示,而且可用于探索地理空间数据。在对地理空间数据没有假设的条件下,可视化辅助工具辅助人们交互地、非直接(zhji)地搜索结构和趋势,此时地图和图形提供了一种表现工具,同时地图和图形用户思考过程的设备工具。ESDA关注的是地图如何表示空间数据的分布、趋势、聚集、异常等方面空间信息的表示,关注的是如何利用地理实体的属性数据进行制图分析,即主题地图问题。第63页/共88页第六
41、十四页,共88页。65当前各种商业GIS软件都提供了主题制图功能,根据地理(dl)实体的属性数据用颜色、符号并结合统计图形进行多变量的空间数据表示等。MapInfo-GIS,其主题制图模块提供(tgng)了点密度、渐变符号、分层设色、独立值、表面分析以及饼状图和柱状图等主题表示。第64页/共88页第六十五页,共88页。66在建立空间数据的主题地图表示中首先需要研究适合的制图方式,这和数据的类型有关。属性数据分为名义的、序数的、间隔的、比率的4种类型。前两种是定性的离散型的变量,后两者是定量的连续的变量。在地图表示中,必须用能够体现这些数据特征(tzhng)的方式才能正确地表示。名义变量适合于用
42、独立名义变量适合于用独立(dl)值表示,因为名义变量只表示同值表示,因为名义变量只表示同类地理对象的类型的区分,例如国家政区划分、土地利用、类地理对象的类型的区分,例如国家政区划分、土地利用、气候类型区等通常用这种方式表示。气候类型区等通常用这种方式表示。序数变量可以使用等级符号和分层设色图表示。序数变量可以使用等级符号和分层设色图表示。间隔变量和比率变量体现的数据的连续变化,一般使用等级间隔变量和比率变量体现的数据的连续变化,一般使用等级符号、范围图表示,但是点密度图只是和于比率变量的表示符号、范围图表示,但是点密度图只是和于比率变量的表示。第65页/共88页第六十六页,共88页。67图(a
43、)是用上海市2000人口普查数据(shj)制作的分街道/乡镇的人口总量分布的主题地图。第66页/共88页第六十七页,共88页。68饼状图和柱状图是为了在地图上表示(biosh)多变量的分布特征及其空间差异性而设计的表示(biosh)方式,前者适合于表示(biosh)结构关系,后者着重表示(biosh)数量差异。当变量个数多时,可能会超出人的视觉判断能力,不利于信息的表示(biosh)。2000年上海市分街道(jido)/乡镇的男女人口结构分布的饼状图第67页/共88页第六十八页,共88页。69主题地图表示的数据分类问题主题地图表示的数据分类问题地图制图地图制图(zh t)过程中数据的分类是非常
44、重要的。过程中数据的分类是非常重要的。GIS软件都提供了相关的数据分类方法:等间隔、等软件都提供了相关的数据分类方法:等间隔、等范围、自然分割法、分位数分类、自定义等。范围、自然分割法、分位数分类、自定义等。第68页/共88页第六十九页,共88页。 同一数据应用(yngyng)不同的分类方法将会产生显著不同的解释。70第69页/共88页第七十页,共88页。设计数据分类时必须注意的因素:1)包括所有范围的数据(最小和最大);2)使用(shyng)不重叠的值和不空的类;3)分类数量足够大以避免牺牲数据的精确性4)划分数据集到合理)划分数据集到合理(hl)的等价的观测组中;的等价的观测组中;5)如果
45、可能给定一个逻辑数学关系)如果可能给定一个逻辑数学关系71第70页/共88页第七十一页,共88页。等间隔分类假设分割之间的距离是相同的。本例中的数据按照15个单位(dnwi)的等距离进行分割。72第71页/共88页第七十二页,共88页。分位数分类是将所有的观测数据按照相等的数量分配(fnpi)到每一个类中。本例中,分位数计算的分类结果为:73第72页/共88页第七十三页,共88页。自然分割的分类方法:用户沿着数字线选择最大的分割,或者在数据出现显著的空隙。其基本思想是最小化数据集内部的变异(biny)、最大化类型间的差异(聚类)。74第73页/共88页第七十四页,共88页。其他分类方法:嵌套均
46、值、标准差、曲线下面积等。在利用GIS进行主题制图分析时,必须知道系统所提供的分类方法以及这些方法的限制。在许多研究中,应当注意(zh y)面向具体问题进行自定义分类。利用各种分类方法(fngf)的比较75第74页/共88页第七十五页,共88页。交互技术与交互技术与ESDAESDA主题地图是传统的空间数据表示方法,提供了空间数据可视化主题地图是传统的空间数据表示方法,提供了空间数据可视化的能力。的能力。地图是现实物理空间的同构物,它将空间关系展现在人们面前地图是现实物理空间的同构物,它将空间关系展现在人们面前。高度的用户交互是地图显示的一般要求,以支持空间思考,即高度的用户交互是地图显示的一般
47、要求,以支持空间思考,即假设的生成、数据分析和决策制定。假设的生成、数据分析和决策制定。当能够合理利用这些手段时,交互技术和工具能够支持信息当能够合理利用这些手段时,交互技术和工具能够支持信息(xnx)探索和知识构建。探索和知识构建。76第75页/共88页第七十六页,共88页。交互技术与交互技术与ESDAESDA交互式的分析技术(jsh)包括:1)地图与其他图形显示方式之间的刷新(brushing)技术建立的动态联系,即在一种显示方式中被选中的对象同时在其他的所有显示方式中被高亮显示;2)利用实时控制工具改变常规的制图方法的参数,获得新状态下的分布特征等,例如专题中的类别的改变交互技术的重要特征是建立了地理空间和数据空间的联系,或者将EDA方法紧密(jnm)地融合于ESDA中。可以从空间特征到属性特征对地理现象进行全面的研究和分析。77第76页/共88页第七十七页,共88页。地理(dl)空间和空间数据地理空间(geographic space)就是由空间参考数据构成的坐标空间,它使用地理坐标定义地理事物和现象,也就是地图形式的地理表示。数据空间(data space)是地理实体(sht)属性所构成的空间,其中每一个点代表地理事物在数据空间中的位置。地理空间(kng
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 人教版三年级上册6 多位数乘一位数笔算乘法教学设计
- 北师大版(2013)五年级下册第二十二课 我不生气教案
- 2025至2030年中国个人信箱数据监测研究报告
- 2025至2030年中国U盘数据监测研究报告
- 2025至2030年中国PIZZA外卖保温包数据监测研究报告
- 2025至2030年中国EPE发泡母粒数据监测研究报告
- 2025年中国高级近摄镜市场调查研究报告
- 2025年中国香菇酱油市场调查研究报告
- 2025年中国非标铆钉市场调查研究报告
- 四年级下册数字与信息教学设计
- 2025年03月四川成都农业科技中心公开招聘笔试历年典型考题(历年真题考点)解题思路附带答案详解
- 2024年郑州铁路职业技术学院单招职业技能测试题库必考题
- 全过程工程咨询投标方案(技术方案)
- 2025团校入团培训考试题库(含答案)
- 框架结构柱、梁板模板安装技术交底
- 自然辩证法(2023修订版)课后思考题
- 二年级数学期中测试卷(含答案)
- 简约红色五四青年节活动策划PPT模板
- 年产万吨丙烯酸工艺设计
- 复摆式颚式破碎机结构设计毕业设计
- 湘钢转炉倾动氧枪功能规格书新1-8-28
评论
0/150
提交评论