版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二章地理数据的采集及处理
第二章地理数据的采集及处理1一、地理系统二、地理数据的类型和表达三、地理数据的来源四、地理数据的变换五、地理数据的分布特征一、地理系统2一、地理系统1.系统的概念地理系统是地球表面的岩石圈、水圈、生物圈和人类活动相互作用的物质、能量和信息运动系统。什么是“系统”?系统是由相互作用和相互依赖的若干组成部分(要素)结合而成的具有特定功能的整体。在这个定义中包括了系统、要素、结构、功能四个概念,表明了要素与要素、要素与系统、系统与环境三方面的关系。
一、地理系统1.系统的概念3地球表层系统地球表层系统(theearthsurfacesystem)是由岩土圈、大气圈、水圈、生物圈和人类圈所构成的地表自然社会综合体。是人类圈与地相互作用的复合物质系统,是地球圈层结构中的特定部分,与周围的地球圈层其他部分存在物质能量交换关系,是一个开放的复杂次级巨系统。钱学森教授于1983年倡议建立“地球表层学”,认为地球表层学是“跨地理学、气象学、地质学、工农业生产技术、技术经济和国土经济的新学科”是自然科学与社会科学的交叉学科”。地球表层系统地球表层系统(theearthsurface42.系统的结构和功能系统的结构是指不随时间发生变化的系统要素之间的联系。稳定性层次性可变性相对性2.系统的结构和功能系统的结构是指不随时间发生变化的系统要5系统的功能是指系统在包含它的超系统中起的作用和承担的任务。系统功能体现了系统与外部环境之间的物质、能量、信息输入与输出的变换关系。系统输入输出时同外部介质的相互作用就是系统的功能。系统功能同时也是为实现系统目标所具有的能力。系统的功能是指系统在包含它的超系统中起的作用和承担的任务。63.系统分类自然系统和人造系统
实体系统和抽象(概念)系统
静态系统和动态系统
开放系统和封闭系统
全球系统和区域系统
3.系统分类自然系统和人造系统74.地理系统的特点系统性、整体性、综合性区域性、开放性、层次性随机性、动态性系统的整体功能大于分要素功能之总和,这是因为存在着要素与要素间的关系。地理环境是由各个要素之间的密切的相互作用,才形成了地理环境的整体性。层次性:我国的北方地区,可将其视为一个系统,而它又是我国季风区的子系统,属于温带季风气候,在气候的影响下,植被、河流水文和农业生产表现出温带地区的特点。系统是不断演化的,系统存在于过程之中。4.地理系统的特点系统性、整体性、综合性8二、地理数据的类型和表达1.地理数据类型将所有的地理数据划分为两大基本类型,即空间数据(spatialdata)和属性数据(attributedada)。GIS实现了空间数据和属性数据的完美结合
属性数据又可以进一步分为两种类型,即定量数据和定性数据。Acrview主体文件:*.shp、*.dbf、*.sbx分别存储空间,属性和前两者的关系
二、地理数据的类型和表达1.地理数据类型9空间数据空间数据,主要用于描述地理实体、地理要素、地理现象、地理事件及地理过程产生、存在和发展的地理位置、区域范围及空间联系。坐标,是描述空间数据的基本手段,一般用经纬度坐标或者公里网来表示。对于空间数据的表达,可以将其归纳为点、线、面三种几何实体以及描述他们之间空间联系的拓扑关系。空间数据空间数据,主要用于描述地理实体、地理要素、地理现象、10三种基本的地理几何实体及其组合
三种基本的地理几何实体及其组合11属性数据定量数据:是用数量表示的地理数据,如温度,人口数量,人均收入等。定性数据:只表征地理要素性质上的差异,而没有数量的变化。但是,通过“数量化方法”可以对一定的地理要素予以赋值。通常采用二分法,即以二元数据1和0来表示。比如,性别属性数据定量数据:是用数量表示的地理数据,如温度,人口数量,12城市A城市B城市C城市D城市E城市A—1101城市B1—110城市C11—10城市D011—1城市E1001—表2.1二元数据注:1表示两城市之间通航;0表示两城市之间不通航。城市A城市B城市C城市D城市E城市A—1101城市B1—11132.地理数据的表达方式表格法区域地理要素x1x2…xn区域1x11x12…x1n区域2x21x22…x2n……………区域mxm1xm2…xmn2.地理数据的表达方式地理要素x1x2…xn区域1x11x14年平均气温/℃年降水量/mm土地面积/hm2
人口/人国内生产总值/万元区域18.0500.2245.612102678.28区域27.6498.61064.10232015.47区域36.5550.9894.38481754.56区域38.5586.4668.76541365.46表2.2各区域的自然及经济社会指标年平均气温/℃年降水量土地面积人口国内生产总值区域18.015年
份19961997199819992000耕地复种指数120.40113.56126.54132.76121.43农业发展指数100115.68124.50135.69129.56表2.3某地区耕地复种指数和农业发展指数年份19961997199819992000耕地复16矩阵法地理矩阵m个地点或地区;n个地理特征值矩阵法地理矩阵17三、地理数据的来源
来自观测、测量部门的有关专业数据。比如,来自水文观测站的有关水文数据;来自气象观测站的有关气象数据;来自环境监测部门的空气、水质数据等。来自统计年鉴、统计公报中的有关自然资源及社会经济发展数据。比如,从各级政府统计部门公布和出版的统计年鉴中,可以得到当地的耕地面积、各类农作物播种面积、粮食产量、人口、劳动力、工业投资和产值、国内生产总值等。来自有关单位或者个人的不定期的典型调查数据、抽样调查数据。比如,来自城乡抽样调查队的城市、农村家庭收支数据;来自有关有关单位或者个人的某一方面的专题调查数据等等。来自政府公报、政府文件中的有关数据。来自档案、图书等文献资料中的有关数据。来自互联网中的有关共享数据。地图图件。主要包括各种比例尺的地形图、影像地图、专题地图等。遥感数据。主要包括各种航空遥感数据和卫星遥感数据。其他来源的有关数据。三、地理数据的来源来自观测、测量部门的有关专业数据。比如,18四、地理数据的变换1.定性数据转换成定量数据有序数据(ordinaldata)转换二元数据转换2.数据本身变换对原始数据需要消除量纲(或单位),转换为可比较的数据序列。目前,原始数据的变换有以下几种常用方法:对数变换、模数变换、指数变换、概率变换、滑动平均法等等四、地理数据的变换1.定性数据转换成定量数据19五、地理数据的分布特征1.地理数据的统计整理基本步骤:
①统计分组,就是根据研究目的,按照一定的分组标志将地理数据分成若干组。
②计算各组数据的频数、频率,编制统计分组表。
③作分布图。五、地理数据的分布特征1.地理数据的统计整理20统计分组按质量标志按数量标志离散型变量连续型变量单项式组距式等距不等距等距不等距统计分组按质量标志按数量标志离散型变量连续型变量单项式组距式21例1根据表2.4上海市100年降水量,说明统计分组和绘制频数图表。974.81002.61588.1770.71008.91206.81271.51101.91341.213311085.41184.41113.41203.91170.7975.41462.3947.81416709.21147.59351016.31031.61105.7849.91233.41008.61063.81004.91086.21022.51330.91439.41236.51083.11288.71115.81217.51320.71078.11203.414801269.91049.21318.4119210161508.21159.61021.3986.1794.71318.31171.21161.7791.21143.81602951.41003.2840.41061.49581025.212651196.51120.71659.3942.71123.3910.21393.51208.61305.51242.11572.31416.91253.81282.3982.11388.51057.51282.81472.71011.71214.81193.41139.51012.41237.6903.61025.51121.8807.8815.61180.11105989.4900.9例1根据表2.4上海市100年降水量,说明统计分221)找出原始数据中的最大值、最小值,并求出全距range2)把全距按组的宽度一致性原则恰当地分组,即确定组数、组距、组限和组中值n=1+3.32lgNN为样本容量
组距=全距/组数
3)求出落在每个组距中的观察值数目,即求出组频数frequency和频率。4)绘制频率分布图,有三种形式,即直方图(frequencyhistogram)、频数多边形图和累计频数分布曲线1)找出原始数据中的最大值、最小值,并求出全距ra23组序试定界限修订界限组中值频数频率(%)累计频数累计频率(%)1649.7-768.7649.7-768.6709.211112768.7-887.7768.7-887.6828.277883887.7-1006.7887.7-1006.6947.21616242441006.7-1125.71006.7-1125.61066.42727515151125.7-1244.71125.7-1244.61185.22222737361244.7-1363.71244.7-1363.61304.21414878771363.7-1482.71363.7-1482.61423.288959581482.7-1601.71482.7-1601.61542.233989891601.7-1720.71601.7-1720.61661.222100100组序试定界限修订界限组中值频数频率(%)累计频数累计频率(%24频数分布的直方图:频数分布的直方图:25将上图各组的频数分布从组中值位置用折线连接起来,得到频数分布曲线图:将上图各组的频数分布从组中值位置用折线连接起来,26累积频数分布图累积频数分布图27课后作业,p226,T5课后作业,p226,T528课后作业,p226,T5课后作业,p226,T5292.几种常用的统计指标与参数描述地理数据集中程度的指标描述地理数据分布离散程度的指标描述地理数据分布特征的参数2.几种常用的统计指标与参数描述地理数据集中程度的指标301)描述地理数据集中程度的指标平均值反映了地理数据一般水平。计算方法:
①
未分组的地理数据
②
分组的地理数据
(2.1)(2.2)加权平均数1)描述地理数据集中程度的指标平均值(2.1)(2.2)加31上海市100年降水量上海市100年降水量32中位数
①对于未分组的地理数据,样本数n为奇数时,中位数是位置排在第(n+1)/2位的数据;样本数n为偶数时,中位数是排在中间位置的两个数据的平均值。
②分组的地理数据,中位数的计算方法:
确定中位数所在的组位置,按下述公式计算中位数
或(2.3)(2.4)中位数或(2.3)(2.4)33在式(2.3)和(2.4)中:Me代表中位数;L为中位数所在组的下限值;U为中位数所在组的上限值;fm为中位数所在组的频数;Sm-1为中位数所在组以下的累计频数;Sm+1为中位数所在组以上的累计频数;d为中位数所在组的组距。在式(2.3)和(2.4)中:34众数众数就是出现频数最多的那个数,计算方法分为以下两种情况:
①未分组的地理数据,可以根据每一个数据出现的频数大小直接确定众数。
②对于已经分组的地理数据,中位数的计算步骤如下:确定频数最多的组为众数所在组。按以下公式计算众数
或(2.5)(2.6)众数或(2.5)(2.6)35在式(2.5)和(2.6)中:M0代表众数;L为众数所在组的下限值;U为众数所在组的上限值;∆1为众数组频数与下一组频数之差;∆2为众数组频数与上一组频数之差;d为众数所在组的组距。在式(2.5)和(2.6)中:36上海市100年降水量中位数众数上海市100年降水量中位数37例2:表2.5给出了某农场各农田地块的面积,试计算其平均值、中位数和众数。
地块编号
123456789101112平均值中位数众数面积/hm2
12835035555072408529657554.2552.550
应按照未分组数据计算其平均值、中位数和众数,计算结果见上表最后三列。表2.5某农场各农田地块的面积
例2:表2.5给出了某农场各农田地块的面积,试计算其平均值、38例3:表2.5给出了中国西部地区某城市2000年家庭月收入的抽样调查结果,试计算其平均值、中位数和众数。家庭月收入/元户数向上累计频数向下累计频数2000~300030030021303000~40001300160018304000~500020018005305000~600015019503306000~700010020501807000~8000502100808000~900030213030合计2130——表2.5中国西部地区某城市2000年家庭月收入的抽样调查结果例3:表2.5给出了中国西部地区某城市2000年家庭月收入的39解题步骤:(1)用公式(2.2)计算平均数
(2)计算中位数。先确定中位数所在组的位置,再按照公式(2.3)或者(2.4)计算中位数
Me=3588.46(元)=3899.06(元)解题步骤:=3899.06(元)40(3)计算众数,先确定众数所在组,再按照公式(2.5)或(2.6)计算众数。显然,众数所在组应该在第二组。众数M0
=3476.19(元)。(3)计算众数,先确定众数所在组,再按412)描述地理数据分布离散程度的指标
极差指所有数据中最大值与最小值之差,计算公式为离差指每一个地理数据与平均值的差,计算公式为离差平方和它从总体上衡量一组地理数据与平均值的离散程度,其计算公式为
(2.9)(2.8)
(2.7)2)描述地理数据分布离散程度的指标
极差(2.9)42方差与标准差方差是从平均概况衡量一组地理数据与平均值的离散程度。方差计算公式为
标准差为方差的平方根,计算公式为(2.10)(2.11)
方差与标准差(2.10)(2.11)43如果以样本方差对标准差进行无偏估计,则计算公式为(2.12)如果以样本方差对标准差进行无偏估计,则计算公式为(44变异系数变异系数表示地理数据的相对变化(波动)程度,其计算公式(2.13)(2.13)45变差系数也称变异系数,用它来衡量地理要素在时间和空间上的相对变化(波动)的程度。如果两个数量级不相同的地理要素,虽然其相对变化程度相同,但其方差、标准差却一定是不相同的。数量级大的要比数量级小的要素的方差、标准差大。这只要把任意一个地理要素的数列与把它的各项数值扩大任意倍的数列作比较,就可以看得很清楚。它们的方差、标准差差别显著,但相对波动程度完全相同的。因此,用变差系数来衡量相对波动的程度。变差系数也称变异系数,用它来衡量地理要素在时间和空间上的相对46用百分数表示的地理要素在时间与空间的相对变化(被动)程度很直观,并且在空间分析时,还可以作出变差系数的等值线图,以表示各区域一种地理要崇的相对稳定状况。比如,各地区人口出生率、自然增长率的相对稳定状况以及城乡入口比例的相对波动程度等都可以用变异系数来衡量。它还是衡量农作物产量稳定程度、线路上客运量相对波动程度以及各项自然要素的稳定程度的指标。用百分数表示的地理要素在时间与空间的相对变化(被动)程度很直47例如:对于表2.4.2中的数据,分别计算极差、离差、离差平方和、方差、标准差、标准差的无偏估计,以及变异系数。
地块编号
123456789101112平均值中位数众数面积/hm212835035555072408529657554.2552.550表2.4.2某农场各农田地块的面积例如:对于表2.4.2中的数据,分别计算极差、离差、离差平方48步骤:(1)按照公式(2.4.7)计算极差(2)按照公式(2.4.8)计算离差,结果见表2.4.4。
序号123456789101112面积128350355550724085296575离差-42.2528.75-4.25-19.250.75-4.2517.75-14.2530.75-25.2510.7520.75表2.4.4地理数据的离差
步骤:序号123456789101112面积1249(3)按照公式(2.9)计算离差平方和(4)按照公式(2.10)计算方差
(5)按照公式(2.11)计算标准差(6)按照公式(2.12)计算标准差的无偏估计(7)按照公式(2.13)计算变异系数
5666.2521.72990.4184(3)按照公式(2.9)计算离差平方和5666.252150应用实例1:两个干旱区降水量变异系数应用实例1:两个干旱区降水量变异系数51应用实例2:中国大陆省份人均GDP的变异系数
我们知道变异系数测度的是地理数据分布的相对差异。为了分析中国大陆经济发展的省际差异及其演化过程,我们首先把1978-2002年各省(直辖市、自治区)的GDP数,按照可比价格进行折算,再除以人口数,计算出按照可比价衡量的人均GDP数据,然后再用公式(2.13)计算变异系数,结果如图。应用实例2:中国大陆省份人均GDP的变异系数我52图1978—2002年中国大陆省份人均GDP的变异系数
图1978—2002年中国大陆省份人均GDP的变异系数53从图中可以看出,在1978—2002年期间,人均GDP的变异系数,以1990年为转折点,呈现出一个U形曲线。即:人均GDP的变异系数,在1978—1990年期间基本上呈现下降趋势,而在1990—2002年期间则基本上呈现上升趋势。这说明,在1978—1990年期间,中国大陆经济发展的省际差异,基本上呈缩小趋势,而1990—2002年期间则基本上呈扩大趋势。这一变化与国家宏观经济政策变动的时间、趋势大体一致。
从图中可以看出,在1978—2002年期间,人均54山东省区域差异变动(1978-2008)山东省区域差异变动(1978-2008)553)描述地理数据分布特征的参数
偏度系数测度地理数据分布的不对称性情况,刻画以平均值为中心的偏向情况,计算公式为
g1<0,表示负偏,即均值在峰值的左边;g1>0,表示正偏,即均值在峰值的右边;g1=0,表示对称分布(如下图)。
(2.14)3)描述地理数据分布特征的参数偏度系数(2.14)56图2.4.3偏度系数的三种情形
图2.4.3偏度系数的三种情形57峰度系数
它测度了地理数据在均值附近的集中程度,其计算公式为标准正态分布的峰度系数g2=0;g2>0,表示地理数据分布的集中程度高于正态分布;g2<0,表示地理数据分布的集中程度低于正态分布(图2.4.4)。
图2.4.4标准峰度系数的三种情形(2.15)峰度系数图2.4.4标准峰度系数的三种情形(2.15)583.地理数据分布的集中化
与均衡度指数
罗伦次曲线与集中化指数基尼系数锡尔系数3.地理数据分布的集中化
与均衡度指数罗伦次曲线与集中化59罗伦次曲线20世纪初,意大利统计学家罗伦次(M.Lorenz),首先使用累计频率曲线研究工业化的集中化程度。后来,这种曲线就被称之为罗伦次曲线。
.罗伦次曲线与集中化指数罗伦次曲线20世纪初,意大利统计学家罗伦次(M.Loren60绘制罗伦次曲线实例:
(1)将表2.5.1各产业部门的收入及其占总收入比重(百分比),从大到小重新排序;(2)从大到小,逐次计算累计百分比;(3)以自然序号为横坐标(x),累计百分比为纵坐标(y);以(部门代码,累计百分比)为坐标点,连成一个上凸的曲线(图2.5.1和图2.5.2),即罗伦次曲线。绘制罗伦次曲线实例:(1)将表2.5.1各产业部门的收入及61表2.5.1某地区农户家庭经营性纯收入水平及其构成
表2.5.1某地区农户家庭经营性纯收入水平及其构成62图2.5.11999年农户家庭经
营性纯收入构成的罗伦次曲线图2.5.22004年农户家庭经营性纯收入构成的罗伦次曲线
图2.5.11999年农户家庭经
营性纯收入构成的罗伦63结果分析:罗伦次曲线的上凸程度,表示农户家庭经营性纯收入的部门集中化程度。上凸程度越大,就表示农户家庭经营性纯收入越是集中于某些产业部门。如果各个产业部门的收入是均等的,则罗伦次曲线正好就变成了正方形的对角线。比较图2.5.1和图2.5.2,可以看出该地区1999年农户家庭经营性纯收入的部门集中化程度高于2004年。
结果分析:罗伦次曲线的上凸程度,表示农户家庭经营性纯收入的部64集中化指数集中化指数,是一个描述地理数据分布的集中化程度的指数。
假若罗伦次曲线的解析式为:显然,该曲线下方区域的面积为:当数据均匀分布时,A就变成了对角线以下三角形的面积(R);当数据集中于一点时,A就变成了整个正方形的面积(M)。(2.5.3)集中化指数集中化指数,是一个描述地理数据分布的集中化程度的指65TheLorenzCurve10001005050Cumulative%ofXCumulative%ofYPerfectequalitylineLorenzcurvePerfectinequalitylineABTheLorenzCurve10001005050Cum66显然,I越大,就说明数据分布的集中化程度越高;反之,I越小,就说明数据分布的集中化程度越低(越均衡)。常采用如下近似取值方法:A——实际数据的累计百分比总和R——均匀分布时的累计百分比总和M——集中分布时的累计百分比总和
集中化指数在[0,1]区间上取值。只有数据的个数相同而且横坐标划分一致时,才有可比性。
显然,I越大,就说明数据分布的集中化程度越高;反之,I越小,67在罗伦兹曲线图上,将x轴分成10等份,分点分别为L1,L2,L3…L10,由每一个分点作y轴平行线,交罗伦兹曲线于M1,M2,M3…M10;由交点M1,M2,M3…M10做x轴平行线交y轴C1,C2,C3,…C10,C=C1+C2+C3+…C10当洛仑兹曲线和对角线完全重合时,C=10+20+…+100=550,I=0;当洛仑兹曲线与对角线完全偏离时,C=100+100+…+100=1000,I=1。因此,集中化指数可以测度洛仑兹曲线偏离对角线的程度。目前很多学者利用罗伦兹曲线和基尼系数分析和度量收入、健康、贫困、财富等的区域不平等性Inequalities。在罗伦兹曲线图上,将x轴分成10等份,分点分别为L1,L2,68作图法求集中化指数L2L4L6L8L10O20406080100工业总产值累积百分比(%)选定工业部门产值累积百分比(%)XL1L3L5L7L9M2M4M6M8M10M1M3M5M7M9C2C4C6C8C10C1C3C5C7C9作图法求集中化指数L2L4L6L8L10O20406080169集中化指数集中化指数70基尼系数
基尼系数(Ginicoefficient),就是通过两组数据的对比分析,纵、横坐标均以累计百分比表示,从而做出罗伦次曲线,然后再计算得出的集中化指数。它是通过对人口和收入两组数据进行比较分析,然后将纵、横坐标均以累计百分比表示,作出罗伦次曲线,再计算集中化指数而得到的一个判断收入分配不平等程度的指标。基尼系数基尼系数(Ginicoefficient),就是71其原理方法如下:列出每一个区域(部门)的人口与收入占全区(各部门总计)的比重p与w;计算每一区域(部门)的比率w/p;根据w/p值,由小到大将每一地区(部门)排序;按照上述顺序分别计算p和w的累计值X和Y;以X为横坐标,以Y为纵坐标,在直角坐标系中依次连接各点,得到一条下凸的罗伦次曲线。其原理方法如下:列出每一个区域(部门)的人口与收入占全区(各72基尼系数(G)就可以按照如下公式计算:
假若罗伦次曲线的解析式为:显然,该曲线下方区域的面积为:对应于绝对均衡分布,其罗伦次曲线就是正方形的对角线,其下方区域的面积为R=1/2。(2.5.6)基尼系数(G)就可以按照如下公式计算:假若罗伦次曲线的73根据中国大陆1978-2002年各省(直辖市、自治区)的人口数和按照可比价格折算的GDP数据,计算基尼系数,结果如下图。可以看出,在1978-1990年期间,基尼系数虽然出现过几次上升和下降的微小波动,但基本趋势是缓慢地下降的;而在1991-2002年期间,基本上呈现上升趋势。这一结论,与上节计算的加权变异系数是相互印证的。
根据中国大陆1978-2002年各省(直辖市、自治区)的人口74图2.5.41978—2002年中国大陆省际收入差异的基尼系数
EXCEL演示图2.5.41978—2002年中国大陆省际收入差异的基75联合国有关组织规定:若低于0.2表示收入绝对平均;0.2-0.3表示比较平均;0.3-0.4表示相对合理;0.4-0.5表示收入差距较大;0.6以上表示收入差距悬殊。联合国有关组织规定:76锡尔系数
基尼系数(Ginicoefficient),用于对经济发展、收入分配等均衡(不均衡)状况,进行定量化的描述。锡尔系数又称锡尔熵,有两个锡尔系数指标,即锡尔系数T和锡尔系数L。两者的不同之处在于锡尔系数T以收入比重加权计算,而锡尔系数L则以人口比重加权计算。锡尔系数基尼系数(Ginicoefficient),用于77如果以人口比重加权,锡尔系数L的计算公式为:
式中:n为区域(部门)个数;为地区(部门)收入占全区(各部门总计)的份额;为i地区(部门)的人口占全区(各部门总计)的份额。
(2.5.9)如果以人口比重加权,锡尔系数L的计算公式为:式中:(278如果以收入比重加权,则锡尔系数T的计算公式为:锡尔系数越大,就表示收入分配差异越大;反之,锡尔系数越小,就表示收入分配越均衡。(2.5.10)Moreover,wecomputethesocalledTheilcoefficient,whichisanaggregateindicatorforincomeinequality.TheTheilcoefficientequals0ifallNpersonshavethesameincomeanditsvalueisln(N)atmaximumincaseallincomeaccruestooneperson.如果以收入比重加权,则锡尔系数T的计算公式为:锡尔系数越79根据各省(直辖市、自治区)的人口和按照可比价格折算的GDP数据,计算1978—2002年中国大陆省际差异的锡尔系数T值,结果如下图所示。可以看出,在1978—1990年期间,锡尔系数虽然有微小波动,但基本上呈下降趋势;而在1991—2002年期间,基本上呈显出上升趋势。这一结论,与前面计算出的基尼系数也是相互印证的。
根据各省(直辖市、自治区)的人口和按照可比价格折算的GDP数80图2.5.51978-2002年中国大陆省际收入差异的锡尔系数图2.5.51978-2002年中国大陆省际收入差异的锡81作业:
对于下表中的数据,分别计算平均值、中位数、众数、极差、离差、离差平方和、方差、标准差、标准差的无偏估计,以及变异系数。(上交的作业包括:程序+结果)作业:对于下表中的数据,分别计算平均值、中位数82习题与思考题设有10个地区的2个工业部门,各部门的工业总产值所占百分比列于下表,试作出各工业部门的空间罗伦兹曲线,并计算个工业部门的集中化指数,作出地理解释。地区工业总产值电力纺织122.91.822.0217.68.021.6311.76.03.5411.532.02.854.32.64.465.55.915.2710.00.28.286.01.411.295.930.95.6104.611.25.5总计100.0100.0100.0习题与思考题设有10个地区的2个工业部83第二章地理数据的采集及处理
第二章地理数据的采集及处理84一、地理系统二、地理数据的类型和表达三、地理数据的来源四、地理数据的变换五、地理数据的分布特征一、地理系统85一、地理系统1.系统的概念地理系统是地球表面的岩石圈、水圈、生物圈和人类活动相互作用的物质、能量和信息运动系统。什么是“系统”?系统是由相互作用和相互依赖的若干组成部分(要素)结合而成的具有特定功能的整体。在这个定义中包括了系统、要素、结构、功能四个概念,表明了要素与要素、要素与系统、系统与环境三方面的关系。
一、地理系统1.系统的概念86地球表层系统地球表层系统(theearthsurfacesystem)是由岩土圈、大气圈、水圈、生物圈和人类圈所构成的地表自然社会综合体。是人类圈与地相互作用的复合物质系统,是地球圈层结构中的特定部分,与周围的地球圈层其他部分存在物质能量交换关系,是一个开放的复杂次级巨系统。钱学森教授于1983年倡议建立“地球表层学”,认为地球表层学是“跨地理学、气象学、地质学、工农业生产技术、技术经济和国土经济的新学科”是自然科学与社会科学的交叉学科”。地球表层系统地球表层系统(theearthsurface872.系统的结构和功能系统的结构是指不随时间发生变化的系统要素之间的联系。稳定性层次性可变性相对性2.系统的结构和功能系统的结构是指不随时间发生变化的系统要88系统的功能是指系统在包含它的超系统中起的作用和承担的任务。系统功能体现了系统与外部环境之间的物质、能量、信息输入与输出的变换关系。系统输入输出时同外部介质的相互作用就是系统的功能。系统功能同时也是为实现系统目标所具有的能力。系统的功能是指系统在包含它的超系统中起的作用和承担的任务。893.系统分类自然系统和人造系统
实体系统和抽象(概念)系统
静态系统和动态系统
开放系统和封闭系统
全球系统和区域系统
3.系统分类自然系统和人造系统904.地理系统的特点系统性、整体性、综合性区域性、开放性、层次性随机性、动态性系统的整体功能大于分要素功能之总和,这是因为存在着要素与要素间的关系。地理环境是由各个要素之间的密切的相互作用,才形成了地理环境的整体性。层次性:我国的北方地区,可将其视为一个系统,而它又是我国季风区的子系统,属于温带季风气候,在气候的影响下,植被、河流水文和农业生产表现出温带地区的特点。系统是不断演化的,系统存在于过程之中。4.地理系统的特点系统性、整体性、综合性91二、地理数据的类型和表达1.地理数据类型将所有的地理数据划分为两大基本类型,即空间数据(spatialdata)和属性数据(attributedada)。GIS实现了空间数据和属性数据的完美结合
属性数据又可以进一步分为两种类型,即定量数据和定性数据。Acrview主体文件:*.shp、*.dbf、*.sbx分别存储空间,属性和前两者的关系
二、地理数据的类型和表达1.地理数据类型92空间数据空间数据,主要用于描述地理实体、地理要素、地理现象、地理事件及地理过程产生、存在和发展的地理位置、区域范围及空间联系。坐标,是描述空间数据的基本手段,一般用经纬度坐标或者公里网来表示。对于空间数据的表达,可以将其归纳为点、线、面三种几何实体以及描述他们之间空间联系的拓扑关系。空间数据空间数据,主要用于描述地理实体、地理要素、地理现象、93三种基本的地理几何实体及其组合
三种基本的地理几何实体及其组合94属性数据定量数据:是用数量表示的地理数据,如温度,人口数量,人均收入等。定性数据:只表征地理要素性质上的差异,而没有数量的变化。但是,通过“数量化方法”可以对一定的地理要素予以赋值。通常采用二分法,即以二元数据1和0来表示。比如,性别属性数据定量数据:是用数量表示的地理数据,如温度,人口数量,95城市A城市B城市C城市D城市E城市A—1101城市B1—110城市C11—10城市D011—1城市E1001—表2.1二元数据注:1表示两城市之间通航;0表示两城市之间不通航。城市A城市B城市C城市D城市E城市A—1101城市B1—11962.地理数据的表达方式表格法区域地理要素x1x2…xn区域1x11x12…x1n区域2x21x22…x2n……………区域mxm1xm2…xmn2.地理数据的表达方式地理要素x1x2…xn区域1x11x97年平均气温/℃年降水量/mm土地面积/hm2
人口/人国内生产总值/万元区域18.0500.2245.612102678.28区域27.6498.61064.10232015.47区域36.5550.9894.38481754.56区域38.5586.4668.76541365.46表2.2各区域的自然及经济社会指标年平均气温/℃年降水量土地面积人口国内生产总值区域18.098年
份19961997199819992000耕地复种指数120.40113.56126.54132.76121.43农业发展指数100115.68124.50135.69129.56表2.3某地区耕地复种指数和农业发展指数年份19961997199819992000耕地复99矩阵法地理矩阵m个地点或地区;n个地理特征值矩阵法地理矩阵100三、地理数据的来源
来自观测、测量部门的有关专业数据。比如,来自水文观测站的有关水文数据;来自气象观测站的有关气象数据;来自环境监测部门的空气、水质数据等。来自统计年鉴、统计公报中的有关自然资源及社会经济发展数据。比如,从各级政府统计部门公布和出版的统计年鉴中,可以得到当地的耕地面积、各类农作物播种面积、粮食产量、人口、劳动力、工业投资和产值、国内生产总值等。来自有关单位或者个人的不定期的典型调查数据、抽样调查数据。比如,来自城乡抽样调查队的城市、农村家庭收支数据;来自有关有关单位或者个人的某一方面的专题调查数据等等。来自政府公报、政府文件中的有关数据。来自档案、图书等文献资料中的有关数据。来自互联网中的有关共享数据。地图图件。主要包括各种比例尺的地形图、影像地图、专题地图等。遥感数据。主要包括各种航空遥感数据和卫星遥感数据。其他来源的有关数据。三、地理数据的来源来自观测、测量部门的有关专业数据。比如,101四、地理数据的变换1.定性数据转换成定量数据有序数据(ordinaldata)转换二元数据转换2.数据本身变换对原始数据需要消除量纲(或单位),转换为可比较的数据序列。目前,原始数据的变换有以下几种常用方法:对数变换、模数变换、指数变换、概率变换、滑动平均法等等四、地理数据的变换1.定性数据转换成定量数据102五、地理数据的分布特征1.地理数据的统计整理基本步骤:
①统计分组,就是根据研究目的,按照一定的分组标志将地理数据分成若干组。
②计算各组数据的频数、频率,编制统计分组表。
③作分布图。五、地理数据的分布特征1.地理数据的统计整理103统计分组按质量标志按数量标志离散型变量连续型变量单项式组距式等距不等距等距不等距统计分组按质量标志按数量标志离散型变量连续型变量单项式组距式104例1根据表2.4上海市100年降水量,说明统计分组和绘制频数图表。974.81002.61588.1770.71008.91206.81271.51101.91341.213311085.41184.41113.41203.91170.7975.41462.3947.81416709.21147.59351016.31031.61105.7849.91233.41008.61063.81004.91086.21022.51330.91439.41236.51083.11288.71115.81217.51320.71078.11203.414801269.91049.21318.4119210161508.21159.61021.3986.1794.71318.31171.21161.7791.21143.81602951.41003.2840.41061.49581025.212651196.51120.71659.3942.71123.3910.21393.51208.61305.51242.11572.31416.91253.81282.3982.11388.51057.51282.81472.71011.71214.81193.41139.51012.41237.6903.61025.51121.8807.8815.61180.11105989.4900.9例1根据表2.4上海市100年降水量,说明统计分1051)找出原始数据中的最大值、最小值,并求出全距range2)把全距按组的宽度一致性原则恰当地分组,即确定组数、组距、组限和组中值n=1+3.32lgNN为样本容量
组距=全距/组数
3)求出落在每个组距中的观察值数目,即求出组频数frequency和频率。4)绘制频率分布图,有三种形式,即直方图(frequencyhistogram)、频数多边形图和累计频数分布曲线1)找出原始数据中的最大值、最小值,并求出全距ra106组序试定界限修订界限组中值频数频率(%)累计频数累计频率(%)1649.7-768.7649.7-768.6709.211112768.7-887.7768.7-887.6828.277883887.7-1006.7887.7-1006.6947.21616242441006.7-1125.71006.7-1125.61066.42727515151125.7-1244.71125.7-1244.61185.22222737361244.7-1363.71244.7-1363.61304.21414878771363.7-1482.71363.7-1482.61423.288959581482.7-1601.71482.7-1601.61542.233989891601.7-1720.71601.7-1720.61661.222100100组序试定界限修订界限组中值频数频率(%)累计频数累计频率(%107频数分布的直方图:频数分布的直方图:108将上图各组的频数分布从组中值位置用折线连接起来,得到频数分布曲线图:将上图各组的频数分布从组中值位置用折线连接起来,109累积频数分布图累积频数分布图110课后作业,p226,T5课后作业,p226,T5111课后作业,p226,T5课后作业,p226,T51122.几种常用的统计指标与参数描述地理数据集中程度的指标描述地理数据分布离散程度的指标描述地理数据分布特征的参数2.几种常用的统计指标与参数描述地理数据集中程度的指标1131)描述地理数据集中程度的指标平均值反映了地理数据一般水平。计算方法:
①
未分组的地理数据
②
分组的地理数据
(2.1)(2.2)加权平均数1)描述地理数据集中程度的指标平均值(2.1)(2.2)加114上海市100年降水量上海市100年降水量115中位数
①对于未分组的地理数据,样本数n为奇数时,中位数是位置排在第(n+1)/2位的数据;样本数n为偶数时,中位数是排在中间位置的两个数据的平均值。
②分组的地理数据,中位数的计算方法:
确定中位数所在的组位置,按下述公式计算中位数
或(2.3)(2.4)中位数或(2.3)(2.4)116在式(2.3)和(2.4)中:Me代表中位数;L为中位数所在组的下限值;U为中位数所在组的上限值;fm为中位数所在组的频数;Sm-1为中位数所在组以下的累计频数;Sm+1为中位数所在组以上的累计频数;d为中位数所在组的组距。在式(2.3)和(2.4)中:117众数众数就是出现频数最多的那个数,计算方法分为以下两种情况:
①未分组的地理数据,可以根据每一个数据出现的频数大小直接确定众数。
②对于已经分组的地理数据,中位数的计算步骤如下:确定频数最多的组为众数所在组。按以下公式计算众数
或(2.5)(2.6)众数或(2.5)(2.6)118在式(2.5)和(2.6)中:M0代表众数;L为众数所在组的下限值;U为众数所在组的上限值;∆1为众数组频数与下一组频数之差;∆2为众数组频数与上一组频数之差;d为众数所在组的组距。在式(2.5)和(2.6)中:119上海市100年降水量中位数众数上海市100年降水量中位数120例2:表2.5给出了某农场各农田地块的面积,试计算其平均值、中位数和众数。
地块编号
123456789101112平均值中位数众数面积/hm2
12835035555072408529657554.2552.550
应按照未分组数据计算其平均值、中位数和众数,计算结果见上表最后三列。表2.5某农场各农田地块的面积
例2:表2.5给出了某农场各农田地块的面积,试计算其平均值、121例3:表2.5给出了中国西部地区某城市2000年家庭月收入的抽样调查结果,试计算其平均值、中位数和众数。家庭月收入/元户数向上累计频数向下累计频数2000~300030030021303000~40001300160018304000~500020018005305000~600015019503306000~700010020501807000~8000502100808000~900030213030合计2130——表2.5中国西部地区某城市2000年家庭月收入的抽样调查结果例3:表2.5给出了中国西部地区某城市2000年家庭月收入的122解题步骤:(1)用公式(2.2)计算平均数
(2)计算中位数。先确定中位数所在组的位置,再按照公式(2.3)或者(2.4)计算中位数
Me=3588.46(元)=3899.06(元)解题步骤:=3899.06(元)123(3)计算众数,先确定众数所在组,再按照公式(2.5)或(2.6)计算众数。显然,众数所在组应该在第二组。众数M0
=3476.19(元)。(3)计算众数,先确定众数所在组,再按1242)描述地理数据分布离散程度的指标
极差指所有数据中最大值与最小值之差,计算公式为离差指每一个地理数据与平均值的差,计算公式为离差平方和它从总体上衡量一组地理数据与平均值的离散程度,其计算公式为
(2.9)(2.8)
(2.7)2)描述地理数据分布离散程度的指标
极差(2.9)125方差与标准差方差是从平均概况衡量一组地理数据与平均值的离散程度。方差计算公式为
标准差为方差的平方根,计算公式为(2.10)(2.11)
方差与标准差(2.10)(2.11)126如果以样本方差对标准差进行无偏估计,则计算公式为(2.12)如果以样本方差对标准差进行无偏估计,则计算公式为(127变异系数变异系数表示地理数据的相对变化(波动)程度,其计算公式(2.13)(2.13)128变差系数也称变异系数,用它来衡量地理要素在时间和空间上的相对变化(波动)的程度。如果两个数量级不相同的地理要素,虽然其相对变化程度相同,但其方差、标准差却一定是不相同的。数量级大的要比数量级小的要素的方差、标准差大。这只要把任意一个地理要素的数列与把它的各项数值扩大任意倍的数列作比较,就可以看得很清楚。它们的方差、标准差差别显著,但相对波动程度完全相同的。因此,用变差系数来衡量相对波动的程度。变差系数也称变异系数,用它来衡量地理要素在时间和空间上的相对129用百分数表示的地理要素在时间与空间的相对变化(被动)程度很直观,并且在空间分析时,还可以作出变差系数的等值线图,以表示各区域一种地理要崇的相对稳定状况。比如,各地区人口出生率、自然增长率的相对稳定状况以及城乡入口比例的相对波动程度等都可以用变异系数来衡量。它还是衡量农作物产量稳定程度、线路上客运量相对波动程度以及各项自然要素的稳定程度的指标。用百分数表示的地理要素在时间与空间的相对变化(被动)程度很直130例如:对于表2.4.2中的数据,分别计算极差、离差、离差平方和、方差、标准差、标准差的无偏估计,以及变异系数。
地块编号
123456789101112平均值中位数众数面积/hm212835035555072408529657554.2552.550表2.4.2某农场各农田地块的面积例如:对于表2.4.2中的数据,分别计算极差、离差、离差平方131步骤:(1)按照公式(2.4.7)计算极差(2)按照公式(2.4.8)计算离差,结果见表2.4.4。
序号123456789101112面积128350355550724085296575离差-42.2528.75-4.25-19.250.75-4.2517.75-14.2530.75-25.2510.7520.75表2.4.4地理数据的离差
步骤:序号123456789101112面积12132(3)按照公式(2.9)计算离差平方和(4)按照公式(2.10)计算方差
(5)按照公式(2.11)计算标准差(6)按照公式(2.12)计算标准差的无偏估计(7)按照公式(2.13)计算变异系数
5666.2521.72990.4184(3)按照公式(2.9)计算离差平方和5666.2521133应用实例1:两个干旱区降水量变异系数应用实例1:两个干旱区降水量变异系数134应用实例2:中国大陆省份人均GDP的变异系数
我们知道变异系数测度的是地理数据分布的相对差异。为了分析中国大陆经济发展的省际差异及其演化过程,我们首先把1978-2002年各省(直辖市、自治区)的GDP数,按照可比价格进行折算,再除以人口数,计算出按照可比价衡量的人均GDP数据,然后再用公式(2.13)计算变异系数,结果如图。应用实例2:中国大陆省份人均GDP的变异系数我135图1978—2002年中国大陆省份人均GDP的变异系数
图1978—2002年中国大陆省份人均GDP的变异系数136从图中可以看出,在1978—2002年期间,人均GDP的变异系数,以1990年为转折点,呈现出一个U形曲线。即:人均GDP的变异系数,在1978—1990年期间基本上呈现下降趋势,而在1990—2002年期间则基本上呈现上升趋势。这说明,在1978—1990年期间,中国大陆经济发展的省际差异,基本上呈缩小趋势,而1990—2002年期间则基本上呈扩大趋势。这一变化与国家宏观经济政策变动的时间、趋势大体一致。
从图中可以看出,在1978—2002年期间,人均137山东省区域差异变动(1978-2008)山东省区域差异变动(1978-2008)1383)描述地理数据分布特征的参数
偏度系数测度地理数据分布的不对称性情况,刻画以平均值为中心的偏向情况,计算公式为
g1<0,表示负偏,即均值在峰值的左边;g1>0,表示正偏,即均值在峰值的右边;g1=0,表示对称分布(如下图)。
(2.14)3)描述地理数据分布特征的参数偏度系数(2.14)139图2.4.3偏度系数的三种情形
图2.4.3偏度系数的三种情形140峰度系数
它测度了地理数据在均值附近的集中程度,其计算公式为标准正态分布的峰度系数g2=0;g2>0,表示地理数据分布的集中程度高于正态分布;g2<0,表示地理数据分布的集中程度低于正态分布(图2.4.4)。
图2.4.4标准峰度系数的三种情形(2.15)峰度系数图2.4.4标准峰度系数的三种情形(2.15)1413.地理数据分布的集中化
与均衡度指数
罗伦次曲线与集中化指数基尼系数锡尔系数3.地理数据分布的集中化
与均衡度指数罗伦次曲线与集中化142罗伦次曲线20世纪初,意大利统计学家罗伦次(M.Lorenz),首先使用累计频率曲线研究工业化的集中化程度。后来,这种曲线就被称之为罗伦次曲线。
.罗伦次曲线与集中化指数罗伦次曲线20世纪初,意大利统计学家罗伦次(M.Loren143绘制罗伦次曲线实例:
(1)将表2.5.1各产业部门的收入及其占总收入比重(百分比),从大到小重新排序;(2)从大到小,逐次计算累计百分比;(3)以自然序号为横坐标(x),累计百分比为纵坐标(y);以(部门代码,累计百分比)为坐标点,连成一个上凸的曲线(图2.5.1和图2.5.2),即罗伦次曲线。绘制罗伦次曲线实例:(1)将表2.5.1各产业部门的收入及144表2.5.1某地区农户家庭经营性纯收入水平及其构成
表2.5.1某地区农户家庭经营性纯收入水平及其构成145图2.5.11999年农户家庭经
营性纯收入构成的罗伦次曲线图2.5.22004年农户家庭经营性纯收入构成的罗伦次曲线
图2.5.11999年农户家庭经
营性纯收入构成的罗伦146结果分析:罗伦次曲线的上凸程度,表示农户家庭经营性纯收入的部门集中化程度。上凸程度越大,就表示农户家庭经营性纯收入越是集中于某些产业部门。如果各个产业部门的收入是均等的,则罗伦次曲线正好就变成了正方形的对角线。比较图2.5.1和图2.5.2,可以看出该地区1999年农户家庭经营性纯收入的部门集中化程度高于2004年。
结果分析:罗伦次曲线的上凸程度,表示农户家庭经营性纯收入的部147集中化指数集中化指数,是一个描述地理数据分布的集中化程度的指数。
假若罗伦次曲线的解析式为:显然,该曲线下方区域的面积为:当数据均匀分布时,A就变成了对角线以下三角形的面积(R);当数据集中于一点时,A就变成了整个正方形的面积(M)。(2.5.3)集中化指数集中化指数,是一个描述地理数据分布的集中化程度的指148TheLorenzCurve10001005050Cumulative%ofXCumulative%ofYPerfectequalitylineLorenzcurvePerfectinequalitylineABTheLorenzCurve10001005050Cum149显然,I越大,就说明数据分布的集中化程度越高;反之,I越小,就说明数据分布的集中化程度越低(越均衡)。常采用如下近似取值方法:A——实际数据的累计百分比总和R——均匀分布时的累计百分比总和M——集中分布时的累计百分比总和
集中化指数在[0,1]区间上取值。只有数据的个数相同而且横坐标划分一致时,才有可比性。
显然,I越大,就说明数据分布的集中化程度越高;反之,I越小,150在罗伦兹曲线图上,将x轴分成10等份,分点分别为L1,L2,L3…L10,由每一个分点作y轴平行线,交罗伦兹曲线于M1,M2,M3…M10;由交点M1,M2,M3…M10做x轴平行线交y轴C1,C2,C3,…C10,C=C1+C2+C3+…C10当洛仑兹曲线和对角线完全重合时,C=10+20+…+1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度网络安全风险评估与解决方案合同范本3篇
- 二零二五版股权激励合同:某上市公司对高级管理人员股权激励计划3篇
- 2025年度时尚服饰店开业活动承包合同3篇
- 2025年度高端不锈钢医疗器械制造委托合同3篇
- 二零二五版智能穿戴设备代加工合同范本2篇
- 二零二五年度环保型车间生产承包服务合同范本3篇
- 二零二五年高管子女教育援助与扶持合同3篇
- 2025年草场租赁与牧区基础设施建设合同3篇
- 二零二五版涵洞工程劳务分包单价及工期延误赔偿合同3篇
- 二零二五版财务报表编制会计劳动合同范本3篇
- GB/T 34241-2017卷式聚酰胺复合反渗透膜元件
- GB/T 12494-1990食品机械专用白油
- 运输供应商年度评价表
- 成熙高级英语听力脚本
- 北京语言大学保卫处管理岗位工作人员招考聘用【共500题附答案解析】模拟试卷
- 肺癌的诊治指南课件
- 人教版七年级下册数学全册完整版课件
- 商场装修改造施工组织设计
- 统编版一年级语文上册 第5单元教材解读 PPT
- 加减乘除混合运算600题直接打印
- ASCO7000系列GROUP5控制盘使用手册
评论
0/150
提交评论