版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 第二章 地理数据的采集及处理 一、地理系统二、地理数据的类型和表达三、地理数据的来源四、地理数据的变换五、地理数据的分布特征一、地理系统1. 系统的概念地理系统是地球表面的岩石圈、水圈、生物圈和人类活动相互作用的物质、能量和信息运动系统。什么是“系统”?系统是由相互作用和相互依赖的若干组成部分(要素)结合而成的具有特定功能的整体。在这个定义中包括了系统、要素、结构、功能四个概念,表明了要素与要素、要素与系统、系统与环境三方面的关系。 地球表层系统地球表层系统(the earth surface system)是由岩土圈、大气圈、水圈、生物圈和人类圈所构成的地表自然社会综合体。是人类圈与地相互
2、作用的复合物质系统,是地球圈层结构中的特定部分,与周围的地球圈层其他部分存在物质能量交换关系,是一个开放的复杂次级巨系统。钱学森教授于1983年倡议建立“地球表层学”,认为地球表层学是“跨地理学、气象学、地质学、工农业生产技术、技术经济和国土经济的新学科”是自然科学与社会科学的交叉学科”。 2. 系统的结构和功能系统的结构是指不随时间发生变化的系统要素之间的联系。稳定性层次性可变性相对性系统的功能是指系统在包含它的超系统中起的作用和承担的任务。系统功能体现了系统与外部环境之间的物质、能量、信息输入与输出的变换关系。系统输入输出时同外部介质的相互作用就是系统的功能。系统功能同时也是为实现系统目标
3、所具有的能力。 3. 系统分类自然系统和人造系统 实体系统和抽象(概念)系统 静态系统和动态系统 开放系统和封闭系统 全球系统和区域系统 4. 地理系统的特点系统性、整体性、综合性区域性、开放性、层次性随机性、动态性系统的整体功能大于分要素功能之总和,这是因为存在着要素与要素间的关系。地理环境是由各个要素之间的密切的相互作用,才形成了地理环境的整体性。层次性:我国的北方地区,可将其视为一个系统,而它又是我国季风区的子系统,属于温带季风气候,在气候的影响下,植被、河流水文和农业生产表现出温带地区的特点。 系统是不断演化的,系统存在于过程之中。 二、地理数据的类型和表达1. 地理数据类型将所有的地
4、理数据划分为两大基本类型,即空间数据(spatial data)和属性数据(attribute dada)。GIS实现了空间数据和属性数据的完美结合 属性数据又可以进一步分为两种类型,即定量数据和定性数据。Acrview 主体文件:*. shp 、*.dbf 、*.sbx分别存储空间,属性和前两者的关系 空间数据空间数据,主要用于描述地理实体、地理要素、地理现象、地理事件及地理过程产生、存在和发展的地理位置、区域范围及空间联系。坐标,是描述空间数据的基本手段,一般用经纬度坐标或者公里网来表示。对于空间数据的表达,可以将其归纳为点、线、面三种几何实体以及描述他们之间空间联系的拓扑关系。 三种基本
5、的地理几何实体及其组合 属性数据定量数据:是用数量表示的地理数据,如温度,人口数量,人均收入等。定性数据:只表征地理要素性质上的差异,而没有数量的变化。但是,通过“数量化方法”可以对一定的地理要素予以赋值。通常采用二分法,即以二元数据1和0来表示。比如,性别 城市A城市B城市C城市D城市E城市A1101城市B1110城市C1110城市D0111城市E1001表2.1 二元数据注:1表示两城市之间通航; 0表示两城市之间不通航。2. 地理数据的表达方式 表格法区域地理要素x1x2xn区域1x11x12x1n区域2x21x22x2n区域mxm1xm2xmn年平均气温/年降水量/mm 土地面积/hm
6、2 人口/人 国内生产总值/万元区域1 8.0 500.2 245.6 1 210 2 678.28 区域2 7.6498.61064.1 0232 015.47区域36.5550.9894.38481 754.56区域38.5586.4668.76541 365.46表2.2 各区域的自然及经济社会指标年 份19961997199819992000耕地复种指数120.40113.56126.54132.76121.43农业发展指数100115.68124.50135.69129.56表2.3 某地区耕地复种指数和农业发展指数矩阵法地理矩阵 m个地点或地区;n个地理特征值三、地理数据的来源 来
7、自观测、测量部门的有关专业数据。比如,来自水文观测站的有关水文数据;来自气象观测站的有关气象数据;来自环境监测部门的空气、水质数据等。来自统计年鉴、统计公报中的有关自然资源及社会经济发展数据。比如,从各级政府统计部门公布和出版的统计年鉴中,可以得到当地的耕地面积、各类农作物播种面积、粮食产量、人口、劳动力、工业投资和产值、国内生产总值等。来自有关单位或者个人的不定期的典型调查数据、抽样调查数据。比如,来自城乡抽样调查队的城市、农村家庭收支数据;来自有关有关单位或者个人的某一方面的专题调查数据等等。来自政府公报、政府文件中的有关数据。来自档案、图书等文献资料中的有关数据。来自互联网中的有关共享数
8、据。地图图件。主要包括各种比例尺的地形图、影像地图、专题地图等。遥感数据。主要包括各种航空遥感数据和卫星遥感数据。其他来源的有关数据。 四、地理数据的变换1. 定性数据转换成定量数据有序数据(ordinal data)转换二元数据转换2. 数据本身变换对原始数据需要消除量纲(或单位),转换为可比较的数据序列。目前,原始数据的变换有以下几种常用方法:对数变换、模数变换、指数变换、概率变换、滑动平均法等等五、地理数据的分布特征1. 地理数据的统计整理 基本步骤: 统计分组,就是根据研究目的,按照一定的分组标志将地理数据分成若干组。 计算各组数据的频数、频率,编制统计分组表。 作分布图。统计分组按质
9、量标志按数量标志离散型变量连续型变量单项式组距式等距不等距等距不等距例1 根据 表2.4 上海市100年降水量,说明统计分组和绘制频数图表。 974.81002.61588.1770.71008.91206.81271.51101.91341.213311085.41184.41113.41203.91170.7975.41462.3947.81416709.21147.59351016.31031.61105.7849.91233.41008.61063.81004.91086.21022.51330.91439.41236.51083.11288.71115.81217.51320.710
10、78.11203.414801269.91049.21318.4119210161508.21159.61021.3986.1794.71318.31171.21161.7791.21143.81602951.41003.2840.41061.49581025.212651196.51120.71659.3942.71123.3910.21393.51208.61305.51242.11572.31416.91253.81282.3982.11388.51057.51282.81472.71011.71214.81193.41139.51012.41237.6903.61025.51121.8
11、807.8815.61180.11105989.4900.9 1)找出原始数据中的最大值、最小值,并求出全距range 2)把全距按组的宽度一致性原则恰当地分组,即确定组数、组距、组限和组中值 n=1+3.32lgN N为样本容量 组距=全距/组数 3)求出落在每个组距中的观察值数目,即求出组频数frequency和频率。 4)绘制频率分布图,有三种形式,即直方图(frequency histogram )、频数多边形图和累计频数分布曲线组序试定界限修订界限组中值频数频率(%)累计频数累计频率(%)1649.7-768.7649.7-768.6709.211112768.7-887.7768.
12、7-887.6828.277883887.7-1006.7887.7-1006.6947.21616242441006.7-1125.71006.7-1125.61066.42727515151125.7-1244.71125.7-1244.61185.22222737361244.7-1363.71244.7-1363.61304.21414878771363.7-1482.71363.7-1482.61423.288959581482.7-1601.71482.7-1601.61542.233989891601.7-1720.71601.7-1720.61661.222100100 频数分
13、布的直方图 : 将上图各组的频数分布从组中值位置用折线连接起来,得到频数分布曲线图: 累积频数分布图课后作业,p226,T5课后作业,p226,T52.几种常用的统计指标与参数描述地理数据集中程度的指标描述地理数据分布离散程度的指标描述地理数据分布特征的参数1) 描述地理数据集中程度的指标平均值 反映了地理数据一般水平。计算方法: 未分组的地理数据 分组的地理数据 (2.1)(2.2)加权平均数上海市100年降水量中位数 对于未分组的地理数据,样本数n为奇数时,中位数是位置排在第(n+1)/2位的数据;样本数n为偶数时,中位数是排在中间位置的两个数据的平均值。 分组的地理数据,中位数的计算方法
14、: 确定中位数所在的组位置,按下述公式计算中位数 或(2.3)(2.4)在式(2.3)和 (2.4)中:Me代表中位数;L为中位数所在组的下限值;U为中位数所在组的上限值;fm为中位数所在组的频数;Sm-1为中位数所在组以下的累计频数;Sm+1为中位数所在组以上的累计频数;d为中位数所在组的组距。众数 众数就是出现频数最多的那个数,计算方法分为以下两种情况: 未分组的地理数据,可以根据每一个数据出现的频数大小直接确定众数。 对于已经分组的地理数据,中位数的计算步骤如下: 确定频数最多的组为众数所在组。 按以下公式计算众数 或(2.5)(2.6)在式(2.5)和 (2.6)中:M0代表众数;L为
15、众数所在组的下限值;U为众数所在组的上限值;1为众数组频数与下一组频数之差;2为众数组频数与上一组频数之差;d为众数所在组的组距。上海市100年降水量中位数众数例2:表2.5给出了某农场各农田地块的面积,试计算其平均值、中位数和众数。 地块编号 123456789101112平均值中位数众数面积/hm2 12835035555072408529657554.2552.550 应按照未分组数据计算其平均值、中位数和众数,计算结果见上表最后三列。 表2.5 某农场各农田地块的面积 例3:表2.5给出了中国西部地区某城市2000年家庭月收入的抽样调查结果,试计算其平均值、中位数和众数。家庭月收入/元
16、户数向上累计频数向下累计频数2 0003 0003003002 1303 0004 0001 3001 6001 8304 0005 0002001 8005305 0006 0001501 9503306 0007 0001002 0501807 0008 000502 100808 0009 000302 13030合 计2130表2.5 中国西部地区某城市2000年家庭月收入的 抽样调查结果 解题步骤: (1)用公式(2.2)计算平均数 (2)计算中位数。先确定中位数所在组的位置,再按照公式(2.3)或者(2.4)计算中位数 Me =3 588.46(元)=3 899.06(元) (3)
17、计算众数,先确定众数所在组,再按照公式(2.5)或(2.6)计算众数。 显然,众数所在组应该在第二组。 众数M0 =3 476.19 (元)。2)描述地理数据分布离散程度的指标极差 指所有数据中最大值与最小值之差,计算公式为离差 指每一个地理数据与平均值的差,计算公式为离差平方和 它从总体上衡量一组地理数据与平均值的离散程度,其计算公式为 (2.9) (2.8) (2.7) 方差与标准差 方差是从平均概况衡量一组地理数据与平均值的离散程度。方差计算公式为 标准差为方差的平方根,计算公式为(2.10)( 2.11) 如果以样本方差对标准差进行无偏估计,则计算公式为(2.12) 变异系数 变异系数
18、表示地理数据的相对变化(波动)程度,其计算公式(2.13)变差系数也称变异系数,用它来衡量地理要素在时间和空间上的相对变化(波动)的程度。如果两个数量级不相同的地理要素,虽然其相对变化程度相同,但其方差、标准差却一定是不相同的。数量级大的要比数量级小的要素的方差、标准差大。这只要把任意一个地理要素的数列与把它的各项数值扩大任意倍的数列作比较,就可以看得很清楚。它们的方差、标准差差别显著,但相对波动程度完全相同的。因此,用变差系数来衡量相对波动的程度。用百分数表示的地理要素在时间与空间的相对变化(被动)程度很直观,并且在空间分析时,还可以作出变差系数的等值线图,以表示各区域一种地理要崇的相对稳定
19、状况。比如,各地区人口出生率、自然增长率的相对稳定状况以及城乡入口比例的相对波动程度等都可以用变异系数来衡量。它还是衡量农作物产量稳定程度、线路上客运量相对波动程度以及各项自然要素的稳定程度的指标。例如:对于表2.4.2中的数据,分别计算极差、离差、离差平方和、方差、标准差、标准差的无偏估计,以及变异系数。 地块编号 123456789101112平均值中位数众数面积/hm212835035555072408529657554.2552.550表2.4.2 某农场各农田地块的面积 步骤 : (1)按照公式(2.4.7)计算极差 (2)按照公式(2.4.8)计算离差,结果见表2.4.4。 序号1
20、23456789101112面积128350355550724085296575离差-42.25 28.75-4.25 -19.25 0.75 -4.25 17.75-14.25 30.75-25.25 10.7520.75 表2.4.4 地理数据的离差 (3)按照公式(2.9)计算离差平方和 (4)按照公式(2.10)计算方差 (5)按照公式(2.11)计算标准差 (6)按照公式(2.12)计算标准差的无偏估计 (7)按照公式(2.13)计算变异系数 5 666.2521.729 90.418 4应用实例1:两个干旱区降水量变异系数应用实例2:中国大陆省份人均GDP的变异系数 我们知道变异系
21、数测度的是地理数据分布的相对差异。 为了分析中国大陆经济发展的省际差异及其演化过程,我们首先把19782002年各省(直辖市、自治区)的GDP数,按照可比价格进行折算,再除以人口数,计算出按照可比价衡量的人均GDP数据,然后再用公式(2.13)计算变异系数,结果如图。图 19782002年中国大陆省份人均GDP的变异系数 从图中可以看出,在19782002年期间,人均GDP的变异系数,以1990年为转折点,呈现出一个U形曲线。即:人均GDP的变异系数,在19781990年期间基本上呈现下降趋势,而在19902002年期间则基本上呈现上升趋势。 这说明,在19781990年期间,中国大陆经济发展
22、的省际差异,基本上呈缩小趋势,而19902002年期间则基本上呈扩大趋势。这一变化与国家宏观经济政策变动的时间、趋势大体一致。 山东省区域差异变动(1978-2008)3)描述地理数据分布特征的参数 偏度系数 测度地理数据分布的不对称性情况,刻画以平均值为中心的偏向情况,计算公式为 g10,表示正偏,即均值在峰值的右边;g1=0,表示对称分布(如下图)。 (2.14)图2.4.3 偏度系数的三种情形 峰度系数 它测度了地理数据在均值附近的集中程度,其计算公式为标准正态分布的峰度系数 g2 =0;g20,表示地理数据分布的集中程度高于正态分布;g20,表示地理数据分布的集中程度低于正态分布(图2
23、.4.4)。 图2.4.4 标准峰度系数的三种情形(2.15)3. 地理数据分布的集中化与均衡度指数 罗伦次曲线与集中化指数 基尼系数 锡尔系数 罗伦次曲线20世纪初,意大利统计学家罗伦次(M. Lorenz),首先使用累计频率曲线研究工业化的集中化程度。后来,这种曲线就被称之为罗伦次曲线。 .罗伦次曲线与集中化指数绘制罗伦次曲线实例: (1)将表2.5.1各产业部门的收入及其占总收入比重(百分比),从大到小重新排序;(2)从大到小,逐次计算累计百分比;(3)以自然序号为横坐标(x),累计百分比为纵坐标(y);以(部门代码,累计百分比)为坐标点,连成一个上凸的曲线(图2.5.1和图2.5.2)
24、,即罗伦次曲线。表2.5.1 某地区农户家庭经营性纯收入水平及其构成 图2.5.1 1999年农户家庭经营性纯收入构成的罗伦次曲线图2.5.2 2004年农户家庭经营性纯收入构成的罗伦次曲线 结果分析:罗伦次曲线的上凸程度,表示农户家庭经营性纯收入的部门集中化程度。上凸程度越大,就表示农户家庭经营性纯收入越是集中于某些产业部门。如果各个产业部门的收入是均等的,则罗伦次曲线正好就变成了正方形的对角线。比较图2.5.1和图2.5.2,可以看出该地区1999年农户家庭经营性纯收入的部门集中化程度高于2004年。 集中化指数集中化指数,是一个描述地理数据分布的集中化程度的指数。 假若罗伦次曲线的解析式
25、为:显然,该曲线下方区域的面积为:当数据均匀分布时,A就变成了对角线以下三角形的面积(R);当数据集中于一点时,A就变成了整个正方形的面积(M)。(2.5.3)The Lorenz Curve10001005050Cumulative % of XCumulative % of YPerfect equality lineLorenz curvePerfect inequality lineAB显然,I越大,就说明数据分布的集中化程度越高;反之,I越小,就说明数据分布的集中化程度越低(越均衡)。常采用如下近似取值方法:A实际数据的累计百分比总和R均匀分布时的累计百分比总和M集中分布时的累计百分
26、比总和 集中化指数在0,1区间上取值。只有数据的个数相同而且横坐标划分一致时,才有可比性。 在罗伦兹曲线图上,将x轴分成10等份,分点分别为L1,L2,L3L10,由每一个分点作y轴平行线,交罗伦兹曲线于 M1,M2,M3 M10 ;由交点M1,M2,M3 M10做x轴平行线交y轴C1,C2,C3, C10, C=C1+C2+C3+C10当洛仑兹曲线和对角线完全重合时,C=10+20+100=550,I=0;当洛仑兹曲线与对角线完全偏离时,C=100+100+100=1000,I=1。因此,集中化指数可以测度洛仑兹曲线偏离对角线的程度。目前很多学者利用罗伦兹曲线和基尼系数分析和度量收入、健康、
27、贫困、财富等的区域不平等性Inequalities。作图法求集中化指数L2L4L6L8L10O20406080100工业总产值累积百分比(%)选定工业部门产值累积百分比(%)XL1L3L5L7L9M2M4M6M8M10M1M3M5M7M9C2C4C6C8C10C1C3C5C7C9集中化指数基尼系数 基尼系数(Gini coefficient),就是通过两组数据的对比分析,纵、横坐标均以累计百分比表示,从而做出罗伦次曲线,然后再计算得出的集中化指数。它是通过对人口和收入两组数据进行比较分析,然后将纵、横坐标均以累计百分比表示,作出罗伦次曲线,再计算集中化指数而得到的一个判断收入分配不平等程度的指
28、标。其原理方法如下:列出每一个区域(部门)的人口与收入占全区(各部门总计)的比重p与w;计算每一区域(部门)的比率w/p;根据w/p值,由小到大将每一地区(部门)排序;按照上述顺序分别计算p和w的累计值X和Y;以X为横坐标,以Y为纵坐标,在直角坐标系中依次连接各点,得到一条下凸的罗伦次曲线。基尼系数(G)就可以按照如下公式计算: 假若罗伦次曲线的解析式为:显然,该曲线下方区域的面积为:对应于绝对均衡分布,其罗伦次曲线就是正方形的对角线,其下方区域的面积为R=1/2。(2.5.6)根据中国大陆19782002年各省(直辖市、自治区)的人口数和按照可比价格折算的GDP数据,计算基尼系数,结果如下图
29、。可以看出,在19781990年期间,基尼系数虽然出现过几次上升和下降的微小波动,但基本趋势是缓慢地下降的;而在19912002年期间,基本上呈现上升趋势。这一结论,与上节计算的加权变异系数是相互印证的。 图2.5.4 19782002年中国大陆省际收入差异的基尼系数 EXCEL演示联合国有关组织规定: 若低于0.2表示收入绝对平均;0.2-0.3表示比较平均;0.3-0.4表示相对合理;0.4-0.5表示收入差距较大;0.6以上表示收入差距悬殊。锡尔系数 基尼系数(Gini coefficient),用于对经济发展、收入分配等均衡(不均衡)状况,进行定量化的描述。锡尔系数又称锡尔熵,有两个锡尔系数指标,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 玉溪师范学院《伴奏及自弹自唱》2022-2023学年第一学期期末试卷
- 盐城师范学院《移动终端开发技术课程设计》2021-2022学年期末试卷
- 2024配电柜合同模板
- 2024房屋维修施工合同范本
- 2024股东借款合同范文
- 2024花店劳务合同范本
- 年产1200吨车用尿素液、300吨车用玻璃水、500吨防冻液建设项目环评报告表
- 废处理循环利用、废旧轮胎粉碎项目环评报告表
- 3.5 万吨-年废矿物油利用装置能源系统改造及罐区扩建项目环评报告表
- 智研咨询-中国生物类似药行业市场集中度、市场运行态势及未来趋势预测报告(2025版)
- 净现值NPV分析和总结
- 国网基建各专业考试题库大全-质量专业-中(多选题汇总)
- 【信息技术 】计算机系统互联(第一课时)课件 2022-2023学年教科版(2019)高中信息技术必修2
- 300t双柱油压机拆装方案
- 中国湿疹诊疗指南
- LTC流程介绍完整版
- 饲料加工系统粉尘防爆安全规程
- 一年级上册美术课件-第11课-花儿寄深情-▏人教新课标
- 植物的象征意义
- 夏商周考古课件 第5章 西周文化(1、2节)
- GB/T 1231-1991钢结构用高强度大六角头螺拴、大六角螺母、垫圈技术条件
评论
0/150
提交评论