第二章地理数据的类型_第1页
第二章地理数据的类型_第2页
第二章地理数据的类型_第3页
第二章地理数据的类型_第4页
第二章地理数据的类型_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第二章第二章 地理数据及其采集与预处理地理数据及其采集与预处理 本章内容提要:本章内容提要: 地理数据的类型地理数据的类型地理数据的基本特征地理数据的基本特征地理数据的采集与处理地理数据的采集与处理地理数据的统计处理地理数据的统计处理地理数据分布的集中化与均衡度指数地理数据分布的集中化与均衡度指数 2.1 2.1 地理数据的类型地理数据的类型空间数据:空间数据:用于描述地理实体、地理要素、地理现用于描述地理实体、地理要素、地理现象、地理事件及地理过程产生、存在和发展的地理象、地理事件及地理过程产生、存在和发展的地理位置、区域范围及空间联系。位置、区域范围及空间联系。属性数据:属性数据:用于描述

2、地理实体、地理要素、地理现用于描述地理实体、地理要素、地理现象、地理事件、地理过程的有关属性特征。象、地理事件、地理过程的有关属性特征。 1 1、点、点由一个独立的坐标点(由一个独立的坐标点(x x,y y)定位,是空)定位,是空间上不可再分的几何实体间上不可再分的几何实体 4)角点、节点)角点、节点Vertex:表示线段和弧段上的连接表示线段和弧段上的连接点。点。 1)实体点:用来代表一个实体。)实体点:用来代表一个实体。2)注记点:用于定位注记。)注记点:用于定位注记。3)内点:用于负载多边)内点:用于负载多边形的属性,存在于多边形的属性,存在于多边形内。形内。空间数据的表达:空间数据的表

3、达:2 2、线、线由若干个(至少两个,理论上是无穷个)坐由若干个(至少两个,理论上是无穷个)坐标点(标点(xixi,yiyi)()(i =1i =1,2 2,)定义,有一定的长度)定义,有一定的长度和走向,表示线状地物或点实体之间的联系和走向,表示线状地物或点实体之间的联系 1)实体长度:)实体长度:从起点到终点的总长从起点到终点的总长2)弯曲度:)弯曲度:用于表示像道路拐弯时弯曲的程度。用于表示像道路拐弯时弯曲的程度。3)方向性:)方向性:如:水流方向,上游如:水流方向,上游下游,下游, 公路,单、双向之分。公路,单、双向之分。线状实体包括:线状实体包括:线段,边界、链、弧段、网络等。线段,

4、边界、链、弧段、网络等。3 3、面面表示在空间上连续分布的地理景观或区域表示在空间上连续分布的地理景观或区域1)面积范围)面积范围 2)周长)周长3)独立性或与其它地物相邻)独立性或与其它地物相邻如中国及其周边国家如中国及其周边国家4)内岛屿或锯齿状外形:)内岛屿或锯齿状外形:如岛屿的海岸线封闭所围成的区域。如岛屿的海岸线封闭所围成的区域。5)重叠性与非重叠性:)重叠性与非重叠性: 如学校的分区,菜市场的服务范围如学校的分区,菜市场的服务范围等都有可能出现交叉重叠现象,而一等都有可能出现交叉重叠现象,而一个城市的各个城区一般说来不会出现个城市的各个城区一般说来不会出现重叠。重叠。 是对湖泊、岛

5、屿、地块等一类现象的描述。由是对湖泊、岛屿、地块等一类现象的描述。由一封闭曲线加内点一封闭曲线加内点来表示。来表示。4、点、线、面之间的拓扑关系、点、线、面之间的拓扑关系 点点线线面面地域类型地域类型网络网络地带地带区域区域南川市 南川市 李渡区 李渡区 长寿县 长寿县 垫江县 垫江县 渝中区 渝中区 丰都县 丰都县 彭水苗族土家族自治县 彭水苗族土家族自治县 南岸区 南岸区 沙坪坝区 沙坪坝区 江北区 江北区 九龙坡区 九龙坡区 大渡口区 大渡口区 巴南区 巴南区 江津市 江津市 隆昌县 隆昌县 安岳县 安岳县 潼南县 潼南县 大足县 大足县 荣昌县 荣昌县 永川市 永川市 武胜县 武胜县

6、合川市 合川市 渝北区 渝北区 邻水县 邻水县 石柱土家族自治县 石柱土家族自治县 忠县 忠县 武隆县 武隆县 华蓥市 华蓥市 铜梁县 铜梁县 璧山县 璧山县 北碚区 北碚区 双桥区 双桥区 0.07.5 15.0 22.5 30.0 37.5 km区县区划图区县区划图河流河流机场机场区县界线区县界线主要公路主要公路县区政府驻地县区政府驻地属性数据的类型:属性数据的类型:(一)数量标志数据(一)数量标志数据 间隔尺度数据间隔尺度数据: :以有量纲的数据形式表示测度对象在某以有量纲的数据形式表示测度对象在某种单位种单位( (量纲量纲) )下的绝对量。下的绝对量。 年平均气温年平均气温(C C)

7、年降水量年降水量(mmmm) 土地面积土地面积(haha) 人口人口(人)(人) 国内生产总值国内生产总值(万元)(万元)区域区域1 1 8.0 8.0 500.2 500.2 245.6 245.6 1210 1210 2678.28 2678.28 区域区域2 2 7.67.6498.6498.61064.1064.102310232015.472015.47区域区域3 36.56.5550.9550.9894.3894.38488481754.561754.56区域区域4 48.58.5586.4586.4668.7668.76546541365.461365.46年年 份份199619

8、97199819992000耕地复种指数耕地复种指数120.40113.56126.54132.76121.43农业发展指数农业发展指数100115.68124.50135.69129.56 比例尺度数据比例尺度数据: :以无量纲的数据形式表示测度对象的相对量。以无量纲的数据形式表示测度对象的相对量。(二)品质标志数据(二)品质标志数据 有序数据有序数据: :当测度标准不是连续的量,只是表示其顺序关系当测度标准不是连续的量,只是表示其顺序关系的数据。的数据。 城市城市A城市城市B城市城市C城市城市D城市城市E城市城市F规模等级规模等级123443人口位次人口位次12465 3表表2.1.3 城

9、市等规模等级与人口数量的排位次城市等规模等级与人口数量的排位次 二元数据二元数据: :用用0 0、1 1两个数据表示地理事物、地理现象或两个数据表示地理事物、地理现象或地理事件的是非判断问题。地理事件的是非判断问题。城市城市A城市城市B城市城市C城市城市D城市城市E城市城市A1101城市城市B1110城市城市C1110城市城市D0111城市城市E1001表表2.1.4 二元数二元数据据其中其中: :1 1表示两城市之间通航表示两城市之间通航0 0表示两城市之间不通航表示两城市之间不通航名义尺度数据名义尺度数据: :用数字表示地理实体、地理要素、用数字表示地理实体、地理要素、地理现象或地理事件的

10、状态类型地理现象或地理事件的状态类型地块序列号地块序列号12345 6土地利用类型土地利用类型1315211414 31表表2.1.5 土地利用类型土地利用类型2.2 2.2 地理数据的基本特征地理数据的基本特征 数量化、形式化与逻辑化数量化、形式化与逻辑化 不确定性不确定性 多种时空尺度多种时空尺度 多维性多维性 数量化、形式化与逻辑化的几个方面数量化、形式化与逻辑化的几个方面: :定量化的地理数据是建立地理数学模型的基础,作用:定量化的地理数据是建立地理数学模型的基础,作用:确定模型的参数、给定模型运行的初值条件;确定模型的参数、给定模型运行的初值条件; 检验模型的有效性。检验模型的有效性

11、。形式化、逻辑化与数量化,是所有地理数据的共同特征。形式化、逻辑化与数量化,是所有地理数据的共同特征。地理计算学,对于地理数据的形式化、逻辑化提出了更高地理计算学,对于地理数据的形式化、逻辑化提出了更高的要求,要求的要求,要求“整体整体”和和“大容量大容量”的地理数据具有统一的地理数据具有统一的数据形式和交换标准。的数据形式和交换标准。地理数据不确定性的来源:地理数据不确定性的来源:地理系统本身的复杂性从本质上决定着地理地理系统本身的复杂性从本质上决定着地理数据的不确定性。数据的不确定性。各种原因所导致的数据误差。各种原因所导致的数据误差。地理数据的多时空尺度:地理数据的多时空尺度:从空间尺度

12、上来看从空间尺度上来看,描述地理区域的各种地理数据,具有,描述地理区域的各种地理数据,具有多种空间尺度多种空间尺度既有全球尺度的、洲际尺度的、国家尺度既有全球尺度的、洲际尺度的、国家尺度的,也有流域尺度的、地区尺度的、城市尺度的、社区尺的,也有流域尺度的、地区尺度的、城市尺度的、社区尺度的。度的。从时间尺度上来看从时间尺度上来看,描述地理过程的各种地理数据具有多,描述地理过程的各种地理数据具有多种时间尺度,如历史年代、天、月、季度、年等。种时间尺度,如历史年代、天、月、季度、年等。 多维性多维性 空间方面,空间方面,描述该地理对象所处的地理位置和空间范围,一般描述该地理对象所处的地理位置和空间

13、范围,一般需要需要23个变量个变量 ;属性方面,属性方面,描述该地理对象的具体内容,至少需要描述该地理对象的具体内容,至少需要1个以上,个以上,多则需要十几个、甚至几十个变量多则需要十几个、甚至几十个变量 ;时间方面,时间方面,描述该地理对象产生、发展和存在的时间范围描述该地理对象产生、发展和存在的时间范围 ,需要需要1个变量个变量 ;地理数据的这种多维性,被人们描述为地理数据立方体(地理数据的这种多维性,被人们描述为地理数据立方体(The Geographical Data Cube)。)。地理数据立方体地理数据立方体2.3 2.3 地理数据的采集与处理地理数据的采集与处理地理数据的采集地理

14、数据的采集 地理数据处理地理数据处理 现实世界现实世界文字报告、文字报告、遥感图象遥感图象等等数据源数据源? ?一、地理数据的采集一、地理数据的采集 地理数据的渠道来源地理数据的渠道来源 : 来自于来自于观测、测量部门观测、测量部门的有关专业数据。的有关专业数据。 来自于来自于统计年鉴、统计公报统计年鉴、统计公报中的有关自然资源中的有关自然资源及社会经济发展数据。及社会经济发展数据。 来自于有关单位或个人的不定期的来自于有关单位或个人的不定期的典型调查数典型调查数据、抽样调查数据据、抽样调查数据。 来自于来自于政府公报、政府文件政府公报、政府文件中的有关数据。中的有关数据。 来自于来自于档案、

15、图书档案、图书等文献资料中的有关数据。等文献资料中的有关数据。 来自于来自于互联网互联网(Internet)的有关共享数据。)的有关共享数据。 地图图件地图图件。主要包括各种比例尺的地形图、影像。主要包括各种比例尺的地形图、影像地图、专题地图等。地图、专题地图等。 遥感数据遥感数据。主要包括各种航空遥感数据和卫星遥。主要包括各种航空遥感数据和卫星遥感数据。感数据。 其它来源的有关数据。其它来源的有关数据。采集地理数据的过程中需要注意的问题:采集地理数据的过程中需要注意的问题: 数据的数据的完备性和可靠性。完备性和可靠性。 在数据采集过程中,最大限度地在数据采集过程中,最大限度地减小数据减小数据

16、的误差的误差。 在数据采集完毕后,进行检验,进行比较、在数据采集完毕后,进行检验,进行比较、辨别真伪,通过辨别真伪,通过数据筛选数据筛选,去粗存精、去伪,去粗存精、去伪存真。存真。二、地理数据处理二、地理数据处理 地理数据处理,是所有地理问题研究的核心环节,需地理数据处理,是所有地理问题研究的核心环节,需要运用数学方法。要运用数学方法。地理数据处理是地理信息系统的核心功能。地理数据处理是地理信息系统的核心功能。地理计算学(地理计算学(Geocomputation)的实质是借助于现代)的实质是借助于现代化的计算理论、计算方法和计算技术,通过对化的计算理论、计算方法和计算技术,通过对“整体整体”和

17、和“大容量大容量”的地理数据进行处理,揭示复杂地理系的地理数据进行处理,揭示复杂地理系统的运行机制,探索和寻求新的地理系统理论。统的运行机制,探索和寻求新的地理系统理论。 地理数据的采集、处理及其与数学方法、地地理数据的采集、处理及其与数学方法、地理信息系统、地理计算学之间的相互关系图理信息系统、地理计算学之间的相互关系图: : 地地理理数数据据的的数数据据源源地地理理数数据据采采集集数学方法数学方法GISGeocomputation地理地理处理处理数据数据2.4 2.4 地理数据的统计处理地理数据的统计处理统计整理统计整理几种常用的统计指标与参数几种常用的统计指标与参数变异系数的一个应用实例

18、:变异系数的一个应用实例:中国经济发展水平的省际差异分析中国经济发展水平的省际差异分析 1.1.统计整理的基本步骤统计整理的基本步骤: :统计分组统计分组计算各组数据的频数、频率,编计算各组数据的频数、频率,编制统计分组表制统计分组表作分布图作分布图 例例:对于黄土高原西部地区某山区县的人工造林地调查数据对于黄土高原西部地区某山区县的人工造林地调查数据, ,步骤如下步骤如下: :以地块面积作为统计分组标志进行分组以地块面积作为统计分组标志进行分组; ;计算各组数据的频数、频率,编制成如下的统计分组表(表计算各组数据的频数、频率,编制成如下的统计分组表(表2.4.12.4.1)分组序号分组序号1

19、234567891011分组标志分组标志 (0,1(1,2(2,3(3,4(4,5(5,6(6,7(7,8(8,9(9,10(10,11)组组 中中 值值 0.51.52.53.54.55.56.57.58.59.510. 5频频 数数 25961362142532862602031548524频频 率率1.445.537.8312.314.5716.4714.9811.698.874.901.38向上累计频向上累计频 数数25121257471724101012701473162717121736向下累计频向下累计频 数数 1736171116151479126510127264662631

20、0924做出频数分布的直方图做出频数分布的直方图 : :050100150200250300350(0,1(1,2(2,3(3,4(4,5(5,6(6,7(7,8(8,9(9,10(10,11)将上图各组的频数分布从组中值位置用折线连接起来,得将上图各组的频数分布从组中值位置用折线连接起来,得到频数分布的曲线图到频数分布的曲线图: : 0501001502002503003500.5 1.5 2.5 3.5 4.5 5.5 6.5 7.5 8.5 9.5 10.52.2.几种常用的统计指标与参数几种常用的统计指标与参数描述地理数据一般水平的指标描述地理数据一般水平的指标描述地理数据分布的离散程

21、度的指描述地理数据分布的离散程度的指标标描述地理数据分布特征的参数描述地理数据分布特征的参数描述地理数据一般水平的指标描述地理数据一般水平的指标平均值平均值 ,反映了地理数据一般水平。计算方法:反映了地理数据一般水平。计算方法: 未分组的地理数据未分组的地理数据 分组的地理数据分组的地理数据 niixnx11miimiiifxfx11(2.4.1)(2.4.2)第第i组的频数组的频数第第i组的组中值组的组中值第第i组的频数组的频数样本的个数样本的个数组数组数描述地理数据描述地理数据一般水平一般水平的指标的指标中位数中位数 对于未分组的地理数据,样本数对于未分组的地理数据,样本数n为为奇数奇数时

22、,中位数是时,中位数是位置排在第位置排在第(n+1)/2位的数据位的数据;样本数;样本数n为为偶数偶数时,时,中位数是排在中位数是排在中间位置的两个数据平均值中间位置的两个数据平均值。 分组的地理数据,中位数的计算步骤分组的地理数据,中位数的计算步骤 : : A A、确定中位数所在的组位置(以总频数、确定中位数所在的组位置(以总频数/2/2判定)判定) B B、按下述公式按下述公式计算中位数计算中位数: : mmniiefSfdLM1121或mmniiefSfdUM1121(2.4.3)(2.4.4)中位数组中位数组的的下限下限中位数组中位数组的的上限上限总频数的一半总频数的一半中位数所在组以

23、中位数所在组以下下的累积频数的累积频数中位数组的频数中位数组的频数中位数所在组以中位数所在组以上上的累积频数的累积频数众数众数: :众数就是出现频数最多的那个数众数就是出现频数最多的那个数 未分组的地理数据:根据每一个数据出现的频数大小未分组的地理数据:根据每一个数据出现的频数大小直接确定众数。直接确定众数。 对于已经分组的地理数据对于已经分组的地理数据: : a. a.频数最多的组频数最多的组为众数所在组。为众数所在组。 b.b.按以下公式按以下公式计算众数计算众数: : 2110dLM2120dUM或(2.4.5)(2.4.6)众数组频数与众数组频数与下下一组频数之差一组频数之差众数组频数

24、与众数组频数与上上一组频数之差一组频数之差众数组的下限众数组的下限众数组的上限众数组的上限例例1 1:下表给出了某农场各农田地块的面积,试计算其平均值、中位数和众数。:下表给出了某农场各农田地块的面积,试计算其平均值、中位数和众数。 应按照未分组数据计算其平均值、中位数和众数,计应按照未分组数据计算其平均值、中位数和众数,计算结果见上表最后三列。算结果见上表最后三列。 地块编地块编号号 123456789101112平均平均值值中位中位数数众数众数面积面积(ha) 128350355550724085296575 54.25 52.550例例2:下表给出了中国西部地区某城市下表给出了中国西部地

25、区某城市2000年家庭月收入的年家庭月收入的抽样调查结果,试计算其平均值、中位数和众数。抽样调查结果,试计算其平均值、中位数和众数。家庭月收入分组家庭月收入分组(元)(元)户数户数向上累计频数向上累计频数向下累计频数向下累计频数20003000300300 21303000400013001600183040005000200180053050006000150195033060007000100205018070008000502100808000900030213030合合 计计2130解题步骤解题步骤: :(1)用公式)用公式(2.4.22.4.2)计算平均数计算平均数: (2)计算中位

26、数。先确定中位数所在组的位置,落在第)计算中位数。先确定中位数所在组的位置,落在第二组二组 10652171iif)(06.3899)308500507500100650015055002004500130035003002500(21301元x家庭月收入分组家庭月收入分组(元)(元)户数户数向上累计频数向上累计频数向下累计频数向下累计频数20003000300300 21303000400013001600183040005000200180053050006000150195033060007000100205018070008000502100808000900030213030合合 计

27、计213010652171iif家庭月收入分组家庭月收入分组(元)(元)户数户数向上累计频数向上累计频数向下累计频数向下累计频数20003000300300 21303000400013001600183040005000200180053050006000150195033060007000100205018070008000502100808000900030213030合合 计计213010652171iif下下上上1mS1mS解题步骤解题步骤: :(2)计算中位数。先确定中位数所在组的位置,落在第)计算中位数。先确定中位数所在组的位置,落在第二组二组 再按照再按照(2.4.32.4.3

28、)计算中位数计算中位数 或者按或者按(2.4.42.4.4)计算中位数。计算中位数。)(46.35881000130030010653000元eM)(46.35881000130053010654000元eM(3)计算)计算众数众数。首先确定众数所在组。显然,众数所在组。首先确定众数所在组。显然,众数所在组应该在第二组。应该在第二组。家庭月收入分组(元)家庭月收入分组(元)户数户数向上累向上累计频数计频数向下累计频数向下累计频数20003000300300 213030004000130016001830400050002001800530500060001501950330600070001

29、00205018070008000502100808000900030213030合合 计计2130下下上上3001300120013002(3)计算)计算众数众数。首先确定众数所在组。显然,众数所。首先确定众数所在组。显然,众数所在组应该在第二组。在组应该在第二组。再按照公式再按照公式(2.4.52.4.5)计算众数计算众数或者按照公式或者按照公式(2.4.62.4.6)计算众数。计算众数。)(19.347610002001300300130030013003000元)()(Mo)(19.34761000)2001300()3001300(20013004000元Mo描述地理数据分布的离散程

30、度的指标描述地理数据分布的离散程度的指标: :极差,极差,指所有数据中最大值与最小值之差指所有数据中最大值与最小值之差: :离差,离差,指每一个地理数据与平均值的差,计算公式为:指每一个地理数据与平均值的差,计算公式为:离差平方和离差平方和。它从总体上衡量一组地理数据与平均值。它从总体上衡量一组地理数据与平均值的离散程度,其计算公式为的离散程度,其计算公式为: :minmaxiiiixxRxxdii212)(niixxd (2.4.9) (2.4.8) (2.4.7) 方差与标准差方差与标准差,从平均概况衡量一组地理数据与平均,从平均概况衡量一组地理数据与平均值的离散程度。方差计算公式为值的离

31、散程度。方差计算公式为: 标准差为方差的平方根标准差为方差的平方根,计算公式为,计算公式为:如果以样本方差对标准差进行如果以样本方差对标准差进行无偏估计无偏估计,则计算公式为,则计算公式为: :nixixn12)(12(2.4.10)niixxn12)(1(2.4.11) 1)(12nxxSnii(2.4.12) 自然资源条件的好坏,还有一个空间组合问题。一个地自然资源条件的好坏,还有一个空间组合问题。一个地区各类自然资源的组合状况,可以用区各类自然资源的组合状况,可以用“组合指数组合指数”表示,表示,用用“标准差标准差”计算。假定计算。假定y1 、y2 、y3、 y4 、y5分别表示五分别表

32、示五类自然资源量占全国的比例,则平均值为:类自然资源量占全国的比例,则平均值为: 标准差值大,说明地区各类自然资源占全省比例畸大或标准差值大,说明地区各类自然资源占全省比例畸大或畸小,组合状况较差,配套能力弱;相反,标准差小,说畸小,组合状况较差,配套能力弱;相反,标准差小,说明组合状况好,有利于地区综合发展。明组合状况好,有利于地区综合发展。2/12i54321/)yy(5/ )(/nyyyyynyyi标准差实例实例: 假定自然资源分解为矿产资源、能源资源、水资源、假定自然资源分解为矿产资源、能源资源、水资源、光热资源、耕地资源五大类,光热资源、耕地资源五大类,变异系数,变异系数,表示了地理

33、数据的相对变化(波动)程度,表示了地理数据的相对变化(波动)程度,其计算公式其计算公式:%1001)(1%10012nxxxxSCniiv(2.4.13)例如:例如:对于下表中的数据,分别计算极差、离差、离差平方对于下表中的数据,分别计算极差、离差、离差平方和、方差、标准差、标准差的无偏估计,以及变异系数。和、方差、标准差、标准差的无偏估计,以及变异系数。 序序号号123456789101112128350355550724085296575-42.25 28.75-4.25 -19.25 0.75 -4.25 17.75-14.25 30.75-25.25 10.7520.75 步骤步骤 :

34、n按照公式(按照公式(2.4.7)计算极差:)计算极差:n按照公式(按照公式(2.4.8)计算离差,结果见下表。)计算离差,结果见下表。 731285R地块地块编号编号 123456789101112平均平均值值中位中位数数众众数数面积面积(ha) 12835035555072408529657554.2552.550按照公式(按照公式(2.4.9)计算离差平方和)计算离差平方和: : 按照公式(按照公式(2.4.10)计算方差:)计算方差: 按照公式(按照公式(2.4.11)计算标准差:)计算标准差: 按照公式(按照公式(2.4.12)计算标准差的无偏估计:)计算标准差的无偏估计: 按照公式

35、(按照公式(2.4.13)计算变异系数:)计算变异系数: 25.56661212iidd19.47212112122id73.2119.4722696.22112dS24184. 0%100 xSCv描述地理数据分布特征的参数描述地理数据分布特征的参数 偏度系数,偏度系数,测度地理数据分布的不对称性情况,刻画以平均值为测度地理数据分布的不对称性情况,刻画以平均值为中心的偏向情况,计算公式为:中心的偏向情况,计算公式为: g10,表示正偏,即均,表示正偏,即均值在峰值的右边;值在峰值的右边;g1 =0,表示对称分布。,表示对称分布。 3111niixxng图图2.4.3 2.4.3 偏度系数的三

36、种情形偏度系数的三种情形)(xf0g10g1xxxxxx(2.4.14))(xf)(xf0g1峰度系数。峰度系数。它测度了地理数据在均值附近的集中程度,其计算公它测度了地理数据在均值附近的集中程度,其计算公式为式为 标准正态分布的峰度系数标准正态分布的峰度系数g2 =0;g20,表示地理数据分布的集中,表示地理数据分布的集中程度高于正态分布;程度高于正态分布;g20,表示地理数据分布的集中程度低于正,表示地理数据分布的集中程度低于正态分布(见下图)。态分布(见下图)。 niixxng14231图图2.4.4 标准峰度系数的三种情形标准峰度系数的三种情形(2.4.15)3. 3. 实例:实例:中

37、国大陆省份人均中国大陆省份人均GDP的变异系数的变异系数 为了分析中国大陆省际经济发展的相对差异及其演化过程,我为了分析中国大陆省际经济发展的相对差异及其演化过程,我们首先把们首先把1978197820022002年各省(直辖市、自治区)的年各省(直辖市、自治区)的GDPGDP数,按照可数,按照可比价格进行折算,再除以人口数,计算出按照可比价衡量的人均比价格进行折算,再除以人口数,计算出按照可比价衡量的人均GDPGDP数据,然后再用公式(数据,然后再用公式(2.4.132.4.13)式计算变异系数,结果如下图。)式计算变异系数,结果如下图。0.64000.66000.68000.70000.7

38、2000.74000.76001978198019821984198619881990199219941996199820002002从图中可以看出,在从图中可以看出,在19782002年期间,人均年期间,人均GDP的变异系数,以的变异系数,以1990年为转折点,呈现出一个年为转折点,呈现出一个U形曲线。即:人均形曲线。即:人均GDP的变异系数,在的变异系数,在19781990年期间基本上呈现下降趋势,而在年期间基本上呈现下降趋势,而在19902002年期间则基本上呈现上升趋势。这说明,在年期间则基本上呈现上升趋势。这说明,在19781990年期间,中国大陆省际经济发展水平的年期间,中国大陆省

39、际经济发展水平的相对差异,基本上呈缩小趋势,而相对差异,基本上呈缩小趋势,而19902001年期年期间则基本上呈扩大趋势。这一变化与国家宏观经济政间则基本上呈扩大趋势。这一变化与国家宏观经济政策变动的时间、趋势大体一致。策变动的时间、趋势大体一致。 2.5 2.5 地理数据分布的集中化地理数据分布的集中化与均衡度指数与均衡度指数 一、洛伦兹曲线与集中化指数一、洛伦兹曲线与集中化指数 二、基尼系数二、基尼系数 三、锡尔系数三、锡尔系数 (1)洛伦兹曲线洛伦兹曲线 20 20世纪初,意大利统计学家洛伦兹(世纪初,意大利统计学家洛伦兹(M. LorenzM. Lorenz),),首先使用累计频率曲线

40、研究工业化的集中化程度。后首先使用累计频率曲线研究工业化的集中化程度。后来,这种曲线就被称之为洛伦兹曲线。来,这种曲线就被称之为洛伦兹曲线。 一、洛伦兹曲线与集中化指数1种植业种植业2735.9342.821645.5356.732林业林业143.572.2579.662.753畜牧业畜牧业660.6110.34390.2413.454渔业渔业220.673.4574.122.565工业工业441.576.91167.385.776建筑业建筑业163.952.5744.551.547运输业运输业516.878.09150.885.208商饮服务商饮服务业业1112.7217.42211.627

41、.309其它其它393.166.15136.74.71部部门门代代码码产业部门产业部门20041999收入收入(元)(元)占总收入的占总收入的比重比重(%)收入收入(元)(元)占总收入的比占总收入的比重重(%)合合计计家庭经营家庭经营纯收入纯收入6389.051002900.68100表表2.5.1 某地区农户家庭经营性纯收入水平及其构成某地区农户家庭经营性纯收入水平及其构成 部门代码收入(元)占总收入比重(%)12735.9342.82 2143.572.25 3660.6110.34 4220.673.45 5441.576.91 6163.952.57 7516.878.09 81112

42、.7217.42 9393.166.15 合计6389.05(1 1)从)从20042004年数据为例,依据占总收入比重(百分年数据为例,依据占总收入比重(百分比)将各产业部门从大到小重新排序;比)将各产业部门从大到小重新排序;部门代码收入(元)占总收入比重(%)12735.9342.82 81112.7217.42 3660.6110.34 7516.878.09 5441.576.91 9393.166.15 4220.673.45 6163.952.57 2143.572.25 合计6389.05(2 2)从大到小,逐次计算累计百分比;部门代码收入(元)占总收入比重(%)累积比重(%)1

43、2735.9342.82 42.82 81112.7217.42 60.24 3660.6110.34 70.58 7516.878.09 78.67 5441.576.91 85.58 9393.166.15 91.73 4220.673.45 95.19 6163.952.57 97.75 2143.572.25 100.00 合计6389.05部门代码均匀分布各部门比重(%)累积比重(%)集中分布各部门比重(%)累积比重(%)111.11 11.11 100.00 100.00 811.11 22.22 0.00 100.00 311.11 33.33 0.00 100.00 711.1

44、1 44.44 0.00 100.00 511.11 55.56 0.00 100.00 911.11 66.67 0.00 100.00 411.11 77.78 0.00 100.00 611.11 88.89 0.00 100.00 211.11 100.00 0.00 100.00 合计图2.5.1 1999年农户家庭经营性纯收入构成的洛伦兹曲线图2.5.2 2004年农户家庭经营性纯收入构成的洛伦兹曲线 (3 3)以自然序号为横坐标(x),累计百分比为纵坐标(y);以(部门代码,累计百分比)为坐标点,连成一个上凸的曲线结果分析:结果分析:洛伦兹曲线的上凸程度,就表示农户家庭经营性纯收

45、入的洛伦兹曲线的上凸程度,就表示农户家庭经营性纯收入的部门集中化程度。上凸程度越大,就表示农户家庭经营性部门集中化程度。上凸程度越大,就表示农户家庭经营性纯收入越是集中于某些产业部门。纯收入越是集中于某些产业部门。如果各个产业部门的收入是均等的,则洛伦兹曲线正好就如果各个产业部门的收入是均等的,则洛伦兹曲线正好就变成了正方形的对角线。变成了正方形的对角线。比较图比较图2.5.12.5.1和图和图2.5.22.5.2,可以看出该地区,可以看出该地区19991999年农户家庭年农户家庭经营性纯收入的部门集中化程度高于经营性纯收入的部门集中化程度高于20042004年。年。 (2)集中化指数集中化指

46、数集中化指数,是一个描述地理数据分布的集中化程集中化指数,是一个描述地理数据分布的集中化程度的指数。度的指数。 RMRAInXXfY, 2 , 1 , 0)(dXXfAn0)(n假若洛伦兹曲线的解析式为:假若洛伦兹曲线的解析式为:n显然,该曲线下方区域的面积为:显然,该曲线下方区域的面积为:n当数据均匀分布时,当数据均匀分布时,A A就变成了对角线以下三角形的面积就变成了对角线以下三角形的面积(R R);当数据集中于一点时,);当数据集中于一点时,A A就变成了整个正方形的面积就变成了整个正方形的面积(M M)(2.5. 3)MRAA-RM-R显然,显然,I I越大,就说明数据分布的集中化程度

47、越高;反之,越大,就说明数据分布的集中化程度越高;反之,I I越越小小,就说明数据分布的集中化程度越低(越均衡)。,就说明数据分布的集中化程度越低(越均衡)。常采用如下近似取值方法:常采用如下近似取值方法:A A实际数据的累计百分比总和实际数据的累计百分比总和R R均匀分布时的累计百分比总和均匀分布时的累计百分比总和M M集中分布时的累计百分比总和集中分布时的累计百分比总和 集中化指数在集中化指数在 0 0,11区间上取值。区间上取值。只有数据的个数相同而且横坐标划分一致时,才有可比性。只有数据的个数相同而且横坐标划分一致时,才有可比性。 二、基尼系数二、基尼系数 基尼系数(基尼系数(Gini

48、 coefficientGini coefficient),就是通过两),就是通过两组数据的对比分析,纵、横坐标均以累计百分组数据的对比分析,纵、横坐标均以累计百分比表示,从而做出洛伦兹曲线,然后再计算得比表示,从而做出洛伦兹曲线,然后再计算得出的集中化指数。它是通过对人口和收入两组出的集中化指数。它是通过对人口和收入两组数据进行比较分析,然后将纵、横坐标均以累数据进行比较分析,然后将纵、横坐标均以累计百分比表示,作出洛伦兹曲线,再计算集中计百分比表示,作出洛伦兹曲线,再计算集中化指数而得到的一个判断收入分配不平等程度化指数而得到的一个判断收入分配不平等程度的指标。的指标。原理方法如下:原理方

49、法如下:列出每一个区域(部门)的人口与收入占全区(各部门总列出每一个区域(部门)的人口与收入占全区(各部门总计)的比重计)的比重p p与与w w;计算每一区域(部门)的比率计算每一区域(部门)的比率w/pw/p;根据根据w/pw/p值,由小到大将每一地区(部门)排序;值,由小到大将每一地区(部门)排序;按照上述顺序分别计算按照上述顺序分别计算p p和和w w的累计值的累计值X X和和Y Y;以以X X为横坐标,以为横坐标,以Y Y为纵坐标,在直角坐标系中依次连接各为纵坐标,在直角坐标系中依次连接各点,得到一条下凸的洛伦兹曲线。点,得到一条下凸的洛伦兹曲线。基尼系数(基尼系数(G G)就可以按照

50、如下公式计算:)就可以按照如下公式计算: dXXfXfG1010)(212/1)(2/1n假若洛伦兹曲线的解析式为:n显然,该曲线下方区域的面积为:n对应于绝对均衡分布,其洛伦兹曲线就是正方形的对角线,其下方区域的面积为R=1/2。dXXfA10)( 1 , 0)(XXfY(2.5.6)如果用幂函数拟合,则基尼系数的近似计算公式为:如果用幂函数拟合,则基尼系数的近似计算公式为: n式中:可以通过最小二乘法(详见第3章)拟合,即:11GkiiikiiXYX121)(ln)ln(ln(2.5.7)对于分组数据,基尼系数也可以按照如下方法近似地计对于分组数据,基尼系数也可以按照如下方法近似地计算:算: 按人均收入由低到高进行排序,分成若干组(如果不分组

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论