第二章 地理系统与地理数据系统_第1页
第二章 地理系统与地理数据系统_第2页
第二章 地理系统与地理数据系统_第3页
第二章 地理系统与地理数据系统_第4页
第二章 地理系统与地理数据系统_第5页
已阅读5页,还剩98页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第二章地理系统与地理数据系统第二章地理系统与地理数据系统第一节第一节 地理系统的基本概念地理系统的基本概念第二节第二节 地理数据系统地理数据系统第三节第三节 地理数据的分布地理数据的分布 第一节第一节 地理系统的基本概念地理系统的基本概念系统的概念系统的概念系统的分类系统的分类地理区域系统及其特点地理区域系统及其特点一一 系统的概念系统的概念(一)系统的产生(一)系统的产生 20世纪20年代 奥地利生物学家路冯贝塔朗菲提出 (二)系统的概念(二)系统的概念1.1.贝塔朗菲的界定:贝塔朗菲的界定: 处于一定的相互作用关系中并与环境发生关系的的各组成部分(系统)的整体。2.2.流行概念:流行概念:

2、 由相互作用和相互依赖的若干组成部分结合而成的具有特定功能的整体。(三)地理系统(三)地理系统 地理系统是地球表面的岩石圈、水圈、大气圈、生物圈和人类活动相互作用的物质、能量和信息运动系统。 二二 系统的分类系统的分类(一)自然系统和人工系统(一)自然系统和人工系统 自然系统是由自然物组成的自然形成的系统。 人工生态系统是由人类创造、建立的系统。(二)实体系统和概念系统(二)实体系统和概念系统 实体系统是以物质实体为构成要素组成的系统。 概念系统是由概念、原理、原则、方法、制度、程序等概念性的非物质实体所构成的系统。(三)动态系统和静态系统(三)动态系统和静态系统 动态系统是指系统状态随时间会

3、发生变化的系统 静态系统的状态则不随时间而变化,是动态系统处于稳定时的一种极限状态(四)全球系统与区域系统(四)全球系统与区域系统 全球系统是指由整个地球构成的一个整体,由于研究常集中于地球表层,也成为地球表层系统。 区域系统是指组成一个国家或地区的要素或组成部分构成的整体,可一被认为是地球表层系统的一个子系统。三三 地理区域系统及其特点地理区域系统及其特点(一)地理区域系统的概念(一)地理区域系统的概念 地理区域系统是指特定区域范围内由若干子区域和部门组成的,包括人口、人才、经济、生态、资源、能源、交通、教育、卫生、管理和信息等各个方面的复杂的多层次的开放性动态系统。(二)地理区域系统的特点

4、(二)地理区域系统的特点 1.系统性、整体性、综合性 2.区域性、开放性、层次性 3.随机性、动态性 第二节第二节 地理数据系统地理数据系统地理数据的定义地理数据的定义地理数据类型地理数据类型地理数据的基本特征地理数据的基本特征地理数据的变换地理数据的变换一一 地理数据的定义地理数据的定义 所谓地理数据,就是用一定的测度方式描述和衡量地理对象的有关量化标志。二二 地理数据的类型(两大基本类型)地理数据的类型(两大基本类型)(一)空间数据(一)空间数据 1.1.空间数据的定义空间数据的定义 是指主要用于描述地理实体、地理要素、地理现象、地理事件及地理过程产生、存在和发展的地理位置、区域范围及空间

5、联系。坐标,是描述空间数据的基本手段,一般用经纬度坐标或公里网来表示。经度纬度济南117.3136.67青岛120.3636.09淄博118.0636.00枣庄117.5734.84东营118.0737.42烟台121.3536.54潍坊119.1136.70济宁116.3935.40泰安117.1336.18威海122.1237.47日照119.5435.39莱芜117.6736.20临沂118.3435.05德州116.3037.44聊城115.9836.44滨州118.0337.37菏泽115.4735.252.2.空间数据的表达空间数据的表达 一般,空间数据用来可表达点、线、面三种几何

6、实体以及描述它们之间空间联系的拓扑关系。(1 1)点:)点:由一个独立的坐标点(x,y)定位,是空间上不可再分的几何实体。它可以表示精确的地理位置点,也可以是一些地理实体的抽象, 例如,道路的交叉点、河流的交汇点、小比例尺地图上的城市,村镇 (2 2)线:)线:由若干个(至少两个,理论上是无穷个)坐标点(xi,yi)(i =1,2,)定义,有一定的长度和走向,表示线状地物或点实体之间的联系。 例如,交通线、河流及各种地理区域的界线等(3 3)面:)面:它表示在空间上连续分布的地理景观或区域。 例如,土壤或植被的分布区、居住区、行政区等(4 4)点、线、面之间的拓扑关系。 点点面面线线网络网络地

7、带地带地域类型地域类型网络(由点和线组合形成)、地域类型(由点和面网络(由点和线组合形成)、地域类型(由点和面组合形成)地带(点、线和面组合形成)组合形成)地带(点、线和面组合形成)(二)属性数据(二)属性数据1.1.属性数据的定义属性数据的定义 是指主要用于描述地理实体、地理要素、地理现象、地理事件及地理过程的属性特征的数据。2.2.属性数据的分类属性数据的分类 (1)数量标志数据数量标志数据:描述地理对象数量属性特征的数据。 间隔尺度(间隔尺度(interval scaleinterval scale)数据)数据 间隔尺度数据,是以有量纲有量纲的数据形式表示测度对象在某种单位(量纲)下的绝

8、对量。例如,以毫米为量纲表示某地的降水量,以某种货币量纲表示某地区的GDP等 1995 1996 1997 1998 1999 2000 济南 481.52 611.88 731.73 802.16 881.32 952.18 青岛 642.03 710.20 797.70 888.39 992.83 1150.07 淄博 404.54 469.00 498.80 522.21 568.00 642.20 枣庄 169.59 205.09 214.12 210.32 227.13 248.81 东营 229.26 259.07 300.18 310.69 330.84 465.11 烟台 57

9、5.70 650.31 725.00 740.00 800.66 879.59 潍坊 530.00 630.00 718.00 608.00 647.30 714.56 济宁 368.18 432.19 480.57 495.51 528.71 578.44 泰安 205.15 260.38 313.52 322.10 356.30 396.40 威海 336.72 407.12 477.59 470.00 500.80 560.89 日照 114.45 138.32 157.13 175.02 185.62 209.51 莱芜 64.55 75.4 84.02 93.27 99.1 110.

10、4 临沂 311.8 372.5 417.40 458.8 501.59 554.6 德州 184.39 223.35 267.87 285.40 312.00 360.30 聊城 164.45 198.02 217.67 235.39 253.65 280.83 滨州 151.83 184.33 206.20 223.11 238.12 270.02 菏泽 168.52 198.30 202.45 180.40 189.94 208.59 9500年山东省各地区的GDP (单位:人民币)比例尺度(比例尺度(ratio scaleratio scale)数据)数据。 比例尺度数据,是以无量纲无

11、量纲的数据形式表示测度对象的相对量。 这种数据要求事先规定一个基点,然后将其他同类数据与基点数据相比较,换算为基点数据的比例。因此,这类数据常又被称为指数或比例数。例如,耕地复种指数,工业发展指数、农用发展指数、GDP发展指数等注:耕地复种指数是指播种面积与耕地总面积之比 规定1996年农业产值为基数100 (2)品质标志数据品质标志数据:描述地理对象品质属性特征的数据。 有序(有序(ordinalordinal)数据)数据。 有序数据,是指测度标准不连续,只表示其顺序关系的数据,又称等级尺度数据。 这种数据并不表示量的多少,而只是给出一个等级或次序。 例如,1,2,3等分别表示某地区GDP的

12、排位次序等城市名称城市名称位次位次旅游收入( 亿元)旅游收入( 亿元)青岛青岛1 1207.56207.56济南济南2 294.194.1烟台烟台3 39393威海威海4 471.471.4济宁济宁5 562.6962.69临沂临沂6 66060淄博淄博7 747.547.5泰安泰安8 846.746.7潍坊潍坊9 942.842.8日照日照101026.9926.99枣庄枣庄111120.9620.96聊城聊城12122020滨州滨州131312.7312.73东营东营14149.19.1德州德州15158.58.5菏泽菏泽16168.458.45莱芜莱芜17175.65.62004年山东省

13、各地区的旅游收入位次排名年山东省各地区的旅游收入位次排名 二元数据二元数据 二元数据,即表示地理事物、地理现象或地理事件的是非判断问题的数据。比如,0、1。 例如,在人口统计中,用1表示“男性”,用0表示“女性”;在一个交通网络中,两两组合考虑结点之间有无联线情况,1表示“两结点间存在联线”,0表示“两结点不存在联线”等名义尺度(名义尺度(nominal scalenominal scale)数据)数据 名义尺度数据,即用于表示地理实体、地理要素、地理现象或地理事件的状态类型的数据。 例如,在土地利用现状调查中,用15表示“菜地”,13表示“水浇地”,14表示“旱地”,21表示“果园”,31表

14、示“林地”等。三三 地理数据的基本特征地理数据的基本特征 1.1.数理化、形式化与逻辑化数理化、形式化与逻辑化 2.2.不确定性不确定性 (1)地理系统的复杂性 (2)数据误差 3.3.多种时空尺度多种时空尺度 (1)空间尺度地理区域 (2)时间尺度地理过程 4.4.多维性多维性 空间、属性、时间四四 地理数据的变换地理数据的变换(一)定性数据转换成定量数据(一)定性数据转换成定量数据 1.1.有序数据转换有序数据转换 测度标准不是用连续的量,而是表示其次序或等级关系的数据,可以转换成定量数据 2.2.二元数据转换二元数据转换 即0、1转换,(二)数据本身转换(二)数据本身转换 1.1.概念概

15、念 将原始数据的每个数值通过某种特定的运算把它们变成一个新值,而且数据数值的变化不依赖于数据集合中其它数据的变化。 2.2.数据转换的方法数据转换的方法对数变换开方变换取倒数变换概率变换模数变换(三)地理数据的标准化(三)地理数据的标准化 1.1.概念概念 数据的标准化是指为了减少原始数据的变幅及消除其量纲的影响而对原始数据进行处理的方法。 2.2.与地理数据变换的区别与地理数据变换的区别 地理数据变换的过程中与矩阵中的其它数值没有发生联系。而地理数据标准化处理则发生联系。 (min)(max)(min)jjjijijxxxxx3.3.数据标准化的主要方法数据标准化的主要方法1)极差标准化:又

16、称“极差正规化”是指系列中的任一变量xij与其列中的最小值xj(min)之差和第j列中的最大值xj(max)与最小值xj(min)之差的比值。 3. 3.数据标准化的主要方法数据标准化的主要方法 2)标准差标准化:是指系列中的任一变量xij与其列中的均值xj之差,再除以其标准差(sj)。jjijijsxxx 3. 3.数据标准化的主要方法数据标准化的主要方法 3) 极大值标准化:是指系列中的任一变量xij与其列中的最大值xj(max)之比。(max)jijijxxx 3. 3.数据标准化的主要方法数据标准化的主要方法 4)极小值标准化:是指系列中的任一变量xij与其列中的最小值xj(min)之

17、比。(min)jijijxxx 第三节第三节 地理数据分布特征地理数据分布特征地理数据的采集与处理地理数据的采集与处理地理数据的统计整理地理数据的统计整理地理数据的分布特征地理数据的分布特征一一 地理数据的采集与处理地理数据的采集与处理1.来自观测、测量部门的有关专业数据。来自观测、测量部门的有关专业数据。例如:水文观测站、气象观测站、环境监测部门例如:水文观测站、气象观测站、环境监测部门2.来自统计年鉴、统计公报中的有关自然资源及来自统计年鉴、统计公报中的有关自然资源及社会经济发展数据。社会经济发展数据。3.来自有关单位或个人的不定期的典型调查数据、来自有关单位或个人的不定期的典型调查数据、

18、抽样调查数据。抽样调查数据。(一)地理数据的渠道来源(一)地理数据的渠道来源4.来自政府公报、政府文件中的有关数据。来自政府公报、政府文件中的有关数据。5.来自档案、图书等文献资料中的有关数据。来自档案、图书等文献资料中的有关数据。6.来自互联网(来自互联网(Internet)的有关共享数据。)的有关共享数据。7.地图图件。地形图、影像地图、专题地图地图图件。地形图、影像地图、专题地图8.遥感数据。各种航空遥感数据和卫星遥感数据遥感数据。各种航空遥感数据和卫星遥感数据相关数据网站:(二)采集地理数据过程中需要注意的问题(二)采集地理数据过程中需要注意的问题 1.数据的完备性和可靠性。数据的完备

19、性和可靠性。 2.在数据采集过程中,最大限度地减小数据的在数据采集过程中,最大限度地减小数据的误差。误差。 3.在数据采集完毕后,进行检验,辨别真伪,在数据采集完毕后,进行检验,辨别真伪,通过数据筛选,去粗取精、去伪存真。通过数据筛选,去粗取精、去伪存真。(三)地理数据处理 地理数据处理,是所有地理问题研究的核心环节。地理数据处理,是所有地理问题研究的核心环节。 从理论上讲,在地理学中,数学方法的运用主要有两从理论上讲,在地理学中,数学方法的运用主要有两个目的:个目的:(1)运用数学语言对地理问题的描述,建立)运用数学语言对地理问题的描述,建立地理数学模型地理数学模型,从更高、更深层次上从更高

20、、更深层次上揭示地理问题的机理揭示地理问题的机理;(2)运用有关数学方法,通过定量化的)运用有关数学方法,通过定量化的计算和分析计算和分析,对地,对地理数据进行处理,从而理数据进行处理,从而揭示有关地理现象的内在规律揭示有关地理现象的内在规律。 因此,从一定意义上来说,地理数据处理也是计量地理因此,从一定意义上来说,地理数据处理也是计量地理学的任务之一。学的任务之一。 地理信息系统的核心功能是地理数据处理,它地理信息系统的核心功能是地理数据处理,它实现了实现了空间数据空间数据与与属性数据属性数据的完美结合的完美结合。数学方数学方法确实是其强有力的支撑法确实是其强有力的支撑。 地理计算学(地理计

21、算学(GeocomputationGeocomputation)的实质是借助)的实质是借助于现代化的于现代化的计算理论、计算方法和计算技术计算理论、计算方法和计算技术,通,通过对过对“整体整体”和和“大容量大容量”的地理数据进行处理,的地理数据进行处理,揭示复杂地理系统的运行机制,探索和寻求新的揭示复杂地理系统的运行机制,探索和寻求新的地理系统理论。地理系统理论。 统计分组统计分组是将预处理过的数据按照某种特征或标是将预处理过的数据按照某种特征或标准分成不同的组别。准分成不同的组别。 统计分组标志统计分组标志:分组时所依据的特征或标准,有品质标志品质标志和数量标志数量标志。 频数分布表频数分布

22、表:对分组后的数据,计算各组中数据对分组后的数据,计算各组中数据出现的次数或频数所形成的汇总表。出现的次数或频数所形成的汇总表。 预处理数据分组计算频数描述统计 二二 地理数据的统计整理(地理数据的统计整理(数据分组与频数分布)数据分组与频数分布) 频数分布频数分布或次数分布(次数分布(Frequency distribution):全部数据按其分组标志在全部数据按其分组标志在各组内的分布状况。各组内的分布状况。 分布在各组内的数据个数称为频数频数或次数。次数。相对频数相对频数(Relative frequency)/频率频率/比比重:重:各组频数与全部频数之和的比重。 概念:概念:频数频数/

23、次数分布;相对频数次数分布;相对频数 (一)品质数据的分组与频数分布(一)品质数据的分组与频数分布Table, Data from a sample of 50 computer purchases(11/15,1994)IBMIBMPackard BellCompaqIBMPackard BellGateway200Packard BellCompaqCompaqGateway200Packard BellIBMAppleCompaqIBMPackard BellAppleAppleCompaqGateway2000CompaqPackard BellCompaqCompaqApplePac

24、kard BellPackard BellAppleIBMIBMAppleAppleGateway2000Packard BellAppleAppleIBMAppleIBMPackard BellAppleCompaqAppleCompaqPackard BellGateway200CompaqAppleCompaq 例例 :50个计算机购买者所购买的不同品牌的机型数据个计算机购买者所购买的不同品牌的机型数据 Table, Frequency Distribution/Relative and Percentage Frequency of Computer Purchases Company

25、 Frequency Relative Frequency Percentage Frequency Apple 13 0.26 26 Compaq 12 0.24 24 Gateway2000 5 0.10 10 IBM 9 0.18 18 Packard Bell 11 0.22 22 Total 50 1.00 100分组与求频数分组与求频数 :分组计频分组计频基本步骤基本步骤: 确定组数确定组数 确定组距确定组距(按组)整理成分布频数表整理成分布频数表 例:例:一会计事务所对其20家客户(clients)年底帐目辑核(audits)时间(天)统计如下表: (二)数值数据的分组与频数分布

26、(二)数值数据的分组与频数分布 可先先将数据进行排序排序,然后后根据需要分组分组; 对较少的数据也可不排序直接根据需要分组。Table Year-End Audit Times(in days) 12 14 19 18 15 15 18 17 20 27 22 23 22 21 33 28 14 18 16 13 第一步第一步,确定组数确定组数(Number of classes)。组数的确定一般视数据本身的特点及数据的多少而定。21010loglog1NK 经验上经验上以520之间为好,尤其注意不要确定太多的组数,使得每组包含的数据太少。 实际分组实际分组时常按斯特格斯(Sturges)提出

27、的经验公式来确定组数K:其中N为数据的个数(总体单位数或样本数),一般对结果取整数。 上例中:上例中:K=1+lg20/lg2=1+4.32=5.32 5NKlg32. 31或查下表: 第二步第二步,确定组距确定组距:组距是一个组的上限与组距是一个组的上限与下限之差下限之差,可根据全部数据的最大值和最小值及所分的组数来确定: 组距组距=(最大值(最大值 - 最小值)最小值)/组数组数 上例中,组距上例中,组距=(33-12)/5=4.2,可取整数,可取整数5为最为最后选定的组距。后选定的组距。 第三步,确定各组组限并据此计算组中值、整第三步,确定各组组限并据此计算组中值、整理频数分布表。理频数

28、分布表。 第一组下限:数据最小值第一组下限:数据最小值1/2的组距的组距 第一组上限:下限组距第一组上限:下限组距 其他组依此类推。其他组依此类推。组中值(下限上限)组中值(下限上限)/2 上例是离散型数据(天),采用组限间断方法,因此可得频数分布表如下:Audit Frequency Relative Percent Time(days) Frequency Frequency 1015 4 0.20 20 1520 8 0.40 40 2025 5 0.25 25 2530 2 0.10 10 3035 1 0.05 5 Total 20 1.00 100 1、分组所遵循的主要原则主要原则

29、是“不重不漏不重不漏” 。因此, 最低组限最低组限 数据的最小值, 最大组限最大组限 数据的最大值; 另外另外,数据在每组中的归属习惯上采用“上组限上组限不在内不在内”。 注意:注意: 2、对离散型数据离散型数据,可采用相邻两组组限间断的办可采用相邻两组组限间断的办法解决法解决“不重不重”的问题的问题(如610,1115,1620等); 对连续型数据连续型数据,往往采用相邻两组组限重叠,往往采用相邻两组组限重叠,根据根据“上限不在内原则上限不在内原则”解决解决“不重不重”问题问题(如5,10),10,15),15,20)等)。 上例是离散型数据(天),采用组限间断方法修正,因此可得频数分布表如

30、下:Audit Frequency Relative Percent Time(days) Frequency Frequency 1014 4 0.20 20 1519 8 0.40 40 2024 5 0.25 25 2529 2 0.10 10 3034 1 0.05 5 Total 20 1.00 100例子:黄土高原西部地区某山区县的人工造林地调查数据第四步,作频数(率)分布图第四步,作频数(率)分布图某车间某车间50名工人日加工零件频数名工人日加工零件频数(率)(率)分布分布图图频数分布图0246810121416107112117122127132137(个)频数05101520

31、2530频率()累积频数(率)图05101520253035404550107112117122127132137(个)频数0102030405060708090100频率()某车间某车间50名工人日加工零件频数名工人日加工零件频数(率)(率)分布分布图图050100150200250300350(0,1(1,2(2,3(3,4(4,5(5,6(6,7(7,8(8,9(9,10(10,11)黄土高原西部地区某山区县的人工造林地调查数据的频数黄土高原西部地区某山区县的人工造林地调查数据的频数分布的直方图分布的直方图 将上图各组的频数分布从组中值位置用折线连接起来,得到频数分布的曲线图: 0501

32、001502002503003500.5 1.5 2.5 3.5 4.5 5.5 6.5 7.5 8.5 9.5 10.5练习:上海市年降水量统计051015202530709.2828.2947.21066.21185.21304.21423.21542.21661.2系列1三三 数据分布特征的描述数据分布特征的描述 对统计数据进行排序、分组、整理,是对数据的分布特征进行描述的一个基本方面,为进一步掌握数据分布特征及其变化规律,以进行深入的分析,还需找出反映数据分布特征的各个代表值。 统计学中刻划刻划数据分布特征数据分布特征的最主要的代表有的最主要的代表有二二:数据分布的集中趋势集中趋势与数

33、据分布的离散程度。离散程度。排序分组整理表述统计数据寻找寻找反映数据分布特征的代表值:集中趋势集中趋势;离散趋势离散趋势1 1、平均数、平均数反映反映同质总体同质总体和和样本数值样本数值的平均的平均水平和一个数列的数值的水平和一个数列的数值的“集中趋势集中趋势”算算术术平平均均数数未分组数据未分组数据nxxxxnxnnii).(1211分组数据分组数据inniniifxfxfxfxfnx/ ).(122111_(一)分布集中趋势的测度(一)分布集中趋势的测度(1) 集中趋势是指一组数据向某一中心值靠拢的倾向集中趋势是指一组数据向某一中心值靠拢的倾向,测度集中趋势就是寻找数据一般水平的代表值或中

34、心值。简单均值(算例)原始数据:105913685 . 868613951066543211XXXXXXNXXNii加权均值(算例)(个)2.12350616011KiiKiiiFFXX注意:注意: 均值容易受到统计数据中个别极端数据的影响,均值容易受到统计数据中个别极端数据的影响,从而使均值代表某组统计数据的从而使均值代表某组统计数据的“平均水平平均水平”时失时失去意义,这时往往用去意义,这时往往用“剔除极端值剔除极端值”的方法加以修的方法加以修正。正。 算术均值算术均值具有如下性质性质:(1)各变量值与其均值的离差和为零:01NiiXX(2)各变量值与其均值的离差平方和最小:min21Ni

35、iXX(2 2)几何平均数)几何平均数定义:定义:N N个观测数的连乘积再开个观测数的连乘积再开N N次方所得的方根数次方所得的方根数地理意义:常用于研究某一地理要素的平均发展平均发展速度和平均增长速度(尤其是经济发展速度)速度和平均增长速度(尤其是经济发展速度)平均发展速度表明社会经济现象在一个较长时间内的平均平均发展速度表明社会经济现象在一个较长时间内的平均发展水平发展水平 平均增长速度表明社会经济现象在一个较长时间内的平均增长速度表明社会经济现象在一个较长时间内的递增速度递增速度 nnigxxxxxx.321长江三角洲地区长江三角洲地区GDPGDP增长速度与全国对比增长速度与全国对比02

36、46810121416济南青岛淄博枣庄东营烟台潍坊济宁泰安威海日照莱芜临沂德州聊城滨州菏泽全省增长速度 1997 199720012001年山东省各地市年山东省各地市GDPGDP年均增长速度年均增长速度计算方法:计算方法:对上述公式两边取对数对上述公式两边取对数niigxnx1ln1ln式中:式中:为几何平均数,为几何平均数,x xi i为各变量值,为各变量值,n n为变量个数为变量个数 也可以直接用下式进行计算,最常用的一种计算公式也可以直接用下式进行计算,最常用的一种计算公式nngxxx0 式中式中x x0 0为基年(或基期)数据,为基年(或基期)数据,x xn n为最后一年数据,为最后一

37、年数据,n n为为间隔年数(不包括基年)。间隔年数(不包括基年)。几何平均数几何平均数(算例算例) 下表为山东省下表为山东省1991199119951995年的人口数,试求其人年的人口数,试求其人口平均增长速度,并预测山东省口平均增长速度,并预测山东省20102010年的人口数。年的人口数。时间时间 19911992199319941995人 口人 口( (万人万人) )85348580862086538701 下面介绍用计算器计算增长率的方法下面介绍用计算器计算增长率的方法(1 1)用末年数值除基年数值,得到一个数值)用末年数值除基年数值,得到一个数值(2 2)然后按)然后按2ndf2ndf

38、(3 3)然后按)然后按y yx x(4 4)然后按相隔的年份,得到一个数值,用这个数)然后按相隔的年份,得到一个数值,用这个数值减去值减去1 1,再乘上,再乘上100100就是所求的平均增长率。就是所求的平均增长率。用用ExcelExcel计算增长率方法介绍计算增长率方法介绍2 2、中位数、中位数中位数:中位数:中位数也称中央值,它是中位数也称中央值,它是地理数据按大小顺地理数据按大小顺序排列,序排列,位居中间的那个数值。在累积频率图上,累积频率位居中间的那个数值。在累积频率图上,累积频率为为50%50%所对应的特征值即是中位数。所对应的特征值即是中位数。 计算公式:计算公式:当样本为奇数时

39、当样本为奇数时:21nexM当样本为偶数时:当样本为偶数时:)(21212nnexxM(1) 对于未分组的地理数据:样本数对于未分组的地理数据:样本数n为奇数时,中位数是为奇数时,中位数是位置排在第位置排在第(n+1)/2位的数据;样本数位的数据;样本数n为偶数时,中位数是为偶数时,中位数是排在中间位置的两个数据的平均值。排在中间位置的两个数据的平均值。(2 2)分组的地理数据:中位数的计算方法)分组的地理数据:中位数的计算方法: :确定中位数确定中位数所在的组位置所在的组位置, ,按下述公式按下述公式计算中位数计算中位数 mmniiefSfdLM1121或或mmniiefSfdUM1121M

40、e代表中位数;代表中位数;L为中位数所在组的下限值;为中位数所在组的下限值;U为中位数所在组的上限值;为中位数所在组的上限值;fm为中位数所在组的频数;为中位数所在组的频数;Sm-1为中位数所在组以下的累计频数;为中位数所在组以下的累计频数;Sm+1为中位数所在组以上的累计频数;为中位数所在组以上的累计频数;d为中位数所在组的组距。为中位数所在组的组距。3.3.众数:众数:一个地理数据中出现频数(次数)最多的数一个地理数据中出现频数(次数)最多的数 。在频数分布曲线上的位置居在频数分布曲线上的位置居最高点最高点 (1 1)未分组的地理数据,可以根据每一个数)未分组的地理数据,可以根据每一个数据

41、出现的频数大小直接确定众数。据出现的频数大小直接确定众数。 (2 2)对于已经分组的地理数据,中位数的计算步)对于已经分组的地理数据,中位数的计算步骤如下:确定频数最多的组为众数所在组。骤如下:确定频数最多的组为众数所在组。 按以下公式计算众数按以下公式计算众数2110dLM2120dUM或或(2.4.6)M0代表众数;代表众数;L为众数所在组的下限值;为众数所在组的下限值;U为众数所在组的上限值;为众数所在组的上限值;1为众数组频数与下一组频数之差;为众数组频数与下一组频数之差;2为众数组频数与上一组频数之差;为众数组频数与上一组频数之差;d为众数所在组的组距。为众数所在组的组距。fm为某数

42、值出现次数(频数)最多的组(第m组)的频数; fm-1与fm+1分别为第m-1组与m+1组的频数。dffffffLMmmmmmmo)()(111dffffffUMmmmmmmo)()(111 例如例如在前面购买五类不同品牌 计算机的统计中,曾得到如右表所示 的频数分布表。 注意:注意: 1、如果某组统计数据中没有哪个数值出现较多的频率(次数),则可认为该组数无众数无众数;如果有多个数据出现的次数(频率)较多,则认为有多个众数有多个众数。 在有多个众数的情况下,则对众数的关注度下降,因为多众数对描述数据位置无多大帮助。 2、对描述品质数据的分布特征的“位置”测度只能用众数。Company Fre

43、quency Apple 13 Compaq 12Gateway2000 5 IBM 9Packard Bell 11 显然,众数,即个人购买最多的机算机品牌是Apple。在这类数据中,在这类数据中,“均值均值”与与“中位数中位数”是没有任何意是没有任何意义的。义的。“众数众数”提供了频数最高的个提供了频数最高的个人电脑购买品牌。人电脑购买品牌。例例1:表表1给出了某农场各农田地块的面积,试计算给出了某农场各农田地块的面积,试计算其平均值、中位数和众数。其平均值、中位数和众数。表表1 1 某农场各农田地块的面积某农场各农田地块的面积 应按照未分组数据计算其平均值、中位数和应按照未分组数据计算其

44、平均值、中位数和众数,计算结果见上表最后三列。众数,计算结果见上表最后三列。 例例2:表:表2给出了中国西部地区某城市给出了中国西部地区某城市2000年家庭月收年家庭月收入的抽样调查结果,试计算其平均值、中位数和众数。入的抽样调查结果,试计算其平均值、中位数和众数。表表2 2 中国西部地区某城市中国西部地区某城市2000年家庭月收入的抽样年家庭月收入的抽样调查结果调查结果 解题步骤解题步骤: : (1)用公式用公式(2.4.22.4.2)计算平均数计算平均数 (2)计算中位数。先确定中位数所在组的位置,再计算中位数。先确定中位数所在组的位置,再按照分组中位数计算公式计算中位数按照分组中位数计算

45、公式计算中位数 Me =3 588.46(元)(元)x=3 899.06(元)(元) (3)计算众数,先确定众数所在组,再按照分组计算众数,先确定众数所在组,再按照分组众数计算公式计算众数。众数计算公式计算众数。 显然,众数所在组应该在第二组。显然,众数所在组应该在第二组。 众数众数M0 =3 476.19 (元)。(元)。 1、如果数据具有单一众数,且分布是对称的,则众数Mo、中位数Me 与均值 相等,即 ;XMMeooeMMXoeMMXX)(31XMXMOe4、中位数、众数与算术平均数的关系、中位数、众数与算术平均数的关系 3、在偏斜度适度的情况下,不论是左偏还是右偏,中位数与算术平均数之

46、差约等于众数与算术平均数之差的1/3,即有如下经验公式: 当分布右偏时(说明存在极端大的值) 2、对于非对称分布, 当分布左偏时(说明存在极端小的值)众数、中位数和均值都是对数据集中趋势的测度。众数、中位数和均值都是对数据集中趋势的测度。 1、均值、均值由全部数据计算,包含了全部数据的信息,具有良好的数学性质,当数据接近对称分布时,具有较好的代表性;但对于偏态分布,其代表性较差。 2、中位数、中位数是一组数据中间位置上的代表值,不受数据极端值的影响,对于偏态分布的数据,其代表性要比均值好。 3、众数、众数是一组数据分布的峰值,是一种位置的代表,当数据的分布具有明显的集中趋势时,尤其对于偏态分布

47、,众数的代表性比均值好。 4、对接近正态的分布数据,常用均值均值描述数据的集中趋势;对偏态分布,常用众数众数或中位数中位数描述数据的集中趋势。 众数、中位数和均值的应用场合众数、中位数和均值的应用场合 对数据分布特征的另一个测度指标是数据分布离散程度数据分布离散程度。它反映各数据远离其中心值的程度,因此,也称离中趋势离中趋势。 集中趋势集中趋势反映的是各变量值向其中心值聚集的程度, 离中趋势离中趋势反映各变量值之间的差异状况。 注意:注意: 集中趋势集中趋势的测度值概括地反映了数据的一般水平,它对该组数据的代表程度,取决于该组数据的离散水平离散水平。 数据的离散程度越大,集中趋势的测度值对该组

48、数据的代表性就越差。(二)分布离散程度的测度(二)分布离散程度的测度1 1、绝对离散度、绝对离散度极差极差、离差、离差平方和、方差和标准差等,离差、离差平方和、方差和标准差等,是地理数据分布规律指标中较为重要的指标。是地理数据分布规律指标中较为重要的指标。(1)极差极差是最简单的测度离中趋势(分散程度)的指标,也称全距全距,是一组数据最大值与最小值之差一组数据最大值与最小值之差: 对于组距分组数据,极差可近似地表示为: R=最高组上限 - 最低组下限 注意:注意: 1、极差易受极端值的影响; 2、由于极差只利用了数据两端的信息,没有反映中间数据的分散状况,因而不能准确描述数据的分散程度。(2

49、2)离差)离差离差又称真差,离差又称真差,它是指每一个地理数据与平均值的差,它代表着每一个地理数据与平均值的离散程度。 xxdii 对于两个要素:均值可能相同,但是其离差对于两个要素:均值可能相同,但是其离差可能有很大区别,它能反映出要素分配的差异可能有很大区别,它能反映出要素分配的差异例如:辽宁的朝阳和宁夏的固原两地区例如:辽宁的朝阳和宁夏的固原两地区 年份 1961 1962 1963 1964 1965 1966 1967 1968 1969 1970 平均降水量 朝阳 年降水 离 差 412.0 -62.9 633.7 158.8 608.0 133.1 606.3 131.4 520

50、.5 45.6 436.2 -38.7 402.7 -72.2 371.0 -103 698.2 217.9 526.3 51.4 474.9 固原 年降水 离 差 733.4 257.6 412.5 -52.3 373.4 -101.4 766.4 291.6 475.9 1.1 619.2 144.4 515.6 40.8 501.1 26.3 352.6 -122.2 434.2 -40.6 474.8 (3 3)离差平方和)离差平方和 各数据离差平方后再相加,它从总体上衡量一组各数据离差平方后再相加,它从总体上衡量一组地理数据与平均值的离散程度。地理数据与平均值的离散程度。 一是为了消

51、除正负号的影响;一是为了消除正负号的影响; 二是把离差平方后求和,可使离散程度二是把离差平方后求和,可使离散程度更清楚。更清楚。 2112)(xxdniinii(4 4)方差(均方差)方差(均方差) 各离差平方和除以其数据的个数各离差平方和除以其数据的个数 总体方差的计算公式为:总体方差的计算公式为:nuxnii/)(212样本方差的计算公式为:样本方差的计算公式为:) 1/()(212nxxsnii用用ExcelExcel计算方差:计算方差:VAR和和VARP函数函数64152561)(2nxxSi例:在上述例:在上述5个班组平均人员的例中,个班组平均人员的例中,若视若视5个班为样本,则个班

52、为样本,则2 .515256)(2NXXi若视若视5个班为总体,则个班为总体,则样本方差自由度(degree of freedom)是指当以样本的统计量来估计总体的参数时,样本中是指当以样本的统计量来估计总体的参数时,样本中独立或能自由变化的数据的个数称为该统计量的自由独立或能自由变化的数据的个数称为该统计量的自由度。度。 从方差和标准差的公式我们可以看出总体的方差和标从方差和标准差的公式我们可以看出总体的方差和标准差是由各数据与总体平均数的差值求出来的,因此准差是由各数据与总体平均数的差值求出来的,因此必须将平均值固定后才可以求总体的方差。因此,由必须将平均值固定后才可以求总体的方差。因此,

53、由于平均值被固定,它就不能独立自由变化,也就是方于平均值被固定,它就不能独立自由变化,也就是方差和标准差受到总体平均数的限制,少了一个自由变差和标准差受到总体平均数的限制,少了一个自由变化的机会,因此要从化的机会,因此要从n里减掉一个。里减掉一个。 例如,样本有例如,样本有3个数值,即个数值,即x1=2,x2=4,x3=9,则,则 x = 5。当。当 x = 5 确定后,确定后,x1,x2和和x3有两个数据可以自由有两个数据可以自由取值,另一个则不能自由取值,比如取值,另一个则不能自由取值,比如x1=6,x2=7,那,那么么x3则必然取则必然取2,而不能取其他值,而不能取其他值样本的标准差:样

54、本的标准差:) 1/()(21nxxsnii用用ExcelExcel计算标准差:计算标准差:STDEV和和STDEVP函数函数(5 5)标准差)标准差 方差开方以后所得的数值,即方差方差开方以后所得的数值,即方差的平方根的平方根总体的标准差:总体的标准差:nuxnii/)(2122SS 在五个班级规模的例中五个班级规模的例中: 若视5个班为总体,则标准差为7.15, 若视5个班为样本,则标准差为8。注意:注意: 1、由于方差方差计算中使用了平方运算,因此方差的单位也是平方,如上述班级规模例中方差为64(学生)2,其具体意义不明确具体意义不明确。因此方差只有在方差只有在比较不同组数据的离散程度时

55、才有数量大小上的比较不同组数据的离散程度时才有数量大小上的意义意义。 2、标准差、标准差是对方差的开方运算,因此,其其单位与原始数据的单位一致单位与原始数据的单位一致,它与均值及其他用同一单位测度的数据相比较也容易一些。(标准差就是指数据标准差就是指数据“离散程度的测度值离散程度的测度值”距距“均值均值”的距离的距离)。2.2.相对离散度相对离散度 变异系数(离差系数或变差系数)变异系数(离差系数或变差系数) :标准差与均值的比值,它表示了地理:标准差与均值的比值,它表示了地理数据的相对变化(波动)程度。数据的相对变化(波动)程度。%1001)(1%10012nxxxxSCniiv注意:注意: 1、对不同组数据、对不同组数据,其离散程度既受其数据本身的水平的影响,也受数据计量单位的影响,因此对不同(性质)组别的数据,不好用离差离差或标准差标准差来比较它们的离散程度离散程度; 2、由于离散系数离散系数消除了来自这两方面的影响,因此可以用它进行不同数据组的比较。例如:例如:对于表对于表1 1中的数据,分别计算极差、离差、中的数据,分别计算极差、离差、离差平方和、方差、标准差、标准差的无偏估离差平方和、方差、标准差、标准差的无偏估计,以及变异系数。计,以及变异系数。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论