版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1第第2章章 地理数据地理数据及其采集与预处理及其采集与预处理定义定义地理数据:就是用一定的测度方式描述和衡量地理对象的有关量化标志。2第1节 地理数据的类型第2节 地理数据的基本特征及其转换第3节 地理数据的采集与处理第4节 地理数据的统计处理 第5节 地理数据分布的集中化与均 衡度指数3 第第1 1节节 地理数据地理数据的类型的类型空间数据(空间数据(spatial data)属性数据(属性数据(attribute data)41.1.空间数据的定义空间数据的定义 是指主要用于描述地理实体、地理要素、地理现象、地理事件及地理过程产生、存在和发展的地理位置、区域范围及空间联系。坐标,是描述空
2、间数据的基本手段,一般用经纬度坐标或公里网来表示。562.2.空间数据的表达空间数据的表达 一般,空间数据表达可以归纳为点、线、面三种几何实体以及描述它们之间空间联系的拓扑关系。(1 1)点:)点:由一个独立的坐标点(x,y)定位,是空间上不可再分的几何实体。它可以表示精确的地理位置点,也可以是一些地理实体的抽象, 例如,道路的交叉点、河流的交汇点、小比例尺地图上的城市,村镇 7(2 2)线:)线:由若干个(至少两个,理论上是无穷个)坐标点(xi,yi)(i =1,2,)定义,有一定的长度和走向,表示线状地物或点实体之间的联系。 例如,交通线、河流及各种地理区域的界线等(3 3)面:)面:它表
3、示在空间上连续分布的地理景观或区域。 例如,土壤或植被的分布区、居住区、行政区等(4 4)点、线、面之间的拓扑关系。 8点点面面线线网络网络地带地带地域类型地域类型网络(由点和线组合形成)、地域类型(由点和面网络(由点和线组合形成)、地域类型(由点和面组合形成)地带(点、线和面组合形成)组合形成)地带(点、线和面组合形成)区域区域92 2 属性数据属性数据(1 1)属性数据的定义属性数据的定义 是指主要用于描述地理实体、地理要素、地理现象、地理事件及地理过程的属性特征的数据。(2 2)属性数据的分类属性数据的分类 数量标志数据数量标志数据:描述地理对象数量属性特征的数据。 间隔尺度(间隔尺度(
4、interval scale)数据)数据 间隔尺度数据,是以有量纲有量纲的数据形式表示测度对象在某种单位(量纲)下的绝对量。例如,以毫米为量纲表示某地的降水量,以某种货币量纲表示某地区的GDP等10 9500年山东省各地区的GDP (单位:人民币)11比例尺度(比例尺度(ratio scale)数据)数据。 比例尺度数据,是以无量纲无量纲的数据形式表示测度对象的相对量。 这种数据要求事先规定一个基点,然后将其他同类数据与基点数据相比较,换算为基点数据的比例。因此,这类数据常又被称为指数或比例数。例如,耕地复种指数,工业发展指数、农用发展指数、GDP发展指数等 年份 1996 1997 1998
5、 1999 2000耕地复种指数 120.40 113.56 126.54 132.76 121.43农业发展指数 100 115.68 124.50 135.69 129.56注:耕地复种指数是指播种面积与耕地总面积之比 规定1996年农业产值为基数10012 品质标志数据品质标志数据:描述地理对象品质属性特征的数据。 有序(有序(ordinalordinal)数据)数据。 有序数据,是指测度标准不连续,只表示其顺序关系的数据,又称等级尺度数据。 这种数据并不表示量的多少,而只是给出一个等级或次序。 例如,1,2,3等分别表示某地区GDP的排位次序等13城市名称城市名称位次位次旅游收入( 亿
6、元)旅游收入( 亿元)青岛青岛1 1207.56207.56济南济南2 294.194.1烟台烟台3 39393威海威海4 471.471.4济宁济宁5 562.6962.69临沂临沂6 66060淄博淄博7 747.547.5泰安泰安8 846.746.7潍坊潍坊9 942.842.8日照日照101026.9926.99枣庄枣庄111120.9620.96聊城聊城12122020滨州滨州131312.7312.73东营东营14149.19.1德州德州15158.58.5菏泽菏泽16168.458.45莱芜莱芜17175.65.62004年山东省各地区的旅游收入位次排名年山东省各地区的旅游收入
7、位次排名14 二元数据二元数据 二元数据,即表示地理事物、地理现象或地理事件的是非判断问题的数据。比如,0、1。 例如,在人口统计中,用1表示“男性”,用0表示“女性”;在一个交通网络中,两两组合考虑结点之间有无联线情况,1表示“两结点间存在联线”,0表示“两结点不存在联线”等名义尺度(名义尺度(nominal scale)数据)数据 名义尺度数据,即用于表示地理实体、地理要素、地理现象或地理事件的状态类型的数据。 例如,在土地利用现状调查中,用15表示“菜地”,13表示“水浇地”,14表示“旱地”,21表示“果园”,31表示“林地”等。15 一一 基本特征基本特征 1.1.数数量量化、形式化
8、与逻辑化化、形式化与逻辑化 2. 2.不确定性不确定性:(1)地理系统的复杂性 (2)数据误差 3. 3.多种时空尺度多种时空尺度 (1)空间尺度地理区域 (2)时间尺度地理过程 4.4.多维性多维性:空间、属性、时间 第第2 2节节 地理数据的基本特征地理数据的基本特征及其转换及其转换16二二 地理数据的变换地理数据的变换(一)定性数据转换成定量数据(一)定性数据转换成定量数据 1. 1.有序数据转换有序数据转换 测度标准不是用连续的量,而是表示其次序或等级关系的数据,可以转换成定量数据 2. 2.二元数据转换二元数据转换 即0、1转换,17(二)数据本身转换(二)数据本身转换 1.1.概念
9、概念 将原始数据的每个数值通过某种特定的运算把它们变成一个新值,而且数据数值的变化不依赖于数据集合中其它数据的变化。 2. 2.数据转换的方法数据转换的方法对数变换开方变换取倒数变换概率变换模数变换18年代年代1961 196519701975198019851986工业总产值162122353138446770771333615207lnx7.30987.71208.05138.40458.86469.49829.6295我国工农业总产值表我国工农业总产值表(单位:亿元)19(三)地理数据的标准化(三)地理数据的标准化 1.1.概念概念 数据的标准化是指为了减少原始数据的变幅及消除其量纲的影
10、响而对原始数据进行处理的方法。 2.2.与地理数据变换的区别与地理数据变换的区别 地理数据变换的过程中与矩阵中的其它数值没有发生联系。而地理数据标准化处理则发生联系。 20(min)(max)(min)jjjijijxxxxx3.3.数据标准化的主要方法数据标准化的主要方法(1)极差标准化:又称“极差正规化”是指系列中的任一变量xij与其列中的最小值xj(min)之差和第j列中的最大值xj(max)与最小值xj(min)之差的比值。21(2)标准差标准化:是指系列中的任一变量xij与其列中的均值xj之差,再除以其标准差(sj)。22(3) 极大值标准化:是指系列中的任一变量xij与其列中的最大
11、值xj(max)之比。(max)jijijxxx23(4)极小值标准化:是指系列中的任一变量xij与其列中的最小值xj(min)之比。(min)jijijxxx24 第第3 3节节 地理数据地理数据的采集与处理的采集与处理地理数据的采集地理数据的采集地理数据地理数据处理处理25一一 地理数据的采集地理数据的采集1.来自观测、测量部门的有关专业数据。来自观测、测量部门的有关专业数据。例如:水文观测站、气象观测站、环境监测部门例如:水文观测站、气象观测站、环境监测部门2.来自统计年鉴、统计公报中的有关自然资源及来自统计年鉴、统计公报中的有关自然资源及社会经济发展数据。社会经济发展数据。3.来自有关
12、单位或个人的不定期的典型调查数据、来自有关单位或个人的不定期的典型调查数据、抽样调查数据。抽样调查数据。(一)地理数据的渠道来源(一)地理数据的渠道来源264.来自政府公报、政府文件中的有关数据。来自政府公报、政府文件中的有关数据。5.来自档案、图书等文献资料中的有关数据。来自档案、图书等文献资料中的有关数据。6.来自互联网(来自互联网(Internet)的有关共享数据。)的有关共享数据。7.地图图件。地形图、影像地图、专题地图地图图件。地形图、影像地图、专题地图8.遥感数据。各种航空遥感数据和卫星遥感数据遥感数据。各种航空遥感数据和卫星遥感数据27相关数据网站:中国国家统计局:中国国家统计局
13、:统计链接统计链接 1.数据的完备性和可靠性。数据的完备性和可靠性。 2.在数据采集过程中,最大限度地减小数据的在数据采集过程中,最大限度地减小数据的误差。误差。 3.在数据采集完毕后,进行检验,辨别真伪,在数据采集完毕后,进行检验,辨别真伪,通过数据筛选,去粗取精、去伪存真。通过数据筛选,去粗取精、去伪存真。29二 地理数据处理 地理数据处理,是所有地理问题研究的核心环节。地理数据处理,是所有地理问题研究的核心环节。 从理论上讲,在地理学中,数学方法的运用主要有两从理论上讲,在地理学中,数学方法的运用主要有两个目的:个目的: 1、运用数学语言对地理问题的描述,建立运用数学语言对地理问题的描述
14、,建立地理数学模型地理数学模型,从更高、更深层次上从更高、更深层次上揭示地理问题的机理揭示地理问题的机理; 2、运用有关数学方法,通过定量化的运用有关数学方法,通过定量化的计算和分析计算和分析,对地,对地理数据进行处理,从而理数据进行处理,从而揭示有关地理现象的内在规律揭示有关地理现象的内在规律。 因此,从一定意义上来说,地理数据处理也是计量地理因此,从一定意义上来说,地理数据处理也是计量地理学的任务之一。学的任务之一。 30 地理信息系统的核心功能是地理数据处理,它地理信息系统的核心功能是地理数据处理,它实现了实现了空间数据空间数据与与属性数据属性数据的完美结合的完美结合。数学方数学方法确实
15、是其强有力的支撑法确实是其强有力的支撑。 地理计算学(地理计算学(GeocomputationGeocomputation)的实质是借助)的实质是借助于现代化的于现代化的计算理论、计算方法和计算技术计算理论、计算方法和计算技术,通,通过对过对“整体整体”和和“大容量大容量”的地理数据进行处理,的地理数据进行处理,揭示复杂地理系统的运行机制,探索和寻求新的揭示复杂地理系统的运行机制,探索和寻求新的地理系统理论。地理系统理论。31 统计分组统计分组是将预处理过的数据按照某种特征或标是将预处理过的数据按照某种特征或标准分成不同的组别。准分成不同的组别。 统计分组标志统计分组标志:分组时所依据的特征或
16、标准,有品质标志品质标志和数量标志数量标志。 频数分布表频数分布表:对分组后的数据,计算各组中数对分组后的数据,计算各组中数据出现的次数或频数所形成的汇总表。据出现的次数或频数所形成的汇总表。 预处理数据预处理数据统计统计分组分组作分布图作分布图 第第4 4节节 地理数据地理数据的统计处理的统计处理 计算频数计算频数、频率,、频率,编制统计分组表编制统计分组表32 频数分布频数分布或次数分布次数分布(Frequency distribution):全部数据按其分组标志在全部数据按其分组标志在各组内的分布状况。各组内的分布状况。 分布在各组内的数据个数称为频数频数或次数次数。相对频数相对频数(R
17、elative frequency)/频率频率/比比重重:各组频数与全部频数之和的比重。 概念:概念:频数频数/次数分布;相对频数次数分布;相对频数33 (一)品质数据的分组与频数分布(一)品质数据的分组与频数分布Table, Data from a sample of 50 computer purchases(11/15,1994)IBMIBMPackard BellCompaqIBMPackard BellGateway200Packard BellCompaqCompaqGateway200Packard BellIBMAppleCompaqIBMPackard BellAppleAp
18、pleCompaqGateway2000CompaqPackard BellCompaqCompaqApplePackard BellPackard BellAppleIBMIBMAppleAppleGateway2000Packard BellAppleAppleIBMAppleIBMPackard BellAppleCompaqAppleCompaqPackard BellGateway200CompaqAppleCompaq 例例 :50个计算机购买者所购买的不同品牌的机型数据个计算机购买者所购买的不同品牌的机型数据34 Table, Frequency Distribution/Rel
19、ative and Percentage Frequency of Computer Purchases Company Frequency Relative Frequency Percentage Frequency Apple 13 0.26 26 Compaq 12 0.24 24 Gateway2000 5 0.10 10 IBM 9 0.18 18 Packard Bell 11 0.22 22 Total 50 1.00 100分组与求频数分组与求频数 :35分组计频分组计频基本步骤基本步骤: 确定组数确定组数 计算计算组距组距确定组限确定组限 (按组)整理整理成分布频数表成分布
20、频数表 例:例:一会计事务所对其20家客户(clients)年底帐目辑核(audits)时间(天)统计如下表: (二)数值数据的分组与频数分布(二)数值数据的分组与频数分布 可先将数据进行排序排序,然后后根据需要分组分组; 对较少的数据也可不排序直接根据需要分组。Table Year-End Audit Times(in days) 12 14 19 18 15 15 18 17 20 27 22 23 22 21 33 28 14 18 16 1336 第一步第一步,确定组数确定组数(Number of classes)。组数的确定一般视数据本身的特点及数据的多少而定。21010loglog
21、1NK 经验上经验上以520之间为好,尤其注意不要确定太多的组数,使得每组包含的数据太少。 实际分组实际分组时常按斯特格斯(Sturges)提出的经验公式来确定组数K:其中N为数据的个数(总体单位数或样本数),一般对结果取整数。 上例中:上例中:K=1+lg20/lg2=1+4.32=5.32 5NKlg32. 3137或查下表:N N3232646412812825625651251210241024204820484096409681928192n n6 67 78 89 91010111112121313141438 第二步第二步,确定组距确定组距:组距是一个组的上限与组距是一个组的上限
22、与下限之差下限之差,可根据全部数据的最大值和最小值及所分的组数来确定: 组距组距=(最大值(最大值 - 最小值)最小值)/组数组数 上例中,组距上例中,组距=(33-12)/5=4.2,可取整数,可取整数5为最为最后选定的组距。后选定的组距。 第三步,确定各组组限并据此计算组中值、整第三步,确定各组组限并据此计算组中值、整理频数分布表。理频数分布表。 第一组下限:数据最小值第一组下限:数据最小值1/2的组距的组距 第一组上限:下限组距第一组上限:下限组距 其他组依此类推。其他组依此类推。组中值(下限上限)组中值(下限上限)/239频数分布表如下: Audit Frequency Relativ
23、e Percent Time(days) Frequency Frequency 1015 4 0.20 20 1520 8 0.40 40 2025 5 0.25 25 2530 2 0.10 10 3035 1 0.05 5 Total 20 1.00 10040 1、分组所遵循的主要原则主要原则是“不重不漏不重不漏” 。因此, 最低组限最低组限 数据的最小值, 最大组限最大组限 数据的最大值; 另外另外,数据在每组中的归属习惯上采用“上组限上组限不在内不在内”。 注意:注意: 2、对离散型数据离散型数据,可采用相邻两组组限间断的办可采用相邻两组组限间断的办法解决法解决“不重不重”的问题的
24、问题(如610,1115,1620等); 对连续型数据连续型数据,往往采用相邻两组组限重叠,往往采用相邻两组组限重叠,根据根据“上限不在内原则上限不在内原则”解决解决“不重不重”问题问题(如5,10),10,15),15,20)等)。41 上例是离散型数据(天),采用组限间断方法修正,因此可得频数分布表如下:Audit Frequency Relative Percent Time(days) Frequency Frequency 1014 4 0.20 20 1519 8 0.40 40 2024 5 0.25 25 2529 2 0.10 10 3034 1 0.05 5 Total 2
25、0 1.00 10042 某车间某车间5050名工人日加工零件频数分布表名工人日加工零件频数分布表按零件数分组按零件数分组组中值组中值(m m)频数分布频数分布累计频数分布累计频数分布频数(频数(f fi i) 频率(频率()累计频数(累计频数(F F)累计频率()累计频率()105-109105-109110-114110-114115-119115-119120-124120-124125-129125-129130-134130-134135-139135-1391071071121121171171221221271271321321371373 35 58 8141410106 64
26、 46 6101016162828202012128 83 38 8161630304040464650506 61616323260608080929210010043例子:黄土高原西部地区某山区县的人工造林地调查数据分组序号1234567891011分组标志 (0,1(1,2(2,3(3,4(4,5(5,6(6,7(7,8(8,9(9,10(10,11)组中值 0.51.52.53.54.55.56.57.58.59.510. 5频数 25961362142532862602031548524频率1.445.537.8312.3314.5716.4714.9811.698.874.901.
27、38向上累计频数25121257471724101012701473162717121736向下累计频数 1736171116151479126510127264662631092444第四步,作频数(率)分布图第四步,作频数(率)分布图某车间某车间50名工人日加工零件频数(率)分布图名工人日加工零件频数(率)分布图频数分布图0246810121416107112117122127132137(个)频数051015202530频率()45累积频数(率)图05101520253035404550107112117122127132137(个)频数0102030405060708090100频率(
28、)某车间某车间50名工人日加工零件频数(率)分布图名工人日加工零件频数(率)分布图46050100150200250300350(0,1(1,2(2,3(3,4(4,5(5,6(6,7(7,8(8,9(9,10(10,11)黄土高原西部地区某山区县的人工造林地调查数据的频数黄土高原西部地区某山区县的人工造林地调查数据的频数分布的直方图分布的直方图 47将上图各组的频数分布从组中值位置用折线连接起来,得到频数分布的曲线图: 0501001502002503003500.5 1.5 2.5 3.5 4.5 5.5 6.5 7.5 8.5 9.5 10.548练习:上海市年降水量统计49974.89
29、74.81002.61002.61588.11588.1770.7770.71008.91008.91206.81206.81271.51271.51101.91101.91341.21341.21331.01331.01085.41085.41184.41184.41113.41113.41203.91203.91170.71170.7975.4975.41462.31462.3947.8947.81416.01416.0709.2709.21147.51147.5935.0935.01016.31016.31031.61031.61105.7849.91233.41233.41008.61008.61063.81063.81004.91004.91086.21086.21022.51022.51330.91330.91439.41439.41236.51088.11288.71288
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 石河子大学《语言程序设计》2021-2022学年期末试卷
- 石河子大学《双碳概论》2023-2024学年第一学期期末试卷
- 石河子大学《工程项目管理》2022-2023学年第一学期期末试卷
- 石河子大学《材料力学》2023-2024学年第一学期期末试卷
- 九年级数学专题总复习(含答案)
- 沈阳理工大学《力学》2021-2022学年第一学期期末试卷
- 沈阳理工大学《机电传动控制》2022-2023学年期末试卷
- 四史2023-2024-2学期学习通超星期末考试答案章节答案2024年
- 沈阳理工大学《动态网络广告》2022-2023学年期末试卷
- 关于合同法的专著
- KPI考核表-品质部
- Access数据库课程标准
- 幼儿园中班语言:《两只蚊子吹牛皮》 课件
- 临时用电漏电保护器运行检测记录表
- 头痛的国际分类(第三版)中文
- 音乐ppt课件《小小的船》
- 幼儿园教学课件语言教育《雪地里的小画家》
- 结构化面试经典100题及答案
- ESG引领下的西部城市再出发-新型城市竞争力策略研究白皮书
- 小学生班干部竞选自我介绍PPT模板公开课一等奖市赛课获奖课件
- 万科物业岗位说明书2
评论
0/150
提交评论