地理学数学方法_第1页
地理学数学方法_第2页
地理学数学方法_第3页
地理学数学方法_第4页
地理学数学方法_第5页
已阅读5页,还剩284页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、地理学数学方法第1章 计量地理学中的主要数学方法数学方法用途概率论 用于地理现象、地理要素的随机分布研究。 抽样调查 用于地理数据的采集和整理。 相关分析 分析地理要素之间的相关关系。 回归分析 拟合地理要素之间的数量关系、预测发展趋势。方差分析研究地理数据分布的离散程度。时间序列分析 用于地理过程时间序列的预测与控制研究。主成分分析用于地理数据的降维处理及地理要素的因素分析与综合评价。聚类分析 用于各种地理要素分类、各种地理区域划分。 判别分析 用于判别地理要素、地理单元的类型归属。 趋势面分析用于拟合地理要素的空间分布形态。协方差与变异函数用于研究地理要素的空间相关性及空间分布的数量规律。

2、克立格法 用于地理要素分布的空间局部估计与局部插值。 马尔可夫过程 用于研究随机地理过程、预测随机地理事件。 线性规划 用于研究有关规划与决策问题。 投入产出分析 用于产业部门联系分析、劳动地域构成分析、区域相互作用分析。多目标规划 用于研究有关规划与决策问题。非线性规划 用于研究有关规划与决策问题。动态规划用于有关多阶段地理决策问题的求解。网络分析 用于交通网络、通讯网络、河流水系等地理网络的研究。层次分析法 用于有关多层次、多要素战略决策问题的分析。风险型决策分析法用于各种风险型地理决策问题的分析。非确定型决策分析法用于各种非确定型地理决策问题的分析。模糊数学方法用于各种模糊地理现象、地理

3、过程、地理决策和系统评价研究。控制论用于地理过程、地理系统的调控研究。 信息论用于各种地理信息的分析、处理。突变论用于有关突发性地理现象、地理事件的研究。耗散结构理论用于有关地理系统、地理过程的组织与演化问题研究。协同学用于有关地理系统、地理过程的自组织问题研究。灰色系统方法用于灰色地理系统的分析、建模、控制与决策研究。系统动力学方法用于对地理系统的仿真、模拟和预测。分形理论用于有关地理实体的形态及要素分布形态的自相似机理研究。小波分析用于多层次、多尺度、多分辨率的地理时空过程的时频分析。人工神经网络用于有关地理模式的识别、地理过程机制的自学习及预测等。遗传算法用于复杂的非线性地理问题的计算。

4、细胞自动机用于有关地理过程的计算机模拟。2.数学方法主要应用方面 分布型分析对地理要素的分布特征及规律进行定量分析。 相互关系分析对地理要素、地理事物之间的相互关系进行定量分析。 分类研究对地理事物的类型和各种地理区域进行定量划分。 网络分析对水系、交通网络、行政区划、经济区域等的空间结构进行定量分析。 趋势面分析做出地理要素的趋势等值线图,展示所要分析的地理要素的空间分布规律。 空间相互作用分析定量分析各种“地理流”在不同区域之间流动的方向和强度。 系统仿真研究,步骤: 对复杂地理系统的各种系统要素之间的相互关系与反馈机制进行分析,构造系统结构; 建立描述系统的数学模型; 以适当的计算方法与

5、算法语言将数学模型转化为计算机可以识别运行的工作模型; 运行模型,对真实系统进行模拟仿真,从而揭示其运行机制与规律。 过程模拟与预测研究: 通过对地理过程的模拟与拟合,定量地揭示地理事物、地理现象随时间变化的规律,预测其未来发展趋势。 空间扩散研究:定量地揭示各种地理现象,包括自然现象、经济现象、社会现象、文化现象、技术现象在地理空间的扩散规律。 空间行为研究:主要是对人类活动的空间行为决策进行定量的研究。 地理系统优化调控研究:运用系统控制论的有关原理与方法,研究人地相互作用的地理系统的优化调控问题,寻找人口、资源、环境与社会经济协调发展的方法、途径与措施。 地理系统的复杂性研究:地理系统是

6、高度复杂的巨系统,其复杂系统研究已经引起了国际地理学界的高度重视。 应用中应该注意的几个问题应用中应该注意的几个问题 地理数据的筛选与质量检验问题 地理数据在建模分析中的作用: 确定模型中的参数与初值; 检验模型的正确性、合理性和有效性。 模型的建造问题n建模程序(威尔逊建模程序(威尔逊 ,英国),英国) 建造一个数学模型,首先必须明确建模的目标; 地理问题,即所研究的对象系统; 在各类变量中必须明确哪些变量是可控变量,即通过对哪些变量的调控可以使系统的行为发生改变; 在模型中,如何处理时间概念,即认为被研究的对象系统是无记忆系统还是记忆系统,是建立静态模型还是建立动态模型; 所建模型将采用什

7、么观点、解决哪些理论问题、与此问题有关的建立模型的基本假设,以及所依据的理论、将要解决的问题等都将直接或间接地体现在模型之中; 能用于建模的有关数据、资料是什么,可能性如何,应采用何种建模技术,有现成的技术方法可供借鉴还是需要建造新模型,采用什么方法确定模型的参数; 所建模型的精度及该模型的合理性和有效性如何,采用什么方法和手段检验所建模型。n数学方法和GIS的结合 研究一些复杂的地理问题,需要综合应用多种数学方法,建立一系列具有分析、模拟、仿真、预测、规划、决策、调控等多种功能的众多模型组成的模型系统。这些模型系统离不开GIS的支持。 GIS的基本技术及建造空间分析模型需要借助有关的数学方法

8、来实现。近几年来出现的基于知识的空间决策支持系统(苏理宏等,2000)就是数学方法、人工智能技术与GIS技术在地理学应用研究领域中相互结合的成功典范。第2章 地理数据及其采集与预处理本章主要内容 地理数据的类型地理数据的基本特征地理数据的采集与处理地理数据的统计处理地理数据分布的集中化与均衡度指数 第1节 地理数据的类型空间数据:空间数据:用于描述地理实体、地理要素、地理现象、地理事件及地理过程产生、存在和发展的地理位置、区域范围及空间联系。属性数据:属性数据:用于描述地理实体、地理要素、地理现象、地理事件、地理过程的有关属性特征。 两个概念:两个概念:一、空间数据点点由一个独立的坐标点(x,

9、y)定位,是空间上不可再分的几何实体。线线由若干个(至少两个,理论上是无穷个)坐标点(xi,yi)(i =1,2,)定义,有一定的长度和走向,表示线状地物或点实体之间的联系。 面面表示在空间上连续分布的地理景观或区域。点、线、面之间的拓扑关系拓扑关系。 图图2.1.1 2.1.1 三种基本的地理几何实体及其组合三种基本的地理几何实体及其组合 二、属性数据 数量标志数据数量标志数据 间隔尺度数据:以有量纲的数据形式表示测度对象在某种单位(量纲)下的绝对量。 比例尺度数据:以无量纲的数据形式表示测度对象的相对量。 品质标志数据品质标志数据 有序数据:当测度标准不是连续的量,只是表示其顺序关系的数据

10、。 二元数据:用0、1两个数据表示地理事物、地理现象或地理事件的是非判断问题。 名义尺度数据:用数字表示地理实体、地理要素、地理现象或地理事件的状态类型。 几种属性数据举例:年平均气温/年降水量/mm 土地面积/hm2 人口/人 国内生产总值/万元区域1 8.0 500.2 245.6 1 210 2 678.28 区域2 7.6498.61064.1 0232 015.47区域36.5550.9894.38481 754.56区域38.5586.4668.76541 365.46表2.1.1 间隔尺度数据间隔尺度数据比例尺度数据年 份19961997199819992000耕地复种指数120

11、.40113.56126.54132.76121.43农业发展指数100115.68124.50135.69129.56表2.1.2 某地区耕地复种指数和农业发展指数有序尺度数据城市A城市B城市C城市D城市E城市F规模等级123443人口位次12465 3表2.1.3 城市规模等级与人口数量的排位次序 二元数据城市A城市B城市C城市D城市E城市A1101城市B1110城市C1110城市D0111城市E1001表2.1.4 二元数据注:1表示两城市之间通航; 0表示两城市之间不通航。名义尺度数据地块序列号12345 6土地利用类型1315211414 31表2.1.5 土地利用类型第3节 地理数

12、据的采集与处理地理数据的采集 地理数据处理 一、地理数据的采集一、地理数据的采集 地理数据的渠道来源地理数据的渠道来源 来自于观测、测量部门的有关专业数据。 来自于统计年鉴、统计公报中的有关自然资源及社会经济发展数据。 来自于有关单位或个人的不定期的典型调查数据、抽样调查数据。 来自于政府公报、政府文件中的有关数据。 来自于档案、图书等文献资料中的有关数据。 来自于互联网(internet)的有关共享数据。 来自地图图件。主要包括各种比例尺的地形图、影像地图、专题地图等。 来自遥感数据。主要包括各种航空遥感数据和卫星遥感数据。 其他来源的有关数据。n采集地理数据过程中需要注意的问题采集地理数据

13、过程中需要注意的问题 数据的完备性和可靠性。 在数据采集过程中,最大限度地减小数据的误差。 在数据采集完毕后,进行检验,辨别真伪,通过数据筛选,去粗取精、去伪存真。二、地理数据处理 地理数据处理,是所有地理问题研究的核心环节。 从理论上讲,在地理学中,数学方法的运用主要有两个目的:(1)运用数学语言对地理问题的描述,建立地理数学模型,从更高、更深层次上揭示地理问题的机理;(2)运用有关数学方法,通过定量化的计算和分析,对地理数据进行处理,从而揭示有关地理现象的内在规律。因此,从一定意义上来说,地理数据处理也是计量地理学的任务之一。 地理信息系统的核心功能是地理数据处理,它实现了空间数据与属性数

14、据的完美结合。数学方法确实是其强有力的支撑。 地理计算学(Geocomputation)的实质是借助于现代化的计算理论、计算方法和计算技术,通过对“整体”和“大容量”的地理数据进行处理,揭示复杂地理系统的运行机制,探索和寻求新的地理系统理论。 地理数据的采集、处理及其与数学方法、地理信息系统、地理计算学之间的相互关系图: 地理数据的数据源地理数据采集数学方法GISGeocomputation地理处理数据图2.3.1 地理数据采集与处理 第4节 地理数据的统计处理统计整理几种常用的统计指标与参数应用实例:中国大陆省份人均GDP的变异系数一、统计整理 统计整理的基本步骤: 统计分组,就是根据研究目

15、的,按照一定的分组标志将地理数据分成若干组。 计算各组数据的频数、频率,编制统计分组表。 作分布图。例:对于黄土高原西部地区某山区县的人工造林地调查数据进行统计整理,步骤如下: (1)以地块面积作为统计分组标志进行分组; (2)计算各组数据的频数、频率,编制成如下的统计分组表;分组序号1234567891011分组标志 (0,1(1,2(2,3(3,4(4,5(5,6(6,7(7,8(8,9(9,10(10,11)组 中 值 0.51.52.53.54.55.56.57.58.59.510. 5频 数 25961362142532862602031548524频 率1.445.537.8312

16、.3314.5716.4714.9811.698.874.901.38向上累计频数251212574717241 0101 2701 4731 6271 7121 736向下累计频数 1 7361 7111 6151 4791 2651 01272646626310924表2.4.1 某县人工造林地面积的统计分组数据 (3)做出频数分布的直方图 :图2.4.1 频数分布柱状图 (4)将上图各组的频数分布从组中值位置用折线连接起来,得到频数分布的曲线图: 图2.4.2 频数分布曲线图 二、几种常用的统计指标与参数描述地理数据一般水平的指标描述地理数据分布的离散程度的指标描述地理数据分布特征的参数

17、(一)描述地理数据一般水平的指标(一)描述地理数据一般水平的指标 平均值平均值 反映了地理数据一般水平。计算方法: 未分组的地理数据 分组的地理数据 niixnx11miimiiifxfx11(2.4.1)(2.4.2) 中位数中位数 对于未分组的地理数据,样本数n为奇数时,中位数是位置排在第(n+1)/2位的数据;样本数n为偶数时,中位数是排在中间位置的两个数据的平均值。 分组的地理数据,中位数的计算方法: 确定中位数所在的组位置,按下述公式计算中位数 mmniiefSfdLM1121或mmniiefSfdUM1121(2.4.3)(2.4.4)在式(2.4.3)和 (2.4.4)中:Me代

18、表中位数;L为中位数所在组的下限值;U为中位数所在组的上限值;fm为中位数所在组的频数;Sm-1为中位数所在组以下的累计频数;Sm+1为中位数所在组以上的累计频数;d为中位数所在组的组距。众数众数 众数就是出现频数最多的那个数,计算方法分为以下两种情况: 未分组的地理数据,可以根据每一个数据出现的频数大小直接确定众数。 对于已经分组的地理数据,中位数的计算步骤如下: 确定频数最多的组为众数所在组。 按以下公式计算众数 2110dLM2120dUM或(2.4.5)(2.4.6)在式(2.4.5)和 (2.4.6)中:M0代表众数;L为众数所在组的下限值;U为众数所在组的上限值;1为众数组频数与下

19、一组频数之差;2为众数组频数与上一组频数之差;d为众数所在组的组距。例1:表2.4.2给出了某农场各农田地块的面积,试计算其平均值、中位数和众数。 地块编号 123456789101112平均值中位数众数面积/hm2 12835035555072408529657554.2552.550 应按照未分组数据计算其平均值、中位数和众数,计算结果见上表最后三列。 表2.4.2 某农场各农田地块的面积 例例2:表2.4.3给出了中国西部地区某城市2000年家庭月收入的抽样调查结果,试计算其平均值、中位数和众数。家庭月收入/元户数向上累计频数向下累计频数2 0003 000300300 2 1303 0

20、004 0001 3001 6001 8304 0005 0002001 8005305 0006 0001501 9503306 0007 0001002 0501807 0008 000502 100808 0009 000302 13030合 计2130表2.4.3 中国西部地区某城市2000年家庭月收入的 抽样调查结果 解题步骤: (1)用公式(2.4.2)计算平均数 (2)计算中位数。先确定中位数所在组的位置,再按照公式(2.4.3)或者(2.4.4)计算中位数 Me =3 588.46(元)x=3 899.06(元) (3)计算众数,先确定众数所在组,再按照公式(2.4.5)或(2

21、.4.6)计算众数。 显然,众数所在组应该在第二组。 众数M0 =3 476.19 (元)。(二)描述地理数据分布离散程度的指标(二)描述地理数据分布离散程度的指标极差极差 指所有数据中最大值与最小值之差,计算公式为离差离差 指每一个地理数据与平均值的差,计算公式为离差平方和离差平方和 它从总体上衡量一组地理数据与平均值的离散程度,其计算公式为minmaxiiiixxRxxdiiniixxd12)( (2.4.9) (2.4.8) (2.4.7) 方差与标准差方差与标准差 方差是从平均概况衡量一组地理数据与平均值的离散程度。方差计算公式为 标准差为方差的平方根,计算公式为nixixn12)(1

22、2(2.4.10)niixxn12)(1( 2.4.11) 如果以样本方差对标准差进行无偏估计,则计算公式为1)(12nxxSnii(2.4.12) 变异系数变异系数 变异系数表示地理数据的相对变化(波动)程度,其计算公式%1001)(1%10012nxxxxSCniiv(2.4.132.4.13)例如:对于表2.4.2中的数据,分别计算极差、离差、离差平方和、方差、标准差、标准差的无偏估计,以及变异系数。 地块编号 123456789101112平均值平均值中位中位数数众众数数面积/hm212835035555072408529657554.2552.550表2.4.2 某农场各农田地块的面

23、积 步骤 : (1)按照公式(2.4.7)计算极差 (2)按照公式(2.4.8)计算离差,结果见表2.4.4。 序号123456789101112面积128350355550724085296575离差-42.25 28.75-4.25 -19.25 0.75 -4.25 17.75-14.25 30.75-25.25 10.7520.75 731285R表2.4.4 地理数据的离差 (3)按照公式(2.4.9)计算离差平方和 (4)按照公式(2.4.10)计算方差 (5)按照公式(2.4.11)计算标准差 (6)按照公式(2.4.12)计算标准差的无偏估计 (7)按照公式(2.4.13)计算

24、变异系数 1212iidd19.47212122d73.2119.47221122dS%100 xSCv5 666.2521.729 90.418 4(三)描述地理数据分布特征的参数(三)描述地理数据分布特征的参数 偏度系数偏度系数 测度地理数据分布的不对称性情况,刻画以平均值为中心的偏向情况,计算公式为 g10,表示正偏,即均值在峰值的右边;g1=0,表示对称分布(如下图)。 3111niixxng(2.4.14)图2.4.3 偏度系数的三种情形 峰度系数峰度系数 它测度了地理数据在均值附近的集中程度,其计算公式为标准正态分布的峰度系数 g2 =0;g20,表示地理数据分布的集中程度高于正态

25、分布;g20,表示地理数据分布的集中程度低于正态分布(图2.4.4)。 niixxng14231图2.4.4 标准峰度系数的三种情形(2.4.15)三、应用实例:中国大陆省份人均GDP的变异系数 我们知道变异系数测度的是地理数据分布的相对差异。 为了分析中国大陆经济发展的省际差异及其演化过程,我们首先把19782002年各省(直辖市、自治区)的GDP数,按照可比价格进行折算,再除以人口数,计算出按照可比价衡量的人均GDP数据,然后再用公式(2.4.13)计算变异系数,结果如图2.4.5。图2.4.5 19782002年中国大陆省份人均GDP的变异系数 从图2.4.5中可以看出,在1978200

26、2年期间,人均GDP的变异系数,以1990年为转折点,呈现出一个U形曲线。即:人均GDP的变异系数,在19781990年期间基本上呈现下降趋势,而在19902002年期间则基本上呈现上升趋势。 这说明,在19781990年期间,中国大陆经济发展的省际差异,基本上呈缩小趋势,而19902002年期间则基本上呈扩大趋势。这一变化与国家宏观经济政策变动的时间、趋势大体一致。 第5节 地理数据分布的集中化与均衡度指数 罗伦次曲线与集中化指数 基尼系数 锡尔系数 (一)罗伦次曲线(一)罗伦次曲线 20世纪初,意大利统计学家罗伦次(M. Lorenz),首先使用累计频率曲线研究工业化的集中化程度。后来,这

27、种曲线就被称之为罗伦次曲线。 一、罗伦次曲线与集中化指数绘制罗伦次曲线绘制罗伦次曲线实例实例 (1)将表2.5.1各产业部门的收入及其占总收入比重(百分比),从大到小重新排序; (2)从大到小,逐次计算累计百分比; (3)以自然序号为横坐标(x),累计百分比为纵坐标(y);以(部门代码,累计百分比)为坐标点,连成一个上凸的曲线(图2.5.1和图2.5.2),即罗伦次曲线。表2.5.1 某地区农户家庭经营性纯收入水平及其构成 图2.5.1 1999年农户家庭经营性纯收入构成的罗伦次曲线图2.5.2 2004年农户家庭经营性纯收入构成的罗伦次曲线 结果分析 罗伦次曲线的上凸程度,表示农户家庭经营性

28、纯收入的部门集中化程度。上凸程度越大,就表示农户家庭经营性纯收入越是集中于某些产业部门。 如果各个产业部门的收入是均等的,则罗伦次曲线正好就变成了正方形的对角线。 比较图2.5.1和图2.5.2,可以看出该地区1999年农户家庭经营性纯收入的部门集中化程度高于2004年。 假若罗伦次曲线的解析式为: 显然,该曲线下方区域的面积为: 当数据均匀分布时,A就变成了对角线以下三角形的面积(R);当数据集中于一点时,A就变成了整个正方形的面积(M)。(二)集中化指数(二)集中化指数 集中化指数集中化指数 是一个描述地理数据分布的集中化程度的指数。 RMRAInXXfY, 2 , 1 , 0)(XXfA

29、nd )(0(2.5.3)。, 显然,I越大,就说明数据分布的集中化程度越高;反之,I越小,就说明数据分布的集中化程度越低(越均衡)。 常采用如下近似取值方法: A实际数据的累计百分比总和; R均匀分布时的累计百分比总和; M集中分布时的累计百分比总和。 集中化指数在0,1区间上取值。 只有数据的个数相同而且横坐标划分一致时,才有可比性。 二、基尼系数 基尼系数(基尼系数(g gini coefficientini coefficient) 就是通过两组数据的对比分析,纵、横坐标均以累计百分比表示,从而做出罗伦次曲线,然后再计算得出的集中化指数。它是通过对人口和收入两组数据进行比较分析,然后将

30、纵、横坐标均以累计百分比表示,作出罗伦次曲线,再计算集中化指数而得到的一个判断收入分配不平等程度的指标。其原理方法如下: (1)列出每一个区域(部门)的人口与收入占全区(各部门总计)的比重p与w; (2)计算每一区域(部门)的比率w/p; (3)根据w/p值,由小到大将每一地区(部门)排序; (4)按照上述顺序分别计算p和w的累计值X和Y; (5)以X为横坐标,以Y为纵坐标,在直角坐标系中依次连接各点,得到一条下凸的罗伦次曲线。 基尼系数(G)就可以按照如下公式计算 假若罗伦次曲线的解析式为: 显然,该曲线下方区域的面积为: 对应于绝对均衡分布,其罗伦次曲线就是正方形的对角线,其下方区域的面积

31、为R=1/2。XXfXfGd )(212/1)(2/11010XXfAd )(10 1 , 0)(XXfY(2.5.6),。 如果用幂函数拟合,则基尼系数的近似计算公式为 式中: 可以通过最小二乘法(详见第3 章)拟合,即11GkiiikiiXYX121)(ln)ln(ln(2.5.7) 根据分组数据,基尼系数也可以按照如下方法近似地计算: 按人均收入由低到高进行排序,分成若干组(如果不分组,则每一户或每一人为一组),每组收入占总收入比重为 ,每一组人口比重为 ,则基尼系数可以按照下式近似地计算 式中: 为从第1组到第i组的累积收入比重。niiiiwQpG1)2(1ikkiwQ1(2.5.8)

32、iwip 根据中国大陆19782002年各省(直辖市、自治区)的人口数和按照可比价格折算的GDP数据,计算基尼系数,结果如图2.5.4。可以看出,在19781990年期间,基尼系数虽然出现过几次上升和下降的微小波动,但基本趋势是缓慢地下降的;而在19912002年期间,基本上呈现上升趋势。这一结论,与上节计算的加权变异系数是相互印证的。 图2.5.4 19782002年中国大陆省际收入差异的基尼系数 三、锡尔系数 基尼系数(gini coefficient),用于对经济发展、收入分配等均衡(不均衡)状况,进行定量化的描述。 锡尔系数又称锡尔熵,有两个锡尔系数指标,即锡尔系数T 和锡尔系数L。

33、两者的不同之处在于锡尔系数T 以收入比重加权计算,而锡尔系数L则以人口比重加权计算。 如果以人口比重加权,锡尔系数 L 的计算公式为 式中:n为区域(部门)个数; 为i地区(部门)收入占全区(各部门总计)的份额; 为i地区(部门)的人口占全区(各部门总计)的份额。 )log(1iiniiyppLiyip(2.5.9) 如果以收入比重加权,则锡尔系数 T 的计算公式为 锡尔系数越大,就表示收入分配差异越大;反之,锡尔系数越小,就表示收入分配越均衡。 niiiipyyT1log(2.5.10) 根据各省(直辖市、自治区)的人口和按照可比价格折算的GDP数据,计算19782002年中国大陆省际差异的

34、锡尔系数T 值,结果如图2.5.5所示。可以看出,在19781990年期间,锡尔系数虽然有微小波动,但基本上呈下降趋势;而在19912002年期间,基本上呈现出上升趋势。这一结论,与前面计算出的基尼系数也是相互印证的。 图2.5.5 19782002年中国大陆省际收入差异的锡尔系数第第3 3章章 地理学中的经典地理学中的经典统计分析方法统计分析方法本章主要内容相关分析回归分析时间序列分析系统聚类分析主成分分析趋势面分析方法马尔可夫预测方法第1节 相关分析 相关分析的任务,是揭示地理要素之间相互关系的密切程度。而地理要素之间相互关系密切程度的测定,主要是通过对相关系数的计算与检验来完成的。本节主

35、要内容:两要素之间相关程度的测定多要素间相关程度的测定一、两要素之间相关程度的测定相关系数的计算与检验秩相关系数的计算与检验相关系数的计算相关系数的计算 定义: 和 为两要素的平均值。 niiniiniiixyyyxxyyxxr12121)()()(yx(3.1.1)(一)相关系数的计算与检验(一)相关系数的计算与检验 说明 :- 1 = 0.432,所以在=0.01的置信水平上来看,中国大陆各省(直辖市、自治区)人口规模与GDP是等级相关的。 rr01. 0rxyr01. 0r二、多要素间相关程度的测定偏相关系数的计算与检验复相关系数的计算与检验 (一)偏相关系数的计算与检验(一)偏相关系数

36、的计算与检验 定义:在多要素所构成的地理系统中,先不考虑其他要素的影响,而单独研究两个要素之间的相互关系的密切程度,这称为偏相关。用以度量偏相关程度的统计量,称为偏相关系数。n偏相关系数的计算偏相关系数的计算 计算:3个要素的偏相关系数)1)(1(2232132313123.12rrrrrr(3.1.5) (3.1.6) )1)(1(2232122312132.13rrrrrr)1)(1(2132121312231.23rrrrrr(3.1.7) 4个要素的偏相关系数(3.1.8) )1)(1(23.2423.143.243.143.1234.12rrrrrr)1)(1(22.3422.142

37、.342.142.1324.13rrrrrr(3.1.9) )1)(1(22.4322.132.432.132.1423.14rrrrrr(3.1.10) )1)(1(21.3421.241.341.241.2314.23rrrrrr(3.1.11) 例如:对于某4个地理要素x1,x2,x3,x4的23个样本数据,经过计算得到了如下的单相关系数矩阵: 1469.0950.0579.0469.01592.0346.0950.0592.01416.0579.0346.0416.0144434241343332312423222114131211rrrrrrrrrrrrrrrrR 利用公式计算一级偏

38、向关系数,如表3.1.6所示:r1234r1324r1423r2314r2413r3412-0.1700.8020.635-0.1870.821 -0.337r123r132r142r143r231r241r243r241r3420.8210.8080.6470.895-0.8630.9560.945-0.8750.371 利用公式计算二级偏相关系数,如表3.1.7所示: 4个要素的一级偏相关系数有12个,这里给出了9个;二级偏相关系数有6个,这里全部给出来了。表表3.1.6 3.1.6 一级偏相关系数一级偏相关系数 表表3.1.7 3.1.7 二级偏相关系数二级偏相关系数 n 偏相关系数的性

39、质偏相关系数的性质 偏相关系数分布的范围在-1到1之间; 偏相关系数的绝对值越大,表示其偏相关程度越大; 偏相关系数的绝对值必小于或最多等于由同一系列资料所求得的复相关系数,即 R123|r123|。偏相关系数的显著性检验偏相关系数的显著性检验 偏相关系数的显著性检验,一般采用t检验法。其统计量计算公式为 式中: 为偏相关系数;n为样本数;m为自变量个数。 11341223412 mnrrtmm(3.1.14) mr312 查t分布表,在自由度为23-3-1=19时,t0.001=3.883,显然 ,这表明在置信度水平 =0.001上,偏相关系数r2413是显著的。268. 61323821.

40、 01821. 02ttt 譬如,对于上例计算得到的偏相关系数 ,由于n=23,m=3,故821. 01324r(二)复相关系数的计算与检验(二)复相关系数的计算与检验 复相关系数:反映几个要素与某一个要素之间的复相关程度 。 复相关系数的计算复相关系数的计算 当有两个自变量时 当有三个自变量时(3.1.15) )1)(1 (11 . 221212.yyyrrR)1)(1)(1 (112. 321 . 2212123.yyyyrrrR(3.1.16)当有k个自变量时)1 )1)(1 (1)1.(12.21 .2212.12. kykyykyrrrR(3.1.17) 复相关系数的性质 复相关系数

41、介于0到1之间,即1012.kyR 复相关系数越大,则表明要素(变量)之间的相关程度越密切。复相关系数为1,表示完全相关;复相关系数为0,表示完全无关。 复相关系数必大于或至少等于单相关系数的绝对值。复相关系数的显著性检验复相关系数的显著性检验 F检验法。其统计量计算公式为kknRRFkyky11212.212.(3.1.18)例题:在上例中,若以x4为因变量,x1,x2,x3为自变量,试计算x4与x1,x2,x3之间的复相关系数。 解:按照公式(3.1.16)计算 检验: ,故复相关达到了极显著水平。974.0337.01)(956.01)(579.01 (1)1)(1)(1 (122221

42、2.4321 .42241123.4)rrrR3010. 57190.12001. 0FF第2节 回归分析一元线性回归模型多元线性回归模型非线性回归模型一、一元线性回归模型 定义:假设有两个地理要素(变量)x 和y,x为自变量,y为因变量。则一元线性回归模型的基本结构形式为 式中:a和b为待定参数; 为各组观测数据的下标; 为随机变量。bxay(3.2.1) n,1,2,a 记 和 分别为参数a与b的拟合值,则一元线性回归模型为 (3.2.2)式代表x与y之间相关关系的拟合直线,称为回归直线; 是y的估计值,亦称回归值。a bxbay(3.2.2) y 参数a与b的最小二乘拟合原则要求yi与

43、的误差ei的平方和达到最小,即 根据取极值的必要条件,有 niiininiiiibxayyyeQ121122min)()(niiiiniiixbxaybxay110)(0)((3.2.4) iy (一)参数(一)参数a、b的最小二乘估计的最小二乘估计 (3.2.3) niiniiixxxyxxyyxxLLb121)()(xbya2112111)(1)(1niiniininiiniiiixnxyxnyx(3.2.5) (3.2.6) 解上述正规方程组(3.2.4)式,得到参数a与b的拟合值 (二)一元线性回归模型的显著性检验(二)一元线性回归模型的显著性检验 方法:F 检验法。 总的离差平方和:

44、在回归分析中,表示y的n次观测值之间的差异,记为 可以证明(3.2.9)niiyyyyLS12)(总niiyyyyLS12)(总niniiiiUQyyyy1122)()((3.2.8) 在式(3.2.9)中,Q称为误差平方和,或剩余平方和 而 称为回归平方和。niiiyyQ12)(xyxxniiniiniiibLLbxxbxbabxayyU21221212)()()( 统计量F F越大,模型的效果越佳。统计量FF(1,n-2)。在显著水平下,若FF,则认为回归方程效果在此水平下显著。一般地,当FF0.10(1,n-2)时,则认为方程效果不明显。 2nQUF(3.2.10) 二、多元线性回归模型

45、回归模型的建立回归模型的建立 多元线性回归模型的结构形式为 aakaaaxxxyk22110(3.2.11) 式中: 为待定参数; 为随机变量。 k,10a 回归方程: 如果 分别为式(3.2.11)中 的拟和值,则回归方程为 在(3.2.12)式中,b0为常数,b1,b2,bk称为偏回归系数。偏回归系数的意义是,当其他自变量都固定时,自变量 每变化一个单位而使因变量平均改变的数值。kkxbxbxbby22110(3.2.12) kbbb,10k,210ix 偏回归系数的推导过程:根据最小二乘法原理, 的估计值 应该使 由求极值的必要条件得 方程组(3.2.14)式经展开整理后得 min)()

46、(122211012nakakaaanaaaxbxbxbbyyyQ(3.2.13) ),2, 1(0)(20)(2110kjxyybQyybQnajaaajnaaa), 2 , 1 , 0(kii)(k,1,2, 0iib(3.2.14) 方程组(3.2.15)式称为正规方程组。 引入矩阵nanaakanakkanakaakaanakananaaanakkaanaaaanaananaaanakkaanaaanaananaanakkanaaayxbxbxxbxxbxyxbxxbxbxxbxyxbxxbxxbxbxybxbxbxnb111221211011121221221210121111121

47、21121011111212110)(.)()()()()()()()()()()()()()( (3.2.15) knnnkkxxxxxxxxxxxxX2132313222121k211111.11knnnkkkknkkknnTxxxxxxxxxxxxxxxxxxxxxxxxXXA213231322212121113212232221113121111111111nakanakaanakaanakanakaanaanaaanaanakaanaaananaanakanaanaaxxxxxxxxxxxxxxxxxxxxxn12121111212212112111211211111211nyyyY

48、21nbbbbb210 则正规方程组(3.2.15)式可以进一步写成矩阵形式BAb naakanaaanaaanaanknkkknnTyyyxyxyyyyyxxxxxxxxxxxxYXB112111321321223222111312111111求解得引入记号 YXXXBAbTT11)(najjiiajiijxxxxLL1)(naaiiaiyyyxxL1)((3.2.16) ),2, 1,(kji),2,1(ki正规方程组也可以写成kkkykkkkkykkykkxbxbxbybLbLbLbLLbLbLbLLbLbLbL2211022112222212111212111)51 . 2 . 3(

49、n回归模型的显著性检验回归模型的显著性检验 回归平方和U与剩余平方和Q: 回归平方和 剩余平方和为 F统计量为 计算出来F之后,可以查F分布表对模型进行显著性检验。k21x,x,xQULSyy总nanaiyiLbyyU112)(nayyaaULyyQ12)()1/(/knQkUF非线性关系线性化的几种情况非线性关系线性化的几种情况对于指数曲线 ,令 , 可以将其转化为直线形式: , 其中, ; 对于对数曲线 ,令 , ,可以将其转化为直线形式: ;对于幂函数曲线 ,令 , ,可以将其转化为直线形式: 其中, ; 三、非线性回归模型 bxdyexbayxbaylnxbaybdxy xbayyyl

50、nxx dalnyy xxlnyylnxxlndaln对于双曲线 ,令 ,转化为直线形式: ; 对于S型曲线 ,可 转化为直线形式: ; 对于幂乘积 ,只要令 ,就可以将其转化为线性形式 其中, ;xbay1xbayxxxyybaye,1,e1令xbaykkxxdxy2121kkxxxy22110 xxyy1,1kkxxxxxxyyln,ln,ln,ln2211dln0对于对数函数和 只要令 ,就可以将其化为线性形式 例例: :表3.2.1给出了某地区林地景观斑块面积(area)与周长(perimeter)的数据。下面我们建立林地景观斑块面积A与周长P之间的非线性回归模型 。 kkxxxyln

51、lnln22110kkxxxy22110kkxxxxxxyyln,ln,ln,2211 序号面积A周长P序号面积A周长P110 447.370625.39242232 844.3004 282.043215 974.730612.286434 054.660289.307330 976.770775.7124430 833.840895.98049 442.902530.202451 823.355205.131510 858.9201 906.1034626 270.300968.060621 532.9101 297.9624713 573.9601 045.07276 891.68041

52、7.0584865 590.0802 250.43583 695.195243.90749157 270.4002 407.54992 260.180197.239502 086.426266.54110334.33299.729513 109.070261.8181111 749.080558.921522 038.617320.396122 372.105199.667533 432.137253.335138 390.633592.893541 600.391230.030146 003.719459.467553 867.586419.406表3.2.1 某地区各个林地景观斑块面积(m

53、2)与周长(m) 15527 620.2006 545.291561 946.184198.66116179 686.2002 960.4755777.30556.9021714 196.460597.993587 977.719715.7521822 809.1801 103.0705919 271.8201 011.1271971 195.9401 154.118608 263.480680.710203 064.242245.049 6114 697.1301 234.1142146 9416.7008 226.009624 519.867326.317225 738.953498.65

54、66313 157.6601 172.916238 359.465415.151646 617.270609.801246 205.016414.790 654 064.137437.355256 0619.0201 549.871665 645.820432.355261 4517.740791.943676 993.355503.7842731 020.1001 700.965684 304.281267.9512826 447.1601 246.977696 336.383347.136297 985.926918.312702 651.414292.235303 638.766399.

55、725712 656.824298.4733158 5425.10011 474.770721 846.988179.8663235 220.6401 877.476731 616.684172.8083310 067.820497.394741 730.563172.1433427 422.5701 934.5967511 303.970881.0423543 071.5501 171.4137614 019.790638.1763657 585.9402 275.389779 277.172862.0883728 254.1301 322.7957813 684.750712.787384

56、97 261.0009 581.298791 949.164228.4033924 255.030994.906804 846.016324.481401 837.699229.40181521 457.4007 393.938411 608.625225.84282564 370.80012 212.410 解解:(1)作变量替换,令: , ,将表3.2.1中的原始数据进行对数变换,变换后得到的各新变量对应的观测数据如表3.2.2所示。 AylnPxln序号y=lnAx=LnP序号y=lnAx=LnP1 9.254 1066.438 3794212.358 138.362 1862 9.67

57、8 7636.417 243 8.307 6225.667 487310.340 996.653 7824410.336 376.797 9184 9.153 0196.273 258457.508 4335.323 655 9.292 7427.552 8164610.176 196.875 2946 9.977 3387.168 551479.515 9096.951 8417 8.838 076.033 2264811.091 187.718 8798 8.214 7895.496 7894911.965 727.786 3649 7.723 25.284 414507.643 2085

58、.585 52810 5.812 1354.602 457518.042 0795.567 65111 9.371 536.326 008527.620 0275.7695 58表3.2.2 经对数变换后的数据127.771 5335.296 653538.140 9385.534 711139.034 8716.385 013547.378 0035.438 211148.700 1346.130 066558.260 3866.038 8391513.176 138.786 501567.573 6265.291 5971612.098 977.993 105574.347 7554.04

59、1 328179.560 7486.393 579588.984 4086.573 3341810.034 927.005 852599.866 3996.918 8211911.173 197.051 092609.019 6016.523 136208.027 5565.501 457619.595 4087.118 1092113.059 259.0150 56628.416 2385.787 871228.655 0326.211 917639.484 7597.067 248239.031 156.028 643648.797 4386.413 133248.733 1136.027

60、 773658.309 9576.080 7442511.012 367.345 927668.638 6716.069 247269.583 1276.674 49678.852 7166.222 1472710.342 397.438 951688.367 3655.590 8062810.182 97.128 478698.754 0635.849 717298.985 4366.822 537707.882 8485.677 56308.199 45.990 776717.884 8875.698 6783113.280 099.347 906727.521 3115.192 2133

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论