版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、.1.名词解释:空间效应是空间计量经济学的基本特征,它是反映着空间因素的影响。空间效应可分为空间相关性和空间异质性。(1)空间自相关性自相关的这个“自”,表示你进行相关性观察统计量,是来源于不同对象的同一个属性,比如两学生(不同对象),同时对他们的数学成绩(统一属性)进行统计,如果他们同桌(空间邻接),而且A考得好B就考得好,A考不好B也考不好(高端相关),那么基本上就可以判定他们他们的空间自相关性很强有考试串通作弊的行为。(2)空间异质性(spatial heterogeneity):是指因为空间位置的不同而引发的获取到不同的数据(因为观察位置不同,而引发的不同特征)。空间异质性与空间自相关
2、的表示方法还是有所不同的,它无法用一个具体的指数或指标来描述。更好的形容他的话,它是一种性质、一种现象,或者说是一种在我们的分析过程中需要充分考虑的因素,以及一种解释某些异常变化的原因。一般来说,空间异质性,会用来解释,在不同的区域,某些类别数值相互之间的关系产生变化的原因,揭示这个变化的规律或者原因产生积极的作用。(3)空间差异(spatial disparity)是指不同地域范畴因为(社会、经济等)发展水平及其结构不同,而产生的差异(4)空间非平稳性是空间异质性的一种表现形式,不能等同。因为地理位置的变化,而引起的变量间关系或结构的变化称之为“空间非平稳性”。(5)在空间统计中,零假设指的
3、是空间位置在一定区域里呈现完全随机(均匀)分布。2.地理加权回归的由来伪吃货眼里的中国地图 吃货眼里的地图以上两图就是用全局眼光和局部眼光两个角度对中国美食的定义。一直以来,我们都在赞美全局思维,批判局部思维,比如“盲人摸象”等。但是在分析的时候,很多时候,全局的思路反而会带来各种问题,比如:寒冷的冬季,全国天气预报温馨提示:全国平均温度18,18对于人体来说应该是比较适宜、舒服的温度,但是,你在此时身在东北,这里的气温明明已经达到了零下十几度。我们不能说天气预报不准确,因为综合考虑以海南为代表的南方气温以及以哈尔滨为代表的北方气温,得到这个数字是完全正确的。所以,这种全局的思考模式在实际生活
4、中是很难得到应用的。从概念上来说,进行分析的时候,全局模式(global model)在分析之前,就假定了变量的关系具有同质性(homogeneity),从而掩盖了变量间关系的局部特征,所得到的结果是研究区域内的某种“平均”。但是就像上面所举的“全国各地区气温存在差异”的例子,这种因为地理位置的变化,而引起的变量间关系或结构的变化称之为“空间非平稳性”。出现“空间非平稳性”的原因可能包括以下三点:(1)随机抽样的误差引起的。但是抽样误差是无法避免的,所以统计学上一般只假定它服从某一分布,这对分析本身的关系作用不大。(2)由于分析的模型与实际不符,或者忽略了模型中本来应该有的一些回归变量而导致的
5、空间非平稳性。(3)由于各地区不同的自然环境、人文环境等差异所引起的变量间的关系随着地理位置的变化而变化。这种变化反应是数据本身的空间特征,所以在空间分析中是需要着重注意的地方。应对“空间非平稳性”有以下方法:序号方法原理缺点1局部回归分析把研究区域根据某种指标,划分成若干同质性的区域,然后分别进行回归缺点区域为人为划分,各区域内样本数据不一致2移动窗口回归在每个样本的周边定义一个回归区域,这个区域由窗口的大小和性质决定,以窗口内的样本数据简历回归方程进行参数估计虽然解决了边界突然跳变的问题,但是依然无法避免相邻的回归点上的参数估计的跳变问题。从本质上依然是一种全局性的回归。3变参数回归模型是
6、地理加权回归的前身,将地理位置作为全局模型中的参数加入建模和运算。如果空间模型的参数变化更加复杂,这个方法就不起作用了【注】按照行政区的划分,不论各种人文环境,在行政区划的交界处,会因为不同区域内的参数估计不一样,而产生突然的“跳变”。但是实际上,很多空间关系在行政区划或者自然区域的交界处的变化是缓慢而连续的。所以,总结上述解决“空间非平稳性”的方法,美国科学院院士,英国圣安德鲁斯大学的A.Stewart Fotheringham教授在1996年,正式提出地理加权回归(Geographical weighted regression, GWR)。3.地理加权回归(GWR)方法的发展历程4.使用
7、GWR方法的适用条件5.使用GWR方法的基础5.1空间自相关:由于空间地理现象之间的复杂关系,空间数据比一般的统计数据包含了更多复杂的性质,其中典型的特征是空间自相关,它使得空间数据无法满足数据独立性的假设。空间自相关是根据位置相似性和属性相似性的匹配情况来测度的,位置的相似性由空间权重矩阵W来描述,而属性值的相似性,一般通过交叉乘积XiXj ,或平方差异(Xi-Xj)2,或绝对差异Xi-Xj来描述,若存在正空间自相关,则在近邻的位置上的属性值的差异小。l 全局Morans I空间自相关统计-Morans I(还有Gearys C统计量法,但是由于我们一直以来使用的都是Morans I法,这里
8、就介绍Morans I方法)Morans I=i=1nj=1nWij(yi-y)(yj-y)S2i=1nj=1nWijS2=i=1nyi-ynn为地区总数; yi为第i个单元上的观测值, ; 观测变量在n个单元中的均值记为y ; Wij为空间权值矩阵W和(yi-y)(yj-y)的乘积相当于对相邻的单元进行计算,于是I值的大小决定于i和j单元中的变量值对于均值的偏离符号,若在相邻的位置上,yi和yj是同号的,则I为正,yi和yj是异号的,则I为负。Morans I指数的变化范围为(-1,1)。如果空间过程是不相关的,则I的期望值接近于0,当I取负值时,一般表示负相关,I值为正值,则表示正相关。统
9、计的ZI得分按以下形式计算:Z=Morans I-E(I)VAR(I)其中,EI=-1n-1,VARI=E(I)-E2(I)Z得分P值(概率)置信度+1.650.1090%+1.960.0595%+2.58F) degrees of freedom F统计量的可信概率的自由度 Joint Wald Statistic 联合卡方统计量 Prob(chi-squared) degrees of freedom 卡方统计量的可信概率的自由度联合 F 统计量和联合卡方统计量均用于检验整个模型的统计显著性(被解释变量与解释变量的线性关系) 卡方统计量:把符合正态分布的数据计算平方和,就会得到一个新的数据
10、,这个数据就是符合卡方分布的数据。 自由度:自由度的意思是,要进行计算的时候,取值不受限制的变量个数,自由度越大,取值的可选择余地就越大,在卡方分布中,自由度就是你那组正态分布的数据的个数个数越多,取值的可选余地越大,那么分布就越接近正态分布。 卡方统计量的可信概率的自由度: F统计量:如果说卡方分布是一个变量的分布,那么F分布,就是两个变量的分布,他们的关系如下: F统计量的可信概率的自由度:(12)Jarque-Bera Statistic:模型偏差评估。 Jarque-Bera 统计量用于表示模型的残差(已观测/已知的因变量值 - 预测/估计值)是否呈现正态分布。P值表示了模型的残差是不
11、是正态分布,如果P值可信(超过95%的置信度),则正态,不可信,则非正态。 如果发现模型的残差非正态,则表示模型可能出现了偏差。如果,Jarque-Bera 统计量的P值表示,结果出现了偏差(也就是说残差的分布是不均衡的),那么说明自变量的分布,可能影响到了回归模型,所以这种情况下,我们可以尝试对某些偏差严重的自变量进行一些变换,然后重新建模验证,如进行Log变换、采用GWR建模等。第三页:因变量与自变量相关性的一个检测根据每组变量,形成一个自变量的分布柱状图以及自变量和因变量组成的散点和回归图。【注】OLS对自变量的分布是否为正态,并没有要求。散点图表示是自变量与因变量之间的相关性,回归线表
12、示相关度,需要注意的是没有给出明确的指数。理论上,每个自变量应该都要与因变量有相关性,如果某组出现了非线性,则表示此自变量无法对因变量进行解释,要么剔除,要么需要进行变换。第四页: 残差分布结果柱状图:如果呈现正态分布,则表示此模型的表现比较优异,如果出现了严重的偏态,那么说明模型应该是有问题的。注意:图上的蓝色正态曲线和数据无关,它的作用的标准标尺,柱状图才是数据,如果柱状图和曲线趋势一样,就表示正态,否则就不正态。第五页:因变量的预测值与残差值的分布图从理论上来说,预测值和残差值应该没有任何的相关性,因为任何预测和残差的情况的产生都是随机的,这样才是最优,如果出现了相关性,就表示某些残差的
13、出现是有规律的,这样就表示模型出现了偏差。上图中负残差集中度明显高于正残差。6.地理加权回归方法原理:空间统计有别于经典统计学的两大特征就是:空间相关性和空间异质性,莫兰指数等可以用来量化空间相关性,那么地理加权回归(GWR)就可以量化空间异质性。6.1地理加权回归的原理yi=0i,i+kk(i,i)xik+i 为第i个采样点的被解释变量, (, )是第i个采样点的坐标,0 (, )为第i个采样点的常数项,为第i个采样点的k个解释变量,为随机误差,服从方差为常数的随机分布。 (,)是第i个采样点上的第k个回归参数,k(i,i)=j=1nWij(yi-io-k=1pikXik)是地理位置的函数。
14、其中Wij是空间权重矩阵。 利用上面的公式,就可以对所有的样本点进行逐步的计算,每个样本点计算的时候,其他的参与计算的样本都会根据与这个样本点不同的空间关系赋予不同的权值,这样最后就可以得到每个不同样本的相关系数了。该方法最重要的就是这个距离衰减函数,正因为有这个衰减函数,得出不同的权重,这个方法才会被叫“地理加权回归分析”,这个衰减函数的理论基础,正是Tobler提出所谓的“地理学第一定律”(Toblers First Law/ Toblers First Law of Geography):位置越接近的数据,比远处的数据对结果的影响更大。(那么这个影响在数学上,就量化成为了权重)l 空间权
15、重是什么?左图为无向图,右边则是所谓的距离矩阵。因为在空间分析里面,需要进行空间关系的概念化,所以也称为空间权重矩阵。有权重矩阵之后,带入到矩阵中,得出如下方程:在实际应用中,常见的空间权函数主要有以下几种:1.高斯函数:wij=e(-dijb)2其中,dij是数据点j到回归点i的距离,b是描述权重与距离之间函数关系的非负衰减函数,称为带宽,带宽越大,权重随距离的增加衰减的越慢,带宽越小,权重随距离的增加衰减的就快。2.双重平方函数因为ARCGIS在做GWR时,在选择空间权函数方面默认了选择高斯函数,所以,对第二种方法不做赘述。l 这两种距离函数都非常倚赖带宽b,那么这个带宽和确定呢?实际上,
16、所谓的带宽,通常就是一个影响的范围,实际回归结果上对各种函数的选择,并不是那么敏感,但是对带宽的选择,却相当的敏感。幸运的是,地理加权回归里面,提出了几个理论以及相应的指数来对“最佳”带宽,进行探索和应用。(1)国际上最普遍的方法就是用Cleveland(1979)和Bowman(1984)提出的交叉确认(cross-validation, CV)方法来确定:当CV值到达最小的时候,对应的b就是所需要的带宽。由于采用不同的空间加权函数会得到不同的带宽。(2)Fotheringham等在2002的论文中提出了这样一个准则:当GWR模型的AIC最小的时候,就是最佳带宽。AIC(Akaike inf
17、ormation criterion),是衡量统计模型拟合优良性的一种标准,是由日本统计学家赤池弘次创立和发展的,其建立在熵的概念基础上,可以衡量所估计模型的复杂度和此模型拟合数据的优良性。简单的说,就是用两个参数来对模型进行估计:AIC = (2倍(模型的独立参数个数)- 两倍 ln(模型的极大似然函数)/ 观测值个数首先AIC法假设误差的出现是服从独立正态分布的,所以采用极大似然函数就有意义了。(极大似然函数的问题,请大家自信百度简单的说,就是一种建立在统计分布上的估算方法,假设有N种结果,如果我们仅作一次实验,出现哪个结果,就认为哪个结果概率最大,这种简单粗暴的方法,我喜欢。)AIC的大
18、小取决于独立参数的个数和模型的极大似然函数两个值,参数值少,AIC小,且极大似然函数大,AIC也小,参数少表示模型简洁,极大似然函数大表示模型精确。因此AIC和修正的决定系数类似,在评价模型是兼顾了简洁性和精确性当两个模型之间存在较大差异的时候,这个差异肯定首先出现在模型的极大似然函数上;而这个函数没有出现显著的差异的时候,模型的独立参数个数才起作用了,从而,参数个数越少的模型,表现得越好。也就是这个原因,这个准则才被称为:最小信息准则。6.2地理加权回归操作进入ARCGIS的地理加权回归界面:进入界面操作结果一:message信息结果二:数据可视化信息图里数值和颜色,主要是系数的标准误差。主
19、要用来衡量每个系数估计值的可靠性。标准差与实际系数值相比较小是,这些估计值的可信度会更高。较大标准误差可能表示局部多重共线性存在问题。超过2.5倍标准差的地方,这些地方会有问题,从上图,我们可以看出不存在这样的情况。结果三:模型信息(1)Neighbors:研究地区的个数(2)Residual Squares指模型中的残差平方和(残差为观测所得 y 值与 GWR 模型所返回的 y 值估计值之间的差值)。此测量值越小,GWR 模型越拟合观测数据。此值还在其他多个诊断测量值中使用。(3)effective number这个值与带宽的选择有关。是拟合值的方差与系数估计值的偏差之间的折衷表示。那么对于
20、大的带宽来说,所有的要素都被包含进回归方程里面,那么回归方程系数的有效数量接近实际的数量(地理加权的权重都是1)。而对于局部来说,它的估计值就具有相对较小的方差(局部和全局差不多,值散布范围很小),但是偏差就大了(异质性何在)但是当带宽无限接近0的时候,除要素本身外,旁边所有的临近要素的权重均为0,这样的回归方程的有效系数就变成了回归点本身。这两种情况,正好是两种极端,都不是我们所希望的,那么,我们就需要在中间找到一个平衡点。effective number这个值,就是用于衡量这个平衡点的数值。这个数值主要用于诊断不同的模型中使用。(4)Sigma其为标准化剩余平方和的平方根,是残差的估计标准差,此统计值越小越好,主要用于AICc计算。结果四:回归具体结果(5)Observed F因变量的观测值,实际上这个值就是直接从原始数据中的因变量字段的值。(6)Cond条件数:这个数值用于此诊断评估局部多重共线性。存在较强局部多重共线性的情况下,结果将变得不稳定。所以这里如
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 超市经营合同三篇
- 医用电子仪器设备相关行业投资方案范本
- 市场定位与品牌战略计划
- 新型地热用热交换器相关项目投资计划书
- UV激光切割机相关行业投资规划报告范本
- 大孔烧结空心砖相关行业投资规划报告
- 结合地方文化的艺术课程设计计划
- 汽车厂生产线升级改造工程合同三篇
- 葡萄运输合同三篇
- 设计优化培训
- 儿童流感诊疗及预防指南(2024医生版)
- 【课件】第21课《小圣施威降大圣》课件2024-2025学年统编版语文七年级上册
- 工程计价学-001-国开机考复习资料
- 《孟母三迁》课本剧剧本:环境对成长的重要性(6篇)
- 《富马酸卢帕他定口崩片关键质量属性与标准研究》
- 走近非遗 课件 2024-2025学年湘美版(2024)初中美术七年级上册
- 新生儿坏死性小肠结肠炎临床诊疗指南解读 课件
- 网络数据安全管理条例
- 2024版2024年【人教版】二年级上册《道德与法治》全册教案
- 山东省泰安市2024届高三上学期期末数学试题(含答案解析)
- 少儿编程获奖课件
评论
0/150
提交评论