




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
计量地理学地理数据基本统计指标第1页,课件共58页,创作于2023年2月计量地理学胡碧松hubisong624@126.com第2页,课件共58页,创作于2023年2月地理数据的集中化与均衡度指标4地理数据的统计分组1地理数据的统计图2地理数据的统计指标3地理数据统计指标第3页,课件共58页,创作于2023年2月地理数据的统计分组统计整理的基本步骤:
①统计分组,就是根据研究目的,按照一定的分组标志将地理数据分成若干组。
②计算各组数据的频数、频率,编制统计分组表。③绘制统计分布图。Why???What???What???第4页,课件共58页,创作于2023年2月例:
对于黄土高原西部地区某山区县的人工造林地调查数据进行统计整理,步骤如下:(1)以地块面积作为统计分组标志进行分组;(2)计算各组数据的频数、频率,编制成如下的统计分组表;(3)做出频数分布的直方图;(4)将上图各组的频数分布从组中值位置用折线连接起来,得到频数分布的散点曲线图。第5页,课件共58页,创作于2023年2月分组序号1234567891011分组标志(面积/hm2)
(0,1](1,2](2,3](3,4](4,5](5,6](6,7](7,8](8,9](9,10](10,11)组中值0.51.52.53.54.55.56.57.58.59.510.5频数(地块个数)
25961362142532862602031548524频率/%1.445.537.8312.3314.5716.4714.9811.698.874.901.38向上累计频数25121257471724101012701473162717121736向下累计频数17361711161514791265101272646626310924某县人工造林地面积的统计分组数据第6页,课件共58页,创作于2023年2月频数分布柱状图频数分布曲线图
第7页,课件共58页,创作于2023年2月地理数据统计图统计图表类型表格平面直角坐标图:柱状图、折线图、曲线图等三维坐标图结构图矩状结构图扇状结构图柱状结构图饼状结构图其它特殊类型:平面正三角坐标图坐标图雷达图、风玫瑰图、金字塔图等第8页,课件共58页,创作于2023年2月Text1Text2Text3Text4Text5Text6第9页,课件共58页,创作于2023年2月A第三产业第一产业第二产业204060800100020406080100100806040200读某边的数值:向该边作与其零起点相交边的平行线,该平行线与该边的交点即为该边所对应的数值。B%%%AB两国三大产业产值比重构成示意图平面正三角坐标图第10页,课件共58页,创作于2023年2月三维坐标图14710(月)01020-1050100降水量(mm)气温(℃)第11页,课件共58页,创作于2023年2月雷达图第12页,课件共58页,创作于2023年2月风玫瑰图第13页,课件共58页,创作于2023年2月人口金字塔图第14页,课件共58页,创作于2023年2月(1)描述地理数据一般水平的指标(2)描述地理数据分布的离散程度的指标(3)描述地理数据分布特征的参数123几种常用的统计指标与参数第15页,课件共58页,创作于2023年2月平均值一般水平指标中位数众数描述地理数据一般平均水平地块编号面积/hm2112283350435555650772840985102911651275=54.25第16页,课件共58页,创作于2023年2月平均值分组的地理数据
xi:第i组的组中值fi:第i组的频数m:分组总数量家庭月收入/元组中值户数(频数)2000~300025003003000~4000350013004000~500045002005000~600055001506000~700065001007000~80007500508000~9000850030合计2130中国西部地区某城市2000年家庭月收入的抽样调查结果
第17页,课件共58页,创作于2023年2月中位数未分组的地理数据
对于未分组的地理数据:样本数n为奇数时,中位数是位置排在第(n+1)/2位的数据;样本数n为偶数时,中位数是排在中间位置的两个数据的平均值。地块编号面积/hm2112283350435555650772840985102911651275Me=61地块编号面积/hm2112102943584035065055511657721275283985升序排序Me=52.5第18页,课件共58页,创作于2023年2月中位数分组的地理数据
对于分组的地理数据,中位数的计算方法:1)确定中位数所在的组位置: ——中位数应该在向上累计频数包括∑fi/2的组中。2)按下述公式计算中位数:或Me代表中位数;L为中位数所在组的下限值;U为中位数所在组的上限值;fm为中位数所在组的频数;Sm-1为中位数所在组以下的累计频数;Sm+1为中位数所在组以上的累计频数;d为中位数所在组的组距。第19页,课件共58页,创作于2023年2月第1组第n组fmf1fn∑fi/2∑fm-1∑fm
LUd=U-L?第20页,课件共58页,创作于2023年2月家庭月收入/元户数(频数)向上累计频数向下累计频数2000~300030030021303000~40001300160018304000~500020018005305000~600015019503306000~700010020501807000~8000502100808000~900030213030合计2130——∑fi/2=2130/2=1065
L=3000U=4000d=L-U=1000fm=1300Sm-1
=300
第21页,课件共58页,创作于2023年2月众数未分组的地理数据
众数即出现次数最多的那个数值。对于未分组的地理数据,可以根据每一个数值出现的频数大小取最大值可直接确定众数。地块编号面积/hm2112283350435555650772840985102911651275M0
=50对于已经分组的地理数据,中位数的计算步骤如下:
1)确定频数最多的组为众数所在组;
2)按以下公式计算众数:众数分组的地理数据
或∆1为众数组频数与上一组频数之差;∆2为众数组频数与下一组频数之差。第22页,课件共58页,创作于2023年2月家庭月收入/元户数(频数)向上累计频数向下累计频数2000~300030030021303000~40001300160018304000~500020018005305000~600015019503306000~700010020501807000~8000502100808000~900030213030合计2130——
∆1=1300-300=1000∆2=1300-200=1100
或
第23页,课件共58页,创作于2023年2月极差离差离差平方和方差标准差标准差无偏估计变异系数描述地理数据分布离散程度的指标第24页,课件共58页,创作于2023年2月所有数据中最大值与最小值之差每一个地理数据与平均值的差值从总体上衡量一组地理数据与平均值的离散程度的指标从平均概况衡量一组地理数据与平均值的离散程度的指标极差离差离差平方和方差标准差为方差的平方根以样本方差对标准差进行无偏估计变异系数表示地理数据的相对变化(波动)程度标准差标准差无偏估计变异系数第25页,课件共58页,创作于2023年2月
离差离差平方和方差标准差标准差无偏估计变异系数第26页,课件共58页,创作于2023年2月地块编号面积/hm2112283350435555650772840985102911651275例:序号123456789101112面积128350355550724085296575离差-42.2528.75-4.25-19.250.75-4.2517.75-14.2530.75-25.2510.7520.75
离差平方和离差极差第27页,课件共58页,创作于2023年2月方差标准差标准差无偏估计
变异系数
第28页,课件共58页,创作于2023年2月g1g2偏度系数峰度系数描述地理数据分布特征的参数第29页,课件共58页,创作于2023年2月偏度系数测度地理数据分布的不对称性情况,刻画以平均值为中心的偏向情况,计算公式为g1<0,表示负偏,即均值在峰值的左边;g1>0,表示正偏,即均值在峰值的右边;g1=0,表示对称分布第30页,课件共58页,创作于2023年2月峰度系数测度了地理数据在均值附近的集中程度,其计算公式为g2=0,表示地理数据分布的集中程度是标准正态分布;g2>0,表示地理数据分布的集中程度高于正态分布;g2<0,表示地理数据分布的集中程度低于正态分布第31页,课件共58页,创作于2023年2月地块编号面积/hm2112283350435555650772840985102911651275
偏度系数峰度系数
负偏,平均值在峰值的左边数据分布集中程度低于正态分布第32页,课件共58页,创作于2023年2月应用实例:中国大陆省份人均GDP的变异系数我们知道变异系数测度的是地理数据分布的相对差异。为了分析中国大陆经济发展的省际差异及其演化过程,我们首先把1978-2002年各省(直辖市、自治区)的GDP数,按照可比价格进行折算,再除以人口数,计算出按照可比价衡量的人均GDP数据,然后再用变异系数公式,计算1978-2002每一年对应的变异系数,将计算结果绘制成散点折线图:第33页,课件共58页,创作于2023年2月这说明,在1978-1990年期间,中国大陆经济发展的省际差异,基本上呈缩小趋势,而1990-2002年期间则基本上呈扩大趋势。这一变化与国家宏观经济政策变动的时间、趋势大体一致。在1978-2002年期间,人均GDP的变异系数,以1990年为转折点,呈现出一个U形曲线。即:人均GDP的变异系数,在1978-1990年期间基本上呈现下降趋势,而在1990-2002年期间则基本上呈现上升趋势。第34页,课件共58页,创作于2023年2月
洛伦兹曲线集中化指数基尼系数锡尔系数地理数据分布的集中化与均衡度指数第35页,课件共58页,创作于2023年2月洛伦兹曲线20世纪初,意大利统计学家洛伦兹(M.Lorenz),首先使用累计频率曲线研究工业化的集中化程度。后来,这种曲线就被称之为洛伦兹曲线。(1)将各部门的收入及其占总收入比重(百分比),从大到小重新排序;(2)从大到小,逐次计算累计百分比;(3)以自然序号为横坐标(x),累计百分比为纵坐标(y);以(部门代码,累计百分比)为坐标点,连成一个上凸的曲线,即洛伦兹曲线。标准洛伦兹曲线绘制步骤第36页,课件共58页,创作于2023年2月部门代码产业部门20041999收入/元占总收入的比重/%收入/元占总收入的比重/%1种植业2735.9342.821645.5356.732林业143.572.2579.662.753畜牧业660.6110.34390.2413.454渔业220.673.4574.122.565工业441.576.91167.385.776建筑业163.952.5744.551.547运输业516.878.09150.885.28商饮服务业1112.7217.42211.627.39其他393.166.15136.74.71合计家庭经营纯收入6389.051002900.68100某地区农户家庭经营性纯收入水平及其构成第37页,课件共58页,创作于2023年2月部门代码产业部门2004收入/元占总收入的比重/%1种植业2735.9342.822林业143.572.253畜牧业660.6110.344渔业220.673.455工业441.576.916建筑业163.952.577运输业516.878.098商饮服务业1112.7217.429其他393.166.15合计家庭经营纯收入6389.05100部门代码产业部门收入/元占总收入的比重/%1种植业2735.9342.828商饮服务业1112.7217.423畜牧业660.6110.347运输业516.878.095工业441.576.919其他393.166.154渔业220.673.456建筑业163.952.572林业143.572.25(1)将表中2004年各产业部门的收入及其占总收入比重(百分比),从大到小重新降序排序;第38页,课件共58页,创作于2023年2月部门代码产业部门收入/元占总收入的比重/%1种植业2735.9342.828商饮服务业1112.7217.423畜牧业660.6110.347运输业516.878.095工业441.576.919其他393.166.154渔业220.673.456建筑业163.952.572林业143.572.25(2)从大到小,逐次计算收入比重的累计百分比;累计百分比42.8260.2470.5878.6785.5891.7395.1897.75100计算累计百分比(3)以自然序号为横坐标(x),累计百分比为纵坐标(y);以(部门代码,累计百分比)为坐标点,连成一个上凸的曲线,即洛伦兹曲线。自然序号123456789统计自然序号第39页,课件共58页,创作于2023年2月洛伦兹曲线什么情况下是这条横轴平行线?洛伦兹曲线什么情况下是这条对角线?第40页,课件共58页,创作于2023年2月1999年农户家庭经营性纯收入
构成的洛伦兹曲线2004年农户家庭经营性纯收入构成的洛伦兹曲线洛伦兹曲线的上凸程度,表示农户家庭经营性纯收入的部门集中化程度。上凸程度越大,就表示农户家庭经营性纯收入越是集中于某些产业部门。哪一年的农户家庭经营性纯收入部门集中化程度较高?1999or2004?第41页,课件共58页,创作于2023年2月集中化指数集中化指数是一个描述地理数据分布的集中化程度的指数。假若洛伦兹曲线的解析式为:显然,该曲线下方区域的面积为:当数据均匀分布时,A就变成了对角线以下三角形的面积(R);当数据集中分布时,A就变成了整个矩形的面积(M)。
A——实际洛伦兹曲线与横轴围成的图形面积;
R——均匀分布时洛伦兹曲线与横轴围成的图形面积;M——集中分布时洛伦兹曲线与横轴围成的图形面积。第42页,课件共58页,创作于2023年2月RMA显然:集中化指数在[0,1]区间上取值。I越大,就说明数据分布的集中化程度越高;I越小,就说明数据分布的集中化程度越低(越均衡)。集中化指数第43页,课件共58页,创作于2023年2月常采用如下近似取值方法:
A——实际数据的累计百分比总和;
R——均匀分布时的累计百分比总和;
M——集中分布时的累计百分比总和。集中化指数在[0,1]区间上取值。
只有数据的个数相同而且横坐标划分一致时,才有可比性。直接计算定积分较为麻烦第44页,课件共58页,创作于2023年2月实际分布累计百分比%集中分布累计百分比%均匀分布累计百分比%29.08%100.00%10.00%43.34%100.00%20.00%55.96%100.00%30.00%68.56%100.00%40.00%80.86%100.00%50.00%89.51%100.00%60.00%95.55%100.00%70.00%97.39%100.00%80.00%99.13%100.00%90.00%100.00%100.00%100.00%A=∑累计百分比=7.5939M=∑累计百分比=10R=∑累计百分比=5.5=(7.5939-5.5)/(10-5.5)=0.4653第45页,课件共58页,创作于2023年2月基尼系数就是通过人口和收入两组数据的对比分析,纵、横坐标均以累计百分比表示,从而做出罗伦次曲线,然后再计算得出的集中化指数。
它是通过对人口和收入两组数据进行比较分析,然后将纵、横坐标均以累计百分比表示,作出罗伦次曲线,再计算集中化指数而得到的一个判断收入分配不平等程度的指标。基尼系数(Ginicoefficient)与标准洛伦兹曲线有什么不同?第46页,课件共58页,创作于2023年2月亚区代码人口/万人GDP/亿元人口百分比%GDP百分比%137051479.7112.60%12.20%285503711.6129.08%30.59%33710911.8612.62%7.52%441921855.7414.26%15.30%5256105.610.87%0.87%636181487.6112.31%12.26%72543931.988.65%7.68%8510238.391.73%1.96%9543241.491.85%1.99%1017741168.556.03%9.63%基尼系数洛伦兹曲线绘制原理方法:(1)列出每一个区域(部门)的人口与收入占全区(各部门总计)的比重p与w;pw(2)计算每一区域(部门)的比率w/p;w/pw/p0.9678291.0519770.5956131.0727680.9997120.9963930.8881171.1327341.0777281.596260第47页,课件共58页,创作于2023年2月基尼系数洛伦兹曲线绘制原理方法:(3)根据w/p值,由小到大将每一地区(部门)排序;亚区代码w/p人口百分比%GDP百分比%30.59561312.62%7.52%70.8881178.65%7.68%10.96782912.60%12.20%60.99639312.31%12.26%50.9997120.87%0.87%21.05197729.08%30.59%41.07276814.26%15.30%91.0777281.85%1.99%81.1327341.73%1.96%101.596266.03%9.63%由小到大升序排序人口累计百分比%12.62%21.27%33.87%46.18%47.05%76.13%90.38%92.23%93.97%100.00%GDP累计百分比%7.52%15.20%27.39%39.65%40.53%71.12%86.41%88.40%90.37%100.00%w和p累积值(4)按照上述顺序分别计算p和w的累计值X和Y;XY第48页,课件共58页,创作于2023年2月(5)以X为横坐标,以Y为纵坐标,在直角坐标系中依次连接各点,得到一条下凸的罗伦次曲线。人口累计百分比%12.62%21.27%33.87%46.18%47.05%76.13%90.38%92.23%93.97%100.00%GDP累计百分比%7.52%15.20%27.39%39.65%40.53%71.12%86.41%88.40%90.37%100.00%XY集中分布累计百分比均匀分布累计百分比0.00%12.62%0.00%21.27%0.00%33.87%0.00%46.18%0.00%47.05%0.00%76.13%0.00%90.38%0.00%92.23%0.00%93.97%100.00%100.00%Y1Y2Why?绘制散点曲线图即得洛伦兹曲线基尼系数洛伦兹曲线绘制原理方法:第49页,课件共58页,创作于2023年2月基尼系数洛伦兹曲线为什么是下凸曲线?怎么计算该洛伦兹曲线的集中化指数第50页,课件共58页,创作于2023年2月
A——实际洛伦兹曲线与横轴围成的图形面积;
R——均匀分布时洛伦兹曲线与横轴围成的图形面积;M——集中分布时洛伦兹曲线与横轴围成的图形面积。此时,M=0,R=1/2。Why?Why?
基尼系数G就可按照如下公式计算:
第51页,课件共58页,创作于2023年2月如果用幂函数拟合,则基尼系数的近似计算公式为式中:可以通过最小二乘法拟合,即近似计算基尼系数Xi为排序后的人口累计百分比Yi为排序后的收入累计百分比第52页,课件共58页,创作于2023年2月人口累计百分比%12.62%21.27%33.87%46.18%47.05%76.13%90.38%92.23%93.97%100.00%GDP累计百分比%7.52%15.20%27.39%39.65%40.53%71.12%86.41%88.40%90.37%100.00%XYlnXi*lnYi(lnxi)^25.364.282.922.401.401.170.710.600.680.570.090.070.010.010.010.010.010.000.000.00∑lnXi*lnYi=11.20∑(lnxi)^2=9.11=11.20/9.11=1.23=(1.23-1)/(1+1.23)=0.1025基尼系数第53页,课件共58页,创作于2023年2月锡尔系数(Theilcoefficient)锡尔系数(Theilcoefficient)又称锡尔熵,有两个锡尔系数指标,即锡尔系数T和锡尔系数L。两者的不同之处在于锡尔系数T以收入比重加权计算,而锡尔系数L则以人口比重加权计算。
如果以人口比重加权,锡尔系数L的计算公式为:
式中:n:区域(部门)个数;yi:i地区(部门)收入占全区(各部门总计)的份额;pi:i地区(部门)的人口占全区(各部门总计)的份额。第54页,课件共58页,创作于2023年2月
如果以收入比重加权,则锡尔系数T
的计算公式为锡尔系数越大,就表示收入分配差异越大;反之,锡尔系数越小,就表示收入分配越均衡。式中:n:区域(部门)个数;
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年村委会林地承包与木材加工销售合同
- 二零二五年度实习生实习期间实习成果转化与应用协议
- 二零二五年度测绘成果应用安全保护协议
- 二零二五年度风投优先股投资合作中的知识产权保护合同
- 2025股东股权协议:新能源汽车动力电池研发与生产
- 2025年度酒店预订服务定金合同规范
- 二零二五年度房产中介返佣激励政策合同
- 2025年度酒店客房清洁与消毒服务合同
- 二零二五年度药店店员社会保险与福利合同
- 初二家长发言稿
- 国家药监局医疗器械技术审评检查大湾区分中心第二批员额制人员公开招聘(2023年)模拟预测(共1000题)笔试备考题库及答案解析
- Unit+6+Lesson+3+The+Superhero+Behind+Superman+课件高中英语北师大版(2019)必修第二册+
- 地面贴砖工艺施工规范及验收标准
- 血液净化标准操作规程(SOP)血液灌流操作
- Unit 1 Whats the matter 单元测试题及答案(含听力MP3)
- 2023年枣庄科技职业学院单招综合素质模拟试题及答案解析
- 小学数学三年级口算、竖式、脱式、应用题(各280道)
- 化工企业安全生产教育培训计划及内容
- GB/T 9535-1998地面用晶体硅光伏组件设计鉴定和定型
- GB/T 38315-2019社会单位灭火和应急疏散预案编制及实施导则
- GB/T 30891-2014水产品抽样规范
评论
0/150
提交评论