统计学全部课件_第1页
统计学全部课件_第2页
统计学全部课件_第3页
统计学全部课件_第4页
统计学全部课件_第5页
已阅读5页,还剩131页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一章地理数据的初步整理

第一节地理数据的类型、特征及其采集

一、地理数据的类型

根据地理学的研究对象可将地理数据分为空间数据和属性数据。

(-)空间数据

空间数据,主要用于描述地理实体、地理要素、地理现象、地理事件及地理过程产生、

存在和发展的地理位置、区域范围及空间联系。空间数据的表达,可以将其归纳为点、线、

面三种几何实体以及描述它们之间联系的拓扑关系。

点:由一个独立的坐标点(x,y)定位,可以表示精确的地理坐标点,也可以是一些地理

实体的抽象,如道路交叉点、河流汇聚点以及小比例尺地图上的城镇、村庄等。

线:由两个以上坐标点(知其)/=1,2,一4定义,有一定的长度和走向,表示线状地物

或点实体之间的联系。如交通线、河流及各种地理区域的界线等,都是线实体。

面:表示在空间上连续分布的地理景观或区域。如居民区、工业区、行政区等都是面实

体。

点、线、面三种地理几何实体,按照一定的拓扑关系组合、排列,就可以形成更为复杂

的地理几何实体。如点、线组合形成网络;线、面组合形成地带;点、面组合形成地域类型;

点、线、面组合形成地理区。

(二)属性数据

属性数据主要用于描述地理实体、地理要素、地理现象、地理事件及地理过程的有关属

性特征,如海拔高度、气温、植被覆盖率、人口数量等。属性数据可以分为两种类型:即数

量标志数据和品质标志数据。

1.数量标志数据

根据测度标准,可以将数量标志数据分为以下两类:

⑴间隔尺度数据。是以有量纲的数据形式表示测度对象在某种量纲下的绝对量。如摄

氏温标表示气温,以面积量纲表示土地面积,以时间量纲表示地理事件、地理现象发生的时

间等,如表1.1。

表1.1间隔尺度数据

区域年平均气温(C)年降水量(mm)土地面积(hm2)人口(人)国内生产总值(万元)

18.0500.21245.612102678.28

27.6498.6106410232015.47

36.5550.9894.38481754.56

48.5586.4668.76541365.46

⑵比例尺度数据。是以无量纲的数据形式表示测度对象的相对量。这种数据要求事先

规定一个基点,然后将其它同类数据与基点数据相比较,换算为基点数据的比例。因此这类

数据常常又称为指数或比例数。如耕地指数、工业发展指数、舒适度指数等,如表1.2。

表1.2比例尺度数据(某地区耕地复种指数及农业发展指数)

年份19961997199819992000

耕地复种指数①120.40113.56126.54132.76121.43

农业发展指数⑶100115.68124.50135.69129.56

注:①即播种面积与耕地总面积之比:②规定1996年农业产值为基数100

2.品质标志数据

根据其测度标准,可以将品质标志数据分为如下三种类型:

⑴有序数据。当测度标准不是连续的量,而只是表示其顺序关系的数据,则称其为有序

尺度或等级尺度数据。这种数据并不表示量的多少,而只是给出一个等级或次序。如用1、

2、3等分别表示特大城市、大城市、中等城市等城市等级,如表1.3。

表1.3有序尺度数据(城市规模等级及人口数量的排位次序)

城市A城市B城市C城市D城市E城市F

规模等级123443

人口位次124653

⑵二元数据。即用0、1两个数据表示地理事物、地理现象或地理过程的比较判断问题。

如在人口统计中,用1表示男性,用0表示女性;用1表示多,用0表示少等,如表1.4。

表1.4二元数(1表示两城市之间通航,0表示两城市之间不通航)

城市A城市B城市C城市D城市E

城市A—1101

城市B1—110

城市C11—10

城市D011—1

城市E1001—

⑶名义尺度数据。即用数字表示地理实体、地理要素、地理现象、地理事件的状态类型。

如在土地利用现状调查中,用数字表示土地利用的状态,15表示菜地,14表示草地,21表

示果园,31表示林地等,如表1.5。

表L5名义尺度数据(土地利用类型)

地块序列号123456

土地利用类型131521141431

属性数据也可分为不连续性或间断性数据和连续性数据。不连续性或间断性数据是指用

计数方法获得的数据。如人口数、学校数、作物的苗数等;连续性数据指称量、度量或测量

方法所得到的数据,其各个观察值并不限于整数,在两个整数之间可以有微量数值差异的第

三个数值存在。

二、地理数据的特征

(-)地理数据的时空特征

由于地理学的研究对象具有多种时空尺度,所以描述地理对象的地理数据也具有多种时

空尺度的性质。

1.从空间尺度上看,地理学的研究对象一地理区域,既可以是全球范围的、洲际范围的、

国家范围的,也可以是流域范围的、地区范围的、城市范围和社区范围的。因此,描述地理

区域的各种地理数据,具有多种空间尺度。既有全球尺度的、洲际尺度的、国家尺度的,也

有流域尺度的、地区尺度的、城市尺度的、社区尺度的。在不同的空间尺度上,地理数据的

表现形式及其所包含的信息内容是不同的。为了揭示复杂的地理空间结构,就必须在不同的

空间尺度上对各种地理数据进行深入地解剖和分析。

2.从时间尺度上看,地理学的研究对象一地理过程,既有以地质年代和地层年代衡量的

古地质过程,也有以历史年代衡量的历史地理过程,还有以天、月、季、年等时间单位衡量

的现代地理过程。因此,描述地理过程的各种地理数据也具有多种时间尺度。在不同的时间

尺度上,地理数据的表现形式及其所包含的信息内容是不相同的。为了揭示复杂的地理过程,

就必须在不同的时间尺度上对各种地理数据进行深入地解剖和分析。

从一定意义上讲,地理过程的时间尺度与空间尺度有一定联系,往往较大空间尺度对应

较长的时间周期,如全球范围内的气候变化周期可能是几十或几百年;而城市地籍可能以年

为变化周期。正是因为地理过程或地理特征有一定的自然节律性,才导致地理数据具有时间

多尺度。在实际应用时,各种地理数据往往以不同的主线特征(如区域、自然要素、社会经

济要素或某种应用目的),被有机地在物理空间上或逻辑上组织到一起形成数据库。

地理数据的时间观与物理学上的时间是有区别的,地理过程中往往用某时间段的平均状

况来表示“时刻”,如“现在”的气温可能是指几天来气温的平均状况。根据时间周期的长

短,地理数据的时间尺度可分为季节尺度数据、年尺度数据、时段尺度数据、人类历史尺度

数据和地质历史尺度数据。不同尺度的地理数据在处理上应区别对待,如地质历史尺度大区

域的数据在处理上可以作为常量使用。因为地理过程的连续性,在数据中可以用细小时刻的

瞬时状况表示时段的平均状况。孤立的数据时间尺度研究意义不大,只有结合空间尺度研究,

才能表达地理特征和过程的内在规律。

(二)多维性

对于一个地理对象,它的具体意义往往需要从空间、属性和时间三个方面进行综合描述。

在空间方面,需要描述该地理对象所处的地理位置的空间范围;在属性方面,需要描述该地

理对象的具体内容;在时间方面,需要描述该地理对象产生、发展和存在的时间范围。譬如,

要描述一个地理区域,除了描述该区域的地理位置与空间范围外,还要描述该区域的自然、

经济、社会等各方面的内容及其随着时间的变化情况,其中每一个数据的实际意义都必须通

过具体的地理位置、具体的属性含义和具体的时间三个方面的内容来体现。其中,对于时间

的描述,需要一个变量;对于地理位置和空间范围的描述,一般需要十几个,甚至几十个变

量。由此可见,地理数据一般都具有多维性。

(三)不确定性

不确定性是地理数据的基本特征之一。导致地理数据不确定性的原因,主要是由于地理

系统的复杂性和数据采集过程中造成的误差。地理系统是一个开放的复杂巨系统。许多地理

过程具有多变性;许多地理现象和地理事件的发生具有突发性;许多地理要素的变化都具有

不确定的特点。数据采集过程中造成的误差只有通过采取先进的数据采集技术,尽量减少人

为误差或运用有关方法对各种来源不同的数据进行筛选和处理的方法来减少。

三、地理数据采集

地理数据的采集,就是运用各种技术手段,通过各种渠道收集地理数据的过程。地理数

据采集的渠道来源主要包括如下几个方面:

⑴来自观测、测量部门的有关专业数据。譬如,来自水文观测站的有关水文数据;来

自气象观测站的有关气象数据;来自环境监测部门的空气、水质数据等。

⑵来自统计年鉴、统计公报中的有关自然资源及社会经济发展数据。譬如从各级政府

统计部门公布和出版的统计年鉴中,可以得到当地的耕地面积、各类农作物播种面积、粮食

产量、人口劳动力、工业投资及产值、国内生产总值等数据。

⑶来自有关单位或个人的不定期的典型调查数据、抽样调查数据。譬如,来自城乡抽

样调查队的城市、农村家庭收支数据;来自有关单位或个人的某一方面的专题调查数据等。

(4)来自政府公报、政府文件中的有关数据。

⑸来自档案、图书等文献资料中的有关数据。

(6)来自互联网的有关共享数据。

⑺地图图件。主要包括各种比例尺的地形图、影像地图、专题地图等。

(8)遥感数据。主要包括各种航空遥感数据和卫星遥感数据。

⑼其它来源的有关数据。

目前,随着科学技术的发展,各种新技术不断地被应用到地理数据采集之中,使地理数

据采集的手段日益更新,地理数据采集的精度不断地提高。特别是3s技术,即遥感、地理

信息系统和全球定位系统的发展,使地理数据的采集技术得到了H新月异的进步。

在地理学研究中,对于地理数据的采集,需要特别注意和强调的是数据的质量,即数据

的完备性和可靠性。在数据采集的开始,首先要考虑数据来源的可靠性。在数据采集过程中,

要采取一切可能的手段和技术措施,最大限度地减少数据的误差。在数据采集完毕后,要对

各种数据质量进行检验,要对不同来源的相同数据进行比较,辩别真伪,要通过数据筛选,

去粗存精,去伪存真;对于残缺的但确实必须的数据,要想办法进行及时补充。有时,为了

插补残缺的有关地理数据,经常需要运用相关的数学方法。

第二节地理数据的初步整理

数据整理是统计分析的前提条件,统计调查所得到的资料都是零散的,无序的。在进行

统计分析之前,必须对这些资料进行分组和汇总,使之系统化和条理化,体现出总体的本质

与规律,以满足统计分析的需要。概括的说,资料整理就是将调查所得到的资料按照研究的

目的进行分组、汇总的工作过程。

一、使用统计表进行整理

统计表是用来表达统计指标与被说明的事物之间数量关系的表格。它可以将大量数据的

分类结果,清晰、概括、一目了然地表达出来,明显地反映出事物的全貌及其蕴涵的特性,

省去冗长的文字叙述,便于分析、比较、计算和记忆。

(-)统计表的结构及编制

统计表一般由标题、表号、标目、线条、表注等项构成。

编制统计表的基本原则是:表的结构要简要明了。一张表只能有一个中心,说明的问题

要重点突出,一目了然,避免绘制臃肿的包罗万象的大表;表的层次要清楚,项目、指标的

排列要按照逻辑顺序合理安排。

(也可空白)

图i.i统计表的基本格式

1.标题

标题是表的名称,应确切地、简明扼要地说明表的内容。标题应写在表的上方。必要时,

应在标题下注明资料的来源(地点、单位)和时间。

2.表号

表号是表的序号。若文章中有几张表,则需按它们出现的先后次序编上序号,并写在标

题的左上方。

3.标目

标目是表格中对统计数据分类的项目。按标目在表中的位置,可分为横标目和纵标目。

位于表的左侧者为横标目,因为它与所指明的数字在同一横行;位于表的上端者为纵标目,

因为它与所指明的数字在同一纵列。必要时可在横标目和纵标目的上方加上适当的总标目。

横标目是要说明的对象,纵标目是要说明的统计指标。如纵标目比较复杂,可将一部分内容

移到横标目上去。

4.线条

线条不宜过多。顶线、底线、隔开纵标目与数字的横线,是表的基本线条。表的左上角

不宜有斜线,表的中间不要有横线,表的左右两侧不要用纵线封闭。

5.数字

表内数字必须准确,一律用阿拉伯字母表示,位次对齐,小数的位数一致。表内不应有

空格。暂缺或未记录可用“…”或”……”表示,无数字用“一”表示,数字若是“0”,则

应填写“0”。

6.表注

它不是表的必要组成部分。若确有必须补充说明的问题,可用简短的小号字写在表的下

方。

(二)统计表的种类

L简单表

横标目和纵标目只有一个对象的表格,称为简单表。如表1.6。

表1.6简单表

△△△△△△△△△

△△△

△△△

2.复合表

横标目和纵标目包含两层以上对象的表格,称为复合表。如表1.7。

表1.7复合表

△△△△△△△△△

△△△△△△△△△△△△△△△△△△

△△△

△△△

二、用统计分组进行整理

所谓统计分组就是根据研究的需要,将总体按照一定的标志划分为若干个组成部分的方

法,它包括以下几个步骤:①按照研究目的,选择一个或一个以上的分组标志,对调查资料

进行分组:②编制适当表格以便汇总资料;③将资料逐一进行计数和加总。

(-)按品质标志分组

按品质标志分组可以将统计资料划分若干个性质不同的组成部分,可以区别个体之间的

不同属性。例如,按“性别”标志进行分组,就形成男、女两个部分;按“城市规模”分组,

分为特大型、大型、中型和小型四个组别。还可以按照地区分组、按职称分组、按民族分组

等等,这些分组都属于按品质标志分组。根据标志进行分组,就会形成不同的组别以及每一

组别相应出现的累计的频数,这样就形成了频数分布。

频数分布通常用表格的形式表示,它由两部分构成:一部分是分组形成的各个组别:另

一部分是每一组出现的次数,称为频数。有时也用各组的频数与总的频数相比的比率,表示

各组在整体中所占的比重,这时就把频数分布称为频率分布,所用的比率称为频率。

在进行分组时,要注意划分清楚各组的界限,使每一数据只能属于惟一一组,即要遵循

“互斥”原则;同时,也不能使数据有所遗漏,所有的数据都要属于某一组,即要遵循“穷

尽”原则。

如银行要研究信用卡使用顾客的职业情况,以便根据顾客情况提供更方便的服务,现将

职业分为七个类型进行统计,如表1.8所示。

表1.8某银行使用信用卡顾客的职业分类表

职业顾客人数(频数)百分比(频率%)

管理人员1918235.95

技术人员1539528.84

服务人员677012.68

销售人员616311.55

生产人员53099.95

其它人员5531.04

合计53372100.00

(二)按数量标志分组

选择数量标志为分组标志,就是将总体按数量的差异划分为具有不同数值的组成部分,

以便反映出各组别在数量上存在的差异。按数量标志进行分组是统计整理最常见的形式,也

是实际工作中最常用的统计方法。按数量标志进行分组有两种类型:一是单项式分组;一是

组距式分组.

1.单项式分组

当整理的是标志值较少且变动范围不大的数据资料时,一般选择进行单项式进行分组,

所形成的分布称为单项式频数分布。即把标志值按大小顺序一一排列出来,将每一个标志值

作为一组,与相应的单位数构成一个表格。

例1,有100个城市中,具有千人以上的大企业的个数如表1.9所示,求不同企业数分

布的频数。

表1.9100个城市的企业数

18151719152020181917

17181716182019171618

17161729281817171718

18151618181817201918

17191517171716171818

17191917191718161817

17191616171717151716

18191818191920171619

18171820191618191716

15161817181717161917

解:分析结果如下:

如变异幅度较小,则以每一观测值为一组计算频数,如表1.10。

表1.10以每一观测值为一组计算频数

企业数频数

156

1615

1732

1825

1917

205

2.组距式分组

组距式分组的方法是,首先选择某一数量标志,然后按标志值的大小分为不同的组别,

在每一组中都包括若干个标志值,最后将每一组别出现的次数累计加总,由此形成的分布就

是组距式频数分布。

需要以下过程完成:

⑴数据排序:首先对数据按大到小排列或从小到大排列。

⑵求极差:所有数据中的最大观察值和最小值观察值的差值。亦即整个样本的变异幅

度。

⑶确定组数和组距

所分组数越多,资料显示的就越详细,信息损失就越小,但不便于总结归纳;反之,如

果所分组数太少,则信息就会损失,但会使资料很集中,便于提炼数据的特征。因此,确定

组数时,不能一概而论,要根据研究的目的确定分组数目。对于一组数据究竟分为多少组,

很多时候决定于研究者的经验。也可以参照样本容量与组数多少的关系(表1.11)或借鉴

美国统计学家斯特吉斯提供的公式,近似地确定分组数目。

表1.11样本容量与组数多少

样本内观察值的个数组数

505〜10

1008〜16

20010〜20

30012〜24

50015〜30

100020〜40

美国统计学家斯特吉斯提供的公式为:

K=l+3.3221gN(1.1)

式中,K代表组数,N代表数据总数。

组距为组与组之间的数值距离,可根据极差确定•组距=极差/组数。

(4)选定组限和组中点值(组值)。

每组应有明确的界限,才能使各个观察值划入一定的组内。

首先要选定第一组的中心值,则该组组限确定,其余各组的中心值和组限也可确定。第

一组的中心值以最接近最小观察值为好,这样可避免第一组内次数过多。

中心值选定后,求组限。组限有下限和上限。

下限=该组中心值-1/2组距。

上限=该组中心值+1/2组距。

⑸把原始资料的各个观察值按分组数列的各组组限归组,计算频数。

例2,如140个年级的总学生人数如表L12所示,计算频数。

表1.12140个年级的学生人数

17721519797123159245119119131149152167104

16121412517521911819217617595136199116165

214951588313780138151187126196134206137

9897129143179174159165136108101141148168

16317610219414517375130149150161155ill158

13118991142140154152163123205149155131209

18397119181149187131215111186118150155197

116254239160172179151198124179135184168169

173181188211197175122151171166175143190213

192231163159158159177147194227141169124159

解:计算过程如下:

⑴数据排序(如表L13)。

表1.13排序后的学生人数

75101119129137147151159163172177187197214

80102119175137148152159165173177187197214

8310411983138149152159165173179188197215

91108122143140149154159166174179189198215

95111123194141149155159167175179190199219

95111123142141149155160168175181192205227

97116124181142150155161168175181192206231

97116124160143150158161169175183194209239

97118125211143151158163169176184194211245

98118126159145151158163171176186196213254

⑵求极差:极差=254-75=179

⑶按表1.11确定组数和组距,组数为8〜16组,假定为12组,则组距=179/12=14.9,

可近似取15,

(4)选定组限和组中点值。选定第一组的中心值为75,与最小观察值75相等。则第二

组的中心值为75+15=90,余类推。

中心值选定后,求组限。组限有下限和上限。

下限=该组中心值-1/2组距。即75-(15/2)=67.5;

上限=该组中心值+1/2组距。即75+(15/2)=82.5

⑸把原始资料的各个观察值按分组数列的各组组限归组,计算频数,如表L14。

表1.14频数分布表

组限中心值频数

67.5〜82.5752

82.5-97.5907

97.5〜112.51057

112.5〜127.512013

127.5〜142.513517

142.5〜157.515020

157.5〜172.516525

172.5〜187.518021

187.5〜202.519513

202.5〜217.52109

217.5〜232.52253

232.5〜247.52402

247.5〜262.52551

除了可列出频数之外,还可以列出累积频数和累积百分比分布表。步骤如下:累积频数

是从频数最小的一组开始,每下降一组,必须把以上各组的频数累加,得到下一组的累积频

数。累积百分比是将各组的累积频数除以总频数再乘以100。将累积频数和累积百分比加入

表1.14,得表1.15

表L15累积频数和累积百分比分布表

组限中心值频数累积频数累积百分比

67.5〜82.575221.43

82.5〜97.590796.43

97.5〜112.510571611.43

112.5〜127.5120132920.72

127.5〜142.5135174632.86

142.5〜157.5150206647.14

157.5〜172.5165259165.00

172.5〜187.51802111280.00

187.5〜202.51951312589.29

202.5〜217.5210913495.71

217.5〜232.5225313797.86

232.5〜247.5240213999.29

247.5〜262.52551140100.00

三、统计图

统计图是用来表达统计指标与被说明的事物之间数量关系的图形。统计图以直观形象的

形式表达出事物的全貌及其分布特征,使人一目了然,便于理解,印象深刻,容易记忆。

(一)统计图的结构及绘制原则

统计图由标题、图号、标目、图形和图注等项构成。

1.标题

图的名称应简明扼要,切合图的内容,必要时可注明时间、地点。图题的字体在图中为

最大,自左向右写在图的下方。

2.图号

文章中若有几幅图,则需按其出现的先后次序编上序号,写在图题的左前方。

3.标目

对于有纵横轴的统计图,应在纵横轴上分别标明统计项目及其尺度。横轴是基线,一

般表示被观察的现象,尺度要等距,自左向右写在图的下方。

4.图形

图形为统计图最重要的部分。图形的高与宽之比以3:5为宜。一幅图中若有几个图形

线,可在图例的适当位置加以标明。

5.图注

图注不是图中的必要组成部分。图中若有必须加以解释的地方,可用图注加以说明。图

注的文字要简明扼要,字体要小,写在图题的下方。

(-)统计图类型

1.表示间断数据的统计图

⑴直条图

直条图是用直条的长短表示统计数据的图形。主要用来比较性质相似的间断性资料。按

图形中被比资料的组数不同,可分为单式(图1.2)或复式(图1.3)两种。

图1.2单式直条图

35

图1.3复式直条图

(2)饼图

饼图用来表示间断性资料构成比的图形。如图1.4。

图1.4饼形图

此外,表示间断性数据的图形还有面积图,柱状图、散点图、圆环图等。

2.表示连续性数据的统计图

⑴折线图

如图1.5为连续性变量的折线图。

(2)直方图

如图1.6为连续性变量的直方图。

以上统计图均可使用Excel完成.

30

390

360

330

300

270

240

210

180

150

120

32S40S

图L5折线图图L6直方图

第三节数据的基本统计量

一、表示数据集中趋势的特征量

通过归组、列表、绘图等初步整理工作,反映了数据分布的基本特征。但为了分析研究,

还需计算描述数据的一些特征量,包括集中量、差异量等。

(一)算术平均数

算术平均数是所有观察值的总和除以观察值的个数,简称为平均数或均数,用于表示。

若以王,々,•一,当表示各个观察值,〃表示观察值的个数,则算术平均数可表示为:

y%,

否+/+与+…+x“

X——\1.Z/

n2

如观察值较多,可用下式表示:

x=^——(1.3)

n

天:为第i组的中心值,力:第i组变数出现频数。

(-)调和平均数

调和平均数就是数据倒数平均数的倒数,其计算公式如下:

nn

(1.4)

X]x2xn,=|Xj

如果是加权形式则为:

之呵

+m+---m普

X=-----------2----------n--=--------(1.5)

m,m7mn白m;

为工2%M巧

式中,f表示调和平均数,n是第i个数据的权数。

如果是组距式分组,用下式计算:

_/网X

7+f22+••,+»,,_1Vfr(1.6)

力:为各观察值的权重。

调和平均数是适应某些比率形式的数据而计算的平均数。

例3,某市场三种蔬菜的销售价格和销售金额资料如表1.16示。求三种蔬菜的平均价

格。

表1.16某市场三种蔬菜的销售情况表

蔬菜品种单位(元/千克)销售额(元)

芹菜2.00204.0

标m4.80249.6

黄瓜3.90936.0

合计一1389.6

解:计算三种蔬菜平均价格,价格是变量。平均价格应该用总销售额除以总销售量求得。

如果有销售量的数据,则可以直接计算。但表中没有给出销售量的数据,这种情况下就应该

使用调和平均的公式计算平均价格。计算如下:

204.0249.69360

Em.--------1---------1--------

_138961389613896_13896_、中行/二古、

X=宜----?----:一204.0249.69360—394一,“克

i=l-1--3-8--9-6-十1--1-3--8-9--6-T,--1-3-8--9-6-

2.04.83.9

(三)几何平均数

X=",xi"'xn(1.7)

对上式两边取对数,

1in

lnx„=—(in%]+lnx2-\----blnx:+…lnx")=—glnx,(1.8)

也可用下式:

司'(1.9)

Vo

Xo:表示数据序列的初始数据,%:表示数据序列的最后一个数据。

例如,表1.17国原煤生产量,计算年平均发展速度。

表1.17各国原煤生产量

国家19601965197019751980

前苏联3749242788432714846749299

中国3915247528550395759071446

波兰1044411883140101716219311

德国14325135461163496758714

(49299

鼎苏联=[方诙=L0138或1°L38%;

(71446

~-=1.0305或103.05;

川”V39152

/193I1

=4一——=1.0312或103.12%;

V10444

x«=0.9755或97.55%o

德ia国V14325

(四)中位数

中位数也称中央数,将数据按从大到小排列或从小到大排列,居中间位置的数,即为中

位数。

中位数也是表示数据集中趋势的指标,在频数分布图上位于正中央,并把面积等分为左

右两部分。在累积频率图上,累积频率为50%处所对应的特征值即是中位数。当一个数列变

量分布很偏时,以中位数表示它们的集中趋势比算术平均数更合适。

当地理数据项为奇数时,第n+1/2位数,就是中位数;当地理数据项为偶数时,第(n/2)

+1位数与第n/2位数的平均数,就是中位数。如用表示中位数,可写成:

也=[乙+X](1.10)

V2(22+')

对于组距式分组资料,首先要根据累计频数确定中位数组,即中位数位置所在的组。然

后根据公式推算中位数。计算公式如下:

确定中位数组:

Y/+1

于L,~(MI)

式中,/):中位数组的累计频数,£于:累积频率。

确定中位数:

此=4+^~~。』2)

N:观察值个数;LnK:中位数所在组的下限值;fn_}:中位数所在组的前一组的累

积频数;/„,:中位数所在组的频数;h:组距。

例4,确定下列数据的中位数。

(1)8,1,4,9,6,5,2;

(2)8,1,4,6,5,2。

解:(1)首先下列按大小排列,得1,2,4,5,6,8,9。因为〃=7为奇数,则有:

Me==%=5

~2~T

(2)将数据按大小排序,得1,2,4,5,6,8。因为〃=6为偶数,则有:

M.=+x

例5,用下表组距式分组资料计算中位数。

表1.18组距式分组资料

组别频数累计频数

30〜4044

40~50610

50〜60818

60〜701230

70〜80939

80〜90746

90-100450

合计50一

解:首先确定中位数组。本例中中位数所在组的累计频数6=二丁=25.5,从表中

可知,组别60〜70时,累计频数已达到25.5。因此。可以确定中位数在60〜70组之中,

该组称为中位数组。确定中位数较粗略的方法就是中位数组的组中值代替中位数。本例中的

组中值为65,即可认为65就是中位数。如需要精确的确定,则按公式(1.12),将表中的资

料代入:

xlO

M-L”=60+=65.83

ef,„12

中位数在应用中具有两大优点:一是中位数不受个别极端值的影响,表现出稳定的特性。

这一特性使其在数据分布有较大的偏斜时,能够保持对数据一般水平的代表性,因此被经常

使用。例如,有一组5人的抽样资料,他们在一周时间内看电视的时间分别为1,3,7,9,

30小时,如果用均值代表5人平均看电视时间,则I=1()小时,用10小时代表5个人平均

每周看电视的时间显然偏大,因为有30这个数的影响。而用中位数7代表个人平均每周看

电视的时间,就要比均值具有代表性。类似这样有明显极值的数据,在选择反映集中趋势的

指标时,中位数是一个较好的选择。二是中位数在使用时方便。在某些场合,不能计算均值

时,中位数就是一个较好的测度值。例如,想确定一个班级全部同学的平均身高,如果不具

有相应的测量条件,只需将全部同学按身高排队,处于中间位置的那个同学的身高即为身高

的中位数。

(五)众数

众数是变量序列中出现频数(次数)最多的数。在频数曲线上位置正居最高点,在分组频

数表中,频数最大那一组的中位数就是众数。众数一般用加。表示。如果有两个(或多个)

变量出现次数相同并最多,那么,两个(或多个)变量值都是众数;如果有两个(或多个)

变量出现次数最多但不相同,则出现次数最多的数值是主要众数,其它为次要众数。当然数

据中变量值出现的次数都相同,则该数据没有众数。

1.根据未分组资料确定众数

例6,确定下列数据的众数

(1)1.70,1.75,1.75,1.74,1.75,1.78,1.79;

(2)1.60,1.59,1.60,1.65,1.65,1.60,1.65;

(3)1.59,1.60,1.65,1.70,1.74,1.75,1.78o

解:(1)%=1.75;

(2)M()=1.60;

(3)无众数。

2.根据分组资料确定众数

如果是单项式分组资料,只要找出出现频数多的数值即可,如表1.19所示,某小区按

家庭规模分类资料,其中家庭人口为3人的家庭为众数。

表1.19某小区按家庭规模分类资料

按家庭人口分组(人/户)家庭数(户)

13

256

3420

414

5及以上7

合计

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论