第三章集中和离散_第1页
第三章集中和离散_第2页
第三章集中和离散_第3页
第三章集中和离散_第4页
第三章集中和离散_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章集中趋势和离中趋势3·1集中趋势的测度3·2离中趋势的测度3·3偏态与峰度的测定

3·1集中趋势的测度集中趋势是指一组数据(或总体各单位标志值)向某一中心值靠拢的倾向,测度集中趋势也就是寻找资料一般水平代表值或中心值,即平均指标。所谓平均指标,是说明同质总体内各单位某一数量标志在一定时间、地点条件下所达到的一般水平。趋势的测度值(平均指标)主要有算术平均数、调和平均数、几何平均数、众数和中位数等。本节将分别介绍它们的计算方法、特点及应用场合。

2

2002年,全国职工平均工资为12422元,其中,金融、保险业最高,为19135元,而农、林、牧渔业最低,为6398元,相当于最高的33.44%。一、算术平均数

算术平均数是集中趋势中最常用、最重要的测度值。它是将总体标志总量除以总体单位总量而得到的均值。(一)算术平均数的基本公式算术平均数=总体标志总量/总体单位总量

注意,式中分子、分母指标必须属于同一总体,即各标志值与各单位之间是一一对应的。这也是算术平均数与强度相对指标的区别。(二)两种计算形式:首先看两个资料。

5例一:设有一组大学生的月生活费支出为:150,200,240,300,350,500(单位:元)。(x=290)例二:有一班级的大学生月生活费支出如下表:

月生活费(元)x

人数(人)f频率(%)

15035.3620058.93240712.503002442.853501628.5750011.79

合计56100.00

6

加权算术平均数计算表

月生活费(元)x人数(人)f频率(%)xfx*频率

15035.364508.0420058.93100017.86240712.50168030.003002442.857200128.553501628.575600100.0050011.795008.95

合计56100.0016430293.40

资料栏计算栏解:该班级学生平均月生活费=(公式)=16430/56=293.39(元)

71、简单算术平均数(适用于未分组资料)计算公式为:如果所给的数据是已经分组的次数分布数列,则算术平均数的计算应采用加权算术平均数的形式。

82、加权算术平均数(适用于分组资料)(为什么由分组资料计算平均指标不能将各组的标志值简单平均?)。

计算公式为:

式中:f——代表各组的次数或频数(即各组的单位数)。

比较两个公式,并解释为什么次数f又称之为权数?平均数的大小不仅取决于各组标志值

x的大小,同时还受各组次数f多少的影响。各组标志值次数的多少在平均数的计算中具有权衡轻重的作用,因而把各组的次数又称为权数,用各组的次数去乘以各组的标志值,就是对各组的标志值进行加权。所以,用这种方法计算的算术平均数,称为加权算术平均数。

试想,如果各组次数完全相同,结果会怎样?

11

实务中给定的权数资料,既可以是绝对数,也可以是相对数,即频率或称权数系数。当权数为相对数时,加权算术平均数的表达公式如何呢?

算术平均数既可依据单项变量数列计算也可依据组距数列计算;既可根据绝对数计算,也可根据相对数或平均数进行计算。

12如果根据相对数或平均数进行计算,则应注意的问题是:(1)

只能用加权形式计算;(2)

权数的选择问题。

[例]见表所给资料。表一某市某局18个企业税收计划完成情况计划完成(%)企业数(个)计划任务数(万元)

95——1005100100——10581200

105——1103100110以上260

合计181460

要求:计算18个企业税收收入平均计划完成程度。

14

计算表计划完成(%)组中值x(%)计划任务数f(万元)实际完成数xf(万元)

95——10097.510097.5100——105102.512001230.0105——110107.5100107.5110以上112.56067.5

合计—14601502.5

计算栏

解:平均计划完成程度x=∑xf/∑f

=1502.5/1460=102.91%

15

表二(用于计算调和平均数)

计划完成(%)企业数(个)实际完成数(万元)

95——100597.5100——10581230.0105——1103107.5110以上267.5

合计181502.5要求同上:计算18个企业税收收入平均计划完成程度。

16计算表计划完成(%)组中值x(%)实际完成数m

计划任务数m/x

(万元)

(万元)

95—10097.597.5100100—105102.51230.01200

105—110107.5107.5100110以上112.567.560

合计—1502.51460

计算栏解:=1502.5/1460=102.91%

17(三)算术平均数的数学性质

1、各个变量值与算术平均数的离差总和等于零。表达式:∑(x-x)=0

或∑(x-x)f=02、各个变量值与算术平均数的离差平方总和为最小值。表达式:∑(x-x)2=最小或最小

18

二、调和平均数——又称“倒数平均数”,它是根据各变量值的倒数来计算的平均数。具体地讲,调和平均数是各变量值倒数的算术平均数的倒数。(一)调和平均数的计算方法

1、

简单调和平均数(适用于未分组资料)计算公式为:

xH==(1/x1+1/x2+……+1/xn)/n∑(1/x)

19

1n2、加权调和平均数(适用于分组资料)计算公式

:

以m加权的调和平均数与以f加权的算术平均数的关系.

20

因为,各组标志总量m=xf所以,各组的单位数(次数)f=m/x则:x=∑xf/∑f=∑m/∑m/x=xH

由二者的关系式得出,加权调和平均数是加权算术平均数的变形,二者在经济内容、计算结果上是完全一致的,仅计算形式不同而已。

21(二)加权算术平均数和加权调和平均数的采用

1、由平均数计算[举例]以某种蔬菜为例,资料见表3--4。

某种蔬菜的有关资料

表一价格x(元/公斤)采购金额m(元)早市0.5010.00

中市0.4513.50

晚市0.408.00

合计

—31.50

22

表二价格x(元/公斤)采购量f(公斤)早市0.5020

中市0.4530

晚市0.4020

合计——70

分别依据表一和表二的资料,计算该种蔬菜的平均价格。

思路:平均每公斤价格=购买金额/采购量=0.45(元/公斤)

232、由相对数计算

例题见前述计划完成程度的计算。结论:在由相对数或平均数计算平均数时,在什么情况下采用加权算术平均数或加权调和平均数,首先要明确所求平均指标的分子、分母是什么,而后再根据所掌握的资料条件来选择。如果所掌握的权数资料是计算公式的分母数值时,则直接采用加权算术平均数的形式;如果所掌握的权数资料是计算公式的分子数值时,则需采用加权调和平均数的形式。

24

三、几何平均数几何平均数是计算平均比率或平均发展速度的最适用的一种方法。凡是变量值的连乘积等于总比率或总速度的现象,都采用几何平均数反映现象总体的一般水平。根据所掌握资料的不同,也有简单和加权两种形式。(一)简单几何平均数是n个变量值连乘开n次方根的结果。XG=(X1×X2×……×Xn)1/n=(ΠX)1/n(二)加权几何平均数

25

(一)众数的概念众数是总体中出现次数最多的标志值,即最普遍、最常见的标志值。众数只有在总体单位较多而又有明确的集中趋势的资料中才有意义。(二)众数的确定单项数列中,出现次数最多的那个组的标志值就是众数。若在数列中有两组的次数是相同的,且次数最多,则就是双众数或复众数。组距数列中,众数的确定要分两步:第一步,用直接观察法确定众数组即次数最多的那一组;第二步,计算众数的近似值。比较精确的方法是用众数组次数与相邻两组次数之差来推算众数的近似值。

27

四、众数众数一般有两种计算公式:

Δ1

下限公式:M0=L+

d

Δ1+Δ2上限公式:M0=U-Δ2/(Δ1+Δ2)d

组距数列众数的确定一般与其相邻两组的频数分布有关。若众数组前一组的频数比众数组后一组的频数多,则众数小于众数组的组中值;反之,众数大于其组中值。若众数组前一组的频数等于其后一组的频数,则众数就是众数组的组中值。

28五、中位数(一)中位数的概念中位数是将总体单位某一变量的各个变量值按大小顺序排列,处在数列中间位置的那个变量值就是中位数。

(二)中位数的确定1、由未分组资料确定中位数在资料未分组的情况下,将各变量值按大小顺序排列后,首先确定中位数的位置,即(n+1)/2,

然后根据中点位置确定中位数。2、由分组资料确定中位数(1)由单项数列计算中位数:先计算各组的累积次数,然后根据中点位置(总次数/2)找出中位数。

(2)由组距数列计算中位数:情况要复杂一些。

29由组距数列确定中位数分三步骤:

第一步,计算累积次数;第二步,计算中位数位置(总次数/2),以确定中位数组;

第三步,用比例推算法估计中位数的近似值。中位数的计算公式有两个:下限公式:Me=L+[(∑f/2-Sm-1)/fm]×d

上限公式:Me=U-[(∑f/2-Sm+1)/fm]×d

30下限公式的比例推算法:累积次数Sm-1=180中点位置

f/2=215

中位数所在组次数fm=180215-180=35

中位数在该组分摊组距的比例为:35/180六、平均指标之间的相互关系

(一)算术平均数、几何平均数和调和平均数的关系三者存在的数量关系表现在:根据同一资料所计算的三种平均数,几何平均数大于调和平均数而小于算术平均数,即X≥XG

≥XH

当变量数列中所有的标志值都相等时,三种平均数相同,即X

=XG

=XH

。(二)中位数、众数与算术平均数的关系这三者之间的关系,决定于总体内部的次数分布状况。

32

在对称分布的情况下,中位数、众数和算术平均数合而为一,即:

Me

=M0=X

在非对称分布的情况下,中位数、众数和算术平均数之间存在一定的差别。

如果分布右偏,则三者之间的关系是

:M0<

Me

X;

如果分布左偏,则三者之间的关系是:M0>

Me

X。

可见,无论是右偏还是左偏,中位数总是介于算术平均数和众数之间。

适度偏态时,X-Me的距离是X-M0的1/3。

33对称分布M0=Me

=

X;MeM0X右偏分布左偏分布XMeM0(三)众数、中位数和算术平均数的特点和应用

场合

众数是一组数据分布的峰值,是一种位置代表值。其优点是易于理解,不受极端值的影响。当数据的分布具有明显的集中趋势时,尤其是对于偏态分布,众数的代表性比均值要好。其缺点是具有不唯一性。

中位数是一组数据中间数据的代表值,其特点是不受数据极端值的影响,因此,对于具有偏态分布的数据,中位数的代表性要比均值好。

算术平均数是就全部数据计算的,它具有优良的数学性质,是实际应用最广泛的集中趋势测度值。其主要缺点是易受极端值的影响,对于偏态分布的数据,均值的代表性较差。

37

结论:从各种代表值之间的关系及其特点可看出:当数据呈对称分布或接近对称分布时,三个代表值相等或接近相等,这时,应选择均值作为集中趋势的代表值(为什么?);当数据为偏态分布,特别当偏斜的程度较大时,我们应选择众数或中为数等位置平均数,这时它们的代表性要比均值好。此外,均值只适用于定距或定比尺度的数据,而对于定类或定序尺度的数据无法计算均值,但却可以计算众数和中位数。

38第二节频数分布离中程度的测度[案例1]有两组男生身高分别为:甲组(cm):168,172,172,173,175,190乙组(cm):168,172,175,175,178,182两组平均身高均为175cm,它们的代表性一样吗?

案例2有男、女两组身高:男组(cm):168,172,172,173,175,190女组(cm):163,164,165,165,167,171

男组平均身高175cm;女组平均身高165.83cm。思考:两组平均身高的代表性如何评价?

案例3从某校一年级大学生中随机抽取100人,测得他们的身高和体重平均值分别是168厘米和52千克,相应的标准差为9厘米和5千克,问身高和体重哪一个差异大?案例1计算表

甲组乙组

身高xx-x(x-x)2身高xx-x(x-x)2168-749168-749172-39172-39172-3917500173-2417500175001783919015225182749

合计296合计116

甲组:σ=[∑(x-x)2/n]1/2=7.02(厘米)乙组:σ=[116/6]1/2=4.4(厘米)第二节频数分布离中程度的测度

离中程度,是各个变量值远离其中心值的程度,又称离散程度,或变异指标。

为什么要测度离中程度?集中趋势只是数据分布的一个特征,它所反映的是总体各单位变量值向其中心值聚集的程度。而各变量值之间的差异状况如何,均值的代表性有多大,这就需要用离中程度对其进行考察。数据的离中程度是数据分布的另一个重要特征,它与均值的关系是:

变量值的差异大,离散程度就大,均值的代表性就小;变量值差异小,离散程度就小,均值的代表性也就大。

43

描述数据离散程度的测度值主要有极差、平均差、方差和标准差、离散系数等。

一、极差

极差亦称全距,即两极之差。根据全距的大小来说明变量值变动范围的大小。极差R=最大值-最小值

对于组距分组数据,极差也可以近似表示为:R=最高组的上限值-最低组的下限值极差是描述数据离散程度的最简便测度值,其计算简单,易于理解,但它容易受极端值的影响。

44二、平均差

平均差是表明总体各单位变量值与其均值之间绝对离差的算术平均数,又称平均离差,一般用A·D表示。(为什么采取离差的绝对值,即|X-X|)两种计算形式:简单平均式与加权平均式。(1)简单平均差(适用于未分组资料)

其公式为:

A·D=∑|x-x|/n

(2)加权平均差(分组资料)其公式为:

A·D=

∑|x-x|f/∑f

45

平均差是根据全部变量值计算的,受极端值的影响比较小,所以,它能够综合反映总体中各单位变量值的离散程度。但由于它采用绝对值计算不符合代数方法的演算,所以在统计研究中应用较少。

46

三、方差和标准差(一)

方差和标准差的含义

方差,是总体各单位变量值与其算术平均数的离差平方的算术平均数,用σ2表示,方差的平方根就是标准差σ。与方差不同的是,标准差是具有量纲的,它与变量值的计量单位相同,其实际意义要比方差清楚。因此,在对社会经济现象进行分析时,更多使用标准差。

与平均差比较,标准差的优点是什么?

47

标准差与平均差虽都是变量值与均值的平均离差,但不同的是平均差所平均的是离差绝对值,而标准差平均的是离差平方。标准差彻底解决了正负离差不能相加的问题。它在抽样调查、相关分析中应用较多,所以标准差是应用较为广泛的一种离中趋势的测度值。

48

标准差的计算有两种形式——

简单平均式和加权平均式(1)在未分组资料情况下,采用简单平均式。其公式为:

σ=[∑(x-x)2/n]1/2

(2)在分组资料情况下,采用加权平均式。其公式为:

σ=[∑(x-x)2f/∑f]1/2

49(二)方差的数学性质:

1、变量的方差等于变量平方的平均数减去变量平均数的平方。即:

σ2=x2-(x)22、变量对算术平均数的方差,小于对任意常数的方差。(三)标准差的应用标准差可用于计算标准化值。

标准化值是某一数据与平均数的距离以标准差为单位的测量值。其计算公式为:

Zi=(xi-x)/σ

50

一组数据中的每一个原始数据都可以计算出对应的标准化值,这一组标准化值组成一个标准化值的平均数为零,标准差为1。

当Zi=0时

,即xi=x,这时原始数据正好等于这一组数据的平均数;

当Zi>0时,原始数据高于其平均数;当Zi<0时,原始数据低于其平均数。标准化数据越大,说明它距离平均数越远。标准化值不仅能表明各原始数据在一组数据分布中的相对位置,而且能在不同分布的各原始数据间进行比较,同时还能接受代数方法的处理。因此,标准化值在统计分析中起这十分重要的作用。

51

四、变异系数平均差和标准差其数值大小,不仅决定于各标志值的差异程度,还决定于数列平均水平的高低,同时它们具有与标志值相同的名数。因而,对于具有不同平均水平和不同计量单位的数列,就不能直接利用标准差等来比较其标志变动程度的大小,而需要用变异系数,以消除不同数列水平的影响。

变异系数是将标准差或平均差与其平均数对比所得的比值,又称离散系数。计算公式为:

V=A·D/x或Vσ=σ/x

被常用变异系数是一个无名数的数值,可用于比较不同数列的变异程度。

52五、成数(一)成数的概念所谓成数是总体中具有某种属性或特征的单位数占全部单位数的比重,它反映了总体中“是”或“非”属性的构成,并且代表着该种属性或特征反复出现的程度,即频率。

成数的计算。在一个是非标志总体中,如果全部总体单位数用N来表示,具有某种属性或特征的单位数用N1表示,它在全部总体单位数中所占的比重(即成数)用P表示。则:

P=N1/N

53

将不具有某种属性或特征的单位数用N0表示,它在全部总体单位数中所占的比重(成数)用Q表示,则:

Q=N0/N两个成数之和等于1,即:N1/N+N0/N=1亦即,P+Q=1因而,Q=1-P

54(二)是非标志的平均数和标准差

是非标志是品质标志,因而无法直接计算其平均质量。要计算是非标志的平均数,就必须将是非标志在性质上的差别过渡到数量上的变异,即将是非标志数量化。如果以“1”表示具有某种属性或特征的单位的标志值,以“0”表示不具有某种属性或特征的单位的标志值,则是非标志就转化为(0,1)的数量标志值。

列成统计表,则有:

是非标志值(变量值)x比重(成数)f1P0Q

合计1

是非标志平均数和标准差的计算表

是非标志值比重变量值×

离差离差离差平方(变量值)

(成数)比重平方×权数

xfxfx-x(x-x)2(x-x)2f(1)(2)(3)(4)(5)(6)

1PP1-P(1-P)2(1-P)2P0Q00-PP2P2Q

合计

1P——Q2P+P2Q

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论