ch04统计分布的数值特征_第1页
ch04统计分布的数值特征_第2页
ch04统计分布的数值特征_第3页
ch04统计分布的数值特征_第4页
ch04统计分布的数值特征_第5页
已阅读5页,还剩91页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据分布的特征集中趋势(位置)离中趋势

(分散程度)偏态和峰度(形状)

介绍如何将一个现象分布的特征,提炼出来。以及这些特征值有什么作用?怎样计算?Ch4主要内容Ch4统计分布的数值特征§4.1数值平均数§4.2位置平均数§4.3分布的离散程度§4.4分布的偏度和峰度Ch4学习要求1,掌握统计平均数的计算及作用2,掌握分布的离散程度指标的作用及计算3,掌握分布的偏度和峰度的计算Ch4统计分布的数值特征§4.1数值平均数§4.2位置平均数§4.3分布的离散程度§4.4分布的偏度和峰度Ch4统计分布的数值特征§4.1统计平均数—数值平均数§4.2统计平均数—位置平均数§4.3分布的离散程度§4.4分布的偏度和峰度统计学原理§4.1数值平均数■统计平均数概述图4-1统计平均数概述统计平均数静态、分布平均数数列平均数动态、序时平均数数值平均数位置平均数算术平均数调和平均数几何平均数中位数众数其他分位数Ch4统计分布的数值特征§4.1数值平均数§4.2位置平均数§4.3分布的离散程度§4.4分布的偏度和峰度§4.1数值平均数§4.1.1算术平均数§4.1.2调和平均数§4.1.3几何平均数Ch4统计分布的数值特征§4.1数值平均数§4.2位置平均数§4.3分布的离散程度§4.4分布的偏度和峰度返回■算术平均数,是算术级数数列

x1,x2,x3,…,xn-1,xn;的平均数。■所谓算术级数,就是指同质总体各单位之间,数量标志值的差异变动,往往是独立的或者不相关的。■算术平均数是最常用的一种统计平均数。它的理论公式是标志变量的算术平均数=标志总量/总体单位数(4.1.1)■算术平均数的具体计算方法,根据标志数列的分布特点确定:简单算术平均数方法和加权算术平均数方法。■不论采用什么方法计算算术平均数,其计算内容在概念上必须满足理论公式(4.1.1)。§4.1.1算术平均数

Ch4统计分布的数值特征

§4.1数值平均数一、简单算术平均数对未分组整理的算术级数数列

x1,x2,x3,…,xn-1,xn;其标志序列总量为x1+x2+x3+…+xn-1+xn,总体单位数为n,则数据序列分布的算术平均数

(4.1.2)该方法主要适用于,在总体单位数很少,而且已知各单位数量标志值的情况下,可直接将各单位的数量标志值相加,求出标志总量,再除以总体单位数,得出平均数。这种计算平均数的方法,称为简单算术平均数方法。§4.1.1算术平均数

Ch4统计分布的数值特征

§4.1数值平均数【例4-1】观察某路口在若干个10分钟内的车流量,资料记录如下:26,26,38,24,32,22,15,33,19,26,21,29,16,20,34,24,27,30,31,33。试计算该路口在10分钟内的车流量强度。解:车流量强度就是平均车流量。观察了20个10分钟,每10分钟当成一个时间段,每个时间段记录了一个车流量数据。因此,这20个时间段的平均车流量为通过这个结果,我们对该路口的车流量规律,有了一个大致的了解,即每10分钟平均通过26.3辆。

§4.1.1算术平均数

Ch4统计分布的数值特征

§4.1数值平均数二、加权算术平均数加权算术平均数,主要适用于分组数据的平均数计算。分组数据一般也有两种:一种是单变量分组数据;另一种是组距式变量分组数据。这两种数据资料条件,其计算方法,当然也有两种。§4.1.1算术平均数

Ch4统计分布的数值特征

§4.1数值平均数■如果分组整理后的分布为单变量分布。设整理后的标志数据序列xi及相应的频数序列fi为于是,标志数据序列xi的算术平均数为

(4.1.3)此称为加权算术平均公式。可以证明,当f1=f2=…=fn时,加权算术平均公式,将化为简单算术平均公式。

§4.1.1算术平均数

Ch4统计分布的数值特征

§4.1数值平均数组数i

标志变量xi

频数fi

1x1

f1

2x2

f2

3x3

f3

………n-1xn-1

fn-1

n

xnfn

-合计

f

表4-1单变量分组表【例4-2】对某公司员工工资数据进行整理,结果如下:计算该公司人平均月工资。(p54)解:§4.1.1算术平均数

Ch4统计分布的数值特征

§4.1数值平均数组数i

工资变量xi

频数fi

总工资xi

·fi

1x1

=800f1=5800×5=40002x2

=1000f2

=101000×10=100003x3

=1200f3

=201200×20=240004x4

=1500f4

=71500×7=105005x5

=2000f5

=52000×5=100006x6

=2500f6

=32500×3=7500-合计

f=5066000表4-2单公司员工工资分组计算表于是,可得解:§4.1.1算术平均数

Ch4统计分布的数值特征

§4.1数值平均数图4-2某公司员工工资分布竖线图20000频数(人)工资5101501000300020§4.4.1算术平均数如果整理后的分布为组距变量分布,则必须用组中值变量代替组距变量xi。设数据组中值变量序列及相应的频数序列fi为

则组距变量的算术平均数,可用下式估计

(4.1.4)其中:

(4.1.5)组数i

分组标志变量xi

组中值频数fi

频率1L1~U1

f1.…2L2~U2

f2.…3

L3~U3

f3.………………n

Ln~Un

fn.…-

合计—

f…表4-3某

标志组距变量分组表

Ch4统计分布的数值特征

§4.1数值平均数§4.1.1算术平均数【例4-3】以上下班的前后30分钟为一个观察时段,连续观察了50个工作日,得到某路口的车流量数据分布如下表。试计算其日平均车流量强度。组数i车流量变量xi日数fi组中值日车流量总数fi

1105~110

f1=3107.5107.5×3=322.52110~115f2=5112.5112.5×5=562.53115~120f3=8117.5117.5×8=9404120~125f4=14122.5122.5×14=17155125~130f5=10127.5127.5×10=12756130~135f5=6132.5132.5×6=7957135~140f5=4137.5137.5×4=550-

合计

f=50-6160表4-4某路口日平均车流量计算表

Ch4统计分布的数值特征

§4.1数值平均数§4.1.1算术平均数解:上表是50个工作日车流量的分布情况,只能作大概估计其日平均车流量数。方法是计算其各组的组中值,用其组中值变量代替各组的一般水平,然后进行加权求平均。即同时,我们也整理得到了该路口比较准确的车流量分布规律。

Ch4统计分布的数值特征

§4.1数值平均数图4-3某路口车流量分布f(x).x14013012011051015123.21000§4.1.1算术平均数三、算术平均数的数学性质■各变量值与算术平均数的离差之和为零。

(4.1.6)

■各变量值与算术平均数的离差的平方和最小。

(4.1.7)■两个独立的同质变量代数和的平均数,等于各变量平均数的代数和。

(4.1.8)■两个独立的同质变量乘积的平均数,等于各变量平均数的乘积。

(4.1.9)Ch4统计分布的数值特征

§4.1数值平均数返回§4.1.2调和平均数■调和平均数H

调和平均数,也叫标志变量的倒数的算术平均数的倒数,它是算术平均数的另一种表现形式。在实际工作中,由于所获得的数据不同,有时不能直接采取算术平均公式计算平均数,这就需要使用调和平均的形式,来计算平均数。■调和平均数的计算方法,也是根据数列的分布特点确定。通常采用两种形式:简单调和平均数和加权调和平均数。Ch4统计分布的数值特征

§4.1数值平均数§4.1.2调和平均数一、加权调和平均数为了更好地理解调和平均数与调和平均数的应用场合,我们看下面的例子。

【例4-4】某蔬菜批发市场三种蔬菜日成交数量数据如下。计算三种蔬菜的日平均批发价格。

表4—5

某市场蔬菜日成交数据分组表

Ch4统计分布的数值特征

§4.1数值平均数组数i蔬菜名称批发价格xi成交金mi=xi·fi

1a1.280002b0.5125003c0.86400-

合计36900§4.1.2调和平均数解:从平均批发价格的概念上看,其计算方法应该是:平均批发价格=成交金额/成交量;它的公式也应该是一个批发价格xi的加权平均公式。但是,成交量fi未知。所以必须将各组的成交量fi换算出来。利用mi=xi·fi关系,有fi=mi/xi,即

表4—6三种蔬菜的日批发数据及调和平均数计算表则三种蔬菜的日平均批发价格为

Ch4统计分布的数值特征

§4.1数值平均数组数i蔬菜名称批发价格xi成交金额mi=xi·fi

成交量fi=mi/xi

1a1.21800018000/1.2=150002b0.51250012500/0.5=250003c0.864006400/0.8=8000-

合计3690048000§4.1.2调和平均数一、加权调和平均数因此,我们令

(4.1.10)为在某些特殊条件下的平均数计算方法,这种方法就是调和方法,其中(4.1.10)式就为加权调和平均公式。Ch4统计分布的数值特征

§4.1数值平均数§4.1.2调和平均数三、调和平均数与算术平均数的关系:在mi=xi·fi条件下,可以证明,调和平均公式与算术公式是等价的。调和平均数,是算术平均数的一种变化形式。Ch4统计分布的数值特征

§4.1数值平均数是由于使用了不同的数据§4.1.2调和平均数二、简单调和平均数加权调和平均公式,适用于各组的标志变量代表值xi已知,且已知各组的标志总量mi。但是如果各组的标志总量m1=m2=…=mn。则调和平均公式可化为

(4.1.11)令yi=1/xi,又由于yi=1/xi,就是标志变量xi的倒数。则(4.1.11)可化为

(4.1.12)于是也可以说,调和平均数,是标志变量的倒数的算术平均数的倒数。公式(4.1.11)式也叫简单调和平均公式。它的适用条件是,已知各组的标志变量代表值xi,且各组的标志总量mi恰好相等。Ch4统计分布的数值特征

§4.1数值平均数§4.1.2调和平均数■调和平均数,有着比算术平均数更好的使用空间。比如,欲了解某商品的市场变化规律,就必须收集市场逐日的商品价格,但逐日的商品价格资料搜集,是非常困难的,因为你必须了解每日各个市场,不同时间的价格资料和成交量资料,这种要求不仅困难而且也不可行。因此,在大多数情况下,逐日的商品价格资料收集,是采用市场抽样的方法。【例4-5】市场抽样。指派一个调查员到市场上去购买某商品,抽样理论可以证明,在完全随机的情况下,调查员的购买成本,就是市场的销售价格;调查员依次在三个不同的市场,购买了某商品,每次消费1元钱;其获得的资料如下:Ch4统计分布的数值特征

§4.1数值平均数组数i蔬菜名称批发价格xi成交金额mi=xi·fi

1a1.212b0.513c0.81-

合计3§4.1.2调和平均数求该商品的日平均销售价格。解:抽样理论可以证明,在完全随机的情况下,调查员的购买成本就是市场的销售价格;而该日的购买价格=消费金额/购买数量。已知,消费金额=1+1+1=3;而购买数量=1/1.2+1/1.5+1/1.3。因此有即,该商品该日的平均销售价格为1.322034元。显然,这里该日的平均销售价格计算,使用了简单调和平均公式。如果考虑到各个市场的价格差异对消费者消费欲望的影响,则调整各市场的消费金额,便可以将计算推广到加权调和平均公式。

Ch4统计分布的数值特征

§4.1数值平均数返回§4.1.3几何平均数■算术平均数或调和平均数的计算,各个标志变量值xi是独立不相干的。如果xi是非独立和相关的,则标志变量xi数列的平均数计算,就不能再采用算术方法或调和方法,而必须使用其他方法。■几何平均数,是几何级数的平均数。它的xi数列特点是,

xi=x0·Gi,i=1,2,..,n,标志变量xi的每一项值的变化,基本与该值的前后项有关,存在时间上相互衔接的比率关系,xi数列是一个几何级数数列。例如,流水线上的产品合格率数列,在复利条件下的本利率数列变动,等等,都是几何级数数列。■几何平均数的计算方法,也是根据数列的分布特点确定:简单几何平均公式和加权几何平均公式。

Ch4统计分布的数值特征

§4.1数值平均数§4.1.3几何平均数一、简单几何平均公式简单几何平均数是n个变量值乘积的n次方根。具体地说,如果有xi数列

x1,x2,x3,…,xn-1,xn;满足几何级数变化的要求,则xi数列的平均数

(4.1.13)Ch4统计分布的数值特征

§4.1数值平均数§4.1.3几何平均数【例4-6】某产品的完整生产过程,要经过3道流水作业工序,这3道工序的产品合格率,分别为80%,90%,95%。求整个生产流程的产品总平均合格率。解:因为,任意一道工序的产品合格与否,都与上一道工序有关。设流水作业的初级投入为y,每个工序的产品平均合格率都为G,则整个生产流程的产品总合格率R=y·G·G·G/y=G3

;80%,90%,95%是流水作业的状态合格率,同样有整个生产流程的产品总合格率

R=80%·90%·95%=G3

。于是

即,整个生产流程的产品总平均合格率为88.1%。

Ch4统计分布的数值特征

§4.1数值平均数§4.1.3几何平均数【例4-7】一位投资者持有一种股票。1996年,1997年,1998年,1999年的收益率分别为4.5%,2.0%,3.5%,5.4%。求投资者这4年的年平均收益率。

解:本题的正确答案是年平均收益而非原因是在按复利计算收益的条件下,只有益本率1+r才具有几何平均数性质;于是Ch4统计分布的数值特征

§4.1数值平均数§4.1.3几何平均数二、加权几何平均公式如果几个变量值出现的次数不同时,计算其平均数应该采用加权几何平均方法

(4.1.14)该公式的导出,类似于对几何级数数列(x1,…,x1);(x2,…,x2);(x3,…,x3);…,;(xn,…,xn);f1个,f2个,f3个,,…….,fn个;求简单几何平均数。

Ch4统计分布的数值特征

§4.1数值平均数§4.1.3几何平均数【例4-8】某项为期20年的投资,其收益按复利计算,前10年的年利率为10%,中间5年的年利率为8%,最后5年的年利率为6%。求这20年的年平均收益率。解:本题的正确答案是年平均收益而非原因是,在按复利计算收益的条件下,只有益本率1+r才具有几何平均数性质;于是

即这20年的年平均收益率为8.47%。Ch4统计分布的数值特征

§4.1数值平均数返回§4.2位置平均数§4.2.1众数Mo§4.2.2中位数Me

§4.2.3其它分位数§4.2.4各种平均数的比较Ch4统计分布的数值特征§4.1数值平均数§4.2位置平均数§4.3分布的离散程度§4.4分布的偏度和峰度返回§4.2.1众数Mo■众数是统计数列中,出现次数最多的变量值或者标志值;由于众数与分布的频数fi有关,不受极端值的影响,因此,可作为现象一般水平的代表值。■理论上,确定众数,必须编制相应变量分布序列。■众数确定:一、品质数列和单项式变量数列的众数确定。二、组距式变量数列的众数确定。

Ch4统计分布的数值特征

§4.2位置平均数§4.2.1众数Mo一、品质数列、单项式变量数列的众数确定。方法非常简单。由Max{fi},(4.2.1)求Mo

组i,i对应的xi就是该数列的众数,Mo=xi。Ch4统计分布的数值特征

§4.2位置平均数Isee!【例4-9】在某城市随机调查了200个市民,整理后得到其关注的广告变量频数分布。求分布的众数。解:这里的变量为“广告变量”,这是个定类变量,不同类型的广告就是变量值。由于在所调查的200人中,关注商品广告的人最多,为112人,占总调查人数的56%,因此,众数属于“商品广告”这一类别,i=1,即Mo=x1=“商品广告”。组数i广告类型分组xi人数fi1商品广告1122服务广告513金融广告94房地产广告165招生招聘广告106其他广告2-合计200市民关注的广告类型频数分布§4.2.1众数MoCh4统计分布的数值特征

§4.2位置平均数【例4-10】在某城市随机调查了300户居民,整理后得到其对住房状况评价的频数分布。求分布的众数。解:这里的变量为“回答变量”,这是个定序变量,不同类型的回答就是变量值。由于在所调查的300人中,对住房表示不满意的人最多,为108人,占总调查人数的36%,因此,众数属于“不满意”这一类别,i=2,即Mo=x2=“不满意”。

市民对住房状况的评价频数分布组数i回答类型分组xi户数fi1非常不满意242不满意1083一般934满意455非常满意30-合计300§4.2.1众数MoCh4统计分布的数值特征

§4.2位置平均数图4-4居民对住房评价的累计分布不满意一般满意非常不满意非常满意300100200S’S【例4-11】表3-6是某班学生按年龄分组表。计算其年龄众数。解:由Max{fi}求i,Max{fi}=16,i=3,所以Mo=x3=20。即众数为20岁。

组数i

年龄变量xi(岁)人数(人)fi

人数比重(%)118814.552191221.813201629.094211120.00522814.55-合计55100.00表3-6某班学生按年龄分组表图4-5某班学生年龄分布竖线图206频数(人)频率%年龄8101214161718192122232418.1821.8225.4529.0914.551832.72§4.2.1众数MoCh4统计分布的数值特征

§4.2位置平均数二、组距式变量数列的众数确定。方法则复杂一些。其步骤是:

由Max{fi}求众数组i:“Li~

Ui”,该组的上、下限,就是众数的变动范围;

LMo

Mo

UMo.

(4.2.2)依据与众数组相临的两个组的频数,近似计算众数值,公式为

(4.2.3)其中,

dMo=UMo-LMo,

1=fMo-fMo-1,

2=fMo-fMo+1。(4.2.4)

§4.2.1众数MoCh4统计分布的数值特征

§4.2位置平均数二、组距式变量数列的众数确定§4.2.1众数MoCh4统计分布的数值特征

§4.2位置平均数图4-6众数计算公式的几何解释f(x).xUMoLMofMo

20

1fMo-1fMo+1Mo.【例4-12】某路口50个工作日车流量数如下表。试计算其日车流量的众数。解:由Max{fi}=14,i=4,则众数应在第4组,于是有

LMo

Mo

UMo.→120

Mo

125.

1=14-8=6,

2=14-10=4,dMo=UMo-LMo=5.利用下限公式估计众数§4.2.1众数MoCh4统计分布的数值特征

§4.2位置平均数组数i车流量变量xi日数fi1105~110

f1=32110~115f2=53115~120f3=84120~125f4=145125~130f5=106130~135f5=67135~140f5=4-

合计

f=50表4—11某路口日车流量众数计算表【例4-13】某公司50名员工工资分布情况如下表。试计算其工资的众数。解:由Max{fi}=20,i=3,则众数应在第3组,得Mo=1200。本例实际为单变量数列,但可以把它当成是组距变量数列的特例处理,即

LMo

Mo

UMo.→1200

Mo

1200.

1=20-10=10,

2=20-7=13,dMo=UMo-LMo=0.利用下限公式估计众数组数i工资变量xi人数fi1800~800f1=521000~1000f2=1031200~1200f3=2041500~1500f4=752000~2000f5=562500~2500f

6

=3-合计

f=50表4—12员工工资众数计算表Ch4统计分布的数值特征

§4.2位置平均数§4.2.1众数Mo返回■中位数是统计数列按数值的大小排序,排序后处于中间位置上的标志值。由于Me位置居中,不受极端值的影响,因此,可以用来代表现象的一般水平。■为确定中位数,必须将总体各单位的标志值,按大小排序,最好是先编制出变量序列。一般有三种情况:第一种情况,未分组原始资料的中位数确定。第二种情况,单项式变量数列资料的中位数确定。第三种情况,组距式变量数列的中位数的确定。Ch4统计分布的数值特征

§4.2位置平均数§4.2.2中位数Me一、未分组原始资料的中位数确定。首先按标志值的大小排序。设排序后的结果为

x1

x2

x3

……..

xn-1

xn;按照中位数的定义,则中位数可按下式确定

(4.2.5)其中(n+1)/2为数列的中间位置。Ch4统计分布的数值特征

§4.2位置平均数§4.2.2中位数Me【例4-14】5个原始数据:24,22,21,26,20;计算其中位数。解:对原始数据排序,有xi:20,

21,

22,

24,

26;位置i:1,2,3,4,5;排序数列的中间位置为(n+1)/2=(5+1)/2=3。第3个位置所对应的数据值为22,所以Me=x3=22。

【例4-15】6个原始数据:10,5,9,12,6,8;计算其中位数。解:对原始数据排序,有xi:5,

6,

8,

9,

10,

12;位置i:1,2,3,4,5,6;排序数列的中间位置为(n+1)/2=(6+1)/2=3.5。第3个位置所对应的数据值为8,第4个位置所对应的数据值为9,所以Me=(x3+x4)/2=(8+9)/2=8.5。

Ch4统计分布的数值特征

§4.2位置平均数§4.2.2中位数Me【例4-16】观察某路口在若干个10分钟内的车流量,资料记录如下:26,26,38,24,32,22,15,33,19,26,21,29,16,20,34,24,27,30,31,33。对其进行排序整理,试计算该路口在10分钟内的车流量中位数。解:排序整理后,有xi:15,16,19,20,21,22,24,24,26,26,26,27,29,30,31,32,33,33,34,38,位置i:1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20;排序数列的中间位置为(n+1)/2=(20+1)/2=10.5。第10个位置所对应的数据值为26,第11个位置所对应的数据值为26,所以Me=(x10+x11)/2=(26+26)/2=26。

Ch4统计分布的数值特征

§4.2位置平均数§4.2.2中位数Me【例4-17】在某城市随机调查了300户居民,整理后得到其对住房状况评价的频数分布。求分布的中位数。市民对住房状况的评价频数分布组数i回答类型分组xi户数fi向上累计Si=f1+f2+…+fi.排序Pi1非常不满意2424=241~242不满意108132=24+10825~1323一般93225=24+108+93133~2254满意45270=24+108+93+45226~2705非常满意30300=24+108+93+45+30271~300-合计300--§4.2.2中位数MeCh4统计分布的数值特征

§4.2位置平均数解:排序计算累计频数Si;由于,中间位置(

f+1)/2=(300+1)/2=150.5,从累计频数Si和排序Pi的关系看,从序133-225的变量值均为“一般”,于是中位数应在“一般”这一类别中。因此,中位数为“一般”,即Me=x3=“一般”。

二、单项式变量数列资料的中位数确定由于变量值已经初步序列化,其中位数的确定,既可按中位数的定义确定,也可按组距式变量数列方法的一个特例处理。Ch4统计分布的数值特征

§4.2位置平均数§4.2.2中位数Me是吗?道理呢?三、组距式变量数列的中位数的确定(比较复杂)一般步骤是:先对数列进行排序。排序的过程,等价于计算数列的向上累计数Si或者向下累计数Si’。

Si=f1+f2+…+fi,Sn-i+1’=fn+fn-1+…+fn-i+1。(4.2.6)Ch4统计分布的数值特征

§4.2位置平均数§4.2.2中位数Me组数i

标志变量xi

频数fi

向上累计频数Si=f1+f2+…+fi.排序1L1~U1f1

S1=f1.1~f12L2~U2f2

S2=f1+f2.1+f1

~S2

3L3~U3f3

S3=f1+f2+f3.1+S2

~S3

……………n

Ln~Unfn

Sn=f1+f2+…+fn.1+Sn-1

~Sn-合计

f

-…表4-4某

标志中位数计算表

按照中位数的定义,有

Si(Me)=(

f)/2;Sn-i’(Me)=(

f)/2;(4.2.7)SMe-1<(

f)/2

SMe;SMe’

(

f)/2<SMe+1’;

(4.2.8)

从数列Si或Si’栏中,找出(

f)/2所在的组i—“中位数组”,该组的上、下限,就是中位数的取值范围;

LMe

Me

UMe.(4.2.9)并确定fMe、SMe

、SMe-1、SMe+1’的值。这里,fMe、SMe

、SMe-1、SMe+1’,分别为中位数组频数、向上累计到中位数组的频数、向上累计到中位数组之相临上一组的频数、向下累计到中位数组之相临下一组的频数。Ch4统计分布的数值特征

§4.2位置平均数§4.2.2中位数Me假定中位数组内各单位,是均匀分布的,利用下面公式,可近似计算中位数值

(4.2.10)其中,

dMe=UMe-LMe。(4.2.11)Ch4统计分布的数值特征

§4.2位置平均数§4.2.2中位数Me【例4-18】某路口50个工作日车流量分布情况如下表。试计算其中位数。组数i车流量变量xi日数fi向上累计Si=f1+f2+…+fi

排序Pi1105~110

f1=33=31~32110~115f2=53+5=84~83115~120f3=83+5+8=169~164120~125f4=143+5+8+14=3017~305125~130f5=103+5+8+14+10=4031~406130~135f5=63+5+8+14+10+6=4641~467135~140f5=43+5+8+14+10+6+4=5047~50-

合计

f=50--表4—14某路口50个工作日车流量中位数计算表Ch4统计分布的数值特征

§4.2位置平均数§4.2.2中位数Me解:中点位置为(

f)/2=25,由累计频数Si与排序Pi的关系知,中位数应在第4组,i=4,于是有

LMe

Me

UMe.→120

Me

125.SMe=30,SMe-1=16,SMe+1=40,fMe=14,dMe=UMe.-LMe=5.利用下限公式估计中位数Ch4统计分布的数值特征

§4.2位置平均数§4.2.2中位数Me【例4-19】某公司50名员工工资分布情况如下表。试计算其工资的中位数。组数i月工资分组xi人数fi向上累计Si=f1+f2+…+fi

排序Pi1800~800

f1=55=51~521000~1000f2=105+10=156~1531200~1200f3=205+10+20=3516~3541500~1500f4=75+10+20+7=4236~4252000~2000f5=55+10+20+7+5=4743~4762500~2500f5=35+10+20+7+5+3=5048~50-

合计

f=50--表4—15某公司员工工资中位数计算表Ch4统计分布的数值特征

§4.2位置平均数§4.2.2中位数Me解:单变量分布,可以当成组距变量分布的特例。中点位置(

f)/2=25,由累计频数Si与排序Pi的关系知,中位数应在第3组,i=3,于是有

LMe

Me

UMe.→1200

Me

1200.SMe=35,SMe-1=15,SMe+1=42,fMe=20,dMe=UMe.-LMe=0.利用下限公式估计中位数Ch4统计分布的数值特征

§4.2位置平均数§4.2.2中位数Me返回■中位数,作为分布数列中处于中等水平的代表值,可以将全部总体单位,按标志值的大小,等分为两部分,因此,中位数也称为“1/2分位数”。

Si(Me)=(

f)/2.→Si(Me)/(

f)=1/2.(4.2.12)

类似地,我们可以定义出其它分位数。如1/4分位数、1/8分位数、1/10分位数、1/100分位数,等等。■一般地,如果能够将全部总体单位,按标志值的大小,等分为k个部分,有

Si(xk)/(

f)=1/k.(4.2.13)

则xk可称为1/k分位数。■确定1/k分位数的目的,是进一步把握总体分布的范围和内部结构。与中位数和众数类似,这些分位数,也反映了总体分布的位置特征。较为常见的分位数,有以下几种:

Ch4统计分布的数值特征

§4.2位置平均数§4.2.3其他分位数一、4分位数Q:

4分位数,就是能够将全部总体单位,按标志值的大小,等分为4个部分的3个数值。分别记为Q1、Q2、Q3,并称为1/4分位数、1/2分位数、3/4分位数。其中,1/4分位数也叫下4分位数,3/4分位数也叫上4分位数,1/2分位数就是中位数。在总体所有n个单位的标志值,都已经按大小顺序排列的情况下,Q1的位次为(n+1)/4,Q2的位次为2(n+1)/4,Q3的位次为3(n+1)/4。如果n+1恰好为4的倍数,则

Q1=x(n+1)/4,Q2=x2(n+1)/4=Me,Q3=x3(n+1)/4,(4.2.14)

如果n+1不是4的倍数,则按上面方法计算出来的4分位数位次,就有可能有小数,这时,有关的4分位数,就应该是,与该带分数相临的两个整数位次上的标志值的加权算术平均,权数的大小,取决于两个整数位次与4分位数位次距离的远近,距离越近权数越大,距离越远权数越小。Ch4统计分布的数值特征

§4.2位置平均数§4.2.3其他分位数【例4-21】当给定n=50时,容易确定:

Q1的位次为(n+1)/4=12.75,

Q2的位次为2(n+1)/4=25.5,

Q3的位次为3(n+1)/4=38.25。则

Q1=x12+0.75(x13-x12)=0.25x12+0.75x13,

Q2=x25+0.5(x26-x25)=0.5x25+0.5x25=Me,

Q3=x38+0.25(x39-x38)=0.75x38+0.25x39。以上方法,适用于未分组数据和单变量分布数据。

Ch4统计分布的数值特征

§4.2位置平均数§4.2.3其他分位数对于组距变量数列,可仿照中位数的估计方法,求出Q1、Q2、Q3。第一步,由

Si(Q1)/(

f)=1/4;

Si(Q2)/(

f)=Si(Me)/(

f)=1/2;(4.2.15)Si(Q3)/(

f)=3/4。

从变量数列的Si栏中,找出第(

f)/4、(

f)/2、3(

f)/4个单位所在的组,各组的上、下限,就是各分位数的取值范围;

LQi

Qi

UQi.(4.2.16)并确定fQi、SQi

、SQi-1的值。这里,fQi、SQi

、SQi-1,分别为各分位数组频数、向上累计到各分位数组的频数、向上累计到各分位数组之相临上一组的频数。Ch4统计分布的数值特征

§4.2位置平均数§4.2.3其他分位数假定分位数组内各单位是均匀分布的,利用下面公式,可近似计算各分位数值

(4.2.17)其中

dQi=UQi–LQi。(4.2.18)

Ch4统计分布的数值特征

§4.2位置平均数§4.2.3其他分位数二、十分位数D:■10分位数,就是能够将全部总体单位,按标志值的大小,等分为10个部分的9个数值。分别记为D1、D2、…..、D9,并称为1/10分位数、2/10分位数、…..、9/10分位数。其中,1/10分位数也叫下10分位数,9/10分位数也叫上10分位数,5/10分位数就是中位数。■10分位数的确定方法,可以按4分位数的确定方法依次类推。在总体所有n个单位的标志值,都已经按大小顺序排列的情况下,D1的位次为(n+1)/10,D2的位次为2(n+1)/10,…..,D9的位次为9(n+1)/10。如果n+1恰好为10的倍数,则

D1=x(n+1)/10,D2=x2(n+1)/10,…..,D9=x9(n+1)/10,(4.2.19)如果n+1不是10的倍数,则按上面方法计算出来的,10分位数位次就有可能有小数,有小数,就应该与该位次相临的两个整数位次上的标志值,进行加权算术平均。■至于组距变量的10分位数的确定,基本方法与4分位数相同。此处从略。

Ch4统计分布的数值特征

§4.2位置平均数§4.2.3其他分位数返回一、数值平均数与位置平均数的比较:■作用—

数值平均数与位置平均数,在统计上,都是用来表征总体的一般水平或者集中趋势,是抽象化的代表值;但代表意义却有所不同:数值平均数,是对所有变量值来计算的平均数,它概括地反映数列中所有标志值的平均水平;而位置平均数,是根据总体中,处于特殊位置上的个别单位或者部分标志值,来确定的代表值。■概括能力—

数值平均数的数据概括能力极强,容易受个别或者少数极端值的影响;位置平均数则反之。■适用的数据类型—

数值平均数,对数据的量化尺度要求较高,只适用于数值型数据;而位置平均数的适用数据范围,可扩展到品质型数据。

Ch4统计分布的数值特征

§4.2位置平均数§4.2.4各种平均数的比较二、各种平均数的比较Ch4统计分布的数值特征

§4.2位置平均数§4.2.4各种平均数的比较数据类型定类数据定序数据定距数据定比数据适用的测度指标众数中位数算术平均数算术平均数-1/4位数众数调和平均数-众数中位数几何平均数--1/4位数1/4位数---众数各种平均数的比较

三、算术平均数与众数、中位数的关系众数、中位数与算术平均数之间,存在一定的关系。这种关系,取决于总体内部的次数分布状况。在单峰分布条件下,如果分布是对称的,则

Mo=Me=。(4.2.20)

如果分布是左偏分布,说明数据存在极小值,必然拉动算术平均数向极小值靠拢,而众数、中位数是位置代表值,不受极值的影响,因此:

<Me<Mo。(4.2.21)

反之,如果分布是右偏分布,则是

Mo<Me<。(4.2.22)Ch4统计分布的数值特征

§4.2位置平均数§4.2.4各种平均数的比较三、算术平均数与众数、中位数的关系

Ch4统计分布的数值特征

§4.2位置平均数§4.2.4各种平均数的比较MeMoMoMe图4-7众数、中位数与算术平均数的关系Mo=Me=<Me<MoMo<Me<返回§4.3分布的离散程度§4.3.1变异指标§4.3.2极差与分位差§4.3.3平均差与标准差§4.3.4变异系数Ch4统计分布的数值特征§4.1数值平均数§4.2位置平均数§4.3分布的离散程度§4.4分布的偏度和峰度返回§4.3.1变异指标■变异指标,就是用来刻画总体分布的变异状况或者离散程度的指标。Ch4统计分布的数值特征§4.3分布的离散程度图4-8离散程度不同的分布f(x).x0.总体2的分布总体1的分布§4.3.1变异指标■通过变异指标,还可以反映平均指标的代表性,说明现象或过程的均衡程度与稳定程度;等等。■在统计分析中,变异指标与平均指标,是互相补充的,常常需要结合起来运用。■分布的离散程度,可以从不同的角度,运用不同的变异指标进行考察。■常用的变异指标,有极差、分位差、平均差、标准差和方差,等等,其中以标准差最为重要。

Ch4统计分布的数值特征§4.3分布的离散程度返回§4.3.2极差与分位差一、极差R:

■极差是最简单的变异指标。它是一组数据的最大值与最小值之差。又称为“全距”。用公式表示为

R=xmax-xmin..(4.3.1)如果是根据组距变量数列计算极差,由于分布的实际最大值与最小值已经难以确知,这时,只能利用最大组的上限和最小组的下限来估计

R≌Umax

-Lmin..(4.3.2)■极差,反映的是变量分布的变异范围或者离散程度,在总体中任何两个单位的标志值之差,都不可能超过极差,

xi-xj

R,i≠j.(4.3.3)■极差的计算极其简单,含义直观,运用方便。但存在不足。一是它仅仅取决于两个极端值的水平,不能反映其间的变量分布情况;二是受个别极端值的影响过于显著,不符合“稳健性”和“耐抗性”的要求。为此,还需要适当运用其它的变异指标。Ch4统计分布的数值特征§4.3分布的离散程度§4.3.2极差与分位差二、分位差:■分位差是极差的一种改进,它是排除了极端值的影响后,重新计算的类似极差的一种指标。常用的分位差,有4分位差、8分位差、10分位差、16分位差、32分位差、….、100分位差,等等。这里仅以4分位差为例,加以说明。■计算4分位差的目的,是直接排除部分极端值对变异指标的影响。为此,需要从总体分布中,先剔出最大、最小各四分之一的单位,再对中间剩余的总体单位数,计算“全距”。这个“全距”,实际上就是“上4分位数”与“下4分位数”之差,通常称为内距或4分位间距,记为QR。

QR=Q3-Q1。

(4.3.4)■QR反映了中间50%的数据的离散程度。QR值越小,说明中间的数据越集中;QR值越大,说明中间的数据越分散。Ch4统计分布的数值特征§4.3分布的离散程度§4.3.2极差与分位差二、分位差:■QR与R的区别,仅仅在于其计算范围比较窄。■但实际应用时,人们习惯取QR的一半为“4分位差”,记为QD。

QD=QR/2=(Q3-Q1)/2。

(4.3.5)如果将Q3、Q1之间的中点值记为C,即

C=(Q3+Q1)/2。(4.3.6)则由4分位差的定义可知:总体中50%的单位分布在C

QD范围之内。另一方面,4分位差也可以表示Q3、Q1与Me的平均距离,即

(4.3.7)■它可以用于测量中位数的代表程度。Ch4统计分布的数值特征§4.3分布的离散程度返回§4.3.3平均差与标准差一、平均差AD:■也叫平均绝对偏差。是总体各变量值与其算术平均数离差的绝对值之算术平均数。计算公式为:如果是未分组数据,则

(4.3.8)如果是分组数据,则

(4.3.9)■AD是全面地反映一组数据的离散程度的重要指标之一。AD值越大,说明分布越分散,AD值越小,说明分布越集中。

■但AD的数学性质较差,实际应用不多。Ch4统计分布的数值特征§4.3分布的离散程度【例4-23】观察某路口在若干个10分钟内的车流量,资料记录如下:26,26,38,24,32,22,15,33,19,26,21,29,16,20,34,24,27,30,31,33。计算该路口在10分钟内的车流量的平均差。解:计算其算术平均数计算其平均差Ch4统计分布的数值特征§4.3分布的离散程度§4.3.3平均差与标准差二、标准差与方差:标准差,是总体各变量值与其算术平均数离差的平方和之算术平均数的开平方根,标准差记为

。而标准差的平方,则为总体变量的方差,方差记为

2。其计算公式为:如果是未分组数据,则

(4.3.10)如果是分组数据,则

(4.3.11)

或者

2,全面地反映一组数据与其均值的平均离散程度。

2值越大,说明分布越分散,

2值越小,说明分布越集中。Ch4统计分布的数值特征§4.3分布的离散程度§4.3.3平均差与标准差【例4-25】观察某路口在若干个10分钟内的车流量,资料记录如下:26,26,38,24,32,22,15,33,19,26,21,29,16,20,34,24,27,30,31,33。计算该路口在10分钟内的车流量的标准差和方差。解:计算其算术平均数计算其方差于是,有

=6.108191(辆/10分钟).Ch4统计分布的数值特征§4.3分布的离散程度§4.3.3平均差与标准差【例4-26】某路口50个工作日的车流量数据分布如下表。试计算其车流量的标准差和方差。组数i车流量变量xi日数fi组中值fi

1105~110

f1=3107.5107.5×3=322.5739.472110~115f2=5112.5112.5×5=562.5572.453115~120f3=8117.5117.5×8=940259.924120~125f4=14122.5122.5×14=17156.865125~130f5=10127.5127.5×10=1275184.96130~135

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论