贾俊平版统计学课件第4章_第1页
贾俊平版统计学课件第4章_第2页
贾俊平版统计学课件第4章_第3页
贾俊平版统计学课件第4章_第4页
贾俊平版统计学课件第4章_第5页
已阅读5页,还剩74页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第 4 章 数据(shj)的概括性度量 4.1 集中趋势的度量 4.2 离散(lsn)程度的度量 4.3 偏态与峰态的度量共七十九页数据(shj)的概括性度量方差和标准差数据的概括性度量集中趋势离散程度分布形状众数中位数均值异众比率四分位差离散系数偏态峰度共七十九页4.1 集中趋势(qsh)的度量集中趋势(central tendency)是指一组数据向某一中心值靠拢的倾向和程度,集中趋势可以反映(fnyng)一组数据的中心值或代表值,不同数据类型可选用不同的集中趋势测度值.低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据.共七十九页4.1.1 分类(f

2、n li)数据:众数 一组数据中出现次数最多的变量值称为众数(mode) ,用M0 表示.不受极端值的影响.众数主要用于测度分类数据的集中趋势.也可用于顺序(shnx)数据和数值型数据. 一组数据可以没有众数,也可以有几个众数.共七十九页众数(zhn sh)的特性(1) 一组数据可以没有(mi yu)众数 假定一组数据如下:1 2 3 4 5则这组数据没有众数.(2) 一组数据可以有多个众数. 假定一组数据如下:1 2 2 3 4 4 5那么这组数据有两个众数.共七十九页图4 -1 众数(zhn sh)示意图 无众数 一个(y )众数 多于一个众数共七十九页例 4.1 根据第3章表 3-4 的

3、数据,计算(j sun)“饮料品牌”的众数.表3-4 不同品牌(pn pi)饮料的频数分布 解:这里的变量为“饮料品牌”,是分类变量,不同类型的饮料就是变量值.在所调查的50 人中, 购买可口可乐的人数最多,为15人,占总被调查人数的 30% ,因此众数为“可口可乐”这一品牌. 即 可口可乐共七十九页例4.2表3-6 甲城市(chngsh)家庭对住房状况的评价 根据第3章表3-6的数据,计算(j sun)甲城市对住房状况满意度评价的众数. 解:这里的变量是回答类别,是顺序变量.甲城市所调查的300户家庭中,对目前住房不满意的户数最多,有108户.所以这组数据的众数为“不满意” 这一类别.即 不

4、满意共七十九页例4.3 在某城市中随机抽取9户家庭, 调查得每户家庭的人均月收入数据如下(单位:元).要求(yoqi)计算人均月收入的众数. 1080 750 1080 1080 850 960 2000 1250 1630 解: 人均月收入1080的家庭最多, 即 元共七十九页 一个由claremont学院本科学生组成的“莎士比亚诊所”,用统计分析对58个与莎士比亚同时代的作家(zuji)进行分析,以确定谁的写作风格与莎士比亚的作品风格最相近。他们从58个作家的作品中选取片段,并将其分成500字一段的小段,对区组中的一些变量进行计数统计,例如,考察52个关键字的出现情况,并找出其众数,由此得

5、出各个作家的主要特征。结果,58个备选者中没有一个能通过众数检验。因此证明,是莎士比亚写下了他本人的诗篇。莎士比亚(sh sh b y)著作中的众数共七十九页4.1.2 顺序(shnx)数据:中位数和分位数1.中位数(median)一组数据按从小到大排列时,处于中间位置上的变量值称为中位数,用 Me 表示. 中位数主要用于测度顺序数据的集中趋势.中位数当然也适用于数值型数据,但不适用于分类(fn li)数据. 显然,中位数作为位置代表值,其数值不受极大值和极小值的影响.Me50%50%共七十九页中位数的位置(wi zhi)对未分组数据中位数的位置即未分组数据的中位数是1, 2, , n 这 n

6、 个位置的平均(pngjn). 而对于分组数据,则 中位数的位置(4.1)共七十九页中位数的计算(j sun)当 n 为奇数当 n 为偶数(4.2) 设一组数据为 ,按从小到大排序后为 , 则中位数为共七十九页例 4.4根据第 3 章表 3-6 的数据,计算甲城市家庭对住房状况(zhungkung)满意程度评价的中位数.表3-6 甲城市家庭(jitng)对住房状况的评价 解:已知n = 300,从而中位数的位置为从累积频数可知,中位数在“一般”这一类中,因此一般共七十九页例 4.5 在某城市中随机抽取(chu q)9个家庭,调查得各个家庭的人均月收入数据如下(单位:元),试计算人均月收入的中位

7、数. 1500 750 780 1080 850 960 2000 1250 1630 解:把数据排序得 750 780 850 960 1080 1250 1500 1630 2000而中位数的位置= (9+1)/2 = 5, 于是 共七十九页例 4.5(续) 假定例4.5中随机抽取10个家庭,各个家庭的人均月收入数据如下(rxi) 660 750 780 850 960 1080 1250 1500 1630 2000从而中位数的位置= (10+1)/2 = 5.5, 于是共七十九页例 根据第3章表3-12的数据(shj),计算电脑销售量的中位数. 解:由于 n =120,则中位数的位置为

8、 中位数为共七十九页2 四分(s fn)位数(quartile)与中位数类似的还有四分位数。一组数据按从小到大排列时,处于(chy)位置上的变量值称为第一个四分位数(下四分位数),处于位置上的变量值称为第三个四分位数(上四分位数),而中位数就是第二个四分位数。QLQMQU25%25%25%25%共七十九页四分(s fn)位数的位置 对未分组时 下四分位数( )的位置(wi zhi) 上四分位数( )的位置 而对于分组数据,则 下四分位数( )的位置 上四分位数( )的位置(4.3)共七十九页例 根据第3章表3-12的数据,计算电脑销售量的下四分位数和上四分位数. 解:已知 n =120,得下四

9、分位数和上四分位数的位置于是共七十九页例 4.6 对例4.5的数据(shj),计算人均月收入的下四分位数和上四分位数. 解:已知 n =9,得下四分位数和上四分位数的位置于是(ysh)共七十九页例解:QL位置= (300)/4 =75 QU位置 =(3300)/4 =225 从累计频数看, QL在“不满意”这一组别中; QU在“一般(ybn)”这一组别中。因此 QL = 不满意 QU = 一般甲城市家庭对住房状况评价的频数分布回答类别甲城市户数 (户)累计频数 非常不满意 不满意 一般 满意 非常满意2410893453024132225270300合计300共七十九页4.1.3 数值(shz

10、)型数据:平均数平均数也称均值(jn zh)(mean), 是最常用的集中趋势测度值,易受极端值的影响.主要适用于数值型数据,但不适用于分类数据和顺序数据.共七十九页1.简单(jindn)平均数与加权平均数(1) 根据(gnj)未分组的数据计算简单平均数 设一组数据为 则平均数 的计算公式为 例如,根据例4.5的数据,计算9个家庭人均月收入的平均数为(元)(4.4 )共七十九页(2)根据(gnj)分组的数据计算加权平均数设一组数据分为(fn wi)k组,各组的组中值和组频数分别为 . 则平均数 的计算公式为 (4.5 )共七十九页例4.7 根据第3章表 3-13中的数据,计算(j sun)电脑

11、销售量的平均数.表4 -1某电脑公司销售量数据(shj)平均数计算表解:根据(4.5)式,得(台)共七十九页加权平均数(权数(qunsh)对平均数的影响) 甲乙两组各有10名学生,他们(t men)的考试成绩及其分布数据如下 甲组: 考试成绩(x ): 0 20 100 人数分布(f ): 1 1 8 乙组: 考试成绩(x): 0 20 100 人数分布(f ): 8 1 1共七十九页2 调和(tio h)平均数(Harmonic mean)均值(jn zh)的另一种表现形式,易受极端值的影响.计算公式为原来只是计算时使用了不同的数据!共七十九页调和平均数(例题(lt)分析)某日三种蔬菜的批发

12、成交数据蔬菜名称批发价格(元) xi成交额(元) fi成交量(公斤)甲乙丙1.200.500.801800012500640015000250008000合计3690048000【例】某蔬菜(shci)批发市场三种蔬菜(shci)的日成交数据如表,计算三种蔬菜(shci)该日的平均批发价格。共七十九页3 一种(y zhn)特殊的平均数:几何平均数 几何平均数(geometric mean)是平均数的另一种类型,主要用于比率或速度(sd)的平均.(1)根据未分组的数据计算几何平均数设一组数据为 则几何平均数为(4.6 ) (2)根据分组的数据计算几何平均数设一组数据 分为k组,各组的组中值和组频

13、数分别为 ,则几何平均数的计算公式为共七十九页平均(pngjn)增长率 对逐年(zhnin)增长率 平均增长率应 满足(4.8 )即或(4.9 )共七十九页几何(j h)平均数 (例题分析) 【例】某水泥生产(shngchn)企业1999年的水泥产量为100万吨,2000年与1999年相比增长率为9%,2001年与2000年相比增长率为16%,2002年与2001年相比增长率为20%。求各年的年平均增长率。年平均增长率114.91%-1=14.91%共七十九页几何(j h)平均数 (例题分析)【例】某企业生产某种产品要经过三个连续作业车间才能完成。若某月份第一车间粗加工产品的合格率为 95%,

14、第二车间精加工产品的合格率为 93%,第三车间最后(zuhu)装配的合格率为 90%,则该产品的车间平均合格率为多少?即该产品的车间平均合格率为 92.64% 。共七十九页例4.8一位投资者持有一种股票(gpio),2001-2004年的收益率分别为4.5%,2.1%,25.5%和1.9%. 计算该投资者在这四年内的平均收益率. 解:根据(4.6),得即该投资(tu z)者的投资(tu z)平均收益率为108.0787%-100%=8.0787% .共七十九页4.1.4 众数(zhn sh)、中位数和平均数的比较1.众数(zhn sh)、中位数和平均数的关系图4-2 不同分布的众数、中位数和平

15、均数(a)对称分布(b)左偏分布(c)右偏分布 共七十九页2.众数(zhn sh)、中位数和平均数的特点(1)众数是一组数据出现次数最多的数值,不受极端值的影响,但可能没有众数,也可能有两个或两个以上众数。众数主要适用于分类数据的集中(jzhng)趋势测度. (2)中位数是一组数据处于中间位置上的数值,不受极端值的影响,主要适用于顺序数据的集中趋势测度. (3)平均数具有优良的统计性质,是实际应用最广泛的集中趋势测度值.主要适用于数值型数据的集中趋势测度共七十九页3.众数、中位数和平均数的应用(yngyng)场合 例 从一家公司中选取一个20名工人的样本,将他们每周除去所有费用后的净收入近似为

16、整数(zhngsh)并按升序排列如下(元):240,240,240,240,240,240,240,240,255,255,265,265,280,280,290,300,305,325,330,340。计算 (1)、平均数,中位数,众数; ,中位数=260元,众数=240元 (2)、从偏斜度的角度描述这组工资数据; 由于平均数大于中位数,所以这个分布是右偏分布。共七十九页3.众数(zhn sh)、中位数和平均数的应用场合 (3)、假如你是这家公司负责劳资问题的副总经理,你会采用哪个测度值代表公司中所有员工的收入水平? 因为样本平均数是这三个平均数测度值中的最大值,所以你可能倾向于采用它作为平

17、均数。事实上,使用它非常合适,因为这里牵涉到统计推断,而样本平均数是可用的最稳定的统计量。 (4)、假设你是推选出的工会主席,你会采用哪个测度值代表公司中所有员工的收入水平? 从你在工资问题谈判中所处的位置(wi zhi)出发,你可能倾向于选择众数,或者至少是中位数,而决不会选用平均数。为了说明你选择的测度值是合理的,你应该指出众数代表了样本中大部分人的净收入,或者可以指出从样本中可以看出样本平均数受到极少数高工资的影响。然而,无论是众数还是中位数都会随样本不同而产生很大变化,所以比起平均数都是不稳定的总体估计值。共七十九页数据类型与集中趋势(qsh)测度值数据类型和所适用的集中趋势测度值数据

18、类型分类数据 顺序数据间隔数据比率数据适用的测度值众数中位数平均数平均数四分位数众数调和平均数众数中位数几何平均数四分位数 中位数四分位数众数共七十九页4.2 离散(lsn)程度的度量离散程度或分散程度是数据分布的另一个(y )重要特征,离散程度的测度值反映数据的分散程度.数据的分散程度越大,则集中趋势测度值的代表性就越差;分散程度越小,则集中趋势测度值的代表性就越好. 不同数据类型有不同的离散程度测度值.共七十九页4.2.1 分类数据(shj):异众比率异众比率(variation ratio)是非(shfi)众数组的频数所占的比例,即异众比率用于衡量众数的代表程度: (1)异众比率大,说明

19、众数的代表性差 (2)异众比率小,说明众数的代表性好(4.10)共七十九页例4.9 根据(gnj)第3章表34的数据,计算异众比率.表 3-4不同(b tn)品牌饮料的频数分布 解:根据(4.10)式,得异众比率在所调查的50人当中,购买其他品牌饮料的人数占70%. 由于异众比率比较大,因此用“可口可乐”代表消费者购买饮料品牌的状况,其代表性不是很好.共七十九页4.2.2 顺序(shnx)数据:四分位差四分(s fn)位差(quartile deviation)是上四分位数与下四分位数之差,即(4.11)四分位差反映了下四分位数至上四分位数之间 (即中间的50%数据)的离散程度或变动范围四分位

20、差越大,说明中间这部分数据越分散,而四分位差越小,则说明中间这部分数据越集中.四分位差在一定程度上可用于衡量中位数的代表程度.共七十九页四分(s fn)位差 (例题分析)解:为了计算顺序数据的四分位差,需要(xyo)把各类别数量化。设非常不满意为1,不满意为2, 一般为3, 满意为 4, 非常满意为5,已知 QL = 不满意 = 2 QU = 一般 = 3四分位差: QD = QU QL = 3 2 = 1甲城市家庭对住房状况评价的频数分布回答类别甲城市户数 (户)累计频数 非常不满意 不满意 一般 满意 非常满意2410893453024132225270300合计300共七十九页例4.10

21、根据(gnj)例4.6的数据,已求得 ,从而四分位差为(台)共七十九页4.2.3 数值型数据(shj):方差和标准差测度(c du)数值型数据离散程度的主要方法有极差、 平均差、方差和标准差,但最常用的是方差和标准差.共七十九页1.极差极差(range)是一组数据的最大值与最小值之差,即未分组数据:R最大值最小值 分组数据:R最后一组的上限第一组的下限 (4.12)极差计算简单,是描述数据离散程度的最简单的测度值但极差易受极端值的影响,并且不能反映中间数据的分散程度。例如,根据(gnj)例4.5的数据,得9个家庭人均月收入的极差为 R20007501250(元)共七十九页2.平均差平均差(me

22、an deviation)是各变量值与均值离差绝对值的平均.平均差虽然能全面反映一组数据的分散(fnsn)程度,但由于离差取了绝对值,这给计算和统计性质的讨论带来不便,因而实际工作中应用较少.计算公式为:未分组数据(shj)组距分组数据(4.13)(4.14)共七十九页例 4.11某电脑公司销售量数据平均差计算表 按销售量分组组中值(Mi)频数(fi)140150150160160170170180180190190200200210210220220230230240145155165175185195205215225235491627201710845403020100102030405

23、01602703202700170200240160250合计1202040 含义:每一天的销售量与平均(pngjn)数相比,平均(pngjn)相差17台共七十九页3.方差(fn ch)和标准差方差和标准差(variance and standard deviation)是最常用的离散程度测度值. 根据(gnj)总体数据计算的称为总体方差或总体标准差,而根据样本数据计算的则称为样本方差或样本标准差.共七十九页(1)总体(zngt)方差和标准差方差(fn ch)的计算公式未分组数据:组距分组数据:标准差的计算公式未分组数据:组距分组数据:共七十九页总体标准差(例题(lt)分析)分组(个)组中值(

24、 )频数( )105110107.53 246.49739.47110115112.55 114.49572.45115120117.58 32.49259.92120125122.514 0.49 6.86125130127.510 18.49184.90130135132.56 86.49518.94135140137.54 204.49817.96合计50 3100.5某车间(chjin)名工人日加工零件的标准差计算表解: 计算过程列于表,根据计算公式得(个)含义:每个工人的日加工零件数与平均数相比相差7.87个。共七十九页(2)样本(yngbn)方差和标准差未分组数据(shj):组距分

25、组数据:未分组数据:组距分组数据:方差的计算公式标准差的计算公式(4.15)(4.17)(4.18)(4.16)注意:样本方差用自由度n-1去除!共七十九页自由度的说明(shumng)1、一组数据中可以自由取值的数据的个数2、当样本数据的个数为 n 时,若样本均值x 确定后,只有n-1个数据可以自由取值,其中必有一个数据不能自由取值3、例如,样本有3个数值,即x1=2,x2=4,x3=9,则 x = 5。当 x = 5 确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他(qt)值4、样本方差用自由度去除,其原因可从多方

26、面来解释,从实际应用角度看,在抽样估计中,当用样本方差去估计总体方差2时,它是2的无偏估计量共七十九页例4.12 样本(yngbn)标准差的计算某电脑公司销售量数据标准差计算表 按销售量分组组中值(Mi)频数(fi)140150150160160170170180180190190200200210210220220230230240145155165175185195205215225235491627201710845160090040010001004009001600250064008100640027000170040007200640012500合计12055400含义(hny):

27、每一天的销售量与平均数相比,平均相差21.58台.共七十九页方差的展开(zhn ki)公式在实际计算时,也可按展开公式(gngsh)计算方差1234共七十九页4.相对(xingdu)位置的测量由均值和标准差,记称为 为 的标准分数. 可以表达 的相对位置,也可用于判断一组数据是否有离群点.(4.19)(1)标准分数共七十九页标准分数(性质(xngzh)共七十九页标准分数(性质(xngzh) 标准分数只是将原始数据(shj)进行了线性变换,它并没有改变一个数据(shj)在该组数据(shj)中的位置,也没有改变该组数分布的形状,而只是将该组数据(shj)变为均值为0,标准差为1。 共七十九页例4.

28、13 根据例4.5的数据,计算每个家庭的人均月收入(shur)的标准分数. 解:根据例4.5的数据求可得 ,由(4.19)式得每个家庭的人均月收入的标准分数如下(表4-4) 表4-4 9个家庭人均月收入标准分数计算表 可以看出(kn ch),收入最低的家庭其人均收入与平均数相比低1.042个标准差;而收入最高的家庭人均收入比平均数高1.853个标准差。共七十九页标准分数 (例题(lt)分析) 前NBA巨星Michael Jordan身高78英寸,而WNBA运动员R. Lobo身高76英寸,很明显(mngxin)Jordan高出2英寸,但谁相对来说高一些呢?(男性平均身高69英寸,标准差为2.8

29、英寸;女性平均身高63.6英寸,标准差为2.5英寸) Jordan的身高高于平均数3.21个标准差,而Lobo的身高高于平均数4.96个标准差。共七十九页(2)经验(jngyn)法则 经验(jngyn)法则表明:当一组数据对称分布时 约有68%的数据在均值加减1个标准差的范围之内 约有95%的数据在均值加减2个标准差的范围之内 约有99%的数据在均值加减3个标准差的范围之内 (4.15)共七十九页(3)切比雪夫不等式(Chebyshev inequality )对于k=2,3,4,该不等式的含义是 至少有75%的数据在平均数加减(ji jin)2个标准差的范围之内 至少有89%的数据在平均数加

30、减3个标准差的范围之内 至少有94%的数据在平均数加减4个标准差的范围之内 1)如果一组数据不是对称分布,经验法则就不再使用,这时可使用切比雪夫不等式,它对任何分布形状的数据都适用 2)切比雪夫不等式提供的是“下界”,也就是“所占比例至少是多少” 3)对于(duy)任意分布形态的数据,根据切比雪夫不等式,至少有 (1-1/ ) 的数据落在k个标准差之内。其中k是大于1的任意值,但不一定是整数共七十九页4.2.4 相对(xingdu)离散程度:离散系数 方差或标准差都反映了数据分散(fnsn)程度的绝对值,而影响方差或标准差数值大小有2个方面的原因:(1)与这组数据的平均数大小有关(2)与这组数

31、据的计量单位有关例:设一组数据为1,2,3(n = 3),则 .而另一组数据为100,200,300 ( n = 3 ) ,则 .从而对于不同平均水平或不同计量单位的两组数据,不能通过直接比较方差或标准差来表明数据离散程度的大小. 为消除平均水平与计量单位的影响,需要计算离散系数(4.20)共七十九页例4.14表4-5某管理局所属8家企业(qy)的产品销售数据 某管理局抽查了8家企业,其产品销售数据(shj)见表4-5.试比较产品销售额与销售利润的离散程度.共七十九页例4.14的解 解:由于销售额与利润额的平均数大小不同,不能直接按标准差进行比较(bjio),需计算离散系数. 根据表4-5数据

32、,得由于(yuy) ,说明销售额的离散程度小于销售利润的离散程度.共七十九页数据类型与离散程度(chngd)测度值数据类型和所适用的离散程度测度值数据类型分类数据 顺序数据数值型数据适用的测度值异众比率四分位差 方差或标准差 异众比率 离散系数(比较时用) 平均差 极差 四分位差 异众比率共七十九页4.3 偏态与峰态的测度(c du)偏态与峰度是对数据分布形状(xngzhun)的测度扁平分布尖峰分布偏态峰态左偏分布右偏分布与标准正态分布比较!共七十九页4.3.1 偏态及其测度(c du)(1)未分组样本数据(shj)的偏态系数偏态(skewness)是对分布的偏斜方向和偏斜程度的测度. 设一组

33、数据 ,则偏态系数(skewness coefficient)的计算公式为 (4.21)共七十九页(2)分组样本(yngbn)数据的偏态系数 设一组数据 分为(fn wi) k 组,各组的组中值和组频数分别为 . 则偏态系数的计算公式为(4.22)(1) ,为对称分布.(2) ,为右偏分布.(3) ,为左偏分布.(4) 越大,则偏斜程度就越大.共七十九页例4.15 某电脑公司销售量偏态及峰度计算表 按销售量份组(台) 组中值(Mi)频数 fi140150150160160170170180180190190200200210210220220230230240145155165175185195205215225235491627201710845-256000-243000-128000-270000170008000021600025600062500010240000729000025600002700000170000160000064800001024000031250000合计120540000 70100000 根据(gnj)表3-9的数据,计算电脑销售量的偏态系数.表4-6 某电脑公司销售量偏态与峰度系数(xsh)计算表 共七十九页例4.15的解 已知根据(gnj)(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论