第四章数据概括性度量伍_第1页
第四章数据概括性度量伍_第2页
第四章数据概括性度量伍_第3页
第四章数据概括性度量伍_第4页
第四章数据概括性度量伍_第5页
已阅读5页,还剩91页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、4 -,1,第,4,章,数据的概括性度量,4 -,2,第,4,章,数据的概括性度量,4.1,集中趋势的度量,4.2,离散程度的度量,4.3,偏态与峰度的度量,4 -,3,学习目标,1.,集中趋势各测度值的计算方法,2.,集中趋势各测度值的特点及应用场合,3.,离散程度各测度值的计算方法,4.,离散程度各测度值的特点及应用场合,5.,偏态与峰态的测度方法,6.,用,excel,计算描述统计量并进行分析,4 -,4,数据分布的特征,集中趋势,(,位置,),偏态和峰态,(形状),离中趋势,(,分散程度,),4 -,5,数据的概括性度量,数据特征的测度,分布的形状,集中趋势,离散程度,众,数,中位数,

2、均,值,离散系数,方差和标准差,峰,态,四分位差,异众比率,偏,态,4 -,6,4.1,集中趋势的度量,一,.,分类数据:众数,二,.,顺序数据:中位数和分位数,三,.,数值型数据:均值,四,.,众数、中位数和均值的比较,4 -,7,数据分布特征的和度量,(,本节位置,),数据的特征和度量,分布的形状,集中趋势,离散程度,众,数,中位数,均,值,离散系数,方差和标准差,峰,态,四分位差,异众比率,偏,态,4 -,8,集中趋势,(Central tendency),1.,一组数据向其中心值靠拢的倾向和程度,2.,测度集中趋势就是寻找数据水平的代表值或中心值,3.,不同类型的数据用不同的集中趋势测

3、度值,4.,低层次数据的测度值适用于高层次的测量数据,但高,层次数据的测度值并不适用于低层次的测量数据,4 -,9,分类数据:众数,4 -,10,众数,(mode),1.,出现次数最多的变量值,2.,不受极端值的影响,3.,一组数据可能没有众数或有几个众数,4.,主要用于分类数据,也可用于顺序数据和,数值型数据,4 -,11,众数,(,不唯一性,),无众数,原始数据,: 10 5 9 12 6,8,一个众数,原始数据,: 6,5,9 8,5 5,多于一个众数,原始数据,: 25,28 28,36,42 42,4 -,12,分类数据的众数,(,例题分析,),不同品牌饮料的频数分布,饮料品牌,频数

4、,比例,百分比,(%),可口可乐,旭日升冰茶,百事可乐,汇源果汁,露露,15,11,9,6,9,0.30,0.22,0.18,0.12,0.18,30,22,18,12,18,合计,50,1,100,解,:,这里的变量为“饮料,品牌”,这是个分类变量,,不同类型的饮料就是变,量值,在所调查的,50,人中,,购买可口可乐的人数最多,,为,15,人,占总被调查,人数的,30%,,因此众数为,“可口可乐”这一品牌,,即,M,o,可口可乐,4 -,13,顺序数据的众数,(,例题分析,),解:,这里的数据为,顺序数据。变量为,“回答类别”,甲,城,市,中,对,住,房表示不满意的户,数,最,多,,,为,1

5、08,户,,因此众数为“不,满意”这一类别,,即,M,o,不满意,甲城市家庭对住房状况评价的频数分布,回答类别,甲城市,户数,(,户,),百分比,(%),非常不满意,不满意,一般,满意,非常满意,24,108,93,45,30,8,36,31,15,10,合计,300,100.0,4 -,14,顺序数据:中位数和分位数,4 -,15,中位数,(median),1.,排序后处于中间位置上的值,M,e,50%,50%,2.,不受极端值的影响,3.,主要用于顺序数据,也可用数值型数据,但不能,用于分类数据,4.,各变量值与中位数的离差绝对值之和最小,即,min,1,?,?,?,?,n,i,e,i,M

6、,x,4 -,16,中位数,(,位置的确定,),原始数据:,顺序数据:,2,1,?,?,n,中位数位置,2,n,?,中位数位置,4 -,17,顺序数据的中位数,(,例题分析,),解:,中位数的位置为,300/2,150,从,累,计,频,数,看,,,中位数在“一般”这,一组别中。因此,M,e,=,一般,甲城市家庭对住房状况评价的频数分布,回答类别,甲城市,户数,(,户,),累计频数,非常不满意,不满意,一般,满意,非常满意,24,108,93,45,30,24,132,225,270,300,合计,300,4 -,18,数值型数据的中位数,(9,个数据的算例,),【例】:,9,个家庭的人均月收入

7、数据,原始数据,:,1500 750 780 1080 850 960 2000 1250 1630,排,序,:,750 780 850 960 1080 1250 1500 1630 2000,位,置,:,1 2 3 4,5,6 7 8 9,中位数,?,1080,?,5,2,1,9,2,1,?,?,?,?,?,n,位置,4 -,19,数值型数据的中位数,(10,个数据的算例,),【例】:,10,个家庭的人均月收入数据,排,序,:,660,750 780 850 960 1080 1250 1500 1630 2000,位,置,:,1 2 3 4,5,6,7 8 9 10,?,5,.,5,2,

8、1,10,2,1,?,?,?,?,?,n,位置,1020,2,1080,960,?,?,?,中位数,4 -,20,四分位数,(quartile),1.,排序后处于,25%,和,75%,位置上的值,2.,不受极端值的影响,3.,主要用于顺序数据,也可用于数值型数据,,但不能用于分类数据,Q,L,Q,M,Q,U,25%,25%,25%,25%,4 -,21,四分位数,(,位置的确定,),原始数据:,?,?,?,?,?,?,?,?,?,?,?,4,),1,(,3,4,1,n,Q,n,Q,U,L,位置,位置,顺序数据:,?,?,?,?,?,?,?,?,?,4,3,4,n,Q,n,Q,U,L,位置,位置

9、,4 -,22,顺序数据的四分位数,(,例题分析,),解:,Q,L,位置,=,(300)/4,=75,Q,U,位置,=(3,300)/4,=225,从累计频数看,,Q,L,在“,不满意”这一组别中;,Q,U,在“一般”这一组别中。因,此,Q,L,=,不满意,Q,U,=,一般,甲城市家庭对住房状况评价的频数分布,回答类别,甲城市,户数,(,户,),累计频数,非常不满意,不满意,一般,满意,非常满意,24,108,93,45,30,24,132,225,270,300,合计,300,4 -,23,数值型数据的四分位数,(9,个数据的算例,),【例】:,9,个家庭的人均月收入数据,原始数据,:,15

10、00 750 780 1080 850 960 2000 1250 1630,排,序,:,750 780 850 960 1080 1250 1500 1630 2000,位,置,:,1,2 3,4,5,6,7 8,9,?,5,.,7,4,),1,9,(,3,5,.,2,4,1,9,?,?,?,?,?,?,位置,位置,U,L,Q,Q,?,1565,2,1630,1500,815,2,850,780,?,?,?,?,?,?,U,L,Q,Q,4 -,24,数值型数据的四分位数,(10,个数据的算例,),【例】:,10,个家庭的人均月收入数据,排,序,:,660,750 780 850 960 10

11、80 1250 1500 1630 2000,位,置,:,1,2 3,4,5 6,7,8 9,10,?,25,.,8,4,),1,10,(,3,75,.,2,4,1,10,?,?,?,?,?,?,位置,位置,U,L,Q,Q,5,.,1532,),1500,1630,(,25,.,0,1500,5,.,772,),750,780,(,75,.,0,750,?,?,?,?,?,?,?,?,?,?,U,L,Q,Q,?,4 -,25,数值型数据:均值,4 -,26,均值,(mean),1.,集中趋势的最常用测度值,2.,一组数据的均衡点所在,3.,体现了数据的必然性特征,4.,易受极端值的影响,5.,

12、用于数值型数据,不能用于分类数据和顺,序数据,4 -,27,简单均值与加权均值,(simple mean / weighted mean),设一组数据为:,x,1,,,x,2,,,,,x,n,各组的组中值为:,M,1,,,M,2,,,,,M,k,相应的频数为:,f,1,,,f,2,,,,,f,k,简单均值,n,x,n,x,x,x,x,n,i,i,n,?,?,?,?,?,?,?,1,2,1,?,n,f,M,f,f,f,f,M,f,M,f,M,x,k,i,i,i,k,k,k,?,?,?,?,?,?,?,?,?,?,1,2,1,2,2,1,1,?,?,加权均值,4 -,28,已改至此!,某电脑公司销

13、售量数据分组表,按销售量分组,组中值,(M,i,),频数,(f,i,),M,i,f,i,140150,150160,160170,170180,180190,190200,200210,210220,220230,230240,145,155,165,175,185,195,205,215,225,235,4,9,16,27,20,17,10,8,4,5,580,1395,2640,4725,3700,3315,2050,1720,900,1175,合计,120,22200,185,120,22200,1,?,?,?,?,?,n,f,M,x,k,i,i,i,加权均值,(,例题分析,),4 -,

14、29,加权均值,(,权数对均值的影响,),甲乙两组各有,10,名学生,他们的考试成绩及其分布数据如下,甲组:,考试成绩(,x,),:,0 20 100,人数分布(,f,):,1 1 8,乙组:,考试成绩(,x,),:,0 20 100,人数分布(,f,):,8 1 1,),(,82,10,8,100,1,20,1,0,1,分,甲,?,?,?,?,?,?,?,?,?,?,n,x,x,n,i,i,),(,12,10,1,100,1,20,8,0,1,分,乙,?,?,?,?,?,?,?,?,?,?,n,x,x,n,i,i,4 -,30,均值,(,数学性质,),1.,各变量值与均值的离差之和等于零,2

15、.,各变量值与均值的离差平方和最小,?,?,?,?,n,i,i,x,x,1,2,min,),(,?,?,?,?,n,i,i,x,x,1,0,),(,4 -,31,调和平均数,(harmonic mean),1.,均值的另一种表现形式,2.,易受极端值的影响,3.,计算公式为,?,?,?,?,?,?,i,i,i,i,i,i,i,i,m,f,f,M,M,f,M,f,M,H,4 -,32,调和平均数,(,例题分析,),某日三种蔬菜的批发成交数据,蔬菜,名称,批发价格,(,元,),M,i,成交额,(,元,),M,i,f,i,成交量,(,公斤,),f,i,甲,乙,丙,1.20,0.50,0.80,180

16、00,12500,6400,15000,25000,8000,合计,36900,48000,【例,】,某蔬菜批发市场三种蔬菜的日成交数据如表,计算三,种蔬菜该日的平均批发价格,(元),批发价格,成交额,成交额,769,.,0,48000,36900,?,?,?,?,m,H,4 -,33,几何平均数,(geometric mean),1.,n,个变量值乘积的,n,次方根,2.,适用于对比率数据的平均,3.,主要用于计算平均增长率,4.,计算公式为,5.,可看作是均值的一种变形,n,n,i,i,n,n,m,x,x,x,x,G,?,?,?,?,?,?,?,1,2,1,?,n,x,x,x,x,n,G,

17、n,i,i,n,m,?,?,?,?,?,?,?,1,2,1,lg,),lg,lg,(lg,1,lg,?,4 -,34,几何平均数,(,例题分析,),【例】,某水泥生产企业,1999,年的水泥产量为,100,万,吨,,,2000,年,与,1999,年,相,比,增,长,率,为,9%,,,2001,年与,2000,年相比增长率为,16%,,,2002,年与,2001,年相比增长率为,20%,。求各年的年平均增,长率。,%,91,.,114,%,120,%,116,%,109,3,2,1,?,?,?,?,?,?,?,?,n,n,m,x,x,x,G,?,年平均增长率,114.91%-1=,14.91%,

18、4 -,35,几何平均数,(,例题分析,),【例】,一位投资者购持有一种股票,在,2000,、,2001,、,2002,和,2003,年收益率分别为,4.5%,、,2.1%,、,25.5%,、,1.9%,。计算该投资者在这四年内的平,均收益率,%,0787,.,8,1,%,9,.,101,%,5,.,125,%,1,.,102,%,5,.,104,4,?,?,?,?,?,?,G,算术平均:,?,?,%,5,.,8,4,%,9,.,1,%,5,.,25,%,1,.,2,%,5,.,4,?,?,?,?,?,?,G,几何平均:,4 -,36,众数、中位数和均值的比较,4 -,37,众数、中位数和均值

19、的关系,左偏分布,均值,中位数,众数,对称分布,均值,=,中位数,=,众数,右偏分布,众数,中位数,均值,4 -,38,众数、中位数和均值的,特点和应用,1.,众数,?,不受极端值影响,?,具有不唯一性,?,数据分布偏斜程度较大时应用,2.,中位数,?,不受极端值影响,?,数据分布偏斜程度较大时应用,3.,平均数,?,易受极端值影响,?,数学性质优良,?,数据对称分布或接近对称分布时应用,4 -,39,数据类型与集中趋势测度值,数据类型和所适用的集中趋势测度值,数据类型,分类数据,顺序数据,间隔数据,比率数据,适,用,的,测,度,值,众数,中位数,均值,均值,四分位数,众数,调和平均数,众数,

20、中位数,几何平均数,四分位数,中位数,四分位数,众数,4 -,40,4.2,离散程度的度量,一.分类数据:异众比率,二.顺序数据:四分位差,三.数值型数据:方差及标准差,四.相对位置的测量:标准分数,五.相对离散程度:离散系数,4 -,41,数据的特征和度量,(,本节位置,),数据的特征和度量,分布的形状,离散程度,集中趋势,众,数,中位数,均,值,离散系数,方差和标准差,峰,度,四分位差,异众比率,偏,态,4 -,42,离中趋势,1.,数据分布的另一个重要特征,2.,反映各变量值远离其中心值的程度(离散程度),3.,从另一个侧面说明了集中趋势测度值的代表程度,4.,不同类型的数据有不同的离散

21、程度测度值,4 -,43,分类数据:异众比率,4 -,44,异众比率,(variation ratio),1.,对分类数据离散程度的测度,2.,非众数组的频数占总频数的比率,3.,计算公式为,4.,用于衡量众数的代表性,?,?,?,?,?,?,?,i,m,i,m,i,r,f,f,f,f,f,v,1,4 -,45,异众比率,(,例题分析,),解:,在所调查的,50,人当中,购,买,其,他,品,牌,饮,料,的,人,数,占,70%,,异众比率比较大。因,此,用“可口可乐”代表消,费者购买饮料品牌的状况,,其代表性不是很好,%,70,7,.,0,50,15,1,50,15,50,?,?,?,?,?,?

22、,r,v,不同品牌饮料的频数分布,饮料品牌,频数,比例,百分比,(%),可口可乐,旭日升冰茶,百事可乐,汇源果汁,露露,15,11,9,6,9,0.30,0.22,0.18,0.12,0.18,30,22,18,12,18,合计,50,1,100,4 -,46,顺序数据:四分位差,4 -,47,四分位差,(quartile deviation),1.,对顺序数据离散程度的测度,2.,也称为内距或四分间距,3.,上四分位数与下四分位数之差,Q,D,=,Q,U,Q,L,4.,反映了中间,50%,数据的离散程度,5.,不受极端值的影响,6.,用于衡量中位数的代表性,4 -,48,四分位差,(,例题分

23、析,),解:,设非常不满意为,1,不满意为,2,一般为,3,满意为,4,非常满,意为,5,已知,Q,L,=,不满意,=,2,Q,U,=,一般,=,3,四分位差:,Q,D,=,Q,U,-,Q,L,=,3,2,=,1,甲城市家庭对住房状况评价的频数分布,回答类别,甲城市,户数,(,户,),累计频数,非常不满意,不满意,一般,满意,非常满意,24,108,93,45,30,24,132,225,270,300,合计,300,4 -,49,数值型数据:方差和标准差,4 -,50,极差,(range),1.,一组数据的最大值与最小值之差,2.,离散程度的最简单测度值,3.,易受极端值影响,4.,未考虑数

24、据的分布,7,8,9,10,7,8,9,10,R,= max(,x,i,) -,min(,x,i,),5.,计算公式为,4 -,51,平均差,(mean deviation),1.,各变量值与其均值离差绝对值的平均数,2.,能全面反映一组数据的离散程度,3.,数学性质较差,实际中应用较少,4.,计算公式为,未分组数据,组距分组数据,n,x,x,M,n,i,i,d,?,?,?,?,1,n,f,x,M,M,k,i,i,i,d,?,?,?,?,1,4 -,52,平均差,(,例题分析,),某电脑公司销售量数据平均差计算表,按销售量分组,组中值,(,M,i,),频数,(,f,i,),140,150,15

25、0,160,160,170,170,180,180,190,190,200,200,210,210,220,220,230,230,240,145,155,165,175,185,195,205,215,225,235,4,9,16,27,20,17,10,8,4,5,40,30,20,10,0,10,20,30,40,50,160,270,320,270,0,170,200,240,160,250,合计,120,2040,x,M,i,?,i,i,f,x,M,?,4 -,53,平均差,(,例题分析,),),(,17,120,2040,1,台,?,?,?,?,?,?,n,f,x,M,M,k,i,

26、i,i,d,含义:,每一天的销售量平均数相比,,平均相差,17,台,4 -,54,方差和标准差,(variance,and standard deviation),1.,数据离散程度的最常用测度值,2.,反映了各变量值与均值的平均差异,3.,根据总体数据计算的,称为总体方差或标,准差;根据样本数据计算的,称为样本方,差或标准差,4 6 8 10 12,?,x,=,8.3,4 -,55,样本方差和标准差,(simple variance,and standard deviation),未分组数据:,组距分组数据:,未分组数据:,组距分组数据:,方差的计算公式,标准差的计算公式,注意:,样本方差用

27、自,由度,n-1,去除,!,1,),(,1,2,2,?,?,?,?,?,n,x,x,s,n,i,i,1,),(,1,2,2,?,?,?,?,?,n,f,x,M,s,k,i,i,i,1,),(,1,2,?,?,?,?,?,n,x,x,s,n,i,i,1,),(,1,2,?,?,?,?,?,n,f,x,M,s,k,i,i,i,4 -,56,样本方差,自由度,(degree of freedom),1.,一组数据中可以自由取值的数据的个数,2.,当样本数据的个数为,n,时,若样本均值,?,x,确定后,,只有,n,-1,个数据可以自由取值,其中必有一个数据则,不能自由取值,3.,例如,样本有,3,个数

28、值,即,x,1,=2,,,x,2,=4,,,x,3,=9,,,则,?,x,=,5,。当,?,x,=,5,确定后,,x,1,,,x,2,和,x,3,有两个数据可以,自由取值,另一个则不能自由取值,比如,x,1,=6,,,x,2,=7,,那么,x,3,则必然取,2,,而不能取其他值,4.,样本方差用自由度去除,其原因可从多方面来解释,,从实际应用角度看,在抽样估计中,当用样本方,差去估计总体方差,2,时,它是,2,的无偏估计量,4 -,57,样本标准差,(,例题分析,),某电脑公司销售量数据平均差计算表,按销售量分组,组中值,(,M,i,),频数,(,f,i,),140,150,150,160,1

29、60,170,170,180,180,190,190,200,200,210,210,220,220,230,230,240,145,155,165,175,185,195,205,215,225,235,4,9,16,27,20,17,10,8,4,5,40,30,20,10,0,10,20,30,40,50,160,270,320,270,0,170,200,240,160,250,合计,120,55400,?,?,2,x,M,i,?,?,?,i,i,f,x,M,2,?,4 -,58,样本标准差,(,例题分析,),含义:,每一天的销售量与平均数相比,,平均相差,21.58,台,),(,58

30、,.,21,1,120,55400,1,),(,1,2,台,?,?,?,?,?,?,?,?,n,f,x,M,s,k,i,i,i,4 -,59,相对位置的测量:标准分数,4 -,60,标准分数,(standard score,),1.,也称标准化值,2.,对某一个值在一组数据中相对位置的度量,3.,可用于判断一组数据是否有离群点,4.,用于对变量的标准化处理,5.,计算公式为,s,x,x,z,i,i,?,?,4 -,61,标准分数,(,性质,),1.,均值等于,0,2.,方差等于,1,0,0,1,),(,1,?,?,?,?,?,?,?,?,?,s,n,s,x,x,n,n,z,z,i,i,1,),

31、(,1,),0,(,),(,2,2,2,2,2,2,2,2,?,?,?,?,?,?,?,?,?,?,?,?,?,?,s,s,s,x,x,n,n,z,n,z,n,z,z,s,i,i,i,z,n-1,n-1,n-1,n-1,4 -,62,标准分数,(,性质,),z,分数只是将原始数据进行了线性变换,它并没有,改变一个数据在改组数据中的位置,也没有改变该,组数分布的形状,而只是将该组数据变为均值为,0,,标准差为,1,。,4 -,63,标准化值,(,例题分析,),9,个家庭人均月收入标准化值计算表,家庭编号,人均月收入(元),标准化值,z,1,2,3,4,5,6,7,8,9,1500,750,780

32、,1080,850,960,2000,1250,1630,0.695,-1.042,-0.973,-0.278,-0.811,-0.556,1.853,0.116,0.996,4 -,64,经验法则,?,经验法则表明:当一组数据对称分布时,?,约有,68%,的数据在平均数加减,1,个标准差,的范围之内,?,约有,95%,的数据在平均数加减,2,个标准差,的范围之内,?,约有,99%,的数据在平均数加减,3,个标准差,的范围之内,4 -,65,切比雪夫不等式,(,Chebyshevs inequality,),1.,如果一组数据不是对称分布,经验法则就不,再使用,这时可使用切比雪夫不等式,它对,

33、任何分布形状的数据都适用,2.,切比雪夫不等式提供的是“下界”,也就是,“所占比例至少和多少”,3.,对于任意分布形态的数据,根据切比雪夫不,等式,至少有,的数据落在,k,个标准差之,内。其中,k,是大于,1,的任意值,但不一定是整,数,?,?,2,1,1,k,?,4 -,66,切比雪夫不等式,(,Chebyshevs inequality,),?,对于,k,=2,,,3,,,4,,该不等式的含义是,1.,至少有,75%,的数据落在平均数加减,2,个标,准差的范围之内,2.,至少有,89%,的数据落在平均数加减,3,个标,准差的范围之内,3.,至少有,94%,的数据落在平均数加减,4,个标,准

34、差的范围之内,4 -,67,相对离散程度:离散系数,4 -,68,离散系数,(coefficient of variation),1.,标准差与其相应的均值之比,2.,对数据相对离散程度的测度,3.,消除了数据水平高低和计量单位的影响,4.,用于对不同组别数据离散程度的比较,5.,计算公式为,x,s,v,s,?,4 -,69,离散系数,(,例题分析,),某管理局所属,8,家企业的产品销售数据,企业编号,产品销售额(万元),x,1,销售利润(万元),x,2,1,2,3,4,5,6,7,8,170,220,390,430,480,650,950,1000,8.1,12.5,18.0,22.0,26

35、.5,40.0,64.0,69.0,【,例,】,某管理局抽查了所属的,8,家企业,其产品销售数,据如表。试比较产品销售额与销售利润的离散程度,4 -,70,离散系数,(,例题分析,),结论:,计算结果表明,,v,1,v,2,,说明产品销售额,的离散程度小于销售利润的离散程度,v,1,=,536.25,309.19,=,0.577,),(,19,.,309,),(,25,.,536,1,1,万元,万元,?,?,s,x,v,2,=,32.5215,23.09,=,0.710,),(,09,.,23,),(,5215,.,32,2,2,万元,万元,?,?,s,x,4 -,71,数据类型与离散程度测度

36、值,数据类型和所适用的离散程度测度,值,数据类型,分类数据,顺序数据,数值型数据,适,用,的,测,度,值,异众比率,四分位差,方差或标准差,异众比率,离散系数(比较时用),平均差,极差,四分位差,异众比率,4 -,72,4.3,偏态与峰态的度量,一,.,偏态及其度量,二,.,峰态及其度量,4 -,73,数据的特征和度量,(,本节位置,),数据的特征和度量,分布的形状,离散程度,众,数,中位数,均,值,离散系数,方差和标准差,峰,度,四分位差,异众比率,偏,态,集中趋势,4 -,74,偏态与峰态分布的形状,扁平分布,尖峰分布,偏态,峰态,左偏分布,右偏分布,与标准正态,分布比较!,4 -,75,

37、偏,态,4 -,76,偏态,(skewness),1.,统计学家,Pearson,于,1895,年首次提出,2.,数据分布偏斜程度的测度,2.,偏态系数,=0,为,对称分布,3.,偏态系数,0,为,右偏分布,4.,偏态系数, 0,为,左偏分布,4 -,77,总体偏态系数,(skewness coefficient),?,偏度系数的概念式,?,?,?,?,3,3,1,3,3,N,i,i,X,X,E,X,E,X,SK,N,?,?,?,?,?,?,?,?,?,?,?,?,4 -,78,样本偏态系数,(skewness coefficient),1.,根据原始数据计算,?,Excel,和,spss,均

38、采用这个公式计算,2.,根据分组数据计算,?,?,?,3,3,(,1)(,2),i,n,x,x,SK,n,n,s,?,?,?,?,?,?,3,1,3,(,),k,i,i,i,M,x,f,SK,ns,?,?,?,?,4 -,79,偏态系数,(,例题分析,),某电脑公司销售量偏态及峰度计算表,按销售量份组,(,台,),组中值,(,M,i,),频数,f,i,140,150,150,160,160,170,170,180,180,190,190,200,200,210,210,220,220,230,230,240,145,155,165,175,185,195,205,215,225,235,4,9

39、,16,27,20,17,10,8,4,5,-256000,-243000,-128000,-27000,0,17000,80000,216000,256000,625000,10240000,7290000,2560000,270000,0,170000,1600000,6480000,10240000,31250000,合计,120,540000,70100000,?,?,i,i,f,x,M,3,?,?,?,i,i,f,x,M,4,?,4 -,80,偏态系数,(,例题分析,),?,10,3,3,1,1,3,3,3,(,),(,185),120,(21.58),540000,0.448,12

40、0,(21.58),k,i,i,i,i,i,i,M,x,f,M,f,SK,ns,?,?,?,?,?,?,?,?,?,?,?,?,结论:,偏态系数为正值,但与,0,的差异不大,说,明电脑销售量为轻微右偏分布,即销售量较少的,天数占据多数,而销售量较多的天数则占少数,4 -,81,偏态与峰态,(,从直方图上观察,),按销售量分组,(,台,),结论,:,1.,为右偏分布,2.,峰态适中,140,150,210,某电脑公司销售量分布的直方图,190,200,180,160,170,频,数,(,天,),25,20,15,10,5,30,220,230,240,4 -,82,偏态,(,实例,),【例】,已

41、知,1997,年,我国农村居民家庭,按纯收入分组的有,关数据如表,4.9,。试,计算偏态系数,1997,年农村居民家庭纯收入数据,按纯收入分组(元),户数比重(,%,),500,以下,5001000,10001500,15002000,20002500,25003000,30003500,35004000,40004500,45005000,5000,以上,2.28,12.45,20.35,19.52,14.93,10.35,6.56,4.13,2.68,1.81,4.94,4 -,83,户,数,比,重,(%),25,20,15,10,5,农村居民家庭村收入数据的直方图,偏态与峰度,(,从直方

42、图上观察,),按纯收入分组,(,元,),1000,500,1500,2000,2500,3000,3500,4000,4500,5000,结论,:,1.,为右偏分布,2.,峰度适中,4 -,84,偏态系数,(计算过程),农村居民家庭纯收入数据偏态及峰度计算表,按纯收入分组,(百元),组中值,X,i,户数比重,(%),F,i,(,X,i,-,X,),3,F,i,(,X,i,-,X,),4,F,i,5,以下,5,10,10,15,15,20,20,25,25,30,30,35,35,40,40,45,45,50,50,以上,2.5,7.5,12.5,17.5,22.5,27.5,32.5,37.5

43、,42.5,47.5,52.5,2.28,12.45,20.35,19.52,14.93,10.35,6.56,4.13,2.68,1.81,4.94,-154.64,-336.46,-144.87,-11.84,0.18,23.16,89.02,171.43,250.72,320.74,1481.81,2927.15,4686.51,1293.53,46.52,0.20,140.60,985.49,2755.00,5282.94,8361.98,46041.33,合计,100,1689.25,72521.25,4 -,85,偏态系数,(,计算结果,),根据上表数据计算得,将计算结果代入公式得

44、,结论:,偏态系数为正值,而且数值较大,说明农村居民家庭纯,收入的分布为右偏分布,即收入较少的家庭占据多数,而收入,较高的家庭则占少数,而且偏斜的程度较大,?,?,?,?,?,?,?,11,3,3,1,1,3,3,21.429,1689.25,0.956,1766.81,1,12.09,K,i,i,i,i,i,i,X,X,F,X,F,SK,N,?,?,?,?,?,?,?,?,?,?,?,?,1,1,21.429,K,i,i,K,i,i,i,F,X,X,F,?,?,?,?,?,?,?,&,&,(百元),?,?,2,1,1,12.09,K,i,i,K,i,i,i,F,X,X,F,?,?,?,?,?

45、,?,?,?,?,&,&,(百元),4 -,86,峰,态,4 -,87,峰态,(kurtosis),1.,统计学家,Pearson,于,1905,年首次提出,2.,数据分布扁平程度的测度,3.,峰态系数,=0,扁平峰度适中,4.,峰态系数,0,为,扁平分布,5.,峰态系数,0,为,尖峰分布,4 -,88,总体峰态系数,(kurtosis coefficient),?,峰度系数的概念式,?,?,?,?,4,4,1,4,4,3,3,N,i,i,X,X,E,X,E,X,K,N,?,?,?,?,?,?,?,?,?,?,?,?,?,?,4 -,89,样本峰态系数,(kurtosis coefficient),1.,根据原始数据计算,?,Excel,与,spss,均采用这个公式计算。,2.,根据分组数据计算,2,4,2,4,(,1),(,),3,(,),(,1),?,(,1)(,2)(,3),i,i,n,n,x,x,x,x,n,K,n,n,n,s,?,?,?,?,?,?,?,?,?,?,?,?,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论