集中趋势和离散趋势_第1页
集中趋势和离散趋势_第2页
集中趋势和离散趋势_第3页
集中趋势和离散趋势_第4页
集中趋势和离散趋势_第5页
已阅读5页,还剩90页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

集中趋势和离散趋势第一页,共九十五页,2022年,8月28日观察:一个平均工资掩盖了多少差异

3月25日,北京市统计局宣布,2008年,北京市职工年平均工资为44715元,折合每月3726元,比2007年增长了12%。与往年一样,这样的数据又是引来一片质疑声。因为它和太多市民对实际收入的感受差距很大,也解释不了为什么大家的收入逐年增长,而消费却总是无法提振的尴尬。有关部门对上述职工平均工资的统计给出了一些解释,使得社会对这一数据在统计意义上的正确性没有多少疑问,却对它的代表性和实际意义产生了更多的怀疑。按照相关解释,目前的职工平均工资统计,所涉及的统计对象还只是企事业单位、机关与社会团体,并没有将社会中小企业纳入。而且职工工资总额计算方法不是按实际发到职工手里的现金计算,还包括单位代扣代缴的社会保险、住房公积金等。这样一解释,大家有些明白了,原来北京市职工年平均工资统计里的“职工”只是你我中间的一部分人群,这部分人群的收入可能是比较高而且稳定的,自然平均工资也相对偏高一些。但这种“有你没我”的统计,如何能反映整个城市的收入全貌呢?再从收入本身来说,按照《中国保险报》人士的统计,北京地区养老保险单位缴费比例20%,个人缴费比例8%;医疗保险单位缴费比例7.5%,个人缴费比例2%;生育保险缴费比例为0.6%,单位承担;失业保险单位缴费比例2%,个人缴费比例1%;工伤保险按行业性质分为0.6%、1.2%、2%三档基准费率,只由单位承担。以上合计,社保总负担至少已占个人工资总额的42%左右,外加单位和个人各缴(扣)12%以内的住房公积金,“职工工资”里面将有可能高达66%的份额并不在市民的腰包里。而剩下34%的“职工工资”,也还只是税前收入。难怪与大家的实际感受有如此大的差异。统计的口径是这样,再回到平均的概念上来。很多年来,我们的职工平均工资统计数据只有平均数,而没有覆盖社会不同群体(如国企高管、公务员、教师、农民工)以及不同行业(如金融、电信、私企、电力、石油)的具体分布数据。这样的统计无法显示不同行业以及同一行业内职工与管理人员巨大的收入差异,网民将这样的统计形象地概括为:“张家有财一千万,十个邻居穷光蛋,平均下来算一算,个个都有上百万”。一个与太多市民收入真实情况不相符的统计层面的工资增长,自然无法得到大家在幸福感上的共鸣。可见,一个“平均”,掩盖了多少差异;一个“增长”,隐藏了多少问题。当然,并不是说平均值的统计方法是不需要的。GDP的人均值在分析一个国家经济增长阶段时有很大的价值,历史地看,平均值的变化也总是有其时代意义的。但是,平均值的统计方法也是有缺陷的,因为它反映不了贫富分化和财富流向的变动。在统计数字与社会现实的差异面前,我们是应该为了统计数字的“喜人增长”而无视社会现实,还是应该为了真实地反映社会现实,修正统计部门的计算口径和方法?答案是明摆着的,只有真实的数据才能让大家了解目前社会存在的真正问题,也才能为正确的决策提供有价值的参考。这样真实的统计也许很难,但在失真和真实之间,统计部门其实没有选择。

【作者:陈联科来源:京华时报】第二页,共九十五页,2022年,8月28日数据分布的特征集中趋势(位置)离散趋势

(分散程度)偏态和峰度(形状)第三页,共九十五页,2022年,8月28日数据分布的特征和测度数据的特征和测度分布的形状集中趋势离散程度众数中位数均值离散系数方差和标准差峰度Kurtosis四分位差极差偏态SkewnessModeMedianMeanRangeQuartilesVarianceandStandardDeviation第四页,共九十五页,2022年,8月28日集中趋势的测度集中趋势是对频数分布资料的集中状况和平均水平的综合测度。而离散趋势是对频数分布资料的差异程度和离散程度的测度,用来衡量集中趋势所测度的代表性,或者反映变量值的稳定性和均匀性。常用来表达数列集中趋势的测度有算术平均数、调和平均数、几何平均数、中位数和众数。这些测度在统计学中也称为平均指标或平均数,可以用来反映标志值的典型水平和标志值分布的中心位置或集中趋势。返回本章返回总目录第五页,共九十五页,2022年,8月28日集中趋势

(Centraltendency)一组数据向其中心值靠拢的倾向和程度测度集中趋势就是寻找数据一般水平的代表值或中心值不同类型的数据用不同的集中趋势测度值低层次数据的集中趋势测度值适用于高层次的测量数据,反过来,高层次数据的集中趋势测度值并不适用于低层次的测量数据选用哪一个测度值来反映数据的集中趋势,要根据所掌握的数据的类型来确定第六页,共九十五页,2022年,8月28日均值

(概念要点)1. 集中趋势的测度值之一2. 最常用的测度值3. 一组数据的均衡点所在4. 易受极端值的影响5.用于数值型数据,不能用于定类数据和定序数据第七页,共九十五页,2022年,8月28日均值

(计算公式)设一组数据为:X1,X2,…,XN

简单均值的计算公式为设分组后的数据为:X1,X2,…,XK

相应的频数为:F1,F2,…,FK加权均值的计算公式为第八页,共九十五页,2022年,8月28日简单均值

(算例)原始数据: 10 5 9 13 6 8第九页,共九十五页,2022年,8月28日加权均值

(算例)表4-1某车间50名工人日加工零件均值计算表按零件数分组组中值(Xi)频数(Fi)XiFi105~110110~115115~120120~125125~130130~135135~140107.5112.5117.5122.5127.5132.5137.5358141064322.5562.5940.01715.01275.0795.0550.0合计—506160.0计算50名工人日加工零件数的均值第十页,共九十五页,2022年,8月28日加权均值

(权数对均值的影响)甲乙两组各有10名学生,他们的考试成绩及其分布数据如下甲组:考试成绩(X): 020100

人数分布(F):118

乙组:考试成绩(X): 020100

人数分布(F):811第十一页,共九十五页,2022年,8月28日均值

(数学性质)1. 各变量值与均值的离差之和等于零

2.各变量值与均值的离差平方和最小第十二页,共九十五页,2022年,8月28日2.调和平均数调和平均数又称“倒数平均数”,它是根据各标志值的倒数来计算的平均数,即各个标志值倒数的算术平均数的倒数。

调和平均数也分简单调和平均数和加权调和平均数。简单调和平均数的计算公式为:即设m为权数,则加权调和平均数的计算公式为:则第十三页,共九十五页,2022年,8月28日调和平均数

(概念要点)1. 集中趋势的测度值之一2. 均值的另一种表现形式3. 易受极端值的影响4. 用于定比数据5.不能用于定类数据和定序数据6.计算公式为原来只是计算时使用了不同的数据!第十四页,共九十五页,2022年,8月28日调和平均数

(算例)表某日三种蔬菜的批发成交数据蔬菜名称批发价格(元)

Xi成交额(元)XiFi成交量(公斤)Fi甲乙丙1.200.500.801800012500640015000250008000合计—3690048000【例】某蔬菜批发市场三种蔬菜的日成交数据如表,计算三种蔬菜该日的平均批发价格第十五页,共九十五页,2022年,8月28日3.几何平均数几何平均数是计算平均比率和平均速度最适用的一种方法。几何平均数有简单几何平均数和加权几何平均数之分。简单几何平均数是次方根。个标志值连乘积的其计算公式为:在用几何平均数法计算平均数时,如果大于2,可采用对数法计算。计算公式为:第十六页,共九十五页,2022年,8月28日几何平均数

(概念要点)1.集中趋势的测度值之一2.N

个变量值乘积的N

次方根3.适用于特殊的数据4.主要用于计算平均发展速度5.计算公式为6.可看作是均值的一种变形第十七页,共九十五页,2022年,8月28日几何平均数

(算例)一位投资者持有一种股票,1996年、1997年、1998年和1999年收益率分别为4.5%、2.0%、3.5%、5.4%。计算该投资者在这四年内的平均收益率。平均收益率=103.84%-1=3.84%第十八页,共九十五页,2022年,8月28日需要指出的是,当把几何平均数应用于经济现象时,必须注意经济现象本身的特点。只有当标志总量表现为各个标志值的连乘积时,才适合采用几何平均数方法来计算平均标志值。一般来说,计算社会经济现象在各个时期的平均发展速度时,要采用几何平均数。例如,工农业总产值年平均发展速度、全国人口年平均发展速度等。第十九页,共九十五页,2022年,8月28日4.中位数中位数是一种按其在数列中的特殊位置而决定的平均数。把总体各单位标志值按大小顺序排列后,处在中点位次的标志值就是中位数,它将全部标志值分成两个部分,一半标志值比它大,一半标志值比它小,而且比它大的标志值个数和比它小的标志值个数相等。要求得中位数,首先要确定中位数的位次。未分组资料时,中位数位次=

当总体位数为奇数时,中位数就是中位数位次上的那个数据;当为偶数时,中位数是中位数位次上2项数据的算术平均数。第二十页,共九十五页,2022年,8月28日分组资料时,中位数位次可以利用中位数所在组的下限来测算中位数,即中位数的下限公式为:——中位数——中位数所在组的下限——中位数所在组的次数——总次数即各组次数总和——小于中位数组的各组次数之和——中位数所在组的组距式中:第二十一页,共九十五页,2022年,8月28日也可以利用中位数所在组的上限来测算中位数,即中位数的上限公式为:式中:——中位数所在组的上限——大于中位数组的各组次数之和中位数最大的特点是:它是序列中间1项或2项的平均数,不受极端值的影响,所以在当一个变量数列中含有特大值与特小值的情况下,采用中位数较为适宜。正式由于中位数的这一特点,在统计研究中,当遇到掌握统计资料不多而且各标志值之间差异程度较大或频数分布有偏态时,为避免计算标志值所得的算术平均数偏大或偏小,就可利用中位数来表示现象的一般水平。第二十二页,共九十五页,2022年,8月28日中位数

(概念要点)集中趋势的测度值之一排序后处于中间位置上的值Me50%50%不受极端值的影响主要用于定序数据,也可用数值型数据,但不能用于定类数据各变量值与中位数的离差绝对值之和最小,即第二十三页,共九十五页,2022年,8月28日中位数

(位置的确定)未分组数据:组距分组数据:第二十四页,共九十五页,2022年,8月28日未分组数据的中位数

(计算公式)第二十五页,共九十五页,2022年,8月28日定序数据的中位数

(算例)【例】计算甲城市家庭对住房满意状况评价的中位数解:中位数的位置为:

300/2=150从累计频数看,中位数的在“一般”这一组别中。因此

Me=一般表甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)累计频数

非常不满意

不满意

一般

满意

非常满意2410893453024132225270300合计300—第二十六页,共九十五页,2022年,8月28日数值型未分组数据的中位数

(5个数据的算例)原始数据: 2422212620排序: 2021222426位置: 123 45中位数22第二十七页,共九十五页,2022年,8月28日数值型未分组数据的中位数

(6个数据的算例)原始数据:105 91268排序: 56891012位置: 123

4

56位置N+126+123.5中位数8+928.5第二十八页,共九十五页,2022年,8月28日根据位置公式确定中位数所在的组采用下列近似公式计算:4.

该公式假定中位数组的频数在该组内均匀分布数值型分组数据的中位数

(要点及计算公式)第二十九页,共九十五页,2022年,8月28日数值型分组数据的中位数

(算例)表某车间50名工人日加工零件数分组表按零件数分组频数(人)累积频数105~110110~115115~120120~125125~130130~135135~140358141064381630404650合计50—【例】计算50名工人日加工零件数的中位数第三十页,共九十五页,2022年,8月28日5.众数众数是一种位置平均数。众数是总体单位中,标志值出现次数最多的那个数值。为了确定众数的具体数值,可以利用下限公式或上限公式加以计算。计算众数的下限公式为:

式中:——众数——众数组的下限——众数组次数与上一组次数之差——众数组次数与下一组次数之差——众数组的组距第三十一页,共九十五页,2022年,8月28日计算众数的上限公式为:

式中:——众数组的上限众数的计算只适用于单位数较多,且存在明显的集中趋势的情况,否则,计算众数时没有意义的。第三十二页,共九十五页,2022年,8月28日众数

(概念要点)集中趋势的测度值之一出现次数最多的变量值不受极端值的影响可能没有众数或有几个众数主要用于定类数据,也可用于定序数据和数值型数据第三十三页,共九十五页,2022年,8月28日众数

(众数的不唯一性)无众数

原始数据:10591268一个众数

原始数据:65

9855多于一个众数

原始数据:252828

364242第三十四页,共九十五页,2022年,8月28日定类数据的众数

(算例)表某城市居民关注广告类型的频数分布

广告类型人数(人)比例频率(%)商品广告服务广告金融广告房地产广告招生招聘广告其他广告112519161020.5600.2550.0450.0800.0500.01056.025.54.58.05.01.0合计2001100【例】根据第三章表3-1中的数据,计算众数解:这里的变量为“广告类型”,这是个定类变量,不同类型的广告就是变量值。我们看到,在所调查的200人当中,关注商品广告的人数最多,为112人,占总被调查人数的56%,因此众数为“商品广告”这一类别,即

Mo=商品广告第三十五页,共九十五页,2022年,8月28日定序数据的众数

(算例)【例】根据第三章表3-2中的数据,计算众数解:这里的数据为定序数据。变量为“回答类别”。甲城市中对住房表示不满意的户数最多,为108户,因此众数为“不满意”这一类别,即

Mo=不满意表3-2甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)百分比(%)

非常不满意

不满意

一般

满意

非常满意24108934530836311510合计300100.0第三十六页,共九十五页,2022年,8月28日数值型分组数据的众数

(要点及计算公式)1.众数的值与相邻两组频数的分布有关4.

该公式假定众数组的频数在众数组内均匀分布2.相邻两组的频数相等时,众数组的组中值即为众数Mo3.相邻两组的频数不相等时,众数采用下列近似公式计算MoMo第三十七页,共九十五页,2022年,8月28日数值型分组数据的众数

(算例)表某车间50名工人日加工零件数分组表按零件数分组频数(人)累积频数105~110110~115115~120120~125125~130130~135135~140358141064381630404650合计50—【例】计算50名工人日加工零件数的众数第三十八页,共九十五页,2022年,8月28日四分位数

(概念要点)1. 集中趋势的测度值之一2. 排序后处于25%和75%位置上的值3.不受极端值的影响4.主要用于定序数据,也可用于数值型数据,但不能用于定类数据QLQMQU25%25%25%25%第三十九页,共九十五页,2022年,8月28日四分位数

(位置的确定)未分组数据:组距分组数据:下四分位数(QL)位置=N+14上四分位数(QU)位置=3(N+1)4下四分位数(QL)位置=N4上四分位数(QL)位置=3N4第四十页,共九十五页,2022年,8月28日定序数据的四分位数

(算例)【例】计算甲城市家庭对住房满意状况评价的四分位数解:下四分位数(QL)的位置为:

QL位置=(300)/4=75

上四分位数(QL)的位置为:

QU位置=(3×300)/4=225从累计频数看,QL在“不满意”这一组别中;QU在“一般”这一组别中。因此

QL

=不满意

QU

=一般表甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)累计频数

非常不满意

不满意

一般

满意

非常满意2410893453024132225270300合计300—第四十一页,共九十五页,2022年,8月28日数值型未分组数据的四分位数

(7个数据的算例)原始数据:

2321 3032 282526排序:21232526283032位置:1 23 4567N+1QL=237+1QL位置=4=4=2QU位置=3(N+1)43(7+1)4

==6QU=30第四十二页,共九十五页,2022年,8月28日数值型未分组数据的四分位数

(6个数据的算例)原始数据:

2321 30 282526排序:212325262830位置:1 2 3 4 56QL=21+0.75(23-21)=22.5QL位置=N+14=6+14=1.75QU位置=3(N+1)43(6+1)4==5.25QU=28+0.25(30-28)

=28.5第四十三页,共九十五页,2022年,8月28日数值型分组数据的四分位数

(计算公式)上四分位数:

下四分位数:

第四十四页,共九十五页,2022年,8月28日数值型分组数据的四分位数

(计算示例)QL位置=50/4=12.5QU位置=3×50/4=37.5表某车间50名工人日加工零件数分组表按零件数分组频数(人)累积频数105~110110~115115~120120~125125~130130~135135~140358141064381630404650合计50—【例】计算50名工人日加工零件数的四分位数第四十五页,共九十五页,2022年,8月28日第四十六页,共九十五页,2022年,8月28日离散趋势的测度离散趋势的测度,在统计学中也称为指标变异指标,是用来描述数列中指标值的离散趋势与离散程度的。常用的标志变异指标有极差、平均差和标准差等。1.极差极差是指一个数列中两个极端值即最大值与最小值之间的差异。根据极差的大小能说明标志值变动范围的大小。其计算公式为:极差=最大标志值-最小标志值根据组距数列求极差的计算公式为:极差=最高组上限-最低组下限在实际工作中,极差可以用于检查产品质量的稳定性和进行质量控制。在正常生产的条件下,产品质量稳定,极差在一定范围内波动,若极差超过给定的范围,就说明有不正常情况产伤。但极差受到极端是的影响,测定结果往往不能反映数据的实际离散程度。第四十七页,共九十五页,2022年,8月28日甲、乙二人射击,结果如下:甲:9.0,9.1,9.1,9.0,9.2,9.1,9.0,9.1乙:8.0,9.8,9.5,8.6,9.7,9.2,7.8,10他们成绩的平均数是:第四十八页,共九十五页,2022年,8月28日极差

(概念要点及计算公式)1.一组数据的最大值与最小值之差2.离散程度的最简单测度值3.易受极端值影响4.未考虑数据的分布7891078910未分组数据

R

=max(Xi)-min(Xi).=组距分组数据R

最高组上限-最低组下限5.计算公式为第四十九页,共九十五页,2022年,8月28日例子1,3,4,7,8,9,10求极差R=10-1=9第五十页,共九十五页,2022年,8月28日极差是离散程度的最简单测度值,它只利用了一组数据的两个极端值,易受极端值的影响,且不能反映中间数据的分散状况。比如:1,6,6,6,6,6,10这一组数据,极差是?R=10-1=9和上一组极差值相同,都是9,如果以此断言两组数据离散程度相同,恐怕很不合适,直觉告诉我们后一组数据的差异比前一组数据大的多。

返回第五十一页,共九十五页,2022年,8月28日2.四分位差四分位差是根据四分位数计算的。首先把变量各单位标志值从小到大排序,再将数列四等分,处于四分位点位次的标志值就是四分位数,记作,为第一四分位数(也称为下四分位数),为第二四分位数,就是中位数,为第三四分位数。四分位差的计算公式为:四分位差的计算步骤为:先寻找四分位数,然后根据四分位差的计算公式计算。第五十二页,共九十五页,2022年,8月28日四分位差

(定序数据的算例)【例】计算甲城市家庭对住房满意状况评价的四分位差解:设非常不满意为1,不满意为2,一般为3,满意为4,非常满意为5已知M1=不满意=2,

M3=

一般=

3四分位差:=M3

-

M1

=3–2

=1表甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)累计频数

非常不满意

不满意

一般

满意

非常满意2410893453024132225270300合计300—第五十三页,共九十五页,2022年,8月28日四分位差是对极差的一种改进。与极差相比,四分位差因不受极值的影响,在反映数据的离散程度方面比极差准确,具有较高的稳定性;同时,对于存在开口的组距数列,不能计算极差,但可以计算四分位差。四分位差与极差相比较:四分位差和极差一样,不能充分利用数据的全部信息,也无法反映标志值的一般变动。第五十四页,共九十五页,2022年,8月28日3.平均差平均差是各单位标志值对平均数的离差绝对值的平均数。平均差仅反映总体各单位标志值对其平均数的平均离差量。平均差越大,表明标志变异程度越大;反之,则表明标志变异程度越小。平均差通常用字母表示。

未分组资料时,其计算公式为:分组资料时,其计算公式为:第五十五页,共九十五页,2022年,8月28日因为一组数据中各变量值与其均值之差有正号也有负号,正负加起来抵销正好等于零。第五十六页,共九十五页,2022年,8月28日例:1,3,4,7,8,9,10各个离差如果不加绝对值的加起来:(1-6)+(3-6)+(4—6)+(7-6)+(8-6)+(9-6)+(10-6)=-5-3-2+1+2+3+4=-10+10=0第五十七页,共九十五页,2022年,8月28日求两组数据的平均差:

例一:1,3,4,7,8,9,10

例二:1,6,6,6,6,6,10第五十八页,共九十五页,2022年,8月28日平均差

(计算过程及结果)表某车间50名工人日加工零件标准差计算表按零件数分组组中值(Xi)频数(Fi)|Xi-X||Xi-X|Fi105~110110~115115~120120~125125~130130~135135~140107.5112.5117.5122.5127.5132.5137.535814106415.710.75.70.74.39.314.347.153.545.69.843.055.857.2合计—50—312【例】计算工人日加工零件数的平均差第五十九页,共九十五页,2022年,8月28日4.方差和标准差未分组资料时,方差的公式为:

标准差的公式为:分组资料时,方差的公式为:

标准差的公式为:式中:——算术平均数——总体单位数——各组次数——方差——标准差——变量值第六十页,共九十五页,2022年,8月28日需要指出的是,是总体标准差,而样本标准差为。当样本较大时,由于几乎等于,因此常用公式代替公式来计算样本标准差S,并用于估计总体标准差。在小样本的情况下,较为总体标准差的更优良的估计量。

返回本章返回总目录第六十一页,共九十五页,2022年,8月28日方差和标准差

(概念要点)1. 离散程度的测度值之一2. 最常用的测度值3. 反映了数据的分布反映了各变量值与均值的平均差异根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差4681012X=8.3第六十二页,共九十五页,2022年,8月28日总体方差和标准差

(计算公式)未分组数据:组距分组数据:未分组数据:组距分组数据:方差的计算公式标准差的计算公式第六十三页,共九十五页,2022年,8月28日总体标准差

(计算过程及结果)表某车间50名工人日加工零件标准差计算表按零件数分组组中值(Xi)频数(Fi)(Xi-X)2(Xi-X)2Fi105~110110~115115~120120~125125~130130~135135~140107.5112.5117.5122.5127.5132.5137.5358141064246.49114.4932.490.4918.4986.49204.49739.47572.45259.926.86184.90518.94817.96合计—50—3100.5【例】计算工人日加工零件数的标准差第六十四页,共九十五页,2022年,8月28日样本方差和标准差

(计算公式)未分组数据:组距分组数据:未分组数据:组距分组数据:方差的计算公式标准差的计算公式注意:样本方差用自由度n-1去除!第六十五页,共九十五页,2022年,8月28日样本方差

自由度(degreeoffreedom)一组数据中可以自由取值的数据的个数当样本数据的个数为n

时,若样本均值x确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值例如,样本有3个数值,即x1=2,x2=4,x3=9,则x=5。当x

=5

确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值样本方差用自由度去除,其原因可从多方面来解释,从实际应用角度看,在抽样估计中,当用样本方差去估计总体方差σ2时,它是σ2的无偏估计量第六十六页,共九十五页,2022年,8月28日样本方差

(算例)原始数据:10 591368第六十七页,共九十五页,2022年,8月28日样本标准差

(算例)样本标准差原始数据:

10591368第六十八页,共九十五页,2022年,8月28日方差

(简化计算公式)样本方差总体方差第六十九页,共九十五页,2022年,8月28日方差

(数学性质)各变量值对均值的方差小于对任意值的方差设X0为不等于X的任意数,D2为对X0的方差,则第七十页,共九十五页,2022年,8月28日5.离散系数上述的各种标志变异度指标,都是对总体中各单位指标值变异测定的绝对量指标。而离散系数是测定总体中各单位标志值变异的相对量指标,以消除不同总体之间在计量单位、平均水平方面的不可比因素。常用的离散系数主要有平均差离散系数和标准差离散系数其公式分别为:

第七十一页,共九十五页,2022年,8月28日离散系数上面介绍的各离散程度的测度值,反映的是数据分散程度的绝对值,其数值的大小取决于原变量值绝对水平的高低。举个例子:两组数据:第一组:5,10,20,25,30第二组:100000,100005,99995,100020,100040第七十二页,共九十五页,2022年,8月28日第一组数据极差=25第二组数据极差=45第一组数据平均差=8.4第二组数据平均差=14.4第一组数据方差=107.5标准差=10.36822第二组数据方差=332.5标准差=18.23458第七十三页,共九十五页,2022年,8月28日还比如如果一组测量人的重量的数据:65(公斤),75,60,62,58极差=17平均差=4.8方差=44.5标准差=6.670832而如果将这些人的体重改成用吨计算,则数据变成:0.065(吨),0.075,0.06,0.062,0.058极差=0.017平均差=0.0048方差=0.000045标准差=0.006671第七十四页,共九十五页,2022年,8月28日因此,对平均水平不同或计量单位不同的不同组别的变量值,不能直接的用上述离散程度的测度值进行直接的比较各组的离散程度。为了消除变量值水平的高低和计量单位不同对离散测度值的影响,我们计算离散系数值。离散系数一般是用标准差计算的,也称为标准差系数,它是一组数据的标准差与其相应的均值之比,是测度数据离散程度的相对指标,其计算公式为:第七十五页,共九十五页,2022年,8月28日刚刚讲的一个例子:第一组:5,10,20,25,30离散系数=10.368/18=0.576第二组:100000,100005,99995,100020,100040离散系数=18.23/100012=0.00018232392第七十六页,共九十五页,2022年,8月28日体重的那个例子:65(公斤),75,60,62,58离散系数=0.104231750.065(吨),0.075,0.06,0.062,0.058离散系数=0.104234375第七十七页,共九十五页,2022年,8月28日离散系数

(概念要点和计算公式)1. 标准差与其相应的均值之比2. 消除了数据水平高低和计量单位的影响3. 测度了数据的相对离散程度4. 用于对不同组别数据离散程度的比较5.计算公式为第七十八页,共九十五页,2022年,8月28日离散系数

(实例和计算过程)表某管理局所属8家企业的产品销售数据企业编号产品销售额(万元)X1销售利润(万元)X21234567817022039043048065095010008.112.518.022.026.540.064.069.0【例】某管理局抽查了所属的8家企业,其产品销售数据如表。试比较产品销售额与销售利润的离散程度第七十九页,共九十五页,2022年,8月28日离散系数

(计算结果)X1=536.25(万元)S1=309.19(万元)V1=536.25309.19=0.577S2=23.09(万元)V2=32.521523.09=0.710X2=32.5215(万元)结论:计算结果表明,V1<V2,说明产品销售额的离散程度小于销售利润的离散程度第八十页,共九十五页,2022年,8月28日偏态第八十一页,共九十五页,2022年,8月28日偏态与峰度分布的形状扁平分布尖峰分布偏态峰度左偏分布右偏分布与标准正态分布比较!第八十二页,共九十五页,2022年,8月28日频数(人)1512963105110115120125130135140日加工零件数(个)直方图下的面积之和等于1图3-5某车间工人日加工零件数的直方图对称分布第八十三页,共九十五页,2022年,8月28日户数比重(%)252015105农村居民家庭

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论