第五章统计分布特征的描述:集中趋势和离散趋势课件_第1页
第五章统计分布特征的描述:集中趋势和离散趋势课件_第2页
第五章统计分布特征的描述:集中趋势和离散趋势课件_第3页
第五章统计分布特征的描述:集中趋势和离散趋势课件_第4页
第五章统计分布特征的描述:集中趋势和离散趋势课件_第5页
已阅读5页,还剩223页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第五章统计分布特征的描述:

平均指标和变异指标安徽财经大学统计与应用数学学院第五章统计分布特征的描述:

平均指标和变异指标安徽财经大学1第五章统计分布特征的描述第一节集中趋势的测度:平均指标第二节离散趋势的测度:变异指标第五章统计分布特征的描述第一节集中趋势的测度:平均指标2第一节集中趋势的测定:平均指标一、平均指标的概念和作用二、算术平均数三、调和平均数四、几何平均数五、众数六、中位数七、各种平均数之间的相互关系上一页下一页返回本章首页第一节集中趋势的测定:平均指标一、平均指标的概念和作用3一、平均指标的概念和作用㈠概念:平均指标是指将同质总体内各单位的数量差异抽象化,反映总体一般水平或集中趋势的统计指标所谓集中趋势,指一组数据向某一中心值靠拢的倾向,测度集中趋势,也就是寻找数据的一般水平的代表值或中心值。上一页下一页返回本节首页一、平均指标的概念和作用㈠概念:平均指标是指将同质总体内各单42、作用(1)使范围不同的总体具有可比性。(2)反映总体各单位的一般水平这一综合特征,抽象掉了个体差异。(3)反映总体分布的集中趋势。即如果以总体单位某一标志的平均数为中心线,则总体各单位的标志值主要分布于中心线及其上下附近,而远离中心线的标志值较少。2、作用(1)使范围不同的总体具有可比性。5(三)平均指标的种类

数值平均数:根据统计数列中的各项数据计算出的平均数。主要有:算术平均数、调和平均数、几何平均数。位置平均数:将各单位标志值排序后,取得某一位置的标志值作为反映一般水平的代表值。有:众数、中位数。第五章统计分布特征的描述:集中趋势和离散趋势课件6二、算术平均数(ArithmeticMean)

上一页下一页返回本节首页㈠基本公式例如:平均工资=企业工资总额/工人数,平均成绩=成绩总分/学生人数注意区分算术平均数和强度相对数;二、算术平均数(ArithmeticMean)

上一页下一7算术平均数和强度相对指标的区别:(1)含义和作用不同:强度相对指标表明现象程度发展的强度、密度或普遍程度;而平均指标则表明同类现象在一定时间、地点条件下所达到的一般水平。(2)计算方法不同。强度相对指标的分子与分母分别来自不同的总体,一般没有直接的依存关系,且有的强度相对指标分子分母可以对换,即强度相对指标可以计算正指标或逆指标;而平均指标的分子是总体总量指标,分母则是同一总体内的总体单位总量,两者具有密切的关系,且平均指标的分子分母不能互换。(3)计量单位表示不同。强度相对指标一般为复名数,有时为无名数;平均指标则为单名数。算术平均数和强度相对指标的区别:8(二)、算术平均数的计算1.简单算术平均数计算公式:适用条件:未分组的原始资料(二)、算术平均数的计算9例1:某企业一生产班组共5人,他们在2000年9月的月工资分别为1700元,1900元,1500元,1850元,2200元。则他们的月平均工资为:

例1:某企业一生产班组共5人,他们在2000年9月的10例2:例2:11班级平均年龄:班级平均身高:班级平均年龄:班级平均身高:12㈢加权算术平均数计算公式:式中:为算术平均数;为第组的次数;为组数;为第组的标志值或组中值。适用条件:分组资料㈢加权算术平均数式中:为算术平均数;为第组的次数;13例1:单项式数列某班学生年龄情况表按年龄分组(岁)人数(人)比重(%)20212223552825251040合计20100分组频数频率按年龄分组(岁)人数(人)比重(%)20525合计2010014求学生的平均年龄解:(1)绝对权数(2)相对权数求学生的平均年龄15例2:组距式数列(等距数列)某班学生身高情况表按身高分组(米)组中值人数(人)比重(%)1.4-1.51.5-1.61.6-1.71.7-1.81.8-1.91.451.551.651.751.85464422030202010合计——20100分组频数频率组中值例2:组距式数列(等距数列)按身高分组(米)组中值人数(人)16求学生的平均身高解:(1)绝对权数(2)相对权数求学生的平均身高17例3:某班英语成绩整理如下,求学生英语平均成绩.例3:某班英语成绩整理如下,求学生英语平均成绩.18解(1)绝对权数(2)相对权数解(1)绝对权数19分析如下:(1)平均什么什么就是标志值,标志值出现的次数即为权数(2)影响算术平均数大小的因素有二:变量值x的大小。变量值越大平均数越大各组次数或频率,又称权数。权数越大的标志值对平均数影响越大,实际上权数的大小反映了标志值的重要性,因此权数也称为权重系数。各组频率也即相对权数更能体现权衡轻重的本质。分析如下:(1)平均什么什么就是标志值,标志值出现的次数20加权算术平均数有两种变形:当权数用相对数时

当f1=f2=f3=……=fn时,权数的作用消失,加权平均数=简单平均数(3)组距数列计算加权算术平均数时,假定该组标志值是完全均匀分布的,以各组的组中值为各组变量值,计算的平均数是近似值。加权算术平均数有两种变形:21(四).算术平均数的数学性质:⒈变量值与其算术平均数的离差之和衡等于零,即:⒉变量值与其算术平均数的离差平方和为最小,即:(四).算术平均数的数学性质:⒈变量值与其算术平均数的离差之22算术平均数的缺点:易受极端值的影响张庄有个张千万,九个邻居穷光蛋;平均起来算一算,个个都是张百万。

去掉一个最高分去掉一个最低分三号选手最后得分…..

算术平均数的缺点:易受极端值的影响张庄有个张千万,去掉一个最23第五章统计分布特征的描述:集中趋势和离散趋势课件24第五章统计分布特征的描述:集中趋势和离散趋势课件25三、调和平均数(HarmonicMean)㈠调和平均数:是总体各单位标志值倒数的算术平均数的倒数,又叫倒数平均数.(二)简单调和平均数计算公式:式中:为调和平均数;为变量值的个数;为第个变量值。适用条件:已知各组的代表变量值x和标志总量xf,且各组的标志总量恰好相等.三、调和平均数(HarmonicMean)㈠调和平均数:是26计算举例1:某种蔬菜价格早上为0.5元/斤、中午为0.4元/斤、晚上为0.25元/斤。现早、中、晚各买1斤,求平均价格。例2:某种蔬菜价格早上为0.5元/斤、中午为0.4元/斤、晚上为0.25元/斤。现早、中、晚各买1元,求平均价格。在例1中,用简单算术平均数计算举例1:某种蔬菜价格早上为0.5元/斤、中午为0.4元/27在例2中,先求早、中、晚购买的斤数。早1/0.5=2(斤)中1/0.4=2.5(斤)晚1/0.25=4(斤)实际上,例2是用下列公式计算:这就是简单调和平均数的公式。上一页下一页返回本节首页在例2中,先求早、中、晚购买的斤数。实际上,例2是用下列公式28

(三)加权调和平均数计算公式:适用条件:分组资料,且已知各组的代表变量值(x)和标志总量(xf).上一页下一页返回本节首页式中:为第组的变量值;为第组的标志总量。

(三)加权调和平均数上一页下一页返回本节首页式中:为第29计算举例:例3:某种蔬菜价格早上为0.5元/斤、中午为0.4元/斤、晚上为0.25元/斤。现早、中、晚各买2元、3元、4元,求平均价格。计算举例:30说明(1)社会经济统计中所应用的调和平均数通常是加权算术平均数的变形,已知各组变量值xi和(xifi)而缺乏fi时,加权算术平均数通常可变形为调和平均数形式来计算。在已知每种价格x、销售量f时,求平均价格用加权算术平均数。在已知每种价格x、销售额m时,求平均价格用加权调和平均数。(2)简单调和平均数实际上是加权调和平均数的一种特例,即各组标志总量相等时出现阶的一种特殊情况.

上一页下一页返回本节首页说明上一页下一页返回本节首页31(四)相对指标的平均数算术平均数与调和平均数不仅可以用于计算严格意义上的静态平均指标(单位标志平均数),而且常可用来计算其它相对指标或时间数列的平均数。这时平均数仅仅是种计算形式,计算的结果并不要求它们符合平均指标的基本规定(总体标志总量/总体单位总量)。相对指标平均数的计算形式应该根据相对指标的对比关系来确定。(四)相对指标的平均数32例1,设有某行业150个企业一季度的有关产值和利润资料如下表:求该行业平均产值利润率。例1,设有某行业150个企业一季度的有关产值和求该行业平均产33第五章统计分布特征的描述:集中趋势和离散趋势课件34某行业150个企业二季度的有关产值和利润资料如下表:某行业150个企业二季度的有关产值和35第五章统计分布特征的描述:集中趋势和离散趋势课件36四、几何平均数(GeometricMean)几何平均数—n个变量值连乘积的n次方根。简单几何平均数加权几何平均数适用于计算现象的平均比率或平均速度。各个比率或速度的连乘积等于总比率或总速度;相乘的各个比率或速度不为零或负值。四、几何平均数(GeometricMean)几何平均数—37例1某企业产品的加工要顺次经过前后衔接的五道工序。本月该企业各加工工序的合格率分别为88%、85%、90%、92%、96%,试求这五道工序的平均合格率。解:本例中各工序的合格率具有环比的性质,企业产品的总合格率等于各工序合格率之连乘积。所以,所求的平均合格率应为:例1某企业产品的加工要顺次经过前后衔接的五道工序。本月该企业38

例2:银行对某笔投资的年利率按复利计算,25年利率如下,问该笔投资的25的平均年利率为多少?例2:银行对某笔投资的年利率按复利计算,25年利率如39解:=1.086结论:25年的平均利率为8.6%解:=1.08640五、众数(Mode)和中位数(Median)(一)众数(Mode)1.概念:众数是总体中出现次数最多的标志值(或属性表现)。有关购买软饮料的频数分布软饮料购买数量可口可乐百事可乐非常可乐雪碧鲜橙多娃哈哈19(最频繁购买的软饮料)851373总计55五、众数(Mode)和中位数(Median)(一)众数(M41众数的不惟一性众数无众数众数1众数2众数的不惟一性众数无众数众数1众数2422.众数的特点:是一种位置平均数,不受极端值的影响.众数具有不惟一性:它可能为一个,也可能为多个,也可能没有众数.众数可以用于各种计量尺度(定类、定序、定距和定比)的数据。2.众数的特点:433、众数的确定(1)单项数列众数的确定。在单项式数列中,确定众数的方法比较简单,可以用观察法直接确定众数,即指出次数最多的标志值即为众数。例如,某企业工人日产量资料如下表:3、众数的确定(1)单项数列众数的确定。44例1.已知某企业某日工人的日产量资料如下:日产量(件)工人人数(人)101112131470100380150100合计800计算该企业该日全部工人日产量的众数。例1.已知某企业某日工人的日产量资料如下:日产量(件)工人人45

先确定众数组,然后推算出众数的近似值。计算众数的近似值主要有两种方法。①当组距式数列次数分布对称时,可以用众数组的组中值作为众数的近似值。②当组距式数列次数分布不对称时,可以利用相应的计算公式计算众数的近似值。(2)组距数列众数的确定先确定众数组,然后推算出众数的近似值。(2)组距数列众数的46其近似公式推导下限公式:上限公式:其近似公式推导下限公式:上限公式:47例如,某企业职工月工资资料如下表:例如,某企业职工月工资资料如下表:48(二)中位数(Median)1.概念:将总体各单位按其标志值大小排列,居于中间位置的那个标志值就是中位数。2.作用:对对分布数列的总次数进行二等分,标志值小于中位数和大于中位数的次数各一半。上一页下一页返回本节首页(二)中位数(Median)上一页下一页返回本节首页49(1)根据原始数据计算中位数先将数据排序(特别重要!)n为奇数时等于第(n+1)/2个数。n为偶数时等于第n/2和n/2+1个数的平均值1,2,5,9,11中位数=51,2,5,9,11,18中位数=(5+9)/2=7(1)根据原始数据计算中位数先将数据排序(特别重要!)1,250(2)单项式分组资料中位数的确定先计算向上累计次数(或向下累计次数)当∑f为奇数时,中位数在第项,该项所对应的标志值即为中位数。当∑f为偶数时,中位数在第项,该项所对应的标志值即为中位数。(2)单项式分组资料中位数的确定先计算向上累计次数(或向下累51假定某企业职工生产一产品的日产量资料如下表:

Me=16假定某企业职工生产一产品的日产量资料如下表:Me=16523)组距式分组资料确定中位数第一步:计算向上累计次数(或向下累计次数)第二步:确定中位数所在组,第三步:计算中位数3)组距式分组资料确定中位数第一步:计算向上累计次数(或向53【例D】某车间50名工人月产量的资料如下:月产量(件)工人人数(人)向上累计次数(人)200以下200~400400~600600以上373283104250合计50—计算该车间工人月产量的中位数。【例D】某车间50名工人月产量的资料如下:月产量(件)工人人54【例D】某车间50名工人月产量的资料如下:月产量(件)工人人数(人)向下累计次数(人)200以下200~400400~600600以上373285047408合计50—计算该车间工人月产量的中位数。【例D】某车间50名工人月产量的资料如下:月产量(件)工人人55中位数的特点:是位置平均数,可以避免数列中极端值的影响。具有惟一性。中位数的适用场合:要求数据至少是定序数据。对于明显呈偏态分布的变量数列,也适于用中位数代表其一般水平。中位数的特点:56小案例:揭秘工资被增长原因:平均工资不能反映个体水平“其实,平均工资只是宏观经济发展的参考,并不能反映个体工资水平,这也是很多人感觉工资‘被增长’的原因”,昨日,在四川省统计局举行的“中国统计开放日”上,省统计局相关负责人表示。解放军信息工程大学魏振军教授认为,用“中位数”反映工资平均水平更为恰当。省统计局相关负责人以“统计数据背后的故事”为题,阐述了统计数据产生的来源、流程以及容易被社会公众误解的地方,同时还对“被增长”的平均工资专门做出解释。社会平均工资统计的组成通常分为5大类:国有单位职工工资、城镇集体单位职工工资、三资企业职工工资、私营单位员工工资和有雇佣关系的劳动个体工资,平均工资的计算原理基本上是这5大类的工资总和除以总人数。省统计局相关负责人表示,如此一来,由于是相对的简单平均,导致了这个数据与很多人的真实收入有些差距。“以往公布的社会平均工资只有前3类,今年国家统计局将私营单位员工工资计入其中。”由于统计口径的改变,也导致了去年的全省社会平均工资比2008年社会平均工资有所降低。尽管如此,魏振军认为,采用平均值的方式反映工资收入水平仍不合理,“如一个单位有23个人工作,其中10个人每个月100元收入,5个人200元,6个人250元,1个人1000元,领导2400元,平均值就是300元,但绝大部分人没有达到平均水平”。她引入了另两个概念———众数和中位数。众数就是“出现最多的月收入,如例子中的100元”,而中位数就是处于中间水平的那个数,“例子中的250元就是中位数”。她说,从中可以看出,众数最能反映大多数工资水平,而中位数反映平均工资水平更为恰当,“因为很多人关心的是众数或者中位数,被扭曲的平均值工资则毫无价值”。小案例:揭秘工资被增长原因:平均工资不能反映个体水平“其实,57小案例:香港工资统计公布根据政府统计处今日(三月十八日)公布的数字,二零零九年第二季本港的雇员人数(不包括留宿家庭佣工、政府雇员、雇主及自营作业者)为2776600人,而这些雇员的每小时工资中位数为$58.5(港元)。

在二零零九年第二季,本港雇员每小时工资的第10个百分位数、第25个百分位数、第75个百分位数及第90个百分位数分别为$27.0、$38.9、$96.0及$171.8。

把所有雇员的每小时工资按数值从小至大排列,每小时工资中位数是指排列在中间位置的雇员的每小时工资。换言之,每小时工资中位数即是把所有雇员中每小时工资水平最低的50%划分出来的每小时工资数值。

每小时工资百分位数对描述雇员的每小时工资分布非常有用。每小时工资的第p个百分位数即指把所有雇员中每小时工资水平最低的p%划分出来的每小时工资数值,而p可以是1至99之间任何一个整数值。举例说,每小时工资的第10个百分位数就是把所有雇员中每小时工资水平最低的10%划分出来的每小时工资数值。每小时工资的第25个、50个及75个百分位数,分别称为每小时工资下四分位数、中位数及上四分位数。

小案例:香港工资统计公布根据政府统计处今日(三月十八日)公布58第五章统计分布特征的描述:集中趋势和离散趋势课件59**知识拓展:分位数(Quantile)把顺序排列的一组数据分割为若干相等部分的分割点的数值。分位数可以反映数据分布的相对位置(而不单单是中心位置)。四分位数:将按大小顺序排列的观测值划分为4个等分,位于全部数据1/4、2/4和3/4位置上的3个数值就称为四分位数,分别以Q1,Q2,Q3代表第1个,第2个,第3个四分位数。十分位数:将按大小顺序排列的观测值划分为10个等分,位于全部数据1/10、2/10…,9/10位置上的9个数值就称为十分位数,分别以D1,D2,…,D9代表第1个,第2个,…,第9个十分位数。

。百分位数:将按大小顺序排列的观测值划分为100个等分,位于全部数据1/100、2/100…,99/100位置上的99个数值就称为十分位数,就称为百分位数,分别以P1,P2,…,P99代表第1个,第2个,…,第99个百分位数。几个关系:Me=Q2=D5=P50。Q1=P25Q3=P75分位数与其它指标结合,可以更详细地反映数据的分布特征。**知识拓展:分位数(Quantile)把顺序排列的一组数据60四分位数(Quartile)数据按大小顺序排序后把分割成四等分的三个分割点上的数值。在实际应用中四分位数的计算方法并不统一(数据量大时这些方法差别不大)。对原始数据:SPSS中四分位数的位置为(n+1)/4,2(n+1)/4,3(n+1)/4。Excel中四分位数的位置分别为(n+3)/4,2(n+1)/4,(3n+1)/4。如果四分位数的位置不是整数,则四分位数等于前后两个数的加权平均。四分位数(Quartile)数据按大小顺序排序后把分割成四61第五章统计分布特征的描述:集中趋势和离散趋势课件62四分位数计算(例子)排序后的数据:2,5,6,7,8,9,10,12,15,16不能整除时需加权平均:位置22.753数值560.75×(6-5)=0.75四分位数计算(例子)排序后的数据:2,5,6,7,8,963拓展:五数概括法五数概括法即用下面的五个数来概括数据:最小值(minimum)第1四分位数(Q1);中位数(Q2);第3四分位数(Q3);最大值(maximum)利用箱线图可以观察数据分布的范围、中心位置和对称性等特征,还可以进行多组数据分布的比较。xminQ1MeQ3

xmax拓展:五数概括法五数概括法即用下面的五个数来概括数据:xm64例:某班学生成绩盒式图例:某班学生成绩盒式图65众数、中位数和算术平均数的关系对称分布

均值=中位数=众数分配为钟形、轻微不对称的经验公式:左偏分布均值

中位数

众数<<右偏分布众数

中位数均值<<众数、中位数和算术平均数的关系对称分布均值=中位数=众66小结:平均数、中位数、众数的特点1.算术平均数综合反映了全部数据的信息,众数和中位数由数据分布的特定位置所确定。2.算术平均数和中位数在任何一组数据中都存在而且具有惟一性,但计算和应用众数有两个前提条件:(1)数据项数众多;(2)数据具有明显的集中趋势。3.算术平均数只能用于定量(定距和定比)数据,中位数适用于定序数据和定量数据,众数适用于所有形式(类型、计量层次)的数据。小结:平均数、中位数、众数的特点1.算术平均数综合反映了全部674.算术平均数要受数据中极端值的影响。而众数和中位数都不受极端值的影响。为了排除极端值的干扰,可计算切尾均值,即去掉数据中最大和最小的若干项数值后计算的均值.切尾均值是将均值与中位数取长补短的结果。5.算术平均数可以推算总体的有关总量指标,而中位数和众数则不宜用作此类推算。4.算术平均数要受数据中极端值的影响。而众数和中位数都不受极68第四节变异指标一、变异指标的概念和作用二、全距三、平均差四、标准差五、离散系数六、用EXCEL计算描述统计量

上一页下一页返回本章首页第四节变异指标一、变异指标的概念和作用上一页下一页返回本章69一、变异指标的概念和作用1.概念变异指标又称标志变动度,是度量总体各单位标志值分散程度或离中趋势的指标,是表明总体分布状况的另一重要特征值。例某车间两个生产小组各人日产量如下:甲组:20,40,60,70,80,100,120乙组:67,68,69,70,71,72,73从下图可以看出甲组离散程度大,乙组离散程度小。上一页下一页返回本节首页一、变异指标的概念和作用1.概念上一页下一页返回本节首页707070上一页下一页返回本节首页7070上一页下一页返回本节首页712.变异指标的作用(1)说明数据的分散程度,反映变量的稳定性、均衡性。数据之间差异越大,变量的稳定性或均衡性越差。(2)衡量平均数的代表性。离散程度越大,平均数的代表性就越小。(3)统计推断的重要依据判别统计推断前提条件是否成立,衡量推断效果好坏的重要尺度

上一页下一页返回本节首页2.变异指标的作用上一页下一页返回本节首页723.变异指标的种类:常见的变异指标有:全距(极差),四分位差、平均差,标准差,方差等,其中标准差是最为重要的变异指标。3.变异指标的种类:73二、全距(Range极差)1.全距的概念与计算全距是总体各单位标志的最大值和最小值之差。R=Xmax-Xmin若是组距式数列计算极差,这时可用最大组的上限和最小组的下限计算极差的近似值。即:R≈Umax-Lmin优缺点:计算简便、含义直观、容易理解。它未考虑数据的中间分布情况,不能充分说明全部数据的差异程度。上一页下一页返回本节首页二、全距(Range极差)1.全距的概念与计算上一页下74三、四分位差第3四分位数(Q3)与第1四分位数(Q1)之差,常用Qd表示。计算公式为:实质上是两端各去掉四分之一的数据以后的极差,表示占全部数据一半的中间数据的离散程度。四分位差越大,表示数据离散程度越大。优缺点:是在一定程度上对极差的一种改进,避免了极端值的干扰。但它去头弃尾,丢失大量的原始数据,对数据差异的反映仍然是不充分的。四分位差是一种顺序统计量,适用于定序数据和定量数据。尤其是当用中位数来测度数据集中趋势时.三、四分位差第3四分位数(Q3)与第1四分位数(Q1)之差,75四、平均差(AverageDeviation)平均差——各个数据与其均值的离差绝对值的算术平均数,反映各个数据与其均值的平均差距,通常以A.D表示。计算公式为:未分组数据:平均差含义清晰,能全面地反映数据的离散程度。但取离差绝对值进行平均,数学处理上不够方便,在数学性质上也不是最优的。已分组数据:四、平均差(AverageDeviation)平均差——各76计算举例:例1.未分组资料:某宿舍6名同学统计成绩分别为:73,75,80,86,88,84,则计算举例:77例2.已知分组资料,求成绩的平均差成绩组中值x人数fxf90~10095519.69880~9085139.6124.870~8075160.46.460~70651110.4114.460以下55520.4102合计——50——445.6475110512007152753770例2.已知分组资料,求成绩的平均差成绩组中值x人数fxf9078五、方差和标准差1.方差(Variance)的概念和计算方差是各个数据与其均值的离差平方的算术平均数.总体方差(σ2)的计算公式为:未分组数据:分组数据:样本方差(通常用S2表示)分母应为(n-1)。五、方差和标准差1.方差(Variance)的概念和计算分79标准差(standardDeviation)标准差——方差的算术平方根。总体标准差一般用σ表示。其计算公式为:未分组数据:分组数据:标准差比方差更容易理解。在社会经济现象的统计分析中,标准差比方差的应用更为普遍,经常被用作测度数据与均值差距的标准尺度。样本标准差(S)分母应为(n-1)。标准差(standardDeviation)标准差——方差802.标准差的特点:标准差和方差的计算过程比平均差简便,数学性质也较为理想,是统计分析中最常用的变异指标。3.计算举例:(注:使用计算器计算)a.未分组资料例:未分组资料:某宿舍6名同学统计成绩分别为:73,75,80,86,88,84,则统计成绩的标准差为:2.标准差的特点:标准差和方差的计算过程比平均差简便,数学性81b.分组资料例:成绩组中值x人数fxf

90~100955475384.161920.8080~908513110592.161198.0870~80751612000.162.5660~706511715108.161189.7660以下555275416.162080.80合计——503770——6392b.分组资料例:成绩组中值x人数fxf90~10095582【例】计算平均差和方差、标准差使用寿命(小时)组中值(x)试验数量(只)f频率(f/Σf)(x-1542)|x-1542|f(X-1542)2*f1000以下90020.020-64212848243281000-1200110080.080-442353615629121200160-24238729370241400-16001500350.350-42147061740160023015836345741721800-20001900120.120358429615379682000以上210040.04055822321245456合计——1001.000——203246743600【例】计算平均差和方差、标准差使用寿命(小时)组中值(x832.方差的主要数学性质(3)分组条件下,总体的方差等于组间方差与各组方差平均数之和。(1)常数的方差等于零。a为常数,则(2)变量的线性函数的方差等于变量系数的平方乘以变量的方差。设a,b为常数,y=a+bx,则有:组间方差各组方差平均数2.方差的主要数学性质(3)分组条件下,总体的方差等于组间方84标准差和方差的简易计算标准差和方差的简易计算85标准差的一个应用:标准化值(Z-score)标准化值或标准得分也称为Z值。对于来自不同均值和标准差的个体的数据,往往不能直接对比。这就需要将它们转化为同一规格、尺度的数据后再比较。标准化值实际上是将不同均值和标准差的总体都转换为均值为0、标准差为1的总体,将各个体的数据转换为它在其总体中的相对位置。标准差的一个应用:标准化值(Z-score)标准化值或标准得86【例】解:由于两次考试成绩的均值和标准差不同,每个学生两次考试的成绩不宜直接比较。利用标准化值进行对比,表明第二次考试的成绩更好一些。假定某班学生先后两个两次进行了难度不同的综合考试,第一次考试成绩的均值和标准差分别为80分和10分,而第二次考试成绩的均值和标准差分别为70分和7分。张三第一、二次考试的成绩分别为92分和80分,那么全班相比较而言,他哪一次考试的成绩更好呢?【例】解:由于两次考试成绩的均值和标准差不同,每个学生两次考87对称钟形分布中的3σ法则3σ法则——关于钟形分布的一个近似的或经验的法则:变量值落在[-3σ,+3σ]范围以外的情况极为少见。因此通常将落在区间[-3σ,+3σ]之外的数据称为异常数据或称为离群点。x99.73%68.27%95.45%对称钟形分布中的3σ法则3σ法则——关于钟形分布的一个近似88六、离散系数(或变异系数,CoefficientofVariation)前面的各变异指标都是有计量单位的,它们的数值大小不仅取决于数据的离散程度,还要受数据本身水平高低和计量单位的影响。对不同变量(或不同数据组)的离散程度进行比较时,只有当它们的平均水平和计量单位都相同时,才能利用上述变异指标来分析;否则,须利用离散系数来比较它们的离散程度。例如,哪个变量的差异较大:体重,还是身高?例如,体重的差异哪个较大:父亲,还是婴儿?父亲:平均体重=70kg,标准差=5kg婴儿:5kg,1kg变异系数是一类相对数形式的变异指标,排除了平均水平和计量单位对计算结果的影响,便于不同计量单位或不同平均水平的总体间离散程度的对比。六、离散系数(或变异系数,CoefficientofVa89离散系数是极差、平均差或标准差等变异指标与算术平均数的比率,以相对数的形式表示变异程度。将极差与算术平均数对比得到极差系数,将平均差与算术平均数对比得到平均差系数。最常用的离散系数是就标准差来计算的,称之为标准差系数:离散系数大,说明数据的离散程度大,其平均数的代表性就差;反之亦然.离散系数是极差、平均差或标准差等变异指标与算术平均数的比率,90计算公式:计算公式:914.举例:例1.现有内地和沿海两个城市的居民人均收资料如下表,比较两地的收入差距:人均年收入(元)收入标准差(元)标准差系数(%)甲市60001502.5乙市120001801.5从标准差系数来看,乙地收入差距要小于甲地。4.举例:人均年收入(元)收入标准差(元)标准差系数(%)92例2,有甲乙两个学习小组,其成绩如下表所示,比较哪个小组平均成绩的代表性大。例2,有甲乙两个学习小组,其成绩如下93第五章统计分布特征的描述:集中趋势和离散趋势课件94甲组的平均成绩为:甲组成绩的标准差为:甲组成绩的标准差系数为:乙组成绩的标准差为:乙组的平均成绩为:乙组成绩的标准系数为:甲组的平均成绩为:甲组成绩的标准差为:甲组成绩的标准差系数为95五、异众比率异众比率是指非众数值的次数之和在总次数中所占比重,其公式为:主要用于衡量一组数据以众数为分布中心的集中程度,即衡量众数代表一组数据一般水平的代表性。其值越小,数据集中程度越高,众数代表性越大.五、异众比率异众比率是指非众数值的次数之和在总次数中所占比96第五节变量分布的偏度与峰度一、矩(动差)二、偏度(Skewness)三、峰度(Kurtosis)第五节变量分布的偏度与峰度一、矩(动差)97一、矩(动差)矩(动差)——一系列刻画数据分布特征的指标的统称。变量值与数值a之离差的K次方的平均数称为变量x关于a的K阶矩,即:K阶原点矩(当a=0时)是数据的K次方的平均数.一阶原点矩即算术平均数;二阶原点矩即平方平均数。K阶中心矩矩(当a=均值时)是以均值为中心计算的离差K次方的平均数k=1时,称为一阶中心矩,它恒等于0,即m1=0;k=2时,称为二阶中心矩,也就是方差,即m2=σ2。

一、矩(动差)矩(动差)——一系列刻画数据分布特征的指98二、偏度(Skewness)偏度——指数据分布的不对称程度或偏斜程度。以对称分布为标准来区分偏态分布又分左偏(负偏)和右偏(正偏).左偏分布(负偏)右偏分布(正偏)二、偏度(Skewness)偏度——指数据分布的不对称程度或99偏态的测度方法-30+3

极左偏态对称分布极右偏态一般有:(一)由均值与众数(中位数)之间的关系求偏态系数:偏态的测度方法-30100(二)由三个四分位数之间的关系求偏态系数值域:-1Sk1

极左偏态对称分布极右偏态-10+1

(二)由三个四分位数之间的关系求偏态系数值域:-1Sk101偏度系数(三)利用3阶中心矩来计算偏度系数。测定偏度最常用的方法原理:若分布不对称,则3阶中心矩不为0。不对此程度愈严重,3阶中心矩的绝对值愈大。为消除量纲的影响,可除以σ3。0

对称分布左偏分布

右偏分布偏度系数(三)利用3阶中心矩来计算偏度系数。0102第五章统计分布特征的描述:集中趋势和离散趋势课件103三、峰度(Kurtosis)峰度——是指变量的集中程度和分布曲线的陡峭(或平坦)的程度。对峰度的度量通常以正态分布曲线为比较标准,分为正态峰度、尖顶峰度和平顶峰度.平顶分布尖峰分布尖顶峰度的分布曲线比正态分布曲线更加尖峭、更高更窄;平顶峰度的分布曲线比正态分配曲线更为平缓、更低更扁平。三、峰度(Kurtosis)峰度——是指变量的集中程度和分布104峰度系数原理:分布曲线的尖峭程度与偶数阶中心矩的数值大小有直接关系。以四阶中心矩m4为基础,为了消除量纲的影响,再除以标准差的四次方σ4所得到的相对数即可衡量峰度。当K=0时,分布曲线为正态曲线;当K>0时,为尖顶曲线,表示数据比正态分布更集中在均值附近;K的数值越大,则变量分布曲线之顶端越尖峭;当K<0时,为平顶曲线,表示数据比正态分布更分散;K的数值越小,则变量分布曲线之顶端越平坦。对于正态分布曲线有:m4/σ4=3,故峰度系数为:峰度系数原理:分布曲线的尖峭程度与偶数阶中心矩的数值大小有直105第五章统计分布特征的描述:集中趋势和离散趋势课件106峰度示意图峰度示意图107已知某总体的n个单位中,具有某种属性A的单位数为n1个,不具有该属性的单位数为n-n1=n0个,据此计算的两个比率,它们通常称作总体的成数指标。其中:P:总体中某种属性的单位所占的比率。q:总体中不具有某种属性的单位所占的比率。成数指标的作用:考察总体的内部构成。第六节0~1分布(是非标志)的数值特征(补充内容)

已知某总体的n个单位中,具有某种属性A的单位数为n1个,不具108我们规定:这样的变量称为0~1变量(是非标志)。我们规定:1090~1变量的数值特征为:0~1变量的数值特征为:110某工厂生产一批零件共10万件,为了解这批产品的质量,采用不重复抽样的方法抽取1000件进行检查,其结果如下:某工厂生产一批零件共10万件,为了解这批产品的质量,采用111解:平均合格率、合格率的标准差及标准差系数分别如下:

解:平均合格率、合格率的标准差及标准差系数分别如下:112这批产品的平均使用寿命和寿命的标准差:使用寿命(小时)零件数(件)f组中值xxf

700以下10650650097032970322.5700—8006075045000447322683935800—900230850195500124322859417.5900—100045095042750013259512.51000—12001901100209000191823644627.51200以上601300780001145826874935合计1000——961500——17092750这批产品的平均使用寿命和寿命的标准差:使用寿命(小时)零件数113Thankyouverymuch!谢谢!上一页退出返回本章首页Thankyouverymuch!谢谢!上一页退出返回114第五章统计分布特征的描述:

平均指标和变异指标安徽财经大学统计与应用数学学院第五章统计分布特征的描述:

平均指标和变异指标安徽财经大学115第五章统计分布特征的描述第一节集中趋势的测度:平均指标第二节离散趋势的测度:变异指标第五章统计分布特征的描述第一节集中趋势的测度:平均指标116第一节集中趋势的测定:平均指标一、平均指标的概念和作用二、算术平均数三、调和平均数四、几何平均数五、众数六、中位数七、各种平均数之间的相互关系上一页下一页返回本章首页第一节集中趋势的测定:平均指标一、平均指标的概念和作用117一、平均指标的概念和作用㈠概念:平均指标是指将同质总体内各单位的数量差异抽象化,反映总体一般水平或集中趋势的统计指标所谓集中趋势,指一组数据向某一中心值靠拢的倾向,测度集中趋势,也就是寻找数据的一般水平的代表值或中心值。上一页下一页返回本节首页一、平均指标的概念和作用㈠概念:平均指标是指将同质总体内各单1182、作用(1)使范围不同的总体具有可比性。(2)反映总体各单位的一般水平这一综合特征,抽象掉了个体差异。(3)反映总体分布的集中趋势。即如果以总体单位某一标志的平均数为中心线,则总体各单位的标志值主要分布于中心线及其上下附近,而远离中心线的标志值较少。2、作用(1)使范围不同的总体具有可比性。119(三)平均指标的种类

数值平均数:根据统计数列中的各项数据计算出的平均数。主要有:算术平均数、调和平均数、几何平均数。位置平均数:将各单位标志值排序后,取得某一位置的标志值作为反映一般水平的代表值。有:众数、中位数。第五章统计分布特征的描述:集中趋势和离散趋势课件120二、算术平均数(ArithmeticMean)

上一页下一页返回本节首页㈠基本公式例如:平均工资=企业工资总额/工人数,平均成绩=成绩总分/学生人数注意区分算术平均数和强度相对数;二、算术平均数(ArithmeticMean)

上一页下一121算术平均数和强度相对指标的区别:(1)含义和作用不同:强度相对指标表明现象程度发展的强度、密度或普遍程度;而平均指标则表明同类现象在一定时间、地点条件下所达到的一般水平。(2)计算方法不同。强度相对指标的分子与分母分别来自不同的总体,一般没有直接的依存关系,且有的强度相对指标分子分母可以对换,即强度相对指标可以计算正指标或逆指标;而平均指标的分子是总体总量指标,分母则是同一总体内的总体单位总量,两者具有密切的关系,且平均指标的分子分母不能互换。(3)计量单位表示不同。强度相对指标一般为复名数,有时为无名数;平均指标则为单名数。算术平均数和强度相对指标的区别:122(二)、算术平均数的计算1.简单算术平均数计算公式:适用条件:未分组的原始资料(二)、算术平均数的计算123例1:某企业一生产班组共5人,他们在2000年9月的月工资分别为1700元,1900元,1500元,1850元,2200元。则他们的月平均工资为:

例1:某企业一生产班组共5人,他们在2000年9月的124例2:例2:125班级平均年龄:班级平均身高:班级平均年龄:班级平均身高:126㈢加权算术平均数计算公式:式中:为算术平均数;为第组的次数;为组数;为第组的标志值或组中值。适用条件:分组资料㈢加权算术平均数式中:为算术平均数;为第组的次数;127例1:单项式数列某班学生年龄情况表按年龄分组(岁)人数(人)比重(%)20212223552825251040合计20100分组频数频率按年龄分组(岁)人数(人)比重(%)20525合计20100128求学生的平均年龄解:(1)绝对权数(2)相对权数求学生的平均年龄129例2:组距式数列(等距数列)某班学生身高情况表按身高分组(米)组中值人数(人)比重(%)1.4-1.51.5-1.61.6-1.71.7-1.81.8-1.91.451.551.651.751.85464422030202010合计——20100分组频数频率组中值例2:组距式数列(等距数列)按身高分组(米)组中值人数(人)130求学生的平均身高解:(1)绝对权数(2)相对权数求学生的平均身高131例3:某班英语成绩整理如下,求学生英语平均成绩.例3:某班英语成绩整理如下,求学生英语平均成绩.132解(1)绝对权数(2)相对权数解(1)绝对权数133分析如下:(1)平均什么什么就是标志值,标志值出现的次数即为权数(2)影响算术平均数大小的因素有二:变量值x的大小。变量值越大平均数越大各组次数或频率,又称权数。权数越大的标志值对平均数影响越大,实际上权数的大小反映了标志值的重要性,因此权数也称为权重系数。各组频率也即相对权数更能体现权衡轻重的本质。分析如下:(1)平均什么什么就是标志值,标志值出现的次数134加权算术平均数有两种变形:当权数用相对数时

当f1=f2=f3=……=fn时,权数的作用消失,加权平均数=简单平均数(3)组距数列计算加权算术平均数时,假定该组标志值是完全均匀分布的,以各组的组中值为各组变量值,计算的平均数是近似值。加权算术平均数有两种变形:135(四).算术平均数的数学性质:⒈变量值与其算术平均数的离差之和衡等于零,即:⒉变量值与其算术平均数的离差平方和为最小,即:(四).算术平均数的数学性质:⒈变量值与其算术平均数的离差之136算术平均数的缺点:易受极端值的影响张庄有个张千万,九个邻居穷光蛋;平均起来算一算,个个都是张百万。

去掉一个最高分去掉一个最低分三号选手最后得分…..

算术平均数的缺点:易受极端值的影响张庄有个张千万,去掉一个最137第五章统计分布特征的描述:集中趋势和离散趋势课件138第五章统计分布特征的描述:集中趋势和离散趋势课件139三、调和平均数(HarmonicMean)㈠调和平均数:是总体各单位标志值倒数的算术平均数的倒数,又叫倒数平均数.(二)简单调和平均数计算公式:式中:为调和平均数;为变量值的个数;为第个变量值。适用条件:已知各组的代表变量值x和标志总量xf,且各组的标志总量恰好相等.三、调和平均数(HarmonicMean)㈠调和平均数:是140计算举例1:某种蔬菜价格早上为0.5元/斤、中午为0.4元/斤、晚上为0.25元/斤。现早、中、晚各买1斤,求平均价格。例2:某种蔬菜价格早上为0.5元/斤、中午为0.4元/斤、晚上为0.25元/斤。现早、中、晚各买1元,求平均价格。在例1中,用简单算术平均数计算举例1:某种蔬菜价格早上为0.5元/斤、中午为0.4元/141在例2中,先求早、中、晚购买的斤数。早1/0.5=2(斤)中1/0.4=2.5(斤)晚1/0.25=4(斤)实际上,例2是用下列公式计算:这就是简单调和平均数的公式。上一页下一页返回本节首页在例2中,先求早、中、晚购买的斤数。实际上,例2是用下列公式142

(三)加权调和平均数计算公式:适用条件:分组资料,且已知各组的代表变量值(x)和标志总量(xf).上一页下一页返回本节首页式中:为第组的变量值;为第组的标志总量。

(三)加权调和平均数上一页下一页返回本节首页式中:为第143计算举例:例3:某种蔬菜价格早上为0.5元/斤、中午为0.4元/斤、晚上为0.25元/斤。现早、中、晚各买2元、3元、4元,求平均价格。计算举例:144说明(1)社会经济统计中所应用的调和平均数通常是加权算术平均数的变形,已知各组变量值xi和(xifi)而缺乏fi时,加权算术平均数通常可变形为调和平均数形式来计算。在已知每种价格x、销售量f时,求平均价格用加权算术平均数。在已知每种价格x、销售额m时,求平均价格用加权调和平均数。(2)简单调和平均数实际上是加权调和平均数的一种特例,即各组标志总量相等时出现阶的一种特殊情况.

上一页下一页返回本节首页说明上一页下一页返回本节首页145(四)相对指标的平均数算术平均数与调和平均数不仅可以用于计算严格意义上的静态平均指标(单位标志平均数),而且常可用来计算其它相对指标或时间数列的平均数。这时平均数仅仅是种计算形式,计算的结果并不要求它们符合平均指标的基本规定(总体标志总量/总体单位总量)。相对指标平均数的计算形式应该根据相对指标的对比关系来确定。(四)相对指标的平均数146例1,设有某行业150个企业一季度的有关产值和利润资料如下表:求该行业平均产值利润率。例1,设有某行业150个企业一季度的有关产值和求该行业平均产147第五章统计分布特征的描述:集中趋势和离散趋势课件148某行业150个企业二季度的有关产值和利润资料如下表:某行业150个企业二季度的有关产值和149第五章统计分布特征的描述:集中趋势和离散趋势课件150四、几何平均数(GeometricMean)几何平均数—n个变量值连乘积的n次方根。简单几何平均数加权几何平均数适用于计算现象的平均比率或平均速度。各个比率或速度的连乘积等于总比率或总速度;相乘的各个比率或速度不为零或负值。四、几何平均数(GeometricMean)几何平均数—151例1某企业产品的加工要顺次经过前后衔接的五道工序。本月该企业各加工工序的合格率分别为88%、85%、90%、92%、96%,试求这五道工序的平均合格率。解:本例中各工序的合格率具有环比的性质,企业产品的总合格率等于各工序合格率之连乘积。所以,所求的平均合格率应为:例1某企业产品的加工要顺次经过前后衔接的五道工序。本月该企业152

例2:银行对某笔投资的年利率按复利计算,25年利率如下,问该笔投资的25的平均年利率为多少?例2:银行对某笔投资的年利率按复利计算,25年利率如153解:=1.086结论:25年的平均利率为8.6%解:=1.086154五、众数(Mode)和中位数(Median)(一)众数(Mode)1.概念:众数是总体中出现次数最多的标志值(或属性表现)。有关购买软饮料的频数分布软饮料购买数量可口可乐百事可乐非常可乐雪碧鲜橙多娃哈哈19(最频繁购买的软饮料)851373总计55五、众数(Mode)和中位数(Median)(一)众数(M155众数的不惟一性众数无众数众数1众数2众数的不惟一性众数无众数众数1众数21562.众数的特点:是一种位置平均数,不受极端值的影响.众数具有不惟一性:它可能为一个,也可能为多个,也可能没有众数.众数可以用于各种计量尺度(定类、定序、定距和定比)的数据。2.众数的特点:1573、众数的确定(1)单项数列众数的确定。在单项式数列中,确定众数的方法比较简单,可以用观察法直接确定众数,即指出次数最多的标志值即为众数。例如,某企业工人日产量资料如下表:3、众数的确定(1)单项数列众数的确定。158例1.已知某企业某日工人的日产量资料如下:日产量(件)工人人数(人)101112131470100380150100合计800计算该企业该日全部工人日产量的众数。例1.已知某企业某日工人的日产量资料如下:日产量(件)工人人159

先确定众数组,然后推算出众数的近似值。计算众数的近似值主要有两种方法。①当组距式数列次数分布对称时,可以用众数组的组中值作为众数的近似值。②当组距式数列次数分布不对称时,可以利用相应的计算公式计算众数的近似值。(2)组距数列众数的确定先确定众数组,然后推算出众数的近似值。(2)组距数列众数的160其近似公式推导下限公式:上限公式:其近似公式推导下限公式:上限公式:161例如,某企业职工月工资资料如下表:例如,某企业职工月工资资料如下表:162(二)中位数(Median)1.概念:将总体各单位按其标志值大小排列,居于中间位置的那个标志值就是中位数。2.作用:对对分布数列的总次数进行二等分,标志值小于中位数和大于中位数的次数各一半。上一页下一页返回本节首页(二)中位数(Median)上一页下一页返回本节首页163(1)根据原始数据计算中位数先将数据排序(特别重要!)n为奇数时等于第(n+1)/2个数。n为偶数时等于第n/2和n/2+1个数的平均值1,2,5,9,11中位数=51,2,5,9,11,18中位数=(5+9)/2=7(1)根据原始数据计算中位数先将数据排序(特别重要!)1,2164(2)单项式分组资料中位数的确定先计算向上累计次数(或向下累计次数)当∑f为奇数时,中位数在第项,该项所对应的标志值即为中位数。当∑f为偶数时,中位数在第项,该项所对应的标志值即为中位数。(2)单项式分组资料中位数的确定先计算向上累计次数(或向下累165假定某企业职工生产一产品的日产量资料如下表:

Me=16假定某企业职工生产一产品的日产量资料如下表:Me=161663)组距式分组资料确定中位数第一步:计算向上累计次数(或向下累计次数)第二步:确定中位数所在组,第三步:计算中位数3)组距式分组资料确定中位数第一步:计算向上累计次数(或向167【例D】某车间50名工人月产量的资料如下:月产量(件)工人人数(人)向上累计次数(人)200以下200~400400~600600以上373283104250合计50—计算该车间工人月产量的中位数。【例D】某车间50名工人月产量的资料如下:月产量(件)工人人168【例D】某车间50名工人月产量的资料如下:月产量(件)工人人数(人)向下累计次数(人)200以下200~400400~600600以上373285047408合计50—计算该车间工人月产量的中位数。【例D】某车间50名工人月产量的资料如下:月产量(件)工人人169中位数的特点:是位置平均数,可以避免数列中极端值的影响。具有惟一性。中位数的适用场合:要求数据至少是定序数据。对于明显呈偏态分布的变量数列,也适于用中位数代表其一般水平。中位数的特点:170小案例:揭秘工资被增长原因:平均工资不能反映个体水平“其实,平均工资只是宏观经济发展的参考,并不能反映个体工资水平,这也是很多人感觉工资‘被增长’的原因”,昨日,在四川省统计局举行的“中国统计开放日”上,省统计局相关负责人表示。解放军信息工程大学魏振军教授认为,用“中位数”反映工资平均水平更为恰当。省统计局相关负责人以“统计数据背后的故事”为题,阐述了统计数据产生的来源、流程以及容易被社会公众误解的地方,同时还对“被增长”的平均工资专门做出解释。社会平均工资统计的组成通常分为5大类:国有单位职工工资、城镇集体单位职工工资、三资企业职工工资、私营单位员工工资和有雇佣关系的劳动个体工资,平均工资的计算原理基本上是这5大类的工资总和除以总人数。省统计局相关负责人表示,如此一来,由于是相对的简单平均,导致了这个数据与很多人的真实收入有些差距。“以往公布的社会平均工资只有前3类,今年国家统计局将私营单位员工工资计入其中。”由于统计口径的改变,也导致了去年的全省社会平均工资比2008年社会平均工资有所降低。尽管如此,魏振军认为,采用平均值的方式反映工资收入水平仍不合理,“如一个单位有23个人工作,其中10个人每个月100元收入,5个人200元,6个人250元,1个人1000元,领导2400元,平均值就是300元,但绝大部分人没有达到平均水平”。她引入了另两个概念———众数和中位数。众数就是“出现最多的月收入,如例子中的100元”,而中位数就是处于中间水平的那个数,“例子中的250元就是中位数”。她说,从中可以看出,众数最能反映大多数工资水平,而中位数反映平均工资水平更为恰当,“因为很多人关心的是众数或者中位数,被扭曲的平均值工资则毫无价值”。小案例:揭秘工资被增长原因:平均工资不能反映个体水平“其实,171小案例:香港工资统计公布根据政府统计处今日(三月十八日)公布的数字,二零零九年第二季本港的雇员人数(不包括留宿家庭佣工、政府雇员、雇主及自营作业者)为2776600人,而这些雇员的每小时工资中位数为$58.5(港元)。

在二零零九年第二季,本港雇员每小时工资的第10个百分位数、第25个百分位数、第75个百分位数及第90个百分位数分别为$27.0、$38.9、$96.0及$171.8。

把所有雇员的每小时工资按数值从小至大排列,每小时工资中位数是指排列在中间位置的雇员的每小时工资。换言之,每小时工资中位数即是把所有雇员中每小时工资水平最低的50%划分出来的每小时工资数值。

每小时工资百分位数对描述雇员的每小时工资分布非常有用。每小时工资的第p个百分位数即指把所有雇员中每小时工资水平最低的p%划分出来的每小时工资数值,而p可以是1至99之间任何一个整数值。举例说,每小时工资的第10个百分位数就是把所有雇员中每小时工资水平最低的10%划分出来的每小时工资数值。每小时工资的第25个、50个及75个百分位数,分别称为每小时工资下四分位数、中位数及上四分位数。

小案例:香港工资统计公布根据政府统计处今日(三月十八日)公布172第五章统计分布特征的描述:集中趋势和离散趋势课件173**知识拓展:分位数(Quantile)把顺序排列的一组数据分割为若干相等部分的分割点的数值。分位数可以反映数据分布的相对位置(而不单单是中心位置)。四分位数:将按大小顺序排列的观测值划分为4个等分,位于全部数据1/4、2/4和3/4位置上的3个数值就称为四分位数,分别以Q1,Q2,Q3代表第1个,第2个,第3个四分位数。十分位数:将按大小顺序排列的观测值划分为10个等分,位于全部数据1/10、2/10…,9/10位置上的9个数值就称为十分位数,分别以D1,D2,…,D9代表第1个,第2个,…,第9个十分位数。

。百分位数:将按大小顺序排列的观测值划分为100个等分,位于全部数据1/100、2/100…,99/100位置上的99个数值就称为十分位数,就称为百分位数,分别以P1,P2,…,P99代表第1个,第2个,…,第99个百分位数。几个关系:Me=Q2=D5=P50。Q1=P25Q3=P75分位数与其它指标结合,可以更详细地反映数据的分布特征。**知识拓展:分位数(Quantile)把顺序排列的一组数据174四分位数(Quartile)数据按大小顺序排序后把分割成四等分的三个分割点上的数值。在实际应用中四分位数的计算方法并不统一(数据量大时这些方法差别不大)。对原始数据:SPSS中四分位数的位置为(n+1)/4,2(n+1)/4,3(n+1)/4。Excel中四分位数的位置分别为(n+3)/4,2(n+1)/4,(3n+1)/4。如果四分位数的位置不是整数,则四分位数等于前后两个数的加权平均。四分位数(Quartile)数据按大小顺序排序后把分割成四175第五章统计分布特征的描述:集中趋势和离散趋势课件176四分位数计算(例子)排序后的数据:2,5,6,7,8,9,10,12,15,16不能整除时需加权平均:位置22.753数值560.75×(6-5)=0.75四分位数计算(例子)排序后的数据:2,5,6,7,8,9177拓展:五数概括法五数概括法即用下面的五个数来概括数据:最小值(minimum)第1四分位数(Q1);中位数(Q2);第3四分位数(Q3);最大值(maximum)利用箱线图可以观察数据分布的范围、中心位置和对称性等特征,还可以进行多组数据分布的比较。xminQ1MeQ3

xmax拓展:五数概括法五数概括法即用下面的五个数来概括数据:xm178例:某班学生成绩盒式图例:某班学生成绩盒式图179众数、中位数和算术平均数的关系对称分布

均值=中位数=众数分配为钟形、轻微不对称的经验公式:左偏分布均值

中位数

众数<<右偏分布众数

中位数均值<<众数、中位数和算术平均数的关系对称分布均值=中位数=众180小结:平均数、中位数、众数的特点1.算术平均数综合反映了全部数据的信息,众数和中位数由数据分布的特定位置所确定。2.算术平均数和中位数在任何一组数据中都存在而且具有惟一性,但计算和应用众数有两个前提条件:(1)数据项数众多;(2)数据具有明显的集中趋势。3.算术平均数只能用于定量(定距和定比)数据,中位数适用于定序数据和定量数据,众数适用于所有形式(类型、计量层次)的数据。小结:平均数、中位数、众数的特点1.算术平均数综合反映了全部1814.算术平均数要受数据中极端值的影响。而众数和中位数都不受极端值的影响。为了排除极端值的干扰,可计算切尾均值,即去掉数据中最大和最小的若干项数值后计算的均值.切尾均值是将均值与中位数取长补短的结果。5.算术平均数可以推算总体的有关总量指标,而中位数和众数则不宜用作此类推算。4.算术平均数要受数据中极端值的影响。而众数和中位数都不受极182第四节变异指标一、变异指标的概念和作用二、全距三、平均差四、标准差五、离散系数六、用EXCEL计算描述统计量

上一页下一页返回本章首页第四节变异指标一、变异指标的概念和作用上一页下一页返回本章183一、变异指标的概念和作用1.概念变异指标又称标志变动度,是度量总体各单位标志值分散程度或离中趋势的指标,是表明总体分布状况的另一重要特征值。例某车间两个生产小组各人日产量如下:甲组:20,40,60,70,80,100,120乙组:67,68,69,70,71,72,73从下图可以看出甲组离散程度大,乙组离散程度小。上一页下一页返回本节首页一、变异指标的概念和作用1.概念上一页下一页返回本节首页1847070上一页下一页返回本节首页7070上一页下一页返回本节首页1852.变异指标的作用(1)说明数据的分散程度,反映变量的稳定性、均衡性。数据之间差异越大,变量的稳定性或均衡性越差。(2)衡量平均数的代表性。离散程度越大,平均数的代表性就越小。(3)统计推断的重要依据判别统计推断前提条件是否成立,衡量推断效果好坏的重要尺度

上一页下一页返回本节首页2.变异指标的作用上一页下一页返回本节首页1863.变异指标的种类:常见的变异指标有:全距(极差),四分位差、平均差,标准差,方差等,其中标准差是最为重要的变异指标。3.变异指标的种类:187二、全距(Range极差)1.全距的概念与计算全距是总体各单位标志的最大值和最小值之差。R=Xmax-Xmin若是组距式数列计算极差,这时可用最大组的上限和最小组的下限计算极差的近似值。即:R≈Umax-Lmin优缺点:计算简便、含义直观、容易理解。它未考虑数据的中间分布情况,不

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论