第五章 数据分布特征的测度_第1页
第五章 数据分布特征的测度_第2页
第五章 数据分布特征的测度_第3页
第五章 数据分布特征的测度_第4页
第五章 数据分布特征的测度_第5页
已阅读5页,还剩171页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计学安徽省重点学科财经类核心课程统计学——第5章数据分布特征的测度

统计资料经过加工整理形成分布数列后,我们对数据分布的类型和特征有了一个直观的了解。然而,要作进一步的统计分析仅靠这些直观了解是远远不够的。

为进一步掌握数据分布的特征和规律,进行更深入的分析,还需要找到反映数据分布特征的各个代表值。

描述指标的分类:

在学习本章之前,首先应概括了解描述数据分布特征的测度值(指标)都有哪些。对统计数据的分布特征,可以从以下方面进行测度和描述:

描述数据分布集中趋势的指标——反映各数据向其中心值靠拢或聚集的程度——变量数列分布中心位置的度量

;描述数据分布离散程度的指标——反映各数据远离其中心值的趋势——变量数列分布变异程度的度量

;描述分布偏度与峰度的指标——变量数列分布形状的度量。统计学——第5章数据分布特征的测度第一节集中趋势的测度第二节离散程度的测度第三节分布偏态与峰度的测度第五章数据分布特征的测度统计学——第5章数据分布特征的测度要点学习目的与要求:通过本章学习,掌握平均指标与变异指标的计算方法、应用条件,平均指标与变异指标的关系。统计学——第5章数据分布特征的测度统计学——第5章数据分布特征的测度数值平均数位置平均数平均指标集中趋势集中趋势的含义测定集中趋势的作用第一节集中趋势的测度统计学——第5章数据分布特征的测度集中趋势

指总体中总体单位的次数分布从两边向某一中心值集中(靠拢)的趋势。

在分布数列中,越靠近中心值,标志值出现的次数越多,而远离中心值的次数较少。

一、集中趋势的含义

对集中趋势进行测度就是寻找总体一般水平的中心值或代表值。

变量数列是以平均数为中心而上下波动,故平均数反映了总体分布的集中趋势,集中趋势测度就是要计算变量数列的平均数

统计学——第5章数据分布特征的测度集中趋势二、测定集中趋势的作用集中趋势是现象共性的特征,是现象规律性的数量表现。

统计学——第5章数据分布特征的测度数值平均数位置平均数平均指标测定集中趋势的意义平均指标的概念数值平均数与位置平均数第一节集中趋势的测度统计学——第5章数据分布特征的测度平均指标----总体分布集中趋势的描述一、平均指标的概念

在同质总体内,将总体各单位在某一标志下的数量差异抽象化,以反映总体在一定时间、地点和条件下所达到的一般水平的统计综合指标,也称统计平均数(均值)。平均指标是统计中广泛应用的一种综合指标。统计学——第5章数据分布特征的测度平均指标二、数值平均数与位置平均数

取得集中趋势代表值(即平均数)的方法通常有两种:一是根据总体所有标志值计算。即从总体各单位标志值中抽象出具有一般水平的量,这个量不是各个单位的具体标志值,但又要反映总体各单位的一般水平,这种平均数称为数值平均数。数值平均数有算术平均数、调和平均数、几何平均数等形式。

二是根据标志值所处的位置确定。

即先将总体各单位的标志值按一定顺序排列,然后取某一位置的标志值来反映总体各单位的一般水平。把这个特殊位置上的数值看作是平均数,称作位置平均数。位置平均数有众数、中位数、四分位数等形式。

数值平均数位置平均数平均指标的概念测定集中趋势的意义算术平均数调和平均数几何平均数统计学——第5章数据分布特征的测度第一节集中趋势的测度返回

总体中各总体单位的某个数量标志值的总和与总体单位数的比值,通常也称为平均数(average)或均值(mean)。一般所称的平均数常指算术平均数。用符号表示。——集中趋势中最主要的测度值

统计学——第5章数据分布特征的测度数值平均数一、算术平均数1、基本公式

算术平均数的基本公式要求,总体标志总量必须依附于总体单位数。

即公式的分子是分母具有的标志值,分母是分子的承担者。各标志值与各单位之间是一一对应的。例:平均工资=工资总额/职工人数平均成本=总成本/产量统计学——第5章数据分布特征的测度算术平均数2、计算方法

统计学——第5章数据分布特征的测度算术平均数

根据总体资料是否分组,算术平均数具体计算方法可分为简单算术平均数和加权算术平均数两种。统计学——第5章数据分布特征的测度(1)简单算术平均数

如果掌握的资料是总体各单位的标志值,而且没有经过分组,则可先将各单位的(某一)标志值相加得出标志总量,然后再除以总体单位数,通过此种方法计算得到的平均数称为简单算术平均数。算术平均数(1)未经分组整理的原始数据计算算术平均数

(2)在变量分配数列中,各组次数都相等适用条件:设总体各单位标志值为,则:

统计学——第5章数据分布特征的测度简单算术平均数06-07第二学期XX班40名学生《统计学》成绩抄录如下:

89、88、76、99、74、60、82、60、89、86、

92、85、70、93、99、94、82、77、79、97、

78、95、84、79、63、72、87、84、79、65、

98、67、59、83、66、65、73、81、56、77统计学——第5章数据分布特征的测度简单算术平均数06-07第二学期XX班40名学生《统计学》的平均成绩:

简单算术平均数之所以简单,就是因为各个变量值出现的次数相同,因此,只要把各项变量值简单相加再用项数去除就求出平均数了。

统计学——第5章数据分布特征的测度简单算术平均数

某工厂某生产班组有11名工人,各人日产量为15、17、19、20、22、22、23、23、25、26、30件,求平均日产量。

解:=(15+17+19+20+22+22+23+23+25+26+30)/11=22件开机,2ndF,ON,在0的上方出现STAT15,M+,17,M+,19,M+,20,M+,22,M+,22M+,23M+,23M+,25M+,26M+,30M+,x→M

出现结果22统计学——第5章数据分布特征的测度简单算术平均数用统计功能计算

例2:5名工人日产零件数为12,13,14,14,15件,计算平均每人日产量。12,M+,13,M+,14,M+,14,M+,15,M+,RM,,5,=计算结果13.6,注意:每次开机后按x→M键,清内存。用存储功能算统计学——第5章数据分布特征的测度简单算术平均数按成绩分组人数(人)50-6060-7070-8080-9090-1002711128合计(Σ)4089、88、76、99、74、60、82、60、89、86、92、85、70、93、99、94、82、77、79、97、78、95、84、79、63、72、87、84、79、65、98、67、59、83、66、65、73、81、56、77整理分组如何计算平均分数呢?

07-08第一学期XX班《统计学》成绩(2)加权算术平均数

如果掌握的资料是经过分组整理编成了单项数列或组距数列,并且每组次数不同时,就应采用加权算术平均数的方法计算算术平均数。

统计学——第5章数据分布特征的测度算术平均数

设原始数据被分成n组,各组的变量值分别为,各组变量值出现的次数分别为,则:统计学——第5章数据分布特征的测度加权算术平均数加权算术平均数的适用条件:

在分配数列(单项数列或组距数列)中,各组变量值的次数不等。加权算术平均数统计学——第5章数据分布特征的测度

①单项式数列的加权算术平均数

基本的具体方法是:将各组标志值分别乘以相应的各组单位数(绝对权数)求出各组标志总量,并加总得到总体标志总量,同时把各组单位数相加求出总体单位总数,然后用总体标志总量除以总体单位总数,即得算术平均数。统计学——第5章数据分布特征的测度加权算术平均数

例:某企业工人按日产量分组资料如下:日产量(件)(x)工人人数(人)(f)(f/∑f)15161718191020305040713203327合计150100要求:根据资料计算工人的平均日产量。统计学——第5章数据分布特征的测度返回单项式数列的加权算术平均数解:以次数为权数计算:=(15×10+16×20+17×30+18×50+19×40)/150=17.6(件)以比重为权数计算:=15×7%+16×13%+17×20%+18×33%+19×27%=17.6(件)统计学——第5章数据分布特征的测度单项式数列的加权算术平均数

成绩组中值人数比重(cm)(cm)

(人)(%)

50-60552560-7065717.570-80751127.580-9085123090-10095820

总计40100某班《统计学》成绩资料组距数列加权算术平均数

组距数列算术平均数的计算:以组中值代替变量x,尔后按公式计算。X此时为组中值,因此由此计算出的平均数是近似值。组距数列的加权算术平均数次数f频率f/Σf变量值x

次数f的作用:当比较大的变量值的次数多时,平均数就接近于变量值大的一方;当比较小的变量值次数多时,平均数就接近于变量值小的一方。可见,次数对变量值在平均数中的影响起着某种权衡轻重的作用,因此被称为权数。统计学——第5章数据分布特征的测度

权数:指变量数列中各组标志值出现的次数,反映了各组的标志值对平均数的影响程度。

权数有两种表现形式:绝对数权数和比重权数,即频数和频率。

权数的意义不同的权数如何影响平均数?A、B两班各10名学生的考试成绩如下:A:marks(x): 020100students(f):118B:marks(x): 020100students(f):811统计学——第5章数据分布特征的测度权数的意义

选择权数必须体现标志值对平均数的作用的大小,它与各组标志值或组中值相乘必须要有实际意义。如:以学号为权数,计算全班统计学平均分数,则其子项“某组考分代表值学号”是没有实际意义的。统计学——第5章数据分布特征的测度权数的意义

又如,汇率决定理论中的购买力平价方法()即是对两个国家的一篮子商品的价格所进行的加权平均。

例如,学生成绩的评定,平时成绩占20%,期末卷面成绩占80%。统计学——第5章数据分布特征的测度权数的意义

简单算术平均数其数值的大小只与变量值的大小有关。加权算术平均数其数值的大小不仅受各组变量值大小的影响,而且还受各组变量值出现的次数即权数大小的影响。统计学——第5章数据分布特征的测度权数的意义当f1=f2=……

=fn=A,如果各组的次数(权数)均相同,即

则权数的权衡轻重作用也就消失了。算术平均数。简单算术平均数实质上是加权算术平均数在权数相等条件下的一个特例。这时,加权算术平均数会变成简单统计学——第5章数据分布特征的测度简单算术平均数与加权算术平均数(1)集中趋势的最常用测度值(2)一组数据的均衡点所在(3)体现了数据的必然性特征(4)易受极端值的影响(5)用于数值型数据,不能用于分类数据和顺序数据统计学——第5章数据分布特征的测度算术平均数练习题:指出下列指标中的算术平均数:①商品销售额除以商业服务人员数;②商品销售额除以商品平均库存额;③商业服务人员数除以该地区居民数;④该地区居民数除以商业服务人员数;⑤某商品销售额除以该商品销售量。统计学——第5章数据分布特征的测度

算术平均数在统计学中有着重要的地位,它是进行统计分析和统计推断的基础,下面有关算术平均数的命题是其重要的数学性质。1.算术平均数与总体单位总量的乘积等于总体标志总量。2.各变量值与算术平均数的离差之和等于零:3.各变量值与算术平均数的离差平方和为最小值。(这一性质说明算术平均数是误差最小的总体代表值)统计学——第5章数据分布特征的测度算术平均数的数学性质1、它是一个抽象化的数值(因为它将总体各单位具体的数量差异抽象掉了)

2、它是一个代表性数值(因为它用一个数值来代表总体各单位在具体条件下的一般水平)

3、它是一个特征值(因为它反映了总体分布的集中趋势)和母项具有依存关系。4、只能对同质总体求平均数,计算平均数所依据的子项统计学——第5章数据分布特征的测度算术平均数的特点

1.反映总体各单位变量分布的集中趋势和一般水平。可用于同类现象在不同空间的对比;

2.反映同类现象在不同时间的发展水平,可用于同类现象在不同时间的对比;

3.作为评判事物的标准;

4.可进行数量估算。统计学——第5章数据分布特征的测度平均指标的作用算术平均数与强度相对数的比较:相同点:均有平均的含义,一般为复名数。不同点:

(1)概念不同。强度相对数是两个有联系而性质不同的总量指标对比而形成相对数指标。算术平均数是反映同质总体单位标志值一般水平的指标。(2)主要作用不同。强度相对数反映两不同总体现象形成的密度、强度。算术平均数反映同一现象在同一总体中的一般水平。统计学——第5章数据分布特征的测度(3)计算公式及内容不同。算术平均数分子、分母分别是同一总体的标志总量和总体单位数,分子、分母的元素具有一一对应的关系,而强度相对数是两个总体现象之比,分子分母没有一一对应关系。

比较:人均粮食消费量、人均粮食产量统计学——第5章数据分布特征的测度

在统计中,经常需要将研究总体中的全部单位区分为非此即彼的两大类,以研究它们之间的比例关系。统计学——第5章数据分布特征的测度返回

例如,合格品与不合格品,男工与女工等。这类以“是或非”、“有或无”来表述单位特征的标志称为是非标志或交替标志——其标志表现只有两种情况。具体体现在各总体单位要么具有该种属性,要么不具有该种属性。是非标志的平均数分组单位数变量值具有某一属性不具有某一属性10合计—为研究是非标志总体的数量特征,令:统计学——第5章数据分布特征的测度

(1)是非标志:是非标志又称交替标志,它是一个只有两种标志表现的标志。具有某种标志表现的单位数所占的成数不具有某种标志表现的单位数所占的成数

(2)成数:指是非标志总体中具有某种表现或不具有某种表现的单位数占全部总体单位总数的比重。统计学——第5章数据分布特征的测度是非标志的平均数统计学——第5章数据分布特征的测度是非标志的平均数统计学——第5章数据分布特征的测度数值平均数二、调和平均数

假定有A、B两家公司员工的月工资资料如下表的前三列。试分别计算其平均工资。——算术平均数的变形

引例

两公司员工工资情况表月工资(元)x工资总额(元)m(xf)员工人数(人)f=m/xA公司B公司A公司B公司80010001600合计480007000032000150000400004000040000120000607020150504025115统计学——第5章数据分布特征的测度调和平均数计算A公司的平均工资,得到:统计学——第5章数据分布特征的测度调和平均数统计学——第5章数据分布特征的测度调和平均数

在这里,平均工资作为“单位标志平均数”仍然必须是标志总量(工资总额)与单位总数(员工总数)之比。依据给出的月工资水平和工资总额的分组资料,可以首先用前者来除后者,得到各组的员工人数,进而加总得到全公司的员工总数(表中后两列),这样就很容易计算出两个公司各自的平均工资。将这些计算过程归纳起来,就是运用了调和平均数的公式。

对于B公司,固然也可以采用加权调和平均数公式来计算其平均工资:

统计学——第5章数据分布特征的测度调和平均数

然而在这里,由于各组的权数(工资总额)相同,实际上并没有真正起到加权的作用。我们采用简单调和平均数的公式来计算,可以得到完全相同的结果,而计算过程却大大简化了:统计学——第5章数据分布特征的测度调和平均数

在统计分析中,有时会由于种种原因没有频数的资料,只有每组的变量值和相应的标志总量。这种情况下就不能直接运用算术平均方法来计算了,而需要以迂回的形式,即用每组的标志总量除以该组的变量值推算出各组的单位数,才能计算出平均数,我们可以用调和平均的方法完成这个计算。(加权)调和平均数的公式原来只是计算时使用了不同的数据!统计学——第5章数据分布特征的测度调和平均数标志值倒数的算术平均数的倒数。又称倒数平均数。统计学——第5章数据分布特征的测度调和平均数

调和平均数作为算术平均数的变形公式使用。仍是总体的标志总量与总体单位总量的对比,仅仅是因为资料的不同,需要将算术平均数变形。

当我们掌握的是各组标志值和各组的标志总量时,不能直接运用算术平均数的方法计算,应采用调和平均数的形式。

当m=xf时,统计学——第5章数据分布特征的测度某日三种蔬菜的批发成交数据蔬菜名称批发价格(元)Xi成交额(元)Xifi成交量(公斤)fi甲乙丙1.200.500.801800012500640015000250008000合计—3690048000【例】某蔬菜批发市场三种蔬菜的日成交数据如表,计算三种蔬菜该日的平均批发价格统计学——第5章数据分布特征的测度调和平均数[例]某局所属四个企业有关资料如下,试计算该工业局的产值平均计划完成百分比。统计学——第5章数据分布特征的测度调和平均数

几何平均数是N个变量值连乘积的N次方根。(简单公式)(加权公式)统计学——第5章数据分布特征的测度数值平均数三、几何平均数——适用于特殊的变量值

(总体的标志总量等于各单位标志值之积)

2、就用途而言,几何平均方法通常用在总量等于各分量乘积的情形。比如,求某些平均比率,平均发展速度等。【例】某流水生产线有前后衔接的五道工序。某日各工序产品的合格率分别为95﹪、92﹪、90﹪、85﹪、80﹪,求整个流水生产线产品的平均合格率。简单公式及应用:统计学——第5章数据分布特征的测度几何平均数设最初投产A个单位,则第一道工序的合格品为A×0.95;第二道工序的合格品为(A×0.95)×0.92;

……第五道工序的合格品为(A×0.95×0.92×0.90×0.85)×0.80;

因该流水线的最终合格品即为第五道工序的合格品,故该流水线总的合格品应为A×0.95×0.92×0.90×0.85×0.80;则该流水线产品总的合格率为:结论:即该流水线总的合格率等于各工序合格率的连乘积,符合几何平均数的适用条件,故需采用几何平均法计算。统计学——第5章数据分布特征的测度几何平均数加权公式及应用:【例】某金融机构以复利计息。近12年来的年利率有4年为3﹪,2年为5﹪,2年为8﹪,3年为10﹪,1年为15﹪。求平均年利率。统计学——第5章数据分布特征的测度几何平均数设本金为V,则至各年末的本利和应为:第1年末的本利和为:第2年的计息基础第12年的计息基础………………结论:即12年总本利率等于各年本利率的连乘积,符合几何平均数的适用条件,故计算平均年本利率应采用几何平均法。第12年末的本利和为:第2年末的本利和为:统计学——第5章数据分布特征的测度可看作是均值的一种变形:

注意:当变量值有一项为零或负值时,不宜用几何平均数计算。统计学——第5章数据分布特征的测度几何平均数

例:2003-2007年某市工业品的产量分别是上年的107.6%、102.5%、100.6%、102.7%、102.2%,计算这5年的平均发展速度。统计学——第5章数据分布特征的测度几何平均数1.067,,1.025,,1.006,,1.027,,1.022,=,2ndF,,5,=出现结果:1.0309即103.1%计算器统计功能计算:统计学——第5章数据分布特征的测度统计学——第5章数据分布特征的测度几何平均数

【例】一位投资者购持有一种股票,在2008、2009、2010和20011年收益率分别为4.5%、2.1%、25.5%、1.9%。计算该投资者在这四年内的平均收益率。例:某投资银行25年的年利率分别是:1年3%,4年5%,8年8%,10年10%,2年15%,求平均年利率。1.03,,(,1.05,yx,4,),,(,1.08,yx,8,),,(,1.1,yx,10,),,(,1.15,yx,2,),=,2ndF,出现结果:1.086即108.6%统计学——第5章数据分布特征的测度几何平均数统计学——第5章数据分布特征的测度

数值平均数位置平均数平均指标的概念测定集中趋势的意义中位数众数第一节集中趋势的测度算术平均数与中位数、众数的关系统计学——第5章数据分布特征的测度

中位数的着眼点在于寻求全部变量值按其大小顺序排列,居中间位置的变量值。在中位数数值没有重复的条件下,其中,一半数值小于中位数,另一半数值大于中位数,因而,可用来代表数列的一般水平。(一)

中位数的概念:将总体各单位标志值按大小排列,居于中间位置的标志值就是中位数Me

位置平均数一、中位数(Me)

统计学——第5章数据分布特征的测度外行看统计中位数(Me)

例如,现行我国住户调查公布的人均可支配收入采用平均数。但是,由于居民收入分布是偏态分布,分布曲线偏向高收入,使得平均数偏离中位数和众数,随着收入差距的扩大,偏离程度也越来越大、收入水平达不到平均数的家庭比例不断上升。

国家统计局根据对全国31个省份7.4万户农村居民家庭和6.6万户城镇居民家庭的抽样调查显示,2011年农村居民收入方面,人均纯收入为6977元,比上年增加1058元,城镇居民人均可支配收入21810元,比上年增加2701元。国家统计局表示,由于调查的部分对象收入很高,此前公布的人均收入有可能会被高收入群体拉高,不能完全真实地反映部分人员收入情况;而中位数则更能反映出中低收入者的情况。统计学——第5章数据分布特征的测度

2011年1月,国家统计局局长马建堂在发布去年国民经济运行情况时提到,将在近日发布收入中位数。20日,这项数据得以发布。

2011年,农村居民人均纯收入中位数为6194元,比上年增加995元,农村居民人均纯收入中位数比人均纯收入低783元;城镇居民方面,人均可支配收入中位数为19118元,比上年增加2279元,城镇居民人均可支配收入中位数比人均可支配收入低2692元。

统计学——第5章数据分布特征的测度

我国人口年龄中位数统计学——第5章数据分布特征的测度中位数(Me)

又如:人口的年龄分布往往近似J型:婴儿数最多,随着年龄的增大,人数逐渐下降,到了百岁左右,所剩的人数就很少了。如果计算年龄的算术平均数,老年人口数虽然较少,但其年龄数值很高,这样一来,计算的平均年龄就会偏向老年一方。因此,各国的人口统计资料中,平均年龄的计算一般采用中位数。

(二)中位数的确定【例】计算甲城市家庭对住房满意状况评价的中位数中位数的位次为:

300/2=150

从累计频数看,中位数的在“一般”这一组别中。因此

Me=一般表3-2甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)累计频数

非常不满意

不满意

一般

满意

非常满意2410893453024132225270300合计300—统计学——第5章数据分布特征的测度中位数(Me)1.定序数据的中位数:首先确定中点位次,然后找出中点位次对应的变量值。

首先确定中点位次,然后找出中点位次对应的标志值。①当资料未分组时,中点位次=统计学——第5章数据分布特征的测度2.数值型数据的中位数中位数(Me)当N为奇数当N为偶数

n为奇数中位数例子

原始数据:24.1 22.621.523.7 22.6

由小到大排列:21.522.622.623.7 24.1

位次:12 34 5中位数位次Om中位数Me

22.6.

统计学——第5章数据分布特征的测度中位数(Me)n为偶数中位数例子

原始数据:10.34.98.9 11.7 6.37.7

由小到大排列:4.96.37.7

8.9 10.3 11.7

位次:1234 56中位数位次

Om中位数Me7.78.3028.9统计学——第5章数据分布特征的测度中位数(Me)[例]中点位次=

,

说明位于第90与第91个人之间,(1)当资料已分组且形成单项式变量数列时,中点位次=统计学——第5章数据分布特征的测度中位数(Me)根据累计次数可确定中位数为第四组的变量值18岁。(2)资料已分组且形成组距式变量数列(插补法按比例推算)

(A)L为中位数所在组的下限,U为上限;(C)Sm-1

为小于中位数的各组次数之和;(D)Sm+1为大于中位数的各组次数之和;统计学——第5章数据分布特征的测度中位数(Me)(B)d为中位数所在组的组距;(E)fm为中位数所在组的次数。中位数

中位数实际上就是位于累计次数达到的这一组中的某个数值。该数值就是这一组下限加上按一定几何比例分割组距所得的一段组距,或这一组上限减去按一定几何比例分割组距所得的一段组距。

统计学——第5章数据分布特征的测度中位数(Me)

506070(L)80(U)90100

xy103060110150180(Sm-1)第90个人Me=L+x=U-y假定中位数组的变量值呈均匀分布,则采用比例插值法得统计学——第5章数据分布特征的测度中位数(Me)

(三)

中位数特点与应用场合:

1.中位数一定存在,主要用于测度定序数据的集中趋势。也适用于数值型数据。但不适用于定类数据;2.是一个位置代表值,不受极端值的影响,比较稳健。

3.中位数的取值只与中间位置的一或两个数值有关,利用信息不充分。

统计学——第5章数据分布特征的测度中位数(Me)

中位数是将统计分布从中间分成相等的两部分,与中位数性质相似的还有四分位数、十分位数和百分位数。统计学——第5章数据分布特征的测度

三个数值可以将变量数列划分为项数相等的四部分,这三个数值就定义为四分位数(Quartiles),分别称为第一四分位数、第二四分位数和第三四分位数,记作、和。对于不分组数据而言,三个四分位数的位置分别是:在处,在处,在处。可见就是中位数。(四)分位数

同理,十分位数(Dectile)和百分位数(Percentile)分别是将变量数列十等分和一百等分的数值。25%分位数50%分位数75%分位数最大

观测值最小

观测值中位数上四分位数下四

分位数(lowquartile)(upperquartile)50%的观测值小于中位数50%的观测值位于上下四分位数之间50%的观测值大于中位数四分位数:

回答类别频频累积次数

率%向上向下非常不满意不满意一般满意非常满意24108934530836311510241322252703003002761687530合计300100----Q1=不满意Q3=满意Me=一般甲城市家庭对住房增状况的评价四分位数统计学——第5章数据分布特征的测度小时数灯泡数累积43-482248-531353-582558-63212663-68285468-73288273-783311578-832614183-882116288-931918193-981019198-1036197103-1082199108-1130199113-1181200Me=75.5QU=85QL=6750%灯泡的寿命在67-85小时之间200只灯泡使用寿命频数分布表四分位数思考题

你是Prudential-Bache证券公司的金融分析员。你已经收集了新发行股票的下列收盘价:17,16,21,18,13,16,12,11.

试描述股票价格的集中趋势统计学——第5章数据分布特征的测度

某商场某季度男皮鞋销售情况男皮鞋号码/厘米销售量/双24.01224.58425.011825.554126.032026.510427.052合计1200统计学——第5章数据分布特征的测度

某制鞋厂要了解消费者最需要哪种型号的男皮鞋,调查了某百货商场某季度男皮鞋的销售情况,得到资料如表:二、众数(M0)位置平均数引例

从表中可以看到,25.5厘米的鞋号销售量最多,如果我们计算算术平均数,则平均号码为25.65厘米,而这个号码显然是没有实际意义的,而直接用25.5厘米作为顾客对男皮鞋所需尺寸的集中趋势既便捷又符合实际。统计学——第5章数据分布特征的测度众数(M0)

众数的着眼点在于寻求分布数列中频数最多(出现次数最多的)的变量值。说明总体中大多数单位所达到的一般水平,具有普遍性。

(一)定义:众数是分布数列(总体)中出现次数最多的变量值。

上面的例子中,鞋号25.5厘米就是众数。

统计学——第5章数据分布特征的测度众数(M0)

在统计实践中,常利用众数来近似反映现象的一般水平。比如,一位食品部经理想按照预期的销售量来分配货物架的空间。从这个意义上来说,我们应该依据众数,而不是算术平均数或中位数来确定,即过去具有最高销售量的食品将得到最大限度的货物架空间。

统计学——第5章数据分布特征的测度

用众数价格代表某一商品的价格,用众数储蓄余额代表居民储蓄的一般水平,还有,在服装行业,生产商、批发商在做有关生产或存货的决策时,更感兴趣的是最普遍的尺寸,即尺寸的众数。众数(M0)众数适用于品质数列和变量数列。

如:销售量最多的服装款式或色彩(所谓“流行款式”或“流行色”)统计学——第5章数据分布特征的测度返回众数(M0)例:品质数列(定类数据)的众数

某城市居民关注广告类型的频数分布广告类型人数(人)比例频率(%)

商品广告

服务广告金融广告房地产广告招生招聘广告其他广告112519161020.5600.2550.0450.0800.0500.01056.025.54.58.05.01.0合计2001100

这里的变量为“广告类型”,这是个定类变量,不同类型的广告就是变量值。我们看到,在所调查的200人当中,关注商品广告的人数最多,为112人,占总被调查人数的56%,因此众数为“商品广告”这一类别,即

Mo=商品广告统计学——第5章数据分布特征的测度众数(M0)

例:品质数列(定序数据)的众数

这里的数据为定序数据。变量为“回答类别”。甲城市中对住房表示不满意的户数最多,为108户,因此众数为“不满意”这一类别,即

Mo=不满意

甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)百分比(%)

非常不满意

不满意

一般

满意

非常满意24108934530836311510合计300100.0统计学——第5章数据分布特征的测度众数(M0)(二)变量数列计算M0的方法1.由单项数列确定的M0:先确定众数组,再确定众数:Mo=2统计学——第5章数据分布特征的测度众数(M0)家庭人口数户数120266384551合计100

一般也可以次数最多的一组的组中值为众数,但这一数值往往随着分组的不同而发生变动,为使M0更接近实际,在确定M0所在组后,计算M0的近似值——是按比例推算的近似值——用众数组前后两组的频数作为决定众数应在众数所在组组中值上面或下面的加权因子,理解如下:统计学——第5章数据分布特征的测度众数(M0)2.由组距数列确定的M0:fm-1fm-1fm-1fm+1fm+1fm+1fm频数频数频数M0M0M0fmfm(a)(b)(c)众数的值与相邻两组频数的分布有关:众数(M0)(a):相邻两组的频数相等时,众数组的组中值即为众数。(b)、(c)相邻两组的频数不相等。

设众数组的频数为,众数前一组的频数为fm-1

,众数后一组的频数为fm+1

。当众数相邻两组的频数相等时,即

fm-1=fm+1

,众数组的组中值即为众数;当众数组的前一组的频数多于众数组后一组的频数时,即fm-1>fm+1

,则众数会向其前一组靠,众数小于其组中值;当众数组后一组的频数多于众数组前一组的频数时,即fm-1

<fm+1

,则众数会向其后一组靠,众数大于其组中值。基于这种思路,借助于几何图形而导出的分组数据众数的计算公式。统计学——第5章数据分布特征的测度众数(M0)由组距式频布表计算众数众数先确定众数组;再用下述公式计算:符号含义:(A)L为众数组的下限,U为上限;(B)d为众数组的组距;(C)1=fm-fm-1,即众数组的次数与前一组次数之差;

2=fm-fm+1,即众数组的次数与后一组次数之差。统计学——第5章数据分布特征的测度众数(M0)小时数灯泡数43-48248-53153-58258-632163-682868-732873-783378-832683-882188-931993-981098-1036103-1082108-1130113-1181200只灯泡使用寿命频数分布表200只灯泡使用寿命频数分布直方图众数(三)众数的特点及应用场合

1.主要用于测度定类数据的集中趋势,也适用于定序和数值型数据的集中趋势的测度值。

2.

众数是根据众数组及相邻组的频数分布信息来确定数据中心点位置的,因此,众数是一个位置代表值,它不受数据中极端值的影响。

3.由于众数的确定并不涉及每一个变量值,故其对变量值的变化反映不灵敏。

4.有时分布数列中可能没有众数或有几个众数,难以反映总体的一般水平。统计学——第5章数据分布特征的测度众数(M0)M0M0M0M0M0若有两个次数相等的众数,则称复众数。统计学——第5章数据分布特征的测度

①众数的确定适用于总体单位数比较多,而且又有明显的集中趋势时才存在众数。众数(M0)下三图无众数:

②在单位数很少,或单位数虽多但无明显集中趋势时,统计学——第5章数据分布特征的测度计算众数是没有意义的。众数(M0)数据类型定类数据定序数据定距数据定比数据*众数*中位数*均值*均值-四分位数众数调和平均数-众数中位数几何平均数--四分位数中位数---四分位数---众数适用的测度值数据的类型和所适用的集中趋势测度值*为该数据类型最适用的测度值统计学——第5章数据分布特征的测度

统计学——第5章数据分布特征的测度算术平均数与中位数、众数的关系众数是观测值的重点中位数是观测值的中心均值是观测值的重心众数、中位数、均值的比较(1)对称分布:此处三者均等于35。

统计学——第5章数据分布特征的测度

大部分数据都属于单峰钟形分布,其众数、中位数和算术平均数之间具有以下关系:算术平均数与中位数、众数的关系A、右(正)偏:说明数据中有极大值,必然拉动算术平均(2)偏态分布统计学——第5章数据分布特征的测度算术平均数与中位数、众数的关系数向大的数值靠近:

B、左(负)偏:说明数据中有极小值出现,必然拉动算术平统计学——第5章数据分布特征的测度算术平均数与中位数、众数的关系均数向小的数值靠近。

从上面的分析可以看出,当频数分布出现偏态时,极端值对算术平均数产生很大的影响,而对众数、中位数没有影响,此时,用众数、中位数作为一组数据的中心值比算术平均数有较高的代表性。统计学——第5章数据分布特征的测度

适度偏斜情况下,众数与中位数之间的距离,大约为中位数到算术平均数之间距离的两倍。统计学——第5章数据分布特征的测度算术平均数与中位数、众数的关系卡尔.皮尔逊经验公式

据某单位资料知道,职工年收入小于25000元的占总人数的一半,年收入22360元人数为最多。试问:该单位职工人均年收入估计为多少?收入分配是左偏还是右偏?统计学——第5章数据分布特征的测度算术平均数与中位数、众数的关系思考收入分配呈右偏统计学——第5章数据分布特征的测度

不同类型变量适用的集中趋势测度指标变量类型分类型顺序型数值型集中趋势测度指标※众数---※中位数四分位数众数-※均值中位数四分位数众数※为该类变量最适用的测度指标统计学——第5章数据分布特征的测度本章目录统计学——第5章数据分布特征的测度标志变异指标离散程度什么是离散程度为什么要测定离散程度第二节离散程度的测度

如果你一只脚放在摄氏0度的冰水里,另一只脚放在摄氏100度的沸水里,按统计学理论,你一定感觉很舒服,因为平均水温50度!统计学——第5章数据分布特征的测度一则笑话漫画——都是不懂统计的缘故

他的溺毙完全是因为不懂统计,他还以为只要知道河水的平均深度就行了呢。R.I.P—RestinPeace统计学——第5章数据分布特征的测度Mo=可口可乐甲商店乙商店Mo=可口可乐

两商店软饮料购买频数的众数都是可口可乐,但数据的离散程度不同。01020可口可乐雪碧

仁露

骑士醒目01020可口可乐雪碧

仁露

骑士醒目离散趋势Me=一般甲城市乙城市非常不满意一般满意非常

满意Me=一般非常不满意一般满意非常

满意

两城市对住房条件评价的中位数都是一般,但数据的离散程度不同。不满意不满意离散趋势两组数据均值均为,但离散程度不同。离散趋势离散程度统计学——第5章数据分布特征的测度

分配数列中各标志值背离中心值的程度,即现象总体中各单位标志值间的变异状况或差异程度。也称为离中趋势或离散趋势,是数据分布的另一个重要特征。一、什么是离散程度

平均指标是一个代表性数值,它反映总体各单位某一数量标志的一般水平,而把总体各单位之间的差异抽象化了。但总体各单位之间的差异是客观存在的,这种差异也是统计总体的重要特征之一。因此,要全面反映一个总体的特征,还必须测定总体各单位之间差异程度。二、为什么要测定离散程度统计学——第5章数据分布特征的测度离散程度

标志变异指标(意义和作用)统计学——第5章数据分布特征的测度

反映总体各单位标志值之间差异程度大小的综合指标,也称做标志变动度。

是说明总体分布的另一个重要特征值。一、标志变异指标的含义统计学——第5章数据分布特征的测度1、衡量平均指标代表性的大小的尺度甲、乙两学生某次考试成绩列表语文数学物理化学政治英语甲959065707585乙1107095508075二、标志变异指标的作用

标志变异指标(意义和作用)2、反映现象发展过程的均衡性或协调性、以及产品质量的稳定性供货计划完成百分比(%)季度总供货计划执行结果一月二月三月钢厂甲100323434乙100203050统计学——第5章数据分布特征的测度标志变异指标测定离散程度的意义极差平均差第二节离散程度的测度标准差离散系数异众比率

描述数据离散程度采用的测度值,主要有异众比率、极差、四分位差、平均差、方差和标准差,以及测度相对离散程度的离散系数等。

统计学——第5章数据分布特征的测度

标志变异指标(种类和计算)

异众比率:又称离异比率或变差比,是指非众数组的频数占总频数的比率,计算公式为:式中,为异众比率;为变量值的总频数;众数组的频数。统计学——第5章数据分布特征的测度

标志变异指标(种类和计算)一、异众比率统计学——第5章数据分布特征的测度

异众比率的作用是衡量众数对一组数据的代表程度。异众比率越大,说明非众数的频数组占总频数的比重越大,众数的代表性就越差;异众比率越小,说明非众数组的频数占总频数的比重越小,众数的代表性就越好。

异众比率软饮料频数频率%可口可乐1938雪碧1326杏仁露816新骑士510醒目510总计5010050次购买软饮料的频数分布异众比统计学——第5章数据分布特征的测度

极差是总体各单位标志的最大值和最小值之差,也称全距,表示某一总体全部变量值的变动范围。

R=Xmax-Xmin

例:某班学生外语成绩中,最低分为48分,最高分为96分。极差=96-48=48(分)统计学——第5章数据分布特征的测度

标志变异指标(种类和计算)二、极差

未分组数据和变量数列中单项数列:用数列中最大变量值减最小变量值。

在组距数列中:

R=最高组上限—最低组下限极差统计学——第5章数据分布特征的测度日产量(件)工人数(人)5~1010~2020~3030~4040~50102440206合计100例:某车间工人日产量资料如下表所示:

最高上限=50,最低下限=5,全距R=50-5=45(件)

统计学——第5章数据分布特征的测度㈡极差的特点:

1、离散程度的最简单测度值计算简便,也易于理解,在实际工作中适用于度量变化比较稳定的现象的离中趋势;

2、只表示总体变动的范围,且易受极端值影响不能全面反映总体各单位标志值的差异程度及分布状况,也不能用来评价平均指标的代表性。统计学——第5章数据分布特征的测度极差评价方法:

极差值越小,说明标志变异程度越小,总体变量值分布越集中;极差值越大,说明标志变异程度越大,总体变量值分布越分散。统计学——第5章数据分布特征的测度极差统计学——第5章数据分布特征的测度极差的应用

在实际工作中,极差又称为“公差”,它是对产品质量制订的一个容许变化的界限,常用来检查产品质量的稳定性和进行质量控制。在正常生产条件下,极差在一定范围内波动,若极差超过给定的范围,就说明有异常情况出现。因此,利用极差有助于及时发现问题,以便采取措施,保证产品质量。

又如,描述社会成员的收入水平差异,是在极差的基础上,计算得出最高收入与最低收入间相差的倍数。

国家统计局调查资料显示:2006年,我国城镇居民中10%最高收入组家庭人均可支配收入为31967.34元,10%最低收入组家庭人均可支配收入为为3568.73元;最高收入组为最低收入组的8.98倍。若以城市最高收入组与农村最低收入组比较,更是高逾20倍。例

四分位差:是指第三四分位数与第一四分位数之差,也称为内距或四分间距,用表示。四分位差的计算公式为:

统计学——第5章数据分布特征的测度

四分位差反映了中间50%数据的离散程度。其数值越小,说明中间的数据越集中;数值越大,说明中间的数据越分散。四分位差不受极值影响,因此,在某种程度上弥补了极差的一个缺陷。四分位差

回答类别甲城市乙城市频数频率%频数频率%非常不满意不满意一般满意非常满意2410893453083631151021997864387332621.312.7合计300100300100甲乙两城市家庭对住房状况评价频数分布数据编码:令非常不满意为1;不满意为2;一般为3;满意为4;非常满意为5。则:结果说明50%的家庭对住房状况在满意与不满意之间。四分位差统计学——第5章数据分布特征的测度QU=85QL=6718小时数灯泡数累积43-482248-531353-582558-63212663-68285468-73288273-783311578-832614183-882116288-931918193-981019198-1036197103-1082199108-1130199113-1181200200只灯泡使用寿命频数分布表四分位差与盒形图50%的观测值集中于盒子之内。盒子越窄,表明集中程度越高,即离散程度越低。QU=85QL=67四分位差

平均差是各总体单位标志值与其算术平均数离差绝对值的算术平均数。反映的是各标志值对其平均数的平均差异程度。

统计学——第5章数据分布特征的测度标志变异指标(种类和计算)三、平均差

由于各变量值与其平均数离差之和等于零,所以,在计算平均差时,是取绝对值形式的。根据掌握数据资料不同,平均差的计算采用两种不同形式。计算公式:统计学——第5章数据分布特征的测度平均差平均差(meandeviation)的特点:平均差统计学——第5章数据分布特征的测度

1、综合反映了总体各单位标志值的差异程度,较全距为优;

2、数学性质较差,不便于作数学处理和参与统计分析运算,实际应用中受到很大限制。评价方法:

平均差越小,标志变异程度越小,总体变量值分布越集中,平均数的代表性便越大;平均差越大,标志变异程度越大,总体变量值分布越分散,平均数的代表性便越小。统计学——第5章数据分布特征的测度平均差例题分析:某电脑公司销售量数据平均差计算表按销售量分组组中值(xi)频数(fi)140~150150~160160~170170~180180~190190~200200~210210~220220~230230~24014515516517518519520521522523549162720171084540302010010203040501602703202700170200240160250合计—120—2040统计学——第5章数据分布特征的测度返回平均差

含义:每一天的销售量与平均数相比,平均相差17台

统计学——第5章数据分布特征的测度平均差

班级同学成绩分布统计学——第5章数据分布特征的测度平均差解:统计学——第5章数据分布特征的测度平均差

标准差是总体各单位标志值与其算术平均数离差平方和的算术平均数的平方根。又称为均方差。

标准差的实质与平均差基本相同,只是在数学处理方法上与平均差不同。统计学——第5章数据分布特征的测度返回标志变异指标(种类和计算)四、标准差

之所以称其为标准差,是因为在正态分布条件下,它和平均数有明确的数量关系,是真正度量离中趋势的标准。

计算公式:根据掌握的数据资料不同,有简单式和加权式两种。统计学——第5章数据分布特征的测度标准差统计学——第5章数据分布特征的测度标准差

方差是各个数据与其算术平均数的离差平方的平均数,通常以σ2表示。方差的计量单位不便于从经济意义上进行解释(方差的计量单位是标志值计量单位的平方),所以实际统计工作中多用方差的算术平方根——标准差来测度统计数据的差异程度,标准差的计量单位与观测值计量单位是一致的。

标准差(StandardDeviation)特点:

1.用平方的方法消除各标志值与算术平均数离差的正负值问题,可方便地用于数学处理和统计分析运算。

2.应用最广泛的离散程度测度值。

统计学——第5章数据分布特征的测度标准差评价方法:

均方差越大,标志变动程度越大,总体变量值分布越分散,平均数的代表性便越小;均方差越小,标志变动程度越小,总体变量值分布越集中,平均数的代表性便越大。标准差统计学——第5章数据分布特征的测度班级同学成绩分布统计学——第5章数据分布特征的测度标准差标准差的作用

标准差可以用来度量相对位置和异常值的检测。Z分数

标准化的数值,标明Xi

距离其平均数的标准差个数。

某学生期末考试时,数学成绩为85分,据此计算的Z分数为0.5;英语成绩为70分,Z分数也是0.5。则说明该学生两科考试成绩的相对位置是相同的,即都高于平均成绩0.5个标准差。

一个数据集中某个或某几个数据反常地大或小,一般称其为极端值或异常值,应当进一步加以检查、鉴别。一般的建议是:凡Z分数小于-3或大于+3的数据均可以被认为是异常值。统计学——第5章数据分布特征的测度

质量控制统计中控制图的原理控制下限控制上限中心线

若数据落在控制线外,则认为生产过程失去控制,判断错误的概率小于0.5%。标准差的应用68.27%95.45%99.73%返回

对于接近正态分布的数据集,有如下的经验法则:

约68%的数据与平均数的距离在1个标准差之内;约95%的数据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论