统计学教学课件第3章统计数据分布特征的统计描述_第1页
统计学教学课件第3章统计数据分布特征的统计描述_第2页
统计学教学课件第3章统计数据分布特征的统计描述_第3页
统计学教学课件第3章统计数据分布特征的统计描述_第4页
统计学教学课件第3章统计数据分布特征的统计描述_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章统计数据分布特征的统计描述分布集中趋势的描述分布离散程度的度量如何正确地反映居民的收入水平EXCEL在统计描述中的应用

分布的偏度和峰度引例:如何正确地反映居民的收入水平

前一段网上有着这么一段顺口溜,批评用平均收入来反映居民的收入水平。“张庄有个张千万,9个邻居穷光蛋,加在一起求平均,个个收入超百万”。正确之处是:平均数受极端值影响很大,用平均收入反映居民的收入水平,有可能掩盖两极分化的现象。

可能存在的误解:用很少出现的小样本计算的结果作为反对的理由是不够充分的。事实上,统计中的居民平均收入是根据大量观察的结果计算的。当然,为了更好地反映其代表性,还应当计算收入水平的方差和变异系数等指标。本章将介绍如何反映数据分布的集中趋势和离散程度。通过本章的学习,你将对上述问题有更全面和深刻的认识。第一节分布集中趋势的描述

描述分布集中趋势的主要指标和作用数值平均数众数与中位数一、描述分布集中趋势的主要指标和作用描述统计分布集中趋势的指标有两大类:一类是数值平均数,它们是根据全部数据计算得到的代表值,主要有算术平均数、调和平均数及几何平均数;另一类是位置代表值,是根据数据所处的位置而确定的代表值,主要有众数和中位数。这些指标的作用主要有:

1.反映总体各单位变量分布的集中趋势和一般水平。

2.便于比较同类现象在不同单位间的发展水平。

3.能够比较同类现象在不同时期的发展变化趋势或规律。

4.用于分析现象之间的依存关系。数值平均数是根据观察到的全部数据计算的代表值。数值平均数可分为以下几种:(一)算术平均数 (3.1)注意:算术平均数是对同质总体中各单位的标志值进行平均,它要求总体标志总量和总体单位数之间严格对应。例如,全国人均能源消费量指标,是全国能源消费总量与全国人口数的比率,因为每个人都有能源消费这个标志,所以可以计算人均能源消费量。

二、数值平均数

算术平均数有两种具体形式:1.简单算术平均数。简单算术平均数适用于未分组的资料。2.加权算术平均数

式中,fi为各组标志值出现的频数(次数)。加权算术平均数适用于原始资料已经分组,并得出次数分布的场合。加权算术平均数的大小受两个因素的影响:一是变量值大小;二是各组权数的影响。权数有两种表现形式:用各组的次数做为权数,即绝对数形式;用各组的频率做为权数,即相对数形式。权数在平均数计算中发挥了权衡轻重的作用,权数越大,该标志值记入平均数的份额也越大;特别地:当f1=f2=f3=…=fn时,加权算术平均数等价于简单算术平均数。因此,简单算术平均数实际上是加权算术平均数的特例。

3.由组距数列计算算术平均数当分组数据为组距数列时,计算算术平均数同样必须加权。所不同的是,在组距数列中,各组变量值不是惟一的,而是一个区间范围,具体数据已经被掩盖了,各组的变量值通常只能用组中值来代表。例3-2.docx应当指出,上述计算结果与利用简单算术平均法计算原始数据的平均数的结果是不同的。这是因为,在以上计算中实际上是以各组的组中值作为各组标志值平均数的代表,其前提条件是假定标志值在各组内均匀分布。而事实上,标志值的分布并不一定呈完全的均匀分布。4.是非标志的平均数对于以定类尺度或定序尺度计量的数据。例如,企业的产品分为合格和不合格两组等等。它们都是以品质标志把总体单位划分成两类,且可用“是”与“非”区分之,故称为“是非标志”。在总体中,具有某种性质的单位占总体的比率为p,不具有该种性质的单位占总体的比率为q,可有:p+q=1,

以1作为具有某种性质的单位的标志值,以0作为不具有该种性质的单位的标志值,其平均数:

p是总体中具有某种属性的单位成数,又称是非标志平均数。

5.算术平均数的数学性质平均数与标志值个数的乘积等于标志值总和,书中(3.8)与(3.9)式。标志值与其算术平均数的离差之和等于零,书中(3.10)与(3.11)式。(3)各标志值与算术平均数离差的平方和为最小值,书中(3.12)式。

(二)调和平均数1.简单调和平均数:简单调和平均数是各个标志值xi的倒数的算术平均数。

(3.13)式中,H代表调和平均数,n为总体单位数。

2.加权调和平均数计算公式:

(3.14)式中,m表示各单位或各组的标志值对应的标志总量。当各组标志总量相等,即m1=m2=m3=…=mn

时,加权调和平均数可化简成简单调和平均数形式。所以,简单调和平均数是加权调和平均数的特例。

社会经济统计中所应用的调和平均数往往是具有特定(经济)意义的一个指标,而不是纯粹反映一般水平的抽象数字,它的应用必须符合现象之间的内在关系,因此它通常是加权算术平均数的变形,即当已知各组的变量值xi和算术平均数的分子数据(xifi)而缺乏其分母数据(fi)时,加权算术平均数通常可通过变形,利用以分子数据(xifi)为权数的调和平均数形式来计算。例3-4.docx(三)几何平均数几何平均数是n项标志值连乘积的n次方根。1.简单几何平均数:式中G表示几何平均数,xi表示各项标志值。2.加权几何平均数【例3-6】设某笔为期10年的投资按复利计算收益,前3年的收益率为10%,中间4年的收益率为8%,最后3年的收益率为6%,求整个投资期内的平均收益率。由于这笔投资在10年后收益总的收益率(1+投资收益率)为:整个投资期内收益的平均总收益率为:所以平均收益率=7.99%

三、众数

与中位数(一)众数1.众数的含义。众数是指统计总体或分布数列中出现的频数最多、频率最高的标志值,用符号

表示。众数具有非常直观的代表性。从分布曲线的角度看,众数就是一个变量分布曲线的最高峰所对应的变量值。如果分布曲线没有明显的集中趋势或最高峰,则该变量无众数。如果分布曲线明显地存在一个众数,该变量的分布称为单峰分布;如果有两个不邻近的数据具有相对较高的频数(即使频数不相等),该分布可称为双峰分布;有几个相对较高的频数的分布称为多峰分布。众数的示意图见图3-1。

图3-1众数示意图xf(x)xMO1MO2f(x)xMOf(x)(a)单众数(b)无众数(c)双众数计算和应用众数有两个前提条件:(1)数据项数必须众多,否则众数就不具有“最普遍值”的意义,而且其数值会很不稳定。(2)数据具有明显的集中趋势。如果次数差别不大,也就无所谓哪个值更具有普遍意义和代表性。众数不仅可度量定量变量(数值型数据)的集中趋势,也可用来测度定性变量(非数值型数据)的集中趋势。因此,在社会经济现象的管理决策中有着十分广泛的应用。例如,为了掌握农贸市场上某一农产品的价格水平,不一定要全面登记该农产品每一次成交的价格,只要调查其最常见的成交价格即可。2.确定众数的方法。(1)由单项式分布数列确定众数。

即出现次数最多的标志值就是众数。(2)组距式数列确定众数

由组距数列确定众数,应首先确定众数组,然后再通过一定的公式计算众数的近似值。在等距分组条件下,众数组就是次数最多的那一组;在不等距分组的条件下,众数组则是频数密度或频率密度最高的那一组。众数值是依据众数组的次数与众数组相邻的两组次数的关系来近似计算的。

(2)组距式数列确定众数的公式下限公式:上限公式:Mo代表众数;代表众数组的下限;代表众数组的上限;代表众数组的次数;代表众数组前一组的次数;代表众数组后一组的次数;代表众数组的组距。例3-8.docx

(二)中位数1.中位数的含义。将总体各个单位按其标志值的大小顺序排列,处于数列位次中点的单位的标志值即中位数,用符号

表示。现实中,常用中位数来代表总体标志值的一般水平,以避免受极端值的影响。例如,国际上在计算房价收入比时,常用收入水平的中位数作为计算的依据。

2.中位数的确定

(1)未分组资料确定中位数:当总体单位数n为奇数时:

当总体单位数n为偶数时:(2)单项式分组资料确定中位数当为奇数时:,当为偶数时:

例3-9.docx(3)组距式分组资料确定中位数下限公式:

上限公式:

(三)众数、中位数和平均数的特点及其关系

平均数是利用全部数据加总来计算的,综合反映了全部数据的信息。众数和中位数是根据数据出现的次数或分布的特定位置确定的值,它们未充分利用全部数据包含的信息。算术平均数和中位数在任何一组数据中都存在而且具有惟一性。但并不是所有分布都存在众数,而且也不具有唯一性。平均数比较容易受极端值的影响,而众数和中位数都不受极端值的影响。在歌手比赛的评判中,经常要去掉一(两)个最高分和一(两)个最低分来计算选手的平均得分,这就是切尾均值。这是是将平均数与中位数取长补短的结果。利用算术平均数可以推算总体的有关指标,而中位数和众数则不宜用作此类推算。算术平均数和众数、中位数三者之间的数量关系取决于数据分布的偏斜(非对称)程度。对于呈现单峰分布特征的数据,如果数据的分布是完全对称的,则三者相等;如果数据呈左偏(负偏)分布,数据中的极小值会使算术平均数偏向较小的一方,极小值的大小虽然不影响中位数,但其所占项数会影响数据的中间位置从而略使中位数偏小,众数则完全不受影响极小值大小和位置的影响,因此一般情况下,三者的关系表现为

<Me<Mo;反之,如果数据呈右偏(正偏)分布,同样道理有:Mo<Me<。三者的关系如图3-3所示。在存在轻微偏斜的情况下,三者关系的经验公式为:

第二节分布离散程度的度量变异指标的含义与作用极差、四分位差与平均差方差与标准差变异系数

异众比率(一)定义测度数据分布离散程度的指标称为变异指标。(二)作用

1.衡量平均指标的代表性。

2.反映社会经济活动的均衡性。在社会经济活动分析中,经常需要从动态上研究现象变化过程是否稳定。例如,对不同时期生产经营成果的分析。3.衡量统计推断效果在统计推断中,变异指标常常是判别统计推断前提条件是否成立的依据,也是衡量推断效果的重要尺度。

一、变异指标的含义与作用

一则笑话如果你一只脚放在摄氏1度的水里,另一只脚放在摄氏79度的水里,平均水温40度,你感觉舒服极了!?显然,只了解变量的集中趋势是不够的!

二、极差、四分位差与平均差

(一)极差1.极差也称全距,它是统计总体中两个极端标志值之差,表明总体中标志值变动的范围。2.计算公式: (不分组)(3.24)

(分组)(3.25)式中:Umax代表最高组的上限;

Lmin代表最低组的下限。3.优点:计算简便,直观易于理解。不足:未能充分利用数列全部信息(二)四分位差

1.计算公式:(3.26)

其中,表示分布数列中最小的四分之一的单位,表示分布数列中最大的四分之一的单位。

2.特点四分位差避免了数列中极端值的影响,但去头弃尾,同样丢失大量的原始数据。(三)平均差平均差是各个数据与其均值的离差绝对值的平均数。根据未分组数据计算平均差:

(3.27)根据已分组数据计算平均差:

(3.28)平均差含义清晰,可利用全部数据信息计算。但其数学处理上不够方便,同时在数学性质上也不是最优的。

三、方差与标准差方差和标准差是衡量变异程度最常用的指标(一)数量标志的方差与标准差1.计算公式:未分组资料:方差标准差方差(3.29)

标准差(3.30)例3-14.docx

分组资料:2.方差与标准差的数学性质(1)变量的方差等于变量平方的平均数减去变量平均数的平方。(2)变量对其算术平均数的方差小于对任意常数的方差。(3)n个同性质独立变量和的方差等于各个变量方差的和。(4)n个同性质独立变量平均数的方差等于各变量方差平均数的1/n。(5)变量线性变换的方差等于变量的方差乘以变量系数的平方。

是非标志的平均数为p

方差:

标准差:(二)是非标志的方差与标准差【例3-15】已知某产品的合格率为98%,求其合格率的方差和标准差。

解:

确定是非标志的平均数与方差,就是计算0—1分布的数值特征

。当

时,0—1分布的方差达到最大可能值,即0.25。这是,0—1分布特有的一个重要性质。

四、变异系数1.定义:变异系数也称离散系数,是各变异指标与其算术平均数的比值。标准差系数(最常用):

2.作用:可消除不同计量单位、不同平均水平的影响。例3-16.docx五、异众比率异众比率是指非众数值的次数之和在总次数中所占比重。

(3.27)式中:

代表众数值的次数。异众比率主要用于衡量一组数据以众数为分布中心的集中程度,即衡量众数代表一组数据一般水平的代表性。异众比率的数值越小,说明众数的代表性越大;反之,异众比率的数值越大,说明众数的代表性越小。在一些场合如例3-18中,因为颜色是定类变量,所以其离散程度只能用异众比率来测度和比较。第三节分布的偏度和峰度

统计动差偏度峰度

要全面了解分布的特点,还需知道数据分布曲线是否对称、偏斜的方向和程度以及分布曲线的尖峭或扁平程度等等。变量分布的偏态和峰度就是对这些分布特征的进一步描述。一、统计动差统计动差又称矩,可分为两种:原点动差:变量x关于原点的k阶距,一般形式:

(未分组)(分组)k=1时,即1阶的原点动差就是算术平均数。k=2时,即2阶的原点动差就是平方的平均数。中心动差:变量x关于分布中心(平均数)的k阶距。

(未分组)(分组)当k=0时,即零阶中心动差=1当k=1时,即一阶中心动差=0当k=2时,即二阶中心动差=二、偏度偏度:衡量频数分布不对称程度或偏斜程度的指标。测定偏度最常用的方法是利用中心矩来计算偏度系数。如果分布对称的,所有奇数阶中心矩都为0。反之,则只有一阶中心矩为0,其余奇数阶中心矩都不为0。显然最为简便的是利用三阶中心矩,为消除量纲影响,可用σ3去除,于是有:

(3.36)如果数据分布是对称的,则SK=0;如果数据分布是左偏(负偏)的,则SK<0;如果数据的分布是右偏(正偏),则SK>0。偏斜越严重,SK的绝对值越大。三、峰度峰度是反映分布曲线尖峭程度的指标。通常以正态分布曲线为标准,将峰度分为正态峰度、尖顶峰度和平顶峰度三种。当变量分布曲线比正态分布曲线更加尖峭,称为尖顶峰度;当变量分布曲线比正态分配曲线更为平缓,称为平顶峰度。正态分布曲线的四阶中心矩V4与其标准差的四次方σ4之比等于3(V4/σ4=3),因此测定任一变量分布曲线的峰度可用下列公式计算出峰度系数(用K表示):

(3.38)

峰度指标K=0,分布为正态峰度,当峰度指标K>0时,表示频数分布比正态分布更集中,分布呈尖峰状态,K<0时表示频数分布比正态分布更分散,分布呈平坦峰。Ⅱ(K>0)Ⅰ(K=0)Ⅲ(K<0)第四节EXCEL在统计描述中的运用利用描述统计分析工具利用统计函数一、利用描述统计分析工具对于未分组数据,可以使用“描述统计”分析工具或有关的函数来计算描述统计有关指标。而对于分组数据,只能应用Excel的公式与函数来实现。

【例3-19】表3-12是50名工人完成某一装配工序所需时间,要求对装配工时进行描述统计分析。表3-123538443344434840453045324239493745373642354132463430433744493646453637374536464238433438473529414041单位:分钟解:主要操作步骤如下。(1)输入数据。如图3-6所示,在A2:A51输入时间数据,在A1输入列标志“工时”。(2)调出“描述统计”对话框(图3-5),其主要选项的含义如下。“输入区域”:在此输入待分析数据区域的单元格范围。本例输入区域为“$A$1:$A$51”。“分组方式”:如果需要指出输入区域中的数据是按行还是按列排列,则单击“逐行”或“逐列”。本例分组方式为“逐列”。标志位于第一行/列:如果输入区域的第一行中包含标志项(变量名),则选中“标志位于第一行”复选框;如果输入区域的第一列中包含标志项,则选中“标志位于第一列”复选框,本例要选中该复选框;如果输入区域没有标志项,则不选任何复选框,Excel将在输出表中生成适宜的数据标志。“输出区域”:在此框中可填写输出结果表左上角单元格地址,用于控制输出结果的存放位置。本例输出区域填“$C$1”,整个输出结果分为两列,左边一列包含统计标志项,右边一列包含统计值。根据所选择的“分组方式”选项的不同,Excel将为输入表中的每一行或每一列生成一个两列的统计表。“新工作表组”:单击此选项,可在当前工作簿中插入新工作表,并由新工作表的A1单元格开始存放计算结果。如果需要给新工作表命名,则在右侧编辑框中键入名称。“新工作簿”:单击此选项,可创建一新工作簿,并在新工作簿的新工作表中存放计算结果。“汇总统计”:指定输出表生成下列统计结果,则选中此复选框。这些统计结果有:样本的平均值、抽样平均误差、组中值、众数、样本标准差、样本方差、峰度值、偏度值、极差、最小值、最大值、样本总和、样本容量和一定显著水平下总体均值的置信区间。本例选中该复选框。“平均数置信度”:若需要输出由样本均值推断总体均值的置信区间,则选中此复选框,然后在右侧的编辑框中,输入所要使用的置信度。本例平均数置信度为95%。第k个大/小值:如果需要在输出表的某一行中包含每个区域的数据的第k个最大/小值,则选中此复选框,然后在右侧的编辑框中输入k的数值。本例“描述统计”对话框的填写如图3-5所示。图3-5(3)“描述统计”对话框填完后,单击“确定”按钮,结果如图3-6所示。有两点需要注意:①各种分析工具对话框输出选项中“输出区域”“新工作表组”和“新工作簿”的含义基本相同,以下不再赘述。②图3-6中指标的名称与统计中的习惯叫法不大一致,确切的指标名称如本例操作步骤(2)中所述。图3-6二、利用统计函数对于分组数据,不能直接用“描述统计”分析工具来计算描述统计有关指标,应综合应用Excel的公式与函数来实现。

【例3-20】某粮食作物的产量和播种面积资料如表3-13所示,试计算加权平均亩产量、标准差以及偏度和峰度等。解:主要操作步骤如下。(1)输入数据。如图3-7所示,A2:A6输入亩产量的分组,这些数据在Excel中被认为是文本,不能直接参加数值运算,A1输入本列标志“亩产量”。B2:B6输入各组的组中值,B1输入本列标志“组中值”。亩产量x400~500500~600600~70070

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论