[经济学]第三章数据分布特征的描述.ppt_第1页
[经济学]第三章数据分布特征的描述.ppt_第2页
[经济学]第三章数据分布特征的描述.ppt_第3页
[经济学]第三章数据分布特征的描述.ppt_第4页
[经济学]第三章数据分布特征的描述.ppt_第5页
已阅读5页,还剩102页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2019/4/15,版权所有 BY 统计学课程组,1,第一节 集中趋势数值平均数 第二节 集中趋势位置平均数 第三节 离中趋势的测度 第四节 偏度与峰度的 测度,第三章 数据分布特征的描述,2019/4/15,版权所有 BY 统计学课程组,2,本章重点与难点,重点: 了解和掌握算术平均数、众数、中位数、方差、标准差、标准分数的含义及其计算方法;正确使用离散系数比较不同均值的代表性。 难点: 是偏度和峰度的含义及其计算方法。,2019/4/15,版权所有 BY 统计学课程组,3,学习目标,正确理解平均指标与变异指标的概念的、意义与作用,明确其种类和区别;掌握平均指标和变异指标的计算方法,以及应用的原则和条件;掌握偏度和峰度的含义及其计算方法;了解各种分位数的概念与意义。,2019/4/15,版权所有 BY 统计学课程组,4,数据分布的特征:,一、集中趋势:反映数据向其中心靠拢或 聚集 程度; 二、离中趋势;数据远离中心的趋势(又称离散 程度); 三、偏态和峰态;偏态是对数据分布对称性的度 量;峰度是指数据分布的平峰或尖峰程度 (形状)。,2019/4/15,5,数据分布的特征,2019/4/15,6,数据分布特征的测度,1.集中趋势 算术平均数、调和平均数 、几何平均数 2.离散程度 全距、异众比率、四分位差、平均差、方差和标准差、离散系数、 标准分数。 3.分布的形状 偏态系数、峰态系数,2019/4/15,版权所有 BY 统计学课程组,7,第一节 集中趋势数值平均数 p75,一、算术平均数 二、调和平均数 三、几何平均数,数 值 型 数 据 的 平 均 数,2019/4/15,版权所有 BY 统计学课程组,8,集 中 趋 势 (central tendency),一组数据向其中心值靠拢的倾向和程度 测度集中趋势就是寻找数据水平的代表值或中心值 不同类型的数据用不同的集中趋势测度值 注意:低层次数据的测度方法也适用于高层次的数据,但高层次数据的测度方法往往不适用于低层次的数据。,2019/4/15,版权所有 BY 统计学课程组,9,一、算术平均数,均值(算术平均数)定义:将一组数据相加后除以数据的个数所得到的一个数值,称为算术平均数(average)或均值(mean)。 算术平均数, 又有简单算术平均数和加权平均数之分,2019/4/15,版权所有 BY 统计学课程组,10,一、算术平均数,设一组数据为: x1 ,x2 , ,xn (未分组数据) 各组的组中值为:x1 ,x2 , ,xk ( 组距分组数据) 相应的频数为: f1 , f2 , ,fk,简单算术平均数,加权算术平均数,2019/4/15,版权所有 BY 统计学课程组,11,【例3.1】根据表3.1中的数据,计算职工通信费用支出额平均水平 。p72 解:,2019/4/15,版权所有 BY 统计学课程组,12,身高 组中值 人数 比重 (cm) xi(cm ) fi(人) (%) 150- 155 152.5 3 3.61 155-160 157.5 11 13.25 160-165 162.5 34 40.96 165-170 167.5 24 28.92 170以上 172.5 11 13.25 总计 - 83 100.00,例3.2 分组资料均值的计算: 某年级83名女生身高资料,组距数据,次数 f,频率 f/f,变量值 x,加权算术平均数,2019/4/15,版权所有 BY 统计学课程组,13,【例3.3】依据整理所得表3-5中的数据,计算职工通信费用支出额平均水平 。p74 解: 或,2019/4/15,版权所有 BY 统计学课程组,14,计算算术平均数, 注意:,用各组的组中值代表其实际数据计算算术平均数时,通常假定各组数据在组内是均匀分布的,相应的组中值近似等于各组的平均数。 权数:衡量变量值相对重要性的数值。 各个变量值的权数要起作用必须具备两个条件: 一是各个变量值之间有差异; 二是各个变量值的权数有差异。 简单算术平均数是加权算术平均数在权数相等时的特例。,2019/4/15,版权所有 BY 统计学课程组,15,算术平均数的性质 p75-76,1各变量值与其算术平均数的离差之和等于零,即 。,2019/4/15,版权所有 BY 统计学课程组,16,算术平均数的性质,2019/4/15,版权所有 BY 统计学课程组,17,集中趋势的最常用测度值; 一组数据的均衡点所在; 易受极端值的影响; 各变量值与其均值的离差之和等于零; 5、 6.由组距分组资料计算的均值有近似值性质; 7、用于数值型数据,不能用于分类数据和顺序数据,算术平均数(均值)特征:,2019/4/15,版权所有 BY 统计学课程组,18,二、调和平均数,调和平均数也称“倒数平均数”,它是对变量的倒数求平均,然后再取倒数而得到的平均数,以 表示。 根据掌握的资料不同,调和平均数也有简单调和平均数和加权平均数两种形式。 其计 算公 式为:,2019/4/15,版权所有 BY 统计学课程组,19,例题分析,【例3.4 假设甲、乙、丙三种苹果的价格分别为每斤2.4元、1.8元及1.5元(1)若三种苹果各买1元,试问所购苹果的平均价格又为多少?(2)如果甲、乙、丙三种苹果分别购买5元、8元和10元,试问其平均价格为多少?,解:计算平均价格的是用所付金额除以所购数量。 (1) (2),2019/4/15,版权所有 BY 统计学课程组,20,计算调和平均数 ,注意:,1.从数学定义角度看算术平均数与调和平均数是不一样的,但在社会经济应用领域,调和平均数实际上只是算术平均数的另一种表现形式,二者本质上是一致的,唯一的区别是计算时使用了不同的数据。 2.计算比率的平均数时,如果已知比率及其基本计算式的分母资料,则采用加权算术平均法;如果已知比率及其基本计算式的分子资料,则采用加权调和平均法。,2019/4/15,版权所有 BY 统计学课程组,21,三、几何平均数 (geometric mean)p78,几何平均数也称几何均值,它是n个变量值乘积的n次方根。 几何平均法是计算平均比率或平均发展速度最适用的一种方法。 如果分布数列中各变量值呈几何级数变化或频率分布极不对称,也常采用几何平均法来计算平均数。 根据统计资料的不同,几何平均数也有简单几何平均数和加权几何平均数之分。,2019/4/15,版权所有 BY 统计学课程组,22,几何平均数的计算公式,用途:适用于对比率数据的平均。主要用于计算平均发展速度、平均增长率、平均比率 对于未分组的资料,几何平均数的计算公式为,2019/4/15,23,补充:发展速度、增长速度概念及关系,环比发展速度 y1/y0 y2/y1 y3/y2 yn/yn-1 定基发展速度 y1/y0 y2/y0 y3/y0 yn/y0 注意:环比发展速度的连乘积=相应的定基发展速度 增长速度= 发展速度-1 环比增长速度=环比发展速度-1 定基增长速度=定基发展速度-1,2019/4/15,24,平均增长率(average rate of increase ),序列中各逐期环比值(也称环比发展速度) 的几何平均数减1后的结果 描述现象在整个观察期内平均增长变化的程度 通常用几何平均法求得。计算公式为,2019/4/15,版权所有 BY 统计学课程组,25,例题分析,【例3.8】 已知某市20012005年国内生产总值的发展速度(以上年为100)依次分别为112%、108%、114%、116%和113%。试计算这5年国内生产总值的平均发展速度。,如果已知的是各年的增长速度,要计算若干年的平均增长速度,则需要先将增长率加上100%得到发展速度,再根据上述方法计算平均发展速度,最后用平均发展速度减100%则得到平均增长速度。,2019/4/15,版权所有 BY 统计学课程组,26,例题分析,【例3.9】 甲投资银行某项投资的年利率是按复利 计算的,若将过去20年的年利率资料如表3.9所示. 要求:试计算20年的平均年利率。,解:,2019/4/15,版权所有 BY 统计学课程组,27,应用几何平均数时注意,几何平均数在实际应用中受到很多限制; 如果被平均的变量值中有一个为零,则不能计算几何平均数; 如果变量值为负数,开偶次根会形成虚根,失去意义; 几何平均数在实际应用中的范围比算术平均数要窄。,2019/4/15,版权所有 BY 统计学课程组,28,几何平均数的特点,1几何平均数受极端值的影响较算术平均数小。 2如果变量值有负值,计算出的几何平均数就会成为负数或虚数。 3它仅适用于具有等比或近似等比关系的数据。 4几何平均数的对数是各变量值对数的算术平均数。,2019/4/15,版权所有 BY 统计学课程组,29,第二节 集中趋势位置平均数 p80,一、众数 Mo 二、中位数Me 三、四分位数QU、QL,2019/4/15,版权所有 BY 统计学课程组,30,集中趋势位置平均数,位置平均数,就是根据总体中处于特殊位置上的个别单位或部分单位的标志值来确定的代表值; 对于整个总体来说,具有非常直观的代表性,常用来反映分布的集中趋势; 常用的位置平均数有众数和中位数。,2019/4/15,版权所有 BY 统计学课程组,31,一、众数 p80,(一) 众数的含义 众数是指一组数据中出现次数最多的变量值,用 表示。 众数直观地说明分布的集中趋势,并用它作为反映变量值一般水平的代表值。 在某些场合只有众数才适合作为总体的代表值。,2019/4/15,版权所有 BY 统计学课程组,32,(二) 众数的计算方法,1观察法求众数 如果数据已按单个变量值整理成频率分布表或者是分类数据表,则次数出现最多或频率最大的那个变量值即为众数。 【例3.11】 某制鞋厂要了解消费者最需要哪种型号的男皮鞋,调查了某百货商场2005年10月男皮鞋的销售情况,得到资料如表3.10所示。,2019/4/15,版权所有 BY 统计学课程组,33,众数的计算- 例题分析,要求:试根据上表资料计算男皮鞋销售量的众数。,解:销售量最多的是规格为25.5厘米的鞋号,销售量320双,占32%,故众数为25.5公分。,2019/4/15,版权所有 BY 统计学课程组,34,众数的计算- 例题分析 p81,【例3.10】 某高校电影院在安排2010年影片放映计划时,分别 按性别随机抽取200名男女学生,登记其对影片类型的取向。统 计结果如表3.10所示。要求:试分析学生对影片取向的集中趋势。,解: 7种类型的影片中,男生最喜欢看动作片,人数为48人,占24%,众数即为动作片这种影片类型;女生最喜欢看言情片,人数为46人,占23%,众数即为言情片这种影片类型;男女生对影片类型的取向,综合而言是动作片,众数为动作片这种影片类型。,2019/4/15,版权所有 BY 统计学课程组,35,数值型数据众数的确定方法 单变量值分组资料,某年级83名女生身高资料,身高 人数 (CM) (人) 152 1 154 2 155 2 156 4 157 1 158 2 159 2 160 12 161 7 162 8 163 4,身高 人数 (CM) (人) 164 3 165 8 166 5 167 3 168 7 169 1 170 5 171 2 172 3 174 1 总计 83,STAT,众数,2019/4/15,版权所有 BY 统计学课程组,36,注意:,众数不仅适用于测度顺序数据和数值型数据的集中趋势,而且适用于测度不能计算平均数的分类数据的集中趋势。,2019/4/15,版权所有 BY 统计学课程组,37,众数的计算方法,2插值法求众数 对于组距分组形成的分布数列,当频率分布属于完全对称分布,而众数所在组的变量值分布比较均匀时,可用观察法求众数,即以众数组的组中值作为所求的众数。 完全对称分布不存在,众数组前后各组的次数不一定相等,众数就不等于组中值,因此需要采用插值法求众数。,2019/4/15,版权所有 BY 统计学课程组,38,组距分组数据,众数的计算步骤,1、先找到众数所在的组; 2、按该组次数与前后相邻两组分布次数之差所占的比重来推算众数值。 如果众数组前一组的次数大于后一组的次数,则众数值小于其所在组的组中值;反之,众数值则大于其所在组的组中值; 若众数组前后相邻组的次数相等,则众数值等于其所在组的组中值。 3、计算众数有上限和下限公式之分。,2019/4/15,版权所有 BY 统计学课程组,39,众数的计算方法,2019/4/15,版权所有 BY 统计学课程组,40,身高 人数 比重 (CM) (人) (%) 150-155 3 3.61 155-160 11 13.25 160-165 34 40.96 165-170 24 28.92 170以上 11 13.25 总计 83 100,某年级83名女生身高资料,数值型数据众数的确定方法 组距分组资料,STAT,众数组,2019/4/15,版权所有 BY 统计学课程组,41,众数的特点,1众数不受分布数列的极大或极小值的 影响,众数对分布数列有好的代表性。 2数据的分布没有明显的集中趋势或最高峰点,众数可能不存在; 3.有两个或多个高峰点,可以有两个或多个众数。众数不具有唯一性。 3众数缺乏敏感性。,2019/4/15,版权所有 BY 统计学课程组,42,二、中位数 Me p83,(一) 中位数的含义 中位数是将数据按大小顺序排列起来,形成一个数列,居于数列中间位置的那个变量值称为中位数。中位数用Me表示。 特点: 在一个等差数列或一个正态分布数列中,中位数就等于算术平均数。 中位数不受极端变量值的影响 。,2019/4/15,版权所有 BY 统计学课程组,43,中位数的计算,中位数概念:排序后处于中间位置上的值 1根据未分组数据计算中位数。,2019/4/15,版权所有 BY 统计学课程组,44,例题分析,【例3.12】 某班第一、二两个小组统计学期末考试成绩排序结果如表3.13所示。要求:分别计算两小组成绩的中位数,解:两个学习小组的考试成绩已经分别按由低到高排列。 第一小组有7个学生,第4位为中位数的位置,Me=75. 第二小组有8个学生,中位数的位置处于第四和第五个学生之间。,2019/4/15,版权所有 BY 统计学课程组,45,中位数的计算,2由分组资料确定中位数 如果由组距数列确定中位数,应先按的公式求出中位数所在组的位置,然后再按下限公式或上限公式确定中位数。,2019/4/15,版权所有 BY 统计学课程组,46,组距分组数据中位数的确定方法,身高 fi人数 累计 (CM) (人) 人数 150-155 3 3 155-160 11 14 160-165 34 48 165-170 24 72 170以上 11 83 总计 83,某年级83名女生身高资料,STAT,中位数组,2019/4/15,版权所有 BY 统计学课程组,47,中位数的特点,1不受分布数列的极大或极小值影响。 2有些离散型变量的单项式数列,当次数分布偏态时,中位数的代表性会受到影响。 3中位数缺乏敏感性。,2019/4/15,版权所有 BY 统计学课程组,48,三、四分位数 p85,中位数是根据其在数列中所处的位置来确定的一个平均数,作为各变量值的一个代表值,以反映分布数列的集中趋势。 为了进一步了解一组数据分布的内部结构,观察变量值在各个区间的一般水平,还可以计算四分位数、十分位数和百分位数。,2019/4/15,版权所有 BY 统计学课程组,49,四分位数,四分位数是通过3个点将全部数据等分为四个部分,其中每部分包含25%的数据。,处于 25%和75%位置上的值即 四分位数,特点:不受极端值的影响 要用于顺序数据,也可用于数值型数据,但不能用于分类数据(各种分位数可由spss计算),2019/4/15,版权所有 BY 统计学课程组,50,四分位数的计算,1.根据未分组数据计算四分位数时,先对数据进行排序,然后再确定四分位数所在的位置,当四分位数的位置不是整数时,可根据四分位数的位置,按比例分摊四分位数所在位置两侧变量值之差的数值。,2019/4/15,版权所有 BY 统计学课程组,51,四分位数的计算例题分析,【例3.14】 将例3.13中两个学习小组的统计学考试 成绩合并如下:,要求: (1)计算前15个学生统计学考试成绩的四分位数; (2)如果增加一个学生的成绩95分,试计算16个学生统计学考试成绩的四分位数。,2019/4/15,版权所有 BY 统计学课程组,52,四分位数的计算例题分析,2019/4/15,版权所有 BY 统计学课程组,53,四分位数的计算,2.根据组距数列计算四分位数,2019/4/15,版权所有 BY 统计学课程组,54,四分位数的计算,2019/4/15,版权所有 BY 统计学课程组,55,(二) 十分位数,十分位数是指将按大小顺序排列的一组数据划分为10等分的9个变量值,用以反映一组数据在各个区间的一般水平。,2019/4/15,版权所有 BY 统计学课程组,56,十分位数的计算,十分位数的具体计算方法与计算四分位数类似,即 先计算出各个十分位数所处的位置。 如果为整数,与计算的位置相对应的变量值就是所求的十分位数; 如果不是整数,每个位置的值出现小数,此时,所求的十分位数等于整数位的变量值加上小数乘以前后两项变量值之差的数值。,2019/4/15,版权所有 BY 统计学课程组,57,(三) 百分位数,2019/4/15,版权所有 BY 统计学课程组,58,百分位数的计算,求出各个百分位数所处的位置后,具体计算每个百分位数的方法与四分位数类似,故不再详细介绍。 如果数据比较多,计算百分位数可以更详细地反映数据分布中每个小区间的一般水平,用以补充说明平均数所反映的集中趋势。,2019/4/15,版权所有 BY 统计学课程组,59,算术平均数简评,算术平均数: 算术平均数符合上述六个条件,应用范围最广。 易受极端值的影响。 当分布数列中存在开口组时,会影响平均数的准确性。 算术平均数适用于数值型数据。,2019/4/15,版权所有 BY 统计学课程组,60,(三) 众数、中位数和算术平均数的关系,在数据分布呈完全对称的正态分布时,算术平均数、众数和中位数三者相等。 在次数分布非对称时,算术平均数、众数和中位数三者不相等,但具有相对固定的关系。 在尾巴拖在右边的正偏态(或右偏态)分布中,众数最小,中位数适中,算术平均数最大。,2019/4/15,版权所有 BY 统计学课程组,61,众数、中位数和平均数的关系,对何种数据而言的?,2019/4/15,版权所有 BY 统计学课程组,62,第三节 离中趋势的测度 p85,数据分布的另一个重要特征 反映各变量值远离其中心值的程度(离散程度) 从另一个侧面说明了集中趋势测度值的代表性 注意: 数据的离散程度越大,集中趋势的测度对该组数据的代表性越差;数据的离散程度越小,集中趋势的测度值对该组数据的代表性越好。 不同类型的数据有不同的离散程度测度值,2019/4/15,版权所有 BY 统计学课程组,63,下面是两个总体关于年龄分布的数据,相对而言,那个总体的年龄分布分散,差异大些?,46、47、48、49、50、 51、52、53、54,8、15、20、30、50 70、80、85、92,总体1,总体2,2019/4/15,版权所有 BY 统计学课程组,64,总体2,总体1,2019/4/15,65,数值型数据: 全距(或称极差)( range ) 平均差(mean deviation) 方差和标准差( Variance and standard deviation) 相对离散程度:离散系数( Coefficient of Variation ) 分类数据:异众比率(variation ratio) 顺序数据:四分位差(quartile range ),离散程度的测度,2019/4/15,版权所有 BY 统计学课程组,66,一、全距(Range),全距也称为极差,是指一组数据的最大值与最小值之差,用R表示。 即: R最大变量值最小变量值 没有开口组的组距分布数列计算全距,可以用最大组的上限值减去最小组的下限值,得到全距的近似值。 全距可以反映一组数据的差异范围。,2019/4/15,版权所有 BY 统计学课程组,67,全距的计算,【例3.16】表3-14是两组人口关于年龄分布的数据,要求计算全距。 解:第一组全距 第二组全距 注意:如果组距分布数列中有开口组,则不能计算全距。 全距计算简单,易理解,易受极端值的影响;不能反映中间数据分散状况,不能准确描述数据的分散程度。,2019/4/15,68,二、异众比率 (variation ratio), 非众数组的频数占总频数的比率 计算公式为 用于 对分类数据离散程度的测度, 用于衡量众数的代表性,2019/4/15,版权所有 BY 统计学课程组,69,异众比率,异众比率主要用于衡量众数对一组数据的代表程度。 异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性就越差; 异众比率越小,说明非众数组的频数占总频数的比重越小,众数的代表性越好。 异众比率适合测度分类数据、测度顺序数据和数值型数据的离散程度。,2019/4/15,版权所有 BY 统计学课程组,70,异众比率的应用 p89,【例3.17】 根据例3.10(第34张)的数据计算学生对影片取向的异众比率。 【解】 根据公式得 说明:比较上面的三个异众比率,全部样本学生的异众比率最大,说明其众数的代表性最差;男生的异众比率略小于女生的异众比率,说明男生对影片取向的众数的代表性略好于女生对影片取向的众数的代表性。,2019/4/15,版权所有 BY 统计学课程组,71,三、四分位差 p89,注意: 上四分位数与下四分位数之差 Qd = QU QL 反映了中间50%数据的离散程度 对顺序数据离散程度的测度 不受极端值的影响 用于衡量中位数的代表性,2019/4/15,版权所有 BY 统计学课程组,72,四分位差的应用,注意: 四分位差不易受极端值的影响,可以测量含有开口组的数据分布的差异程度,但不能反映所有变量值的差异程度。,【例】依据前面例3.16中两组人口年龄的四分位差:,结论:第一、第二组的中位数均为50岁,但其代表性不同。 第一小组的中位数代表性相对高些,因为相对而言,四分位差小,数据分布集中。第二组年龄中位数代表性低些,因为该组年龄差异大,年龄分布相对分散。,2019/4/15,版权所有 BY 统计学课程组,73,四、平均差(Average Deviation),平均差就是各个变量值与其算术平均数离差的绝对值的平均数,以AD表示。 它综合反映了各变量值的变动程度,是各个离差的代表值。 平均差越大,则表示变量值的离散程度越大,说明平均数的代表性越小;平均差越小,则表示变量值的离散程度越小,说明平均数的代表性越大。,2019/4/15,版权所有 BY 统计学课程组,74,平均差的计算,各变量值与其均值离差绝对值的平均数,计算公式为,未分组数据,组距分组数据,诸变量值与均值的偏差,能全面反映一组数据的离散程度 数学性质较差,实际中应用较少,2019/4/15,版权所有 BY 统计学课程组,75,平均差的计算,【例3.18】 要求:根据例3.16所给的资料分别计算第一、第二组人口年龄的平均差,并比较其平均年龄的代表性。 解: 结论: 比较两个平均差可知,两组人口年龄平均数均为50岁,第一组平均差小,人口年龄分布的差异小,平均年龄的代表性好;第二组平均差大,年龄分布的离散水平大,平均年龄的代表性差些。,2019/4/15,版权所有 BY 统计学课程组,76,平均差的计算,【例3.19】根据表的资料计算120名职工通信费用支出额的平均差。 解:,2019/4/15,版权所有 BY 统计学课程组,77,平均差的含义: 每名职工通信费用支出额有高有低,与平均数165元相 比,差异有大有小。 平均差表明:以平均通信费用165元为中心,每名职工通信费用支出额与平均水平的平均差距为42.42元。 注意: 平均差易理解、计算简便; 可以说明数据分布的离中趋势; 不适宜进行代数运算,其应用范围易受限制 。,2019/4/15,版权所有 BY 统计学课程组,78,五、方差与标准差 p92,方差是各个数据与其算术平均数的离差平方的平均数,通常以 表示总体方差,s2表示样本方差。 标准差又称均方差,是方差的平方根,一般用 表示总体标准差,以S表示样本标准差。 方差和标准差的计算也分为简单平均法和加权平均法。 对于总体数据和样本数据,公式略有不同。,2019/4/15,版权所有 BY 统计学课程组,79,方差与标准差,注意: 方差和标准差是根据全部数据计算的,它反映了每个数据与其均值相比平均相差的数值; 它能准确地反映出数据的离散程度; 方差和标准差是应用最广泛的离散程度测度值。,2019/4/15,版权所有 BY 统计学课程组,80,总体方差与标准差的计算公式,总体标准差,2019/4/15,版权所有 BY 统计学课程组,81,样本方差和标准差(记住)p92 (simple variance and standard deviation),未分组数据:,组距分组数据:,未分组数据:,组距分组数据:,方差的计算公式,标准差的计算公式,2019/4/15,版权所有 BY 统计学课程组,82,方差与标准差的应用,【例3.20】要求:根据表中的数据计算120名职工通信费用支出额的方差和标准差。,2019/4/15,版权所有 BY 统计学课程组,83,方差与标准差的计算,【解】 已知平均数为165元,因是随机抽取的样本资料,故依据样本方差及标准差的公式计算。 计算结果表明,样本中每名职工月通信费用支出额与 月平均通信费用支出额165元的水平相比,差异有大 有小,但平均偏差是51.4元。,2019/4/15,版权所有 BY 统计学课程组,84,方差与标准差的应用,【例3.22】 考察一台机器的生产状况,利用抽样程序 来检验其生产出来的产品质量是否稳定。据行业标准, 如果样本零件尺寸的标准差大于0.3公分,则表明该零件 的质量不稳定,需要对该机器进行停工检修。数据如下: 要求:根据资料,判断该机器是否需要停工修。,2019/4/15,版权所有 BY 统计学课程组,85,方差与标准差的应用,解: 计算的样本标准差0.2126公分,小于0.3分,表明该台机器不需要停工检修 。,注意:标准差是一个重要的偏差,描述了各观察值与均值的平均距离。,2019/4/15,版权所有 BY 统计学课程组,86,六、离散系数 p94,离散系数(标准差系数或变异系数)通常是用标准差来计算的,它是一组数据的标准差与其相应的均值之比,是测度数据离散程度的相对指标,其计算公式为: 式中:V和Vs分别表示总体离散系数和样本离散系数。,2019/4/15,版权所有 BY 统计学课程组,87,离散系数的应用,平均水平或计量单位不同的不同组别的变量值,不能直接用离散程度的测度值比较。 平均水平或计量单位不同的不同组别进行比较,需计算离散系数。 离散系数大的说明该组数据的离散程度也就大,离散系数小的说明该组数据的离散程度小。,2019/4/15,版权所有 BY 统计学课程组,88,离散系数的应用,【例3.22】从某管理局所属的两家企业中各随机抽取10名职工,调查获得他们的年收入数据如表所示:,要求:根据上表数据计算男女生的平均身高以及标准差系数,说明两组数据的离散程度及平均数的代表性。,2019/4/15,版权所有 BY 统计学课程组,89,结论: 计算结果表明,v乙v甲,说明乙企业职工年收入的离散程度小于甲企业的 。说明乙企业职工年收入平均水平比的甲企业的更具有代表性。 注意:解决问题的程序与步骤。(四步),2019/4/15,版权所有 BY 统计学课程组,90,七、标准分数,问题:某同学在期末考试中,英语成绩91分,数学成绩85分,问该同学这两门课,哪门成绩更好些? 该班英语平均成绩105分,标准差7分; 该班数学平均成绩80分 标准差5分。 该班80人,成绩服从对称分布 标准分数的 计算公式为:,2019/4/15,版权所有 BY 统计学课程组,91,标准分数的计算 (标准分数又称标准化值),对某一个值在一组数据中相对位置的度量 可用于判断一组数据是否有离群点(离群数) 用于对变量值的标准化处理 前例中, Z0,观察值低于平均数,位于平均值左侧; Z0,观察值高于平均水平,位于平均值右侧。,2019/4/15,版权所有 BY 统计学课程组,92,标准分数(性质) P97,注意: z分数只是将原始数据进行了线性变换,它并没有改变一个数据在该组数据中的位置,也没有改变该组数分布的形状,而只是将该组数据变为均值为0,标准差为1。,2019/4/15,版权所有 BY 统计学课程组,93,标准分数(性质),一组数据的标准分数的均值等于0 2. 一组数据的标准分数的方差等于1,2019/4/15,版权所有 BY 统计学课程组,94,经验法则 p97,标准分数可用以判断一组数据是否有离群点。 经验法则表明: 当一组数据对称分布时, 约有68%的数据在平均数加减1个标准差的范围之内; 约有95%的数据在平均数加减2个标准差的范围之内; 约有99%的数据在平均数加减3个标准差的范围之内 。,2019/4/15,版权所有 BY 统计学课程组,95,切比雪夫不等式 (Chebyshevs inequality ) p97,如果一组数据不是对称分布,经验法则就不再适用。 切比雪夫不等式,它对任何分布形状的数据都适用 对于任意分布形态的数据,根据切比雪夫不等式,至少有1-1/k2的数据落在k个标准差之内。其中k是大于1的任意值,但不一定是整数 切比雪夫不等式提供的是“下界”,也就是“所占比例至少是多少”,2019/4/15,版权所有 BY 统计学课程组,96,切比雪夫不等式 (Chebyshevs inequality ) p97,至少有75%的数据在平均数加减2个标准差的范围内 至少89%的数据在平均数加减3个标准差的范围之内 至少94%的数据在平均数加减4个标准差的范围之内 注意: 无论是经验法则还是切比雪夫不等式都告诉我们,数据组

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论