统计学 第2章 统计数据的描述_第1页
统计学 第2章 统计数据的描述_第2页
统计学 第2章 统计数据的描述_第3页
统计学 第2章 统计数据的描述_第4页
统计学 第2章 统计数据的描述_第5页
已阅读5页,还剩137页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第2章

统计数据的描述第2章统计数据的描述2.1统计数据的整理2.2分布集中趋势的测度2.3分布离散程度的测度2.4分布偏态与峰度的测度2.5统计表与统计图本章小结一、统计数据的预处理(补充)二、统计数据的分组

三、次数分配四、次数分配直方图五、洛伦茨曲线与基尼系数2.1统计数据的整理一、数据的预处理数据的审核:从数据的完整性、准确性、适用性、时效性几个方面发现数据的错误数据的筛选:找出符合条件的数据,对于错误的或不符合条件的数据予以剔除1、数据的审核与筛选2、数据的排序补充数据的审核(原始数据)完整性审核检查应调查的单位或个体是否有遗漏所有的调查项目或指标是否填写齐全准确性审核检查数据是否真实反映客观实际情况,内容是否符合实际检查数据是否有错误,计算是否正确等数据的审核(第二手数据)适用性审核弄清楚数据的来源、数据的口径以及有关的背景材料确定这些数据是否符合自己分析研究的需要时效性审核应尽可能使用最新的统计数据数据的筛选数据筛选的内容包括:将某些不符合要求的数据或有明显错误的数据予以剔除将符合某种特定条件的数据筛选出来,而不符合特定条件的数据予以剔出数据的排序

按一定顺序将数据排列,以发现一些明显的特征或趋势,找到解决问题的线索,排序还有助于对数据检查纠错,以及为重新归类或分组等提供依据

在Excel中,利用升序或降序图表就可以简单对列数据进行排序二、统计数据的分组品质标志和数量标志

标志按其性质可以分为品质标志和数量标志品质标志是表明总体单位的质的特征的名称。例如,工人的性别、民族、文化程度、工种等这一类标志,不能用数量而只能以性质属性上的差别即文字来表示,称为品质标志。数量标志是表明总体单位的量的特征的名称。例如,工人的年龄、工龄、工资,工业企业的工人数、产量、产值、固定资产等等,只能以数量的多少来表示,称为数量标志。

在数据整理中,主要方法是对品质数据(定类数据、定序数据)做分类整理;定类数据表现为类别,分类的标准称为定类尺度,定类数据不区分顺序。如金融、纺织等行业分类。定序数据表现为类别,分类的标准称为定序尺度,定序数据有等级差异或顺序差异。如优秀、良好、中等、及格、不及格。对数量数据则做分组整理定距尺度:是对现象类别或现象之间的间距进行测度,也称间隔数据。无零点,如温度,衣服尺寸。定比尺度:对现象进行观测计数或计算。具有加减乘除功能。(一)定类数据的整理定类数据整理方法1)列出各类别2)计算各类别的频数(频率)3)制作频数(频率)分布表4)用图形显示数据定类数据整理中一般采用的可计算的指标:频数:落在各类别中的数据个数百分比(频率):某一类别数据占全部数据的比值比率:不同类别数值的比值定类数据整理—频数分布表(实例)【例】为研究广告市场的状况,一家广告公司在某城市随机抽取200人就广告问题做了邮寄问卷调查,其中的一个问题是“您比较关心下列哪一类广告?”

1.商品广告;2.服务广告;3.金融广告;4.房地产广告;5.招生招聘广告;6.其他广告。表某城市居民关注广告类型的频数分布

广告类型人数(人)频率(%)

商品广告服务广告金融广告房地产广告招生招聘广告其他广告1125191610256.025.54.58.05.01.0合计200100整理后得的定类数据的显示常见方法柱形图(条形图)是用矩形的高度来表示各类别数据的频数或频率。绘制时,各类别放在横轴,称为柱形图,也可以放在纵轴,称为条形图人数(人)5191610211204080120

商品广告

服务广告

金融广告

房地产广告

招生招聘广告

其他广告广告类型

圆形图主要用于表示总体中各组成部分所占的比例,对于研究结构性问题十分有用。在绘制圆形图时,总体中各部分所占的百分比用园内的各个扇形面积表示。

其他广告1.0%

房地产广告8.0%

商品广告56.0%

金融广告4.5%

服务广告25.5%

招生招聘广告5.8%图某城市居民关注不同类型广告的人数构成(二)定序数据的整理定序数据中可计算的指标:累计频数:将各类别的频数逐级累加(由小到大向上累加和由大到小向下累加)累计频率:将各类别的频率(百分比)逐级累加定序数据整理方法1)列出各类别2)计算各类别的频数(频率、累计频数、累计频率)3)制作频数(频率、累计频率、累计频数)分布表4)用图形显示数据定序数据频数分布表(实例)【例】在一项城市住房问题的研究中,研究人员在甲乙两个城市各抽样调查300户,其中的一个问题是:“您对您家庭目前的住房状况是否满意?

1.非常不满意;2.不满意;3.一般;4.满意;5.非常满意。

表甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)百分比(%)向下累积

向上累积

户数(户)百分比(%)户数(户)百分比(%)

非常不满意

不满意

一般

满意

非常满意24108934530836311510241322252703008.044.075.090.0100.03002761687530100.092562510合计300100.0————定序数据的显示—累计频数分布图

(由Excel绘制的累计频数分布图)243001322252700100200300400

非常不满意

不满意

一般

满意

非常满意累积户数(户)(a)向下累积27616830300750100200300400

非常不满意

不满意

一般

满意

非常满意累积户数(户)(b)向上累积图甲城市家庭对住房状况评价的累积频数分布定类、定序数据的图示—环形图环形图可以同时绘制多个总体的数据系列,从而可用于进行比较研究

8%36%31%15%7%33%26%21%13%10%

非常不满意

不满意

一般

满意

非常满意

图3-4甲乙两城市家庭对住房状况的评价

为评价家电行业售后服务的质量,随机抽取了由100家庭构成的一个样本。服务质量的等级分别表示为:A.好;B.较好;C.一般;D.差;E.较差。调查结果如下表:(1)指出下面的数据属于什么类型;(2)制作一张频数分布表;(3)

绘制一张条形图,反映评价等级的分布。BECCADCBAEDACBCDECEEADBCCAEDCBBACDEABDDCCBCEDBCCBCDACBCDECEBBECCADCBAEBACDEABDDCADBCCAEDCBCBCEDBCCBC练习(1)属于定序数据。(2)频数分布表如下:服务质量等级评价的频数分布(3)条形图(略)服务质量等级家庭数(频数)频率%A1414B2121C3232D1818E1515合计100100(三)组距分组

组距分组是指根据研究的任务和对象的特点,按照一定的分组标志将总体分为若干组成部分的工作。

具体含义:1、对总体而言是“分”即将总体分为性质相异的若干部分2、对个体而言是“合”,将在某些方面性质相同的个体组合起来组距分组要点将变量值的一个区间作为一组适合于连续变量适合于变量值较多的情况需要遵循“不重不漏”的原则可采用等距分组,也可采用不等距分组~~~~~幻灯片11组距分组中基本概念1.下限(lowlimit)

:一个组的最小值2.上限(upperlimit)

:一个组的最大值3.重复组限、不重复组限4.开口组、封口组5.组距(classwidth)

:上限与下限之差6.组中值(classmidpoint)

:下限与上限之间的中点值(开口组和封口组分别计算)下限值+上限值2组中值=组距分组

(步骤)确定组数:组数的确定应以能够显示数据的分布特征和规律为目的确定组距:组距(classwidth)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即

组距=(最大值-最小值)÷组数统计出各组的频数并整理成频数分布表等距分组表(上下组限重叠)表某车间50名工人日加工零件数分组表按零件数分组频数(人)频率(%)105~110110~115115~120120~125125~130130~135135~140358141064610162820128合计50100“上组限不在内原则”等距分组表(上下组限间断)表某车间50名工人日加工零件数分组表按零件数分组频数(人)频率(%)105~109110~114115~119120~124125~129130~134135~139358141064610162820128合计50100等距分组表(使用开口组)表某车间50名工人日加工零件数分组表按零件数分组频数(人)频率(%)110以下110~114115~119120~124125~129130~134135以上358141064610162820128合计50100使用了开口组,无上限情形等距分组与异距分组的比较等距分组:适用于标志变异比较均匀的现象;可直接根据绝对频数来观察频数分布的特征和规律异距分组:适用于分布存在着明显偏斜状况;各组绝对频数的多少不能反映频数分布的实际状况,需要用频数密度(频数密度=频数/组距)反映频数分布的实际状况

某行业管理局所属40个企业2002年的产品销售收入数据如下(单位:万元):

1521241291161001039295127104105119114115871031181421351251171081051101071371201361171089788123115119138112146113126(1)根据上面的数据进行适当的分组,编制频数分布表,并计算出累积频数和累积频率;(2)如果按规定:销售收入在125万元以上为先进企业,115万~125万元为良好企业,105万~115万元为一般企业,105万元以下为落后企业,按先进企业、良好企业、一般企业、落后企业进行分组。练习(1)频数分布表如下:40个企业按产品销售收入分组表按销售收入分组(万元)企业数(个)频率(%)向上累积向下累积企业数频率企业数频率100以下100~110110~120120~130130~140140以上591274312.522.530.017.510.07.55142633374012.535.065.082.592.5100.04035261473100.087.565.035.017.57.5合计40100.0————(2)某管理局下属40个企分组表按销售收入分组(万元)企业数(个)频率(%)先进企业良好企业一般企业落后企业11119927.527.522.522.5合计40100.0三、次数分配(频数分布)【例】某车间30名工人每周加工某种零件件数如右表,试对数据进行分组。

次数分配表(频数分布表)四、次数分配直方图

(histogram)用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图直方图下的总面积等于1Excel分组数据的图示

(直方图的绘制)某车间工人周加工零件直方图

我一眼就看出来了,周加工零件在100~110之间的人数最多!折线图

(frequencypolygon)折线图也称频数多边形图是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉折线图的两个终点要与横轴相交,具体的做法是第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的分组数据的图示

(折线图的绘制)某车间工人周加工零件折线图

折线图与直方图下的面积相等!当观察的次数越多,组距越小,拆线就越光滑,逐渐形成一条光滑的次数分布曲线次数(频数)分配的类型对称分布右偏分布左偏分布正J型分布反J型分布U型分布几种常见的频数分布下面是北方某城市1~2月份各天气温的记录数据:指出下表的数据属于什么类型;对下表的数据进行适当的分组;绘制直方图和拆线图,说明该城市气温分布的特点。-32-4-7-11-1789-6-7-14-18-15-9-6-105-4-9-3-6-8-12-16-19-15-22-25-24-19-21-8-6-15-11-12-19-25-24-18-17-24-14-22-13-9-60-15-4-9-3-32-4-4-16-175-6-5练习(1)属于数值型数据(2)分组结果如右:(3)直方图分组天数(天)-25~-206-20~-158-15~-1010-10~-513-5~0120~545~107合计60五、洛伦茨曲线与基尼系数洛伦茨曲线20世纪初美国经济学家、统计学家洛伦茨(M.E.Lorentz)根据意大利经济学家帕累托(V.Pareto)提出的“二八原理”和收入分配公式绘制而成的描述收入和财富分配性质的曲线用以分析一个国家或地区分配的平均程度AB累积的人口百分比累积的收入百分比绝对公平线基尼系数20世纪初意大利经济学家基尼(G.Gini)根据洛伦茨曲线给出了衡量收入分配平均程度的指标

A表示实际收入曲线与绝对平均线之间的面积B表示实际收入曲线与绝对不平均线之间的面积如果A=0,则基尼系数=0,表示收入绝对平均如果B=0,则基尼系数=1,表示收入绝对不平均基尼系数在0和1之间取值一般认为,基尼系数若小于0.2,表明分配平均;基尼系数在0.2至0.4之间是比较适当的,即一个社会既有效率又没有造成极大的分配不公;基尼系数在0.4被认为是收入分配不公平的警戒线,超过了0.4应该采取措施缩小这一差距。AB累积的人口百分比

累积的收入百分比绝对平均线一、众数二、中位数三、分位数四、均值五、几何平均数六、切尾均值七、众数、中位数和均值的关系2.2分布集中趋势的测度一、众数

(mode)众数是由英国统计学家皮尔逊首先提出来的。将数据按大小顺序排队形成次数分配后,在统计分布中具有明显集中趋势点的数值。一组数据中出现次数最多的变量值适合于数据量较多时使用不受极端值的影响一组数据可能没有众数或有几个众数主要用于分类数据,也可用于顺序数据和数值型数据是一种位置代表值,应用场合比较有限众数

(不惟一性)无众数

原始数据:10591268一个众数

原始数据:65

9855多于一个众数

原始数据:252828

364242例如:某制鞋厂要了解消费者最需要哪种型号的男皮鞋,调查了某百货商场某季度男皮鞋的销售情况,得到资料如下表(某商场某季度男皮鞋销售情况):请问众数是多少?男皮鞋号码/厘米销售量/双24.01224.58425.011825.554126.032026.510427.052合计1200众数是一种位置平均数,是总体中出现次数最多的变量值,因而在实际工作中有时有它特殊的用途。如:要说明一个企业中工人最普遍的技术等级,说明消费者需要的内衣、鞋袜、帽子等最普遍的号码,说明农贸市场上某种农副产品最普遍的成交价格等,都需要利用众数。但是必须注意,从分布的角度看,众数是具有明显集中趋势点的数值,只有在总体单位比较多,而且又明显地集中于某个变量值时,计算众数才有意义。分组数据众数计算首先确定众数所在组,即出现频数最高的组众数通常用下面的近似公式:例:依据课本第18页表2.7按公式计算得5-50众数练习:公司职工按月工资分组月工资职工人数(人)500以下208500-600314600-700382700-800456800-900305900-10002371000-1100781100以上20合计2000

众数最不受极端变量值的影响。

二、中位数(median)

排序后处于中间位置上的值Me50%50%不受极端值的影响,称中位数具有稳健性主要用于顺序数据,也可用于数值型数据,但不能用于分类数据如果数据中某一数值大量重复时,中位数不一定准确各变量值与中位数的离差绝对值之和最小,即

数值型数据的中位数

(9个数据的算例)【例】

9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:7507808509601080

1250150016302000位置:1234

56789中位数1080数值型数据的中位数

(10个数据的算例)【例】:10个家庭的人均月收入数据排序:

660

75078085096010801250150016302000位置:1234

5678910分组数据中位数计算首先确定中位数所在组:看第N/2个数所在组即为中位数所在组(需要计算累积频数)对已分组的数据中位数计算公式(前提条件是假设各组数据在组中均匀分布)其中:N/2为中位数所在位置;L表示中位数所在组的下组限;分别表示中位数所在组以前(后)各组的累计次数;表示中位数所在组的次数;i表示中位数所在组的组距。中位数的性质中位数具有稳健性,个别极端大或极端小的值的变化不影响中位数数值。数据值与中位数之差的绝对值之和最小。即中位数和数据值的距离最短。即:5-56中位数练习:某公司职工按月工资分组月工资职工人数(人)向上累计次数(人)500以下208208500-600314522600-700382904

700-8004561360800-9003051665900-100023719021000-11007819801100以上202000合计2000—三、分位数分位数根据其将数列等分的形式不同可以分为中位数,四分位数,十分位数、百分位数等等。与中位数性质相似四分位数将数据分布4等分十分位数将数据分布10等分百分位数将数据分布100等分四分位数作为分位数的一种形式,在统计中有着十分重要的意义和作用。

四分位数

(quartile)排序后处于25%和75%位置上的值不受极端值的影响主要用于顺序数据,也可用于数值型数据,但不能用于分类数据QLQMQU25%25%25%25%Q3Q1Q2人们经常会将数据划分为4个部分,每一个部分大约包含有1/4即25%的数据项。这种划分的临界点即为四分位数。它们定义如下:Q1=第1四分位数,即第25百分位数;Q2=第2四分位数,即第50百分位数;Q3=第3四分位数,即第75百分位数四分位数

(位置的确定)原始数据:分组数据:数值型数据的四分位数(9个数据的算例)【例】:9个家庭的人均月收入数据原始数据:

15007507801080850960200012501630排序:

75078085096010801250150016302000位置:123456789数值型数据的四分位数

(10个数据的算例)【例】:10个家庭的人均月收入数据排序:

660

75078085096010801250150016302000位置:1234

5678910练习:某车间某月份的工人生产某产品的数量分别为13、13.5、13.8、13.9、14、14.6、14.8、15、15.2、15.4公斤,则三个四分位数的位置分别为多少?Q1的位置Q2的位置Q3的位置即变量数列中的第2.75项、第5.5项、第8.25项工人的某种产品产量分别为下四分位数、中位数和上四分位数。Q1=0.25×第二项+0.75×第三项=0.25×13.5+0.75×13.8=13.73(公斤)Q2=0.5×第五项+0.5×第六项=0.5×14+0.5×14.6=14.3(公斤)Q3=0.75×第八项+0.25×第九项=0.75×15+0.25×15.2=15.05(公斤)在实际资料中,由于标志值序列中的相邻标志值往往是相同的,因而不一定要通过计算才能得到有关的四分位数。对已分组的组距式数列四分位数计算向上或向下累计次数;根据累计次数确定四分位数的位置:Q1的位置=(∑f+1)/4,Q2的位置=2(∑f+1)/4,Q3的位置=3(∑f+1)/4。∑f表示数据资料的总次数;根据四分位数的位置计算各四分位数(向上累计次数,按照下限公式计算四分位数):其中:表示第i个四分位数,i=1,2,3;N表示总次数,L表示四分位数所在组的下组限;表示四分位数所在组以下各组的累计次数;表示四分位数所在组的次数;di表示四分位数所在组的组距。分组数列分位数计算推广向上或向下累计次数;根据累计次数确定分位数的位置:p(∑f+1)/M,∑f表示数据资料的总次数;p为第几个分位数,M为多少分位数,十分位数即M=10根据分位数的位置计算各分位数(向上累计次数,按照下限公式计算四分位数):其中:表示第p个分位数,p=1,2,3;N表示总次数,同∑f,L表示分位数所在组的下组限;表示分位数所在组以下各组的累计次数;表示分位数所在组的次数;di表示分位数所在组的组距。四、均值(算术平均数)

(mean)集中趋势的最常用测度值一组数据的均衡点所在体现了数据的必然性特征易受极端值的影响用于数值型数据,不能用于分类数据和顺序数据简单算术均值

(simplemean)设一组数据为:x1,x2,…,xn总体均值样本均值加权均值

(weightedmean)设一组数据为:x1,x2,…,xn相应的频数为:

f1,f2,…,fk样本均值总体均值分组数据加权均值

(例题分析:已分组并形成次数分配的数据)

工人日产量(件)工人人数(人)工人人数比重(%)1011121314701003801501008.7512.5047.5018.7512.50合计800100.00分组数据加权均值

(例题分析:已分组并只知道频率的数据)加权均值(权数对均值的影响)X甲0×1+20×1+100×8n10i=1Xi82(分)X乙0×8+20×1+100×1n10i=1Xi

12(分)甲乙两组各有10名学生,考试成绩及其分布数据如下

甲组:

考试成绩(X): 020100

人数分布(F):118

乙组:考试成绩(X): 020100

人数分布(F):811均值

(数学性质)1. 各变量值与均值的离差之和等于零2.各变量值与均值的离差平方和最小

常作为加权算术平均数的变形公式使用。仍是总体的标志总量与总体单位总量的对比,仅仅是因为资料的不同,需要将算术平均数变形。

某供销社分三批收购某种农副产品,其收购单价及各批收购额如下:批次单价(元)收购额12.40600022.251200032.152150合计~20150调和平均数(倒数平均数)工人日产量(件)

x工人日总产量(件)

xf10111213147001100456019501400合计9710调和平均数练习五、几何平均数

(geometricmean)

n个变量值乘积的

n次方根适用于对比率数据的平均主要用于计算平均增长率如:平均利率、平均发展速度、平均合格率等

计算公式为5.可看作是均值的一种变形例1

某流水生产线有前后衔接的五道工序。某日各工序产品的不合格率分别为5%、8%、10%、15%、20%,整个流水线产品合格率?例2

某金融机构以复利方式计息。近12年来的年利率有4年为3%、2年为5%,2年为8%、3年为10%、1年为15%。则12年的平均年利率?

平均年利率=106.82%-1=6.82%几何平均数的特点几何平均数受极端值的影响较算术平均数小。如果变量值有负值,计算出的几何平均数就会成为负数或虚数。它仅适用于具有等比或近似等比关系的数据。变量数列中任何一个变量值不能为0,一个为0,则几何平均数为0。用环比指数计算的几何平均易受最初水平和最末水平的影响。几何平均法主要用于动态平均数的计算。平均发展水平又称“序时平均数”、“动态平均数”,是时间序列中各项发展水平的平均数,反映现象在一段时期中发展的一般水平。六、切尾均值

(trimmedMean)

去掉大小两端的若干数值后计算中间数据的均值,是综合了均值与中位数优点的一种较理想的统计量

在电视大奖赛、体育比赛及需要人们进行综合评价的比赛项目中已得到广泛应用计算公式为n

表示观察值的个数;α表示切尾系数,

切尾均值(例题分析)【例】谋次比赛共有11名评委,对某位歌手的给分分别是:经整理得到顺序统计量值为去掉一个最高分和一个最低分,取切尾系数α=1/11七、众数、中位数和均值的关系对称分布

均值=中位数=众数==右偏分布众数

中位数

均值左偏分布均值

中位数

众数偏态众数、中位数、均值的特点和应用众数不受极端值影响具有不惟一性数据分布偏斜程度较大时应用中位数不受极端值影响数据分布偏斜程度较大时应用均值易受极端值影响数学性质优良数据对称分布或接近对称分布时应用众数最易计算,但可能不存在,应用较少中位数直观,不受极端值影响,但不能充分利用数据信息均值在整个统计方法中应用最为广泛某百货公司6月份各天的销售额数据如下(单位:万元),计算该百货公司日销售额的均值、中位数和四分位数。257276297252238310240236265278271292261281301274267280291258272284268303273263322249269295=274.1(万元);Me=272.5;QL=260.25;QU=291.25。综合练习2.3分布离散程度的测度一、极差二、内距三、方差和标准差四、离散系数一、极差

(range)一组数据的最大值与最小值之差离散程度的最简单测度值易受极端值影响未考虑数据的分布7891078910R

=max(xi)-min(xi)计算公式为二、内距

(Inter-QuartileRange,IQR)

1.也称四分位差2.上四分位数与下四分位数之差

内距=Q3

–Q13.反映了中间50%数据的离散程度4.不受极端值的影响5.可用于衡量中位数的代表性Q1Q2Q325%25%25%25%Q4内距的优缺点其计算实质是,将总体各单位从小到大排序后,用居于中间50%的数据的全距来反映差异程度优点:很好地克服了全距易受极端值影响、不能计算开口组全距这一缺陷;适合衡量中位数的代表性缺点:依然不能反映所有数据的变动情况数值型未分组数据的四分位差

(算例)Q1=23Q3=30Q.D.=7N+17+1Q1位置=4=4=2Q3位置=3(N+1)43(7+1)4==6原始数据:

23213032282526排序:2123

2526283032位置:1234567四分位的位置5-91平均差——是各标志值对其算术平均数的离差绝对值的平均数。三、平均差计算平均差步骤:第一步,求各标志值与算术平均数的离差;第二步,求离差的绝对值;第三步,将离差绝对值的总和除以项数(n)或总次数平均差数值越小,其平均数的代表性越大(好)。平均差的计算举例表3-3

某车间50名工人日加工零件标准差计算表按零件数分组组中值(Xi)频数(Fi)|Xi-X||Xi-X|Fi105~110110~115115~120120~125125~130130~135135~140107.5112.5117.5122.5127.5132.5137.535814106415.710.75.70.74.39.314.347.153.545.69.843.055.857.2合计—50—312【例】根据下表的数据,计算工人日加工零件数的平均差四、方差和标准差

(VarianceandStandarddeviation)1. 方差和标准差是测度数据变异程度的最重要、最常用的指标。2. 方差是各个数据与其算术平均数的离差平方和的平均数,方差的计量单位不便于从经济意义上进行解释,所以实际统计工作中多用方差的算术平方根——标准差来测度统计数据的差异程度。标准差又称均方差。4681012x=8.31.根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差

2.方差和标准差的计算也分为简单平均法和加权平均法,另外,对于总体数据和样本数据,公式略有不同。3.优点反映了数据的分布反映了各变量值与均值的平均差异以均值为中心,提取了全部数据中的离差信息,这使得它在反映离散程度方面更为全面; 保证了在说明均值代表性方面的良好性质。方差的特点总体方差和标准差

(PopulationvarianceandStandarddeviation)组距分组数据:未分组数据:组距分组数据:方差的计算公式标准差的计算公式未分组数据:加权平均数总体标准差的计算表某车间50名工人日加工零件标准差计算表按零件数分组组中值(Xi)频数(Fi)(Xi-X)2(Xi-X)2Fi105~110110~115115~120120~125125~130130~135135~140107.5112.5117.5122.5127.5132.5137.5358141064246.49114.4932.490.4918.4986.49204.49739.47572.45259.926.86184.90518.94817.96合计—50—3100.5【例】根据数据,计算工人日加工零件数的标准差,平均值为123.2。

课堂练习:某厂工人按工资分组的资料,根据资料计算该厂工人日工资的标准差。

按日工资额分组各组工人所占比重(%)70元以下1570~80元2580~90元3590~100元15100元以上10

合计100样本方差和标准差

(simplevarianceandstandarddeviation)未分组数据:组距分组数据:未分组数据:组距分组数据:方差的计算公式标准差的计算公式注意:样本方差用自由度n-1去除!样本方差、样本标准差(算例)原始数据:10 591368样本方差

自由度(degreeoffreedom)

一组数据中可以自由取值的数据的个数。当样本数据的个数为

n

时,若样本均值x

确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值。这里,均值就相当于一个限制条件,由于加了这个限制条件,估计总体方差的自由度为n-1。例如,样本有3个数值,即x1=2,x2=4,x3=9,则x=5。当x

=5确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值从实际应用角度看,在抽样估计中,用自由度n-1计算的样本方差s2去估计总体方差σ2时,它是σ2的无偏估计量五、离散系数

(coefficientofvariation)

离散系数又称“变异系数”。是用来说明标志变异程度的相对指标,通常指标准差与平均数之比,一般以百分数表示。由于全距、平均差、标准差等标志变异指标都是根据标志值绝对数计算的,其大小不仅取决于标志值之间变异的大小,而且与标志值平均水平的高低有关。要比较不同水平的数列之间的变异程度,就需要计算反映标志变动程度的相对指标。离散系数小,说明标志变动程度小,平均数代表性好;反之,说明标志变动程度大。离散系数的公式

(coefficientofvariation)1.标准差与其相应的均值之比2.对数据相对离散程度的测度3.消除了数据水平高低和计量单位的影响4.用于对不同组别数据离散程度的比较5.计算公式为总体离散系数样本离散系数离散系数

(练习)某管理局所属8家企业的产品销售数据企业编号产品销售额(万元)x1销售利润(万元)x21234567817022039043048065095010008.112.518.022.026.540.064.069.0【例】某管理局抽查了所属的8家企业,其产品销售数据如表。试比较产品销售额与销售利润的离散程度离散系数

(练习)结论:计算结果表明,v1<v2,说明产品销售额的离散程度小于销售利润的离散程度v1=536.25309.19=0.577v2=32.521523.09=0.710练习:某班分甲、乙两个学习小组,在统计学考试中,甲小组平均成绩75分,标准差11.5分,乙小组成绩资料如下。

成绩(分)

人数(人)60分以下260-70570-80880-90690分以上4

合计25要求(1)计算乙小组平均成绩。(2)以尽可能精确的方法比较两小组平均成绩的代表性。(要求:绝对数、平均数和百分数均保留两位小数)(1)(2)加权标准差计算:2.4分布偏态与峰度的测度一、偏态及其测度二、峰度及其测度扁平分布尖峰分布偏态峰度左偏分布右偏分布偏态与峰度一、偏态及其测度偏态是对数据分布偏斜方向及程度的测度利用众数、中位数、均值之间的关系可以判断偏斜的方向,而偏态系数则是测度分布偏斜程度。常用计算公式为:偏态系数=0为对称分布偏态系数>0为右(正)偏分布偏态系数<0为左(负)偏分布偏态(实例)【例】已知1997年我国农村居民家庭按纯收入分组的有关数据如表。试计算偏态系数表1997年农村居民家庭纯收入数据按纯收入分组(元)户数比重(%)500以下500~10001000~15001500~20002000~25002500~30003000~35003500~40004000~45004500~50005000以上2.2812.4520.3519.5214.9310.356.564.132.681.814.94偏态系数(计算过程)表农村居民家庭纯收入数据偏态及峰度计算表纯收入分组(百元)组中值Xi户数比重(%)Fi(Xi-X)3Fi(Xi-X)4

Fi5以下5—1010—1515—2020—2525—3030—3535—4040—4545—5050以上2.57.512.517.522.527.532.537.542.547.552.52.2812.4520.3519.5214.9310.356.564.132.681.814.94-154.64-336.46-144.87-11.840.1823.1689.02171.43250.72320.741481.812927.154686.511293.5346.520.20140.60985.492755.005282.948361.9846041.33合计—1001689.2572521.25偏态系数(计算结果)根据上表数据计算得将计算结果代入公式得结论:偏态系数为正值,而且数值较大,说明农村居民家庭纯收入的分布为右偏分布,即收入较少的家庭占据多数,而收入较高的家庭则占少数,而且偏斜的程度较大

二、峰度及其测度峰度是数据分布扁平程度的测度一般与标准正态分布比较,若分布的形状比标准正态分布更高更瘦,则称尖峰分布;若更扁平则称扁平分布。峰度系数计算公式:峰度系数=0扁平程度适中(正态分布)峰度系数<0为扁平分布峰度系数>0为尖峰分布正态分布是一种概率分布,它的图像是一条位于x轴上方的钟形曲线,高峰位于正中央(即均数所在的位置),分别向左右两侧逐渐均匀下降,左右对称,曲线两端永远不与横轴相交。正态分布有两个参数,即均数μ和标准差σ,可记作N(μ,σ2):均数μ决定正态曲线的中心位置;标准差σ决定正态曲线的陡峭或扁平程度。σ越小,曲线越陡峭;σ越大,曲线越扁平。当μ=0,σ2

=1时,称为标准正态分布,记为N(0,1)。峰度系数系数(实例计算结果)代入公式得

【例】根据表计算结果,计算农村居民家庭纯收入分布的峰度系数

结论:由于0.4>0,说明我国农村居民家庭纯收入的分布为尖峰分布,右偏,说明低收入家庭占有较大的比重

偏态与峰度(从直方图上观察)按纯收入分组(元)户数比重(%)252015105农村居民家庭村收入数据的直方图1000500←15002000250030003500400045005000→结论:1.为右偏分布

2.峰度适中产品名称单位成本(元)总成本(元)甲企业乙企业ABC152030210030001500325515001500甲企业平均成本=19.41(元),乙企业平均成本=18.29(元);原因:尽管两个企业的单位成本相同,但单位成本较低的产品在乙企业的产量中所占比重较大,因此拉低了总平均成本。练习:甲乙两个企业生产三种产品的单位成本和总成本资料如表:比较哪个企业的总平均成本高?并分析其原因。练习在某地区抽取的120家企业按利润额进行分组,结果如表:按利润额分组(万元)企业数(个)200~30019300~40030400~50042 500~600 18600以上11合计120

计算120家企业利润额的均值和标准差。(万元)

=426.67(万元);练习对10名成年人和10名幼儿的身高(厘米)进行抽样调查,结果如表:成年组166169172177180170172174168173幼儿组68696870717372737475(1)要比较成年组和幼儿组的身高差异,你会采用什么样的指标测度值?为什么?(2)比较分析哪一组的身高差异大?由于幼儿组身高的离散系数大于成年组身高的离散系数,说明幼儿组身高的离散程度相对较大。

幼儿组身高的离散系数:(1)离散系数,因为它消除了不同组数据水平高地的影响。(2)成年组身高的离散系数:一、统计表二、统计图2.5统计表与统计图一、统计表(统计表的结构)表1997~1998年城镇居民家庭抽样调查资料项目单位1997年1998年

一、调查户数二、平均每户家庭人口数三、平均每户就业人口数四、平均每人全部收入五、平均每人实际支出#消费性支出非消费性支出六、平均每人居住面积户人人元元元元平方米378903.191.835188.544945.874185.64755.9411.90390803.161.805458.345322.954331.61987.1712.40资料来源:《中国统计摘要1999》,中国统计出版社,1999,第79页。注:1.本表为城市和县城的城镇居民家庭抽样调查材料。

2.消费性支出项目包括:食品、衣着、家庭设备用品及服务、医疗保健、交通和通讯、娱乐教育文化服务、居住、杂项商品和服务。行标题数字资料列标题附加表头统计表的设计要合理安排统计表的结构总标题内容应满足3W要求数据计量单位相同时,可放在表的右上角标明,不同时应放在每个指标后或单列出一列标明表中的上下两条横线一般用粗线,其他线用细线通常情况下,统计表的左右两边不封口表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一对于没有数字的表格单元,一般用“—”表示必要时可在表的下方加上注释二、统计图数据分析中使用最多的统计图有:折线图条形图圆形图环形图雷达图等在Excel的“插入”功能中利用“图表”功能键,可以利用已有数据绘出统计图形茎叶图

(stem-and-leafdisplay)用于显示未分组的原始数据的分布由“茎”和“叶”两部分构成,其图形是由数字组成的以该组数据的高位数值作树茎,低位数字作树叶树叶上只保留一位数字茎叶图类似于横置的直方图,但又有区别直方图可观察一组数据的分布状况,但没有给出具体的数值茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息茎叶图又称“枝叶图”,它的思路是将数组中的数按位数进行比较,将数的大小基本不变或变化不大的位作为一个主干(茎),将变化大的位的数作为分枝(叶),列在主干的后面,这样就可以清楚地看到每个主干后面的几个数,每个数具体是多少。未分组数据—茎叶图用于显示未分组的原始数据的分布,以该组数据的高位数值作树茎,低位数字作树叶。树茎树叶7880

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论