第4章数据概括性度量_第1页
第4章数据概括性度量_第2页
第4章数据概括性度量_第3页
第4章数据概括性度量_第4页
第4章数据概括性度量_第5页
免费预览已结束,剩余93页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第4章数据的概括性度量PowerPoint统计学概述

图表只能对数据分布的形状和特征有大致的了解,要更准确地把握数据分布的特征,还需要找到分布特征的各个代表值:数据集中趋势的代表值、数据离散程度的代表值、分布形状的代表值等。第4章数据的概括性度量4.1

集中趋势的度量4.2离散程度的度量4.3偏态与峰态的度量学习目标1. 集中趋势各测度值的计算方法2. 集中趋势各测度值的特点及应用场合3. 离散程度各测度值的计算方法4. 离散程度各测度值的特点及应用场合偏态与峰态的测度方法用Excel计算描述统计量并进行分析4.1集中趋势的度量4.1.1分类数据:众数4.1.2顺序数据:中位数和分位数4.1.3数值型数据:平均数4.1.4众数、中位数和平均数的比较集中趋势

(centraltendency)数据的集中趋势

—一组数据向其中心值靠拢的倾向和程度测度集中趋势就是寻找数据水平的代表值或中心值不同类型(分类、顺序、数值)的数据用不同的集中趋势测度值低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据分类数据:众数众数

(mode)众数

—一组数据中出现次数最多的变量值,用Mo表示适合于数据量较多时使用不受极端值的影响一组数据可能没有众数或有几个众数主要用于分类数据,也可用于顺序数据和数值型数据众数

(不惟一性)无众数

原始数据:10591268一个众数

原始数据:65

9855多于一个众数

原始数据:252828

364242分类数据的众数

(P86:例4.1)不同类型软饮的频数分布

饮料类型频数比例百分比(%)

果汁矿泉水绿茶其他碳酸饮料610118150.120.200.220.160.301220221630合计501100【例4.1】计算“饮料类型”的众数解:这里的变量为“饮料类型”,这是个分类变量,不同类型的饮料就是变量值所调查的50人中,购买碳酸饮料的人数最多,为15人,占总被调查人数的30%,因此众数为“可口可乐”这一品牌,即

Mo=碳酸饮料顺序数据的众数

(P86:例4.2)【例4.2】计算甲城市居民对住房状况的满意程度评价的众数解:这里的数据为顺序数据。变量为“回答类别”甲城市中对住房表示不满意的户数最多,为108户,因此众数为“不满意”这一类别,即

Mo=不满意甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)百分比(%)

非常不满意

不满意

一般

满意

非常满意24108934530836311510合计300100.0众数要点众数是一个位置代表值,不受数据中极端值的影响众数是具有明显集中趋势点的数值,一组数据分布的最高峰点所对应的数值即为众数如果数据的分布没有明显的集中趋势或最高峰点,众数可能不存在。如果有两个或多个最高峰点,则可能存在多个众数。(见P75:图4-1)顺序数据:中位数和分位数中位数和分位数找出一组数据经过排序后,处于某个位置上的值中位数

(median)中位数

—一组数据排序后,处于中间位置上的值,用Me表示Me50%50%不受极端值的影响主要用于顺序数据,也可用数值型数据,但不能用于分类数据各变量值与中位数的离差绝对值之和最小,即中位数

(位置和数值的确定)位置确定数值确定顺序数据的中位数

(例题分析)【例4.4】根据左表的数据求出甲城市家庭对住房满意程度的中位数。解:中位数的位置为

(300+1)/2=150.5

从累计频数看,中位数在“一般”这一组别中中位数为

Me=一般甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)累计频数

非常不满意

不满意

一般

满意

非常满意2410893453024132225270300合计300—数值型数据的中位数

(9个数据的算例)【例4.3】以下为9个家庭的人均月收入数据,求这些家庭人均收入的中位数。原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789中位数1080数值型数据的中位数

(10个数据的算例)【例】:以下为10个家庭的人均月收入数据,求其中位数排序:

660

75078085096010801250150016302000位置:1234

5678910四分位数

(quartile)四分位数

—排序后处于25%和75%位置上的值不受极端值的影响计算公式QLQMQU25%25%25%25%注意:(1)若QL(QU)为整数,则取QL(QU)对应位置上的数值为四分位数;(2)如果QL(QU)小数点后为0.5,则取该位置两侧的值的平均数;(3)如果QL或QU小数点后为0.25或0.75,则取该位置下侧值加上按比例分摊两侧数值的差值。顺序数据的四分位数

(例题分析)【例】根据左表数据求甲城市家庭对住房满意程度的四分位数。解:QL位置=(300)/4=75QU位置=(3×300)/4

=225

从累计频数看,QL在“不满意”这一组别中;QU在“一般”这一组别中四分位数为

QL

=不满意

QU

=一般甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)累计频数

非常不满意

不满意

一般

满意

非常满意2410893453024132225270300合计300—数值型数据的四分位数

(9个数据的算例)【例4.6】:根据以下9个家庭的人均月收入数据,计算人均月收入的四分位数。原始数据:15007507801080850960200012501630排序:750780850960108012501500

16302000位置:123456

789数值型数据:平均数平均数

(mean)平均数

—也称为均值,是一组数据相加后除以数据的个数得到的结果。仅适合数值型数据,不适用于分类和顺序数据集中趋势的最常用测度值一组数据的均衡点所在易受极端值的影响有简单平均数和加权平均数之分根据总体数据计算的,称为总总体平均数,记为;根据样本数据计算的,称为样本平均数,记为xx简单平均数

(Simplemean)设一组数据为:x1,x2,…,xn(总体数据xN)样本平均数总体平均数简单平均数的若干数学性质若每个变量值X加减一任意常数,则平均数也增减一个若每个变量值X乘以一任意常数,则平均数也乘以一个若每个变量值X除以一任意常数,则平均数也除以一个各个变量值X与算术平均数的离差和为零各个变量值X与算术平均数的离差平方和为最小值加权平均数

(Weightedmean)加权平均数

—根据分组数据计算的平均数设各组的组中值为:M1,M2,…,Mk

相应的频数为:f1,f2,…,fk样本加权平均总体加权平均加权平均数

(例题分析)【例4.7】根据左表数据计算电脑销售量的平均数。解:某电脑公司销售量数据分组表按销售量分组组中值(Mi)频数(fi)Mifi

140~150150~160160~170170~180180~190190~200200~210210~220220~230230~240145155165175185195205215225235491627201710845580139526404725370033152050

合计—12022200平均数的统计意义

平均数是一组数据的重心所在,是数据误差相互抵消后的结果。反映出事物必然性的数量特征。在统计学中具有重要地位。几何平均数

(geometricmean)几何平均数

—n个变量值乘积的

n次方根适用于对比率数据的平均主要用于计算平均增长率计算公式为可看作是平均数的一种变形几何平均数

(例题分析)

【例4.8】一位投资者购持有一种股票,在2000、2001、2002和2003年收益率分别为4.5%、2.1%、25.5%、1.9%。计算该投资者在这四年内的平均收益率算术平均:

几何平均:注意:当所平均的各比率数值相差不大时,算术平均和几何平均的结果相差不大,如果各比率的数值相差较大时,二者的差别就很明显。众数、中位数和平均数的比较众数、中位数、平均数的特点和应用众数不受极端值影响具有不唯一性数据分布偏斜程度较大且有明显峰值时应用主要适合于数据量较大的分类数据的集中趋势测量中位数不受极端值影响数据分布偏斜程度较大时应用主要适用于顺序数据的集中趋势测量平均数易受极端值影响数学性质优良数据对称分布或接近对称分布时应用适用于数值型数据均值、中位数与众数的关系对称分布Mo=Me=X—均值、中位数与众数的关系右偏分布Mo<Me<X—正偏(右偏)左偏分布<Me<Mo—X负偏(左偏)下列关于众数的说法,错误的是()A.一组数据可能存在多个众数B.众数主要适用于分类数据C.众数不受极端值的影响D.主要在数据分布对称的情况下,用于对数据集中程度的度量

某居民区准备采取一项新的物业管理措施,为此,随机抽取了100户居民进行调查,其中表示赞成的有69户,表示中立的有22户,表示反对的有9户。描述该数据的集中趋势最好采用()A.众数B.中位数C.四分位数D.平均数在某行业中随机抽取10家企业,第一季度的利润额(单位:万元)分别是:72,63.1,54.7,54.3,29,26.9,25,23.9,23,20。该组数据的中位数为()A.28.46B.30.2C.27.95D.39.19练习(1)DBC练习P94:4.1(1)(2)4.2(1)(2)4.2离散程度的度量4.2.1分类数据:异众比率4.2.2顺序数据:四分位差4.2.3数值型数据:方差和标准差4.2.4相对离散程度:离散系数离散程度数据的离散程度

—反映各变量值远离其中心值的程度(离散程度)数据分布的另一个重要特征从另一个侧面说明了集中趋势测度值的代表程度不同类型的数据有不同的离散程度测度值分类数据:异众比率异众比率

(variationratio)异众比率

—非众数组的频数占总频数的比例,用Vr表示用于衡量众数的代表程度,主要适合测度分类数据的离散程度(也适用于顺序和数值型数据)计算公式为fi为变量值的总频数,fm为众数组的频数Vr越大,表明众数的代表性越差,数据不集中Vr越小,表明众数的代表性越好,数据集中异众比率

(例题分析)【例4.9】根据左表数据计算异众比率解:

在所调查的50人当中,购买其他品牌饮料的人数占70%,异众比率比较大。因此,用“碳酸饮料”代表消费者购买饮料品牌的状况,其代表性不是很好不同品牌饮料的频数分布

饮料品牌频数比例百分比(%)

果汁矿泉水绿茶其他碳酸饮料610118150.120.200.220.160.301220221630合计501100顺序数据:四分位差四分位差

(quartiledeviation)四分位差

—上四分位数与下四分位数之差,用Qd表示

Qd

=QU–QL也称为内距或四分间距,反映了中间50%数据的离散程度是对顺序数据离散程度的测度(也适用于数值型数据,但不适用于分类数据)不受极端值的影响用于衡量中位数的代表性四分位差

(例题分析)【P97:例4.7】:9个家庭的人均月收入数据如下,请计算家庭人均月收入的四分位差。原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456

789解:Step1:先计算四分位数:

Step2:再计算四分位差

QU-QL=1437.5-797.5=640数值型数据:方差和标准差测度数值型数据离散程度的方法极差平均差方差和标准差(常用)极差

(range)极差

—一组数据的最大值与最小值之差,也称为全距,用R表示离散程度的最简单测度值计算公式为:R=max(xi)-min(xi)max(xi)和min(xi)分别表示一组数据的最大值和最小值缺点:易受极端值影响未考虑数据的分布不能反映出中间数据的分散状况,因而不能准确描述出数据的分散程度极差

(例题分析)【例】:9个家庭的人均月收入数据如下,请计算家庭人均月收入的极差。原始数据:15007507801080850960200012501630排序:750

78085096010801250150016302000解:计算极差:

Max(xi)

-Min(xi)L=2000-750=1250平均差

(meandeviation)平均差

—各变量值与其平均数离差绝对值的平均数计算公式未分组数据组距分组数据平均差以平均数为中心,反映了每个数据与平均数的平均差异程度平均差越大,说明数据的离散程度越大;平均差越小,说明数据的离散程度越小。在实际中应用较少(因为计算中取绝对值给计算带来不便)平均差

(例题分析)某电脑公司销售量数据平均差计算表按销售量分组组中值(Mi)频数(fi)140~150150~160160~170170~180180~190190~200200~210210~220220~230230~24014515516517518519520521522523549162720171084540302010010203040501602703202700170200240160250合计—120—2040已计算出:x=185_平均差

(例题分析)

含义:每一天的销售量平均数相比,平均相差17台方差和标准差

(varianceandstandarddeviation)方差

—是各变量值与其平均数离差平方的平均数。标准差

—方差的平方根。数据离散程度的最常用测度值反映了各变量值与均值的平均差异根据总体数据计算的,称为总体方差(标准差),记为2();根据样本数据计算的,称为样本方差(标准差),记为s2(s)样本方差和标准差

(samplevarianceandstandarddeviation)未分组数据组距分组数据未分组数据组距分组数据方差的计算公式标准差的计算公式注意:样本方差用自由度n-1去除!自由度

(degreeoffreedom)自由度是指数据个数与附加给独立的观测值的约束或限制的个数之差从字面涵义来看,自由度是指一组数据中可以自由取值的个数当样本数据的个数为n时,若样本平均数确定后,则附加给n个观测值的约束个数就是1个,因此只有n-1个数据可以自由取值,其中必有一个数据不能自由取值按着这一逻辑,如果对n个观测值附加的约束个数为k个,自由度则为n-k自由度

(degreeoffreedom)样本有3个数值,即x1=2,x2=4,x3=9,则

x

=5。当

x

=5

确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值为什么样本方差的自由度为什么是n-1呢?因为在计算离差平方和时,必须先求出样本均值x

,而x则是附件给离差平方和的一个约束,因此,计算离差平方和时只有n-1个独立的观测值,而不是n个样本方差用自由度去除,其原因可从多方面解释,从实际应用角度看,在抽样估计中,当用样本方差s2去估计总体方差σ2时,它是σ2的无偏估计量样本标准差

(P86:例4.12)某电脑公司销售量数据平均差计算表按销售量分组组中值(Mi)频数(fi)140~150150~160160~170170~180180~190190~200200~210210~220220~230230~240145155165175185195205215225235491627201710845403020100102030405064008100640027000170040007200640012500合计—120—55400例4.12:根据下表数据,计算电脑销售量的标准差样本标准差

(例题分析)

含义:每一天的销售量与平均数相比,平均相差21.58台总体方差和标准差

(PopulationvarianceandStandarddeviation)未分组数据组距分组数据未分组数据组距分组数据总体方差的计算公式样本标准差的计算公式练习P94:4.1(3)(4)4.2(3)相对位置的度量相对位置的度量(1)

标准分数(2)经验法则(3)切比雪夫不等式标准分数

(standardscore)标准分数

—变量值与其平均数的离差除以标准差后的值。也称标准化值或z分数。计算公式为给出了一个值在一组数据中的相对位置,可用于判断一组数据是否有离群点(outlier)在对多个具有不同量纲的变量进行处理时,常常需要对变量作标准化处理标准分数

(例题分析)9个家庭人均月收入标准化值计算表家庭编号人均月收入(元)标准化值z

123456789150075078010808509602000125016300.695-1.042-0.973-0.278-0.811-0.5561.8530.1160.996【例4.13】根据家庭人均月收入,计算每个家庭人均月收入的标准分数。标准分数

(性质)性质:z分数只是将原始数据进行了线性变换,它并没有改变一个数据在该组数据中的位置,也没有改变该组数分布的形状,而只是使该组数据均值为0,标准差为1

例如:以下一组数据平均数为34,标准差为6,其标准分数变换为:经验法则经验法则表明:当一组数据对称分布时约有68%的数据在平均数加减1个标准差的范围之内约有95%的数据在平均数加减2个标准差的范围之内约有99%的数据在平均数加减3个标准差的范围之内在平均数左右3个标准差范围内几乎包含了所有数据,而在3个标准差以外的数据,在统计上称为离群点(outlier)(以上是数据是根据标准正态分布计算)见P88例题切比雪夫不等式

(Chebyshev’sinequality)【切比雪夫不等式】

对于任意分布形态的数据,至少有1-1/k2的数据落在平均数加减k个标准差之内。其中k是大于1的任意值,但不一定是整数。如果一组数据不是对称分布,经验法则就不再适用,这时可使用切比雪夫不等式,它对任何分布形状的数据都适用切比雪夫不等式

(Chebyshev’sinequality)对于k=2,3,4,该不等式的含义是至少有75%的数据落在平均数加减2个标准差的范围之内至少有89%的数据落在平均数加减3个标准差的范围之内至少有94%的数据落在平均数加减4个标准差的范围之内相对离散程度:离散系数离散系数

(coefficientofvariation)离散系数(变异系数)—标准差与其相应的均值之比计算公式为对数据相对离散程度的测度消除了数据水平高低和计量单位的影响用于对不同组别数据离散程度的比较离散系数

(例题分析)某管理局所属8家企业的产品销售数据企业编号产品销售额(万元)x1销售利润(万元)x21234567817022039043048065095010008.112.518.022.026.540.064.069.0【例】某管理局抽查了所属的8家企业,其产品销售数据如表。试比较产品销售额与销售利润的离散程度离散系数

(例题分析)结论:

计算结果表明,v1<v2,说明产品销售额的离散程度小于销售利润的离散程度v1=536.25309.19=0.577v2=32.521523.09=0.710销售额:销售利润:小结1.不同类型的数据,采用不同测度值测度其离散程度分类数据:异众比率(主要)顺序数据:四分位差(也可以使用异众比率)数值数据:方差和标准差(平均差、极差或其它方法)对比不同样本数据的离散程度:离散系数2.实际应用时,要根据所掌握的数据类型和分析目的来确定使用哪种测度值。如果一个数据的标准分数为2,表明该数据()A.比平均数高出2个标准差;B.比平均数低2个标准差;C.等于2倍平均数;D.等于2倍标准差

某班学生的平均成绩是80分,标准差是10分,如果已知该班学生的考试分数为对称分布,可以判断成绩在60~100分之间的学生大约占()A.95%B.89%C.68%D.99%某班学生的平均成绩是80分,标准差是5分。如果已知该班学生的考试分数是非对称分布,可以判断成绩在70~90之间的学生至少占()A.95%B.89%C.68%D.75%(4)比较两组数据的离散程度最适合用的统计量是()A.极差B.平均差C.标准差D.离散系数练习(2)AADD在离散程度的测度中,最容易受极端值影响的是()A.平均差;B.四分位差;C.标准差;D.极差

测度离散程度的相对统计量是()A.极差B.平均差C.标准差D.离散系数两组数据的平均数不等,但标准差相等,则()A.平均数小的,离散程度大B.平均数大的,离散程度大C.平均数小的,离散程度小D.两组数据离散程度相同。练习(3)DDA4.3偏态与峰态的度量4.3.1偏态及其测度4.3.2峰态及其测度偏态偏态

(skewness)偏态—由统计学家Pearson于1895年首次提出,用于测度数据分布偏斜程度。表征概率分布密度曲线相对于平均值不对称程度的特征数。直观看来就是密度函数曲线尾部的相对长度。

测量偏态的统计量是偏态系数偏态分类负偏(negativeskew)

左侧尾部更长,分布主体集中在右侧,又称为左偏。正偏(posiriveskew)

右侧尾部更长,分布主体集中在左侧,又称为右偏。对称

平均值=中位数。正偏(右偏)分布负偏(左偏)分布对称分布对称、左偏、右偏偏态系数

(coefficientofskewness)样本偏态系数:根据原始数据计算样本偏度(计算方法有多种)根据分组数据计算偏态系数=0为对称分布偏态系数>0为右偏分布偏态系数<0为左偏分布偏态系数大于1或小于-1,被称为高度偏态分布;偏态系数在0.5~1或-1~-0.5之间,被认为是中等偏态分布;偏态系数越接近0,偏斜程度就越低

总体偏态系数:SK=E(X-)3/3偏态系数

(例题分析)

某电脑公司销售量偏态及峰度计算表按销售量份组(台)组中值(Mi)频数

fi140~150150~160160~170170~180180~190190~200200~210210~220220~230230~240145155165175185195205215225235491627201710845-256000-243000-128000-270000170008000021600025600062500010240000729000025600002700000170000160000064800001024000031250000合计—120540000

70100000

P91:例4.15

根据下表,计算电脑销售量的偏态系数偏态系数

(例题分析续)结论:偏态系数为正值,但与0的差异不大,说明电脑销售量为轻微右偏分布,即销售量较少的天数占据多数,而销售量较多的天数则占少数峰态峰态

(kurtosis

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论