应用统计学第4章 数据分布特征的度量_第1页
应用统计学第4章 数据分布特征的度量_第2页
应用统计学第4章 数据分布特征的度量_第3页
应用统计学第4章 数据分布特征的度量_第4页
应用统计学第4章 数据分布特征的度量_第5页
已阅读5页,还剩83页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章数据分布特征的度量

1本章学习目标1.领会数据分布的各种特征:集中趋势、离散趋势、偏斜程度和峰度。2.掌握数据分布特征各测定值的计算方法、特点及其应用场合。2海之滨每日营业收入的次数分配直方图3海之滨营业收入的次数分配图4夏季春季本章要点5集中趋势(位置)偏态和峰态(形状)离中趋势

(分散程度)集中趋势众数中位数分位数平均数6众数(mode)一组数据中出现次数最多的变量值不受极端值的影响一组数据可能没有众数或有几个众数主要用于分类数据,也可用于顺序数据和数值型数据7众数(不惟一性)8无众数

原始数据:10591268一个众数

原始数据:659855多于一个众数

原始数据:252828364242分类数据的众数9解:这里的变量为“饮料品牌”,这是个分类变量,不同类型的饮料就是变量值所调查的100人中,购买可口可乐的人数最多,为35人,占被调查总人数的35%,因此众数为“可口可乐”这一品牌,即

Mo=可口可乐不同饮料品牌的频数分布饮料品牌频数汇源果汁百事可乐可口可乐娃哈哈15203530合计100顺序数据的众数10解:这里的数据为顺序数据。变量为“回答类别”甲城市中对住房表示不满意的户数最多,为108户,因此众数为“不满意”这一类别,即

Mo=不满意甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)百分比(%)

非常不满意

不满意一般满意非常满意24108934530836311510合计300100.0数值型数据的众数由众数的定义可知,在单项数列的情形求众数,只需通过观察,找出频数最多的变量值,则该变量值即为众数。在组距数列的条件下,则要先确定众数所在组,然后按下面的近似公式计算。11数值型数据的众数12某企业职工月工资资料表职工月工资(元)职工人数(人)800~1000101000~1200201200~1400501400~1600301600~180010合计120解:①确定众数组。由于1200~1400组频数最多,故该组即为众数组。②根据近似公式计算众数值。集中趋势众数中位数分位数平均数13中位数(median)按大小排序后处于中间位置上的值不受极端值的影响主要用于顺序数据,也可用数值型数据,但不能用于分类数据14Me50%50%中位数(位置和数值的确定)15位置确定数值确定顺序数据的中位数16解:中位数的位置为

(300+1)/2=150.5

从累计频数看,中位数在“一般”这一组别中中位数为

Me=一般甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)累计频数

非常不满意

不满意一般满意非常满意2410893453024132225270300合计300—数值型数据的中位数17【例】9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789中位数1080数值型数据的中位数

18【例】:10个家庭的人均月收入数据排序:

660

75078085096010801250150016302000位置:12345678910数值型数据的中位数(分组数据)19身高(cm)人数(人)某班级学生身高资料表身高(cm)人数(人)人数累积向上累积向下累积16016517017518018524563126111720212119151041合计21——解:①确定中位数位次:

②确定中位数组:按人数向上累积(或向下累积)知,中位数在第三组。

③确定中位数:

中位数组只有唯一的变量值170cm,故它就是所求的中位数。数值型数据的中位数(组距数列)在组距数列的情况下,确定中位数组后,由于这时中位数组是一区间,可用下面的近似公式计算中位数:20数值型数据的中位数(分组数据)21

某企业职工月工资资料职工月工资(元)职工人数(人)向上累积800~100010101000~120020301200~140050801400~1600301101600~180010120合计120—①确定中位数位次。②确定中位数组。从向上累积栏中,找出首个大于等于中位数位次60的组,该组即为中位数组,因此中位数组为1200~1400元。③按近似公式计算中位数值。集中趋势众数中位数分位数平均数22四分位数(quartile)排序后处于25%和75%位置上的值不受极端值的影响主要用于顺序数据,也可用于数值型数据,但不能用于分类数据23Q1Q2Q325%25%25%25%四分位数(位置的确定及计算)24的位次=的位次=顺序数据的四分位数25解:Q1位置=(300)/4=75Q3位置=(3×300)/4=225

从累计频数看,Q1在“不满意”这一组别中;Q3在“一般”这一组别中四分位数为

Q1=不满意

Q3=一般甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)累计频数

非常不满意

不满意一般满意非常满意2410893453024132225270300合计300—数值型数据的四分位数26

【例】9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:1234

5

6789的位次=的位次=四分位数(位置的确定及计算)27的位次=先计算K=n/4。若K为整数,则取第K个与第K+1个数的平均值。若K不是整数,则取小数进位为整数的那一个数值。数值型数据的四分位数28

【例】9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:1234

5

6789的位次=的位次=盒须图分析法假设某公司经理想比较业务员小朱与小钟最近8个星期股票交易的手续费收入,看看哪一个表现较佳。已知两者的手续费如下:29小钟306366788296106270小朱6482889096108128166两人的最小值、中位數、最大值、下四分位数、上四分位数,分别为多少?小朱与小钟的业绩小钟:

最小值=30

、中位数=80、最大值=270、下四分位数=64.5、上四分位数=101小朱:最小值=64、中位数=93、最大值=166、下四分位数=85、上四分位数=11830小钟306366788296106270小朱6482889096108128166盒须图分析法(5数综合)四分位数(位置的确定及计算)32的位次=的位次=第i个四分位数可按如下近似公式计算:

数值型数据的四分位数(分组数据)33

某企业职工月工资资料职工月工资(元)职工人数(人)向上累积800~100010101000~120020301200~140050801400~1600301101600~180010120合计120—①确定位次。②确定组。从向上累积栏中,找出首个大于等于90的组,该组即为中位数组,因此为1400~1600元。③按近似公式计算值。集中趋势众数中位数分位数平均数34数值型数据:平均数(简单平均数)35设一组数据为:x1,x2,…

,xn(总体数据xN)样本平均数总体平均数数值型数据:平均数(加权平均数)36设各组的组中值为:x1,x2,…,xk

相应的频数为:f1,f2,…,fk样本加权平均总体加权平均加权平均数37某电脑公司销售量数据分组表按销售量分组组中值(Mi)频数(fi)xifi

140~150150~160160~170170~180180~190190~200200~210210~220220~230230~24014515516517518519520521522523549162720171084558013952640472537003315205017209001175合计—12022200加权平均数(权数对均值的影响)38

甲乙两组各有10名学生,考试成绩及其分布数据如下:

甲组:考试成绩(x): 020100

人数分布(f):118

乙组:考试成绩(x): 020100

人数分布(f):811股票的报酬率陈先生接到投资顾问公司业务员王先生的电话:”陈先生,去年我们亏损了50%,今年已经又赚回50%了”。”太好了!”陈先生这下可放下心中的大石头。可是当陈先生接到对账单一看,原来的100万元,现值只有75万元。“咦!不是说赚回50%了吗,怎么还是亏25万元?”这是怎么回事呢?39股票的报酬率去年亏损50%,所以去年年底现值为

今年赚回50%,因此今年年底现值为算术平均数40(万元)(万元)收益率=

收益率=

几何平均数(geometricmean)

n个变量值乘积的n次方根适用于对比率数据的平均主要用于计算平均增长率计算公式为可看作是平均数的一种变形41几何平均数42

【例】某水泥生产企业1999年的水泥产量为100万吨,2000年与1999年相比增长率为9%,2001年与2000年相比增长率为16%,2002年与2001年相比增长率为20%。求各年的年平均增长率年平均增长率=114.91%-1=14.91%股票的报酬率去年亏损50%,所以去年年底现值为

今年赚回50%,因此今年年底现值为几何平均数:43(万元)(万元)收益率=

收益率=

众数、中位数和平均数的关系44左偏分布均值

中位数

众数对称分布

均值=中位数=

众数右偏分布众数

中位数均值众数、中位数、平均数的特点和应用众数不受极端值影响具有不惟一性数据分布偏斜程度较大且有明显峰值时应用中位数不受极端值影响数据分布偏斜程度较大时应用平均数易受极端值影响数学性质优良数据对称分布或接近对称分布时应用45数据类型与集中趋势测度值46数据类型和所适用的集中趋势测度值数据类型分类数据顺序数据定距数据定比数据适用的测度值※众数※中位数※平均数※平均数—四分位数众数几何平均数—众数中位数

中位数——四分位数四分位数———众数本章要点集中趋势离散趋势分类数据:异众比率顺序数据:极差與四分位差数值型数据:方差和标准差相对离散程度:离散系数47异众比率对分类数据离散程度的测度非众数组的频数占总频数的比例计算公式为用于衡量众数的代表性48异众比率49解:

在所调查的50人当中,购买其他品牌饮料的人数占70%,异众比率比较大。因此,用“可口可乐”代表消费者购买饮料品牌的状况,其代表性不是很好不同品牌饮料的频数分布

饮料品牌频数比例百分比(%)

可口可乐旭日升冰茶百事可乐汇源果汁露露15119690.300.220.180.120.183022181218合计501100本章要点集中趋势离散趋势分类数据:异众比率顺序数据:极差與四分位差数值型数据:方差和标准差相对离散程度:离散系数50极差(range)一组数据的最大值与最小值之差离散程度的最简单测度值易受极端值影响未考虑数据的分布计算公式为51R

=max(xi)-min(xi)极差(全距)52全距相同但分散程度不同四分位差(quartiledeviation)对顺序数据离散程度的测度也称为内距或四分间距上四分位数与下四分位数之差

Qd=Q3

Q1反映了中间50%数据的离散程度不受极端值的影响用于衡量中位数的代表性53盒须图分析法(5数综合)四分位差55解:设非常不满意为1,不满意为2,一般为3,满意为4,非常满意为5

。已知

Q1

=不满意=2

Q3

=一般=3四分位差为

Qd

=Q3

-

Q1

=3–2

=1甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)累计频数

非常不满意

不满意一般满意非常满意2410893453024132225270300合计300—本章要点集中趋势离散趋势分类数据:异众比率顺序数据:极差與四分位差数值型数据:方差和标准差相对离散程度:离散系数56平均差(meandeviation)各变量值与其平均数离差绝对值的平均数能全面反映一组数据的离散程度数学性质较差,实际中应用较少计算公式为57未分组数据组距分组数据平均差58某电脑公司销售量数据平均差计算表按销售量分组组中值(Mi)频数(fi)140~150150~160160~170170~180180~190190~200200~210210~220220~230230~24014515516517518519520521522523549162720171084540302010010203040501602703202700170200240160250合计—120—2040方差和标准差

(varianceandstandarddeviation)数据离散程度的最常用测度值反映了各变量值与均值的平均差异根据总体数据计算的,称为总体方差或标准差,记为

2();根据样本数据计算的,称为样本方差或标准差,记为s2(s)59总体方差和标准差

60未分组数据组距分组数据未分组数据组距分组数据方差的计算公式标准差的计算公式样本方差和标准差61未分组数据组距分组数据未分组数据组距分组据数方差的计算公式标准差的计算公式注意:样本方差用自由度n-1去除!自由度(degreeoffreedom)自由度是指附加给独立的观测值的约束或限制的个数从字面涵义来看,自由度是指一组数据中可以自由取值的个数62自由度(degreeoffreedom)样本有3个数值,即x1=2,x2=4,x3=9,则

x=5。当

x

=5确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值为什么样本方差的自由度是n-1呢?因为在计算离差平方和时,必须先求出样本均值

x

,而

x则是附加给离差平方和的一个约束,因此,计算离差平方和时只有n-1个独立的观测值,而不是n个样本方差用自由度去除,其原因可从多方面解释,从实际应用角度看,在抽样估计中,当用样本方差s2去估计总体方差σ2时,它是σ2的无偏估计量63样本标准差64某电脑公司销售量数据平均差计算表按销售量分组组中值(Mi)频数(fi)140~150150~160160~170170~180180~190190~200200~210210~220220~230230~24014515516517518519520521522523549162720171084540302010010203040501602703202700170200240160250合计—120—55400数据分布数量的估计(经验法则)65Z值若数据型态为钟形时,为了解观察值在数据中的位置,可计算Z值。样本值的Z值:

母体

值的Z值:

66Z值设A班学生的成绩平均为75分,标准偏差为10分,而A班同学甲的成绩为70分,则70分的Z值为:

表示同学甲的成绩低于平均数0.5个标准偏差。67Z值又如B班学生的平均成绩为65分,标准偏差为10,而B班学生乙的成绩为70分,则70分的Z值为:

表示学生乙的成绩高于平均数0.5个标准偏差。68切比雪夫不等式

(Chebyshev’sinequality)适用任何分布形状的数据对于任意分布形态的数据,根据切比雪夫不等式,至少有1-1/k2的数据落在k个标准差之内。其中k是大于1的任意值,但不一定是整数69切比雪夫不等式

(Chebyshev’sinequality)对于k=2,3,4,该不等式的含义是至少有75%的数据落在平均数加减2个标准差的范围之内至少有89%的数据落在平均数加减3个标准差的范围之内至少有94%的数据落在平均数加减4个标准差的范围之内70切比雪夫不等式

(Chebyshev’sinequality)100個學生統計學平均成績為75分,標準差為5分:成績在7525=65~85分的同學至少有75位成績在7535=60~90分的同學至少有89位71本章要点集中趋势离散趋势分类数据:异众比率顺序数据:极差與四分位差数值型数据:方差和标准差相对离散程度:离散系数72离散系数(coefficientofvariation)标准差与其相应的均值之比对数据相对离散程度的测度消除了数据水平高低和计量单位的影响用于对不同组别数据离散程度的比较计算公式为73离散系数74某管理局所属8家企业的产品销售数据企业编号产品销售额(万元)x1销售利润(万元)x21234567817022039043048065095010008.112.518.022.026.540.064.069.0【例】某管理局抽查了所属的8家企业,其产品销售数据如表。试比较产品销售额与销售利润的离散程度离散系数75结论:计算结果表明,v1<v2,说明产品销售额的离散程度小于销售利润的离散程度v1=536.25309.19=0.577v2=32.521523.09=0.710数据类型与离散程度测度值76数据类型和所适用的离散程度测度值数据类型分类数据顺序数据数值型数据适用的测度值※异众比率※四分位差※方差或标准差—

异众比率※离散系数(比较时用)——

平均差——

极差——

四分位差——

异众比率本章要点集中趋势离散趋势偏态与峰态77偏态与峰态分布的形状78扁平分布尖峰分布偏态峰态左偏分布右偏分布与标准正态分布比较!偏态系数偏态系数的计算公式:

其中偏态方向和程度的判别:按上面公式计算出来的偏度指标,其符号可以表明分布的偏斜方向,其绝对值大小则可以表明分布的偏斜程度。79偏态统计学家Pearson于1895年首次提出数据分布偏斜程度的测度偏态系数=0为对称分布偏态系数>0为右偏分布偏态系数<0为左偏分布偏态系数大于1或小于-1,被称为高度偏态分布;偏态系数在0.5~1或-0.5~-1之间,被认为是中等偏态分布;

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论