第三章数值描述度量.ppt_第1页
第三章数值描述度量.ppt_第2页
第三章数值描述度量.ppt_第3页
第三章数值描述度量.ppt_第4页
第三章数值描述度量.ppt_第5页
已阅读5页,还剩84页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc.,Chap 3-1,Chapter 3 数值描述度量,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc.,Chap 3-2,描述数值数据的集中趋势、变异程度和分布形状的特性 计算总体的描述性总结度量 构建和解释盒须图 描述协方差和相关系数,学习目标,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc.,Chap 3-

2、3,集中趋势是指所有的数据观测值组在一个典型或者中心值周围的范围。 变异度是观测值与一个中心值散布或分散的量。 分布形状是观测值从最小值到最大值分布的模式。,数据分布的特征,数据分布特征的测度,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc.,Chap 3-6,3.1 集中趋势的度量,算术平均数 简称均值是最常见的集中趋势的度量。 对一组样本容量是 n的数据:,样本容量,数据观测值,第i个数据,读作: x-bar,Business Statistics: A First Course, 5e 2009 Prenti

3、ce-Hall, Inc.,Chap 3-7,最常见的集中趋势的测度指标均值 = 标志值总量 /总体总量受极端值(离群点)的影响,(continued),0 1 2 3 4 5 6 7 8 9 10,Mean = 3,0 1 2 3 4 5 6 7 8 9 10,Mean = 4,加权均值 (weighted mean),设各组的组中值为:M1 ,M2 , ,Mk 相应的频数为: f1 , f2 , ,fk,样本加权均值,总体加权均值,已改至此!,加权均值 (例题分析),加权均值(权数对均值的影响),甲乙两组各有10名学生,他们的考试成绩及其分布数据如下 甲组: 考试成绩(x ): 0 20

4、100 人数分布(f ):1 1 8 乙组: 考试成绩(x): 0 20 100 人数分布(f ):8 1 1,均值(数学性质),1.各变量值与均值的离差之和等于零,2. 各变量值与均值的离差平方和最小,调和平均数(harmonic mean),1.集中趋势的测度值之一 2.均值的另一种表现形式 易受极端值的影响 计算公式为,原来只是计算时使用了不同的数据!,调和平均数 (例题分析),【例】某蔬菜批发市场三种蔬菜的日成交数据如表,计算三种蔬菜该日的平均批发价格,几何平均数(geometric mean),1. 集中趋势的测度值之一 2. n 个变量值乘积的 n 次方根 3. 适用于对比率数据的

5、平均 4. 主要用于计算平均增长率 5. 计算公式为,6. 可看作是均值的一种变形,几何平均数 (例题分析),【例】一位投资者持有一种股票,1996年、1997年、1998年和1999年收益率分别为4.5%、2.0%、3.5%、5.4%。计算该投资者在这四年内的平均收益率。,平均收益率103.84%-1=3.84%,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc.,Chap 3-17,中位数,按从最小到最大排序以后处于正中间的数据值。 不受极端值的影响,0 1 2 3 4 5 6 7 8 9 10,Median =

6、 3,0 1 2 3 4 5 6 7 8 9 10,Median = 3,中位数(位置的确定),未分组数据的中位数(计算公式),数值型未分组数据的中位数 (9个数据的算例),【例】:9个家庭的人均月收入数据 原始数据: 1500 750 780 1080 850 960 2000 1250 1630 排 序: 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9,中位数 1080,数值型未分组数据的中位数 (10个数据的算例),【例】:10个家庭的人均月收入数据 原始数据: 1500 750 780 660 1080 8

7、50 960 2000 1250 1630 排 序: 660 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9 10,众数(mode),集中趋势的测度值之一 出现次数最多的变量值 不受极端值的影响 可能没有众数或有几个众数,众数(不唯一性),无众数原始数据: 10 5 9 12 6 8,一个众数原始数据: 6 5 9 8 5 5,多于一个众数原始数据: 25 28 28 36 42 42,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc.,

8、Chap 3-24,如何选择合适的测度指标:,当没有极端值的时候,一般使用均值。 当存在极端值的时候,经常使用中位数。,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc.,Chap 3-25,小结:,集中趋势,算术平均值,中位数,众数,Middle value in the ordered array,Most frequently observed value,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc.,Chap 3-26,相同的

9、中心值, 不同的方差,3、2变异度测度,变异度度量数据集中的观测值的离散程度或散布程度。,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc.,Chap 3-27,全距,最简单的测度值 最大值与最小值之差,Range = Xlargest Xsmallest,0 1 2 3 4 5 6 7 8 9 10 11 12 13 14,Range = 13 - 1 = 12,Example:,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc.,Cha

10、p 3-28,没有考虑数据的分布 易受极端值的影响,7 8 9 10 11 12,Range = 12 - 7 = 5,7 8 9 10 11 12,Range = 12 - 7 = 5,1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,5,1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,120,Range = 5 - 1 = 4,Range = 120 - 1 = 119,平均差(mean deviation),平均差是指各变量值与其均值离差绝对值的平均数。 能全面反映一组数据的离散程度 数学性质较

11、差,实际中应用较少,计算公式,未分组数据,组距式分组数据,例三:,含义:每一天的销售量平均数相比, 平均相差17台,方差和标准差(variance and standard deviation),1.离散程度的测度值之一 2.最常用的测度值 3.反映了数据的分布 反映了各变量值与均值的平均差异,样本方差和标准差 (sample variance and standard deviation),未分组数据:,组距分组数据:,未分组数据:,组距分组数据:,自由度(degree of freedom),一组数据中可以自由取值的数据的个数 当样本数据的个数为 n 时,若样本均值x 确定后,只有n-1个

12、数据可以自由取值,其中必有一个数据则不能自由取值.,例如,,样本有3个数值,即x1=2,x2=4,x3=9,则 x = 5。 当 x = 5 确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值,例五:原始数据: 10 5 9 13 6 8,离散系数,离散系数(coefficient of variation)定义: 指标准差与其相应的均值之比。 对数据相对离散程度的测度 消除了数据水平高低和计量单位的影响 用于对不同组别数据离散程度的比较,计算公式,例六:某管理局抽查了所属的8家企业,其产品销售数据如表。试比较产品销

13、售额与销售利润的离散程度。,结论: 计算结果表明,v1v2,说明产品销售额的离散程度小于销售利润的离散程度,课堂练习1,男生的平均体重是60千克,标准差是5千克; 女生的平均体重是50千克,标准差是5千克; 是男生的体重差异程度大还是女生的体重差异程度大?,课堂练习2,对10名成年人和10名幼儿的身高进行抽样调查,结果如下: 计算各组的均值、方差、标准差? 比较分析哪一组的身高差异大?,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc.,Chap 3-44,Average (approximately) of squ

14、ared deviations of values from the mean Sample variance:,Measures of Variation:The Variance,Where,= arithmetic mean n = sample size Xi = ith value of the variable X,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc.,Chap 3-45,Measures of Variation:The Standard Deviation,Most commonly u

15、sed measure of variation Shows variation about the mean Is the square root of the variance Has the same units as the original data Sample standard deviation:,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc.,Chap 3-46,Measures of Variation:The Standard Deviation,Steps for Computing St

16、andard Deviation 1.Compute the difference between each value and the mean. 2.Square each difference. 3.Add the squared differences. 4.Divide this total by n-1 to get the sample variance. 5.Take the square root of the sample variance to get the sample standard deviation.,Business Statistics: A First

17、Course, 5e 2009 Prentice-Hall, Inc.,Chap 3-47,Measures of Variation:Sample Standard Deviation:Calculation Example,Sample Data (Xi) : 10 12 14 15 17 18 18 24,n = 8 Mean = X = 16,A measure of the “average” scatter around the mean,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc.,Chap 3-

18、48,Mean = 15.5 S = 3.338,11 12 13 14 15 16 17 18 19 20 21,11 12 13 14 15 16 17 18 19 20 21,Data B,Data A,Mean = 15.5 S = 0.926,11 12 13 14 15 16 17 18 19 20 21,Mean = 15.5 S = 4.570,Data C,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc.,Chap 3-49,标准差较小 标准差较大,Business Statistics: A F

19、irst Course, 5e 2009 Prentice-Hall, Inc.,Chap 3-50,小结:,数据越分散,全距、方差、标准差越大。 数据越集中,全距、方差、标准差越小。 如果所有的数据都是相同的(没有变异),所有的测度指标都是零。 非负,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc.,Chap 3-51,Measures of Variation:The Coefficient of Variation,Measures relative variation Always in percentag

20、e (%) Shows variation relative to mean Can be used to compare the variability of two or more sets of data measured in different units,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc.,Chap 3-52,Measures of Variation:Comparing Coefficients of Variation,Stock A: Average price last year

21、= $50 Standard deviation = $5 Stock B: Average price last year = $100 Standard deviation = $5,Both stocks have the same standard deviation, but stock B is less variable relative to its price,标准分数(standard score),1. 也称标准化值 2.对某一个值在一组数据中相对位置的度量 3.可用于判断一组数据是否有离群点 4.用于对变量的标准化处理 5.一般,如果Z值小于-3或者大于3被认为是异常值

22、。 6.Z的绝对值越大,数据离均值的距离越远。,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc.,Chap 3-54,X 代表变量值 X 是样本均值 S 是样本标准差,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc.,Chap 3-55,假设SAT 分数的均值是490, 标准差是 100. 计算考试成绩620的Z值.,620比均值大1.3倍标准差,不能被考成是离群点。,标准分数(性质),均值等于0 2.方差等于1,标准分数(性质),z分

23、数只是将原始数据进行了线性变换,它并没有改变一个数据在改组数据中的位置,也没有改变该组数分布的形状,而只是将该组数据变为均值为0,标准差为1。,标准化值 (例题分析),Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc.,Chap 3-59,分布形状,测度数据是怎么分布的。 形态的测度: 对称或者偏态,均值= 中位数,均值 中位数,中位数 均值,右偏,左偏,对称,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc.,Chap 3-60,3.3

24、总体的数值型描述性测度,前面介绍的都是对样本数据的测度,不是总体数据。 测度总体数量特征的度量指标称为参数, 用希腊字母表示。 三个比较重要的参数是:总体均值、总体方差、总体标准差。,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc.,Chap 3-61,总体均值 ,计算公式:, = 总体均值 N = 总体总量 Xi = 第i个观测值,式中:,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc.,Chap 3-62,总体方差:,方差 2,式中

25、:, = 总体均值 N = 总体总量 Xi =第i个观测值,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc.,Chap 3-63,标准差 ,最常用的测度变异度的指标。 标准差和原始数据具有一样的单位。 总体标准差:,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc.,Chap 3-64,统计量与参数:,经验法则,经验法则表明:当一组数据对称分布时 约有68%的数据在平均数加减1个标准差的范围之内 约有95%的数据在平均数加减2个标准差的范

26、围之内 约有99%的数据在平均数加减3个标准差的范围之内,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc.,Chap 3-66,99.7%,95%,68%,切比雪夫不等式(Chebyshevs inequality ),如果一组数据不是对称分布,经验法则就不再使用,这时可使用切比雪夫不等式,它对任何分布形状的数据都适用 切比雪夫不等式提供的是“下界”,也就是“所占比例至少和多少” 对于任意分布形态的数据,根据切比雪夫不等式,至少有 的数据落在k个标准差之内。其中k是大于1的任意值,但不一定是整数,切比雪夫不等式(C

27、hebyshevs inequality ),对于k=2,3,4,该不等式的含义是 至少有75%的数据落在平均数加减2个标准差的范围之内 至少有89%的数据落在平均数加减3个标准差的范围之内 至少有94%的数据落在平均数加减4个标准差的范围之内,3.4 四分位差与箱线图,四分位差 箱线图,四分位数(quartile),1.集中趋势的测度值之一 2.排序后处于25%和75%位置上的值,3. 不受极端值的影响 4. 主要用于顺序数据,也可用于数值型数据,但不能用于分类数据,四分位数(位置的确定),未分组数据:,数值型未分组数据的四分位数 (9个数据的算例),【例】:9个家庭的人均月收入数据 原始数

28、据: 1500 750 780 1080 850 960 2000 1250 1630 排 序: 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9,数值型未分组数据的四分位数 (10个数据的算例),【例】:10个家庭的人均月收入数据 原始数据: 1500 750 780 660 1080 850 960 2000 1250 1630 排 序: 660 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9 10,四分位差(quartile dev

29、iation),定义 也称为内距或四分间距,是上四分位数与下四分位数之差。 计算公式: QD = QU - QL 反映了中间50%数据的离散程度 不受极端值的影响; 用于衡量中位数的代表性,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc.,Chap 3-75,Median (Q2),X,maximum,X,minimum,Q1,Q3,Example:,25% 25% 25% 25%,12 30 45 57 70,Interquartile range = 57 30 = 27,Business Statistics

30、: A First Course, 5e 2009 Prentice-Hall, Inc.,Chap 3-76,五值概括法,五值概括法描述了一组数据的中心值和分布形态: 最小值Xsmallest 第一四分位数 (Q1) 中位数(Q2) 第三四分位数 (Q3) 最大值Xlargest,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc.,Chap 3-77,五值概括法与分布类型之间的关系,箱线图,基于五值概括法的图形演示。,Business Statistics: A First Course, 5e 2009 Pren

31、tice-Hall, Inc.,Chap 3-78,Example:,Xsmallest - Q1 - Median - Q3 - Xlargest,25% 数据 25% 25% 25% 数据 数据 数据,Xsmallest Q1 Median Q3 Xlargest,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc.,Chap 3-79,箱线图可以用横轴或者纵轴表示,Xsmallest Q1 Median Q3 Xlargest,Business Statistics: A First Course, 5e 200

32、9 Prentice-Hall, Inc.,Chap 3-80,右偏,左偏,对称,Q1,Q2,Q3,Q1,Q2,Q3,Q1,Q2,Q3,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc.,Chap 3-81,根据以下数据绘制箱线图: 0 2 2 2 3 3 4 5 5 9 27 数据呈现右偏,0 2 3 5 27,Xsmallest Q1 Q2 Q3 Xlargest,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc.,Chap 3-82,箱线图显示数据的离群点,如果一个变量值比Q1小1.5倍的内距或者比Q3大1.5倍的内距,就认为该变量值是离群点。,Busin

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论