统计学数据的概括性度量精编版_第1页
统计学数据的概括性度量精编版_第2页
统计学数据的概括性度量精编版_第3页
统计学数据的概括性度量精编版_第4页
统计学数据的概括性度量精编版_第5页
已阅读5页,还剩71页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 甲、乙两个班的统计学成绩甲、乙两个班的统计学成绩 请对两个班的成绩进行对比分析,你会从哪几个方面着手? 两班成绩的对比分析 甲班成绩的描述性指标 乙班成绩的描述性指标 学习目的和学习目的和重难点提示重难点提示 本章学习目的本章学习目的 领会领会数据分布的各种特征:集中趋势、离散趋势、偏 斜程度和峰度。 掌握掌握数据分布特征各测定值的计算方法、特点及其应 用场合。 本章重难点提示本章重难点提示 数据分布特征的描述方法,如何使用一些统计量来对 数据进行概括性测定。 数据分布特征各测定值的计算方法、特点及其应用场 合。 数据分布的特征和测度数据分布的特征和测度 数据的特征和测度数据的特征和测度 分

2、布的形状分布的形状集中趋势集中趋势离散程度离散程度 4.1集中趋势的度量 一组数据向其中心值靠拢的倾向和程度 测度集中趋势就是寻找数据一般水平的代表值或中心值 不同类型的数据用不同的集中趋势测度值 低层次数据的集中趋势测度值适用于高层次的测量数据, 反过来,高层次数据的集中趋势测度值并不适用于低层 次的测量数据 选用哪一个测度值来反映数据的集中趋势,要根据所掌 握的数据的类型来确定 集中趋势集中趋势 (位置位置) 集中趋势指标的种类集中趋势指标的种类 从总体各单位变量值中抽象出具有一般水平的量,这 个量是根据各个单位的具体标志值计算出来的,有算 术平均数、调和平均数、几何平均数等形式。数值平均

3、数 取得集中趋势代表值方法的不同,可分为数值平均数和位置平均数 。 先将总体各单位的变量值按一定顺序排列,然后取某 一位置的变量值来反映总体各单位的一般水平。位置 平均数有众数、中位数、四分位数等形式。 位置平均数 4.1.1众数众数 1.定义:出现次数最多的变量值。是集中趋势的测定义:出现次数最多的变量值。是集中趋势的测 度值之一,不受极端值的影响。度值之一,不受极端值的影响。因而在实际工因而在实际工 作中有时有它作中有时有它特殊的用途特殊的用途。诸如,要说明一个。诸如,要说明一个 企业中工人最普遍的技术等级,说明消费者需企业中工人最普遍的技术等级,说明消费者需 要的内衣、鞋袜、帽子等最普遍

4、的号码,说明要的内衣、鞋袜、帽子等最普遍的号码,说明 农贸市场上某种农副产品最普遍的成交价格等农贸市场上某种农副产品最普遍的成交价格等 ,都需要利用众数,都需要利用众数 适用:主要用于定类数据,也可用于定序数据和适用:主要用于定类数据,也可用于定序数据和 数数 值型数据值型数据 注意注意:有些数据可能没有众数或有几个众数:有些数据可能没有众数或有几个众数 0 m 众数众数 (众数的不唯一性) 无众数无众数 原始数据: 10 5 9 12 6 8 众数的计算方法众数的计算方法 * * *品质变量的众数品质变量的众数观察次数,出现次数最多 的变量值就是众数。 例如:企业的所有制结构分布、人口的城乡

5、分布。 * * *数值变量的众数数值变量的众数 未分组资料未分组资料观察次数,出现次数最多的数据 就是众数。 分组资料分组资料 (1)单项式数列直接观察,次数最多的组的变 量值即为众数。 i f 定类数据的众数定类数据的众数 定序数据的众数定序数据的众数 例例 单项式变量数列确定众数实例单项式变量数列确定众数实例 表4-3 某市居民家庭按家庭人口数分组 家庭人口数(人) 家庭数(千户) 比重(%) 1 9.8 5.76 2 27.5 16.18 3 94.6 55.65 4 19.2 11.29 5 10.9 6.41 6 8.0 4.71 合 计 170.0 100.00 由上表可以看出,家

6、庭人口数为3人的家庭数最多,因此本例中家庭人 口数的众数为3人人。 数值型分组数据的众数数值型分组数据的众数 1. 众数的值与相邻两组频数的分布有关众数的值与相邻两组频数的分布有关 算例算例 0 148 1205 (148)(14 10) 123() M 个 4.1.2 顺序数据:中位数和分位数 1.中位数me 集中趋势的测度值之一 排序后处于中间位置上的值 不受极端值的影响 主要用于定序数据,也可用数值型数据,但不能 用于定类数据 各变量值与中位数的离差绝对值之和最小,即 1 min n ie i XM 原始数据原始数据: 24 22 21 26 20 位位 置置: 1 2 3 4 5 中位

7、数的计算中位数的计算 排排 序序:20 21 22 24 26 原始数据原始数据: 10 5 9 12 6 8 位位 置置: 1 2 3 4 5 6 排排 序序: 5 6 8 9 10 12 中位数=(8+9)/2=8.5 计算公式 1 2 1 22 1 2 N e NN XN M XXN 当 为奇数时 当 为偶数时 未分组数据的中位数 数值型分组数据的中位数 1 2 m e m N S MLd f 例:某企业例:某企业5050名工人加工零件中位数计算表名工人加工零件中位数计算表, ,计算计算5050名工名工 人日加工零件数的中位数人日加工零件数的中位数 Sm-1 Sm+1 )(21.1235

8、 14 16 2 50 120件 e M 2.四分位数 人们经常会将数据划分为4个部分,每一个部分大 约包含有1/4即25的数据项。 QLQMQU 1.集中趋势的测度值之一 2.排序后处于25%和75%位置上的值 3.不受极端值的影响 4.主要用于定序数据,也可用于数值型数据,但不 能用于定类数据 四分位数四分位数(位置的确定位置的确定) 未分组数据:未分组数据: 组距分组数据:组距分组数据: 下四分位数(QL)位置 = N+1 4 上四分位数(QU)位置 = 3(N+1) 4 下四分位数(QL)位置 = N 4 上四分位数(QL)位置 = 3N 4 计算甲城市家庭对住房满意状况评价的四分位数

9、 解:下四分位数(QL)的位置为: QL位置(300)/475 上四分位数(QL)的位置为: QU位置(3300)/4225 从累计频数看, QL在“不满意” 这一组别中; QU在“一般”这一 组别中。因此 QL 不满意 QU 一般 原始数据原始数据: 23 21 30 32 28 25 26 排排 序序: 21 23 25 26 28 30 32 位位 置置: 1 2 3 4 5 6 7 QL= 23 N+1 7+1 QL位置 = 4 = 4 = 2 QU位置 = 3(N+1) 4 3(7+1) 4 = 6 QU = 30 数值型未分组数据的四分位数 原始数据原始数据: 23 21 30 2

10、8 25 26 排排 序序: 21 23 25 26 28 30 位位 置置: 1 2 34 5 6 QL= 21+0.75(23-21) = 22. 5 QL位置 = N+1 4 = 6+1 4 = 1.75 QU位置 = 3(N+1) 4 3(6+1) 4 = 5.25 QU = 28+0.25(30-28) = 28.5 数值型分组数据的四分位数(计算公式) 上四分位数上四分位数: 3 4 U UUU U N S QLd f 4 L LLL L N S QLd f 下四分位数下四分位数: 计算50 名工人日加工零件数的四分位数 QL位置位置50/412.5 QU位置位置350/437.5

11、 )(81.1175 8 8 4 50 115个 L Q )(75.1285 10 30 4 503 125个 U Q 4.1.3 数值型数据:均值 1.集中趋势的测度值之一 2.最常用的测度值 3.一组数据的均衡点所在 4.易受极端值的影响 5.用于数值型数据,不能用于定类数据和定 序数据 均值的种类及计算均值的种类及计算 1.1.算术平均数算术平均数* * * (1)(1)概念概念 算术平均数又称平均值,是用一组数据中所有值之和 除以该组数据的个数。 (2)(2)基本公式基本公式 总体单位总量 总体标志总量 算术平均数 平均数计算公式 设一组数据为:X1 ,X2 , ,XN 简单均值简单均

12、值的计算公式为 设分组后的数据为:X1 ,X2 , ,XK 相应的频数为: F1 , F2, ,FK 加权均值加权均值的计算公式为 N X N XXX X N i i N 121 K i i K i ii N NN F FX FFF FXFXFX X 1 1 21 2211 简单均值(算例) 原始数据:10591368 5 . 8 6 86139510 6 6543211 XXXXXX N X X N i i 加权均值(算例4.7) (1 1)算术平均数的大小,不仅取决于研究对象的)算术平均数的大小,不仅取决于研究对象的 变量值变量值(x)(x),而且受各变量值重复出现的频数,而且受各变量值重

13、复出现的频数(f f )或频率或频率 (f fff)大小的影响,频数或频率大小的影响,频数或频率 较大,该组数据的大小对算术平均数的影响就大较大,该组数据的大小对算术平均数的影响就大 ,反之则小。,反之则小。 (2 2)权数的表现形式问题:)权数的表现形式问题:绝对权数与相对权数绝对权数与相对权数 XX Xf f = ff 注意事项 是非标志的平均数是非标志的平均数 是非标志是非标志: :如果按照某种标志把总体只能分为具有某如果按照某种标志把总体只能分为具有某 种特征的单位和不具有该种特征的单位两部分,这种特征的单位和不具有该种特征的单位两部分,这 个标志就是是非标志。个标志就是是非标志。 平

14、均数的计算:把具有某种特征的用平均数的计算:把具有某种特征的用“1 1”表示,不具表示,不具 有该种特征的用有该种特征的用“0 0”表示。表示。 0 N 1 N f f p N N1 q N N0 P N N0N1 f xf x 01 是是 加权平均数(权数对平均数的影响) 甲乙两组各有10名学生,他们的考试成绩及其分布 数据如下 甲组: 考试成绩(X):0 20 100 人数分布(F):1 1 8 乙组: 考试成绩(X ): 0 20 100 人数分布(F ):8 1 1 X甲 01+201+1008 n 10 i=1 Xi 8282(分)(分) X乙 08+201+1001 n 10 i=

15、1 Xi 1212(分)(分) 平均数(数学性质) 1.各变量值与均值的离差之和等于零 2. 各变量值与均值的离差平方和最小 1 ()0 n i i XX 2 1 ()min n i i XX 性质性质(3、4) 3 3、给每个变量值增加或减少一个任意数、给每个变量值增加或减少一个任意数A A,则算,则算 术平均数也相应增增加或减少这个任意数术平均数也相应增增加或减少这个任意数A A。 4 4、给每个变量值乘以或除以一个任意数、给每个变量值乘以或除以一个任意数A A,则算,则算 术平均数也相应扩大或缩小术平均数也相应扩大或缩小A A倍。倍。 Ax n Ax Ax f fAx xA n Ax x

16、 A 1 n A x xA f Axf x A 1 f f A x 2.2.调和平均数调和平均数 (1 1)概念)概念: : 调和平均数调和平均数又称倒数平均数倒数平均数,是各个变量值倒 数的算术平均数的倒数。 (2 2)计算)计算 简单调和平均数简单调和平均数:针对未分组资料。未分组资料。 计算公式为: 1 1 hn i i n X X 2.2.调和平均数调和平均数 加权调和平均数加权调和平均数: :针对分组资料。分组资料。 计算公式计算公式为: 其中其中: 是一种特殊权数特殊权数,它不是各组变量值出现的次 数,表示各组标志总量各组标志总量。 即 iii fxw 111 111 nnn ii

17、ii iii hnnn ii i iii ii wXff X wf f XX i w i i i x w f 例例 根据根据某商场职工月工资资料计算月平均某商场职工月工资资料计算月平均 工资。工资。 某商场职工月工资资料某商场职工月工资资料 )(784 50 39200 元月平均工资 i i i x w w 3.3.几何平均数几何平均数 (1)(1)概念概念:几何平均数(geometric mean)又称对称平均 数,它是各变量值乘积的n次方根。 (2)(2)计算计算 基本公式基本公式: : 对数公式对数公式: : 在实际工作中,由于变量个数较多,通 常要应用对数来进行计算。即 12 1 n

18、n n Gni i XXXXX 12 1 11 lglglglglg lg n Gni i GG XXXXX nn XarcX (3)(3)几何平均数的应用及特点几何平均数的应用及特点 应用条件应用条件 现象的总比率是若干项变量的乘积,或现象的总发展现象的总比率是若干项变量的乘积,或现象的总发展 速度是各时期发展速度的连乘积时,计算平均比率或速度是各时期发展速度的连乘积时,计算平均比率或 平均发展速度。平均发展速度。 特点特点 a. a.如果数列中有一个标志值等于零或负值,则无法计算如果数列中有一个标志值等于零或负值,则无法计算 。 b. b.受极端值影响较小,故较稳健。受极端值影响较小,故较

19、稳健。 几何平均数(算例) 【例例4.10】一位投资者持有一种股票,2001-2004年 收益率分别为4.5%、2.1%、25.5%、1.9%。计算该投 资者在这四年内的平均收益率。 12 4 104.5% 102.1% 125.5% 101.9% 108.0787% N MN GXXX 平均收益率108.0787%-1=8.0787% 例1:某企业的一条生产流水线有四道工序,每一道工序完成的产品都要作一次质量检查, 只有合格的中间件才进入下一道工序。 工序C工序A工序B工序D 合格率98% 合格率97%合格率94%合格率95% 请问:平均合格率=? 适用于连续作业的情况: 例2:据网上报到,

20、成都温江的兰花节(2006年2月27日)上,一盆兰花卖价是1100万 元,这背后是迅速壮大的10万户成都养兰、炒兰户,不少人是在借高利贷炒兰,图谋 暴利。 红荷黄金海岸龙女彩蝶 设某炒兰投资者从朋友处借得一笔高利贷,以季度为结算单位,每个设某炒兰投资者从朋友处借得一笔高利贷,以季度为结算单位,每个 季度生成的利息到期自动转为本金,一年连本带利付清。各季利率根据兰季度生成的利息到期自动转为本金,一年连本带利付清。各季利率根据兰 花价格变化适当调整。实际一年下来,第一季度的利率是花价格变化适当调整。实际一年下来,第一季度的利率是3%,第二季度的,第二季度的 利率是利率是3.2%,第三季度的利率是,

21、第三季度的利率是3.6%,第四季度的利率是,第四季度的利率是2.8%。问:平均。问:平均 利率是多少?利率是多少? 4 1 4 1(13%)(13.2%)(13.6%)(12.8%) 1.13206090368103.149576% G=103.149576%-100%=3.149576% n n i i Gx 解答: 本题需要注意的是,不能够直接对利率进行几何平均,而应该通过连本带利 计算,即若借款总额为L万元,则一年之后的付款额(本息和)为: (13%)(13.2%)(13.6%)(12.8%) 11.132lL L 如果平均利率为G,则应该有: xGH 1.算术

22、平均数易受极端值影响; 2.调和平均数也受极端值影响,但受极小值影 响较大; 3.几何平均数受极端值影响较小。 对同一资料来说:几何平均数大于调和平均数而小于算术平 均数,即有: 一般来说:一般来说: 各种平均数的比较各种平均数的比较 (一)各种平均数的特点及应用场合(一)各种平均数的特点及应用场合 是就全部数据计算的,具有优良的数学性质,是就全部数据计算的,具有优良的数学性质, 实际中应用最为广泛。其主要缺点是易受极端值实际中应用最为广泛。其主要缺点是易受极端值 的影响,对偏态分布其代表性较差。的影响,对偏态分布其代表性较差。 H主要用于不能直接计算主要用于不能直接计算 的数据易受极端值的数

23、据易受极端值 的影响。的影响。 G主要用于计算比率数据的平均数主要用于计算比率数据的平均数,易受极端值易受极端值 的影响。的影响。 不受极端值大小的影响,对偏态分布其代表不受极端值大小的影响,对偏态分布其代表 性较性较 好。但不是根据所有的变量值计算的好。但不是根据所有的变量值计算的. 不受极端值的影响不受极端值的影响,对偏态分布其代表性较对偏态分布其代表性较 好好.但不是根据所有的变量值计算的但不是根据所有的变量值计算的. x x e m x 0 m oe MMx xMM eo oe MMx 中位数、众数和算术平均数的关系 4.2 离散程度的度量 数据分布的另一个重要特征 离中趋势的各测度值

24、是对数据离散程度所作的描述 反映各变量值远离其中心值的程度,因此也称为离中趋 势 从另一个侧面说明了集中趋势测度值的代表程度 不同类型的数据有不同的离散程度测度值 4.2.1 分类数据:异众比率 1.离散程度的测度值之一 2.非众数组的频数占总频数的比率 3.计算公式为 4. 用于衡量众数的代表性 i m i mi r F F F FF V1 异众比率(算例) 根据表中的数据,计算异众比率 解:解: 在所调查的200人当中,关注非 商品广告的人数占44%,异众比率 还是比较大。因此,用“商品广 告”来反映城市居民对广告关注 的一般趋势,其代表性不是很好 Vr = 200 - 112 200 =

25、 1 - 112 200 = 0.44 = 44% 4.2.2 顺序数据:四分位差 1.离散程度的测度值之一 2.也称为内距或四分间距 3.上四分位数与下四分位数之差 QD = QU - QL 4.反映了中间50%数据的离散程度 5.不受极端值的影响 6.用于衡量中位数的代表性 四分位差(定序数据的算例) 根据表中的数据,计算甲城市家庭对住房满 意状况评价的四分位差 解:设非常不满意为1,不满 意为2, 一般为3, 满意为 4, 非 常满意为5 已知 QL = 不满意 = 2, QU = 一般 = 3 四分位差: QD = QU - QL = 3 2 = 1 4.2.3 数值型数据:方差和标准

26、差 1.极差 1. 一组数据的最大值与最小值之差 2. 离散程度的最简单测度值 3. 易受极端值影响 4. 未考虑数据的分布 7 8 9 10 7 8 9 10 未分组数据未分组数据 R = max(Xi) - min(Xi) . =组距分组数据组距分组数据 R 最高组上限 - 最低组下限 5. 计算公式为 第一组:第一组:6060,7070,8080,9090,100100 第二组:第二组:7878,7979,8080,8181,8282 很明显,两个小组的考试成绩平均分都是很明显,两个小组的考试成绩平均分都是8080分,但分,但 是哪一组的分数比较集中呢?是哪一组的分数比较集中呢? 如果用

27、全距指标来衡量,则有如果用全距指标来衡量,则有 R R甲甲10010060604040(分)(分) R R乙乙828278784 4(分)(分) 这说明第一组资料的标志变动度或离中趋势远这说明第一组资料的标志变动度或离中趋势远 大于第二组资料的标志变动度。大于第二组资料的标志变动度。 例:有两个学习小组的统计学开始成绩分别为: 2. 平均差 1. 离散程度的测度值之一 2. 各变量值与其均值离差绝对值的平均数 3. 能全面反映一组数据的离散程度 4. 数学性质较差,实际中应用较少 5. 计算公式为 未分组数据未分组数据 组距分组数据组距分组数据 N XX M N i i D 1 K i i K

28、 i ii D F FXX M 1 1 平均差(计算过程及结果) 某厂按月收入水平分组的组距数列如表中前两列,计算平均差。 3.方差和标准差 离散程度的测度值之一 最常用的测度值 反映了数据的分布 反映了各变量值与均值的平均差异 根据总体数据计算的,称为总体方差或标 准差;根据样本数据计算的,称为样本方 差或标准差 总体方差和标准差(计算公式) 未分组数据: 组距分组数据: 未分组数据: 组距分组数据: 方差的计算公式方差的计算公式 标准差的计算公式标准差的计算公式 N XX N i i 1 2 2 )( K i i K i ii F FXX 1 1 2 2 )( N XX N i i 1 2

29、 )( K i i K i ii F FXX 1 1 2 )( 总体标准差(计算过程及结果) 根据表中的数据,计算工人日加工零件数的标准差 (个)87. 7 50 5 .3100 )( 1 1 2 K i i K i ii F FXX 样本方差和标准差(计算公式) 未分组数据: 组距分组数据: 未分组数据: 组距分组数据: 方差的计算公式方差的计算公式标准差的计算公式标准差的计算公式 注意: 样本方差用自 由度n-1去除! 1 )( 1 2 2 1 n xx S n i i n k i i k i ii n f fxx S 1 1 2 2 1 1 )( 1 )( 1 2 1 n xx S n

30、i i n k i i k i ii n f fxx S 1 1 2 1 1 )( 样本方差自由度 一组数据中可以自由取值的数据的个数 当样本数据的个数为 n n 时,若样本均值x x 确定后,只有 n n-1-1个数据可以自由取值,其中必有一个数据则不能自由 取值 例如,样本有3个数值,即x x1 1=2=2,x x2 2=4=4,x x3 3=9=9,则 x x = 5= 5 。当 x x = 5 = 5 确定后,x x1 1,x x2 2和x x3 3有两个数据可以自由取 值,另一个则不能自由取值,比如x x1 1=6=6,x x2 2=7=7,那么x x3 3则 必然取2 2,而不能取

31、其他值 样本方差用自由度去除,其原因可从多方面来解释,从实 际应用角度看,在抽样估计中,当用样本方差去估计总体 方差2 2时,它是2 2的无偏估计量 样本方差与标准差(算例) 原始数据: 10 5 9 13 6 8 3 . 8 16 )5 . 88()5 . 85()5 . 810( 1 )( 222 1 2 2 1 n xx S n i i n 88. 23 . 8 1 )( 1 2 1 n xx S n i i n 方差(简化计算公式) 样本方差 总体方差 ) 1(11 )( 2 1 1 2 1 2 2 1 nn x n x n xx S n i i n i i n i i n 2 1 2 1 2 2 )( X N X N XX N i i N i i 方差(数学性质) 各变量值对均值的方差小于对任意值的方差 设X0为不等于X的任意数,D2为对X0的方差,则 2 0 21 2 0 2 )( XX N XX D N i i 是非标志的标准差是非标志的标准差 如前:是非标志的平均数为如前:是非标志的平均数为P。 f)xx( 2 1 N 0 N 1 2 N)P1( 0 2 N)P0( )P1(P N NPN)P1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论