《管理统计学》马庆国著-课件_第1页
《管理统计学》马庆国著-课件_第2页
《管理统计学》马庆国著-课件_第3页
《管理统计学》马庆国著-课件_第4页
《管理统计学》马庆国著-课件_第5页
已阅读5页,还剩74页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第三章第三章 样本数据特征的样本数据特征的 初步分析初步分析信息在被操纵或处理后并没有超出其原有的格式信息在被操纵或处理后并没有超出其原有的格式 保留了数据的原值保留了数据的原值 ,并按数值的升序或降序显示数据。并按数值的升序或降序显示数据。 易观察到:易观察到: 数据集中包含最大观察值和最小观察值数据集中包含最大观察值和最小观察值 确认在某个数据集中哪些数组具有相同的值确认在某个数据集中哪些数组具有相同的值 很容易发现各个值之间的差异很容易发现各个值之间的差异 3、样本数据结构的基本特征:频次与频率、样本数据结构的基本特征:频次与频率一、一些基本概念一、一些基本概念1、频次(频数)、频次(频

2、数) 在有限的样本数据集合中,同样的数据值(样本值)在有限的样本数据集合中,同样的数据值(样本值)出现的次数出现的次数 称为该样本值出现的频次称为该样本值出现的频次。2、频率、频率 该样本值出现的频次该样本值出现的频次 / 该数据集合的数据总数。该数据集合的数据总数。常用表示方法:常用表示方法: (1)表)表 ; (2)饼图;)饼图; (3)条形图;)条形图;二、样本数据集合的基本特征的延伸:累积频率二、样本数据集合的基本特征的延伸:累积频率 当样本数据的测度在顺次级以上时,把样本值小于等于当样本数据的测度在顺次级以上时,把样本值小于等于某个样本数据某个样本数据xi的频率值累加起来,就得到的频

3、率值累加起来,就得到“小于等于小于等于xi”的累积频率。的累积频率。注:名义级的样本数据集合,不存在累积频率问题。注:名义级的样本数据集合,不存在累积频率问题。表示法同上。表示法同上。将数据值分成几组将数据值分成几组 显示各组中有多少数值显示各组中有多少数值很容易发现数据的图形特点很容易发现数据的图形特点 无法保留原始数据的值无法保留原始数据的值 某个变量所有可能值的集合某个变量所有可能值的集合 显示了变量的图形特点显示了变量的图形特点 分布分布 P当数据集为小型时,数据之间的变化特点很容易观察出当数据集为小型时,数据之间的变化特点很容易观察出来来 P随着数据集变为中型或大型,变量的特性一般表

4、现得越随着数据集变为中型或大型,变量的特性一般表现得越来越不明显来越不明显 频数分布的类别频数分布的类别 频数频数 每一组包含的观察值数目每一组包含的观察值数目 组组 组限组限 每一组的上限和下限每一组的上限和下限 组宽组宽 上限和下限之间的间距上限和下限之间的间距 如何将数据转换成表格如何将数据转换成表格 ?哪些重要或必要的信息应当包括在内哪些重要或必要的信息应当包括在内 ? 确定确定 “组数组数”和和“组宽组宽 ” 频数分布一般包括与每组有关的频数、累积频数、相对频数分布一般包括与每组有关的频数、累积频数、相对频数和相对累积频数频数和相对累积频数显示每组范围内或其下有多少观察值显示每组范围

5、内或其下有多少观察值 相对频数描述每组范围内观察值所占的百分比,相对频数描述每组范围内观察值所占的百分比,即每组的频数除以观察值的总数目即每组的频数除以观察值的总数目 显示每组范围内或其下观察值所占的百分比显示每组范围内或其下观察值所占的百分比 对于定性变量而言对于定性变量而言 -常常根据变量结果的种类来选择组常常根据变量结果的种类来选择组 例如,为了研究本班例如,为了研究本班100名学生的性别名学生的性别 - 频数 累积频数 男性 60 60 女性 40 100 100 对于定量变量而言对于定量变量而言 -选择选择“组数组数” 和和“组宽组宽 ”是主要问题是主要问题应当遵循哪些基本原则来确定

6、组应当遵循哪些基本原则来确定组 -1.各个组之间必须是各个组之间必须是“相互排斥相互排斥”的的 2.各个组必须将各个组必须将“所有数据均包括在内所有数据均包括在内” 3.组数组数K 的经验法则的经验法则 2K n ,此处此处n代表观察值的总数目代表观察值的总数目4. 各组之间的宽度最好相等,但这并不是必要条件。各组之间的宽度最好相等,但这并不是必要条件。当组宽相等时,当组宽相等时, W nW 最小观察值最大观察值 5.应当尽量避免开口组应当尽量避免开口组 6.组宽最好是整数组宽最好是整数 例如例如,为了研究某班为了研究某班100名学生的身高名学生的身高 -我们确定将整个数据分成我们确定将整个数

7、据分成5组,每组宽度相等,组,每组宽度相等,W = 10厘米厘米 身高 (厘米) 频数 累积频数 相对频数 相对累积频数 140 150 6 6 0.06 0.06 150 160 23 29 0.23 0.29 160 170 36 65 0.36 0.65 170 180 28 93 0.28 0.93 180 190 7 100 0.07 1.00 100 1.00 1. 一张整理有序的表格可以使数据中隐藏的信息清楚地表现出一张整理有序的表格可以使数据中隐藏的信息清楚地表现出 来来2. 有助于采用图形方式来汇总数据有助于采用图形方式来汇总数据 3数据集表格不具有唯一性数据集表格不具有唯一

8、性以下数据表示一个当地咖啡馆进行的以下数据表示一个当地咖啡馆进行的30笔交易笔交易 -确定确定“组数组数” 和和“组宽组宽 ”样本大小样本大小 n =3025 = 32 305 组组最小观察值最小观察值 = 14,最大观察值最大观察值 = 83最好采用最好采用“整数整数” W = 15 组数组数 组宽组宽 8 .1351483 组 别 频 数 累 积 频 数 相 对 频 数 相对累积频数 10 25 4 4 133. 0304 0.133 25 40 6 4+6=10 200. 0306 0.333 40 55 8 10+8=18 267. 0308 0.600 55 70 7 25 233.

9、 0307 0.833 70 85 5 30 167. 0305 1.000 30 1.000 数据必须按照升序排列数据必须按照升序排列 为了构造图形,我们将数值的第一个数字作为茎为了构造图形,我们将数值的第一个数字作为茎 茎叶排列使我们可以通过图形来了解数据的分布茎叶排列使我们可以通过图形来了解数据的分布 例如例如,我们想将我们想将12个数据转换成一张茎叶图形个数据转换成一张茎叶图形 : 4.4 3.6 4.4 3.7 7.6 3.9 3.6 3.5 3.0 4.5 3.8 2.22| 23| 0 5 6 6 7 8 94| 4 4 55|6|7| 6 三种最常使用的图形类型三种最常使用的图

10、形类型 - 直方图直方图 频数多边形频数多边形 分布曲线分布曲线 在构造图形之前,需要用频数分布来显示数据在构造图形之前,需要用频数分布来显示数据 应当将数据转换成频数分布表应当将数据转换成频数分布表 水平轴代表变量的数值,核对符号代表每一组的中点水平轴代表变量的数值,核对符号代表每一组的中点 垂直轴代表计数频数或百分比频数垂直轴代表计数频数或百分比频数 每个条形图的高度与每一组的频数或百分比相对应每个条形图的高度与每一组的频数或百分比相对应 每个条形图的宽度与每一组的宽度相对应每个条形图的宽度与每一组的宽度相对应 例如,我们在本单元中想通过绘制直方图来表示例如,我们在本单元中想通过绘制直方图

11、来表示100名学生的身名学生的身高分布高分布 身高身高185.0175.0165.0155.0145.0计数频数计数频数403020100身高身高190.0180.0170.0160.0150.0计数频数计数频数403020100200.0140.0用线段将各组中点和频数(或相对频数)的交叉点连接起来,用线段将各组中点和频数(或相对频数)的交叉点连接起来,就可以得到频数多边形图形就可以得到频数多边形图形 身高身高.190.0180.0170.0160.0150.0累积计数频数累积计数频数806040200140.0100图形显示了每一组的累积频图形显示了每一组的累积频数或相对累积频数数或相对累

12、积频数 它可以用它可以用“小于小于”或或“大于大于”来来表示表示 定性变量常常用非数值刻度来测量定性变量常常用非数值刻度来测量 对这些变量可以进行分类对这些变量可以进行分类 可以采用两种最为常见的图形来描述定性变量的分布可以采用两种最为常见的图形来描述定性变量的分布 饼图饼图 条形图条形图 饼图的圆圈代表了所有观察值的集合饼图的圆圈代表了所有观察值的集合 根据定性变量的类型数目将饼图分成几个部分根据定性变量的类型数目将饼图分成几个部分 饼图每一部分的大小与每一类型的相对频数成正比饼图每一部分的大小与每一类型的相对频数成正比 例如,我们可以用饼图来描述某班例如,我们可以用饼图来描述某班100名学

13、生的性别分布状名学生的性别分布状况况 男性男性60%女性女性40% 对于定性变量而言,条形图表示每一类型的百分比或对于定性变量而言,条形图表示每一类型的百分比或 计数频数计数频数 每个条形图的高度代表每一类型的百分比或比例每个条形图的高度代表每一类型的百分比或比例 条形图的宽度没有意义,所有类型的宽度均相同条形图的宽度没有意义,所有类型的宽度均相同 例如,我们用条形图来显示某班例如,我们用条形图来显示某班100名学生的性别分布状况名学生的性别分布状况020406080男性男性女性女性 饼图饼图 :图形图形 饼图饼图 对各组情形进行总结对各组情形进行总结 条形图条形图 :图形图形 条形图条形图

14、对各组情形进行总结对各组情形进行总结 直方图直方图 :图形图形 直方图直方图 选择关心的变量选择关心的变量 茎叶图形茎叶图形 :分析分析 描述统计学描述统计学 寻找寻找 选择绘图选项选择绘图选项 所有观察值所有观察值 的平均值的平均值均值均值 所有观察值中位于最中心位置的那个值所有观察值中位于最中心位置的那个值 中位数中位数 出现最频繁的数据值出现最频繁的数据值 众数众数 均值均值 -总体均值总体均值 N总体大小总体中所有观察值之和Nx样本均值样本均值 n样本大小样本中所有观察值之和nxxKim 测验的平均成绩等于测验的平均成绩等于 在此我们可以看到,在汇总在此我们可以看到,在汇总Kim的测验

15、成绩时,均值并不能发挥的测验成绩时,均值并不能发挥很好的作用。在大多数情况下,很好的作用。在大多数情况下,Kim的测验成绩低于的测验成绩低于30分,她只分,她只在一次测验中意外地获得了在一次测验中意外地获得了98的高分,因此她的平均成绩被提高的高分,因此她的平均成绩被提高到到35分。分。 355261925987 Kim是一名中等学校的学生,她上星期进行了是一名中等学校的学生,她上星期进行了5次测验,成次测验,成绩分别如下绩分别如下 7, 98, 25, 19, 和和26均值对极值表现得非常敏感均值对极值表现得非常敏感 如果数据中存在极值(或者说数据分布有所偏斜),那么如果数据中存在极值(或者

16、说数据分布有所偏斜),那么均值就不能很好地测度集中趋势均值就不能很好地测度集中趋势 中位数中位数 (Md) -1.将将n个观察值按升序或降序排列个观察值按升序或降序排列 2.如果观察值个数是奇数,则中位数就是位于最中心位置的那个观如果观察值个数是奇数,则中位数就是位于最中心位置的那个观察值,即数据集中的第察值,即数据集中的第 个观察值个观察值 3.如果观察值个数是偶数,则中位数就是位于正中心两个观察值的如果观察值个数是偶数,则中位数就是位于正中心两个观察值的平均值,即数据集中的第平均值,即数据集中的第 个和第个和第 个观察值的平均值个观察值的平均值 thn)21( thn)2(thn)12(

17、举例举例: 有有6名工人组成一个样本,请找出他们每周工资的中位名工人组成一个样本,请找出他们每周工资的中位数数 151179163142180195按升序重新排列每周的工资按升序重新排列每周的工资 142151163179180195 最中心位置的最中心位置的两个两个数值数值 求这两个数值的平均数求这两个数值的平均数 中位数中位数 = 1712179163 Kim的5次测验成绩 又如何呢?Kim成绩的中位数为成绩的中位数为25看来中位数能更好地测度看来中位数能更好地测度Kim测验成绩的中心位置测验成绩的中心位置 -中位数不受中位数不受“极值极值”的影响的影响 众数众数 (Mo) -并不经常用众

18、数来测度中心位置并不经常用众数来测度中心位置适用于定性变量适用于定性变量 众数不具有唯一性众数不具有唯一性 举例举例: 有有6名工人组成一个样本,请找出他们每周工资的众数名工人组成一个样本,请找出他们每周工资的众数 151 179 163 142 180 195 不存在不存在 众数众数 151 180 163 142 180 195 180 142 180 163 142 180 195 142 和和180 (双峰双峰 )对对两个旅行团的小孩年龄进行了数据调查,以下是调两个旅行团的小孩年龄进行了数据调查,以下是调查结果:查结果: -年龄年龄 : 14, 17, 11, 10, 11, 14,

19、9, 12, 8, 10, 9均值均值 36.11119.111714 中位数中位数 11众数众数 9, 10 , 11 和和 14 (有有4 个众数个众数 ) age: 9, 14, 8, 10, 13, 7, 9, 11, 16, 10, 12, 9均值均值 67.10129.149 中位数中位数 10众数众数 9均值、中位数和众数之间的关系均值、中位数和众数之间的关系 -1. 对称分布对称分布 (均值均值 = Md = Mo) 均值均值 = Md = Mo均值、中位数和众数之间的关系均值、中位数和众数之间的关系 -2.倾向左侧倾向左侧 (均值均值 Md Md Mo) MdMo均值均值为了

20、计算分组数据的为了计算分组数据的均值均值 计算每一组的中点计算每一组的中点 假设观察值都落在各组的中点上假设观察值都落在各组的中点上 总体均值总体均值 样本均值样本均值 Nfx nfxX 下列频数分布显示了某家公司下列频数分布显示了某家公司50名工人的每周工资名工人的每周工资收入,估计每周工资的平均水平收入,估计每周工资的平均水平 每周工资收入 工人人数(f) 140 149 4 150 159 6 160 169 9 170 179 12 180 189 9 190 199 7 200 209 3 每周工资收入 工人人数(f) 中中点点 (x) fx 140 149 4 144.5 578.

21、0 150 159 6 154.5 927.0 160 169 9 164.5 1480.5 170 179 12 174.5 2094.0 180 189 9 184.5 1660.5 190 199 7 194.5 1361.5 200 209 3 204.5 613.5 50 fN 0 .8715fx 3 .174500 .8715 Nfx 每周的平均工资每周的平均工资为了计算分组数据的为了计算分组数据的中位数中位数 计算每一组的累积频数计算每一组的累积频数 包括包括“最中心位置最中心位置” 观察值的那一组就是观察值的那一组就是“中位数组中位数组” ddMMdfcnwLM 2LMd :中

22、位数组的下中位数组的下 限限fMd :中位数组的频数中位数组的频数 w :中位数组的宽度中位数组的宽度 c :位于中位数组之前那一组的累位于中位数组之前那一组的累积频数积频数 继续讨论前面的例子,即计算继续讨论前面的例子,即计算50名工人每周工资名工人每周工资收入的中位数收入的中位数每周工资收入 实际组限 工人人数(f) c.f. 140 149 139.5 149.5 4 4 150 159 149.5 159.5 6 10 160 169 159.5 169.5 9 19 170 179 169.5 179.5 12 31 包括最中心数值的那一组 180 189 179.5 189.5 9

23、 40 190 199 189.5 199.5 7 47 200 209 199.5 209.5 3 50 LMd = 169.5fMd = 12w = 10c = 19中位数组中位数组 170 1795 .17455 .169126105 .1691219250105 .1692 ddMMdfcnwLM每周工资收入的中位数每周工资收入的中位数为了计算分组数据的为了计算分组数据的众数众数 出现最频繁的那一组就是出现最频繁的那一组就是“众数组众数组” 2110dddwLMMo LMo :众数组的下限众数组的下限 d1 : 众数组的频数减去众数组众数组的频数减去众数组之前之前那那一组的频数一组的频

24、数 w :众数组的宽度众数组的宽度 d2 : 众数组的频数减去众数组众数组的频数减去众数组之后之后那那一组的频数一组的频数 继续讨论前面的例子,即计算继续讨论前面的例子,即计算50名工人每周工资收入的众数名工人每周工资收入的众数每周工资收入 实际组限 工人人数(f) 140 149 139.5 149.5 4 150 159 149.5 159.5 6 160 169 159.5 169.5 9 170 179 169.5 179.5 12 出现最频繁的那一组 180 189 179.5 189.5 9 190 199 189.5 199.5 7 200 209 199.5 209.5 3 L

25、Mo = 169.5w = 10d1 = 12 9 = 3众数组众数组 170 1795 .17455 .16963105 .169333105 .169211 dddwLMOMo每周工资收入的众数每周工资收入的众数d2 = 12 9 = 3 优点 缺点 均值 1. 直观清晰 2. 可用于比较定量 数据集 1. 可能会受极值影响 2. 计算烦琐 3. 如果数据集有开口组,则无法对其进行计算 4. 不适用于定性变量 中位数 1. 不受极值影响 2. 可用于计算有开口组的数据集 3. 适用于定量变量和按顺序排列的定性变量 1. 很费时间 2. 在进行统计推断时,可靠性比“均值”要差 众数 1. 不

26、受极值影响 2. 可用于计算有开口组的数据集 1. 有些数据集没有 众数 2. 可能会出现多个众数 举例举例:A A列数据列数据: : 55 56 57 58 59 60 61 62 63 64 65均值均值 = Md = Mo = 60B B列数据列数据: : 35 40 45 50 55 60 65 70 75 80 85均值均值= Md = Mo = 60测度离中趋势最常用的三种方法测度离中趋势最常用的三种方法 -1.全距全距 2.标准差标准差 (SD)3.变异系数变异系数 (CV)全距全距 =最大观察值最大观察值 最小观察值最小观察值 全距有两个主要缺点全距有两个主要缺点 -1.对数据

27、集中的极值显得非常敏感对数据集中的极值显得非常敏感 2. 忽略了位于最大观察值与最小观察值之间的数据是如忽略了位于最大观察值与最小观察值之间的数据是如何分布的何分布的有有5名工人组成一个样本,请找出他们每周工资的全距名工人组成一个样本,请找出他们每周工资的全距 151179163142180X最大值最大值 = 180X最小值最小值 = 142全距全距 = 180 142 = 38标准差可以让我们大致了解数据值距离标准差可以让我们大致了解数据值距离均值有多远均值有多远 标准差标准差 总体标准差总体标准差 , Nx2)( 样本标准差样本标准差 , s1)(2 nXxs计算标准差的其他公式计算标准差

28、的其他公式 总体标准差总体标准差 :222)( NxNx样本标准差样本标准差 :11)(222 nXnxnXxs举例:举例:有有5名工人组成一个名工人组成一个总体总体,请找出他们每周工资的标准差,请找出他们每周工资的标准差 151179163142180X X (X )2 151 -12 144 179 16 256 163 0 0 142 -21 441 180 17 289 X = 815 (X )2=1130 1635815 Nx 03.1551130)(2 Nx 数据分布的经验法则数据分布的经验法则 -当数据集接近对称分布时当数据集接近对称分布时 ,则大约,则大约 68.3 %的数据落

29、在均值的的数据落在均值的1倍标准差范围内倍标准差范围内 95.5 %的数据落在均值的的数据落在均值的2倍标准差范围内倍标准差范围内 99.7 5%的数据落在均值的的数据落在均值的3倍标准差范围内倍标准差范围内 测量数据相对于均值的离中趋势测量数据相对于均值的离中趋势 变异系数变异系数 (CV)%100均值标准差CV? 什么时候采用变异系数什么时候采用变异系数 (CV) 来测度离中趋势来测度离中趋势 ? 比较具有不同单位的数据集比较具有不同单位的数据集 比较具有不同幅度的数据集比较具有不同幅度的数据集 举例举例:例如,我们想比较例如,我们想比较1993年年2月至月至1994年年1月期间黄金和锌块

30、的月期间黄金和锌块的价格波动情况,我们收集了价格数据并得出如下计算结果:价格波动情况,我们收集了价格数据并得出如下计算结果: 42.364$ X黄金黄金:4592. 0$ X锌块锌块 :每盎司每盎司 50.21$ s每磅每磅 0247. 0$ sCV表示每种商品相对于其自身平均价格的波动幅度表示每种商品相对于其自身平均价格的波动幅度 :黄金黄金:锌块锌块 :%9 . 5%10042.36250.21 CV%38. 5%1004592. 00247. 0 CV为了计算分组数据的为了计算分组数据的标准差标准差 计算每一组的中点计算每一组的中点 假设观察值都落在各组的中点上假设观察值都落在各组的中点

31、上 总体标准差总体标准差 样本标准差样本标准差 Nxf2)( 1)(2 nXxfs总体标准差总体标准差 Nxf2)( 1)(2 nXxfs样本标准差样本标准差 计算标准差的其他公式计算标准差的其他公式 举例举例:计算工人每周工资的计算工人每周工资的总体总体标准差标准差 -每周工资收入 工人人数(f) 140 149 4 150 159 6 160 169 9 170 179 12 180 189 9 190 199 7 200 209 3 每周工资收入 工人人数( f) 中点中点 (x) (x )(x )2 f(x )2 140 149 4 144.5 -29.8 888.04 3552.16

32、 150 159 6 154.5 -19.8 392.04 2352.24 160 169 9 164.5 - 9.8 96.04 864.36 170 179 12 174.5 -0.2 0.04 0.48 180 189 9 184.5 -10.2 104.04 936.36 190 199 7 194.5 20.2 408.05 2856.28 200 209 3 204.5 30.2 912.04 2736.12 N = f = 50 f (x )2 = 13298 31.165013298)(2 Nxf 总体标准差总体标准差 计算工人每周工资的计算工人每周工资的样本样本标准差标准差每周工资收入 工人人数(f) 140 149 4 150 159 6 160 169 9 170 179 12 180 189 9 190 199 7 200 209 3 每周工资收入 工人人数( f) 中点中点 (x) (x )(x )2 f(x )2 140 149 4 144.5 -29.8 888.04 3552.16 150 159 6 154.5 -19.8 392.04 2352

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论