




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第三章第三章 样本数据特征的样本数据特征的 初步分析初步分析信息在被支配或处置后并没有超出其原有的格式信息在被支配或处置后并没有超出其原有的格式 保管了数据的原值保管了数据的原值 ,并按数值的升序或降序显示数据。并按数值的升序或降序显示数据。 易察看到:易察看到: 数据集中包含最大察看值和最小察看值数据集中包含最大察看值和最小察看值 确认在某个数据集中哪些数组具有一样的值确认在某个数据集中哪些数组具有一样的值 很容易发现各个值之间的差别很容易发现各个值之间的差别 3、样本数据构造的根本特征:频次与频率、样本数据构造的根本特征:频次与频率一、一些根本概念一、一些根本概念1、频次频数、频次频数 在
2、有限的样本数据集合中,同样的数据值样本值在有限的样本数据集合中,同样的数据值样本值出现的次数出现的次数 称为该样本值出现的频次。称为该样本值出现的频次。2、频率、频率 该样本值出现的频次该样本值出现的频次 / 该数据集合的数据总数。该数据集合的数据总数。常用表示方法:常用表示方法: 1表表 ; 2饼图;饼图; 3条形图;条形图;二、样本数据集合的根本特征的延伸:累积频率二、样本数据集合的根本特征的延伸:累积频率 当样本数据的测度在依次级以上时,把样本值小于等于当样本数据的测度在依次级以上时,把样本值小于等于某个样本数据某个样本数据xi的频率值累加起来,就得到的频率值累加起来,就得到“小于等于小
3、于等于xi的累积频率。的累积频率。注:名义级的样本数据集合,不存在累积频率问题。注:名义级的样本数据集合,不存在累积频率问题。表示法同上。表示法同上。将数据值分成几组将数据值分成几组 显示各组中有多少数值显示各组中有多少数值很容易发现数据的图形特点很容易发现数据的图形特点 无法保管原始数据的值无法保管原始数据的值 某个变量一切能够值的集合某个变量一切能够值的集合 显示了变量的图形特点显示了变量的图形特点 分布分布 P当数据集为小型时,数据之间的变化特点很容易察看出当数据集为小型时,数据之间的变化特点很容易察看出来来 P随着数据集变为中型或大型,变量的特性普通表现得越随着数据集变为中型或大型,变
4、量的特性普通表现得越来越不明显来越不明显 频数分布的类别频数分布的类别 频数频数 每一组包含的察看值数目每一组包含的察看值数目 组组 组限组限 每一组的上限和下限每一组的上限和下限 组宽组宽 上限和下限之间的间距上限和下限之间的间距 如何将数据转换成表格如何将数据转换成表格 ?哪些重要或必要的信息该当包括在内哪些重要或必要的信息该当包括在内 ? 确定确定 “组数和组数和“组宽组宽 频数分布普通包括与每组有关的频数、累积频频数分布普通包括与每组有关的频数、累积频数、相对频数和相对累积频数数、相对频数和相对累积频数显示每组范围内或其下有多少察看值显示每组范围内或其下有多少察看值 相对频数描画每组范
5、围内察看值所占的百分比,相对频数描画每组范围内察看值所占的百分比,即每组的频数除以察看值的总数目即每组的频数除以察看值的总数目 显示每组范围内或其下察看值所占的百分比显示每组范围内或其下察看值所占的百分比 对于定性变量而言对于定性变量而言 -经常根据变量结果的种类来选择组经常根据变量结果的种类来选择组 例如,为了研讨本班例如,为了研讨本班100名学生的性别名学生的性别 - 频数 累积频数 男性 60 60 女性 40 100 100 对于定量变量而言对于定量变量而言 -选择选择“组数组数 和和“组宽组宽 是主要问题是主要问题该当遵照哪些根本原那么来确定组该当遵照哪些根本原那么来确定组 -1.各
6、个组之间必需是各个组之间必需是“相互排斥的相互排斥的 2.各个组必需将各个组必需将“一切数据均包括在内一切数据均包括在内 3.组数组数K 的阅历法那么的阅历法那么 2K n ,此处此处n代表察看值的总数目代表察看值的总数目4. 各组之间的宽度最好相等,但这并不是必要条件。各组之间的宽度最好相等,但这并不是必要条件。当组宽相等时,当组宽相等时, W nW 最小观察值最大观察值5.该当尽量防止开口组该当尽量防止开口组 6.组宽最好是整数组宽最好是整数 例如例如,为了研讨某班为了研讨某班100名学生的身高名学生的身高 -我们确定将整个数据分成我们确定将整个数据分成5组,每组宽度相等,组,每组宽度相等
7、,W = 10厘米厘米 身高 (厘米) 频数 累积频数 相对频数 相对累积频数 140 150 6 6 0.06 0.06 150 160 23 29 0.23 0.29 160 170 36 65 0.36 0.65 170 180 28 93 0.28 0.93 180 190 7 100 0.07 1.00 100 1.00 1. 一张整理有序的表格可以使数据中隐藏的信息清楚地表现出一张整理有序的表格可以使数据中隐藏的信息清楚地表现出 来来2. 有助于采用图形方式来汇总数据有助于采用图形方式来汇总数据 数据集表格不具有独一性数据集表格不具有独一性以下数据表示一个当地咖啡馆进展的以下数据表
8、示一个当地咖啡馆进展的30笔买卖笔买卖 样本大小样本大小 n =3025 = 32 305 组组最小察看值最小察看值 = 14,最大察看值最大察看值 = 83最好采用最好采用“整数整数 W = 15 组数组数 组宽组宽 8 .1351483 组 别 频 数 累 积 频 数 相 对 频 数 相对累积频数 10 25 4 4 133. 0304 0.133 25 40 6 4+6=10 200. 0306 0.333 40 55 8 10+8=18 267. 0308 0.600 55 70 7 25 233. 0307 0.833 70 85 5 30 167. 0305 1.000 30 1.
9、000 数据必需按照升序陈列数据必需按照升序陈列 为了构造图形,我们将数值的第一个数字作为茎为了构造图形,我们将数值的第一个数字作为茎 茎叶陈列使我们可以经过图形来了解数据的分布茎叶陈列使我们可以经过图形来了解数据的分布 例如例如,我们想将我们想将12个数据转换成一张茎叶图形个数据转换成一张茎叶图形 : 4.4 3.6 4.4 3.7 7.6 3.9 3.6 3.5 3.0 4.5 3.8 2.22| 23| 0 5 6 6 7 8 94| 4 4 55|6|7| 6 三种最常运用的图形类型三种最常运用的图形类型 - 直方图直方图 频数多边形频数多边形 分布曲线分布曲线 在构造图形之前,需求用
10、频数分布来显示数据在构造图形之前,需求用频数分布来显示数据 该当将数据转换成频数分布表该当将数据转换成频数分布表 程度轴代表变量的数值,核对符号代表每一组的中点程度轴代表变量的数值,核对符号代表每一组的中点 垂直轴代表计数频数或百分比频数垂直轴代表计数频数或百分比频数 每个条形图的高度与每一组的频数或百分比相对应每个条形图的高度与每一组的频数或百分比相对应 每个条形图的宽度与每一组的宽度相对应每个条形图的宽度与每一组的宽度相对应 例如,我们在本单元中想经过绘制直方图来表示例如,我们在本单元中想经过绘制直方图来表示100名学生的身名学生的身高分布高分布 身高身高185.0175.0165.015
11、5.0145.0计数频数计数频数403020100身高身高190.0180.0170.0160.0150.0计数频数计数频数403020100200.0140.0用线段将各组中点和频数或相对频数的交叉点衔接起来,用线段将各组中点和频数或相对频数的交叉点衔接起来,就可以得到频数多边形图形就可以得到频数多边形图形 身高身高.190.0180.0170.0160.0150.0累积计数频数累积计数频数806040200140.0100图形显示了每一组的累积频图形显示了每一组的累积频数或相对累积频数数或相对累积频数 它可以用它可以用“小于或小于或“大于大于来表示来表示 定性变量经常用非数值刻度来丈量定性
12、变量经常用非数值刻度来丈量 对这些变量可以进展分类对这些变量可以进展分类 可以采用两种最为常见的图形来描画定性变量的分布可以采用两种最为常见的图形来描画定性变量的分布 饼图饼图 条形图条形图 饼图的圆圈代表了一切察看值的集合饼图的圆圈代表了一切察看值的集合 根据定性变量的类型数目将饼图分成几个部分根据定性变量的类型数目将饼图分成几个部分 饼图每一部分的大小与每一类型的相对频数成正比饼图每一部分的大小与每一类型的相对频数成正比 例如,我们可以用饼图来描画某班例如,我们可以用饼图来描画某班100名学生的性别分布情名学生的性别分布情况况 男性男性60%女性女性40% 对于定性变量而言,条形图表示每一
13、类型的百分比或对于定性变量而言,条形图表示每一类型的百分比或 计数频数计数频数 每个条形图的高度代表每一类型的百分比或比例每个条形图的高度代表每一类型的百分比或比例 条形图的宽度没有意义,一切类型的宽度均一样条形图的宽度没有意义,一切类型的宽度均一样 例如,我们用条形图来显示某班例如,我们用条形图来显示某班100名学生的性别分布情况名学生的性别分布情况020406080男性男性女性女性 饼图饼图 :图形图形 饼图饼图 对各组情形进展总结对各组情形进展总结 条形图条形图 :图形图形 条形图条形图 对各组情形进展总结对各组情形进展总结 直方图直方图 :图形图形 直方图直方图 选择关怀的变量选择关怀
14、的变量 茎叶图形茎叶图形 :分析分析 描画统计学描画统计学 寻觅寻觅 选择绘图选项选择绘图选项 一切察看值一切察看值 的平均值的平均值均值均值 一切察看值中位于最中心位置的那个值一切察看值中位于最中心位置的那个值 中位数中位数 出现最频繁的数据值出现最频繁的数据值 众数众数 均值均值 -总体均值总体均值 N总体大小总体中所有观察值之和Nx样本均值样本均值 n样本大小样本中所有观察值之和nxxKim 检验的平均成果等于检验的平均成果等于 在此我们可以看到,在汇总在此我们可以看到,在汇总Kim的检验成果时,均值并不能发扬的检验成果时,均值并不能发扬很好的作用。在大多数情况下,很好的作用。在大多数情
15、况下,Kim的检验成果低于的检验成果低于30分,她只分,她只在一次检验中不测地获得了在一次检验中不测地获得了98的高分,因此她的平均成果被提高的高分,因此她的平均成果被提高到到35分。分。 355261925987 Kim是一名中等学校的学生,她上星期进展了是一名中等学校的学生,她上星期进展了5次检验,成次检验,成果分别如下果分别如下 7, 98, 25, 19, 和和26均值对极值表现得非常敏感均值对极值表现得非常敏感 假设数据中存在极值或者说数据分布有所偏斜,那么假设数据中存在极值或者说数据分布有所偏斜,那么均值就不能很好地测度集中趋势均值就不能很好地测度集中趋势 中位数中位数 (Md)
16、-1.将将n个察看值按升序或降序陈列个察看值按升序或降序陈列 2.假设察看值个数是奇数,那么中位数就是位于最中心位置的那个假设察看值个数是奇数,那么中位数就是位于最中心位置的那个察看值,即数据集中的第察看值,即数据集中的第 个察看值个察看值 3.假设察看值个数是偶数,那么中位数就是位于正中心两个察看值假设察看值个数是偶数,那么中位数就是位于正中心两个察看值的平均值,即数据集中的第的平均值,即数据集中的第 个和第个和第 个察看值的平均个察看值的平均值值 thn)21( thn)2(thn)12( 举例举例:有有6名工人组成一个样本,请找出他们每周工资的中位名工人组成一个样本,请找出他们每周工资的
17、中位数数 151179163142180195按升序重新陈列每周的工资按升序重新陈列每周的工资 142151163179180195 最中心位置的两个数值最中心位置的两个数值 求这两个数值的平均数求这两个数值的平均数 中位数中位数 = 1712179163 Kim的5次检验成果 又如何呢?Kim成果的中位数为成果的中位数为25看来中位数能更好地测度看来中位数能更好地测度Kim检验成果的中心位置检验成果的中心位置 -中位数不受中位数不受“极值的影响极值的影响 众数众数 (Mo) -并不经常用众数来测度中心位置并不经常用众数来测度中心位置适用于定性变量适用于定性变量 众数不具有独一性众数不具有独一
18、性 举例举例:有有6名工人组成一个样本,请找出他们每周工资的众数名工人组成一个样本,请找出他们每周工资的众数 151 179 163 142 180 195 不存在不存在 众数众数 151 180 163 142 180 195 180 142 180 163 142 180 195 142 和和180 (双峰双峰 )对两个游览团的小孩年龄进展了数据调查,以下是调对两个游览团的小孩年龄进展了数据调查,以下是调查结果:查结果: -均值均值 36.11119.111714 中位数中位数 11众数众数 9, 10 , 11 和和 14 (有有4 个众数个众数 )均值均值 67.10129.149 中
19、位数中位数 10众数众数 9均值、中位数和众数之间的关系均值、中位数和众数之间的关系 -1. 对称分布对称分布 (均值均值 = Md = Mo) 均值均值 = Md = Mo均值、中位数和众数之间的关系均值、中位数和众数之间的关系 -2.倾向左侧倾向左侧 (均值均值 Md Md Mo) MdMo均值均值为了计算分组数据的均值为了计算分组数据的均值 计算每一组的中点计算每一组的中点 假设察看值都落在各组的中点上假设察看值都落在各组的中点上 总体均值总体均值 样本均值样本均值 Nfx nfxX 每周工资收入 工人人数(f) 140 149 4 150 159 6 160 169 9 170 179
20、 12 180 189 9 190 199 7 200 209 3 每周工资收入 工人人数(f) 中中点点 (x) fx 140 149 4 144.5 578.0 150 159 6 154.5 927.0 160 169 9 164.5 1480.5 170 179 12 174.5 2094.0 180 189 9 184.5 1660.5 190 199 7 194.5 1361.5 200 209 3 204.5 613.5 50 fN 0 .8715fx 3 .174500 .8715 Nfx 每周的平均工资每周的平均工资为了计算分组数据的中位数为了计算分组数据的中位数 计算每一组
21、的累积频数计算每一组的累积频数 包括包括“最中心位置最中心位置 察看值的那一组就是察看值的那一组就是“中位数组中位数组 ddMMdfcnwLM 2LMd :中位数组的下中位数组的下 限限fMd :中位数组的频数中位数组的频数 w :中位数组的宽度中位数组的宽度 c :位于中位数组之前那一组的累位于中位数组之前那一组的累积频数积频数 每周工资收入 实际组限 工人人数(f) c.f. 140 149 139.5 149.5 4 4 150 159 149.5 159.5 6 10 160 169 159.5 169.5 9 19 170 179 169.5 179.5 12 31 包括最中心数值的
22、那一组 180 189 179.5 189.5 9 40 190 199 189.5 199.5 7 47 200 209 199.5 209.5 3 50 LMd = 169.5fMd = 12w = 10c = 19中位数组中位数组 170 1795 .17455 .169126105 .1691219250105 .1692 ddMMdfcnwLM每周工资收入的中位数每周工资收入的中位数为了计算分组数据的众数为了计算分组数据的众数 出现最频繁的那一组就是出现最频繁的那一组就是“众数组众数组 2110dddwLMMo LMo :众数组的下限众数组的下限 d1 : 众数组的频数减去众数组之前
23、那众数组的频数减去众数组之前那一组的频数一组的频数 w :众数组的宽度众数组的宽度 d2 : 众数组的频数减去众数组之后那众数组的频数减去众数组之后那一组的频数一组的频数 每周工资收入 实际组限 工人人数(f) 140 149 139.5 149.5 4 150 159 149.5 159.5 6 160 169 159.5 169.5 9 170 179 169.5 179.5 12 出现最频繁的那一组 180 189 179.5 189.5 9 190 199 189.5 199.5 7 200 209 199.5 209.5 3 LMo = 169.5w = 10d1 = 12 9 =
24、3众数组众数组 170 1795 .17455 .16963105 .169333105 .169211 dddwLMOMo每周工资收入的众数每周工资收入的众数d2 = 12 9 = 3 优点 缺点 均值 1. 直观清晰 2. 可用于比较定量 数据集 1. 可能会受极值影响 2. 计算烦琐 3. 如果数据集有开口组,则无法对其进行计算 4. 不适用于定性变量 中位数 1. 不受极值影响 2. 可用于计算有开口组的数据集 3. 适用于定量变量和按顺序排列的定性变量 1. 很费时间 2. 在进行统计推断时,可靠性比“均值”要差 众数 1. 不受极值影响 2. 可用于计算有开口组的数据集 1. 有些
25、数据集没有 众数 2. 可能会出现多个众数 举例举例:A A列数据列数据: : 55 56 57 58 59 60 61 62 63 64 65 55 56 57 58 59 60 61 62 63 64 65均值均值 = Md = Mo = 60 = Md = Mo = 60B B列数据列数据: : 35 40 45 50 55 60 65 70 75 80 35 40 45 50 55 60 65 70 75 80 8585均值均值= Md = Mo = 60= Md = Mo = 60测度离中趋势最常用的三种方法测度离中趋势最常用的三种方法 -1.全距全距 2.规范差规范差 (SD)3.
26、变异系数变异系数 (CV)全距全距 =最大察看值最大察看值 最小察看值最小察看值 全距有两个主要缺陷全距有两个主要缺陷 -1.对数据集中的极值显得非常敏感对数据集中的极值显得非常敏感 2. 忽略了位于最大察看值与最小察看值之间的数据是如忽略了位于最大察看值与最小察看值之间的数据是如何分布的何分布的X最大值最大值 = 180X最小值最小值 = 142全距全距 = 180 142 = 38规范差可以让我们大致了解数据值间隔规范差可以让我们大致了解数据值间隔 均值有多远均值有多远 规范差规范差 总体规范差总体规范差 , Nx2)( 样本规范差样本规范差 , s1)(2 nXxs计算规范差的其他公式计
27、算规范差的其他公式 总体规范差总体规范差 :222)( NxNx样本规范差样本规范差 :11)(222 nXnxnXxs举例:有举例:有5名工人组成一个总体,请找出他们每周工资的规范差名工人组成一个总体,请找出他们每周工资的规范差 151179163142180X X (X )2 151 -12 144 179 16 256 163 0 0 142 -21 441 180 17 289 X = 815 (X )2=1130 1635815 Nx 03.1551130)(2 Nx 数据分布的阅历法那么数据分布的阅历法那么 -当数据集接近对称分布时当数据集接近对称分布时 ,那么大约,那么大约 68
28、.3 %的数据落在均值的的数据落在均值的1倍规范差范围内倍规范差范围内 95.5 %的数据落在均值的的数据落在均值的2倍规范差范围内倍规范差范围内 99.7 5%的数据落在均值的的数据落在均值的3倍规范差范围内倍规范差范围内 丈量数据相对于均值的离中趋势丈量数据相对于均值的离中趋势 变异系数变异系数 (CV)%100均值标准差CV? 什么时候采用变异系数什么时候采用变异系数 (CV) 来测度离中趋势来测度离中趋势 ? 比较具有不同单位的数据集比较具有不同单位的数据集 比较具有不同幅度的数据集比较具有不同幅度的数据集 举例举例:例如,我们想比较例如,我们想比较1993年年2月至月至1994年年1
29、月期间黄金和锌块的月期间黄金和锌块的价钱动摇情况,我们搜集了价钱数据并得出如下计算结果:价钱动摇情况,我们搜集了价钱数据并得出如下计算结果: 42.364$ X黄金黄金:4592. 0$ X锌块锌块 :每盎司每盎司 50.21$ s每磅每磅 0247. 0$ sCV表示每种商品相对于其本身平均价钱的动摇幅度表示每种商品相对于其本身平均价钱的动摇幅度 :黄金黄金:锌块锌块 :%9 . 5%10042.36250.21 CV%38. 5%1004592. 00247. 0 CV为了计算分组数据的规范差为了计算分组数据的规范差 计算每一组的中点计算每一组的中点 假设察看值都落在各组的中点上假设察看值
30、都落在各组的中点上 总体规范差总体规范差 样本规范差样本规范差 Nxf2)( 1)(2 nXxfs总体规范差总体规范差 Nxf2)( 1)(2 nXxfs样本规范差样本规范差 计算规范差的其他公式计算规范差的其他公式 举例:举例:计算工人每周工资的总体规范差计算工人每周工资的总体规范差 -每周工资收入 工人人数(f) 140 149 4 150 159 6 160 169 9 170 179 12 180 189 9 190 199 7 200 209 3 每周工资收入 工人人数( f) 中点中点 (x) (x )(x )2 f(x )2 140 149 4 144.5 -29.8 888.0
31、4 3552.16 150 159 6 154.5 -19.8 392.04 2352.24 160 169 9 164.5 - 9.8 96.04 864.36 170 179 12 174.5 -0.2 0.04 0.48 180 189 9 184.5 -10.2 104.04 936.36 190 199 7 194.5 20.2 408.05 2856.28 200 209 3 204.5 30.2 912.04 2736.12 N = f = 50 f (x )2 = 13298 31.165013298)(2 Nxf 总体规范差总体规范差 每周工资收入 工人人数(f) 140 149 4 150 159 6 160 169 9 170 179 12 180 189 9 190 199 7 200 209 3 每周工资收入 工人人数( f) 中点中点 (x) (x )(x )2 f(x )2 140 149 4 144.5 -29.8 888.04 3552.16 150 159 6 154.5 -19.8 392.04 2352.24 160 169 9 164.5
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025届陕西省汉中市普通高中高三下学期质量检测考试思想政治试题(含答案)
- 轻医美店长培训班
- 禁毒工作培训
- 2025至2030年中国毛细管紫外光检测器行业投资前景及策略咨询报告002
- 2025至2030年中国橙色塑料色母粒行业投资前景及策略咨询报告
- 2025至2030年中国榨丝混纺纱行业发展研究报告
- 2025至2030年中国条纹灯罩行业投资前景及策略咨询报告001
- 2025至2030年中国机械制品市场现状分析及前景预测报告
- 2025至2030年中国木纹刻画市场分析及竞争策略研究报告
- 2025至2030年中国服装工艺品市场调查研究报告
- 儿科医疗纠纷防范
- DB41T 2406-2023 锅炉低氮改造安全防控要求
- 小学五年级体育教案全册(人教版)
- 《校园空调租赁服务评价技术规范》编制说明
- 2024-2030年中国柔性OLED面板行业市场深度调研及发展趋势与投资前景研究报告
- 针刺止痛的神经机制研究
- 300MW300MWh源网荷储一体化储能电站项目可行性研究报告模板-立项备案
- 激光雷达产品商业计划书
- 血液透析指征与急诊透析指征
- 送温暖活动困难职工帮扶申请表
- 10S505 柔性接口给水管道支墩
评论
0/150
提交评论