第3章样本数据特征的初步_第1页
第3章样本数据特征的初步_第2页
第3章样本数据特征的初步_第3页
第3章样本数据特征的初步_第4页
第3章样本数据特征的初步_第5页
已阅读5页,还剩59页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第3章 样本数据特征的初步分析提示 如何将你收集的数据中的信息概括或集中起来3.1 样本数据结构的基本特征:频次与频率频次(frequency):在样本数据集合中,同样的数据值(样本值)出现的次数。频率(percentage或relative frequency) 频次与频率的概念适用于所有测度级别的数据例 3.1.19.98 10.0210 10.04 10.019.99 10.05 10.04 10.06 10.0110.039.99 9.979.93 10.01 10.03 10.03 10.02 10.059.999.959.96 9.98109.97 10.01109.999.981

2、09.939.95 9.969.979.979.989.989.989.999.999.999.9910101010 10.01 10.01 10.01 10.0110.02 10.0210 10.03 10.03 10.04 10.04 10.05 10.05 10.06价格(元)9.939.949.959.969.979.989.991010.01 10.0210.03 10.04 10.05 10.06频次10112344423221频率(%)3.330.003.333.336.6710.0013.3313.3313.336.6710.006.676.673.339.939.949.95

3、9.969.979.989.991010.0110.0210.0310.0410.0510.06例 3.1.2 小学 大学 大学 初中 高中 硕士研究生大学大学大学 高中 大学 大学 初中 大学硕士研究生大学受教育程度小学 初中 高中 大学硕士研究生合计各受教育程度出现的频次1229216各受教育程度出现的频率(%)6.25 12.5 12.5 56.2512.5100例 3.1.3r y r g y y w y g g r y y r wg y r w y g g b r y y w r r wr暗红色,y淡黄褐色,g浅绿色,w白色,b黑色家具的基色调bgrwy合计各基色调出现的频次1685

4、1030各基色调出现的频率( % )3.3320.0026.6716.6733.33100.00数据集合中所有取值不同的数据出现的频率,称为该数据集合的频率分布3.1.2 观察样本数据基本特征(频次和频率)的图形方法(某样本值对应的圆心角的大小=该样本值的频率360039.98元49.99元410.00元410.01元210.02元210.05元110.06元19.93元19.95元19.96元29.97元210.04元310.03元9.93元 19.94元 09.95元 19.96元 19.97元 29.98元 39.99元 410.00元 410.01元 410.02元 210.03元 3

5、10.04元 210.05元 210.06元 1初中12.50%高中12.50%大学56.25%硕士研究生12.50%小学6.25%小学初中高中大学硕士研究生黑色3.33%浅绿色20.00%暗红色26.67%白色16.67%淡黄褐色33.33%黑色浅绿色暗红色白色淡黄褐色饼图主要用于表示分类变量的频率(或频次)结构,但须注意分类变量不重复的取值不能太多。淡黄褐色白色暗红色浅绿色黑色淡黄褐色白色暗红色浅绿色黑色用spss作的饼图未经编辑经过编辑2. 表示频次和频率的条形图表示频次和频率的条形图的构成是(1)横坐标表示样本数据的不同取值。如果样本数据的测度是顺序级以上的,横坐标上的样本数据就应该从

6、小到大排列。如果是刻度级的数据,还应注意各数据刻度保持一致的比例。(2)纵坐标表示相应样本值出现的频次或频率条形图常用于表示分类变量数据集合的频次(或频率)结构,但分类变量不重复的取值也不能太多。101123444232210123459.93元9.94元9.95元9.96元9.97元9.98元9.99元10.00元10.01元10.02元10.03元10.04元10.05元10.06元3.33%20.00%26.67%16.67%33.33%0.00%5.00%10.00%15.00%20.00%25.00%30.00%35.00%黑色浅绿色暗红色白色淡黄褐色黑色浅绿色暗红色白色淡黄褐色注:

7、 利用excel作图, 对颜色进行了编辑.3.1.3 样本数据集合的基本特征的延伸:累积频率(cumulative percentage)对数据测度在顺序级以上的样本数据,设x1 x2 xm, 是样本数据集合中的不重复的样本值。m n, n是样本数据集合中样本值的总个数。若把样本值小于等于某个样本数据xi的频率(percentage)都累加起来,就得到“小于等于xi”的累积频率累积频率。价格(元)9.939.949.959.969.979.989.991010.0110.0210.0310.04频率(%)3.330.003.333.336.6710.0013.3313.3313.336.671

8、0.006.67累积频率(%)3.333.336.6710.0016.6726.6740.0053.3366.6773.3383.3390.00商品价格 xi的累积频率3.33%6.67%10.00%16.67%26.67%40.00%53.33%66.67%73.33%83.33%90.00%96.67%100.00%0.00%20.00%40.00%60.00%80.00%100.00%120.00%9.93元9.94元9.95元9.96元9.97元9.98元9.99元10.00元10.01元10.02元10.03元10.04元10.05元10.06元6.25%18.75%31.25%87

9、.50%100.00%0.00%20.00%40.00%60.00%80.00%100.00%120.00%小学初中高中大学硕士研究生受教育程度xi的累积频率3.2 观察刻度级样本数据结构的茎叶图与直方图方法1. 茎叶图的基本概念与适用范围茎叶图适用于刻度级的样本数据,不适用于名义级的样本数据。顺序级的样本数据本质上是半定量的。如果一定要用茎叶图来表示,也是可以的,但它不能比条形图提供更多的信息。茎茎叶的基本含义是,按照某个一致的规则,把所有叶的基本含义是,按照某个一致的规则,把所有的样本值分成的样本值分成“茎节茎节”和和“叶叶”两个部分。两个部分。“茎节茎节”在左,在左,“叶叶”在右。在右。

10、“茎节茎节”、“叶叶”之间用小数点之间用小数点隔开。隔开。茎节叶记作9129.126346.341231.23102110.21明显地,样本值=茎节.叶茎节的宽度将所有的样本数据的不同将所有的样本数据的不同“茎节茎节”按从小到大的顺序按从小到大的顺序连接起来,就构成了该样本数据集合的连接起来,就构成了该样本数据集合的“茎茎”。样本。样本数据数据“茎节茎节”的宽度就是样本数据集合的的宽度就是样本数据集合的“茎茎”的宽的宽度。度。确定确定“茎节茎节”宽度的原则:样本数据集中,宽度的原则:样本数据集中,“茎节茎节”必须是有变化的。必须是有变化的。2.茎叶图的基本作法(1)依据样本数据集合中数字的大小

11、,确定“茎”的数字位和“叶”的数字位;(2)把样本数据集合中的所有样本数据,分成“茎节”、“叶”两部分;(3)把样本数据集合中的所有“茎节”,从小到大,从上到下纵向排列,并在“茎节”后标出小数点,小数点纵向对齐;(4)依次将数据集合中的所有“茎节”相同的数据取出来,把这些数据的“叶”,按从小到大的顺序,排列在这个“茎节”后小数点的右边,直到这个样本数据集合中的所有数据处理完。例 3.2.1 171 182 175 177 178 181 185 168 170 175 177 180 176 172 165 160 178 186 190 176 163 183某班级男生的身高数据(单位:厘米

12、)茎16171819.叶0,3,5,80,1,2,5,5,6,6,7,7,8,80,1,2,3,5,60频次4116茎161718.叶035801255667788012356 频次 茎 & 叶 2 16 . 03 2 16 . 58 3 17 . 012 8 17 . 55667788 4 18 . 0123 2 18 . 56 1 19 . 0 茎宽度: 10 茎节长度: 5茎节长度=允许的最大叶值允许的最小叶值+1每个茎节长度都应相等“l”子茎节(低段子茎节)“h”子茎节(高段子茎节)为了避免“叶”过长,还可将茎节再分为几个(通常是2个)子茎节。3.2.2 直方图(histogr

13、am)的概念与作法2. 数据分组数据分组数据分组一般采用等区间长度的原则。数据分组一般先确定各组区间的长度,然后用下式确定组的个数:1区间长度数据集合中的最小值数据集合中的最大值组的个数r其中r表示用四舍五入法,对括号中的数字取整。也可先确定组的个数,然后再来确定区间的长度。但这种做法相对较少使用。确定分组区间长度的方法多了少了合适其中k,h的选择应注意,要使最终得到的区间长度便于在坐标轴上标示出来。确定分组区间起点位置的方法首先把样本数据集合中的最小数据首先把样本数据集合中的最小数据y以取定的量以取定的量纲为单位取整纲为单位取整y;取满足取满足kd1个量纲单位的最大整数个量纲单位的最大整数k

14、,并以,并以y+0,y+d,y+kd为备选的最小分组区间中点的为备选的最小分组区间中点的位置;位置;选出上述备选中点坐标中与选出上述备选中点坐标中与y的差的绝对值最小的差的绝对值最小者,并以该点为最小分组区间的中点。再由者,并以该点为最小分组区间的中点。再由d值值的大小可确定该区间的起点。的大小可确定该区间的起点。注:若某个数据恰好位于两个分组区间的分界点上,则习惯上将其划归右边的区间关于直方图的几个概念关于直方图的几个概念x =(组上界+组下界)/ 2 160 163 165 168 170 171 172 175 175 176 176 177 177 178 178 180 181 18

15、2 183 185 186 190某班级男生的身高数据排序(单位:厘米)组别组别组组1组组2组组3组组4组组5组组6组组7组界组界(157.5, 162.5)162.5,167.5)167.5, 172.5)172.5,177.5)177.5, 182.5)182.5,187.5)187.5,192.5)身高身高160.163, 165168, 170, 171, 172175, 176, 177178, 180, 181, 182183, 185, 186190频次频次11, 11, 1, 1, 12, 2, 2 2, 1, 1, 11, 1, 1 1组频次组频次1246531绘直方图:(1

16、)在横轴上,从小到大依次标出分组区间的边界;(2)沿纵轴方向,依据各区间的组频次或组频率的大小,分别绘制不同高度的矩形。身高频次条形图00.511.522.5160厘米163厘米166厘米169厘米172厘米175厘米178厘米181厘米184厘米187厘米190厘米身高频次身高(厘米)190.0185.0180.0175.0170.0165.0160.0频次76543210std. dev = 7.56 mean = 175.8n = 22.00身高频次直方图身高(分米)19.0018.7518.5018.2518.0017.7517.5017.2517.0016.7516.5016.251

17、6.00543210std. dev = .76 mean = 17.58n = 22.00excel的直方图r语言中的直方图sas中的直方图156162168174180186192f102468frequency3.3 样本数据的位置特征:对数据中心的描述 样本中位数 样本众数 样本均值3.3.1 样本众数(sample mode)样本众数的定义样本众数的定义1: 样本数据集合中出现频次最高的那个样本值,称为样本众数,简称为众数。按此定义,对给定的样本数据集合,样本众数可能不唯一。若样本众数是唯一的,称为单一众数,否则称为复众数。例如 某单位职工受教育程度的结构为(顺序级数据)受教育程度小

18、学 初中 高中 大学硕士研究生合计各受教育程度出现的频次1229216各受教育程度出现的频率(%)6.25 12.5 12.5 56.2512.5100则对应的样本数据集合的众数为“大学”。家具的基色调bgrwy合计各基色调出现的频次16851030各基色调出现的频率( % )3.3320.0026.6716.6733.33100.00家具基色调出现的频次(名义级数据)则对应的样本数据集合的众数为“y(即淡黄褐色)”。价格(元)9.939.949.959.969.979.989.991010.01 10.0210.03 10.04 10.05 10.06频次10112344423221频率(%

19、)3.330.003.333.336.6710.0013.3313.3313.336.6710.006.676.673.33某商品价格出现的频次(刻度级数据)对应的样本数据集合的众数为9.99、10.00和10.01(复众数)样本众数定义样本众数定义2及例子及例子样本众数的定义样本众数的定义2:对刻度级的样本数据集合,其直方图中,最高的矩形(即直方图中的峰peak)对应的数据区间,称为该数据集合的众数区间,简称为众数。身高(厘米)190.0185.0180.0175.0170.0165.0160.0频次76543210std. dev = 7.56 mean = 175.8n = 22.00如

20、右图表示的数据集合的众数区间为1752.5(厘米)众数区间也有单一众数区间与复众数区间之分。3.3.2 样本中位数(sample median)当样本数据集合中的所有数据排序后,正中间位置当样本数据集合中的所有数据排序后,正中间位置的数据即中位数的数据即中位数me按下式确定:按下式确定:是偶数是奇数nxxnxnnn,2,me12221正中间位置:5 . 0) 1(n 17.0 17.1 17.2 17.5 17.5 17.6 17.6其中位数为me=x4=17.5 16.8 17.0 17.1 17.2 17.5 17.5 17.6 17.6其中位数为45.1725 .172 .172me54

21、xx对名义级数据,不考虑中位数;对顺序级数据,只在样本容量n为奇数时,考虑中位数。3.3.3 样本均值(sample mean)样本均值仅适合于刻度级数据。样本数据集合的(又称为样本平均值),是把样本数据集合中所有数据加起来,然后再除以样本数据集合中样本个数(样本容量)所得到的结果。样本均值的数学定义为:niixnx11式中, x1 , x2 , , xn, n为样本容量均值、中位数与众数的区别对数据中心测量的比较对数据中心测量的比较测度级别众数中位数均值名义级次序级*测度级优点不受极端值的影响,计算简便对数值变化不敏感,较不易受到极端值的影响,计算比较简便测量最为精确,考虑到了每一个样本数据

22、,具有较好的代表性缺点测量过于粗糙,没有反映所有样本数据的信息没有利用所有数据的信息易受样本数据的极端值的影响*中位数的使用是有条件的。有一个叫做萨姆的工人到吉斯莫先生的工厂应聘,吉斯莫对有一个叫做萨姆的工人到吉斯莫先生的工厂应聘,吉斯莫对他说:我们这里报酬不错,平均薪金每周他说:我们这里报酬不错,平均薪金每周300元。你在学徒元。你在学徒期间每周得期间每周得75元,不过很快就可以加工资。萨姆感到工资水元,不过很快就可以加工资。萨姆感到工资水平不低,自己好好干,至少可以很快接近平均工资,便应约平不低,自己好好干,至少可以很快接近平均工资,便应约上班了上班了。但不久,萨姆就觉得上当了。因为他发现

23、竟然没有。但不久,萨姆就觉得上当了。因为他发现竟然没有一个工人的工资多于一个工人的工资多于100元。吉斯莫先生是否骗了萨姆?元。吉斯莫先生是否骗了萨姆?员工员工老板老板老板弟弟老板弟弟老板亲戚老板亲戚领工领工工人工人人数人数116510每人工资每人工资24001000250200100中位数众数数据中心与数据分布形状的关系众数中位数均值左偏分布右偏分布对称分布3.4 样本数据的离散特征2. 下四分点(lower quartile)与上四分点(upper quartile)下四分点将排序以后的数据集合,分为左右两部分,使左边部分包含25%的样本总个数,右边部分包含75%的样本总个数。上四分点将排

24、序以后的数据集合,分为左右两部分,使左边部分包含75%的样本总个数,右边部分包含25%的样本总个数。上、下四分点在一定意义上反映了样本数据的离散程度。5 . 0) 1(n25. 0) 1(n75. 0) 1(n当下、上四分点位置为整数时,相应整数位置上的样本值就分别为下四分点q1的值和上四分点q3的值。当上述位置计算结果不为整数时,下、上四分点位置不是整数时,下、上四分点的值分别由下两式确定 考虑如下的样本数据集合99.8,99.9,100.1,100.2n=4,下四分点、中位数、上四分点的位置分别为(4+1) 0.25=1.25(4+1) 0. 5=2.5(4+1) 0.75=3.75012

25、3499.899.9100.1100.2q1的位置q2的位置q3的位置现计算下、上四分点q1、q3的值和中位数q2的值.由前面给出的中位数的计算公式,有0 .1005 . 0)9 .991 .100(9 .992 meq类似地,由下、上四分点的计算公式,得825.9925. 0)8 .999 .99(8 .991q175.10075. 0) 1 .1002 .100(1 .1003q由于本例中需要对数据进行计算才可得到下、上四分点以及中位数,因此该计算仅适合于刻度级数据。反之若n+1可以被4整除,则得到的下、上四分点及中位数位置是整数,于是下、上四分点以及中位数就是相应位置的样本数据。见例3.

26、4.2。这时这些概念也适合顺序级数据。3. 上、下百分位点(percentile)仿照上、下四分点的概念,不难给出上、下十分点的概念。下十分点把经过排序后的样本数据集合,分成左右两部分,使左边部分包含10%的样本数据,右边包含90%的样本数据。上十分点把经过排序后的样本数据集合,分成左右两部分,使左边部分包含90%的样本数据,右边包含10%的样本数据。上、下十分点也在一定意义上反映了样本数据的离散情况。进而可以定义任意小于50%的上下百分点,并借此反映一定意义上的样本数据的离散情况。3.4.2 对样本数据离散特征的区间描述:极差、四分位距与离差由于需要涉及样本数据的加减运算,因此区间描述仅适合

27、于刻度级数据。级差(r)被定义为样本数据的极大值与极小值的差,即r = 极大值 - 极小值它反映了样本数据在数轴上的分布范围。x2. 四分位距(interquartile range) 四分位距(iqr)指的是样本排序后的上四分点与下四分点的差:iqr = q3 - q1 。nixxi, 2 , 1,样本离差又称为样本中心化数据。常用离差平方和的方式来反映样本数据对均值总偏离的情况。3.4.3 离散状况的统计描述:样本方差(sample variance),即niixxns122)(11它反映了样本数据对均值偏离的平均情况。也常它反映了样本数据对均值偏离的平均情况。也常用用样本标准差样本标准差

28、(standard deviations)s来反映样本来反映样本数据对均值偏离的平均情况。数据对均值偏离的平均情况。niixxns12)(11对数据离散测度的比较对数据离散测度的比较测度级别 全距四分位距方差/标准差名义级次序级测度级优点计算简便不易受到极端值的影响,计算比较简便测量最为精确,考虑到了每一个样本数据,具有较好的代表性缺点测量过于粗糙,没有反映所有样本数据的全貌无法反映所有数据的状态易受样本数据的极端值的影响补充:斜度(skewness)偏斜度的计算公式定义如下: 式中:s 为样本的标准偏差。若数据分布完全对称,则斜度为零。但数据分布如果偏左分若数据分布完全对称,则斜度为零。但数据分布如果偏左分布,则斜度为正;否则当数据偏向右分布时,斜度为负。布,则斜度为正;否则当数据偏向右分布时,斜度为负。31)2)(1(niisxxnnn补充:峰度(kurtosis)峰值的计算公式如下: 式中:s 为样本的标准偏差。峰度的计算公式如下: 式中:s

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论