北邮考研概率论与数理统计62数据表示-直方图等_第1页
北邮考研概率论与数理统计62数据表示-直方图等_第2页
北邮考研概率论与数理统计62数据表示-直方图等_第3页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 一、经验分布函数一、经验分布函数 二、频数频率分布表二、频数频率分布表 三、样本数据的图形显示三、样本数据的图形显示6.2 样本数据的整理与显示6.2.1 经验分布函数设 x1, x2, , xn 是取自总体分布函数为F(x)的样本,假设将样本观测值由小到大进行排列,为 x(1), x(2), , x(n),那么称 x(1), x(2), , x(n) 为有序样本.用有序样本定义如下函数 (1)( )(1)( )0, ( )/ ,1,2,.,11,kknnxxFxk nxx xknxx 那么Fn(x)是一非减右连续函数,且满足Fn() = 0 和 Fn() = 1可见,Fn(x)是一个分布函

2、数,称Fn(x)为经验分布函数。经验分布函数。(1)(2)( )nxxx)(1)(或xsnxFn.的随机变量的个数中不大于,表示)(21xxxxxsn Fn(x)的图形是累积频率曲线。它是跳跃上的图形是累积频率曲线。它是跳跃上升的一条阶梯曲线。假设观测值不重复,跃度升的一条阶梯曲线。假设观测值不重复,跃度为为1/n,假设重复,按,假设重复,按1/n的倍数跳跃上升。的倍数跳跃上升。Fn(x)x当当 时,时, 依概率收敛于总体的分布函数依概率收敛于总体的分布函数n)(xFn)(xF例1 某食品厂生产听装饮料,现从生产线上 随机抽取5听饮料,称得其净重单位:克 351 347 355 344 351

3、x(1)= 344, x(2)= 347, x(3)= 351, x(4)= 351, x(5)= 355这是一个容量为5的样本,经排序可得有序样本:其经验分布函数为 0 , x 344 0.2, 344 x 347Fn(x) = 0.4, 347 x 351 0.8, 351 x 355 1, x 355由伯努里大数定律:只要 n 相当大,Fn(x)依概率收敛于F(x) 。更深刻的结果也是存在的,这就是格里纹科定理。定理1格里纹科定理格里纹科1933定理说明:当n 相当大时,经验分布函数是总体分布函数F(x)的一个良好的近似。经典的统计学中一切统计推断都以样本为依据,其理由就在于此。. 10

4、)()(suplim , )( 1 )( , , xFxFPxFxFnxnxnn即即一致收敛于分布函数一致收敛于分布函数以概率以概率时时当当对于任一实数对于任一实数. )( , )( )( , 使用使用来来从而在实际上可当作从而在实际上可当作只有微小的差别只有微小的差别与总体分布函数与总体分布函数数的任一个观察值数的任一个观察值经验分布函经验分布函时时充分大充分大当当对于任一实数对于任一实数xFxFxFnxn 160 196 164 148 170 175 178 166 181 162 161 168 166 162 172 156 170 157 162 154样本数据的整理是统计研究的根

5、底,整理数据的最常用方法之一是给出其频数分布表或频率分布表。例2 为研究某厂工人生产某种产品的能力, 我们随机调查了20位工人某天生产的该种产品 的数量,数据如下(1) 对样本进行分组:作为一般性的原那么,组数通 常在520个,对容量较小的样本;(2) 确定每组组距:近似公式为组距d = (最大观测值 最小观测值)/组数;(3) 确定每组组限: 各组区间端点为a0, a1=a0+d, a2=a0+2d, , ak=a0+kd, 形成如下的分组区间(a0 , a1 , (a1, a2, , (ak-1 , ak对这20个数据(样本)进行整理,具体步骤如下:(4) 统计样本数据落入每个区间的个数频

6、数, 并列出其频数频率分布表。表1 例2 的频数频率分布表 组序 分组区间 组中值 频数 频率 累计频率(%) 1 (147,157 152 4 0.20 20 2 (157,167 162 8 0.40 60 3 (167,177 172 5 0.25 85 4 (177,187 182 2 0.10 95 5 (187,197 192 1 0.05 100合计 20 1一、直方图直方图是频数分布的图形表示,它的横坐标表示所关心变量的取值区间,纵坐标有三种表示方法:频数,频率,最准确的是频率/组距,它可使得诸长条矩形面积和为1。凡此三种直方图的差异仅在于纵轴刻度的选择,直方图本身并无变化。当

7、取得一组样本值后,一般先根据样本取值作频率直方图,对总体的分布情况有一个几何直观上的粗略了解,然后再进一步分析10直方图111213 例3 某工厂用自动包装机包装产品,为了考察每袋产品重量的波动情况,选取100袋产品测得其重量如下:(单位:kg),根据测得的数据作出频率直方图97.894.698.9100.999.8102.797.995.599.0101.199.6102.997.795.799.5101.299.9103.198.295.899.1101.3100.0103.898.196.099.0101.4100.198.396.399.2101.5100.2104.598.596.6

8、99.3101.4100.397.898.496.799.4101.1100.496.999.5101.0100.198.597.099.1101.2100.298.097.299.2101.6100.298.197.499.0101.6100.498.197.599.4101.8100.598.797.199.3102.1100.398.899.998.9102.0100.298.999.7100.6102.1100.498.899.6100.6102.3100.198.699.7100.7102.498.899.8102.2100.899.8100.9141516把每一个数值分为两局部,前

9、面一局部百位和十位称为茎,后面局部个位称为叶,然后画一条竖线,在竖线的左侧写上茎,右侧写上叶,就形成了茎叶图。如:二、茎叶图数值 分开 茎 和 叶 112 11 | 2 11 和 2例4 某公司对应聘人员进行能力测试,测试 成绩总分为 150分。下面是50位应聘人员的测 试成绩已经过排序:64677072747676798081828283858688919192939393959595979799100100102104106106107108108112112114116118119119122123125126128133我们用这批数据给出一个茎叶图,见下页。图3 测试成绩的茎叶图6 4

10、 77 0 2 4 6 6 98 0 1 2 2 3 5 6 8 9 1 1 2 3 3 3 5 6 6 7 7 910 0 0 2 4 6 6 7 8 811 2 2 4 6 8 9 912 2 3 5 6 813 3 茎叶图的外观很像横放的直方图,但茎叶图中叶增加了具体的数值,使我们对数据的具体取值一目了然,从而保存了数据中全部的信息。在要比较两组样本时,可画出它们的背靠背的茎叶图。见附录。甲车间 6 2 0 5 6 乙车间8 7 7 7 5 5 5 4 2 1 1 6 6 7 7 8 8 8 7 7 6 6 4 4 2 1 7 2 2 4 5 5 5 5 6 6 6 8 8 9 8 7

11、6 6 5 3 2 8 0 1 1 3 3 3 4 4 4 6 6 7 7 8 7 3 2 1 0 9 0 2 3 5 8 5 3 0 0 10 7 注意:茎叶图保存数据中全部信息。当样本量较 大,数据很分散,横跨二、三个数量级时, 茎叶图并不适用。更一般地,样本p分位数mp可如下定义:(1)()(1),1(2nppnpnpxnpmxxnp若不是整数), 若是整数通常,样本均值在概括数据方面具有一定的优势。但当数据中含有极端值时,使用中位数比使用均值更好,中位数的这种抗干扰性在统计中称为具有稳健性。 设设x(1),x (n)是有序样本,那么样本中位数是有序样本,那么样本中位数m0.5定义定义为

12、为为偶数为奇数)(21)12()2()21(5.0nnxxxmnnn21譬如,若譬如,若n=5,则,则m0.5 =x(3) ,n=6,则,则m0.5 =(x(3) + x(4) )。)。注:次序统计量 设 x1, x2, , xn 是取自总体X的样本, x(i) 称为该样本的第i 个次序统计量,它的取值 是将样本观测值由小到大排列后得到的第 i 个 观测值。其中x(1)=minx1, x2, xn称为该样本 的最小次序统计量,称 x(n)=maxx1,x2,xn为 该样本的最大次序统计量。 样本中位数是次序统计量的函数,次序统计量的应用之一是五数概括与箱线图。在得到有序样本后,容易计算如下五个

13、值:最小观测值 xmin= x(1) , 最大观测值 xmax=x(n) ,中位数 m0.5 , 第一4分位数 Q1 = m0.25, 第三4分位数 Q3 = m0.75.五数概括是指用这五个数:xmin , Q1 , m0.5 , Q3 , xmax来大致描述一批数据的轮廓。附录:附录:1、背靠背茎叶图举例。、背靠背茎叶图举例。2、次序统计量。、次序统计量。3、一本关于、一本关于“统计图的好书。统计图的好书。?现代统计图形现代统计图形?谢益辉谢益辉 ://cn/publication/4、箱线图举例。、箱线图举例。1、背靠背茎叶图举例。、背靠背茎叶图举例。例例 下面的数据

14、是某厂两个车间某天各下面的数据是某厂两个车间某天各40名名员工生产的产品数量,为对其进行比较,我员工生产的产品数量,为对其进行比较,我们将这些数据放到一个背靠背茎叶图上。们将这些数据放到一个背靠背茎叶图上。 甲车间甲车间 乙车间乙车间 50 52 56 61 61 62 56 66 67 67 68 68 64 65 65 65 67 67 72 72 74 75 75 75 67 68 71 72 74 74 75 76 76 76 76 78 76 76 77 77 78 82 78 79 80 81 81 83 83 85 87 88 90 91 83 83 84 84 84 86 86

15、 92 86 93 93 97 86 87 87 88 92 92 100 100 103 105 93 95 98 107 甲车间甲车间 乙车间乙车间 6 2 0 5 6 8 7 7 7 5 5 5 4 2 1 1 6 6 7 7 8 8 8 7 7 6 6 4 4 2 1 7 2 2 4 5 5 5 5 6 6 6 8 8 9 8 7 6 6 5 3 2 8 0 1 1 3 3 3 4 4 4 6 6 7 7 8 7 3 2 1 0 9 2 2 3 5 8 5 3 0 0 10 7两车间产量的背靠背茎叶图两车间产量的背靠背茎叶图 在上图中,茎在中间,左边表示甲车间的数在上图中,茎在中间,左

16、边表示甲车间的数据,右边表示乙车间的数据。从茎叶图可以看出,据,右边表示乙车间的数据。从茎叶图可以看出,甲车间员工的产量偏于上方,而乙车间员工的产甲车间员工的产量偏于上方,而乙车间员工的产量大多位于中间,乙车间的平均产量要高于甲车量大多位于中间,乙车间的平均产量要高于甲车间,乙车间各员工的产量比较集中,而甲车间员间,乙车间各员工的产量比较集中,而甲车间员工的产量那么比较分散。工的产量那么比较分散。2、次序统计量及其分布 设 x1, x2, , xn 是取自总体X的样本, x(i) 称为该样本的第i 个次序统计量,它的取值 是将样本观测值由小到大排列后得到的第 i 个 观测值。其中x(1)=mi

17、nx1, x2, xn称为该样本 的最小次序统计量,称 x(n)=maxx1,x2,xn为 该样本的最大次序统计量。 样本中位数也是一个很常见的统计量,它也是次序统计量的函数,例 设总体X 的分布为仅取0,1,2的离散 均匀分布,分布列为xp我们知道,在一个样本中,x1, x2,xn 是独立同分布的,而次序统计量 x(1), x(2), x(n) 那么既不独立,分布也不相同,看下例。现从中抽取容量为3的样本,其一切可能取值有33=27种,表列出了这些值,由此 0 1 2 (1)xp1927727127(3)x7271927p127 0 1 2我们可以清楚地看到这三个次序统计量的分布是不相同的。

18、可给出的 x(1) , x(2), x(3) 分布列如下:(2)x1327727p727 0 1 2进一步,我们可以给出两个次序统计量的联合分布,如,x(1) 和x(2) 的联合分布列为01207/279/273/27104/273/272001/27x(1)x(2)因为 P(x(1) = 0, x(2) = 0) =7/27 ,二者不等,由此可看出x(1) 和 x(2)是不独立的。而 P( x(1) = 0)*P( x(2) = 0) = (19/27)*(7/27),单个次序统计量的分布定理设总体X的密度函数为p(x),分布 函数为F(x), x1, x2, xn为样本,那么第k个 次序统

19、计量x(k)的密度函数为)()(1 ()()!()!1(!)(1xpxFxFknknxpknkk3、多个次序统计量的联合分布对任意多个次序统计量可给出其联合分布,以两个为例说明:定理 在定理的记号下,次序统计 量 (x(i), x(j), (i j) 的联合分布密度函数为zyzpypzFyFzFyFjnijinzypjnijiij),()()(1 )()()()!()!1()!1(!),(11次序统计量的函数在实际中经常用到。如 样本极差 Rn = x(n) x(1), 样本中程 x(n) x(1)/2。样本极差是一个很常用的统计量,其分布只在很少几种场合可用初等函数表示。令 R = x(n)

20、 x(1) ,由 R 0, 可以推出0 x(1) = x(n)R 1 R ,那么例 设总体分布为U(0,1), x1, x2, xn 为 样本,那么(x(n), x(1)的联合密度函数为p1,n(y,z)=n(n1)(zy)n-2, 0 y z 1这正是参数为(n1, 2)的贝塔分布。1220( )(1)()d(1)(1)rnnRprn nyryyn nrr样本中位数也是一个很常见的统计量,它也是次序统计量的函数,通常如下定义:更一般地,样本p分位数mp可如下定义: 120.5122,12nnnxnmxxn 为奇数,为偶数(1)()(1),1(2nppnpnpxnpmxxnp若不是整数), 若

21、是整数定理 设总体密度函数为p(x),xp为其p分 位数, p(x)在xp处连续且 p(xp) 0,那么特别,对样本中位数,当n时近似地有当n 时样本 p 分位数 mp 的渐近分布为2(1),pppppmNxn p x0.50.520.51,4mNxn p x例 设总体为柯西分布,密度函数为p(x,)= 1/(1+(x)2) , 通常,样本均值在概括数据方面具有一定的优势。但当数据中含有极端值时,使用中位数比使用均值更好,中位数的这种抗干扰性在统计中称为具有稳健性。 不难看出是该总体的中位数,即x0.5= 。设 x1, x2, xn 是来自该总体的样本,当样本量n 较大时,样本中位数m0.5

22、的渐近分布为m0.5 AN(, 2/4n) .次序统计量的应用之一是五数概括与箱线图。在得到有序样本后,容易计算如下五个值:最小观测值 xmin= x(1) , 最大观测值 xmax=x(n) ,中位数 m0.5 , 第一4分位数 Q1 = m0.25, 第三4分位数 Q3 = m0.75.所谓五数概括就是指用这五个数:xmin , Q1 , m0.5 , Q3 , xmax来大致描述一批数据的轮廓。3 3、一本关于、一本关于“统计图的好书。统计图的好书。? ?现代统计图形现代统计图形? ?谢益辉谢益辉 ://cn/publication/ ://cn/

23、publication/ 次序统计量的应用之一是五数概括与箱线图。在得到有序样本后,容易计算如下五个值:最小观测值x min=x (1) ;中位数m0.5;第一4分位数Q1= m0.25 ;第三4分位数Q3=m0.75 ;最大观测值x max=x (n) ,所谓五数概括就是指用这五个数: x min ,Q1 ,m0.5 ,Q3,x max 来大致描述一批数据的轮廓。4、五数概括与箱线图 下表是某厂160名销售人员某月的销售数据的有序样本,由该批数据可计算得: xmin=45,xmax =319,m0.5 =181,Q1 =144,Q3 =212。相关分位数按照下面公式计算 .是整数不是整数np

24、npxxxmnpnpnpp)(21)1()()1( 45 74 76 80 87 91 92 93 95 96 98 99 104 106 111 113 117 120 122 122124 126 127 127 129 129 130 131 131 133134 134 135 136 137 137 139 141 141 143145 148 149 149 149 150 150 153 153 153153 154 157 160 160 162 163 163 165 165167 167 168 170 171 172 173 174 175 175176 178 178

25、178 179 179 179 180 181 181181 182 182 185 185 186 186 187 188 188188 189 189 191 191 191 192 192 194 194194 194 195 196 197 197 198 198 198 199200 201 202 204 204 205 205 206 207 210214 214 215 215 216 217 218 219 219 221221 221 221 221 222 223 223 224 227 227228 229 232 234 234 238 240 242 242 242

26、244 246 253 253 255 258 282 290 314 319 五数概括的图形表示称为箱线图,由箱子和线段组成。(1)画一个箱子,其两侧恰为第一4分位数和第三4分位数,在中位数位置上画一条竖线,它在箱子内。这个箱子包含了样本中50的数据;(2)在箱子左右两侧各引出一条水平线,分别至最小值和最大值为止。每条线段包含了样本中25的数据。 箱线图可用来对样本数据分布的形状进行大致的判断。45 144 181 212 3199、静夜四无邻,荒居旧业贫。4月-224月-22Thursday, April 21, 202210、雨中黄叶树,灯下白头人。14:28:4014:28:4014:

27、284/21/2022 2:28:40 PM11、以我独沈久,愧君相见频。4月-2214:28:4014:28Apr-2221-Apr-2212、故人江海别,几度隔山川。14:28:4014:28:4014:28Thursday, April 21, 202213、乍见翻疑梦,相悲各问年。4月-224月-2214:28:4014:28:40April 21, 202214、他乡生白发,旧国见青山。21 四月 20222:28:40 下午14:28:404月-2215、比不了得就不比,得不到的就不要。四月 222:28 下午4月-2214:28April 21, 202216、行动出成果,工作出

28、财富。2022/4/21 14:28:4014:28:4021 April 202217、做前,能够环视四周;做时,你只能或者最好沿着以脚为起点的射线向前。2:28:40 下午2:28 下午14:28:404月-229、没有失败,只有暂时停止成功!。4月-224月-22Thursday, April 21, 202210、很多事情努力了未必有结果,但是不努力却什么改变也没有。14:28:4014:28:4014:284/21/2022 2:28:40 PM11、成功就是日复一日那一点点小小努力的积累。4月-2214:28:4014:28Apr-2221-Apr-2212、世间成事,不求其绝对圆满,留一份缺乏,可得无限完美。14:28:4014:28:4014:28Thursday, April 21, 202213、不知香积寺,数里入云峰。4月-224月-2214:28:4014:28:40Apri

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论