学习数理统计5

上传人：汤*** IP属地：北京上传时间：2022-08-18 格式：PPTX 页数：40 大小：371.93KB 积分：15 举报 版权申诉

已阅读5页，还剩35页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、2022/8/16 20:50/ 4015.3 统计量及其分布5.3.1 统计量与抽样分布 5.3.2 样本均值及其抽样分布 5.3.3 样本方差与样本标准差 5.3.4 样本矩及其函数 5.3.5 次序统计量及其分布 5.3.6 样本分位数与样本中位数 5.3.7 五数概括与箱线图 2022/8/16 20:50/ 402样本是进行统计推断的依据。但观测到的样本是一堆杂乱无章的数目字，其所包含的总体分布信息是分散地隐藏在样本的每个分量中。因此我们无法直接从观测到的样本中直观看出数据所包含的有用信息。需要对样本进行加工，将样本中分散的信息浓缩集中起来。上节介绍的经验分布函数、频数频率分布表、直

2、方图和茎叶图是一类加工形式，它使人们获得对总体分布的初步认识。当人们需要从样本获得描述总体分布特征的特征数时，通常通过构造适当的样本函数来浓缩集中信息。我们称样本的函数为统计量。5.3.1 统计量与抽样分布2022/8/16 20:50/ 403统计量的定义设(X1,Xn)为来自总体X的一个样本，T(X1,Xn)是(X1,Xn)的函数，若T中不含任何未知参数，则称T(X1,Xn)是一个统计量(statistics)，显然统计量是一个随机变量。以及经验分布函数都是统计量。按照这一定义, 若为样本, 则而当未知时， x1, x1/ 等均不是统计量。统计量是用于浓缩集中样本中关于总体分布信息的

3、，一个“好”的统计量应该能够将样本中关于总体分布的信息尽可能地浓缩集中起来。统计量浓缩集中样本中关于总体分布信息的能力是通过它的分布来体现的。2022/8/16 20:50/ 404若(x1 , , xn )是相应于样本(X1,Xn)的样本值，则称T(x1 , , xn)是随机变量T(X1,Xn)的观察值。我们称统计量的分布为抽样分布(sapling distribution)。显然统计量的抽样分布不仅依赖于统计量的函数形式，还依赖于样本的分布。尽管统计量不依赖于未知参数，但是它的分布一般是依赖于未知参数的。统计量的抽样分布2022/8/16 20:50/ 405统计量的功能统计量可以是一维

4、的，也可以是多维的；可以有简单的函数表达式，也可以没有简单的函数表达式。在应用时，往往是针对不同的问题构造适当的统计量，用于刻画总体分布的某种或某些统计特征。统计量刻画总体分布统计特征的功能是通过抽样分布体现出来的。研究统计量的抽样分布构成了统计学理论的重要组成部分。统计量的抽样分布就是随机向量函数的分布，它不仅依赖于样本分布，还依赖于统计量的函数形式。只有对某些性质很好的样本分布和某些特定的统计量，才能求出精确的抽样分布；而对大多数统计量只能在一定条件下寻找近似分布。求近似分布的方法有两种，一种是用极限理论求渐近分布，另一种是用计算机模拟求近似分布。2022/8/16 20:50/ 4065

5、.3.2 样本均值及其抽样分布 R中计算样本均值的函数：mean(x)定义5.3.2 设为取自某总体的样本，其算术平均值称为样本均值，一般用表示，即分组数据的样本均值：R中计算分组数据样本均值的方法： sum(x*f)/sum(f)2022/8/16 20:50/ 407例5.3.1 x=c(79,84,84,88,92,93,94,97,98,99,100,101,101,102, 102,108,110,113,118,125) mean(x) fn=hist(x,breaks=seq(77,127,len=6),plot=F) sum(fn$mids*fn$counts)/sum(f

6、n$counts)20名青年某月娱乐支出费用的样本均值上。2022/8/16 20:50/ 408样本均值的基本性质定理5.3.1 若把样本中的数据与样本均值之差称为偏差，则样本所有偏差之和为0，即。定理5.3.2 数据观测值与均值的偏差平方和最小，即在形如的函数中，最小，其中c为任意给定常数。2022/8/16 20:50/ 409例5.3.211 8 12 13 8 911 10 9 11 10 8 12 9 8 11 13由20个数组成一个总体，从中抽取容量为5的样本，考查样本均值的抽样分布。2022/8/16 20:50/ 4010例5.3.2 X=c(11,12,8,11,9,

7、10,10,11,8,10,8,13,9,10,11,8,12,9,11,13) n=10;b=10000 mx=NULL for (i in 1:b) mxi=mean(sample(X,n,replace=TRUE) hist(mx,breaks=20,freq=F) curve(dnorm(x,mean(X),sqrt(19/20)*sd(X)/sqrt(n), from=7,to=15,col=2,add=T) #lines(density(mx,bw=nrd),col=3,lwd=2) print(c(mu=mean(X),mean=mean(mx) print(c(sigma=sq

8、rt(19/20)*sd(X)/sqrt(n),sd=sd(mx)2022/8/16 20:50/ 4011样本均值的抽样分布 (2) 若总体分布未知或不是正态分布，但(b) n 较大时的渐近分布为 , 常记为(1) 若总体分布为，则的精确分布为定理5.3.3 设是来自某个总体的样本，为样本均值。2022/8/16 20:50/ 4012例5.3.3 样本均值的分布1(均匀分布 ) n=5;b=10000 mx=NULL for (i in 1:b) mxi=mean(runif(n,1,5) hist(mx,breaks=20,freq=F) # lines(density(mx),

9、col=4,lwd=2) curve(dnorm(x,3,sqrt(4/3/n),min(mx),max(mx), col=2,add=T) print(c(mu=3,mean=mean(mx) print(c(sigma=sqrt(4/3/n),mean=sd(mx)2022/8/16 20:50/ 4013例5.3.3 样本均值的分布2(倒三角分布) p=function(x) y=NULL a= (x=1)&(x3)&(x=5) c= (x5) ya=(3-xa)/4 yb=(xb-3)/4 yc=0 y curve(p,1,5)2022/8/16 20:50/ 4014例5.3.3 样

10、本均值的分布2(倒三角分布 ) sampling=function(n) x=NULL u=runif(n) xu.5=3+2*sqrt(2*uu.5-1) xu=.5=3-2*sqrt(1-2*uu=.5) x n=5;b=10000; mx=NULL for (i in 1:b) mxi=mean(sampling(n) hist(mx,breaks=20,freq=F,ylim=c(0, dnorm(3,3,sqrt(2/n) #lines(density(mx),col=2,lwd=2) curve(dnorm(x,3,sqrt(2/n),min(mx),max(mx), col=2,

11、add=T) print(c(mu=3,mean=mean(mx) print(c(sigma=sqrt(2/n),sd=sd(mx)2022/8/16 20:50/ 4015例5.3.3 样本均值的分布3(指数分布) n=25;b=10000 mx=NULL for (i in 1:b) mxi=mean(rexp(n) hist(mx,breaks=20,freq=F) #lines(density(mx),col=2,lwd=2) curve(dnorm(x,1,sqrt(1/n),min(mx),max(mx), col=2,add=T) print(c(mu=1,mean=mean(

12、mx) print(c(sigma=sqrt(1/n),sd=sd(mx) 2022/8/16 20:50/ 40165.3.3 样本方差与样本标准差实际中常用作为样本方差, 其算术平方根也称为样本标准差。在这个定义中，称为偏差平方和，n1称为偏差平方和的自由度。其含义是：在确定后, n 个偏差中只有n1个数据可以自由变动，而第n个则不能自由取值，因为。定义5.3.3 称为样本方差(未修正) ，其算术平方根称为样本标准差(未修正)。2022/8/16 20:50/ 4017样本偏差平方和的三个不同表达式 R中计算样本方差和样本标准差的函数分组数据的样本方差var(x)sd(x

13、)22022/8/16 20:50/ 4018例5.3.4 x=c(79,84,84,88,92,93,94,97,98,99,100,101,101,102, 102,108,110,113,118,125) print(c(mean= mean(x),var=var(x),sd=sd(x) fn=hist(x,breaks=seq(77,127,len=6),plot=F) xbar=sum(fn$mids*fn$counts)/sum(fn$counts) s2=sum(fn$mids-xbar)2*fn$counts)/(sum(fn$counts)-1) s=sqrt(s2) pri

14、nt(c(mean= xbar,var=s2,sd=s) 20名青年某月娱乐支出费用的样本均值上。2022/8/16 20:50/ 4019样本均值的期望和方差及样本方差的期望定理5.3.4 设总体 X 具有二阶矩，即为从该总体得到的样本，分别是样本均值和样本方差，则样本均值的数学期望和方差，以及样本方差的数学期望都不依赖于总体的分布形式。2022/8/16 20:50/ 40205.3.4 样本矩及其函数样本均值和样本方差的更一般的推广是样本矩，这是一类常见的统计量。定义5.3.4 称为样本 k 阶原点矩。特别，样本一阶原点矩就是样本均值。称为样本k阶中心矩。特别，样本二阶中心矩就是

15、未修正的样本方差。当总体关于分布中心对称时，我们用刻画样本特征很有代表性，而当其不对称时，只用就显得很不够。为此，需要一些刻画分布形状的统计量，如样本偏度和样本峰度，它们都是样本中心矩的函数。2022/8/16 20:50/ 4021样本偏度和样本峰度定义5.3.5 设是样本, 则称统计量为样本偏度(skewnes)。样本偏度反映了样本数据与对称性偏离程度和偏离方向。表示样本数据是对称的，反映总体分布是对称的。表示样本数据的右尾长，样本中有几个较大的数，反映总体分布是正偏或右偏的。表示样本数据的左尾长，样本中有几个较小的数，反映总体分布是负偏或左偏的。2022/8/16 20:50/

16、 4022样本偏度和样本峰度定义5.3.6 设是样本, 则称统计量为样本峰度(kurtosis)。样本峰度反映了总体分布密度曲线在其峰值附近的陡峭程度和尾部粗细的统计量(同正态分布比较)。分布密度曲线在其峰值附近比正态分布来得徒且尾部更粗，称为尖顶型分布(leptokurtic)。分布密度曲线在其峰值附近比正态分布来得平坦且尾部更细，称为平顶型分布(platykurtic)。2022/8/16 20:50/ 4023例5.3.5 两个班级英语课程考试成绩 x=c(95,85,75,65,55,45) f1=c(5,10,22,11,1,1) f2=c(4,14,16,14,2,0) n1

17、=sum(f1); m1=sum(x*f1)/n1 s1=sqrt(sum(x-m1)2*f1)/(n1-1) gama11=sum(x-m1)3*f1)/n1/sqrt(sum(x-m1)2*f1)/n1)3 gama21=sum(x-m1)4*f1)/n1/sqrt(sum(x-m1)2*f1)/n1)4-3 print(round(c(m1=m1, s1=s1, gama11=gama11, gama21=gama21), 3) n2=sum(f2); m2=sum(x*f2)/n2 s2=sqrt(sum(x-m2)2*f2)/(n2-1) gama12=sum(x-m2)3*f2)/

18、n2/sqrt(sum(x-m2)2*f2)/n2)3 gama22=sum(x-m2)4*f2)/n2/sqrt(sum(x-m2)2*f2)/n2)4-3 print(round(c(m2=m2, s2=s2, gama12=gama12, gama22=gama22), 3)2022/8/16 20:50/ 4024skewness(x, na.rm = FALSE, type = 3) kurtosis(x, na.rm = FALSE, type = 3) 在R中，计算样本偏度和峰度前要加载包含相关函数的程序包。R中有多个程序包带有计算样本偏度和峰度的函数。下面两个函数包含在程序包

19、“e1071“中。type表示计算方法，取 1、2和3三种值，预设值是3。type=1的计算公式就是前面定义的公式。type=2的计算公式是SAS和SPASS中的公式。type=3的计算公式是和。和na.rm 指定一个逻辑值，预设值为F，表示若数据中有NA值，将返回NA值，否则自动删除NA值后再进行计算。 R中计算样本偏度和峰度的函数2022/8/16 20:50/ 40255.3.5 次序统计量及其分布其中称为该样本的最小次序统计量，称为该样本的最大次序统计量。在一个样本中，是独立同分布的，但次序统计量既不独立，分布也不相同。定义5.3.7 设是取自总体X的样本,将样本观测值

20、按由小到大次序进行排列后记为 , 称为该样本的第i 个次序统计量。2022/8/16 20:50/ 4026例5.3.6设总体X 的分布为仅取0，1，2的离散均匀分布现从中抽取容量为3的样本，其一切可能取值有种，下面的表5.3.6列出了这27个可能的样本值。2022/8/16 20:50/ 4027表5.3.6例5.3.6中样本值及其次序统计量取值由此可给出的分布列如下： 2022/8/16 20:50/ 4028例5.3.6（续）进一步，我们可以给出两个次序统计量的联合分布，如: 和的联合分布列为 2022/8/16 20:50/ 4029单个次序统计量的分布定理5.3.5 设总

21、体X的密度函数为p(x)，分布函数为F(x)，为样本，则第k个次序统计量x(k)的密度函数为2022/8/16 20:50/ 4030例5.3.7例5.3.7 设总体密度函数为 (0 x1). 从该总体抽得一个容量为5的样本，试计算。 2022/8/16 20:50/ 4031例5.3.8例5.3.8 设总体分布为U(0,1)，为样本，试求第 k 个次序统计量的分布。 2022/8/16 20:50/ 4032次序统计量的函数在实际中经常用到，如样本极差多个次序统计量的联合分布定理5.3.6 在理5.3.5的记号下，次序统计量 , (i j) 的联合分布密度函数为是一个很常用的统计量

22、，要求其分布虽然原则上并非难事，但其分布只在很少几种场合可用初等函数表示，通常只能用积分表示。2022/8/16 20:50/ 4033例5.3.9例5.3.9 设总体分布为U(0,1)，为样本，则(x(1)， x(n) 的联合密度函数为 0 y z 1 试求样本极差的密度函数。2022/8/16 20:50/ 40345.3.6 样本分位数与样本中位数样本中位数也是一个很常见的统计量，它也是次序统计量的函数，通常如下定义：更一般地，样本p分位数可如下定义： 2022/8/16 20:50/ 4035定理5.3.7定理5.3.7 设总体密度函数为p(x)，为其p分位数，p(x)在

23、处连续且 p( ) 0，则当时样本 p 分位数的渐近分布为特别，对样本中位数，当n时近似地有 2022/8/16 20:50/ 4036例5.3.10 设总体为柯西分布，密度函数为通常，样本均值在概括数据方面具有一定的优势。但当数据中含有极端值时(数据分布严重非对称)，使用中位数比使用均值更好，中位数的这种抗干扰性在统计中称为具有稳健性。不难看出是该总体的中位数，即 = 设是来自该总体的样本，当样本量n 较大时，样本中位数的渐近分布为 2022/8/16 20:50/ 40375.3.7 五数概括与箱线图次序统计量的应用之一是五数概括与箱线图。在得到有序样本后，容易计算如下五个值：最小观测值：最大观测值：中位数：第一4分位数：第三4分位数：所谓五数概括就是指用这五个数，来大致描述一批数据的轮廓。 2022/8/16 20:50/ 4038箱线图五数概括的图形表示称为箱线图，它是由箱子和线段组成。其作法如下。画一个箱子，其两则恰为第一4分位数和第三4分位数，在中位数位置上画一条坚线，它在箱子内。这个箱子包含了样本中50的数据。在箱子左右两则各引出一条水平线段（触须），分

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

学习数理统计5

文档简介

温馨提示

最新文档

评论

学习数理统计5

文档简介

温馨提示

最新文档

评论

相关文档