第六章样本与抽样分布_第1页
第六章样本与抽样分布_第2页
第六章样本与抽样分布_第3页
第六章样本与抽样分布_第4页
第六章样本与抽样分布_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第六章样本与抽样分布$.1数理统计的基本概念.数理统计研究的对象 例:有一批灯泡,要从使用寿命这个 数量指标来看其质量,设寿命用X表 示。(1) 若规定寿命低于1000小时的产品 为次品。此问题是求P(X 1000)=F(10000),求 F(x)?(2) 从平均寿命、使用时数长短差异来看其质量,即求E( x)?、D( x)?。要解决二个问题1.试验设计抽样方法。2.数据处理或统计推断。方法具有“从局部推断总体”的特点。二.总体(母体)和个体1.所研究对象的全体称为总体,把组 成总体的每一个对象成员(基本单 元)称为个体。说明:(1)对总体我们关心的是研究对象的 某一项或某几项数量指标(或属性

2、 指标)以及他们在整体中的分布。所 以总体是个体的数量指标的全体。(2)为研究方便将总体与一个R.V X 对应(等同)。a总体中不同的数量指标的全体, 即是R.V.X的全部取值。b. R.V X的分布即是总体的分布 情况。例:一批产品是100个灯泡,经测试其寿命是:50个1000小时1100小时1200小时20个30个X100011001200P20/10030/10050/100(设X表示灯泡的寿命)可知R.V.X的 分布律,就是总体寿命的分布,反之亦然。常称总体X,若R.VXF(X),有时 也用F( x)表示一个总体。(3)我们对每一个研究对象可能要观 测两个或多个数量指标,则可用多维 随

3、机向量(X,Y,Z,)去描述总体。2总体的分类有限总体无限总体简单随机样本.1定义61 :从总体中抽得的一部分 个体组成的集合称为子样(样本) 取得的个体叫样品,样本中样品的 个数称为样本容量(也叫样本量) 每个样品的测试值叫观察值。取得子样的过程叫抽样。样本的双重含义:随机性:用(X1, X2,Xn) n维随机向量表 示。Xi表示第i个被抽到的个体,是随机变量。(i=1,2,n)(2)确定性:(Xi,X2,Xn)表示n个实数,即是每个样品Xi观测值Xi(i=1,2,n)。2定义6.2:设总体为X,若Xi,X2X n相互独立且与 X同分布,则称(X 1 ,X 2X n )为来自总体X的容量 为

4、n的简单随机样本(简称样本)。3已知总体的分布写出子样的分布 (1)已知总体 XF( X),则样品XiF( Xi)i=1,2 n 样本(X i ,X 2 X ”)的联合分布为:F(Xi,X2Xn)=P(X、匚 X ,X/ X2X / Xn )=:P(X Xi)=:F( Xi)若总体Xf( X),样品Xif( Xi) i=1,2n样本(X 1 ,X 2X n )的联合密度是:f( X 1, X 2Xn )= : f( Xi )例:总体XN(2),写出该总体样本(X 1 ,X 2X n)的联合密度。(2) 若总体X是离散型随机变量,一般 给出分布律:P(X= x k)= Pk.k=1,2要写出概率

5、函数 f( x )即f( x )=P(X= x k)= Pkki =1,2 .i = 1,2,., n例:总体X()写出该总体样本(Xl,X2,Xn)的联合概率函数例:总体XB(1,p),0 p 1写出其样本(X1 ,X2,X)的联合概率 函数。四经验分布函数与直方图1.样本的经验分布函数定义:设(X1, X2,Xn)是来自总体X的一组样本值。将它们按由小到 大排序为:州沖州HiX厂X 2 X i X n对任意的实数X,定义函数:Fn(x)=0X Xk= 1,2,.n 一 1k屮*Xk 兰X卄n1xX则称F n ( X )为总体X的经验分布函 数。(2)格列文科定理:设总体X的分布函数、经验分

6、布函数 分别为F( x)、Fn ( x),则有:P Lnim Sup|Fn”(x)- F(X)卜 0 =1上式表明,当,概率为1的有 F n(x)均匀地趋于F( x)。2总体的概率密度的估计-直方图(第一版)p143 例 6.3可以用 SAS 下的 interactive data analysis模块演示。五统计量与样本的数字特征1定义6.3:设Xi,X2,xn是来自总 体X的容量为n的样本,g(x 1, x2, xn)是定义在Rn或Rn子集上的普通 函数。如果g中不含有任何未知量, 则称g(Xi,X2,X为统计量。2常用的统计量(样本的数字特征)定义64:设Xi,X2,,X是来自总体X的样

7、本,则称为样一 1 nXXin 1匚1n本均值S- Xn - 1 1为样本方差1,2,3).为样nM KX iK , Kn 本k阶原点矩为样本k阶中心矩3重要性质定理6.1:设总体X不论服从什么分 布,只要其二阶矩存在,即E(X戶卩、D(X)= 6 2都存在,则:(1)E( X )=E(X)=卩(2)2CTD( X戶n D(X戶n(3)E(S2)=D(X)=重要恒等2X j XX:nX6.2抽样分布统计量是样本的函数,它是一个随机变量。统计量的分布称为抽样分布。一.三个重要分布(一)2分布1.定义6.5 :设Xi, X2,X n相互独立,均服从N(0,1),则称随机变量2 2 2X1 X2.

8、Xn2分布,记为2(n)。:服从自由度为n2 n ,即:2.定理3.8:2(n)的概率密度为n_i 上2 -2(y,n)=0,其中(x)= ox T -tt e dt定理的说明见P146 页。3.图形.分布函数图:data Kf;do x=0 to 30 by 0.1 ;y= PROBCHI(x, 8);output ;end ;run ;proc gplot data =kf;plot y*x= 1 ;symbol1 v=none i =join r =1 c=black;run;密度函数图:n=1,5,15data kf;do y= 0 to 20 by 0.1 ;zO=(y*(-0.5

9、)*exp(-y/2)/(2* 0.5 * GAMMA( 0.5 )2)/(2*2 .5 * GAMMA(2 .5 )2)/(2*7.5* GAMMA(7.5);z1 = (y*(1.5 )*exp(-y/z2= (y*(6.5)*exp(-y/ output ;end ;run ;proc gplot data =kf;plot z0*y=1 z1*y= 1 z2*y= 1 /overlay ;symboll v=none i =join r =1 c=black;run;求概率:自由度为n=25, PX34.382的概率这样求。data ;p=PROBCHI( 34.382, 25 );

10、put p=;run ;其它可类推。4.性质 若2 2(n),则 E( 2 )=n ,D( 2)=2n 若2(nJ,x:2仇),且它们相互独立,则2(m 压)若X/2,Xn相互独立,均服从N(卩,/),贝9n2x2 = -T (Xj )2 (n)a 1总体X服从参数为入的指数分 布;Xl,X2,Xn是来自该总体的样本. 则:n_2( X i厂 2 n X 2 (2 ni(二).t分布定义6.6:设Xn(0,1),丫 2(n)且 它们相互独立,则称随机变量 Tn= X阳/n服从自由度为n的t分布, 记为 t(n),即 Tn t(n)。定理3.9: Tn的概率密度为T(t, n)(1OC t45时

11、,t分布与N 0,1接近。(3)当 n2 时,(证略)E(T)=0, D(T)=(三)F分布定义 6.7 :设 V2(m),W2(n),且它们相互独立,则称随机变量F m ,nWn服从第一自由度为m第二自由度为n的F分布,记为F(m,n), 即Fm,n F(m,n)。定理3.10 : Fm,n为服从第一自由度为m,第二自由度为n的F分布的随机变量,则其密度函数为11 “ m + n、r ()mm+n2“m“m、21-m、 2八()(y)2 (1y) 2y o m , n n nn(:)(;)n n nF (y,m,n)二2 20y 0图形:给定m,n可画出一个密度图 形密度函数图:data f

12、;%macro a(m,n,x);data a;0.01do y= 0 to 2 byF& x=(gamma(&m+&n)/2)*(&m/&n )*(&m/2)*y*(&m/2-1 )/(gamma(&m/2)*gamma(&n/ 2)*( 1 +(&m*y/&n)*(&m+&n)/2);output;end;data F;merge a f; |%me nd a;%a( 10 , 25 , 1);%a(10, 5,2);run ;proc gplot data =f;plot F1*y=1 F2 *y= 1 / overlay ;symbol1 v=none i =join r =1 c=b

13、lack;run;易推知:1若FF(m,n),则;F(n,m)若Xt (n),则X2F(1,n)练习:书上P151有证明。设 xF(n1,n2),证明:1F(n2,n/|)且F(nnj-11 2 F (n2,n1)(注:xF(n,n2)表示x服从自由为 n和n2的F分布,F(片兹)表示F 分布的1-分位数。如:data;Q_F=FINV(0.95,12,9); put Q_F=;Q_F=FINV(1-0.95,12,9); put Q_F=;Ru n;二.常用概率分布的分位数定义6.8 : 设Xf (x),对于给定 的正数(Ov: A: 二 a f(x)dx =则称A:为X的上侧:分位数,简称

14、上 分位数;若X服从某分布,称A为 某分布的上:分位数。2 X 2(n)称满足PX2 x2(n)p的数x2(n)为自由度为n的2分布的上:分位数。查表P248 n 45时注意所以类的统计分析软件不是这样定义的,只有一个分位数(实际上 是下分位数的定义)书上P147-148页,data ;q1= CINV(1- 0.005 ,10); put q1=;|q2=CINV(1- 0.01 ,10); put q2=;q3=CINV(1- .1 , 10); put q3=;q4=CINV(1- .1 ,25); put q4=; |run ;q仁25.188179572q2=23.209251159

15、q3=15.987179 仃2q4=34.381587018自由度为n=25, PX34.382的概率。data ;p=PROBCHI( 34.382, 25 ); put p=;run ;其它一些分布分位数求解如前几章讲过的,对于正态分布有结果:SAS的两种计算公式:data ;p仁PR0BN0RM(1)-PR0BN0RM(-1);put p1=;p2= PROBNORM(2)-PROBNORM(-2);put p2=;p3= PROBNORM(3)-PROBNORM(-3);put p3=;run;p1=0.6826894921p2=0.9544997361p3=0.9973002039d

16、ata ;p1= 2*PROBNORM(1 )-1;putp仁;p2= 2*PROBNORM(2)-1;putp2=;p3= 2*PROBNORM(3)-1;putp3=;run ;p仁0.6826894921p2=0.9544997361p3=0.9973002039也可以验证数据,即以1为中心,需 要几倍的标准差二距离所构成的区 间,其区间内的概率为上述所示。Data;q1二abs(probit(1- 0.6826894921)/ 2);putq1=;q2二abs(probit(1- 0.9544997361)/ 2);putq2=;q3=abs(probit(1- 0.997300203

17、9)/ 2);putq3=;run;q1=0.9999999999q2=2q3=2.9999999959dataq1=probit(1-(1- 0.6826894921)/ 2); putq1=;q2=probit(1-(1- 0.9544997361)/ 2); putq2=;q3=probit(1-(1- 0.9973002039)/ 2); putq3=;run;q仁0.9999999999 q2=2 q3=2.9999999959注意:为中心,概率为 90%,95%98% 99%勺区间,需要几倍的标准差:距离。Data;q1二abs(probit( q2二abs(probit( q3=

18、abs(probit( q3=abs(probit(1- 0.9 )/ 2); put q1=;1- 0.95 )/ 2); put q2=;1-0.98 )/ 2); put q3=;1- 0.99 )/ 2); put q3=;run;q1= 1.644853627 q2=1.9599639845 q3=2.326347874 q3=2.5758293035比如,P:1.96 X 1.96=0.95等的结论也是常用的。几乎都成常识 了。data ;q1=exp(-1.65 * 2/ 2)/sqrt( 2*( 3.1415926); put q1=;q2=PR0BN0RM(- 1.65 );

19、 put q2=;|aa=q1/q2; put aa=;run ;FINV(p,ndf,ddf) returns a quantile from the F distributionBETAINV(p,a,b)CINV(p,dfv, nc)SAS FUNCTIONS: Qua ntile Fu ncti onsreturns a qua ntile from the beta distributi on retur ns a qua ntile from the chi-squareddistributi onGAMINV(p,a)retur ns a qua ntile from the g

20、amma distributi onPROBIT(p)returns a quantile from the standard normal distributi onTINV(p,dfv, nc)returns a qua ntile from the t distributi on近似可证明:n很大V2x2 N ( 2n 1,1)P( 2x2 - 2 n - 1) u: =变成1=Px22(u 2 n 1)2=x2(n 厂】(u 2n1)2(2)T t(n)称满足PTt a (n)二 的数t a (n)为t(n)上:分位数。 查表:n45 时,T N (0,1), t a (n ) = U

21、 a。注意:Tt(n)的密度是偶函数。 称满足PT|1 (n)八正数以n)为2 2分布的双侧:分位数。易知:以n)查表可得,且2I (n)二2t (n)同样标准正态分布有例: n=20的t分布,求其0.1的上分位数,有data ;q=TINV( 1 - 0.1 ,5); put q=; |q=TINV( 1-0.1 ,10); put q=;q=TINV( 1 - 0.1 , 20); put q=;q=TINV( 1 - 0.1 , 50); put q=;q=TINV( 1 - 0.1 , 100 ); put q=; |q=TINV( 1 - 0.1 ,2 00); put q=; |q

22、norm=(probit(1 - 0.1 ); put qnorm二;run ;q=1.4758840488q=1.3721836411q=1.325340707q=1.2987136942q=1.2900747613q=1.285798794qnorm=1.2815515655对于概率:我们看一下当n很大时, t(n)和标准正态分布的近似性。prob_t=PROBT(1.3, 5); put prob_t=;prob_t=PROBT(1.3, 10); put prob_t=;prob_t=PROBT(1.3, 20); put prob_t=;prob_t=PROBT(1.3, 50);

23、put prob_t=;prob_t=PROBT(1.3, 100); put prob_t=;prob_t=PROBT(1.3, 200); put prob_t=;Prob_n=PROBNORM(1.3);put Prob_n=;Run;(3) 若 FF(m ,n)称满足 PFFa (m,n)二的数 Fa (m,n)为F分布的上:分位数。查表:表中有的可直接查表P250表中没有的1F (m, n)二Fv: (n, m)二正态总体的X、S2的分布定理6.2 :(费歇(Fisher)定理) 设总体 XN(卩,(T 2),Xi,X2,Xn为来自总体X的样本,其样本均值和样 本方差分别记为X和S2。则有(1) X与S相互独立。(2)2XNC ,)n(n- 1)s2证明见书Pl50隹论1 :N (0,1)例 :总体 X N(0/ 2),问(1 Xi)2 与n 2:Xi - X是否独立? 2又问(1x) + 1 Xi X服从什麽分 布?X -卩推论 2: 丁=”75-1)/vn定理6.3 :设有两个总体: XNC2),其样本为 Xl,X2,,X n,样本均值X ,样本方差2S1总体YNC2, 2),其样本为 丫1,丫2 丫巾,样本均值为Y,样本方差 为s2,且两

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论