概率分布和抽样分布_第1页
概率分布和抽样分布_第2页
概率分布和抽样分布_第3页
概率分布和抽样分布_第4页
概率分布和抽样分布_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

概率分布和抽样分布一、常用概率分布累积函数的命令:标准正态分布累积函数norm(X)t分布右侧累积函数ttail(df,X),其中df是自由度2分布累积函数chi2(df,X),其中df是自由度2分布右侧累积函数chi2tail(df,X),其中df是自由度F分布累积函数F(df1,df2,X),df1为分子自由度,df2为分母自由度F分布右侧累积函数Ftail(df1,df2,X),df1为分子自由度,df2为分母自由度二、概率分布的临界值计算的命令:1.正态分布的临界值计算函数invnorm(P)2.t分布的临界值计算函数invttail(df,P)3.2分布的临界值计算函数invchi2(df,P)或invchi2tail(df,P)4.F分布的临界值计算函数invF(df1,df2,P)或invFtail(df1,df2,P)三、应用举例:命令:displaynorm(X)/ttail(df,X)/chi2(df,X)/chi2tail(df,X)/F(df1,df2,X)/Ftail(df1,df2,X)/…注意:display可简写为di例1.正态分布计算X服从N(0,1),计算概率P(X<1.96).displaynorm(1.96).9750021即概率P(X<1.96)=0.9750021如果,计算概率P(X>1.96),则.di1-norm(1.96).0249979即概率P(X>1.96)=0.0249979X服从N(,2),则,因此对其他正态分布只要在函数括号中插入一个上述表达式就可以得到相应概率。例如:X服从N(100,62),计算概率P(X<111.76),则操作如下:.dinorm((111.76-100)/6).9750021即:概率P(X<111.76)=0.9750021例2.2分布累积概率计算设X服从自由度为1的2分布,计算概率P(X>3.84),则操作如下:.di1-chi2(1,3.84).05004353概率P(X>3.84)=0.05004353例3.2分布右侧累积概率计算设X服从自由度为1的2分布,计算概率P(X>3.84),则操作如下:.dichi2tail(1,3.84).05004353概率P(X>3.84)=0.05004353例4.t分布右侧累积概率计算设t服从自由度为10的t分布,计算概率P(t>2.2),操作如下:.dittail(10,2.2).02622053概率P(t>2.2)=0.02622053(注意:这是右累积函数)例5.F分布累积概率计算设F服从F(3,27),计算概率P(F<1),操作如下:.diF(3,27,1)注意这里的函数是大写F,stata软件中是区分大小写的.59208514概率P(F<1)=0.59208514例6.F分布右侧累积概率计算设F服从F(3,27),计算概率P(F<1),操作如下:.di1-Ftail(3,27,1)注意这里的函数是大写F,stata软件中是区分大小写的.59208514概率P(F<1)=0.59208514例7.双侧U0.05(即:左侧累积概率为0.975),操作如下:.diinvnorm(0.975)1.959964即U0.05=1.959964例8.计算自由度为28的右侧累积概率为0.025的临界值t28,,操作如下:.diinvttail(28,0.025)2.0484071临界值t28,=2.0484071例9.计算自由度为1的2右侧累积概率为0.05的临界值20.05,操作如下:.diinvchi2(1,0.95)3.8414591临界值20.05=3.8414591或者操作如下:.diinvchi2tail(1,0.05)3.8414591临界值20.05=3.8414591例10.计算分子自由度为3和分母自由度27的右侧累积概率为0.05的临界值,操作如下:.diinvF(3,27,0.95)2.9603513临界值F0.05(3,27)=2.9603513或者操作为:.diinvFtail(3,27,0.05)2.9603513临界值F0.05(3,27)=2.9603513四、产生随机数计算机所产生的随机数是通过一串周期很长的序列数模拟随机数,这串数的序列是通过某种算法依次产生的,故称为伪随机数。在实际应用这些随机数时,这些随机数一般都能具有真实随机数的所有概率性质和统计性质,因此可以产生许许多多的序列伪随机数,一个序列的第一个随机数对应一个数,这个数称为种子数(seed),因此可以利用给定种子数,使随机数重复实现。设置种子数的命令为setseed。若每次设置同一种子数,则产生的随机序列是相同的。产生(0,1)区间上的均匀分布的随机数uniform()例如产生种子数为100的20个在(0,1)区间上的均匀分布的随机数,则操作如下:clear清除内存setseed100设置种子数为100setobs20设置样本量为20genr=uniform()产生20个在(0,1)区间上均匀分布的随机数。list显示这些随机数结果如下r1..71852962..16467283..92580414..18337365..00673276..74133617..35999438..16345439..44555310..648904911..379943112..596489513..025134614..216440215..684847916..127001817..646625818..186928819..452238420..067132应用:1.利用均匀分布随机数进行随机分组:例:某实验要把20只大鼠随机分为2组,每组10只,请制定随机分组方案和措施。第一步、把20只大鼠编号,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20。并且标明。第二步、用Stata软件制定随机分组方案,操作如下:clear清除内存setseed200设置种子数为200setobs20设置样本量为20rangeno120建立编号1至20genr=uniform()产生在(0,1)均匀分布的随机数gengroup=1设置分组变量group的初始值为1sortr对随机数从小到大排序replacegroup=2in11/20设置最大的10个随机数所对应的记录为第2组,即:最小的10个随机数所对应的记录为第1组sortno按照编号排序list显示随机分组的结果结果如下:norgroup1.1.951200722.2.524987623.3.512998614.4.12643915.5.586616126.6.705920927.7.263328618.8.564468829.9.1171033110.10.954065211.11.4822863112.12.3347736113.13.5678902214.14.7994431215.15.1180503116.16.9834299217.17.2807874118.18.095245119.19.9446051220.20.34675241随机分组整理如下第一组编号3479111215171820第二组编号1256810131416192.产生服从正态分布N(,2)的随机数invnorm(uniform())*+例如:产生10个服从正态分布N(100,62)的随机数,操作如下:clear清除内存setseed200设置种子数为200setobs10设置样本量为10genx=invnorm(uniform())*6+100产生服从N(100,62)的随机数list显示随机数结果如下:x1.109.93972.100.37613.100.19554.93.139685.101.31316.103.2497.96.20138.100.97399.92.8624410.110.11373.考察样本均数的分布由于个体变异的原因,样本均数的抽样误差(其定义为样本均数与总体均数的差值)是不可避免的,并且样本均数的抽样误差是呈随机变化的。对于一次抽样而言,无法考察样本均数的抽样误差的规律性,但当大量地重复抽样,计算每次抽样的样本均数,考察样本均数的随机分布规律性和统计特征。举例如下:利用计算机模拟产生100000个服从正态分布N(100,62)的样本,样本量分别为n=4,n=9,n=16,n=36,每个样本计算样本均数。这里关键处是要清楚什么是样本量(每次抽样所观察的对象个数,也就是每个样本的个体数n)、什么是样本个数(指抽样的次数),现以n=4为例,一条记录存放一个样本,样本量n=4,也就是每个样本的第1个数据放在第1列,第2个数据放在第2列,第3个数据放在第3列,第4个数据放在第4列,因此第1行是第一个样本,第2行是第2个样本,第100000行是第100000个样本,计算样本均数放在第5列,因此共有100000个样本均数。具体操作如下:clear清除内存setmemory60m扩大虚拟内存为60Msetobs100000设置记录数为100000setseed200设置种子数为200genx1=invnorm(uniform())*6+100产生第1个随机数据genx2=invnorm(uniform())*6+100产生第2个随机数据genx3=invnorm(uniform())*6+100产生第3个随机数据genx4=invnorm(uniform())*6+100产生第4个随机数据genmean=(x1+x2+x3+x4)/4计算平均数,并且存放在变量名为meansumean以样本均数为数据,计算其平均值和标准差结果:Variable|ObsMeanStd.Dev.MinMax-------------+-----------------------------------------------------mean|10000099.983883.00222587.97424112.0461现共有100000个样本,每个样本计算一个样本均数,因此有100000个样本均数,现在把一个样本均数视为一个数据,把100000个样本均数视为一个样本量为100000的新样本(这个样本里有100000个),计算这100000个的平均值和标准差:得到:这100000个的平均值=99.98388非常接近总体均数=100这100000个的标准差=3.002225(理论上可以证明样本均数的总体均数与样本所在的总体的总体均数相同,样本均数的标准差=)再考察这100000个的频数图命令:graphmean,bin(50)xlabelylabelnorm可以发现正态分布的样本均数仍呈正态分布,峰的位置在=100。再考察这100000个的百分位数命令:centilemean,centile(2.55509597.5)--Binom.Interp.--Variable|ObsPercentileCentile[95%Conf.Interval]-------------+-------------------------------------------------------------mean|1000002.594.1026294.0488294.15405|595.0349494.9922395.07704|5099.982999.95786100.0057|

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论