医学统计学课件:4-抽样误差及其规律性_第1页
医学统计学课件:4-抽样误差及其规律性_第2页
医学统计学课件:4-抽样误差及其规律性_第3页
医学统计学课件:4-抽样误差及其规律性_第4页
医学统计学课件:4-抽样误差及其规律性_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Medicalstatistics医学统计学抽样误差及其规律性Samplingvariabilityanditsattributes2023/4/42主要内容

抽样误差模拟实验标准误中心极限定理

t分布抽样误差规律性2023/4/43了解抽样误差规律的重要性总体同质个体、个体变异总体参数未知样本代表性、抽样误差随机抽样样本统计量已知统计推断风险2023/4/44抽样误差假如事先知道某地七岁男童的平均身高为119.41cm。为了估计七岁男童的平均身高(总体均数),研究者从所有符合要求的七岁男童中每次抽取100人,共计抽取了三次。μ=119.41cmσ=4.38cm2023/4/45抽样误差samplingerror,samplingvariability由抽样引起的样本统计量与总体参数间的差别。原因:个体变异+抽样表现:样本统计量与总体参数间的差别不同样本统计量间的差别抽样误差是不可避免的!抽样误差是有规律的!

2023/4/46模拟试验假设一个已知总体,从该总体中抽样,对每个样本计算样本统计量(均数、方差等),观察样本统计量的分布规律--抽样分布规律。考察:不同的分布不同的样本含量对统计量的影响。2023/4/47均数的模拟试验从不同总体中进行抽样,观察均数的抽样分布规律。正态总体偏三角分布总体均匀分布总体指数分布总体双峰分布总体考察:样本均数的均数与总体均数有何关系?样本均数的标准差与总体标准差有何关系?样本均数的分布形状如何?不同的样本含量对上述性质的影响如何?2023/4/48正态分布样本均数的分布样本编号n=4样本均数样本标准差最小值最大值抽样误差198981049799.42.997104-0.6299981009597.81.795100-2.2310310910995104.16.1951094.1493949910096.43.193100-3.6510410590106101.26.4901061.26104921038395.68.683104-4.4799107949799.44.994107-0.68100103969297.94.192103-2.199297949494.31.99297-5.710100102959798.22.895102-1.8从N(100,62)中随机抽样,样本含量为4的10份独立样本的均数、标准差、抽样误差2023/4/49样本均数的均数和标准差2023/4/410从N(100,62)中随机抽样,样本含量为4的1000个样本均数的频数分布图0.05.1.1580.090.0100.0110.0120.0SampleMean正态总体分布样本均数服从正态分布2023/4/411

SamplingDistributionofsamplemeansSamplingDistributionofsamplemeans

SamplingDistributionofsamplemeansPopulationBX

XPopulationC

XPopulationDXPopulationAn=10n=4n=25n=2SamplingDistributionofsamplemeansSamplingdistributionformeans

2023/4/412均数的抽样误差之特点各样本均数未必等于总体均数;样本均数间存在差异;样本均数的分布很有规律,围绕总体均数,中间多两边少,左右基本对称;样本均数的变异范围较之原变量的变异范围大大缩小;随着样本含量的增加,样本均数的变异范围逐渐缩小。2023/4/413与样本含量的关系n

越大,均数的均数就越接近总体均数;n

越大,变异越小,分布越窄;对称分布接近正态分布的速度,大于非对称分布。分布越偏,接近正态分布所需样本含量就越大。2023/4/414中心极限定理(centrallimittheorem)Case1:

从正态分布总体N(,2),中随机抽样(每个样本的含量为n),可得无限多个样本,每个样本计算样本均数,则样本均数也服从正态分布。样本均数的均数为

;样本均数的标准差为。2023/4/415中心极限定理(centrallimittheorem)Case2:从非正态(nonnormal)分布总体(均数为,方差为2)中随机抽样(每个样本的含量为n),可得无限多个样本,每个样本计算样本均数,则只要样本含量足够大(n>50),样本均数也近似服从正态分布。样本均数的均数为

;样本均数的标准差为。2023/4/416标准误(standarderror)样本统计量的标准差称为标准误。样本均数的标准差称为均数的标准误。均数的标准误表示样本均数的变异度。当总体标准差未知时,用样本标准差代替,前者称为理论标准误,后者称为样本标准误。2023/4/417标准误的意义反映了样本统计量(样本均数,样本率)分布的离散程度,体现了抽样误差的大小。标准误越大,说明样本统计量(样本均数,样本率)的离散程度越大,即用样本统计量来直接估计总体参数越不精确。反之亦然。标准误的大小与标准差有关,在例数n一定时,从标准差大的总体中抽样,标准误较大;而当总体一定时,样本例数越多,标准误越小。说明我们可以通过增加样本含量来减少抽样误差的大小。2023/4/418抽样误差的规律性(1)均数的抽样误差规律:在样本含量足够大时,无论总体分布如何,其均数的分布趋于正态分布(大数定律)在样本含量较小时:总体为正态分布时:正态分布总体为非正态分布时:?2023/4/419正态分布的标准化变化若X~N(,2),

则。

同理,则。

2023/4/420t

分布的概念实际工作中,总体方差未知。所以,用样本方差代替总体方差,此时的分布如何?2023/4/421从N(100,62)中随机抽样,样本含量为4的1000个u值和t值的频数分布图2023/4/422t

分布的概念用样本标准差代替总体标准差,此时不服从正态分布。而服从

t分布。记为:2023/4/423t分布1908年Gosset以笔名Student发表。故又称Studentt

分布。t分布是一簇分布,与自由度有关。自由度:degreeoffreedom2023/4/424

f(t)n

=∞(标准正态曲线)

=5

=10.10.2-4-3-2-1012340.3自由度分别为1,5,∞时的

t

分布2023/4/425t分布的性质t分布为一簇单峰分布曲线。t分布以0为中心,左右对称。t分布与自由度n有关,自由度越小,t分布的峰越低,而两侧尾部翘得越高;自由度逐渐增大时,t分布逐渐逼近标准正态分布;当自由度为无穷大时,t分布就是标准正态分布。每一自由度下的t分布曲线都有其自身分布规律。t界值表。2023/4/426-tt0自由度n概率,P单侧0.250.200.100.050.0250.010.0050.00250.0010.0005双侧0.500.400.200.100.050.020.010.0050.0020.00111.0001.3763.0786.31412.70631.82163.657127.321318.309636.61920.8161.0611.8862.9204.3036.9659.92514.08922.32731.59930.7650.9781.6382.3533.1824.5415.8417.45310.21512.92440.7410.9411.5332.1322.7763.7474.6045.5987.1738.61050.7270.9201.4762.0152.5713.3654.0324.7735.8936.86960.7180.9061.4401.9432.4473.1433.7074.3175.2085.95970.7110.8961.4151.8952.3652.9983.4994.0294.7855.40880.7060.8891.3971.8602.3062.8963.3553.8334.5015.04190.7030.8831.3831.8332.2622.8213.2503.6904.2974.781100.7000.8791.3721.8122.2282.7643.1693.5814.1444.587110.6970.8761.3631.7962.2012.7183.1063.4974.0254.437120.6950.8731.3561.7822.1792.6813.0553.4283.9304.318130.6940.8701.3501.7712.1602.6503.0123.3723.8524.221140.6920.8681.3451.7612.1452.6242.9773.3263.7874.140150.6910.8661.3411.7532.1312.6022.9473.2863.7334.0731.64491.96002.5758附表2t界值表2023/4/427图t分布曲线下的面积分布双侧:P(t≤-ta,n)+P(t≥ta,n)=aP(-ta,n<t<ta,n)=1-at分布曲线下的面积规律2023/4/428t分布曲线下的面积规律单侧:P(t≤-ta,n)=a

或P(t≥ta,n)=a图t分布曲线下的面积分布t分布曲线下的面积规律2023/4/430t分布t分布的高峰位置比u分布低,尾部高。即相同的尾部面积对应的界值,比u分布大。例如:

P=0.05,u=1.96,而自由度为3的t分布界值,t=3.182。2023/4/431310-2.2282.228

=100.0250.025双侧:t0.05,10=2.228

P(|t|≥2.2.28)=0.05

2023/4/432t界值释义双侧t0.05,10=2.228表明:从正态分布总体中抽取样本含量n=11的样本,则由该样本计算的t值大于等于2.228的概率为0.025,小于等于-2.228的概率亦为0.025。P(t≤-2.228)+P(t≥2.228)=0.05或:P(-2.228<t<2.228)=1-0.05=0.95。

2023/4/433样本统计量的抽样分布任何一个样本统计量均有其分布规律。从正态分布总体中抽样:均数的抽样分布为正态分布;样本方差的分布服从2分布;样本方差之比服从F分布;t值服从

t分布;……2023/4/434抽样误差的规律性(2)t的抽样误差规律:总体为正态时:t~t

分布总体为非正态时:样本含量较大时:近似正态分布样本含量较小时:?Willia

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论