




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
4参数估计统计描述抽样分布—参数估计:点估计、区间估计定量资料算术均数、中位数等集中趋势:离散趋势:极差、四分位数间距、方差、标准差、变异系数定性资料:频率型指标、强度型指标、比
统计表和统计图统计推断变量概率分布:正态分布、二项分布、Possion分布假设检验实验设计分组数实验设计:三要素、四原则、实验设计方案、样本含量估算教学内容:非参数检验—秩和参数检验:t检验、方差分析等差异性定性资料定量资料多变量:多重线性回归、logistic回归、生存分析相关回归两变量:简单线性相关、回归分析统计学研究特点:研究的是样本,要对总体作出推断利用“小概率原则”作出统计推断需进行参数估计和假设检验
抽样研究
抽样误差问题:已知某市健康儿童共125万人,想知道其平均血糖水平是多少?求μ(参数)的问题Population:125万人方法一:普查(125万人)总体均数(参数)μ=4.86µmmol/L13方法二:随机抽样(50人)
A=4.66µmmol/L(样本统计量)参数估计风险怎么样由估计μ?利用了一个规律,“抽样分布”的规律教学内容4.1抽样分布与标准误4.2
t分布
.
4.3
总体参数的估计
.4.1抽样分布与标准误【实验一】假定某年某地13岁所有女学生的身高服从X~N(155.4,5.32)的正态分布,从中抽取一个样本含量为30的样本,比较样本均数和总体均数的差异。…,156.6样本均数:156.7,158.1,155.6,µ
=155.4138.0172.4组段(cm)频数频率(%)152.6~11.0153.2~44.0153.8~44.0154.4~2222.0155.0~2525.0155.6~2121.0156.2~1717.0156.8~33.0157.4~22.0158.0~158.611.0合计100100.0表6.1从正态总体N(155.4,5.32)抽样得到的100个样本均数的分布频数表(n=30)样本均数的分布特征:图6.1图6.1某年某地女学生身高样本均数分布的频数表频数152.6153.2153.8154.4155.0155.6156.2156.8157.4158.0以样本均数作为随机变量,有以下特点:各样本均数未必等于总体均数。样本均数之间存在差异。样本均数的分布很有规律,围绕着总体均数,中间多、两边少,左右基本对称。样本均数的变异范围较之原变量的变异范围大大缩小。抽样误差(samplingerror):由于抽样造成的样本统计量与样本统计量,以及样本统计量与总体参数间的差别,称为~。原因:个体变异特征:A.不可避免性
B.可控性=155.4
=5.3X原总体变量的分布样本均数的抽样分布X155.4=xmn=301.7=xs标准误
(standarderrorofmean,SME或SE)概念:样本均数的标准差简称标准误(standarderror,SE)是描述均数的抽样误差大小的指标。数理统计研究表明,标准误即抽样误差的大小具有一定的规律性,样本均数μ标准误
(standarderror,SE)计算:标准误的理论值标准误的理论值的估计值s↑→抽样误差↑n↑→抽样误差↓前提:无限总体完全随机抽样(1)标准误(standarderror)是描述均数的抽样误差大小的指标,可用来衡量样本均数的可靠性;标准误越小,说明抽样误差越小,样本均数代表总体均数就越可靠。(2)用于参数估计。(3)用于假设检验。标准误的意义:小结:若随机变量X服从X~N(μ,s2)的正态分布,则以之随机抽样计算的样本均数所构成的分布也呈正态分布。1.
样本均数的总体均数仍等于原来的总体均数μ。
2.样本均数的标准差叫做标准误
(standarderrorofmean,SEM),记作,是描述均数的抽样误差大小的指标。
中心极限定理从偏态总体中抽样,当n足够大时(n大于30),其均数也近似于正态分布。⑴样本均数的总体均数仍等于原来的总体均数μ。⑵样本均数的标准差
仍叫做标准误,记作。
中心极限定理计算公式仍是:举例:大规模普查得某地健康成年男子血红蛋白总体均数为µ=135g/L,σ=20.5g/L。若在其中进行随机抽样,样本量n=100,样本均数=130g/L,S=23.4g/L,求其理论标准误和样本均数的估计标准误。2.样本均数的估计标准误:1.理论标准误:xsns=10020.5==2.05g/LxSnS=10023.4==2.34g/L解:均数μ;标准差N(μ,2
)抽出n个的样本随机抽样原总体X1,X2,X3…Xn样本均数X1,X2,X3…Xn正态分布与抽样分布的区别与联系均数μ;标准误N(μ,2
)
XsXs=155.4
=5.3X原总体变量的分布样本均数的抽样分布X155.4=xmn=301.7=xs标准差与标准误的区别与联系标准差标准误区别公式与n关系n增大,标准差趋于稳定。n越大,标准误越小概念描述的是样本个体观察值的变异程度大小。描述的是样本均数的变异程度和抽样误差大小。意义小说明变量值围绕均数的波动小,均数对一组变量值的代表性好。小表示样本均数围绕总体均数的波动小,用样本推断总体的可靠性越强。用途与均数结合,描述观察值的分布范围,常用于估计医学参考值范围、计算变异系数、标准误等。均数结合,用于估计总体均数可能出现的范围,即可信区间,并用于假设检验。联系1.都是描述变异程度的指标2.标准误与标准差成正比,n一定时,标准差越大,标准误也越大。4.2t分布均数μ;标准差N(μ,2
)原总体X1,X2,X3…Xn样本均数X1,X2,X3…Xn抽出n个的样本随机抽样均数μ;标准误N(μ,)
=50
=10X总体分布抽样分布n=16X样本均数50=xm2.5=xs原变量任意正态分布曲线
X~N(μ,σ2)标准正态分布曲线X~N(0,1)u变换对于正态变量X
标准正态分布
对样本均数的正态分布进行标准化→t分布若对抽样分布进行标准化变换,有总体标准误
实际工作中,是未知的,所以常需以
代替。W.S.Gosett研究它的分布规律,提出它不服从标准正态分布的规律,而服从ν=n-1的t分布,后人用其笔名student命名,称之为student’st-distribution,简称t分布。t分布:1-=nn=S-XmX-XmSnZ分布t分布故:【实验三】:从前述13岁女学生身高这个正态总体中分别作样本量为3或50的随机抽样,各取1000份样本,分别得到1000个样本的均数及其标准误,对它们分别作t转换,将t值绘成直方图:
。n=3时的t分布n=50时的t分布所以,不同的自由度(=n-1)即有不同的t分布【实验三】:从前述13岁女学生身高这个正态总体中分别作样本量为3或50的随机抽样,各取1000份样本,分别得到1000个样本的均数及其标准误,对它们分别作t转换,将t值绘成直方图:。n=3时的t分布n=50时的t分布所以,不同的自由度(=n-1)即有不同的t分布
不同自由度的t分布的曲线t分布图形的特征:1.t分布的密度曲线呈单峰,曲线在t=0处最高,并以t=0为中心左右对称;t值可是正数,也可是负数。2.与标准正态分布相比,曲线最高处较矮,两尾部较高。3.t分布的概率密度曲线是一簇曲线,它只有一个参数自由度;一但确定,其曲线形状即也确定。越小,则t值越分散,曲线越低平,尾部越高;随着的逐渐增大,t分布曲线逐渐的逼近于标准正态曲线,t分布的极限分布是Z分布。4.t分布的概率密度曲线下面积有一定规律性,可通过查“t分布界值表”得到。t分布图形的特征:t分布曲线下的整个面积为1;t分布曲线下从a到b的面积为t值分布在此范围内的百分比,即t值落在此范围内的概率p。t分布曲线下的面积分布规律:自由度为的t分布曲线ab0t界值表:以自由度为横标目,概率P为纵标目,表中数字表示当和P确定时,对应的是正侧或双侧的t临界值表,记作t(α,)或t(α/2,)。包括单侧概率的t临界值,记作t(α,)双侧概率的t临界值,记作t(α/2,)自由度概率,P单侧:0.250.200.100.050.0250.010.0050.00250.0010.0005双侧:0.500.400.200.100.050.020.010.0050.0020.00111.0001.3763.0786.31412.70631.82163.657127.321318.309636.61920.8161.0611.8862.9204.3036.9659.92514.08922.32731.59930.7650.9781.6382.3533.1824.5415.8417.45310.21512.92440.7410.9411.5332.1322.7763.7474.6045.5987.1738.61050.7270.9201.4762.0152.5713.3654.0324.7735.8936.86960.7180.9061.4401.9432.4473.1433.7074.3175.2085.59570.7110.8961.4151.8952.3652.9983.4994.0294.7855.40880.7060.8891.3971.8602.3062.8963.3553.8334.5015.04190.7030.8831.3831.8332.2622.8213.2503.6904.2974.781100.7000.8791.3721.8122.2282.7643.1693.5814.1444.587110.6970.8761.3631.7962.2012.7183.1063.4974.0254.437120.6950.8731.3561.7822.1792.6813.0553.4283.9304.318130.6940.8701.3501.7712.1602.6503.0123.3723.8524.221140.6920.8681.3451.7612.1452.6242.9773.3263.7874.140150.6910.8661.3411.7532.1312.6022.9473.2863.7334.073160.6900.8651.3371.7462.1202.5832.9213.2523.6864.015170.6890.8631.3331.7402.1102.5672.8983.2223.6463.965180.6880.8621.3301.7342.1012.5522.8783.1973.6103.922附表2t
界值表例1,求当=9,单尾概率=0.05时的t界值表明:按t分布的规律,从正态分布总体中抽取样本含量n=10的样本,则由该样本计算的t值大于等于1.833的概率为0.05,或小于等于-1.833的概率亦为0.05。查表得单尾t0.05,9=1.833,则:P(t≤-1.833)=0.05或:P(t≥1.833)=0.05自由度为9
的t分布例1,求当=9,双尾概率=0.05时的t界值表明:按t分布的规律,从正态分布总体中抽取样本含量n=10的样本,则由该样本计算的t值大于等于2.262的概率为0.025,小于等于-2.262的概率亦为0.025。查表得单尾t0.05,9=2.262,则:P(t≤-2.228)+P(t≥2.228)=0.05或:P(-2.228<t<2.228)=1-0.05=0.95。自由度为9
的t分布1.相同时,t值越大,对应的尾部概率P就越小2.相同t值,双侧尾部概率是单侧尾部概率的2倍。4.3总体参数的估计例5.1:测得某地11名20岁男大学生身高=172.25cm,S=3.31cm,对该地20岁男大学生身高均数进行估计。由估计μ?(一)基本概念参数估计(Parameterestimation):用样本信息估计总体参数。
包括点值估计(Pointestimation):不考虑抽样误差,直接用样本统计量来作为总体参数的估计值。区间估计(Intervalestimation):考虑抽样误差,按一定的概率或可信度(1-α)用一个区间来估计总体参数的所在范围。
这个区间范围叫总体参数的1-α的可信区间(confidenceinterval,CI)或置信区间。
α一般取值0.05或0.01,所以1-α为0.95或0.99
样本统计量
(点估计)可信区间下限上限<S-XmX<-t0.05/2,nt0.05/2,n若确定1-α=0.95,则根据t分布的特征,t有95%可能性在-t0.05/2到t0.05/2间,故:X-t0.05/2,nSX<m<X+t0.05/2,nSX
注明:可信程度95%1-aa/2a/2下可信限上可信限求95%的可信区间:自由度为
的t分布:-t界值t界值举例:测得某地11名20岁男大学生身高=172.25cm,S=3.31cm,估计该地20岁男大学生身高均数的95%的可信区间。答:即:该地20岁男大学生身高均数的95%可信区间为170.03cm~174.47cm1.明确条件2.用t分布法求可信区间n=11,=172.73cm,S=4.19cm,双侧t0.05=2.228【实验】:
从前面某年某地所有女学生所构成的正态总体N(155.4,5.32),抽到100份随机样本,计算每份样本的95%可信区间。1-α可信度的含义:
表6.1从正态总体N(155.4,5.32)抽到的100份随机样本的可信区间(n=30)样本号均数标准误95%可信区间样本号均数标准误95%可信区间1156.70.91154.8158.654155.60.92153.7157.52158.10.95156.2160.155154.80.83153.1156.53155.61.6153.5158.156155.60.96153.6157.64155.21.03153.1157.357158.20.97156.2160.25155.01.01152.9157.058154.91.06152.7157.16156.41.08154.2158.659153.40.91151.5155.37154.91.12152.6157.1……………8156.50.74154.9158.091155.10.90153.2156.99155.01.09152.8157.292156.61.03154.5158.710155.90.98153.9157.993156.01.08153.8158.211156.90.98155.0158.994155.80.93153.9157.7……………95156.10.83154.4157.849156.10.81154.5157.896152.70.75151.1154.250154.71.04152.6156.897155.10.93153.2157.051155.70.97153.7157.798155.30.90153.5157.252153.70.80152.1155.399154.60.71153.2156.153154.80.89153.0156.6100156.61.16154.2159.01-5%可信度实际含义:从总体中进行随机抽样,共作100次抽样,每个样本可算得一个可信区间,得100个可信区间:平均有95个可信区间包括μ(估计正确),只有5个可信区间不包括μ(估计错误)。(1-)%概率包含了;
%的概率未包含1-aa/2a/2可信区间概念:总体均数的1-α可信区间指一个范围,指该范围包含μ在内的可能性为1-α,不包含μ在内的可能性为α;常用1-α为95%和99%,又称置信区间。可信限的概念:指可信区间的下限和上限,即两个端点值。可信区间是指以上、下可信限为界的一个范围,但不包含上下限两个值,故用()表示,其为开区间。下可信限上可信限
95%可信区间99%可信区间公式区间范围窄宽估计错误概率大(0.05)小(0.01)区间的精确性小大(
)
()
99%可信区间95%可信区间正态总体均数μ的区间估计方法:t分布法总体方差σ2未知,样本n较小时(n≤30)时:依据于t分布可信区间t=正态分布法1.总体方差σ2已知:呈标准正态u分布2.总体方差σ2未知,但样本n较大(n>30)时:
接近于标准正态u分布。可信区间依据于u分布X99%样本95%样本xxs96.1-正态分布法:小结⒈从同一总体中,随机抽取相同含量的样本,由重复抽取的每一份样本均可计算一个样本统计量,样本统计量的分布即为抽样分布。2.来自正态分布总体的样本均数仍服从正态分布;即使从偏峰分布总体抽样,只要n够大,样本均数的分布与近似于正态分布。其样本均数的均数为原变量的均数μ;其样本均数的标准差叫标准误,为3.从同一总体中,随机抽取相同含量的若干份样本,各样本统计量之间以及样本统计量与参数之间存在差异,属于抽样误差,反映抽样误差大小的指标叫标准误。若原变量的总体标准差是σ,则均数的标准误是
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 全品复习方案2025届高考物理一轮复习第2单元相互作用物体平衡听课正文含解析
- 六年级英语上册 Unit 4 January is the first month Lesson 20教学设计 人教精通版(三起)
- 第一章问题解决策略:分类讨论 教学设计 2024-2025学年 鲁教版(五四制)六年级数学上册
- Unit 1 Animal Friends - Section B 1a-1d 教学设计 2024-2025学年人教版(2024)英语七年级下册
- 企业人力资源试题及答案
- 公共营养师考试主题讨论试题及答案2025年
- 丽江师专面试题及答案
- 如何解答专利代理人试题及答案
- 汇丰裁员面试题及答案
- 丰收之歌(教学设计)-2023-2024学年花城版音乐三年级下册
- 信息技术(基础模块)课件 模块三 电子表格处理
- 《实施方法论》课件
- 流行性感冒诊疗方案(2025版)解读课件
- 教科版六年级科学下册全册教学设计教案
- 2025年度打印机销售与升级改造合同模板4篇
- 医学会议准备流程
- 临床生化检验项目及意义
- 药剂学练习试卷24(题后含答案及解析)
- 公司年度经营目标及公司各部门年度经营计划
- 生物技术测试题+参考答案
- 大学英语(西安石油大学)知到智慧树章节测试课后答案2024年秋西安石油大学
评论
0/150
提交评论