研究生统计学总体均数估计与假设检验_第1页
研究生统计学总体均数估计与假设检验_第2页
研究生统计学总体均数估计与假设检验_第3页
研究生统计学总体均数估计与假设检验_第4页
研究生统计学总体均数估计与假设检验_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、研究牛医学统计学(第三版)第三章总体均数估计与假设检验新乡医学兜公共卫生学st第三章总体均教估计与假谡检殓均数的抽样误差与标准误/分布总体均数的估计 假设检验的基本原理和步骤 假设检验的注意事项 正态性检验和两样本方差比较的F检验参数估计基础统计学研究的目的通常是要了解总体的情况。如果 要了解总体情况,有两种方法: 全面研究全面研究在许多情况下难以办到,因此,常用的方法是抽样研究,即从同质总体中随机抽取一部分观察单位 作为样本,并由样本信息(包括样本变量值的分布及其用于描述的统计量)来推断总体情况,即统计推断(statisticalinference) o第一节均数的抽样祺差和标准祺由于所研究

2、变量在总体中各观察单位 (个体)间存在变异,抽样研究必然会导致抽 样误差(sampling error) «抽样误差是不可避免的,但我们可以探 究抽样误差的规律,控制抽样误差在允许的范 围内。第一节均数的抽样祺差和标准蟆为探讨抽样误差的规律,我们做一个放回式随机抽样实验。假设某年某地13岁女学生身高(X)服从总体 均p=155.4cm,总休标准差a=5.3cm的正态分布N(155.4, 5.32)。每次抽取的30例构成一个样本,并计 算出样本均数。如此共抽取100个样本,计算得到100 个样本均数。总体 “=1554cm a = 5.3 cm放回式随机抽样实脸nx =30,元 | =

3、 156.7 cm n2 = 30,元 2 =15 & lcm n3 = 3 0,元3 = 15 5.6c/n n4 = 30,元4 = 155.2cm n5 = 3 0,元5 = 1 5 5.0cm n6 = 30,元§ =1 56.4c 加表51从正态总体NCI554,532)随机抽取 100份样本(门=30)的算术的救156.7156.9156.1156.3155.1155.7153.6155.8154.9155.1158.1154.0155.0155.2155.3153.7155.6153.9154.6156.6155.6154.4154.7156.0156.3154

4、.8155.2156.2154.6156.0155.2156.5154.5155.6156.6155.6156.7156.0157.5155.8155.0155.9155.2156.5155.4154.8154.7154.2155.9156.1156.4155.5154.6155.3155.9155.6155.1155.4156.5152.7154.9156.9156.1155.2155.3158.2155.7156.6156.4155.1156.5156.9155.7155.5154.6154.9156.4155.6154.7155.3155.0153.4155.1155.0156.1153

5、.4155.1156.8156.2154.6155.9154.8156.1155.5154.7156.4154.9155.3154.6156.630252051A 频数10501 1152. 6 153. 2 153. 8 154.4 155 155. 6 156. 2 156. 8 157.4 158 158. 6均数图100个样本均数的频数分布图第一节 均救的抽样镁差和标准蟆从一个总体均数为M,标准差为的总体中,随机抽 取若干个含量为门的样本。那么,这若干个样本的均数不会 完全相同,其频数分布是以总体均数"为中心的正态分布, 其变异程度可用这若干个样本均数的标准差表示,称样本均

6、数的标准误(standard error)o样本均数的分布第一节均数的抽样祺差和标准谖在前述放回式随机抽样实验中,已知总体标准差a=5.3cm,每次抽样的样本含量"30,代入公式得:cr 5.3=0.98(cm)按实际抽取的100个样本均数计算,标准误为096,与上述公式计算结果基本一致O第一节均救的抽样祺差和标准镁实际工作中,往往不知道6因此,通常用样本标准差S来 代替7,得到均数标准误的估计值:例调査某地120名正常成人的血糖值的均数为4.92mmol/L,标准差为0.48mmol/L,试计算标准 误。5- = 0.044(mmol /L)4n V120从正态分布JV(5.00.

7、0.5(H)总体中抽样实细果4.1aa盂£SMI=M 龍器从正制|分布的总体中摘样其从不対暮凹显分布的总体中摘样冥笫果第一节 均数的抽样谟差和标准谖均数标准误的用途:标准误愈小,说明样木均数与总休均数越接 近,即抽样误差越小,用样本均数推论总体均数 的真实性越好。反之,标准误越大,抽样误差越 大,样本均数对总体均数的代表性越差。估计总体均数的置信区间;用于均数的假设检验。第二节t分布、r分布的概念对于任一正态分布XN(,经“变换后都可以变成标准正态分布N(0 ,1)。随机抽取若干个含量为的样本,这些样本均数的 频数分布是以总体均数“为中心的正态分布,其标准差 为如果进行“变换,同样可

8、以变成标准正态分布 N(0 ,l)ox LIU =第二节t分布实际上往往未知,故用$作为b的估计值,这时人AX可以对样本均数作/变换:X JLL贝"值的分布是以0为中心的正态分布,即r 分布(student t distribution)o 1908年W S Gosset 以笔名student发表了他的研究论文,开创了小样 本统计推断之先河。第二节t分布形和f分布表对前述13岁女学生身高总体,分别做=3和=50的随机 抽样,各抽取1000个样本,并分别计算得到1000个样本均数 和标准误。然后,分别做/变换,将r值绘直方图如图52。第二节f分布二、(分布的图形和f分布表t分布与w分布

9、一样,都是以0为中心,但r分布 不是1条曲线,而是无数条曲线。r分布的形态 (峰度)随抽样样本量(严格地说是自由度死-1) 而变化,自由度越小,曲线越低平,随着自由度 增大,r分布逐渐接近于标准正态分布,当自由度 为无穷大时,/分布与“分布完全重合。I值图53不同自由度的f分布曲线第二节t分布t分布与M分布一样,曲线下的面积分布有一定规 律:从双侧2,倒心2所对应的曲线下的面积占曲线下总 面积的l()0(l-a)%o或者,从单侧匕到oo所对应的曲线下 的面积占曲线下总面积的lOO(ls)%。0 tu(a)1<V20(b)图54 单、双何t分布示意图(a)r为单侧临算值为仪侧临界值第二节t

10、分布由于r分布的形态随自由度而变化,匚也随 自由度而变化。不同自由度时的匚值可查附表2f界值表得到。su&e0=99Z 二UOO692IU3PIOppppp rjTT6 Z GC S S16 y p z&or_f-_r-_r_698 9 §u 66SW 6T9虽 go slwoZo6ue殳g S6T2 Ke z£ze 专eOSPC 筲g 答£:gs EL s-s r-§z id id010醫 md lK8d 宸 8ei slxd 好z wwr r u m w roH rirnH86S.S is 艮LC4T is mgOrMGO n 力 6

11、 CM 朋碎 m n z zyS&6nr r znrsrCMikKZidm C4 n n r<i nr- r- r- 昭押 z n r 7 ri00? M d S96I EL miTZOC6 二066 1wwz600&AyurEH冒zsprm Esei r-芒E gr-r-ri s Z8TTS96G吕逾u: gfkZJ0.0 sd gdsotro uro snro931$2g【港二 忌二 w Ir-qT 0S.M9CU1Inr i:umTwz£:勺0§30200o二 "61 76UI 961 66=w8U curl IfE wr9LPI 辞I

12、 mJ gs£T ULOTOTQSaSEd wo 黑90 9EU EQwurodwnEd3 G O O28SS 8ssssgii d d c= o gn g 叭 too uoelfl ric5ri isfc二&整盼 EEP 卡卜】00 右 Hlfr§ .on b第三节总体均敦的估计、可信区间的概念点值估计(point estimation)区间估计(interval estimation)总体均数(“)的100(1- a)%置信区间(confidential interval,简记为 C7)。区间估计属于概率估计,总体参数并非一定在 该置信区间内,只需要把总体参数不

13、在该置信区间 内的概率仪)控制在一定水平就可以了。二、置信区间的计算二、总体均数的置信区间的计算 “的 1()0(1-«)%置信区间(C7):已知总体标准差叭按正态分布原理,计算公式为元土 %化 <7未知,死较小,按(分布原理计算::”未知,但死足够大(如n>100),按正态分布原理计算:总体均数置信区间的计算例 测得某地健康男子20人收缩压的均数为 118.4mmHg,标准差为10.8mmHg,试估计该地健 康男子收缩压总体均数的95%可信区间。本例v=20-l=19,査/值表得 4.05,19=2.093。代入公式得:X ± ta/2vs- =118.4&#

14、177; 2.093 X 10.8/720 = (113.3,123.5)该地健康男子收缩压总体均数的95 %可信区间 为 113.3 123.5mmHgo总体均数置信区间的计算例 测得某地150名正常人脉搏的均数为7353次/分, 标准差为1130次/分,试估计该地正常人脉搏总体均数的 95 %可信区间。本例/>100,可按正态分布原理近似计算:5- = s/= 092(次 / 分)95%C/:x ± Z°/2片=73.55 ±1.96x 0.92 = 71.74,75.36该地正常人脉搏总体均数的95%可信区间为 71.747536次/分。三、总体均数置

15、信区间的解释总体均数可信区间的计算和解释有两种理论依据,一是 是PearsonFisher、Neyman等人的经典理论,另一个 是Bayes理论。经典理论假定样本乞、工2、X”来自正态分布 其中以已知屛是一个客观存在的常数。对置信区间的解 释是:从总体中随机抽样,每个样本可以算得一个置信 区间,该置信区间包括总体均数(估计正确)的概率是1 心 Bayes理论则认为参数/是随机变量。对置信区间的解释 是:“有la的可能性落在该区间,或者说“在这个区间 内的概率是1皿。总体均数置信区间的估计参数估计时,一方面要控制发生错误的概率(a) , a 越小,估计的正确率就越高。另一方面,所定区间范围不能

16、过宽,否则就失去了实际意义,也就是估计的精确程度要高, 估计的区间范围越小,精密度就越高。正确性和精密性是相互矛盾的,提高了准确度,则精 密度必然下降;如果提高精密度,则准确度又将随之降低。因此,通常把发生错误的概率(a)定在适当的水平,如a=0.05,即总体参数不在该范的概率不超过5%,即95%置信区间。增大样本量可以在不影响正确性的情况下提高参数估 计的精密度。但并非样本量越大越好。总体均救的估计例92 某医师随机抽査了某地20名正常成人,测得血糖值 的均数为4.92mmol/L,标准差为0.48mmol/L,试估计该地 正常成人血糖值总体均数的95%和99%可信区间。本例:x = 4.9

17、2mmol/L , s = 0.48mmol/L , n = 20。今y=20 1=19,査/值表得/u 9=2.093/0 0119=2.861。95%可信区间为:4.92 ± 2.093 x 0.48/V20 = 4.92 ± 0.22 = 4.70 54(mmol/ L)99%可信区间为:4.92±2.861 x0.48/V20 = 4.92±0.31 = 4.61 5.23(mmoV L)总体均救的估计例9.3机抽查了某地120名正常成人,测得血糖值的均数为4.92mmol/L,标准差为0.48mmol/L,试估计该地正常成 人血糖值总体均数的95%和99%可信区间。本例:x = 4.92mmol/L , s = 0.48mmol/L , n = 120。 按正态分布原理近似计算:95%可信区间为:4.92 ± 1.96x0.48/7120 = 4.92 ± ().22 = 4.83 5.01 (mmol/ L)99%可信区间为:4.92±2.576x0.48/V120 = 4.92±0.31

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论