样本含量估计_第1页
样本含量估计_第2页
样本含量估计_第3页
样本含量估计_第4页
样本含量估计_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2022-7-81第十七章第十七章流行病与统计教研室2022-7-82第一节 样本含量估计的意义及应具备的条件 【例【例17-1】已知糖尿病患病率一般为】已知糖尿病患病率一般为2%3%,现拟采用单纯随机抽样方法从某社区抽取随机现拟采用单纯随机抽样方法从某社区抽取随机样本,以了解该社区人群中糖尿病患病率。该样本,以了解该社区人群中糖尿病患病率。该社区人口为社区人口为3000人,希望误差不超过人,希望误差不超过1%,取,取a=0.05,需调查多少人?,需调查多少人?2022-7-83一、样本含量估计的意义 样本含量(样本含量(sample size) 又称样本容量、样本例数,是指在抽样研究中,每个

2、又称样本容量、样本例数,是指在抽样研究中,每个样本所包含的观察单位的数量。样本所包含的观察单位的数量。 估计样本含量的意义估计样本含量的意义 是研究设计的重要内容之一,它是是研究设计的重要内容之一,它是研究设计中重复性研究设计中重复性原则的体现原则的体现,即各组的受试对象都应有一定的数量,即各组的受试对象都应有一定的数量,即每个组都有足够的重复数(样本量)。即每个组都有足够的重复数(样本量)。 在调查研究、临床观察或实验研究中,首先要考虑样在调查研究、临床观察或实验研究中,首先要考虑样本含量(或样本大小)的问题。本含量(或样本大小)的问题。2022-7-84 应注意克服两种倾向应注意克服两种倾

3、向 样本例数过大样本例数过大 增加实际工作中的困难,可能引入更多的混杂因素,增加实际工作中的困难,可能引入更多的混杂因素,不易控制研究的质量,不易控制研究的质量,影响研究结果的真实性和可影响研究结果的真实性和可靠性靠性,另外还会造成人力、物力和时间上不必要的,另外还会造成人力、物力和时间上不必要的浪费浪费 样本例数过少样本例数过少 致使抽样误差较大,所得指标不够稳定,检验效能致使抽样误差较大,所得指标不够稳定,检验效能低,容易得出低,容易得出假阴性假阴性的结果,影响结论的可靠程度的结果,影响结论的可靠程度2022-7-85 样本含量的估计是在保证研究结论具样本含量的估计是在保证研究结论具有一定

4、可靠性的条件下,有一定可靠性的条件下,确定最少的调查确定最少的调查单位或实验单位数单位或实验单位数。 2022-7-86二、样本含量估计应具备的条件 I型错误型错误a的概率或区间估计中的可信度的概率或区间估计中的可信度 型错误的概率型错误的概率 ,或检验效能,或检验效能 容许误差或差值容许误差或差值 ,即欲比较或估计的总,即欲比较或估计的总体参数与样本统计量之间或总体参数相差体参数与样本统计量之间或总体参数相差所容许的限度。所容许的限度。 总体平均数总体平均数 、总体率、总体率 或总体标准差或总体标准差 112022-7-87第二节第二节 调查设计常用样本含量估计方法调查设计常用样本含量估计方

5、法 一、单纯随机抽样的样本含量估计一、单纯随机抽样的样本含量估计 (一)(一) 估计总体均数的样本含量估计总体均数的样本含量 (二)(二) 估计总体率的样本含量估计总体率的样本含量 二、其它概率抽样方法的样本含量估计二、其它概率抽样方法的样本含量估计 (一)(一) 分层抽样所需样本含量估计分层抽样所需样本含量估计 (二)(二) 整群抽样所需样本含量估计整群抽样所需样本含量估计2022-7-88单纯随机抽样的样本含量估计 估计总体均数的样本含量估计总体均数的样本含量 公式:公式: 式中,式中,S 为总体标准差的估计值为总体标准差的估计值 为容许误差为容许误差 需要查需要查t界值表,可先用标准正态

6、分界值表,可先用标准正态分布中的布中的 代入,算出一个初步估计的代入,算出一个初步估计的n,再计,再计算初步的自由度算初步的自由度v,可查表得,可查表得 ,以此带入公,以此带入公式,可算得第二次估计的式,可算得第二次估计的n,如此迭代,直到稳,如此迭代,直到稳定为止。定为止。 2,stnvavat,azvat,2022-7-89若是从有限总体抽样,尚需进一步校正若是从有限总体抽样,尚需进一步校正 1cnnn N2022-7-810 【例【例17-2】 某研究者拟用抽样方法了解冠心病某研究者拟用抽样方法了解冠心病患者血清胆固醇的平均水平,希望误差不超过患者血清胆固醇的平均水平,希望误差不超过0.

7、2mmlo/L,根据文献,冠心病患者血清胆固,根据文献,冠心病患者血清胆固醇标准差约为醇标准差约为0.94mmol/L,如取,如取a=0.05,则需,则需调查多少人?调查多少人? 允许误差允许误差 =0.2 估计标准差估计标准差s=0.942,stnva2022-7-811 【估计步骤【估计步骤】 1. 先以先以 =1.96 代替代替 ,可得,可得 2. 以自由度以自由度 ,查,查t界值表得界值表得 双侧双侧 ,则,则 因此,本研究应调查因此,本研究应调查88例冠心病患者。例冠心病患者。21.960.94850.2n 1 85 1 84n 21.990.94880.2n vat,az99. 1

8、84,05. 0t2022-7-812第二节第二节 调查设计常用样本含量估计方法调查设计常用样本含量估计方法 一、单纯随机抽样的样本含量估计一、单纯随机抽样的样本含量估计 (一)(一) 估计总体均数的样本含量估计总体均数的样本含量 (二)(二) 估计总体率的样本含量估计总体率的样本含量 二、其它概率抽样方法的样本含量估计二、其它概率抽样方法的样本含量估计 (一)(一) 分层抽样所需样本含量估计分层抽样所需样本含量估计 (二)(二) 整群抽样所需样本含量估计整群抽样所需样本含量估计2022-7-813 估计总体率的样本含量估计总体率的样本含量 公式:20.05arcsin(1)znpp20.05

9、57.3arcsin(1)znpp(用弧度) (用度) 2022-7-814 当当趋向趋向0.5,且,且n 较大时,随机抽样所得的样较大时,随机抽样所得的样本率才趋向于正态分布或近似正态分布:本率才趋向于正态分布或近似正态分布: 2(1)znpp22(1)z ppn或 2022-7-815 【例【例 17-3】 某研究者欲了解某研究者欲了解20岁岁24岁妇女生岁妇女生育率,希望误差不超过育率,希望误差不超过2%,a取取0.05,问需调查,问需调查多少人?多少人? 本例未给出本例未给出20岁岁24岁妇女生育率岁妇女生育率的估计值,的估计值,可取可取p=0.5 21.9624000.02arcsi

10、n0.5(10.5)n2022-7-816 若根据文献知若根据文献知20岁岁24岁妇女生育率为岁妇女生育率为5%25%,则,则p可取其中较接近可取其中较接近0.5的值,即的值,即25 21.9618000.02arcsin0.25(10.25)n2(1)znpp22(1)zppn2022-7-817 【例【例17-1】已知糖尿病患病率一般为】已知糖尿病患病率一般为2%3%,现拟采用单纯随机抽样方法从某社区抽取随机样现拟采用单纯随机抽样方法从某社区抽取随机样本,以了解该社区人群中糖尿病患病率。该社区本,以了解该社区人群中糖尿病患病率。该社区人口为人口为3000人,希望误差不超过人,希望误差不超过

11、1%,取,取a=0.05,需调查多少人?需调查多少人?1117)03. 01 (03. 001. 0arcsin(96. 12n8143000/111711117/1Nnnnc2022-7-818第二节第二节 调查设计常用样本含量估计方法调查设计常用样本含量估计方法 一、单纯随机抽样的样本含量估计一、单纯随机抽样的样本含量估计 (一)(一) 估计总体均数的样本含量估计总体均数的样本含量 (二)(二) 估计总体率的样本含量估计总体率的样本含量 二、其它概率抽样方法的样本含量估计二、其它概率抽样方法的样本含量估计 (一)(一) 分层抽样所需样本含量估计分层抽样所需样本含量估计 (二)(二) 整群抽

12、样所需样本含量估计整群抽样所需样本含量估计2022-7-819 分层抽样所需样本含量估计分层抽样所需样本含量估计 按比例分配按比例分配 是按各层观察单位数是按各层观察单位数 占总体观察单位数占总体观察单位数N的的比例抽取样本,比例抽取样本,使各层样本含量使各层样本含量 与总样本含与总样本含量量n 之比等于各层观察单位数之比等于各层观察单位数 与总体观察单与总体观察单位数位数N 之比之比,可按下式计算:可按下式计算: iNiniNiiinNWnNiiiNnnnNNN2022-7-8202022-7-821 最优分配最优分配 是按总体各层观察单位数是按总体各层观察单位数 的多少和标准差的多少和标准

13、差 (或各层率(或各层率 )大小来分配各层的观察单位数)大小来分配各层的观察单位数 iNiiiiiiiNnnN11iiiiiiiNnnN(均数的抽样) (率的抽样) 2022-7-8222022-7-823第二节第二节 调查设计常用样本含量估计方法调查设计常用样本含量估计方法 一、单纯随机抽样的样本含量估计一、单纯随机抽样的样本含量估计 (一)(一) 估计总体均数的样本含量估计总体均数的样本含量 (二)(二) 估计总体率的样本含量估计总体率的样本含量 二、其它概率抽样方法的样本含量估计二、其它概率抽样方法的样本含量估计 (一)(一) 分层抽样所需样本含量估计分层抽样所需样本含量估计 (二)(二

14、) 整群抽样所需样本含量估计整群抽样所需样本含量估计2022-7-824 整群抽样估计总体率的样本含量估计整群抽样估计总体率的样本含量估计 公式: 有限总体需校正:222022()(1)iiymppkzkm)1 (001Kkkk无限总体应调无限总体应调查的群体数查的群体数预调查的群体数预调查的群体数预调查的群体中第预调查的群体中第i群调查人数群调查人数预调查的群体中第预调查的群体中第i群群某事件的发生频率某事件的发生频率群的平均调查人数群的平均调查人数平均发生频率平均发生频率2022-7-825 【例【例 17-5】为了解某市】为了解某市40岁以上人群高血压患病岁以上人群高血压患病率,拟对全市

15、率,拟对全市55个街区采用整群抽样调查,随机个街区采用整群抽样调查,随机预调查了预调查了2个街区,第一街区调查了个街区,第一街区调查了4180人,高血人,高血压病人压病人1060人,患病率为人,患病率为0.2536;第二街区调查了;第二街区调查了4970人,高血压病人人,高血压病人720人,患病率为人,患病率为0.1449,问,问需要调查几个街区?(需要调查几个街区?( , )0.050.10,0.104180497024575m 2yk 55K 1060 7204180 49700.1945p,96. 105. 0z2536. 01p1449. 02p2022-7-826 因为该市为有限总体

16、,因为该市为有限总体,K=55 需抽样调查需抽样调查3个街区。个街区。324. 21 . 04575121945. 01449. 049701945. 02536. 0418296. 122222220k133 (1)2.84 355k 2022-7-827 概率抽样方法不同,样本含量的估计方法不同概率抽样方法不同,样本含量的估计方法不同 单纯随机抽样、整群抽样和分层抽样的样本单纯随机抽样、整群抽样和分层抽样的样本含量估计都有专用公式含量估计都有专用公式 系统抽样,因抽样间隔不同,其抽样误差也系统抽样,因抽样间隔不同,其抽样误差也不同,故系统抽样尚无统一的方法估计样本不同,故系统抽样尚无统一的

17、方法估计样本含量含量2022-7-828 一、定量资料的样本含量估计一、定量资料的样本含量估计 (一)样本均数与总体均数比较所需样本含量的估计(一)样本均数与总体均数比较所需样本含量的估计 (二)完全随机设计两样本均数比较样本含量估计(二)完全随机设计两样本均数比较样本含量估计 (三)配对设计均数比较时所需样本含量估计(三)配对设计均数比较时所需样本含量估计 (四)完全随机设计多组均数比较所需样本含量估计(四)完全随机设计多组均数比较所需样本含量估计 (五)随机区组设计均数比较时所需样本含量估计(五)随机区组设计均数比较时所需样本含量估计第三节 实验设计样本含量估计方法2022-7-829 样

18、本均数与总体均数比较样本含量的估计样本均数与总体均数比较样本含量的估计 公式:公式: 式中,式中, 和和 分别是分别是I 型和型和II 型错误的概率;型错误的概率; 估计的估计的标准差;标准差; 和和 为为 t 界值界值 无效假设和备选假设间的差距无效假设和备选假设间的差距 如无效假设为如无效假设为H0: ,H1: 则则 S0001012,sttn,t,t2022-7-830 【例【例 17-6】 已知健康妇女血清胆固醇平均水平已知健康妇女血清胆固醇平均水平为为4.4mmol/L,现欲研究服用类固醇类避孕药,现欲研究服用类固醇类避孕药对血清胆固醇水平的影响(双侧,即不知升高对血清胆固醇水平的影

19、响(双侧,即不知升高还是降低)。改变值还是降低)。改变值0.2 mmol/L时作为无改变,时作为无改变,改变值改变值1.0mmol/L时作为有改变,时作为有改变, ,问需研究多少人?,问需研究多少人? 0.85S 0.050.102022-7-831 估计步骤估计步骤 用用 和和 估计估计 和和 10=1.0-0.2=0.8 221.96 1.2820.85120.8zzSn ()(),t,tzz1 11n 查t 界值表,得双侧单侧 201. 211,05. 0t363. 111, 1 . 0t22.2011.3630.85140.8n ()2022-7-832 一、定量资料的样本含量估计一、

20、定量资料的样本含量估计 (一)样本均数与总体均数比较所需样本含量的估计(一)样本均数与总体均数比较所需样本含量的估计 (二)完全随机设计两样本均数比较样本含量估计(二)完全随机设计两样本均数比较样本含量估计 (三)配对设计均数比较时所需样本含量估计(三)配对设计均数比较时所需样本含量估计 (四)完全随机设计多组均数比较所需样本含量估计(四)完全随机设计多组均数比较所需样本含量估计 (五)随机区组设计均数比较时所需样本含量估计(五)随机区组设计均数比较时所需样本含量估计2022-7-833 完全随机设计两样本均数比较所需样本含完全随机设计两样本均数比较所需样本含量的估计量的估计 两样本例数相等时

21、:两样本例数相等时: 两样本例数不相等时:两样本例数不相等时:2,212sttnn12112,QQsttn2022-7-834 【例【例 17-8】为研究】为研究A、B两种处理对血流量的两种处理对血流量的影响,已知动物实验时,影响,已知动物实验时,A处理使血流量平均处理使血流量平均增加增加1.8ml/min,B处理平均增加处理平均增加2.5ml/min,两,两处理的标准差均为处理的标准差均为1.1ml/min,规定双侧,规定双侧 ,试估计各组的样本含量。,试估计各组的样本含量。0.0510. 0 2022-7-835 估计步骤 用 和 估计 和 ,t,tzz查t 界值表,得双侧单侧 009.

22、251,05. 0t299. 151,10. 0t1.1S 2.5 1.80.70.050.102121.9601.2821.12520.7nn2122.009 1.2991.12540.7nn51152v2022-7-836 若规定样本分配比为若规定样本分配比为 即即A组样本含量为组样本含量为37,B组样本含量为组样本含量为87。 若要求相同的检验效能,在两组例数相等时所需若要求相同的检验效能,在两组例数相等时所需样本含量较少,因此在进行研究设计时,最好取样本含量较少,因此在进行研究设计时,最好取两样本例数相等。两样本例数相等。10.3Q 20.7Q 2111.96 1.282 1.1 (0

23、.30.7 )1240.7n1240.3371240.7872022-7-837 一、定量资料的样本含量估计一、定量资料的样本含量估计 (一)样本均数与总体均数比较所需样本含量的估计(一)样本均数与总体均数比较所需样本含量的估计 (二)完全随机设计两样本均数比较样本含量估计(二)完全随机设计两样本均数比较样本含量估计 (三)配对设计均数比较时所需样本含量估计(三)配对设计均数比较时所需样本含量估计 (四)完全随机设计多组均数比较所需样本含量估计(四)完全随机设计多组均数比较所需样本含量估计 (五)随机区组设计均数比较时所需样本含量估计(五)随机区组设计均数比较时所需样本含量估计2022-7-8

24、38 配对设计均数比较时所需样本含量估计配对设计均数比较时所需样本含量估计 公式:公式: 式中,式中, 、 分别是检验水准分别是检验水准a 和犯和犯型错误型错误的概率的概率对应的对应的 t 值;值;sd 为每对观察对象差值的总为每对观察对象差值的总体标准差的估计值;体标准差的估计值; 为研究者确定的差值,即为研究者确定的差值,即 ;n 为所需样本含量的对子数。为所需样本含量的对子数。 2,dsttn,t,t10d2022-7-839 【例【例 17-9】研究新药提升白细胞的疗效,由预】研究新药提升白细胞的疗效,由预试验得出用药前后白细胞试验得出用药前后白细胞差值的标准差差值的标准差为为1.51

25、03个个/mm3,当白细胞平均上升,当白细胞平均上升1103个个/mm3时认为临床有效,单侧时认为临床有效,单侧 临床试验需要多少人?临床试验需要多少人? 15 . 1S0.050.100.051.645z0.101.282z21.645 1.2821.5201n0.050.10单侧单侧2022-7-840 以 查t 界值表, 即本研究需要21对(因为本研究是自身配对设计,所以为21人)参与试验。 20 1 19 0.05, 191.729t0.10, 191.328t21.7291.3281.5211n 2022-7-841 一、定量资料的样本含量估计一、定量资料的样本含量估计 (一)样本均

26、数与总体均数比较所需样本含量的估计 (二)完全随机设计两样本均数比较样本含量估计 (三)配对设计均数比较时所需样本含量估计 (四)完全随机设计多组均数比较所需样本含量估计 (五)随机区组设计均数比较时所需样本含量估计2022-7-842 完全随机设计多组均数比较样本含量估计完全随机设计多组均数比较样本含量估计 公式: 式中,k为组数; 为各组的均数, ; 为各组的标准差; 为界值,由附表22查得。计算时先用自由度 时的 代入式中求 ,再用 时的 代入式中求 ,如此往复,直至结果趋于稳定为止。 222 1iiSknxxkixixx k11k2 n11kiSn) 1(2nkv2022-7-843

27、一、定量资料的样本含量估计一、定量资料的样本含量估计 (一)样本均数与总体均数比较所需样本含量的估计 (二)完全随机设计两样本均数比较样本含量估计 (三)配对设计均数比较时所需样本含量估计 (四)完全随机设计多组均数比较所需样本含量估计 (五)随机区组设计均数比较时所需样本含量估计 2022-7-844 二、定性资料的样本含量估计二、定性资料的样本含量估计 (一)样本率与已知总体率比较样本含量估计 (二)两样本率比较时所需样本含量估计 (三)多个样本率比较时所需的样本大小2022-7-845 样本率与已知总体率比较时样本含量估计样本率与已知总体率比较时样本含量估计 公式: 式中, 为已知总体率

28、; 为预期试验结果的总体率, 为预期试验结果的总体率与已知总体率的差值,即 此公式适合大样本的研究。 200 (1) zzn01102022-7-846 【例【例 17-12】 用传统方法治疗运动性胫骨结节骨骺损伤的有效率约为 85% ,现采用小钢针做胫骨结节骨骺穿刺,加上物理治疗方法,估计有效率为 95% ,现欲比较新疗法的有效率是否高于传统疗法,选定a=0.05(单侧),=0.1则至少观察多少病例? 估计步骤: 本例00.8510.950.950.850.100.051.645z0.101.282z2022-7-847 本试验需至少观察110个病例 21.645 1.2820.85 1 0

29、.85 1100.10n 200 (1) zzn2022-7-848 二、定性资料的样本含量估计二、定性资料的样本含量估计 (一)样本率与已知总体率比较样本含量估计 (二)两样本率比较时所需样本含量估计 (三)多个样本率比较时所需的样本大小2022-7-849 两样本率比较时所需样本含量估计两样本率比较时所需样本含量估计 两样本含量相等时 两样本含量不相等时 21211121 2sinsinzznnpp211111211122212(1)()(1)(1) zpp QQzpp Qpp Qnpp2022-7-850 二、定性资料的样本含量估计二、定性资料的样本含量估计 (一)样本率与已知总体率比较

30、样本含量估计 (二)两样本率比较时所需样本含量估计 (三)多个样本率比较时所需的样本大小2022-7-851 多个样本率比较时所需的样本含量多个样本率比较时所需的样本含量 公式: 式中,n为每组样本含量;Pmax、Pmin分别为最大率与最小率;为自由度 时的界值;k为组数。按给定的a、可从附表25查到。211maxmin22sin2sinnpp1k2022-7-852 检验效能的意义检验效能的意义 检验效能检验效能 又称假设检验的功效(又称假设检验的功效(power of a test),用),用1-表示表示 意义意义 当所研究的总体确有差别时,按照检验水准当所研究的总体确有差别时,按照检验水

31、准a能够发现能够发现这种差别(拒绝这种差别(拒绝H0)的能力。)的能力。 影响要素影响要素 样本含量、客观事物差异大小、个体间变异大小和样本含量、客观事物差异大小、个体间变异大小和a值值 增大检验效能(增大增大检验效能(增大1- ) 一是增大一是增大a,二是增大样本含量。,二是增大样本含量。第四节 检验效能的估计2022-7-853 当假设检验根据当假设检验根据P0.05作出无统计学意义的作出无统计学意义的结论时,研究者则面临着犯结论时,研究者则面临着犯II型错误的可能型错误的可能性,应当考虑是否总体间的差异确实存在,性,应当考虑是否总体间的差异确实存在,但由于但由于检验效能检验效能不足而未能把该差异反映出不足而未能把该差异反映出来来。(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论