版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第十五章第十五章总体特征抽样调查的总体特征抽样调查的设计与分析设计与分析主要内容主要内容单纯随机抽样单纯随机抽样系统抽样系统抽样分层随机抽样分层随机抽样第一节第一节 单纯随机抽样单纯随机抽样例例15-1 某地区共有250名社区医生,一个研究组从名单中随机抽取90名进行调查,发现他们一个月内家访平均次数为4.89,标准差为3.48;其中有40位是医科大学毕业。试估计当地一个月内平均每位社区医生的家访平均次数、全体社区医生的家访总次数以及社区医生中大学毕业者所占的百分比。 单纯随机抽样单纯随机抽样 单纯随机抽样(simple random sampling)。 一个月内平均每位社区医生家访的平均次
2、数约为4.89 全体社区医生家访的总次数约为4.89250=1222.5 社区医生中大学毕业者所占的百分比约为(40/90)100%=44.4% 单纯随机抽样单纯随机抽样 连续型变量总体均数的估计连续型变量总体均数的估计 无限总体(infinite population) 从正态分布总体 ,则样本均数的标准误为总体均数 u 的可信区间),(2Nnsxx)SE(/2,1SE()nXtX/2SE()XZX单纯随机抽样单纯随机抽样 有限总体(finite population) 样本均数的标准误: 可信区间: /2,1SE()nXtXnsNnxx1)SE(/2SE()XZX有限总体校正因子抽样频率单
3、纯随机抽样单纯随机抽样例15-1 :总体均数u的95%置信区间: 2935. 09048. 3250901)SE(x)47. 5,31. 4()2935. 0(96. 189. 4单纯随机抽样单纯随机抽样总体中所有X值之和的置信区间可以用u的置信区间乘以N倍来估计,即全体社区医生一个月内家访总次数的95%置信区间 : /2 , 1SE()nN XtX)5 .1367,5 .1077()47. 5,31. 4(250单纯随机抽样单纯随机抽样 0-1变量总体概率的估计变量总体概率的估计 二项分布无限总体: 已知在含有n个个体的独立随机样本中,有y个个体具有某种特定属性,则该属性的样本频率样本频率变
4、异性的标准误 : nyp nppnppp)1 (1)1 ()SE(单纯随机抽样单纯随机抽样有限总体 :总体概率的置信区间 :1)1 (1)SE(nppNnp)SE(2/pZp单纯随机抽样单纯随机抽样 例15-1:当地全体社区医生一个月内家访的总次数约介于1077.5和 1367.5之间,平均每位社区医生家访的平均次数约介于4.31和5.47之间;而社区医生中,大学毕业者所占的百分比则约介于36.2%和52.6%之间。 9040nyp042. 0190)90/401)(90/40(2509011)1 (1)SE(nppNnp)527. 0,362. 0()042. 0(96. 19040单纯随机
5、抽样单纯随机抽样 样本量的估算样本量的估算 样本量估算的依据样本量估算的依据样本量的信息:1总体中个体的变异程度 如果个体间变异程度小,则所需样本量也较少;通常用变异系数V来反映个体间变异。2精度 通常用最大的相对误差反映精度的要求,是最终估计范围的半宽度与真值之比。精度要求越高,样本含量就越大。3置信程度 即置信水平反映置信程度。置信程度越高要求的样本含量也越大。 单纯随机抽样单纯随机抽样 连续型变量总体均数估计的样本量连续型变量总体均数估计的样本量需准备如下信息:1变异系数V 即总体标准差与总体均数之比 2相对误差 由研究者根据问题的背景自行规定。3置信水平 也由研究者根据问题的背景自行规
6、定。通常取90%,95%,99%。如果取99.7%,理论上认为这时的置信区间基本上覆盖真值,所以称之为“实质上肯定”(virtual certainty)的水平,此时标准正态分布的临界值 V32/003. 0Z单纯随机抽样单纯随机抽样 最小样本量的公式为 续例15-1,将已获得的90名社区医生的资料视为预调查 22/VZn712. 089. 448. 3V492 . 0)712. 0(96. 12n单纯随机抽样单纯随机抽样 关于社区医生家访次数的估计,欲使相对误差不超过20%,而保持置信水平为95%,至少需要调查49名社区医生。比由此,为了估计平均家访次数,预调查90名社区医生的资料已经足够了
7、。还少?需要说明的是,如果算出的最小样本量n超过了总体内个体数N,则最小样本量就应该是N,即需要作全数调查。单纯随机抽样单纯随机抽样 0-1变量总体概率估计的样本量 事先需知(1)总体概率的猜测值P 可以通过预调查的资料来粗略估计。(2)相对误差 由研究者根据问题的背景自行规定。(3)置信水平 也由研究者根据问题的背景自行规定 概率的变异系数的计算公式为最小样本量的公式为关于社区医生中大学毕业者所占百分比的估计,欲使相对误差不超过20%,而保持置信水平95%,至少需要调查121名社区医生。PppV)1 ( PPZn222/)1 (12105.120)90/40()2 . 0()90/401 (
8、)96. 1 (22n系统抽样系统抽样 系统抽样需要事先为总体中的个体编号。 如果欲调查的变量值或特定的属性与编号之间没有确定的上升、下降或周期性关系,这时可以按单纯随机抽样的办法来估计参数和估算样本量。 如果个体的编号不具有随机性,就应考虑采用其它的抽样设计和相应的统计方法。第二节第二节 分层随机抽样分层随机抽样例例15-2 欲抽样调查某医院病人的药费开支和自费病人所占频率。决定将病人分为内科、外科、妇科、儿科和其他5个“层”;将每一层视为一个小总体,在每一层内作随机抽样 。 已知一天内5个层的门诊人次数分别:N1=2800,N2=900,N3=700,N4=400,N5=200, 总的人次
9、数n=5000,总的样本数n=1000,抽样的比例为n/N=0.2。于是,5个“层”中抽出的样本量分别:n1=560,n2=180,n3=140,n4=80,n5=40。 按单纯随机抽样的计算方法,得到各个层内每人次门诊药费开支(元)的样本均数分别 样本方差分别为 各个层内完全自费者的频率分别为 3501x1502x2803x2104x1205x1000021s250022s640023s360024s160025s%301p%502p%403p%404p%205p分层随机抽样分层随机抽样 分层随机抽样(stratified random sampling)。此时可简单估计该医院病人平均每人次
10、门诊的药费开支(元)约为 门诊病人中完全自费者所占频率约为 点估计,需要进行区间估计,其关键仍是估计标准误 8 .2835000141900020040070090028002001204002107002809001502800350%4 .3550001770200400700900280020020. 040040. 070040. 090050. 0280030. 0分层随机抽样分层随机抽样连续型变量总体均数的估计连续型变量总体均数的估计各层的抽样比例相等各层的抽样比例相等总样本量按比例分配(proportional allocation)到各层,权重为层的相对大小 NnNnhhNNW
11、hhNNnnWnhhh分层随机抽样分层随机抽样 总的样本均数:上述点估计就是以各层的相对大小为权重, 将各层的样本均数作加权平均,以求得总的样本均数 样本均数的方差 自由度=n-L LhhhxWx122SE()1hhhhhnsXNnLhhWx12h2)xSE()SE(分层随机抽样分层随机抽样 各层的相对大小为 总体均数的估计 56. 0500028001W18. 050009002W14. 050007003W08. 050004004W04. 050002005W8 .283)120(04. 0)210(08. 0)280(14. 0)150(18. 0)350(56. 01LhhhxWx分
12、层随机抽样分层随机抽样 计算各层样本均数的方差 总样本均数的方差为 2857.145601000028005601)SE(21x1111.1118025009001801)SE(22x5714.3614064007001401)SE(23x36803600400801)SE(24x32401600200401)SE(25x28.19)32(04. 0)36(08. 0)5714.36(14. 0)1111.11(18. 0)2857.14(56. 0)SE(2x分层随机抽样分层随机抽样 标准误 总体均数的95%置信区间 该医院一天中门诊病人药费总和的95%置信区间 该医院一天中门诊病人的总药费
13、介于1376000和1462000元之间 39. 4)SE(x)4 .292,2 .275()39. 4(96. 18 .283)1462000,1376000()4 .292,2 .275(5000分层随机抽样分层随机抽样0-1变量总体概率的估计变量总体概率的估计总的样本频率:总的样本频率:将各层的样本频率作加权平均,将各层的样本频率作加权平均,可以求得总的样本频率可以求得总的样本频率 样本频率的方差 LhhhpWp11)1 (1)SE(2hhhhhhnppNnpLhhpWp12h2)SE()SE(分层随机抽样分层随机抽样 总体概率的估计当样本量相当大时,总体概率的置信区间:例15-2 ,总
14、的样本频率为 )SE(2/pZp%4 .35)2 . 0(04. 0)4 . 0(08. 0)4 . 0(14. 0)5 . 0(18. 0)3 . 0(56. 01LhhhpWp分层随机抽样分层随机抽样 各层内样本频率的方差: 总频率的方差: 总频率的标准误 0003. 01560)3 . 01 (3 . 028005601)SE(21p0011. 01180)5 . 01 (5 . 09001801)SE(22p0014. 01140)4 . 01 (4 . 07001401)SE(23p0024. 0180)4 . 01 (4 . 0400801)SE(24p0033. 0140)2 .
15、 01 (2 . 0200401)SE(25p000886. 0)0033(.04. 0)0024(.08. 0)0014(.14. 0)0011(.18. 0)0003(.56. 0)SE(2p0298. 0)SE(p分层随机抽样分层随机抽样 总体概率的95%置信区间 该医院门诊病人中完全自费的比例介于29.6%和41.2%之间 )412. 0,296. 0()0298. 0(96. 1354. 0分层随机抽样分层随机抽样样本量的估算样本量的估算例15-3 某社区卫生站成立之初计划调查本辖区一年内平均每人去医院门诊看病的次数。拟按年龄分成30岁以下、30-44岁、45-59岁和60岁以上4个
16、“层”,按比例抽样。已知4个年龄层的人口数分别为n1=5000,n2=5000,n3=6000,n4=4000。 4个年龄层一年内平均每人去医院门诊看病的次数分别为0.8, 0.5, 0.4和1.1;同年龄层内的方差分别为0.65, 0. 49, 0.16和1.14。此项调查要求相对误差不超过20%,置信水平达到95%。试估算样本量。 分层随机抽样分层随机抽样 连续型变量总体均数估计的样本量 类似于单纯随机抽样,事先需准备如下信息变异系数变异系数:相对误差相对误差 置信水平置信水平 wxV 分层随机抽样分层随机抽样 最小样本量的公式例15-3,根据以往资料,4个年龄层的均数和方差的加权平均分别
17、 22/VZn665. 020000) 1 . 1 (4000)4 . 0(6000)5 . 0(5000)8 . 0(5000561. 020000)14. 1 (4000)16. 0(6000)49. 0(5000)65. 0(50002wx2786. 1)665. 0(561. 0222wxV分层随机抽样分层随机抽样 最小样本量为 按比例分到4个年龄层 4个年龄层的样本量分别为31, 31, 37和25 1238.122)20.0()2786.1()96.1(22n3175.302000050001231n3175.302000050001232n379 .362000060001233
18、n256 .242000040001234n分层随机抽样分层随机抽样 0-1变量总体概率估计的样本量例例15-4 为调查某小学的学生中无麻疹免疫力者的概率,决定按年级作分层随机抽样。已知该校共有学生N=1325人,6个年级的学生总数分别为n1=290,n2=210,n3=230,n4=184,n5=193,n6=218。据当地另一所学校报告的资料,6个年级无麻疹免疫力者的频率分别为p1=0.042,p2=0.035,p3=0.072,p4=0.178,p5=0.195,p6=0.188。要求相对误差不超过20%,置信水平达到95%。试估算各年级需抽取的人数。分层随机抽样分层随机抽样单纯随机抽样,事先需准备如下信息: 总体概率的猜测值总体概率的猜测值P 相对误差相对误差 置信水平置信水平 最小样本量的计算同公式 PPZn222/)1 (分层随机抽样分层
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论