抽样与参数估计实用教案_第1页
抽样与参数估计实用教案_第2页
抽样与参数估计实用教案_第3页
抽样与参数估计实用教案_第4页
抽样与参数估计实用教案_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1.1.简单随机抽样简单随机抽样(chu yn)(Simple Random (chu yn)(Simple Random Sampling)Sampling) 一般地,设一个总体含有一般地,设一个总体含有N N个个体,从中逐个不放个个体,从中逐个不放回地抽取回地抽取n n个个体作为样本个个体作为样本(nN),(nN),如果每次抽取时总如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样体内的各个个体被抽到的机会都相等,就把这种抽样(chu yn)(chu yn)方法叫做简单随机抽样方法叫做简单随机抽样(chu yn)(chu yn)。假设要对某食品店内的一批小包装饼干进行卫生达标假

2、设要对某食品店内的一批小包装饼干进行卫生达标检验,我们只能从中抽取一定数量的饼干作为检验的检验,我们只能从中抽取一定数量的饼干作为检验的样本。样本。得到样本饼干的一个方法是,将这批小包装饼干放入得到样本饼干的一个方法是,将这批小包装饼干放入一个不透明的袋子中,搅拌均匀,然后不放回地摸取一个不透明的袋子中,搅拌均匀,然后不放回地摸取( (这样可以保证每一袋饼干被抽中的机会相等这样可以保证每一袋饼干被抽中的机会相等) ),这样,这样我们就可以得到一个简单随机样本。我们就可以得到一个简单随机样本。抽签法抽签法( (抓阄法抓阄法):):例如,高一(例如,高一(2 2)班有)班有4545名学生,现要从中

3、抽出名学生,现要从中抽出8 8名名学生去参加一个座谈会,每名学生的机会相等。学生去参加一个座谈会,每名学生的机会相等。我们可以把我们可以把4545名学生的学号写在小纸片上,揉成小名学生的学号写在小纸片上,揉成小球,放到一个不透明袋子中,充分搅拌后,再从中球,放到一个不透明袋子中,充分搅拌后,再从中逐个抽出逐个抽出8 8个号签,从而抽出个号签,从而抽出8 8名参加座谈会的学生。名参加座谈会的学生。第1页/共31页第一页,共32页。2. 分层抽样法(类型抽样:Stratified Sampling) 一般地,在抽样时,将总体分成互不交叉( jioch)的层,然后按照一定的比例,从各层独立地抽取一定

4、数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样法假设某地区有高中生假设某地区有高中生24002400人,初中生人,初中生10 90010 900人,小人,小学生学生11 00011 000人此地区教育部门为了了解本地区中人此地区教育部门为了了解本地区中小学生的近视情况及形成原因,要从本地区中小学小学生的近视情况及形成原因,要从本地区中小学生中抽取的学生进行调查生中抽取的学生进行调查由于样本容量与总体的个体数的比是由于样本容量与总体的个体数的比是1:100, 1:100, 因此因此, ,样样本中包含的各部分的个体数应该是本中包含的各部分的个体数应该是2 400/100

5、10 900/100 11 000/1002 400/100 10 900/100 11 000/100即抽取即抽取2424名高中生,名高中生,109109名初中生和名初中生和110110名小学生作名小学生作为样本为样本第2页/共31页第二页,共32页。3. 等距抽样(系统抽样: Systematic Sampling)等距抽样是在总体中每隔一定距离选取一个(y )样本,即从数量为的总体中每隔k个单位就选取一个(y )样本,若需选择n个样本,则取k=N/n, k的值需取整(如遇到N/n不是整数的情况,可以先从总体中随机地剔除几个个体,使得总体中剩余的个体数能被样本容量整除)某学校为了了解高一年

6、级学生对教师教学的意见,打某学校为了了解高一年级学生对教师教学的意见,打算从高一年级算从高一年级500500名学生中抽取名学生中抽取5050名进行调查名进行调查首先将这首先将这500500名学生从名学生从1 1开始进行编号,然后按号码开始进行编号,然后按号码顺序以一定的间隔进行抽取由于顺序以一定的间隔进行抽取由于500/50=10,500/50=10,这个间这个间隔可以定为隔可以定为10,10,即从号码为即从号码为1 11010的第一间隔中随机地的第一间隔中随机地抽取一个号码,假如抽到抽取一个号码,假如抽到6 6号,然后从第号,然后从第6 6号开始,每号开始,每隔隔1010个号码抽取一个,得到

7、个号码抽取一个,得到 6, 16, 26, 36,4966, 16, 26, 36,496这样我们就得到一个容量为这样我们就得到一个容量为5050的样本的样本第3页/共31页第三页,共32页。4. 整群抽样(chu yn)(Cluster Sampling) 整群抽样(chu yn)就是从总体中成群成组地抽取调查单位,而不是一个一个地抽取调查单位。整群抽样(chu yn)与分层抽样(chu yn)有相似之处,即它们的第一步都是根据某种标准将总体划分为一些子群。分层抽样(chu yn)是在所有子群中均要抽取样本,作为总体样本的一部分。而整群抽样(chu yn)则不然,它是抽取若干子群并将抽出的子

8、群中全部个体作为样本,因此总体样本只分布在几个群中。某大学共有某大学共有100个班级,每班个班级,每班30人,共人,共3000人。人。现要抽现要抽300人作为样本,就可以采取随机的办法人作为样本,就可以采取随机的办法抽抽10个班。个班。整群抽样的优点是可以(ky)简化抽样的过程;降低收集资料的费用;扩大抽样的应用。其缺点是样本分布不均匀,样本的代表性较差。第4页/共31页第四页,共32页。5. 方便抽样(Convenience Sampling) 方便抽样又称为就近(jijn)抽样、偶遇抽样和自然抽样,它是一种非概率抽样方法。方便抽样是指调查者根据现实情况,以自己方便的形式抽取偶然遇到的人作为

9、调查对象,或者仅仅选择那些离得最近的、最容易找到的人作为调查对象。为了调查某市的交通情况,研究者到离他最近的公共汽为了调查某市的交通情况,研究者到离他最近的公共汽车站,把当时正在那里等车的人选作调查对象。车站,把当时正在那里等车的人选作调查对象。 在图书馆阅览室对当时正在阅读的读者进行调查在图书馆阅览室对当时正在阅读的读者进行调查 。第5页/共31页第五页,共32页。6. 判断抽样(Judgment Sampling)判断抽样又称为主观抽样和立意抽样,它是一种非概率抽样方法。判断抽样是根据合理的判断而得到具有代表性的样本的一种抽样方法。如果判断正确,使用(shyng)判断抽样既节约时间又节省成

10、本,但 通常就一个判断而言,有时出现判断错误是不可避免的。某记者可以抽取他认为能够代表所有参议员观点某记者可以抽取他认为能够代表所有参议员观点的两名或三名参议员进行调查。的两名或三名参议员进行调查。第6页/共31页第六页,共32页。7. 定额抽样(配额抽样:Quota Sampling)定额抽样是一种非概率抽样方法。 定额抽样与分层抽样相似,也是按调查对象的某种属性或 特征将总体中所有(suyu)个体分成若干类或层,然后在各层中抽 样,样本中各层(类)所占比例与他们在总体中所占比例 一样。定额抽样的目的在于要抽选出一个总体的“模拟物” 。 某高校有某高校有2000名学生,其中男生占名学生,其中

11、男生占60,女生占,女生占40;文科学生和理科学生各占文科学生和理科学生各占50;一年级学生占;一年级学生占40,二,二年级、三年级、四年级学生分别占年级、三年级、四年级学生分别占30、20和和10。现要用定额抽样方法依上述三个变量抽取一个规模为现要用定额抽样方法依上述三个变量抽取一个规模为100人的样本。可得定额表如下:人的样本。可得定额表如下: 男生(男生(60) 女生(女生(40) 文科(文科(30) 理科(理科(30) 文科(文科(20) 理科(理科(20)年级年级 一一 二二 三三 四四 一一 二二 三三 四四 一一 二二 三三 四四 一一 二二 三三 四四人数人数 12 9 6 3

12、 12 9 6 3 8 6 4 2 8 6 4 2第7页/共31页第七页,共32页。8. 滚雪球抽样(Snowball Sampling) 滚雪球抽样是一种非概率抽样方法。 在无法了解总体情况时,可以从总体中的少数成员入手,对他们进行调查(dio ch),向他们询问还知道哪些符合条件的人;再去找那些人并询问他们知道的人。如同滚雪球一样,我们可以找到越来越多具有相同性质的群体成员。这样的抽样方法就是滚雪球抽样方法。要研究退休老人的生活,可以清晨到公园去结识几位散步要研究退休老人的生活,可以清晨到公园去结识几位散步老人,再通过他们结识其朋友,不用很久,你就可以交上老人,再通过他们结识其朋友,不用很

13、久,你就可以交上一大批老年朋友一大批老年朋友 。第8页/共31页第八页,共32页。二抽样分布与参数估计1. 正态分布与总体均值的区间估计 (1) 正态分布设连续型随机变量的概率密度为其中,0为常数(chngsh),则称服从参数为,的正态分布或高斯(Gauss)分布,记为(,2).当=0, =1时,为标准正态分布,记作(0,1). 从经验和理论的研究告诉我们,在实践中遇到的随机变量,有许多是服从或近似地服从正态分布律,f(X) =21e- (x-)2 22 x +第9页/共31页第九页,共32页。正态分布的密度函数f(x)的曲线简称为正态曲线下图给出条正态曲线,它们的都等于零,但却具有不同的值从

14、图可以看出,正态曲线具有下述性质:1) 曲线是位于横轴的上方,以直线x=为对称轴,它向左 右对称地无穷伸延,并且以横轴为渐进(jinjn)线当x=时曲线处于最高点,当x向左右远离时,曲线逐渐降低,整条曲线呈现“中间高,两边低”的形状参数决定了正态曲线的形状特点第10页/共31页第十页,共32页。 (2) 中心极限定理 设从均值为,方差为2的一个服从任意分布的总体中,抽取容量为n的样本,当n充分大时,样本均值 的抽样分布近似服从均值为,方差为2/n的正态分布中心极限定理告诉我们,当样本总体不是正态分布或者总体的分布未知时,只要(zhyo)样本容量n充分大,样本均值就服从正态分布那么n多大才叫充分

15、大呢?当总体的分布未知时,通常要求n30.X第11页/共31页第十一页,共32页。 (3). 2已知时,总体均值的区间(q jin)估计 设(X1,X2,Xn)是来自正态总体(,)的一个样本,其中总体方差已知,则统计量 N(0,1). 对于给定的显著性水平(030时) t 分布和正态分布很接近t 分布通常是在小样本情况下,总体方差未知时,对总体均值的估计(gj)和假设检验中使用则选取(xunq)统计量其中第15页/共31页第十五页,共32页。(2) 2未知时,总体均值(jn zh)的区间估计设(X1,X2,Xn)是来自正态总体(,)的一个样本,但总体方差未知,这时要选取统计量 , 则 对于给定

16、的显著性水平(01), 总体均值(jn zh)在置信水平1-下的置信区间为: t= X-S / nt= X-S / n t(n-1).) 1(,) 1(22nSntXnSntX第16页/共31页第十六页,共32页。案例: 研究者从人群中随机抽取16人,调查他们的年出游天数,得到他们的年出游天数分别为13天9天 7天 15天 17天 20天 12天 6天 12天 12天 10天9 天 16天 7天 8天 11天,假设其总体服从正态分布,试在=0.1下建立年人均出游天数的置信区间.已知n=16, =0.1 计算得:查表得: t =1.753 根据公式,总体均值在置信水平90%下的置信区间为:也就是

17、说,有90%的把握相信,年人均出游天数大约在9.8天到13.2天之间 Xi =11.5X = n1i=1ni=1n( Xi-X)21n-1 = 3.96S=2(X t (n-1) ,2Sn X + t (n-1) )2Sn11.5 + 1.753 3.9616)= (11.5-1.753 3.9616,= (9.77, 13.24)第17页/共31页第十七页,共32页。第18页/共31页第十八页,共32页。 3. 总体比例(bl)的区间估计(1) 样本比例(bl)的分布 样本比例(bl) p 是样本中具有某种特征的单位数量除以样本中的单位总数n得到的. 总体中具有某种特征的单位占全部单位的比例

18、(bl)称为总体比例(bl),记作p. 在大样本情况下,样本比例(bl)分布近似于正态分布若从总体中抽取n个样本,则样本比例(bl) p 的均值为p,p 的方差为 p = nXn1p (1-p),即 p N (p, p (1-p)n1Z= p-pp(1-p)n则统计(tngj)量 N(0,1).第19页/共31页第十九页,共32页。 (2)总体比例的区间估计在 中,要确定p的区间估计,用p 代替分母中的p,得到(d do)在1-的置信水平下,总体比例p值的置信区间为: 在上式中, 是点估计, P (1-P)nZ= p-p 是估计(gj)误差PnPPZ)1 (2)1 (,)1 (22nPPZPn

19、PPZP第20页/共31页第二十页,共32页。案例: 航空公司的飞行时间和价格是商务旅行者选择航班的重要因素,调查结果表明,商务旅行者一般将航空 公司许诺的常客折扣看成是最重要的因素在一个由1993名商务旅行者组成的简单随机样本中,有618人认为折扣是他们最看好的东西试在0.95的置信水平下,估计认为折扣最有吸引力的人数所占的比例= (0.29, 0.33)p(1 - p)n( p Z 2,p(1 - p)n p + Z 2 已知, n=1993, p =618/1993=0.31, 1-= 0.95 查表得: Z2= Z0.025= 1.96由得知, 认为折扣最有吸引力的人数所占的比例为29

20、% 33%之间之间.第21页/共31页第二十一页,共32页。pp)第22页/共31页第二十二页,共32页。 4. 样本容量的确定(1) 估计(gj)总体均值时,样本容量的确定在大样本情况下,不论是正态总体还是非正态总体,在估计(gj)总体均值时,我们都选取统计量 其中,-就是估计(gj)误差,记估计(gj)误差为,= X-, 则 得到估计(gj)总体均值时的样本容量为: X-Z= / n, Z= / n2Zn= 222第23页/共31页第二十三页,共32页。 案例: 某饭店为了合理配置前台接待人员,饭店管理部 门需要了解接待一名顾客所花费的时间,要求估计误差不超过2分钟,假定一名服务员接待一名

21、顾客花费时间的标准差为4分钟,问在99%的置信水平下,需要观察多少名顾客?2Z= Z 0.005 = 2.58 查表得:n= 222Z2=(2.58)2(4)222= 26.6于是, 已知估计误差=2, 标准差=4, 1-=0.99, =0.01即需要观察27名顾客。 第24页/共31页第二十四页,共32页。第25页/共31页第二十五页,共32页。(2) 估计总体比例时,样本容量的确定估计样本比例时,选取统计(tngj)量 ,估计误差为, = p p = Z2p(1-p)nP (1-P)nZ= p-p在上式中, 总体比例(bl) p 是待估参数,是未知的,选取 进行计算,这样求出的应是最大的样本容量. 一家旅行社需要了解出国游人数所占的比例,要求估计误差不超过0.05,问在95%的置信水平下,应抽取多大容量的样本?已知: =0.05, 选取p=0.5, 查表得Z = Z2p(1-p)n 385即应选取385人进行调查.2= 1.96第26页/共31页第二十六页,共32页。P181.题2:(p.176) 某学校对一年级学生的考试成绩(chngj)进行评估,现随机抽取了10个学生的数学成绩(chngj),得到如下数据:83,88,54,63

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论