简单随机抽样_第1页
简单随机抽样_第2页
简单随机抽样_第3页
简单随机抽样_第4页
简单随机抽样_第5页
已阅读5页,还剩74页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Chapter2简单随机抽样

〔SimpleRandomSampling〕简单随机抽样的定义与抽选方法简单估计量及其性质比率估计量及其性质回归估计量及其性质样本量确实定原那么假设干问题的补充精选ppt1简单随机抽样的定义

与抽选方法一、定义从大小为N的总体抽取样本量为n的样本,假设全部可能的样本被抽中的概率都相等,那么称这样的抽样为简单随机抽样。根据抽样单位是否放回可分为放回简单随机抽样和不放回简单随机抽样。放回简单随机抽样:每个样本抽中的概率不放回简单随机抽样:每个样本抽中的概率精选ppt二、实施方法简单随机样本的抽选,首先要将总体从1到N编号,每个单位对应一个号;然后从所编的号中抽号,如果抽到某个号,那么对应的那个单位入样,直到抽够n个单位为止。①抽签法②随机数法精选ppt

①抽签法:简单随机抽样就是从盛有N张票子的盒子里随机无放回地摸取n(<N)张票,它可以有两种取法:1)从盒子中一次性摸取n张票2)从盒子中随机地摸取一张票,相应的单元入样后,票不放回盒子;从余下的N-1张票中再随机地摸取一张票,相应的单元也入样且票也不放回盒子;依次实施,直到第n个样本入样。

两种抽取的方法是等价的。每个样本的被抽中的概率都是精选ppt精选ppt②随机数法当总体较大时,抽签法实施起来比较困难,这时可以利用随机数表、随机数骰子、摇奖机、计算机产生的伪随机数进行抽样。(1)利用随机数表进行抽选。随机数表是一张由0,1,2,…,9这十个数字组成的,一般常用的是五位数的随机数字表,10个数字在表中出现的顺序是随机的,每个数字都有同样的时机被抽中。

精选ppt(2)利用随机数骰子进行抽选。(3)利用摇奖机进行抽选。(4)利用计算机产生的伪随机数进行抽选。通常产生的伪随机数有循环周期。Excel、SPSS等都有随机数发生器等精选ppt简单随机抽样在抽样理论中的地位缺点:要求每一个单元都有一个号码,这意味着必须有一个包含所有单元的完整抽样框,而当N很大时,这点常常是不具备的;由此得到的样本很分散,不利于调查。例如,对全国进行人口调查,总体单元超过12亿,要对全国每个人都编上号,编制一个完整的抽样框实际上是不可能的。即使可能,当抽到一个人也很难找到。优点:简单随机抽样在抽样理论中占有重要地位,它是其它抽样方法的根底,其理论也最为成熟。其它许多方法都是建立在简单随机抽样的根底上。精选ppt相关符号精选ppt有关指标与符号指

总值均值比例比率有限总体方差无限总体方差精选ppt引理引理1:从大小为N的总体中抽取一个样本容量为n的简单随机样本,那么总体中每个特定的单元入样的概率为n/N,两个特定单元入样的概率为n〔n-1〕/N〔N-1〕。一个特定单元入样的概率两个特定单元入样的概率精选ppt精选ppt引理2:从大小为N的总体中抽取一个样本容量为n的简单随机样本。假设令:精选ppt简单估计量的定义简单估计量的性质放回简单随机抽样的简单估计设计效应影响估计量精度的因素§2.2简单估计量及其性质精选ppt一、简单估计量的定义对于简单随机抽样,在没有其它信息的条件下,最简单的估计是利用样本均值作为总体均值的估计,即总体均值的简单估计量为:

也就是说,样本均值是总体均值的简单估计量。精选ppt例2.1:一个N=6的总体中抽取n=3的样本,设这6个单元的值分别为Y1=21,Y2=12,Y3=15,Y4=24,Y5=6,Y6=18,那么总共可能有个样本,每个样本所包含的单元号及其数值见表2.1总体均值:总体方差:发现:样本均值的均值=总体均值样本方差的均值=总体方差这并不是偶然的,是其重要的性质。精选ppt证明:〔方法一:对称性证法〕证明:〔方法二:引入示性变量〕精选ppt证明:〔方法一:引入示性变量〕精选ppt证明:〔方法二:对称性证法〕根据对称性论证法,有精选ppt精选ppt回忆简单随机抽样的定义与抽选方法简单随机抽样的实施方法两个引理简单估计量的定义样本均值是总体均值的无偏估计。精选pptQ1:估计量的精度与抽样比的关系大吗?A1:当N很大时,抽样精度根本取决于样本量n,而与抽样比几乎无关。Q2:进行人口抽样调查,如果需要各个省的数据,要到达相同的精度,大省和小省所需要的样本量几乎相同还是相差很大?A2:几乎相同。虽然此时抽样比相差很大,但如果抽样比相同,必然会导致小省精度不够,大省抽样过多而浪费。精选ppt一点解释:1-f1-f:fpc(finitepopulationcorrection)有限总体校正系数总体未入样率从一无限总体中抽取一个样本容量为n的随机样本

一般而言,当抽样比小于5%时,fpc可以忽略不计算,这样的话估计量的标准差就估计的稍微高一些。精选ppt简单估计量方差的无偏估计证明:说明样本方差是总体方差的无偏估计即可。根据对称性论证法和方差性质精选ppt简单估计量的性质小结精选ppt具体例子例:从一个容量为100的总体中抽出样本容量为10的简单随机样本,要估计总体平均水平,并给出置信度为95%的置信区间。序号i12345678910yi4520466150895%的置信区间为[5-1.96×1.3115,5+1.96×1.3115]=[2.43,7.57]精选ppt例:从一个容量为100的总体中抽出样本容量为10的简单随机样本,序号i12345678910yi45204661508续上假设问:(2)估计总体的总量以及95%的置信区间。95%的置信区间为N×[5-1.96×1.3115,5+1.96×1.3115]=100×[2.43,7.57]=[243,757](3)总体均值估计的绝对误差和相对误差精选ppt〔三〕放回简单随机抽样的简单估计量有放回抽样的精度低于不放回抽样的精度。精选ppt百分数的估计及其误差在问卷调查中对某个问题的答复为“是〞或“否〞的情况:假设某个问题的答案只有两个,“是〞或“否〞,那么选择“是〞或“否〞的比例即是需要估计的总体比例多项选择题:某个问题有5种可选答案A、B、C、D、E,每人可任意选择一项,那么对答案A而言,每个人的选择可以是“A〞或“非A〞,由此“选择A的比例〞即是需要估计的总体比例。同理,选择B、C、D及E的比例都是我们需要估计的总体比例。总体比例常用百分数来表示,有时也俗称为成数。精选ppt

如果我们只关心总体中某些特定类型的集合占整个总体的比例,那么我们的盒子模型中的票子分为两类:我们感兴趣的全标为1,其余全标为0。于是盒子成为:100-1盒子模型精选ppt具有该种属性的比例为:

(1)具有某种属性单位的个数N1的估计就是对总体总值估计(2)对总体比例的估计就是对总体均值的估计精选ppt方差用比例表示总体方差样本方差

精选ppt估计量的定义和性质估计量的性质精选ppt精选ppt(1)当N,n,N-n都比较大时,a〔样本中1的个数〕近似服从正态分布,(2)当N很大,但n不是很大时,a近似服从二项分布。二项分布是个离散分布,而正态分布是个连续分布,因此可将其进行连续性修正。P经修正后的近似置信区间为:精选ppt应用举例例:某超市开张一段时间之后,为改进销售效劳环境,欲调查附近几个小区居民到该超市购物的满意度。于是在总体中抽取了一个样本容量为200人的样本。调查发现对该超市的购物环境表示满意和根本满意的居民有130位,请估计对超市购物满意的居民的比例,并在置信度为95%下,给出估计的绝对误差,相对误差和变异系数coefficientofvariation和置信区间。置信区间为〔0.65-0.0663,0.65+0.0663〕即〔58.37%,71.63%〕精选ppt样本量确实定(2.5.1)确定样本量的主要考虑因素①样本量与精度的关系估计量的精度要求高,意味着抽样误差小,样本量大。②样本量与实际调查运作的限制调查的经费能支持多大的样本?允许调查持续的时间有多长?需要多少调查人员?③由于大局部限制条件难以量化,确定样本量的计算公式时往往只在抽样精度与调查费用两者之间权衡。确定样本量的原那么-最优设计①在总费用一定的条件下使精度最高;②在满足一定精度要求的条件下使费用最小。精选ppt其他影响样本量的因素

问题的重要性所研究问题的目标量个数参照同类调查调查表的回收率有效样本精选ppt样本量与精度精度的衡量:估计量的标准误,一定概率保证下的绝对误差d及相对误差r变异系数cv等精选ppt考虑精度决定样本量通常先计算出n的近似值n0,实际n比n0小。当n0<<N,两者之比小于0.05时,那么可取n≈n0,否那么进行修正。精选ppt(1)绝对误差上限d决定样本量精选ppt举例例:一批电子元件有1600只,为估计元件的平均寿命,先根据抽样计算出样本平均寿命为8400小时,标准差为760小时,如果要求估计的绝对误差限为168小时,可靠程度在95%以上,问至少应抽取多少只元件?精选ppt具体例子从一个容量为100的总体中抽出样本容量为10的简单随机样本,要估计总体平均水平,并给出置信度为95%的置信区间。序号i12345678910yi4520466150895%的置信区间为[5-1.96×1.3115,5+1.96×1.3115]=[2.43,7.57]精选ppt上例中,如果现在要求以95%的把握保证相对误差不超过10%,样本量至少是多少?注意:不要忘了修正样本量!!精选ppt练习:欲估计一个农村的每月平均副业收入,该村共有1000户农户,月副业收入的标准差不超过300元。〔1〕现要求置信度为95%,估计每户月副业收入的误差不超过50元,应抽取多少户作为样本?(2)假设每户调查费用为15元,调查管理费用为800元,该项调查预计费用是多少?(3)要估计全村1000户一月的副业总收入,允许总量的误差为40000,置信度为95%,应抽取多少样本?精选ppt小结:简单抽样的公式一览表均值总量Y1.估计公式2.均方误差3.均方误差的估计量4.1-α的置信区间精选ppt5.样本容量确定给定绝对误差限d给定相对误差限r

给定方差上限V给定变异系数上限C精选ppt习题1.为调查某地区1960个村新棉收购情况,以简单不重复抽样方式随机抽取49个村进行调查,求得试以95%的可靠程度估计该地区平均每村收购多少斤?2.从5620个中学中抽出一个含有300个学校的简单随机样本,其中有187个学校赞成一项提案,试估计赞成该提案的比例及总的学校数。3.对某问题进行调查,在总体中抽取容量为200的简单随机样本,假设赞成,反对及不表态的人数分别为132,51,17,试给出赞成、反对及不答复比例的90%的近似置信区间。

精选ppt实践题取一本厚的英汉字典,以一页作为一个抽样单元,从中抽取一个数量为30页的简单随机样本〔用随机数表〕,计算每一样本单元的收词数,用此样本〔1〕估计全字典的单词收词总数,并计算此估计的方差的估计值.〔2〕假设要求相对误差不超过10%,应抽取多大的样本量?精选ppt回忆精选ppt(1)具有某种属性单位的个数N1的估计就是对总体总和的估计(2)对总体比例的估计就是对总体均值的估计精选ppt通常先计算出n的近似值n0,实际n比n0小。当n0<<N,两者之比小于0.05时,那么可取n≈n0,否进行修正。精选ppt精选ppt练习:欲估计一个农村的每月平均副业收入,该村共有1000户农户,月副业收入的标准差不超过300元。〔1〕现要求置信度为95%,估计每户月副业收入的误差不超过50元,应抽取多少户作为样本?(2)要估计全村1000户一月的副业总收入,允许总量的误差为40000,置信度为95%,应抽取多少样本?精选ppt估计总体比例时样本量确实定通常先计算出n的近似值n0,实际n比n0小。当n0<<N,两者之比小于0.05时,那么可取n≈n0,否那么进行修正。精选ppt(1)实际中P值通常是通过历史数据或试调查的数据得到。由于n0与PQ成正比〔除了P或Q很接近0或1〕PQ值的变化都比较小。当P=0.5时即PQ=0.25时PQ取到最大值。当P不太大或不太小时,可以取p0=q0=0.5作为n0的一个保守估计。精选ppt当估计P<0.5,那么选取较大的P,如假设估计P为[0.3,0.4],那么选取P为0.4当估计P>0.5,那么选取较小的P,如假设估计P为[0.6,0.8],那么选取P为0.6假设对P一无所知,那么取P=0.5,此时用保守估计当P值很小,即事件为稀有事件,需要用其他方法来估计。霍丹〔Haldane〕1945年提出一种称为逆抽样的方法,专门用于小比例事件〔稀有事件〕的抽样。

精选ppt例:在人口变动情况调查中,出生率P是一个重要指标。根据以前调查数据,出生率P的估计可取为18‰。问在95%,的置信度下,实际调查估计P的绝对误差限为0.5‰和相对误差限5%,各需要多大的样本量?(2)r=0.05由于上述数字均比实际人口小很多,故不考虑修正。注意不要忘了修正:首先要判断是否需要修正哦!精选ppt例:某销售公司希望了解全部3000家客户对公司的满意度,决定用调查一个简单随机样本。这时销售公司希望以95%的把握保证客户满意度比例P在样本比例[p-10%,p+10%]范围内,但对总体比例P无法给出一个大致范围。这时调查多少个客户,才能保证满足要求?分析:总体的容量N=3000,绝对误差限d=0.1置信度为0.95P的大致范围没有给出,最保守的估计是假设P=0.5,于是 由于97/3000=0.032<0.05,所以可以忽略。精选ppt练习:从一份共有3042人的人名录中随机抽取200人调查,发现38人的地址有变动,(1)估计这份人名录中有多少人的地址需要修正;(2)给出置信度为95%的置信区间;(3)假设要求估计的相对误差不超过10%,还需再抽查多少人?所以还需要再抽查1065-200=865人。精选ppt假设干问题的补充一、总体参数的预先估计预调查〔小型的试点调查〕一般说来:大型调查通常要预调查,原因如下:可以了解具体实施过程中会出现哪些问题问卷设计是否合理得到对总体均值、总体方差或者总体比例的估计从精度考虑:预调查的样本量m通常比较小,当样本量m到达精度要求时,那么调查完成。假设没有到达精度要求,必须增添样本。精选ppt利用以前调查的结果或经验现要对某问题进行简单随机抽样,要求置信度为1-a,且要求估计的相对误差为r,请估计样本容量。千万不要浪费有用的信息是我们抽样调查的宗旨!通常做法:利用公式可近似计算本次所需要的样本量。精选ppt在多于一个调查工程的情况下的样本容量先具体确定调查中最重要的一些工程的误差界限,对每个重要的工程分别估计并确定样本容量。每个确定的n都很接近,而且最大的样本量n在预算许可的范围内,那么就选那个最大的n.每个确定的n相差非常大,通常不选最大的n,主要是处于预算考虑,或总的精度大大高于原先标准,这种情况下,某些工程的精确度可以降低,取稍小点的n值。精选ppt设计效应看一个抽样方案的效果究竟如何,一个比较好的方法是将它与不放回简单随机抽样在相同的样本容量之下对精度作比较.基什(Kish)在1965年提出的设计效应(designeffect,简记为deff):设计效应:指一个特定的抽样设计估计量的方差对相同样本量下不放回简单随机抽样的估计量的方差之比。假设deff>1,说明所考虑的抽样设计的效率不如简单随机抽样;假设deff<1,说明该抽样设计的效率比简单随机抽样高。精选pptdeff的成效1:为了比较不同抽样方案的效率或效果。deff的成效2:确定样本量对于复杂抽样,样本量比较难确定。一定的精度要求下,简单随机抽样的样本量n’容易确定假设估计了该复杂抽样的deff,那么在同样精度要求下,样本量为:精选ppt练习:在超市问卷调查中进行预调查,置

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论