第三章-抽样与抽样分布2014_第1页
第三章-抽样与抽样分布2014_第2页
第三章-抽样与抽样分布2014_第3页
第三章-抽样与抽样分布2014_第4页
第三章-抽样与抽样分布2014_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

湖北大学商学院chenqianli第

章抽样与抽样分布3.1

常用的抽样方法3.2

抽样分布3.3

中心极限定理的应用

湖北大学商学院chenqianli你不必吃完整一头牛,才知道它的肉是咬不动的。

SamelJohnson湖北大学商学院chenqianli统计应用

“抓阄”征兵计划

在美国的对越战争中,为使前线有足够的士兵,美国政府制定了一个“抓阄”的征兵计划。该计划打算把1到366的号码随机地分配给一年中每一天,然后由军事部门按分配的号码顺序把生日与之对应的年轻人分批征召入伍。这种方法的目的是为了给大家相等的机会卷入这场不受欢迎的战争中,因此被征召的可能性应该是随机的在第一年的征兵计划中,号码1被分配给了9月14日,分配方法是随机抽取一个大容器中的366个写上了日子的乒乓球。结果所有年满18岁且生于9月14日的合格青年将作为第一批被征召入伍。生日被分配为号码2的青年则在第二批被征召入伍,以此类推湖北大学商学院chenqianli统计应用

“抓阄”征兵计划我们知道,并不是所有的人都被征召入伍,因此,生日被分配的号码较大的人也许永远轮不上到军队服役这种抓阄看起来对决定应该被征召入伍是一个相当不错的方法。然而,在抓阄的第二天,当所有的日子和它们对应的号码公布以后,统计学家们开始研究这些数据。经过观察和计算,统计学家们发现了一些规律。例如,我们本应期望应该有差不多一半的较小的号码(1到183)被分配给前半年的日子,即从1月份到6月份;另外一半较小的号码被分配给后半年的日子,从7月到12月份。由于抓阄的随机性,前半年中可能不会分到正好一半较小的号码,但是应当接近一半湖北大学商学院chenqianli统计应用

“抓阄”征兵计划然而结果是,有73个较小的号码被分配给了前半年的日子,同时有110个较小的号码被分配给了后半年的日子。换句话说,如果你生于后半年的某一天,那么,你因为被分配给一个较小号码而去服兵役的机会要大于生于前半年的人在这种情况下,两个数字之间只应该有随机误差,而73和110之间的差别超出了随机性所能解释的范围。这种非随机性是由于乒乓球在被抽取之前没有被充分搅拌造成的。在第二年,主管这件事的部门在抓阄之前去咨询了统计学家(这可能使生于后半年的人感觉稍微舒服些)湖北大学商学院chenqianli3.1

常用的抽样方法非概率抽样与概率抽样

简单随机抽样分层抽样系统抽样整群抽样湖北大学商学院chenqianli抽样方法非概率抽样与概率抽样统计推断是根据一部分单位构成的样本来推断总体特征的统计方法,尽管样本的大小很重要,但决定统计推断最关键的因素是样本的代表性,即能否及在多大程度上代表总体。非概率抽样是指人为地选择一部分单位作为样本的方法,尽管有时并不是那么明显。如方便抽样和自愿样本。湖北大学商学院chen

qianli非概率抽样方便抽样(conveniencesampling)是由调查人员的便利来获取样本的方法,最典型的形式为商场或购物中心的消费者调查。但商场调查的人并不能代表人口总体,如这些人可能比较有钱,青少年或退休人士较多,且调查倾向于外表整洁,看起来不具威胁的人,由此商场的样本是有偏的,代表性较差。自愿样本,又称自愿回应样本(voluntaryresponsesample)是指对某一诉求的回应而自然形成的样本。如写信回应、电话回应或网上回应,样本是由本调查者自己决定的,样本也是有偏的。湖北大学商学院

chen

qianli湖北大学商学院chenqianliAvoluntaryresponsesampleconsistsofpeoplewhochoosethemselvesbyrespondingtoageneralappeal.Voluntaryresponsesamplesarebiasedbecausepeoplewithstrongopinions,especiallynegativeopinions,aremostlikelytorespond.conveniencesamplingchoosestheindividualseasiesttoreach.Hereisanexampleofconveniencesampling.Bothvoluntaryresponsesamplesandconveniencesamplesproducesamplesthatarealmostguaranteednottorepresenttheentirepopulation.Thesesamplingmethodsdisplaybias,orsystematicerror,infavoringsomepartsofthepopulationoverothers.湖北大学商学院chenqianli

概率抽样

(probabilitysampling)根据随机性原则来抽取样本单位,也称随机抽样,随机性原则来消除人为因素的影响,具有较好的代表性,目前成为抽样的主要的专业方法,如盖洛普的调查等。特点按一定的概率以随机原则抽取样本抽取样本时使每个单位都有一定的机会被抽中每个单位被抽中的概率是已知的,或是可以计算出来的当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率湖北大学商学院chenqianliProbabilitySample

ProbabilitySampleAprobabilitysampleisasamplechosenbychance.Wemustknowwhatsamplesarepossibleandwhatchance,orprobability,eachpossiblesamplehas.Ineverycase,however,theuseofchancetoselectthesampleistheessentialprincipleofstatisticalsampling.湖北大学商学院chenqianli简单随机抽样(simplerandomsampling)从总体N个单位中随机地抽取n个单位作为样本,使得每一个容量为n样本都有相同的机会(概率)被抽中

(注意:教材中SRS的定义“每一个总体单位有相同的机会被抽中”是不正确的。考虑一个有相同数量的男性和女性组成的总体,随机抛掷一枚硬币,如正面朝上,随机选择100名女性构成样本,如反面朝上,随机选择100名男性构成样本,每个人被抽中的概率相同但显然不是SRS)抽取元素的具体方法有重复抽样和不重复抽样特点:简单、直观,在抽样框完整时,可直接抽取样本用样本统计量对目标量进行估计比较方便局限性:当N很大时,不易构造抽样框抽出的单位很分散,给实施调查增加了困难没有利用其他辅助信息以提高估计的效率湖北大学商学院chenqianlisimplerandomsamplingAsimplerandomsample(SRS)ofsizenconsistsofnindividualsfromthepopulationchoseninsuchawaythateverysetofnindividualshasanequalchancetobethesampleactuallyselected.湖北大学商学院chenqianli简单随机样本

(simplerandomsample)由简单随机抽样形成的样本从总体N个单位中随机地抽取n个单位作为样本,使得每一个容量为n样本都有相同的机会(概率)被抽中参数估计和假设检验所依据的主要是简单随机样本湖北大学商学院chenqianli简单随机抽样的一般步骤1确定抽样框,对每个个体指定一个数字代码,一般要求每个代码具有相同的位数。2利用随机数表来随机选取代码。现在大部分统计软件可以对一组数据直接进行简单抽样。湖北大学商学院chenqianli分层抽样

(stratifiedsampling)将总体单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本优点保证样本的结构与总体的结构比较相近,从而提高估计的精度组织实施调查方便既可以对总体参数进行估计,也可以对各层的目标量进行估计湖北大学商学院chenqianliStratifiedRandomSampleToselectastratifiedrandomsample,firstdividethepopulationintogroupsofsimilarindividuals,calledstrata.ThenchooseaseparateSRSineachstratumandcombinetheseSRSstoformthefullsample.AmarketresearchfirminCaliforniausesrandomdigitdialingtochoosetelephonenumbersatrandom.NumbersareselectedseparatelywithineachCaliforniaareacode.Thesizeofthesampleineachareacodeisproportionaltothepopulationlivingthere.StratifiedRandomSampleThevalueofstratifiedrandomsamplingdependsonhowhomogeneoustheelementsarewithinthestrata.Ifelementswithinstrataarealike,thestratawillhavelowvariances.Thusrelativelysmallsamplesizecanbeusedtoobtaingoodestimatesofthestratacharacteristics.Ifstrataarehomogeneous,thestratifiedrandomsamplingprocedureprovidesresultsjustaspreciseasthoseofsimplerandomsamplingbyusingasmallertotalsamplesize湖北大学商学院chenqianli湖北大学商学院chenqianli系统抽样

(systematicsampling)将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k等单位优点:操作简便,可提高估计的精度缺点:对估计量方差的估计比较困难湖北大学商学院chenqianli整群抽样

(clustersampling)将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查特点抽样时只需群的抽样框,可简化工作量调查的地点相对集中,节省调查费用,方便调查的实施缺点是估计的精度较差ClustersamplingClustersamplingtendstoprovidethebestresultswhentheelementswithintheclustersarenotalike.Intheidealcase,eachclusterisarepresentativesmall-scaleversionoftheentirepopulation.Thevalueofclustersamplingdependsonhowrepresentativeeachclusterisoftheentirepopulation.Ifallclustersarealikeinthisregard,samplingasmallnumberofclusterswillprovidegoodestimatesofthepopulationparameters湖北大学商学院chenqianli湖北大学商学院chenqianli多阶段抽样

(multi-stagesampling)先抽取群,但并不是调查群内的所有单位,而是再进行一步抽样,从选中的群中抽取出若干个单位进行调查群是初级抽样单位,第二阶段抽取的是最终抽样单位。将该方法推广,使抽样的段数增多,就称为多阶段抽样具有整群抽样的优点,保证样本相对集中,节约调查费用需要包含所有低阶段抽样单位的抽样框;同时由于实行了再抽样,使调查单位在更广泛的范围内展开在大规模的抽样调查中,经常被采用的方法

湖北大学商学院chenqianlimultistagesampleTheCurrentPopulationSurveysamplingdesignisroughlyasfollows:Stage1.DividetheUnitedStatesinto2007geographicalareascalledPrimarySamplingUnits,orPSUs.PSUsdonotcrossstatelines.Selectasampleof754PSUs.Thissampleincludesthe428PSUswiththelargestpopulationsandastratifiedsampleof326oftheothers.Stage2.DivideeachPSUselectedintosmallerareascalled“blocks.”StratifytheblocksusingethnicandotherinformationandtakeastratifiedsampleoftheblocksineachPSU.Stage3.Sortthehousingunitsineachblockintoclustersoffournearbyunits.Interviewthehouseholdsinaprobabilitysampleoftheseclusters.抽样调查的清单(checklist):无论是自己调查还是依赖其他人收集的数据,无论是自己分析数据还是阅读别人的分析报告,你应该确信能够回答关于样本来源的几个问题。如果你开始于有偏的样本,无论后续的分析多好均无济于事,你的结论令人怀疑。样本框是什么?它与总体匹配吗?样本是简单随机样本(SRS)吗?如果不是,抽样是如何设计的?抽样调查的清单(checklist):不回应率是多少?不回应的问题在于,不回应的个体不同于回应的个体。不好的做法是发出大量的调查表但回应率比较低,好的做法是选择一个较小的样本而有资源保证高的回应率。如果回应率比较低,如20%,你需要了解参与的个体与拒绝的个体是否相似。低回应率的简单随机样本类似于自愿性回应样本。抽样调查的清单(checklist):问题的措辞如何?问题的措辞对回答有重要影响,让人迷惑的或引导人的问题会带来强烈的偏差。如美国人对政府帮助穷人方面看法如何?只有13%的人认为政府花了太多的资金在帮助穷人上,但有44%的人认为政府花太多的资金在福利上。在苏格兰人对独立于英国的运动的看法上,51%会投票支持苏格兰独立,但只有34%支持独立的苏格兰与英国分开。选项的位置也会影响回答。有研究发现,选票顶上的候选人平均会比其他位置多获得2%的选票抽样调查的清单(checklist):访谈员会影响结果吗?许多调查需要面对面,如果访谈员与回答者相互影响,答案可能反映他们之间的影响而不是我们想度量的,一般而言,回答者往往会以一种让访谈者高兴的方式回答问题,无论是有意还是无意。访谈者的性别、打扮或行为会通过细微的暗示来影响回答。抽样调查的清单(checklist):幸存者偏差(survivorbias)会影响调查吗幸存者偏差指某些活的比较长的个体更可能被选择为样本而产生的偏差。此词来自于医学研究,在商业上会经常遇到。如许多投资者投资基金,为了了解基金的情况从现有基金的列表中随机选择一个样本进行分析,这样分析的结果会遭遇幸存者偏差,因为样本中没有已清盘的基金。湖北大学商学院chenqianli3.2抽样分布总体分布与抽样分布一个总体参数推断时样本统计量的抽样分布两个总体参数推断时样本统计量的抽样分布湖北大学商学院chenqianli总体中各元素的观察值所形成的分布分布通常是未知的可以假定它服从某种分布总体分布

(populationdistribution)总体湖北大学商学院chenqianli样本统计量的概率分布,是一种理论分布在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布随机变量是样本统计量样本均值,样本比例,样本方差等结果来自容量相同的所有可能样本提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据 抽样分布

(samplingdistribution)湖北大学商学院chenqianli抽样分布的形成过程

(samplingdistribution)总体计算样本统计量如:样本均值、比例、方差样本湖北大学商学院chenqianli

样本统计量的抽样分布

(一个总体参数推断时)样本均值的抽样分布样本比例的抽样分布样本方差的抽样分布湖北大学商学院chenqianli在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布一种理论概率分布推断总体均值的理论基础 样本均值的抽样分布湖北大学商学院chenqianli样本均值的抽样分布

(例题分析)【例】设一个总体,含有4个元素(个体)

,即总体单位数N=4。4

个个体分别为x1=1,x2=2,x3=3,x4=4

。总体的均值、方差及分布如下总体分布14均值和方差湖北大学商学院chenqianli样本均值的抽样分布

(例题分析)

现从总体中抽取n=2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果为3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第一个观察值所有可能的n=2的样本(共16个)湖北大学商学院chenqianli样本均值的抽样分布

(例题分析)计算出各样本的均值,如下表。并给出样本均值的抽样分布3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第一个观察值16个样本的均值(x)x样本均值的抽样分布1.00P

(x)1.53.04.03.52.02.5湖北大学商学院chenqianli样本均值的分布与总体分布的比较

(例题分析)=2.5σ2=1.25总体分布14抽样分布P(x)1.01.53.04.03.52.02.5x湖北大学商学院chenqianli样本均值的抽样分布

与中心极限定理=50

=10X总体分布n=4抽样分布xn=16当总体服从正态分布N(μ,σ2)时,来自该总体的所有容量为n的样本的均值x也服从正态分布,x

的数学期望为μ,方差为σ2/n。即x~N(μ,σ2/n)湖北大学商学院chenqianli中心极限定理

(centrallimittheorem)当样本容量足够大时(n

30),样本均值的抽样分布逐渐趋于正态分布从均值为,方差为

2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ,方差为σ2/n的正态分布一个任意分布的总体x湖北大学商学院chenqianli中心极限定理

(centrallimittheorem)x的分布趋于正态分布的过程湖北大学商学院chenqianli抽样分布与总体分布的关系总体分布正态分布非正态分布大样本小样本样本均值正态分布样本均值正态分布样本均值非正态分布湖北大学商学院chenqianli样本均值的数学期望样本均值的方差重复抽样不重复抽样样本均值的抽样分布

(数学期望与方差)湖北大学商学院chenqianli总体(或样本)中具有某种属性的单位与全部单位总数之比不同性别的人与全部人数之比合格品(或不合格品)与全部产品总数之比总体比例可表示为样本比例可表示为

比例

(proportion)湖北大学商学院chenqianli在重复选取容量为n的样本时,由样本比例的所有可能取值形成的相对频数分布一种理论概率分布当样本容量很大时,样本比例的抽样分布可用正态分布近似推断总体比例的理论基础 样本比例的抽样分布湖北大学商学院chenqianli样本比例的数学期望样本比例的方差重复抽样不重复抽样样本比例的抽样分布

(数学期望与方差)湖北大学商学院chenqianli样本方差的分布在重复选取容量为n的样本时,由样本方差的所有可能取值形成的相对频数分布对于来自正态总体的简单随机样本,则比值的抽样分布服从自由度为(n-1)的2分布,即湖北大学商学院chenqianli由阿贝(Abbe)

于1863年首先给出,后来由海尔墨特(Hermert)和卡·皮尔逊(K·Pearson)

分别于1875年和1900年推导出来设,则令,则Y服从自由度为1的2分布,即

当总体,从中抽取容量为n的样本,则2分布

(2

distribution)湖北大学商学院chenqianli分布的变量值始终为正分布的形状取决于其自由度n的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称期望为E(2)=n,方差为D(2)=2n(n为自由度)可加性:若U和V为两个独立的服从2分布的随机变量,U~2(n1),V~2(n2),则U+V这一随机变量服从自由度为n1+n2的2分布2分布

(性质和特点)湖北大学商学院chenqianlic2分布

(图示)

选择容量为n的简单随机样本计算样本方差s2计算卡方值2=(n-1)s2/σ2计算出所有的

2值不同容量样本的抽样分布c2n=1n=4n=10n=20

ms总体湖北大学商学院chenqianlic2分布

(例题的图示)16个样本方差的分布样本方差s2s2取值的概率0.04/160.56/1624/164.52/16湖北大学商学院chenqianli样本统计量的抽样分布

(两个总体参数推断时)

两个样本均值之差的抽样分布两个样本比例之差的抽样分布两个样本方差比的抽样分布湖北大学商学院chenqianli两个总体都为正态分布,即,两个样本均值之差的抽样分布服从正态分布,其分布的数学期望为两个总体均值之差方差为各自的方差之和 两个样本均值之差的抽样分布湖北大学商学院chenqianli两个样本均值之差的抽样分布

m

1s

1总体1s

2

m

2总体2抽取简单随机样样本容量n1计算x1抽取简单随机样样本容量n2计算x2计算每一对样本的x1-x2所有可能样本的x1-x2m1-m2抽样分布湖北大学商学院chenqianli两个总体都服从二项分布分别从两个总体中抽取容量为n1和n2的独立样本,当两个样本都为大样本时,两个样本比例之差的抽样分布可用正态分布来近似分布的数学期望为方差为各自的方差之和 两个样本比例之差的抽样分布湖北大学商学院chenqianli两个样本方差比的抽样分布

两个总体都为正态分布,即X1~N(μ1,σ12),X2~N(μ2,σ22)从两个总体中分别抽取容量为n1和n2的独立样本两个样本方差比的抽样分布,服从分子自由度为(n1-1),分母自由度为(n2-1)的F分布,即湖北大学商学院chenqianli由统计学家费希尔(R.A.Fisher)

提出的,以其姓氏的第一个字母来命名设若U为服从自由度为n1的2分布,即U~2(n1),V为服从自由度为n2的2分布,即V~2(n2),且U和V相互独立,则称F为服从自由度n1和n2的F分布,记为F分布

(F

distribution)湖北大学商学院chenqianliF分布

(图示)

不同自由度的F分布F(1,10)(5,10)(10,10)湖北大学商学院chenqianli3.3

中心极限定理

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论