第7抽样与抽样分布_第1页
第7抽样与抽样分布_第2页
第7抽样与抽样分布_第3页
第7抽样与抽样分布_第4页
第7抽样与抽样分布_第5页
已阅读5页,还剩75页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本章学习目标1.理解随机抽样、非随机抽样两类不同抽样方法的本质区别2.了解重复抽样、不重复抽样下的样本可能数目3.区别简单随机抽样、类型抽样、等距抽样、整群抽样、多阶段抽样等不同的随机抽样组织形式4.了解总体分布、样本分布、抽样分布的关系,明确二项分布、正态分布、t分布、χ2分布等重要分布的特征5.理解抽样分布的理论基础6.重点掌握样本均值、样本比例在不同条件下的抽样分布2023/3/81当前1页,总共80页。一、抽样概述(一)抽样的方法(二)随机抽样的组织形式(三)抽样方案的设计2023/3/82当前2页,总共80页。(一)抽样的方法随机抽样方便抽样判断抽样自愿样本滚雪球抽样定额抽样非随机抽样常用的抽样方法重复抽样不重复抽样考虑顺序抽样不考虑顺序抽样2023/3/83当前3页,总共80页。根据随机原则从总体中直接抽选部分单位构成样本的方法。也称概率抽样特点按随机原则抽取样本抽取样本时使每个单位都有一定的机会被抽中每个单位被抽中的概率是已知的,或是可以计算出来的某一总体单位能否被抽中,与其它单位是否被抽中没有关联。

随机抽样2023/3/84当前4页,总共80页。重复抽样从总体N个单位中随机抽取一个样本容量为n的样本,每次从总体中抽取一个,并把结果登记下来,又放回总体中重新参加下一次的抽选。又称放回抽样不重复抽样每次从总体中抽选一个单位后就不再将其放回参加下一次的抽选。又称不放回抽样.总体单位数N不变,同一单位可能多次被抽中。总体单位数减少n,同一单位只可能被抽中一次。随机抽选样本的方式

2023/3/85当前5页,总共80页。考虑顺序的重复抽样可能的样本数目不考虑顺序的重复抽样不考虑顺序的不重复抽样考虑顺序的不重复抽样考虑各单位的中选顺序AB≠BA不考虑各单位的中选顺序。AB=BA2023/3/86当前6页,总共80页。【例1】某一总体含有A、B、C、D、E共5个总体单位,从中随机抽取2个单位构成样本,可能的样本数目有多少?

采用考虑顺序的重复抽样,样本可能数目为5×5=25个

采用不考虑顺序的重复抽样,样本可能数目为(52+5)/2=15个

采用不考虑顺序的不重复抽样,样本可能数目为

5!/(2!×(5-2)!=10个

采用考虑顺序的不重复抽样,样本可能数目为5×4=20个

2023/3/87当前7页,总共80页。相对于概率抽样而言抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查有方便抽样、判断抽样、自愿样本、定额抽样等方式非随机抽样2023/3/88当前8页,总共80页。方便抽样调查过程中由调查员依据方便的原则,自行确定入抽样本的单位调查员在街头、公园、商店等公共场所进行拦截调查厂家在出售产品柜台前对路过顾客进行的调查优点:容易实施,调查的成本低缺点:样本单位的确定带有随意性,样本无法代表有明确定义的总体,调查结果不宜推断总体2023/3/89当前9页,总共80页。判断抽样研究人员根据经验、判断和对研究对象的了解,有目的选择一些单位作为样本有重点抽样,典型抽样,代表抽样等方式判断抽样是主观的,样本选择的好坏取决于调研者的判断、经验、专业程度和创造性抽样成本比较低,容易操作样本是人为确定的,没有依据随机的原则,调查结果不能用于对推断总体2023/3/810当前10页,总共80页。自愿样本被调查者自愿参加,成为样本中的一分子,向调查人员提供有关信息例如,参与报刊上和互联网上刊登的调查问卷活动,向某类节目拨打热线电话等,都属于自愿样本自愿样本与抽样的随机性无关样本是有偏的不能依据样本的信息推断总体2023/3/811当前11页,总共80页。定额抽样先将体中的所有单位按一定的标志(变量)分为若干类,然后在每个类中采用方便抽样或判断抽样的方式选取样本单位操作简单,可以保证总体中不同类别的单位都能包括在所抽的样本之中,使得样本的结构和总体的结构类似抽取具体样本单位时,不是依据随机原则,属于非概率抽样2023/3/812当前12页,总共80页。随机抽样与非随机抽样的比较随机抽样依据随机原则抽选样本样本统计量的理论分布存在可根据调查的结果推断总体非随机抽样不是依据随机原则抽选样本样本统计量的分布是不确定的使用样本结果推断总体的效果要差一些2023/3/813当前13页,总共80页。1·简单随机抽样(纯随机抽样)

根据随机原则直接从总体中抽取单位构成样本的一种抽样方式。

仅适用于规模不大、分布比较均匀的总体(二)随机抽样的组织方式每个容量为n的样本都有同等机会(概率)被抽中简单、直观,是最简单、最基本、最符合随机原则,但同时也是抽样误差最大的抽样组织形式一般有抽签、抓阄、随机数码表、抽样函数等2023/3/814当前14页,总共80页。63271599867174451102151418071458683931081355479945885470989695436791150830301041200306375408459283645595757243838650991119761663554010226646601471570246276874534479067122455738435821625169991338522782553630744934835152907661667191127772186168689032636939392785499025844742048303788761826933406401628113186294318819004588387338129089541702904011308243177262865256836783514732718518922225520127340104933652064465055503015782242295206975372602237565493581628361003925456835376360242198063896416495399337

在随机数码表中,可以从任何一个位置、任何方向开始挑选随机数字。一旦选择一个任意起点,就采用事先确定的程序抽取样本。

随机数字表(摘录)2023/3/815当前15页,总共80页。2·类型抽样(分类抽样或分层抽样)将总体全部单位分类,形成若干个类型组,然后从各类型中分别随机抽取若干单位组成样本的抽样形式。总体N样本n等比例抽取不等比例抽取······能使样本结构更接近于总体结构,提高样本的代表性,适宜于单位标志值差异程度较大的总体,能同时推断总体指标和各组的指标2023/3/816当前16页,总共80页。3·等距抽样(机械抽样或系统抽样)将总体单位按某一标志排序,然后按相等间隔抽取样本单位构成样本的抽样形式······随机起点半距起点对称起点(总体单位按某一标志排序)按无关标志排队,其抽样效果相当于简单随机抽样;按有关标志排队,其抽样效果相当于类型抽样。2023/3/817当前17页,总共80页。4·整群抽样将总体全部单位分为若干“群”,然后随机抽取一部分“群”,被抽中群体的所有单位构成样本的抽样方式。例:总体群数R=16样本群数r=4ABCDEFGHIJKLMNOPLHPD样本容量简单、方便,能节省人力、物力、财力和时间,但其样本代表性可能较差,产生的抽样误差较大。2023/3/818当前18页,总共80页。5·多阶段抽样指分两个或两个以上的阶段来完成抽取样本单位过程的抽样方式例:在某省有100多万农户,需要抽取1000户调查农户生产性投资情况。第一阶段:从该省所有县中抽取5个县第二阶段:从被抽中的5个县中各抽4个乡第三阶段:从被抽中的20个乡中各抽5个村第四阶段:从被抽中的100个村中各抽10户样本n=100×10=1000(户)既可以相对节约人力和物力,又可以利用现成的行政区划、组织系统作为划分各阶段的依据,但抽样误差的计算要复杂得多。

2023/3/819当前19页,总共80页。调查对象的性质特点对调查对象的了解程度(抽样框的特点)抽样误差的大小人力、财力和物力等条件的限制在实际工作中,选择适当的抽样组织方式主要应考虑:如何确定抽样组织方式2023/3/820当前20页,总共80页。明确调查目的明确总体及抽样单位确定或构建抽样框

提出指标精度要求选择抽样组织形式(三)抽样方案的设计确定样本容量制定具体办法步骤1.抽样方案的设计内容2023/3/821当前21页,总共80页。2.抽样方案设计的基本原则(1)保证实现抽样随机性的原则(2)保证实现最大的抽样效果原则3.抽样方案设计中的重要问题(1)保证随机原则的实现(2)要考虑样本容量和结构问题(3)关于抽样的组织形式问题(4)关于调查费用的问题2023/3/822当前22页,总共80页。(一)关于分布的几个概念(二)抽样分布的理论基础(三)样本均值的抽样分布(四)样本比例的抽样分布二、抽样分布2023/3/823当前23页,总共80页。总体变量x的概率分布,它由变量x的所有取值和与之相应的概率组成。反映总体分布特征的常用指标有总体均值μ和总体标准差σ总体分布通常是未知的总体(一)关于分布的几个概念总体分布N=∑FP=F/∑F2023/3/824当前24页,总共80页。样本中各观察值的概率分布,它由一个样本的所有观察值x和与之相应的概率p组成。样本分布的特征值主要有样本均值与样本标准差s当样本容量n逐渐增大时,样本分布逐渐接近总体的分布样本样本分布2023/3/825当前25页,总共80页。样本统计量(样本均值,样本比例,样本方差等)的概率分布,由各样本统计量的值和与之相应的概率组成。样本统计量是随机变量,其结果来自容量相同的所有可能样本是一种理论概率分布。提供了样本统计量稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据 抽样分布2023/3/826当前26页,总共80页。总体样本样本样本抽样分布的形成过程计算样本统计量如:样本均值2023/3/827当前27页,总共80页。【例】设一个总体,含有4个元素(个体)

,即总体单位数N=4。4

个个体分别为X1=1、X2=2、X3=3

、X4=4

。总体的均值、方差及分布如下:总体分布142300.10.20.3均值和方差2023/3/828当前28页,总共80页。

现从总体中抽取n=2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果为3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第一个观察值所有可能的n=2的样本(共16个)2023/3/829当前29页,总共80页。计算出各样本的均值,如下表。并给出样本均值的抽样分布3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第一个观察值16个样本的均值(x)X样本均值的抽样分布1.00.10.20.3P(X)1.53.04.03.52.02.502023/3/830当前30页,总共80页。比较及结论:1.样本均值的均值(数学期望)等于总体均值

2.样本均值的方差等于总体方差的1/n2023/3/831当前31页,总共80页。

=2.5σ2=1.25总体分布142300.10.20.3抽样分布P(X)1.000.10.20.31.53.04.03.52.02.5XP(X)2023/3/832当前32页,总共80页。进行n

次重复试验,出现“成功”的次数X的概率分布称为二项分布,记为:设X为n次重复试验中事件A出现的次数,X取x

的概率为P二项分布X=xix1,x2

,…

,xnP(X=xi)=PiP1,P2

,…

,Pn重复试验的条件:①一次试验只有两个可能结果;②试验可以重复进行;③每一次试验成功的概率都是p。2023/3/833当前33页,总共80页。二项分布的数学期望为

E(X)=np方差为

D(X)=npq二项分布的数学期望和方差:2023/3/834当前34页,总共80页。1.描述连续型随机变量的最重要的分布2.经典统计推断的基础3.若随机变量的概率密度函数为:xf(x)正态分布则称X服从均值为μ、方差为σ2的正态分布,记为2023/3/835当前35页,总共80页。概率密度函数在x

的上方,即f(x)>0正态曲线的最高点在均值,它也是分布的中位数和众数,即对称分布正态分布是一个分布族,每一特定正态分布通过均值和标准差来区分。决定了图形的中心位置,决定曲线的平缓程度,即宽度曲线f(x)相对于均值对称,尾端向两个方向无限延伸,且理论上永远不会与横轴相交随机变量的概率由曲线下的面积给出正态曲线下的总面积等于1正态分布的特点2023/3/836当前36页,总共80页。和对正态曲线的影响xf(x)CAB2023/3/837当前37页,总共80页。正态分布的概率概率是曲线下的面积!abxf(x)2023/3/838当前38页,总共80页。正态分布函数随机变量的概率也可以用分布函数F(x)来表示分布函数定义为根据分布函数,P(a<X<b)可以写为f(x)xx0F(x0

)2023/3/839当前39页,总共80页。标准正态分布一般的正态分布取决于均值和标准差计算概率时,每一个正态分布都需要有自己的正态概率分布表,这种表格是无穷多的若能将一般的正态分布转化为标准正态分布,计算概率时只需要查一张表2023/3/840当前40页,总共80页。标准正态分布函数标准正态分布的概率密度函数任何一个一般的正态分布,均可通过下面的线性变换转化为标准正态分布标准正态分布的分布函数2023/3/841当前41页,总共80页。标准正态分布表的使用将一个一般的正态分布转换为标准正态分布计算概率时,只要查标准正态概率分布表即可对于负的x

,可由(-x)x得到对于标准正态分布,即X~N(0,1),有P(aXb)baP(|X|a)2a1对于一般正态分布,即X~N(,),则有2023/3/842当前42页,总共80页。x=5=10一般正态分布6.2

=1Z标准正态分布00.12.04782023/3/843当前43页,总共80页。【例3】设X~N(0,1)分布,求以下概率:

(1)P(X<1.5);(2)P(X>2);(3)P(-1<X

3);(4)P(|X|2)

解:(1)P(X<1.5)=(1.5)=0.9332(2)P(X>2)=1-P(X

2)=1-0.9973=0.0227(3)P(-1<X

3)=P(X

3)-P(X<-1)=(3)-(-1)=(3)–[1-(1)]=0.9987-(1-0.8413)=0.84(4)P(|X|2)=P(-2

X

2)=(2)-(-2)=(2)-[1-(2)]=2(2)-1=0.95452023/3/844当前44页,总共80页。【例4】设X~N(5,32),求以下概率

(1)P(X

10);(2)P(2<X

<10)

解:

(1)(2)2023/3/845当前45页,总共80页。对于来自正态总体的简单随机样本,其比值

的抽样分布服从自由度为(n-1)2分布,即

n个相互独立的标准正态随机变量z的平方和的分布称为具有n个自由度的χ2分布,记为χ2(n)。2分布2023/3/846当前46页,总共80页。2分布的图示

选择容量为n的简单随机样本计算样本方差S2计算卡方值2=(n-1)S2/σ2计算出所有的

2值不同容量样本的抽样分布c2n=1n=4n=10n=20

ms总体2023/3/847当前47页,总共80页。密度曲线位于第一象限。分布的形状取决于其自由度n的大小,通常为不对称的右偏分布,但随着自由度的增大逐渐趋于对称数学期望为:E(2)=n,方差为:D(2)=2n(n为自由度)可加性:若U和V为两个独立的2分布随机变量,U~2(n1),V~2(n2),则U+V这一随机变量服从自由度为n1+n2的2分布2分布的特点2023/3/848当前48页,总共80页。设X~N(0,1),Y~

Χ2(n),并且X、Y独立,则称随机变量服从自由度为n的t分布,记为t分布xt

分布与标准正态分布的比较t分布标准正态分布x不同自由度的t分布标准正态分布t(df=13)t(df=5)t分布是类似正态分布的一种对称分布,通常比正态分布平坦和分散。一个特定的分布依赖于称之为自由度的参数。随着自由度的增大,分布也逐渐趋于正态分布2023/3/849当前49页,总共80页。独立同分布大数定律:设x1,x2,…是独立同分布的随机变量序列,且存在有限的数学期望E(xi)=μ和方差D(xi

)=σ2(i=1,2,…),则对任意小的正数ε,有:该定律表明:当n足够大时,独立同分布的一系列随机变量的均值接近数学期望,即平均数具有稳定性。(二)抽样分布的理论基础大数定律阐述大量同类随机现象的平均结果稳定性的一系列定理的总称。2023/3/850当前50页,总共80页。贝努里大数定律:设m是n次独立重复试验中事件A发生的次数,π是每次试验中事件A发生的概率,则对任意的ε>0,有:该定律表明:当重复试验次数n充分大时,事件A发生的频率m/n依概率收敛于事件A发生的概率,即频率具有稳定性。大数定律的实践意义:一是抽样必须遵循随机原则;二是抽样必须遵循大量原则。

2023/3/851当前51页,总共80页。阐述大量随机变量之和的极限分布是正态分布的一系列定理的总称。中心极限定理独立同分布中心极限定理(也称为列维-林德伯格定理):设x1,x2,x3…是独立同分布的随机变量序列,且存在有限的数学期望μ和方差σ,那么当n→∞时:该定理表明:不论总体服从什么分布,只要其数学期望和方差存在,对这一总体进行重复抽样,当样本容量充分大时,或就趋近于正态分布。中心极限定理2023/3/852当前52页,总共80页。当样本容量足够大时(n

>30),样本均值的抽样分布逐渐趋于正态分布设从均值为,方差为2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布一个任意分布的总体X2023/3/853当前53页,总共80页。2023/3/854当前54页,总共80页。中心极限定理的意义在于:当我们的认识对象分布未知时,只要坚持随机抽取足够多的样本单位,就可以使样本统计量服从或近似服从正态分布,继而便可运用正态分布理论,根据样本信息来推断认识对象总体的数量特征。2023/3/855当前55页,总共80页。在随机选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布一种理论概率分布推断总体均值的理论基础 (三)样本均值的抽样分布2023/3/856当前56页,总共80页。样本均值的数学期望样本均值的方差重复抽样不重复抽样样本均值的抽样分布特征2023/3/857当前57页,总共80页。3.样本均值的标准误差所有可能的样本均值的标准差,测度所有样本均值的离散程度计算公式为2023/3/858当前58页,总共80页。σ2已知时,样本均值的抽样分布

总体是否正态分布否是大小样本容量n正态分布正态分布非正态分布2023/3/859当前59页,总共80页。表明:当总体服从正态分布时,不论样本容量多大,样本均值都服从正态分布,且样本均值的数学期望等于总体均值,样本均值的方差等于总体方差的1/n当总体分布为非正态总体或分布形式未知时,样本容量充分大时(一般要求n≥30),样本均值的抽样分布可以近似地用正态分布来描述。

总体为非正态总体或分布形式未知,如果样本容量太小,我们无法从理论上探讨样本均值的抽样分布

2023/3/860当前60页,总共80页。

【例】设从一个均值μ=10,标准差σ=0.6的总体中,随机抽取容量n=36的样本。要求:2023/3/861当前61页,总共80页。解:根据中心极限定理,不论总体分布是什么形状,只要样本足够大(n≥30时),样本均值2023/3/862当前62页,总共80页。2023/3/863当前63页,总共80页。【例】某厂生产的某种节能灯管的使用寿命服从正态分布,对某批产品测试的结果,平均使用寿命为1050小时,标准差为200小时。试求:(a)使用寿命在500小时以下的灯管占多大比例?(b)使用寿命在850~1450小时的灯管占多大比例?(c)以均值为中心,95%的灯管的使用寿命在什么范围内?2023/3/864当前64页,总共80页。解:设X=使用寿命,则X~N(1050,2002

)=Ф(2)-Ф(-1)=0.97725-0.15865=0.8186

95%的灯管寿命在均值392左右(即658~1442)小时=1-Ф(2.75)=1-0.99702=0.002982023/3/865当前65页,总共80页。σ2未知时,样本均值的抽样分布

总体是否正态分布否是大小样本容量n

t分布

t分布非正态分布2023/3/866当前66页,总共80页。表明:当总体方差未知时,对于正态总体(无论样本容量的大小),或者总体非正态或分布形式未知但样本容量充分大时,样本均值的标准化值服从分布值得注意的是,当样本容量逐渐增大时,t分布逐渐逼近标准正态分布。所以,当样本容量很大时,除了可以利用进行相关计算外,也可以利用近似服从标准正态分布来计算

2023/3/867当前67页,总共80页。【例】已知湖南省2009年的全省粮食总平均亩产为600公斤,其分布形式及方差均未知。现从全省随机抽取4900亩进行调查了解,测得该样本的标准差为400公斤,求这4900亩的平均亩产不低于620公斤的概率。分析:解:粮食单产x的分布形式及方差均未知,故以样本方差代替总体方差,从理论上讲,

2023/3/868当前68页,总共80页。一般情况下,根据t值与自由度在t分布表中可以查找相应的概率。由于这里的t分布的自由度很大,为4900-1=4899,这时的t分布与标准正态分布几乎一样,故可以查标准正态分布表,得

结果表明:这4900亩的平均亩产不低于620公斤的概率只有0.0233%。

2023/3/869当前69页,总共80页。(四)样本比例的抽样分布

1.是非标志均值与比例的关系对于是非标志总体X而言,X的取值只有两个:0和1。设总体的单位数为N,具有某一特征(如产品合格)的比例为π,则:

2023/3/870当前70页,总共80页。对于是非标志的样本来说,其取值也是两个:0和1。设样本容量为n,具有某一特征(如产品合格)的比例为p,则:

结论:是非标志的均值等于其比例。

2023/3/871当前71页,总共80页。样本比例的数学期望样本比例的方差重复抽样不重复抽样样本比例的抽样分布特征样本比例的抽样分布是容量相同的所有可能样本的样本比例的概率分布。其分布特征如下:2023/3/872当前72页,总共80页。容量相同的所有可能样本的样本比例的概率分布是非标志的总体方差已知,且样本比例的抽样分布可用正态分布近似,一种理论概率分布推断总体比例π的理论基础 2.样本比例的抽样分布——正态分布2023/3/873当前73页,总共80页。【例】假设有一批种子的发芽率为0.7。现

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论