抽样和抽样分布详解_第1页
抽样和抽样分布详解_第2页
抽样和抽样分布详解_第3页
抽样和抽样分布详解_第4页
抽样和抽样分布详解_第5页
已阅读5页,还剩78页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

抽样和抽样分布详解演示文稿当前第1页\共有83页\编于星期三\5点(优选)抽样和抽样分布当前第2页\共有83页\编于星期三\5点学习目标了解抽样中的概率抽样方法理解抽样分布的意义了解抽样分布的形成过程理解中心极限定理理解抽样分布的性质当前第3页\共有83页\编于星期三\5点从研究现象总体的所有单位中,按照随机原则抽取部分单位作为样本,然后以样本的观测结果对总体的数量特征作出具有一定可靠程度和精度的估计或推断的一种统计调查方法。抽样推断的含义总体随机样本当前第4页\共有83页\编于星期三\5点1.在调查单位的抽取上遵循随机原则抽样推断方法的特点2.以样本的数量特征去推断总体的数量特征3.存在抽样误差,可计算并加以控制当前第5页\共有83页\编于星期三\5点一、了解不能或难以采用全面调查的总体的数量特征二、与全面调查相结合,修正和补充全面调查三、在生产过程中进行质量控制四、可以对总体的某种假设进行检验抽样推断的作用当前第6页\共有83页\编于星期三\5点(一)参数估计(二)假设检验抽样推断的内容当前第7页\共有83页\编于星期三\5点7.1抽样的基本概念

7.1.1抽样推断7.1.2抽样的方法

7.1.3样本容量和样本个数

7.1.4参数和样本统计量

7.15抽样框

7.1.6抽样的组织形式

7.1.7抽样误差当前第8页\共有83页\编于星期三\5点7.1.2抽样的方法抽样的方法重复抽样不重复抽样当前第9页\共有83页\编于星期三\5点重复抽样:也叫回置抽样。特点:每个单位在每次抽中机会一样。不重复抽样:也叫不回置抽样。特点:每个单位在每次抽中机会不一样;每个单位最多只能被抽中一次。不重复抽样的抽样平均误差小于重复抽样的抽样平均误差。当前第10页\共有83页\编于星期三\5点7.1.3样本容量和样本个数样本容量:样本中的单位数,通常用字母n表示。通常,n≥30的样本称为大样本,n<30的样本称为小样本。样本个数:从总体中可能抽得的样本的数目当前第11页\共有83页\编于星期三\5点样本的可能数目从总体N中随机抽取n个样本单位共有多少种可能的抽选结果与抽样方法和是否考虑顺序有关。有以下四种组合:⒈重复抽样考虑顺序⒉不重复抽样考虑顺序3.不重复抽样不考虑顺序4重复抽样不考虑顺序(不常用)当前第12页\共有83页\编于星期三\5点⒈重复抽样考虑顺序的可能样本数目:⒉不重复抽样考虑顺序的可能样本数目:共n个3不重复抽样不考虑顺序的可能样本数目:当前第13页\共有83页\编于星期三\5点7.1.4参数和统计量参数(parameter)来描述总体数量特征的指标,又称总体指标。即对总体特征的数量描述。参数已知,总体的分布特征就已知。所关心的参数主要有总体均值()、标准差()、总体比例(P/)等用表示参数的特点:参数的数值是客观存在的,总体一定,参数就唯一确定,但却是未知的。当前第14页\共有83页\编于星期三\5点统计量(statistic)又称样本指标或估计量,是根据样本数据计算出来的一些量,用以推断总体参数(总体指标)的综合指标。特点:是随样本不同而不同的随机变量,不含未知参数。所关心的样本统计量有:样本均值(x)、样本标准差(s)、样本比例(p)等用表示当前第15页\共有83页\编于星期三\5点平均数标准差比例参数统计量xsp总体样本当前第16页\共有83页\编于星期三\5点7.15抽样框抽样框:全部抽样单位的名单框架。抽样框的好坏通常会直接影响到抽样调查的随机性和调查效果。有如下几种抽样框形式:名单抽样框:列出全部总体单位的名录一览表。如职工名单,企业名单。区域抽样框:按地理位置将总体范围划分为若干小区,以小区为单位进行抽样。如市住房调查划分为街道、区片。时间抽样框:将总体全部单位按时间顺序排列,每隔一定时间抽样。如流水线抽样进行产品质检。当前第17页\共有83页\编于星期三\5点7.1.6抽样的组织形式一、简单随机抽样二、分层抽样三、系统抽样四、整群抽样五、多阶段抽样当前第18页\共有83页\编于星期三\5点——对总体单位逐一编号,然后按随机原则直接从总体中抽出若干单位构成样本应用仅适用于规模不大、内部各单位标志值差异较小的总体是最简单、最基本、最符合随机原则,但同时也是抽样误差最大的抽样组织形式简单随机抽样

(simplerandomsampling)抽签、随机数字表法当前第19页\共有83页\编于星期三\5点5907946755723486959553408927086711068260798209112348391764866042169414372718927607577438800813309898670723369381976680188936339340932948229095922963298605007331899943626562934473612535261467516834383384426404395759537715166390634300144982946451219201

注意:

必须先对总体中的每一个单位进行编码或编号,确定抽样框。简单随机抽样适合于调查标志在各单位分布较均匀的总体,一般情况下,简单随机抽样的效果相对差些。

当前第20页\共有83页\编于星期三\5点——将总体全部单位分类,形成若干个类型组,然后从各类型中分别抽取样本单位组成样本。总体N样本n等额抽取等比例抽取最优抽取······能使样本结构更接近于总体结构,提高样本的代表性;能同时推断总体指标和各子总体的指标分层抽样

(stratifiedsampling)当前第21页\共有83页\编于星期三\5点注意:

1、随机性2、分层抽样要求事先对总体有较多的了解。3、分层抽样对层而言是全面调查,对层内单位而言是非全面调查。4、能避免明显的偏高或偏低情况。5、适合于调查标志在各单位间的分布差异大的总体。当前第22页\共有83页\编于星期三\5点等距抽样/机械抽样——将总体单位按某一标志排序,而后按一定的间隔抽取样本单位。······随机起点半距起点对称起点(总体单位按某一标志排序)按无关标志排队,其抽样效果相当于简单随机抽样;按有关标志排队,其抽样效果相当于类型抽样。系统抽样

(systematicsampling)当前第23页\共有83页\编于星期三\5点——将总体全部单位分为若干“群”,然后随机抽取一部分“群”,被抽中群体的所有单位构成样本例:总体群数R=16样本群数r=4ABCDEFGHIJKLMNOPLHPD样本容量简单、方便,能节省人力、物力、财力和时间,但其样本代表性可能较差整群抽样

(clustersampling)当前第24页\共有83页\编于星期三\5点——指分两个或两个以上的阶段来完成抽取样本单位的过程例:在某省100多万农户抽取1000户调查农户生产性投资情况。第一阶段:从该省所有县中抽取5个县第二阶段:从被抽中的5个县中各抽4个乡第三阶段:从被抽中的20个乡中各抽5个村第四阶段:从被抽中的100个村中各抽10户样本n=100×10=1000(户)多阶段抽样当前第25页\共有83页\编于星期三\5点调查对象的性质特点对调查对象的了解程度抽样误差的大小人力、财力和物力等条件的限制在实际工作中,选择适当的抽样组织方式主要应考虑:抽样组织方式的选择当前第26页\共有83页\编于星期三\5点抽样中的误差登记性误差,也叫调查误差代表性误差系统性误差偶然性误差偏差抽样误差抽样中的误差(抽样误差的计算在后边讲)当前第27页\共有83页\编于星期三\5点7.2抽样分布7.2.1三种不同性质的分布

7.2.2样本均值的抽样分布

7.2.3样本比例的抽样分布

7.2.4抽样平均误差的计算

7.2.5样本方差的抽样分布

7.2.6两个样本统计量的抽样分布当前第28页\共有83页\编于星期三\5点总体分布总体中各元素的观察值所形成的分布分布通常是未知的可以假定它服从某种分布7.2.1三种不同性质的分布总体当前第29页\共有83页\编于星期三\5点一个样本中各观察值的分布也称经验分布当样本容量n逐渐增大时,样本分布逐渐接近总体的分布样本分布样本当前第30页\共有83页\编于星期三\5点抽样分布是来自容量相同的所有可能样本的概率分布,是一种理论分布抽取容量为n

的样本时,由该统计量的所有可能取值形成的概率分布样本统计量(如样本均值,样本比例,样本方差等)是随机变量,样本不同,样本统计量的计算值是不同的。3.抽样分布反映样本统计量的分布特征,是进行推断的理论基础,揭示样本统计量和总体参数之间的关系,估计抽样误差,是抽样推断科学性的重要依据 抽样分布当前第31页\共有83页\编于星期三\5点抽样分布的形成过程总体计算样本统计量如:样本均值、比例、方差样本当前第32页\共有83页\编于星期三\5点在选取容量为n的样本时,由样本均值的所有可能取值形成的概率分布推断总体均值的理论基础 7.2.2样本均值的抽样分布当前第33页\共有83页\编于星期三\5点(例题分析)【例】设一个总体,含有4个元素(个体)

,即总体单位数N=4。4

个个体分别为x1=1,x2=2,x3=3,x4=4

。总体的均值、方差及分布如下总体分布14230.1.2.3均值和方差当前第34页\共有83页\编于星期三\5点(例题分析)

现从总体中抽取n=2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果为3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第一个观察值所有可能的n=2的样本(共16个)当前第35页\共有83页\编于星期三\5点x样本均值的抽样分布1.000.10.20.3P

(x)1.53.04.03.52.02.5

(例题分析)计算出各样本的均值,如下表。并给出样本均值的抽样分布3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第一个观察值16个样本的均值(x)当前第36页\共有83页\编于星期三\5点样本均值的分布与总体分布的比较=2.5σ2=1.25总体分布14230.1.2.3抽样分布P(x)1.00.1.2.31.53.04.03.52.02.5x当前第37页\共有83页\编于星期三\5点样本均值的抽样分布

(数学期望与方差)比较及结论:1.样本均值的均值(数学期望)等于总体均值

2.样本均值的方差等于总体方差的1/n当前第38页\共有83页\编于星期三\5点样本抽样分布特征的证明当前第39页\共有83页\编于星期三\5点样本均值的数学期望样本均值的方差重复抽样不重复抽样样本均值的抽样分布特征

(数学期望与方差)当前第40页\共有83页\编于星期三\5点样本均值的抽样分布

正态分布的再生定理=50

=10X总体分布n=4抽样分布xn=16当总体服从正态分布N(μ,σ2)时,来自该总体的所有容量为n的样本的均值x也服从正态分布,x

的数学期望为μ,方差为σ2/n。即x~N(μ,σ2/n)当前第41页\共有83页\编于星期三\5点中心极限定理中心极限定理:设从均值为,方差为2的一个任意总体中采取重复抽样抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布不论总体服从何种分布,只要其数学期望和方差存在,对这一总体进行重复抽样时,当样本量n充分大,就趋于正态分布该定理为均值的抽样推断奠定了理论基础。当前第42页\共有83页\编于星期三\5点中心极限定理当样本容量足够大时(n

30),样本均值的抽样分布逐渐趋于正态分布一个任意分布的总体x当前第43页\共有83页\编于星期三\5点中心极限定理x的分布趋于正态分布的过程当前第44页\共有83页\编于星期三\5点抽样分布与总体分布的关系总体布正态分布非正态分布大样本小样本正态分布正态分布非正态分布当前第45页\共有83页\编于星期三\5点1.总体服从正态分布N(μ,)时2.总体分布未知,当n充分大时

重复抽样时不重复抽样时重复抽样时不重复抽样时近似近似当前第46页\共有83页\编于星期三\5点例题分析

[例]某酒店电梯中质量标志注明最大载重为18人,1350kg。假定已知该酒店旅客及其携带行李的平均重量为70kg,标准差为6kg。试问随机进入电梯18人,总重量超重的概率是多少?

当前第47页\共有83页\编于星期三\5点比例:总体(或样本)中具有某种属性的单位与全部单位总数之比不同性别的人与全部人数之比合格品(或不合格品)与全部产品总数之比总体比例可表示为样本比例可表示为

7.2.3样本比例的抽样分布当前第48页\共有83页\编于星期三\5点在重复选取容量为的样本时,由样本比例的所有可能取值形成的相对频数分布当样本容量很大时,样本比例的抽样分布可用正态分布近似推断总体比例的理论基础 样本比例的抽样分布中心极限定理当前第49页\共有83页\编于星期三\5点样本比例的数学期望样本比例的方差重复抽样不重复抽样样本比例的抽样分布

(数学期望与方差)当前第50页\共有83页\编于星期三\5点7.2抽样分布

7.2.1三种不同性质的分布

7.2.2样本均值的抽样分布

7.2.3样本比例的抽样分布

7.2.4样本方差的抽样分布

7.2.5两个样本统计量的抽样分布

7.2.6抽样平均误差的计算当前第51页\共有83页\编于星期三\5点

7.2.4样本方差的抽样分布

对总体为正态总体:

~分布的形状见课本页

用样本方差推断总体方差,必须知道总体方差的抽样分布。样本方差的抽样分布在重复选取容量为n的样本时,由样本方差的所有可能取值形成的相对频数分布。当前第52页\共有83页\编于星期三\5点两个样本统计量的抽样分布两个样本均值之差的抽样分布两个样本比例之差的抽样分布两个样本方差比的抽样分布当前第53页\共有83页\编于星期三\5点两个总体都为正态分布,即,两个样本均值之差的抽样分布服从正态分布,其分布的数学期望为两个总体均值之差方差为各自的方差之和 一、两个样本均值之差的抽样分布当前第54页\共有83页\编于星期三\5点当前第55页\共有83页\编于星期三\5点从两个服从二项分布的总体中,分别独立抽取两个样本,由两个样本比例之差的所有可能取值形成的相对频数分布。分别从两个服从二项分布总体中抽取容量为n1和n2的独立样本,当两个样本都为大样本时,两个样本比例之差的抽样分布近似服从正态分布。分布的数学期望为方差为各自的方差之和 二、两个样本比例之差的抽样分布当前第56页\共有83页\编于星期三\5点当前第57页\共有83页\编于星期三\5点三、两个样本方差比的抽样分布1.两个样本方差比的抽样分布:若两个总体都为正态分布,即X1~N(μ1,σ12),X2~N(μ2,σ22),从两个总体中分别抽取容量为n1和n2的独立样本,由两个样本方差比的所有可能取值形成的相对频数分布。2.两个样本方差比的抽样分布,服从分子自由度为(n1-1),分母自由度为(n2-1)的F分布,即当前第58页\共有83页\编于星期三\5点由统计学家费舍()

提出的,以其姓氏的第一个字母来命名则设若U为服从自由度为n1的2分布,即U~2(n1),V为服从自由度为n2的2分布,即V~2(n2),且U和V相互独立,则称F为服从自由度n1和n2的F分布,记为F分布当前第59页\共有83页\编于星期三\5点F分布图示

不同自由度的F分布F(1,20)(5,20)(10,20)当前第60页\共有83页\编于星期三\5点抽样误差实际抽样误差抽样平均误差抽样极限误差当前第61页\共有83页\编于星期三\5点实际抽样误差,指样本统计量与总体参数之间的绝对离差。实际抽样误差││

││

││

当前第62页\共有83页\编于星期三\5点抽样平均误差是样本统计量与总体参数的平均离差,也即样本统计量的标准差。1.抽样平均误差的概念当前第63页\共有83页\编于星期三\5点一、总体内部的差异程度(用标准差衡量)二、样本容量三、抽样方法(重复与不重复)四、抽样组织形式(分层抽样和系统抽样要小,简单随机抽样和整群抽样相对要大)2.影响抽样平均误差的因素当前第64页\共有83页\编于星期三\5点以均值的抽样平均误差为例测度所有样本均值对其中心值的离散程度,所有可能的样本均值的标准差所有样本均值分布在总体均值的周围,抽样平均误差反映了样本估计值与相应总体参数的平均差异程度抽样平均误差越小,样本估计值的分布越集中在总体参数的附近,样本估计值对总体的代表性越高当前第65页\共有83页\编于星期三\5点(1)理论公式3.抽样平均误差的计算当前第66页\共有83页\编于星期三\5点抽样平均误差计算式推导当前第67页\共有83页\编于星期三\5点〖例3〗现有A、B、C、D四名工人构成的总体,他们的日产量分别为22、24、26、28件。从四名工人中任取两名构成一个样本,请利用重复抽样和不重复抽样的方法计算抽样平均误差。【分析】先计算出三类数值:根据抽样平均误差的计算公式,我们必须本题要求我们计算抽样平均误差。可能样本个数。总体平均日产量、样本平均日产量、当前第68页\共有83页\编于星期三\5点解:

但由于本题计算抽样平均误差要分别采用重复抽样和不重复抽样两种方法,因此,除总体平均日产量计算结果相同外,样本平均日产量、可能样本总数均不完全相同。为了准确计算有关数据,我们将所有可能的样本及其平均数列举出来,然后,根据列举结果就可以计算出抽样平均误差。

列举过程见表4-11.采用重复抽样当前第69页\共有83页\编于星期三\5点2224262822(22,22)(22)(22,24)(23)(22,26)(24)(22,28)(25)24(24,22)(23)(24,24)(24)(24,26)(25)(24,28)(26)26(26,22)(24)(26,24)(25)(26,26)(26)(26,28)(27)28(28,22)(25)(28,24)(26)(28,26)(27)(28,28)(28)当前第70页\共有83页\编于星期三\5点2224262822(22,24)(23)(22,26)(24)(22,28)(25)24(24,22)(23)(24,26)(25)(24,28)(26)26(26,22)(24)(26,24)(25)(26,28)(27)28(28,22)(25)(28,24)(26)(28,26)(27)当前第71页\共有83页\编于星期三\5点应当指出的是,上面计算抽样平均误差的这个理论公式,在实际应用上会存在两个困难:列举过程见表4-22.采用不重复抽样⑴运用这个公式要求把所有的样本都抽选出来,然后计算它们的指标数值。这在实际应用过程中几乎是不可能的。⑵运用上面公式要求总体平均数的数值是已知的。但实际上,总体平均数的数值是未知的,它正是抽样调查要推断的。当前第72页\共有83页\编于星期三\5点因此,根据上面这个理论公式计算样本平均数的抽样平均误差是行不通的。必须选用其他计算公式。数理统计已经证明,在随机抽样方式下,样本平均数(成数)的抽样平均误差可以按下述公式来计算。⑴在重复抽样条件下:样本平均数的抽样平均误差样本成数的抽样平均误差当前第73页\共有83页\编于星期三\5点⑵在不重复抽样条件下:①样本平均数的抽样平均误差在总体单位数很大的情况下,样本平均数的抽样误差当前第74页\共有83页\编于星期三\5点②样本成数的抽样平均误差在总体单位数很大的情况下,样本成数的抽样误差当

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论