第五抽样与参数估计培训课程课件_第1页
第五抽样与参数估计培训课程课件_第2页
第五抽样与参数估计培训课程课件_第3页
第五抽样与参数估计培训课程课件_第4页
第五抽样与参数估计培训课程课件_第5页
已阅读5页,还剩227页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第五抽样与参数估计第五抽样与参数估计1(优选)第五抽样与参数估计(优选)第五抽样与参数估计学习目标理解概率抽样方法理解抽样分布估计量与估计值的概念点估计与区间估计的区别评价估计量优良性的标准总体均值的区间估计方法总体比例的区间估计方法样本容量的确定方法学习目标理解概率抽样方法5.1抽样与抽样分布什么是抽样推断抽样方法抽样分布抽样推断中常用的统计量及其分布5.1抽样与抽样分布什么是抽样推断一、抽样推断

(概念要点)是根据观测到的样本数据对总体作出推测,这种推测伴随某种不确定性,需要用概率来表示其可靠程度,这是统计推断的一个重要特点。一、抽样推断

(概念要点)是根据观测到的样本数据对总体作出推统计推断的过程样本总体样本统计量例如:样本均值、比例、方差总体均值、比例、方差等统计推断的过程样本总体样本统计量总体均值、比例、方差等二、抽样方法二、抽样方法抽样方法抽样方法(一)概率抽样

(probabilitysampling)也称随机抽样特点按一定的概率以随机原则抽取样本抽取样本时使每个单位都有一定的机会被抽中每个单位被抽中的概率是已知的,或是可以计算出来的当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率(一)概率抽样

(probabilitysampling)简单随机抽样

(simplerandomsampling)从总体N个单位中随机地抽取n个单位作为样本,每个单位入选样本的概率是相等的最基本的抽样方法,是其它抽样方法的基础特点简单、直观,在抽样框完整时,可直接从中抽取样本用样本统计量对目标量进行估计比较方便局限性当N很大时,不易构造抽样框抽出的单位很分散,给实施调查增加了困难没有利用其它辅助信息以提高估计的效率简单随机抽样

(simplerandomsampling3总体均值的区间估计样本统计量的理论分布存在给出总体参数落在这一区间的概率1、t分布的均值为0⑴随机起点间隔k=N/n,a1=r,a2=r+k,a3=r+2k…an=r+(n1)k解:已知X~N(,0.无法使用样本的结果推断总体分层抽样的值依赖于层内各元素是同质性(相似的)。估计总体比例时样本容量的确定抽样分布与总体分布的关系估计总体均值时样本容量的确定不同容量样本的抽样分布总体分布

(populationdistribution)结果来自容量相同的所有可能样本⑵中点起点等距抽样:a1=k/2,a2=k/2+k,a3=k/2+2k…无法使用样本的结果推断总体简单随机抽样

(simplerandomsampling)抽取方式总体N个单位从1-N编号,从中抽取n个单位1、抽签法:做材质相同的N个标签,不放回抽取2、随机数法⑴随机数表⑵随机数色子⑶摇奖机3总体均值的区间估计简单随机抽样

(simpleran分层抽样

(stratifiedsampling)将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本层1层2层N总体分层抽样

(stratifiedsampling)将抽样单分层抽样

(stratifiedsampling)分层抽样的值依赖于层内各元素是同质性(相似的)。使层内差异小,层间差异大优点保证样本的结构与总体的结构比较相近,从而提高估计的精度组织实施调查方便既可以对总体参数进行估计,也可以对各层的目标量进行估计分层抽样

(stratifiedsampling)分层抽样分层抽样

(抽样方法)1、等额分配法在各类型组中分配同等单位数。n1=n2=…=ni2、等比例抽样按各层在总体中所占的比例分配样本单位数。分层抽样

(抽样方法)1、等额分配法在各类型组中分配同等单位整群抽样

(clustersampling)将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查群1群2群N总体整群抽样

(clustersampling)将总体中若干个整群抽样

(clustersampling)整群抽样的值依赖于每一群对总体的代表性,当群中元素不同质(不相似)时,整群抽样得到的结果最佳。特点抽样时只需群的抽样框,可简化工作量调查的地点相对集中,节省调查费用,方便调查的实施缺点是估计的精度较差整群抽样

(clustersampling)整群抽样的值依可根据调查的结果推断总体正态总体、2已知,

或非正态总体、大样本的估计相应的/2为0.总体分布

(populationdistribution)如职工家计调查按工资水平排队;适用于方差分析、协方差分析和回归分析等。在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布设总体的均值是μ,方差是σ2,从中抽取容量为n的样本,则在重复抽样和不重复抽样条件下整群抽样

(clustersampling)【例】一家食品生产企业以生产袋装食品为主,为对食品质量进行监测,企业质检部门经常要进行抽检,以分析每袋重量是否符合要求。总体比例在1-置信水平下的置信区间为【例】某企业共有职工1000人。样本是人为确定的,没有依据随机的原则,调查结果不能用于推断总体【例】一家食品生产企业以生产袋装食品为主,为对食品质量进行监测,企业质检部门经常要进行抽检,以分析每袋重量是否符合要求。一致性随着样本容量的增大,估计量的我们可以95%的概率保证该批零件平均长度的在21.总体(或样本)中具有某种属性的单位与全部单位总数之比152),n=9,2=(n-1)S2/σ2系统抽样

(systematicsampling)将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其它样本单位。优点操作简便,可提高估计的精度缺点对估计量方差的估计比较困难可根据调查的结果推断总体系统抽样

(systematics系统抽样

(抽样方法)1、无关标志排队等距抽样如产品质量检查按生产时间顺序排队;学生成绩调查按学号排队;居民住户收入调查按门牌号排序。2、有关标志排队等距抽样如职工家计调查按工资水平排队;农产量抽样调查,按平均亩产排序。3、起点和间隔的确定⑴随机起点间隔k=N/n,a1=r,a2=r+k,a3=r+2k…an=r+(n1)k⑵中点起点等距抽样:a1=k/2,a2=k/2+k,a3=k/2+2k…an=k/2+(n1)k⑶随机起点对称等距抽样:a1=r,a2=(2k+1)r,a3=2k+r,a4=(4k+1)r,a5=4k+r系统抽样

(抽样方法)1、无关标志排队等距抽样多阶段抽样

(multistagesampling)先将总体单位划分成若干大群,大群内再分成若干小群。先按某种方法抽取大群,然后在中选群中抽取小群,再进一步抽样,从选中的群中抽取出若干个单位进行调查二阶抽样中群是初级抽样单位,第二阶段抽取的是最终抽样单位。将该方法推广,使抽样的阶段数增多,就称为多阶段抽样具有整群抽样的优点,保证样本相对集中,节约调查费用适用于大规模的抽样调查,如我国的农作物产量调查、职工家计调查等多阶段抽样

(multistagesampling)先将总多阶段抽样例全国农作物产量抽样调查,首先由省所有县市级中抽取部分县市作为第一阶段样本,再从被抽中的县市中抽取乡镇作为第二阶段样本,从被抽中乡镇中抽取村作为第三阶段样本,最后从中选村中抽取农户,并从农户的播种面积中抽取部分地块,进行实割实测,计算平均亩产量,然后逐级往上综合计算平均亩产量,并推算全国总产量。多阶段抽样例全国农作物产量抽样调查,首先由省所有县市级中抽取多阶段抽样实例

2005年全国1%人口抽样调查是以全国为总体,各省、自治区、直辖市为次总体,采用分层、多阶段、整群概率比例抽样方法,在全国31个省、自治区、直辖市抽取了2869个县(市、区)、21181个乡(镇、街道)、77417个调查小区的1699万人。经加权后汇总,2005年全国人口出生率为12.40‰,死亡率为6.51‰,自然增长率为5.89‰。按此推算,2005年末全国总人口为130756万人,出生人口为1617万人,死亡人口为849万人,净增人口为768万人。多阶段抽样实例2005年全国1%人口非概率抽样

(nonprobabilitysampling)相对于概率抽样而言抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。有方便抽样、判断抽样、自愿样本、滚雪球抽样、配额抽样等方式。非概率抽样

(nonprobabilitysampling方便抽样调查过程中由调查员依据方便的原则,自行确定入选样本的单位。调查员在街头、公园、商店等公共场所进行拦截调查厂家在出售产品柜台前对路过顾客进行的调查优点容易实施,调查的成本低缺点样本单位的确定带有随意性,样本无法代表有明确定义的总体,调查结果不宜推断总体方便抽样调查过程中由调查员依据方便的原则,自行确定入选样本的判断抽样研究人员根据经验、判断和对研究对象的了解,有目的选择一些单位作为样本有重点抽样,典型抽样,代表抽样等方式判断抽样是主观的,样本选择的好坏取决于调研者的判断、经验、专业程度和创造性抽样成本比较低,容易操作样本是人为确定的,没有依据随机的原则,调查结果不能用于推断总体判断抽样研究人员根据经验、判断和对研究对象的了解,有目的选择样本分布

(sampledistribution)(优选)第五抽样与参数估计标准正态分布的横轴以Z值为刻度,Z值度量的是一个点距离均值多少倍标准差。给出总体参数落在这一区间的概率大样本不重复抽样时的估计方法样本统计量的理论分布存在置信区间

(confidenceinterval)农产量抽样调查,按平均亩产排序。优点容易实施,调查的成本低总体服从正态分布,方差(2)未知解:已知n=200,p=75%,z/2=1.样本均值就是总体均值的一个估计量正态总体、2未知,

或非正态总体、大样本的估计重复构造出的20个置信区间二阶抽样中群是初级抽样单位,第二阶段抽取的是最终抽样单位。样本均值,样本比例,样本方差等设总体参数为θ,θ1和θ2为由样本确定的统计量,对于给定的α(0<α<1),若θ1和θ2满足样本均值抽样分布的特征值

(数学期望)正态总体(2已知)学生成绩调查按学号排队;由统计学家费舍()提出的自愿样本被调查者自愿参加,成为样本中的一分子,向调查人员提供有关信息例如,参与报刊上和互联网上刊登的调查问卷活动,向某类节目拨打热线电话等,都属于自愿样本自愿样本与抽样的随机性无关样本是有偏的不能依据样本的信息推断总体样本分布

(sampledistribution)自愿样本滚雪球抽样先选择一组调查单位,对其实施调查之后,再请他们提供另外一些属于研究总体的调查对象,调查人员根据所提供的线索,进行此后的调查。这个过程持续下去,就会形成滚雪球效应。适合于对稀少群体和特定群体研究优点容易找到那些属于特定群体的被调查者,调查的成本也比较低。滚雪球抽样先选择一组调查单位,对其实施调查之后,再请他们提供配额抽样先将总体中的所有单位按一定的标志(变量)分为若干类,然后在每个类中采用方便抽样或判断抽样的方式选取样本单位。操作简单,可以保证样本的结构和总体的结构类似。抽取具体样本单位时,不是依据随机原则,属于非概率抽样。配额抽样先将总体中的所有单位按一定的标志(变量)分为若干类,概率抽样与非概率抽样的比较概率抽样依据随机原则抽选样本样本统计量的理论分布存在可根据调查的结果推断总体非概率抽样不是依据随机原则抽选样本样本统计量的分布是不确定的无法使用样本的结果推断总体概率抽样与非概率抽样的比较概率抽样三、抽样分布三、抽样分布总体中各元素的观察值所形成的分布分布通常是未知的可以假定它服从某种分布

总体分布

(populationdistribution)总体总体中各元素的观察值所形成的分布总体分布

(populat一个样本中各观察值的分布也称经验分布当样本容量n逐渐增大时,样本分布逐渐接近总体的分布样本分布

(sampledistribution)样本一个样本中各观察值的分布样本分布

(sampledist样本统计量(如均值、比例、方差等)的概率分布,是一种理论概率分布随机变量是样本统计量样本均值,样本比例,样本方差等结果来自容量相同的所有可能样本提供了样本统计量长远稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据 抽样分布

(samplingdistribution)样本统计量(如均值、比例、方差等)的概率分布,是一种理论概率抽样分布

(samplingdistribution)总体计算样本统计量例如:样本均值、比例、方差样本抽样分布

(samplingdistribution)总(一)样本均值的抽样分布(一)样本均值的抽样分布在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布一种理论概率分布推断总体均值的理论基础

样本均值的抽样分布在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相样本均值的抽样分布

(例题分析)【例】设一个总体,含有4个元素(个体)

,即总体单位数N=4。4

个个体分别为x1=1、x2=2、x3=3

、x4=4

。总体的均值、方差及分布如下均值和方差总体分布14230.1.2.3P(X)样本均值的抽样分布

(例题分析)【例】设一个总体,含有4个元样本均值的抽样分布

(例题分析)

从总体中抽取n=2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果为3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第一个观察值所有可能的n=2的样本(共16个)样本均值的抽样分布

(例题分析)从总体中抽取n=2的简样本均值的抽样分布

(例题分析)计算出各样本的均值,如下表。并给出样本均值的抽样分布3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第一个观察值16个样本的均值(x)X样本均值的抽样分布1.00.1.2.3P(X)1.53.04.03.52.02.5样本均值的抽样分布

(例题分析)计算出各样本的均值,如样本均值抽样分布的特征值

(数学期望)设总体的均值是μ,方差是σ2,从中抽取容量为n的样本,则在重复抽样和不重复抽样条件下样本均值的数学期望样本均值抽样分布的特征值

(数学期望)设总体的均值是μ,方差样本均值的抽样分布

(方差)2、样本均值的方差重复抽样不重复抽样当抽样比n/N≤5%时,修正系数可以忽略不计。样本均值的抽样分布

(方差)2、样本均值的方差所有样本均值的均值和方差式中:N为样本数目,n为样本容量。比较及结论:1.样本均值的均值(数学期望)等于总体均值

2.样本均值的方差等于总体方差的1/n所有样本均值的均值和方差式中:N为样本数目,n为样本容量。样本均值的分布与总体分布的比较

(例题分析)=2.5σ2=1.25总体分布14230.1.2.3抽样分布P(X)1.00.1.2.31.53.04.03.52.02.5XP(X)样本均值的分布与总体分布的比较

(例题分析)=2样本均值的抽样分布

(总体是正态分布)=50

=10X总体分布n=4抽样分布Xn=16当总体服从正态分布N(μ,σ2)时,来自该总体的所有容量为n的样本的均值X也服从正态分布,X

的数学期望为μ,方差为σ2/n。即X~N(μ,σ2/n)样本均值的抽样分布

(总体是正态分布)=50=10中心极限定理

(centrallimittheorem)中心极限定理:设从均值为,方差为

2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布当样本容量足够大时(n

30),样本均值的抽样分布逐渐趋于正态分布一个任意分布的总体中心极限定理

(centrallimittheorem)无法使用样本的结果推断总体总体比例在1-置信水平下的置信区间为估计总体比例时样本容量的确定总体均值在1-置信水平下的置信区间为:提供了样本统计量长远稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据操作简单,可以保证样本的结构和总体的结构类似。每个单位被抽中的概率是已知的,或是可以计算出来的适用于方差分析、协方差分析和回归分析等。2.2分布

(性质和特点)适用于大规模的抽样调查,如我国的农作物产量调查、职工家计调查等抽样推断中常用的统计量及其分布调查员在街头、公园、商店等公共场所进行拦截调查根据比例区间估计公式可得样本量n为既可以对总体参数进行估计,也可以对各层的目标量进行估计置信区间

(confidenceinterval)将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本先将总体中的所有单位按一定的标志(变量)分为若干类,然后在每个类中采用方便抽样或判断抽样的方式选取样本单位。抽样分布

(samplingdistribution)设总体参数为θ,θ1和θ2为由样本确定的统计量,对于给定的α(0<α<1),若θ1和θ2满足中心极限定理

(centrallimittheorem)的分布趋于正态分布的过程无法使用样本的结果推断总体中心极限定理

(central抽样分布与总体分布的关系总体分布正态分布非正态分布大样本小样本正态分布正态分布非正态分布抽样分布与总体分布的关系总体分布正态分布非正态分布大样本小样(二)样本比例的抽样分布(二)样本比例的抽样分布比例

(proportion)总体(或样本)中具有某种属性的单位与全部单位总数之比合格品(或不合格品)与全部产品总数之比总体比例可表示为样本比例可表示为

比例

(proportion)总体(或样本)中具有某种属性的在重复选取容量为n的样本时,由样本比例的所有可能取值形成的相对频数分布当样本容量很大时(np≥5或n(1p)≥5),样本比例的抽样分布可用正态分布近似一种理论概率分布推断总体比例的理论基础 样本比例的抽样分布在重复选取容量为n的样本时,由样本比例的所有可能取值形成的相样本比例的抽样分布

(数学期望与方差)样本比例的数学期望样本比例的方差重复抽样不重复抽样当抽样比n/N≤5%时,修正系数样本比例的抽样分布

(数学期望与方差)样本比例的数学期望四、抽样推断中常用的统计量及其分布四、抽样推断中常用的统计量及其分布(一)Z统计量及其分布(一)Z统计量及其分布标准正态分布设随机变量X~N(μ,σ2),n个随机变量X1,X2,…,Xn为X的一个简单随机样本,则样本均值~N(μ,σ2/n),将其标准化,得到Z统计量及其分布标准正态分布设随机变量X~N(μ,σ2),n个随机变标准正态分布标准正态分布是均值=0,标准差=1的正态分布。标准正态分布的横轴以Z值为刻度,Z值度量的是一个点距离均值多少倍标准差。大于均值的数据点,其Z值为正,小于均值的数据点,其Z值为负。标准正态分布标准正态分布是均值=0,标准差=1的正态分布。标准正态分布xms一般正态分布

=1Z标准正态分布标准正态分布xms一般正态分布=1Z标准正态分布标准化的例子

P(5X6.2)

x=5=10一般正态分布6.2

=1Z标准正态分布00.120.0478标准化的例子

P(5X6.2)x=5(二)t统计量及其分布(二)t统计量及其分布3总体均值的区间估计无法使用样本的结果推断总体优点容易找到那些属于特定群体的被调查者,调查的成本也比较低。试以95%的概率确定赞成改革的人数比例的置信区间适用于大规模的抽样调查,如我国的农作物产量调查、职工家计调查等非正态总体、大样本

(2已知)置信区间

(confidenceinterval)样本均值的抽样分布

(例题分析)总体比例的区间估计

(例题分析)使层内差异小,层间差异大重复构造出的20个置信区间总体均值的置信区间为总体均值的置信区间为点估计与区间估计的区别总体中各元素的观察值所形成的分布厂家在出售产品柜台前对路过顾客进行的调查大于均值的数据点,其Z值为正,小于均值的数据点,其Z值为负。t分布与标准正态分布的比较估计总体比例时样本容量的确定非概率抽样

(nonprobabilitysampling)抽取具体样本单位时,不是依据随机原则,属于非概率抽样。t分布高塞特于1908年在一篇以“Student”(学生)为笔名的论文中首次提出

t分布是小样本分布,一般指n<30。

t分布适用于当总体标准差未知,用样本标准差代替总体标准差,由样本平均数推断总体平均数以及两个样本之间差异的显著性检验等。3总体均值的区间估计t分布高塞特于1908年在一篇以“t

统计量的分布

设随机变量X~N(μ,σ2),n个随机变量X1,X2,…,Xn为X的一个简单随机样本,称为统计量,它服从自由度为(n-1)的t分布Xt

分布与标准正态分布的比较t分布标准正态分布t不同自由度的t分布标准正态分布t(df=13)t(df=5)Zt统计量的分布设随机变量X~N(μ,σ2),n个t

分布的性质1、t分布的均值为02、t分布是一个均值对称的分布3、取值范围在∞与+∞之间,曲线以x轴为渐进线4、t分布方差大于1,与标准正态分布比,t分布中心略低,两尾部较高,自由度越小,差别越明显。5、随着样本容量(自由度n1)不断增大,t分布越来越趋近于标准正态分布,并以标准正态分布为极限。

t分布的性质1、t分布的均值为0(三)2统计量及其分布(三)2统计量及其分布2分布

(2

distribution)2分布是由阿贝(Abbe)于1863年首先提出,后来由海尔墨特(Hermert)和卡尔·皮尔逊(K·Pearson)分别于1875年和1900年推导出来的。主要适用于总体方差的估计和检验、对拟合优度检验和独立性检验等。2分布

(2distribution)2分布是由阿贝2分布

(2

distribution)1.设随机变量X1,X2,…,Xn相互独立,

且服从标准正态分布,则它们的平方和∑X2服从自由度为n的2分布。2.令,则Y服从自由度为1的2分布,即

3.当总体,从中抽取容量为n的样本,则2分布

(2distribution)1.设随机变量X分布的变量值始终为正分布的形状取决于其自由度n的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称期望为E(2)=n,方差为D(2)=2n(n为自由度)可加性若X和Y为两个独立的2分布随机变量,X~2(n1),Y~2(n2),则X+Y这一随机变量服从自由度为n1+n2的2分布2分布

(性质和特点)分布的变量值始终为正2分布

(性质和特点)卡方(c2)分布

选择容量为n的简单随机样本计算样本方差S2计算卡方值2=(n-1)S2/σ2计算出所有的

2值不同容量样本的抽样分布c2n=1n=4n=10n=20

ms总体卡方(c2)分布选择容量为n的计算卡方值计算出所有的(四)F统计量及其分布(四)F统计量及其分布F分布

(F

distribution)由统计学家费舍()提出的适用于方差分析、协方差分析和回归分析等。设若X为服从自由度为n的2分布,即X~2(n),Y为服从自由度为m的2分布,即Y~2(m),且X和Y相互独立,则F统计量及其分布为称F为服从自由度n和m的F分布。F分布

(Fdistribution)由统计学家费舍()如果X~F(n,m),则1/X~F(m,n)。F分布曲线是右偏型的,并且随着自由度n,m取值的变小,F分布曲线的偏斜程度增大。

不同自由度的F分布F分布

(性质和特点)F(1,10)(5,10)(10,10)如果X~F(n,m),则1/X~F(m,n)。F分布

(性质该种灯泡平均使用寿命95%的置信区间为1476.总体均值的区间估计

(小样本)重复构造出的20个置信区间抽取具体样本单位时,不是依据随机原则,属于非概率抽样。置信区间

(confidenceinterval)样本均值抽样分布的特征值

(数学期望)非正态分布,样本容量足够大时(n30),用S2n1代替23总体均值的区间估计估计总体均值时样本量的确定总体均值在1-置信水平下的置信区间为正态总体(2已知)可以假定它服从某种分布设总体参数为θ,θ1和θ2为由样本确定的统计量,对于给定的α(0<α<1),若θ1和θ2满足中心极限定理

(centrallimittheorem)表示为(1方法矩估计法、顺序量估计法、极大似然估计法等。样本均值,样本比例,样本方差等将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本设若X为服从自由度为n的2分布,即X~2(n),Y为服从自由度为m的2分布,即Y~2(m),且X和Y相互独立,则F统计量及其分布为5.2参数估计的基本方法估计量与估计值参数估计的方法该种灯泡平均使用寿命95%的置信区间为1476.5.2参一、估计量与估计值一、估计量与估计值估计量用来估计总体参数的统计量的名称如样本均值、样本比例、样本方差等样本均值就是总体均值的一个估计量2.估计值根据一个具体样本计算出来的估计量的数值如果样本均值x=80,则80就是的估计值估计量与估计值

(estimator&estimatedvalue)估计量用来估计总体参数的统计量的名称估计量与估计值

(es二、参数估计的方法二、参数估计的方法参数估计的方法估计方法点估计区间估计参数估计的方法估计方法点估计区间估计(一)点估计

(pointestimate)用样本估计量的某个取值直接作为总体参数的估计值例如用样本均值直接作为总体均值的估计例如用两个样本均值之差直接作为总体均值之差的估计2. 方法矩估计法、顺序量估计法、极大似然估计法等。二战中的点估计(一)点估计

(pointestimate)用样本估计量(二)区间估计

(intervalestimate

)1. 概念根据样本估计量以一定可靠程度推断总体参数所在的区间范围给出总体参数落在这一区间的概率例如:总体均值落在75~85之间,置信度为95%样本统计量

(点估计)置信区间置信下限θ1置信上限θ2(二)区间估计

(intervalestimate)1区间估计的图示x95%的样本-1.96x+1.96x99%的样本-2.58x+2.58x90%的样本-1.65x+1.65x区间估计的图示x95%的样本-1.96x+1置信区间

(confidenceinterval)设总体参数为θ,θ1和θ2为由样本确定的统计量,对于给定的α(0<α<1),若θ1和θ2满足称(θ1,θ2)为参数θ的置信水平为1α的置信区间。样本统计量

(点估计)置信区间置信下限θ1置信上限θ2置信水平(1-α)置信区间

(confidenceinterval)设总体将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例,称为置信水平或置信系数。表示为(1为显著性水平,是总体参数未在区间内的比例常用的置信水平值有99%,95%,90%相应的为0.01,0.05,0.10相应的/2为0.005,0.025,0.05相应的Zα/2值是2.58,1.96,1.645置信水平(1将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次置信区间与置信水平均值的抽样分布(1-)%区间包含了

%的区间未包含1-aa/2a/2用一个具体的样本所构造的区间是一个特定的区间,我们无法知道这个样本所产生的区间是否包含总体参数的真值我们只能是希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个-Za/2Za/2置信区间与置信水平均值的抽样分布(1-)%区间包置信区间

(95%的置信区间)重复构造出的20个置信区间点估计值置信区间

(95%的置信区间)重复构造出的20个置信区间三、评价估计量的标准三、评价估计量的标准无偏性

(unbiasedness)无偏性估计量抽样分布的数学期望等于被估计的总体参数P(

)BA无偏有偏的抽样分布无偏性

(unbiasedness)无偏性估计量抽样分布的数有效性

(efficiency)有效性:对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效

AB的抽样分布的抽样分布P(

)有效性

(efficiency)有效性:对同一总体参数的两个一致性

(consistency)一致性随着样本容量的增大,估计量的值越来越接近被估计的总体参数AB较小的样本容量较大的样本容量P(

)一致性

(consistency)一致性随着样本容量的增大,5.3总体均值的区间估计正态总体或大样本的估计正态总体小样本的估计5.3总体均值的区间估计正态总体或大样本的估计正态总体、2已知,

或非正态总体、大样本的估计正态总体、2已知,

或非正态总体、大样本的估计正态总体或非正态总体、大样本

(2已知)假定条件总体服从正态分布,方差(2)

已知非正态分布,可由正态分布来近似(n

30)使用正态分布统计量Z正态总体或非正态总体、大样本

(2已知)假定条件正态总体或非正态总体、大样本

(2已知)2、总体均值在1置信水平下的置信区间为重复抽样不重复抽样正态总体或非正态总体、大样本

(2已知)2、总体均值正态总体

(2已知)【例】某种零件的长度服从正态分布,从某天生产一批零件中按重复抽样方法随机抽取9个,测得其平均长度为21.4cm。已知总体标准差为=0.15cm。试估计该批零件平均长度的置信区间,置信水平为95%。解:已知X~N(,0.152),n=9,1-=95%,z/2=1.96总体均值的置信区间为我们可以95%的概率保证该批零件平均长度的在21.302cm~21.498cm之间正态总体

(2已知)【例】某种零件的长度服从正态分布,正态总体(2已知)【例】一家食品生产企业以生产袋装食品为主,为对食品质量进行监测,企业质检部门经常要进行抽检,以分析每袋重量是否符合要求。现从某天生产的一批食品中随机抽取了25袋,测得每袋重量如下表所示。已知产品重量的分布服从正态分布,且总体标准差为10g。试估计该批产品平均重量的置信区间,置信水平为95%25袋食品的重量112.5101.0103.0102.0100.5102.6107.5

95.0108.8115.6100.0123.5102.0101.6102.2116.6

95.4

97.8108.6105.0136.8102.8101.5

98.4

93.3正态总体(2已知)【例】一家食品生产企业以生产袋装食品为正态总体

(2已知例题分析)解:已知X~N(,102),n=25,1-=95%,z/2=1.96。总体均值在1-置信水平下的置信区间为:该食品平均重量95%的置信区间为101.44g~109.28g正态总体

(2已知例题分析)解:已知X~N(,10非正态总体、大样本

(2已知)解:已知x=26,=6,n=100>30,1-=0.95,Z/2=1.96我们可以95%的概率保证平均每天参加锻炼的时间在24.824~27.176分钟之间【例】某大学从该校学生中随机抽取100人,调查到他们平均每天参加体育锻炼的时间为26分钟。试以95%的置信水平估计该大学全体学生平均每天参加体育锻炼的时间(已知总体方差为36分钟)。非正态总体、大样本

(2已知)解:已知x=26,

正态总体、2未知,

或非正态总体、大样本的估计

正态总体、2未知,

或非正态总体、大样本的估计正态总体或非正态总体大样本

(2未知)1、假定条件总体服从正态分布,方差(2)未知非正态分布,样本容量足够大时(n30),用S2n1代替22、使用正态分布统计量Z正态总体或非正态总体大样本

(2未知)1、假定条件正态总体或非正态总体大样本

(2未知)3、总体均值在1置信水平下的置信区间为重复抽样不重复抽样正态总体或非正态总体大样本

(2未知)3、总体均值总体均值的区间估计

(例题分析)【例】一家保险公司收集到由36个投保人组成的随机样本,得到每个投保人的年龄(单位:周岁)数据如下表。试建立投保人年龄90%的置信区间36个投保人年龄的数据

233539273644364246433133425345544724342839364440394938344850343945484532总体均值的区间估计

(例题分析)【例】一家保险公司收集到由3总体均值的区间估计

(例题分析)解:已知n=36,1-=90%,z/2=1.645。

总体均值在1-置信水平下的置信区间为投保人平均年龄90%的置信区间为37.37岁~41.63岁总体均值的区间估计

(例题分析)解:已知n=36,1-正态总体、2未知、小样本的估计正态总体、2未知、小样本的估计总体均值的区间估计

(小样本)1. 假定条件总体服从正态分布,2未知,用S2n1代替2小样本(n<30)使用t分布统计量总体均值在1-置信水平下的置信区间为总体均值的区间估计

(小样本)1. 假定条件总体均值总体均值的区间估计

(例题分析)【例】已知某种灯泡的寿命服从正态分布,现从一批灯泡中随机抽取16只,测得其使用寿命(小时)如下。建立该批灯泡平均使用寿命95%的置信区间16灯泡使用寿命的数据1510152014801500145014801510152014801490153015101460146014701470总体均值的区间估计

(例题分析)【例】已知某种灯泡的寿命服从总体均值的区间估计

(例题分析)解:已知X~N(,2),n=16,1-=95%,t/2(15)=2.131根据样本数据计算得:

总体均值在1-置信水平下的置信区间为该种灯泡平均使用寿命95%的置信区间为1476.8~1503.2小时总体均值的区间估计

(例题分析)解:已知X~N(,2),总体参数区间估计使用的分布

(小结)总体参数区间估计使用的分布

(小结)总体参数的区间估计

(小结)总体参数的区间估计

(小结)5.4总体比例的区间估计大样本重复抽样时的估计方法大样本不重复抽样时的估计方法5.4总体比例的区间估计大样本重复抽样时的估计方法总体比例的区间估计

(重复抽样)1. 假定条件总体服从二项分布可以由正态分布来近似使用正态分布统计量Z3.总体比例在1-置信水平下的置信区间为总体比例的区间估计

(重复抽样)1. 假定条件3.总体总体比例的区间估计

(不重复抽样)1. 假定条件总体服从二项分布可以由正态分布来近似使用正态分布统计量Z3.总体比例在1-置信水平下的置信区间为总体比例的区间估计

(不重复抽样)1. 假定条件3.总总体比例的区间估计

(例题分析)【例】某城市想要估计下岗职工中女性所占的比例,随机抽取了100个下岗职工,其中65人为女性职工。试以95%的置信水平估计该城市下岗职工中女性比例的置信区间解:已知n=100,p=65%,z/2=1.96该城市下岗职工中女性比例95%的置信区间为55.65%~74.35%

总体比例的区间估计

(例题分析)【例】某城市想要估计下岗职工总体比例的区间估计

(例题分析)【例】某企业共有职工1000人。企业准备实行一项改革,在职工中征求意见,采取不重复抽样方法随机抽取200人作为样本,调查结果显示,有150人表示赞成该项改革,50人表示反对。试以95%的概率确定赞成改革的人数比例的置信区间解:已知n=200,p=75%,z/2=1.96该企业职工中赞成改革的人数比例95%的置信区间为69.63%~80.37%之间总体比例的区间估计

(例题分析)【例】某企业共有职工10005.5样本容量的确定估计总体均值时样本容量的确定估计总体比例时样本容量的确定5.5样本容量的确定估计总体均值时样本容量的确定估计总体均值时样本容量的确定估计总体均值时样本容量的确定估计总体均值时样本量的确定

令△代表边际误差样本量n与总体方差2、边际误差△、可靠性系数Z或t之间的关系为与总体方差成正比与边际误差的平方成反比与可靠性系数成正比圆整法则小数点后面的数值一律进位成整数,如24.68取25,24.32也取25等等估计总体均值时样本量的确定令△代表边际误差估计总体均值时样本容量的确定

(例题分析)【例】拥有工商管理学士学位的大学毕业生年薪的标准差大约为2000元,假定想要估计年薪95%的置信区间,希望边际误差为400元,应抽取多大的样本容量?估计总体均值时样本容量的确定

(例题分析)【例】拥有工商管估计总体均值时样本容量的确定

(例题分析)解:已知=2000,△=400,1-=95%,z/2=1.96

应抽取的样本容量为应抽取97人作为样本。估计总体均值时样本容量的确定

(例题分析)解:已知估计总体比例时样本容量的确定估计总体比例时样本容量的确定估计总体比例时样本量的确定根据比例区间估计公式可得样本量n为2.△的取值一般小于0.13.未知时,可用P代替;π无法知道时,可取使方差达到最大时的值0.5估计总体比例时样本量的确定根据比例区间估计公式可得样本量n估计总体比例时样本容量的确定

(例题分析)【例】根据以往的生产统计,某种产品的合格率约为90%,现要求边际误差为5%,在求95%的置信区间时,应抽取多少个产品作为样本?解:已知=90%,1-=95%,Z/2=1.96,△=5%

应抽取的样本容量为

应抽取139个产品作为样本估计总体比例时样本容量的确定

(例题分析)【例】根据以往的第五抽样与参数估计第五抽样与参数估计117(优选)第五抽样与参数估计(优选)第五抽样与参数估计学习目标理解概率抽样方法理解抽样分布估计量与估计值的概念点估计与区间估计的区别评价估计量优良性的标准总体均值的区间估计方法总体比例的区间估计方法样本容量的确定方法学习目标理解概率抽样方法5.1抽样与抽样分布什么是抽样推断抽样方法抽样分布抽样推断中常用的统计量及其分布5.1抽样与抽样分布什么是抽样推断一、抽样推断

(概念要点)是根据观测到的样本数据对总体作出推测,这种推测伴随某种不确定性,需要用概率来表示其可靠程度,这是统计推断的一个重要特点。一、抽样推断

(概念要点)是根据观测到的样本数据对总体作出推统计推断的过程样本总体样本统计量例如:样本均值、比例、方差总体均值、比例、方差等统计推断的过程样本总体样本统计量总体均值、比例、方差等二、抽样方法二、抽样方法抽样方法抽样方法(一)概率抽样

(probabilitysampling)也称随机抽样特点按一定的概率以随机原则抽取样本抽取样本时使每个单位都有一定的机会被抽中每个单位被抽中的概率是已知的,或是可以计算出来的当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率(一)概率抽样

(probabilitysampling)简单随机抽样

(simplerandomsampling)从总体N个单位中随机地抽取n个单位作为样本,每个单位入选样本的概率是相等的最基本的抽样方法,是其它抽样方法的基础特点简单、直观,在抽样框完整时,可直接从中抽取样本用样本统计量对目标量进行估计比较方便局限性当N很大时,不易构造抽样框抽出的单位很分散,给实施调查增加了困难没有利用其它辅助信息以提高估计的效率简单随机抽样

(simplerandomsampling3总体均值的区间估计样本统计量的理论分布存在给出总体参数落在这一区间的概率1、t分布的均值为0⑴随机起点间隔k=N/n,a1=r,a2=r+k,a3=r+2k…an=r+(n1)k解:已知X~N(,0.无法使用样本的结果推断总体分层抽样的值依赖于层内各元素是同质性(相似的)。估计总体比例时样本容量的确定抽样分布与总体分布的关系估计总体均值时样本容量的确定不同容量样本的抽样分布总体分布

(populationdistribution)结果来自容量相同的所有可能样本⑵中点起点等距抽样:a1=k/2,a2=k/2+k,a3=k/2+2k…无法使用样本的结果推断总体简单随机抽样

(simplerandomsampling)抽取方式总体N个单位从1-N编号,从中抽取n个单位1、抽签法:做材质相同的N个标签,不放回抽取2、随机数法⑴随机数表⑵随机数色子⑶摇奖机3总体均值的区间估计简单随机抽样

(simpleran分层抽样

(stratifiedsampling)将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本层1层2层N总体分层抽样

(stratifiedsampling)将抽样单分层抽样

(stratifiedsampling)分层抽样的值依赖于层内各元素是同质性(相似的)。使层内差异小,层间差异大优点保证样本的结构与总体的结构比较相近,从而提高估计的精度组织实施调查方便既可以对总体参数进行估计,也可以对各层的目标量进行估计分层抽样

(stratifiedsampling)分层抽样分层抽样

(抽样方法)1、等额分配法在各类型组中分配同等单位数。n1=n2=…=ni2、等比例抽样按各层在总体中所占的比例分配样本单位数。分层抽样

(抽样方法)1、等额分配法在各类型组中分配同等单位整群抽样

(clustersampling)将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查群1群2群N总体整群抽样

(clustersampling)将总体中若干个整群抽样

(clustersampling)整群抽样的值依赖于每一群对总体的代表性,当群中元素不同质(不相似)时,整群抽样得到的结果最佳。特点抽样时只需群的抽样框,可简化工作量调查的地点相对集中,节省调查费用,方便调查的实施缺点是估计的精度较差整群抽样

(clustersampling)整群抽样的值依可根据调查的结果推断总体正态总体、2已知,

或非正态总体、大样本的估计相应的/2为0.总体分布

(populationdistribution)如职工家计调查按工资水平排队;适用于方差分析、协方差分析和回归分析等。在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布设总体的均值是μ,方差是σ2,从中抽取容量为n的样本,则在重复抽样和不重复抽样条件下整群抽样

(clustersampling)【例】一家食品生产企业以生产袋装食品为主,为对食品质量进行监测,企业质检部门经常要进行抽检,以分析每袋重量是否符合要求。总体比例在1-置信水平下的置信区间为【例】某企业共有职工1000人。样本是人为确定的,没有依据随机的原则,调查结果不能用于推断总体【例】一家食品生产企业以生产袋装食品为主,为对食品质量进行监测,企业质检部门经常要进行抽检,以分析每袋重量是否符合要求。一致性随着样本容量的增大,估计量的我们可以95%的概率保证该批零件平均长度的在21.总体(或样本)中具有某种属性的单位与全部单位总数之比152),n=9,2=(n-1)S2/σ2系统抽样

(systematicsampling)将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其它样本单位。优点操作简便,可提高估计的精度缺点对估计量方差的估计比较困难可根据调查的结果推断总体系统抽样

(systematics系统抽样

(抽样方法)1、无关标志排队等距抽样如产品质量检查按生产时间顺序排队;学生成绩调查按学号排队;居民住户收入调查按门牌号排序。2、有关标志排队等距抽样如职工家计调查按工资水平排队;农产量抽样调查,按平均亩产排序。3、起点和间隔的确定⑴随机起点间隔k=N/n,a1=r,a2=r+k,a3=r+2k…an=r+(n1)k⑵中点起点等距抽样:a1=k/2,a2=k/2+k,a3=k/2+2k…an=k/2+(n1)k⑶随机起点对称等距抽样:a1=r,a2=(2k+1)r,a3=2k+r,a4=(4k+1)r,a5=4k+r系统抽样

(抽样方法)1、无关标志排队等距抽样多阶段抽样

(multistagesampling)先将总体单位划分成若干大群,大群内再分成若干小群。先按某种方法抽取大群,然后在中选群中抽取小群,再进一步抽样,从选中的群中抽取出若干个单位进行调查二阶抽样中群是初级抽样单位,第二阶段抽取的是最终抽样单位。将该方法推广,使抽样的阶段数增多,就称为多阶段抽样具有整群抽样的优点,保证样本相对集中,节约调查费用适用于大规模的抽样调查,如我国的农作物产量调查、职工家计调查等多阶段抽样

(multistagesampling)先将总多阶段抽样例全国农作物产量抽样调查,首先由省所有县市级中抽取部分县市作为第一阶段样本,再从被抽中的县市中抽取乡镇作为第二阶段样本,从被抽中乡镇中抽取村作为第三阶段样本,最后从中选村中抽取农户,并从农户的播种面积中抽取部分地块,进行实割实测,计算平均亩产量,然后逐级往上综合计算平均亩产量,并推算全国总产量。多阶段抽样例全国农作物产量抽样调查,首先由省所有县市级中抽取多阶段抽样实例

2005年全国1%人口抽样调查是以全国为总体,各省、自治区、直辖市为次总体,采用分层、多阶段、整群概率比例抽样方法,在全国31个省、自治区、直辖市抽取了2869个县(市、区)、21181个乡(镇、街道)、77417个调查小区的1699万人。经加权后汇总,2005年全国人口出生率为12.40‰,死亡率为6.51‰,自然增长率为5.89‰。按此推算,2005年末全国总人口为130756万人,出生人口为1617万人,死亡人口为849万人,净增人口为768万人。多阶段抽样实例2005年全国1%人口非概率抽样

(nonprobabilitysampling)相对于概率抽样而言抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。有方便抽样、判断抽样、自愿样本、滚雪球抽样、配额抽样等方式。非概率抽样

(nonprobabilitysampling方便抽样调查过程中由调查员依据方便的原则,自行确定入选样本的单位。调查员在街头、公园、商店等公共场所进行拦截调查厂家在出售产品柜台前对路过顾客进行的调查优点容易实施,调查的成本低缺点样本单位的确定带有随意性,样本无法代表有明确定义的总体,调查结果不宜推断总体方便抽样调查过程中由调查员依据方便的原则,自行确定入选样本的判断抽样研究人员根据经验、判断和对研究对象的了解,有目的选择一些单位作为样本有重点抽样,典型抽样,代表抽样等方式判断抽样是主观的,样本选择的好坏取决于调研者的判断、经验、专业程度和创造性抽样成本比较低,容易操作样本是人为确定的,没有依据随机的原则,调查结果不能用于推断总体判断抽样研究人员根据经验、判断和对研究对象的了解,有目的选择样本分布

(sampledistribution)(优选)第五抽样与参数估计标准正态分布的横轴以Z值为刻度,Z值度量的是一个点距离均值多少倍标准差。给出总体参数落在这一区间的概率大样本不重复抽样时的估计方法样本统计量的理论分布存在置信区间

(confidenceinterval)农产量抽样调查,按平均亩产排序。优点容易实施,调查的成本低总体服从正态分布,方差(2)未知解:已知n=200,p=75%,z/2=1.样本均值就是总体均值的一个估计量正态总体、2未知,

或非正态总体、大样本的估计重复构造出的20个置信区间二阶抽样中群是初级抽样单位,第二阶段抽取的是最终抽样单位。样本均值,样本比例,样本方差等设总体参数为θ,θ1和θ2为由样本确定的统计量,对于给定的α(0<α<1),若θ1和θ2满足样本均值抽样分布的特征值

(数学期望)正态总体(2已知)学生成绩调查按学号排队;由统计学家费舍()提出的自愿样本被调查者自愿参加,成为样本中的一分子,向调查人员提供有关信息例如,参与报刊上和互联网上刊登的调查问卷活动,向某类节目拨打热线电话等,都属于自愿样本自愿样本与抽样的随机性无关样本是有偏的不能依据样本的信息推断总体样本分布

(sampledistribution)自愿样本滚雪球抽样先选择一组调查单位,对其实施调查之后,再请他们提供另外一些属于研究总体的调查对象,调查人员根据所提供的线索,进行此后的调查。这个过程持续下去,就会形成滚雪球效应。适合于对稀少群体和特定群体研究优点容易找到那些属于特定群体的被调查者,调查的成本也比较低。滚雪球抽样先选择一组调查单位,对其实施调查之后,再请他们提供配额抽样先将总体中的所有单位按一定的标志(变量)分为若干类,然后在每个类中采用方便抽样或判断抽样的方式选取样本单位。操作简单,可以保证样本的结构和总体的结构类似。抽取具体样本单位时,不是依据随机原则,属于非概率抽样。配额抽样先将总体中的所有单位按一定的标志(变量)分为若干类,概率抽样与非概率抽样的比较概率抽样依据随机原则抽选样本样本统计量的理论分布存在可根据调查的结果推断总体非概率抽样不是依据随机原则抽选样本样本统计量的分布是不确定的无法使用样本的结果推断总体概率抽样与非概率抽样的比较概率抽样三、抽样分布三、抽样分布总体中各元素的观察值所形成的分布分布通常是未知的可以假定它服从某种分布

总体分布

(populationdistribution)总体总体中各元素的观察值所形成的分布总体分布

(populat一个样本中各观察值的分布也称经验分布当样本容量n逐渐增大时,样本分布逐渐接近总体的分布样本分布

(sampledistribution)样本一个样本中各观察值的分布样本分布

(sampledist样本统计量(如均值、比例、方差等)的概率分布,是一种理论概率分布随机变量是样本统计量样本均值,样本比例,样本方差等结果来自容量相同的所有可能样本提供了样本统计量长远稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据 抽样分布

(samplingdistribution)样本统计量(如均值、比例、方差等)的概率分布,是一种理论概率抽样分布

(samplingdistribution)总体计算样本统计量例如:样本均值、比例、方差样本抽样分布

(samplingdistribution)总(一)样本均值的抽样分布(一)样本均值的抽样分布在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布一种理论概率分布推断总体均值的理论基础

样本均值的抽样分布在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相样本均值的抽样分布

(例题分析)【例】设一个总体,含有4个元素(个体)

,即总体单位数N=4。4

个个体分别为x1=1、x2=2、x3=3

、x4=4

。总体的均值、方差及分布如下均值和方差总体分布14230.1.2.3P(X)样本均值的抽样分布

(例题分析)【例】设一个总体,含有4个元样本均值的抽样分布

(例题分析)

从总体中抽取n=2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果为3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第一个观察值所有可能的n=2的样本(共16个)样本均值的抽样分布

(例题分析)从总体中抽取n=2的简样本均值的抽样分布

(例题分析)计算出各样本的均值,如下表。并给出样本均值的抽样分布3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第一个观察值16个样本的均值(x)X样本均值的抽样分布1.00.1.2.3P(X)1.53.04.03.52.02.5样本均值的抽样分布

(例题分析)计算出各样本的均值,如样本均值抽样分布的特征值

(数学期望)设总体的均值是μ,方差是σ2,从中抽取容量为n的样本,则在重复抽样和不重复抽样条件下样本均值的数学期望样本均值抽样分布的特征值

(数学期望)设总体的均值是μ,方差样本均值的抽样分布

(方差)2、样本均值的方差重复抽样不重复抽样当抽样比n/N≤5%时,修正系数可以忽略不计。样本均值的抽样分布

(方差)2、样本均值的方差所有样本均值的均值和方差式中:N为样本数目,n为样本容量。比较及结论:1.样本均值的均值(数学期望)等于总体均值

2.样本均值的方差等于总体方差的1/n所有样本均值的均值和方差式中:N为样本数目,n为样本容量。样本均值的分布与总体分布的比较

(例题分析)=2.5σ2=1.25总体分布14230.1.2.3抽样分布P(X)1.00.1.2.31.53.04.03.52.02.5XP(X)样本均值的分布与总体分布的比较

(例题分析)=2样本均值的抽样分布

(总体是正态分布)=50

=10X总体分布n=4抽样分布Xn=16当总体服从正态分布N(μ,σ2)时,来自该总体的所有容量为n的样本的均值X也服从正态分布,X

的数学期望为μ,方差为σ2/n。即X~N(μ,σ2/n)样本均值的抽样分布

(总体是正态分布)=50=10中心极限定理

(centrallimittheorem)中心极限定理:设从均值为,方差为

2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布当样本容量足够大时(n

30),样本均值的抽样分布逐渐趋于正态分布一个任意分布的总体中心极限定理

(centrallimittheorem)无法使用样本的结果推断总体总体比例在1-置信水平下的置信区间为估计总体比例时样本容量的确定总体均值在1-置信水平下的置信区间为:提供了样本统计量长远稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据操作简单,可以保证样本的结构和总体的结构类似。每个单位被抽中的概率是已知的,或是可以计算出来的适用于方差分析、协方差分析和回归分析等。2.2分布

(性质和特点)适用于大规模的抽样调查,如我国的农作物产量调查、职工家计调查等抽样推断中常用的统计量及其分布调查员在街头、公园、商店等公共场所进行拦截调查根据比例区间估计公式可得样本量n为既可以对总体参数进行估计,也可以对各层的目标量进行估计置信区间

(confidenceinterval)将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本先将总体中的所有单位按一定的标志(变量)分为若干类,然后在每个类中采用方便抽样或判断抽样的方式选取样本单位。抽样分布

(samplingdistribution)设总体参数为θ,θ1和θ2为由样本确定的统计量,对于给定的α(0<α<1),若θ1和θ2满足中心极限定理

(centrallimittheorem)的分布趋于正态分布的过程无法使用样本的结果推断总体中心极限定理

(central抽样分布与总体分布的关系总体分布正态分布非正态分布大样本小样本正态分布正态分布非正态分布抽样分布与总体分布的关系总体分布正态分布非正态分布大样本小样(二)样本比例的抽样分布(二)样本比例的抽样分布比例

(proportion)总体(或样本)中具有某种属性的单位与全部单位总数之比合格品(或不合格品)与全部产品总数之比总体比例可表示为样本比例可表示为

比例

(proportion)总体(或样本)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论