版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第六章第六章 抽样估计与假设检验抽样估计与假设检验 第一节第一节 抽样与抽样估计抽样与抽样估计第二节第二节 假设检验假设检验第一节第一节 抽样与抽样估计抽样与抽样估计一、基本概念一、基本概念二、抽样方式二、抽样方式三、抽样误差及其测度三、抽样误差及其测度四、抽样分布四、抽样分布五、参数估计五、参数估计一、基本概念一、基本概念l抽样、抽样估计抽样、抽样估计l总体、总体容量总体、总体容量l样本、样本容量、大样本和小样本样本、样本容量、大样本和小样本 l概率抽样、非概率抽样、抽样框概率抽样、非概率抽样、抽样框 抽样抽样即即抽样调查抽样调查,是是指在总体中选取部分单指在总体中选取部分单位组成样本并收集
2、样本位组成样本并收集样本单位的数据资料的过程。单位的数据资料的过程。抽样估计抽样估计是在抽样调查的基是在抽样调查的基础上,础上,利用利用样本的数据资料样本的数据资料计算计算样本指标样本指标,以样本特征以样本特征值对值对总体特征值总体特征值做出具有一做出具有一定可靠程度的定可靠程度的估计和判断估计和判断。总体总体(在抽样调查中又叫(在抽样调查中又叫全全及总体及总体或或母体母体,简称总体):,简称总体):是由是由被调查对象的全部单被调查对象的全部单位位所构成的集合体。所构成的集合体。总体容量总体容量:总体中的总体中的单位数,用单位数,用N N表示。表示。样本样本: :样本是从总体中抽取的进行调查的
3、抽取的进行调查的部分单位部分单位的集合体,又称抽样总体抽样总体。样本容量样本容量:样本中的样本中的单位数,用单位数,用n n表示。表示。大样本和小样本大样本和小样本:n30n30时称大样本,时称大样本,n n3030称小样本称小样本概率抽样概率抽样: :又称随机抽又称随机抽样,是按随机原则抽取样,是按随机原则抽取样本单位。样本单位。非概率抽样非概率抽样: :又称非随机抽样,又称非随机抽样,是指从研究的目的和需要出发,是指从研究的目的和需要出发,根据调查者的经验或判断,从根据调查者的经验或判断,从总体中总体中有意识地有意识地抽取部分单抽取部分单位构成样本。位构成样本。抽样框抽样框是包括全部抽样单
4、位的名单框架。是包括全部抽样单位的名单框架。形式有三种:形式有三种:名单抽样框名单抽样框、区域抽样区域抽样框框、 时间抽样框时间抽样框。简简单单随随机机抽抽样样分分层层抽抽样样整整群群抽抽样样系系统统抽抽样样多多阶阶段段抽抽样样概概率率抽抽样样方方便便抽抽样样判判断断抽抽样样自自愿愿样样本本滚滚雪雪球球抽抽样样配配额额抽抽样样非非概概率率抽抽样样抽抽样样方方式式 从总体从总体N个单位中随机地抽取个单位中随机地抽取n个单个单位作为样本,每个单位入选样本的概位作为样本,每个单位入选样本的概率是相等的。是最基本的抽样方法,率是相等的。是最基本的抽样方法,是其它抽样方法的基础。是其它抽样方法的基础。特
5、点:特点: 简单、直观,在抽样框完整时,简单、直观,在抽样框完整时,可直接从中抽取样本;用样本统可直接从中抽取样本;用样本统计量对目标量进行估计比较方便。计量对目标量进行估计比较方便。局限性:局限性: 当当N很大时,不易构造抽样框;很大时,不易构造抽样框;抽出的单位很分散,给实施调查抽出的单位很分散,给实施调查增加了困难;没有利用其它辅助增加了困难;没有利用其它辅助信息以提高估计的效率。信息以提高估计的效率。 将总体中若干个单位合并为组将总体中若干个单位合并为组(群群),抽样时直接抽取群,然后对中选群中抽样时直接抽取群,然后对中选群中的所有单位全部实施调查。整群抽样的所有单位全部实施调查。整群
6、抽样的值依赖于每一群对总体的代表性,的值依赖于每一群对总体的代表性,当群中元素不同质(不相似)时,整当群中元素不同质(不相似)时,整群抽样得到的结果最佳。群抽样得到的结果最佳。特点:特点:抽样抽样时只需群的抽样框,可简化工作量调时只需群的抽样框,可简化工作量调查的地点相对集中,节省调查费用,查的地点相对集中,节省调查费用,方便调查的实施。方便调查的实施。缺点缺点是估计的精度是估计的精度较差。较差。群群1 1群群2 2群群N N总体总体 将抽样单位按某种特征或某种规则划分为不同的层,然后将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本。又叫分类抽样或类型抽从不同
7、的层中独立、随机地抽取样本。又叫分类抽样或类型抽样。样。 分层抽样的值依赖于层内各元素是同质性(相似的)。使分层抽样的值依赖于层内各元素是同质性(相似的)。使层内差异小,层间差异大。优点:保证样本的结构与总体的结层内差异小,层间差异大。优点:保证样本的结构与总体的结构比较相近,从而提高估计的精度;组织实施调查方便;既可构比较相近,从而提高估计的精度;组织实施调查方便;既可以对总体参数进行估计,也可以对各层的目标量进行估计。以对总体参数进行估计,也可以对各层的目标量进行估计。 将总体中的所有单位将总体中的所有单位(抽样单位抽样单位)按一定顺序排列,在规定的范按一定顺序排列,在规定的范围内随机地抽
8、取一个单位作为初始单位,然后按事先规定好的围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其它样本单位。如果按相等的间隔抽取后续单位,则规则确定其它样本单位。如果按相等的间隔抽取后续单位,则称为等距抽样。称为等距抽样。优点:操作简便,可提高估计的精度优点:操作简便,可提高估计的精度缺点:对估计量方差的估计比较困难缺点:对估计量方差的估计比较困难 先将总体单位划分成若干大群,大群内先将总体单位划分成若干大群,大群内再分成若干小群。先按某种方法抽取大再分成若干小群。先按某种方法抽取大群,然后在中选群中抽取小群,再进一群,然后在中选群中抽取小群,再进一步抽样,从选中的群中抽取出若干个单
9、步抽样,从选中的群中抽取出若干个单位进行调查。具有整群抽样的优点,保位进行调查。具有整群抽样的优点,保证样本相对集中,节约调查费用,适用证样本相对集中,节约调查费用,适用于大规模的抽样调查,如:于大规模的抽样调查,如:我国的农作我国的农作物产量调查:全国农作物产量抽样调查,物产量调查:全国农作物产量抽样调查,首先由省所有县市级中抽取部分县市作首先由省所有县市级中抽取部分县市作为第一阶段样本,再从被抽中的县市中为第一阶段样本,再从被抽中的县市中抽取乡镇作为第二阶段样本,从被抽中抽取乡镇作为第二阶段样本,从被抽中乡镇中抽取村作为第三阶段样本,最后乡镇中抽取村作为第三阶段样本,最后从中选村中抽取农户
10、,并从农户的播种从中选村中抽取农户,并从农户的播种面积中抽取部分地块,进行实割实测,面积中抽取部分地块,进行实割实测,计算平均亩产量,然后逐级往上综合计计算平均亩产量,然后逐级往上综合计算平均亩产量,并推算全国总产量。算平均亩产量,并推算全国总产量。调查过程中由调查员调查过程中由调查员依据方便的原则,依据方便的原则,自行确定入选样自行确定入选样本的单位。本的单位。例如:例如:调查员在街头、调查员在街头、公园、商店等公公园、商店等公共场所进行拦截共场所进行拦截调查;厂家在出调查;厂家在出售产品柜台前对售产品柜台前对路过顾客进行的路过顾客进行的调查。调查。优点:优点:容易实施,调容易实施,调查的成
11、本低。查的成本低。缺点:缺点:样本单位的确样本单位的确定带有随意性,定带有随意性,样本无法代表有样本无法代表有明确定义的总体,明确定义的总体,调查结果不宜推调查结果不宜推断总体。断总体。 被调查者自愿参被调查者自愿参加,成为样本中加,成为样本中的一分子,向调的一分子,向调查人员提供有关查人员提供有关信息。信息。例如,参例如,参与报刊上和互联与报刊上和互联网上刊登的调查网上刊登的调查问卷活动,向某问卷活动,向某类节目拨打热线类节目拨打热线电话等,都属于电话等,都属于自愿样本。自愿样本。 自愿样本与抽样自愿样本与抽样的随机性无关,的随机性无关,样本是有偏的,样本是有偏的,不能依据样本的不能依据样本
12、的信息推断总体信息推断总体 研究人员根据经验、研究人员根据经验、判断和对研究对象的判断和对研究对象的了解,有目的选择一了解,有目的选择一些单位作为样本。例些单位作为样本。例如:如:重点抽样,典型重点抽样,典型抽样,代表抽样等方抽样,代表抽样等方式。式。 判断抽样是主观的,判断抽样是主观的,样本选择的好坏取决样本选择的好坏取决于调研者的判断、经于调研者的判断、经验、专业程度和创造验、专业程度和创造性。抽样成本比较低,性。抽样成本比较低,容易操作。样本是人容易操作。样本是人为确定的,没有依据为确定的,没有依据随机的原则,调查结随机的原则,调查结果不能用于推断总体。果不能用于推断总体。 先选择一组调
13、查单先选择一组调查单位,对其实施调查之位,对其实施调查之后,再请他们提供另后,再请他们提供另外一些属于研究总体外一些属于研究总体的调查对象,调查人的调查对象,调查人员根据所提供的线索,员根据所提供的线索,进行此后的调查。这进行此后的调查。这个过程持续下去,就个过程持续下去,就会形成滚雪球效应。会形成滚雪球效应。 适合于对稀少群体适合于对稀少群体和特定群体研究,容和特定群体研究,容易找到那些属于特定易找到那些属于特定群体的被调查者,调群体的被调查者,调查的成本也比较低。查的成本也比较低。 先将总体中的先将总体中的所有单位按一定所有单位按一定的标志的标志(变量变量)分分为若干类,然后为若干类,然后
14、在每个类中采用在每个类中采用方便抽样或判断方便抽样或判断抽样的方式选取抽样的方式选取样本单位。样本单位。 操作简单,可操作简单,可以保证样本的结以保证样本的结构和总体的结构构和总体的结构类似。类似。抽取具体样本单位抽取具体样本单位时,不是依据随时,不是依据随机原则,属于非机原则,属于非概率抽样概率抽样 。三、抽样误差及其测度三、抽样误差及其测度 1.1.统计误差及分类统计误差及分类 偏差偏差/系统误差:系统误差:由于破坏随机原则而产生随机性误差随机性误差/抽样误差:抽样误差:即使遵循随机原则,以样本指标代表总体指标时也会产生的偏差统计误差统计误差登记性误差登记性误差:统计调查中,由于观察、测量
15、、登记、计算等原因或被调查者提供虚假信息所造成。代表性误差代表性误差:以样本指标推断总体指标时产生的代表性程度的差异。2.2.抽样误差的度量抽样误差的度量 度量抽样误差的三个概念度量抽样误差的三个概念 (1)抽样实际误差)抽样实际误差:指某一次具体抽样中,样本指标值与总体参数真实值之间的偏差。 (2)抽样平均误差抽样平均误差:是指所有可能的样本指标与总体指标之间的平均差异程度,即样本估计值的标准差样本估计值的标准差。 (3)抽样极限抽样极限/允许误差允许误差:又称置信区间置信区间,是指一定概率下抽样误差的可能范围抽样误差的可能范围,说明样本估计量在总体参数周围变动的范围,记作。 抽样误差是指不
16、包括登记性误差和系统性误差在内的随机误差,它衡量了抽样估计的精确度。抽样平均误差抽样平均误差 抽样平均数的平均误差抽样平均数的平均误差 概念:概念:就是抽样平均数的标准差,反映抽样平均数的所有可能值对总体平均数的平均离散程度,记作 。 定义公式:定义公式: 其中: :各个可能样本的平均数 :总体平均数 :重复抽样条件下所有可能的样本数 )(xmxxi2)()(ixm可能样本的个数)(2-抽样平均误差抽样平均误差实际抽样推断中采用的公式实际抽样推断中采用的公式 重复重复简单随机抽样 不重复不重复简单随机抽样 其中, 为总体方差 为不重复抽样的修正因子 )(NnnNnNnx11-22nx2)()1
17、()(2NnNnx21NnN重复抽样重复抽样:也叫放回抽样,抽样过程中:也叫放回抽样,抽样过程中总体单位的总数不变,每个抽中单位有总体单位的总数不变,每个抽中单位有再次被抽中的可能。在重复试验中,样再次被抽中的可能。在重复试验中,样本可能个数是本可能个数是N Nn n。不重复抽样不重复抽样:也叫无放回抽样,每个单位只有一:也叫无放回抽样,每个单位只有一次被抽中的机会,总体单位数不断减少。次被抽中的机会,总体单位数不断减少。如果考虑顺序,样本可能个数为如果考虑顺序,样本可能个数为 如果不考虑顺序,样本可能个数为如果不考虑顺序,样本可能个数为!()!NNn!()! !NNn n抽样平均误差抽样平均
18、误差样本成数(比例)的抽样平均误差样本成数(比例)的抽样平均误差 重复抽样条件下:重复抽样条件下: 不重复抽样条件下:不重复抽样条件下: 总体中具有某种特征的单位占全部总体单位数的比例称为总体比例,记作 ,样本中具有此种特征的单位占全部样本单位数的比例称为样本比例,记作 。PpnPPp)1()()1 ()1 ()(NnnPPp)1 ()1 (1-1NnnNnNnp)(抽样极限误差抽样极限误差样本平均数的抽样极限误差:样本平均数的抽样极限误差:以绝对值形式表示的样本平均数的抽样误差的可能范围,用符号表示为: 即: 说明样本均值以确定的总体均值为中心,在 之间变动。在实际抽样估计中是以样本均值推断
19、总体均值的区间范围,因此,可将上述不等式做如下变换:xxxxxxxxxx抽样极限抽样极限/允许误差允许误差样本比例的抽样极限误差:样本比例的抽样极限误差:以绝对值形式表示的样本比例的抽样误差的可能范围,用符号表示为: 即: 同理,也可将上述不等式转换为:pPpppPpPpppPp四、抽样分布四、抽样分布(一)抽样分布的概念和种类(一)抽样分布的概念和种类(二)样本平均数的抽样分布(二)样本平均数的抽样分布(三)样本比例(成数)的抽样分布(三)样本比例(成数)的抽样分布(一)抽样分布的概念和种类(一)抽样分布的概念和种类1.概念概念 精确分布小样本分布:精确分布小样本分布:大多数是在正态分布总体
20、条件下得到的,但应用不广2.种类种类渐进分布大样本分布渐进分布大样本分布:样本容量无限增 大时统计量的极限分布,可看作是抽 样分布的一种近似。 抽样分布是样本统计量的概率分布抽样分布是样本统计量的概率分布。从一个总体中随机抽取容量相等的样本,根据样本资料计算某一统计量所有可能的概率分布,称为这个统计量的抽样分布。统计量是样本的函数,不依赖于任何未知参数;统计量是统计推断的基础,不同的统计推断问题需要构造不同的统计量;常用的统计量有:样本的均值、方差、离散系数精确的抽样分布很难得到,即使得到也很难推广应用;通常把样本量无限增大时统计量的极限分布作为抽样分布的一种近似,称为渐近分布;在精确分布与渐
21、近分布都无法得到的情况下,可以通过随机模拟来获得统计量的近似分布;如:为了得到某个统计量的分布函数,可以进行一系列类似试验得到一组该统计量的观测值,从而近似得到其经验分布函数。常见的抽样分布常见的抽样分布常见的抽样分布常见的抽样分布(一)正态分布(一)正态分布. .正态分布:正态分布:如果随机变量的概率密度函数为:-+其中,为常数且0,则称服从参数为、 的正态分布,记作 ,。正态分布是最常见的抽样分布正态分布是最常见的抽样分布22221)(xexfxXX(N)2常见的抽样分布常见的抽样分布2.标准正态分布标准正态分布:在正态分布中,当参数在正态分布中,当参数=0,=1时,时,则称服从标准正态分
22、布,记作则称服从标准正态分布,记作,1)。)。标准正态分布的分布密度和分布函数的性质如下:(1)是偶函数,即=(2)=1- (3)如果,则的分布函数为上述公式称为正态分布函数的标准化公式。上述公式称为正态分布函数的标准化公式。XX0(N)(x)(x)(x)( x)(x)( x)(xX(N)2X)()(xxF常见的抽样分布常见的抽样分布(二) 分布 设 是独立同分布的随机变量,且每个随机变量都服从标准正态分布,即 (0,1),则随机变量 = 的分布称为自由度为 的 分布,记作 ( )。 当当 时,时, 分布趋近于正态分布分布趋近于正态分布,即 ( )( ,2 )。 2nxxx,21ix2niix
23、12n22nn2n2nn常见的抽样分布常见的抽样分布(三)(三) 分布分布 设随机变量 与 相互独立, (0,1), ( ),则称随机变量 服从自由度为 的 分布,记作 ( )。 当当 时,时, 分布趋近于标准正态分布分布趋近于标准正态分布。实际应用中,当 30时, 分布可用标准正态分布近似。tXYXY2nnYXt/nttnnttn常见的抽样分布常见的抽样分布(四)(四) 分布分布 1.设随机变量 与 相互独立,且分别服从自由度为 、 的 分布,则称随机变量 服从第一自由度为 、第二自由度 为 的 分布,记作 ( , )。 2. 分布对于两个总体的方差比的统计推断问题十分重要,是方差分析等统计
24、推断方法的基础。与前两种分布不同的是 分布不以正态分布为其极限分布,它总是一个正偏分布是一个正偏分布。 FFFF XY1n2n221/nYnXF 1n2n1n2nFF(二)样本平均数的抽样分布(二)样本平均数的抽样分布(一)总体方差(一)总体方差 已知时,样本平均数已知时,样本平均数 的抽样的抽样分布分布 设总体 ,( )是一个简单随机样本,则有: ( , ) 将样本平均数标准化,即有: N(0,1) 说明:正态分布总体的样本平均数的数学期望值等样本平均数的数学期望值等于总体平均数,样本平均数的方差等于总体方差除以样于总体平均数,样本平均数的方差等于总体方差除以样本容量本容量,同时也说明了样本
25、平均数抽样分布具有的基本性质。 2x),(2NXnxxx,21xNn/2)(xEnxV/)(2/)(nxxxZ(二)样本平均数的抽样分布(二)样本平均数的抽样分布(一)总体方差(一)总体方差 已知时,样本平均数已知时,样本平均数 的抽样分布的抽样分布 中心极限定理:中心极限定理:设 是具有期望值 ,方差 的任意总体,则样本平均数的抽样分布将随 的增大而趋于总 体平均数为 ,标准差为 的正态分布,即 渐近服 从 ( , )。 将这一正态随机变量进行标准化,则有 0,1) *说明:样本无论抽自正态或非正态总体,只要样本容说明:样本无论抽自正态或非正态总体,只要样本容量足够大,在总体平均数量足够大,
26、在总体平均数 和方差和方差 已知和有限的条件下,已知和有限的条件下,样本平均数样本平均数 的抽样分布就会趋于正态分布。一般认为样本的抽样分布就会趋于正态分布。一般认为样本容量容量 30时,即可用中心极限定理作为推断的依据。时,即可用中心极限定理作为推断的依据。2xX2nnXxNn/2(/NnxZn2x(二)样本平均数的抽样分布(二)样本平均数的抽样分布(二)总体方差(二)总体方差 未知时,样本平均数未知时,样本平均数 的抽样分布的抽样分布 当总体方差 未知时,可以用样本方差 代替总体方差 ,或用样本标准差 代替总体标准差 ,则有: 设总体 , ),( )是 其一个简单随机样本,样本平均数为 ,
27、样本标准差 , 则统计量 ( ) *即当总体方差未知时,样本平均数服从自由度为即当总体方差未知时,样本平均数服从自由度为 的的 分布分布 2x22S2S( NX2nxxx,21xSnSxt/t1n1ntt t分布的性质分布的性质 t t分布与正态分布相类似,具有对称性。分布与正态分布相类似,具有对称性。 t t分布的均值与标准正态分布均值相同,为分布的均值与标准正态分布均值相同,为0 0,但,但方差为方差为(n-1)/(n-3)(n-1)/(n-3)。由此,在求由此,在求t t分布的方差时定义分布的方差时定义自由度必须大于自由度必须大于2 2。标准正态分布的方差等于标准正态分布的方差等于1 1
28、,因此,因此,t t分布方差总大于分布方差总大于标准分布的方差,也就是说,标准分布的方差,也就是说,t t分布比正态分布略分布比正态分布略“胖胖”些。些。t t分布与正态分布:分布与正态分布: 当自由度增大时,当自由度增大时,t t分布的方差接近于标准正态分布的方差接近于标准正态分布方差值分布方差值1 1。例如:。例如: 当当n-1=10n-1=10时,时,t t分布的方差为分布的方差为10/8=1.2510/8=1.25; 当当n-1=30n-1=30时,时,t t分布的方差为分布的方差为30/28=1.0730/28=1.07; 当当n-1=100n-1=100时,时,t t分布的方差为分
29、布的方差为100/98=1.02100/98=1.02; 结论:随着自由度的逐渐增大,结论:随着自由度的逐渐增大,t t分布近似于正分布近似于正态分布。因此,对于态分布。因此,对于t t分布,不要求其样本容量很大,分布,不要求其样本容量很大,k=k=3030时,时,t t分布与正态分布已很近似。分布与正态分布已很近似。(三)样本比例(成数)的抽样分布(三)样本比例(成数)的抽样分布 当从总体中抽取一个容量为 的样本时,样本中具有某种特征的单位数 服从二项分布,即有 , ),且有 , 因此样本比例 也服从二项分布,且有: 根据中心极限定理,当 时,二项分布趋近于正态分布。所以,在大样本下,若在大
30、样本下,若 和和 均大于均大于5,样本,样本 比例近似服从正态分布:比例近似服从正态分布:nxxnB(PnPXE)()1 ()(PnPXVnxp/PxEnnxEpE)(1)()()1 (1)(1)()(2PPnxVnnxVpVnnP)1 (Pn)1 (1,PPnPNP五、参数估计(一)统计估计问题(一)统计估计问题(二)点估计(二)点估计(三)区间估计(三)区间估计(一)统计估计问题l 统计估计又叫抽样估计,统计估计又叫抽样估计,是指利用抽样调查取得的样本实际资料,采用一定的估计方法,去估计和推断相应总体的分布(非参数估计非参数估计),或在已知总体分布情况下,去估计和推断未知的指标(参数估计参
31、数估计)的一种统计分析方法。一种统计分析方法。l 由于总体指标是表明总体数量特征的参数,多数实际问题是需要掌握总体指标,因此抽样估计多被称为:参数估计参数估计。l 评价估计量的标准:无偏性、有效性、一致性评价估计量的标准:无偏性、有效性、一致性(二)点估计 如果总体随机变量的分布函数已知,如果总体随机变量的分布函数已知,但它的一个或多个参数未知,若从总体中但它的一个或多个参数未知,若从总体中抽取一组样本观察值,以该组数据来估计抽取一组样本观察值,以该组数据来估计总体参数,就称为参数的点估计。总体参数,就称为参数的点估计。 计算简便直观,一般不考虑抽样误差计算简便直观,一般不考虑抽样误差和可靠程
32、度,适用于对估计准确与可靠程和可靠程度,适用于对估计准确与可靠程度要求不高的情况。度要求不高的情况。 例例 某厂对所生产的电子元件抽取某厂对所生产的电子元件抽取5%5%进行抽样进行抽样调查,计算出样本的平均耐用时间调查,计算出样本的平均耐用时间=4340=4340小时,小时,样本合格率样本合格率=98%=98%。请估计该厂所生产的电子元。请估计该厂所生产的电子元件的平均耐用时间和合格率。件的平均耐用时间和合格率。 解:解:点估计法是用样本指标直接作为总体指标的代表值,所以,全部电子元件的平均耐用时间即为4340小时;总体合格率为98%。(三)区间估计1.1.区间估计的概念区间估计的概念 根据样
33、本统计量根据样本统计量以一定的可靠程度去估计总体参数估计总体参数值所在的范围或区间值所在的范围或区间,是抽样估计的主要方法。2.2.区间估计的置信度与精确度区间估计的置信度与精确度 (1 1)置信度)置信度:表示区间估计的可靠程度或把握程度区间估计的可靠程度或把握程度,也即所估计的区间包含总体参数真实值的可能性大小,一般以1- 表示。其中 表示显著性水平,即某一小概率事件发生的临界水平。 置信度通常采用三个标准: (1)显著性水平=0.05,即1- =0.95 (2)显著性水平=0.01,即1- =0.99 (3)显著性水平=0.001,即1- =0.999 (2 2)抽样估计的精确度)抽样估
34、计的精确度:用置信区间的大小置信区间的大小即抽样极抽样极限限/ /允许误差允许误差来表示 (3 3)抽样估计的置信度置信度与精确度的矛盾关系精确度的矛盾关系 在样本容量和其他条件一定样本容量和其他条件一定的情况下, 若希望抽样估计有较高的可靠度较高的可靠度,则必须扩大置信区间,即必须降低估计的精确度必须降低估计的精确度; 若希望抽样估计有较高的精确度较高的精确度,即置信区间范围缩小,则必须降低估计的把握度必须降低估计的把握度。 即:抽样估计要求的把握度越高,则抽样允许误差越大,抽样估计要求的把握度越高,则抽样允许误差越大,精确度越低精确度越低;反之则相反反之则相反。 *思考:思考:在抽样调查中
35、,如何同时提高抽样估计的精确度和把握度?3.3.区间估计的应用:一个总体参数(区间估计的应用:一个总体参数(总体均值总体均值、总体比例总体比例、总体方差总体方差)的区间估计)的区间估计区间估计的应用区间估计的应用(一)总体均值的区间估计(一)总体均值的区间估计 1.总体方差已知时总体方差已知时 当 , )时,来自该总体的简单随机样本 的样本均值服从数学期望为 、方差 为的正态分布,将样本均值统计量 标准化,得到 统计量 根据区间估计的定义,在给定的显著性水平 下,总体均值 在 1- 的置信度下的置信区间为: ( , ),即 其中, 即抽样平均误差 , 即抽样允许误差 ( NX2nxxx,212
36、x) 1 , 0(/NnxZZnZx2/nZx2/xxxx)(xnnZ2/x1.1.总体方差已知时总体均值的区间估计总体方差已知时总体均值的区间估计 例题应用例题应用 例例 某厂生产的零件长度服从正态分布,从该厂生产的零件中随机抽取25件,测得它们的平均长度为30.2厘米。已知总体标准差 =0.45厘米。 要求:要求:(1)计算抽样平均误差和抽样允许误差 (2)估计零件平均长度的可能范围( =0.05) 已知已知: , ), =30.2, =25, 1- =0.95,( NX245. 0 xn解题过程解题过程 (1)抽样平均误差 查标准正态分布表可知在 =0.05时, =1.96,所以,抽样允
37、许误差 (2)总体均值的置信区间为: ( , )= =( , )= (30.02,30.38) 即我们可以以95%的概率保证该厂零件平均长度在30.02厘米到30.38厘米之间。 09. 02545. 0)(nx2/Z1764. 009. 096. 12/nZxnZx2/nZx2/),(xxxx1764. 02 .301764. 02 .30nZxNnxZ) 1 , 0(/2.2.总体方差未知时总体均值的区间估计总体方差未知时总体均值的区间估计*总体方差 未知,可以以样本方差 代替,但新的统计量不服从标准正态分布,而是服从自由度为 -1的 分布 *给定置信度1- ,可查 分布表确定临界值 从而
38、总体均值的置信区间为: ( , ) 其中, 即为抽样平均误差 即为抽样允许误差上式也可表示为: 22Sntt) 1(2/ntnStxn 12/nStxn 12/)(1xnSnnStn 12/xxxxx例题应用例题应用 例例 从某市高中生中按不重复抽样方法随机抽取25名调查每周收看电视的时间,分组资料见表。 要求:要求:(1)计算抽样平均误差和抽样允许误差 (2)估计该市全体高中生每周平均看电视时间的置信区间(给定的显著性水平为0.05)。解题过程(一)解题过程(一)已知:已知: =25, =0.05样本均值 样本方差 =4.16(1)查 分布表知 =0.05时,临界值 = 2.0639,因此,
39、 抽样平均误差 抽样允许误差n)(5251987856321小时x2515)-(98)5-7(8)5-5(6)5-3(25)-(1222222s) 1(2/nt ) 125(025. 0t408.02516.4)(1nSxn842.0408.00639.212/nStnxt解题过程(二)解题过程(二)(2)总体均值置信度为95%的置信区间为:( , ) = =(5-0.842,5+0.842)=(4.16,5.84) 即我们可以以95%的把握保证该市高中生每周平均看电视时间在4.16到5.84小时之间。 nStxn12/nStxn12/),(xxxx(二)总体比例的区间估计(二)总体比例的区间
40、估计 *在大样本下,样本比例的分布趋近于均值为 、方差为 的正态分布。因此,给定置信度1- ,查正态分布 表得 ,则样本比例的抽样极限误差为: 所以,总体比例的置信度为1- 的置信区间为: PnPP)1 ( 2/Z)(2/pZppppPp例题分析例题分析 例例 某厂对一批产成品按不重复抽样方法随机抽选200件进行质量检测,其中一等品160件,试以90%的概率估计一等品率的范围。 已知已知: ,1- =90%, =200 查表知: =1.645 计算得样本比例的抽样平均误差为: 抽样极限误差为: 所以,该批产品的一等品比例的置信区间为: 即这批产品的一等品率在75.35% 到84.66% 之间。
41、%80200160pn2/Z%83.2200%)801 (%80)1 ()(nppp%655. 4%83. 2645. 1)(2/pZp%655. 4%80%655. 4%80P(三)总体方差的区间估计(三)总体方差的区间估计 1.大样本情况下,样本标准差 的分布近似服从正态分布 ,所以,总体标准差 的置信度为1- 的置信区间近似为: ( ) 2.小样本情况下,若总体呈正态分布且其均值和方差未知,则总体方差 的置信区间可由如下统计量的分布来确定: 总体方差的置信度为1- 的置信区间为: ( , ) S)2/,(2nNnSZSnSZS2,22/2/)1()1(2222nSn)1()1(22/2n
42、Sn)1()1(22/12nSn2例题应用例题应用 例例 从某班学生中随机抽取16人,计算得语文平均成绩为75分,方差为25分。假定学生成绩服从正态分布,试求总体方差及标准差的置信区间(给定的显著性水平为0.05)。 解解:已知 =25, =0.05,查 分布表确定两个临界值: = = 将临界值数字带入上述公式中,总体方差 和标准差的置信度为1- 的置信区间分别为: ( , ),即为(13.64,59.89) ( , ),即为(3.69,7.74) n2) 1(2/12n262. 6) 116(975. 02) 1(2/2n488.27) 116(025. 022488.2725)116(26
43、2.625)116(64.1389.59第二节第二节 假设检验假设检验 参数估计我们主要学习了在总体分布已知的情况下参数估计我们主要学习了在总体分布已知的情况下,如何根如何根据样本去得到参数的优良估计。但有时据样本去得到参数的优良估计。但有时,我们并不需要估计我们并不需要估计某个参数的具体值而只需验证它是否满足某个条件某个参数的具体值而只需验证它是否满足某个条件,这就是这就是统计假设检验问题。统计假设检验问题。假设检验是对总体的分布函数的形式假设检验是对总体的分布函数的形式或分布中某些参数做出某种假设或分布中某些参数做出某种假设, ,然后通过抽取样本然后通过抽取样本, ,构造构造适当的统计量适
44、当的统计量, ,对假设的正确性进行判断的过程。对假设的正确性进行判断的过程。非参数假设检验非参数假设检验总体分布未知时的总体分布未知时的假设检验问题假设检验问题参数假设检验参数假设检验总体分布已知,总体分布已知,检验关于未知参数检验关于未知参数的某个假设的某个假设引例引例一、假设检验的基本思想一、假设检验的基本思想二、假设检验中的两类错误二、假设检验中的两类错误三、三、 假设检验的方法步骤假设检验的方法步骤四、一个正态总体的假设检验四、一个正态总体的假设检验例:例:某工厂生产某工厂生产1010欧姆的电阻欧姆的电阻. .根据以往生产根据以往生产的电阻实际情况的电阻实际情况, ,可以认为其电阻值可
45、以认为其电阻值 X XN(N( , , 2 2),),标准差标准差=0.1=0.1。现在随机抽取。现在随机抽取1010个电阻个电阻, ,测得它们的电阻值为测得它们的电阻值为: : 9.9, 10.1, 10.2, 9.7, 9.9, 9.9, 10, 9.9, 10.1, 10.2, 9.7, 9.9, 9.9, 10, 10.5, 10.1, 10.2. 10.5, 10.1, 10.2. 试问试问: :从这些样本从这些样本, ,我们能否认为该厂生我们能否认为该厂生产的电阻的平均值产的电阻的平均值 为为1010欧姆欧姆? ?引例引例u确定总体确定总体: :记X X为该厂生产的电阻的测量值。为
46、该厂生产的电阻的测量值。根据假设根据假设,X ,X N(N( , , 2 2),),这里这里 =0.1.=0.1.u明确任务明确任务: : 通过样本推断通过样本推断X X的均值的均值是否等是否等于于1010欧姆。欧姆。u假设假设: :上面的任务就是要通过样本去检验上面的任务就是要通过样本去检验“X X的均值的均值=10”=10”这样一个假设是否成立。这样一个假设是否成立。( (在数理统计中在数理统计中把把“X X的均值的均值=10”=10”这样一个这样一个待检验的假设记作待检验的假设记作“H H0 0:=10:=10”称为称为 “原假原假设设”或或 “零假设零假设”。这是个什么问题?这是个什么
47、问题? 原假设的对立面是原假设的对立面是“X X的均值的均值10”10”记作记作“H H1 1:1010”称为称为“对立假设对立假设”或或“备择假设备择假设”. .把它们合写在一起就是把它们合写在一起就是: : H H0 0:=10 :=10 H H1 1:1010解决问题的思路分析解决问题的思路分析: 样本均值是样本均值是的一个良好估计的一个良好估计. . 如果如果=10,=10,即原假设成立时即原假设成立时, ,那么那么: :这里的问题是这里的问题是, ,我们如何确定常数我们如何确定常数K K呢呢合理的思路是找出一个界限合理的思路是找出一个界限K,K, 细致的分析细致的分析: : n=10
48、 n=10 =0.1=0.1) 1 , 0(/NnXZ设) 1 , 0(10/1 . 0NXZ于是于是, ,当原假设当原假设 H H0 0:=10 :=10 成立时成立时, ,有有: 为确定常数为确定常数K,K,现在我们考虑一个相当小的正现在我们考虑一个相当小的正数数 , ,例如例如 =0.05.=0.05. 于是于是, ,当原假设当原假设 H H0 0:=10 :=10 成立时成立时, ,有有: :) 1 , 0(10/1 . 010NXZ2/10/1 . 010ZXP10/1 . 0102/ZXP062. 0101 . 096. 110/1 . 02/ZK取我们就拒绝原假设我们就拒绝原假设
49、 H H0 0:=10. :=10. 我们就接受原假设我们就接受原假设 H H0 0:=10.:=10. 现在我们就得到检验准则如下现在我们就得到检验准则如下: :时当062. 010 X时当062. 010 X062. 005. 010-05.10XX,因为:所以,从这些样本中所以,从这些样本中, ,我们可以认为该厂生我们可以认为该厂生产的电阻的平均值产的电阻的平均值 为为1010欧姆。欧姆。 例题的思路例题的思路符合人们的逻辑符合人们的逻辑, , 这种思维叫这种思维叫: : 带概率性质的反证法带概率性质的反证法u 带概率性质的反证法的逻辑是带概率性质的反证法的逻辑是: : 如果假设如果假设
50、H H0 0是正确是正确的的话话, ,出现一个出现一个概率很小概率很小的的事件事件, ,则以很大的把握否定假设则以很大的把握否定假设H H0 0。 通常的反证法设定一个假设以后通常的反证法设定一个假设以后, ,如果出现如果出现的事实与之矛盾的事实与之矛盾,(,(即如果这个假设是正确的即如果这个假设是正确的话话, ,出现一个概率等于出现一个概率等于0 0的事件的事件) )则绝对地否定假设。则绝对地否定假设。为了判断用简便方法测得的有害气体含量是否有系统偏差,提出两个相互对立的假设) 1 , 0(/0NnXZ检验法则的建立原则上依赖于小概率事件。其思想是先假设H0是正确的,在H0正确的假设下构造一
51、个事件A,使A在H0正确的条件下发生的概率很小,即PA|H0很小,而一般认为“一个概率很小的事件在一次试验中是几乎不可能发生的”,进行一次试验,若A竟然发生,则H0的正确性值得怀疑,因而决定拒绝原假设H0。一、一、 假设检验的基本思想假设检验的基本思想统计假设检验问题的一般提法是:在给定备择假设H1下对原假设H0作出判断,若拒绝原假设H0,则接受备择假设,否则就接受原假设H0。 在H0对H1的检验问题中要作出某种判断,必须从样本(X1,X2,.,Xn)出发制定一个法则,一旦样本观察值(x1,x2,.,xn)确定,可利用所构造的法则作出判断:拒绝H0还是拒绝H1.这种法则称为H0对H1的一个检验
52、法则,简称为一个检验法则,或一个检验. 检验法则本质上就是把样本空间划分为两个互不相交的子集C和C*,使得当样本(X1,X2,.,Xn)的观察值(x1,x2,.,xn)C时,将拒绝原假设H0,若(x1,x2,.,xn)C*,则接受原假设.这样的划分构成一个准则,称样本空间的子集C为检验的临界域(或拒绝域). 一类错误是,当H0为真时,因为尽管事件A|H0是小概率事件,但仍有可能发生,即样本观察值(x1,x2,.,xn)C时,按检验法则将拒绝原假设H0,这种错误称为第一类错误。犯第一类错误的概率即为我们选定的小概率事件的概率PA|H0=,称为犯第一类错误的概率或拒真概率。即 根据检验法则,若A发
53、生则拒绝H0,否则接受H0,这不免要犯两类错误。二、假设检验中的两类错误二、假设检验中的两类错误P拒绝H0 |H0为真= PA|H0 =P(x1,x2,.,xn)C |H0为真 = 另一类错误是,当原假设H0不真,即H1为真时,A也有可能不发生,即样本观察值(x1,x2,.,xn)C*,按检验法则将接受原假设H0,这种错误称为第二类错误.犯第二类错误的概率P|H1=,称为犯第二类错误的概率或受伪概率.即P接受H0 |H1为真= P|H1 =P(x1,x2,.,xn)C* |H1为真 = 假设检验的两类错误假设检验的两类错误P拒绝拒绝H0|H0为真为真=P接受接受H0|H0不真不真= 犯两类错误的概率犯两类错误的概率: :显著性水平显著性水平 为犯第一类错误的概率为犯第一类错误的概率.H0为真为真实际情况实际情况决定决定拒绝拒绝H0接受接受H0H0不真不真第一类错误第一类错误正确
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年数据策略咨询项目发展计划
- 旧施工方入场培训考试
- (十)第一次世界大战争和战后初期的世界练习题
- 2024年中粘煤项目建议书
- 2024年铬氧化铝陶瓷材料项目发展计划
- 2024年热压硫化锌(ZNS)晶体合作协议书
- 实习生薪资合同
- 春游的心得体会1000字(34篇)
- 高端私人家具买卖合同(32篇)
- 火锅店后厨年度总结(3篇)
- 第十五届全国交通运输行业职业技能大赛(公路收费及监控员赛项)考试题库-中(多选题)
- 外研版2024七年级上册Unit6 The power of plants知识清单(默写版)
- TSDPIA 03-2023 宠物猫砂生产质量安全管理规范
- 2025届高考写作指导:二元思辨类作文指导
- 心衰健康宣教课件
- 河南省洛阳市2024届九年级下学期中考一模数学试卷(含解析)
- 3.1DNA是主要的遗传物质课件高一下学期生物人教版必修22
- 2024年数据安全管理员(高级技师)职业鉴定考试题库-下(判断题)
- 《新能源场站及接入系统短路电流计算第2部分:光伏发电》
- 2024年重庆市中考数学真题试卷及答案解析(b卷)
- 高中语文新课标课外必读书目
评论
0/150
提交评论