版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第3章抽样与抽样分布3.1常用的抽样方法3.2抽样误差和置信度3.3抽样分布3.4中心极限定理的应用(结合《概率数理统计》课程自学)3.1常用的抽样方法
3.1.1概率抽样与非概率抽样3.1.2常用的概率抽样方法3.1.1概率抽样与非概率抽样1.概率抽样(1)概率抽样的概念和种类(2)概率抽样的特点(3)概率抽样的适用范围2.非概率抽样(1)非概率抽样的概念和种类(2)非概率抽样的特点
概率抽样的概念和种类“概率抽样”(ProbabilitySampling):又称为“随机抽样”(RandomSampling),它是按照“随机原则”从被调查对象的“总体”抽取“样本”的一种抽样方式。“随机原则”又称为“等概率原则”或“等机会原则”,就是排除“人为主观意愿”的干扰,使总体中的“每一个总体单位”都有“同等被抽中”为“样本单位”的“机会”。即:“每个总体单位”入选“样本”是随机的。概率抽样有简单随机抽样、分层抽样、系统抽样、整群抽样几种常用的抽样方法。概率抽样的特点A.能有效避免“主观选样”带来的“倾向性误差(系统偏高或偏低的误差)”。——从而使得“样本资料”能够用于估计和推断“总体的数量特征”,而且这种估计和推断得以建立在“概率论和数理统计”的科学理论基础上。B.抽样误差可以预先计算和控制。——从而保证了调查结果的“可靠程度”和“可信程度”。概率抽样的适用范围
A.在不可能或不必要进行全面调查的场合,如:具有破坏性的产品质量检查,不能采用全面调查,只能采用“概率抽样”。带有预见性的调查,如:农作物预计产量、森林蓄积量、牲畜增长的活体重调查等,不可能为了了解预计产量而收割、砍伐或涂在所有的“活产品”。B.对全面调查数据进行修正或补充的场合。如:人口抽样调查可以弥补人口普查在“登记性误差较大、时间间隔太长、调查内容不够详细”等方面的局限性。非概率抽样的概念和种类非概率抽样(Un-probabilitySampling):又称”非随机抽样”,它是从研究的目的出发,根据调查者的“经验或判断”,从总体中“有意识地”抽取“若干单位”构成“样本”的一种抽样方式。它是“不完全”遵循“随机原则”选取“样本”的。非概率抽样的类型:包括重点调查、典型调查、配额调查、随意调查(方便调查)等。非概率抽样的特点“非概率抽样”在及时了解大致情况、总结经验教训、进行大规模调查之前的试点等方面具有“概率抽样”无法取代的优越性。“非概率抽样”的效果取决于“调查的经验、主观判断”和“专业知识”,故难免掺杂调查的主观偏见,出现“因人而异”的结果,容易产生“倾向性误差”。“非概率抽样”不能计算和控制其“抽样误差”,无法说明“调查结果”的“可靠或可信程度”。——本章重点介绍“概率抽样”。3.1.2常用的概率抽样方法1.简单随机抽样2.分层抽样3.系统抽样4.整群抽样1.简单随机抽样
简单随机抽样的概念简单随机抽样的抽样框简单随机抽样的具体方法简单随机抽样的概念“简单随机抽样”(simplerandomsampling)是“概率抽样”的最基本的形式,它是指从总体中抽取n个单位作为样本时,完全遵循“随机原则”,使得“每一个总体单位”都有“相同的机会(概率)”被抽中的一种抽样方式。故也称之为“纯随机抽样”。进行“简单随机抽样”,要求有一个“完美的抽样框”,或者有包含总体“每一个总体单位”的“详尽名单”。为此,必须对总体中的“每一个总体单位”进行“编号”。故:“简单随机抽样”民间习俗称之为“抓阄”。简单随机抽样的抽样框抽样目标总体和抽样单位抽样框的概念
抽样框的主要表现形式
编制抽样框应注意的问题
抽样目标总体和抽样单位抽样目标总体:是根据调查目的确定的、抽样调查所要研究的对象全体。调查目的确定,目标总体也就随之确定。确定了“目标总体”,则“理论上的抽样范围”也就确定了。但在实际抽样过程中,“抽样的总体范围”与“目标总体”之间有时会不一致。抽样单位:是指抽样调查中“抽取样本的基本单位”。它可以是“各个总体单位”,也可以是“若干总体单位的集合(群)”。例如:对云南财经大学学生月均生活费情况进行调查,“目标总体”是“云南财大的所有学生”,“抽样单位”可以是“财大的每一个学生”还可以是“财大各个院系或班”。所以,确定了“目标总体”还须明确实际抽样时的“总体范围”和“抽样单位”。这就需要编制一个“抽样框”。抽样框的概念抽样框是实施抽样的基础。抽样框的好坏通常会影响到抽样调查的随机性和调查的效果。所谓“抽样框(Samplingframe)”:是指抽取样本的基本框架,它是由被抽样总体中的“抽样单位”构成的。亦即:“抽样框”是指包含“全部抽样单位”的“名单框架”。抽样框的主要表现形式名单抽样框:简称“名单框”,它由抽样单位的“名称”或“代号”构成。即列出被调查总体全部抽样单位的“名录一览表”。如:在册职工花名册等。区域抽样框:又称“地图框”或“区域框”,它是按照“地理位置”将“总体范围”划分成“若干小区域”,以“小区域”作为“抽样单位”。如:农产量调查中,将一大块地划分成“若干小块”,并对“所有小块地”编号。时间表抽样框:又称“时间框”,即全部总体单位按时间顺序排列,把总体的时间过程划分成“若干个小的时间单位”,用“小的时间单位”作为“抽样单位”。如对流水线上24小时生产的产品进行质量抽查,以5分钟为一个单位,则有24×60÷5=288个抽样单位,并按时间顺序排列。编制抽样框应注意的问题“抽样框”应该与“目标总体”一致。即:一个理想的抽样框,应该包括目标总体中的“全部总体单位”。亦即:目标总体中的任何一个“总体单位”,均应构成抽样框中的一个“抽样单位”,不能有“重复”或“遗漏”,更不能包含“非目标总体单位”。(例参见后面)编制抽样框应尽可能利用与所研究变量相关的辅助信息。抽样实践中,常常只能采用与“目标总体”相近似的“抽样框”。例如:对昆明市居民进行抽样调查如果以“昆明市电信局编制的电话号码簿”作为“抽样框”就很不科学。因为:有的居民住户,并没有安装电话;有的居民住户,则可能不止一个电话;或者电话号码簿上的有的号码,有可能不属于“居民户”,或者虽然属于“居民户”但早已变更。所以,从这样一个不完善的“抽样框”中抽出的“样本”就难以代表和反映“总体”。简单随机抽样的具体方法重复抽样不重复抽样重复抽样
重复抽样的概念
重复抽样的特点重复抽样的概念
重复抽样(samplingwithreplacement)又称为“回置抽样”,是指从“总体N个单位”中抽取一个“样本容量”为“n”的样本,“每次抽取一个单位”,在登记起“序号”和“相应的变量值”后,再将其“放回总体”中,参加“下一次抽取”,这样“连续抽取n次”,即得到“一个样本”。重复抽样的特点第一、“同一个总体单位”有可能被“重复抽中”;第二、每个样本被抽中的“机会或概率”是“相同”的;第三、“n次抽取”就是“n次独立的随机试验”;第四、重复抽样的可能的样本个数为个。不重复抽样
不重复抽样的概念不重复抽样的特点不重复抽样的概念不重复抽样(samplingwithoutreplacement)是指先从“总体N个单位”中抽取“一个单位”,在登记其“序号”和“相应变量值”后“不在放回总体”,“下一个单本单位”只能从“N-1个总体单位”抽取,以此类推,“第n个样本单位”只能从“(N-n+1)=N-(n-1)个总体单位”中抽取。从分布的角度看,它实际上等同于“一次性从总体N个单位”中抽取“n个单位”组成“一个样本”。不重复抽样的特点
第一、“同一总体单位”不可能“被重复抽中”;第二、“n次抽样”不再是“n此独立的随机试验”;第三、每抽选一次“总体单位随之减少一个”且“每个单位”在各次抽样中“被抽中的概率”不同;第四、”可能的样本个数“为”N个中抽取n个的组合”。即:2.分层抽样分层抽样的概念分层抽样的特点分层抽样的优点分层抽样的概念分层抽样:是指在抽样之前先将“总体”划分为“若干不同的层(类)”,然后再在“每一层”中采用“简单随机抽样”的方法抽取一定数量的单位组成一个样本的一种抽样方式。分层抽样可以防止“简单随机抽样”造成的“样本构成”与“总体构成”不成比例的现象。例如:样本中的“性别比”远远高于总体中的“性别比”。故特别适用于:总体单位数较多且数据之间高低大小悬殊较大的调查对象。例如:居民收入情况调查中,将居民划分为“高收入层”、“中等收入层”和“低收入层”。(请看教科书的例子P106)分层抽样的特点
A.分层抽样是将“统计分组”和“简单随机抽样”有机结合起来的一种抽样方式。B.在分层或分类时,应使“层内差异尽可能小”,而使“层与层之间的差异尽可能大”。C.各层的划分可根据研究者的判断或研究的需要进行。例如:研究的对象是“人”时,可按“性别”、“年龄”等分层;研究“收入的差异”时,可按城镇、农村分层,等等。分层抽样的优点分层抽样是一种常用的抽样方式,它具有以下优点:A.它既可以对总体进行估计,也可以对各层的“子总体”进行估计。B.它可以按自然区域或行政区域进行分层,使抽样的组织和实施都比较方便。C.它的样本分布在各层内,从而使样本在总体中的分布比较均匀。D.如果分层抽样做得好,可以提高估计的精度。3.系统抽样
(1)系统抽样的概念(2)系统抽样的优点系统抽样的概念又称为“等距抽样”或“机械抽样”,它是指先将总体各单位按照某种顺序排列而成“抽样框”,并按某种规则确定一个“随机起点”,然后每隔“一段距离”抽取一个“调查单位”,直至抽够一个“样本容量”为n的“样本”的一种抽样方法。它必须先计算出“抽样间隔K=N/n”,在确定“抽样起点”,最后按“固定的顺序和间隔”来抽取“样本单位”。系统抽样的随机性体现在“第一个间隔内抽样起点”的选择上。系统抽样的优点
A.简便易行。当样本容量(n)很大时,“简单随机抽样”要逐个选用“随机数字表”抽选也是相当麻烦的,而“系统抽样”有了总体单位的排序,只要确定抽样的“随机起点“和“抽样间隔”后,样本单位也就随之确定,而且可以用现有的排列顺序。例如:抽选学生时用学校的学籍花名册;抽选居民时可用居委会的户口本,等等。因此,“系统抽样”常常用来代替“简单随机抽样”。B.系统抽样的样本在总体中的分布一般比较均匀,抽样误差通常总要小于简单随机误差。如果掌握了总体的有关信息,将总体各单位按有关标志排列,就可以提高估计的精度。
举例例如:我国农产量调查,就是先对一个地区按照过去三年的“平均粮食产量”从高到低排队,然后从“高产量地块”随机地找到一个起点,按照一定的距离由高到低抽取地块作为样本。这种方法能够保证抽出的地块产量由高到低“均匀分布”,因而对总体的估计与推断的代表性较高。4.整群抽样(1)整群抽样的概念(2)整群抽样的特点整群抽样的概念“整群抽样”:又称为“集团抽样”,它是指调查时将总体划分成“若干群”,将“每一群”作为“一个抽样单位”,然后采用“简单随机抽样”的办法抽取“部分群”作为“样本”,并对抽中的各个群中所包含的所有个体单位进行调查或观察的一种抽样组织方式。例如:对昆明市五华区居民生活水平的调查,不是从“五华区居民住户”中直接抽取“住户”进行调查,而是从“五华区全部居委会”中随机地抽取“若干居委会”,然后再对“被抽中的居委会”中的“所有住户”都一一进行调查。
整群抽样的特点
A.“整群抽样”是将“简单随机抽样”和“普查”有机结合起来的一种抽样方法。B.“群”的划分可以是按“自然的或行政的区域”进行,也可以是“人为地组成群”。C.不需要有总体单位的“具体名称名单”,只需要有“群的名单”就可以进行抽样,而“群的名单”比较容易得到。D.整群抽样时群内各单位比较集中,对样本进行调查比较方便,节约费用。E.当群内的各单位存在差异时,整群抽样可以得到较好的效果。——理想的情况是:“每一群”都是整个总体的一个缩影(即:“群的分布”与“总体分布”相像)。在这种理想情况下,只需抽取很少的群,就可得到有关总体特征的信息。——如果实际情况不是这种“理想情况”,则整群抽样的误差就会很大,效果也就会很差。3.2抽样误差和置信度
3.2.1抽样误差的概念和种类3.2.2实际抽样误差3.2.3抽样平均误差3.2.4抽样极限误差3.2.5置信度3.2.6抽样极限误差、置信度和抽样估计精度三者之间的关系3.2.1抽样误差的概念和种类抽样误差是“抽样调查误差”之一,它仅指“随机误差”,即:由于抽样的“随机性”而产生的“样本统计量(估计量)”与“总体参数”之间的“代表性误差”。实际应用中,“抽样误差”又有“实际抽样误差”、“抽样平均误差”和“抽样极限误差”三种不同的概念。下面我们将依次分别介绍这三种抽样误差的概念。3.2.2实际抽样误差实际抽样误差:是指“某一具体样本”的“样本估计值”与“总体参数的真实数值”之间的差异。实际抽样误差=某一样本的估计值(θˆ)-总体参数的真实值(θ)在实际抽样调查中,由于“总体参数θ”未知,故每一次抽样的“实际抽样误差”是无法计算得到的。实际抽样误差随着抽取的样本不同而不同,故而它是一个“随机变量”,它可正可负,可大可小。抽样调查中,所谓“抽样误差可以计算和控制”并不是指某次实际抽样的“实际抽样误差”,而是从“所有可能样本”来考察的“抽样平均误差”和“抽样极限误差”。
3.2.3抽样平均误差1.抽样平均误差的理论含义和理论公式
2.抽样平均误差的作用3.对抽样平均误差理论公式的评价抽样平均误差的理论含义和理论公式
统计学中常用“标准差”来测定某一变量的所有变量值与其均值的平均差异程度,衡量“均值”的代表性大小。为此,可运用“样本估计量的标准差”反映“所有可能样本地估计值”与“样本均值”的平均差异程度。对于既定的“总体”和“样本容量”,“样本估计量”是以相应“总体参数”为其“分布中心”,即:所有可能的样本估计值均分布在“总体参数”周围。故“样本估计量的标准差”实际上反映的是“所有可能样本的估计值”与“总体参数”的平均差异程度,反映了所有可能样本的实际误差的一般水平。故:统计上将“样本估计量的标准差”定义为“抽样平均误差”。抽样平均误差的理论公式表示为:(式中:M表示“可能的样本个数”。)抽样平均误差的作用“抽样平均误差”概括地反映了“所有可能样本的估计值θ^”与“相应总体参数θ”的平均差异程度,可用来衡量“样本”对“总体”的“代表性大小”。即:抽样平均误差越小,在“样本统计量的分布”就越集中在“总体参数”的附近。平均说来,“样本估计值θˆ”与“总体参数θ”之间的抽样误差就越小,样本对总体的代表性就越大。反之,则然。对抽样平均误差理论公式的评价在上述“抽样平均误差”理论公式中,实际上“总体参数θ”本身是“未知”的,(如果已知,那么抽样调查也就失去了意义),我们也不可能列出“所有可能的样本估计值θ^”。故:抽样平均误差的上述理论公式,仅仅是个“定义式”,实际上根本无法直接计算。因此,我们只能采用“概率与数理统计”的有关理论,来推导“抽样平均误差”的计算公式。(关于这个问题,我们将在“抽样分布”一节介绍)3.2.4抽样极限误差1.抽样极限误差的概念2.与“抽样极限误差”有关的两个概念抽样极限误差的概念抽样极限误差(Δ):又称为“允许误差”,它是指在一定的概率保证下,抽样误差“可以允许(或可以接受)”的“误差范围”。即:在一定的概率保证(或一定的置信度)下,|θ^-θ|≤Δ表明在一定的概率保证下,可以认为“样本估计值θ^”与“相应总体参数θ”的“误差的绝对值”不超过Δ。“抽样极限误差”是“抽样误差的可能范围”,而非“完全肯定的范围”。因此,这个“可能范围”的大小,是与“估计的可能性大小(概率)”紧密联系的。与“抽样极限误差”有关的两个概念(1)抽样误差率:是指单位样本估计量中所包含的抽样极限误差大小。文字公式为:抽样误差率=抽样极限误差/样本估计量×100%(2)抽样估计精度=1-抽样误差率3.2.5置信度在抽样估计中,“估计的可能性大小”一般称之为“置信度”或“置信概率”,习惯上也称之为“可靠度”、“可信度”、“把握程度”或“概率保证程度”。亦即是指构造置信区间的步骤重复多次,在置信区间中包含总体参数真值的可能性大小(次数所占的比率)。设:x1、x2、…..、xn是来自密度(x,θ)的一个样本,对于给定的α,0<α<1,如果能够找到“两个统计量”:θ1和θ2,使得:概率P{θ1≤θ≤θ2}=1-α则称“1-α”为“置信度”。显然,在其他条件不变的情况下,抽样极限误差越大,则抽样估计的置信度就越大,估计的精确度就越低,反之则抽样估计的置信度就越小,估计的精确度就越高。附:置信度的定义图示
0xµ-Zα/2Zα/23.2.6抽样极限误差、置信度和抽样估计精度三者之间的关系抽样估计时,通常总是希望“估计的误差尽可能小”、“估计精度尽可能地高”且“估计的置信度要尽可能地大”。事实上,它们之间往往是矛盾的(鱼与熊掌不可得兼)。在其他条件不变的情况下,提高置信度(1-α),就会增大抽样极限误差,是估计精度降低;缩小抽样极限误差,提高估计精度,则会降低估计的置信度。可见,抽样估计时,不能只顾“提高估计的置信度”或者“缩小抽样极限误差”。若抽样极限误差(允许误差)范围过大,则估计的精度降低,此时估计的“置信度”接近或等于100%,抽样估计本身会失去意义。反之,置信度太低,尽管“估计精度”很高,但因“错误估计”的“可能性太大”,估计结果也无太大作用。所以,实际中应根据具体情况,可以先确定一个“合理的置信度(1-α)”,在求相应的“抽样极限误差(允许误差Δ)”;或者,先确定一个“允许误差”,在求“相应的置信度”。二者之间的具体联系,可根据“样本统计量”的抽样分布来确定。3.3抽样分布3.3.1抽样分布的概念3.3.2抽样分布的作用3.3.3寻求抽样分布的方法3.3.4样本均值的抽样分布3.3.5样本比率的抽样分布3.3.6样本方差的抽样分布3.3.7两个样本统计量的抽样分布3.3.1抽样分布的概念每个“随机变量”都有其“概率分布”。“样本统计量”是一个“随机变量”,它有“若干个可能的取值”,而且“每个可能的取值”都有“一定的概率(可能性)”,因此:所谓“抽样分布”(samplingdistribution)就是将“样本统计量的所有可能取值”及“每一个可能取值出现的概率”依次所作的排列而形成的“样本统计量的概率分布”。抽样分布的表现形式:“概率分布表”和“概率分布图”。“样本统计量”又是由“n个随机变量”构成的“样本的函数”,故“抽样分布”属于“随机变量函数”的“分布”。3.3.2抽样分布的作用对于“抽样分布”,同样可以计算其“均值”、“方差”和“标准差”等数字特征,来反映它的“集中趋势”和“离散程度”。由于“样本”是“随机抽取”的,事先并不可能确定会出现“哪个结果”,因此,“抽样分布”反映“样本统计量”的“分布特征”,是“抽样推断”的重要依据。根据“抽样分布的规律”,可揭示“样本统计量”与“总体参数”之间的关系,估计“抽样误差”,并说明“抽样推断”的“可靠度”。3.3.3寻求抽样分布的方法1.小样本法2.大样本法1.小样本法小样本法的概念
小样本法寻求抽样分布举例
小样本法的概念“小样本法”,又称“精确方法”,当总体的分布已知时,如果对任一自然数n,均能推导出“样本统计量分布的明显表达式”,则这种方法就称为“精确方法”,所得的分布,称为“精确抽样分布”。它对于样本容量较小(n<30)的统计推断问题特别有用,故称为“小样本法”。精确抽样分布,目前大多是在“正态分布”条件下得到的。小样本法寻求抽样分布举例我们通过下面的例子,利用“小样本法”来考察“样本均值抽样分布”的形成过程。[例]:设一个箱中装有红色、黑色、蓝色和黄色4种颜色的球各一个,即总体容量(总体单位个数)N=4,取值分别为:红色,黑色,蓝色,黄色。则总体分布状况如下图所示:
P(x)0.30.20.101234x可以看到:总体呈“均匀分布”,即:取每一个值的概率都等于。于是可计算出:总体均值:若从该总体中,采用“不重复抽样”的方法抽取样本容量为的随机样本(即:先摸出一个球,记下它的号码后不再放回箱中),则共有4个之中抽取2个的组合个可能的样本,然后计算出每一个样本的均值,结果如下表所示。6个可能的样本及其均值样本编号可能的样本样本单位的取值可能的样本均值
123456红,黑红,蓝红,黄黑,蓝黑,黄蓝,黄
1,21,31,42,32,43,4
1.52.02.52.53.03.5
由于每个样本被抽中的概率相同,均为1/6,将样本均值整理后得出下表:样本均值的取值样本均值的个数样本均值取值的概率
1.52.02.53.03.5
11211
1/6(0.167)1/6(0.167)2/6(0.332)1/6(0.167)1/6(0.167)
合计6
1(1.00)将“样本均值的所有可能取值”及其相应的“概率”绘制而成的分布图形,就是“样本均值的抽样分布”。
如下图所示:……….
0.40.30.20.1
0
1.01.52.02.53.03.5
“样本均值的抽样分布”的形成过程可概括成下图:总体N容量为n的所有样本计算出每一个样本均值并形成分布的抽样分布0x2.大样本法在大多数场合下,要么是“精确分布”不易求出,要么是其“表达式”难以应用,此时,根据“中心极限定理”可以求在“样本容量n无限增大”时“样本统计量”的“极限分布”,假如这种“极限分布”能求得,则当n较大时,可用此“极限分布”作为所求的“抽样分布”的一种近似。这种方法称为“大样本法”,这种“极限分布”常常称为“渐进分布”。许多现象的分布均服从或近似服从“正态分布”。——实际应用中,样本统计量的“抽样分布”,是通过“数学推导”或在计算机上利用程序进行模拟而得到的。3.3.4样本均值的抽样分布1.样本均值的抽样分布定理2.样本均值的抽样分布特征1.样本均值的抽样分布定理
(1)正态总体、总体方差已知时样本均值的抽样分布定理1(正态分布的再生定理):如果原有总体服从正态分布,且总体方差已知,那么无论样本容量的大小如何,那么样本均值的抽样分布都服从“正态分布”。(2)非正态总体或总体分布未知时样本均值的抽样分布
定理2(中心极限定理):从“总体均值μ和总体方差σ2”的“任意一个总体”中随机抽取“样本容量为n”的样本,当n充分大(一般要求n≥30)时,则样本均值的抽样分布”近似服从“正态分布”。(3)正态总体、总体方差未知时样本均值的抽样分布
定理3(小样本定理):设样本来自于X服从N(μ,σ2)的正态总体,总体方差未知,样本容量n<30,样本方差可以计算得到,则构造统计量t服从自由度为(n-1)的t分布。样本均值(抽样均值)的抽样分布与总体分布的关系可用下图来描述总体分布正态分布非正态分布总体方差已知总体方差未知大样本小样本小样本大样本
正态分布t分布大样本小样本
正态分布
非正态分布(具体的分布形状例题请看教科书P110-P111的图4.4)2.样本均值的抽样分布特征(1)重复抽样条件下的样本均值的抽样分布特征(2)不重复抽样条件下的样本均值的抽样分布特征(3)特别注意两点(1)重复抽样条件下的样本均值的抽样分布特征根据定理1看样本均值的抽样分布特征根据定理2看样本均值的抽样分布特征根据定理3看样本均值的抽样分布特征根据定理1看样本均值的抽样分布特征根据定理1(正态分布的再生定理)可知:若样本是抽自于X服从正态总体的简单重复随机样本,则:样本均值()服从正态分布。即:于是有以下分布特征:
a.样本均值的数学期望=样本均值的均值=总体均值即:b.样本均值的方差=总体方差÷样本容量即:表明:样本均值的方差缩小为总体方差的“n分之一”。(续前)c.样本均值的标准差=样本均值的方差的平方根=抽样平均误差即:
d.构造统计量Z服从均值为0、方差为1的标准正态分布。即:故称Z为“标准正态统计量”。(下同。)根据定理2看样本均值的抽样分布特征根据定理2(中心极限定理)可知,在“大样本”(通常要求n≥30)的情况下,无论原来的总体是否服从“正态分布”,样本均值的抽样分布都将趋近于“正态分布”。此时,又要区分为两种情况:a.总体方差已知的情形,样本均值的分布特征与前面相同。b.总体方差未知的情形,样本均值的分布特征为:第一、样本均值的数学期望=样本均值的均值=总体均值即:(续前)第二、样本均值的方差≈样本方差÷样本容量即:其中:样本方差第三、样本均值的标准差=样本均值的方差的平方根=抽样平均误差即:第四、构造统计量Z服从均值为0、方差为1的标准正态分布。
即:根据定理3看样本均值的抽样分布特征根据定理3(小样本定理)可知:在正态总体、总体方差未知且小样本(通常n<30)的情况下,样本均值服从“t分布”。于是可得以下分布特征:a.样本均值的数学期望=样本均值的均值=总体均值即b.样本均值的方差≈样本方差÷样本容量即:(续前)c.样本均值的标准差=样本均值的方差的平方根=抽样平均误差即:
d.构造统计量t服从“自由度为n-1的t分布”。即:~(2)不重复抽样条件下的样本均值的抽样分布特征根据定理1看样本均值的抽样分布特征根据定理2看样本均值的抽样分布特征根据定理3看样本均值的抽样分布特征根据定理1看样本均值的抽样分布特征根据定理1(正态分布的再生定理)可知:若样本是抽自于X服从正态总体的简单不重复随机样本,则:样本均值()服从正态分布,即:样本均值于是有以下分布特征:a.样本均值的数学期望=样本均值的均值=总体均值即:(续前)b.样本均值的方差=总体方差÷样本容量×修正系数即:c.样本均值的标准差=样本均值的方差的平方根=抽样平均误差
即:d.构造统计量Z服从均值为0、方差为1的标准正态分布。
即:根据定理2看样本均值的抽样分布特征根据定理2(中心极限定理)可知,在“大样本”(通常要求n≥30)的情况下,无论原来的总体是否服从“正态分布”,样本均值的抽样分布都将趋近于“正态分布”。即:此时,又要区分为两种情况:a.总体方差已知的情形,样本均值的分布特征与前面相同。b.总体方差未知的情形,样本均值的分布特征为:第一、样本均值的数学期望=样本均值的均值=总体均值(续前)第二、样本均值的方差≈样本方差÷样本容量×修正系数即:第三、样本均值的标准差=样本均值的方差的平方根=抽样平均误差即:第四、构造统计量Z服从均值为0、方差为1的标准正态分布。即:根据定理3看样本均值的抽样分布特征根据定理3(小样本定理)可知:在正态总体、总体方差未知且小样本(通常n<30)的情况下,样本均值服从“t分布”。于是可得以下分布特征:a.样本均值的数学期望=样本均值的均值=总体均值即:b.样本均值的方差≈样本方差÷样本容量×修正系数即:(续前)c.样本均值的标准差=样本均值的方差的平方根=抽样平均误差即:
d.构造统计量t服从“自由度为n-1的t分布”。即:(3)特别注意两点A.对于“无限总体”进行不重复抽样时,当总体容量时,其修正系数此时可以按“重复抽样”处理。B.对于“有限总体”进行不重复抽样时,当总体容量N很大而样本容量n很小时,其修正系数故也可以按“重复抽样”处理。[例1]:见教科书P113-114例4.2。(略)[例2]:一个具有n=64个观察值的随机样本抽自于均值等于20,标准差等于16的总体。(1)给出的抽样分布(重复抽样)的均值和标准差。(2)描述的抽样分布的形状。你的回答依赖于样本容量吗?(3)计算标准正态统计量Z对应于的值。(4)计算标准正态统计量Z对应于的值。[解]:(1)样本均值的抽样分布的均值=样本均值的数学期望=总体均值。即:在重复抽样的情况下,样本均值的方差为总体方差的1/n。即:(2)因为属于大样本,所以根据中心极限定理可知,样本均值的抽样分布近似服从均值为20,方差为4的正态分布。我的回答是依赖于样本容量的。(3)当时,标准正态统计量的值:(4)当时,标准正态统计量的值:3.3.5样本比率的抽样分布1.比率的概念2.比率的种类3.比率的均值和方差的计算公式4.样本比率的抽样分布定理1.比率的概念所谓“比率”,是指总体(或样本)中“具有某种属性的单位数”与“总体容量(或样本容量)”的比值,反映总体或样本种单位数“是”与“非”的构成。例如:男生人数与全班人数之比;废品数与全部产品数之比,等等。“比率”问题适用于研究“分类或定性的变量”。2.比率的种类
比率总体比率样本比率总体比率设总体容量为,其中具有“是”这种属性的单位数为,具有“非”这种属性的单位数为则:具有“是”这种属性的单位数与总体容量之比,就称之为“总体比率”,用表示,即总体比率而具有“非”这种属性的单位数与总体容量之比,则为:样本比率设总体容量为,其中具有“是”这种属性的单位数为,具有“非”这种属性的单位数为则:具有“是”这种属性的单位数与总体容量之比,就称之为“样本比率”,用表示,即总体比率而具有“非”这种属性的单位数与总体容量之比,则为:3.比率的均值和方差的计算公式
(1)比率的均值=比率本身即:总体比率(P)的均值=总体比率=P样本比率(p)的均值=样本比率=p(2)比率的方差=“是”的比率×(1-“非”的比率)即:总体比率(P)的方差=P(1-P)样本比率(p)的方差=p(1-p)附:(总体比率的均值和方差)的证明因为比率P和(1-P)分别表示的是“是”与“非”这两种属性或品质特征出现的比率(即频率)。由于“是”或“非”的属性,属于品质标志不是数量标志,无数值可言,故有必要将其进行数量化处理。一般地,令:“是”这种属性的变量值为1,“非”这种属性的变量值为0。则可得出频数分布表如下:频率
属性变量值X是非10P1-P(1-P)2×P
(0-P)2×(1-P)∑——1P(1-P)故总体比率的均值:
总体比率的方差:4.样本比率的抽样分布定理(1)样本比率的抽样分布(2)重复抽样的条件下样本比率的抽样分布定理(3)不重复抽样的条件下样本比率的抽样分布定理
(4)需要特别注意两点(1)样本比率的抽样分布样本比率的抽样分布,是指样本比率的所有可能取值及其相应的概率形成的相对频数分布,它是一种概率分布。(2)重复抽样的条件下样本比率的抽样分布定理重复抽样的条件下,当从总体中抽取一个“样本容量”为n的样本时,“具有某种属性的单位数(n0)”服从“二项分布”,记为:n0~B(n,P),且有:E(n0)=nP,V(n0)=nP(1-P),则:样本比率也服从“二项分布”,且有:亦即:样本比率的均值(或数学期望)=总体比率样本比率的方差(样本比率的抽样方差)=总体比率的方差÷样本容量根据“中心极限定理”,当n→+∞时,二项分布趋近于正态分布。因此,在大样本的条件下,如果和,那么“样本比率”近似地服从“正态分布”,即:根据“抽样平均误差”的定义和前述可知,样本比率的抽样平均误差公式如下:式中:总体比例P在实际计算中通常用“以前的总体比率”或“样本比率”来代替。(2)不重复抽样的条件下样本比率的抽样分布定理不重复抽样的条件下,则用“修正系数”即以修正,即:从总体中抽取一个“样本容量”为n的样本时,“具有某种属性的单位数(n0)”服从“二项分布”,记为:n0~B(n,P),且有:E(n0)=nP,V(n0)=nP(1-P),则:样本比率也服从“二项分布”,且有:亦即:
样本比率的均值(或数学期望)=总体比率样本比率的方差=总体比率的方差÷样本容量×修正系数根据“中心极限定理”,当n→+∞时,二项分布趋近于正态分布。因此,在大样本的条件下,如果和,那么“样本比率”近似地服从“正态分布”,即:根据“抽样平均误差”的定义和前述可知,样本比率的抽样平均误差公式如下:式中:总体比例P在实际计算中通常用“以前的总体比率”或“样本比率”来代替。(4)需要特别注意两点A.当对“无限总体”(N不知道)进行“不重复抽样”时,可以按“重复抽样”处理。B.对“有限总体”进行“不重复抽样”时,当N很大,而抽样比率时,其修正系数趋近于1,也可以按“重复抽样处理。3.3.6样本方差的抽样分布1.样本方差抽样分布的概念2.样本方差的抽样分布定理3.分布的性质和特点4.分布的适用范围1.样本方差抽样分布的概念要用“样本方差”去估计和推断“总体方差”,也必须知道“样本方差的抽样分布”。所谓“样本方差的抽样分布”,是指在重复选取样本容量为n的随机样本时,由样本方差的所有可能取值及其相应的概率形成的相对频数分布,它同样是一种概率分布。2.样本方差的抽样分布定理(1)统计证明:对于来自正态总体的简单随机样本,构造统计量(比值)的抽样分布服从自由度为
的“分布”。即:这是由阿倍(Abbe)于1863年首先提出,后来由海尔墨特(Hermert)和卡尔.皮尔逊(K.Pearson)分别于1875年和1900年推导出的。
(2)设,则标准正态统计量为:将标准正态统计量Z两边平方,并令:则Y服从自由度为1的“分布”,即:进一步可推导出:当总体时,从中抽取容量为的样本,则样本统计量3.分布的性质和特点
(1)分布的变量值始终为“正值”。(2)分布的形状取决于其自由度的大小,通常为“不对称的右偏分布”,但随着自由度的增大逐渐趋于对称。如下图:f(x)0图:不同自由度的分布xn=1n=4n=10n=20(3)分布的数学期望为,方差为(为自由度)。(4)分布具有“可加性”。即:若、是相互独立的两个随机变量,且,,则。(5)分布属于“渐进正态分布”。即:当n→∞时,“分布”渐渐地趋近于“正态分布”。即:4.分布的适用范围——可用于总体方差的估计和非参数检验等,利用Excel函数功能中的分布很容易得到“给定显著性水平”的临界值。这样可以利用分布来推断总体方差的置信区间。附:单一总体参数推断时样本统计量的抽样分布样本统计量样本比率p大样本样本均值非正态总体小样本正态总体或非正态总体大样本样本方差正态分布t分布正态分布分布3.3.7两个样本统计量的抽样分布1.引言2.两个样本均值之差的抽样分布3.两个样本比率之差的抽样分布4.两个样本方差比的抽样分布1.引言在对实际问题的研究中,有时我们所研究的是“两个总体”,即总体1和总体2,所关心的“总体参数”主要是:“两个总体均值之差()”、“两个总体比率只差()”、“两个总体方差之比()”。相应地,用于推断这些阐述的“样本统计量”分别是∶“两个样本均值之差()”、“两个样本比率之差()”、“两个样本方差比()”等。因此,需要分别研究两个总体参数推断时“样本统计量的抽样分布”。2.两个样本均值之差的抽样分布(1)两个样本均值差抽样分布的概念(2)两个样本均值之差的抽样分布定理(1)两个样本均值差抽样分布的概念从两个总体中分别独立地重复选取抽取容量为和的样本时,由两个样本均值之差的所有可能取值及其相应的概率形成的相对频数分布(概率分布),就是两个样本均值之差的抽样分布。(2)两个样本均值之差的抽样分布定理为了推断两个总体的均值之差,需要独立地从两个总体中分别抽取样本。假定从总体1中抽取容量为的样本,其样本均为,从总体2中抽取容量为的样本,其样本均值为。[定理1]:当总体1和总体2都服从“正态分布”时,即:,,则两个样本均值之差()的抽样分布服从“正态分布”。于是可得:A.两个样本均值之差的数学期望(抽样分布的均值)=两个总体均值之差即:B.两个样本均值之差的方差(抽样分布的方差)=两个样本的各自方差之和即:亦即:两个样本均之差的抽样分布,可用下图来表示
0[定理2]:当两个总体为“非正态分布”,且和比较大,一般要求,,根据中心极限定理,两个样本均值之差的抽样分布仍然可以用“正态分布”来近似。3.两个样本比率之差的抽样分布
(1)两个样本比率之差抽样分布的概念(2)两个样本比率之差的抽样分布定理(1)两个样本比率之差抽样分布的概念
从两个服从“二项分布”总体中分别独立地重复选取抽取容量为
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度园林景观规划合同
- 运动鞋市场发展现状调查及供需格局分析预测报告
- 2024年度物流仓储租赁合同
- 软式网球项目评价分析报告
- 2024年度北京市个人汽车租借合同
- 2024年度山地区域水土保持合同:生态环境改善与保护
- 2024年度办公室租赁装修合同
- 红酒盛酒瓶市场发展现状调查及供需格局分析预测报告
- 2024年度农资连锁经营合同
- 2024年度乙状乙方网络安全服务合同
- 运用PDCA康复医学科康复患者训练落实率品管圈QCC汇报
- 乡镇广播应急预案
- 钢包烘烤制度
- DB65T 3952-2016反恐怖防范设置规范 学校
- 土力学地基基础电子书
- 《化镍金之腐蚀》
- 国家电网公司计量现场施工质量工艺规范
- 《把数学画出来 小学画数学教学实践手册》读书笔记思维导图
- 【个人简历】求职简约风PPT模板
- 2023年企业首席质量官试题及答案
- 2023年创新英语大赛题目及答案
评论
0/150
提交评论