版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第六章抽样理论与参数估计第一节抽样的基本概念一、概念回顾二、抽样方法三、抽样设计的意义及原则四、样本容量的计算统计推断的可靠性与下列因素有关
1.数据的质量样本对总体的代表性,既涉及到抽样方法,又涉及到样本的容量。2.运用统计方法及数据处理的准确性3.样本对总体的代表性在收集数据的过程中控制选择恰当的方法通过抽样设计控制一、概念回顾总体、个体、样本参数、统计量二.几种重要的随机抽样方法
1.简单随机抽样(simplerandomsampling)简单随机抽样就是按照随机原则直接从总体中抽取出若干个单位作为样本。简单随机抽样法能保证总体中的每一个对象都有同等的被抽取到的可能性,并且个体之间都相互独立。这是在总体异质性不是很大而且所抽取的样本较小时经常采用的一种形式。
简单随机抽样法的局限是:当样本规模小时,样本的代表性较差。简单随机取样有两种基本方式:抽签法(drawinglots)随机数字表法(randomnumbertable)2.等距抽样
等距抽样(intervalsampling)也称为机械抽样或系统抽样。实施时,先把总体中的所有个体按一定顺序编号,然后依固定的间隔取样。等距抽样可以保证样本的成分与总体一致,但随机性不如单纯随机抽样法。应用中可将两种方法结合使用。3.分层随机抽样
分层随机取样简称分层抽样(stratifiedsampling或hierarchicalsampling),是进行大规模研究时常常使用的抽样方法。分层抽样的方法:先将总体按照一定标准分为若干类型(统计上称为层),再根据各层对象的数量在总体数量中所占的比例,确定从每一种类型(层)中抽取样本的数量,然后按随机原则和所确定的各层取样的数量,从各层中取样。做好分层随机取样的关键:分类的标准要科学,要符合实际情况。各层内的差别要小,而层与层之间的差异则越大越好。例1:为了调查某区重点中学720名高一学生的视力,首先按视力的情况将他们分成好(108人)、中(360人)、差(252人)三种水平。若用分层抽样法抽取120人进行调查,问各层应抽多少人?计算:⑵.最佳配置法
最佳配置法不仅考虑各层的人数比例,而且考虑到了各层的标准差。当各层内的标准差已知,应该在标准差大的层内多分配而在标准差小的层内少分配抽样数量。最佳配置法可以使得到的样本具有较好的异质性。在各层内应抽取个体数计算
公式中,ni表示从某一层所抽个体数n表示样本容量Ni表示某层个体总数σi表示某层标准差(22.2)当各个σ没有现成资料可以应用时,可以先从该层抽一个小样本,由这一小样本计算出的样本标准差S对σ进行估计。(22.3)分层随机取样法的优点是代表性和推论的精确性较好。它适用于总体单位数量较多,并且内部差异较大的研究对象。分层随机取样法的局限性是要求对总体各单位的情况有较多的了解,否则就难以作出科学的分类。4.两阶段随机抽样
当总体容量很大时,直接以总体中的所有个体为对象,从中进行抽样,在实际调查或研究中存在很大困难。采用分阶段的抽样方法,可以缩小实际抽样的范围,使实际抽样工作能够按研究设计的要求顺利进行。两阶段随机抽样(two-stagesrandomsampling)的一般过程是:先将总体分成M个部分;第一阶段从这M个部分中随机抽取m个部分作为第一阶段样本;第二阶段是分别从这m个部分中抽取一定数量(ni)的个体构成第二阶段样本。5.整群抽样
整群随机抽样是先将总体各单位按一定的标准分成许多群(小组),然后按随机原则从这些群中抽取若干群作为样本。整群随机取样法的优点是样本比较集中,适宜于某些特定的研究,尤其是在教育实验中常用此法。此外,在规模较大的调查研究中,整群随机取样易于组织,可节省人力、物力和时间。整群随机抽样法的缺点是样本分布不均匀,代表性较差。
三.抽样设计的意义及原则
1.抽样设计的意义
⑴.使研究节省人力及费用;⑵.使研究节省时间,提高时效性;⑶.保证研究结果的准确性。
2.抽样设计的原则
抽样设计的要求是样本对研究总体有良好的代表性,即样本的构成与总体保持一致。为了保证这一点,抽样时必须遵循随机化(randomization)的基本原则。所谓随机化原则,是指在抽样时,样本中的每一个体都是按照随机的原理被抽取的,总体中每一个体被抽到的可能性是相等的。
四.样本容量的确定
1.确定样本容量的意义在应用中应根据研究所要求的精确度及经费情况确定样本容量。如果样本容量过小,会影响样本对总体的代表性,增大抽样误差而降低研究推论的精确性;样本容量过大,虽然减小了抽样误差,但可能增大过失误差,并且增加不必要的人力物力资源的浪费。样本容量与抽样误差并不是直线关系。确定容量的基本原则是:在尽量节省人力、经费和时间的条件下,确保用样本推断总体达到预定的可行度及准确性。2.总体平均数估计样本容量的确定
⑴.总体σ已知其中,最大允许误差为
,可信度为1-α。
由有(22.4)可以看到,当α确定之后,总体标准差和最大允许误差d是决定样本容量的两个因素。⑵.总体σ未知
由有当样本容量n未确定时,t值无法确定,因此一般采用尝试法。
(22.5)例:拟估计某市高校四级英语考试成绩的总体平均分数。以往考试成绩的标准差为13,这次的估计最大允许误差为2分,可信度为95%,问应抽取多大的样本?第二节样本分布一、什么是样本分布二、正态分布及渐近正态分布三、t分布四、分布五、F分布一、样本分布/抽样分布样本分布指样本统计量的分布,它是统计推论的重要依据。在谈及样本统计量的分布时,首先要保证各个样本是独立的,各个样本都服从同样的分布。要保证这一点,取样方法应该用随机抽样的方法。样本统计量的概率分布是一种理论概率分布随机变量是样本统计量样本均值,样本比例,样本方差等结果来自容量相同的所有可能样本提供了样本统计量长远我们稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据
抽样分布
(samplingdistribution)抽样分布
(samplingdistribution)总体计算样本统计量例如:样本均值、比例、方差样本样本统计量的抽样分布1、样本平均数的分布2、样本方差的抽样分布容量相同的所有可能样本的样本均值的概率分布一种理论概率分布进行推断总体总体均值的理论基础
样本均值的抽样分布样本均值的抽样分布
(例题分析)(重复抽样)【例】设一个总体,含有4个元素(个体),即总体单位数N=4。4个个体分别为x1=1、x2=2、x3=3、x4=4。总体的均值、方差及分布如下总体分布14230.1.2.3均值和方差样本均值的抽样分布
(例题分析)(重复抽样)
现从总体中抽取n=2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果为所有可能的n
=2的样本(共16个)第一个观察值第二个观察值123411,11,21,31,422,12,22,32,433,13,23,33,444,14,24,34,4样本均值的抽样分布
(例题分析)(重复抽样)16个样本的均值(x)第一个观察值第二个观察值123411.01.52.02.521.52.02.53.032.02.53.03.542.53.03.54.0计算出各样本的均值如下表。给出样本均值的抽样分布均值X的取值1.01.52.02.53.03.54.0均值X的个数1234321取值的概率P(X)1/162/163/164/163/162/161/16X样本均值的抽样分布1.000.10.20.3P(X)1.53.04.03.52.02.5样本均值的分布与总体分布的比较
(例题分析)(重复抽样)=2.5σ2=1.25总体分布14230.1.2.3抽样分布P(X)1.00.1.2.31.53.04.03.52.02.5X样本均值的抽样分布
(例题分析)(不重复抽样)
如果从总体中抽取n=2的简单随机样本,在不重复抽样条件下,共有4×3=12个样本。所有样本的结果为所有可能的n=2的样本(共12个)第一个观察值第二个观察值123411,21,31,422,12,32,433,13,23,444,14,24,3样本均值的抽样分布
(例题分析)(不重复抽样)16个样本的均值(x)第一个观察值第二个观察值123411.52.02.521.52.53.032.02.53.542.53.03.5计算出各样本的均值如下表。给出样本均值的抽样分布均值X的取值1.52.02.53.03.5均值X的个数22422取值的概率P(X)2/122/124/122/122/12X样本均值的抽样分布1.000.10.20.3P(X)1.53.04.03.52.02.5样本均值的抽样分布
(例题分析)(不重复抽样)=2.5σ2=1.25总体分布14230.1.2.3抽样分布P(X)1.00.1.2.31.53.04.03.52.02.5X样本均值的抽样分布
与中心极限定理=50
=10X总体分布n=4抽样分布Xn=16当总体服从正态分布N~(μ,σ2)时,来自该总体的所有容量为n的样本的均值X也服从正态分布,X
的数学期望为μ,方差为σ2/n。即X~N(μ,σ2/n)中心极限定理
(centrallimittheorem)当样本容量足够大时(n
30),样本均值的抽样分布逐渐趋于正态分布中心极限定理:设从均值为,方差为
2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布一个任意分布的总体X抽样分布与总体分布的关系总体分布正态分布非正态分布大样本小样本正态分布正态分布非正态分布抽样分布问题样本平均数的分布是怎么得到的?样本平均数分布的平均数与方差和母总体的平均数与方差有何关系?在不同情况下一样吗?什么叫自由度?样本平均数的分布与t分布的关系?分布是什么分布?特点?应用于?F分布用来分析什么?特点?二、正态分布及渐近正态分布㈠样本平均数的分布⒈总体方差已知,总体分布为正态,样本平均数的分布为正态分布。⒉总体方差已知,总体分布非正态,当样本容量足够大(n>30)时,其样本平均数的分布为渐近正态分布。二、正态分布及渐近正态分布㈡方差及标准差的分布⒈自正态分布总体中抽取容量为n的样本,当n足够大(n>30),样本方差及标准差的分布,渐趋于正态分布。⒉因此公式要求样本容量足够大,一般难以保证,故标准差及方差的统计推论,较少用到渐近分布,而用其精确分布(分布)。⒊此外,还有多种统计量的分布为正态分布或渐近正态分布,如两样本平均数之差的分布、相关系数的分布、比率的分布等将在以后章节介绍。三、t分布t分布是统计分析中应用较多的一种随机变量函数的分布,是统计学者高赛特1908年在以笔名“Student”发表的一篇论文中推导的一种分布。这种分布是一种左右对称、峰态比较高狭、分布形状随样本容量n-1的变化而变化的一族分布。t分布与n-1(自由度)有关,t分布的自由度通常用符号df表示。自由度是指任何变量中可以自由变化的数目,它代表t分布中独立随机变量的数目。三、t分布㈠t分布的特点⒈平均值为0⒉以平均值0左右对称的分布,左侧t为负值,右侧t为正值。⒊变量取值在之间。⒋曲线下总面积为1。⒌t分布曲线随自由度变化而变化,为一簇分布。样本容量越小,曲线越低阔,样本容量大于30时,曲线接近正态分布,当时,t分布与标准正态曲线重合,方差为1。㈡t分布表的使用三、t分布㈢样本平均数的分布⒈总体分布为正态,方差未知时,样本平均数的分布为t分布。⒉当总体分布为非正态而其方差又未知时,若满足n>30这一条件,样本平均数的分布近似为t分布。四、分布㈠定义四、分布五、F分布五、F分布样本方差的分布对于来自正态总体N(u,σ2)的简单随机样本,则比值的抽样分布服从自由度为(n-1)的2分布,即卡方(2)分布
(2
distribution)χ2分布:设X1,X2,……,Xn是来自总体N(0,1)的样本,则统计量服从自由度为n的χ2分布,记为χ2~χ2(n)。设,则令,则Y服从自由度为1的2分布,即
当总体,从中抽取容量为n的样本,则分布的变量值始终为正分布的形状取决于其自由度n的大小,通常为不对称的右偏分布,但随着自由度的增大逐渐趋于对称期望为:E(2)=n,方差为:D(2)=2n(n为自由度)
可加性:若U和V为两个独立的2分布随机变量,U~2(n1),V~2(n2),则U+V这一随机变量服从自由度为n1+n2的2分布2分布
(性质和特点)c2分布
(图示)选择容量为n的简单随机样本计算样本方差S2计算卡方值2=(n-1)S2/σ2计算出所有的
2值不同容量样本的抽样分布c2n=1n=4n=10n=20ms总体第三节参数估计
当在研究中从样本获得一组数据后,如何通过这组数据信息,对总体特征进行估计,也就是如何从局部结果推论总体的情况,称为总体参数估计。
参数估计可分为点估计和区间估计两种。第一节点估计、区间估计与标准误一、点估计的定义点估计是指在进行参数估计时,直接用一个特定点值作为总体参数的估计值。二、良好估计量的标准⑴无偏性:即用多个样本的统计量作为总体参数的估计值,其偏差的平均数为0。⑵有效性:当总体参数的无偏估计不止一个统计量时,无偏估计变异小者有效性高,变异大者有效性低,即方差越小越好。⑶一致性:当样本容量无限增大时,估计值应能够越来越接近它所估计的总体参数,估计值越来越精确,逐渐趋近于真值。⑷充分性:指一个容量为n的样本统计量,是否充分地反映了全部n个数据所反映总体的信息。三、区间估计与标准误㈠区间估计的定义是根据样本统计量,利用抽样分布的原理,在一定的可靠程度上,估计出总体参数所在的范围,即以数轴上的一段距离表示未知参数可能落入的范围。㈡置信区间与显著性水平⑴置信区间:也称置信间距,指在一定可靠程度上,总体参数所在的区域距离或区域长度。⑵置信界限(临界值):置信区间的上下两端点值。⑶显著性水平:指估计总体参数落在某一区间时,可能犯错误的概率,用符号表示。有时也称为意义阶段、信任系数等。⑷置信度(置信水平):。三、区间估计与标准误㈢区间估计的原理与标准误⑴区间估计是根据样本分布理论,用样本分布的标准误计算区间长度,解释总体参数落入某置信区间可能的概率。⑵区间估计存在成功估计的概率大小及估计范围大小两个问题。妥协办法:在保证置信度的前提下,尽可能提高精确度。规定正确估计的概率即置信度为0.95和0.99,则显著性水平为0.05和0.01。小概率事件在一次抽样中不可能出现。⑶区间估计的原理是样本分布理论。在计算区间估计值解释估计的正确概率时,依据的是该样本统计量的分布规律及样本分布的标准误。样本分布可提供概率解释,而标准误的大小决定区间估计的长度。一般情况下,加大样本容量可使标准误变小。一、参数估计的原理㈡区间估计的原理和方法⒈置信区间和显著性水平区间估计时,某一概率下,总体参数所在的区间称为置信区间,区间的端点值称为临界值,这个概率称为置信度,以概率表示,α又称显著性水平,表示该区间估计的不可靠程度。⒉区间估计的原理和方法
第二节总体平均数的估计一、总体平均数估计的计算步骤:⒈利用抽样的方法抽取样本,计算出样本的平均值和标准差S。⒉计算样本平均数的标准误:①当总体方差已知时,样本平均数的标准误的计算为:②当总体方差未知时,样本平均数的标准误的计算为:一、总体平均数估计的计算步骤:⒊确定显著性水平和置信水平⒋根据样本平均数的抽样分布确定查何种分布表,确定理论值。⒌确定置信区间:⒍解释总体平均数的置信区间。二、总体方差已知时,对总体平均数的估计⒈当总体分布为正态分布时,(无论样本容量n的大小,从该总体抽取的样本分布均成正态分布。)对总体平均数的估计可以依正态分布进行估计。例1已知某市6岁正常男童体重的总体方差为6.55公斤,从该市随机抽取15名6岁男童,其平均体重为20.4公斤,试求该市6岁男童平均体重的95%和99%的置信区间。例1的计算解:95%的置信区间的显著性水平α=0.05,因此,μ的95%的置信区间为:即:μ的99%的置信区间为:即:故该市6岁男童平均体重μ的95%的置信区间为[19.11,21.69];99%的置信区间为[18.7,22.1]。二、总体方差已知时,对总体平均数的估计⒉当总体为非正态分布时(只有当样本容量n>30时,此时样本抽样分布渐近正态分布。这时可依正态分布进行估计,否则不能对总体平均数进行估计。)例3已知某区15岁男生立定跳远的方差为,现从该区抽取58名15岁男生,测得该组男生立定跳远的平均数为198.4cm,试求该区15岁男生立定跳远平均成绩的95%和99%的置信区间。例3解:由题意知:由于样本容量(n=58)大于30,该样本的抽样分布为渐进正态分布。因此,μ的95%的置信区间为:198.4-1.96×2.75≤μ≤198.4+1.96×2.75即193.01≤μ≤203.79μ的99%的置信区间为:198.4-2.58×2.75≤μ≤198.4+2.58×2.75即191.3≤μ≤205.5故该区15岁男生立定跳远的平均成绩有95%的可能落入[193.01,203.79]内,有99%的可能落入[191.3,205.5]内。三、总体方差未知,对总体平均数的估计⒈当总体分布为正态分布时(无论样本容量n的大小,从该总体抽取的样本所形成的分布均服从自由度为n
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 儿科医生简短述职报告
- 中秋节的演讲稿(范文15篇)
- 口才班课件教学课件
- 高等数学教程 上册 第4版 习题及答案 P225 第9章 微分方程
- 文书模板-天然气公司股东协议书
- 政策滥用及其对商家的影响 -2023年全球参考基准
- 高校课程课件教学课件
- 綦江区七年级上学期语文期末考试试卷
- 第二中学九年级上学期语文开学考试试卷
- 部编版小学语文三年级上册第20课《美丽小兴安岭》读写练习题
- 美容院顾客管理档案表
- 锦鲤的繁殖与选优技术
- 四年级数学家长会课件
- 华北理工《社会医学》讲义11健康危险因素评价
- 透析饮食课件
- 妊娠期高血压护理查房医学课件
- 新部编人教版四年级上册语文课件(第16课 风筝)
- 临床诊断与思维步骤课件
- 放射科危急值制度考试试题与答案
- 通信发展的前世今生儿童科普(课堂PPT)课件(PPT 38页)
- 老年人口腔保健知识PPT课件
评论
0/150
提交评论