




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
抽样与抽样分布第1页,课件共43页,创作于2023年2月主要内容5.1抽样的概念5.2随机抽样的方法5.3抽样分布5.4几种来自正态分布的概率分布5.5几种重要统计量的抽样分布第2页,课件共43页,创作于2023年2月5.1抽样的概念统计总体(总体/全及总体/母体)指统计研究所确定的客观对象,它是由具有共同性质的许多单位组成的整体。总体(用X表示)中每一个个体是对总体进行随机试验的一个观察值(用表示),对总体的研究就是对随机变量X的研究,X的分布函数和数字特征就称为总体的分布函数和特征,以后不再区分总体与其对应的随机变量,笼统称为总体X。总体单位(单位)样本(Sample)样本是指从统计总体中抽取出来作为代表这一总体的、由部分个体组成的集合体。组成样本的单位称为样本单位。所谓从总体中抽取一个个体,就是对总体X进行一次观察并记录结果,在相同条件下对总体X进行n次重复、独立的观测,将观测结果记为。有理由认为是相互独立的,且都是与X具有相同分布的随机变量。这样得到的,就是来自总体X的一个简单随机样本。样本值:第3页,课件共43页,创作于2023年2月4.全及指标和抽样指标根据全及总体各个单位的变量值计算的,反映总体某种属性的综合指标,称为全及指标。全及指标也称为总体参数,往往是未知的。总体平均数μ、总体比率p、总体方差,总体标准差。抽样指标即样本指标、样本统计量,它是根据样本单位标志值计算的综合指标。样本平均数,样本比率,样本方差,样本标准差S等等。第4页,课件共43页,创作于2023年2月5.随机抽样与非随机抽样随机抽样,也叫概率抽样,是按照随机原则即总体中每个单位被抽中的概率相等的抽样方法。据此可以估计推断的精度及抽样的误差。随机抽样分为:简单随机抽样、分层随机抽样、整群抽样、系统抽样。非随机抽样,也叫非概率抽样、判别性抽样、鉴别抽样。它是抽样人根据自己对事物了解的经验,从总体中有目的地选择一些单位作为样本。如重点调查、典型调查等都属于此。此法不可避免产生倾向性误差(系统偏差)。第5页,课件共43页,创作于2023年2月5.2随机抽样方法5.2.1简单随机抽样(纯随机抽样)有限总体的简单随机抽样
假设总体容量N(有限),样本容量n(n<N),满足:(1)在抽取样本时,必须保证每一个可能样本被抽到的概率相等;(2)总体中每一个单位被包括在样本中的可能性相等。例:设总体N=4(A,B,C,D)中抽取n=2组成样本,其可能样本(按不考虑顺序不重复抽样方式):总体单位:ABCD由n=2组成的可能样本:ABACADBCBDCD因为由2个人构成的样本只有6种可能,所以,抽到每一个样本的概率一定等于:某个单位被抽到样本中的概率必定是:第6页,课件共43页,创作于2023年2月
无限总体的简单随机抽样若把总体视为一个随机变量,其概率密度函数为,为取自X的样本。当这n个随机变量满足:1.与总体有相同的概率分布;2.它们是相互独立的。则称为无限总体的简单随机样本,简称样本。在统计推断问题中遇到的样本都认为是简单随机样本,以后不再一一声明。说明:样本{},样本值{}即总体X的n个独立的观察值。第7页,课件共43页,创作于2023年2月简单随机抽样的具体做法有如下三种:1.抽签法2.随机数字表法3.计算机软件中的随机函数产生随机数的功能举例:从35个同学中,按照随机原则抽取5名。第8页,课件共43页,创作于2023年2月5.2.1重复抽样与不重复抽样<补充>
重复抽样,也叫放回抽样。是指从总体中抽取第1个单位后,把这个单位再放回总体,再抽取第2个单位,以此类推,直到抽足样本所要求的单位数目。不重复抽样,也叫不放回抽样,是指每次抽取之后,不再将这个单位放回总体。抽样方法不同,抽取样本的数量也不同。应当注意的是:重复抽样能够保证每次抽取时总体成分不变,即每次抽取时,各单位被抽到的概率保持不变。但是,在重复抽样条件下,同一个总体单位有可能被多次抽到一个样本中去。不重复抽样能够保证每个总体单位在一个样本中最多只能出现一次。很明显,对于较小的有限总体来说,采用不重复抽样,很快就会把总体抽完。
第9页,课件共43页,创作于2023年2月不同抽样方法下样本的可能数目
ABACBCADBDCD不考虑顺序ABBACADAACBCCBDBADBDCDDC考虑顺序不重复抽样AAABBBACBCCCADBDCDDD不考虑顺序AABACADAABBBCBDBACBCCCDCADBDCDDD考虑顺序重复抽样可能样本样本的可能数目设总体N=4(A,B,C,D)中抽取n=2组成样本计算公式抽样方法42=16一投资者想从一张最灵敏的25中股票表中选择5种股票的一组。则他必须研究()个不同的组。第10页,课件共43页,创作于2023年2月5.2.2其他近似随机抽样方法系统抽样分层抽样整群抽样第11页,课件共43页,创作于2023年2月系统抽样系统抽样又叫等距抽样或机械抽样。它是先把总体所有单位按某一标志排队,并根据总体单位数(N)与样本单位数(n)的比例(N/n)计算出抽样距离和间隔,随机确定一个起始点作为第一个样本单位,以后每隔相等的距离和间隔抽取样本单位。根据进行排队时是否与调查项目无关的,分为有关标志排队法和无关标志排队法。例如,对某校学生学习情况进行调查,如按学号排序就是无关标志排队;如按考试分数排序就是有关标志排队。在实际进行抽样时,要避免抽样间隔和现象本身的周期性节奏相重合引起系统性的影响,如工业产品质量抽查,产品抽查时间间隔不宜和上下班时间一致,防止发生系统性偏差。第12页,课件共43页,创作于2023年2月分层抽样分层抽样又叫类型抽样或分类抽样,它是先将总体各单位按某一有关标志分成若干个类型组,然后按照一定比例再从各类型组中随机抽取样本单位。例如,调查美国选民的政治意愿,可先将全部选民划分为不同阶层:低收入阶层、中产阶层、高收入阶层,然后再从这些阶层中按一定比例抽选选民。分层抽样可以提高样本的代表性,减少抽样误差。分层抽样适用于那些总体情况复杂、各单位之间差异较大、单位数量较多的抽样调查问题。从各类型中抽样的方法:等比例抽样不等比例抽样第13页,课件共43页,创作于2023年2月等比例抽样若需从总体(N)中抽取n个样本,即抽样比例则各类型中应抽取的样本数为:换句话说,在样本中各类型的单位数比例与总体中相应各类型单位数比例一致,即样本是总体“结构相同的缩小版”。举例:全美选民5000万,要抽选5000人,则抽样比例为f=1/10000,各阶层选民数及抽样数见下表。类型选民数(万)抽样数(个)比例(%)低收入阶层2800280056中产阶层2000200040高收入阶层2002004总计50005000100第14页,课件共43页,创作于2023年2月将总体所有单位划分为若干个群(组),然后以群(组)为单位从中随机抽取部分群(组),对抽中的群(组)内所有单位进行全面调查的抽样组织形式。如调查某县小学教育情况,从该县中随机抽取若干个小学,然后对抽中的小学进行全面调查。类型抽样和整群抽样的适用条件:
当每组内部的差别较小,而各组之间差别较大时,采用类型抽样效果比较好;
当每组内部差别相当大,而各组之间却非常类似时,适宜采用整群抽样。整群抽样第15页,课件共43页,创作于2023年2月5.3抽样分布5.3.1抽样分布的概念统计量若从无限总体X中抽取容量为n的样本,则函数称为样本统计量,简称为统计量。常用统计量有:样本均值样本方差样本标准差样本成数第16页,课件共43页,创作于2023年2月抽样分布
无论有限总体还是无限总体,只要所要求的样本容量小于总体容量,即n<N,那么,可能抽取的样本就不只1个。一般情况下,从同一总体中抽取不同的样本,其统计量的值是不同的,每个统计量的值都有一定的概率。样本统计量的概率分布,叫抽样分布。(或说:统计量的分布即抽样分布)
第17页,课件共43页,创作于2023年2月5.4三个来自正态分布的概率分布正态分布分布t
分布F分布要求:统计学的4大分布,要求掌握定义、密度函数图形的轮廓,会使用分位点表写出分位点。注意:无论是总体X,还是样本统计量都是随机变量,都有一定的分布形式,即服从何种分布。对于前者,我们说总体服从何种分布,对于后者可以说统计量服从何种分布,抑或统计量的抽样分布是何种分布。第18页,课件共43页,创作于2023年2月正态分布(1)设连续型随机变量X的概率密度为则称X服从参数、的正态分布,记作X~N(,),其中和分别是X的均值和方差。(2)正态分布的分布函数为:(3)正态分布的期望值和方差为:
第19页,课件共43页,创作于2023年2月1正态分布:随变化的情态2正态分布:随变化的情态结论:1.正态分布以X=为对称轴;2.其陡缓程度取决于,越大越平缓,反之,越小越陡峭。3.曲线拐点为X=4.正态曲线以x轴为渐近线。第20页,课件共43页,创作于2023年2月标准正态分布当正态分布时,称X服从标准正态分布,记作X~N(0,1)。常用表示其概率密度和分布函数,即:标准正态分布的性质:数学期望和方差分别为0,1以X=0为对称轴对称分布,且分布曲线同横轴所包围面积为常数1
第21页,课件共43页,创作于2023年2月正态分布转化为标准正态分布对于一般的正态分布,只需设即通过线性化转换为新的随机变量Z,其服从标准正态分布,即。因而求一般正态分布在某区间上概率,就转化为求标准正态分布在相应区间上的概率。若,则分布函数第22页,课件共43页,创作于2023年2月例:设,求X落在(0,1.6)的概率第23页,课件共43页,创作于2023年2月
被称为标准正态分布的上分位点(数),或称为上侧100百分位点(数)(2)若有:被称为双侧分位点(数),或双侧100百分位点(数)(3)标准正态分布的上分位点表0.0010.0050.010.0250.050.103.0902.5762.3271.9601.6451.282标准正态分布的分位点(1)若Z~N(0,1),对于给定的,0<<1,若有:*注意:是满足上述条件*的变量值,是给定的概率水平。第24页,课件共43页,创作于2023年2月5.5几种重要统计量的抽样分布样本均值(平均数/)的抽样分布定律1:设总体X(无论服从何种分布)其均值为,方差为,为来自X的样本,样本均值和方差记作:,其中:则(抽样分布的)均值和方差为:说明:由于样本统计量是随机变量,因此说统计量的均值和方差,等同于说其抽样分布的均值和方差,说统计量服从正态分布,等同于说其抽样分布服从正态分布。以后简单说为统计量的均值和方差,统计量服从正态分布。第25页,课件共43页,创作于2023年2月例以A、B、C、D四个单位为总体,在其中抽取2个单位作为样本。其中A雇员的产量为20件,B雇员的产量为22件,C雇员的产量为24件,D雇员的产量为26件。总体均值μ=23件,总体标准差σ≈2.236件。考虑顺序的重复抽样条件下样本的可能数目M==16,我们将这16个样本及有关计算数据列示于下表。特殊地,当样本容量n>30时,——中心极限定律第26页,课件共43页,创作于2023年2月
4个雇员中抽取2个的可能样本及相关计算值序号可能样本样本变量样本均值()1AA20,2020-392AB20,2221-243AC20,2422-114AD20,2623005BA22,2021-246BB22,2222-117BC22,2423008BD22,2624119CA24,2022-1110CB24,22230011CC24,24241112CD24,26252413DA26,20230014DB26,22241115DC26,24252416DD26,262639合计——368040第27页,课件共43页,创作于2023年2月样本平均数的均值(件),即与μ=23件相等。样本平均数的标准差(抽样平均误差)
(件)可验证:(件),即:上述公式,适用于总体无限,或总体虽有限但有放回的情况。而若总体有限,考虑顺序不放回抽样情况有如下结论:特殊地,当n/N≤5%时,可不加修正。第28页,课件共43页,创作于2023年2月
(的抽样分布的)均值和方差为:样本平均数的标准差(抽样平均误差)第29页,课件共43页,创作于2023年2月有限总体的修正系数抽样方法均值方差标准差(抽样平均误差)(1)从无限总体抽样和有限总体放回抽样(2)从有限总体不放回抽样对于第2种情况:中心极限定律变为:当n<<N时(n/N5%),可不加修正。≤第30页,课件共43页,创作于2023年2月例题1某种切削工具的平均使用寿命为41.5小时,标准差为2.5小时。对于取自这一总体的容量为50的随机样本,其平均值为40.5小时和42小时之间的概率有多大?分析:该例并没有告诉我们总体的分布形态。但是,由于样本容量n=50为大样本,我们可以利用中心极限定理,其抽样分布近似服从正态分布。解:所求概率为:第31页,课件共43页,创作于2023年2月2.正态总体之样本均值的抽样分布已知,已知定律2:设总体X~N(,),则有,结论1:或注意:因为总体服从正态分布,按照随机原则,抽样得到的样本均值必定服从正态分布,而无论样本容量n是否能达到30个。第32页,课件共43页,创作于2023年2月例题2某品牌某型号汽车的损伤压强(以公斤/平方寸计量)是一个近似服从正态分布的随机变量。平均值为2800公斤/平方寸,标准差为96公斤/平方寸。假定从这一总体抽选了一个容量为10的简单随机样本,并对每一辆汽车作撞击试验,直到它们破坏程度能够伤害人员为止。试问:使样本中的汽车平均损伤压强不超过2750公斤/平方寸的概率有多大?[解]总体近似服从正态分布,且已知总体方差。凡从正态总体中抽样,不论是大样本(n≥30),还是小样本,只要已知总体方差,其样本平均值的抽样分布均服从正态分布,即有:第33页,课件共43页,创作于2023年2月令:所求概率为:=1-0.9505=0.0495。第34页,课件共43页,创作于2023年2月已知,未知定律3:为来自X的样本,样本均值和方差分别为:,则有:证明见P103,4-20说明:如果n很大,那么用就是的一个很好的估计量,仍然是一个近似的标准正态分布。如果n比较小(<30,或者n<<N),两者差异就比较大,就不再是个标准正态分布,而是所谓的t分布。参考书目《统计学》、徐国祥,世纪出版集团第35页,课件共43页,创作于2023年2月t分布与正态分布一样,也是对称的。一般地说,t分布比正态分布更平坦一些,对于不同的样本容量都有一个不同的相应的t分布。随着样本容量的增加,t分布的形状由平坦逐渐变得接近正态分布。当n>30时,t分布就非常接近于正态分布,故此时可以利用正态分布作为t分布的近似分布。第36页,课件共43页,创作于2023年2月例题3设乒乓球出口定货单的定货量的分布是正态的,现在随机抽取6张定货单作为样本,代表第2季度定货单。定货单的订购打数分别为450,520,415,400,430,485打,即=450打。如果全季度定货单的平均订购量μ为510打,标准差不知道,问:(1)样本平均数等于或低于450打的概率是多少?(2)如果μ为410打,样本平均数等于或大于450打的概率是多少?第37页,课件共43页,创作于2023年2月自由度自由度是可以自由选择数值的变量的个数。样本值如果有n个,自由度个
解:=450=6-1=5
所求概率为:
查附表4,由于,故知其概率在0.01至0.025之间。(2)所求概率为:
查附表,由于,因此,其概率在0.025至0.05之间。≈45.28(打)第38页,课件共43页,创作于2023年2月3.样本比率的抽样分布总体比率;样本比率定律4:对于一总体容量为N的总体,采用重复抽样(样本容量n),可以证明有:对于大样本,当满足时,样本比率的抽样分布近似服从正态分布:当采用不重复抽样,且抽样比重较大时(n/N>5%),需对样本比率的方差进行修正:第39页,课件共43页,创作于2023年2月小测验一、判断题统计学家把所要研究的对象的全部单位,叫做“总体单位”;从总体中抽出的一部分单位,叫做“样本单位”。抽样方法区分为随机抽样和非随机抽样。从正态总体中抽样,抽样分布是正态分布,从非正态总体中抽样(抽取大样本),抽样分布也是正态分布。4.样本容量与抽样平均误差的成正比关系。样本平均数的标准差(抽样平均误差)参考答案:1T2T3T4F第40页,课件共43页,创作于2023年2月小测验
1.设x1,x2,…,xn是X的样本,且,则有:①
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度某公司聘用专业门卫安全服务合同
- TOC自动在线监测仪项目效益评估报告
- 幕墙材料合同范本
- 廉政合同范本
- 设计合同和咨询合同范本
- 寄递物流合同范本
- 2024-2025年中国财务软件行业发展趋势及投资前景预测报告
- 农产品电商中心市场需求分析
- 酱菜销售合同范本
- 中国资产证券化行业市场运营现状及投资方向研究报告
- 一年级下册综合实践活动教案2
- 生物-山东省潍坊市、临沂市2024-2025学年度2025届高三上学期期末质量检测试题和答案
- 2025年小学督导工作计划
- 2024-2025学年部编版历史九年级上册期末复习练习题(含答案)
- 2025年月度工作日历含农历节假日电子表格版
- 基于ChatGPT的ESG评级体系实现机制研究
- 《商务数据分析》课件-商务数据的分析
- 安全隐患规范依据查询手册
- 部编版六年级下册道德与法治全册教案教学设计
- 最新六年级英语下册《全套教材分析解读》外研版课件
- 高质量SCI论文入门必备从选题到发表全套课件
评论
0/150
提交评论