




已阅读5页,还剩38页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第4章抽样与抽样分布,当我们不具备决定什么是真理的力量时,我们应遵从什么是最可能的,这是千真万确的真理。R.狄斯卡特斯,统计推断基础,主要内容,5.1抽样的概念5.2随机抽样的方法5.3抽样分布5.4几种来自正态分布的概率分布5.5几种重要统计量的抽样分布,5.1抽样的概念,统计总体(总体/全及总体/母体)指统计研究所确定的客观对象,它是由具有共同性质的许多单位组成的整体。总体(用X表示)中每一个个体是对总体进行随机试验的一个观察值(用表示),对总体的研究就是对随机变量X的研究,X的分布函数和数字特征就称为总体的分布函数和特征,以后不再区分总体与其对应的随机变量,笼统称为总体X。总体单位(单位)样本(Sample)样本是指从统计总体中抽取出来作为代表这一总体的、由部分个体组成的集合体。组成样本的单位称为样本单位。所谓从总体中抽取一个个体,就是对总体X进行一次观察并记录结果,在相同条件下对总体X进行n次重复、独立的观测,将观测结果记为。有理由认为是相互独立的,且都是与X具有相同分布的随机变量。这样得到的,就是来自总体X的一个简单随机样本。样本值:,4.全及指标和抽样指标根据全及总体各个单位的变量值计算的,反映总体某种属性的综合指标,称为全及指标。全及指标也称为总体参数,往往是未知的。总体平均数、总体比率p、总体方差,总体标准差。抽样指标即样本指标、样本统计量,它是根据样本单位标志值计算的综合指标。样本平均数,样本比率,样本方差,样本标准差S等等。,5.随机抽样与非随机抽样随机抽样,也叫概率抽样,是按照随机原则即总体中每个单位被抽中的概率相等的抽样方法。据此可以估计推断的精度及抽样的误差。随机抽样分为:简单随机抽样、分层随机抽样、整群抽样、系统抽样。非随机抽样,也叫非概率抽样、判别性抽样、鉴别抽样。它是抽样人根据自己对事物了解的经验,从总体中有目的地选择一些单位作为样本。如重点调查、典型调查等都属于此。此法不可避免产生倾向性误差(系统偏差)。,5.2随机抽样方法,5.2.1简单随机抽样(纯随机抽样)有限总体的简单随机抽样假设总体容量N(有限),样本容量n(nN),满足:(1)在抽取样本时,必须保证每一个可能样本被抽到的概率相等;(2)总体中每一个单位被包括在样本中的可能性相等。例:设总体N=4(A,B,C,D)中抽取n=2组成样本,其可能样本(按不考虑顺序不重复抽样方式):,无限总体的简单随机抽样若把总体视为一个随机变量,其概率密度函数为,为取自X的样本。当这n个随机变量满足:1.与总体有相同的概率分布;2.它们是相互独立的。则称为无限总体的简单随机样本,简称样本。在统计推断问题中遇到的样本都认为是简单随机样本,以后不再一一声明。说明:样本,样本值即总体X的n个独立的观察值。,简单随机抽样的具体做法有如下三种:1.抽签法2.随机数字表法3.计算机软件中的随机函数产生随机数的功能举例:从35个同学中,按照随机原则抽取5名。,5.2.1重复抽样与不重复抽样,重复抽样,也叫放回抽样。是指从总体中抽取第1个单位后,把这个单位再放回总体,再抽取第2个单位,以此类推,直到抽足样本所要求的单位数目。不重复抽样,也叫不放回抽样,是指每次抽取之后,不再将这个单位放回总体。抽样方法不同,抽取样本的数量也不同。应当注意的是:重复抽样能够保证每次抽取时总体成分不变,即每次抽取时,各单位被抽到的概率保持不变。但是,在重复抽样条件下,同一个总体单位有可能被多次抽到一个样本中去。不重复抽样能够保证每个总体单位在一个样本中最多只能出现一次。很明显,对于较小的有限总体来说,采用不重复抽样,很快就会把总体抽完。,不同抽样方法下样本的可能数目,ABACBCADBDCD,不考虑顺序,ABBACADAACBCCBDBADBDCDDC,考虑顺序,不重复抽样,AAABBBACBCCCADBDCDDD,不考虑顺序,AABACADAABBBCBDBACBCCCDCADBDCDDD,考虑顺序,重复抽样,可能样本,样本的可能数目,设总体N=4(A,B,C,D)中抽取n=2组成样本,计算公式,抽样方法,一投资者想从一张最灵敏的25中股票表中选择5种股票的一组。则他必须研究()个不同的组。,5.2.2其他近似随机抽样方法,系统抽样分层抽样整群抽样,系统抽样,系统抽样又叫等距抽样或机械抽样。它是先把总体所有单位按某一标志排队,并根据总体单位数(N)与样本单位数(n)的比例(N/n)计算出抽样距离和间隔,随机确定一个起始点作为第一个样本单位,以后每隔相等的距离和间隔抽取样本单位。根据进行排队时是否与调查项目无关的,分为有关标志排队法和无关标志排队法。例如,对某校学生学习情况进行调查,如按学号排序就是无关标志排队;如按考试分数排序就是有关标志排队。在实际进行抽样时,要避免抽样间隔和现象本身的周期性节奏相重合引起系统性的影响,如工业产品质量抽查,产品抽查时间间隔不宜和上下班时间一致,防止发生系统性偏差。,分层抽样,分层抽样又叫类型抽样或分类抽样,它是先将总体各单位按某一有关标志分成若干个类型组,然后按照一定比例再从各类型组中随机抽取样本单位。例如,调查美国选民的政治意愿,可先将全部选民划分为不同阶层:低收入阶层、中产阶层、高收入阶层,然后再从这些阶层中按一定比例抽选选民。分层抽样可以提高样本的代表性,减少抽样误差。分层抽样适用于那些总体情况复杂、各单位之间差异较大、单位数量较多的抽样调查问题。从各类型中抽样的方法:等比例抽样不等比例抽样,等比例抽样若需从总体(N)中抽取n个样本,即抽样比例则各类型中应抽取的样本数为:换句话说,在样本中各类型的单位数比例与总体中相应各类型单位数比例一致,即样本是总体“结构相同的缩小版”。举例:全美选民5000万,要抽选5000人,则抽样比例为f=1/10000,各阶层选民数及抽样数见下表。,将总体所有单位划分为若干个群(组),然后以群(组)为单位从中随机抽取部分群(组),对抽中的群(组)内所有单位进行全面调查的抽样组织形式。如调查某县小学教育情况,从该县中随机抽取若干个小学,然后对抽中的小学进行全面调查。类型抽样和整群抽样的适用条件:当每组内部的差别较小,而各组之间差别较大时,采用类型抽样效果比较好;当每组内部差别相当大,而各组之间却非常类似时,适宜采用整群抽样。,整群抽样,5.3抽样分布,5.3.1抽样分布的概念统计量若从无限总体X中抽取容量为n的样本,则函数称为样本统计量,简称为统计量。常用统计量有:样本均值样本方差样本标准差样本成数,抽样分布无论有限总体还是无限总体,只要所要求的样本容量小于总体容量,即nN,那么,可能抽取的样本就不只1个。一般情况下,从同一总体中抽取不同的样本,其统计量的值是不同的,每个统计量的值都有一定的概率。样本统计量的概率分布,叫抽样分布。(或说:统计量的分布即抽样分布),5.4三个来自正态分布的概率分布,正态分布分布t分布F分布要求:统计学的4大分布,要求掌握定义、密度函数图形的轮廓,会使用分位点表写出分位点。注意:无论是总体X,还是样本统计量都是随机变量,都有一定的分布形式,即服从何种分布。对于前者,我们说总体服从何种分布,对于后者可以说统计量服从何种分布,抑或统计量的抽样分布是何种分布。,正态分布,(1)设连续型随机变量X的概率密度为则称X服从参数、的正态分布,记作XN(,),其中和分别是X的均值和方差。(2)正态分布的分布函数为:(3)正态分布的期望值和方差为:,1正态分布:随变化的情态,2正态分布:随变化的情态,结论:1.正态分布以X=为对称轴;2.其陡缓程度取决于,越大越平缓,反之,越小越陡峭。3.曲线拐点为X=4.正态曲线以x轴为渐近线。,标准正态分布当正态分布时,称X服从标准正态分布,记作XN(0,1)。常用表示其概率密度和分布函数,即:标准正态分布的性质:数学期望和方差分别为0,1以X=0为对称轴对称分布,且分布曲线同横轴所包围面积为常数1,正态分布转化为标准正态分布,对于一般的正态分布,只需设即通过线性化转换为新的随机变量Z,其服从标准正态分布,即。因而求一般正态分布在某区间上概率,就转化为求标准正态分布在相应区间上的概率。若,则分布函数,例:,设,求X落在(0,1.6)的概率,被称为标准正态分布的上分位点(数),或称为上侧100百分位点(数)(2)若有:被称为双侧分位点(数),或双侧100百分位点(数)(3)标准正态分布的上分位点表,标准正态分布的分位点,(1)若ZN(0,1),对于给定的,030时,中心极限定律,4个雇员中抽取2个的可能样本及相关计算值,样本平均数的均值(件),即与=23件相等。样本平均数的标准差(抽样平均误差)(件)可验证:(件),即:上述公式,适用于总体无限,或总体虽有限但有放回的情况。而若总体有限,考虑顺序不放回抽样情况有如下结论:,特殊地,当n/N5%时,可不加修正。,(的抽样分布的)均值和方差为:,样本平均数的标准差(抽样平均误差),有限总体的修正系数,对于第2种情况:中心极限定律变为:,当nN时(n/N5%),可不加修正。,例题1,某种切削工具的平均使用寿命为41.5小时,标准差为2.5小时。对于取自这一总体的容量为50的随机样本,其平均值为40.5小时和42小时之间的概率有多大?分析:该例并没有告诉我们总体的分布形态。但是,由于样本容量n=50为大样本,我们可以利用中心极限定理,其抽样分布近似服从正态分布。解:所求概率为:,2.正态总体之样本均值的抽样分布,已知,已知定律2:设总体XN(,),则有,结论1:或,注意:因为总体服从正态分布,按照随机原则,抽样得到的样本均值必定服从正态分布,而无论样本容量n是否能达到30个。,例题2,某品牌某型号汽车的损伤压强(以公斤/平方寸计量)是一个近似服从正态分布的随机变量。平均值为2800公斤/平方寸,标准差为96公斤/平方寸。假定从这一总体抽选了一个容量为10的简单随机样本,并对每一辆汽车作撞击试验,直到它们破坏程度能够伤害人员为止。试问:使样本中的汽车平均损伤压强不超过2750公斤/平方寸的概率有多大?解总体近似服从正态分布,且已知总体方差。凡从正态总体中抽样,不论是大样本(n30),还是小样本,只要已知总体方差,其样本平均值的抽样分布均服从正态分布,即有:,令:所求概率为:,=1-0.9505=0.0495。,已知,未知定律3:为来自X的样本,样本均值和方差分别为:,则有:,证明见P103,4-20,说明:如果n很大,那么用就是的一个很好的估计量,仍然是一个近似的标准正态分布。如果n比较小(30,或者n5%),需对样本比率的方差进行修正:,小测验,一、判断题统计学家把所要研究的对象的全部单位,叫做“总体单位”;从总体中抽出的一部分单位,叫做“样本单位”。抽样方法区分为随机抽样和非随机抽样。从正态总体中抽样,抽样分布是正态分布,从非正态总体中抽样(抽取大样本),抽样分布也是正态分布。4.样本容量与抽样平均误差的成正比关系。,样本平均数的标准差(抽样平均误差),参考答案:1T2T3T4F,小测验,1.设x1,x2,xn是X的样本,且,则有:以上都不对2.设XN(2,9),X1,X2,X10是X的样本,则有:N(2,0.9)N(20,90)N(20,9)N(2,9)N(2,90),参考答案:12,3.抽样成数是一个:结构相对数比较相对数比例相对数强度相对数动态相对数4、连续生产的电子管厂,产品质量检验是这样安排的,在一天中,每隔1小时取下5
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030中国医疗塑料挤压行业市场发展趋势与前景展望战略研究报告
- 2025-2030中国功能母粒行业市场发展趋势与前景展望战略研究报告
- 2025-2030中国SAR自动测量系统行业市场发展趋势与前景展望战略研究报告
- 2025-2030中国Hadoop-as-a-Service(HDaaS)行业市场发展趋势与前景展望战略研究报告
- 2025-2030蓄电池搬运车行业市场深度调研及前景趋势与投资研究报告
- 2025-2030破碎机行业市场深度调研及前景趋势与投资研究报告
- 2025-2030特色小镇规划行业发展分析及发展趋势与投资前景预测研究报告
- 2025-2030气雾剂行业市场深度调研及前景趋势与投资研究报告
- 2025-2030投影设备行业市场发展分析与发展前景及投资战略研究报告
- 2025-2030全球及中国眼镜清洁湿巾纸行业销售规模及前景动态研究研究报告
- 《我不是药神》剧本
- JJF 1101-2019《环境试验设备温度、湿度校准规范》规程
- GB/T 6451-2023油浸式电力变压器技术参数和要求
- 幼儿园中班绘本《城市里最漂亮的巨人》课件
- 医院廉洁行医廉政教育专题课件
- 医务人员职业健康安全健康-课件
- 安全组织机构图
- 旧石器时代考古-基础知识课件
- 江苏省建设工程现场安全文明施工措施费计价管理办法
- 病区药品规范化管理与问题对策黄池桃
- 螺纹塞规操作规程
评论
0/150
提交评论