第四章抽样分布_第1页
第四章抽样分布_第2页
第四章抽样分布_第3页
第四章抽样分布_第4页
第四章抽样分布_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2023/2/41第四章概率分布与抽样2023/2/42第一节随机变量的概率分布第二节大数定律与中心极限定理第三节统计量的抽样分布(54张)第四章抽样分布2023/2/43

学习目标1.定义和解释随机变量及其概率分布2.计算随机变量的概率和概率分布3.理解正态分布及其标准化问题;√4.理解大数定律和中心极限定理;5.掌握常用统计量的抽样分布;√6.会用Excel计算常见分布的概率。√2023/2/44

重点与难点1.随机变量概率分布意义的理解2.统计量抽样分布的若干结论3.两类极限定理的意义及其若干结论4.小样本的精确分布2023/2/45第一节随机变量的概率分布一、随机变量的定义及其类型

1.随机变量的定义

2.两种类型的随机变量二、随机变量的概率分布

1.概率分布的含义及意义

2.离散型随机变量的概率分布

3.连续型随机变量的概率分布

4.随机变量的分布函数三、几种常见的概率分布

1.正态分布

2.小样本的精确分布2023/2/46一、随机变量的定义及其类型(一)随机变量的定义在随机试验中,若随着试验结果的不同而随机地取各种不同的数值,并且对取每一个数值或某一范围内的值都有相应的概率,即对任意实数,是随机事件,且概率存在,则称为一个随机变量。(二)两种类型的随机变量(按取值的特点不同来划分)1.离散型随机变量2.连续型随机变量

2023/2/471.离散型随机变量

如果随机变量的所有取值是有限个或都可以逐个列举出来,则称为离散型随机变量。例如,掷骰子试验中“出现的点数”、质量检验中从一批产品里“取到次品的个数”等都是离散型随机变量。2023/2/482.连续型随机变量

如果随机变量的取值不仅是无穷多个,而是可取到某个区间或整个数轴上的一切值,不能够无遗漏地一一列举出来,则称该随机变量为连续型随机变量。例如,一批电子元件的“使用寿命”、抽样调查中的“测量误差”等都是连续型随机变量。2023/2/49二、随机变量的概率分布(一)概率分布的含义及意义1.概率分布的含义随机变量在其取值范围内,取值与取值概率间一一对应的关系,称之为随机变量的概率分布,简称分布。2.概率分布的意义描述随机变量变化的统计规律。方便地计算任一事件发生的概率。2023/2/410(二)离散型随机变量的概率分布

1.离散型随机变量概率分布的两种表现形式分布列(律)2.概率函数2023/2/411概率函数的数学性质2023/2/412(三)连续型随机变量的概率分布(1)

1.连续型随机变量的表现方式--密度函数2023/2/413(三)连续型随机变量的概率分布(2)2.密度函数的数学性质3.事件“”发生的概率的计算方法2023/2/414(三)连续型随机变量的概率分布(3)4.事件“”发生的概率的几何意义5.连续型随机变量的期望值和方差分别为2023/2/415(四)随机变量的分布函数

1.分布函数的来源离散型随机变量的分布用概率函数来描述,连续型随机变量的分布用密度函数来描述,两者形式不同,表现各异。为了更方便地表现随机变量的分布,下面引入分布函数。

2.分布函数的定义2023/2/416分布函数的几何意义及数学性质1.几何意义2.数学性质2023/2/417随机变量分布函数的具体表现2023/2/4182023/2/419(五)连续型随机变量的概率分布1.密度函数的定义2023/2/420(六)常见的连续型随机变量的分布---------

正态分布定义2023/2/421

正态分布正态分布的密度函数图形是一条以均值为中心的对称钟型曲线2023/2/422

正态分布正态分布密度函数的数学性质2023/2/423

正态分布参数和对曲线形态的影响2023/2/424标准正态分布及其重要意义2023/2/425

正态分布标准化标准化法2023/2/426标准化法的几何意义标准化变换实质上是作了一个坐标轴的平移和尺度变换,使正态分布的平均数,标准差。2023/2/427

正态分布正态分布表及上侧分位数2023/2/428

正态分布

准则2023/2/429

正态分布(P118)(记住啦)准则示意图2023/2/430

正态分布正态分布的重要意义在随机理论中,正态分布是最重要的一种分布,理由如下:⑴它是最常见的一种分布,现实中许多随机变量服从或近似服从正态分布。⑵在一定的条件下,正态分布是其他分布的近似分布。⑶许多有用的分布,特别是小样本的精确分布是由正态分布推导出来的。2023/2/431

小样本的精确分布

1.分布由阿贝(Abbe)于1863年首先给出,后来由海尔墨特(Hermert)和卡·皮尔逊(K·Pearson)分别于1875年和1900年推导出来。2.分布也称学生氏(Student)分布,是由哥塞特(W.S.Gosset)在1908年首次提出,其重要意义在于提供了小样本研究方法。3.分布是由统计学家费雪(R.A.Fisher)首次提出的。2023/2/432

分布--定义2023/2/433

分布--密度函数图象

2023/2/434

分布--期望和方差及上侧分位数

2023/2/435

分布--定义2023/2/436

分布--密度函数图象2023/2/437

分布--期望和方差及上侧分位数2023/2/438

分布的上侧分位数2023/2/439

分布--定义2023/2/440

分布--密度函数图象2023/2/441

分布--期望和方差2023/2/442

分布--上侧分位数2023/2/443常见的概率分布在抽样推断中的作用2023/2/444第二节大数定律与中心极限定理p119一、大数定律1.切比雪夫大数定律2.贝努里大数定律二、中心极限定理1.林德贝格-勒维中心极限定理2.棣莫弗-拉普拉斯中心极限定理2023/2/445一、大数定律

大数定律又称作大数法则,是关于“均值具有稳定性”的一类定理。个别事物因偶然因素的影响而产生变异,有各自不同的表现,但是,对总体进行大量观察后平均,就能使偶然因素的影响相互抵消,消除由个别偶然因素引起的极端性影响,从而使总体均值稳定下来,反映出事物变化的一般规律。2023/2/446(一)切比雪夫大数定律2023/2/447(一)切比雪夫大数定律2023/2/448(二)贝努里大数定律

2023/2/449

二、中心极限定理

大数定律说明了当样本容量n充分大时,样本均值趋于总体均值,但并不等于总体均值,说明样本推断总体时存在误差。若要控制推断误差,显然须知样本均值这一随机变量的概率分布,可惜大数定律只提供了推断方法,并未给出推断误差的概率分布。而中心极限定理正好弥补了大数定律的这一不足。2023/2/450(一)林德贝格-勒维中心极限定理2023/2/451(一)林德贝格-勒维中心极限定理2023/2/452(二)棣莫弗-拉普拉斯()

中心极限定理2023/2/453两类极限定理的意义1.如果说大数定律是关于“均值具有稳定性”的一类定律,它提供了样本估计总体的方法,那么中心极限定理则是关于“估计误差概率分布”的一类定理,它不仅提供了估计方法,而且还提供了控制估计误差的方法。2.中心极限定理还揭示了正态分布形成的机制,即如果某一个量是许多随机因素综合影响迭加形成的,在这许多影响因素中没有任何一个起着主导作用,那么这个量就是一个服从正态分布的正态随机变量。回归模型中的随机误差项常假定服从正态分布,其依据便在于此。2023/2/454第三节统计量的抽样分布

(重点)p123-137一、抽样方式二、样本与统计量三、抽样分布1.样本均值的抽样分布2.样本方差的抽样分布3.样本成数的抽样分布(大样本情形)注意:

在学习下面内容之前,同学们自己一定要去好好复习、理解随机变量、概率、概率分布、随机变量的分布函数、正态分布、正态分布标准化、t分布、参数、统计量等概念的涵义,会查表计算标准正态分布的概率。2023/2/4552023/2/456

第三节统计量的抽样分布

一、抽样方式

抽样调查属于非全面调查,抽样的核心问题是如何保证样本对总体具有充分的代表性。按是否根据已知概率抽选样本单位,抽样方式可分为概率抽样和非概率抽样;统计推断主要采用概率推断。按抽取样本单位后是否放回,抽样方式又可分为重置抽样(放回)和不重置抽样(不放回)。2023/2/457一、抽样方式P123(一)概率抽样概率抽样是按照随机原则进行抽样的方式,它不加任何主观因素,组成总体的每个单位都有被抽中的概率,样本对总体有很强的代表性。1.概率抽样的优点和不足概率抽样的优点有:(1)调查结果可以用来推断总体;(2)能估算出并能控制抽样误差。概率抽样的不足有:(1)在大多数案例中,相同规模的概率抽样的费用要比非概率抽样高;(2)概率抽样比非概率抽样的技术要求高,需要更多的时间策划和实施。2.常用的概率抽样方法

(1)简单随机抽样,又称纯随机抽样,它是抽样前对总体不加任何分组、划类、排队等处理,完全随机地抽取样本单位的方法。(2)等距抽样,又称机械抽样或系统抽样,它是抽样前将总体各单位按一定标志或次序排队,然后按相等的距离抽取样本单位的方法。(3)类型抽样,又称分类抽样或分层抽样,它是抽样前将总体单位按其属性特征分成若干类型或层,然后在各类型或层中随机抽取样本单位的方法。(4)整群抽样,又称集团抽样,它是抽样前将总体各单位按一定标准分成若干群或组,再从总体中随机抽取一定数量的群或组,对抽中的群或组的所有单位进行全面调查的方法。(5)多阶段抽样,又称多级抽样,它是将调查分成两个或两个以上的阶段进行抽样的方法。第一阶段先将总体按照一定的规范分成若干抽样单位,称之为一级抽样单位,再把抽中的一级抽样单位分成若干更小的二级抽样单位,从抽中的二级抽样单位再分三级抽样单位,…,这样就形成一个多阶段抽样过程。其特点是,当一次抽样不能得到样本单位而总体又超大、复杂时使用。

在抽样调查的实际工作中,经常是要将几种抽样方法结合起来应用。2023/2/459(二)非概率抽样

非概率抽样是按主观意向进行抽样的方式,因组成总体的一部分单位没有被抽中的机会,故容易出现样本对总体的系统性偏差。一般情况下,非概率抽样得到的样本不适宜推断总体。1.非概率抽样的特点非概率抽样的优点是简单易行、成本低、省时间等,在操作上也比概率抽样简单。但由于无法排除抽样者的主观性,无法客观地评价样本的代表性,特别是不能计算和控制抽样误差,因此样本不具有推论总体的性质。非概率抽样多用于探索性研究、预备性研究和总体边界不清难于实施概率抽样的研究。实际应用时,采用非概率抽样的原因包括:(1)受客观条件的限制,无法采用严格的概率抽样方法;(2)调查时效性要求高,要迅速取得调查结果;(3)调查对象不确定或者无法确定;(4)总体各单位的标志值差异不大,而且调查者有丰富的调查经验等。因概率抽样与非概率抽样各有优缺点,且各有适宜使用的场合,故在实际应用中,非概率抽样往往与概率抽样结合使用。2.常用的非概率抽样方法常用的非概率抽样方法包括方便抽样、配额抽样、判断抽样和滚雪球抽样等。2023/2/461(三)重复抽样和不重复抽样1.重复抽样又称有放回抽样,它是每次从总体中抽取一个单位,观察记录后又放回,再抽取下一个。因此,重复抽样的样本是由次相互独立的连续试验所组成的,每次实验在相同条件下进行,在整个抽样过程中总体单位数始终不变,各单位被抽中的概率前后相等。2.不重复抽样又称无放回抽样,它是每次从总体中抽取一个单位,观察记录后不放回,再抽取下一个。因此,不重复抽样的样本虽由次连续试验所组成,而实质等于一次同时从总体中抽个单位组成一个样本,每次实验不是相互独立的,在整个抽样过程中每抽一次总体单位就少一个,各单位被抽中的概率前后不等,越往后被抽中的机会就越大。在实践中当总体单位数很大,样本单位数相对较小时,可以把不重复抽样看成重复抽样,这时的计算比较简单。2023/2/462二、样本与统计量

(一)简单随机样本(二)参数、统计量参数(parameter)来描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值所关心的参数主要有总体均值()、标准差()、总体比例()等总体参数通常用希腊字母表示统计量(statistic)用来描述样本特征的概括性数字度量,它是根据样本数据计出来的一些量,是样本的函数。(统计量是随机变量)。所关心的样本统计量有样本均值(x)、样本标准差(s)、样本比例(p)等样本统计量通常用小写英文字母来表示2023/2/464(三)常用统计量--12023/2/465(三)常用统计量

-22023/2/466(三)常用统计量-32023/2/467补充:三种不同性质的分布P129

总体分布:总体中各元素的观察值所形成的相对频率分布。

样本分布:一个样本中各元素的观察值所成的相对频率分布。当样本容量n逐渐增大时,样本分布逐渐接近总体的分布。抽样分布:样本统计量的概率分布,是一种理论分布在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布2023/2/468补充:抽样分布(第66-76张)①指样本统计量的概率分布;②样本统计量是样本的函数,依据不同的样本计算出来的值是不同的所以统计量是随机变量样本均值,样本比例,样本方差等;③它的结果来自容量相同的所有可能样本;④它提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据 补充:样本均值抽样分布的形成过程【例】设一个总体,含有4个元素(个体)

,即总体单位数N=4。4

个个体分别为x1=1,x2=2,x3=3,x4=4

。总体分布、总体的均值、方差及分布如下:总体分布14230.1.2.3均值和方差

补充:现从总体中抽取n=2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果为3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第一个观察值所有可能的n=2的样本(共16个)总体1、2、3、4样本总体1、2、3、4

计算出各样本的均值,如下表。并给出样本均值的抽样分布P1853.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第一个观察值16个样本的均值()样本均值的抽样分布样本均值所有可能取值2023/2/472补充:样本均值的抽样分布形式(样本均值的分布与总体分布的比较)

=2.5why?σ2=1.25

的分布形式与原有总体和样本容量n的大小有关总体分布14230.1.2.3的抽样分布P(x)1.00.1.2.31.53.04.03.52.02.5x样本均值的抽样分布与中心极限定理=50

=10X总体分布n=4抽样分布xn=16当总体服从正态分布N(μ,σ2)时,来自该总体的所有容量为n的样本的均值x也服从正态分布,x

的数学期望为μ,方差为σ2/n。即x~N(μ,σ2/n)(记住,已知)2023/2/474中心极限定理

(centrallimittheorem)当样本容量足够大时(n

30),样本均值的抽样分布逐渐趋于正态分布中心极限定理:设从均值为,方差为2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布一个任意分布的总体x中心极限定理(centrallimittheorem)x的分布趋于正态分布的过程样本均值的数学期望样本均值的方差(方差的概率意义在于刻画了随机变量取值的分散程度。方差越小,随机变量的取值越集中在期望值附近。)

重复抽样不重复抽样补充:样本均值抽样分布的特征(数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论