概率分布与抽样_第1页
概率分布与抽样_第2页
概率分布与抽样_第3页
概率分布与抽样_第4页
概率分布与抽样_第5页
已阅读5页,还剩91页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2022-5-21第四章第四章 概率分布与抽样概率分布与抽样 从这一章开始便进入推断统计学的内容,它会节从这一章开始便进入推断统计学的内容,它会节省人们的时间和财物最佳限度地认识研究对象。省人们的时间和财物最佳限度地认识研究对象。 现实世界包含的素材集合非常庞大,从中提取需现实世界包含的素材集合非常庞大,从中提取需要的信息非常困难。如:要的信息非常困难。如:选民人数:每个候选人的支持率是多少?选民人数:每个候选人的支持率是多少?产品:不合格率是多少?产品:不合格率是多少?环境:污染程度如何?环境:污染程度如何?市场:品种、价格、质量、购买力等情况的了解。市场:品种、价格、质量、购买力等情况的了

2、解。 在这一章里,你将会了解到样本是怎样抽取的,在这一章里,你将会了解到样本是怎样抽取的,样本统计量是怎样分布的,如何根据样本统计量对总样本统计量是怎样分布的,如何根据样本统计量对总体参数做估计。体参数做估计。2022-5-22主要内容主要内容 4.1 抽样的一般问题抽样的一般问题4.2 三种不同性质的分布三种不同性质的分布4.3 一个总体参数推断时样本统计量一个总体参数推断时样本统计量 的抽样分布的抽样分布4.4 两个总体参数推断时样本统计量两个总体参数推断时样本统计量 的抽样分布的抽样分布4.5 其他抽样方法其他抽样方法2022-5-234.1 抽样的一般问题抽样的一般问题w4.1.1 一

3、个例子一个例子w4.1.2 统计抽样的几个基本概念统计抽样的几个基本概念w4.1.3 简单随机抽样简单随机抽样2022-5-244.1.1 一个例子一个例子 本例中存栏肉猪本例中存栏肉猪1000010000头组成的集合,则称为头组成的集合,则称为总体总体,它是指,它是指在统计抽样中所要了解的研究对象全体,又称为母体,当确定在统计抽样中所要了解的研究对象全体,又称为母体,当确定了研究目标时,它具有惟一性。一般总体的单位总数用了研究目标时,它具有惟一性。一般总体的单位总数用N N表示,表示,称作称作总体容量总体容量。本例中所抽出的。本例中所抽出的100100头肉猪组成的集合,则称为头肉猪组成的集合

4、,则称为样本样本,它是指在统计抽样中按照,它是指在统计抽样中按照“随机原则随机原则” ” 从总体从总体N(10000)N(10000)中抽出的部分单位中抽出的部分单位( (每个单位称作样本单位每个单位称作样本单位) )所组成的整体,又所组成的整体,又称子样。一般样本的单位总数用称子样。一般样本的单位总数用n(100)n(100)表示,称作表示,称作样本容量样本容量。样本不具惟一性,它的可能个数与样本不具惟一性,它的可能个数与N N、n n及抽样方法有关。通常及抽样方法有关。通常n30n30称为称为小样本小样本,n30n30称为称为大样本大样本,在抽样调查中取大或小样,在抽样调查中取大或小样本会

5、直接影响到抽样分布的特征。本会直接影响到抽样分布的特征。例例 某养猪厂共有存栏肉猪某养猪厂共有存栏肉猪10000头,现欲了解这批肉猪平均头,现欲了解这批肉猪平均每头毛重每头毛重(设为设为 ),如果将每头肉猪过称去获取数据将是不合,如果将每头肉猪过称去获取数据将是不合算的。我们可以按照算的。我们可以按照“随机原则随机原则” 从中抽出从中抽出100头称重量,计头称重量,计算这算这100头的平均每头毛重,以达到我们期望的目的。头的平均每头毛重,以达到我们期望的目的。2022-5-251、总体和样本、总体和样本 总体:研究对象全体,又称母体。容量用总体:研究对象全体,又称母体。容量用N表示。表示。 具

6、备惟一性。具备惟一性。样本:按随机原则从总体中抽出的部分单位的全体,样本:按随机原则从总体中抽出的部分单位的全体,被抽出的每个单位称样本单位。样本容量用被抽出的每个单位称样本单位。样本容量用n表示。表示。样本不具惟一性。样本不具惟一性。 当当n30时,为小样本。时,为小样本。当当n30时,为大样本。时,为大样本。4.1.2 统计抽样的几个基本概念统计抽样的几个基本概念2022-5-262、总体参数和样本统计量、总体参数和样本统计量 根据全及总体各单位变量值计算的反映全及总体根据全及总体各单位变量值计算的反映全及总体某数量特征的综合指标,由于总体唯一确定,故称总某数量特征的综合指标,由于总体唯一

7、确定,故称总体参数。体参数。 如上例中的如上例中的 根据样本各单位变量值计算的反映样本某方面数根据样本各单位变量值计算的反映样本某方面数量特征的综合指标,由于样本不具惟一性,故称为样量特征的综合指标,由于样本不具惟一性,故称为样本统计量,它是一个随机变量。本统计量,它是一个随机变量。 如上例中的抽出如上例中的抽出100头肉猪的平均每头毛重头肉猪的平均每头毛重4.1.2 统计抽样的几个基本概念统计抽样的几个基本概念2022-5-273、重复抽样与不重复抽样、重复抽样与不重复抽样从总体中抽取样本有两种方法:重复抽样和不重复抽样。从总体中抽取样本有两种方法:重复抽样和不重复抽样。重复抽样重复抽样,抽

8、样安排,抽样安排-对每次被抽到的单位经登记后再放回对每次被抽到的单位经登记后再放回总体,重新参与下一次抽选的抽样方法。在每次的抽取中样总体,重新参与下一次抽选的抽样方法。在每次的抽取中样本单位被抽中的概率都相等,统计中称这样的抽样为相互独本单位被抽中的概率都相等,统计中称这样的抽样为相互独立的试验。立的试验。不重复抽样不重复抽样,抽样安排,抽样安排-对被抽到的单位登记后不再放回总对被抽到的单位登记后不再放回总体的抽样方法。不重复抽样与重复抽样比较,每次抽样的条体的抽样方法。不重复抽样与重复抽样比较,每次抽样的条件是不同的,前一次的抽取结果会对后一次的抽取产生影响件是不同的,前一次的抽取结果会对

9、后一次的抽取产生影响,统计中称这样的抽样为相互不独立的试验。统计中称这样的抽样为相互不独立的试验。4.1.2 统计抽样的几个基本概念统计抽样的几个基本概念2022-5-284.1.3 简单随机抽样简单随机抽样 简单随机抽样也称为简单随机抽样也称为纯随机抽样纯随机抽样。它是对总体单位。它是对总体单位不做任何分类或排队,直接从总体中按不做任何分类或排队,直接从总体中按“随机原则随机原则”抽抽取样本单位的调查方式。取样本单位的调查方式。 为了便于抽取样本单位,一般在明确抽样框的条为了便于抽取样本单位,一般在明确抽样框的条件下,对总体的每个单位都要编号,然后用抽签式或件下,对总体的每个单位都要编号,然

10、后用抽签式或利用利用随机数字表随机数字表进行抽取。进行抽取。 例如:例如:N=500 n=10 编码从编码从1-500号号 在随机数表中随意选取二个数字,假如得到在随机数表中随意选取二个数字,假如得到4行,行,43列。则选取的号码从这个被选中的数开始,由于列。则选取的号码从这个被选中的数开始,由于500是是个三位数,则小于个三位数,则小于500的连续三位数即为中选号码,见的连续三位数即为中选号码,见表中所示。表中所示。2022-5-294.1.3 简单随机抽样简单随机抽样2022-5-2104.2 三种不同性质的分布三种不同性质的分布4.2.1 几种常见分布几种常见分布4.2.2 总体分布总体

11、分布4.2.3 样本分布样本分布4.2.4 抽样分布抽样分布4.2.5 样本推断总体的理论依据样本推断总体的理论依据这些内容与前面内这些内容与前面内容有什么关系容有什么关系?2022-5-211一、随机变量的概率分布一、随机变量的概率分布(一)概率分布的含义(一)概率分布的含义w 1、在随机试验中,若、在随机试验中,若X随着试验结果的不同而随着试验结果的不同而随机地取各种不同的数值,并且对取每一个数随机地取各种不同的数值,并且对取每一个数值或某一范围内的值都有相应的概率,则称值或某一范围内的值都有相应的概率,则称X为一个为一个随机变量随机变量,按其取值特点可分为,按其取值特点可分为离散型离散型

12、随机变量随机变量和和连续型随机变量连续型随机变量。w 2、随机变量在其取值范围内,取值与取值概率、随机变量在其取值范围内,取值与取值概率间一一对应的关系间一一对应的关系,称为随机变量的,称为随机变量的概率分布概率分布(probability distribution(probability distribution,简称,简称分布分布) )。w 3、概率分布可以用各种图表来表示,一些也可、概率分布可以用各种图表来表示,一些也可以用公式来表示。以用公式来表示。意义意义:描述随机变量变化的:描述随机变量变化的统计规律;方便地计算某一事件发生的概率。统计规律;方便地计算某一事件发生的概率。4.2.1

13、 几种常见分布几种常见分布2022-5-212(二)(二) 离散型随机变量的概率分布离散型随机变量的概率分布 n离散型随机变量概率分布的两种表现形式离散型随机变量概率分布的两种表现形式n1.分布列(律)分布列(律)n2.概率函数概率函数 2022-5-213 概率函数概率函数p(xi)的数学性质的数学性质2022-5-214(三)(三) 连续型随机变量的概率分布连续型随机变量的概率分布(1/3) n1. 连续型随机变量的表现方式密度函数连续型随机变量的表现方式密度函数 ( )f x2022-5-215(三)(三) 连续型随机变量的概率分布连续型随机变量的概率分布(2/3)n2.密度函数密度函数

14、 的数学性质的数学性质n3.事件事件“ ”发生的概率发生的概率 的计算方法的计算方法( )f xaXb()( )baP aXbf x dx=2022-5-216(三)(三) 连续型随机变量的概率分布连续型随机变量的概率分布(3/3)n4.事件事件“ ”发生的概率的几何意义发生的概率的几何意义n5.连续型随机变量的期望值和方差分别为连续型随机变量的期望值和方差分别为 aXb2022-5-217(四)(四) 随机变量的分布函数随机变量的分布函数 n1.分布函数的来源分布函数的来源 如前所述,离散型随机变量的分布用概率函数来描述,连续型如前所述,离散型随机变量的分布用概率函数来描述,连续型随机变量的

15、分布用密度函数来描述,两者形式不同,表现各异。随机变量的分布用密度函数来描述,两者形式不同,表现各异。为了更方便地表现随机变量的分布,下面引入分布函数。为了更方便地表现随机变量的分布,下面引入分布函数。 n2.分布函数的定义分布函数的定义2022-5-2183.分布函数的几何意义及数学性质分布函数的几何意义及数学性质n1)几何意义几何意义n2)数学性质数学性质2022-5-2194.随机变量分布函数的具体表现随机变量分布函数的具体表现2022-5-220二、正态分布二、正态分布4.2.1 几种常见分布几种常见分布w 1.定义定义2022-5-221w 正态分布的密度函数正态分布的密度函数图形图

16、形是一条以均值为中心是一条以均值为中心的对称钟型曲线的对称钟型曲线 二、正态分布二、正态分布4.2.1 几种常见分布几种常见分布2022-5-222w 2.正态分布密度函数正态分布密度函数 的数学性质的数学性质 ( )f x二、正态分布二、正态分布4.2.1 几种常见分布几种常见分布2022-5-223w 3.标准正态分布及其重要意义标准正态分布及其重要意义二、正态分布二、正态分布4.2.1 几种常见分布几种常见分布2022-5-224w 4.标准化法标准化法二、正态分布二、正态分布4.2.1 几种常见分布几种常见分布2022-5-225w 标准化法的标准化法的几何意义几何意义 w 标准化变换

17、实质上是作了一个坐标轴的平移和标准化变换实质上是作了一个坐标轴的平移和尺度变换,使正态分布的平均数尺度变换,使正态分布的平均数 ,标准,标准差差 。 0m=1s=二、正态分布二、正态分布4.2.1 几种常见分布几种常见分布2022-5-226w 5.正态分布表及上侧分位数正态分布表及上侧分位数二、正态分布二、正态分布4.2.1 几种常见分布几种常见分布2022-5-227w 6. 准则准则 3s二、正态分布二、正态分布4.2.1 几种常见分布几种常见分布2022-5-2283s准则示意图准则示意图二、正态分布二、正态分布4.2.1 几种常见分布几种常见分布2022-5-229w 7.正态分布的

18、重要意义正态分布的重要意义 在随机理论中,正态分布是最重要的一种分布在随机理论中,正态分布是最重要的一种分布,理由如下:理由如下:w 它是最常见的一种分布,现实中许多随机变它是最常见的一种分布,现实中许多随机变量服从或近似服从正态分布。量服从或近似服从正态分布。w 在一定的条件下,正态分布是其他分布的近在一定的条件下,正态分布是其他分布的近似分布。似分布。w 许多有用的分布,特别是小样本的精确分布许多有用的分布,特别是小样本的精确分布是由正态分布推导出来的。是由正态分布推导出来的。二、正态分布二、正态分布4.2.1 几种常见分布几种常见分布2022-5-230三、小样本三、小样本(n30)的精

19、确分布的精确分布w1、2分布w2、t分布w3、F分布4.2.1 几种常见分布几种常见分布2022-5-2311、 2分布分布( 2 distribution) (1)推导说明推导说明由阿贝由阿贝(Abbe) 于于1863年首先给出,后来由海尔墨特年首先给出,后来由海尔墨特(Hermert)和卡和卡皮尔逊皮尔逊(KPearson)分别于分别于1875年和年和1900年推导出来。年推导出来。设设 ,则,则构造构造 ,则,则 Yi 服从自由度为服从自由度为1的的 2分分布,即布,即当总体当总体 ,从中抽取容量为,从中抽取容量为n的样本,则的样本,则4.2.1 几种常见分布几种常见分布 三、三、小样本

20、小样本(n30)的精确分布的精确分布2022-5-2321、 2分布分布(2)性质和特点性质和特点由于由于 2 分布变量为正态变量的平方和,故分布变量为正态变量的平方和,故分布的变量值分布的变量值始终为正。始终为正。可加性:若可加性:若U和和V为两个独立的服从为两个独立的服从 2分布的随机变量,分布的随机变量,U 2(n1),V 2(n2),则则U+V这一随机变量服从自由度为这一随机变量服从自由度为n1+n2的的 2分布。分布。 n个独立正态变量平方和称为有个独立正态变量平方和称为有n个自由度的个自由度的 2-分布分布,记为记为 2(n)。 2-分布为一族分布分布为一族分布, 成员由自由度区分

21、。成员由自由度区分。 分布的形状取决于其自由度分布的形状取决于其自由度n的大小,通常为不对称的正的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称。偏分布,但随着自由度的增大逐渐趋于对称。 期望为期望为E( 2)=n,方差为,方差为D( 2)=2n(n为自由度为自由度) 4.2.1 几种常见分布几种常见分布 三、三、小样本小样本(n30)的精确分布的精确分布2022-5-2331 1、 2分布分布(3)图示)图示 选择容量为选择容量为n 的的简单随机样本简单随机样本计算样本方差计算样本方差s2计算卡方值计算卡方值 2 = (n-1)s2/2计算出所有的计算出所有的 2值值总体总体4

22、.2.1 几种常见分布几种常见分布 三、三、小样本小样本(n30)的精确分布的精确分布2022-5-2341 1、 2分布分布(4) 2分布的分布的上上 分位点分位点 分位点分位点 设设X 2(n),若对于,若对于 :0 1, 存在存在2( )0n, 满足满足2( ),P Xn则称则称2( )n为为2( )n分布的分布的上上 分位点。分位点。2( )n4.2.1 几种常见分布几种常见分布 三、三、小样本小样本(n30)的精确分布的精确分布2022-5-235 由统计学家哥赛特(由统计学家哥赛特(W.S.Gosset)于)于1908年提出,并以其笔名命名。年提出,并以其笔名命名。2 2、t-分布

23、分布(t-distribution) (1)t分布的构造及性质分布的构造及性质4.2.1 几种常见分布几种常见分布 三、三、小样本小样本(n30)的精确分布的精确分布 若若 N(0, 1), 2(n), 与与 独立,则独立,则( )./Tt nn 221lim( )( ),2tnf ttex 2022-5-236t(n)(n)分布的图形为分布的图形为2 2、t-分布分布(t-distribution) (2)t分布的图示分布的图示4.2.1 几种常见分布几种常见分布 三、三、小样本小样本(nt0.05)=0.05P(tt0.05)=1-=0.95w 对于给定的对于给定的 :0 t )= 的点的

24、点t 为为t(n)分布的上分布的上 分位点分位点。)(1nt)(nt2 2、t-分布分布(t-distribution) (3)t分布的上分布的上 分位点分位点4.2.1 几种常见分布几种常见分布 三、三、小样本小样本(n30)的精确分布的精确分布2022-5-238由统计学家费希尔由统计学家费希尔(R.A.Fisher) 提出的,以其姓提出的,以其姓氏的第一个字母来命名氏的第一个字母来命名构造:设若构造:设若U为服从自由度为为服从自由度为n1的的 2分布,即分布,即U 2(n1),V为服从自由度为为服从自由度为n2的的 2分布,即分布,即V 2(n2),且,且U和和V相互独立,则相互独立,则

25、 称称F为服从自由度为服从自由度n1和和n2的的F分布,记为分布,记为3 3、F分布分布(F distribution) (1)F分布的构造分布的构造4.2.1 几种常见分布几种常见分布 三、三、小样本小样本(n30)的精确分布的精确分布2022-5-239F分布(图示)3 3、F分布分布(F distribution) (2)F分布的图示分布的图示4.2.1 几种常见分布几种常见分布 三、三、小样本小样本(n30)的精确分布的精确分布2022-5-240w F分布的分位点分布的分位点:w 对于对于 :0 1, 若满足条件:若满足条件: PF F (n1, n2)= , 则称则称F (n1,

26、n2)为为 F(n1, n2)的的 上上 分位点分位点),(21nnF12( ,)F n n3 3、F分布分布(F distribution) (3)F分布的上分布的上 分位点分位点4.2.1 几种常见分布几种常见分布 三、三、小样本小样本(n30)的精确分布的精确分布2022-5-2411)总体中各元素的观察值所形成的相对频数)总体中各元素的观察值所形成的相对频数(频率)分布(频率)分布 2)分布通常是未知的(因为几乎得不到总图)分布通常是未知的(因为几乎得不到总图所有观察值)所有观察值)3)可以根据理论分析假定它服从某种分布)可以根据理论分析假定它服从某种分布 4.2.2 总体分布总体分布

27、2022-5-2421)一个样本中各观察值形成的相对频数)一个样本中各观察值形成的相对频数(频率)分布(频率)分布 2)也称经验分布)也称经验分布 3)当样本容量)当样本容量n逐渐增大时,样本分布逐逐渐增大时,样本分布逐渐接近总体的分布渐接近总体的分布 4.2.3 样本分布样本分布2022-5-2431 1、统计量与参数、统计量与参数1 1)在抽样推断中,无论是总体还是样本,都可以用)在抽样推断中,无论是总体还是样本,都可以用均均值、比例值、比例( (或成数或成数) )、标准差和方差、标准差和方差等指标来描述它等指标来描述它们的特征。当它们用来描述样本的特征时,称为样们的特征。当它们用来描述样

28、本的特征时,称为样本统计量;当它们用来描述总体特征时,称为总体本统计量;当它们用来描述总体特征时,称为总体参数。参数。2 2)样本统计量样本统计量是样本的函数,依据不同的样本计算出是样本的函数,依据不同的样本计算出来的值是不同的,所以来的值是不同的,所以统计量是随机变量统计量是随机变量,如样本,如样本均值均值, , 样本比例,样本方差等。样本比例,样本方差等。4.2.4 抽样分布抽样分布2022-5-2442、抽样分布的含义、抽样分布的含义1)含义:含义:样本统计量的概率分布,样本统计量的概率分布,是一种理论分布,是一种理论分布,在重复选取容量为在重复选取容量为n n的样本时,由该统计量的所有

29、可能的样本时,由该统计量的所有可能取值形成的相对频数分布。取值形成的相对频数分布。2)构造抽样分布包括以下几个步骤:构造抽样分布包括以下几个步骤: (1)从容量为)从容量为N的有限总体中随机抽出容量为的有限总体中随机抽出容量为n的的所有可能样本;所有可能样本; (2)算出每个样本的统计量数值;)算出每个样本的统计量数值; (3)算出与每个样本统计量数值相对应的概率,)算出与每个样本统计量数值相对应的概率,作频数分布表。作频数分布表。4.2.4 抽样分布抽样分布2022-5-2453、总体分布、样本均值的抽样分布、总体分布、样本均值的抽样分布(例题分析例题分析)4.2.4 抽样分布抽样分布202

30、2-5-246现从总体中抽取现从总体中抽取n2的简单随机样本,在重复抽的简单随机样本,在重复抽样条件下,共有样条件下,共有42=16个样本。所有样本的结果为个样本。所有样本的结果为 3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第二个观察值第一个第一个观察值观察值所有可能的所有可能的n = 2 的样本(共的样本(共16个)个)4.2.4 抽样分布抽样分布2022-5-2473.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第二个观察值第一个第一

31、个观察值观察值16个样本的均值个样本的均值 ( x )4.2.4 抽样分布抽样分布2022-5-248样本均值的分布与总体分布的比较样本均值的分布与总体分布的比较 (例题分析例题分析)x4.2.4 抽样分布抽样分布2022-5-2494、抽样分布的意义、抽样分布的意义xxxxxx4.2.4 抽样分布抽样分布 意义:意义:抽样分布一方面描述了样本的随机性,提抽样分布一方面描述了样本的随机性,提供了供了样本统计量长远而稳定的信息样本统计量长远而稳定的信息即变化规律;另一即变化规律;另一方面建立了方面建立了样本与总体的联系样本与总体的联系,是进行推断的理论基是进行推断的理论基础,也是抽样推断科学性的

32、重要依据础,也是抽样推断科学性的重要依据。 2022-5-250一、大数定律一、大数定律w 1、是关于均值具有稳定性的一类定律。、是关于均值具有稳定性的一类定律。w 2、以切比雪夫大数定律为例。、以切比雪夫大数定律为例。w 设随机变量设随机变量 相互独立,且具有相同的有限数学期望相互独立,且具有相同的有限数学期望和方差:和方差:w w 则对于任意正数则对于任意正数 ,都有,都有w 3、若把(、若把( )看作是来自期望为)看作是来自期望为 、方差为、方差为2 总体的一总体的一个容量为个容量为n的样本,随着的样本,随着n的充分增大,样本均值依概率收敛于总体的充分增大,样本均值依概率收敛于总体均值。

33、均值。w 4、大数定律为统计量估计参数提供了理论上的依据。即统计量推断、大数定律为统计量估计参数提供了理论上的依据。即统计量推断参数是可行的。但大数定律没有提供统计量推断参数时误差的计算参数是可行的。但大数定律没有提供统计量推断参数时误差的计算方法。方法。12,.,.nXXXniXDXEii,.,2, 1,20111limniniPXn nXXX,.,214.2.5 样本推断总体的理论依据样本推断总体的理论依据2022-5-251二、中心极限定理二、中心极限定理 (central limit theorem)当样本容量足够当样本容量足够大时大时(n 30) ,样本均值的抽样样本均值的抽样分布逐

34、渐趋于正分布逐渐趋于正态分布态分布从从均值为均值为 ,方差为,方差为 2的一个的一个任意总体任意总体中重复抽取中重复抽取容量为容量为n的样本,的样本,当当n充分大时充分大时,样本均值的,样本均值的抽样分布近似服从抽样分布近似服从均值为均值为、方差为、方差为2/n的的正态分布。正态分布。4.2.5 样本推断总体的理论依据样本推断总体的理论依据2022-5-2524.2.5 样本推断总体的理论依据样本推断总体的理论依据2022-5-253w 1 1)确定了正态分布在各种分布中的首要地位。)确定了正态分布在各种分布中的首要地位。也回答了正态分布是最重要、最常见的分布。也回答了正态分布是最重要、最常见

35、的分布。w 2 2)揭示了正态分布的形成机制。如果某一个)揭示了正态分布的形成机制。如果某一个量的变化受到许多种随机因素的影响,这种影量的变化受到许多种随机因素的影响,这种影响的总后果是各个因素的迭加,而且,这些因响的总后果是各个因素的迭加,而且,这些因素中没有任何一个是起主导作用的,那么,这素中没有任何一个是起主导作用的,那么,这个量就是一个服从正态分布的随机变量。个量就是一个服从正态分布的随机变量。w 3 3)提供了推断误差的计算思想方法,特别是)提供了推断误差的计算思想方法,特别是大样本处理方法。但没有提供小样本下推断误大样本处理方法。但没有提供小样本下推断误差的计算方法。差的计算方法。

36、4.2.5 样本推断总体的理论依据样本推断总体的理论依据2022-5-2544.3 一个总体参数推断时样本统计量一个总体参数推断时样本统计量的抽样分布的抽样分布w 4.3.1 样本均值的抽样分布样本均值的抽样分布w 4.3.2 样本比例的抽样分布样本比例的抽样分布w 4.3.3 样本方差的抽样分布样本方差的抽样分布2022-5-2551、样本均值抽样分布的含义、样本均值抽样分布的含义1)在重复选取容量为)在重复选取容量为n的样本时,由的样本时,由形成的形成的2)一种理论概率分布)一种理论概率分布3)是推断总体均值)是推断总体均值 的理论基础的理论基础4.3.1 样本均值的抽样分布样本均值的抽样

37、分布2022-5-2562、样本均值抽样分布的形式样本均值抽样分布的形式(1)总体分布为正态分布总体分布为正态分布x 当总体服从当总体服从正态分布正态分布N(,2)时,来自该总体的所时,来自该总体的所有容量为有容量为n的样本的均值的样本的均值 x也服从正态分布,也服从正态分布, x 的的数学期望为数学期望为,方差为,方差为2/n。即。即 xN(,2/n)4.3.1 样本均值的抽样分布样本均值的抽样分布2022-5-2572、样本均值抽样分布的形式样本均值抽样分布的形式(2)总体分布为非正态分布)总体分布为非正态分布( n30,大样本情形,大样本情形)当样本容量足够当样本容量足够大时大时(n 3

38、0) ,样本均值的抽样样本均值的抽样分布逐渐趋于正分布逐渐趋于正态分布态分布从从均值为均值为 ,方差为,方差为 2的一个的一个非正态分布非正态分布总体中抽取总体中抽取容量为容量为n的样本,的样本,当当n充分大时充分大时,样本均值的抽样分布,样本均值的抽样分布近似服从近似服从均值为均值为、方差为、方差为2/n的的正态分布正态分布4.3.1 样本均值的抽样分布样本均值的抽样分布2022-5-2581)总体分布为非正态分布且为)总体分布为非正态分布且为小样本小样本(n30) 2)样本均值的分布为)样本均值的分布为非正态分布非正态分布2、样本均值抽样分布的形式样本均值抽样分布的形式(3)总体分布为非正

39、态分布总体分布为非正态分布( n30,小样本情形小样本情形)4.3.1 样本均值的抽样分布样本均值的抽样分布2022-5-259正态分布正态分布非正态分布非正态分布正态分布正态分布正态分布正态分布非正态分布非正态分布2、样本均值抽样分布的形式样本均值抽样分布的形式(4)小结)小结4.3.1 样本均值的抽样分布样本均值的抽样分布2022-5-2601)样本均值的数学期望样本均值的数学期望2)样本均值的方差样本均值的方差(方差的概率意义在于刻画了方差的概率意义在于刻画了随机变量取值的分散程度。方差越小,随机变随机变量取值的分散程度。方差越小,随机变量的取值越集中在期望值附近。量的取值越集中在期望值

40、附近。) 重复抽样重复抽样不重复抽样不重复抽样3、样本均值抽样分布的特征、样本均值抽样分布的特征设总体共有设总体共有N个元素,其均值为个元素,其均值为,方差为,方差为2 ,从,从中抽取容量为中抽取容量为n的样本,则的样本,则 4.3.1 样本均值的抽样分布样本均值的抽样分布2022-5-2611)总体(或样本)中具有某种属性的单位数与)总体(或样本)中具有某种属性的单位数与全部单位总数之比全部单位总数之比 不同性别的人与全部人数之比不同性别的人与全部人数之比合格品合格品(或不合格品或不合格品) 与全部产品总数之比与全部产品总数之比2)总体比例可表示为)总体比例可表示为3)样本比例可表示为)样本

41、比例可表示为4.3.2 样本比例(成数)的抽样分布样本比例(成数)的抽样分布1、比例(成数)的含义、比例(成数)的含义2022-5-2621) 在重复选取容量为在重复选取容量为n的样本时,由的样本时,由形成的相对频数分布。形成的相对频数分布。2) 一种理论概率分布。一种理论概率分布。3) 当样本容量很大时(当样本容量很大时(np5和和n(1-p)5),样),样本比例的抽样分布可用本比例的抽样分布可用正态分布正态分布近似。近似。 4) 推断总体比例推断总体比例 的理论基础。的理论基础。4.3.2 样本比例的抽样分布样本比例的抽样分布2、样本比例抽样分布的含义及形式、样本比例抽样分布的含义及形式2

42、022-5-2631) 样本比例的数学期望样本比例的数学期望2) 样本比例的方差样本比例的方差重复抽样重复抽样不重复抽样不重复抽样4.3.2 样本比例的抽样分布样本比例的抽样分布3、样本比例抽样分布的特征、样本比例抽样分布的特征2022-5-264抽样平均误差抽样平均误差抽样平均抽样平均误差误差4.3.2 样本比例的抽样分布样本比例的抽样分布4、抽样误差抽样误差(1)调查误差的分类)调查误差的分类抽样误差抽样误差2022-5-2654.3.2 样本比例的抽样分布样本比例的抽样分布(2)统计量的标准误()统计量的标准误( )定义:A:样本均值 的抽样误差2()ixxMN=3(A,B,C)=(1,

43、2,3)N=3(A,B,C)=(1,2,3)n=2n=2样本样本数据数据ixix(A A、A A)(A A、B B)(A A、C C)(B B、A A)(B B、B B)(B B、C C)(C C、A A)(C C、B B)(C C、C C)1,11,11,21,21,31,32,12,12,22,22,32,33,13,13,23,23,33,31 11.51.52 2 1.5 1.5 2 2 2.5 2.5 2 2 2.5 2.5 3 3y y1 1=-1=-1y y2 2=-0.5=-0.5y y3 3=0=0y y4 4=-0.5=-0.5y y5 5=0=0y y6 6=0.5=0.

44、5y y7 7=0=0y y8 8=0.5=0.5y y9 9=1=1合计合计18180 0样本可能数目样本可能数目 M=9, =2B:样本成数P的抽样误差2()ippMxx4、抽样误差抽样误差2022-5-266N=3(A,B,C)=(1,2,3)N=3(A,B,C)=(1,2,3)n=2n=2样本样本数据数据ix2)(ix(A A、A A)(A A、B B)(A A、C C)(B B、A A)(B B、B B)(B B、C C)(C C、A A)(C C、B B)(C C、C C)1,11,11,21,21,31,32,12,12,22,22,32,33,13,13,23,23,33,31

45、 11.51.52 2 1.5 1.5 2 2 2.5 2.5 2 2 2.5 2.5 3 31 10.250.250 0 0.25 0.250 0 0.25 0.250 0 0.25 0.251 1合计合计18183 3样本可能数目样本可能数目 M=9, =2 样本平均数 的抽样平均误差A、重复抽样、重复抽样58. 03193)(2Mxix32)(2NX211332xnx4、抽样误差抽样误差(3)标准误差的计算)标准误差的计算4.3.2 样本比例的抽样分布样本比例的抽样分布2022-5-267B、不重复抽样、不重复抽样N=3(A,B,C)=(1,2,3)N=3(A,B,C)=(1,2,3)n

46、=2n=2样本样本数据数据ix2)(ix(A A、A A)(A A、B B)(A A、C C)(B B、A A)(B B、B B)(B B、C C)(C C、A A)(C C、B B)(C C、C C)1,11,11,21,21,31,32,12,12,22,22,32,33,13,13,23,23,33,31 11.51.52 2 1.5 1.5 2 2 2.5 2.5 2 2 2.5 2.5 3 31 10.250.250 0 0.25 0.250 0 0.25 0.250 0 0.25 0.251 1合计合计12121 1样本可能数目样本可能数目 M=6, =232)(2NX41. 06

47、1)(2Mxix11xNnnnnNN61132321324、抽样误差抽样误差(3)标准误差的计算)标准误差的计算4.3.2 样本比例的抽样分布样本比例的抽样分布2022-5-268不重复抽样有限总体重复抽样或无限总体1(1)1xpNnNnNnnN(1)xpnn有限总体中1NnN为校正因子,一般可简写为Nn14.3.2 样本比例的抽样分布样本比例的抽样分布4、抽样误差抽样误差(3)标准误差的计算)标准误差的计算2022-5-269 当计算标准误时涉及的当计算标准误时涉及的总体参数未知总体参数未知时,用样本时,用样本统计量代替计算的标准误,称为估计的标准误。统计量代替计算的标准误,称为估计的标准误

48、。 以样本均值的抽样分布为例,当总体标准差以样本均值的抽样分布为例,当总体标准差 未未知时,知时,可用样本标准差可用样本标准差s代替代替,则在重复抽样条,则在重复抽样条件下,样本均值的估计标准误为:件下,样本均值的估计标准误为:标准差=标准误=估计标准误=抽样误差?4.3.2 样本比例的抽样分布样本比例的抽样分布4、抽样误差抽样误差(4)估计的标准误)估计的标准误 (standard error of estimation)70702022-5-2n4.3.2 样本比例的抽样分布样本比例的抽样分布4、抽样误差抽样误差(5)影响抽样误差的因素)影响抽样误差的因素2022-5-2714.3.3 样

49、本方差的抽样分布样本方差的抽样分布2022-5-2724.4 两个总体参数推断时样本统计量两个总体参数推断时样本统计量的抽样分布的抽样分布w4.4.1 两个样本均值之差的抽样分布两个样本均值之差的抽样分布w4.4.2 两个样本比例之差的抽样分布两个样本比例之差的抽样分布w4.4.3 两个样本方差比的抽样分布两个样本方差比的抽样分布2022-5-2734.4.1 两个样本均值之差的抽样分布两个样本均值之差的抽样分布即:),(2221212121nnNxx2022-5-2741.两个总体都服从二项分布两个总体都服从二项分布2.分别从两个总体中抽取容量为分别从两个总体中抽取容量为n1和和n2的独立样

50、的独立样本,当两个样本都为大样本时,两个样本比本,当两个样本都为大样本时,两个样本比例之差的抽样分布可用正态分布来近似例之差的抽样分布可用正态分布来近似3.分布的数学期望为分布的数学期望为4.方差为各自的方差之和方差为各自的方差之和 4.4.2 两个样本比例之差的抽样分布两个样本比例之差的抽样分布即:)1 ()1 (,(2221112121nnNpp2022-5-2754.4.3 两个样本方差比的抽样分布两个样本方差比的抽样分布2022-5-2764.5 其他抽样方法其他抽样方法4.5.1 概率抽样概率抽样 1、分层抽样分层抽样 2、系统抽样系统抽样 3、整群抽样整群抽样 4、多阶段抽样多阶段

51、抽样4.5.2 非概率抽样非概率抽样 1、方便抽样方便抽样 2、判断抽样判断抽样 3、自愿样本自愿样本 4、滚雪球抽样滚雪球抽样 5、配额抽样配额抽样4.5.3 概率抽样和非概率抽样的比较概率抽样和非概率抽样的比较4.5.4 抽样调查实例抽样调查实例2022-5-2771.根据一个已知的概率来抽取样本单位,也称随根据一个已知的概率来抽取样本单位,也称随机抽样,机抽样,概率抽样有概率抽样有简单随机抽样简单随机抽样、分层抽样分层抽样、系统抽样系统抽样、整群抽样整群抽样、多阶段抽样多阶段抽样等。等。2.特点特点按一定的概率以按一定的概率以随机原则随机原则抽取样本抽取样本 抽取样本时使每个单位都有一定

52、的机会抽取样本时使每个单位都有一定的机会被抽中被抽中每个单位被抽中的概率是已知的,或是可每个单位被抽中的概率是已知的,或是可以计算出来的以计算出来的 当用样本对总体目标量进行估计时,要考当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率虑到每个样本单位被抽中的概率4.5.1 概率抽样概率抽样78782022-5-21.分层抽样分层抽样(stratified sampling)1、定义:将总体单位、定义:将总体单位按某种特征或某种规则划分为按某种特征或某种规则划分为不同的层不同的层,然后,然后从不同的层中独立、随机地抽取从不同的层中独立、随机地抽取样本单位样本单位的方法,又称的方法

53、,又称类型抽样类型抽样或或分类抽样分类抽样。2、特点:先分层(对总体),后抽样(对层)、特点:先分层(对总体),后抽样(对层)3、分层要求:、分层要求:层间差别大,层内差别小层间差别大,层内差别小4、抽样方法:、抽样方法:(见下张幻灯片)(见下张幻灯片)5、适用:、适用:总体单位在总体内部分布不均匀且变异程总体单位在总体内部分布不均匀且变异程度大的总体。度大的总体。6、优点:保证样本的结构与总体的结构比较相近,、优点:保证样本的结构与总体的结构比较相近,从而提高估计的精度;组织实施调查方便;既可从而提高估计的精度;组织实施调查方便;既可以对总体参数进行估计,也可以对各层的目标量以对总体参数进行

54、估计,也可以对各层的目标量进行估计。进行估计。79792022-5-2总体总体N样本样本n等额等额等比例等比例不等不等比例比例121.kkiinnnnniiNnnN22iiiiiNnnN1.分层抽样分层抽样(stratified sampling)2022-5-280例10人年龄资料如下。N=10 n=3,推断总体平均年龄。人: 年龄: 简单随机抽样简单随机抽样 ( 、 ),(),( 、 、)结论:总体变异较大时。分层抽样分层抽样 ( 、 ),(),( 、 、 )1.分层抽样分层抽样(stratified sampling)81812022-5-2(总体单位按某一标志排序)(总体单位按某一标志

55、排序)2、系统抽样(机械抽样或等距抽样)、系统抽样(机械抽样或等距抽样)(systematic sampling)将总体中的所有单位将总体中的所有单位(抽样单位抽样单位)按一定按一定顺序排列顺序排列,在规定的范围内在规定的范围内随机地抽取一个随机地抽取一个单位作为初始单位单位作为初始单位,然后按事先规定好的规,然后按事先规定好的规则确定其他样本单位。则确定其他样本单位。2022-5-282系统抽样可以分为无关标志排序抽样和有关标志排序抽样两类。系统抽样可以分为无关标志排序抽样和有关标志排序抽样两类。 无关标志排序抽样无关标志排序抽样是是指排序的标志与被研究的标志无关指排序的标志与被研究的标志无

56、关。如。如:观察学生考试成绩用姓氏笔划;观察产品质量按生产的先后顺序观察学生考试成绩用姓氏笔划;观察产品质量按生产的先后顺序等。无关标志排序可以保证抽样的随机性,它等。无关标志排序可以保证抽样的随机性,它实质上相当于简单实质上相当于简单随机抽样随机抽样。 有关标志排序抽样有关标志排序抽样是是指排序的标志与被研究标志相关指排序的标志与被研究标志相关。在对。在对总体各单位的变异情况有所了解的情况下,也可以采用有关标志总体各单位的变异情况有所了解的情况下,也可以采用有关标志进行总体单位排列,使各单位的排列顺序和它的变量数值大小保进行总体单位排列,使各单位的排列顺序和它的变量数值大小保持密切的关系。如

57、:农产量抽样调查,可利用各县或各乡当年估持密切的关系。如:农产量抽样调查,可利用各县或各乡当年估计亩产或最近三年平均亩产标志排队,抽取调查单位。由此可见,计亩产或最近三年平均亩产标志排队,抽取调查单位。由此可见,按有关标志排序实质上是运用系统抽样的一些特点,有利于提高按有关标志排序实质上是运用系统抽样的一些特点,有利于提高样本的代表性,它样本的代表性,它实质上相当于分层抽样实质上相当于分层抽样。 但也必须但也必须注意注意到,系统抽样在排序时,第一个样本单位的位到,系统抽样在排序时,第一个样本单位的位置确定后,其余单位也随之确定,因此要避免抽样间隔和现象本置确定后,其余单位也随之确定,因此要避免

58、抽样间隔和现象本身的身的周期性周期性节奏相重合,节奏相重合,引起系统性的影响引起系统性的影响。2、系统抽样、系统抽样(systematic sampling)83832022-5-23、整群抽样、整群抽样(cluster sampling)1、定义:将总体中各单位按一定标准分成若干、定义:将总体中各单位按一定标准分成若干群(组),再从总体中群(组),再从总体中随机抽取一定数量的随机抽取一定数量的群群,对抽中群的所有单位全部实施调查。,对抽中群的所有单位全部实施调查。2、特点:先分群(对总体),后抽样(对总体)、特点:先分群(对总体),后抽样(对总体)3、群的类型:自然形成的群;人为划分的群、群

59、的类型:自然形成的群;人为划分的群4、分群原则:、分群原则:群间差别小,群内差别大群间差别小,群内差别大5、抽样方法:、抽样方法:(见下张幻灯片)(见下张幻灯片)6、适用:、适用:在大规模的抽样调查中,如果在大规模的抽样调查中,如果总体单总体单位多且分布区域广,缺少进行抽样的抽样框位多且分布区域广,缺少进行抽样的抽样框,或者在按经济效益原则或者在按经济效益原则不宜编制这种抽样框不宜编制这种抽样框的情况下,宜采用的情况下,宜采用整群抽样整群抽样方式。方式。84842022-5-2hlpdnnnnnABCDEFGHIJKLMNOPLHPD样本容量样本容量3、整群抽样、整群抽样 (cluster s

60、ampling)85852022-5-2又称又称多级抽样多级抽样,它是将抽取样本单位,它是将抽取样本单位的过程划分为几个阶段,然后逐阶段抽取的过程划分为几个阶段,然后逐阶段抽取样本单位的抽样组织方式。样本单位的抽样组织方式。4、多阶段抽样、多阶段抽样2022-5-286其其优点优点在于:在于: 首先,便于组织抽样首先,便于组织抽样。它可以按现有的行政区划或地理区域。它可以按现有的行政区划或地理区域划分各阶段的抽样单元,从而简化抽样框的编制。划分各阶段的抽样单元,从而简化抽样框的编制。 其次,可以获得各阶段单元的调查资料,即根据最初级资料其次,可以获得各阶段单元的调查资料,即根据最初级资料可进行

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论