版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Ch5抽样与抽样分布统计学原理§5.1随机抽样(new)§5.2随机变量的分布(new)§5.3抽样分布(new)§5.4抽样方法与抽样误差(new)当前第1页\共有109页\编于星期三\0点主要介绍:随机抽样,随机变量的分布,抽样分布,抽样方法与抽样误差。Ch5主要内容Ch5抽样与抽样分布§5.1随机抽样(new)§5.2随机变量的分布(new)§5.3抽样分布(new)§5.4抽样方法与抽样误差(new)当前第2页\共有109页\编于星期三\0点Ch5学习目的1,掌握随机抽样及其性质2,掌握抽样方法与抽样误差的关系Ch5抽样与抽样分布§5.1随机抽样(new)§5.2随机变量的分布(new)§5.3抽样分布(new)§5.4抽样方法与抽样误差(new)当前第3页\共有109页\编于星期三\0点Ch5抽样与抽样分布统计学原理§5.1随机抽样(new)§5.2随机变量的分布(new)§5.3抽样分布(new)§5.4抽样方法与抽样误差(new)当前第4页\共有109页\编于星期三\0点§5.1随机抽样§5.1.1现象的随机化§5.1.2样本空间、事件、概率、分布函数§5.1.3随机抽样§5.1.4样本统计量Ch5抽样与抽样分布§5.1随机抽样(new)§5.2随机变量的分布(new)§5.3抽样分布(new)§5.4抽样方法与抽样误差(new)返回当前第5页\共有109页\编于星期三\0点■在前面的几章里,我们用统计整理和统计描述的方法,研究了现象总体的数量特征和数量关系,比如计算总体平均数、总体的标准差、总体的方差和总体的分布,通过对这些指标的计算,我们得到了研究现象的规律性认识。■我们亦可以用同样的方法,去研究样本的平均数、样本的标准差、样本的方差和样本分布,并且还可以利用样本的平均数、样本的标准差、样本的方差和样本分布,去反推总体的数量特征和数量关系,从而得到现象总体规律性的认识。■用样本的资料去估计总体的方法,就是抽样估计。§5.1.1现象的随机化Ch5抽样与抽样分布§5.1随机抽样(new)当前第6页\共有109页\编于星期三\0点■探索客观规律的过程§5.1.1现象的随机化Ch5抽样与抽样分布§5.1随机抽样(new)随机理论总体内在的数量规律性,F(x;)统计整理和统计描述总体数据样本数据图5-1探索客观规律的统计过程抽样估计和统计推断反映客观现象的统计数据样本数据当前第7页\共有109页\编于星期三\0点■抽样估计是一种比较经济的估计方法。它的特点是利用随机抽样的理论,用比较少的数据及比较小的误差去达到处理大量数据的目标,从而得到现象总体规律性的认识。它是一种数据处理的优化方法■为保证抽样理论的完整性和科学性,从这一节开始,我们将对所研究的现象进行随机化处理,即用概率的理论去研究现象的规律性。§5.1.1现象的随机化Ch5抽样与抽样分布§5.1随机抽样(new)当前第8页\共有109页\编于星期三\0点■抽样估计的过程可靠性总体分布函数F(x;)样本数据X样本统计量样本分布函数F(X;)随机样本可靠性总体参数样本参数抽样分布F(
)E(X)=E(x)=D(x)=2D(X)=S2D(
)E(
)=|-|当前第9页\共有109页\编于星期三\0点数理统计概率统计数学表示客观现象试验抽样试验试验的结果、样本组成单位、个体基本事件、样本点、元素i;i=1,2,3,…,N。样本的所有可能结果、样本空间S、总体基本事件全集S={
i;i=1,2,3,…,N。}。频率、事件A在S中出现的频率、fn(A)=n/N概率、事件A在S中出现的可能性Pro(A|S)=Pro{A()|S}数据X变量XX事件A量化为数据X、样本数据X(A)随机变量X(A)X(A)←A={
i;i=1,2,3,…,n。nN}事件S量化为数据X、总体数据X(S)随机变量X(S)X(S)←S={
i;i=1,2,3,…,N。}基本事件
i量化为数据Xii
→Xi()如果i=1,2,3,…,n。则Xi()表示样本数据,X={Xi();i=1,2,3,..,n};如果i=1,2,3,..,N。则Xi()表示总体数据,x={Xi();i=1,2,3,..,N}。X,x
R统计分布概率分布总体F(x;);样本F(X;)特征指标分布参数总体特征指标总体分布参数样本特征指标样本统计量、分布参数变量(X)
表5-1现象随机化一揽表返回当前第10页\共有109页\编于星期三\0点§5.1.2样本空间、事件、概率、分布函数Ch5抽样与抽样分布§5.1随机抽样(new)随机现象X在个别试验中其结果呈现不确定性;在大量的重复试验中其结果又具有规律性的现象,我们称为随机现象。比如我们感兴趣的现象总体,如果具有上述特征,那么这个现象总体就是一个随机现象。通常,我们所研究的总体都是随机现象。随机现象总体表现记为X。随机事件(试验)(X)VU在某种随机现象里,在一定条件下,可能发生也可能不发生的事件,就是随机事件。比如,在总体中的某个样本,在一定条件下,可能被抽取出来,也可能没有抽取出来,那么这个样本{Xi}是否能够出现,就是一个随机事件。随机事件一个偶然事件,通常用(X)表示。反之,在同样条件下不可能出现的事件,叫不可能事件;不可能事件用V表示。在同样条件下一定出现的事件,叫必然事件;必然事件用U表示。在概率统计里,U和V本身也是一个随机事件。VU。当前第11页\共有109页\编于星期三\0点样本空间S={X()}
S
随机事件的所有可能结果所组成的集合,称为样本空间。样本空间记为S,S={}或S={X()}或者S={Xi;i=1,2,3,..,N}。样本空间的每个结果,称为样本点。对于样本空间S,满足给定性质的样本点集合A,就是事件A。事件A是样本空间的一个样本。样本A由若干个样本点组成。显然,样本空间S是一个必然事件,S=U;空集是一个不可能事件,=V。于是,也有
S。当然,
A
S。样本空间,是随机事件的变化范围。随机变量(X)X()在抽样过程中,每次抽取出来的样本结果都是不可预知的。因此,常常把样本叫做随机样本;这个样本的特征表现,就叫一个随机变量。比如我们抽取的样本数据,其数据结果就是一个随机变量。随机变量是随机事件数量化的结果,常常用X()表示。如果建立事件与数量序数i的对应关系,则随机变量又可用Xi表示。在大多数情况下,随机事件和随机变量是等同使用的。当前第12页\共有109页\编于星期三\0点概率
SU0Pro{|S}1在相同条件S下随机实验N次,事件出现n次,nN,于是比值n/N就称为事件发生的频率,并且随着N的增大,该频率围绕某一常数p上下波动,且波动的幅度逐渐减小,趋于稳定,则这个稳定的频率值就是概率。记为(5.1.1)因此,概率是指随机事件发生的可能性大小。它是定义在样本空间所有的集合上的实值函数。是对事件频率可能观察到的规律性所做的数学概括。因为nN,所以0Pro{|S}1,(5.1.2)对不可能事件V和必然事件U,由于
S,有Pro{=V=
|S}=0,Pro{=U=S|S}=1。(5.1.3)由于→X(),则随机事件的概率表示一般又为Pro{|S}=Pro{X()|S}=
Pro{X=Xi
|S};i=1,2,3,..,N(5.1.4).其中,最常见的表示为Pro{X=Xi
|S};i=1,2,3,..,N.(5.1.5)当前第13页\共有109页\编于星期三\0点§5.1.2样本空间、事件、概率、分布函数Ch5抽样与抽样分布§5.1随机抽样(new)概率分布函数随机变量X的所有可能结果,与其相应的概率Pro{X()|S}排列,就是X的概率分布。如Pro{X=xi
|S};i=1,2,3,..,N.(5.1.6)定义:由X所决定的概率函数Pro{X()|S}为一个分布函数,记为F(x)=Pro{Xx}.(5.1.7)其中:x表示Xi中的任何一个值,它既表示X的所有可能变化范围,又表示样本观察值的全集;Xx表示一个X在一个相对固定的数量集x上的变化;而F(x)则表示X的概率在某个范围Xx上的连续累积,它反映了X在某个值域上的概率变化规律,是对随机变量X统计规律性的完整描述。当前第14页\共有109页\编于星期三\0点概率分布函数(续)当X是分离的值时,F(x)是离散分布函数,离散分布函数表示为(5.1.8)如果X是连续的变量,F(x)则是连续分布函数,F(x)为(5.1.9)其中,f(X)是连续分布函数的概率密度函数。对于一个具体的分布函数F(x),决定F(x)值的因素,除了随机变量X外,还有分布的参数,是决定分布形状的重要指标,因此,分布函数常常又表示为F(x;)。比如(5.1.10)返回当前第15页\共有109页\编于星期三\0点§5.1.3随机抽样Ch5抽样与抽样分布§5.1随机抽样(new)所谓抽样{X1,X2,X3,…,Xn}就是从总体中按一定的抽样技术抽取若干个体,所抽取的若干个体称为一个样本;样本的抽取过程就称为抽样。样本中所含个体的数量称为样本容量。样本中每个个体的值就叫样本观察值。其一般数量表示是:设X1,X2,X3,…,Xn是从总体X得到的一个容量为n的简单样本;如果X是具有分布函数F的随机变量,则样本X1,X2,X3,…,Xn就是一个具有同一分布F的、相互独立的随机变量,随机变量组X1,X2,X3,…,Xn就为从总体X得到的容量为n的简单随机样本;样本的观察值x1,x2,x3,…,xn称为样本值,又称为X的n个独立的观察值。当前第16页\共有109页\编于星期三\0点■抽样(续)因此,若X1,X2,X3,…,Xn为F的一个样本,则X1,X2,X3,…,Xn的联合分布函数为(5.1.11)如果X具有概率密度f,则X1,X2,X3,…,Xn的联合概率密度函数为(5.1.12)这个结论,从分布的特征表示角度理解,就是样本与总体应该具有相似性与独立性。抽样的目的是为了推断总体的某些重要特征,即利用样本推测总体分布特征和分布函数。具体地说,就是求F(x;)和。§5.1.3随机抽样Ch5抽样与抽样分布§5.1随机抽样(new)返回当前第17页\共有109页\编于星期三\0点■样本统计量样本是进行统计推断的依据。在应用时,往往不是直接使用样本本身,而是针对不同的问题构造样本的函数,利用这些样本函数进行统计推断。这些与样本有关的函数,就是样本统计量。样本统计量定义为:设X1,X2,X3,…,Xn是来自总体X的一个样本,Z(X1,X2,X3,…,Xn)是X1,X2,X3,…,Xn的函数,若Z是连续函数且Z中不含任何未知参数,则称Z(X1,X2,X3,…,Xn)是一样本统计量,简称统计量。样本统计量统一简记为Zn=Z(X1,X2,X3,…,Xn)。下面列出的是几个常用的统计量。§5.1.4样本统计量Ch5抽样与抽样分布§5.1随机抽样(new)当前第18页\共有109页\编于星期三\0点理论公式观察值样本平均数样本方差样本标准差样本k阶原点矩样本k阶中心矩样本成数§5.1.4样本统计量当前第19页\共有109页\编于星期三\0点■样本统计量(续)如果样本是一个随机样本,X1,X2,X3,…,Xn1是一个随机变量,则样本统计量也将变成一个随机变量。样本统计量Zn=Z(X1,X2,X3,…,Xn)是随机变量X的函数。由于样本统计量是反映总体特征参数的函数,它与抽样有关,因此样本统计量分布又叫抽样分布。可以证明,在抽样条件下,可以用样本的统计均值去估计总体的期望值E(X)=1,用样本的统计方差S2去估计总体的方差2,…,等等。1,2是总体参数的一部分。§5.1.4样本统计量Ch5抽样与抽样分布§5.1随机抽样(new)返回当前第20页\共有109页\编于星期三\0点§5.2随机变量的分布§5.2.1随机变量的分布§5.2.2分布的数量特征§5.2.3二项分布§5.2.4正态分布§5.2.5大数定律与中心极限定理Ch5抽样与抽样分布§5.1随机抽样(new)§5.2随机变量的分布(new)§5.3抽样分布(new)§5.4抽样方法与抽样误差(new)返回当前第21页\共有109页\编于星期三\0点§5.2.1随机变量的分布Ch5抽样与抽样分布§5.2随机变量的分布(new)统计估计的核心问题是求F(x;)和。求F(x;)和就必须掌握X的分布和的分布。的分布又叫参数分布。这里先了解基本随机变量X的分布。抽样分布将在下一节讨论。
F(x;)F(X;
)∴F(X;
)∵=(X)F(X)F(
)随机变量的分布随机变量函数的分布、参数分布、抽样分布。n,N比较小时,可列出。∴F(
)n,N比较大时,可求出精确分布或者极限分布。当前第22页\共有109页\编于星期三\0点§5.2.1随机变量的分布Ch5抽样与抽样分布§5.2随机变量的分布(new)设X是一个随机变量,x是一个任意实数,则由(5.1.7)所定义的函数F(x)=Pro{Xx}.(5.2.1)就为X的分布函数。对于任意的实数x1,x2,我们有Pro{x1<Xx2
}=Pro{Xx2
}-Pro{Xx1
}(5.2.2)=F(x2)-F(x1).因此,只要知道X的分布函数,就可知道落在任一区间(x1,x2)上的概率。如果将X看成是数轴上随机点的坐标,那么,F(x)在x处的函数值就表示X落在区间(-∞,x)上的概率。当前第23页\共有109页\编于星期三\0点§5.2.1随机变量的分布Ch5抽样与抽样分布§5.2随机变量的分布(new)显然,对于离散型随机变量,有(5.2.3)对于连续型随机变量,有(5.2.4)其中,f(X)是连续分布函数的概率密度函数。并且由(5.1.10)有最典型的分布,离散型为二项分布,连续型为正态分布。返回当前第24页\共有109页\编于星期三\0点§5.2.2分布的数量特征■分布的数量特征就是指分布F(x;)的参数。分布参数是决定分布形状及分布特征的重要指标。常用的参数指标有:数学期望,方差,…。■数学期望设离散型随机变量X的分布律为Pro{X=Xi
}=Pi;i=1,2,3,...(5.2.5)如果级数绝对收敛,则称级数的和为离散型随机变量X的数学期望,记为E(X),即(5.2.6)Ch5抽样与抽样分布§5.2随机变量的分布(new)当前第25页\共有109页\编于星期三\0点§5.2.2分布的数量特征■数学期望(续)设连续型随机变量X的概率密度为f(x),若积分绝对收敛,则称积分的值为连续型随机变量X的数学期望,记为E(X),即(5.2.7)数学期望简称为期望,又称为均值。Ch5抽样与抽样分布§5.2随机变量的分布(new)当前第26页\共有109页\编于星期三\0点§5.2.2分布的数量特征■方差设X是一随机变量,如果E{[X-E(X)]2}存在,则称E{[X-E(X)]2}为X的方差,记为D(X)或者Var(X),即D(X)=Var(X)=E{[X-E(X)]2}.(5.2.8)D(X)刻画了X的取值与其数学期望的偏离程度。如果X取值比较集中,则D(X)较小,反之,则D(X)比较大。因此,D(X)是衡量X取值分散程度的一个尺度。有D(X)=E(X2)-[E(X)]2.(5.2.9)对D(X)开平方根,记为(X),(5.2.10)(X)称为标准差或均方差。(X)是与随机变量具有相同量纲的量。Ch5抽样与抽样分布§5.2随机变量的分布(new)当前第27页\共有109页\编于星期三\0点§5.2.2分布的数量特征Ch5抽样与抽样分布§5.2随机变量的分布(new)协方差与相关系数如果X,Y不是相互独立,而是存在一定的关系,E{[X-E(X)]·[Y-E(Y)]}≠0.,则称E{[X-E(X)]·[Y-E(Y)]}为的X与Y的协方差。记为Cov(X,Y),即
Cov(X,Y)=E{[X-E(X)]·[Y-E(Y)]}.(5.2.11)而(5.2.12)称为随机变量X与Y的相关系数。
XY也是一个无量纲的量。可以证明Cov(X,Y)=E(X·Y)-E(X)·
E(Y).(5.2.13)0|
XY|1.(5.2.14)XY是一个表征X与Y之间线性相关程度的量。当|XY|较大时,X,Y线性相关程度较好;当|XY|较小时,X,Y线性相关程度较差;当|XY|=0时,X,Y线性不相关;当|XY|=1时,X,Y之间以概率1存在线性相关关系。当前第28页\共有109页\编于星期三\0点§5.2.2分布的数量特征■矩设X与Y是随机变量,如果E(Xk);k=1,2,….(5.2.15)存在,称它为X的k阶原点矩,简称为k阶矩。若E[X-E(X)]k;k=1,2,….(5.2.16)存在,称它为X的k阶中心矩。如果E(XkYl);k,l=1,2,….(5.2.17)存在,称它为X和Y的k+l阶混合矩。若E[X-E(X)]k·E[Y-E(Y)]l;k,l=1,2,….(5.2.18)存在,称它为X和Y的k+l阶混合中心矩。显然,E(X)是X的一阶原点矩,D(X)是X的二阶中心矩,Cov(X,Y)是X与Y的1+1阶混合中心矩。Ch5抽样与抽样分布§5.2随机变量的分布(new)当前第29页\共有109页\编于星期三\0点§5.2.2分布的数量特征■位置表征满足不等式Pro{Xx}p,Pro{Xx}1-p;(0<p<1)(5.2.19)的x值为p阶分位数,记为xp。如果随机变量X是连续型的,那么p阶分位数就是满足方程F(x)=Pro{Xx}=p;(5.2.20)的x值。可能有几个x值满足不等式(5.2.19)或者方程(5.2.20)。这时每一个数值都称为p阶分位数。通常较小的称为p阶下分位数,较大的称为p阶上分位数。例如,p=1/2,x1/2称为1/2分位数;p=1/4,x1/4称为1/4分位数。分位数及它的函数通称为位置表征。Ch5抽样与抽样分布§5.2随机变量的分布(new)返回当前第30页\共有109页\编于星期三\0点§5.2.3二项分布■设有n次试验,各次试验是彼此独立的,每次实验事件A出现的概率都是P,事件A不出现记为Ā,它的概率都是q=1-P,这种重复试验叫做重复实验。■在n次重复试验中,如果事件A出现X=0,1,2,…,n次的概率,依次为二项展开式(P+q)n=Cn0Pn+Cn1Pn-1q+Cn2Pn-2q2+…..+Cnn-1P1qn-1+Cnnqn.的各相应项,即(5.2.21)则这个概率分布就叫二项分布。Bernoulli最先研究了这个分布,所以又叫Bernoulli分布。■二项分布简单记为X~b(x;n,P);b(x;n,P)=CnxPxqn-x。
Ch5抽样与抽样分布§5.2随机变量的分布(new)当前第31页\共有109页\编于星期三\0点§5.2.3二项分布■二项分布(续)二项分布的数值,取决于试验的次数n和每次事件A出现的概率P。如果n=1,则二项分布就是二点分布。二点分布是二项分布的特例,X只能是0,1记为X~b(x;1,P)。二项分布的分布函数为(5.2.22)其期望值和方差为E(X)=nP;D(X)=nPq;(5.2.23)Ch5抽样与抽样分布§5.2随机变量的分布(new)当前第32页\共有109页\编于星期三\0点x值域(0,1,2,3,….n)密度函数CDF分布函数PDF期望值E(x)np方差D(x)np(1-p)偏度skew(1-2p)(np-np2)1/2峰度kurt3+(1-6p+6p2)/(np-np2)矩母函数MGF特征函数CF二项分布Binomialx;n,p当前第33页\共有109页\编于星期三\0点§5.2.3二项分布■二项分布(续)特别地,当P很小,n为极大,nP恒定保持为一个常数,nP=时,有(5.2.24)但当n为极大,P不是很小,则为(5.2.25)它表示,如果X表示在n次独立试验中成功的次数,P为每单一试验成功的概率,则当试验次数无限增大时,在P很小或者不是很小时,变量X的分布分别趋近于两种不同的分布:前者为泊松分布;后者则是正态分布。Ch5抽样与抽样分布§5.2随机变量的分布(new)当前第34页\共有109页\编于星期三\0点§5.2.3二项分布■二项分布(续)Ch5抽样与抽样分布§5.2随机变量的分布(new)图5-2二项分布密度与分布函数P(x)xx二项分布函数二项分布密度F(x)n=10,P=0.50123456789100.20.30.2n=10,P=0.5000.10.61012345678910返回当前第35页\共有109页\编于星期三\0点§5.2.4正态分布Normal
■如果随机变量X是一个连续变量,且X的概率密度为(5.2.26)则称X服从正态分布N(,2);简记为X~N(,2)。可以证明:E(X)=
;D(X)=2
;Ch5抽样与抽样分布§5.2随机变量的分布(new)图5-3正态分布密度与分布函数f(X)X0x0正态分布函数正态分布密度F(x)=0.5=2=110.5当前第36页\共有109页\编于星期三\0点§5.2.4正态分布■正态分布N(,2)f(X)的图形呈对称钟形,对称轴为X=;f(X)的最大值在X=,在X=有拐点;当X→∞时,曲线以X轴为渐近线。当大时,曲线平缓;当小时,曲线陡峭。如果=0,2=1,则N(0,1)就称为标准正态分布。它的概率密度为(5.2.27)
Ch5抽样与抽样分布§5.2随机变量的分布(new)当前第37页\共有109页\编于星期三\0点§5.2.4正态分布■正态分布(续)如果X~N(,2),则X的分布函数可表示为(5.2.28)因为只要令Z=(X-)/,z=(x-)/,就有(5.2.29)则证明,如果X~N(,2),则随机变量Z=(X-)/~N(0,1)。Ch5抽样与抽样分布§5.2随机变量的分布(new)当前第38页\共有109页\编于星期三\0点§5.2.4正态分布■正态分布(续)进一步,令(5.2.30)容易得,
(-x)=1-(x)。已经编制了(x)的函数表在附表,供查用。■于是正态分布函数可表示为Pro(Xx)=(x)。■可以证明,正态分布N(,2)的E(X)=,D(X)=2。■显然,当n为极大,P不是很小,如果二项分布的极限分布是正态分布,则其平均数为nP、方差为nP(1-P)。Ch5抽样与抽样分布§5.2随机变量的分布(new)当前第39页\共有109页\编于星期三\0点§5.2.4正态分布图5-4标准正态分布与上分位点f(Z)Z0Z0正态分布上分位点标准正态分布1-Zf(z)由N(0,1)分布图形的对称性质知:1-分位点Z1-=-Z,N(0,1)分布的分位点Z可查表求得!当前第40页\共有109页\编于星期三\0点数理统计标准正态分布表Z(Z)Z(Z)Z(Z)0.000.5000001.100.8643342.000.9772500.100.5398281.200.8849302.100.9821360.200.5792601.300.9031992.200.9860970.300.6179111.400.9192432.300.9892760.400.6554221.500.9331932.400.9918020.500.6914621.600.9452012.500.9937900.600.7257471.640.9494972.600.9953390.700.7580361.700.9554352.700.9965330.800.7881451.800.9640702.800.9974450.900.7881451.900.9712842.900.9981341.000.8413451.960.9750023.000.998650当前第41页\共有109页\编于星期三\0点统计学(p385)标准正态分布表返回Z/2F(Z/2)Z/2F(Z/2)Z/2F(Z/2)0.000.0000001.100.7286682.000.9545000.100.0796561.200.769862.100.9642720.200.1585201.300.8063982.200.9721940.300.2358221.400.8384862.300.9785520.400.3108441.500.8663862.400.9836040.500.3829241.600.8904022.500.9875800.600.4514941.640.8989942.600.9906780.700.5160721.700.9108702.700.9930660.800.5762901.800.9281402.800.9948900.900.5762901.900.9425682.900.9962681.000.6826901.960.9500043.000.997300当前第42页\共有109页\编于星期三\0点x变化范围分布密度函数伽玛分布(0,)贝塔分布(0,+1)对数正态分布2(0,)指数分布Exponential(0,)拉普拉斯分布Laplace(,)极值分布ExtremeValue(,)逻辑分布Logistic(0,1)(,)双曲正割分布Sech(0,1)(,)柯西分布Cauchy(0,1)(,)补充:若干连续分布当前第43页\共有109页\编于星期三\0点X值域(0,)密度函数CDF分布函数PDF期望值E(x)方差D(x)2偏度skew21/2峰度kurt3+6矩母函数MGF特征函数CF伽玛分布x;当前第44页\共有109页\编于星期三\0点X值域(0,1)密度函数CDF分布函数PDF期望值E(x)(+)方差D(x)(+)-2(++1)-1偏度skew2(-)(++1)1/2(++2)-2()-1/2峰度kurt比较复杂矩母函数MGF特征函数CF比较复杂贝塔分布x;当前第45页\共有109页\编于星期三\0点X值域(0,1)密度函数CDF分布函数PDF期望值E(x)12方差D(x)1/8偏度skew0峰度kurt3/2矩母函数MGF特征函数CF比较复杂反正弦分布Arcsine
当前第46页\共有109页\编于星期三\0点X值域(-,)密度函数CDF分布函数PDF期望值E(x)方差D(x)2偏度skew0峰度kurt3矩母函数MGF特征函数CF正态分布Nx;2当前第47页\共有109页\编于星期三\0点X值域(0,)密度函数CDF分布函数PDF期望值E(x)exp2方差D(x)exp2exp2偏度skewexp2+2exp21/2
峰度kurtexp42+2exp32+3exp22-3矩母函数MGF比较复杂特征函数CF对数正态分布x;2当前第48页\共有109页\编于星期三\0点X值域(0,)密度函数CDF分布函数PDF期望值E(x)1方差D(x)1/2偏度skew2峰度kurt9矩母函数MGF特征函数CF指数分布Exponential当前第49页\共有109页\编于星期三\0点X值域(-,)密度函数CDF分布函数PDF期望值E(x)0方差D(x)2/2偏度skew0峰度kurt6矩母函数MGF特征函数CF拉普拉斯分布Laplace当前第50页\共有109页\编于星期三\0点X值域(-,)密度函数CDF分布函数PDF期望值E(x)-==0.5772…(欧拉数)方差D(x)2偏度skew1.29857..峰度kurt5.4矩母函数MGF特征函数CF极值分布ExtremeValue当前第51页\共有109页\编于星期三\0点X值域(-,)密度函数CDF分布函数PDF期望值E(x)0方差D(x)23偏度skew0峰度kurt4.2矩母函数MGF特征函数CF逻辑分布Logistic(0,1)当前第52页\共有109页\编于星期三\0点X值域(-,)密度函数CDF分布函数PDF期望值E(x)0方差D(x)24偏度skew0峰度kurt5.0矩母函数MGF特征函数CF双曲正割分布Sech(0,1)当前第53页\共有109页\编于星期三\0点X值域(-,)密度函数CDF分布函数PDF期望值E(x)0方差D(x)1/(-3),>3偏度skew0峰度kurt3+6/(-5),>5矩母函数MGF特征函数CF比较复杂StudentZ()分布当前第54页\共有109页\编于星期三\0点X值域(-,)密度函数CDF分布函数PDF期望值E(x)不存在方差D(x)不存在偏度skew不存在峰度kurt不存在矩母函数MGF不存在特征函数CF柯西分布Cauchy(0,1)返回当前第55页\共有109页\编于星期三\0点§5.2.5大数定律与中心极限定理■大数定律是反映算术平均数稳定性与频率稳定性的定律。它们由以下三组定理组成:定理一契比雪夫定理特例。定理二贝努利定理。定理三辛钦定理。是随机变量函数的分布的基础。
Ch5抽样与抽样分布§5.2随机变量的分布(new)当前第56页\共有109页\编于星期三\0点§5.2.5大数定律与中心极限定理■定理一契比雪夫定理特例。设随机变量X1,X2,X3,…,Xn,…相互独立,且具有相同的数学期望和方差,E(Xi)=,D(Xi)=2,i=1,2,..。作前n个随机变量的算术平均(5.2.31)则对于任意的正数ε有(5.2.32)或者表达为:设随机变量X1,X2,X3,…,Xn,…相互独立,且具有相同的数学期望和方差,E(Xi)=,D(Xi)=2,i=1,2,..。则序列Yn依概率收敛于。记为(5.2.33)Ch5抽样与抽样分布§5.2随机变量的分布(new)当前第57页\共有109页\编于星期三\0点§5.2.5大数定律与中心极限定理■定理二贝努利定理。设nA是n次独立重复试验中事件A发生的次数。P是事件A在每次试验中发生的概率,则对于任意的正数ε有(5.2.34)在抽样统计里,nA/n也叫抽样成分数,简称为成数。■定理三辛钦定理。设随机变量X1,X2,X3,…,Xn,…相互独立,服从相同的分布,且具有数学期望E(Xi)=,i=1,2,..。则对于任意的正数ε有
(5.2.35)Ch5抽样与抽样分布§5.2随机变量的分布(new)当前第58页\共有109页\编于星期三\0点§5.2.5大数定律与中心极限定理■中心极限定理在客观实际中有许多随机变量,它们是由大量的相互独立的随机因素的综合影响所形成。而其中每一个个别因素,在总体中的影响作用都是很小的。这种随机变量,往往近似地服从正态分布。它同样由3组定理组成:定理一独立同分布的中心极限定理。定理二Lyapunov中心极限定理。定理三DeMoivre—Laplace定理。
Ch5抽样与抽样分布§5.2随机变量的分布(new)当前第59页\共有109页\编于星期三\0点§5.2.5大数定律与中心极限定理■定理一独立同分布的中心极限定理。设随机变量X1,X2,X3,…,Xn,…相互独立,服从相同的分布,且具有相同的数学期望和方差,E(Xi)=,D(Xi)=2,i=1,2,..。则随机变量(5.2.36)的分布函数Fn(x),对于任意的x满足(5.2.37)■Ch5抽样与抽样分布§5.2随机变量的分布(new)当前第60页\共有109页\编于星期三\0点■定理二Lyapunov中心极限定理。设随机变量X1,X2,X3,…,Xn,…相互独立,它们有数学期望和方差,E(Xi)=i,D(Xi)=i2,i=1,2,..。记(5.2.38)如果存在正数,使得当n→∞时,(5.2.39)则随机变量(5.2.40)的分布函数Fn(x),对于任意的x满足
(5.2.41)即不论X服从什么分布,只要n→∞,随机变量Zn将近似地服从标准正态分布。当前第61页\共有109页\编于星期三\0点§5.2.5大数定律与中心极限定理■定理三DeMoivre—Laplace定理。设随机变量n服从参数为n,P的二项分布,则对于任意的x,恒有(5.2.42)这个定理表明,正态分布是二项分布的极限分布。即(5.2.43)在抽样统计里,n/n也叫抽样成数。
Ch5抽样与抽样分布§5.2随机变量的分布(new)返回当前第62页\共有109页\编于星期三\0点统计估计的核心问题是求F(x;
)和。求F(x;
)和就必须掌握X的分布和的分布。
的分布又叫参数分布。在上一节,我们了解了随机变量X的分布。在这里了解可列的抽样分布。可列的抽样分布,就是样本的所有可能取值与相应的概率组成。F(x;)F(X;
)∴F(X;
)∵=(X)F(X)F(
)随机变量的分布随机变量函数的分布、参数分布、抽样分布。n,N比较小时,可列出。∴F(
)n,N比较大时,可求出精确分布或者极限分布。§5.3抽样分布Ch5抽样与抽样分布§5.1随机抽样(new)§5.2随机变量的分布(new)§5.3抽样分布(new)§5.4抽样方法与抽样误差(new)当前第63页\共有109页\编于星期三\0点样本统计量的分布,统称为抽样分布。抽样分布,就是样本统计量Zn=Z(X1,X2,X3,…,Xn;
)的分布。样本统计量是样本的函数,它是一随机变量。在使用统计量进行统计推断时,常需知道它的分布。对于任意一个给定统计量Zn=Z(X1,X2,X3,…,Xn;
),其分布的确定,一般有两种情况:第一种是,当总体的分布函数已知时,Zn的分布是可精确确定的,但这种情况极少,绝大多数只能求出它们的极限分布,即样本数目n→∞时统计量Zn的渐近分布;另一种是,总体的分布函数为未知时,只能求出的样本统计量的极限分布。支持统计量极限分布的理论依据,是概率函数序列中的极限定理。下面我们顺序给出若干统计量的分布结论,并假定样本都是简单随机样本,不涉及它们的证明。§5.3抽样分布当前第64页\共有109页\编于星期三\0点§5.3抽样分布§5.3.1样本均值分布与中心极限定理§5.3.2样本成数的分布§5.3.32分布与2阶原点矩的分布
§5.3.4t分布§5.3.5样本方差的分布与样本标准差的分布
§5.3.6F分布与两个样本方差比的分布§5.3.7样本相关系数的分布§5.3.8样本矩的极限分布Ch5抽样与抽样分布§5.1随机抽样(new)§5.2随机变量的分布(new)§5.3抽样分布(new)§5.4抽样方法与抽样误差(new)返回当前第65页\共有109页\编于星期三\0点样本平均数的分布(可列的)总体中全部样本平均数的可能取值与相应的概率排列。重置抽样不重置抽样【例5-1】(p111)总体{34,38,42,46,50},=42,2=32。重置抽取2个构成样本。求样本平均数的分布。解:重置抽取2个构成样本,其样本总数为C51
C51
=25。其样本平均数的全部可能数据为Ch5抽样与抽样分布§5.3抽样分布(new)样本变量3438424650343436384042383638404244423840424446464042444648504244464850§5.3.1样本均值分布与中心极限定理当前第66页\共有109页\编于星期三\0点整理数据,可得样本平均数的分布。同时得样本平均数的期望值和样本平均数的方差,以及样本与总体的关系样本平均数频数fi频率3411/253622/253833/254044/254255/254444/254633/254822/255011/25合计251fi343638404244464850当前第67页\共有109页\编于星期三\0点【例5-2】(p115)总体{34,38,42,46,50},=42,2=32。不重置抽取2个构成样本。求样本平均数的分布。解:不重置抽取2个构成样本,其样本总数为A52
=C51
C41=20。其样本平均数的全部可能数据为Ch5抽样与抽样分布§5.3抽样分布(new)样本变量343842465034-363840423836-404244423840-444646404244-485042444648-§5.3.1样本均值分布与中心极限定理当前第68页\共有109页\编于星期三\0点整理数据,可得样本平均数的分布。同时得样本平均数的期望值和样本平均数的方差,以及样本与总体的关系样本平均数频数fi频率3622/203822/204044/204244/204444/204622/204822/20合计201fi343638404244464850当前第69页\共有109页\编于星期三\0点当n,N比较小时,可得可列的样本平均数的分布。但如果n,N非常大时,其样本平均数的分布是怎样的呢?一、精确分布:如果X~N(,2),X1,X2,X3,…,Xn是X的一个样本,则样本平均数其中重置抽样不重置抽样二、中心极限定理(极限分布):如果X的均值为,方差为2,X1,X2,X3,…,Xn是X的一个样本,则不论X服从什么分布,只要X存在矩母函数,总有(5.3.3)并且,当n≥30时,近似服从N(,2/n)。因此,亦可有返回当前第70页\共有109页\编于星期三\0点§5.3.2样本成数的分布Ch5抽样与抽样分布§5.3抽样分布(new)返回从任一总体成数为P,方差为P·(1-P)的(0,1)分布中,抽取样本容量为n的样本,其样本成数p的分布,当样本单位数n25时,其分布为二项分布;当n
25时,其分布趋近于平均数为E(p)=P,标准差为
p的正态分布。即p~N(P,
p2)其中,当抽样为简单重置抽样时,当抽样为简单不重置抽样时,当前第71页\共有109页\编于星期三\0点§5.3.32分布与2阶原点矩的分布
■2分布如果X1,X2,X3,…,Xn是来自总体N(0,1)的样本,则统计量
2=X12+X22+X32+…+Xn2(5.3.4)服从自由度为n的2分布,记为2~2(n)。其中,自由度是指独立变量的个数。
2分布的概率密度为(5.3.5)f(y=2)的图形如图5-5所示。Ch5抽样与抽样分布§5.3抽样分布(new)当前第72页\共有109页\编于星期三\0点■2分布(续)2分布的期望值和方差为E(2)=n;D(2)=2n;(5.3.6)Ch5抽样与抽样分布§5.3抽样分布(new)图5-5
2分布与上分位点f(y)y0y0f(y)2分布n=11-2(n)n=5n=152分布上分位点当前第73页\共有109页\编于星期三\0点■2分布(续)又由于,(5.3.7)于是,可知2分布也是一个特殊的分布。对于给定的正数,0<<1,则满足条件(5.3.8)的点2(n)为2(n)分布的上分位点,如图所示。对于不同的,n,上分位点的值已制成表格,可以查用。例如,对于=0.1,n=25,查表得2(n)=34.382。■当前第74页\共有109页\编于星期三\0点统计学(p388)2分布表2(n)
=0.950=0.900=0.500=0.250=0.050=0.025=0.010n=10.0039320.0157910.4549361.32330413.8414555.0239036.634891n=20.1025860.2107211.3862932.77259045.9914767.3777799.210351n=103.9402954.8651789.34181612.54885818.3070320.483223.20929n=157.2609358.54675314.3388518.24508424.995827.4883630.57795n=2010.850812.442619.3374323.82768931.4104234.1695837.56627n=2514.611416.4734124.3365829.33884637.6524940.646544.31401n=3018.4926720.5992429.3360234.79973543.7729546.9792250.89218n=4026.509329.0505239.3353445.61600655.7584959.3416863.69077n=50n=100n=当前第75页\共有109页\编于星期三\0点§
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 华师大版初中科学阳光的传播(第1课时)(27课件)
- 医疗缺陷报告与处理制度
- 观察DNA和RNA在细胞中的分布
- 2024年湖南客运从业资格证模拟考试题库答案解析
- 算法设计与分析 课件 6.1-贪心法引例-找零钱问题
- 算法设计与分析 课件 1.2.2-算法分析准则 - 时间复杂度
- 2024年那曲客运从业资格证到期换证考试
- 2024年河北客运从业资格证考试题目和答案图片
- 2024年阿坝c1道路运输从业资格证考试
- 吉首大学《竞技武术套路5》2021-2022学年第一学期期末试卷
- 国家开放大学《理工英语1》边学边练参考答案
- 中国建设银行员工内部等级表
- (完整版)绕口令基本功练习
- PSR-E423中英文音色对照表
- 船舶舱室内装饰施工及检验标准
- 海尼曼G1内容梳理(2)
- 餐饮MBO目标管理课件
- 《2021国标结构专业图集资料》15G323-2 钢筋混凝土吊车梁(A4、A5级)(有水印)
- 设备管理系统概要设计说明书.doc
- 青霉素V钾提取工艺与研究进展
- 肠内营养支持健康教育
评论
0/150
提交评论