抽样分布和点估计_第1页
抽样分布和点估计_第2页
抽样分布和点估计_第3页
抽样分布和点估计_第4页
抽样分布和点估计_第5页
已阅读5页,还剩73页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计的第三种方法——统计推断0、概率理论(Probabilitytheory)1、抽样分布(Samplingdistribution)2、参数估计(Parameterestimation)3、假设检验(Hypothesistesting)统计方法描述统计推断统计抽样理论假设检验参数估计概率理论统计推断的过程样本总体样本统计量例如:样本均值、比例、方差总体均值、比例、方差抽样分布:依据总体的信息来确定样本的分布2010年上海城镇家庭人均农村家庭人均可支配收入31838元可支配收入13746元

N城镇=1254.95万人N农村=154.37万人

R城镇=49000户R农村=2100户

代表性有多大?误差多大?2010年上海粮食产量为118.40万吨

代表性有多大?误差多大?抽样得到单位面积产量上海粮食的种植面积推算抽样估计的现实应用例1一汽车轮胎制造商生产一种被认为寿命更长的新型轮胎。120个样本测试平均里程:36,500公里推断新轮胎平均寿命:36,500公里400个样本

支持人数:160推断支持该候选人的选民占全部选民的比例:160/400=40%例2:某党派想支持某一候选人参选美国某州议员,为了决定是否支持该候选人,该党派领导需要估计支持该候选人的民众占全部登记投票人总数的比例。由于时间及财力的限制:第五章参数估计第一节统计推断的基本问题和概念第二节总体参数的点估计*第三节正态总体均值的区间估计*第四节一般总体均值的大样本区间估计第五节正态总体方差的区间估计第六节样本容量的确定*第一节统计推断的基本问题和概念一、简单随机抽样和抽样误差二、统计量和抽样分布三、参数估计的主要内容统计推断的起点样本和总体1.总体(populations):又称全及总体、母体,指所要研究对象的全体,由许多客观存在的具有某种共同性质的单位构成。总体单位数用N

表示。2.样本(samples):又称子样,来自总体,是从总体中按随机原则抽选出来的部分,由抽选的单位构成。样本单位数用

n

表示。3.总体是唯一的、确定的,而样本是不确定的、可变的、随机的*。

总体参数样本统计量样本统计量公式总体平均数样本平均数总体成数样本成数总体方差样本方差总体标准差样本标准差样本统计量—描述样本数量特征的指标,由样本计算而得。由于样本是随机的,所以样本统计量是随机变量。NEXT总体参数—描述总体数量特征的指标。总体是惟一的,所以参数也是惟一的;调查误差(三)抽样误差抽样误差:由于随机性带来的偶然的代表性误差不能避免,但是可以计算和控制。主要有抽样相对误差和抽样绝对误差。非抽样误差非随机因素引起的系统性偏差登记性误差

2002年4月15日,中国正式加入国际货币基金组织数据公布通用系统(GDDS),这标志着中国统计系统的发展迈出了重要的一步。这些国家必须在基金组织公布标准公告栏网页http:///gddsindex.htm)上向公众发布其当前的统计结果、进一步改进的计划和技援的需求。目前,有42个国家参加了GDDS

。抽样误差(Samplingerror)2、抽样误差是指在遵循随机的原则下,样本统计量和总体参数之间差别。是由随机因素、偶然因素等引起的。测量指标:抽样平均误差

抽样极限误差1、总误差、抽样误差、非抽样误差关系:总误差=抽样误差+非抽样误差例:某银行审计员想了解某类用户的平均存款余额,对其中10个可能账户作为样本,观测账户余额分别如下(元):由此估计该类账户的平均余额,并计算其抽样平均误差。因此该类账户平均余额可能为4109元,抽样平均误差为181元3342321652814365407441564045436239824267抽样平均误差*概念:样本统计量对总体参数的标准差。计算公式:作用:用来衡量总体参数估计的精确度。样本均值的抽样平均误差计算公式放回不放回如何理解样本均值的抽样分布*1、样本均值分布和总体分布之间的关系大样本(N>30)小样本(N<30)正态总体正态分布正态分布非正态总体正态分布(中心极限定理)

非正态分布2、样本均值的均值等于总体均值3.样本均值方差:放回不放回统计中常用的三种分布一、2—分布

统计量的分布称为抽样分布。数理统计中常用到如下三个分布:

2—分布、t—分布和F—分布。

2.2—分布的密度函数f(y)曲线

3.分位点

设X

~2(n),若对于:0<<1,存在满足则称为分布的上分位点。4.性质:a.分布可加性若X

~2(n1),Y~2(n2),X,Y独立,则

X

+

Y

~2(n1+n2)b.期望与方差若X~2(n),则E(X)=n,D(X)=2n1.构造若X~N(0,1),Y~2(n),X与Y独立,则t(n)称为自由度为n的t—分布。二、t—分布t(n)的概率密度为2.基本性质:(1)f(t)关于t=0(纵轴)对称。

(2)f(t)的极限为N(0,1)的密度函数,即

3.分位点

设T~t(n),若对:0<<1,存在t(n)>0,满足P{Tt(n)}=,则称t(n)为t(n)的上侧分位点注:三、F—分布

1.构造若U

~2(n1),V~2(n2),U,V独立,则

称为第一自由度为n1

,第二自由度为n2的F—分布,其概率密度为2.F—分布的分位点对于:0<<1,若存在F(n1,n2)>0,满足P{FF(n1,n2)}=,则称F(n1,n2)为F(n1,n2)的上侧分位点;证明:设F~F(n1,n2),则注:得证!4.3抽样分布证明:是n个独立的正态随机变量的线性组合,故服从正态分布(3)证明:且U与V独立,根据t分布的构造得证!例1:设总体X~N(10,32),X1,…,Xn是它的一个样本 (1)写出Z所服从的分布;(2)求P(Z>11).例2:设X1,…,X10是取自N(0,0.32)的样本,求例3:设X1,…,Xn是取自N(,2)的样本,求样本方差S2的期望与方差。中心极限定理棣莫佛-拉普拉斯中心极限定理设随机变量X服从二项分布B(n,p)的,那么当n→∞时,X服从均值为np、方差为np(1-p)的正态分布,即:

或:

n很大,np

np(1-p)也都不太小时,二项分布可以用正态分布去近似。列维一林德伯格定理设X1,X2,…是独立同分布的随机变量序列,且存在有限的μ和方差σ2(i=1,2,…),当n→∞时,或

不论总体服从何种分布,只要其数学期望和方差存在,对这一总体进行重复抽样时,当样本量n充分大,均值分布就趋于正态分布。该定理为均值的抽样推断奠定了理论基础。

中心极限定理(图示)当样本容量足够大时(n

30),样本均值的抽样分布逐渐趋于正态分布中心极限定理:设从均值为,方差为

2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布一个任意分布的总体X中心极限定理x的分布趋于正态分布的过程中心极限定理模拟过程抽样分布与总体分布的关系总体分布正态分布非正态分布大样本小样本正态分布正态分布非正态分布应用

(一)一个正态总体时的抽样分布*如果有放回地抽取一个均值为,方差为的正态总体,则不管样本容量如何,样本均值都服从正态分布且:样本平均数分布应用举例(求概率)

1、总体服从正态分布,则样本平均数也服从正态分布

假设银行某类存款账户余额是个近似服从正态分布的随机变量。平均值为2800元,标准差为120元。现从这一总体抽选了1个容量为n=16的简单随机样本,试问:这些样本的平均余额不超过2770元的概率有多大?

(三)、总体不是正态分布时的样本均值的抽样分布根据中心极限定理,不管总体服从何种分布形态,当样本容量足够大时,(N>30),样本均值都服从正态分布:

假设银行某类存款账户余额是个随机变量。平均值为2800元,标准差为120元。现从这一总体抽选了1个容量为n=36的简单随机样本,试问:这些样本的平均余额不超过2770元的概率有多大?

2、虽然总体分布未知,但如果样本是大样本,则根据中心极限定理,样本均值将服从正态分布。在江苏沛县调查336个m2小地老虎虫危害情况的结果,

=4.73头,=2.63,试问样本容量n=30时,由于随机抽样得到样本平均数等于或小于4.37的概率为多少?查附表,P(u≤-0.75)=0.2266,即概率为22.66%(属一尾概率)。因所得概率较大,说明差数-0.36是随机误差,从而证明这样本平均数4.37是有代表性的。考虑修正系数情形

不重复取样,而且n/N<5%,就要考虑修正系数,只要将样本均值的方差乘上修正系数就可以

假设银行某类存款账户(N=200)余额是一个近似服从正态分布的随机变量。平均值为2800元,标准差为120元。现从这一总体不重复抽选了1个容量为n=16的简单随机样本,试问:这些样本的平均余额不超过2770元的概率有多大?

3、n/N>5%,计算均值方差时要考虑修正系数。n/N=8%>5%,计算均值方差时要考虑修正系数。

假设银行某类存款账户(N=500)余额是一个近似服从正态分布的随机变量。平均值为2800元,标准差为120元。现从这一总体抽选了1个容量为n=16的简单随机样本,试问:这些样本的平均余额不超过2770元的概率有多大?

4、n/N<5%,计算均值方差时不需要考虑修正系数。n/N=3.2%<5%,计算均值方差时不需要考虑修正系数。(二)、两个正态总体时的抽样分布*抽样总体样本X1,(N1)x1,(n1)抽样总体样本X2,(N2)x2,(n2)估计应用:1)比较两种管理方法的效率2)比较两种工艺的优劣3)比较两种方法的好坏两个样本均值之差的抽样分布(1)1、如果总体是正态分布,而且方差已知,即:服从正态分布。两个样本均值之差的抽样分布(1)标准化:

为了调查甲、乙两家银行的户均存款数,独立从两家银行个抽取一个由25个存户组成的随机样本。假设两个总体服从正态分布,两个总体均值分别为4500元和4000元,标准差分别为900元和800元。求甲、乙两银行户均存款数之差绝对值不超过800元的概率为多少?

两个样本均值之差的抽样分布(2)2.两个总体都是非正态分布,但都是大样本,那么根据中心极限定理,有:两个总体X1,X2分布未知,但是样本容量为大样本且相互独立,也就是样本数都大于等于30,那么根据中心极限定理有:

要比较甲乙两城市某类消费的支出水平。甲城市随机调查100人,平均消费支出为1300元,标准差为80元;乙城市随机调查120人,平均消费支出为1320元,标准差为100元。求甲、乙两城市消费支出之差绝对值不超过30元的概率为多少?

样本方差的抽样分布用于离散程度的统计推断,估计收入差距的离散程度,产品质量的稳定性对于来自正态总体的简单随机样本,则比值的抽样分布服从自由度为(n-1)的2分布,即2、两个样本方差比的抽样分布

设X1,X2,…,Xn1是来自正态总体N~(μ1,σ12)的一个样本,Y1,Y2,…,Yn2是来自正态总体N~(μ2,σ22)的一个样本,且Xi(i=1,2,…,n1),Yi(i=1,2,…,n2)相互独立,则将F(n1-1,n2-1)称为第一自由度为(n1-1),第二自由度为(n2-1)的F分布五、样本比例的抽样分布比率是指总体(或样本)中具有某种属性的单位与全部单位总数之比种子的合格率,犯罪率,发芽率,考试的及格率等。总体比例可表示为样本比例可表示为

样本比例的抽样分布比率P可以看成为交替标志(或是非标志)的平均值。交替标志Xi设总体N中有N0个单位取“是”,那么其平均值1是0非因此样本比率的分布和样本均值的分布类似。而总体的交替标志实际上就是一个二项分布,期望值为P,方差为P(1-P)样本比例的抽样分布样本比例的数学期望样本比例的方差重复抽样不重复抽样当np和n(1-p)都大于5时,以及样本足够大时候,可以将正态分布来代替二项分布,将统计量标准化。例:一个钉子制造商凭经验确定了所生产钉子的不合格率为3%,如果检查一个由300个钉子组成的随机样本,不合格率为0.025,求抽样平均误差。因此该类商品不合格率可能为2.5%,平均误差为0.98%例:一个钉子制造商凭经验确定了所生产钉子的不合格率为3%,如果检查一个由300个钉子组成的随机样本,不合格率介于0.02和0.035之间的概率有多大?=0.5411。

七、样本方差的抽样分布用于离散程度的统计推断,估计收入差距的离散程度,产品质量的稳定性对于来自正态总体的简单随机样本,则比值的抽样分布服从自由度为(n-1)的2分布,即2、两个样本方差比的抽样分布

设X1,X2,…,Xn1是来自正态总体N~(μ1,σ12)的一个样本,Y1,Y2,…,Yn2是来自正态总体N~(μ2,σ22)的一个样本,且Xi(i=1,2,…,n1),Yi(i=1,2,…,n2)相互独立,则将F(n1-1,n2-1)称为第一自由度为(n1-1),第二自由度为(n2-1)的F分布三、参数估计的主要内容数字特征最小二乘法最大似然法顺序统计量法估计内容点估计区间估计统计方法描述统计推断统计抽样理论假设检验参数估计概率理论参数估计在统计方法中的地位估计量:用于估计总体参数的随机变量,估计的规则,如样本均值,样本比率、样本方差等参数用表示,估计量用表示总体参数符号表示用于估计的样本统计量一个总体均值比例方差两个总体均值之差比例之差方差比三、点估计的评价标准

1.无偏性

2.一致性

3.有效性

1、无偏性(unbiasedness):估计量抽样分布的数学期望等于被估计的总体参数.P(

)BA无偏有偏总体均值的无偏估计为:总体比率的无偏估计为:总体方差的无偏估计为:不为总体方差的无偏估计.2、一致性(consistency):随着样本容量的增大,估计量的值越来越接近被估计的总体参数AB较小的样本容量较大的样本容量P(

)总体均值的一致估计为:总体比率的一致估计为:总体方差的一致估计为:3、有效性(efficiency):对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效.AB

的抽样分布的抽样分布P(

)算术平均数估计更有效。第七节几种重要的分布**1、卡方分布2、t分布3、F分布4、大数定律5、中心极限定理1、分布的概念2、分布的期望和方差3、分布的图像4、分布的用途一、t分布(学生氏分布)Gosset,179页

概念:设随机变量X~N(0,1),,且相互独立,则随机变量所服从的分布称为自由度为n的t分布,记为:t分布的期望和方差:

用途:t分布可用于总体方差未知时总体均值的估计与检验,以及线性回归模型中回归系数的显著性检验等。图像:均值为0,对称分布,随n的增大趋向于正态分布t分布

t分布是类似正态分布的一种对称分布,它通常要比正态分布平坦和分散。一个特定的t分布依赖于称之为自由度的参数。随着自由度的增大,t分布也逐渐趋于正态分布

Xt

分布与标准正态分布的比较t分布标准正态分布t不同自由度的t分布标准正态分布t(df=13)t(df=5)Z二、卡方()分布181页

概念:设随机变量X1,X2,…,Xn

服从N(0,1),且相互独立,则随机变量所服从的分布称为卡方分布,记为:。其中,n称为自由度。分布的期望和方差:用途:卡方分布用于方差估计和检验,以及非参数统计中的拟合优度检验和独立性检验。图像特征:正偏分布,随n增大,趋向于对称和正态分布数字特征:

服从自由度为的分布。记住:修正的样本方差三、F分布

概念:设随机变量

,且相互独立,则随机变量所服从的分布称为自由度为(n,m)的F分布,记为:F分布的期望和方差:

用途:F分布可用于两个正态总体方差的比较检验、方差分析和线性回归模型的检验等。图像:非对称,注意其特点和临界值的换算

F

分布用途:在实际的统计分析工作中,我们常常遇到讨论两个总体的方差是否相等的问题。比如某个工厂采用两种不同的工艺生产某种产品,欲了解哪一种工艺的质量稳定,则需要讨论起质量指标的方差是否相等。

课堂作业1、样本均值的标准误差()估计误差

A、大于B、等于C、小于D、可能大于、等于或小于2、在其他条件不变的情况下,如果重复抽样的允许误差缩小为原来的1/2,则样本容量()

A、扩大为原来的4倍B、扩大为原来的2倍

C、缩小为原来的1/2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论