管理统计学 焦建玲 第04章 抽样和抽样分布_第1页
管理统计学 焦建玲 第04章 抽样和抽样分布_第2页
管理统计学 焦建玲 第04章 抽样和抽样分布_第3页
管理统计学 焦建玲 第04章 抽样和抽样分布_第4页
管理统计学 焦建玲 第04章 抽样和抽样分布_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章抽样和抽样分布

第一节ABC公司的抽样问题ABC公司的人事主管正在制定公司2500名管理人员的简报。其中包括管理人员的平均年薪和已经完成公司管理培训项目的管理人员所占比率。2500名管理人员构成了此项研究的总体。我们可以参照公司的职员记录总体中每个人的年薪和是否完成管理培训项目。假定我们已经获取了总体2500名管理人员的信息。根据前面所学知识,可以计算总体年薪的均值和标准差。第一节ABC公司的抽样问题

假定结果为:总体均值:美元总体标准差:美元进一步假设已有1500名管理人员完成了管理培训项目,将总体中已经完成培训项目的职员比率定为p,则p=1500/2500=0.6。第一节ABC公司的抽样问题

如何通过抽样的方法对总体的参数进行估计呢?(统计推断)第二节简单随机抽样一、有限总体(finitepopulation)的抽样简单随机样本(simplerandomsample):如果随机样本中每个个体以相等的概率被抽出,则称为简单随机样本。无返回抽样,返回抽样思考:为什么都属于简单随机抽样?第二节简单随机抽样

二、简单随机抽样的实现方法1.直接抽选法2.随机数表法3.抽签法第三节点估计一、点估计过程例4-1ABC公司的人事主管正在制定公司2500名管理人员的简报。其中包括管理人员的平均年薪和已经完成公司管理培训项目的管理人员所占比率2500名管理人员构成了此项研究的总体。我们可以参照公司的职员记录总体中每个人的年薪和是否完成管理培训项目。假定我们通过简单随机抽样已获取30名管理人员的信息如下表所示。

第三节点估计

表4-230名管理人员组成的简单随机样本的年薪以及培训年薪/美元是否参加管理培训年薪/美元是否参加管理培训x1=49094是x16=51766是x2=53263是x17=52541否x3=49643是x18=44980是x4=49643是x19=51932是x5=47621否x20=52973是x6=55924是x21=45120是x7=49092是x22=51753是x8=51404是x23=54391否x9=50957是x24=50164否x10=55109是x25=52973否x11=45927是x26=50241否x12=57268否x27=52793否x13=55688是x28=50979是x14=51564否x29=55860是x15=56188否x30=57309否第三节点估计问题:总体年薪的均值是多少?年薪的方差(标准差)是多少?总体中回答:是的比例是多少?如果以样本均值作为总体参数的估计,即认为2500名管理人员年薪的均值大概是51805.3美元,这种估计方法称之为点估计。其中称为估计量(estimator),为总体未知参数。注意估计量与估计值概念的区别。第三节点估计

被估计的总体参数EstimatePopulationParameter…用以估计的样本统计量withSampleStatistic均值Meanx成数Proportionπp方差Variance2s

2差异Differences1

-

2x1-x2估计未知总体参数的常见的点估计量第三节点估计二、点估计的优良标准总体未知参数θ的点估计量不唯一,什么估计量是好的呢?一般来说,一个好的估计量应具备三个标准:1.无偏性2.有效性3.一致性第三节点估计

1.无偏性若,则称为的无偏估计量CAθ无偏Unbiased有偏Biased第三节点估计2.有效性,若则称比更有效,思考:更有效的估计量意味着什么?AB样本中位数的分布样本均值的分布fx样本均值比中位数作为总体均值的估计更有效,更好第三节点估计

3.一致性以样本统计量估计总体参数,要求当样本容量充分大时,样本统计量也充分靠近总体参数。一般来说,如果样本容量增大,估计量更趋近,就称为的一致估计量。这就是说随着样本容量的无限增加,样本统计量和被估计的总体参数之差绝对值小于任意小正数,它的可能性也趋于必然性,即第四节抽样分布一、几个重要的分布(卡方分布、t分布,F分布)第四节抽样分布

2.与区间估计相关的常见的几种分布介绍

2.1卡方分布设随机变量皆服从,且相互独立,则随机变量所服从的分布称为卡方分布,记着

其中参数n称为自由度,表示平方和中独立随机变量的个数。第四节抽样分布

不同自由度的卡方分布密度曲线对比第四节抽样分布例:如果一随机变量X服从自由度为10的卡方分布,求P(X<16)x=16第四节抽样分布

方法一:用excel函数chidist.chidist(x,deg-freedom)返回P(X>x)。本例中,P(X<16)=1-CHIDIST(16,10)=0.900368第四节抽样分布

方法二:查表(参见教材附表3卡方分布上分位数表)表示卡方变量大于给定值的概率为αP(X<16)≈P(X<15.987)=1-P(X<15.987)=1-0.1=0.9第四节抽样分布

已知概率求随机变量的问题例如:当自由度为10时,上0.025分位数即P(X>x)=0.025,所对应的值为20.483.下0.025分位数也就是P(X>3.247)=1-0.025第四节抽样分布

2.2t分布设随机变量相互独立,则随机变量的分布称为t分布,记着,其中参数n称为自由度。随着自由度n趋于无穷,t分布以标准正态分布为极限。当时,一般无法在t分布表中查出分位点,此时可以用标准正态分布替代t分布。其密度表达式为可以证明上式在n→∞,密度函数趋于标准正态密度函数第四节抽样分布

不同自由度的t分布密度曲线对比特点1:外形左右关于y轴对称特点2:随着自由度增加,尾巴越来越细特点3:当n超过30时,其密度曲线近乎与标准正态曲线重合第四节抽样分布

例:若一随机变量X~t(10),求P(X<-1)第四节抽样分布方法:通过excel函数TDIST(x,degrees_freedom,tails)X是需要计算分布的数值。Degrees_freedom

是一个表示自由度的整数。Tails

指定返回的分布函数是单尾分布还是双尾分布。如果

tails

=

1,则

TDIST

返回单尾分布。如果

tails

=

2,则

TDIST

返回双尾分布。如果

tails

=

1,TDIST

的计算公式

TDIST

=

P(

X>x

),其中

X

为服从

t

分布的随机变量。如果

tails

=

2,TDIST

的计算公式为

TDIST

=

P(|X|

>

x)

=

P(X

>

x

or

X

<

-x)。第四节抽样分布本例中,P(X<-1)=P(X>1)=TDIST(1,10,1)=0.170447第四节抽样分布已知概率(分位数)求随机变量的问题一般要查表(附表2t分布上分位数表)例如:当自由度为10时,上0.025分位数即P(X>x)=0.025,所对应的值为2.228.也就是P(X>2.228)=0.025第四节抽样分布4.F分布设随机变量且互相独立,则随机变量的分布称为自由度为n与m的F分布记着。第四节抽样分布如何查F分布上分位数表。比如要查上0.1分位数,第一自由度是8,第二自由度位5的分位数3.34P(X>3.34)=0.1P(X>x)=α,x=Fα(m,n)第四节抽样分布

如何查F分布下分位数,比如查下侧0.1分位数,第一自由度为5,第二自由度为8.P(X<x)=0.1x下0.1分位数P(X>x)=0.9转化为0.9分位数,但没办法查到0.9的F分布分位数表第四节抽样分布

上式说明下0.1分位数,可以转化为上0.1分位数第四节抽样分布

P(X<x)=0.1x下0.1分位数P(X>x)=0.9第四节抽样分布

二、抽样分布的概念估计量是样本的函数,因而它是随机的,必将服从某个分布。为了找到它的分布,我们假设可以大量重复(甚至是无限次的)简单随机抽样实验。这里假设重复做抽样实验500次,每一次抽取样本容量为30,得到如下表所示的数据(例4-1)。

第四节抽样分布表4-4由30名管理人员组成的500个简单随机样本年薪均值/美元频数频率49500~5000020.40%50000~50500163.20%50500~510005210.40%51000~5150010120.20%51500~5200013326.60%52000~5250011022.00%52500~530005410.80%53000~53500265.20%53500~5400061.20%合计5001第四节抽样分布

从上图可以看出,样本均值作为统计量服从一定的分布,我们把它叫做样本均值的抽样分布。同理还可以得到样本方差,样本比例等统计量的抽样分布。本章需要掌握样本均值、样本比例的抽样分布。第四节抽样分布

三、样本均值的抽样分布与中心极限定理(一)样本均值的抽样分布的性质(1)的数学期望为总体均值:(2)的标准差:(有限总体)

(无限总体)有限总体修正系数,在N很大且n占到N比例很小时,可以忽略。第四节抽样分布

(二)中心极限定理-抽样分布定理命题1:正态分布再生定理:当总体为正态分布,对任何容量样本,样本均值的抽样分布服从以总体均值为均值,以总体方差除以样本容量为方差的的正态分布。第四节抽样分布

命题2:当样本容量n足够大(n≥30),无论总体是什么分布,样本均值

的抽样分布将趋于正态分布。(又称为大样本定理)若无限总体均值为,标准差为,那么对于大样本(样本容量不小于30)的样本均值来说,它将近似服从的正态分布。若有限总体均值为,标准差为,那么对于样本容量为n的大样本(n>=30)的样本均值来说,它将近似服从的正态分布。第四节抽样分布P(x)总体IP(x)总体IIP(x)总体III样本均值的抽样分布(n=2)样本均值的抽样分布(n=30)样本均值的抽样分布(n=5)第四节抽样分布【例4-2】在一所大学,四年级7300个学生的总平均成绩的均值为μ=3.19和σ=0.24,如果无放回抽取一个包含36个学生的随机样本,问样本均值与相差0.4以内的概率为多少?分析(1)总体不知道什么分布;(2)大样本;(3)n<=0.05N,不需要有限总体修正系数;(4)样本均值服从正态分布第四节抽样分布解:根据中心极限定理,样本均值近似服从均值为μ=3.19,方差为0.242/36的正态分布。第四节抽样分布

四、样本比例的抽样分布第六节其他抽样方法一、分层抽样又称为分类抽样、或类型抽样,它首先是将总体的N个单位分成互不交叉、互不重复的k个部分,我们称之为层。然后从每一层中随机抽取部分单位。第六节其他抽样方法

好处:降低抽样误差。如何分层?总的原则是:层内样本的差异要小,而层与

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论