抽样与参数估计_第1页
抽样与参数估计_第2页
抽样与参数估计_第3页
抽样与参数估计_第4页
抽样与参数估计_第5页
已阅读5页,还剩74页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第5章 抽样与参数估计 k不像其他科学,统计从来不打算使自己完美无缺,统计意味着你永远不需要确定无疑。 古德蒙R艾弗森 重点掌握握计算内内容淡化公式式推导侧重于统统计应用用教学、学学习方式式以理解统统计思想想为主课程设计计思路第5章知识点1、概率及分布3、抽样分分布及中心极极限定理理4、参数估估计2、统计量量与参数预备知识识推断指标标 推断依据据理论知识计算方法法5.1参数与统统计量平均数标准差比 例参数:统计量x s p总体样本未知参数数已知统计计量5.2抽样分布布抽样分布概念中心极限定理几种常用统计量的分布5.2.15.2.25.2.3作出推断断的依据据是什么么?怎样才能能让别人人信服你你

2、的推断断结果呢呢?1、从一个总总体中随随机抽出容量相同同的各种样样本,则则从这些些样本计计算出的的某统计量的的所有可可能值形成的概概率分布布,被称称为这一一个统计计量的抽抽样分布布。2、统计量量的概率率分布,是一种种理论分布布。3、提供了样样本统计计量长远而稳稳定的信信息,是进行推断断的理论论基础,也是抽抽样推断断科学性性的重要要依据。5.2.1抽样分布布统计量的的分布具具有某种种确定的性性质,而这些些性质是是已知的,而且反反映在它它的抽样样分布之之中。k5.2.1抽样分布布(一)样本均值值的抽样样分布【例】设一个总总体,含有4个元素(个体),即总体体单位数数N=4。4个个体分分别为x1=1,

3、x2=2,x3=3,x4=4。总体的均均值、方方差及分分布如下下总体分布142300.20.5均值和方方差总体的分分布XN(2.5, 1.25)重复抽样样n=2X1X2X3X41234样本元素组合样本均值1X1,X112X1,X21.53X1,X324X1,X42.55X2,X12.56X2,X227X2,X32.58X2,X439X3,X1210X3,X22.511X3,X3312X3,X43.513X4,X12.514X4,X231516X4,X3X4,X43.54现从4个中重复复抽2个构成16个可能样样本。统计量次数f频率111/161.511/16233/162.555/16333/1

4、63.522/16411/16合计162/16抽样的概概率分布布表样本元素组合样本均值1X1,X112X1,X21.53X1,X324X1,X42.55X2,X12.56X2,X227X2,X32.58X2,X439X3,X1210X3,X22.511X3,X3312X3,X43.513X4,X12.514X4,X231516X4,X3X4,X43.54样本均值值的分布布与总体体分布的的比较=2.52=1.25总体分布布1423.1抽样分布P ( x )10.06 .31.5343.522.5x.1.2样本均值值x的抽样分分布与总总体分布布的关系系: =2.5 =1.25X总体分布N= 4抽样

5、分布xn =2样本均值值的数学学期望样本均值值的方差差重复抽样样结论:样样本均值值的抽样样分布(数学期望望与方差差)比较及结结论:1.样本均值值的均值值(数学期望望)等于总体体均值2.样本均值值的方差差等于总总体方差差的1/n。总体(或样本)中具有某某种属性性的单位位与全部部单位总总数之比比不同性别别的人与与全部人人数之比比合格品(或不合格格品)与全部产产品总数数之比总体比例例可表示示为样本比例例可表示示为5.2.1抽样分布布(二)样本比例例的抽样样分布当样本容容量很大大时,样样本比例例的抽样样分布可可用正态态分布近近似推断断总体比比例的理论基基础样本比例例的数学学期望样本比例例的方差差样本比

6、例例的抽样样分布(数学期望望与方差差)虽然比率率p随着样本本容量n的增大而而近似服服从正态态分布,但究竟竟多大才才能使p近似正态态分布呢呢?这与p的取值大大小有关关。当p接近于05时,用较较小的样样本就可可使p的分布趋趋于正态态分布;但当p接近于0和1时,就要要很大的的样本才才能使p的分布趋趋于正态态分布。统计学家家W GCocban提出一个个标准可可供参考考,如表表57所示。5.2.2中心极限限定理从总体中中抽取样样本容量量为n的简单随随机样本本,当样样本容量量n30时,样本本均值的的抽抽样分布布可用正正态概率率分布近近似。5.2.2中心极限限定理x的分布趋趋于正态态分布的的过程、中心极限限

7、定理当样本容量足够大时(n 30) ,样本均值的抽样分布逐渐趋于正态分布从均值为为,方差为为2的一个任任意总体体中抽取取容量为为n的样本,当n充分大时时,样本本均值的的抽样分分布近似似服从均均值为、方差为为2/n的正态分分布一个任意分布的总体x总结:推推断时样样本统计计量的抽抽样分布布形式概概括几种概率分布正态分布布分布F分布t分布5.2.3几种常用用的统计计量及其其分布正态分布布(normal distribution)1.描述连续续型随机机变量的的最重要要的分布布2.可用于近近似离散散型随机机变量的的分布例如:二项分布布3.经典统计计推断的的基础xf (x)正态分布布最常用用、最重重要(1

8、)客观世界界中有许许多随机机现象都都服从或或近似服服从正态态分布。例如:测测量误差差,同龄龄人的身身高、体体重,一一批棉纱纱的抗拉拉强度,一种设设备的使使用寿命命,一定定条件下下某种农农作物的的产量,等等。它们的共共同特点点是,中间多两两端少,即离均均值越近近的数值值越常见见;反之之,离均均值越远远的数值值越少见见。(2)正态分布布具有很很好的数数学性质质。正态分布布是许多多概率分分布的极极限分布布,其他他一些分分布的概概率(如二项分分布)可由正态态分布来来近似计计算,统统计推断断中许多多重要的的分布(如2分布、t分布、F分布)都是在正正态分布布的基础础上推导导出来的的。(3)尽管经济济管理活

9、活动中的的有些变变量是正偏斜斜的,但是正态态分布仍仍然是与与之十分分贴近的的,这丝丝毫不影影响正态态分布在在抽样应应用中的的地位。概率密度度函数f(x) =随机变量量X的频数=总体方差差=3.14159;e =2.71828x=随机变量量的取值值(-x +)=总体均值值正态分布布的概率率概率是曲曲线下的的面积!abxf(x)例题分析析计算下列列概率:ZN(0,1),求P(Z25)和P(-15Z2)。解:利用用Excel中的【NORMSDIST函数得P(Z25)=099379P(-15Z2)=P(Z2)-P(Z-15)=0.910(2)X-N(50,102),求P(X40)和P(30X40)。(

10、3)正态分布布概率为为005时,求标标准正态态累积分分布函数数的反函函数值Z。解:(2)利用Excel中的NORMDIST函数可得得P(X40)=0158655P(30X40)=P(X40)-P(X30)=0.1 35(3)利用Excel中的【NORMSINV函数得NORMSINV(005)=-1644854标准正态态分布一般的正正态分布布取决于于均值和标准差差计算概率率时,每一个个正态分分布都需需要有自自己的正正态概率率分布表表,这种表格格是无穷穷多的例:l、50和25280和253、50和2103、若能将将一般的的正态分分布转化化为标准准正态分分布,计计算概率率时只需需要查一一张表标准正态

11、态分布函函数标准正态态分布的概率密密度函数数任何一个个一般的正正态分布布,可通通过下面面的线性性变换转转化为标标准正态态分布z分数是一一个值z大于或小小于均值值的标准准差个数数。标准正态态分布的分布函函数标准化的的例子、P(5X6.2)x =5=10一般正态分布6.2 =1Z标准正态分布 00.12.44785和210标准正态态分布表表的使用用将一个一一般的转转换为标标准正态态分布计算概率率时,查标准准正态概概率分布布表对于负的x,可由(-x)x得到对于标准正正态分布布,即XN(0,1),有P(a Xb)b aP(|X| a)2a 1对于一般正正态分布布,即XN(, ),有正态分布布(例题分析

12、析)【例】设XN(0,1),求以下下概率:(1)P(X2);(3)P(-1X3);(4)P(|X|2)解:(1)P(X2)=1-P(X2)=1-0.9773=0.0332(3)P(-1X3)=P(X3)-P(X-1)=(3)-(-1)=(3)1-(1)= 0.9987-(1-0.8413)=0.84(4)P(|X|2)=P(-2X2)=(2)-(-2)=(2)- 1-(2)=2(2)- 1=0.9545正态分布布(例题分析析)【例】设XN(5,32),求以下下概率、(1)P(X10);(2)P(2X10)解:(1)(2)正态分布布的重要特征征是它有很好好的数学学性质,而且对对所有的的正态分分布

13、这些些性质都都相同。更特别地地,这些些性质是是,对于于任何正正态分布布,落入入均值两两边n个标准差差范围之之内的正正态分布布变量的的观测值值的比例例是相同同的。因此,正正如图所所示落入入均值两两边1个标准差差范围内内的观测测值接近近68.27.落入均值值两边2个标准差差范围内内的观测测值接近近95.45%落入均值值两边3个标准差差范围内内的观测测值接近近99.73.k正态分布布中六西西格玛原原理摩托罗拉拉公司于于1987年创立的的6管理理念念就是把把质量水水准的度度量从“百分之之几”精精确到“百万分分之几”甚至“十亿分分之几”。当上下公公差不变变时,6的质量水水准就意意味着产产品合格格率达到到

14、99999999 8,即其特性性值落在在区间(一6,十6)外的概率率仅为十十亿分之之二。6表明:现现代技术术的复杂杂程度使使得过去去的关于于“可接接受质量量水平”的观念念已经不不再适用用!现代市场场竞争的的激烈程程度要求求企业在在多种运运作流程程中达到到几乎完完美的质质量水平平。在生产管管理尤其其是在产产品质量量管理中中使用六六西格玛玛原理,就意味味着产品品质量的的全面提提高,几几乎每一一件产品品都要达达到合格格的水平平,这是是对过去去粗放式式企业管管理的一一个巨大大挑战。首先可以以从产品品质量的的直接管管理人手手。其次,可可以从全全面质量量管理、企业整整体管理理等方面面进行尝尝试。再次,可可

15、以在企企业生产产的过程程控制与与六西格格玛原理理的应用用方面相相结合。从而使企企业在技技术进步步和品牌牌创建等等方面做做出较大大的贡献献。由正态分分布导出出的几几个重要要分布一、2分布二、t分布三、F分布导出背景景在小样本本中,当当总体分分布为正正态分布布,而总总体方差差已知,则样本本分布应应采用正正态分布布,即用用正态分分布进行行统计推推断。当总体分分布为正正态分布布,总体体方差未未知,则则样本相相应地可可采用t分布,2分布和F分布进行行统计推推断。当总体分分布为二二项分布布,因样样本容量量小,则则二项分分布的概概率不能能用泊松松分布或或正态分分布来近近似地计计算,需需要直接接用二项项分布来

16、来计算,故在这这种情况况下,样样本分布布需要二二项分布布进行统统计推断断。一、c2分布(图示)不同容量样本的抽样分布c 2n=1n=4n=10n=20由阿贝(Abbe)于1863年首先给给出,后后来由海海尔墨特特(Hermert)和卡皮尔逊(KPearson)分别于1875年和1900年推导出出来设,则令,则则Y服从自由由度为1的2分布,即即当总体,从中中抽取容容量为n的样本,则一、2分布(2distribution)在总体方方差的估估计和非非参数检检验中会会用到2分布.分布的变变量值始始终为正正分布的形形状取决决于其自自由度n的大小,通常为为不对称称的正偏偏分布,但随着着自由度度的增大大逐渐

17、趋趋于对称称期望为:E(2)=n,方差为为:D(2)=2n(n为自由度度)可加性:若U和V为两个独独立的2分布随机机变量,U2(n1),V2(n2),则U+V这一随机机变量服服从自由由度为n1+n2的2分布 一、2分布(性质和特特点)2分布的概概率即为为曲线下下面积。利用Excel中的(CHIDIST)统计函数数,可以以计算给给定2值和自由由度的2分布右尾尾的概率率,而利用(CHIINV)函数则可可以计算算给定右右尾概率率和自由由度时相相应的反反函数值值(2值)。例:计算:(1)自由度为为8,2值大于10的概率;(2)自由度为为10,2分布右尾尾概率为为005时的反函函数值(在估计和和检验中中

18、称为临临界值).在Excel工作表的的计算单单元格输入函数数“=CHIDIST(10,8)”,得到2分布的右右尾概率率为0265026。输入函数数“CHIINV(005,10)”,得到218307。c2分布(图示) 选择容量为n 的简单随机样本计算样本方差s2计算卡方值2 = (n-1)s2/2计算出所有的 2值不同容量样本的抽样分布c 2n=1n=4n=10n=20 ms总体c2分布(例题的图图示)16个样本方差的分布样本方差s2s2取值的概率0.04/160.56/1624/164.52/16二、t分布1、当正态总总体标准准差未知知时,在在小样本本条件下下对总体体均值的的估计和和检验要要用

19、到t分布2、高塞特特(W.S.Gosset)于1908年在一篇篇以“Student”(学生)为笔名的的论文中中首次提提出3、t分布是类类似正态态分布的的一种对对称分布布,它通通常要比比正态分分布平坦坦和分散散4、一个特特定的分分布依赖赖于称之之为自由由度的参参数。随随着自由由度的增增大,分分布也逐逐渐趋于于正态分分布二、t分布图示示xt 分布与标准正态分布的比较t 分布标准正态分布t不同自由度的t分布标准正态分布t (df = 13)t (df = 5)zt分布的概概率即为为曲线下下面积。利用Excel中的(TDIST)统计函数数,可以以计算给给定t值和自由由度时t分布的概概率值,而利用用(T

20、INV)函数则可可以计算算给定概概率和自自由度时时的相应应t值。例 :计计算:(1)自由度为为10,t值大于2的概率;(2)自由度为为10,t分布右尾尾概率为为005时的t值。在Excel工作表的的计算单单元格输入函数数“TDIST(2,10,1)”,得到t分布的概概率为0,03669。输入函数数“TINV(0,05,10)”,得到相相应的t值为22281。F分布通常常用于比比较不同同总体的的方差是是否有显显著差异异。由统计学学家费希希尔(R.A.Fisher)提出的,以其姓姓氏的第第一个字字母来命命名设若U为服从自自由度为为n1的2分布,即即U2(n1),V为服从自自由度为为n2的2分布,即

21、即V2(n2),且U和V相互独立立,则称称F为服从自自由度n1和n2的F分布,记记为三、F分布(Fdistribution)三、F分布(图示)不同自由由度的F分布F(1,10)(5,10)(10,10)F分布的概概率即为为曲线下下面积。利用Excel中的(FDIST)统计函数数,可以以计算给给定F值和自由由度时F分布的单单尾概率率,而利利用(FINV)函数则可可以计算算给定单单尾概率率和自由由度时的的相应F值。例 计算算:(1)分子自由由度为10,分母自自由度为为8,F值大于3的概率;(2)分子自由由度为10,分母自自由度为为8,F分布右尾尾概率为为005时的F值。在Excel工作表的的计算单

22、单元格输人函数数“FDIST(3,10,8)”,得到F分布的概概率为006645。输入函数数“FINV(0,05,10,8)”,得到的的F值为334716。补充:抽抽样分布布与中中心极限限定理的的应用、课堂练习习:1、某大学的的一家快快餐店记记录了过过去5年每天的的营业额额,每天天营业额额的均值值为2 500元,标准准差为400元。由于于在某些些节日的的营业额额偏高,所以每每日营业业额的分分布是右右偏的,假设从从这5年中随机机抽取100天,并计计算这100天的平均均营业额额,则样本均均值的抽抽样分布布是()。A正态分分布,均均值为250元,标准准差为40元B正态分分布,均均值为2 500元,标

23、准准差为40元C右偏,均值为为2 500元,标准准差为400元D.正态分布布,均值值为2 500元,标准准差为400元。12某班学生生的年龄龄分布是是右偏的的,均值值为22,标准差差为445。如果采采取重复复抽样的的方法从从该班抽抽取容量量为100的样本,则样本本均值的的抽样分分布是()。A.正态分布布,均值值为22,标准差差为0445B.分布形状状未知,均值为为22,标准差差为445C.正态分布布,均值值为22,标准差差为445D分布形形状未知知,均值值为22,标准差差为04:4513在一个饭饭店门口口等待出出租车的的时间是是左偏的的,均值值为12分钟,标标准差为为3分钟。如如果从饭饭店门口

24、口随机抽抽取100名顾客并并记录他他们等待待出租车车的时间间,则该该样本均均值的分分布服从从()。A.正态分布布,均值值为12分钟,标标准差为为03分钟B正态分分布,均均值为12分钟,标标准差为为3分钟C左偏分分布,均均值为12分钟,标标准差为为3分钟D左偏分分布,均均值为12分钟,标标准差为为03分钟14某厂家家生产的的灯泡寿寿命的均均值为60小时,标标准差为为4小时。如如果从中中随机抽抽取30只灯泡进进行检测测,则样样本均值值()。A.抽样分布布的标准准差为4小时B抽样分分布近似似等同于于总体分分布C抽样分分布的中中位数为为60小时D.抽样分布布近似等等同于正正态分布布,均值值为60小时1

25、5假设某某学校学学生的年年龄分布布是右偏偏的,均均值为23岁,标准准差为3岁。如果果随机抽抽取100名学生,下列关关于样本本均值抽抽样分布布描述不不正确的的是()。A抽样分分布的标标准差等等于3B抽样分分布近似似服从正正态分布布C抽样分分布的均均值近似似为23D抽样分分布为非非正态分分布16从均值值为200,标准差差为50的总体中中抽取容容量为100的简单随随机样本本,样本本均值的的数学期期望是()。A150B200C100D25017从均值值为200,标准差差为50的总体中中抽取容容量为100的简单随随机样本本,样本本均值的的标准差差是()。A50B10C5D1518假设总总体比例例为055

26、,从此总总体中抽抽取容量量为100的样本,则样本本比例的的标准差差为()。A001B。005C006D055例1:设某公司司1000名职工的的人均年年奖金为为2000元,标准准差500元,随机机抽取36人作为样样本进行行调查,问样本本的人均均年奖金金在19002200元之间的的概率有有多大?例2:某地区职职工家庭庭的人均均年收入入平均为为12000元,标准准差为2000元。若知知该地区区家庭的的人均年年收入服服从正态态分布,现采用用重复抽抽样从总总体中随随机抽取取25户进行调调查,问问出现样本平均均数等于或超超过12500元的可能能性有多多大?例3:某商场推推销一种种洗发水水。据统统计,本本年

27、度购购买此种种洗发水水的有10万人,其其中6万是女性性。如果果按不重重复随机机抽样方方法,从从购买者者中抽出出100人进行调调查,问问样本中中女性比比例超过过50%的可能性性有多大大?例4:历史记录录显示某某种瓶装装饮料的的重量服服从正态态分布,均值为为885克,总体体标准差差是11克。某天天早上,从灌装装线上随随机抽取取了16瓶进行测测试,结结果平均均每瓶的的饮料含含量是890克。这是不是是不大可可能的结结果?换句话说说,抽样样误差等等于5克是异常常值吗?我们从均均值为885克、总体体标准差差()为11克的正态态总体中中抽取由由16瓶饮料组组成的样样本,发发现其样样本均值值是890克的可能能

28、性有多多大?采用相应应的公式式计算z值,得z值1818在正态分分布的右右侧,因因此很容容易得到到z值大于1818的可能性性是00345。例5、据某报报纸估计计,每个个零售点点每日平平均卖出出报纸200份,且该该分布种种类未知知。某一一天调查查了70家零售点点的销售售情况,得到平平均销售售量是1948份。已知知70家零售点点销售的的标准差差为425份。请问断定定总体均均值是200份合理吗吗?从该总体体得到具具有上述述统计量量的样本本的可能能性有多多大?你需要做做何种假假定?中心极限限定理的的应用例1、某高校校在研究究生人学学体检后后对所有有结果进进行统计计分析,得出其其中某一一项指标标的均值值为

29、7,标准差差为22。从这个个总体中中随机选选取一个个容量为为3l的样本。(1)计算样本本均值大大于75的概率;(2)计算样本本均值小小于72的概率;(3)计算样本本均值在在7.2和7.5之间的概概率。例2、在北京京一居室室的房租租平均为为每月1500元,房租租的分布布并不服服从正态态分布,随机抽抽取容量量为50的样本,样本的的标准差差是200元,请问:样样本均值值至少为为1 600元的概率率是多少少?结束束THANKS:1、什么是是概率?概率是是解决什什么问题题的?概率:用来度量量随机事事件发生生的可能能性大小小的数值值随机与偶偶然如果一个个现象的的个别结结果无法法预知,然而在在多次重重复之后

30、后,其结结果会出出现有规规则的分分布,则则我们称称该现象象为随机机的。2、何谓概概率分布布?概率分布布:描述随机机现象所所有可能能结果的的分配概概率。例:从2529岁的女性性当中随随机选择择一位,并记录录她的婚婚姻状况况。婚姻状况况从从未结结婚已已婚寡寡居离离婚婚概率率0386055500040055P(单身)=P(从未结婚婚)+P(寡居)十P(离婚)=0386+0004+0055=04453、概率分分布的作作用?对于不同同的随机机试验,其样本本空间的的具体构构成千差万别别,使得得很多概概率的计计算十分分困难和和繁杂。实质上,如果把具具体内容容抽象掉掉,将随随机事件件数量化化,就会会发现许许多

31、随机机试验中中概率的的计算具具有某种种共同性性,遵循循某一种种概率分分布模型型。只要能找找到这些些概率分分布模型型,就会会为我们们计算概概率和研研究同类类随机现现象的规规律性提提供方便便。归结:用用概率模模型的一一大优点点,是让让我们可可以计算算一些复复杂事件件的概率率。4、概率分布布的类型型抽样分布布举例样本均值值的抽样样分布【例】设一个总总体,含有4个元素(个体),即总体体单位数数N=4。4个个体分分别为x1=70,x2=90,x3=130,x4=150。总体的的均值、方差及及分布如如下总体分布701509013000.51均值和方方差总体的分分布XN(110, 31.622)样本均值值的抽样样分布X1X2X3X47090130150样本组合总和1X1,X1140702X1,X2160803X1,X32001004X1,X42201105X2,X1160806X2,X2180907X2,X32201108X2,X42401209X3,X120010010X3,X222011011X3,X326013012X3,X428014013X4,X122011014X4,X22401201516X4,X3X4,X4280300140150现从4个中重复复抽2个构成样样本。样本组合总和统计量1X1,X1140702X1,X216080

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论