版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第六章
连续型随机变量的概率分布正态分布卡方分布t分布F分布第一节正态分布一、正态分布的定义和性质在自然、社会和经济等领域内,有许多现象服从一定的分布规律,例如身高、体重、一片森林的高度、学生成绩、人的智商、测量误差、海浪高度等等随机变量,我们将这类分布叫做正态分布(Normaldistribution),又叫常态分布、高斯分布。正态分布是参数估计和假设检验的理论基础。不论总体是否服从正态分布,只要样本容量n足够大,其样本平均数的抽样分布也必然接近正态分布,这就是有名的中心极限定理。可以说,在各类分布中,正态分布居于首要的地位。正态分布的图形与数学形式从数学表达式可以看出,当
确定之后,正态曲线的图形也就唯一的被确定了。一般正态分布记为正态分布的性质:P109二、正态曲线下的面积可见,对于所有的正态分布而言,约三分之二的个案散落在
一个标准差的范围内,而超过95%的个体聚集在两个标准差的范围内。【例1】班里语文考试成绩服从正态分布,平均成绩80分,标准差10分,学生甲70分,学生乙得60分,问分别有百分之多少的学生比甲、乙分数低?【解】对于甲学生而言,与平均成绩的差距=10分=S则有34.13%的同学在70分-80分之间,因为只有50%的同学低于80分,所以低于70分的同学的百分比为:50%-34.13%=15.87%同理,乙离开平均分的差距=20分=2S则有47.72%的同学在60分到80分之间,因为只有50%的同学地域80分,所以低于60分的同学的百分比为:50%-47.73%=2.27%【例2】高考在山东和甘肃是统一命题考试的。某高校计划在山东、甘肃各录取前0.13%的考生。假设考生的成绩在两个省都呈正态分布,山东平均分=75分,标准差=6分,甘肃平均分=65分,标准差=8分。如果一名考生靠了90分,那么他会被录取吗?【解】录取前0.13%的学生,即录取位于高于平均分3个标准差的考生。则山东:75+18=93甘肃:65+24=89在山东不会被录取,在甘肃则会被录取。三、标准正态分布在上个例题中,我们发现,要确定变量值的相对位置,要先确定这个值到均值的距离可以换算为几个标准差。标准正态分布的变量值的单位是标准差,是以距离均值的标准差的比例数来衡量。所有的变量值都可以通过这个公式转换成标准正态分布的变量值。这里的变量X变成了Z。标准差就是Z的单位。Z可以称之为标准分(StandardScores)。标准正态分布的公式为:比较原来的正态分布公式,我们可以看出,标准正态分布的均值等于0,标准差=1,简单记作Z~N(0,1)。标准正态分布是没有参数的,永远是一个已知的分布。对于任何一个正态分布而言,只要知道均值和标准差,都可以和标准正态分布之间来回转化。p(-1≤z≤1)=0.6827p(-2≤z≤2)=0.9545p(-3≤z≤3)=0.9973【讨论】将取值转换成标准分,关键在于保留原取值的“相对位置”的因素,当然标准分无法描述绝对水平的高低。以考试成绩为例,标准分无法直接描述考试成绩,而是描述该成绩的相对位置。换句话说,甲学生比乙学生标准分高1分,只是说明甲在分数分布中的位置比乙高出一定的百分数,并不表示甲的绝对成绩就比乙高1分,而是高一个标准差。如果原分布的标准差小,1分表示一个比较大的差距,如果原分布的标准差大,则1分表示一个相对小的差距。对于两个不同的原初分布,比如不同学科,标准分相同,不代表原始分相同。因为在标准分中,只要是第一名就是100分,而不管原始分是多少。【例2】高考在山东和甘肃是统一命题考试的。某高校计划在山东、甘肃各录取前0.13%的考生。假设考生的成绩在两个省都呈正态分布,山东平均分=75分,标准差=6分,甘肃平均分=65分,标准差=8分。如果一名考生靠了90分,那么他会被录取吗?【解】我们先计算标准分:山东:甘肃:查标准正态分布表,p325,因为每一个Z值都可以直接找到正态分布表中的面积。查表得,山东的考生位于前0.62%的位置,而甘肃的考试位于高于0.13%的位置,所以在山东不会被录取,在甘肃则会被录取。四、正态分布表在各种统计学教科书的附录中以及数学手册中,都列有正态分布表,表中以某种形式详细给出了服从标准正态分布的变量Z的各种值的分布频率,即给出了变量Z小于各待查值的频率,但是具体的又不尽相同,比如卢淑华的教材Z分布表是指负无穷到Z的概率分布,而张彦教材是从0-Z。正态分布的计算方式(1)负值概率P(-Z0)=0.5-F(Z0)
如P(Z≤-1.3)=1-P(1.3)=1-0.9032=0.0968(2)任意区间:P(Z1≤Z≤Z2)=F(Z2)-F(Z1)(3)P(Z≥Z0)=0.5-F(Z0)(4)P(Z≥-Z0)=0.5+F(Z0)【例题1】【例2】
首先求0.5-0.05=0.45然后查表可得对应的Z值,介于1.6到1.7之间。【例3】或者0.05的一半为0.025,0.5-0.025=0.975查表,得Z0=1.96【例4】根据统计,济南市初婚年龄服从正态分布,其均值是25岁,标准差为5岁,问25到30岁之间结婚的人,其百分数是多少?【解】为了使用正态分布表,首先必须将年龄换算为标准分:
查表得
所以济南市25岁到30岁之间结婚的人百分比是34.13%。五、二项分布的正态近似法二项分布的应用受到了样本n的很大限制,只有当n很小的时候我们才能方便的使用公式计算二项分布。所幸的是,二项分布是以正态分布为极限的。当n很大(≥30)时,只要p或q不近于零,(np,nq都不小于5)我们都可以用正态分布近似的解决二项分布的计算问题。令
,将B(n,p)视为N(np,npq)来计算。参见张彦教材的例题,P114-115页,【7.3.4】【7.3.5】【例7.3.4】在抛掷一枚硬币10次的二项实验中,试以二项分布与二项分布的正态近似法,求成功3到6次的概率。
【例7.3.5】铁路部门预计在有车票的旅客中有5%赶不上该列车,该列车有座位600个,但却售出了620张票,求每位旅客都有座位的概率。
第二节卡方分布
(Chi-squaredistribution)
第三节t分布(t-distribution)1900年左右,统计学家开始觉得标准正态分布并不总是用来寻找概率的正确分布。WilliamGosset是一名为爱尔兰的都柏林一家啤酒厂GuinnessBreweries工作的化学家,数学是他的副科;他是对此感到怀疑的人之一。他决定经验地检验在概率问题中使用标准正态分布是否总是对的。有些不可思议地,Gosset以收集3000个犯人的身高和左手中指长度来开始他的探索。从这两个数据集(身高和手指长度),他对每一个变量各选择了四个观察值,因此他有了750个不同的样本。对于每一个样本他都计算了一个叫做t的值。然后他制作了两个直方图,想看一看每一个样本的所有的t值的分布是什么样的?它们与标准正态分布有多类似?Gosset发现他的两个直方图的形状非常接近,但是与标准正态分布有很大不同。他将这个新分布叫作t分布(t-distribution),他计算得出的值也叫t值。他在发表这个结果时,因为他们公司的老板不愿意让员工发表文章,害怕他们会将酿造啤酒的秘密泄露出去,所以他署了一个假名叫做“学生”,因此t分布有时也叫做学生分布(Student'st),后来,Fisher将Gosset的经验结论进行了数学化;他对t分布的曲线导出了相应的数学函数。今天,这个分布已经是迄今最常用的分布了。
下图是自由度为10的t分布图。t曲线下的总面积是1.00,与正态分布相同。分布是单峰和对称于t=0的。这看起来和正态分布类似,并且我们很难看出t图与正态分布图有什么不同。但实际上它们确实是有区别的。正态分布和t分布这两个曲线的基本形状相同,但是正态分布的中部较高,t分布在水平轴上的收敛不像正态分布那么快。这个区别表明t分布在其均值周围的聚集程度比正态分布要差一些。例如,z变量大于2.5的概率等于0.0062,但自曲度为10的t变量大于2.5的概率等于0.0152。换句话说,10000个z值中只有62个比2.5大,但是在10000个t值中有152个大于2.5。仍然,自由度为10的t值有95%落在-2.228和+2.228的区间内。这就意味着,和正态分布相比,我们必须到离中点更远的地方去获得95%的t值。而回顾正态分布,有95%的取值落在一1.96和+1.96的区间内。
t分布的自由度越大,则该t分布的曲线就越接近正态分布。在自由度大于30以后就很难说出这两种曲线的差异了。在自由度等于50时这两种曲线就几乎相同了。这就是为什么统计表中列出的t分布的自由度只到120的原因;此后就可以使用正态分布表来代替了。第四节F分布(FDistribution)F分布族的命名是为了纪念伟大的英国统计学家RonaldFisher爵士。F分部是一种常见的连续型随机变量的概率分布,被广泛应用于似然比率检验,特别是ANOVA中。定义设X1服从自由度为k1的卡方分布,X2服从自由度为k2的卡方分布,且X1和X2相互独立,则称变量
服从F分布,用F(k1,k2)来表示,其中第一自由度是k1,第二自由度是k2。一个F分布的随机变量是两个卡方分布变量的比率。还是设想一些装满了写有数字纸片的桶。每一个桶都代表一种F分布并且有一对标号,例如4和40。则这个桶代表了自由度为4和40的F分布。
一个比较详细的F分布表应有1000个不同F分布的信息。所以我们教材后面用了厚厚几页纸列出了常用的F统计量值。下图是自由度为4和40的F分布的图形。
从图上我们知道和卡方变量一样,F变量也是非负的,F分布中的取值大部分在0到5之间变化。在自由度小时,F值要大些。对这个特定的F分布,大多数F变量的取值看来都小于3。由F分布表,5%的F值大于2.45,而只有1%的F值大于3.83。因此,随机选择一个自由度为4和40的F分布
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024电子支付清结算系统建设合同3篇
- 2024年企业品牌形象策划与推广合同2篇
- 四方合同范本工作范文
- 员工培训管理分析总结报告
- 2024年度科研机构服务器租赁及高性能计算服务协议2篇
- 2024年度广告投放合同协议
- 有关技术协议书模板
- 2024年度设备买卖合同细节2篇
- 洗车房租赁合同范本
- 《子宫疾患》课件
- 2024-2025学年广东省佛山市S6高质量发展联盟高二上学期期中联考数学试卷(含答案)
- 第14课《背影》课件(共43张t)
- 仁爱版八年级英语上册-Unit-3-Topic-3-Section-A-课件(共26张PPT)
- 村庄规划服务投标方案(技术方案)
- 环境空气自动监测站运维服务投标方案
- 2021年运城市辅警招聘笔试题及答案解析
- 国家开放大学《管理英语4》章节测试参考答案
- 电加热管(恒温加热器)测试作业指导书
- DMX512控制台简单使用说明
- 最新复旦大学体育理论考试题库
- 《黑暗的剪影林清玄》阅读答案
评论
0/150
提交评论