第三概率分布与抽样分布演示文稿_第1页
第三概率分布与抽样分布演示文稿_第2页
第三概率分布与抽样分布演示文稿_第3页
第三概率分布与抽样分布演示文稿_第4页
第三概率分布与抽样分布演示文稿_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三概率分布与抽样分布演示文稿目前一页\总数四十四页\编于六点(优选)第三概率分布与抽样分布目前二页\总数四十四页\编于六点

条件概率:A、B为两个随机事件,P(A¦B)称为事件B发生的前提下事件A发生的条件概率。P(A¦B)=,P(B)>0。由于增加了新的条件(附加信息),一般说来,P(A¦B)≠P(A)。目前三页\总数四十四页\编于六点乘法公式:

将条件概率公式变形可得:P(AB)=P(B)P(A¦B)将上式中A、B的位置对调,可得:P(AB)=P(A)P(B¦A)以上两式统称概率乘法公式。目前四页\总数四十四页\编于六点全概率公式与逆概率公式:

1、完备事件组若事件A1、A2、…An互不相容(互斥),且其中之一必然发生,则事件A1、A2、…An组成完备事件组。即

A1∪A2∪…∪An=Ω,AiAj=Φ(i≠j)

2、全概率公式若事件A1、A2、…An为完备事件组,则对任一事件B,有目前五页\总数四十四页\编于六点一、概率与概率分布(二)概率分布概率与随机变量密不可分。

随机变量:离散型、连续型。

概率分布:随机变量取一切可能值的概率的规律称为概率分布,即P(x=everyprobnumber)=?

概率分布可以用表、图形或公式等多种方式来表示。目前六页\总数四十四页\编于六点二项分布:

只有两种可能结果的试验称为贝努利试验。n次独立重复的贝努利试验称为n重贝努利试验。在n重贝努利试验中,结果A(成功)出现m次的概率分布为:

其中:目前七页\总数四十四页\编于六点几何分布:在可列重贝努利试验中,结果A(成功)在第m次首次出现的概率分布为:二项分布、几何分布都是贝努利试验导出的分布。目前八页\总数四十四页\编于六点超几何分布:二项分布与几何分布都是在n重或可列重相互独立的贝努利试验中形成的。那么,如果这种试验不是相互独立的呢?比如:

假定有一批500个产品,而其中有5个次品。假定该产品的质量检查采取随机抽取20个产品进行检查。如果抽到的20个产品中含有2个或更多不合格产品,则整个500个产品将会被退回。这时,人们想知道该批产品被退回的概率是多少。该概率满足超几何分布(hypergeometricdistribution)。目前九页\总数四十四页\编于六点这样的抽样一般采取“不放回抽样”,也就是说,每次抽取之后并不放回。在这种情况下,每次抽取之后,总体之中的合格和不合格品的比例都会发生变化,和以前不一样了,因此,每次试验不再是独立的贝努利试验,在n次试验中,结果A(成功)出现m次的概率分布也就不再服从二项分布,而是服从超几何分布:其中N为产品总数,n为试验次数也即抽取出的产品数;K为产品中结果A的总数也即产品中的总次品数。目前十页\总数四十四页\编于六点一、概率与概率分布(三)概率密度函数与累积概率分布函数

连续型随机变量不好讲概率分布,所以讲累积概率分布,P(x<everyprobnumber)=?

而其累积概率分布也是无穷的,所以用函数来刻画,引入了概率密度函数(probabilitydensityfunction,pdf)和累积概率分布函数(cumulativedistributionfunction,cdf)。若X为连续型随机变量,且存在一个非负函数f(x),使得对任意区间(a,b),有

P{X∈(a,b)}=P{a<X<b}=

则称f(x)为连续型随机变量X的概率密度函数。目前十一页\总数四十四页\编于六点在平面直角坐标系中画出f(x)的图形,则对于任何实数x1<x2,P(x1<Xx2)是该曲线下从x1到x2的面积。f(x)xab概率是曲线下的面积目前十二页\总数四十四页\编于六点从概率的角度重新看这几个指标:目前十三页\总数四十四页\编于六点离散型随机变量与连续型随机变量概率分布的对应关系:目前十四页\总数四十四页\编于六点二、正态分布

正态分布是最常见、最重要的概率分布。如果一随机现象受多种偶然因素影响,且各因素之间势均力敌,则这个现象服从正态分布。

正态分布的概率密度函数为:目前十五页\总数四十四页\编于六点目前十六页\总数四十四页\编于六点目前十七页\总数四十四页\编于六点中心极限定理(CentralLimitTheorem):设从均值为μ、方差为σ2(有限)的任意一个总体中抽取大小为n的样本,当n充分大时,样本均值的分布总是近似服从N(μ,)的正态分布。即:关于n的大小:总体偏离正态越远,则要求n就越大。实际中,要求n≥30。目前十八页\总数四十四页\编于六点中心极限定理(CentralLimitTheorem):目前十九页\总数四十四页\编于六点中心极限定理(CentralLimitTheorem):目前二十页\总数四十四页\编于六点目前二十一页\总数四十四页\编于六点目前二十二页\总数四十四页\编于六点对于样本比例(成数)来说,中心极限定理也同样成立:设从成数为P0的总体中抽取大小为n的样本,当n充分大时,样本成数总是近似服从的正态分布。即:目前二十三页\总数四十四页\编于六点目前二十四页\总数四十四页\编于六点

比如,假设随机变量X~N(μ,σ2),其中σ2已知,μ未知,需要我们通过抽样来估计。现抽取n个样本观察值x1、x2、…、xn,那么,由于是从正态分布中抽样,所以即使n不满足>=30的条件,样本均值也近似服从正态分布,即:目前二十五页\总数四十四页\编于六点

同理,对于两个相互独立的正态总体N(μ1,σ12)、N(μ2,σ22),假设我们从这两个总体中分别抽取一个n1、n2个观察值组成的样本,那么,这两个样本均值的差也服从正态分布,即:思考:如果这两个总体不是正态总体而n1、n2足够大,样本均值差的分布形态还是这样的吗?目前二十六页\总数四十四页\编于六点标准正态分布N(0,1):标准正态分布的重要性在于,任何一个一般的正态分布都可以化为标准正态分布,即~N(0,1)。所以,说一个随机变量服从正态分布,与说它服从标准正态分布没什么太大差别,因为它可以转化为标准正态分布。目前二十七页\总数四十四页\编于六点数据的标准得分:我年收入60万,多吗?两个水平类似的班级(一班和二班)上同一门课,但是由于两个任课老师的评分标准不同,使得两个班成绩的均值和标准差都不一样(数据:grade.txt)。一班的平均分和标准差分别为78.53和9.43,二班的均值和标准差分别为70.19和7.00。那么,一班得90分的张颖是不是比二班得82分的刘疏成绩更好呢?怎么比较才更合理呢?目前二十八页\总数四十四页\编于六点数据的标准化:虽然均值和标准差不同的数据不好直接比较,但是可以把它们进行标准化,再比较标准化后的数据。数据标准化的方法主要有两种;数据标准化后得到的值称为标准得分(standardscore、z-score):目前二十九页\总数四十四页\编于六点

可以看出,原始数据在各自的均值附近,离散程度也不一样。但它们的标准得分则在0周围,且离散程度也差不多。数据经过标准化后,均变换成均值为0、方差为1的样本。标准化后的数据没有量纲;不同样本观测值的比较只有相对意义,没有绝对意义。10097N=????????1101009080706050402110097N=??????????3210-1-2-3-421

目前三十页\总数四十四页\编于六点三、分布若X1、X2、…Xn相互独立,且均服从标准正态分布N(0,1)。则随机变量Y=X12+X22+…+Xn2的概率分布为自由度为n的分布,简记为Y~(n)。目前三十一页\总数四十四页\编于六点

自由度:变量的自由程度。对于样本方差S2,则:目前三十二页\总数四十四页\编于六点

比如,有些产品出厂时不仅需要标注其性能参数均值,而且要标明均值的方差(标准差)。为了估计某产品能耗的方差,我们随机抽取了10件,测得其能耗为(千瓦时/小时):12.5,12.12,12.01,12.28,12.09,12.03,12.01,12.11,12.06,12.14。

那么,当其能耗x服从正态分布时:目前三十三页\总数四十四页\编于六点思考:

在上一张片子中,下面的统计量是严格服从卡方分布还是近似服从卡方分布?为什么?目前三十四页\总数四十四页\编于六点

再比如,为研究家庭食品支出与收入的关系,随机抽取了10户家庭作为样本,得到如下数据:那么,当食品支出y服从正态分布时:目前三十五页\总数四十四页\编于六点

下表是工商07级1班、2班某门课的考试成绩。思考:服从卡方分布吗?如果服从,其自由度是多少?如果不服从,那在什么情况或什么条件下服从?目前三十六页\总数四十四页\编于六点目前三十七页\总数四十四页\编于六点四、t分布若随机变量X~Z(0,1),Y~(n),且X、Y相互独立,则随机变量Z=服从自由度为n的t分布,简记为Z~t(n)。目前三十八页\总数四十四页\编于六点t分布概率密度曲线图如下:特点:1、t分布为对称分布;2、n充分大时,t分布近似Z(0,1)。目前三十九页\总数四十四页\编于六点考察统计量其中,分子,分母中。因此,T~t(n-1)。目前四十页\总数四十四页\编于六点五、F分布若随机变量X~(n1),Y~(n2),且X、Y相互独立,则随机变量Z=服从自由度为(n1,n2)的F分布,简记为Z~F(n1,n2)。F分布的概率密度曲线如下:目前四十一页\总数四十四页\编于六点

比如,下表是工商07级1班、2班某门课的考试成绩。假设两个班的学生成绩相互独立且都服从正态分布,那么,要分析两个班学习成绩的分化程度,我们可以考察下面的统计量:目前四十二页\总数四十四页\编于六点

比如,下表是工商07级1班、2班某门课的考试成绩

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论