第1章 概率分布_第1页
第1章 概率分布_第2页
第1章 概率分布_第3页
第1章 概率分布_第4页
第1章 概率分布_第5页
已阅读5页,还剩92页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计学第1章概率分布

数学定律不能百分之百确切地用在现实生活里;能百分之百确切地用数学定律描述的,就不是现实生活。

——AlberEinstein统计名言第1章概率分布1.1度量事件发生的可能性1.2随机变量概率分布1.3由正态分布导出的几个重要分布1.4样本统计量的概率分布学习目标度量事件发生的可能性—概率离散型概率分布二项分布,泊松分布,超几何分布连续型概率分布正态分布由正态分布导出的几个重要分布c2-分布,t-分布,F-分布样本统计量的概率分布中奖的可能性有多大?很多想在彩票市场上赚大钱,这可以理解,但赢得大奖的人总是少数。山东的一打工者为了碰运气,半个小时花去了1000元钱,买了500张即开型福利彩票,结果也没撞上大奖。有人曾做过统计,最赚钱的彩票,中彩的概率最高是500万分之一,有的达到1000万分之一甚至更低。假定每张彩票面值是2元,大奖的奖金额是500万元,中将概率是500万分之一,你花掉1000万元购买500万张彩票,即使中了500万的大奖,你仍然亏损500万。况且,从概率的意义上看,即使你购买500万张彩票,也不能肯定就中大奖。法国人就有这样的俗语:“中彩的机会比空难还少。”对于多数人来说,彩票只是一种数字游戏,是社会筹集闲散资金的一种方式,而不是一种投资,更不是赌博。相信有了本章介绍的概率方面的知识,你就不会再跟彩票较劲。1.1度量事件发生的可能性概率是什么?怎样获得概率?怎样理解概率?第1章概率分布什么是概率?

(probability)概率是对事件发生的可能性大小的度量明天降水的概率是80%。这里的80%就是对降水这一事件发生的可能性大小的一种数值度量。你购买一只股票明天上涨的可能性是30%,这也是一个概率。一个介于0和1之间的一个值事件A的概率记为P(A)怎样获得概率?重复试验获得概率试验当试验的次数很多时,概率P(A)可以由所观察到的事件A发生次数(频数)的比例来逼近在相同条件下,重复进行n次试验,事件A发生了m次,则事件A发生的概率可以写为

用类似的比例来逼近调查一家餐馆将会生存5年的概率,可以用已经生存了5年的类似餐馆所占的比例作为所求概率一个近似值。主观概率

根据对某事件是否发生的个人观点取一个0~1之间的数值来描述事件发生的可能性。拍脑袋1.2.1随机变量及其概括性度量

1.2.2离散型概率分布

1.2.3连续型概率分布1.2随机变量的概率分布1.2.1随机变量及其概括性度量什么是随机变量?

(randomvariables)事先不知道会出现什么结果投掷两枚硬币出现正面的数量一座写字楼,每平方米的出租价格一个消费者对某一特定品牌饮料的偏好一般用X,Y,Z来表示根据取值情况的不同分为离散型随机变量和连续型随机变量离散型随机变量

(discreterandomvariables)随机变量X

取有限个值或所有取值都可以逐个列举出来x1,x2,…以确定的概率取这些不同的值离散型随机变量的一些例子试验随机变量可能的取值抽检100家公司污水达标春晖湖中每天的野鸭数每ml自来水细菌数每次课最先到教室的学生达标的家数野鸭数细菌数学生性别0,1,2,…,1000,1,2,…0,1,2,…男性为0,女性为1重复多次连续型随机变量

(continuousrandomvariables)可以取一个或多个区间中任何值所有可能取值不可以逐个列举出来,而是取数轴上某一区间内的任意点连续型随机变量的一些例子试验随机变量可能的取值抽查一批环保设备新建一座污水处理厂测量一条河的的长度使用寿命(小时)半年后完工的百分比测量误差(m)X

00

X100X

0重复多次离散型随机变量的期望值

(expectedvalue)描述离散型随机变量取值的集中程度;离散型随机变量X的所有可能取值xi与其取相对应的概率pi乘积之和;记为

或E(X),计算公式为离散型随机变量的方差

(variance)随机变量X的每一个取值与期望值的离差平方和的数学期望,记为

2

或D(X)描述离散型随机变量取值的分散程度计算公式为方差的平方根称为标准差,记为

D(X)离散型数学期望和方差

(例题分析)

【例】某环保设备供应商声称,他所提供的设备100个中拥有次品的个数及概率如下表。求该供应商次品数的数学期望和标准差次品数X=xi0123概率P(X=xi)

pi0.750.120.080.05连续型随机变量的期望和方差连续型随机变量的期望值方差1.2.2离散型概率分布离散型随机变量的概率分布列出离散型随机变量X的所有可能取值列出随机变量取这些值的概率通常用下面的表格来表示X=xix1,x2

,…

,xnP(X=xi)=pip1,p2

,…

,pn

P(X=xi)=pi称为离散型随机变量的概率函数pi0;常用的有二项分布、泊松分布、超几何分布等离散型随机变量的概率分布

(例题分析)

【例】一设备在一周内发生故障的次数X及相应的概率如下表故障次数X=xi0123概率P(X=xi)

pi0.100.250.35

(1)确定

的值

(2)求正好发生两次故障的概率

(3)求故障次数多于一次的概率

(4)最多发生一次故障的概率离散型随机变量的概率分布

(例题分析)

解:(1)由于0.10+0.25+0.35+

=1

所以,

=0.30

(2)P(X=2)=0.35(3)P(X2)=0.10+0.25+0.35=0.70(4)P(X

1)=0.35+0.30=0.65二项试验

(Bernoulli试验)

二项分布建立在Bernoulli试验基础上贝努里试验满足下列条件一次试验只有两个可能结果,即“成功”和“失败”;“成功”是指我们感兴趣的某种特征;一次试验“成功”的概率为p,失败的概率为q=1-p,且概率p对每次试验都是相同的;试验是相互独立的,并可以重复进行n次;在n次试验中,“成功”的次数对应一个离散型随机变量X

。二项分布

(Binomialdistribution)重复进行

n

次试验,出现“成功”的次数的概率分布称为二项分布,记为X~B(n,p);设X为n次重复试验中出现成功的次数,X取x

的概率为:二项分布

(例题分析)【例】已知一批产品的次品率为4%,从中任意有放回地抽取5个。求5个产品中

(1)没有次品的概率是多少?概率密度函数

(2)恰好有1个次品的概率是多少?

(3)有3个以下次品的概率是多少?累计概率二项分布

(用SPSS计算概率)1、某一点的概率为P(x=k)概率密度

SPSS中函数形式为:

PDF.BINOM(k,n,p)2、最多有XXX的概率p(x≤k)

统计学上称为概率分布函数cdf(cum-ulativedistributionfunction),SPSS中函数形式为CDF.BINOM(k,n,p)3、最少有XXX的概率p(x≥k)

SPSS中函数形式为:

1-CDF.BINOM(k-1,n,p)任输一字母单击再双击Knp课堂练习SPSS计算

已知一批产品的次品率为4%,从中任意有放回地抽取5个。求5个产品中

(1)没有次品的概率是多少?

(2)恰好有1个次品的概率是多少?

(3)有3个以下次品的概率是多少?

(4)有3个以上次品的概率是多少?

泊松分布

(Poissondistribution)1837年法国数学家泊松(D.Poisson,1781—1840)首次提出;用于描述在一指定时间范围内或在一定的长度、面积、体积之内每一事件出现次数的分布;泊松分布的例子一定时间段内,某航空公司接到的订票电话数一定时间内,到车站等候公共汽车的人数一定路段内,路面出现大损坏的次数一定时间段内,放射性物质放射的粒子数一匹布上发现的疵点个数春晖湖每坪野鸭的只数泊松分布

(概率分布函数)

—给定的时间间隔、长度、面积、体积内“成功”的平均数e=2.71828x—给定的时间间隔、长度、面积、体积内“成功”的次数泊松分布

(例题分析)【例】假定某航空公司预订票处平均每小时接到42次订票电话,那么10分钟内恰好接到6次电话的概率是多少?解:设X=10分钟内航空公司预订票处接到的电话次数

泊松分布

(用SPSS计算概率)课堂练习

假定某航空公司预订票处平均每小时接到42次订票电话,问:1)10分钟内恰好接到3次电话的概率是多少?2)10分钟内接到不超过3次电话的概率是多少?3)10分钟内接到超过5次电话的概率是多少?超几何分布

(hypergeometricdistribution)采用不重复抽样,各次试验并不独立,成功的概率也互不相等总体元素的数目N很小,或样本容量n相对于N来说较大时,样本中“成功”的次数则服从超几何概率分布概率分布函数为超几何分布

(例题分析)【例】假定有10支股票,其中有3支购买后可以获利,另外7支购买后将会亏损。如果你打算从10支股票中选择4支购买,但你并不知道哪3支是获利的,哪7支是亏损的。求

(1)有3支能获利的股票都被你选中的概率有多大?

(2)3支可获利的股票中有2支被你选中的概率有多大?解:设N=10,M=3,n=4超几何分布

(用Excel计算概率,SPSS中没发现此模块!)第1步:在Excel表格界面,直接点击【fx】(插入函数)命令

第2步:在【选择类别】中点击【统计】,并在【选择函数】

中点击【HYPGEOMDIST】,然后单击【确定】第3步:在【Sample_s】后填入样本中成功的次数x(本例为3)

在【Number_sample】后填入样本容量n(本例为4)

在【Population_s】后填入总体中成功的次数M(本例为3)

在【Number_pop】后填入总体中的个体总数N

(本例为10)

用Excel计算超几何分布的概率1.2.3连续型概率分布连续型随机变量的概率分布连续型随机变量可以取某一区间或整个实数轴上的任意一个值;它取任何一个特定的值的概率都等于0;不能列出每一个值及其相应的概率;通常研究它取某一区间值的概率;用概率密度函数的形式和分布函数的形式来描述。常用连续型概率分布正态分布

(normaldistribution)由C.F.高斯(CarlFriedrichGauss,1777—1855)作为描述误差相对频数分布的模型而提出;描述连续型随机变量的最重要的分布;许多现象都可以由正态分布来描述;可用于近似离散型随机变量的分布;例如:二项分布经典统计推断的基础;xf(x)概率密度函数f(x)=随机变量X的频数

=正态随机变量X的均值

=正态随机变量X的方差

=3.1415926;e=2.71828x=随机变量的取值(-

<x<+

)正态分布函数的性质图形是关于x=

对称钟形曲线,且峰值在x=

处;均值

和标准差

一旦确定,分布的具体形式也惟一确定,不同参数正态分布构成一个完整的“正态分布族”;均值

可取实数轴上的任意数值,决定正态曲线的具体位置;标准差决定曲线的“陡峭”或“扁平”程度。

越大,正态曲线扁平;

越小,正态曲线越高陡峭;当X的取值向横轴左右两个方向无限延伸时,曲线的两个尾端也无限渐近横轴,理论上永远不会与之相交;正态随机变量在特定区间上的取值概率由正态曲线下的面积给出,而且其曲线下的总面积等于1

对正态曲线的影响xf(x)CAB

=1/2

1

2

=1标准正态分布

(standardizenormaldistribution)

标准正态分布的概率密度函数随机变量具有均值为0,标准差为1的正态分布;任何一个一般的正态分布,可通过下面的线性变换转化为标准正态分布;

标准正态分布的分布函数正态分布

(用SPSS计算正态分布的概率)课堂练习20株小麦株高(cm)为82,79,85,84,86,84,83,82,83,83,84,81,80,81,82,81,82,82,82,80其平均值为82.3cm,标准差为1.7502cm。问:x≥85(cm)的概率?P3例1.2数据正态性的评估对数据画出频数分布的直方图或茎叶图若数据近似服从正态分布,则图形的形状与上面给出的正态曲线应该相似茎叶图

2.绘制正态概率图。有时也称为分位数—分位数图或称Q-Q图或称为P-P图用于考察观测数据是否符合某一理论分布,如正态分布、指数分布、t分布等等P-P图是根据观测数据的累积概率与理论分布(如正态分布)的累积概率的符合程度绘制的Q-Q图则是根据观测值的实际分位数与理论分布(如正态分布)的分位数绘制的3.使用非参数检验中的Kolmogorov-Smirnov检验(K-S检验)

1.3.1

2

分布

1.3.2t

分布

1.3.3F

分布

1.3由正态分布导出的几个重要分布1.3.1

2

分布由阿贝(Abbe)

于1863年首先给出,后来由海尔墨特(Hermert)和卡·皮尔逊(K·Pearson)

分别于1875年和1900年推导出来设,则令,则y服从自由度为1的

2分布,即对于n个正态随机变量y1

,y2

,yn,则随机变量称为具有n个自由度的

2分布,记为c2-分布

(

2-distribution)分布的变量值始终为正;分布的形状取决于其自由度n的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称;期望为:E(

2)=n,方差为:D(

2)=2n(n为自由度);可加性:若U和V为两个独立的

2分布随机变量,U~

2(n1),V~

2(n2),则U+V这一随机变量服从自由度为n1+n2的

2分布;c2-分布

(性质和特点)不同自由度的c2-分布c2n=1n=4n=10n=20c2-分布

(用SPSS计算c2分布的概率)

用SPSS计算c2

分布的概率1.3.2t

分布1.3由正态分布导出的几个重要分布t-分布

(t-distribution)提出者是WilliamGosset,也被称为学生分布(student’st)

t分布是类似正态分布的一种对称分布,通常要比正态分布平坦和分散。一个特定的分布依赖于称之为自由度的参数。随着自由度的增大,分布也逐渐趋于正态分布xt

分布与标准正态分布的比较t分布标准正态分布t不同自由度的t分布标准正态分布t(df=13)t(df=5)zt-分布

(用Excel计算t分布的概率和临界值)

用SPSS计算t分布的临界值1.3.3F

分布为纪念统计学家费希尔(R.A.Fisher)

以其姓氏的第一个字母来命名则设若U为服从自由度为n1的

2分布,即U~

2(n1),V为服从自由度为n2的

2分布,即V~

2(n2),且U和V相互独立,则称F为服从自由度n1和n2的F分布,记为F-分布

(F

distribution)不同自由度的F分布F(1,10)(5,10)(10,10)F-分布

(用SPSS计算F分布的概率和临街值)1.4.1统计量及其分布

1.4.2样本均值的分布

1.4.3其他统计量的分布

1.4.4统计量的标准误差1.4样本统计量的概率分布1.4.1统计量及其分布参数和统计量参数(parameter)描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值;一个总体的参数:总体均值(

)、标准差(

)、总体比例(

);两个总体参数:(

1-2)、(

1-2)、(

1/2);总体参数通常用希腊字母表示;统计量(statistic)用来描述样本特征的概括性数字度量,它是根据样本数据计算出来的一些量,是样本的函数;一个总体参数推断时的统计量:样本均值(

x)、样本标准差(s)、样本比例(p)等两个总体参数推断时的统计量:(

x1-

x2)、(p1-p2)、(s1/s2);样本统计量通常用小写英文字母来表示;样本统计量的概率分布,是一种理论分布;在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布;随机变量是样本统计量样本均值,样本比例,样本方差等;结果来自容量相同的所有可能样本;提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据。 抽样分布

(samplingdistribution)1.4.2样本均值的分布在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布;一种理论概率分布;推断总体均值

的理论基础; 样本均值的分布样本均值的分布

(例题分析)【例】设一个总体,含有4个元素(个体)

,即总体单位数N=4。4

个个体分别为x1=1,x2=2,x3=3,x4=4

。总体的均值、方差及分布如下总体分布14230.1.2.3均值和方差样本均值的分布

(例题分析)

现从总体中抽取n=2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果为3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第一个观察值所有可能的n=2的样本(共16个)样本均值的分布

(例题分析)

计算出各样本的均值,如下表。并给出样本均值的抽样分布3.53.02.52.033.02.52.01.521.03.53.02.542.542.03211.51.01第二个观察值第一个观察值16个样本的均值(x)x样本均值的抽样分布1.000.10.20.3P

(x)1.53.01.03.52.02.5样本均值的分布与总体分布的比较

(例题分析)

=2.5σ2=1.25总体分布样本均值分布样本均值的分布

与中心极限定理

=50

=10X总体分布n=4抽样分布xn=16当总体服从正态分布N(μ,σ2)时,来自该总体的所有容量为n的样本的均值

x也服从正态分布,

x

的期望值为μ,方差为σ2/n。即

x~N(μ,σ2/n)。中心极限定理

(centrallimittheorem)当样本容量足够大时(n

30),样本均值的抽样分布逐渐趋于正态分布从均值为

,方差为

2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布。一个任意分布的总体x中心极限定理

(centrallimittheorem)

x的分布趋于正态分布的过程抽样分布与总体分布的关系总体分布正态分布非正态分布大样本小样本样本均值正态分布样本均值正态分布样本均值非正态分布样本均值的分布样本均值的期望值和方差样本均值的分布

(数学期望与方差)

1.4.3其他统计量的分布总体(或样本)中具有某种属性的单位与全部单位总数之比;不同性别的人与全部人数之比;合格品(或不合格品)与全部产品总数之比;总体比例可表示为样本比例可表示为

样本比例的分布

(proportion)在重复选取容量为n的样本时,由样本比例的所有可能取值形成的相对频数分布。一种理论概率分布。当样本容量很大时,样本比例的抽样分布可用正态分布近似,即

样本比例的分布样本方差的分布在重复选取容量为n的样本时,由样本方差的所有可能取值形成的相对频数分布;对于来自正态总体的简单随机样本,则比值的抽样分布服从自由度为(n-1)的

2分布,即样本方差的分布在重复选取容量为n的样本时,由样本方差的所有可能取值形成的相对频数分布对于来自正态总体的简单随机样本,则比值的抽样分布服从自由度为(n-1)的

2分布,即1.4.4统计量的标准误差统计量的标准误差

(standarderror)样本统计量的抽样分布的标准差,称为统计量

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论