




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第4章 概率分布,统计笑话之一(统计学家),三个教授(一个物理学家、一个化学家和一个统计学家)被召到院长办公室,他们刚刚坐定就发现一个废纸篓着火了。物理学家说:“我知道怎么办,把材料温度降至可燃温度以下,火自然就灭了。” 化学家不同意,“不对,必须先切断氧气的供应,缺少了反应物,火才会灭。”正当物理学家和化学家争论不休的时候,他们惊讶得发现统计学家跑来跑去点燃一个又一个废纸篓。 “你在干什么?!”统计学家答道:“我正在做抽样检验!”,第 4 章 概率分布,4.1 度量事件发生的可能性 4.2 随机变量的概率分布 4.3 由正态分布导出的几个重要分布 4.4 样本统计量的概率分布 4.5 统计量
2、的标准误差,学习目标,概率、随机变量、总体分布、样本分布、抽样分布 计算随机变量的数学期望和方差 用Excel计算分布的概率 理解抽样分布与总体分布的关系 由正态导出的几个重要分布 标准误差的计算,4.1 度量事件发生的可能性,事件的概率 概率的统计定义和主观概率定义,事件的概率,事件的概率(probability),事件A的概率是对事件A在试验中出现的可能性大小的一种度量 表示事件A出现可能性大小的数值 事件A的概率表示为P(A),概率的统计定义,概率的统计定义, 在相同条件下进行n次随机试验,事件A出现 m 次,则比值 m/n 称为事件A发生的频率。随着n的增大,该频率围绕某一常数P上下摆
3、动,且波动的幅度逐渐减小,取向于稳定,这个频率的稳定值即为事件A的概率,记为,事件的概率,例如,投掷一枚硬币,出现正面和反面的频率, 随着投掷次数 n 的增大,出现正面和反面的频率 稳定在1/2左右,概率的统计定义 (例题分析),【例】:某工厂为节约用电,规定每天的用电量指标 为1000度。按照上个月的用电记录,30天中有12天的 用电量超过规定指标,若第二个月仍没有具体的节电 措施,试问该厂第一天用电量超过指标的概率。 解:上个月30天的记录可以看作是重复进行了30次 试验,试验A表示用电超过指标出现了12次。根据概 率的统计定义有,主观概率定义,主观概率定义,对一些无法重复的试验,确定其结
4、果的概率只能根据以往的经验人为确定 概率是一个决策者对某事件是否发生,根据个人掌握的信息对该事件发生可能性的判断 例如,我认为2003年的中国股市是一个盘整年,4.2 随机变量的概率分布,4.2.1 随机变量及其概括性度量 4.2.1离散型随机变量的概率分布 4.2.3连续型随机变量的概率分布,4.2.1 随机变量及其概括性度量,随机变量的概念,随机变量(random variables),一次试验的结果的数值性描述 一般用 X、Y、Z 来表示 例如: 投掷两枚硬币出现正面的数量 根据取值情况的不同分为离散型随机变量和连续型随机变量,离散型随机变量(discrete random variab
5、les),随机变量 X 取有限个值或所有取值都可以逐个列举出来 X1 , X2, 以确定的概率取这些不同的值 离散型随机变量的一些例子,连续型随机变量(continuous random variables),随机变量 X 取无限个值 所有可能取值不可以逐个列举出来,而是取数轴上某一区间内的任意点 连续型随机变量的一些例子,4.2.2离散型随机变量的概率分布,离散型随机变量的概率分布,列出离散型随机变量X的所有可能取值 列出随机变量取这些值的概率 通常用下面的表格来表示,P(X =xi)=pi称为离散型随机变量的概率函数 pi0,离散型随机变量的概率分布 (例题分析),【例1】如规定打靶中域得
6、3分,中域得2分,中域得1分,中域外得0分。今某射手每100次射击,平均有30次中域,55次中域,10次中,5次中域外。则考察每次射击得分为0,1,2,3这一离散型随机变量,其概率分布为,离散型随机变量的概率分布(01分布),一个离散型随机变量X只取两个可能的值 例如,男性用 1表示,女性用0表示;合格品用 1 表示,不合格品用0表示 列出随机变量取这两个值的概率,离散型随机变量的概率分布 (01分布),【例2】已知一批产品的次品率为p0.05,合格率为q=1-p=1-0.5=0.95。并指定废品用0表示,合格品用1表示。则任取一件为废品或合格品这一离散型随机变量,其概率分布为,离散型随机变量
7、的概率分布(均匀分布),一个离散型随机变量取各个值的概率相同 列出随机变量取值及其取值的概率 例如,投掷一枚骰子,出现的点数及其出现各点的概率,离散型随机变量的概率分布 (均匀分布),【例3】投掷一枚骰子,出现的点数是个离散型随机变量,其概率分布为,离散型随机变量的数学期望和方差,离散型随机变量的数学期望(expected value),在离散型随机变量X的一切可能取值的完备组中,各可能取值xi与其取相对应的概率pi乘积之和 描述离散型随机变量取值的集中程度 计算公式为,离散型随机变量的方差(variance),随机变量X的每一个取值与期望值的离差平方和的数学期望,记为D(X) 描述离散型随机
8、变量取值的分散程度 计算公式为,离散型随机变量的方差 (例题分析),【例4】投掷一枚骰子,出现的点数是个离散型随机变量,其概率分布为如下。计算数学期望和方差,解:数学期望为:,方差为:,几种常见的离散型概率分布,常见的离散型概率分布,二项试验(贝努里试验),二项分布与贝努里试验有关 贝努里试验具有如下属性 试验包含了n 个相同的试验 每次试验只有两个可能的结果,即“成功”和“失败” 出现“成功”的概率 p 对每次试验结果是相同的;“失败”的概率 q 也相同,且 p + q = 1 试验是相互独立的 试验“成功”或“失败”可以计数,二项分布(Binomial distribution),进行 n
9、 次重复试验,出现“成功”的次数的概率分布称为二项分布 设X为 n 次重复试验中事件A出现的次数,X 取 x 的概率为,二项分布,显然, 对于PX=x 0, x =1,2,n,有 同样有 当 n = 1 时,二项分布化简为,二项分布的数学期望和方差,二项分布的数学期望为: E ( X ) np 方差为: D ( X ) npq,二项分布 (例题分析),【例5】已知100件产品中有5件次品,现从中任取一件,有放回地抽取3次。求在所抽取的3件产品中恰好有2件次品的概率 解:设 X 为所抽取的3件产品中的次品数,则XB ( 3 , 0.05),根据二项分布公式有,泊松分布(Poisson distr
10、ibution),用于描述在一指定时间范围内或在一定的长度、面积、体积之内每一事件出现次数的分布 泊松分布的例子 一个城市在一个月内发生的交通事故次数 消费者协会一个星期内收到的消费者投诉次数 人寿保险公司每天收到的死亡声明的人数,泊松概率分布函数, 给定的时间间隔、长度、面积、体积内“成功”的平均数 e = 2.71828 x 给定的时间间隔、长度、面积、体积内“成功”的次数,泊松概率分布的期望和方差,泊松分布的数学期望为 E ( X ) = 方差为 D ( X ) = ,泊松分布 (例题分析),【例】假定某企业的职工中在周一请假的人数X服从泊松分布,且设周一请事假的平均人数为2.5人。求
11、(1)X 的均值及标准差 (2)在给定的某周一正好请事假是5人的概率 解:(1) E(X)=2.5;D(X) = 2.5=1.581 (2),泊松分布(作为二项分布的近似),当试验的次数 n 很大,成功的概率 p 很小时,可用泊松分布来近似地计算二项分布的概率,即,实际应用中,当 P0.25,n20,np5时,近似效果良好,超几何分布,二项分布只适合于重复抽样,但实际中很少采用重复抽样。如何采用不重复抽样,特各次试验并不独立,“成功”的概率也互不相等,而且N很小或样本量n相对于N来说较大时,这时,样本中的“成功”的次数则服从超几何概率分布,记作XH(n,N,M)。,用EXCEL的HYPGEOM
12、DIST函数计算超几何分布概率,例1.从一批含有13只正品, 2只次品的产品中, 不放回任取3件, 求取得次品数为X的分布.,变式:从5名学生(3男2女)中安排2名学生值日, 求安排女生人数X的分布.,例2.高三(1)班的联欢会上设计了一项游戏, 在一个口袋中装有10个红球, 20个白球, 这些球除颜色外完全相同, 一次从中摸出5个球, 摸到4个红球1个白球的就中一等奖, 求中一等奖的概率.,例3.生产方提供50箱的一批产品, 其中有2箱不合格产品, 采购方接收该批产品的准则是: 从该批产品中任取5箱产品进行检测, 若至多有1箱不合格产品, 便接收该批产品, 问: 该批产品被接收的概率是多少?
13、,4.3 连续型随机变量及其分布,连续型随机变量的概率分布,连续型随机变量的概率分布,连续型随机变量可以取某一区间或整个实数轴上的任意一个值 它取任何一个特定的值的概率都等于0 不能列出每一个值及其相应的概率 通常研究它取某一区间值的概率 用数学函数的形式和分布函数的形式来描述,概率密度函数(probability density function),设X为一连续型随机变量,x 为任意实数,X的概率密度函数记为f(x),它满足条件,f(x)不是概率,概率密度函数, 密度函数 f(x)表示X 的所有取值 x 及其频数f(x),概率密度函数, 在平面直角坐标系中画出f(x)的图形,则对于任何实数
14、x1 x2,P(x1 X x2)是该曲线下从x1 到 x2的面积,概率是曲线下的面积,分布函数 (distribution function),连续型随机变量的概率也可以用分布函数F(x)来表示 分布函数定义为,根据分布函数,P(aXb)可以写为,分布函数与密度函数的图示,密度函数曲线下的面积等于1 分布函数是曲线下小于 x0 的面积,连续型随机变量的期望和方差,连续型随机变量的数学期望为 方差为,均匀分布,均匀分布(uniform distribution),若随机变量X的概率密度函数为 称X在区间a ,b上均匀分布 数学期望和方差分别为,正态分布,正态分布(normal distribut
15、ion),1.描述连续型随机变量的最重要的分布 2.可用于近似离散型随机变量的分布 例如: 二项分布 3.经典统计推断的基础,概率密度函数,f(x) = 随机变量 X 的频数 = 总体方差 =3.14159; e = 2.71828 x = 随机变量的取值 (- x ) = 总体均值,正态分布函数的性质,概率密度函数在x 的上方,即f (x)0 正态曲线的最高点在均值,它也是分布的中位数和众数 正态分布是一个分布族,每一特定正态分布通过均值的标准差来区分。 决定曲线的高度,决定曲线的平缓程度,即宽度 曲线f(x)相对于均值对称,尾端向两个方向无限延伸,且理论上永远不会与横轴相交 正态曲线下的总
16、面积等于1 随机变量的概率由曲线下的面积给出, 和 对正态曲线的影响,正态分布的概率,概率是曲线下的面积!,标准正态分布(standardize the normal distribution),一般的正态分布取决于均值和标准差 计算概率时 ,每一个正态分布都需要有自己的正态概率分布表,这种表格是无穷多的 若能将一般的正态分布转化为标准正态分布,计算概率时只需要查一张表,标准正态分布函数,标准正态分布的概率密度函数,任何一个一般的正态分布,可通过下面的线性变换转化为标准正态分布,标准正态分布的分布函数,标准正态分布,标准正态分布表的使用,将一个一般的转换为标准正态分布 计算概率时 ,查标准正态
17、概率分布表 对于负的 x ,可由 (-x) x得到 对于标准正态分布,即XN(0,1),有 P (a X b) b a P (|X| a) 2 a 1 对于一般正态分布,即XN( , ),有,标准化的例子 P(5 X 6.2),标准化的例子P(2.9 X 7.1),一般正态分布,用EXCEL中的NORMDIST函数计算正态分布的概率 用EXCEL中的NORMSINV函数计算概率为a时标准正态分布的反函数,正态分布(例题分析),【例】设XN(0,1),求以下概率: (1) P(X 2); (3) P(-12)=1- P(2 X)=1-0.9973=0.0227 (3) P(-1X 3)= P(X
18、 3)- P(X -1) = (3)- (-1)= (3) 1-(1) = 0.9987-(1-0.8413)=0.8354 (4) P(| X | 2) = P(-2 X | 2)= (2)- (-2) = (2)- 1-(2)=2 (2)- 1=0.9545,正态分布 (例题分析),【例】设XN(5,32),求以下概率 (1) P(X 10) ; (2) P(2X 10) 解: (1),(2),数据的正态性评估,用SPSS绘制正态概率图:,超几何分布,超几何分布,设一批产品共N件,其中有M件不合格,从中按不放回任意取出n件,其中不格品数X是一个随机变量,它的可能取值是0,1,2,min(n
19、,N),可以导出X的分布列为: x=1,2,3,min(n,N) 这种概率分布称为超几何分布。 当N很大,n相对较小时,超几何分布近似于二项分布。,返回,超几何分布(举例),【例】假定有10支股票,其中有3支购买后可以获利,另外7支购买后将会亏损.如果你打算从10支股票中选择4支购买,但你并不知道哪3支是获利的,哪7支是亏损的. 求:(1)有3支能获利的股票都被你选中的概率有多大? (2)3支能获利的股票中有2支被你选中的概率有多大?,解:设N=10,M=3,n=4,二项分布的正态近似,二项分布的正态近似,当n 很大时,二项随机变量X近似服从正态分布Nnp , np(1-p) 对于一个二项随机
20、变量X,当n很大时,求 P(x1Xx2)时可用正态分布近似为,为什么概率是近似的,增加的部分与减少的部分不一定相等,二项分布的正态近似(实例),【例】100台机床彼此独立地工作,每台机床的实际工作时间占全部工作时间的8%。求 (1)任一时刻有7080台机床在工作的概率 (2)任一时刻有80台以上机床在工作的概率 解:设X表示100机床中工作着的机床数,则XB(100,0.8)。现用正态分布近似计算,np=80,npq=16 (1),(2),4.3由正态导出的几个重要的分布,4.3.1 2分布 4.3.2 t分布 4.3.3 F分布,由阿贝(Abbe) 于1863年首先给出,后来由海尔墨特(He
21、rmert)和卡皮尔逊(KPearson) 分别于1875年和1900年推导出来 设 ,则 令 ,则 Y 服从自由度为1的2分布,即 当总体 ,从中抽取容量为n的样本,则,4.3.1 2分布(2 distribution),分布的变量值始终为正 分布的形状取决于其自由度n的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称 期望为:E(2)=n,方差为:D(2)=2n(n为自由度) 可加性:若U和V为两个独立的2分布随机变量,U2(n1), V2(n2),则U+V这一随机变量服从自由度为n1+n2的2分布,2分布(性质和特点),(c2)分布(图示),用EXCEL中的CHIDIST函数
22、计算c2分布的右尾概率 用EXCEL中的CHIINV函数计算概率给定右尾概率和自由度时相应的反函数值c2值,4.3.2 t 分布( t distribution),t 分布的提出者是WILLIAM GOSSET,由于他经常用笔名“student”发表文章。用t表示样本均值标准化后的新随机变量,因此称为t 分布,也称学生分布。,t 分布( t distribution),t分布是类似正态分布的一种对称分布,它通常要比正态分布平坦和分散。一个特定的t分布依赖于称之为自由度的参数。随着自由度的增大,t分布也逐渐趋于正态分布,利用EXCEL中的TDIST函数可以计算给定t值和自由度时t分布的概率值,利
23、用TINV函数可以计算给定概率和 自由度的相应的t值。,由统计学家费舍(R.A.Fisher) 提出的,以其姓氏的第一个字母来命名的 设若U为服从自由度为n1的2分布,即U2(n1),V为服从自由度为n2的2分布,即V2(n2),且U和V相互独立,则 称F为服从自由度n1和n2的F分布,记为,4.3.3 F分布(F distribution),F分布(图示), 不同自由度的F分布,利用EXCEL中的FDIST函数可以计算给定F值和自由度n1和n2时F分布的右尾概率,利用FINV函数可以计算给定右尾概率与自由度n1和n2时的相应的F值。,4.4 样本统计量的概率分布,4.4.1 三种不同性质的分
24、布 4.4.2 样本统计量的抽样分布,4.4.1 三种不同性质的分布,总体分布 样本分布 抽样分布,总体中各元素的观察值所形成的分布 分布通常是未知的 可以假定它服从某种分布,总体分布(population distribution),一个样本中各观察值的分布 也称经验分布 当样本容量n逐渐增大时,样本分布逐渐接近总体的分布,样本分布(sample distribution),样本统计量的概率分布 是一种理论概率分布 随机变量是 样本统计量 样本均值, 样本比例,样本方差等 结果来自容量相同的所有可能样本 提供了样本统计量长远我们稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据,
25、抽样分布 (sampling distribution),抽样分布 (sampling distribution),4.4.2 样本统计量的抽样分布,样本均值的抽样分布 样本比例的抽样分布 抽样方差的抽样分布,样本均值的抽样分布,容量相同的所有可能样本的样本均值的概率分布 一种理论概率分布 进行推断总体总体均值的理论基础,样本均值的抽样分布,样本均值的抽样分布(例题分析),【例】设一个总体,含有4个元素(个体) ,即总体单位数N=4。4 个个体分别为x1=1、x2=2、x3=3 、x4=4 。总体的均值、方差及分布如下,均值和方差,样本均值的抽样分布 (例题分析), 现从总体中抽取n2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果为,样本均值的抽样分布 (例题分析), 计算出各样本的均值,如下表。并给出样本均值的抽样分布,样本均值的分布与总体分布的比较 (例题分析), = 2.5 2 =1.25,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025至2030年细胞转瓶项目投资价值分析报告
- 《数据库原理及应用教程-MySQL8.0》课件 第10章 事务与并发控制
- 2025至2030年笔式水平尺项目投资价值分析报告
- 职业健康管理知识宣讲
- 变电运维安全管理
- 2025至2030年电动单架悬挂式起重机项目投资价值分析报告
- 高考文科数学基础知识点
- EBZ160悬臂式掘进机运转设备详情
- 2025至2030年混合固体脂肪酸项目投资价值分析报告
- 2025至2030年浙江省动漫产业发展预测及投资策略分析报告
- 2025年高压电工作业考试国家总局题库及答案(共280题)
- 2024年中国心力衰竭诊断和治疗指南2024版
- 特劳特-定位课件
- 家庭农场经营与管理培训课件
- 中国重症脑血管病管理共识课件
- 转炉炼钢设备与工艺课件
- 汽车吊车施工安全技术交底
- 电工基础(中职)完整版教学课件
- 小班语言绘本《小蛇散步》绘本PPT
- 杭州房建工程监理大纲范本
- 庆阳剪纸艺术:演示文稿
评论
0/150
提交评论