5.概率与概率分布_第1页
5.概率与概率分布_第2页
5.概率与概率分布_第3页
5.概率与概率分布_第4页
5.概率与概率分布_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、掌握概率的概念、性质和法则 明确概率分布的含义,了解二项试验和分布的基础知识。,第五章 概率及概率分布,概率论起源于17世纪,当时在人口统计、人寿保险等工作中,要整理和研究大量的随机数据资料,这就需要一种专门研究大量随机现象的规律性的数学。 参赌者就想:如果同时掷两颗骰子 ,则点数之和为9 和点数之和为10 ,哪种情况出现的可能性较大? 例如17世纪中叶,贵族德梅尔发现:将一枚骰子连掷四次,只出现一个6 点的机会比较多,而同时将两枚掷24次,只出现一次双6 的机会却很少。,第一节 概率的一般概念,概率论的创始人是法国的帕斯卡(16231662)和费尔马(16011665),他们在以通信的方式讨

2、论赌博的机率问题时,发表了骰子赌博理论一书。棣莫弗(16671754)发现了正态方程式。同一时期瑞士的伯努利(1654一1705)提出了二项分布理论。1814年,法国的拉普拉斯(17491827)发表了概率分析论,该书奠定了古典概率理论的基础,并将概率理论应用于自然和社会的研究。此后,法国的泊松(17811840)提出了泊松分布,德国的高斯(17771855)提出了最小平方法。,一、频率和概率的定义,1. 频率 对随机现象进行观测时,若事件在次观测中出现了次,则与的比值,就是事件出现的频率(也称为相对频数)。用 ()表示事件的频率。 公式为:()=/,2. 概率,概率是对随机事件出现可能性大小

3、的客观量度。事件发生的概率记为P()。 在相同的条件下,某个事件A发生的概率是一个常数。 根据概率的计算方法,概率可分为后验概率和先验概率。, 后验概率(统计概率),以随机事件A在大量重复试验中出现的稳定频率作为随机事件A概率的估计值。 事件A的频率不是常数,它随试验次数的变化而变化,但是随着试验次数的无限增大,事件A的频率会逐渐趋近于一个常数P,P就是随机事件A出现概率的近似值。, 先验概率(古典概率),如果某个随机现象所有可能结果是有限的,其总数为n,每一种可能结果出现的可能性相等,这个现象中的随机事件A包括m个可能结果,则事件A的概率为与的比值,即 P(A)=/。 例:某班有20名男生,

4、25名女生,现随机从全班同学中抽取一名同学,抽到男生的概率为20/45=4/9,抽到女生的概率为25/45=5/9。,二、概率的性质,1. 对于任何事件,均有0()1 2. 不可能事件的概率为零,P(V)=0 3. 必然事件的概率为1,P(U)=1,1. 概率的加法,互不相容事件:在一次试验中不可能同时出现的事件。 事件之和:有限个互不相容事件中任意一个发生。如:A+B=A或B发生。 概率的加法法则:有限个互不相容事件之和的概率等于这些事件概率的和。 例:某学生从5个试题中任意抽取一题,则抽到试题2或试题3的概率为2/5。,三、概率的加法和乘法,例:根据上海市职业代际流动的统计,向下流动的概率

5、是0.07,静止不动的概率是0.6,求向上流动的概率是多少? 例:为了研究父代文化程度对子代文化程度的影响,某大学统计出学生中只有父亲具有大学文化程度的占30,只有母亲具有大学文化程度的占20,而双方都具有大学文化程度的占有10,问从学生中任抽一名,父代至少有一名具有大学文化程度的概率是多少?,2. 概率的乘法,独立事件:出现概率相互不影响的事件。 事件之积:有限个互相独立事件同时发生。如: AB=A和B同时发生。 概率的乘法法则:有限个独立事件乘积的概率等于这 些事件概率的乘积。 例:两个学生从5个试题中任意抽取一题,第一个学生 把抽出的题还回去后,第二个学生再抽,则两个学生 都抽到试题2的

6、概率为1/25。,例:根据统计结果,男婴出生的概率是22/43,女婴出生的概率是21/43,某单位有两名孕妇,问两名孕妇都生男婴的概率是多少?都生女婴的概率是多少?其中一男一女的概率是多少?,随机事件及其概率回答的是随机现象某一局部结果,例如对给定的复合事件求先验概率。而概率分布则要在满足完备性(穷举)和互不相容性(互斥)的前提下,回答随机现象一共会出现多少种结果,以及每种结果所伴随的概率是多少。 应该指出,在统计中,概率分布是就随机现象呈现的宏观结果而言的。它可以在宏观层次加以识别而与特定排列次序无关。,四、概率分布,例如掷两颗骰子的试验,点数就是随机现象,它一共有11种宏观结果。我们用古典

7、法对每种宏观结果计算P,便得到了如下表所示的概率分布。,频率分布与概率分布的区别,经验分布: 频率分布是经资料整理而来;频率分布随样本不同而不同;频率分布有对应的频数分布。,理论分布: 概率分布是先验的;概率分布是唯一的;概率分布无频率分布所对应的频数分布。,概率分布是理论性的或理念性的,它描绘了在一个完美的世界中百分比应该是多少。不幸的是,根据现实的(实际得到的)数据得到的百分比和理论上的总是不完全一致。 假设把两枚硬币投1000次,得到的结果为下表:,概率分布实质上是无限次抛掷的频数分布。尽管我们永远不能观察到这个无限次抛掷的频数分布,但我们知道这是的频数分布会无限接近概率分布。,四、概率

8、分布,概率分布:对随机变量取值的概率分布情况用数学 方法进行描述。 根据随机变量取值情况可分为:离散变量概率分布 连续变量概率分布,离散变量概率分布,离散型随机变量的取值是可数的,如果对X的每个可能取值xi计算其实现的概率Pi ,我们便得到了离散型随机变量的概率分布,即,离散型随机变量的概 率分布也可以用表格 和图形两种形式来表 示。由于离散型随机 变量的特点,表示离 散型随机变量概率分 布多为折线图。,离散变量概率分布,连续型随机变量的取值充满某一区间,因而取某一数值讨论其概率是无意义的。为此,我们引进概率密度 的概念来表达连续型随机变量的概率分布。,前面曾提到过频率密度的概念,频率密度等于

9、频率除以组距。以频率密度为纵坐标,可以作出频率分布直方图。类似地,以概率密度为纵坐标,可以作出概率密度曲线。所不同的是,概率密度由于对组距求了x0的极限,其图形乃平滑曲线。,2. 连续型变量概率分布,这样,随机变量X取值在区间x1 ,x2上的概率等于概率密度曲线 下面x1与x2两点之间面积,即,所以有概率密 度的性质,因为概率不可能是负的,且,和 (离散变量)或 (连续变量)的关系,就像向上累计频率和频率的关系一样。不同之处在于, 累计的是概率。但使用分布函数的好处是很明显的,它不仅在数学上统一了对离散型随机变量和连续型随机变量概率的研究,而且由于它计算概率的起点都固定为,因而可以把概率值换算

10、成表,以易于求得任何区间的概率,从而达到计算快捷和应用广泛之目的。,例:求两颗骰子点数的分布函数。,一、二项试验,二项试验:满足以下条件的试验。 1. 一次试验只有两种可能结果,可记为成功和失败; 2. 各次试验之间相互不影响,即相互独立; 3. 各次试验中两种结果的概率保持不变。,第二节 二项分布,从掷硬币的试验入手。假定二项试验由重复抛掷n次硬币组成,已知硬币面朝上(成功)的概率是p,面朝下(失败)的概率是q (显然有 q1p)。这样,对试验结果而言,成功的次数(即硬币面朝上的次数)X是一个离散型随机变量,它的可能取值是0,1,2,3,n。而对X的一个具体取值x而言,根据乘法规则,我们立刻

11、可以就试验结果计算出一种特定排列方式(先x次面朝上,而后nx次面朝下)实现的概率,即 ppppqqqqpxqn-x,二、二项分布函数,光考虑乘法规则是不够的,还要考虑加法规则,于是 就x次成功和(nx)次失败这个宏观结果而言所包含 的所有排列的方式数,用符号表示 这样,我们就得到了二项试验中随机变量X的概率分 布,即,譬如,二项试验是将一枚硬币重复做8次抛掷,假设这枚硬币是无偏的,即 pq0.5,那么恰好得到5次面朝上的概率是,同理,我们也可以求出 这个二项试验中硬币刚好为0,1,2,8次面朝上的各种宏观结果的概率。,例:从男生占2/5的学校中随机抽取6个学生,正好抽到4个男生的概率是多少?

12、解:这是一个二项试验,试验次数n=6,每次抽取中抽到男生的概率p=2/5=0.4,抽不到男生的概率q=3/5=0.6,此题要求抽到4个男生,即X=4,根据二项分布函数可得:,三、二项分布的平均数和标准差,当二项试验的次数n比较大时,二项分布接近正态分布,此时在n次二项试验中成功事件出现次数的平均数和标准差分别为:,例:从男女各占1/2的学校中随机抽10名学生,从理论上说,平均应抽到男生5人,标准差为1.58,九个二项分布B(5,p) (p0.1到0.9)的概率分布图,四、二项分布图,当n趋近于无限大时,二项分布接近于正态分布; 当p=q,不管n多大,二项分布呈对称形; 当pq,且n相当小时,图

13、形呈偏态,pq与pq偏斜方向相反; 当pq且np5,或者pq且nq5时,二项分布近似正态分布。,五、二项分布的应用,1. 求二项试验中成功事件出现X次的概率; 2. 判断二项试验结果的机遇性和真实性; 3. 用于推断统计。,练习,一名参加古代史期中考试的学生遇到了两个在他缺席的一堂课中讲述的问题,所以他决定采用随机猜测的方法给出答案。下面的概率格式多少? 对错题的答案正确; 单选题的答案正确; 对错题和单选题的答案都正确; 对错题和单选题的答案都不正确; 对错题的答案正确,单选题的答案不正确; 对错题的答案不正确,单选题的答案正确。,练习,一名参加古代史期中考试的学生遇到了两个在他缺席的一堂课

14、中讲述的问题,所以他决定采用随机猜测的方法给出答案。下面的概率各是多少? 对错题的答案正确; 单选题的答案正确; 对错题和单选题的答案都正确; 对错题和单选题的答案都不正确; 对错题的答案正确,单选题的答案不正确; 对错题的答案不正确,单选题的答案正确。,第三节 正态分布,理解正态分布的意义和特征。 理解标准分数的意义,掌握标准分数的转化方法并能应用。 理解标准正态分布的意义和特征,能熟练使用标准正态分布表。 了解正态分布的应用。,学习目标,一、正态分布,1. 正态分布的数学形式 正态分布又称为常态分布,是一种连续型随机变量的概率分布。正态曲线函数为:,2. 正态分布性质,(1)正态曲线以x=

15、呈钟型对称,均值=中位数=众数 (2)在x=处,概率密度最大;当区间离越远,x落在这个区间的概率越小。 (3)正态曲线的外形由值确定。对于固定的值,不同均值的正态曲线的外形完全相同,差别只在于曲线在横轴方向上整体平移了一个位置 。 (4)对于固定的值,改变值,值越小,正态曲线越陡峭;值越大,正态曲线越低平。,固定,变动,固定,变动,3. 正态曲线的特点,曲线不止一条,而是有一个正态曲线族。 曲线随着分布的、N的变化而变化。 曲线在平均数处为最高点。 以平均数为中心,形成中间高,两侧逐渐降低的对称分布。 以横轴为渐进线。,三、标准正态分布,1. 标准正态分布:平均数为0,标准差为1的正态分布。分

16、布函数为:,标准正态曲线是一个以Z=0(平均数)为中心的双侧对称曲线,曲线在Z=0处为最高点,两侧逐渐降低,并无限延伸,但永不与基线相交。,由于把一组原始数据转化成Z分数之后,这组Z分数的平均数为0,标准差为1,因此,只要将自变量X转化成标准分数Z,就可以将任何一个正态分布转化为标准正态分布。,2. 标准正态分布表,结构:(教材323页附表1) (1)Z值(Z0) (2)Y值:Z值的纵线高度(概率) (3)P值:某个Z值到Z=0之间的概率 用途: (1)已知Z值查Y值、P值 (2)已知P值查Z值、Y值,查表方法 (1)已知Z值查Y值 Z为正数时直接查表;Z为负数时以Z的绝对值查表。 例:Z=1

17、时,以Z=1查表,对应的Y=0.24179。 (2)已知Z值查P值:Z=0到某个Z值之间的P Z为正数时直接查表,Z为负数时以Z的绝对值查表。 例:Z= 1时,以Z=1查表,P=0.34134,即Z=0于Z= 1之间的概率为0.34134。,(2)已知Z值查P值:两个Z值之间的P 两个Z值符号相同,它们之间的P等于两个Z值与Z=0之间的概率之差。 例:Z=2与Z=1之间的概率为: P=0.47725 0.34134=0.13591 两个Z值符号相反,它们之间的P等于两个Z值与Z=0之间的概率之和。 例:Z= 2与Z=1之间的概率为: P=0.47725+0.34134=0.81859,(2)已

18、知Z值查P值:一个Z值以上或以下区间的P 第一步:查出Z与Z=0之间的P 第二步:计算0.5 P或0.5+P 例:Z=1以上区间的概率 P=0.50.34134=0.15866 Z=1以下区间的概率 P=0.5+0.34134=0.84134,(3)已知P值查Z值、Y值 P为Z=0以上或以下某个区间的概率时,直接以P值查表。 例: Z=0以上一个区间的概率为0.25,在表P列找到和0.25最接近的0.24857,查得Z=0.67,Y=0.31874。 如果区间是Z=0以下,则把查出的Z值加上负号即可,Y值不变。,P为正态曲线上端或下端某个区间的概率,且P0.5时,用0.05P的值查表。 例:正

19、态曲线上端一个区间的P=0.05,求得0.50.05=0.45,在表P列找到和0.45最接近的0.45053,对应的Z=1.65,Y=0.10226 如果区间在曲线下端,则把查出的Z值加上负号即可,Y值不变。,P为正态曲线右端或左端某个区间的概率,且P0.5时,用P-0.05的值查表。 例:正态曲线右端某个区间的P=0.7,则0.70.5=0.2,在表P列找到和0.2最接近的0.19847,其对应的Z=0.52,Y=0.34849,此区间的端点小于0,故Z=0.52。 如果区间在曲线左端,Z为正值。,P为正态曲线以Z=0为中心的某个对称区间的概率时,用P2的值查表。 例:已知正态曲线以Z=0为

20、中心的某个对称区间的概率为0.99,则0.99 2=0.495,在表中P列找到和0.495最接近的0.49506,对应的Z=2.58, Y=0.01431,下端的Z= 2.58 。,四、正态分布的应用,1. 推断统计中的应用 2. 教育测验、评价方面的应用,原始分数转化为标准分数 确定录取分数线 确定等级评定人数 品质评定数量化,例:在任意正态分布中,总面积的百分比之多少落在以下各区间内? 位于均值和均值之上一个标准差的数值之间; 位于均值之上的一个标准差的数值和一个均值之下一个标准差的数值之间; 位于均值和均值之上2的数值之间; 位于均值之上+2和-2的数值之间。,例:学力评估测试(SAT)

21、按正态分布进行了标准化,其均值=500。标准差=100.SAT分数的多少百分比落在以下各区间内? 500和600之间; 400和600之间; 500和700之间; 300和700之间; 高于600; 低于300。,例:在某所大学的学生中,平均缺课天数=3.5,标准差=1.2.假设这所大学的缺课情况符合正态分布,请确定: 一名学生缺课3.5到5天的概率; 一名学生缺课5天或以上的概率; 三名学生都缺课5天或以上的概率。,例:儿科数据显示儿童平均在26个月时学会控制便溺,但是这个正态分布中有2个月的标准差。请问: 在23个月以前学会控制便溺的儿童的百分比是多少? 一位母亲为她的儿子是在第30个月学会控制便溺而焦虑。她儿子的百分等级是多少?儿童有多大可能在这个时间及以前学会控制便溺? 一位母亲发现她的儿子是在18个月学会控制便溺的。她儿子的百分等级是多少?儿童有多大可能在这个时间及以前学会控制便溺?,例:智商分数符合均值=100,标准差=15的正态分布。基于这个分布,确定: 智商分数在100到120的百分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论