版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第五讲概率及其二项分布1前面所讲的制表、绘图、求集中量、差异量、偏态量、峰态量等,都是对实际观察的数据所进行的整理、描述工作。但我们的工作更是要做出具有一定可靠程度的估计和推断。从本章开始进入推理统计。 本章的概率分布理论就是讲解这种可靠程度的依据。概率论是研究随机变量取值规律的科学,它用一个个概率分布来描述随机变量的取值规律,是进行统计推断的基础。2一、概率的定义后验概率(或统计概率)随机事件A在n次实验中出现m次,m与n的比值,就是随机事件A出现的频率。用公式即为当n无限增大时,随机事件A的频率会稳定在一个常数P,这个常数就是随机事件A概率的估计值。这样获得的概率称为后验概率。用公式表示就是:
(5.1)(5.2)3例如:在体育课上,老师想考查学生的投篮水平,让学生站在距篮板一定的距离投十个球。假定投了十次,进了六个。那么把球投进篮筐这个随机事件发生的频率为多少?解:答:球投进篮筐发生的频率是0.60。4如前边投篮的例子。投10次时频率是0.60,现在老师让学生投100次,结果进了55次。这时频率又变成0.55。假如老师又让这个学生投1000次,结果投进500次,这时频率又变成0.50。……假定这个频率逐渐稳定在0.51。这时0.51就是这位学生投篮概率的估计值。通过这种方法求得的概率,称为后验概率。 5再如:抛掷一枚质地均匀的硬币,正面朝上(随机事件A)的概率是多少?先抛掷一次,结果正面朝上,这时频率是1/1,即1;第二次试验,结果正面朝下,这时频率变为1/2,即0.50;再抛一次,结果正面朝上,频率变为2/3,即0.67;第四次抛,正面朝下,频率变为2/4,即0.50;再抛,结果朝下,这时频率变为2/5,即0.40;最后这个频率逐渐接近于0.50,这时就可说硬币正面朝上的后验概率为0.50。 后验概率即为频率的稳定性。
6先验概率
又叫古典概率,可以通过简单计算得来。但需满足两个条件:试验的所有结果是有限的;每一种可能结果出现的可能性(概率)相等。
若所有可能结果的总数为n,随机事件A包括m个可能结果,则随机事件A出现的概率计算公式为:
(5.3)7例如:抛掷一枚硬币,考察其正面朝上的概率。 首先,看是否符合先验概率计算所要求的两个条件。抛掷一枚硬币只有两种可能,即n=2;朝上朝下的频率相等。解:答:正面朝上的概率为0.50。8再如:有一付新买来的扑克牌,从中抽一张,问抽到红桃的概率是多少?抽到老K的概率是多少?抽到大王的概率是多少?解:(1)13/54=0.2407;(2)4/54=0.0741;(3)1/54=0.0185答:抽到红桃的概率是0.2407,抽到老K的概率是0.0741,抽到大王的概率是0.0185。9二.概率的公理系统1.任何随机事件A的概率都是在0与1之间的正数,即0≤P(A)≤12.不可能事件的概率等于零,即P(V)=03.必然事件的概率等于1,即P(U)=1
10三.概率的加法定理和乘法定理概率的加法定理若事件A发生,则事件B就一定不发生,这样的两个事件为互不相容事件。两互不相容事件和的概率,等于这两个事件概率之和,即(5.4)(5.5)有限个互不相容事件和的概率,等于这些事件概率之和,即11例如:抛掷一枚硬币,正面朝上和正面朝下的概率各为0.50,问在实验中,硬币正面朝上或朝下的概率是多少。答:硬币正面朝上或朝下的概率是1。解:12答:获得一、二、三等奖的概率分别为:0.002、0.005和0.993;获奖的概率为1。解:同理得13再如:在学校里,有的老师喜欢用口试,假设这位老师共编了5个试题,每个学生只能抽到1道题,现在请问学生抽到第3题或第5题的概率是多少。解:答:学生抽到第3题或第5题的概率是0.40。14概率的乘法定理若事件A发生不影响事件B是否发生,这样的两个事件为互相独立事件。两个互相独立事件积的概率,等于这两个事件概率的乘积,即(5.6)(5.7)15例如:有红、绿、兰3个球放在一个布袋子里,在一次抽取中,摸到红、绿、兰各种颜色的球的概率各为1/3。现在让抽取了一次后,把球放回去再抽取一次,问两次都摸着红球的概率是多少?若每次摸完球后都放回去,那么连续四次都摸到红球的概率是多少?解:16再如:在学校里,有的老师喜欢用口试,假设这位老师共编了5个试题,每个学生只能抽到1道题,现在请问两个学生同时抽到第1题的概率是多少。解:答:两个学生同时抽到第1题的概率是0.04。17概率的加法和乘法可以同时混合计算。 如:有一个人同时掷两个骰子,问这个人掷出2点的概率和掷出3点的概率各为多少。解: (1)(2)答:掷出2点和3点的概率分别为0.0278和0.0556。18四、概率分布类型概率分布(probabilitydistribution)是指对随机变量取不同值时的概率的描述,一般用概率分布函数进行描述。依不同的标准,对概率分布可作不同的分类。191、离散型分布与连续型分布依随机变量的类型,可将概率分布分为离散型概率分布与连续型概率分布。心理与教育统计学中最常用的离散型分布是二项分布,最常用的连续型分布是正态分布。
202、经验分布与理论分布依分布函数的来源,可将概率分布分为经验分布与理论分布。经验分布(empiricaldistribution)是指根据观察或实验所获得的数据而编制的次数分布或相对频率分布。理论分布(theoreticaldistribution)是按某种数学模型计算出的概率分布。213、基本随机变量分布与抽样分布依所描述的数据的样本特性,可将概率分布分为基本随机变量分布与抽样分布(samplingdistribution)。基本随机变量分布是随机变量各种不同取值情况的概率分布,抽样分布是从同一总体内抽取的不同样本的统计量的概率分布。22五.二项分布二项分布(bionimaldistribution)是一种具有广泛用途的离散型随机变量的概率分布,它是由贝努里创始的,因此又称为贝努里分布。231.二项试验满足以下条件的试验称为二项试验:一次试验只有两种可能的结果,即成功(某事件发生)和失败(某事件不发生);各次试验相互独立,即各次试验之间互不影响;各次试验中成功的概率相等,失败的概率也相等。242.二项分布函数二项分布是一种离散型随机变量的概率分布。基本上属于理论分布。
用n次方的二项展开式来表达在n次二项试验中成功事件出现的不同次数(X=0,1…)的概率分布,叫做二项分布函数。25二项展开式的通式(即二项分布函数):(5.8)X=0,1,2,…,n26二项展开式的要点:项数:二项展开式中共有n+1项。方次:p的方次,从0→n为升幂;q的方次,从n→0为降幂。每项p与q的方次之和等于n。系数:各项系数是成功事件次数的组合数。从两端起,等距项的系数相等;当项数为奇数时(n为偶数),中间一项的系数最大;当项数为偶数时(n为奇数),中间两项系数相等且最大。27例:从男生占2/5的学校中随机抽取6个学生,问正好抽到4个男生的概率是多少?最多抽到2个男生的概率是多少?解:将n=6,p=2/5,q=3/5,X=4代入上式,则恰好抽到4个男生的概率为28最多抽到2个男生的概率,等于1个也没有抽到、抽到1个和抽到两个男生的概率之和,即29再如:假定有10道是非题,有个学生来做,但由于不懂,而完全靠猜测。现在问他猜对9道题和10道题的概率各是多少,至少答对9道题的概率又是多少。分析:根据已知n=10,把每次看作一次试验,猜对时我们就说这次试验成功,猜中9道题,则X=9,现在计算X等于9和10的概率各为多少。30解:同理得答:猜对9道题和10道题的概率各是0.00977和0.00098,至少答对9道题的概率是0.01075。313.二项分布图以成功事件出现的次数为横坐标,以成功事件出现不同次数的概率为纵坐标,绘制直方图或多边图,即为二项分布图。二项分布是离散型分布,其概率直方图是跃阶式。32二项分布的性质从概率直方图可以看到,二项分布有如下性质:①.当p=q时,不管n有多大,二项分布呈对称形。当n很大时,二项分布接近于正态分布。当n趋近于无限大时,正态分布是二项分布的极限。②.当p≠q时,且n相当小时,直方图呈偏态。p>q与p<q时的偏斜方向相反。当p<q且np≥5,或者p>q且nq≥5时,二项分布可近似看作正态分布,二项分布的概率可用正态分布的概率作为近似值。334.二项分布的平均数和标准差如果二项分布满足p>q且nq≥5(或者p<q且np≥5)时,二项分布接近于正态分布。可用下面的方法计算二项分布的平均数和标准差。二项分布的平均数为二项分布的标准差为(5.9)
(5.10)34例如:有一份试卷,共有50道选择题,并且都为四选一,假定一个学生一点都不会,只能凭猜测来回答。问凭猜测来回答,平均能猜对几道题,猜对题目数的标准差为多少。35分析:因为完全不会做而只是靠猜测,因此属于二项分布的运用条件。解:答:凭猜测来回答,平均能猜对12.5道题,猜对题目数的标准差为3.06。365.二项分布的应用二项分布函数除了用来求成功事件恰好出现X次的概率之外,在教育中主要用来判断试验结果的机遇性与真实性的界限。37例如,一个学生凭猜测做10个是非题,平均可以猜对5题。什么情况下可以说他是真会而不是猜测呢?这种问题需要用累积概率来算。当做对8题或8题以上时,累积概率为0.989,也就是说,猜对9题或10题的概率不足0.05。38表5-1一个学生做10个正误题做对不同题数的概率分布39例:一个教师对8个学生的作业成绩进行猜测,如果教师猜对的可能性为1/3,问:⑴.平均能猜对几个学生的成绩?⑵.假如规定猜对95%,才算这个教师有一定的评判能力,那么这个教师至少要猜对几个学生?40解:⑴.⑵.4142六、正态分布及应用标准分数标准分数(standardscore),又称为基分数或Z分数(Z-score),是以标准差为单位,表示一个原始分数在团体中所处位置的相对位置的量数。标准分数从分数对平均数的相对地位、该组分数的离中趋势两个方面来表示原始分数的地位。431.标准分数的计算标准分数的计算公式为或44Z分数可以表明原始分数在团体中的相对位置,因此称为相对位置量数。把原始分数转换成Z分数,就把单位不等距的和缺乏明确参照点的分数转换成以标准差为单位、以平均数为参照点的分数。452.标准分数的性质Z分数无实际单位,是以平均数为参照点、以标准差为单位的相对量。一组原始分数得到的Z分数既有正值,也有负值,所有原始分数的Z分数之和为零。标准正态分布的平均值为0,标准差为1。463.标准分数的优点
可比性:标准分数以团体的平均数为基准,以标准差为单位,因而具有可比性。可加性:标准分数使不同的原始分数具有相同的参照点,因而具有可加性。明确性:标准分数较原始分数的意义更为明确。合理性:标准分数保证了不同性质的分数在总分数中的权重相同,使分数更合理地反映事实。474、标准分数的应用用于比较几个分属性质不同的观测值在各自数据分布中相对位置的高低。计算不同质的观测值的总和或平均值,以表示在团体中的相对位置。当研究需要合成不同质的数据时,如果已知这些不同质的观测值的次数分布为正态,这时可采用Z分数来计算不同质的观测值的总和或平均值。48正态分布正态分布(normaldistribution)也称为常态分布,是连续型随机变量概率分布的一种,是在数理统计的理论与实际应用中占有最重要地位的一种理论分布。正态分布由棣.莫弗于1733年发现的。拉普拉斯、高斯对正态分布的研究也做出了贡献,故有时称正态分布为高斯分布。49正态分布的特点: 1.形态上很像古代的大钟,中间大两头小,左右对称,所以有人把它叫做钟形分布。 如:人的许多生理和心理特征、学生的学习成绩分布。 2.与二项分布比较:同:正态分布也是一个理论分布,有函数式。异:正态分布是连续分布,而二项分布是离散形的;函数式也不同。501.正态曲线函数Y表示变量X的高度或横坐标X表示连续变量的任何一点N表示总频数表示此分布的标准差表示平均数e表示常数2.7182851标准差相同平均数不同的正态分布平均数相同标准差不同的正态分布52把各种不同形态的正态分布都变成一种统一的、固定形态的正态分布,即标准正态分布。通常我们所说的正态分布就是指这种标准正态分布。其中53标准正态曲线54例如:某个分布的平均数是86,标准差是10,某个原始分数是80,则这个分数就可以转换为:表明这个数据在分布中低于平均数0.6个标准差552.标准正态分布曲线的特点⑴.曲线在Z=0处达到最高点⑵.曲线以Z=0处为中心,双侧对称⑶.曲线从最高点向左右缓慢下降,向两侧无限延伸,但永不与基线相交。⑷.标准正态分布曲线的平均数为0,标准差为1。从Z=-3至Z=+3之间几乎分布着全部数据。⑸.曲线的拐点为正负1个标准差处。(6).曲线下方到基线的面积为1。56此外,标准差与曲线还有一定的关系。 在Z等于正负1之间,它所包含的累积概率(即面积)是0.6826。在Z等于正负1.96之间,所包含的面积是0.95。在Z等于正负2.58之间,所包含的面积是0.99。573、正态曲线的面积与纵线 (1).概念 正态曲线的面积:正态曲线与基线之间某一区域的面积,相当于能在该区间找到个体的概率。又叫累积概率。58本教科书附表的制作介绍: 本教科书是从平均数这一点,然后往右(或往上)累积到一个定值,Z值可以逐渐增大,这样我们就可以查到Z从0到任一个值区间的面积是多少,或累积概率是多少。根据正态分布的对称性,还可知道从Z=0往以下的一个值的累积概率是多少。这样经过一定推导,我们可以获得分布上任意两个值之间的累积概率或面积。 因为此表只给出Z值和累积概率之间的相互转换对应值,所以查表时,一是知道方法,二是要把原始分数转换成Z分数。59(2).标准正态曲线下面积的求法 ①已知Z值求面积
如果是原始数据,要首先转化为标准分数,然后再由Z值查到面积,具体做法有以下三种: 第一种情况:
求Z=0至某一Z值之间的面积。可以直接查表(附表1); 如查Z=0到Z=0.50的面积。查得P=0.19146。60再如:求Z=0到Z=2之间的面积。 可以直接查附表1。 先找Z列,找到2这个值;再看P列,在2旁边的那个P值为0.47725。从而得到从Z=0到Z=2这个区域的面积为0.47725。61第二种情况: 求两个Z值之间的面积; 首先要找出这两个值到Z=0的面积,然后看它们的符号相同还是相反。如果相同,就用大的面积减去小的面积所得差即为所求;如果符号相反,就把两个面积加起来,所得和即为所求面积。62例如:要求Z=0.50到Z=2之间的面积。 先查得Z=0到Z=0.50的面积,结果查得0.19146;再查得Z=0到Z=2之间的面积,结果查得0.47725。然后看两个Z值的符号是相同还是相反。结果发现相同。那么最终所求面积等于0.47725减去0.19146,结果得0.28579。 即从Z=0.50累积到Z=2的概率为0.28579,或所求面积为0.28579。63又如:要求Z=-1.50到Z=1之间的面积。 先查得Z=0到Z=-1.50的面积,结果查得0.43319;再查得Z=0到Z=1之间的面积,结果查得0.34134。然后看两个Z值的符号是相同还是相反。结果发现相反。那么最终所求面积等于0.43319加上0.34134,结果得0.77633。 即从Z=-1.50累积到Z=1的概率为0.77633,或所求面积为0.77633。64第三种情况: 求某一Z值以上或以下的面积。即左端或右端(上端或下端)。 例如:求Z=2以上的面积。 先查Z=0到Z=2的面积为多少,查附表1得0.47725,则Z=2以上的面积就等于半块面积减去0.47725。这时就用到标准正态曲线的对称性。即整个面积为1,则半个面积为0.50。所以Z=2以上的面积为0.02275。同理根据对称性可以求得Z=2以下的面积,Z=-2以上或以下的面积。65例:某地区某年高考英语这一科的考生有46000人,经过计算平均分为56.03,标准差为19.06,假定这个分布是正态的,现在问成绩在90分以上的有多少人,60分到90分有多少人,60分以下的有多少人。 解:根据Z值查附表1,得到Z=0到Z=1.78累积概率或面积为0.46246,然后即成绩在90分以上的有1727人。66同理我们可以算得根据Z值查附表1,得到Z=0到Z=0.21累积概率或面积为0.08317,然后即成绩在60分到90分之间的有17747人。67则60分以下的人数为答:成绩在90分以上的有1727人,60分到90分有17447人,60分以下的有26863人。68②已知面积求Z值
第一种情况: 求Z=0以上或以下某一面积相对应的Z值;
求Z=0至某一Z值之间面积所对应的Z值,可以直接查表(附表1)。 如已知Z=0往上的面积等于0.30,求所对应的Z值。先查P列,找到0.30。当然表中不一定有该数据,可以找最接近的数,其所对应的Z值就是我们所要求的。查得Z=0.84。 所以从Z=0往上0.30的面积所对应的Z值为0.84。同理可得从Z=0往下的面积对应的Z值,不过要在所求得的Z值前加一个负号。69第二种情况: 求与正态曲线上端或下端某一面积相对应的Z值; 首先要用一半的面积减去这个尾端面积,然后再查表。 例如:已知一上尾端面积为0.10,求该面积所对应的Z值。 分析:这时要用0.50减0.10,得0.40,然后查表,得Z=1.28。因为这是上半端中的面积,所以所对应Z值为正。若是下半端则需加上一负号。70第三种情况: 求与正态曲线下中央部位某一面积相对应的Z值。 先把面积除以2,求得半块面积,然后查表得到一个Z值,另一个Z值则加一个负号。 71(3).正态曲线的纵线 正态曲线的纵线高度Y是横轴上某一Z值的频率密度(即概率)。若已知Z值或面积都可通过查附表1寻得Y值。①已知Z值求Y值,可直接查表求得。
如Z=1.35,则查得Y等于0.16038。如果Z=-1.35,我们可取其绝对值,因为根据正态曲线的对称性可知,Z的绝对值相同,对应的纵线高度也相同。72②已知P值求Y值 分为三种情况: 第一种情况:可以直接查得; 例如:已知Z=0到Z的一定值的累积概率为0.30,求Y值。 这时就可以直接查。因为没有直接的0.30,找到最接近的0.2995。找到对应的Y值为0.28034。73第二种情况: 已知尾端面积,求纵线高度。这时要做适当的转换。 例如:尾端面积为0.30,求纵线高度。 这时要用0.50减去0.30,这时把尾端面积转换成了从Z=0到Z等于一定值的面积或累积概率。这时可以查P等于0.20所对应的Y值。查得0.34849。74第三种情况: 已知中央面积,求面积左右两端的纵线高度。这时要将中央面积除以2,得到半块面积后再查表。两侧的纵线高度一样,所以只需查得一个即可。 例如:中央面积为0.80,求两侧纵线高度。 这时要用0.80除以2,得0.40,可以查P等于0.40所对应的Y值。由于没有直接的0.40,可以找最接近的0.39973。查得Y值即纵线高度为0.17585。 所以两侧的纵线高度都为0.17585。754、正态分布在测验计分方面的应用1、将原始分数转换成标准分数条件是原始分数的分布是正态的。76例如:已知某班期末考试中语文的平均分为76,标准差为10,数学的平均分为83,标准差为15。某学生在这次期末考试的语文成绩为79,数学成绩为87,问该生这两科成绩哪一个更好一些?解:根据Z分数的计算公式,得答:该考生的语文成绩更好一些。77标准分数的意义: (1)用标准分数的比较可以更科学、更合理。 原始分数的单位为分,但一分与一分是不等值的。难度大的测验上,价值要高;反之要低。 例如:在期末考了两门:语文和数学,语文的平均分为88,数学平均分为93,从中可看出语文要难于数学。假定一个学生两门课都考了90,好像是二者相同,实际上语文的成绩更好。这得益于标准分数的转换,语文转换为标准分数Z=0.2(假定标准差是10),数学转化为标准分数(假定标准差为12)Z=-0.25。78(2)使各科成绩的合成意义更明确。 例如:有两个学生参加了两门考试:语文和数学,他们的总分相同,都是175分。学生甲语文考了95,数学考了80;学生乙语文考了80,数学考了95。假定语文的平均分为70分,数学的平均分为85。 若这时用原始分数表示,意义含糊。若是转化为Z分数,甲的优势就会显示出来。(3)可以通过正态分布表查到相应的累积概率。这样我们就可以知道在某个分数以下或以上的人数为多少。79目前我国一些省在高考中采用标准分数表示考生的成绩,为了使分数更适合一般习惯,对标准分数进一步做转换:802、确定录用分数线在选拔性或竞赛性的考试中,录取或授奖的人数(或比赛)往往是事先确定的。这就是标准分数的作用发挥。 假定为正态分布,可将录取或授奖的人数比率作为正态分布中分线右侧,即上端的面积,由此找出相应标准分数Z值,然后根据Z公式计算出原始分数X.例如:在某年的高考中某省的平均分为420,标准差为100,分数呈正态分布,某考生得了456分。设当年该省的录取率为40%,问该生的成绩
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 酒店技工培训
- 棋类社团比赛活动安排计划
- 班级荣誉感的培养途径计划
- 西南林业大学《文学概论》2021-2022学年第一学期期末试卷
- 西南交通大学《微机与接口技术》2021-2022学年第一学期期末试卷
- 西京学院《中国历代文学作品》2021-2022学年第一学期期末试卷
- 妊娠期糖尿病的管理
- 2024年01月11044合同法期末试题答案
- 西北大学《外国美术史》2021-2022学年第一学期期末试卷
- 西华大学《开源硬件与编程》2021-2022学年第一学期期末试卷
- 2023年民航华北空管局招聘笔试真题
- 北方工业集团 笔试题目
- 公司年度总结和来年规划
- 加油站工程质量监理评估报告
- 安徽省A10联盟2024-2025学年高一上学期11月期中联考数学试题 含解析
- 驻马店市卫健委招聘专业技术人才笔试真题2023
- 期末模拟测试试卷(试题)-2024-2025学年六年级上册数学人教版
- 【初中道法】认识生命说课课件-2024-2025学年统编版道德与法治七年级上册
- 粮库平房仓土建工程施工组织设计
- 生物医药产品临床试验药物供应合同
- GB/T 44823-2024绿色矿山评价通则
评论
0/150
提交评论