版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三章分布与抽样分布
第二节抽样分布
第一节概率与概率分布
第三节统计推断
第一节概率与概率分布统计学CertainImpossible0.501一概率(一)概率的统计定义研究随机试验,仅知道可能发生哪些随机事件是不够的,还需了解各种随机事件发生的可能性大小,以揭示这些事件的内在的统计规律性,从而指导实践。这就要求有一个能够刻划事件发生可能性大小的数量指标,这指标应该是事件本身所固有的,且不随人的主观意志而改变,人们称之为概率(probability)。事件A的概率记为P(A)。
概率的统计定义在相同条件下进行n次重复试验,如果随机事件A发生的次数为m,那么m/n称为随机事件A的频率(frequency);当试验重复数n逐渐增大时,随机事件A的频率越来越稳定地接近某一数值p,那么就把p称为随机事件A的概率。这样定义的概率称为统计概率(statisticsprobability),或者称后验概率(posteriorprobability)表3-1抛掷一枚硬币发生正面朝上的试验记录
从表3-1可看出,随着实验次数的增多,正面朝上这个事件发生的频率越来越稳定地接近0.5,我们就把0.5作为这个事件的概率。在一般情况下,随机事件的概率p是不可能准确得到的。通常以试验次数n充分大时随机事件A的频率作为该随机事件概率的近似值。即P(A)=p≈m/n(n充分大)(二)概率的性质
1、对于任何事件A,有0≤P(A)≤1;2、必然事件的概率为1,即P(Ω)=1;3、不可能事件的概率为0,即P(ф)=0。一个总体是由一个随机变量的所有可能取值来构成的,而样本只是这些所有可能取值的一部分随机变量中某一个值出现的概率,只是随机变量一个侧面的反映,若要全面了解随机变量则必须知道随机变量的全部值和各个值出现的概率,即随机变量的概率分布■概率和概率分布是生命科学研究中由样本推断总体的理论基础
随机变量的种类很多,每一种随机变量都有其特定的概率分布。
连续型随机变量
离散型随机变量
在一定范围内可连续取值的变量。在一定范围内只取有限种可能的值的变量。正态分布
二项分布、泊松分布
二概率分布1.正态分布
正态分布(normaldistribution)的概念是由德国数学家和天文学家Moivre于1733年首次提出的,由德国数学家Gauss率先将其应用于天文学研究,故正态分布又称为Gauss分布(Gaussiandistribution)。许多生物学领域(如身高、体重、脉搏、血红蛋白、血清总胆固醇等)的随机变量都服从或者近似服从正态分布或通过某种转换后服从正态分布,许多其他类型分布基本上都与正态分布有关,它们的极限就是正态分布。1.1正态分布的定义
在日常工作中所遇到的变量大多是连续型随机变量,当这一类随机变量呈线性时,往往服从正态分布
频数分布表:下面我们以某地13岁女孩118人的身高(cm)资料,来说明身高变量服从正态分布。频数分布图(又称直方图)
从频数表及频数分布图上可得知:
该数值变量资料频数分布呈现中间频数多,左右两侧基本对称的分布。所以我们通俗地认为该资料服从正态分布。频数分布图二频数分布图三正态分布图四和正态分布相对应的曲线称为正态分布密度曲线,简称为正态曲线。
用来描述正态曲线的函数称为正态分布密度函数
μ—总体平均数σ2—
总体方差π—圆周率3.14σ—总体标准差■任何一个正态分布均由参数μ和σ所决定如果一个随机变量x服从平均数为μ、方差为σ2的正态分布,可记为x~N(μ,σ2)。e—自然对数的底,2.718281.2正态分布的特点
(1)正态分布曲线以直线x=μ为对称轴,左右完全对称(3)正态分布曲线有两个拐点,拐点座标分别为(μ-σ,f(μ-σ))和(μ+σ,f(μ+σ)),在这两个拐点处曲线改变方向,即曲线在(-∞,μ-σ)和(μ+σ,+∞)区间上是下凹的,在[μ-σ,μ+σ]区间内是上凸的●●●(2)在x=μ处,f(x)有最大值
(4)正态分布密度曲线的位置由μ决定(μ为位置参数),形状由σ决定(σ为形状参数)(5)正态分布曲线向两边无限延伸,以x轴为渐进线,分布从-∞到+∞
μ的大小决定了曲线在x轴上的位置σ的大小则决定了曲线的胖瘦程度当σ恒定时,μ愈大,则曲线沿x轴愈向右移动μ愈小,曲线沿x轴愈向左移动σ越大表示数据越分散,曲线越胖σ越小表示数据越集中,曲线越瘦1.3标准正态分布正态分布由μ和σ所决定,不同的μ、σ值就决定了不同的正态分布密度函数,因此在实际计算中很不方便的。需将一般的N(μ,σ2)转换为μ=0,σ2=1的正态分布。我们称μ=0,σ2=1的正态分布为标准正态分布(standardnormaldistribution)
可见,由正态分布密度函数得到标准正态分布密度函数:1.4正态分布的概率计算
根据概率论原理,可知随机变量x在区间(a,b)内取值的概率是一块面积:
面积由曲线
所围成的曲边梯形所组成:
随机变量x在(-∞,+∞)间取值的概率为1,即:■求随机变量x在某一区段内取值的概率就转化成了求由该区段与相应曲线所围成的曲边梯形的面积。
由于正态分布的概率密度函数比较复杂,积分的计算也比较麻烦,而这些计算在动物科学或动物医学生产实践中又经常会用到。
最好的解决办法:将正态分布转化为标准正态分布,然后根据标准正态分布表(附表1)直接查出概率值。
(1)标准正态分布的概率计算
附表1列出了在标准正态分布随机变量u在区间(
,uα]内取值的概率:
标准正态分布的概率计算通式
标准正态分布函数表
例1:若u~N(0,1),求:(1)(2)(3)解:(1)(2)(3)关于标准正态分布,以下几种概率应当熟记:P(-1≤u<1)=0.6826P(-2≤u<2)=0.9545P(-3≤u<3)=0.9973P(-1.96≤u<1.96)=0.95P(-2.58≤u<2.58)=0.99P(|u|≥1)u变量在上述区间以外取值的概率,即两尾概率:=1-
P(-1≤u<1)=1-0.6826=0.3174P(|u|≥2)=1-P(-2≤u<2)=0.0455P(|u|≥3)=1-0.9973=0.0027P(|u|≥1.96)=1-0.95=0.05P(|u|≥2.58)=1-0.99=0.01(2)正态分布的概率计算
对于服从任意正态分布N(μ,σ2)的随机变量,欲求其在某个区间的取值概率,需先将它标准化为标准正态分布N(0,1)的随机变量,然后查表即可。实质:为了能使正态分布应用起来更方便一些,可以将x作一变换,令:变换后的正态分布密度函数为:标准正态分布均具有μ=0,σ2=1的特性如果随机变量u服从标准正态分布,可记为:u~N(0,1)u变换这个变换称为标准化或u变换,由于x是随机变量,因此u也是随机变量,所得到的随机变量U也服从正态分布,因此,由任意正态分布随机变量标准化得到的随机变量的标准正态分布常称为u分布。可见:例2:设x~N(30,102)试求x≥40的概率。解:首先将正态分布
转化为标准正态分布,令:则u服从标准正态分布,故:例3:设x服从μ=30.26,σ2=5.102的正态分布,试求P(21.64≤x<32.98)。
解:令则u服从标准正态分布,故=P(-1.69≤u<0.53)=Φ(0.53)-Φ(-1.69)=0.7019-0.04551=0.6564关于一般正态分布,经常用到以下几个概率:P(μ-σ≤x<μ+σ)=0.6826P(μ-2σ≤x<μ+2σ)=0.9545P(μ-3σ≤x<μ+3σ)=0.9973P(μ-1.96σ≤x<μ+1.96σ)=0.95P(μ-2.58σ≤x<μ+2.58σ)=0.99把随机变量x落在平均数μ加减不同倍数标准差σ区间之外的概率称为两尾概率(双侧概率),记作α。对应于两尾概率可以求得随机变量x小于μ-kσ或大于μ+kσ的概率,称为一尾概率(单侧概率),记作α/2。α0.3173
0.0455
0.0027
0.05
0.01
α/2附表2:给出了满足两尾临界值uα
因此,可以根据两尾概率α,由附表2查出相应的临界值uα。
例4:已知u~N(0,1),试求uα:
(1)(2)解:(1)(2)2.二项分布
二项分布(binomialdistribution)是一种最常见的、典型的离散型随机变量的概率分布。有些试验只有非此即彼两种结果,这种由非此即彼的事件构成的总体,称为二项总体。结果“此”用变量1表示,概率为p
结果“彼”用变量0表示,概率为q
对于n次独立的试验,如果每次试验结果出现且只出现对立事件A与A-中之一,在每次试验中出现A的概率是p(0<p<1),因而出现对立事A-件的概率是1-p=q,则称这一连串重复的独立试验称为n重贝努利试验。贝努利试验在n重贝努利试验中,事件A恰好发生m(0≤m≤n)次的概率为:其中:
m=0,1,2…,n
2.1二项分布的定义
设随机变量x(概率为P的事件A出现的次数)所有可能取的值为零和正整数:0,1,2,…,n,且有其中:
m=0,1,2…,n
则称随机变量x服从参数为n和p的二项分布,记为x~B(n,p)
只有两种可能结果的属性资料服从二项分布。如:存活、治愈、孵化、性别、阳(阴)性等资料(往往以百分率计算)。2.2二项分布的特点
(1)当p值较小且n不大时,分布是偏倚的,随着n的增大,分布逐渐趋于对称p=0.3n=5n=20n=50(2)当p值趋于0.5时,分布趋于对称(3)二项分布在n较大,且np>5,np、nq较接近时,接近正态分布,n→∞时服从正态分布,即二项分布的极限是正态分布(4)二项分布的平均数为:
方差为:标准差为:例4:某奶牛场情期受胎率为0.6,该场对30头发情母牛配种,使24头母牛一次配种受胎的概率为多少?解:2.3二项分布的概率计算课堂练习:用某种常规药物治疗猪瘟的治愈率为0.7,对20头患猪瘟的肥育猪进行治疗,问20头猪中16头猪治愈的概率是多少?
解:3.泊松分布
当二项分布中的n→∞,p→0时,二项分布趋向于一种新的分布——泊松分布(普哇松分布)(Poisson’sdistribution)当试验次数(或称观测次数)很大,而某事件出现的概率很小,则离散型随机变量x服从于泊松分布。3.1泊松分布的定义
若随机变量x(x=m)只取零和正整数值0,1,2,…,且其概率分布为:其中:
=np,是一个常量,且
则称x服从参数为λ的泊松分布,记为x~P(λ)
泊松分布主要是用来描述小概率事件发生的概率单位空间中某些野生动物数畜群中的畸形个体数畜群中某些遗传性疾病的患病数
泊松分布不是用来描述几乎不可能发生的事件的概率
山无棱,天地合南京六月飞雪(1)泊松分布只有一个参数λ,λ=np。3.2泊松分布的特点
λ既是泊松分布的平均值μ,又是方差σ2,即:(2)泊松分布的图形决定于λ,λ值愈小分布愈偏倚,随着λ的增大,分布趋于对称。当λ=20时分布接近于正态分布;当λ=50时,可以认为泊松分布呈正态分布。3.3泊松分布的概率计算
例5:某大型猪场因某种疾病死亡的猪数呈泊松分布。已知该场平均每年因这种疾病死亡的猪数为9.5头,问2007年该场因这种疾病死亡的猪数为15头的概率是多少?解:根据泊松分布的性质可知:2007年该场因这种疾病死亡的猪数为15头的概率是2.65%。
第二节
抽样分布统计学的主要任务就是研究总体和样本的关系:■从样本到总体
■从总体到样本
目的就是通过样本来推断总体。目的就是研究样本统计量的分布及其与原总体的关系从特殊到一般,从一般到特殊,统计推断
抽样分布
抽样分布是统计推断的基础,研究抽样分布的目的就是为了更好地进行统计推断,并能正确地理解统计推断的结论。1.抽样分布的概念样本平均数
和样本方差S2是描述样本特征的两个最重要的统计量总体平均数μ和总体方差σ2是描述总体特征的两个最重要的参数
因此,研究总体和样本的关系,实际就是研究:
S2
σ2
■就总体而言,μ和σ2都是常量■从总体中随机地抽取若干个体所组成的样本,即使每次抽取的样本容量都相等,每一个样本所得到的样本平均数也不可能都相等,同时也不可能就等于总体平均数μ样本统计量将随样本的不同而有所不同,因而样本统计量也是随机变量,也有其概率分布样本统计量的概率分布称为抽样分布(samplingdistribution)样本统计量与总体参数之间的差异称为抽样误差
(samplingerror)
从总体中抽取样本的过程称为抽样(sampling)
抽样分为复置抽样和不复置抽样两种:复置抽样指每次抽出一个个体后,这个个体应返回原总体
不复置抽样指每次抽出的个体不返回原总体■对于无限总体,或者样本容量n与总体容量N相比很小时,返回与否都可保证每个个体被抽到的机会相等,复置抽样等同于不复置抽样■对于有限总体,应该采取复置抽样,否则各个体被抽到的机会就不相等在实际操作中,均为不复置抽样
在理论研究中则以复置抽样为主2.样本平均数的抽样分布2.1样本平均数抽样分布的概念从总体容量为N的总体中进行抽样,如果每个样本的样本容量均为n,将所有这样的样本都抽出来,并计算出每一个样本的平均数原来的那个总体,称为原总体
由样本平均数组成的分布称为样本平均数的抽样分布如果原总体的平均数为μ,标准差为σ,那么样本平均数抽样总体:平均数为:标准差为:称为样本平均数抽样总体的标准误差简称为标准误(standarderror)
由这些样本平均数组成的新总体,就称为样本平均数抽样总体。
标准误表示平均数抽样误差的大小,反映样本平均数与新总体平均数之间的离散程度。■标准差表示的是原总体中原始数据与原总体平均数的关系
■标准误表示的是从原总体中抽取的样本平均数与样本平均数抽样总体平均数的关系研究总体与样本的关系就转化成了讨论原总体与样本平均数抽样总体的关系:例6:设有一总体,总体容量为N=3,观测值分别为2、4、6,以样本容量n=2对该总体进行复置抽样,证明:
(1)(2)原总体的总体平均数为:(1)以样本容量n=2对该总体进行复置抽样,则样本平均数抽样总体为:
样本平均数抽样总体的总体容量为:样本平均数抽样总体的总体平均数为:(2)原总体的总体标准差为:样本平均数抽样总体的总体标准差为:2.2样本平均数抽样分布的特点(1)样本平均数抽样总体的总体平均数与原总体的总体平均数相等,因此,可用μ代替(2)样本平均数抽样总体的方差与原总体的方差的关系为
(3)当随机变量x~N(μ,σ2)时,样本平均数
当随机变量x不呈正态分布或分布未知时,只要样本容量n不断增大(或足够大),则样本平均数的分布逐渐趋向于正态分布,且平均数为μ,方差为中心极限定理样本平均值服从或近似服从正态分布2.3σ与的关系(1)
(2)σ表示原总体中各观测值的离散程度表示样本平均数抽样总体中各样本平均数的离散程度(3)σ是总体中各观测值变异程度的度量值
是样本平均数抽样误差的度量值是用来衡量样本平均数代表总体平均数的代表程度的(4)σ称为标准差,用Sd表示称为标准误,用Se表示4.t-分布(不要求)4.1t-分布的定义设有服从正态分布的随机变量x,正态分布的标准化公式为:
对于总体方差σ2已知的总体,根据公式可以计算出随机变量x在某一区间内出现的概率:对于总体方差σ2已知的总体,根据公式可以知道样本平均数在某一区间内出现的概率,公式为:服从标准正态分布附:服从标准正态分布假如σ2未知,而且样本容量又比较小(n≤30)时:标准化公式可变换为:t统计量组成的分布,就称为t分布(tdistribution)
不再服从标准正态分布t分布是一组曲线,自由度不同,曲线不同,但均以y轴为对称
t分布只有一个参数,即自由度dft分布的平均数和标准差为:
μ=0(df>1)(df>2)服从t-分布4.2t-分布的特点(1)t分布为对称分布,关于t=0对称;只有一个峰,峰值在t=0处;与标准正态分布曲线相比,t分布曲线顶部略低,两尾部稍高而平
(2)t分布曲线受自由度df的影响,自由度越小,离散程度越大(3)t分布的极限是正态分布。df越大,t分布越趋近于标准正态分布
当n>30时,t分布与标准正态分布的区别很小;n>100时,t分布基本与标准正态分布相同;n→∞时,t
分布与标准正态分布完全一致4.3t-分布的概率计算附表4给出了t分布的两尾临界值
当左尾和右尾的概率之和为
(每侧为
/2)时,t分布在横坐标上的临界值的绝对值,记为t
例7:根据附表4查出相应的临界t值:(1)df
=9,α=0.05;(2)df
=9,α=0.01从一个平均数为μ,方差为σ2的正态总体中,进行独立地抽样,可获得随机变量x,则其标准离差:~
N(0,1)如果连续进行n次独立抽样,可得n个标准正态离差ui,对这n个独立的标准正态离差ui进行平方求和就得到一个新的统计量χ2:5.χ2-分布(不要求)5.1χ2-分布的定义如果用样本进行计算:由这些χ2值所组成的一个分布,就称之为χ2分布(χ2distribution)5.2χ2-分布的特点(1)χ2分布的取值范围为[0,+∞),无负值(2)χ2分布的平均数为:
方差为:
(3)χ2分布的形状决定于自由度df当df=1时,曲线呈反J形随着df的增大,曲线渐趋对称当df>30时,向正态分布渐近
(4)χ2还可以定义为理论次数与观察次数间的符合程度(离散型变量)O—观察次数
E—理论次数
5.3χ2-分布的概率计算附表3给出了χ2分布的右尾临界值
当右尾概率为时,χ2分布在横坐标上的临界值的绝对值,记为例8:根据附表3查出相应的右尾临界χ2值:(1)df
=9,α=0.05;(2)df
=9,α=0.01如果计算左尾概率为
时
2分布的临界值,只需查右尾概率为1-
的右尾临界值即可。6.F-分布6.1F-分布的定义从一个方差σ2的正态总体中独立地抽取样本容量分别为n1、n2的两个样本,这两个样本的方差分别为:则有:这两个χ2变量除以各自的自由度后的比值为:由一系列F值所构成的分布称为F分布(Fdistribution)
F~F(df1,df2)已计算:6.2F-分布的特点(1)F分布密度曲线是随自由度df1、df2的变化而变化的一簇偏态曲线其形状随着df1、df2的增大逐渐趋于对称;(2)F分布的取值范围是(0,+∞),其平均数:6.3F-分布的概率计算附表
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《癌症疼痛诊疗规范》课件
- 《孔子的简介》课件
- 人物访谈报告培训课件
- 单位管理制度集合大合集员工管理十篇
- 单位管理制度集粹汇编人事管理篇十篇
- 单位管理制度汇编大合集人力资源管理篇十篇
- 《神经收集电子教案》课件
- 单位管理制度分享汇编【人力资源管理】
- 单位管理制度范例选集职员管理篇
- 单位管理制度呈现合集职员管理篇
- 湖南2025年湖南省生态环境厅直属事业单位招聘44人笔试历年参考题库附带答案详解
- 福建省部分地市2023-2024学年高三上学期第一次质量检测(期末)生物 含解析
- (新版):中国卒中学会急性缺血性卒中再灌注治疗指南
- 人工智能在体育训练中的应用
- 2024-2030年中国液态金属行业市场分析报告
- 高二上学期数学北师大版(2019)期末模拟测试卷A卷(含解析)
- 2024-2025学年上学期深圳初中语文七年级期末模拟卷3
- 2024-2025学年上学期广州初中地理八年级期末模拟卷2
- 中考语文真题专题复习 小说阅读(第01期)(解析版)
- 2025版国家开放大学法律事务专科《法律咨询与调解》期末纸质考试单项选择题题库
- GB 45067-2024特种设备重大事故隐患判定准则
评论
0/150
提交评论