第二章 生物统计基础知识 2 正态与抽样分布_第1页
第二章 生物统计基础知识 2 正态与抽样分布_第2页
第二章 生物统计基础知识 2 正态与抽样分布_第3页
第二章 生物统计基础知识 2 正态与抽样分布_第4页
第二章 生物统计基础知识 2 正态与抽样分布_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1. 频率频率 Frequency 定义定义 Definition:在大量重复试验中:在大量重复试验中,事件,事件A已已发生的发生的次数次数a占占试验总次数的比率。试验总次数的比率。nAfna)( 特点特点(Characteristics):一个事件的频率不是常数,):一个事件的频率不是常数,但随重复试验或观察次数但随重复试验或观察次数 n 增加,增加,频率的波动会不断减小,频率的波动会不断减小,逐步趋于稳定逐步趋于稳定,称为,称为频率的稳定性。频率的稳定性。2. 概率概率 Probability 性质性质 Property 1)0 P(A) 1 2)P(A)= 1,表明该事件为,表明该事件为

2、必然事件必然事件; P(A)= 0,表明该事件为,表明该事件为不可能事件不可能事件; 0 P(A) 1,表明该事件为,表明该事件为随机事件随机事件。 定义定义 Definition:同一条件下,试验或观察次数:同一条件下,试验或观察次数 n 无限无限增大,随机事件增大,随机事件 A 发生的频率发生的频率 a / n 必然稳定接近某一常数必然稳定接近某一常数P,P就称为随机事件就称为随机事件 A 的概率。的概率。 取值取值 Evaluation:一般情况下:一般情况下 P 的取值不可能准确获的取值不可能准确获得,以得,以 n 充分大时事件充分大时事件 A 发生的频率发生的频率/ n 作为作为 P

3、 的近似值。的近似值。1)若事件)若事件 A 的概率为的概率为 P(A),那么其对立事件,那么其对立事件 B 的概率为:的概率为: P(B)=1 - P(A)运算法则运算法则 Calculation rule2)若事件)若事件 A 和和 B 是是互斥的互斥的,其概率各为,其概率各为 P(A) 和和 P(B), 那么两事件的和事件的概率为:那么两事件的和事件的概率为: P(A+B)= P(A)+ P(B)3)若事件)若事件 A 和和 B 是独立的,其概率各为是独立的,其概率各为P(A)和和 P(B), 那么两事件同时出现的概率为:那么两事件同时出现的概率为: P(AB)= P(A) P(B)二、

4、频数与频率分布二、频数与频率分布 Number and frequency distribution1. 频数与频率分布频数与频率分布在一定条件下,总体或样本中某观察值在一定条件下,总体或样本中某观察值或某区间(或某区间(Interval)的观察值所出现的)的观察值所出现的次数。次数。总体或样本中某观察值或某区间的观察总体或样本中某观察值或某区间的观察值出现的次数在整个区间的分布情况。值出现的次数在整个区间的分布情况。总体或样本中某观察值或某区间的观察总体或样本中某观察值或某区间的观察值出现的频率整个区间的分布情况。值出现的频率整个区间的分布情况。频数频数Number 频数分布频数分布 Num

5、ber distribution频率分布频率分布F2. 统计方法统计方法 Presentation method of data(1) 求出极差(求出极差(R)(2) 确定组数(确定组数(G)及组距()及组距(B) 组数:组数:n100时,时, G:815 n 100时,时, G:不少于:不少于 6 组;组; n 很大时,很大时, G:不大于:不大于 30 组。组。 组距:组距:B = R/G 对于连续变量,组距精度与观察值相同;对于连续变量,组距精度与观察值相同; 对于非连续变量,组距取整数。对于非连续变量,组距取整数。(3) 确定组限确定组限 Group limit 组限就是每一组的上限(

6、组限就是每一组的上限(Upper limit)和下限()和下限(Lower limit) 。(4) (4) 统计统计频数和频率频数和频率 通常是采用制作频数(频率)分布表或频数(频率)分通常是采用制作频数(频率)分布表或频数(频率)分布图的方法。布图的方法。例例1:有有一小麦品种,随机采集一小麦品种,随机采集100株,量其株高,试说明不同株,量其株高,试说明不同株高的理论分布株高的理论分布规律规律。行号行号株高株高行号行号株高株高行号行号株高株高行号行号株高株高行号行号株高株高19021834198619481100210422994299621028296310323101439363958

7、394410224934410164938494510625994594659785916106269346936688869678327904794679187968106289548896894888591052910249926910489961099309550987098909311993190511037197911011293329152867210092861310233965395739293971410134985485749994951594359055967588959716963695569676989699179737995795779897951810538935

8、8967895989619893995599779949910420964010660918010410096表表1 1001 100株小麦株高(株小麦株高(cmcm)(1) 求出极差:求出极差:R=106-83=23 cm表表2 100株小麦株高频数株小麦株高频数与频率分布表与频率分布表(2) 确定组数(确定组数(G)及组距()及组距(B) 组组数:数:G = 9 组距:组距:B =23/9=2.56 cm(3) 确定组限确定组限 第第 1 组组:81.5 84.49 第第 2 组组:84.5 87.49 第第 3 组组:87.5 90.49 (4) (4) 统计频数和频率统计频数和频率组号

9、组号组组 限限 中值数中值数频数频数 频率频率 %1 1 81.5-84.4983 2 2 2 2 84.5-87.4986 4 4 3 3 87.5-90.4989 8 8 4 4 90.5-93.4992 14 14 5 5 93.5-96.4995 30 30 6 6 96.5-99.4998 20 20 7 7 99.5-102.49101 10 10 8 8 102.5-105.49104 8 8 9 9 105.5-108.49107 4 4 0510152025303581.5-84.4984.5-87.4987.5-90.4990.5-93.4993.5-96.4996.5-9

10、9.4999.5-102.49102.5-105.49105.5-108.49频频次次小麦株高小麦株高 (cm)频数频数图1 100株小麦株小麦的的频频数分布数分布图2 100株小麦株小麦的的频率频率分布分布00.010.020.030.040.050.060.070.080.090510152025303581.584.587.590.593.596.599.5102.5105.5频频率率频频次次小麦株高小麦株高 (cm)频数正态分布曲线2)(2121)(Pex1. 概念概念 Definition 1)概念)概念 正态分布随机变量的正态分布随机变量的概率密度函数概率密度函数 为:为:式中:式

11、中: 正态分布中的随机变量;正态分布中的随机变量; 2.718,是自然对数的底数;,是自然对数的底数; 正态分布总体的平均数,是曲线最高点的横坐标;正态分布总体的平均数,是曲线最高点的横坐标; 正态分布总体的标准差,其大小表达曲线高低胖瘦程度。正态分布总体的标准差,其大小表达曲线高低胖瘦程度。xe概率密度函数概率密度函数 Probability density function 定义定义:当:当试验次数无限增加,直方图趋近于光试验次数无限增加,直方图趋近于光滑曲线,曲线下包围的面积表示概率。该曲线称为滑曲线,曲线下包围的面积表示概率。该曲线称为概率密度函数。概率密度函数。 分布函数分布函数 D

12、istribution function 设设X是一是一个个随机变量随机变量,x是是任意任意实数实数,函数函数 F(x)=PXx 如果将如果将X看成是数轴上的随机点看成是数轴上的随机点的坐标,的坐标,那么,分布那么,分布函数函数 F(x) 在在 x 处处的的函数值函数值就就表示表示X落在区间落在区间(-, x上的概上的概率。率。 正态分布的密度函数的图形是关于直线正态分布的密度函数的图形是关于直线x=对称的;在对称的;在x =处达到最大值处达到最大值21(1)什么样?)什么样?(2)两个参数)两个参数(3)正态分布曲线的解释)正态分布曲线的解释3)正态分布曲线的特点)正态分布曲线的特点 Cha

13、racteristics of the curve of normal distribution(1 1)图中)图中 为总体平均数,为总体平均数, 为总体标准差。当样品数为总体标准差。当样品数越来越多,处于无穷多时,就构成了以总体平均数越来越多,处于无穷多时,就构成了以总体平均数为为轴轴的的正态分布形式。变数的次数分布规律是以平均数正态分布形式。变数的次数分布规律是以平均数为轴心形成对称的分布规律,变数值越靠近平均数,为轴心形成对称的分布规律,变数值越靠近平均数,出现的次数越多,远离平均数值的变数次数越少出现的次数越多,远离平均数值的变数次数越少。落入(落入( )的概率:)的概率:68.3 %

14、;落入(落入( )的概率:)的概率:95.4 %;落入(落入( )的概率:)的概率:99.7 %;落入(落入( )的概率:)的概率:95 %;落入(落入( )的概率:)的概率:99 %。(2)正态分布总体观察值正态分布总体观察值 落入以下特殊区间的概率落入以下特殊区间的概率,2,23,396. 1,96. 158. 2,58. 2x(3 3)数学家根据有关公式,计算出了正态曲线下不同距离)数学家根据有关公式,计算出了正态曲线下不同距离内的面积和概率积分表以备应用内的面积和概率积分表以备应用。 P336 P336 附表附表2 2 正态分布表正态分布表(4 4)t t 检验检验、方差分析等,采用的

15、、方差分析等,采用的0.050.05、0.010.01显著性判断,显著性判断,其原理就是来源于其原理就是来源于此。此。 正态分布的应用正态分布的应用例例2 2 测得一小麦品种的株高为测得一小麦品种的株高为120cm120cm,试问这个小,试问这个小麦品种株高和例麦品种株高和例1 1所选样品小麦株高有无本质差异?所选样品小麦株高有无本质差异?例例1 小麦小麦品种平均株高为品种平均株高为95.9cm,标准差为标准差为 5.2cm,用正态,用正态曲线概率分布判断:曲线概率分布判断: x2*5.2cm,即株高在即株高在90.7-101.1cm范围内的概率占范围内的概率占95.5%, x3*5.2cm,

16、即株高,即株高80.3-111.5cm范围内的概率占范围内的概率占99.74%。而而这一小麦品种株高为这一小麦品种株高为120cm,显然不在其范围内。说明,显然不在其范围内。说明二者有极显著的差异,这种二者有极显著的差异,这种判断有判断有99.74%以上的把握性,以上的把握性,判错的可能性只有判错的可能性只有0.26%。4)正态分布)正态分布标准化标准化为了便于计算概率和一般化应用,将正态分布标准化。令:为了便于计算概率和一般化应用,将正态分布标准化。令:且以且以 为度量单位,则概率密度函数可被标准化为:为度量单位,则概率密度函数可被标准化为:xu 式中式中 叫做标准正态离差、正态离差或概率度

17、。任何叫做标准正态离差、正态离差或概率度。任何正态分布都可以根据以上变换转化为标准正态分布。正态分布都可以根据以上变换转化为标准正态分布。2)(2121)(e22121)(ueuu u 0.00 -0.02 -0.04 -0.06 -0.08-3.00.0013 0.0013 0.0012 0.0011 0.0010-2.50.0062 0.0059 0.0055 0.0052 0.0049-2.00.0228 0.0217 0.0207 0.0197 0.0188-1.90.0287 0.0274 0.0262 0.0250 0.0239-1.60.0548 0.0526 0.0505 0.

18、0485 0.0465-1.00.1587 0.1539 0.1492 0.1446 0.1401-0.50.3085 0.3015 0.2946 0.2877 0.2810 00.5000 0.4920 0.4840 0.4761 0.4681标准正态分布曲线下面积(u)0u例:某正态总体的例:某正态总体的 ,求,求 落入区落入区 间(间(1.08,1.21)的概率。)的概率。013. 008. 108. 11au113. 008. 121. 12bu3413. 05000. 08413. 0) 0() 1 ()()(12PPuPuPP查附表2:P33613. 0,08. 1x(二)(二)小

19、概率事件和小概率小概率事件和小概率原理原理 在生物统计学中,把概率小于在生物统计学中,把概率小于 5%的事件,称的事件,称为为小概率事件小概率事件(Small probability event)。)。 小概率事件在一次试验中小概率事件在一次试验中几乎是不可能事件几乎是不可能事件,这一规律称为这一规律称为小概率原理小概率原理(The small probability principle)。1. 1. 概念概念 Definition1)抽样)抽样 Sampling从从总体中抽取个体组成样本进行研究以了解总体特性的过程。总体中抽取个体组成样本进行研究以了解总体特性的过程。抽样分布抽样分布Samp

20、ling distribution 从总体中独立抽取随机样本从总体中独立抽取随机样本的统计数的概率分布,称为的统计数的概率分布,称为抽样分布。抽样分布。统计推断统计推断Statistical postulation从一个样本或一系列样本所得从一个样本或一系列样本所得到的统计数,去推断原总体的到的统计数,去推断原总体的参数,称为统计推断。参数,称为统计推断。(1)样本均值抽样分布的均值等于总体均值)样本均值抽样分布的均值等于总体均值几个重要的结论:几个重要的结论:(2)样本均值抽样分布的方差样本均值抽样分布的方差等于原总体方差与样本容量之比等于原总体方差与样本容量之比样本的平均数所构成的新总体的

21、标准差样本的平均数所构成的新总体的标准差均数标准差均数标准差:nnxEnxnExE1)(1)1()(nnnxDnxnDxDx/1)(1)1()(22222nxnssx/1. 概念概念置信区间置信区间 Confidence interval 在一定概率保证下,误差的合理存在范围或区间称为置信区间或在一定概率保证下,误差的合理存在范围或区间称为置信区间或置信距。区间的上下限称为置信限。置信距。区间的上下限称为置信限。置信概率置信概率 Confidence level 保证误差合理存在范围的概率,称为置信概率、置信保证误差合理存在范围的概率,称为置信概率、置信度。度。用用 P 表表示。示。否定区间否定区间 Negation interval 不属于合理误差的范围或区间,称为否定区间。不属于合理误差的范围或区间,称为否定区间。否定概率否定概率 Negation probability 不合理误差存在范围或区间的概率,称为否定概率,不合理误差存在范

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论