分布与抽样分布_第1页
分布与抽样分布_第2页
分布与抽样分布_第3页
分布与抽样分布_第4页
分布与抽样分布_第5页
已阅读5页,还剩89页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第三章 分布与抽样分布 第二节 抽样分布 第一节 概率与概率分布 第三节 统计推断 第一节概概率与与概率分分布统计学CertainImpossible0.501一概概率(一)概概率的统统计定义义研究随机机试验,仅知道道可能发发生哪些些随机事事件是不不够的,还需了了解各种种随机事事件发生生的可能能性大小小,以揭揭示这些些事件的的内在的的统计规规律性,从而指指导实践践。这就就要求有有一个能能够刻划事件件发生可可能性大大小的数数量指标标,这指标标应该是是事件本本身所固固有的,且不随随人的主主观意志志而改变变,人们们称之为概概率(probability)。事件A的概率记记为P(A)。概率的统统计定义义

2、在相同条条件下进进行n次重复试试验,如如果随机机事件A发生的次次数为m,那么m/n称为随机机事件A的频率(frequency);当试验重重复数n逐渐增大大时,随随机事件件A的频率越越来越稳稳定地接接近某一一数值p,那么就就 把p称为随机机事件A的概率。这 样定定义义 的概概率率 称为为统统计计 概率率(statistics probability),或者称后后验概率率(posteriorprobability)表3-1 抛掷掷一枚硬硬币发生生正面朝朝上的试试验记录录从表3-1可看看出,随随着实验验次数的的增多,正面朝朝上这个个事件发发生的频频率越来来越稳定定地接近近0.5,我们们就把0.5作作

3、为这个个事件的的概率。在一般情情况下,随机事事件的概概率p是不可能能准确得得到的。通常以以试验次次数n充分大时时随机事事件A的频率作作为该随随机事件件概率的的近似值值。即P(A)=pm/n(n充分大)(二)概率的性性质1、对于于任何事事件A,有0P(A)1;2、必然事件件的概率率为1,即P()=1;3、不可能事事件的概概率为0,即P()=0。一个总体体是由一一个随机机变量的的所有可可能取值值来构成成的,而而样本只只是这些些所有可可能取值值的一部部分随机变量量中某一一个值出出现的概概率,只只是随机机变量一一个侧面面的反映映,若要要全面了了解随机机变量则则必须知知道随机变量量的全部部值和各个值出出

4、现的概概率,即随机机变量的的概率分分布概率和概概率分布布是生命命科学研研究中由由样本推推断总体体的理论论基础随机变量量的种类类很多,每一种种随机变变量都有有其特定定的概率率分布。连续型随随机变量量离散型随随机变量量在一定范范围内可可连续取取值的变变量。在一定范范围内只只取有限限种可能能的值的的变量。正态分布布二项分布布、泊松松分布二概概率分布布1.正正态分布布正态分布布(normaldistribution)的概念是是由德国国数学家家和天文文学家Moivre于1733年首首次提出出的,由由德国数数学家Gauss率先将其其应用于于天文学学研究,故正态态分布又又称为Gauss分布(Gaussian

5、distribution)。许多生物物学领域域(如身高、体重、脉搏、血红蛋蛋白、血血清总胆胆固醇等等)的随机机变量都都服从或或者近似似服从正正态分布布或通过过某种转转换后服服从正态态分布,许多其其他类型型分布基基本上都都与正态态分布有有关,它它们的极极限就是是正态分分布。1.1正正态分分布的定定义在日常工工作中所所遇到的的变量大大多是连连续型随随机变量量,当这这一类随随机变量量呈线性性时,往往往服从从正态分分布频数分布布表:下面我们们以某地地13岁岁女孩118人人的身高高(cm)资料,来来说明身身高变量量服从正正态分布布。频数分布布图(又称直方方图)从频数表表及频数数分布图图上可得得知:该数值

6、变变量资料料频数分分布呈现现中间频频数多,左右两两侧基本本对称的的分布。所以我我们通俗俗地认为为该资料料服从正正态分布布。频数分布布图二频数分布布图三正态分布布图四和正态分分布相对对应的曲曲线称为为正态分分布密度度曲线,简称为为正态曲曲线。用来描述述正态曲曲线的函函数称为为正态分分布密度度函数 总体平均均数2总体方差差 圆周率3.14 总体标准准差 任何何一个正正态分布布均由参参数和所决定如果一个个随机变变量x服从平均均数为、方差为2的正态分分布,可可记为xN(,2)。e自然对数数的底,2.718281.2正正态分分布的特特点(1)正正态分布布曲线以以直线x=为对称轴轴,左右右完全对对称(3)

7、正态分布布曲线有有两个拐拐点,拐拐点座标标分别为为(-,f(-)和(+,f(+),在这两个个拐点处处曲线改改变方向向,即曲曲线在(-,-)和(+,+)区间上是是下凹的的,在-,+区间内是是上凸的的(2)在x=处,f(x)有最大值值(4)正态分布布密度曲曲线的位位置由决定(为位置参参数),形状由由决定(为形状参参数)(5)正态分布布曲线向向两边无无限延伸伸,以x轴为渐进进线,分分布从-到+的大小决决定了曲曲线在x轴上的位位置的大小则则决定了了曲线的的胖瘦程程度当恒定时,愈大,则则曲线沿沿x轴愈向右右移动愈小,曲曲线沿x轴愈向左左移动越大表示示数据越越分散,曲线越越胖越小表示示数据越越集中,曲线越

8、越瘦1.3标准正态态分布正态分布布由和所决定,不同的的、值就决定定了不同同的正态态分布密密度函数数,因此此在实际际计算中中很不方方便的。需将一一般的N(,2)转换为=0,2=1的正态分分布。我我们称=0,2=1的正态分分布为标标准正态态分布(standardnormaldistribution)可见,由由正态分分布密度度函数得到标准准正态分分布密度度函数:1.4正正态分分布的概概率计算算根据概率率论原理理,可知知随机变变量x在区间(a,b)内取值的的概率是是一块面面积:面积由曲线 所围成的的曲边梯梯形所组组成:随机变量量x在(-,+)间取取值的概概率为1 ,即即:求随机变变量x在某一区区段内取

9、取值的概概率就转转化成了了求由该该区段与与相应曲曲线所围围成的曲曲边梯形形的面积积。由于正态态分布的的概率密密度函数数比较复复杂,积积分的计计算也比比较麻烦烦,而这这些计算算在动物物科学或或动物医医学生产产实践中中又经常常会用到到。最好的解解决办法法:将正正态分布布转化为标准正态态分布,然后根根据标准准正态分分布表(附表1)直接接查出概概率值。(1)标标准正正态分布布的概率率计算附表1列列出了在在标准正正态分布布随机变变量u在区间(,u内取值的的概率:标准正态态分布的的概率计计算通式式标准正态态分布函函数表例1:若uN(0,1),求:(1)(2)(3)解:(1)(2)(3)关于标准准正态分分布

10、,以以下几种种概率应应当熟记记:P(-1u1)=0.6826P(-2u2)=0.9545P(-3u3)=0.9973P(-1.96u1.96)=0.95P(-2.58u2.58)=0.99P(u1)u变量在上上述区间间以外取取值的概概率,即两尾概概率:= 1-P(-1u1)= 1-0.6826 =0.3174P(u2)=1-P(-2u2)= 0.0455P(u3)=1-0.9973= 0.0027P(u1.96)=1-0.95=0.05P(u2.58)=1-0.99=0.01(2)正正态分分布的概概率计算算对于服从从任意正正态分布布N(,2)的随机变变量,欲欲求其在在某个区区间的取取值概率率,

11、需先先将它标标准化为为标准正正态分布布N(0,1)的随机变变量,然然后查表表即可。实质:为了能使使正态分分布应用用起来更更方便一一些,可可以将x作一变换换,令:变换后的的正态分分布密度度函数为为:标准正态态分布均均具有=0,2=1的特性如果随机机变量u服从标准准正态分分布,可可记为:uN(0,1)u变换这个变换换称为标标准化或或u变换,由于x是随机变变量,因因此u也是随机机变量,所得到的的随机变变量U也服从正正态分布布,因此此,由任任意正态态分布随随机变量量标准化化得到的的随机变变量的标标准正态态分布常常称为u分布。可可见:例2:设xN(30,102)试求x 40的概率。解:首先将正正态分布布

12、转化为标标准正态态分布,令:则u服从标准准正态分分布,故故:例3:设x服从=30.26,2=5.102的正态分分布,试试求P(21.64x32.98)。解:令则u服从标准准正态分分布,故故=P(-1.69u0.53)=(0.53)-(-1.69)=0.7019-0.04551=0.6564关于一般般正态分分布,经经常用到到以下几几个概率率:P(-x+)=0.6826P(-2x+2)=0.9545P(-3x+3)=0.9973P(-1.96x+1.96)=0.95P(-2.58x+2.58)=0.99把随机变变量x落在平均均数加减不同同倍数标标准差区间之外外的概率率称为两两尾概率率(双侧侧概率)

13、,记作作。对应于两两尾概率率可以求求得随机机变量x小于-k或大于+k的概率,称为一一尾概率率(单侧侧概率),记作作2。0.31730.04550.00270.050.01/2附表2:给出了满满足两尾临界界值u因此,可可以根据据两尾概概率,由附表2查出相相应的临临界值u。例4:已知uN(0,1),试求u:(1)(2)解:(1)(2)2.二二项分布布二项分布布(binomialdistribution)是一种最最常见的的、典型型的离散散型随机机变量的的概率分分布。有些试验验只有非非此即彼彼两种结结果,这这种由非非此即彼彼的事件件构成的的总体,称为二二项总体体。结果“此此”用变变量1表表示,概率为p

14、结果“彼彼”用变变量0表表示,概率为q对于n次独立的的试验,如果每每次试验验结果出出现且只只出现对对立事件件A与A-中之一,在每次次试验中中出现A的概率是是p(0p5,np、nq较接近时时,接近近正态分分布,n时服从正正态分布布,即二二项分布布的极限限是正态态分布(4)二项分分布的平平均数为为:方差为:标准差为为:例4:某某奶牛场场情期受受胎率为为0.6,该场场对30头发情情母牛配配种,使使24头头母牛一一次配种种受胎的的概率为为多少?解:2.3二二项分分布的概概率计算算课堂练习习:用某种常常规药物物治疗猪猪瘟的治治愈率为为0.7,对20头患患猪瘟的的肥育猪猪进行治治疗,问问20头头猪中16头

15、猪猪治愈的的概率是是多少?解:3.泊泊松分布布当二项分分布中的的n,p0时,二项项分布趋趋向于一一种新的的分布泊松分布布(普哇哇松分布布)(Poissonsdistribution)当试验次次数(或或称观测测次数)很大,而某事事件出现现的概率率很小,则离散散型随机机变量x服从于泊泊松分布布。3.1泊泊松分分布的定定义若随机变变量x(x=m)只取零和和正整数数值0,1,2,且其概概率分布布为:其中:=np,是一个常常量,且且则称x服从参数数为的泊松分分布,记为xP()泊松分布布主要是是用来描描述小概概率事件件发生的的概率单位空间间中某些些野生动动物数畜群中的的畸形个体数畜群中某某些遗传传性疾病病

16、的患病病数泊松分布布不是用用来描述述几乎不不可能发发生的事事件的概概率山无棱,天地合合南京六月月飞雪(1)泊泊松分布布只有一一个参数数,=np。3.2泊泊松分分布的特特点既是泊松松分布的的平均值值,又是方差差2,即:(2)泊泊松分布布的图形形决定于于,值愈小分分布愈偏偏倚,随随着的增大,分布趋趋于对称称。当=20时分布接接近于正正态分布布;当=50时,可以以认为泊泊松分布布呈正态态分布。3.3泊泊松分分布的概概率计算算例5:某大型猪猪场因某某种疾病病死亡的的猪数呈呈泊松分分布。已已知该场场平均每每年因这这种疾病病死亡的的猪数为为9.5头,问问2007年该该场因这这种疾病病死亡的的猪数为为15头

17、头的概率率是多少少?解:根据泊松松分布的的性质可可知:2007年该场场因这种种疾病死死亡的猪猪数为15头的的概率是是2.65%。第二节抽样分布布统计学的的主要任任务就是是研究总总体和样样本的关关系:从样本到到总体从总体到到样本目的就是是通过样样本来推推断总体体。目的就是是研究样样本统计计量的分分布及其其与原总总体的关关系从特殊到到一般,从一般到到特殊,统计推断断抽样分布布抽样分布布是统计计推断的的基础,研究抽抽样分布布的目的的就是为为了更好好地进行行统计推推断,并并能正确确地理解解统计推推断的结结论。1.抽抽样分布布的概念念样本平均均数和样本方方差S2是描述样样本特征征的两个个最重要要的统计计

18、量总体平均均数和总体方方差2是描述总总体特征征的两个个最重要要的参数数因此,研研究总体体和样本本的关系系,实际际就是研研究:S2 2 就总总体而言言,和2都是常量量 从总总体中随随机地抽抽取若干干个体所所组成的的样本,即使每每次抽取取的样本本容量都都相等,每一个个样本所所得到的的样本平平均数也不可能能都相等等,同时时也不可可能就等等于总体体平均数数样本统计计量将随随样本的的不同而而有所不不同,因因而样本本统计量量也是随随机变量量,也有有其概率率分布样本统计计量的概概率分布布称为抽抽样分布布(samplingdistribution)样本统计计量与总总体参数数之间的的差异称称为抽样样误差(sam

19、plingerror)从总体中中抽取样样本的过过程称为为抽样(sampling)抽样分为为复置抽抽样和不不复置抽抽样两种种:复置抽样样指每次次抽出一一个个体体后,这这个个体体应返回回原总体体不复置抽抽样指每每次抽出出的个体体不返回回原总体体对于无限限总体,或者样样本容量量n与总体容容量N相比很小小时,返返回与否否都可保保证每个个个体被被抽到的的机会相相等,复复置抽样样等同于于不复置置抽样对于有限限总体,应该采采取复置置抽样,否则各各个体被被抽到的的机会就就不相等等在实际操操作中,均为不不复置抽抽样在理论研研究中则则以复置置抽样为为主2.样样本平均均数的抽抽样分布布2.1样样本平平均数抽抽样分布

20、布的概念念从总体容容量为N的总体中中进行抽抽样,如如果每个个样本的的样本容容量均为为n,将所有这这样的样样本都抽抽出来,并计算算出每一一个样本本的平均均数原来的那那个总体体,称为为原总体体由样本平平均数组组成的分分布称为为样本平平均数的的抽样分分布如果原总总体的平平均数为为,标准差为为,那么样本本平均数数抽样总总体:平均数为为:标准差为为:称为样本本平均数数抽样总总体的标标准误差差简称为标标准误(standarderror)由这些样样本平均均数组成成的新总总体,就就称为样样本平均均数抽样样总体。标准误表表示平均均数抽样样误差的的大小,反映样样本平均均数与新新总体平平均数之之间的离离散程度度。标

21、准差表表示的是是原总体体中原始始数据与与原总体体平均数数的关系系标准误表表示的是是从原总总体中抽抽取的样样本平均均数与样样本平均均数抽样样总体平平均数的的关系研究总体体与样本本的关系系就转化化成了讨讨论原总总体与样样本平均均数抽样样总体的的关系:例6:设有一总总体,总总体容量量为N=3,观测值分分别为2、4、6,以以样本容容量n=2对该总体体进行复复置抽样样,证明明:(1)(2)原总体的的总体平平均数为为:(1)以样本容容量n= 2对该总体体进行复复置抽样样,则样样本平均均数抽样样总体为为:样本平均均数抽样样总体的的总体容容量为:样本平均均数抽样样总体的的总体平平均数为为:(2)原总体的的总体

22、标标准差为为:样本平均均数抽样样总体的的总体标标准差为为:2.2样样本平平均数抽抽样分布布的特点点(1)样样本平均均数抽样样总体的的总体平平均数与与原总体体的总体体平均数数相等,因此,可可用代替(2)样样本平均均数抽样样总体的的方差与与原总体体的方差差的关系系为(3)当当随机变变量xN(,2)时,样本本平均数数当随机变变量x不呈正态态分布或或分布未未知时,只要样样本容量量n不断增大大(或足足够大),则样样本平均均数的分分布逐渐渐趋向于于正态分分布,且且平均数数为,方差为中心极限限定理样本平均均值服服从或近近似服从从正态分分布2.3与的的关系系(1)(2)表示原总总体中各各观测值值的离散散程度表

23、示样本本平均数数抽样总总体中各各样本平平均数的的离散程程度(3)是总体中中各观测测值变异异程度的的度量值值是样本平平均数抽抽样误差差的度量量值是用来衡衡量样本本平均数数代表总总体平均均数的代代表程度度的(4)称为标准准差,用用Sd表示称为标准准误,用用Se表示4.t-分布(不不要求)4.1t-分布的定定义设有服从从正态分分布的随随机变量量x,正态分布布的标准准化公式式为: 对于总体体方差2已知的总总体,根据公式式可以计计算出随随机变量量x在某一区区间内出出现的概概率:对于总体体方差2已知的总总体,根根据公式式可以知知道样本平均均数在某一区区间内出出现的概概率,公公式为:服从标准准正态分分布附:

24、服从标准准正态分分布假如2未知,而而且样本本容量又又比较小小(n30)时:标准化公公式可变变换为:t统计量组组成的分分布,就就称为t分布(t distribution)不再服从从标准正正态分布布t分布是一一组曲线线,自由由度不同同,曲线线不同,但均以以y轴为对称称t分布只有有一个参参数,即即自由度度dft分布的平平均数和和标准差差为:0(df1)(df2)服从t-分布4.2t-分布的特特点(1)t分布为对对称分布布,关于于t= 0对称;只只有一个个峰,峰峰值在t= 0处;与标标准正态态分布曲曲线相比比,t分布曲线线顶部略略低,两两尾部稍稍高而平平(2)t分布曲线线受自由由度df的影响,自由度度

25、越小,离散程程度越大大(3)t分布的极极限是正正态分布布。df越大,t分布越趋趋近于标标准正态态分布当n 30时,t分布与标标准正态态分布的的区别很很小;n 100时,t分布基本本与标准准正态分分布相同同;n时,t分布与标标准正态态分布完完全一致致4.3t-分布的概概率计算算附表4给给出了t分布的两两尾临界界值当左尾和和右尾的的概率之之和为(每侧为为/2)时时,t分布在横横坐标上上的临界界值的绝绝对值,记为t例7:根根据附表表4查出出相应的的临界t值 :(1)df=9,=0.05;(2)df=9,=0.01从一个平平均数为为,方差为2的正态总总体中,进行独独立地抽抽样,可可获得随随机变量量x,

26、则其标准准离差:N(0,1)如果连续续进行n次独立抽抽样,可可得n个标准正正态离差差ui,对这n个独立的的标准正正态离差差ui进行平方方求和就就得到一一个新的的统计量量2:5.2-分布(不不要求)5.12-分布的定定义如果用样样本进行行计算:由这些2值所组成成的一个个分布,就称之之为2分布(2distribution)5.22-分布的特特点(1)2分布的取取值范围围为0,+),无无负值(2)2分布的平平均数为为:方差为:(3)2分布的形形状决定定于自由由度df当df=1时,曲线线呈反J形随着df的增大,曲线渐渐趋对称称当df30时,向正正态分布布渐近(4)2还可以定定义为理理论次数数与观察察次

27、数间间的符合合程度(离散散型变量量)O 观察次数数E 理论次数数5.32-分布的概概率计算算附表3给给出了2分布的右右尾临界界值当右尾概概率为时,2分布在横横坐标上上的临界界值的绝绝对值,记为例8:根根据附表表3查出出相应的的右尾临临界2值 :(1)df=9,=0.05;(2)df=9,=0.01如果计算算左尾概概率为时2分布的临临界值,只需查查右尾概概率为1-的右尾临临界值即即可。6.F-分布6.1F-分布的定定义从一个方方差2的正态总总体中独独立地抽抽取样本本容量分分别为n1、n2的两个样样本,这这两个样样本的方方差分别别为:则有:这两个2变量除以以各自的的自由度度后的比比值为:由一系列列

28、F值所构成成的分布布称为F分布(F distribution)FF(df1,df2)已计算:6.2F-分布的特特点(1)F分布密度度曲线是是随自由由度df1、df2的变化而而变化的的一簇偏偏态曲线线其形状随随着df1、df2的增大逐逐渐趋于于对称;(2)F分布的取取值范围围是(0,+),其其平均数数:6.3F-分布的概概率计算算附表5给给出了F分布的右右尾临界界值当右尾概概率为时,2分布在横横坐标上上的临界界值的绝绝对值,记为F例9:根根据附表表5查出出相应的的右尾临临界F值 :(1)df1=4,df2=20,=0.05;(2)df1=4,df2=20,=0.01F0.01(4,20)= 4.

29、43F0.05(4,20)= 2.87第三节统统计计推断假设检验验参数估计计统计学1.统计计推断:根据样样本的观观察结果果以及样样本统计计量的抽抽样分布布,对总总体的数数量特征征作出具具有一定定可靠程程度的估计和判判断。2.统计计推断的的基本内内容有两两个:(1)参参数估计计(利用样样本指标标来推断断估计未未知的总总体指标标。)(2)假假设检验验(先对总总体参数数做一个个假设,然后利利用样本本资料检检验这个个假设是是否成立立。)统计推断断概述假设你正正在研究究平均一一个美国国人一生生中要得得到多少少交通罚罚单,报报告研究究结果的的方法有有以下两两种:“10”或者“8到12之间间”一、参数数估计

30、区间估计计:给结结论留一一些余地地。Gudmund R. Iversen1、点估估计1.用样样本的估估计量直直接作为为总体参参数的估估计值例如:用用样本均均值直接接作为总体均值值的估计计例如:用用样本方方差直接接作为总体方差差的估计计2.没有有给出估估计值接接近总体体参数程程度的信信息2、区间间估计在点估计计的基础础上,给给出总体体参数估估计的一一个区间范围围,该区间间由样本本统计量量加减抽抽样误差差而得到到的根据样本本统计量量的抽样样分布能能够对样样本统计计量与总总体参数数的接近近程度给给出一个个概率度度量比如,某某班级平平均分数数在7585之间,置置信水平平是95%样本统计量 (点估计)置

31、信区间置信下限置信上限(不要求求)统计假设设检验又又称为显显著性检检验,是是生物统统计学的的核心内内容,是是统计推推断的主主要组成成部分统计推断断(statisticalinference)就是通过过样本特特征(统统计量)来推断断相应总总体特征征(参数数)的方方法参数估计计(parametric estimate)通过样本本统计量量估计总总体参数数的方法法 点估估计(pointestimate) 区间间估计(intervalestimate)直接用样样本统计计量的数数值估计计出相应应总体参参数具体体值的方方法在一定的的概率保保证下(一般为为95%或99%),根据样样本统计计量的分分布,计计算出

32、总总体参数数出现的的数值范范围或区区间,用用该区间间来估计计总体参参数的方方法 参数数估计是是对总体体参数的的定量分析析二、假设设检验统计假设设检验(hypothesis test)根据某种种实际需需要,对对未知的的或不完完全知道道的总体体参数提提出一些些假设,然后根根据样本本观测值值和统计计量的分分布,通通过一定定的计算算,再作作出在一一定概率率意义上上应当接接受哪种种假设的的方法。统计假设设检验的的假设是是对总体体提出的的,由于于最后检检验的结结论只有有两种:要比较较的总体体参数间间要么存存在显著著差异,要么不不存在显显著差异异 统计计假设检检验是对对总体参参数的定性分析析1.统统计假假设

33、检验验的意义义以两个平平均数之之间差异异的显著著性检验验为例现随机挑挑选10名中国国女性和和10名名韩国女女性,请请世界网网络知名名度大赛赛评委和和观众进进行知名名度评分分,试比比较哪个个国家女女性知名名度更高高?9.999.859.999.959.989.979.959.95中国女性性的平均均得分9.98韩国女性性的平均均得分9.91两个国家家女性的的平均得得分并不不相等,其差值值(表面面效应)为:根据两个个样本平平均数的的差值0.07,是否否可以给给两个样样本所在在总体的的总体平平均数下下这样的的结论:中国女性性总体的的平均得得分高于于韩国女女性总体体的平均均得分中国女性性比韩国国女性知知

34、名度更更高 如果果从经典典数学的的角度来来看,答答案应该该是肯定定 如果果从生物物统计学学的角度度来看,在未经经过统计计假设检检验以前前,只能能说“不不一定”事实上,仅仅凭凭借样本本平均数数之差不不等于0就得出出其所属属的总体体平均数数不相等等是不可可靠的实际上,进行试试验研究究的目的的并不在在于了解解样本的的结果,而是要要通过样样本了解解总体,通过样样本来推推断总体体,从而而对总体体给出一一个全面面的结论论2.统统计假假设检验验的基本本思想与与步骤首先根据据具体试试验目的的提出一一个假设设然后在假假定该假假设成立立(或正正确)的的前提下下进行试试验,并并取得数数据,接接着对这这些资料料进行统

35、统计分析析,获得得该假设设成立的的概率最后根据据所获得得的概率率值的大大小来判判断假设设是否成成立如果所得得概率较较大,就就表明我我们没有有足够的的理由来来否定所所作假设设,即必必须接受受这一假假设如果所得得概率较较小,就就表明这这一假设设不大可可能成立立,应予予否定,从而接接受其对对立假设设统计假设设检验的的基本步步骤例3-3:通过过以往的的大规模模调查,已知某某地成年年黑白花花奶牛血血液中的的白细胞胞数为52.3,标准准差为5.38,现测测得10头黑白白花牛白白细胞数数分别为为53.6,55.3,46.4,57.2,46.0,43.2,48.1,51.1,49.9,44.5;=49.53。

36、试试问这批批黑白花花奶牛是是否来自自于某地地黑白花花奶牛总总体?(1)对所研究究的总体体提出假假设研究某一一随机样样本所在在的总体体(用表示)和和一已知知总体(用0表示)是是否为同同一总体体,也就就是研究究这一随随机样本本是否来来自于已已知总体体假设:两个总体体为同一一个总体体(即两两个总体体的总体体平均数数相等)无效假设设(null hypothesis)用H0表示即H0:=0无效假设设的含义义:无效假设设就是假假设两总总体的平平均数相相等,即即H0:假设样本本平均数数与已知总总体平均均数由抽样误误差引起起的,并并不是两两总体之之间的真真实差异异两总体之之间的差差异是由由抽样误误差所引引起的

37、为了在无无效假设设被否定定后有可可以被接接受的假假设,因因此应在在设立无无效假设设的同时时设立一一个后备备假设备择假设设(alternativehypothesis)用HA表示即HA:备择假设设的统计计学意义义:样本所在在总体与与已知总总体不是是同一个个总体,即两总总体的平平均数不不等,即即:两总体之之间的差差异是真实差差异,而而不是由由抽样误误差引起起的统计假设设检验中中完整的的假设是是:两总体之之间的差差异是真真实差异异(2)在假定无无效假设设成立的的前提下下,研究究样本平平均数的的抽样分分布,计计算样本本平均数数出现的的概率样本平均均数与总总体平均均数间有有一个实实际存在在的差值值:这个

38、差值值就是表表面效应应,可能能是抽样样误差,也可能能是真实实差异,因此需需要借助助概率原原理来进进行判断断第一种方方法:计计算差值值-2.77(或或样本平平均数)出现的概概率在无效假假设成立立的前提提下,样样本所在在的总体体与已知知总体为为同一个个总体,因此样样本所在在总体的的总体平平均数和和方差已已知,即即:由于总体体方差已已知,根根据标准准正态分分布就可以计算算出差值值-2.77出出现的概概率0.10.11标准化:构造统统计量正正态分分布转换换为标准准正态分分布-计算算概率第二种方方法:计计算样本本平均数数的接受受区间根据标准准化公式式计算样样本平均均数的接接受区间间:接受区间间否定区间间

39、接受区间间和否定定区间是是有一定定的概率率保证的的,保证证概率为为1-,常用的保保证概率率为95%和99%;为显著水水平,常常用的显显著水平平有0.05和和0.01倘若样本本平均数数落在接接受区间间内,就就接受H0,反之,倘倘若样本本平均数数落在接接受区间间之外,就否定定H0,接受HA作为0.05显显著水平平上接受受或否定定无效假假设的两两个临界界值作为0.01显显著水平平上接受受或否定定无效假假设的两两个临界界值95%的的接受区区间为:99%的的接受区区间为:(3)根据“小小概率事事件实际际不可能能性原理理”接受受或否定定无效假假设小概率事事件实际际不可能能性原理理是指在在一次试试验中,概率

40、很很小的事事件是不不可能出出现的在统计学学中,当当样本平平均数与与总体平平均数差差值出现现的概率率小于5%时,就认为为这种差差异由抽抽样误差差引起的的概率较较小,而而是两总总体间的的真实性性差异,从而否否定无效效假设差值-2.77出现的的概率为为0.10.11,大于0.05,概率率较大;说明明样本平平均数与与已知总总体的总总体平均均数之间间的差异异是抽样样误差的的概率较较大,而而不大可可能是真真实差异异接受无效效假设,也就是是说这批批黑白花花奶牛是是来自于于某地黑黑白花奶奶牛总体体。总结:统统计假设设检验的的步骤(1)提提出假设设(2)构构造、计计算检验验统计量量(转换换为方便便计算概概率,如

41、如U,t值等)(3)查查附表,根据小小概率原原理作出出接受或或者否定定无效假假设的推推断,并并结合专专业知识识作出合合理的、科学的的解释例4-2:1995年年,已知知某地20岁应应征男青青年的平平均身高高为168.5cm。2005年在当地地20岁岁应征男男青年中中随机抽抽取85人,平平均身高高为171.2cm,标准差为为5.3cm,问2005年当当地20岁应征征男青年年的身高高与1995年年的是否否相同?解:(1)提提出假设设H0:=168.5HA:168.5与1995年相相比,2005年当地地20岁岁应征男男青年的的身高没没有变化化与1995年相相比,2005年当地地20岁岁应征男男青年的的

42、身高有有变化(2)计计算u值(3)查查表,作作出推断断u0.05=1.96,u0.01=2.58|u| =4.702.58=u0.01,P0.01根据“小小概率事事件原理理”可以以认为无无效假设设不成立立,因此此否定无无效假设设,接受受备择假假设样本不是是来自于于已知总总体,即即2005年当当地20岁应征征男青年年的身高高有变化化,比1995年增高高了在显著性性检验中中,否定定或接受受无效假假设的依依据是“小概率率事件实实际不可可能性原原理”用来确定定否定或或接受无无效假设设的概率率标准称称为显著著水平,记作 若|u|u0.05P0.05,说明表面面效应属属于试验验误差的的可能性性大,不不能否

43、定定无效假假设,两个总体体平均数数间差异不显显著若u0.05|u|u0.01P0.05,说明表面面效应属属于试验验误差的的概率P在0.01-0.05之间,表面效效应属于于试验误误差的可可能性较较小,应应否定无无效假设设,接受受备择假假设两个总体体平均数数间差异显著著标记*若|u|u0.01P0.01,说明表面面效应属属于试验验误差的的概率P不超过0.01,表面面效应属属于试验验误差的的可能性性更小,应否定定无效假假设,接接受备择择假设两个总体体平均数数间差异极显显著标记*3.一一尾检检验和两两尾检验验所研究样样本的样样本平均均数,有有可能大大于已知知总体的的总体平平均数,也有可可能小于于已知总总体的总总体平均

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论