![环境统计学-概率分布_第1页](http://file4.renrendoc.com/view/152aba675e60d6c4242523f0319b506a/152aba675e60d6c4242523f0319b506a1.gif)
![环境统计学-概率分布_第2页](http://file4.renrendoc.com/view/152aba675e60d6c4242523f0319b506a/152aba675e60d6c4242523f0319b506a2.gif)
![环境统计学-概率分布_第3页](http://file4.renrendoc.com/view/152aba675e60d6c4242523f0319b506a/152aba675e60d6c4242523f0319b506a3.gif)
![环境统计学-概率分布_第4页](http://file4.renrendoc.com/view/152aba675e60d6c4242523f0319b506a/152aba675e60d6c4242523f0319b506a4.gif)
![环境统计学-概率分布_第5页](http://file4.renrendoc.com/view/152aba675e60d6c4242523f0319b506a/152aba675e60d6c4242523f0319b506a5.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1环境统计学授课教师:林红军授课时间:2010学年第二学期Presentation(EnvironmentalStatistics)环境科学系办公地点:校8幢123室,17幢612室E-mail:hjlin@,linhonjun@163.comCell6798562环境统计学第1章绪论第2章概率统计基础第3章环境一元线性回归分析第4章环境多元线性回归分析第5章环境系统聚类分析第6章环境模糊聚类分析第7章环境判别分析第8章环境主成分分析第9章环境因子分析第10章人工神经网络第11章环境空间统计分析3随机事件随机试验随机事件事件的运算概率概率古典概率概率计算数学特征数学期望方差变异系数协方差相关系数概率数学特征随机事件概率分布正态分布t分布x2分布F分布概率分布统计推断参数估值点估计区间估计置信区间假设检验统计推断概率统计基础第四节重要的概率分布常用连续型概率分布5COD的测试微回流重铬酸钾测试方法正态分布
(normaldistribution)6COD的测试1000mg/L900次810次11次1次次数浓度7概率密度函数
(probabilitydensityfunction)1.设X为一连续型随机变量,x
为任意实数,X的概率密度函数记为f(x),它满足条件
f(x)不是概率8正态分布
(normaldistribution)由C.F.高斯(CarlFriedrichGauss,1777—1855)作为描述误差相对频数分布的模型而提出描述连续型随机变量的最重要的分布许多现象都可以由正态分布来描述可用于近似离散型随机变量的分布例如:二项分布经典统计推断的基础xf(x)正态分布的定义及其特征
(一)正态分布的定义若连续型随机变量x的概率分布密度函数为
(1)
其中μ为平均数,σ2为方差,则称随机变量x服从正态分布(normaldistribution),记为x~N(μ,σ2)。相应的概率分布函数为
(2)函数在上单调增加,在上单调减少,在取得最大值;称轴不变,而形状在改变,图形越高越瘦,图形越矮越胖.轴平移,而不改变其形状,可见正态分布的概率密为位置参数.
决定了图形的中心位置,决定了图形中峰的陡峭程度.
正态分布
的图形特点正态分布的计算原函数不是初等函数方法一:利用MATLAB软件包计算方法二:转化为标准正态分布查表计算的正态分布称为标准正态分布.记为其密度函数和分布函数常用
和
表示:标准正态分布标准正态分布Xms一般正态分布
=1X标准正态分布
书末附有标准正态分布函数数值表,有了它,可以解决一般正态分布的概率计算查表.正态分布表当x<0
时,表中给的是x>0时,Φ(x)的值.(一)标准正态分布的概率计算设z服从标准正态分布,则z在[z1,z2
]何内取值的概率为:=Φ(z2)-Φ(z1)而Φ(z1)与Φ(z2)可由附表1查得。正态分布的概率计算
例如,Z=1.75,1.7放在第一列0.05放在第一行。在附表1中,1.7所在行与0.05所在列相交处的数值为0.95994,即
Φ(1.75)=0.95994
有时会遇到给定Φ(Z)值,例如Φ(Z)=0.284,反过来查u值。这只要在附表1中找到与0.284最接近的值0.2843,对应行的第一列数-0.5,对应列的第一行数值0.07,即相应的u值为u=-0.57,即
Φ(-0.57)=0.284
如果要求更精确的u值,可用线性插值法计算。21【例1】定某公司职员每周的加班津贴服从均值为50元、标准差为10元的正态分布,那么全公司中有多少比例的职员每周的加班津贴会超过70元,又有多少比例的职员每周的加班津贴在40元到60元之间呢?解:设
=50,
=10,X~N(50,102)22【例2】解24思考题1、已知某种水果的单个重量服从正态分布,平均值为140g,标准差为12.2g,今随机抽出一个,试问其重量不小于130g的概率是多少?2、某地区成年男子身高服从正态分布,其均值是169cm,标准差为7cm。求满足满足以下条件的男子的比例:⑴、155cm以下;⑵、176cm以上;⑶155cm~176cm之间3、某电视机厂某种型号电视机的销售价为2000元,成本为1200元。产品中有一部分可能会在保持期内损坏,因此厂家得免费维修,假设修理费平均而言每台500元。现假设电视机的使用寿命呈正态分布,均值为7年,标准差为3年。问:如果希望每台电视机的平均利润达到750元,厂家应承诺的保修期大概是几年?
当总体标准差σ未知时,以样本标准差S代替σ所得到的统计数记为t。即t
分布
若x~N(μ,σ2),则~N(μ,σ2/n)。将随机变量标准化得:
,则z~N(0,1)。
t分布是类似正态分布的一种对称分布,它通常要比正态分布平坦和分散。一个特定的分布依赖于称之为自由度的参数。随着自由度的增大,分布也逐渐趋于正态分布xt
分布与标准正态分布的比较t分布标准正态分布t不同自由度的t分布标准正态分布t(df=13)t(df=5)zt
分布
在计算时,由于采用S来代替σ,使得t
变量不再服从标准正态分布,而是服从自由度d=n-1
的t分布。t的取值范围是(-∞,+∞);ft
分布与标准正态分布曲线相比,t分布曲线顶部略低,两尾部稍高而平。df越小这种趋势越明显。df越大,t分布越趋近于标准正态分布。t
分布当n>30时,t分布与标准正态分布的区别很小;n>100时,t分布基本与标准正态分布相同;n→∞时,t
分布与标准正态分布完全一致。由阿贝(Abbe)于1863年首先给出,后来由海尔墨特(Hermert)和卡·皮尔逊(K·Pearson)分别于1875年和1900年推导出来设,则令,则Y服从自由度为1的
2分布,即
当总体,从中抽取容量为n的样本,则
2分布
(
2distribution)30分布的变量值始终为正分布的形状取决于其自由度n的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称期望为:E(
2)=v,方差为:D(
2)=2v(v为自由度)可加性:若U和V为两个独立的
2分布随机变量,U~
2(v1),V~
2(v2),则U+V这一随机变量服从自由度为v1+v2的
2分布
2分布
(
2distribution)5、设X~N(u,),x1,x2……,xn是X的一个样本,与分别为样本的均值和方差,则有:
2分布
(
2distribution)
不同容量样本的抽样分布c2n=1n=4n=10n=20
2分布
(
2distribution)33
分位点若对于给定的,0<<1,存在使得则称点为分布的上分位点,如图所示。
34由统计学家费希尔(R.A.Fisher)
提出的,以其姓氏的第一个字母来命名设若U为服从自由度为v1的
2分布,即U~
2(v1),V为服从自由度为v2的
2分布,即V~
2(v2),且U和V相互独立,则称F为服从自由度v1和v2的F分布,记为F分布
(Fdistribution)35假设总体X-N(),总体Y-N(),X,Y相互独立,x1,x2,……,xn和y1,y2,……,yn分别是来自X和Y的样本。分别是它们的方差,则:36F分布
(图示)
不同自由度的F分布F(1,10)(5,10)(10,10)37——α分位点对于给定的α,0<α<1,称满足为F分布的α分位点。——参数估计(parametricestimation)假设检验(testofhypothesis)
根据总体理论分布,从样本统计数对总体参数的推断常用的有t检验、F检验和
2检验等,基本原理相同。主要内容:
假设检验又叫显著性检验。统计推断
(Fdistribution)39统计推断的过程样本总体样本统计量如:样本均值、比率、方差总体均值、比率、方差等参数估计的基本理论抽样估计的基本条件有合适的统计量作为估计量有合理的允许误差范围有一个可以接受的置信度参数估计的基本概念总体和样本参数及统计量样本容量和样本个数重复抽样和不重复抽样参数估计的基本方法点估计和区间估计参数估计在统计方法中的地位参数估计假设检验统计方法描述统计推断统计1.估计量:用于估计总体参数的随机变量如样本均值,样本比率、样本方差等例如:样本均值就是总体均值
的一个估计量2.参数用
表示,估计量用
表示3.估计值:估计参数时计算出来的统计量的具体值如果样本均值
x=80,则80就是
的估计值估计量与估计值参数估计的方法估计方法点估计区间估计44点估计用样本的估计量直接作为总体参数的估计值例如:用样本均值直接作为总体均值的估计例如:用两个样本均值之差直接作为总体均值之差的估计没有给出估计值接近总体参数程度的信息点估计的方法有矩估计法、顺序统计量法、最大似然法、最小二乘法等点估计完全正确的概率通常为0。因此,我们更多的是考虑用样本统计量去估计总体参数的范围
区间估计。45区间估计含义:在点估计的基础上,估计总体参数的区间范围,并给出区间估计成立的概率值。其中:1-α(0<α<1)称为置信水平α是区间估计的显著性水平;常用的置信水平值有99%,95%,90%相应的
为0.01,0.05,0.10注意对上式的理解:例如抽取了1000个样本,根据每一个样本均构造了一个置信区间,,这样,由1000个样本构造的总体参数的1000个置信区间中,有95%的区间包含了总体参数的真值,而5%的置信区间则没有包含。这里,95%这个值被称为置信水平(或置信度)。一般地,将构造置区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例称为置信水平。46样本统计量
(点估计)置信区间置信下限置信上限由样本统计量所构造的总体参数的估计区间称为置信区间统计学家在某种程度上确信这个区间会包含真正的总体参数,所以给它取名为置信区间用一个具体的样本所构造的区间是一个特定的区间,我们无法知道这个样本所产生的区间是否包含总体参数的真值
我们只能是希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个47区间估计的图示
x95%的样本
-1.96
x
+1.96
x99%的样本
-2.58
x
+2.58
x90%的样本
-1.65
x
+1.65
x48置信区间我们用95%的置信水平得到某班学生考试成绩的置信区间为60-80分,如何理解?错误的理解:60-80区间以95%的概率包含全班同学平均成绩的真值;或以95%的概率保证全班同学平均成绩的真值落在60-80分之间。正确的理解:如果做了多次抽样(如100次),大概有95次找到的区间包含真值,有5次找到的区间不包括真值。真值只有一个,一个特定的区间“总是包含”或“绝对不包含”该真值。但是,用概率可以知道在多次抽样得到的区间中大概有多少个区间包含了参数的真值。如果大家还是不能理解,那你们最好这样回答有关区间估计的结果:该班同学平均成绩的置信区间是60-80分,置信度为95%。49置信区间与置信水平样本均值的抽样分布(1-
)%区间包含了
%的区间未包含
1–aa/2a/2一个总体参数的区间估计一、总体均值的区间估计二、总体比率的区间估计三、总体方差的区间估计51一个总体参数的区间估计总体参数符号表示样本统计量均值比率方差总体均值的区间估计(大样本)1.假定条件总体服从正态分布,且方差(
2)
未知如果不是正态分布,可由正态分布来近似(n>30)2.使用正态分布统计量z3.总体均值
在1-
置信水平下的置信区间为利用SPSS软件对总体均值的估计
按Analyze→DescriptiveStatistics→Explore展开Explore对话框,如图。从左侧的源变量框中,选择需要估计的变量(要求是数值型变量)作为因变量进入Dependent框中后,完成相应的对话框选项。单击OK即可完成总体均值的参数估计。总体均值的区间估计(例题分析)【例】一家食品生产企业以生产袋装食品为主,为对产量质量进行监测,企业质检部门经常要进行抽检,以分析每袋重量是否符合要求。现从某天生产的一批食品中随机抽取了25袋,测得每袋重量如下表所示。已知产品重量的分布服从正态分布,且总体标准差为10g。试估计该批产品平均重量的置信区间,置信水平为95%25袋食品的重量
112.5101.0103.0102.0100.5102.6107.595.0108.8115.6100.0123.5102.0101.6102.2116.695.497.8108.6105.0136.8102.8101.598.493.3解:已知X~N(
,102),n=25,1-
=95%,z
/2=1.96根据资料计算样本均值为:
总体均值
在1-
置信水平下的置信区间为:该食品平均重量的置信区间为101.44g~109.28g总体均值的区间估计(例题分析)【例】一家保险公司收集到由36投保个人组成的随机样本,得到每个投保人的年龄(周岁)数据如下表。试建立投保人年龄90%的置信区间
36个投保人年龄的数据
233539273644364246433133425345544724342839364440394938344850343945484532总体均值的区间估计(例题分析)解:已知n=36,1-
=90%,z
/2=1.645根据资料计算样本均值和标准差为:总体均值
在1-
置信水平下的置信区间为:投保人平均年龄的置信区间为37.37岁~41.63岁总体均值的区间估计(例题分析)1. 假定条件总体服从正态分布,且方差(
2)
未知小样本(n<30)2.使用t
分布统计量3.总体均值
在1-
置信水平下的置信区间为总体均值的区间估计(小样本)【例】已知某种灯泡的寿命服从正态分布,现从一批灯泡中随机抽取16只,测得其使用寿命(小时)如下。建立该批灯泡平均使用寿命95%的置信区间16灯泡使用寿命的数据
1510152014801500145014801510152014801490153015101460146014701470总体均值的区间估计(例题分析)解:已知X~N(
,2),n=16,1-
=95%,t
/2=2.131
根据资料计算样本均值和标准差为:
总体均值
在1-
置信水平下的置信区间为平均使用寿命的置信区间为1476.8-1503.2小时。总体均值的区间估计(例题分析)假设检验假设检验的基本原理基本思路小概率原理基本命题形式单侧检验与双侧检验假设检验规则与两类错误假设检验的一般步骤假设检验与参数估计的关系利用P值进行假设检验62假设检验参数假设检验非参数假设检验这类问题称作假设检验问题.总体分布已知,检验关于未知参数的某个假设总体分布未知时的假设检验问题
在本讲中,我们将讨论不同于参数估计的另一类重要的统计推断问题.这就是根据样本的信息检验关于总体的某个假设是否正确.假设检验假设检验概述
(hypothesistest)1.先对总体的参数(或分布形式)提出某种假设,然后利用样本信息判断假设是否成立的过程2.有参数检验和非参数检验3.逻辑上运用反证法,统计上依据小概率原理假设检验的基本原理基本思路首先对研究命题提出一种假设(原假设)再从总体中抽出样本,观测取值,计算统计量最后比较判断原假设是否正确小概率原理若对总体的某种假设是真实的,那么不利于或不支持这一假设的事件(小概率事件)在一次试验中几乎不可能发生,如果发生即可怀疑原假设的真实性。基本命题原假设(H0)备则假设(H1)备择假设研究者想收集证据予以支持的假设也称“研究假设”总是有符号≠,
≤或≥表示为H1H1
:u<某一数值,或u>某一数值例如:H1
:u<10cm或u>
10cm原假设和备择假设原假设研究者想收集证据予以反对的假设又称“0假设”总是有符号
,
或
表示为H0H0:
u=某一数值指定为符号=,<或>
例如,H0:
u=10cm假设检验的基本思想...因此我们拒绝假设
=50...如果这是总体的假设均值样本均值m=50抽样分布H0这个值不像我们应该得到的样本均值...20总体
假设检验的过程抽取随机样本均值
x
=20
我认为人口的平均年龄是50岁提出假设
拒绝假设别无选择!
作出决策提出假设(例题分析)解:研究者想收集证据予以证明的假设应该是“生产过程不正常”。建立的原假设和备择假设为
H0:
10cm
H1:
10cm
【例】一种零件的生产标准是直径应为10cm,为对生产过程进行控制,质量监测人员定期对一台加工机床检查,确定这台机床生产的零件是否符合标准要求。如果零件的平均直径大于或小于10cm,则表明生产过程不正常,必须进行调整。试陈述用来检验生产过程是否正常的原假设和被择假设解:研究者抽检的意图是倾向于证实这种洗涤剂的平均净含量并不符合说明书中的陈述。建立的原假设和备择假设为:
H0:
500H1:
<500
500g提出假设(例题分析)
【例】某品牌洗涤剂在它的产品说明书中声称:平均净含量不少于500克。从消费者的利益出发,有关研究人员要通过抽检其中的一批产品来验证该产品制造商的说明是否属实。试陈述用于检验的原假设与备择假设解:研究者想收集证据予以支持的假设是“该城市中家庭拥有汽车的比率超过30%”。建立的原假设和备择假设为:
H0:
30%
H1:
30%提出假设(例题分析)【例】一家研究机构估计,某城市中家庭拥有汽车的比率超过30%。为验证这一估计是否正确,该研究机构随机抽取了一个样本进行检验。试陈述用于检验的原假设与备择假设双侧检验与单侧检验双侧检验(two-tailedtest)
备择假设没有特定的方向性,并含有符号“
”的假设检验,又称双侧检验或双尾检验单侧检验(one-tailedtest)备择假设具有特定的方向性,并含有符号“>”或“<”的假设检验,称为单侧检验或单尾检验。备择假设的方向为“<”,称为左侧检验
备择假设的方向为“>”,称为右侧检验双侧检验与单侧检验(假设的形式)假设双侧检验单侧检验左侧检验右侧检验原假设H0:m
=m0H0:m
m0H0:m
m0备择假设H1:m
≠m0H1:
m
<m0H1:m
>m01.根据样本观测结果计算得到的,并据以对原假设和备择假设作出决策的某个样本统计量2.对样本估计量的标准化结果原假设H0为真点估计量的抽样分布检验统计量(teststatistic)3.标准化的检验统计量
显著性水平和拒绝域(双侧检验)抽样分布0临界值临界值a/2a/2
样本统计量拒绝H0拒绝H01-
置信水平0临界值临界值a/2
a/2
样本统计量拒绝H0拒绝H0抽样分布1-
置信水平显著性水平和拒绝域(双侧检验)0临界值临界值
a/2a/2
样本统计量拒绝H0拒绝H0抽样分布1-
置信水平显著性水平和拒绝域(双侧检验)0临界值临界值a/2
a/2
样本统计量拒绝H0拒绝H0抽样分布1-
置信水平显著性水平和拒绝域(双侧检验)0临界值a样本统计量拒绝H0抽样分布1-
置信水平显著性水平和拒绝域(单侧检验)0临界值a样本统计量拒绝H0抽样分布1-
置信水平观察到的样本统计量显著性水平和拒绝域(左侧检验)0临界值a样本统计量拒绝H0抽样分布1-
置信水平显著性水平和拒绝域(左侧检验)0临界值a样本统计量拒绝H0抽样分布1-
置信水平观察到的样本统计量显著性水平和拒绝域(右侧检验)0临界值a样本统计量抽样分布1-
置信水平拒绝H0显著性水平和拒绝域(右侧检验)决策规则1.给定显著性水平
,查表得出相应的临界值z
或z
/2,t
或t
/22.将检验统计量的值与
水平的临界值进行比较3.作出决策双侧检验:统计量绝对值
>临界值,拒绝H0左侧检验:统计量<-临界值,拒绝H0右侧检验:统计量>临界值,拒绝H0利用P值进行决策P是一个概率值,是拒绝原假设的最小显著性水平。在原假设为真的条件下,检验统计量的观察值大于或等于其计算值的概率。双侧检验为分布中两侧面积的总和反映实际观测到的数据与原假设H0之间不一致的程度被称为观察到的(或实测的)显著性水平决策规则:若p值<
,拒绝H0双侧检验的P值
/
2
/
2
Z拒绝H0拒绝H00临界值计算出的样本统计量计算出的样本统计量临界值1/2P值1/2P值0临界值a样本统计量拒绝H0抽样分布1-
置信水平计算出的样本统计量P值左侧检验的P值0临界值a拒绝H0抽样分布1-
置信水平计算出的样本统计量P值右侧检验的P值假设检验步骤的总结1.陈述原假设和备择假设2.从所研究的总体中抽出一个随机样本3.确定一个适当的检验统计量,并利用样本数据算出其具体数值4.确定一个适当的显著性水平,并计算出其临界值,指定拒绝域5.将统计量的值与临界值进行比较,作出决策统计量的值落在拒绝域,拒绝H0,否则不拒绝H0也可以直接利用P值作出决策一个总体参数的检验z检验(单尾和双尾)
t检验(单尾和双尾)z
检验(单尾和双尾)
2检验(单尾和双尾)均值一个总体比率方差总体均值的检验(作出判断)
是否已知小样本容量n大
是否已知否
t检验否z检验是z检验是z检验总体均值的检验(大样本)1. 假定条件正态总体或非正态总体大样本(n
30)使用z检验统计量
2
已知:
2
未知:总体均值的检验(大样本检验方法的总结)假设双侧检验左侧检验右侧检验假设形式H0
:m=m0H1:
m
m0H0:m
m0H1:m<m0H0:
m
m0
H1:
m>m0统计量
已知:
未知:拒绝域P值决策拒绝H0总体均值的检验(小样本)1. 假定条件总体服从正态分布小样本(n<
30)检验统计量
2
已知:
2
未知:利用SPSS软件进行一个总体的均值检验单一样本T检验(One-SampleTTest)过程可以检验单个变量的均值是否与给定的常数之间存在差异。按Analyze→CompareMean→One-SampleTTest展开One-SampleTTest单一样本T检验对话框,如图所示。总体均值的检验(小样本)假设双侧检验左侧检验右侧检验假设形式H0
:m=m0H1:
m
m0H0
:m
m0H1:
m<m0H0:
m
m0
H1:
m>m0统计量
已知:
未知:拒绝域P值决策拒绝H0注:
已知的拒绝域同大样本利用SPSS软件
进行两个总体比较的假设检验
进行独立样本T检验调用CompareMeans下的Independent-SamplesTtest过程。如图所示。
配对样本T检验调用的是CompareMeans菜单下的Paired-SamplesTTest过程,如图所示。两个总体均值之差的检验
(小样本
12,
22
已知)1.假定条件两个独立的小样本两个总体都是正态分布
12,
22已知2.检验统计量两个总体均值之差的检验
(匹配样本)1.假定条件两个总体配对差值构成的总体服从正态分布配对差是由差值总体中随机抽取的
数据配对或匹配(重复测量——前/后)2.检验统计量样本差值均值样本差值标准差99让我们先看一个例子.这一讲我们讨论对参数的假设检验.100
生产流水线上罐装可乐不断地封装,然后装箱外运.怎么知道这批罐装可乐的容量是否合格呢?把每一罐都打开倒入量杯,看看容量是否合于标准.这样做显然不行!罐装可乐的容量按标准应在350毫升和360毫升之间.101
每隔一定时间,抽查若干罐.
如每隔1小时,抽查5罐,得5个容量的值X1,…,X5,根据这些值来判断生产是否正常.
如发现不正常,就应停产,找出原因,排除故障,然后再生产;如没有问题,就继续按规定时间再抽样,以此监督生产,保证质量.通常的办法是进行抽样检查.102
很明显,不能由5罐容量的数据,在把握不大的情况下就判断生产
不正常,因为停产的损失是很大的.
当然也不能总认为正常,有了问题不能及时发现,这也要造成损失.
如何处理这两者的关系,假设检验面对的就是这种矛盾.103
在正常生产条件下,由于种种随机因素的影响,每罐可乐的容量应在350毫升上下波动.这些因素中没有那一个占有特殊重要的地位.因此,假定每罐容量服从正态分布是合理的.现在我们就来讨论这个问题.罐装可乐的容量按标准应在350毫升和360毫升之间.104它的对立假设是:称H0为原假设(或零假设,解消假设);称H1为备选假设(或对立假设).在实际工作中,往往把不轻易否定的命题作为原假设.H0:(=355)H1:
这样,我们可以认为X1,…,X5是取自正态总体
的样本,是一个常数.当生产比较稳定时,现在要检验的假设是:105那么,如何判断原假设H0
是否成立呢?较大、较小是一个相对的概念,合理的界限在何处?应由什么原则来确定?由于
是正态分布的期望值,它的估计量是样本均值,因此可以根据与
的差距来判断H0
是否成立.-
||较小时,可以认为H0是成立的;当-
||生产已不正常.当较大时,应认为H0不成立,即-
||106问题归结为对差异作定量的分析,以确定其性质.差异可能是由抽样的随机性引起的,称为“抽样误差”或随机误差这种误差反映偶然、非本质的因素所引起的随机波动.107
然而,这种随机性的波动是有一定限度的,如果差异超过了这个限度,则我们就不能用抽样的随机性来解释了.必须认为这个差异反映了事物的本质差别,即反映了生产已不正常.这种差异称作“系统误差”108
问题是,根据所观察到的差异,如何判断它究竟是由于偶然性在起作用,还是生产确实不正常?即差异是“抽样误差”还是“系统误差”所引起的?这里需要给出一个量的界限.109问题是:如何给出这个量的界限?这里用到人们在实践中普遍采用的一个原则:小概率事件在一次试验中基本上不会发生.110
现在回到我们前面罐装可乐的例中:在提出原假设H0后,如何作出接受和拒绝H0的结论呢?
在假设检验中,我们称这个小概率为显著性水平,用表示.常取
的选择要根据实际情况而定。111
罐装可乐的容量按标准应在350毫升和360毫升之间.一批可乐出厂前应进行抽样检查,现抽查了n罐,测得容量为X1,X2,…,Xn,问这一批可乐的容量是否合格?112提出假设选检验统计量H0:
=355
H1:≠355由于已知,它能衡量差异大小且分布已知.对给定的显著性水平
,可以在N(0,1)表中查到分位点的值,使113故我们可以取拒绝域为:也就是说,“”是一个小概率事件.W:如果由样本值算得该统计量的实测值落入区域W,则拒绝H0
;否则,不能拒绝H0.114
如果H0
是对的,那么衡量差异大小的某个统计量落入区域W(拒绝域)是个小概率事件.如果该统计量的实测值落入W,也就是说,H0成立下的小概率事件发生了,那么就认为H0不可信而否定它.
否则我们就不能否定H0
(只好接受它).这里所依据的逻辑是:115
不否定H0并不是肯定H0一定对,而只是说差异还不够显著,还没有达到足以否定H0的程度.所以假设检验又叫“显著性检验”116
在上面的例子的叙述中,我们已经初步介绍了假设检验的基本思想和方法.
下面,我们再结合另一个例子,进一步说明假设检验的一般步骤.117
例2某工厂生产的一种螺钉,标准要求长度是32.5毫米.实际生产的产品,其长度X假定服从正态分布未知,现从该厂生产的一批产品中抽取6件,得尺寸数据如下:32.56,29.66,31.64,30.00,31.87,31.03问这批产品是否合格?…分析:这批产品(螺钉长度)的全体组成问题的总体X.现在要检验E(X)是否为32.5.118提出原假设和备择假设第一步:已知X~未知.第二步:能衡量差异大小且分布已知取一检验统计量,在H0成立下求出它的分布119第三步:即“
”是一个小概率事件.小概率事件在一次试验中基本上不会发生.
对给定的显著性水平=0.01,查表确定临界值,使得否定域W:|t|>4.0322120得否定域W:|t|>4.0322故不能拒绝H0.第四步:将样本值代入算出统计量t
的实测值,|t|=2.997<4.0322没有落入拒绝域
这并不意味着H0一定对,只是差异还不够显著,不足以否定H0.方差分析的基本原理某银行对下属的三位出纳进行了一次考核,考察了这三位出纳一周内每天接待客户的数量,结果示于下表。问从表中的数据可否推断出哪一位出纳的业务能力较强?周一周二周三周四周五周六张三455647515045李四555053595849王五546154585251t检验法如果处理这一问题采用的是t检验,虽然也能判断数据均值的差异是否显著,但t检验每次只能处理两组数据,共需次检验。每次检验时共有两组,12个数据,则误差自由度为6-1=5。假设取α=0.05,则每次检验不犯弃真错误的概率为95%,又因每次检验都是相互独立的,故犯弃真错误的概率为1-0.953=0.143。方差分析的基本原理方差分析若采用方差分析,则把所有的数据作为一个整体考虑,一次比较就对各组间是否有显著差异作出判断。相比t检验,进行方差分析时不论数据分组的多少,均只要进行一次检验,犯弃真错误的几率不大;且误差自由度为3×(6-1)=15,误差估计精度较高。进行方差分析时,如果发现组间差异不显著,则认为各组均值相同;若差异显著,则可再比较哪组数据与其它不同。方差分析的基本原理相关术语试验因素试验中所研究的影响试验指标的原因或原因组合称为试验因素。试验因素可按性质的不同分为:可控因素(固定因素)和非控因素(随机因素)。试验因素常用大写字母A、B、C、…等表示。因素水平每个试验因素的不同状态(数量或性状上的区别),称为因素水平。因素水平常用下标如A1、B1、C1、…等表示。相关术语试验处理对受试对象给予的某种外部干预,是实验中实施的因子水平的一个组合。可分为单因素和多因素处理。当实验中涉及的因素只有一个时,称为单因素处理,实施在试验单位上的具体项目就是试验因素的某一水平。试验中涉及两个或以上的因素,则称为多因素处理,这时实施在试验单位上的具体项目就是各因素某一水平的组合。试验误差试验中无法控制的因素所引起的差异。试验单位在试验中能接受不同试验处理的独立的试验载体。重复在试验中将一个处理实施在两个或两个以上的试验单位上。在一个多处理试验中,可得到一系列不同的观测值。造成观测值不同的原因可能为处理效应或误差效应。方差分析的基本思想就是将总变异分解为处理效应和实验误差,并作出数量估计。通过计算处理效应和误差效应的均方,可检验处理间差异的显著性。随着试验处理因素的增多,总变异可分解为各种原因的变异。方差分析的基本原理数学模型处理A1A2…Ai…Akx11x21…xi1…xk1x12x22…xi2…xk2┆┆┆┆┆┆x1jx2j…xij…xkj┆┆┆┆┆┆x1nx2n…xin…xkn总和……平均……假定试验中有k组观测数据,每组n个观测值,则可用下表来表示:对第i个处理的第j个观测值来说,有:依据对τi
的不同假定,数学模型可分为固定、随机和混合模型。数学模型固定模型在固定模型中,各个处理的效应值τi是固定的,各个处理的平均效应τi=μi-μ
是一个常量,且有∑τi=0。试验因素的水平是根据试验目的事先主观选定而不是随机选定,得到的结论也只适合于方差分析中所考虑到的几个水平。数学模型数学模型随机模型在随机模型中,各处理的效应值τi
不是固定值,而是随机因素引起的效应。随机模型中τi是服从正态分布的随机变量,具有均值0和方差σ2。由随机模型得出的结论可推广到多个随机因素的所有水平上。数学模型数学模型混合模型混合模型的试验中既包含固定效应的因素,又包括随机效应的因素。不同模型在设计思想和统计推断上有明显不同,因此进行方差分析的公式推导也有所不同。且模型的侧重点也不一致,固定模型注重效应值τi
的估计和比较,随机模型侧重效应方差的估计和检验。数学模型平方和与自由度的分解平方和的分解引起观测值变异的原因可分为处理效应和试验误差,根据线性可加模型,有:平方和与自由度的分解平方和的分解每一个处理n个观测值离均差平方和累加,有:平方和与自由度的分解平方和的分解把k个处理的离均差再累加,得:平方和与自由度的分解其中平方和与自由度的分解平方和与自由度的分解平方和的分解可见,平方和经过分解后最终可得:总平方和=处理间平方和+处理内平方和,即:平方和与自由度的分解平方和与自由度的分解平方和的计算SST、SSt和SSe的计算公式如下:平方和与自由度的分解平方和与自由度的分解自由度的分解总自由度可分解为处理间自由度和处理内自由度。总自由度=处理间自由度+处理内自由度,即:平方和与自由度的分解平方和与自由度的分解自由度的计算dfT、dft和dfe的计算公式为:处理间方差和处理内方差的计算st2、se2的计算公式为:平方和与自由度的分解某银行对下属的三位出纳进行了一次考核,考察了这三位出纳一周内每天接待客户的数量,结果示于下表。问从表中的数据可否推断出哪一位出纳的业务能力较强?例题1周一周二周三周四周五周六张三455647515045李四555053595849王五546154585251例题1总平方和计算周一周二周三周四周五周六总均值张三45564751504552.67李四555053595849王五546154585251处理间平方和计算周一周二周三周四周五周六总均值张三49494949494952.67李四545454545454王五555555555555例题1周一周二周三周四周五周六均值总均
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年事业单位合同签订风险防范与应对措施
- 2025年广州房地产交易合同居间操作流程
- 2025年数字视频切换台项目规划申请报告模稿
- 2025年合作经营居间投资协议书
- 2025年专业知识产权顾问合同范本
- 2025年债权转让合同协议示范
- 2025年信息技术咨询顾问服务年合同
- 2025年农村耕地流转合同样本
- 2025年住宿生权益协议
- 2025年传统村落保护搬迁安置协议
- GB/T 13234-2009企业节能量计算方法
- GB/T 10781.2-2006清香型白酒
- 易经中的人生智慧-职业生涯规划与个人发展课件
- ABAP开发培训经典入门课件
- 北邮工程数学作业1-4
- 广东省紧密型县域医共体双向转诊管理中心运行指南
- PEP人教版小学英语单词卡片四年级下卡片
- 新部编版六年级下册道德与法治全册教案(教学设计)
- 小学英语六年级上册Unit1-The-king’s-new-clothes-第1课时课件
- 江苏省邳州市2021-2022学年人教版四年级上册期末数学试卷(含答案)
- 教练技术一阶段讲义(共59页)
评论
0/150
提交评论