数理统计教程_第1页
数理统计教程_第2页
数理统计教程_第3页
数理统计教程_第4页
数理统计教程_第5页
已阅读5页,还剩293页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章假设检验§3.1假设检验的基本概念

1湘潭大学数学与计算科学学院假设检验参数假设检验非参数假设检验这类问题称作假设检验问题.总体分布已知,检验关于未知参数的某个假设总体分布未知时的假设检验问题在本讲中,我们将讨论不同于参数估计的另一类重要的统计推断问题.这就是根据样本的信息检验关于总体的某个假设是否正确.2湘潭大学数学与计算科学学院让我们先看一个例子.这一讲我们讨论对参数的假设检验.3湘潭大学数学与计算科学学院生产流水线上罐装可乐不断地封装,然后装箱外运.怎么知道这批罐装可乐的容量是否合格呢?把每一罐都打开倒入量杯,看看容量是否合于标准.这样做显然不行!罐装可乐的容量按标准应在350毫升和360毫升之间.4湘潭大学数学与计算科学学院每隔一定时间,抽查若干罐.如每隔1小时,抽查5罐,得5个容量的值X1,…,X5,根据这些值来判断生产是否正常.如发现不正常,就应停产,找出原因,排除故障,然后再生产;如没有问题,就继续按规定时间再抽样,以此监督生产,保证质量.通常的办法是进行抽样检查.5湘潭大学数学与计算科学学院很明显,不能由5罐容量的数据,在把握不大的情况下就判断生产

不正常,因为停产的损失是很大的.当然也不能总认为正常,有了问题不能及时发现,这也要造成损失.如何处理这两者的关系,假设检验面对的就是这种矛盾.6湘潭大学数学与计算科学学院在正常生产条件下,由于种种随机因素的影响,每罐可乐的容量应在355毫升上下波动.这些因素中没有哪一个占有特殊重要的地位.因此,根据中心极限定理,假定每罐容量服从正态分布是合理的.现在我们就来讨论这个问题.罐装可乐的容量按标准应在350毫升和360毫升之间.7湘潭大学数学与计算科学学院它的对立假设是:称H0为原假设(或零假设,解消假设);称H1为备选假设(或对立假设).在实际工作中,往往把不轻易否定的命题作为原假设.H0:(=355)H1:这样,我们可以认为X1,…,X5是取自正态总体

的样本,是一个常数.当生产比较稳定时,现在要检验的假设是:8湘潭大学数学与计算科学学院那么,如何判断原假设H0

是否成立呢?较大、较小是一个相对的概念,合理的界限在何处?应由什么原则来确定?由于

是正态分布的期望值,它的估计量是样本均值,因此可以根据与

的差距来判断H0

是否成立.-

||较小时,可以认为H0是成立的;当-

||生产已不正常.当较大时,应认为H0不成立,即-

||9湘潭大学数学与计算科学学院问题归结为对差异作定量的分析,以确定其性质.差异可能是由抽样的随机性引起的,称为“抽样误差”或随机误差这种误差反映偶然、非本质的因素所引起的随机波动.10湘潭大学数学与计算科学学院然而,这种随机性的波动是有一定限度的,如果差异超过了这个限度,则我们就不能用抽样的随机性来解释了.必须认为这个差异反映了事物的本质差别,即反映了生产已不正常.这种差异称作“系统误差”11湘潭大学数学与计算科学学院问题是,根据所观察到的差异,如何判断它究竟是由于偶然性在起作用,还是生产确实不正常?即差异是“抽样误差”还是“系统误差”所引起的?这里需要给出一个量的界限.12湘潭大学数学与计算科学学院问题是:如何给出这个量的界限?这里用到人们在实践中普遍采用的一个原则:小概率事件在一次试验中基本上不会发生.13湘潭大学数学与计算科学学院下面我们用一例说明这个原则.小概率事件在一次试验中基本上不会发生.这里有两个盒子,各装有100个球.一盒中的白球和红球数99个红球一个白球…99个另一盒中的白球和红球数99个白球一个红球…99个14湘潭大学数学与计算科学学院小概率事件在一次试验中基本上不会发生.现从两盒中随机取出一个盒子,问这个盒子里是白球99个还是红球99个?15湘潭大学数学与计算科学学院小概率事件在一次试验中基本上不会发生.我们不妨先假设:这个盒子里有99个白球.现在我们从中随机摸出一个球,发现是此时你如何判断这个假设是否成立呢?16湘潭大学数学与计算科学学院假设其中真有99个白球,摸出红球的概率只有1/100,这是小概率事件.这个例子中所使用的推理方法,可以称为小概率事件在一次试验中竟然发生了,不能不使人怀疑所作的假设.带概率性质的反证法不妨称为概率反证法.小概率事件在一次试验中基本上不会发生.17湘潭大学数学与计算科学学院它不同于一般的反证法概率反证法的逻辑是:如果小概率事件在一次试验中居然发生,我们就以很大的把握否定原假设.一般的反证法要求在原假设成立的条件下导出的结论是绝对成立的,如果事实与之矛盾,则完全绝对地否定原假设.18湘潭大学数学与计算科学学院现在回到我们前面罐装可乐的例中:在提出原假设H0后,如何作出接受和拒绝H0的结论呢?在假设检验中,我们称这个小概率为显著性水平,用表示.常取的选择要根据实际情况而定。19湘潭大学数学与计算科学学院罐装可乐的容量按标准应在350毫升和360毫升之间.一批可乐出厂前应进行抽样检查,现抽查了n罐,测得容量为X1,X2,…,Xn,问这一批可乐的容量是否合格?20湘潭大学数学与计算科学学院提出假设选检验统计量~N(0,1)H0:=355

H1:

≠355由于已知,它能衡量差异大小且分布已知.对给定的显著性水平

,可以在N(0,1)表中查到分位点的值,使21湘潭大学数学与计算科学学院故我们可以取拒绝域为:也就是说,“”是一个小概率事件.W:如果由样本值算得该统计量的实测值落入区域W,则拒绝H0

;否则,不能拒绝H0.22湘潭大学数学与计算科学学院如果H0

是对的,那么衡量差异大小的某个统计量落入区域W(拒绝域)是个小概率事件.如果该统计量的实测值落入W,也就是说,H0成立下的小概率事件发生了,那么就认为H0不可信而否定它.

否则我们就不能否定H0

(只好接受它).这里所依据的逻辑是:23湘潭大学数学与计算科学学院不否定H0并不是肯定H0一定对,而只是说差异还不够显著,还没有达到足以否定H0的程度.所以假设检验又叫“显著性检验”24湘潭大学数学与计算科学学院如果显著性水平

取得很小,则拒绝域也会比较小.其产生的后果是:H0难于被拒绝.如果在很小的情况下H0仍被拒绝了,则说明实际情况很可能与之有显著差异.基于这个理由,人们常把时拒绝H0称为是显著的,而把在时拒绝H0称为是高度显著的.25湘潭大学数学与计算科学学院在上面的例子的叙述中,我们已经初步介绍了假设检验的基本思想和方法.下面,我们再结合另一个例子,进一步说明假设检验的一般步骤.26湘潭大学数学与计算科学学院

例2

某工厂生产的一种螺钉,标准要求长度是32.5毫米.实际生产的产品,其长度X假定服从正态分布未知,现从该厂生产的一批产品中抽取6件,得尺寸数据如下:32.56,29.66,31.64,30.00,31.87,31.03问这批产品是否合格?…分析:这批产品(螺钉长度)的全体组成问题的总体X.现在要检验E(X)是否为32.5.27湘潭大学数学与计算科学学院提出原假设和备择假设第一步:已知X~未知.第二步:能衡量差异大小且分布已知取一检验统计量,在H0成立下求出它的分布28湘潭大学数学与计算科学学院第三步:即“

”是一个小概率事件.小概率事件在一次试验中基本上不会发生.对给定的显著性水平=0.01,查表确定临界值,使得否定域W:|t|>4.032229湘潭大学数学与计算科学学院得否定域W:|t|>4.0322故不能拒绝H0.第四步:将样本值代入算出统计量t

的实测值,|t|=2.997<4.0322没有落入拒绝域这并不意味着H0一定对,只是差异还不够显著,不足以否定H0.30湘潭大学数学与计算科学学院假设检验会不会犯错误呢?由于作出结论的依据是下述小概率原理小概率事件在一次试验中基本上不会发生.不是一定不发生31湘潭大学数学与计算科学学院如果H0成立,但统计量的实测值落入否定域,从而作出否定H0的结论,那就犯了“以真为假”的错误.如果H0不成立,但统计量的实测值未落入否定域,从而没有作出否定H0的结论,即接受了错误的H0,那就犯了“以假为真”的错误.请看下表32湘潭大学数学与计算科学学院

假设检验的两类错误H0为真实际情况决定拒绝H0接受H0H0不真第一类错误正确正确第二类错误P{拒绝H0|H0为真}=,P{接受H0|H0不真}=.

犯两类错误的概率:显著性水平为犯第一类错误的概率.33湘潭大学数学与计算科学学院两类错误是互相关联的,当样本容量固定时,一类错误概率的减少导致另一类错误概率的增加.要同时降低两类错误的概率,或者要在不变的条件下降低,需要增加样本容量.34湘潭大学数学与计算科学学院例3

某织物强力指标X的均值=21公斤.改进工艺后生产一批织物,今从中取30件,测得=21.55公斤.假设强力指标服从正态分布且已知=1.2公斤,问在显著性水平=0.01下,新生产织物比过去的织物强力是否有提高?解:提出假设:取统计量否定域为W:=2.33是一小概率事件35湘潭大学数学与计算科学学院代入=1.2,n=30,并由样本值计算得统计量U的实测值U=2.51>2.33故拒绝原假设H0.落入否定域解:提出假设:取统计量否定域为W:=2.33此时可能犯第一类错误,犯错误的概率不超过0.01.36湘潭大学数学与计算科学学院

其它情况可参看书上表,否定域请自己写出.注意:我们讨论的是正态总体均值和方差的假设检验,或样本容量较大,可用正态近似的情形.下面我们对本讲内容作简单小结.37湘潭大学数学与计算科学学院

提出假设

根据统计调查的目的,提出原假设H0

和备选假设H1作出决策抽取样本检验假设

对差异进行定量的分析,确定其性质(是随机误差还是系统误差.为给出两者界限,找一检验统计量T,在H0成立下其分布已知.)拒绝还是不能拒绝H0显著性水平P(TW)=-----犯第一类错误的概率,W为拒绝域总结38湘潭大学数学与计算科学学院3.2参数假设检验一、单个总体参数的检验二、两个总体参数的检验39湘潭大学数学与计算科学学院一、单个正态总体均值与方差的检验)U

,检验的检验关于为已知(.ms2140湘潭大学数学与计算科学学院对于给定的检验水平由标准正态分布分位数定义知,因此,检验的拒绝域为其中为统计量U的观测值,这种利用U统计量来检验的方法称为U检验法。41湘潭大学数学与计算科学学院例1

某切割机在正常工作时,切割每段金属棒的平均长度为10.5cm,标准差是0.15cm,今从一批产品中随机的抽取15段进行测量,其结果如下:假定切割的长度X服从正态分布,且标准差没有变化,试问该机工作是否正常?解42湘潭大学数学与计算科学学院查表得43湘潭大学数学与计算科学学院44湘潭大学数学与计算科学学院由t分布分位数的定义知45湘潭大学数学与计算科学学院在实际中,正态总体的方差常为未知,所以我们常用t

检验法来检验关于正态总体均值的检验问题.上述利用t

统计量得出的检验法称为t检验法.46湘潭大学数学与计算科学学院如果在例1中只假定切割的长度服从正态分布,问该机切割的金属棒的平均长度有无显著变化?解查表得t分布表例247湘潭大学数学与计算科学学院3.方差已知时总体均值的单侧假设检验48湘潭大学数学与计算科学学院于是问题就是检验:H0:μ=μ0

━━即新技术或新配方对于提高产品质量无效果.还是H1:μ>μ0

━━即新技术或新配方确实有效,提高了产品质量.解决问题的思路:如果μ=μ0,即原假设成立时,那么:就不应该太大.反之,如果它过于大,那么想必是原假设不成立.49湘潭大学数学与计算科学学院

当原假设H0:μ=μ0

成立时,有:求解:拒绝域为50湘潭大学数学与计算科学学院解

建立假设取统计量分布未知51湘潭大学数学与计算科学学院但由题设因而事件故在H0真实的前提下,由可知52湘潭大学数学与计算科学学院因而拒绝域查正态分布函数表知由于53湘潭大学数学与计算科学学院解

建立假设拒绝域应取作由样本求得故应拒绝H0,不能接受这批玻璃纸.54湘潭大学数学与计算科学学院表:一个正态总体均值的假设检验(显著性水平为α)55湘潭大学数学与计算科学学院要检验假设:根据56湘潭大学数学与计算科学学院57湘潭大学数学与计算科学学院拒绝域为:58湘潭大学数学与计算科学学院解例3

某厂生产的某种型号的电池,其寿命长期以来服从方差

=5000(小时2)的正态分布,现有一批这种电池,从它生产情况来看,寿命的波动性有所变化.现随机的取26只电池,测出其寿命的样本方差=9200(小时2).问根据这一数据能否推断这批电池的寿命的波动性较以往的有显著的变化?59湘潭大学数学与计算科学学院拒绝域为:可认为这批电池的寿命的波动性较以往的有显著的变化.60湘潭大学数学与计算科学学院4方差的单边假设检验当H0为真时有61湘潭大学数学与计算科学学院解

建立假设查表得拒绝域为现由样本求得故可接受原假设,在α=0.05水平上认为这批导线的电阻波动合格62湘潭大学数学与计算科学学院表:一个正态总体方差的假设检验(显著性水平为α)63湘潭大学数学与计算科学学院二、两个正态总体均值与方差的检验1.已知方差时两正态总体均值的检验需要检验假设:上述假设可等价的变为

利用u检验法检验.64湘潭大学数学与计算科学学院65湘潭大学数学与计算科学学院故拒绝域为由标准正态分布分位数的定义知66湘潭大学数学与计算科学学院67湘潭大学数学与计算科学学院68湘潭大学数学与计算科学学院2.未知方差时两正态总体均值的检验

利用t检验法检验具有相同方差的两正态总体均值差的假设.69湘潭大学数学与计算科学学院70湘潭大学数学与计算科学学院对给定的71湘潭大学数学与计算科学学院故拒绝域为72湘潭大学数学与计算科学学院例2有甲、乙两台机床加工相同的产品,从这两台机床加工的产品中随机地抽取若干件,测得产品直径(单位:mm)为机床甲:20.5,19.8,19.7,20.4,20.1,20.0,19.0,19.9机床乙:19.7,20.8,20.5,19.8,19.4,20.6,19.2,试比较甲、乙两台机床加工的产品直径有无显著差异?假定两台机床加工的产品直径都服从正态分布,且总体方差相等.解73湘潭大学数学与计算科学学院即甲、乙两台机床加工的产品直径无显著差异.74湘潭大学数学与计算科学学院3方差未知时均值的单侧假设检验以例子说明75湘潭大学数学与计算科学学院解

城市考生平均成绩农村考生平均成绩且76湘潭大学数学与计算科学学院建立假设检验统计量为查分布表得由于故接受H0,表示无充分的证据显示来自城市的中学考生的平均成绩比来自农村的中学考生的平均成绩要高一些.77湘潭大学数学与计算科学学院表:两个正态总体均值的假设检验(显著性水平为α)78湘潭大学数学与计算科学学院需要检验假设:3.两正态总体方差的检验(F检验)79湘潭大学数学与计算科学学院80湘潭大学数学与计算科学学院为了计算方便,习惯上取81湘潭大学数学与计算科学学院检验问题的拒绝域为上述检验法称为F检验法.82湘潭大学数学与计算科学学院解某砖厂制成两批机制红砖,抽样检查测量砖的抗折强度(公斤),得到结果如下:已知砖的抗折强度服从正态分布,试检验:(1)两批红砖的抗折强度的方差是否有显著差异?(2)两批红砖的抗折强度的数学期望是否有显著差异?(1)检验假设:例383湘潭大学数学与计算科学学院查表7-3知拒绝域为84湘潭大学数学与计算科学学院(2)检验假设:85湘潭大学数学与计算科学学院查表7-3知拒绝域为86湘潭大学数学与计算科学学院4两个正态总体方差的单侧假设检验对于假设选用统计量在假设H0成立时从而得H0的拒绝域为但是从而分布未知87湘潭大学数学与计算科学学院解

设旧工艺的精度设新工艺的精度且X、Y相互独立检验的假设查表及计算得故拒绝H0,新工艺的精度比老工艺的精度显著地好.88湘潭大学数学与计算科学学院表:两个正态总体方差的假设检验(显著性水平为α)89湘潭大学数学与计算科学学院3.3参数的区间估计一、区间估计基本概念二、正态总体均值与方差的区间估计三、小结90湘潭大学数学与计算科学学院

引言前面,我们讨论了参数点估计.它是用样本算得的一个值去估计未知参数.但是,点估计值仅仅是未知参数的一个近似值,它没有反映出这个近似值的误差范围,使用起来把握不大.区间估计正好弥补了点估计的这个缺陷.91湘潭大学数学与计算科学学院

譬如,在估计湖中鱼数的问题中,若我们根据一个实际样本,得到鱼数N的极大似然估计为1000条.若我们能给出一个区间,在此区间内我们合理地相信N的真值位于其中.这样对鱼数的估计就有把握多了.实际上,N的真值可能大于1000条,也可能小于1000条.92湘潭大学数学与计算科学学院也就是说,我们希望确定一个区间,使我们能以比较高的可靠程度相信它包含真参数值.湖中鱼数的真值[]这里所说的“可靠程度”是用概率来度量的,称为置信概率,置信度或置信水平.习惯上把置信水平记作,这里是一个很小的正数.93湘潭大学数学与计算科学学院置信水平的大小是根据实际需要选定的.例如,通常可取置信水平=0.95或0.9等.根据一个实际样本,由给定的置信水平,我小的区间,使们求出一个尽可能置信区间.称区间为的置信水平为的94湘潭大学数学与计算科学学院寻找置信区间的方法,一般是从确定误差限入手.使得称

为与

之间的误差限.我们选取未知参数的某个估计量,根据置信水平,可以找到一个正数

,只要知道的概率分布,确定误差限并不难.95湘潭大学数学与计算科学学院下面我们就来正式给出置信区间的定义,并通过例子说明求置信区间的方法.由不等式可以解出:这个不等式就是我们所求的置信区间.96湘潭大学数学与计算科学学院一、区间估计基本概念1.

置信区间的定义97湘潭大学数学与计算科学学院关于定义的说明98湘潭大学数学与计算科学学院例如99湘潭大学数学与计算科学学院

一旦有了样本,就把估计在区间内.这里有两个要求:由定义可见,对参数作区间估计,就是要设法找出两个只依赖于样本的界限(构造统计量)100湘潭大学数学与计算科学学院2.估计的精度要尽可能的高.如要求区间长度尽可能短,或能体现该要求的其它准则.1.要求以很大的可能被包含在区间内,就是说,概率要尽可能大.即要求估计尽量可靠.可靠度与精度是一对矛盾,一般是在保证可靠度的条件下尽可能提高精度.101湘潭大学数学与计算科学学院2.

求置信区间的一般步骤(共3步)102湘潭大学数学与计算科学学院103湘潭大学数学与计算科学学院单击图形播放/暂停ESC键退出单击图形播放/暂停ESC键退出104湘潭大学数学与计算科学学院二、正态总体均值与方差的区间估计1.I单个总体的情况105湘潭大学数学与计算科学学院推导过程如下:106湘潭大学数学与计算科学学院107湘潭大学数学与计算科学学院这样的置信区间常写成其置信区间的长度为108湘潭大学数学与计算科学学院包糖机某日开工包了12包糖,称得重量(单位:克)分别为506,500,495,488,504,486,505,513,521,520,512,485.假设重量服从正态分布,解附表2-1例1109湘潭大学数学与计算科学学院110湘潭大学数学与计算科学学院附表2-2查表得111湘潭大学数学与计算科学学院推导过程如下:112湘潭大学数学与计算科学学院113湘潭大学数学与计算科学学院解有一大批糖果,现从中随机地取16袋,称得重量(克)如下:设袋装糖果的重量服从正态分布,试求总体均值附表3-1例2114湘潭大学数学与计算科学学院就是说估计袋装糖果重量的均值在500.4克与507.1克之间,这个估计的可信程度为95%.这个误差的可信度为95%.115湘潭大学数学与计算科学学院解附表3-2例3(续例1)如果只假设糖包的重量服从正态分布116湘潭大学数学与计算科学学院解例4117湘潭大学数学与计算科学学院118湘潭大学数学与计算科学学院119湘潭大学数学与计算科学学院推导过程如下:根据II.120湘潭大学数学与计算科学学院121湘潭大学数学与计算科学学院进一步可得:注意:在密度函数不对称时,习惯上仍取对称的分位点来确定置信区间(如图).122湘潭大学数学与计算科学学院

(续例2)

求例2中总体标准差

的置信度为0.95的置信区间.解代入公式得标准差的置信区间附表4-1附表4-2例5123湘潭大学数学与计算科学学院2、两个总体的情况讨论两个总体均值差和方差比的估计问题.124湘潭大学数学与计算科学学院推导过程如下:I.125湘潭大学数学与计算科学学院126湘潭大学数学与计算科学学院127湘潭大学数学与计算科学学院128湘潭大学数学与计算科学学院例6机床厂某日从两台机床加工的零件中,分别抽取若干个样品,测得零件尺寸分别如下(单位:cm):

第一台机器6.2,5.7,6.5,6.0,6.3,5.85.7,6.0,6.0,5.8,6.0

第二台机器5.6,5.9,5.6,5.7,5.86.0,5.5,5.7,5.5假设两台机器加工的零件尺寸均服从正态分布,且方差相等,试求两机床加工的零件平均尺寸之差的区间估计129湘潭大学数学与计算科学学院解用表示第一台机床加工的零件尺寸,用

表示第二台机床加工的零件尺寸,由题设130湘潭大学数学与计算科学学院经计算,得131湘潭大学数学与计算科学学院置信下限置信上限故所求的置信度为95%的置信区间为

[0.0912,0.5088].132湘潭大学数学与计算科学学院推导过程如下:II.133湘潭大学数学与计算科学学院根据F分布的定义,知134湘潭大学数学与计算科学学院135湘潭大学数学与计算科学学院解例7研究由机器A和机器B生产的钢管内径,随机抽取机器A生产的管子18只,测得样本方差为均未知,求方差比区间.设两样本相互独抽取机器B生产的管子13只,测得样本方差为立,且设由机器A和机器B生产的钢管内径分别服从正态分布信136湘潭大学数学与计算科学学院137湘潭大学数学与计算科学学院解例8的置甲、乙两台机床加工同一种零件,在机床甲加工的零件中抽取9个样品,在机床乙加工的零件信区间.假定测量值都服从正态分布,方差分别为在置信度由所给数据算得0.98下,试求这两台机床加工精度之比中抽取6个样品,并分别测得它们的长度(单位:mm),138湘潭大学数学与计算科学学院139湘潭大学数学与计算科学学院三、单侧置信区间上述置信区间中置信限都是双侧的,但对于有些实际问题,人们关心的只是参数在一个方向的界限.例如对于设备、元件的使用寿命来说,平均寿命过长没什么问题,过短就有问题了.这时,可将置信上限取为+∞,而只着眼于置信下限,这样求得的置信区间叫单侧置信区间.140湘潭大学数学与计算科学学院于是引入单侧置信区间和置信限的定义:满足设是一个待估参数,给定若由样本X1,X2,…Xn确定的统计量则称区间是的置信水平为的单侧置信区间.称为单侧置信下限.141湘潭大学数学与计算科学学院又若统计量满足则称区间是的置信水平为的单侧置信区间.称为单侧置信上限.142湘潭大学数学与计算科学学院设灯泡寿命服从正态分布.求灯泡寿命均值的置信水平为0.95的单侧置信下限.

例4从一批灯泡中随机抽取5只作寿命试验,测得寿命X(单位:小时)如下:1050,1100,1120,1250,1280由于方差未知,取枢轴量解:的点估计取为样本均值143湘潭大学数学与计算科学学院对给定的置信水平

,确定分位数使即于是得到的置信水平为的单侧置信区间为

144湘潭大学数学与计算科学学院将样本值代入得的置信水平为0.95的单侧置信下限是1065小时的置信水平为的单侧置信下限为即145湘潭大学数学与计算科学学院三、小结点估计不能反映估计的精度,故而本节引入了区间估计.求置信区间的一般步骤(分三步).146湘潭大学数学与计算科学学院条件统计量置信区间μσ2σ2已知μ已知μ未知σ2未知单个正态总体期望与方差的1-α置信区间(小结)147湘潭大学数学与计算科学学院两个正态总体均值差与方差比的1-α置信区间(小结)条件统计量置信区间σ12,σ22已知σ12=σ22未知μ1—μ2σ12/σ22μ1,μ2已知μ1,μ2未知P{|U|<U1-α/2}=1-αP{|t|<t1-α/2}=1-αP{Fα/2<F<F1-α/2}=1-α148湘潭大学数学与计算科学学院正态总体均值与方差的区间估计149湘潭大学数学与计算科学学院但n充分大时近似置信区间150湘潭大学数学与计算科学学院151湘潭大学数学与计算科学学院附表2-1标准正态分布表z0.000.010.020.030.040.050.060.070.080.090.00.10.20.30.40.50.60.70.80.91.01.11.21.31.41.51.60.50000.53980.57930.61790.65540.69150.72570.75800.78810.81590.84130.86430.88490.90320.91920.93320.94520.50400.54380.58320.62170.65910.69500.72910.76110.79100.81860.84380.86650.88690.90490.92070.93450.94630.50800.54780.58710.62550.66280.69850.73240.76420.79390.82120.84610.86860.88880.90660.92220.93570.94740.51200.55170.59100.62930.66640.70190.73570.76730.79670.82380.84850.87080.89070.90820.92360.93700.94840.51600.55570.59480.63310.67000.70540.73890.77030.79950.82640.85080.87290.89250.90990.92510.93820.94950.51990.55960.59870.63680.67360.70880.74220.77340.80230.82890.85310.87490.89440.91150.92650.93940.95050.52390.56360.60260.64060.67720.71230.74540.77640.80510.83150.85540.87700.89620.91310.92780.94060.95150.52790.56750.60640.64430.68080.71570.74860.77940.80780.83400.85770.87900.89800.91470.92920.94180.95250.53190.57140.61030.64800.68440.71900.75170.78230.81060.83650.85990.88100.89970.91620.93060.94300.95350.53590.57530.61410.65170.68790.72240.75490.78520.81330.83890.86210.88300.90150.91770.93190.94410.95451.645152湘潭大学数学与计算科学学院z0.000.010.020.030.040.050.060.070.080.091.61.71.81.92.02.12.22.32.42.52.62.72.82.93.00.94520.95540.96410.97130.97720.98210.98610.98930.99180.99380.99530.99650.99740.99810.99870.94630.95640.96480.97190.97780.98260.98640.98960.99200.99400.99550.99660.99750.99820.99900.94740.95730.96560.97260.97830.98300.98680.98980.99220.99410.99560.99670.99760.99820.99930.94840.95820.96640.97320.97880.98340.98710.99010.99250.99430.99570.99680.99770.99830.99950.94950.95910.96710.97380.97930.98380.98710.99040.99270.99450.99590.99690.99770.99840.99970.95050.95990.96780.97440.97980.98420.98780.99060.99290.99460.99600.99700.99780.99840.96980.95150.96080.96860.97500.98030.98460.98810.99090.99310.99480.99610.99710.99790.99850.99980.95250.96160.96930.97560.98080.98500.98840.99110.99320.99490.99620.99720.99790.99850.99990.95350.96250.97000.97620.98120.98540.98870.99130.99340.99510.99630.99730.99800.99860.99990.95450.96330.97060.97670.98170.98530.98900.99160.99360.99520.99640.99740.99810.99861.00001.96附表2-2标准正态分布表153湘潭大学数学与计算科学学院附表3-1

=0.250.100.050.0250.010.005123456789101112131415161.00000.81650.76490.74070.72670.71760.71110.70640.70270.69980.69740.69550.69380.69240.69120.69013.07771.88561.63771.53321.47591.43981.41491.39681.38301.37221.36341.35621.35021.34501.34061.33686.31382.92002.35342.13182.01501.94321.89461.85951.83311.81251.79591.78231.77091.76131.75311.745912.70624.30273.18242.77642.57062.44692.36462.30602.26222.22812.20102.17882.16042.14482.13152.119931.82076.96464.54073.74693.36493.14272.99802.89652.82142.76382.71812.68102.65032.62452.60252.583563.65749.92485.84094.60414.03223.70743.49953.35543.24983.16933.10583.05453.01232.97682.94672.9208分布表2.1315154湘潭大学数学与计算科学学院

=0.250.100.050.0250.010.005123456789101112131415161.00000.81650.76490.74070.72670.71760.71110.70640.70270.69980.69740.69550.69380.69240.69120.69013.07771.88561.63771.53321.47591.43981.41491.39681.38301.37221.36341.35621.35021.34501.34061.33686.31382.92002.35342.13182.01501.94321.89461.85951.83311.81251.79591.78231.77091.76131.75311.745912.70624.30273.18242.77642.57062.44692.36462.30602.26222.22812.20102.17882.16042.14482.13152.119931.82076.96464.54073.74693.36493.14272.99802.89652.82142.76382.71812.68102.65032.62452.60252.583563.65749.92485.84094.60414.03223.70743.49953.35543.24983.16933.10583.05453.01232.97682.94672.92082.2010附表3-2分布表155湘潭大学数学与计算科学学院附表4-1=0.250.100.050.0250.010.005123456789101112131415161.3232.7734.1085.3856.6267.8419.03710.21911.38912.54913.70114.84515.98417.11718.24519.3692.7064.6056.2517.7799.23610.64512.01713.36214.68415.98717.27518.54919.81220.06422.30723.5423.8415.9917.8159.48811.07112.59214.06715.50716.91918.30719.67521.02622.36223.68524.99626.2965.0247.3789.34811.14312.83314.44916.01317.53519.02320.48321.92023.33724.73626.11927.48828.8456.6359.21011.34513.27715.08616.81218.47520.09021.66623.20924.72526.21727.68829.14130.57832.0007.87910.59712.83814.86016.75018.54820.27821.95523.58925.18826.75728.29929.89131.31932.80134.267分布表27.488156湘潭大学数学与计算科学学院附表4-2=0.9950.990.9750.950.900.75123456789101112131415160.0100.0720.2070.4120.6760.9891.3441.7352.1562.6033.0743.5654.0754.6015.1420.0200.1150.2970.5540.8721.2391.6462.0882.5583.0533.5714.1074.6605.2295.8120.0010.0510.2160.4840.8311.2371.6902.1802.7003.2473.8164.4045.0095.6296.2626.9080.0040.1030.3520.7111.1451.6352.1672.7333.3253.9404.5755.2265.8926.5717.2617.9620.0160.2110.5841.0641.6102.2042.8333.4904.1684.8655.5786.3047.0427.7908.5479.3120.1020.5751.2131.9232.6753.4554.2555.0715.8996.7377.5848.4389.29910.16511.03711.912分布表6.262157湘潭大学数学与计算科学学院

从浩瀚无垠的宇宙到微小的分子、原子,从无机界到有机界,从自然到社会,无一事物不处在与其他事物的联系之中.事物之间不仅存在着相互联系,而且还具有一定的内部规律.第四章线性回归分析例②生产特点:①可人为改变(可控因素)化工产品苯酚的产率记为影响产率的五个主要因素有温度

时间

压力

催化剂种类

碱液用量、、、、随各的变化而变化,即是因变量③即使各相同的值也不完全相同,故是即有问题回归分析对回归函数进行统计推断一般地,

未知,如何确定?是普通函数,表示与各之间的确定性关系不可观测的随机误差

可用函数表示带有随机性,不能用确定的函数表示

人的身高与体重之间存在一定关系

人的年龄与血压之间存在一定关系

某地温度与湿度之间存在一定关系

广告投入与销量之间存在一定关系

复习时间与成绩之间存在一定关系确定性关系变量之间的关系非确定性关系确定性关系特点:非确定性关系特点:

x、y之间存在一种随机的相依关系例例例例例可以任意给定,或可以控制,或可以观察的量随着的变化而变化,即使对于相同的值,的取值也不相同,因而是r.v称为自变量,或控制变量称为因变量,或响应变量研究自变量与因变量之间的相关关系。变量的特点回归分析研究的内容

从数量的角度去研究这种关系,是数理统计的一个任务.包括通过观察和试验数据去判断变量之间有无关系,对其关系大小作数量上的估计、推断和预测,等等.

回归分析就是研究相关关系的一种重要的数理统计方法.变量之间既互相联系但又不是完全确定的关系,称为相关关系.最小二乘法产生的历史最小二乘法最早称为回归分析法。由著名的英国生物学家、统计学家道尔顿(F.Gallton)——达尔文的表弟所创。早年,道尔顿致力于化学和遗传学领域的研究。他研究父亲们的身高与儿子们的身高之间的关系时,建立了回归分析法。最小二乘法的地位与作用现在回归分析法已远非道尔顿的本意已经成为探索变量之间关系最重要的方法,用以找出变量之间关系的具体表现形式。后来,回归分析法从其方法的数学原理——残差平方和最小(平方乃二乘也)出发,改称为最小二乘法。父亲们的身高与儿子们的身高之间

关系的研究1889年F.Gallton和他的朋友K.Pearson收集了上千个家庭的身高、臂长和腿长的记录企图寻找出儿子们身高与父亲们身高之间关系的具体表现形式下图是根据1078个家庭的调查所作的散点图(略图)160165170175180185140150160170180190200YX儿子们身高向着平均身高“回归”,以保持种族的稳定“回归”一词的由来从图上虽可看出,个子高的父亲确有生出个子高的儿子的倾向,同样地,个子低的父亲确有生出个子低的儿子的倾向。得到的具体规律如下:如此以来,高的伸进了天,低的缩入了地。他百思不得其解,同时又发现某人种的平均身高是相当稳定的。最后得到结论:儿子们的身高回复于全体男子的平均身高,即“回归”——见1889年F.Gallton的论文《普用回归定律》。后人将此种方法普遍用于寻找变量之间的规律只有两个变量的回归分析,称为一元回归分析;超过两个变量时称为多元回归分析.变量之间成线性关系时,称为线性回归,变量间不具有线性关系时,称为非线性回归.一元回归多元回归线性回归非线性回归它是处理两个变量之间关系的最简单模型.从中可以了解到回归分析的基本思想、方法和应用.一元线性回归第一节其中a和

b是未知常数,称为回归系数,

ε表示其它随机因素的影响.y=a+bx+ε如果只研究x和y的关系,可以假定:

通常假定ε服从正态分布N(0,σ2),即未知

称y=a+bx+ε,ε

~N(0,σ2)(1)

为一元线性回归模型.由(1)得E(y)=a+bx

称(2)为y关于x的一元线性回归方程

.用E(y)作为y的估计得模型(1)中的变量x,y进行n次独立观察,得样本观测值:(x1,y1),…,(xn,yn)

(3)由此样本得方程组:这里εi是第

i次观察时的随机误差,它是不可观察的.

(4)式和(5)式结合,给出了样本(x1,y1),…,(xn,yn)的概率性质.它是对理论模型进行统计分析推断的依据.也常称(4)+(5)为一元线性回归模型.即由于各次观察独立,故有由于此方程的建立依赖于通过观察或试验取得的数据,故又称其为经验回归方程或经验公式.

回归分析的任务是利用n组独立观察数据(x1,y1),…,(xn,yn)来估计a和b,以估计值和分别代替(2)式中的a和b,得回归方程问题:如何利用n组独立观察数据来估计a和b?1.用最小二乘法估计a,b

的值首先举例说明最小二乘法的思想:

假设为了估计某物体的重量,对它进行了n次称量,因称量有误差,故n次称量结果x1,x2,…,xn有差异,现在用数去估计该物体的重量,则它与上述n次称量结果的偏差的平方和为:估计原则:用这种方法作出的估计叫最小二乘估计.

最小二乘法认为,一个好的估计,应使这个平方和尽可能地小.寻找一个使上述平方和达到最小的,作为这个物体重量的估计值,这种方法称为最小二乘法.对(x,y)作n次观察(试验),得到n对数据,要求找一条直线,尽可能好地拟合这些数据.yx

由回归方程,当x取值xi时,应取值a+bxi,而实际观察到的为yi,这样就形成了偏差依照最小二乘法的思想,提出目标量Q(7)它是所有实测值yi与回归值的偏差平方和.yx设法求出a,b的估计值,,使偏差平方和Q达到最小.由此得到的回归直线

是在所有直线中偏差平方和Q最小的一条.

yx通常可采用微积分中求极值的办法,求出使Q达到最小的,.即解方程:

(8)

其中

可以证明,用最小二乘法求出的估计分别是a,b的无偏估计,即它们都是y1,y2,…,yn的线性函数,而且在所有y1,y2,…,yn的线性函数中,最小二乘估计的方差最小.由于是从观察值得到的回归方程,它会随观察结果的不同而改变,并且它只反映了由x的变化引起的y的变化,并没有包含误差项.由此引出两个问题:(1)回归方程是否有意义?即自变量x的变化是否真的对因变量y有影响?因此有必要对回归效果作出检验.(2)如果方程真有意义,用它预测y时,预测值与真值的偏差能否估计?下面讨论这两个问题。

2.回归方程的显著性检验对任意两个变量的一组观察因此需要考察y与x间是否确有线性相关关系,这就是回归效果的检验问题.都可以用最小二乘法形式上求得y对x的回归方程,如果y与x没有线性相关关系,这种形式的回归方程就没有意义.(xi,yi),i=1,2,…,n

注意到只反映了x对y的影响,所以回归值就是yi中只受xi影响的那一部分,而

则是除去xi的影响后,受其它种种因素影响的部分,故将

称为残差.

于是观测值yi可以分解为两部分和,

并且也可分解为两部分.y1,y2,…,yn

的总偏差为

(9)因此,可以证明(10)即可以分解为两部分:回归平方和与残差平方和.

反映了由于自变量x的变化引起的因变量y的差异,体现了x对y的影响;

反映了其它因素对y的影响,这些因素没有反映在自变量中,它们可作为随机因素看待.

可见,/为x的影响部分与随机因素影响部分的相对比值.其作用和随机因素的作用相当,于是由数据得到的回归方程就没有什么意义.若该比值不是显著地大,表明我们所选的x

并不是一个重要的因素.通常可假设H0

:y和x没有线性相关关系,对回归方程是否有意义进行显著性检验.(11)因此用

易证:~F(1,n-2)(12)的关系式中b=0时,有当来检验b的绝对值是否显著大于0(或者说检验回归方程是否有意义).给定显著性水平,通过查F分布分位数表,求出否定域,便可判断回归方程是否有意义.拒绝域为:

由上面的讨论可知,要问回归方程是否有意义,就是要检验假设H0:b=0;H1:b≠0使用的检验统计量为:~F(1,n-2)(14)(13)回归平方和与残差平方和的计算:

当检验认为回归方程确有意义.则可用来进行予测或控制,这也是建立回归方程的重要目的.3.预测对给定的x值,由回归方程就可得的值.小结y=a+bx+ε一元线性回归模型:回归系数一元线性回归方程:无偏估计下面讨论多元线性回归.它是处理多个变量之间关系的模型.多元线性回归第二节一般地,设影响试验结果的因素为

x1,……,xp

,它们是可以精确测量或可控制的一般变量,y是可观测的随机变量,ε~N(0,σ2)是不可测的随机误差。p元线性回归模型为y=β0+β1

x1+…+βp

xp+εyi=β0+β1

xi1+…+βp

xip+εi,(i=1,2,…,n)若获得了n组独立观测样本值:

(yi;xi1,…,xip),(i=1,…,n),则有εi~i.i.d.N(0,σ2)对p元线性回归模型,研究以下三个问题:1)据样本观测值估计未知参数β0

,β1

,…,βp

;σ2

。建立y与x1,…,xp的数量关系式(回归方程);2)对此数量关系式的可信度进行统计检验;3)检验各变量x1,…,xp分别对指标y是否有显著影响1.参数估计,为此令得正规方程组称此方程组的解为未知参数

β0

,β1

,…,βp

的最小二乘估计。

为方便起见,设结构矩阵

则上述正规方程组可改写为X′X称为系数矩阵,是(p+1)×(p+1)方阵

X′Y

称为常数项矩阵,是(p+1)×1

的列向量残差:

残差(列)向量:

残差平方和

(剩余平方和)残差平方和性质:至此,第一个问题已得到解决,即下面看第二个问题:回归方程的显著性检验2.回归方程的显著性检验平方和分解:其中检验问题:说明得到的回归方程是显著的。3.回归系数的显著性检验即认为第j个变量xj对指标值y的影响显著。

例铁水的总含碳量在不断降低。一炉钢在冶炼初期总的去碳量y与所加的二种矿石的量x1,x2及熔化时间x3有关。经实测某号平炉得如下表的49组数据。由经验知y与x1,x2及x3之间有数据结构式

y=β0+β1x1+β2x2+β3x3+ε,ε~N(0,σ2)。求β0、β1、β2、β3的最小二乘估计,写出回归方程,并求出σ2的估计。编号x1槽x2槽x35分钟y吨编号x1槽x2槽x35分钟y吨1218504.33022696392.7066279403.648527125515.63143514464.48328613415.81524123435.54682912747549730024615.3916312403.112531512374.45337317645.118232415494.6569865393.875933020454.5212978374.6734616424.86510023554.953635417485.356611316605.00636104484.609812018495.270137414362.38151384505.377238513363.8746编号x1槽x2槽x35分钟y吨编号x1槽x2槽x35分钟y吨14614515.48493998514.591915021514.59640613545.158816314515.664541581005.437317712566.079542511443.99618160483.21944386634.39719616455.807644213554.062220015524.73064578502.29052190404.680546410454.71152246323.127247105404.53123017472.610448317645.36372490443.717449415726.077125216393.8946解:由所测的数据计算得正规方程组解得最小二乘估计为由此得回归方程为故回归方程高度显著

故三个变量的作用均显著4.回归系数的区间估计对置信水平

的置信区间为5.利用回归模型进行预测对给定的预测区间

对y0的区间估计方法可用于给出已知数据残差ei

服从均值为零的正态分布,所以若某个ei

的置信区间不包含零点,则认为这个数据是异常的,可予以剔除。

的置信区间,预测值第五章:方差分析方差分析方差分析是英国大统计学家费歇尔(R.A.Fisher)在20世纪20年代创立的.起初用于农田间试验结果的分析,随后迅速发展完善,被广泛应用于在工、农业生产,经济、管理领域,工程技术和科学研究中.方差分析与回归分析方法有许多相似之处,但又有本质区别,回归分析研究两个或多个数值型变量之间的关系,而方差分析是研究分类变量对数值型变量的影响,从形式上看,方差分析是比较多个总体均值是否相等,但本质上它所研究的是变量之间的关系.本章学习单因素方差分析和双因素方差分析的基本理论和方法.方差分析【营销策略问题】某苹果汁厂家开发了一种新产品

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论