方差分析及回归分析(ppt-60页)课件_第1页
方差分析及回归分析(ppt-60页)课件_第2页
方差分析及回归分析(ppt-60页)课件_第3页
方差分析及回归分析(ppt-60页)课件_第4页
方差分析及回归分析(ppt-60页)课件_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第九章、方差分析及回归分析1单因素试验的方差分析(一)单因素试验试验指标:在试验中,要考察的指标称为试验指标。因素:影响试验指标的条件称为因素。水平:因素所处于的状态称为水平。单因素试验和多因素试验:试验中只有一个因素在改变称为单因素试验,如果多于一个因素在改变称为多因素试验。方差分析:根据试验的结果进行分析,鉴别各个因素对试验结果的影响的一种分析方法。化学生产中,因素有:原料成分、原料剂量、催化剂、反应温度、压力、反应时间、机器设备、操作人员水平等。目的:决定各种因素,使生产过程得以稳定。方法:先进行试验。试验的分析:利用方差分析来分析试验的结果。根据影响试验结果的因素的多少分为单因素试验的

2、方差分析和多因素试验的方差分析。两个例子第一个例子用三台机器来生产相同的铝合金薄板,测量薄板的厚度如下表:这里指标是薄板的厚度;因素是机器不同,其他的都相同。问题是:机器这一因素对厚度有无显著影响?第二个例子随机选取的、用于计算器的四种类型的电路的响应时间,如下表所示(单位是毫秒)试验的指标是电路的响应时间;考虑的因素是电路类型;目的:是考察电路类型对响应时间有无显著影响。机器1机器2机器30.2360.2380.2480.2450.2430.2570.2530.2550.2540.2610.2580.2640.2590.2670.262类型1类型2类型3类型419 1522201820 40

3、21332716 17151826182219第三个例子一火箭使用四种燃料,三种推进器做射程试验。每种燃料与美中推进器的组合个发射火箭两次,得射程如下:试验指标:射程;因素:推进器(三个水平)、燃料(四个水平);目的:考察推进器核燃料这两个因素对射程是否有显著影响。推进器(B)B1B2B3燃料(A)A158.252.656.241.265.360.8A249.142.854.150.551.648.4A360.158.370.973.239.240.7A475.871.558.251.048.741.4问题的讨论-(单因素试验)对于例1在因素的每一个水平下进行独立试验,其结果是一个随机变量;表

4、中的数据看成是来自三个不同总体的样本值;若记各个总体的均值依次为1,2,3;则按题意需检验假设H0:1=2=3 , H1: 1,2,3不全相等。若假设个总体为正态变量,且方差相等,但参数未知。这就变为检验同方差的多个正态总体均值是否相等的问题。而方差分析法就是解决这一问题的一种统计方法。单因素试验的方差分析设因素有S个水平,在水平Aj (j=1,2,s)下,进行nj (nj2)次独立试验,结果如下:水平观察结果A1A2AsX11X21X11X21X11X21样本总和样本均值总体均值T.1X.1 1T.2X.2 2 T.sX.s s假定,各个水平Aj (j=1,2,s)下样本X1j,X2j, 来

5、自具有相同方差2,均值分别为j (j=1,2s)的正态总体, j和2未知且在不同水平Aj下的样本之间相互独立。Xij - j可以看成是随机误差。记为Xij - j =ij ,则Xij 可以写为Xij = j +ij ij N(0, 2),各ij独立i=1,2,nj , j=1,2,s(1,1)称为单因素方差分析的数学模型。(1,1)方差分析的任务检验s个总体 的均值是否相等,即检验假设作出未知参数 的估计若记 的加权平均为再引入 表示总体平均值与总平均的差异,称为水平Aj的效应。这时模型(1.1)可以改写为:(1,2)(1,3)(1,4)而假设(1.2)等价于假设我们来导出上述假设检验的检验统

6、计量。(1.1)(1.2)(二)平方和的分解引入总偏差平方和(或总变差)与总平均:即 水平Aj下的样本均值为这时,可以将ST写成:(1,5)(1,6)(1,7)上式的第三项为若记 SE称为误差平方和, SA表示Aj水平下的样本均值与数据总平均的差异,叫做效应平方和,他是由水平Aj的效应的差异以及随机误差引起的。(1,8)则得ST=SE+SA ,(1,9)(1,10)(三) SE,SA的统计特性1、SE的统计特性由于 是总体 的nj-1倍,所以由于独立,(1,11)中各式独立,根据 分布的可加性,得(1,11)(1,12)可以计算 这里2、SA的统计特性,它是s个变量的平方和,且仅有一个线性约束

7、条件:因此的知SA的自由度是s-1。(1,13)(由(1,3),(1,6)及Xij的独立性得知 经计算(1,14)(1,15)可以证明SE,SA的是相互独立的,且H0当为真时(四)假设检验问题的拒绝域由(1,15)式,当H0为真时所以SA /(s-1)是2的无偏估计,而当当H1为真时,这时而由于(1,16)(1,17)(1,18)(1,19)所以,SA /(n-s)是2的无偏估计由于所以检验问题(1,2)的拒绝域的形式是:其中k由预先给定的显著性水平确定,由此得此检验问题的拒绝域是:因此,可以得到单因素方差分析表如下页(1,20)单因素试验的方差分析表例4 在例1中就是检验假设这里s=3,n1

8、=n2=n3=5,n=15,按下式计算得到下页的表方差来源平方和自由度均方F比因素ASAs-1误差SEn-s总和STn-1由于在ST中n个变量 Xij- 之间仅满足一个约束条件,故ST的自由度为n-1 (1,21)判断:因为F (2,12)=3.8932.92,故在水平0.05下拒绝H0,即认为各台机器生产的薄板厚度有显著差异。方差来源平方和自由度均方F比因素ASA=0.001 053 3320.000 526 6732.92误差SE=0.000 192120.000 016总和ST =0.001 245 3314例4的方差分析表(五)未知参数的估计(1)参数2 , ,j , j的估计由上面的

9、讨论,不管H0是否为真, 是2的无偏估计由于故 分别是,j的无偏估计。若拒绝H0 ,就意味着,效应1,2,s不全为零。由于j=j-, j=1,2,s,可知 是j的无偏估计。(2)两总体N(j, 2)N(k, 2)均值差j - k = j - k的区间估计具体做法是由于于是因此均值差j - k = j - k的置信水平为1-的置信区间是(1,22)例5 求例4中的未知参数2 ,j , j 的点估计及均值差的置信水平为0.95的置信区间。解:经计算由t0.025 (n-s)=t0.025 (12)=2.1788,得故1 2 , 1 3 , 2 3的置信水平为0.95的置信区间分别为例6 设在第二个

10、例子中,四类电路的响应时间的总体均为正态分布,切割总体的方差相同,但参数未知,并且个样本相互独立。取水平=0.05,检验各类电路的响应时间是否有显著差异。解 以1 , 2 , 3 , 4 , 记类型,四种电路的响应时间总体平均值。我们需要检验: H0 :1 = 2 = 3 = 4 , H1 :1 , 2 , 3,4不全相等 由于n=18,s=4,n1 = n2 = n3 =5,n4 =3,因为F0.05 (3,14)=3.343.76,故在水平0.05下拒绝H0,认为各类型电路的响应时间有显著差异。#方差来源平方和自由度均方F比因素误差318.98395.46314106.3328253.76

11、总和714.4417一元线性回归本节的内容提纲(一)一元线性回归的概念和数学模型(二)a、b的估计(三) 2的估计(四)线性假设的显著性检验(五)系数b的置信区间(六)回归函数(x)=a+bx函数值的点估计和置信区间(七)Y的观测值的点预测和预测区间第三节、一元线性回归两个变量之间的关系包括:确定性关系:能用函数关系表达;非确定性关系:就是相关关系。回归分析:研究相关关系的一种数学工具。一、一元线性回归回归:设y是随机变量,若对于x的每一确定值,y有它的分布。若y的数学期望存在,且是x的函数,记为(x),称(x)为y关于x的回归。预测问题:在给定的置信度下,估计出当x取某一定值时,随机变量y的

12、取值情况;控制问题:在给定的置信度下,控制自变量x的取值范围,使y在给定的范围内取值;回归分析的任务主要是根据试验,估计回归函数,讨论点估计、区间估计、假设检验等问题。设x取值为x1,x2,xn设Y1,Y2,Yn为在x1,x2,xn的观测结果,则称(x1, Y1),(x2, ,Y2),(xn ,Yn )是一个样本。相应的样本值是: (x1, y1),(x2, y2),(xn ,yn )。回归函数(x)的估计。在直角坐标系中描出散点图,粗略得出(x)例1 为研究某一化学反应过程中温度(x,)与产品得率y的影响。得数据如下表:其散点图如右从图中可以看出它是一条直线,因此(x) 具有形式(x)=a+

13、bx温度100110120130140150160170180190得率45515461667074788589100120140160180608010040设Y关于x的回归函数为(x)。利用样本来估计(x)的问题称为求Y关于x的回归问题。若(x)是线性函数(x)=a+bx,此时的估计问题称为求一元线性回归问题。一元线性回归模型:设YN(a+bx, 2 )其中a,b, 2是未知参数,记 = Y-(a+bx),则Y= a+bx + , N(0, 2 ) (1)称上式为一元线性回归模型。称a+bx为x的线性函数,而 N(0, 2 )是随机误差。二、a、b的估计取x的n个完全不相同的值x1,x2,

14、xn,作独立试验,得样本 (x1, Y1),(x2, ,Y2),(xn ,Yn ),于是Y= a+bxi + i , i N(0, 2 );各i独立 (2)Yi N(a+bxi, 2 ), Y1,Y2,Yn的联合概率密度为利用最大似然估计法来估计未知参数a、b。令则变为求Q(a,b)的最小值。令得方程组:称这个方程组为正规方程组。正规方程组的系数行列式为故正规方程组有唯一一组解这时我们把 作为回归函数(x)=ax+b 的估计。称为Y关于x的经验回归函数。称方程 为经验回归方程,简称回归方程。也可以把经验回归方程写为若记这时,a,b的估计值是在例1中,测得温度对产品得率的关系是为了求回归方程,我

15、们需要计算温度100110120130140150160170180190得率45515461667074788589和xYx 2y 2xy1001101201301401501601701801904551546166707478858910 00012 10014 40016 90019 60022 50025 60028 90032 40036 1002 0252 6012 9163 7214 3564 9005 4766 0847 2257 9214 5005 6106 4807 9309 24010 50011 84012 26015 30016 9101 450673218 500

16、47 225101570于是得回归直线方程为根据上表可以计算三、 2的估计根据 Y= a+bx + , N(0, 2 ) (1)即 = Y- ( a + bx); 得到EY ( a+bx)2 = E(2)=D(2)+E()2= 2, 这说明:2愈小,用回归函数(x)=ax+b作为Y的近似所导致的均方误差就愈小;用(x)=ax+b研究Y就愈有效;因为2是未知的,这就要利用样本来估计2 。Qe是经验回归函数(x)=ax+b在xi处的函数值 与处的观察值的偏差的平方和。我们来计算Qe根据: 得Qe的分解式计算出a,b的估计量是:若记残差平方和服从的分布如下: 的数学期望是n-2,由此知这就得到了2的

17、无偏估计量如下页所示。xYx 2y 2xy1001101201301401501601701801904551546166707478858910 00012 10014 40016 90019 60022 50025 60028 90032 40036 1002 0252 6012 9163 7214 3564 9005 4766 0847 2257 9214 5005 6106 4807 9309 24010 50011 84012 26015 30016 910 1 450673218 50047 225101570计算下表的和时,要计算三个量:和例3、在上表中求2的无偏估计。根据上页的

18、表,我们可以得到(四)线性假设的显著性检验总结上述的讨论,我们有以下几条:Y关于x的回归(x)具有形式:a+bx;(x)是否为x的线性函数,要具体问题具体分析;即用专业知识判断,和运用假设检验的方法判断。若线性假设Y= a+bx + , N(0, 2 )成立,则b不为零。因此需要检验假设H0 :b=0,H1 : b0。可以证明且可以计算及在H0为真时,b=0,这时且有 ,即得H0的拒绝域是几点说明:在H0:b=0被拒绝时,认为回归效果是显著的;反之则认为回归效果是不显著的;回归效果不显著的原因可能是:影响Y取值的,除x和随机误差外,可能还有其他因素;E(Y)与x的关系可能不是线性的;Y与x可能

19、不存在关系;例4(续例2)检验回归效果是否显著。=0.05由上面的讨论,知故拒绝H0:b=0 ,认为回归效果是显著的。(五)系数b的置信区间在回归效果显著时,还要对系数b做区间估计。根据上述讨论,在置信度为1-时,的置信区间是根据我们的数据,b的置信水平为0.95的置信区间是(六)回归函数(x)=a+bx函数值的点估计和置信区间用经验回归函数 在x0的函数值作为(x0)=a+bx0的点估计。即相应的估计量 是无偏的。下面求(x0)=a+bx0的区间估计。由于即由此可以得到(x0)=a+bx0的置信水平为1-的置信区间为该置信区间的长度是x0函数,他随 的增加而增加,当 时最短。(七)Y的观测值

20、的点预测和预测区间利用经验回归函数,可以对因变量Y的观测值Y0进行点预测和区间预测。Y0是在x=x0处的观测结果,他满足Y0= a+bx0 + 0, 0 N(0, 2 )我们利用在x0处的经验回归函数值作为Y0= a+bx0 + 0的点预测。我们用下面的方法进行Y0的区间预测。由于Y0是要做的独立试验的结果,所以他与已经得到的结果Y1,Y2,Yn,相互独立。并由前面的讨论, 是Y1,Y2,Yn的线性组合,所以 是Y1,Y2,Yn的线性组合。由此可以得到即在根据前面的讨论,得到即对于给定的置信水平1-,有区间即区间称该区间为Y0的置信水平为1-的预测区间。该区间的长度是x0的函数,他随的 增加而

21、增加。例5 续例2,(1)求回归函数(x)在x=125处的值(125)的置信水平为0.95的置信区间,求在x=125处Y的新观测值的置信水平为0.95的预测区间;(2)求在x=x0处Y的新观察值Y0的置信水平为0.95的预测区间。解 (1)由前面知道得回归函数(x)在x=125处的置信水平为0.95的置信区间为得回归函数(x)在x=125处的置信水平为0.95的预测区间为在x=x0处的新观察值Y0的置信水平为0.95的预测区间为取x0不同的值,得Y的观察值Y0的预测区间为分别将这些区间的上端点和下端点连接起来,得到两条曲线,L1和L2,而回归直线位于这两条曲线之间。x0Y0的预测区间x0Y0的

22、预测区间125(57.642.34)150(69.72 2.30)130(60.65 2.32)155(72.13 2.31)135(62.47 2.31)160(74.55 2.32)140(64.88 2.30)165(76.96 2.34)145(67.30 2.29)(第14讲)考场作文开拓文路能力分解层次(网友来稿)江苏省镇江中学 陈乃香说明:本系列稿共24讲,20XX年1月6日开始在资源上连载【要义解说】文章主旨确立以后,就应该恰当地分解层次,使几个层次构成一个有机的整体,形成一篇完整的文章。如何分解层次主要取决于表现主旨的需要。【策略解读】一般说来,记人叙事的文章常按时间顺序分解

23、层次,写景状物的文章常按时间顺序、空间顺序分解层次;说明文根据说明对象的特点,可按时间顺序、空间顺序或逻辑顺序分解层次;议论文主要根据“提出问题分析问题解决问题”顺序来分解层次。当然,分解层次不是一层不变的固定模式,而应该富于变化。文章的层次,也常常有些外在的形式:1小标题式。即围绕话题把一篇文章划分为几个相对独立的部分,再给它们加上一个简洁、恰当的小标题。如世界改变了模样四个小标题:寿命变“长”了、世界变“小”了、劳动变“轻”了、文明变“绿”了。 2序号式。序号式作文与小标题作文有相同的特点。序号可以是“一、二、三”,可以是“A、B、C”,也可以是“甲、乙、丙”从全文看,序号式干净、明快;但

24、从题目上看,却看不出文章内容,只是标明了层次与部分。有时序号式作文,也适用于叙述性文章,为故事情节的展开,提供了明晰的层次。 3总分式。如高考佳作人生也是一张答卷。开头:“人生就是一张答卷。它上面有选择题、填空题、判断题和问答题,但它又不同于一般的答卷。一般的答卷用手来书写,人生的答卷却要用行动来书写。”主体部分每段首句分别为:选择题是对人生进行正确的取舍,填空题是充实自己的人生,判断题是表明自己的人生态度,问答题是考验自己解决问题的能力。这份“试卷”设计得合理而且实在,每个人的人生都是不同的,这就意味着这份人生试卷的“答案是丰富多彩的”。分解层次,应追求作文美学的三个价值取向:一要匀称美。什

25、么材料在前,什么材料在后,要合理安排;什么材料详写,什么材料略写,要通盘考虑。自然段是构成文章的基本单位,恰当划分自然段,自然就成为分解层次的基本要求。该分段处就分段,不要老是开头、正文、结尾“三段式”,这种老套的层次显得呆板。二要波澜美。文章内容应该有张有弛,有起有伏,如波如澜。只有这样才能使文章起伏错落,一波三折,吸引读者。三要圆合美。文章的开头与结尾要遥相照应,把开头描写的事物或提出的问题,在结尾处用各种方式加以深化或回答,给人首尾圆合的感觉。【例文解剖】 话题:忙忙,不亦乐乎 忙,是人生中一个个步骤,每个人所忙的事务不同,但是不能是碌碌无为地白忙,要忙就忙得精彩,忙得不亦乐乎。 忙是问

26、号。忙看似简单,但其中却大有学问。忙是人生中不可缺少的一部分,但是怎么才能忙出精彩,忙得不亦乐乎,却并不简单。人生如同一张地图,我们一直在自己的地图上行走,时不时我们眼前就出现一个十字路口,我们该向哪儿,面对那纵轴横轴相交的十字路口,我们该怎样选择?不急,静下心来分析一下,选择适合自己的坐标轴才是最重要的。忙就是如此,选择自己该忙的才能忙得有意义。忙是问号,这个问号一直提醒我们要忙得有意义,忙得不亦乐乎。 忙是省略号。四季在有规律地进行着冷暖交替,大自然就一直按照这样的规律不停地忙,人们亦如此。为自己找一个目标,为目标而不停地忙,让这种忙一直忙下去。当目标已达成,那么再找一个目标,继续这样忙,

27、就像省略号一样,毫无休止地忙下去,翻开历史的长卷,我们看到牛顿在忙着他的实验;爱迪生在忙着思考;徐霞客在忙着记载游玩;李时珍在忙着编写本草纲目。再看那位以笔为刀枪的充满着朝气与力量的文学泰斗鲁迅,他正忙着用他独有的刀和枪在不停地奋斗。忙是省略号,确定了一个目标那么就一直忙下去吧!这样的忙一定会忙出生命灵动的色彩。 忙是惊叹号。世界上的人都在忙着自己的事,大自然亦如此,小蜜蜂在忙,以蜂蜜为回报。那么人呢?居里夫人的忙,以放射性元素的发现而得到了圆满的休止符;爱因斯坦在忙,以相对论的问世而画上了惊叹号;李白的忙,以那豪放的诗歌而有了很大的成功;张衡的忙,因为那地动仪的问世而让世人仰慕。每个人都应该有效率的忙,而不是整天碌碌无为地白忙。人生是有限的、短暂的,因此,每个人都应该在有限的生命里忙出属于他的惊叹号;都应在有限的生命里忙出他的人生精彩篇章。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论