方差分析与回归分析_第1页
方差分析与回归分析_第2页
方差分析与回归分析_第3页
方差分析与回归分析_第4页
方差分析与回归分析_第5页
已阅读5页,还剩80页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

方差分析与回归分析第一页,共八十五页,编辑于2023年,星期六第五节参数估计第六节假设检验第七节预测与控制第八节非线性回归的线性化处理上一页下一页返回第二页,共八十五页,编辑于2023年,星期六第一节单因素试验的方差分析把考察事物的结果称为试验结果,也称为试验指标。影响试验指标的条件称为因素。因素可分为两类:一类是人们可以控制的,称为可控因素;另一类是人们不能控制的,称为不可控因素。为了考虑某个因素A对所考察的随机变量X的影响,可以在实验时让其他因素保持不变,而仅让因素A改变,这样的试验称为单因素试验,因素A所处的状态称为水平。上一页下一页返回第三页,共八十五页,编辑于2023年,星期六1.数学模型设在单因素试验中,所考察的因素为A,A有s个水平,在Ai下进行nj(nj2)次独立试验,得到结果:水平A1A2…

As样本观测值样本总和样本均值总体均值x11x12…

x1sx21x22…

x2s…

T.1T.2…

T.s…

上一页下一页返回第四页,共八十五页,编辑于2023年,星期六上一页下一页返回第五页,共八十五页,编辑于2023年,星期六上一页下一页返回第六页,共八十五页,编辑于2023年,星期六上一页下一页返回第七页,共八十五页,编辑于2023年,星期六2、平方和的分解总的样本均值全体样本xij对总的样本均值的偏差平方和,称为总偏差平方和,简称为总平方和,记作ST,即设第i组样本的样本均值为,即把ST分解如下:上一页下一页返回第八页,共八十五页,编辑于2023年,星期六其中表示各组样本均值对总的样本均值的偏差平方和,称为因素A的效应平方和(或组内平方和)。上一页下一页返回第九页,共八十五页,编辑于2023年,星期六效应平方和SA反映由于因素A的不同水平所引起的系统误差,即各组样本之间的差异程度;误差平方和SE则反映了试验过程中各种随机因素所引起的随机误差。表示各个样本xij对本组样本均值的偏差平方和的总和,称为误差平方和(或组内平方和)(residualsumofsquares)上一页下一页返回第十页,共八十五页,编辑于2023年,星期六于是上一页下一页返回第十一页,共八十五页,编辑于2023年,星期六若原假设H0正确,则所有样本xij均可看作来自同一正态总体且相互独立。于是有3、假设检验问题的拒绝域上一页下一页返回第十二页,共八十五页,编辑于2023年,星期六若由样本观测值计算得到统计量F的值大于F,则在显著性水平下拒绝原假设H0,即认为因素A的不同水平对总体有显著影响;若F的值不大于F,则接受H0,即认为因素A的不同水平对总体无显著影响。上一页下一页返回第十三页,共八十五页,编辑于2023年,星期六实际中,ST,SA及SE可按以下公式计算:上一页下一页返回第十四页,共八十五页,编辑于2023年,星期六例9.2某消防队要检验4种不同型号冒烟报警器的反应时间,今将每种型号报警器各取5个安装在同一条烟道里,当烟量均时观测报警器的反应时间,其数据如下表所示:问各种型号冒烟报警器的反应时间有无显著性差异(显著性水平α=0.05)?解:假设H0:μ1=μ3=μ3=μ4,报警器型号反应时间A15.26.34.93.26.8A27.48.15.96.54.9A33.96.47.99.24.1A412.39.47.810.88.5第十五页,共八十五页,编辑于2023年,星期六方差来源平方和自由度F值临界值显著性Ae56.2948.773166.15F0.05(3,16)=3,16F0.01(3,16)=5.29**总和105.0619F=6.15>5.29=F0.01(3,16),所以拒绝假设H0,即认为各种型号冒烟报警器的反应时间有显著性差异。第十六页,共八十五页,编辑于2023年,星期六参考题1为了考察温度对某种化工产品的得率的影响,选了五种温度:A1=60℃,A2=65℃,A3=70℃,A4=75℃,A5=80℃在每种温度下各做三次试验,测得其得率(%)如下:温度A1A2A3A4A5得率868683868887908892848388848682检验温度对该化工产品的得率是否有显著影响。解:计算各个水平下的样本均值,得上一页下一页返回第十七页,共八十五页,编辑于2023年,星期六计算ST=106.4,SA=68.4,SE=38.0单因素试验的方差分析表:方差来源平方和自由度F值临界值显著性因素A误差68.438.04104.54.5F0.05(4,10)=3.48F0.01(4,10)=5.99※

总计106.414由表可知,温度对化工产品的得率有显著影响,因为70℃时产品得率均值的估计值最高,所以应选用70℃。上一页下一页返回第十八页,共八十五页,编辑于2023年,星期六第二节双因素试验的方差分析1、双因素等重复试验的方差分析在多因素方差分析中,通常把因素A与因素B的交互作用设想为影响试验结果的另一因素,记作A×B,或简记作I。由于要考虑交互作用的影响,因此对于因素A与因素B的各个水平的每一种配合(Ai,Bj)(i=1,2,…,r;j=1,2,…,s)就需要进行不止一次重复试验。对上述各种水平组合分别进行t≥2次重复试验,即共进行n=rst次试验,这种试验称为双因素等重复试验,假定所有的实验是相互独立的。上一页下一页返回第十九页,共八十五页,编辑于2023年,星期六设得到样本观测值xijk(k=1,2,…,t)如下表:因素因素AB1B2BsA1A2Ar上一页下一页返回第二十页,共八十五页,编辑于2023年,星期六因为在水平(Ai,Bj)下的样本与总体Xij服从相同的分布,所以有上一页下一页返回第二十一页,共八十五页,编辑于2023年,星期六上一页下一页返回第二十二页,共八十五页,编辑于2023年,星期六上一页下一页返回第二十三页,共八十五页,编辑于2023年,星期六上一页下一页返回第二十四页,共八十五页,编辑于2023年,星期六上一页下一页返回第二十五页,共八十五页,编辑于2023年,星期六因素A的效应平方和因素B的效应平方和误差平方和因素A与因素B的交互效应平方和上一页下一页返回第二十六页,共八十五页,编辑于2023年,星期六上一页下一页返回第二十七页,共八十五页,编辑于2023年,星期六实际可用下列简便公式计算ST,SA,SB,SA×B及SE上一页下一页返回第二十八页,共八十五页,编辑于2023年,星期六例9.3某化工企业为了提高产量,选了三种不同浓度、四种不同温度做试验。在同一浓度与温度组合下各做两次试验,其数据如下表所示,在显著性水平α=0.05下不同浓度和不同温度以及它们间的交叉作用对产量有无显著性影响?BAB1B2B3B4A114,1011,1113,910,12A29,710,87,116,10A35,1113,1412,1314,10第二十九页,共八十五页,编辑于2023年,星期六解r=3,s=4,t=2,而F0.05(2,12)=3.89,因此只有因素A的F比4.09>3.89,即只有因素A是显著的,即浓度不同对产量有显著性影响,而温度以及浓度和温度的交互作用对产量无显著性影响,也就是说为了提高产量必须控制好浓度。方差来源平方和自由度F值临界值显著性ABA×Be44.3311.5037.0065.00236124.090.780.63F0.05(2,12)=3.89显著T147.8323第三十页,共八十五页,编辑于2023年,星期六2、双因素无重复试验的方差分析在双因素试验中,对每一对水平组合只做一次试验,即不重复实验,得到上一页下一页返回第三十一页,共八十五页,编辑于2023年,星期六上一页下一页返回第三十二页,共八十五页,编辑于2023年,星期六因素A的效应平方和因素B的效应平方和误差平方和总平方和上一页下一页返回第三十三页,共八十五页,编辑于2023年,星期六上一页下一页返回第三十四页,共八十五页,编辑于2023年,星期六1.正交试验设计的基本方法:正交试验设计是研究和处理多因素试验的一种方法,利用正交表来安排实验,通过少量试验,获得满意的试验结果.

正交试验设计包含两个内容:第三节正交试验设计及其方差分析上一页下一页返回第三十五页,共八十五页,编辑于2023年,星期六正交表是预先编制好的一种表格列号试验号1231234111122212221行数列数水平数上一页下一页返回第三十六页,共八十五页,编辑于2023年,星期六试验数因素数水平数实际试验数理论上的试验数上一页下一页返回第三十七页,共八十五页,编辑于2023年,星期六正交表的特点:上一页下一页返回第三十八页,共八十五页,编辑于2023年,星期六2、试验结果的直观分析正交试验设计的直观分析就是要通过计算,将各因素、水平对试验结果指标的影响大小,通过极差分析,综合比较,以确定最优化试验方案的方法.有时也称为极差分析法.(1)极差计算(2)极差分析上一页下一页返回第三十九页,共八十五页,编辑于2023年,星期六3、方差分析上一页下一页返回第四十页,共八十五页,编辑于2023年,星期六上一页下一页返回第四十一页,共八十五页,编辑于2023年,星期六第四节回归分析的概述一个过程中多个变量之间的关系分为两类:确定性关系,也就是通常所说的函数关系;非确定性关系,即所谓的相关关系。确定性关系是指当一些变量的值确定以后另一些变量的值也随之完全确定的关系。相关关系是指变量之间有一定的依赖关系,但当一些变量的值确定以后,另一些变量的值虽随之变化却并不能完全确定,这时变量间的关系不能精确地用函数来表示。上一页下一页返回第四十二页,共八十五页,编辑于2023年,星期六(1)给出建立具有相关关系的变量之间的数学关系式(通常称为经验公式)的一般方法;(2)判别所建立的经验公式是否有效;判别哪些预报变量对响应变量的影响是显著的,哪些是不显著的;(3)利用所得到的经验公式进行预测和控制。回归分析(regressionanalysis)是数理统计中研究一个响应变量与若干个预报变量之间相关关系的一种有效方法;其中只有一个预报变量的回归分析称为一元回归分析,多于一个预报变量的回归分析称为多元回归分析。回归分析的任务主要有三个:上一页下一页返回第四十三页,共八十五页,编辑于2023年,星期六一元回归分析与最小二乘法取定x时随机变量y的数学期望E(y|x)作为x时随机变量y的估计值,即显然,当x变化时E(Y|X=x)是x的函数,记作可以用一个确定的函数关系式大致地描述y与x之间的相关关系。函数称为y关于x的回归函数,简称回归;称为y关于x的回归方程。上一页下一页返回第四十四页,共八十五页,编辑于2023年,星期六回归方程反映了y的数学期望E(y)随x的变化而变化的规律性。y与x的相关关系表示为是随机误差,它是均值为零的随机变量,通常假定是不依赖于X的未知参数。的大小在一定程度上反映了在x处随机变量y的观测值的大小,如能找到,就能在一定条件下解决如下两个问题:1.在给定的置信度下,估计当x取某一定值时y的取值情况,这就是所谓的预测问题;2.在给定的置信度下,控制X的取值范围以使y在给定的范围内取值,这就是所谓的控制问题。上一页下一页返回第四十五页,共八十五页,编辑于2023年,星期六通常先限制为某一类型的函数。函数的类型可以由与被研究问题的本质有关的物理假设来确定;若没有任何理由可以确定函数的类型,则只能根据在试验结果中得到的散点图来确定。在确定了函数的类型后,就可以设其中a1,a2……ak为未知参数。寻找合适的回归函数的问题就归结为:如何根据试验数据合理地选择参数a1,a2……ak的估计值上一页下一页返回第四十六页,共八十五页,编辑于2023年,星期六这些估计值使得方程在一定的意义下“最佳地”表现变量Y与X之间的相关关系。选取中参数,使得观测值yi与相应的函数值(i=1,2……n)的偏差平方和为最小,这就是所谓的最小二乘法。最小二乘法的概率意义:设当可控变量X取任意实数x时,随机变量Y服从正态分布,即Y的概率密度为其中,而是不依赖于x的常数。上一页下一页返回第四十七页,共八十五页,编辑于2023年,星期六在n次独立试验中得到观测值(x1,y1),(x2,y2),…(xn,yn),利用极大似然估计法估计未知参数a1,a2,…ak,时,有似然函数似然函数L取得极大值,上式指数中的平方和取最小值。即为了使观测值(xi,yi)(i=1,2,…,n)出现的可能性最大,应当选择参数a1,a2,…,ak,使得观测值yi与相应的函数值的偏差平方和最小。这就是最小二乘法的概率意义。上一页下一页返回第四十八页,共八十五页,编辑于2023年,星期六解方程组求出参数a1,a2,……ak的估计值(这样求出的参数a1,a2,……ak的估计,称为最小二乘估计(leastsquaresestimation,简称LSE)),再求回归方程的估计式(称为经验回归方程)。分别求S对a1,a2,……ak的偏导数,并令它们等于零,就得到上一页下一页返回第四十九页,共八十五页,编辑于2023年,星期六1、一元线性回归回归方程为方程的图形称为回归直线。x,y的相关关系可表示为其中a,b,2为不依赖于x的未知参数,上式称为一元线性回归模型,简称一元线性模型。当y与x间满足这种关系时,y与x间有线性相关关系。考虑回归函数是线性函数,即,这就是所谓的一元线性回归分析。回归方程为第五节参数估计上一页下一页返回第五十页,共八十五页,编辑于2023年,星期六用最小二乘法确定未知参数a及b。考虑试验点关于回归直线的偏差平方和分别求Q对a及b的偏导数,令它们等于零,得方程组上一页下一页返回第五十一页,共八十五页,编辑于2023年,星期六线性回归方程为称为经验回归系数(也称回归系数),对应的直线称为经验回归直线(简称回归直线)。亦可表示为上一页下一页返回第五十二页,共八十五页,编辑于2023年,星期六上一页下一页返回第五十三页,共八十五页,编辑于2023年,星期六参考题2Pearson测量了10对父子的身高,所得数据如下(单位:英寸)父亲身高606264666768707274儿子身高63.665.26666.967.167.468.370.170求儿子身高y关于父亲身高x的回归方程。上一页下一页返回第五十四页,共八十五页,编辑于2023年,星期六可知,当父亲身高高于或低于父代身高的平均值时,儿子的身高有向子代的平均身高靠近的趋势,这就是“回归”。上一页下一页返回第五十五页,共八十五页,编辑于2023年,星期六2、多元线性回归上一页下一页返回第五十六页,共八十五页,编辑于2023年,星期六正规方程上一页下一页返回第五十七页,共八十五页,编辑于2023年,星期六上一页下一页返回第五十八页,共八十五页,编辑于2023年,星期六例9.5在快递公司中,雇员工作时间与雇员的投递行程距离以及雇员承担的业务次数有关。在多次的观察中,我们采集了下列数据:雇员编号工作时间Y行程距离x1业务次数x219.3100424.850338.9100446.5100254.250266.280277.475386.065497.6903106.1902第五十九页,共八十五页,编辑于2023年,星期六①求Y对x1和x2的二元线性回归方程;②作回归方程显著性分析(α=0.05)。解:①令,将数据代入正规方程组得解得故二元线性回归方程为第六十页,共八十五页,编辑于2023年,星期六②假设H0:b1=b2=0,在前面求正规方程组时,我们得到故,第六十一页,共八十五页,编辑于2023年,星期六因此拒绝H0,即认为此二元线性回归方程有效。第六十二页,共八十五页,编辑于2023年,星期六当且仅当b≠0时,变量Y与X之间存在线性相关关系,为了检验Y与X之间的线性相关的显著性,应当检验原假设H0:b=0是否成立。若拒绝H0,则认为Y与X之间存在线性关系,所求得得线性回归方程有意义;若接受H0,则认为Y与X得关系不能用一元线性回归模型来表示,所求得的线性回归方程无意义。第六节假设检验上一页下一页返回第六十三页,共八十五页,编辑于2023年,星期六1、方差分析法(F检验法)考察样本y1,y2,……yn的偏差平方和,或称总平方和剩余平方和,反映了观测值偏离回归直线的程度,这种偏离是由于观测误差等随机因素引起的。上一页下一页返回第六十四页,共八十五页,编辑于2023年,星期六回归平方和它反映回归值的分散度,这种分散是由于Y与X之间得线性相关关系引起的;统计量上一页下一页返回第六十五页,共八十五页,编辑于2023年,星期六参考题3在上例中,利用方差分析检验儿子的身高Y与父亲身高X之间的线性相关关系是否显著。上一页下一页返回第六十六页,共八十五页,编辑于2023年,星期六方差来源平方和自由度F值临界值显著性回归剩余37.0351.49418198.313F0.01(1,8)=11.26**总计38.5299因为F>F0.01(1,8),所以儿子的身高Y与父亲的身高X之间的线性相关关系特别显著。上一页下一页返回第六十七页,共八十五页,编辑于2023年,星期六2.

相关系数检验法(r检验法)考察相关系数r的大小:若相关系数r的绝对值很小,则表明y与x之间的线性相关关系不显著,或者根据不存在线性相关关系若相关系数r的绝对值较大(接近于1)时,才表明y与x之间的线性相关关系显著上一页下一页返回第六十八页,共八十五页,编辑于2023年,星期六上一页下一页返回第六十九页,共八十五页,编辑于2023年,星期六r检验法的步骤和法则为:由试验数据计算出相关系数r的值并与临界值比较.上一页下一页返回第七十页,共八十五页,编辑于2023年,星期六3、

t检验法上一页下一页返回第七十一页,共八十五页,编辑于2023年,星期六1、预测第七节预测与控制x与y之间的关系不是确定的,所以对于任意给定x0,不可能精确地知道相应值y0。将x=x0代入线性回归方程只能得到y0的估计值(回归值)对y0进行区间估计,即给定的置信度1-,求出y0的置信区间(称为预测区间),这就是所谓的预测问题。上一页下一页返回第七十二页,共八十五页,编辑于2023年,星期六y0的置信水平为1-的预测区间为上一页下一页返回第七十三页,共八十五页,编辑于2023年,星期六y0的置信水平为1-的预测区间近似为上一页下一页返回第七十四页,共八十五页,编辑于2023年,星期六例如,置信度为95%预测区

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论