方差分析与回归分析理.ppt_第1页
方差分析与回归分析理.ppt_第2页
方差分析与回归分析理.ppt_第3页
方差分析与回归分析理.ppt_第4页
方差分析与回归分析理.ppt_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

方差分析与回归分析,西北农林科技大学理学院,徐 钊编制,方差分析 Analysis Of Variance,一、方差分析的概念与基本思想 1.问题的提出 例题8.1 在饲料养鸡增肥研究中,某饲料研究所提出三 种配方: A1以鱼粉为添加料, A2以槐树粉为添加料, A3 以苜蓿粉添加料。为比较三种饲料的效果,特选24只相似 的雏鸡随机分为三组,每组用一种饲料喂养,60天后测其 体重,获得数据如下表,比较三种饲料的增重效果是否一致,可以转化为利用样本 比较三个总体均值是否相等。直观上看该问题可以用两个 总体均值差异显著性检验解决,但细想想还是存在一定问 题,因为这样的比较能增大犯错误的概率。为解决这类问 题,英国统计学家R.A.Fisher于1924年提出了解距此类问题 的通用方法-方差分析法。,2.方差分析的概念 因素:影响试验指标变化的原因。 水平:因素所划分成不同等级,每个等级称为该因素的一 个水平。 条件变差:能反映控制因素不同水平对试验指标的作用的 量,又称为处理效应或组间效应。 随机误差:能反映控制因素以外因素对试验指标作用的量。,3.方差分析的基本思想 试验指标的变化可以用指标值的方差反映,导致指标值 发生变化的原因有两方面:一是可控因素,二是不可控因 素。方差分析就是将指标值的方差分解成条件变差与随机 误差,然后依据概率远离比较条件变差与随机误差大小关 系,从而决定引起指标值的变化的主要原因。 4.方差分析的基本假定 不同因素对试验指标值的影响作用是加性效应,即试验 指标值的变化是各种因素所起作用的累加; 试验指标服从正态分布; 试验数据是随机的,并且可控因素不同水平的试验数据 方差齐性。,二、单因素方差分析的统计模型,1.单因素方差分析的数据结构 单因素方差分析的试验数据应具有下列结构形式。,2.单因素方差分析的统计模型,该形式称为单因素方差分析的统计模型。 在方差分析统计模型下,方差分析要解决的问题转化为 下列假设检验问题:,为了分析方便,我们往往对单因素方差分析的统计模型进 行如下转化。令,称其为总均值,而称,因素A第i格水平下的主效应。,三、单因素方差分析的原理,1. 试验数据离差平方和分解,离差平方和分解式,例题8.2 对例题8.1的试验数据进行方差分析。 解:H0:饲料种类对鸡的增肥没有影响; H1:有影响。,三、单因素方差分析模型的参数估计,一、相关关系的概念 在现实问题中,处于同一个过程中的一些变量,往往是相互依赖和相互制约的,形成一定的相互关系,这种相互关系大致可分为两种:,相关关系与回归关系 Correlation and Regression,(1)确定性关系函数关系; (2)非确定性关系相关关系;,1.相关关系 相关关系表现为这些变量之间有一定的依赖关,但这种关系并不完全确定,它们之间的关系不能精确地用函数表示出来,这些变量其实是随机变量,或至少有一个是随机变量。,2.相关关系举例,例如:在气候、土壤、水利、种子和耕作技术等条件基本相同时,某农作物的亩产量 Y 与施肥量 X 之间有一定的关系,但施肥量相同,亩产量却不一定相同。亩产量是一个随机变量。,又如:人的血压Y与年龄X之间有一定的依赖关系,一般来说,年龄越大,血压越高,但年龄相同的两个人的血压不一定相等。血压是一个随机变量。,农作物的亩产量与施肥量、血压与年龄之间的这种关系称为相关关系,在这些变量中,施肥量、年龄是可控变量,亩产量、血压是不可控变量。一般在讨论相关关系问题中,可控变量称为自变量,不可控变量称为因变量。,因此,统计学上讨论两变量的相关关系时,是设法 确定:在给定自变量 的条件下,因变量 的条 件数学期望,这种关系直观表达出来,一下图所示,二、回归关系的概念 1.回归关系,回归分析主要包括三方面的内容: 1)确定变量间的回归函数形式提供建立有相关关系的变 量之间的数学关系式(称为经验公式)的一般方法; 2)判别所建立的经验公式是否有效,并从影响随机变量 的诸变量中判别哪些变量的影响是显著的,哪些是不显著 的; 3)利用所得到的经验公式进行预测和控制。,3.回归分析与回归分析的内容 回归分析就是研究变量间的相关关系,通过对客观事物中变量的大量观测获得数据,去寻找隐藏在数据后面的相关关系,给出他们的表达式回归函数的估计式。,一元线性回归模型,如果试验的散点图中各点呈直线状,则假设这批数据的数学模型为,设随机变量Y依赖于自变量x,作n次独立试验,得n对观测值: ,称这n对观测值为容量为n的一个子样,若把这n对观测值在平面直角坐标系中描点,得到试验的散点图.,因此,其中 是与 无关的未知常数。,一、一元线性回归模型,1.一元回归模型 一般地,称如下数学模型为一元线性模型,2.回归函数(方程)的建立,由观测值 确定的回归函数 , 应使得 较小。考虑函数,问题:确定 ,使得 取得极小值。,记,表示对 的估计值,则变量 对 的经验回归方程为,最小二乘法,3.回归方程有效性的检验,对于任何一组数据 ,都可按最 小二乘法确定一个线性函数,但变量 与 之间是否真 有近似于线性函数的相关关系呢?尚需进行假设检验。,假设,如果 成立,则不能认为 与 有线性相关关系。,三种检验方法:F检验法、t-检验法、r检验法。,(一)回归方程有效性的F检验法,记,总离差平方和,反映观测值与平均值的偏差程度。,经恒等变形,将 分解,回归平方和,反映回归值与平均值的偏差,揭示 变量 与 的线性关系所引起的数据波动。,剩余平方和,反映观测值与回归值的偏差,揭示 试验误差和非线性关系对试验结果所引起的数据波动。,如果 为真,则,于是,统计量,对给定的检验水平 ,,(1)当 时,拒绝 ,即可认为变量 与 有线性相关关系;,(2)当 时,接受 ,即可认为变量 与 没有线性相关关系;,记,样本的相关系数,可反映变量 与 之间的线性相关程度。,因为,(二)回归方程有效性的r检验法,越大,变量 与 之间的线性相关程度越强。,因为,(1),(2) 时,,(3) 时,,与 有线性相关关系;,与 无线性相关关系;,计算,对给定的检验水平 ,查相关系数的临界值表,如果 ,则拒绝 ,即线性回归方程 有效;否则,接受 ,即线性回归方程无效。,F检验与r检验是一致的:,(三)回归方程有效性的t检验法,统计量,H0成立时,,对给定的检验水平 ,H0的拒绝域为,即当 时,变量 与 有线性相关关系。,F检验与t检验是一致的:,试求出 与 的关系,并判断是否有效。,例8.3 为了研究大豆脂肪含量 和蛋白质含量 的关系, 测定了九种大豆品种籽粒内的脂肪含量和蛋白质含量, 得到如下数据,解 (1)描散点图,(2)建立模型,由散点图,设变量 与 为线性相关关系:,确定回归系数 和 :,所以,所求的回归方程为,(3)检验回归方程的有效性,查相关系数临界值表,因为,所以回归方程在 的检验水平下有统计意义。,即可以认为大豆的蛋白质含量与脂肪含量有线性相关性。,利用回归方程进行预测,1、点预测,时, 即为 的点预测值。,2、区间预测,统计量,对给定的置信水平 , 的预测区间为,续例1 求大豆脂肪含量为18.6%的条件下蛋白质 95%的预测区间。,解 由已求得的回归方程,得蛋白质的点预测值为,所以脂肪含量为18.6%时,蛋白质的95%的预测区间为,控制则为预测的反问题:已知因变量的取值区间为,,确定自变量的取值区间 使得,利用回归方程进行控制,一般地,要解出 和 很复杂,可作简化求解:,当样本容量很大时,,,则,前一节,我们学习了一元线性回归分析问题,在实 际应用中,有些变量之间并不是线性相关关系,但可以 经过适当的变换,把非线性回归问题转化为线性回归问 题。,可线性化的一元非线性回归,常见的几种变换形式:,1、双曲线,令,2、幂函数曲线,令,化非线性回归为线性回归,变形,3、指数函数曲线,令,变形,4、负指数函数曲线,令,化非线性回归为线性回归,变形,5、对数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论