已阅读5页,还剩10页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
回归分析模型一、什么是回归分析自然界中许多变量间都存在着某种相互联系和相互制约的关系,这种关系一般有两类,一类是确定性关系,也称之为函数关系。如中变量与的关系就是确定性关系。另一类是不确定性关系,也称之为相关关系或统计关系。这种变量间的关系尚无法表示成精确的函数关系,如人的身高与体重间的关系;商品的销售量与价格间的关系;树高与生长时间的关系等等均属于这类关系。所谓回归分析是指通过试验和观测,去寻找隐藏在变量间的统计关系的一种数学方法。设我们要研究变量与之间的统计关系,希望找出的值是如何随的变化而变化的规律,这时称为因变量,为自变量。通常被认为是非随机变量,它是可以精确测量或严格控制的;是一个随机变量,它是可观测的,但存在测量误差。于是与的关系可表示为.()其中是一切随机因素影响的总和,有时也简称为随机误差。通常假设满足.由()式得到,()()式称为理论回归方程。由于的函数形式未知,或者的函数形式已知,但其中含有未知参数,即,其中为未知参数。故理论回归方程一般无法直接写出。为了得到理论回归方程的近似表达式,通常先对的函数形式作出假定,然后通过观测得到关于的组独立观测数据。利用这些观测数据来估计出中的未知参数,得到经验回归方程 ()()式又称为回归方程,称为对的回归函数。当是线性函数时,()式称为线性回归方程,而获得线性回归方程的方法称为线性回归分析。若所进行的线性回归分析中自变量是一元的,则称之为一元线性回归分析;若自变量是多元的,则称之为多元线性回归分析。回归分析在数学建模中的应用非常广泛,其主要作用有:()根据所给的数据,在误差尽可能小的条件下,建立因变量与自变量之间的回归方程,并利用此方程对变量进行预测或控制。()判断自变量中,哪些变量对的影响是显著的,哪些变量的影响是不显著的。()估计多项式插值函数的系数。二、一元线性回归分析一元线性回归分析是指获得一元线性回归方程的方法。1数学模型的建立设变量与之间存在统计关系,通过观测得到关于的对独立观测数据.()在平面直角坐标系中,描出每对观测数据所对应的点,得到的图称为散点图。若散点图呈直线状,则可以假定变量与之间有如下关系.()其中为随机变量,为非随机变量,称为回归系数。为随机变量,称为随机误差,它可以理解为中无法用表示的其它各种随机因素造成的误差。我们的问题是要用来估计的均值,即.且假定,是与无关的待定常数。因此,变量的对独立观测数据应满足 ()其中为待估参数,为个相互独立的且服从同一正态分布的随机变量。()式称为一元线性回归的数学模型。2参数的最小二乘估计为了得到回归方程, ()我们需要利用观测数据来估计参数,而估计参数的原则是使(误差平方和)尽可能地小。又因为,()所以和的估计值和应为方程组()的解。记,则方程组()化为 (10)方程组(10)称为正规方程组。由于,所以方程组(10)有唯一解,其解为. (11) 若记则(11)可化为,. (12)所求回归方程为. (13)这种以误差平方和达最小为原则的参数估计方法称为最小二乘估计。例考察硫酸铜(CuSO4)在100克水中的溶解量与温度间的关系时,作了9组独立试验,结果见表31。试寻找隐藏在变量与之间的统计关系。表3温度()01020304050607080溶解量(g)14.017.521.226.129.233.340.048.054.8图 31解以变量的9组独立观测数据为点的坐标,在平面直角坐标系中作散点图,见图3。由图3可见变量与之间大致呈线性关系,因此我们设. (14)其中和为待估参数,为随机误差,且设。利用公式(12)对参数和进行估计,计算结果如下. .所求回归方程为. (15)至于回归方程(15)是否真实地反映了变量与之间的统计关系,这还需对其进行显著性检验。3回归方程的显著性检验由前面的讨论可知,变量与之间存在线性统计关系是依据散点图做出的假设。这只是一种直观判断,并不可靠。一旦变量与之间不存在线性统计关系,则我们所确定的回归方程将毫无意义。因此,在建立了回归方程后,我们必须对变量与之间是否真正存在线性统计关系进行检验,这就是所谓的回归方程显著性检验。对回归方程(13)进行显著性检验,就是要检验假设当为真时,模型()不成立,即与之间不存在线性统计关系;当不真时,模型()成立,即与之间存在线性统计关系。为了检验假设,需要建立检验统计量。在建立检验统计量之前,首先对引起数据波动的主要因素进行分析。归纳起来引起数据波动的主要因素有两个:()由自变量取值的不同引起的变化,称为回归因素。()其它一切随机因素(包括试验误差)的影响,称为误差因素。为了检验两方面的影响哪一个是主要的,需要把它们从的总离差中分解出来,这就是所谓的总离差平方和的分解。观测值的总离差.可以证明,其中是回归方程在处的函数值,即称为理论值,并且其平均值也是。记, (16)则是描述,的离散程度的平方和,的大小反映了的变化对波动的影响,因此称为回归平方和,其自由度为1(因为自变量的个数是1)。而是反映其它一切随机因素(包括试验误差)对波动的影响,称为剩余平方和(或残差平方和),其自由度为的自由度减去1,即。由回归平方和及剩余平方和的意义可知,与之间是否存在线性统计关系,取决于及在中所占的比例大小,或者看的大小,这个比值越大,说明对的线性影响越大。可以证明,且与相互独立。而在假设成立的条件下,有 .因此,由分布的定义知,在成立的条件下,. (17)有了检验统计量,在给定的显著性水平下,假设的拒绝域为.若假设被拒绝,则回归方程(13)的回归效果是显著的,这说明变量与之间存在显著的线性统计关系;否则回归方程(13)的回归效果是不显著的,这说明变量与之间不存在显著的线性统计关系。回归平方和与剩余平方和也可采用下述简便公式计算(=),.(18)例对例1中的回归方程(15)进行显著性检验。解假设 .我们有,且,,.查表知。因此,回归方程(15)的回归效果是极显著的,即例1中变量与之间存在着极显著的线性统计关系。4应用回归方程进行预报当所建立的回归方程通过了显著性检验后,可应用该回归方程进行预报。如在例1中,我们可以应用回归方程(15)预报水温为25时,硫酸铜的溶解量。因为,所以当水温为25时,硫酸铜的溶解量为24.1克。三、多元线性回归分析多元线性回归分析的理论与一元线性回归分析的理论是相似的,只不过自变量由一元扩展到了多元,因此在计算上相对要复杂一些。下面将多元线性回归分析简要地做一个介绍。1 数学模型的建立假设变量与变量之间有如下关系 (19)其中为随机变量,为非随机变量,称为回归系数。为随机变量,称为随机误差,它可以理解为中无法用表示的其它各种随机因素造成的误差。我们的问题是要用来估计的均值,即.且假定,是与无关的待定常数。为了估计,对变量进行次独立试验(或观测),得到的组独立观测数据为. (20)而变量的组独立观测数据应满足 (21)其中为待估参数,为个相互独立且服从同一正态分布的随机变量,(21)式称为多元线性回归的数学模型。若记,.则(21)式的矩阵形式为.(22) 2参数的最小二乘估计与一元线性回归的理论相同,也以使得误差平方和最小为原则,对理论回归方程 (23)的参数进行估计。因为,所以的估计值应为方程组 (24)的解。方程组(24)称为正规方程组,其有唯一解。方程组(24)的矩阵形式为若记回归方程(23)中待估参数的估计值为,则 (25)所求回归方程为 (26)方程组(24)也可以写为 (27)其中;.若记 (28)则,3回归方程的显著性检验(1)总离差平方和的分解,其中,称为理论值,并且其平均值也是若记,.则称为回归平方和,它反映了自变量的变化所引起的的波动,其自由度为(因为自变量的个数为);而称为剩余平方和(或残差平方和),它反映了其它一切随机因素(包括试验误差)对波动的影响,其自由度为的自由度减去,即()显著性检验对回归方程的显著性检验是指检验假设. (29)可以证明,且和相互独立当假设成立时,可以证明因此,由分布的定义知,在成立的条件下,. (30)有了检验统计量,在给定的显著性水平下,假设的拒绝域为若假设没有被拒绝,则回归方程(26)的回归效果是不显著的,这说明变量与变量之间不存在显著的线性统计关系,回归方程(26)没有任何实际意义;若假设被拒绝,则回归方程(26)的回归效果是显著的,这说明变量与变量之间存在显著的线性统计关系4回归系数的显著性检验前面对回归方程的显著性检验,是对回归方程中全部自变量的总体回归效果进行检验但总体回归效果显著并不说明每个自变量对因变量的影响都是显著的,即可能有某个自变量对的影响并不显著,或者能被其它的自变量的作用所代替因此,对这种自变量我们希望能从回归方程中剔除,从而建立更简单的回归方程显然若自变量对因变量的影响不显著,则它的回归系数就应取值为零因此,检验每个自变量是否对影响显著,就是检验假设(31)可以证明,在假设成立的条件下,统计量. (32)其中为(28)式中矩阵的主对角线上第个元素。有了检验统计量,在给定的显著性水平下,假设的拒绝域为若假设被拒绝,则对有显著影响;否则对没有显著影响,应在回归方程中被剔除,并且对变量与变量之间的线性统计关系需要重新进行线性回归分析,再建立新的回归方程这个过程只有到了回归方程中所有的自变量对的影响都显著时才能停止例3某养猪场估计猪的毛重,测得14头猪的体长(cm)、胸围(cm)与体重(kg)的数据见表3试建立与的回归方程表3序号1234567891011121314x141455152596269727880909298103x24958627162747174798485949195y2839414443505157636670768084解假设与之间有如下关系,故所求回归方程为应用方程组(27)进行参数估计经计算得 ,,.故,所求回归方程为 (33)对回归方程进行显著性检验,经计算得.故查表知,因此,回归方程(33)的回归效果极显著。对回归系数进行显著性检验,经计算得,查表知,因此,和对的影响都显著,和都应保留在回归方程(33)中。作业1在研究某化学提取过程中温度()与得率(%)的相关关系时,作了9组独立试验,观测值的散点图呈线性变化规律,根据观测值计算出:=40,=31.567,=6000,=2995,=1533.38(1)求回归方程;(2)对回归方程进行显著性检验(取显著性水平=0.01,临界值=12.25)。作业2为了研究老鼠体内血糖的减少量和注射胰岛素A的剂量的关系,将同样条件下繁殖的7只老鼠注射不同剂量的胰岛素A,观测数据见下表。观测注射胰岛素A的剂量0.200.250.300.350.400.450.50老鼠体内血糖的减少量302640355460
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 就算全世界在下雪9篇
- 山东省泰安市第六中学2024-2025学年上学期九年级12月月考数学试卷(无答案)
- 江苏省南通市通州区金郊初级中学2024-2025学年上学期八年级英语第三次月考试题(含答案无听力原文及音频)
- 高一 上册 人教版 英语 必修二 第二单元《Lesson 2 Reading and Thinking (1)》课件
- 人教版小学二年级语文下册21《画家和牧童》课件
- 6.1 波形变换器简介
- 2024届四川省成都市高三下学期第三次诊断性检测考试英语试卷(含答案解析)
- 《种质资源利用》课件
- 《企业管理创》课件
- 《文言文复习专题》课件
- 理论力学-课件
- 初中音乐《玫瑰三愿》教案
- 高电压技术ppt
- 地质灾害危险性评估收费标准 版
- 保罗大叔分比萨绘本PPT课件
- 圆盘式脚手架产品使用说明书
- 美国超声医学会AIUM透析通路术后血管超声评估实践指南中文(2014年版)江西超声网
- 考古学课件 单元8(秦汉考古:秦汉墓葬2)
- 光伏发电项目达标投产实施细则
- 吸收塔防腐施工方案(电厂脱硫装置防腐施工工艺)
- 标准法兰盘尺寸表PgMPa
评论
0/150
提交评论