2020统计建模多元回归分析ppt课件_第1页
2020统计建模多元回归分析ppt课件_第2页
2020统计建模多元回归分析ppt课件_第3页
2020统计建模多元回归分析ppt课件_第4页
2020统计建模多元回归分析ppt课件_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数学与生物数学教研室 蔡昌启 回归分析回归分析 在许多科研问题中在许多科研问题中, ,经常遇到一些同处经常遇到一些同处于一个一致体中的变量于一个一致体中的变量, ,这些变量之间往往这些变量之间往往是相互依赖和相互制约的是相互依赖和相互制约的, ,根据实践问题的根据实践问题的要求要求, ,我们往往需求找出描画这些变量之间我们往往需求找出描画这些变量之间依存关系的数学表达式依存关系的数学表达式( (数学模型数学模型).). ( r e g r e s s i o n analysis)一、什么是回归分析变量之间的相互关系大致可分为两类变量之间的相互关系大致可分为两类:(1)(1)确定关系确定关系-

2、函数关系函数关系. .(2)(2)不确定关系不确定关系-相关关系相关关系. . 在许多实践问题中在许多实践问题中 , ,由于消费或由于消费或实验过程不可防止存在着误差的影响实验过程不可防止存在着误差的影响, ,使得变量之间的关系具有某种程度的不使得变量之间的关系具有某种程度的不确定性确定性, ,并且不能用函数表示并且不能用函数表示, ,这些变量这些变量其实是随机变量或至少其中有一个是随其实是随机变量或至少其中有一个是随机变量机变量. . 为确定随机变量与随机变量为确定随机变量与随机变量(或非随或非随机变量机变量 ) 之间的相依关系之间的相依关系,需采用统计分需采用统计分析方法总结出隐藏在随机性

3、后面的统计析方法总结出隐藏在随机性后面的统计规律性规律性(统计模型统计模型).这类统计规律称为回这类统计规律称为回归关系归关系. 有关回归关系的计算方法和实际统有关回归关系的计算方法和实际统称回归分析称回归分析(regeression analysis). 回归分析的目的是寻求一个随机变回归分析的目的是寻求一个随机变量量Y(因变量因变量)对一组随机变量对一组随机变量X1, X2,Xp(自变量自变量 )的统计依赖关系的统计依赖关系.二、回归分析的目的二、回归分析的目的 普通来说普通来说, ,可经过直观的方法可经过直观的方法( (如如散点图散点图) )进展粗略判别进展粗略判别. .如只需一个自如只

4、需一个自变量变量, ,那么称为一元回归分析那么称为一元回归分析; ;如自变如自变量个数多于一个量个数多于一个 , ,那么称为多元回归那么称为多元回归分析分析. .三、变量确实定及要求三、变量确实定及要求 将一个需求预测的变量作为因将一个需求预测的变量作为因变量变量 ,它的取值是可观测的但不可控它的取值是可观测的但不可控制的制的 ;将被以为对因变量的取值具有将被以为对因变量的取值具有显著影响的哪些变量作为自变量显著影响的哪些变量作为自变量. 通常情况下通常情况下,自变量的取值能得以自变量的取值能得以控制控制,称为可控变量称为可控变量. 例如,我们希望经过一些易测的目例如,我们希望经过一些易测的目

5、的去预测正常儿童的心象面积的去预测正常儿童的心象面积 , 由于心由于心象面积是一个不易检测的目的,是一个象面积是一个不易检测的目的,是一个需求预测的变量需求预测的变量,根据专业知识根据专业知识 ,以为,以为性别、年龄、身高、体重、胸围能够对性别、年龄、身高、体重、胸围能够对心象面积都有影响。心象面积都有影响。因变量因变量Y-心象面积心象面积; 自变量-性别(X1)、年龄(X2 )、身高(X3 )、体重(X4 )、胸围(X5)。 四、回归分析的根本原理四、回归分析的根本原理 回归分析的本质是根据隐含统计规回归分析的本质是根据隐含统计规律性的观测值律性的观测值, ,求出因变量对自变量的求出因变量对

6、自变量的详细表达式详细表达式 y = f ( x1,x2,xp ). y = f ( x1,x2,xp ). 普通普通, ,自变量自变量X1,X2,XpX1,X2,Xp是可控是可控变量变量, ,控制它们取特殊值控制它们取特殊值x1,x2,xpx1,x2,xp时时, ,对不同个体对不同个体,Y,Y的取值依然不同的取值依然不同( (随随机性机性),Y),Y依然是随机变量依然是随机变量, ,记为记为Y( x1,x2,xp ).Y( x1,x2,xp ). Y Y虽然不能完全确定虽然不能完全确定( (随机变量随机变量),),但但却有一个确定的条件分布却有一个确定的条件分布p(Yx1,x2,xp),p(

7、Yx1,x2,xp),从而有一个确定条从而有一个确定条件均值件均值 E(Yx1,x2,xp), E(Yx1,x2,xp),它是它是x1,x2,xpx1,x2,xp的函数的函数. . 能否可用能否可用y=E(Yx1,x2,xp)y=E(Yx1,x2,xp)作为作为Y Y对对X1,X2,XpX1,X2,Xp的回归方程的回归方程? ? 定义定义1 (1 (均方误差均方误差) )设设( Y,X1, ( Y,X1, X2,Xp )X2,Xp )具有结合分布且二阶矩存具有结合分布且二阶矩存在在,f(X1,X2,Xp),f(X1,X2,Xp)是随机变量是随机变量X1,X2,XpX1,X2,Xp的函数的函数,

8、 ,那么称那么称EY- f (X1,X2,Xp)2为f( X1 , X2 , , Xp )对Y的均方误差(mean square error). 均方误差从平均意义上反映了均方误差从平均意义上反映了函数函数f(X1,X2,Xp )f(X1,X2,Xp )与随机变量与随机变量Y Y之之间差别的大小间差别的大小 , ,它可作为回归函数好它可作为回归函数好坏的判别规范坏的判别规范 . .假设某个函数与假设某个函数与Y Y的的均方误差最小均方误差最小, ,我们有理由以为在均我们有理由以为在均方误差最小规范下将它作为回归函数方误差最小规范下将它作为回归函数进展预告是最好的进展预告是最好的. .EY-f(

9、X1,X2,Xp)2 定义定义2 2 在定义在定义1 1的条件下的条件下 , , 函数函数E(YX1,X2,Xp)E(YX1,X2,Xp)是一切是一切X1,X2,XpX1,X2,Xp的函数中均方误差最小的函数中均方误差最小的函数的函数, ,即对恣意给定的函数即对恣意给定的函数f(X1,X2,Xp),f(X1,X2,Xp),总有总有EY-E(YX1,X2,Xp )2成立成立. . 定义定义2 2提示用提示用E(Yx1,x2,xp)E(Yx1,x2,xp)去预告去预告Y Y在均方误差最小规范下是最在均方误差最小规范下是最好的好的, ,因此因此, ,y = E(Yx1,x2,xp )就是我们寻觅的回

10、归函数就是我们寻觅的回归函数.在在(Y,X1,X2,Xp )的结合分布为多元正态的结合分布为多元正态分布时分布时, E(Yx1, x2,xp )为为x1,x2,xp的的线性函数线性函数,此时的回归函数为此时的回归函数为y=a0+a1x1+a2x2+ap xp我们称它为多元线性回归方程我们称它为多元线性回归方程.五、多元线性回归模型五、多元线性回归模型 设设p个自变量个自变量X1 , X2 , , Xp 的的取值为取值为x1 , x2 , , xp 时,随机时,随机Y变变量满足量满足其中其中a0 a0 ,a1a1,a2a2,, ap , ap ,22均为未知常均为未知常数,数, a0 ,a1 ,

11、 a2 , , ap , a0 ,a1 , a2 , , ap ,称为称为“偏回归偏回归系数系数 ;2 ;2称为随机误差的方差。称为随机误差的方差。称上式为称上式为p元正态线性回归模型元正态线性回归模型.), 0(222110NexaxaxaaYpp对对p元线性回归模型我们要处理如下问题元线性回归模型我们要处理如下问题: 1.根据样本观测值去估计未知参数根据样本观测值去估计未知参数a0 ,a1 , a2 , , ap ,2 , 从而建立从而建立Y与与X1,X2,Xp 间间的关系式的关系式(回归方程回归方程);2.对回归方程的回归效果进展统计检验对回归方程的回归效果进展统计检验; 3. 检验各变

12、量检验各变量X1,X2,Xp分别对目的分别对目的(Y)能否有显著影响能否有显著影响.按最小二乘估计的原理估计未知参数. 实 践 问 题实 践 问 题 : 知知 2 9 例 儿 童 的 血 红 蛋 白例 儿 童 的 血 红 蛋 白hemoglo,g与钙与钙Ca,g、镁、镁Mg, g、铁铁Fe, g、锰、锰(Mn,g)、铜、铜(Cu,g)的含量如的含量如表表,试建立一个钙、镁、铁、锰、铜预测血红蛋试建立一个钙、镁、铁、锰、铜预测血红蛋白的数学模型。白的数学模型。1 54.89 30.86 448.70 .012 1.010 13.50 2 72.49 42.61 467.30 .008 1.640

13、 13.00 3 53.81 52.86 425.61 .004 1.220 13.75 编号编号 钙钙 镁镁 铁铁 锰锰 铜铜 血红蛋白血红蛋白29 47.31 28.55 294.70 .005 .838 7.00多元线性回归数学模型多元线性回归数学模型 1. 单击单击 “开场开场 “程序程序 SPSS for windows SPSS10.0 for windows type in data OK 单击单击 “ Variable View ( 在第一列在第一列输入钙输入钙 、镁、镁 、铁、铁 、锰、锰 、铜、铜 、血红蛋白、血红蛋白 ;单击单击 “ Data View。SPSS软件的实现

14、与结果分析软件的实现与结果分析2. SPSS输入数据格式输入数据格式: 29行行6列列2. 程序选项程序选项 Analyze Regression Linear 引入回归分析的因变量引入回归分析的因变量: : 引入回归分析的自变量引入回归分析的自变量 : :血红蛋白血红蛋白 .钙、镁、铁、锰、铜钙、镁、铁、锰、铜 .在多元回归方法在多元回归方法Method中选:强迫引入法中选:强迫引入法Enter单击单击 Statistics ; 选项如以下图选项如以下图 ;单击单击 Continue Plots 点击点击 Plots 获得分析资料的正态性检验图形。获得分析资料的正态性检验图形。单击单击 Co

15、ntinue OK 。2. 2. 方差分析表方差分析表1. 1. 模型摘要模型摘要主要结果主要结果M Mo od de el l S Su um mm ma ar ry yb b.900a.810.768Model1RR SquareAdjusted RSquarePredictors: (Constant), 铜(CU), 铁(FE), 锰(MN), 钙(CA), 镁(MG)a. Dependent Variable: 血红蛋白b. A AN NO OV VA Ab b107.721521.54419.552.000a25.343231.102133.06428RegressionResid

16、ualTotalModel1Sum ofSquaresdfMean SquareFSig.Predictors: (Constant), 铜(CU), 铁(FE), 锰(MN), 钙(CA), 镁(MG)a. Dependent Variable: 血红蛋白b. C Co oe ef ff fi ic ci ie en nt ts sa a1.3801.550.890.383-6.93E-02.028-.304-2.500.0202.823E-02.053.079.533.5992.794E-02.004.8216.730.000-16.57216.415-.106-1.010.3231.71

17、51.143.2051.501.147(Constant)钙(CA)镁(MG)铁(FE)锰(MN)铜(CU)Model1BStd. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Dependent Variable: 血红蛋白a. 3. 3. 回归系数表回归系数表 结论结论: 回归效果检验对应的统计量回归效果检验对应的统计量 F = 19.552 , P .000 ,以为利用钙、镁、铁、锰、铜预测血红蛋白有以为利用钙、镁、铁、锰、铜预测血红蛋白有实践意义。实践意义。预测血红蛋白的数学模型预测血红蛋白的数学模型: :54321715. 1578.16028. 0028. 0069. 038. 1XXXXXYR2=0.810, 较大较大, 以为回归方程有意义以为回归方程有意义.V Va ar ri ia ab bl le es s E En nt te er re ed d/ /R Re em mo ov ve ed db b铜, 铁, 锰,钙, 镁a.EnterModel1VariablesEnteredVariablesRemovedMethodAll requested variables entered.a. Dependent Variable: 血红蛋白b. 从偏回归回归

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论