(5.2.9)-3.5 回归分析1-线性回归_第1页
(5.2.9)-3.5 回归分析1-线性回归_第2页
(5.2.9)-3.5 回归分析1-线性回归_第3页
(5.2.9)-3.5 回归分析1-线性回归_第4页
(5.2.9)-3.5 回归分析1-线性回归_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

(PPT2)同学,你好,今天我们讨论多元统计分析中的回归分析。由回归分析基本概念、一元线性回归、多元线性回归、非线性回归、模型拓展五个部分组成。本节课介绍回归分析基本概念和一元线性回归。(PPT3)首先介绍第1部分,回归分析基本概念(PPT4)让我们先通过两个例子来对回归分析有个直观印象。(动画1)第一个例子,一种农作物的亩产量与播种量、施肥量有重要联系,这种数量之间的关系可用回归分析来进行研究。但他们不能严格决定产量。除了播种量和施肥量外,其它因素如灌溉情况、气温变化、自然灾害等等,都会影响到亩产量,我们把除播种量和施肥量以外影响产量的因素归于随机误差。(动画2)第二个例子,人的身高和体重存在关联,一般表现为身高越大体重也倾向于越大,可用回归分析来研究,但身高不能严格地决定体重。(PPT5)(动画1)那么,什么是回归分析?•根据样本信息来描述两种或两种以上变量间的相互依赖的定量关系的统计分析方法称为回归分析。(动画2)•实际问题中往往涉及多个变量。在这些变量中,有一个是需要特别关注的称为因变量,(动画3)而其他变量看作是影响这一变量的因素,称为自变量。•第1个例子中亩产量为因变量,播种量、施肥量为自变量。(PPT6)回归分类(动画1)回归模型根据其自变量的个数可分为(动画2-4)一元回归和(动画5-6)多元回归(动画7-12)根据自变量的结构可分为线性回归和非线性回归(PPT7)下面介绍回归分析模型(动画1)现设一个问题中有因变量Y以及自变量X1,X2,...,X_p,有模型(动画2)Y=f(X_1,X_2,...,X_p)+epsilon(动画3)其中epsilon为观察值Y围绕它的期望值E(Y|X1,...,X_p)的离差,是一个不可观测的随机变量,又称为随机干扰项或随机误差项。(动画4)称函数f(X1,...,Xp)=E(Y|X1,...,Xp)为Y对X1,...,Xp的回归函数(动画5)称方程Y=f(X1,...,Xp)为Y对X1,...,Xp的回归方程(动画6)利用自变量X1,...,Xp的值更好地逼近因变量Y就是在均方误差最小的意义下使回归函数效果最好。(PPT8)相关性分析和回归分析是研究现象之间相关关系的两种常用方法,二者有着密切的联系,它们不仅有共同的研究对象,而且在具体运用时,常常需要互相补充。在相关分析中,相关系数能确定两个变量之间的相关方向和相关的密切程度;而回归分析是对具有相关关系的两个或两个以上的变量之间数量变化的一般关系进行测定。相关分析需要借助回归分析表明现象数量相关的具体形式,同时,回归分析需要依靠相关性分析来表明现象数量变化的相关程度,只有变量之间高度相关时,进行回归分析才有意义。但是,相关性分析和回归分析在研究目的和具体研究方法上有着明显的区别。(动画1)1、相关性分析分析只研究变量间的相关方向和相关密切程度,无须明确自变量和因变量;而回归分析必须明确自变量和因变量,并且只能从自变量推测因变量。(动画2)2、相关性分析无法指出变量之间相关关系的具体形式;而回归分析能得到变量之间的定量关系,从而可以通过已知量预测未知量。(动画3)3、相关性分析一般涉及的变量都是随机的;而回归分析中的因变量是随机的,自变量则作为研究对象,是给定的。(PPT9)下面我们介绍第二部分——一元线性回归(PPT10)(动画1)设y是一个可观测的随机变量,它受到一个非随机变量因素x和随机因素epsilon的影响,且y与x有如下线性关系:y=beta_0+beta_1*x+epsilon(动画2)其中,(动画3)epsilon是一个随机变量,服从均值为0,方差为sigma^2的正态分布。(动画4)beta_0,beta_1称为回归系数(动画5)x为自变量(动画6)y为因变量称上式为一元线性回归模型。(PPT11)(动画1)通常,我们对总体(x,y)进行n次独立的观测,获得n组观测数据(x_1,y_1),(x_2,y_2),...,(x_n,y_n),在直角坐标系中画出这些数据点,如果这些点大致位于同一条直线的附近,则认为y与x之间的关系符合一元线性回归模型。具体结构为(动画2)y_i=beta_0+beta_1*x_i+epsilon_i(i=1,...,n)(动画3,动画4)其中,epsilon_i独立与epsilon同分布。(动画5)一元线性回归分析的主要任务有三个:(动画6)(1)利用样本观测值估计回归系数(动画7)(2)对方程的线性关系作显著性检验(动画8)(3)利用回归方程作预测(PPT12)先看第一个任务:回归系数的估计。基本思想是:选取参数beta_0,beta_1使得残差平方和最小,即(动画1)S(beta_0_hat,beta_1_hat)=minS(beta0,beta1)=min(y_i-beta0-beta1*x_i)的平方关于i从1到n求和。(动画2)利用最小二乘法可得(动画3)beta_0_hat=y_bar-beta_1_hat*x_barbeta_1_hat=l_xy/l_xx(动画4)其中,x_bar=n分之一乘以x_i关于i从1到n求和,y_bar=n分之一乘以y_i关于i从1到n求和,l_xx=(x_i-x_bar)的平方关于i从1到n求和,l_xy=(x_i-x_bar)(y_i-y_bar)关于i从1到n求和。(动画5)得到了回归系数的估计值后,可得一元线性回归方程y_hat=beta_0_hat+beta_1_hat*x(PPT13)下面看第2个任务——回归方程的显著性检验(动画1)对n个样本点(x_i,y_i),其回归方程为y_hat=beta_0_hat+beta_1_hat*x(动画2)检验回归方程是否有意义的问题可以转化为检验以下假设H0是否为真:H0:beta1=0H1:beta1不等于0(动画3)常用的检验方法F检验(方差分析法)和判定系数R2检验。(PPT14)(动画1)1)F检验(动画2)在H0成立时,F检验统计量为F=SR比1除以SE比n-2~第一自由度为1,第二自由度为n-2的F分布。(动画3)给定显著性水平alpha,H0的拒绝域为{F大于等于F_(1-alpha)(1,n-2)}应用F检验法,计算F值的过程可列成方差分析表。(动画4)可先求回归平方和SR=(y_i_hat-y_bar)的平方关于i从1到n求和、残差平方和SE=(y_i-y_i_hat)的平方关于i从1到n求和,它们的和得到总平方和ST,然后再求均方和MSR与MSE,根据均方和的比值即可算出F值,将计算的F值与自由度为(1,n-2)的F分布的临界值比较大小,即可得到回归方程是否显著的判断。(PPT15)(动画1,2)判定系数检验(动画2)判定系数定义为:回归平方和占总平方和的比例,即(动画3)R的平方等于SR/ST(动画4)在H0成立时,SR=0,得R2=0。因此,R2越接近于0,方程越不显著;越接近于1,方程越显著,也就是回归直线对观测值得拟合程度越好。(动画5)易知判定系数等于样本相关系数的平方。(PPT16)第3个任务——预测(动画1)若建立了回归方程,并经检验该方程是显著的,则可将该回归方程用于y的预测。在x=x0处,y的回归预测值为(动画2)y_0_hat=beta_0_hat+beta_1_hat*x_0(PPT17)一元线性回归举例(动画1)在家庭消费的例子的总体中有如下一个样本:求经验回归方程并检验线性关系的显著性。(动画2)用matlab先作散点图,可观察到Y-X图像趋近直线,故可用一元线性回归。(PPT18)按以下步骤进行(动画1)1)建立模型y_i=beta_0+beta_1*x_i+epsilon_i(动画

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论