一元线性回归分析课件2_第1页
一元线性回归分析课件2_第2页
一元线性回归分析课件2_第3页
一元线性回归分析课件2_第4页
一元线性回归分析课件2_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第八章 相关与回归分析 学习目的: 1. 理解现象之间存在的相关关系; 2. 能利用相关系数对相关关系进行测定分析; 3. 明确相关分析与回归分析的主要内容以及它们各自的特点; 4. 掌握一元线性回归的基本原理和参数的最小二乘估计; 5. 能够对回归方程的显著性进行检验,并利用回归方程进行估计和预测。8-1第1页,共24页。第一节 相关分析一、变量间的关系 函数关系 是变量之间一种完全确定的关系。如,圆的面积与圆半径之间的关系 即函数关系。 相关关系(correlation) 指变量之间的数量变化受随机因素的影响而不能惟一确定的相互依存关系,其一般数学表达式为 ,其中 代表随机因素。如,居民受

2、教育程度与收入的关系及相关关系。 由于客观上常会出现观察或测量上的误差等原因,函数关系在实际工作中往往通过相关关系表现出来。而在研究相关关系时,为了找出变量之间数量关系的内在联系和表现形式,又常常需要借助函数关系的形式加以描述。 8-2互动地带第2页,共24页。第一节 相关分析二、相关关系的种类 根据相关变量之间的密切程度不同,可分为不相关、完全相关和不完全相关。 根据相关变量的变化方向划分,可分为正相关和负相关 根据相关变量的多少划分,可分为单相关和复相关。 根据变量间依存关系的形式划分,可分为直线相关和曲线相关。三、相关关系的描述与测度 散点图(scatter diagram) 用直角坐标

3、的横轴表示变量x的值,纵轴表示变量y的值,每组数据在直角坐标系中用一个点表示,n组数据在直角坐标系中形成的n个数据点称为散布点或散点,由坐标及其散点形成的二维数据图 。 8-3第3页,共24页。第一节 相关分析 散点图与相关的类型8-4互动地带第4页,共24页。第一节 相关分析相关系数(correlation coefficient) 是测度变量之间相关关系密切程度和相关方向的代表性指标。对两个变量之间线性相关程度的度量称为简单相关系数。若相关系数是根据总体全部数据计算的,称为总体相关系数,记为 ;若是根据样本数据计算的,则称为样本相关系数,记为 。两个变量的线性相关系数 或8-5例8.1第5

4、页,共24页。第一节 相关分析 相关系数的取值范围在-1和+1之间,即:1 1。 若0 1,表明和之间存在正线性相关关系; 若-1 0,表明和之间存在负线性相关关系; 若 =1,表明和之间是完全正线性相关关系; 若 = -1,表明和之间是完全负线性相关关系。 =0只表示两个变量之间不存在线性相关关系,并不说明变量之间没有任何关系,比如它们之间可能存在非线性相关关系。通常认为,当n较大时:00.3为微弱相关;0.30.5为低度相关;0.50.8为显著相关;0.81为高度相关。相关系数的显著性检验 ; 统计量 服从自由度为n-2的t分布8-6互动地带第6页,共24页。 例8.2 根据对25家银行的

5、调查数据计算不良贷款额与贷款余额的相关系数为0.8436。试检验不良贷款额与贷款余额之间的相关系数是否显著。 解:(1)提出原假设和备择假设 ; (2)取显著性水平 =0.05,根据自由度 ,查 分布表得:临界值 (3)计算检验的统计量 (4)由于 ,所以拒绝 ,表明不良贷款与贷款余额之间存在显著的正线性相关关系。8-7互动地带附表6第7页,共24页。第二节 一元线性回归分析自变量与因变量 在回归分析中,通常把被解释(预测)变量称为因变量(dependent variable),也叫响应变量(response variable),一般假设为随机变量; 把用来解释(预测)的一个或多个变量称为自变

6、量(independent variable),也称为回归变量(regressor),它可以是随机变量,也可以是非随机变量。回归的类型 如果回归分析时只有一个自变量,则称为一元回归;含有两个或两个以上回归变量时称为多元回归。 若响应变量与回归变量之间为线性关系就称为线性回归分析,否则称为非线性回归分析。 回归模型(regression model) 描述响应变量与回归变量和误差项之间的因果关系的数学表达式称为回归模型。 8-8第8页,共24页。第二节 一元线性回归分析一、一元线性回归模型理论回归模型 式中A和B是未知常数,称作回归系数(coefficient);回归变量可以是随机变量,也可以是

7、可以控制其取值的非随机的普通变量; 是不可观测的随机变量,表示 和 的关系中不确定因素的影响,我们称之为随机误差;响应变量 为随机变量。模型的三个假定 1. 随机误差 的期望值为0,即 2. 对于所有的 值, 的方差都相同 ; 3. 随机误差 是一个服从正态分布的随机变量,且各次观测的随机误差 相互独立。回归方程 8-9第9页,共24页。第二节 一元线性回归分析估计的回归方程 总体回归参数A和B是未知的,我们必须利用样本数据去估计它们。用样本统计量 和 代替回归方程中的未知参数A和B,可以得出估计的一元线性回归方程式: 式中, 是估计的回归直线在 轴上的截距; 是直线的斜率; 是 的 估计值,

8、也称 为 的回归值(regressand value)或拟合值(fitted value)。 为 每变动一个单位时, 的平均变动值。二、参数的最小二乘估计 在根据散布点去拟合回归直线时,应使得直线 所代表的估计值 和与其对应的实际观测值 之间的差为最小,即残差(residual)最小。 即:8-10互动地带第10页,共24页。第二节 一元线性回归分析 利用数学求极值的方法,由条件 且 可得关于参数和的方程组(称为标准方程组或正规方程组): 解得: 8-11第11页,共24页。 例8.3 根据表的数据,求不良贷款对贷款余额的回归方程。分行编号 各项贷款余额(观测值) 不良贷款额(观测值) 不良贷

9、款额(估计值) 残差 -1234567891011121314151617181920212223242567.3111.3173.080.8199.716.2107.4185.496.172.864.2132.258.6174.6263.579.314.873.524.7139.4368.295.7109.6196.2102.20.91.14.83.27.82.71.612.51.02.60.34.00.83.510.23.00.20.41.06.811.61.61.27.23.21.7208 3.3882 5.7263 2.2324 6.7381 -0.2156 3.2404 6.1962

10、 2.8122 1.9292 1.6033 4.1802 1.3911 5.7869 9.1557 2.1755 -0.2687 1.9557 0.1065 4.4530 13.1233 2.7970 3.3237 6.6054 3.0433 -0.8208 -2.2882 -0.9263 0.9676 1.0619 2.9156 -1.6404 6.3038 -1.8122 0.6708 -1.3033 -0.1802 -0.5911 -2.2869 1.0443 0.8245 0.4687 -1.5557 0.8935 2.3470 -1.5233 -1.1970 -2.1237 0.59

11、46 0.1567 8-12第12页,共24页。 解: 作散点图判断回归类型为直线回归。代入公式求回归系数 其回归方程为: 这表明:银行贷款余额越多,则不良贷款额越高;贷款余额每增加1亿元,不良贷款平均增加0.0378947亿元。8-13互动地带第13页,共24页。第二节 一元线性回归分析三、一元线性回归模型的检验离差平方和的分解 总平方和等于回归平方和与残差平方和之和。 即: SST=SSR+SSE 式中,回归效果的显著性检验 1、判定系数 对于一元回归, 越接近于 1,表明回归直线与各观测点越接近,回归直线的拟合程度就越好; 越接近于 0,表明回归方程的拟合程度越差。 8-14第14页,共

12、24页。第二节 一元线性回归分析 2.估计标准误差(standard error of estimate) 估计标准误差 越小,说明各观测点越靠近直线,回归直线对各观测点的代表性就越好,用于预测的可靠性越高。 3、回归系数的显著性检验(t检验) 检验提出的假设: 检验使用的统计量: 其中, 若 ,则拒绝H0,回归系数等于零的可能性小于,说明两个变量之间存在显著的线性关系;若 ,则不拒绝H0,回归系数有可能为零,不能证明两个变量之间存在显著的线性关系。 8-15互动地带互动地带第15页,共24页。第二节 一元线性回归分析4、回归方程的显著性检验(F检验) 检验提出的假设: 两个变量间的线性关系不

13、显著 两个变量间的线性关系显著 检验所用的统计量: 若 ,则拒绝H0,说明两个变量之间的线性关系是显著的;若 ,则不拒绝H0,不能证明两个变量之间存在显著的线性关系。 例8.4 根据例8.1的数据,求利润总额对销售收入回归的判定系数,并对回归系数进行检验。 解: 由于 , 均说明了不良贷款与贷款余额之间的线性关系是显著的。 8-16互动地带第16页,共24页。第二节 一元线性回归分析 四、一元线性回归模型预测 点预测 利用估计的回归模型 ,对于给定的变量 的任一值,用回归值 作为变量 的预测(估计)值 。区间预测 1、 的平均值的置信区间估计 对于给定的 , 在给定置信水平 条件下的预测区间为

14、: 2、 的个别值的预测区间估计 当给定置信水平 时, 值的预测区间为: 8-17第17页,共24页。 例8.7 根据例8.3的估计回归方程,求出(1)贷款余额为100亿元时,不良贷款95%的置信区间;(2)贷款余额为80.8亿元那个分行不良贷款的预测区间 。 解:已知: , 查表得 (1) 当 时,不良贷款的点估计值为: 的置信区间为: (2)贷款余额为80.8亿元那个分行不良贷款的预测区间 为: 8-18第18页,共24页。第三节 多元线性回归分析多元线性回归分析是研究一个因变量(被解释变量)与两个或两个以上自变量(解释变量)之间相依关系的统计分析方法。一、多元线性回归模型多元回归模型(m

15、ultiple regression model ) 其中,随即误差 相应满足: (1)随机误差的期望值为0,即 (观测无系统误差); (2)对于解释变量 的所有值, 的方差都相同; (3)各次观测的随机误差 相互独立,因而 也相互独立。估计(样本)回归方程 其中的 称为偏回归系数。 表示当 不变时, 每变动一个单位因变量 的平均变动量。 8-19第19页,共24页。第三节 多元线性回归分析二、多元参数的最小二乘估计 设 对其求极值得: 解此方程组即得各偏回归系数。多元回归系数一般使用计算机软件求得。三、多元线性回归模型的检验 1、多重判定系数。 越接近1,说明回归效果越显著。为避免增加自变量

16、 被高估,可计算修正的多重判定系数: 的平方根 称为复相关系数,也称多重相关系数。 8-20第20页,共24页。第三节 多元线性回归分析 2、估计标准误差回归系数的显著性检验 1. F检验 检验的假设: : ; :至少有一个回归参数不为零 检验使用的统计量: 若 ,则认为模型的总体回归效果显著; 若 ,则认为模型总体的回归效果不显著。 2. t检验 : ; : 若 ,则拒绝 ,回归系数 等于零的可能性小于,得出的结论,说明变量 的作用显著;若 ,则不拒绝 。说明变量 的作用不显著,可从模型中剔除。 8-21第21页,共24页。 例8.9 某地区管理部门,为了分析商业零售企业利润额与商品销售额、流通费用额的相关关系,随机抽取了10个商业零售企业,调查某月的商品销售额、流通费用额和利润额情况,其数据资料如表8.3所示。 表8.3 利润额与商品销售额、流通费用额数据资料单位:万元求利润额以商品销售额和流通费用率的回归方程,并对其进行统计检验。序号 利润额 商品销售额 流通费用额 123456789103.64.04.23.83.84.24.44.85.05.2404348424145475052564.8 4.9 5.7 5.0 4.8 5.0 5.7 5.7 6.1 6.5 合计43.04

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论