多元线性回归_第1页
多元线性回归_第2页
多元线性回归_第3页
多元线性回归_第4页
多元线性回归_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 经管类经管类 核心课程核心课程 统计学统计学 第第1212章章 多元线性回归多元线性回归 PowerPoint 统计学 经管类经管类 核心课程核心课程 统计学统计学 第第1212章章 多元线性回归多元线性回归 12.1 12.1 多元线性回归模型多元线性回归模型 12.2 12.2 回归方程的拟合优度回归方程的拟合优度 12.3 12.3 显著性检验显著性检验 12.4 12.4 多重共线性多重共线性 12.5 12.5 利用回归方程进行估计和预测利用回归方程进行估计和预测( (删去删去) ) 12.6 12.6 变量选择与逐步回归变量选择与逐步回归( (删去删去) ) 12.7 12.7

2、虚拟自变量的回归虚拟自变量的回归 经管类经管类 核心课程核心课程 统计学统计学 12.1 12.1 多元线性回归模型多元线性回归模型 12.1.1 12.1.1 多元回归模型与回归方程多元回归模型与回归方程 12.1.2 12.1.2 估计的多元回归方程估计的多元回归方程 12.1.3 12.1.3 参数的最小二乘估计参数的最小二乘估计 经管类经管类 核心课程核心课程 统计学统计学 12.1 12.1 多元线性回归模型多元线性回归模型 一个因变量与两个及两个以上自变量的回归问题就是一个因变量与两个及两个以上自变量的回归问题就是 多元回归。多元回归。 12.1.1 多元回归模型与回归方程多元回归

3、模型与回归方程 设因设因变量变量y,k个自变量分别为个自变量分别为x1,x2,xk,描述,描述 因变量因变量y如何依赖自变量如何依赖自变量x1,x2,xk和误差项和误差项 的方程,称为多元回归模型的方程,称为多元回归模型(multiple regression model)。多元回归模型一般形式为:。多元回归模型一般形式为: 其中,其中,b b0 ,b b1 1,b b2 2 ,b bk是参数是参数 是被称为误差项的随机变量是被称为误差项的随机变量 y 是是x1,,x2 , ,xk 的线性函数加上误差项的线性函数加上误差项 包含在包含在y里面但不能被里面但不能被k个自变量的线性关系所解个自变量

4、的线性关系所解 释的变异性释的变异性 bbbb kk xxxy 22110 经管类经管类 核心课程核心课程 统计学统计学 12.1.1 12.1.1 多元回归模型与回归方程多元回归模型与回归方程 (1).(1).误差误差项项是一个期望值为是一个期望值为0的随机变量,的随机变量,即即 E( )=0。即:。即: (2).(2).对于对于自变量自变量x1,x2,xk的所有值,的所有值, 的方差的方差 2都相同都相同 (3).(3).误差误差项项是一个服从正态分布的随机变量,即是一个服从正态分布的随机变量,即 N(0, 2),且相互独立。独立性意味着对于自,且相互独立。独立性意味着对于自 变量变量x1

5、,x2,xk的一组特定值所对应的的一组特定值所对应的与与x1, x2,xk任意一组其他值所对应的任意一组其他值所对应的不相关。不相关。 正态性意味着对于给定的正态性意味着对于给定的x1,x2,xk的值,的值, 因变量因变量y也是一个服从正态分布的随机变量。也是一个服从正态分布的随机变量。 kk xxxyEbbbb 22110 )( 经管类经管类 核心课程核心课程 统计学统计学 12.1.1 12.1.1 多元回归模型与回归方程多元回归模型与回归方程 根据回归模型的假定有根据回归模型的假定有E(y)=b b0+b b1x1+b b2x2+ b bk xk, 上式称为多元回归方程上式称为多元回归方

6、程(multiple regression equation),它描述了因变量,它描述了因变量y的期望值与自变量的期望值与自变量x1, x2,.,xk之间的关系。之间的关系。 ikikiii xxxybbbb 22110 kk xxxyEbbbb 22110 )( 经管类经管类 核心课程核心课程 统计学统计学 12.1.1 12.1.1 多元回归模型与回归方程多元回归模型与回归方程 二元线性回归模型二元线性回归模型 bbb 22110 xxy (观察到的y) 22110 )(xxyEbbb 回归面 b0 i x1 y x2 (x1,x2) 经管类经管类 核心课程核心课程 统计学统计学 12.1

7、.2 12.1.2 估计的多元回归方程估计的多元回归方程 是是未未知知的的,需需要要,回回归归方方程程中中的的参参数数 k bbb 10 去估计回归方程中的去估计回归方程中的,当用样本统计量当用样本统计量 k bbb 10 们们。利利用用样样本本数数据据去去估估计计它它 元元时时,就就得得到到了了估估计计的的多多,未未知知参参数数 k bbb 10 :回回归归方方程程,一一般般形形式式为为 kk xxxybbbb 22110 称为偏回归系数。称为偏回归系数。,其中其中 k bbb 10 经管类经管类 核心课程核心课程 统计学统计学 12.1.3 12.1.3 参数的最小二乘估计参数的最小二乘估

8、计 22 210 )() , , , ( iiik yyeQQbbbb 2.2.求解求解各回归参数的标准方程如下各回归参数的标准方程如下 ), 2 , 1(0 0 0 00 ki Q Q ii i bb bb b b 1.1.使因变量使因变量的观察值与估计值之间的离差平方和的观察值与估计值之间的离差平方和 达到最小来求得达到最小来求得 。即。即 p bbbb , , , 210 2 22110 ) ( kikiii xxxybbbb 经管类经管类 核心课程核心课程 统计学统计学 12.1.3 12.1.3 参数的最小二乘估计参数的最小二乘估计 【例例12.112.1】继续沿用第继续沿用第111

9、1章中例章中例11.611.6。一家大型商业。一家大型商业 银行在多个地区设有分行,其业务主要是进行基银行在多个地区设有分行,其业务主要是进行基 础设施建设、国家重点项目建设、固定资产投资础设施建设、国家重点项目建设、固定资产投资 等项目的贷款。近年来,该银行的贷款额平稳增等项目的贷款。近年来,该银行的贷款额平稳增 长,但不良贷款额也有较大比例的提高,这给银长,但不良贷款额也有较大比例的提高,这给银 行业务的发展带来较大压力。为弄清楚不良贷款行业务的发展带来较大压力。为弄清楚不良贷款 形成的原因,抽取了该银行所属的形成的原因,抽取了该银行所属的2525家分行家分行20022002 年的有关业务

10、数据。试建立不良贷款年的有关业务数据。试建立不良贷款( (y) )与贷款余与贷款余 额额( (x1) )、累计应收贷款、累计应收贷款( (x2) )、贷款项目个数、贷款项目个数( (x3) )和和 固定资产投资额固定资产投资额( (x4) )的线性回归方程,并解释各回的线性回归方程,并解释各回 归系数的含义归系数的含义 用用Excel进行回归进行回归 经管类经管类 核心课程核心课程 统计学统计学 12.1.3 12.1.3 参数的最小二乘估计参数的最小二乘估计 为:为:解:多元线性回归方程解:多元线性回归方程 4321 0292. 00145. 01480. 00400. 00216. 1xx

11、xxy :各各回回归归系系数数的的实实际际含含义义 、贷贷款款项项目目个个数数和和表表示示,在在累累计计应应收收贷贷款款0400. 0 1 b 款款项项目目个个数数和和固固定定表表示示,在在贷贷款款余余额额、贷贷1480. 0 2 b 亿亿元元,下下,贷贷款款余余额额每每增增加加固固定定投投资资额额不不变变的的条条件件1 亿亿元元。不不良良贷贷款款平平均均增增加加0400. 0 亿亿元元,累累计计应应收收贷贷款款每每增增加加投投资资额额不不变变的的条条件件下下,1 亿亿元元。不不良良贷贷款款平平均均增增加加1480. 0 。其其它它回回归归系系数数类类似似解解释释 经管类经管类 核心课程核心课

12、程 统计学统计学 12.2 12.2 回归方程的拟合优度回归方程的拟合优度 12.2.1 12.2.1 多重判定系数多重判定系数 12.2.2 12.2.2 估计标准误差估计标准误差 经管类经管类 核心课程核心课程 统计学统计学 12.2 12.2 多重判定系数多重判定系数 多元回归中因变量离差平方和的分解:多元回归中因变量离差平方和的分解: SST=SSR+SSE 222 iiii yyyyyy 残残差差平平方方和和回回归归平平方方和和总总平平方方和和 多重判定系数多重判定系数(multiple coefficient of determination) 是多元回归中的回归平方和占总平方和的

13、比例,是多元回归中的回归平方和占总平方和的比例, 它是度量多元回归方程拟合程度的一个统计量,它是度量多元回归方程拟合程度的一个统计量, 反映了在因变量反映了在因变量y的变差中被估计的回归方程所解的变差中被估计的回归方程所解 释的比例。释的比例。 计算公式为计算公式为 SST SSE SST SSR yy yy R i i 1 2 2 2 经管类经管类 核心课程核心课程 统计学统计学 12.2 12.2 多重判定系数多重判定系数 注:由于自变量个数的增加,将影响到因变量中被估注:由于自变量个数的增加,将影响到因变量中被估 计回归方程中所解释的变差数量。当增加自变量时,计回归方程中所解释的变差数量

14、。当增加自变量时, 会使预测误差变得比较小,从而减少残差平方和会使预测误差变得比较小,从而减少残差平方和 SSE,由于回归平方和,由于回归平方和SSR=SST-SSE,当,当SSE变小变小 时,时,SSR会变大,从而会变大,从而R2也会变大。也会变大。如果模型中增如果模型中增 加一个自变量,即使这个自变量在统计上并不显著,加一个自变量,即使这个自变量在统计上并不显著, R2也会变大,为避免这种情况,提出调整的多重判也会变大,为避免这种情况,提出调整的多重判 定系数定系数(adjusted multiple coefficient of determination) 计算公式为计算公式为 1 1

15、 11 ) 1( ) 1( 1 22 kn n R nSST knSSE Ra 经管类经管类 核心课程核心课程 统计学统计学 12.2 12.2 多重判定系数多重判定系数 调整的多重判定系数调整的多重判定系数 的解释与的解释与R2类似,不同的是:类似,不同的是: (1).(1). 同时考虑了样本量和模型中的自变量的个数同时考虑了样本量和模型中的自变量的个数 的影响,这就使得的影响,这就使得 的值永远小于的值永远小于R2,而且,而且 的的 值不会由于模型中自变量个数的增加而越来越接值不会由于模型中自变量个数的增加而越来越接 近近1。因此,在多元回归分析中,通常用调整的。因此,在多元回归分析中,通

16、常用调整的 多重判定系数。多重判定系数。 (2).(2).R2的平方根称为多重相关系数,也称为复相关的平方根称为多重相关系数,也称为复相关 系数,它度量了因变量同系数,它度量了因变量同k个自变量的相关程度。个自变量的相关程度。 2 a R 2 a R 2 a R 2 a R 经管类经管类 核心课程核心课程 统计学统计学 12.2.2 12.2.2 估计标准误差估计标准误差 多元回归分析中的估计标准误差也是对误差项多元回归分析中的估计标准误差也是对误差项 的标的标 准差准差 的一个估计值,它是衡量多元回归方程的的一个估计值,它是衡量多元回归方程的 拟合优度方面也起着重要作用。拟合优度方面也起着重

17、要作用。 计算公式为计算公式为 多元回归中对多元回归中对se的解释:的解释: 由于由于se所估计的是预测误差的标准差,其含义是根据所估计的是预测误差的标准差,其含义是根据 自变量自变量x1,x2,xk来预测因变量来预测因变量y时的平均预时的平均预 测误差。测误差。 MSE kn SSE kn yy S ii e 11 2 经管类经管类 核心课程核心课程 统计学统计学 12.3 12.3 显著性检验显著性检验 12.3.1 12.3.1 线性关系检验线性关系检验 12.3.2 12.3.2 回归系数检验和推断回归系数检验和推断 经管类经管类 核心课程核心课程 统计学统计学 12.3.1 12.3

18、.1 线性关系检验线性关系检验 1.1.检验因变量检验因变量与所有自变量之间的关系是否显著,与所有自变量之间的关系是否显著, 也被称为总体显著性检验。也被称为总体显著性检验。 2.2.检验检验方法是将回归平方和方法是将回归平方和(SSR)同残差平方和同残差平方和 (SSE)加以比较,应用加以比较,应用F检验来分析二者之间检验来分析二者之间 的差别是否显著。的差别是否显著。 如果是显著的,因变量与自变量之间存在线如果是显著的,因变量与自变量之间存在线 性关系性关系 如果不显著,因变量与自变量之间不存在线如果不显著,因变量与自变量之间不存在线 性关系性关系 经管类经管类 核心课程核心课程 统计学统

19、计学 12.3.1 12.3.1 线性关系检验线性关系检验 第第1 1步:提出步:提出假设假设 H0:b b1 b b2b bk=0 线性关系不显著线性关系不显著 H1:b b1,b b2,b bk至少有一个不等于至少有一个不等于0 ) 1,( ) 1( ) 1( 2 2 knkF knyy kyy knSSE kSSR F i i 第第2 2步:计算检验统计量步:计算检验统计量F 第第3 3步:作出统计决策。给定步:作出统计决策。给定显著性水平显著性水平 和分子和分子 自由度自由度k、分母自由度、分母自由度n-k-1找出临界值找出临界值F ,若,若 FF ,拒绝,拒绝H0;若若FF ,所以拒

20、绝,所以拒绝H0,这意味着不良贷款与贷款余,这意味着不良贷款与贷款余 额、累计应收贷款、贷款项目个数和固定资产投资额、累计应收贷款、贷款项目个数和固定资产投资 额之间的线性关系是显著的。额之间的线性关系是显著的。 经管类经管类 核心课程核心课程 统计学统计学 12.3.2 12.3.2 回归系数检验和推断回归系数检验和推断 1.1.在回归方程通过线性关系检验后,就可以对各在回归方程通过线性关系检验后,就可以对各 个回归系数有选择地进行一次或多次检验。个回归系数有选择地进行一次或多次检验。 但究竟要对哪几个回归系数进行检验,通常但究竟要对哪几个回归系数进行检验,通常 需要在建立模型之前作出决定。

21、对回归系数需要在建立模型之前作出决定。对回归系数 检验的个数进行限制,以避免犯过多的第一检验的个数进行限制,以避免犯过多的第一 类错误类错误( (弃真错误弃真错误) ) 2.2.对每一个自变量都要单独进行检验对每一个自变量都要单独进行检验 3.3.应用应用 t 检验统计量检验统计量 经管类经管类 核心课程核心课程 统计学统计学 12.3.2 12.3.2 回归系数检验和推断回归系数检验和推断 4.4.回归系数回归系数检验的具体步骤:检验的具体步骤: 提出假设提出假设 H0: b bi = 0 (自变量自变量 xi 与与 因变量因变量 y 没有线性关系没有线性关系) H1: b bi 0 (自变

22、量自变量 xi 与与 因变量因变量 y有线性关系有线性关系) 计算检验的统计量计算检验的统计量 t 作出统计决策。给定显著性水平作出统计决策。给定显著性水平 ,并进行决策,并进行决策 t t2 2,拒绝 ,拒绝H0; t t2 2(25-2)=2.07, ,所所 以均拒绝原假设,说明这以均拒绝原假设,说明这4个自变量两两之间都有个自变量两两之间都有 显著的相关关系显著的相关关系 经管类经管类 核心课程核心课程 统计学统计学 12.4.2 12.4.2 多重共线性的判别多重共线性的判别 2.2.由由表表Excel输出的结果可知,回归模型的线性关系显输出的结果可知,回归模型的线性关系显 著著(Si

23、gnificance-F1.03539E-06 =0.05) 。这也暗示。这也暗示 了模型中存在多重共线性了模型中存在多重共线性 3.3.固定资产投资固定资产投资额的回归系数为负号额的回归系数为负号(-0.029),与预期,与预期 的不一致的不一致 由以上三点可以判断回归模型中存在多重共线性。由以上三点可以判断回归模型中存在多重共线性。 经管类经管类 核心课程核心课程 统计学统计学 12.4.3 12.4.3 多重共线性问题的处理多重共线性问题的处理 多重共线性问题的解决办法:多重共线性问题的解决办法: (1).(1).将一个或多个相关的自变量从模型中剔除,使将一个或多个相关的自变量从模型中剔

24、除,使 保留的自变量尽可能不相关保留的自变量尽可能不相关 (2).(2).如果要在模型中保留所有的自变量,则应该:如果要在模型中保留所有的自变量,则应该: 避免根据避免根据t统计量对单个参数进行检验;对因变统计量对单个参数进行检验;对因变 量量y值的推断值的推断( (估计或预测估计或预测) )限定在自变量样本值限定在自变量样本值 的范围内。的范围内。 经管类经管类 核心课程核心课程 统计学统计学 12.4.3 12.4.3 多重共线性问题的处理多重共线性问题的处理 【例例12.512.5】利用例利用例12.112.1所建立的回归方程,对多重所建立的回归方程,对多重 共线性问题进行处理。共线性问

25、题进行处理。 解:首先,考虑将一些相关的自变量从模型中剔除。解:首先,考虑将一些相关的自变量从模型中剔除。 从前表可以看出,贷款余额与贷款项目个数的从前表可以看出,贷款余额与贷款项目个数的 相关系数最高,而且从定性角度看,贷款余额相关系数最高,而且从定性角度看,贷款余额 与应收贷款之间也有很强的相关关系。因此将与应收贷款之间也有很强的相关关系。因此将 贷款项目个数和累积应收贷款这两个自变量剔贷款项目个数和累积应收贷款这两个自变量剔 除,建立不良贷款与贷款余额和固定资产投资除,建立不良贷款与贷款余额和固定资产投资 额的线性模型。从结果可以看出,线性关系和额的线性模型。从结果可以看出,线性关系和

26、各回归系数在各回归系数在0.050.05的显著水平下是显著的,多的显著水平下是显著的,多 重共线性问题不存在了。重共线性问题不存在了。 经管类经管类 核心课程核心课程 统计学统计学 12.4.3 12.4.3 多重共线性问题的处理多重共线性问题的处理 多重共线性问题带来的主要麻烦是对单个回归系数多重共线性问题带来的主要麻烦是对单个回归系数 的解释和检验。在求因变量的置信区间和预测的解释和检验。在求因变量的置信区间和预测 区间时一般不会受其影响,但必须保证用于估区间时一般不会受其影响,但必须保证用于估 计或预测的自变量的值是在样本数据的范围之计或预测的自变量的值是在样本数据的范围之 内。因此,如

27、果仅仅是为了估计或预测,可以内。因此,如果仅仅是为了估计或预测,可以 将所有自变量都保留在模型中。将所有自变量都保留在模型中。 在建立多元线性回归模型时,不要试图引入更多的在建立多元线性回归模型时,不要试图引入更多的 自变量,除非有必要。特别是在社会科学的研自变量,除非有必要。特别是在社会科学的研 究中,由于所使用的大多数数据都是非试验性究中,由于所使用的大多数数据都是非试验性 质的,因此,在某些情况下,得到的结果往往质的,因此,在某些情况下,得到的结果往往 并不令人满意,但这不一定是选择的模型不适并不令人满意,但这不一定是选择的模型不适 合,而是数据的质量不好,或者是由于引入的合,而是数据的

28、质量不好,或者是由于引入的 自变量不合适。自变量不合适。 经管类经管类 核心课程核心课程 统计学统计学 12.7 12.7 虚拟自变量的回归虚拟自变量的回归 12.7.1 12.7.1 在模型中引进虚拟变量在模型中引进虚拟变量 12.7.2 12.7.2 含有一个虚拟自变量的回归含有一个虚拟自变量的回归 经管类经管类 核心课程核心课程 统计学统计学 12.7.1 12.7.1 在模型中引进虚拟变量在模型中引进虚拟变量 1.1.虚拟变量虚拟变量(dummy variable)(dummy variable)是指用数字代码表示是指用数字代码表示 的定性自变量的定性自变量 2.2.当模型中使用虚拟自

29、变量时,称为虚拟自变量的当模型中使用虚拟自变量时,称为虚拟自变量的 回归。回归。 3.3.虚拟变量的取值只能是虚拟变量的取值只能是0 0,1 1 4.4.回归分析中引入虚拟自变量的方法:回归分析中引入虚拟自变量的方法: (1).(1).如果定性自变量只有两个水平时。如果定性自变量只有两个水平时。 比如,性别比如,性别( (男,女男,女) ) 女 男 0 1 x 经管类经管类 核心课程核心课程 统计学统计学 12.7.1 12.7.1 在模型中引进虚拟变量在模型中引进虚拟变量 (2).(2).有两个以上水平的虚拟自变量。有两个以上水平的虚拟自变量。 比如,贷款企业的类型比如,贷款企业的类型( (

30、家电,医药,其他家电,医药,其他) ) 一般而言,如果定性自变量有一般而言,如果定性自变量有k个水平,需要引个水平,需要引 入入k-1个虚拟变量。个虚拟变量。 其其他他水水平平 水水平平 , 其其他他水水平平 水水平平 , 其其他他水水平平 水水平平 0 11 0 21 0 11 121 k xxx k 5.5.对于含有一个虚拟自变量的回归,采用下列形式的对于含有一个虚拟自变量的回归,采用下列形式的 回归方程:回归方程: xyE 10 )(bb 经管类经管类 核心课程核心课程 统计学统计学 12.7.1 12.7.1 在模型中引进虚拟变量在模型中引进虚拟变量 【例例12.812.8】为为 研究

31、考试成绩研究考试成绩 与性别之间的与性别之间的 关系,从某大关系,从某大 学商学院随机学商学院随机 抽取男女学生抽取男女学生 各各8 8名,得到名,得到 他们的市场营他们的市场营 销学课程的考销学课程的考 试成绩如下表试成绩如下表 对性别引入虚拟变量对性别引入虚拟变量 女女 男男 1 0 x 经管类经管类 核心课程核心课程 统计学统计学 12.7.212.7.2含有一个虚拟自变量的回归含有一个虚拟自变量的回归 1.1.模型模型中只含有一个虚拟变量的回归:中只含有一个虚拟变量的回归: 建立回归模型为:建立回归模型为:y =b b0+ b b1x+ 回归方程可写:回归方程可写:E(y) =b b0

32、+ b b1x 男男(x=0):E(y) =b b0男学生考试成绩的期望值男学生考试成绩的期望值 女女(x=1):E(y) =b b0+ b b1女学生考试成绩的期望值女学生考试成绩的期望值 注意:当指定虚拟变量注意:当指定虚拟变量01时时 b b0总是代表与虚拟变量值总是代表与虚拟变量值0所对应的那个分类变量水所对应的那个分类变量水 平的平均值平的平均值 b b1总是代表与虚拟变量值总是代表与虚拟变量值1所对应的那个分类变量水所对应的那个分类变量水 平的平均响应与虚拟变量值平的平均响应与虚拟变量值0所对应的那个分类变所对应的那个分类变 量水平的平均值的差值,即量水平的平均值的差值,即 平均值

33、的差值平均值的差值 =(b b0+ b b1) - b b0= b b1 经管类经管类 核心课程核心课程 统计学统计学 12.7.212.7.2含有一个虚拟自变量的回归含有一个虚拟自变量的回归 解:散点图解:散点图 男 女 【例例12.912.9】沿用例沿用例12.812.8。试建立考试成绩与性别之间。试建立考试成绩与性别之间 的线性回归模型,并解释回归系数的含义。的线性回归模型,并解释回归系数的含义。 xy875.14875.66 经管类经管类 核心课程核心课程 统计学统计学 12.7.212.7.2含有一个虚拟自变量的回归含有一个虚拟自变量的回归 【例例12.1012.10】为研究工资水平

34、与工作年限和性别之间为研究工资水平与工作年限和性别之间 的关系,在某行业中随机抽取的关系,在某行业中随机抽取1010名职工,所得数据如名职工,所得数据如 下表下表 经管类经管类 核心课程核心课程 统计学统计学 12.7.212.7.2含有一个虚拟自变量的回归含有一个虚拟自变量的回归 2.2.模型模型中含有一个数值型自变量和一个虚拟变量回归中含有一个数值型自变量和一个虚拟变量回归 引进虚拟变量时,回归方程可写:引进虚拟变量时,回归方程可写: E(y) =b b0+ b b1x1+ b b2x2 女女( x2=0):E(y|女性女性) =b b0 +b b1x1 男男(x2=1):E(y|男性男性

35、) =(b b0 + b b2 ) +b b1x1 b b0的含义表示:女性职工的期望月工资收入的含义表示:女性职工的期望月工资收入 (b b0+ b b2)的含义表示:男性职工的期望月工资收入的含义表示:男性职工的期望月工资收入 b b1含义表示:工作年限每增加含义表示:工作年限每增加1年,男性或女性工资的年,男性或女性工资的 平均增加值平均增加值 b b2含义表示:男性职工的期望月工资收入与女性职工含义表示:男性职工的期望月工资收入与女性职工 的期望月工资收入之间的差值的期望月工资收入之间的差值 (b b0+ b b2) - b b0= b b2 经管类经管类 核心课程核心课程 统计学统计

36、学 习题选讲 【习题习题12.0112.01】根据下面的数据用根据下面的数据用ExcelExcel进行回归,并对进行回归,并对 回归结果进行讨论,计算回归结果进行讨论,计算x1 1=200=200、x2 2=7=7时时y的预测值。的预测值。 SUMMARY OUTPUTSUMMARY OUTPUT 回归统计回归统计 Multiple RMultiple R0.4592340.459234 R SquareR Square0.2108960.210896 Adjusted R SquareAdjusted R Square-0.01456-0.01456 标准误差标准误差13.3412213.3

37、4122 观测值观测值1010 经管类经管类 核心课程核心课程 统计学统计学 习题选讲 方差分析 dfSSMSFSignificance F 回归分析2332.9837166.49190.935410.436485 残差71245.916177.988 总计91578.9 Coefficients标准误差t StatP-value Intercept25.028722.278631.123440.298298 X Variable 1-0.049710.105992-0.469040.653301 X Variable 21.9281691.472161.3097550.231624 经管类经

38、管类 核心课程核心课程 统计学统计学 习题选讲 【习题习题12.0212.02】根据下面根据下面ExcelExcel输出的回归结果,说明模输出的回归结果,说明模 型中涉及多少个自变量?多少个观察值?写出回归方型中涉及多少个自变量?多少个观察值?写出回归方 程,并根据程,并根据F、se、R2 2及修正的的值对模型进行讨论。及修正的的值对模型进行讨论。 个个观观测测值值,个个自自变变量量,解解:153 321 47. 342. 071. 50534.657xxxy 63. 071. 043.10996. 8 22 RRsF e , 经管类经管类 核心课程核心课程 统计学统计学 习题选讲 【习题习题

39、12.0312.03】根据两个自变量得到的多元回归方程为根据两个自变量得到的多元回归方程为 ,并并且且已已知知125.67241074. 401. 24 .18 21 SSTnxxy 解解: 。要要求求:,0567. 00813. 0375.6216 21 bb ssSSR 的的线线性性关关系系是是否否显显著著?与与、的的显显著著性性水水平平下下,在在yxx 21 05. 0).1 ( 是否显著?是否显著?的显著性水平下,的显著性水平下,在在 1 05. 0).2(b 是是否否显显著著?的的显显著著性性水水平平下下,在在 2 05. 0).3(b 7374. 4)7 , 2(85.42 ) 1

40、210/()( 2/ 05. 0 F SSRSST SSR F, 36. 2)7(6 .83 72.24 025. 0 2 2 1 1 21 t s t s t, bb bb 经管类经管类 核心课程核心课程 统计学统计学 习题选讲 【习题习题12.0412.04】一家电器销售公司的管理人员认为,每一家电器销售公司的管理人员认为,每 月的销售额是广告费用的函数,并想通过广告费用对月的销售额是广告费用的函数,并想通过广告费用对 月销售额作出估计。下面是近月销售额作出估计。下面是近8 8个月的销售额与广告个月的销售额与广告 费用数据。要求:费用数据。要求:(1).(1).用电视广告费用作自变量,月用

41、电视广告费用作自变量,月 销售额作因变量,建立估计的回归方程。销售额作因变量,建立估计的回归方程。(2).(2).用电视用电视 广告费用和报纸广告费用作自变量,月销售额作因变广告费用和报纸广告费用作自变量,月销售额作因变 量,建立估计的回归方程。量,建立估计的回归方程。(3).(3).上述上述(1)(1)和和(2)(2)所建立所建立 的估计方程,电视广告费用的系数是否相同?对其回的估计方程,电视广告费用的系数是否相同?对其回 归系数分别进行解释。归系数分别进行解释。(4).(4).根据问题根据问题(2)(2)所建立的估所建立的估 计方程,在销售收入的总变差中,被估计的回归方程计方程,在销售收入

42、的总变差中,被估计的回归方程 所解释的比例是多少?所解释的比例是多少?(5).(5).根据问题根据问题(2)(2)所建立的估所建立的估 计方程,检验回归系数是否显著计方程,检验回归系数是否显著( ( =0.05)=0.05)? 经管类经管类 核心课程核心课程 统计学统计学 习题选讲 解解:xy6039. 16377.88 ).1 ( 21 3010. 12902. 22301.83).2(xxy 。解解释释的的比比例例为为广广告告费费用用的的回回归归方方程程所所 用用和和报报纸纸差差中中,能能被被电电视视广广告告费费后后,在在销销售售收收入入的的总总变变 自自变变量量的的个个数数调调整整,在在

43、用用样样本本量量和和模模型型中中 67.88 8867. 0).4( 2 a R 中中,在在广广告告费费用用的的系系数数不不同同,两两个个估估计计方方程程中中,电电视视) 1 ().3( 万万元元,月月销销售售收收入入加加表表示示电电视视广广告告费费用用每每增增16039. 1 1 b 表表示示在在报报纸纸中中,万万元元。在在平平均均增增加加2902. 2 )2(6039. 1 1 b 万万元元,月月销销售售广广告告费费用用每每增增加加广广告告费费用用不不变变下下,电电视视1 万万元元,另另一一个个类类似似。收收入入平平均均增增加加2902. 2 经管类经管类 核心课程核心课程 统计学统计学

44、习题选讲 【习题习题12.0512.05】某农场通过试验取得早稻收获量与春季某农场通过试验取得早稻收获量与春季 降雨量和春季温度的数据如下。降雨量和春季温度的数据如下。 要求:要求:(1).(1).试确定早稻收获量对春季降雨量和春季温度试确定早稻收获量对春季降雨量和春季温度 的二元线性回归方程。的二元线性回归方程。 (2).(2).解释回归系数的实际意义。解释回归系数的实际意义。 (3).(3).根据你的判断,模型中是否存在多重共线性?根据你的判断,模型中是否存在多重共线性? 经管类经管类 核心课程核心课程 统计学统计学 习题选讲 【习题习题12.1212.12】为分析某行业中的薪水有无性别歧

45、视,为分析某行业中的薪水有无性别歧视, 从该行业中随机抽取从该行业中随机抽取1515名员工,有关的数据如下。要名员工,有关的数据如下。要 求:用求:用ExcelExcel进行回归,并对结果进行分析。进行回归,并对结果进行分析。 经管类经管类 核心课程核心课程 统计学统计学 习题选讲 【习题习题12.0612.06】一家房地产评估公司想对某城市的房地一家房地产评估公司想对某城市的房地 产销售价格产销售价格y与地产的评估价值与地产的评估价值x1、房产的评估价值、房产的评估价值x2 和使用面积和使用面积x3建立一个模型,以便对销售价格作出合建立一个模型,以便对销售价格作出合 理预测。为此,收集了理预

46、测。为此,收集了20栋住宅的房地产评估数据如栋住宅的房地产评估数据如 下。用下。用Excel进行回归,回答下面的问题:进行回归,回答下面的问题: (1).(1).写出估计的多元回归方程。写出估计的多元回归方程。 (2).(2).在销售价格的总变差中,被估计的回归方程所解释在销售价格的总变差中,被估计的回归方程所解释 的比例是多少?的比例是多少? (3).(3).检验回归方程检验回归方程的线性关系是否显著的线性关系是否显著( ( =0.05)=0.05)。 (4).(4).检验检验各回归系数是否显著各回归系数是否显著 ( ( =0.05)=0.05)? 经管类经管类 核心课程核心课程 统计学统计

47、学 习题选讲 【习题习题12.0712.07】根据根据11.411.4题中的数据,回答下面的问题:题中的数据,回答下面的问题: (1).(1). =0.01=0.01的水平下,检验二元回归模型线性关系的的水平下,检验二元回归模型线性关系的 显著性。显著性。 (2).(2).在在 =0.05=0.05的水平下,检验回归系数的水平下,检验回归系数b b1 1的显著性,的显著性, 你认为你认为x1 1应该从模型中剔除吗?应该从模型中剔除吗? (3).(3).在在 =0.05=0.05的水平下,检验回归系数的水平下,检验回归系数b b2 2的显著性,的显著性, 你认为你认为x2 2应该从模型中剔除吗应

48、该从模型中剔除吗? 经管类经管类 核心课程核心课程 统计学统计学 习题选讲 【习题习题12.0812.08】根据下面的数据回答下面的问题:根据下面的数据回答下面的问题: (1).(1).计算计算y与与x1 1之间的相关系数,有无证据表明二者之之间的相关系数,有无证据表明二者之 间存在线性关系间存在线性关系( ( =0.05)=0.05)? (2).(2).计算计算y与与x2 2之间的相关系数,有无证据表明二者之之间的相关系数,有无证据表明二者之 间存在线性关系间存在线性关系( ( =0.05)=0.05)? (3).(3).根据上面的结论,你认为根据上面的结论,你认为E( (y)=)=b b0

49、 0+ +b b1 1x1 1+b+b2 2x2 2对预测对预测 y是否有用?是否有用? (4).(4).用用ExcelExcel进行回归,并对模型进行检验,所得的结进行回归,并对模型进行检验,所得的结 论与论与(3)(3)是否相同?是否相同? (5)(5)计算计算x1 1与与x2 2之间的相关系数,所得结果意味着什么?之间的相关系数,所得结果意味着什么? 经管类经管类 核心课程核心课程 统计学统计学 习题选讲 【习题习题12.0912.09】下面是随机抽取的下面是随机抽取的1515家大型商场销售的家大型商场销售的 同类产品的有关数据同类产品的有关数据( (单位:元单位:元) )。 要求:要求

50、:(1).(1).计算计算y与与x1 1、y与与x2 2之间的相关系数,是否有之间的相关系数,是否有 证据表明销售价格与购进价格、销售价格与销售费用证据表明销售价格与购进价格、销售价格与销售费用 之间存在线性关系?之间存在线性关系? (2).(2).根据上述结果,你认为用购进价格和销售费用来预根据上述结果,你认为用购进价格和销售费用来预 测销售价格是否有用?测销售价格是否有用? (3).(3).用用ExcelExcel进行回归,并检验模型的线性关系是否显进行回归,并检验模型的线性关系是否显 著著( ( =0.05)=0.05)。 (4).(4).解释判定系数解释判定系数R2 2,所得结论与问题

51、,所得结论与问题(2)(2)中是否一致中是否一致? ? (5).(5).计算计算x1 1与与x2 2之间的相关系数之间的相关系数, ,所得结果意味着什么?所得结果意味着什么? (6).(6).模型中是否存在多重共线性?你对模型有何建议?模型中是否存在多重共线性?你对模型有何建议? 经管类经管类 核心课程核心课程 统计学统计学 习题选讲 【习题习题12.1012.10】设因变量为设因变量为y,一个数值型自变量,一个数值型自变量x1 1和一和一 个具有两个水平(水平个具有两个水平(水平1 1和水平和水平2 2)的分类型自变量。)的分类型自变量。 要求:要求:(1).(1).写出因变量写出因变量y关

52、于自变量关于自变量x1 1和分类自变量的和分类自变量的 多元回归方程。多元回归方程。 (2).(2).对应于分类自变量水平对应于分类自变量水平1 1的的y的期望值是多少?的期望值是多少? (3).(3).对应于分类自变量水平对应于分类自变量水平2 2的的y的期望值是多少?的期望值是多少? 经管类经管类 核心课程核心课程 统计学统计学 习题选讲 【习题习题12.1112.11】一家货物运输公司想研究运输费用与货一家货物运输公司想研究运输费用与货 物类型的关系,并建立运输费用与货物类型的回归模物类型的关系,并建立运输费用与货物类型的回归模 型,以此对运输费用作出预测。该运输公司所运输的型,以此对运

53、输费用作出预测。该运输公司所运输的 货物分为两种类型:易碎品和非易碎品。下面给出了货物分为两种类型:易碎品和非易碎品。下面给出了 1515个路程大致相同、而货物类型不同的运输费用数据。个路程大致相同、而货物类型不同的运输费用数据。 要求:要求:(1).(1).写出运输费用与货物类型之间的线性方程。写出运输费用与货物类型之间的线性方程。 (2).(2).对模型中的回归系数进行解释。对模型中的回归系数进行解释。 (3).(3).检验模型的线性关系是否显著检验模型的线性关系是否显著( ( =0.05)=0.05)? 经管类经管类 核心课程核心课程 统计学统计学 12.512.5利用回归方程进行估计和

54、预测利用回归方程进行估计和预测 删去不讲删去不讲 经管类经管类 核心课程核心课程 统计学统计学 12.512.5利用回归方程进行估计和预测利用回归方程进行估计和预测 STATISTICA输出的不良贷款的置信区间输出的不良贷款的置信区间 B-Weight B-WeightValue* Value VAR20.0400391004.003935 VAR30.148034101.480339 VAR40.014529150.21794 VAR5-0.0291960-1.75157 -1.02164 2.929003 2.049598 3.808407+95.0%CL variable: VAR1 I

55、ntercpt Predictd -95.0%CL 【例例12.612.6】根据例根据例12.112.1的数据,取的数据,取x1 1=100=100、x2 2=10=10、x3 3=15=15、 x4 4=60=60,建立不良贷款的,建立不良贷款的9595的置信区间和预测区间。的置信区间和预测区间。 经管类经管类 核心课程核心课程 统计学统计学 12.512.5利用回归方程进行估计和预测利用回归方程进行估计和预测 STATISTICA输出的不良贷款的预测区间输出的不良贷款的预测区间 B-Weight B-WeightValue* Value VAR20.0400391004.003935 VA

56、R30.148034101.480339 VAR40.014529150.21794 VAR5-0.02919360-1.751572 -1.02164 2.929003 -0.884199 6.742205+95.0%PL variable: VAR1 Intercpt Predictd -95.0%PL 经管类经管类 核心课程核心课程 统计学统计学 12.512.5利用回归方程进行估计和预测利用回归方程进行估计和预测 STATISTICA输出的不良贷款的置信区间输出的不良贷款的置信区间 B-Weight B-WeightValue* Value VAR20.0400391004.00393

57、5 VAR30.148034101.480339 VAR40.014529150.21794 VAR5-0.0291960-1.75157 -1.02164 2.929003 2.049598 3.808407+95.0%CL variable: VAR1 Intercpt Predictd -95.0%CL 【例例12.612.6】根据例根据例12.112.1的数据,取的数据,取x1 1=100=100、x2 2=10=10、x3 3=15=15、 x4 4=60=60,建立不良贷款的,建立不良贷款的9595的置信区间和预测区间。的置信区间和预测区间。 经管类经管类 核心课程核心课程 统计学

58、统计学 12.512.5利用回归方程进行估计和预测利用回归方程进行估计和预测 STATISTICA输出的不良贷款的预测区间输出的不良贷款的预测区间 B-Weight B-WeightValue* Value VAR20.0400391004.003935 VAR30.148034101.480339 VAR40.014529150.21794 VAR5-0.02919360-1.751572 -1.02164 2.929003 -0.884199 6.742205+95.0%PL variable: VAR1 Intercpt Predictd -95.0%PL 经管类经管类 核心课程核心课程

59、 统计学统计学 12.6 12.6 变量选择与逐步回归变量选择与逐步回归 12.6.1 12.6.1 变量选择过程变量选择过程 12.6.2 12.6.2 向前选择向前选择 12.6.3 12.6.3 向后剔除向后剔除 12.6.4 12.6.4 逐步回归逐步回归 经管类经管类 核心课程核心课程 统计学统计学 12.6.1 12.6.1 变量选择过程变量选择过程 1.1.在建立回归模型时,对自变量进行筛选在建立回归模型时,对自变量进行筛选 2.2.选择自变量的原则是对统计量进行显著性检验选择自变量的原则是对统计量进行显著性检验 (1).(1).将一个或一个以上的自变量引入到回归模型中时,将一个

60、或一个以上的自变量引入到回归模型中时, 是否使得残差平方和是否使得残差平方和( (SSE) )有显著地减少。如果增有显著地减少。如果增 加一个自变量使加一个自变量使SSE的减少是显著的,则说明有必的减少是显著的,则说明有必 要将这个自变量引入回归模型,否则,就没有必要要将这个自变量引入回归模型,否则,就没有必要 将这个自变量引入回归模型将这个自变量引入回归模型 (2).(2).确定引入自变量是否使确定引入自变量是否使SSE有显著减少的方法,有显著减少的方法, 就是使用就是使用F统计量的值作为一个标准,以此来确定统计量的值作为一个标准,以此来确定 是在模型中增加一个自变量,还是从模型中剔除一是在

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论