程宏2016 2017学年统计学课程 第12-13次-统计学 第11章 一元线性回归分析(Grant) -upload_第1页
程宏2016 2017学年统计学课程 第12-13次-统计学 第11章 一元线性回归分析(Grant) -upload_第2页
程宏2016 2017学年统计学课程 第12-13次-统计学 第11章 一元线性回归分析(Grant) -upload_第3页
程宏2016 2017学年统计学课程 第12-13次-统计学 第11章 一元线性回归分析(Grant) -upload_第4页
程宏2016 2017学年统计学课程 第12-13次-统计学 第11章 一元线性回归分析(Grant) -upload_第5页
已阅读5页,还剩73页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十一章一元线性回归

SimpleLinearRegression统计学课程内容第5章概率与概率分布第6章统计量及其抽样分布第7章参数估计第8章假设检验第11章一元线性回归

第1章导论第2章数据的收集第3章数据的图表展示第4章数据的概括性度量第13章时间序列分析及预测第14章指数本章内容变量间关系的度量一元线性回归利用回归方程进行估计和预测残差分析变量间的相互关系确定性的函数关系:当一个或者几个变量取一定的值时,另一个变量有确定值与之相对应;例如销售收入与销售量之间的关系、路程与速度之间的关系;不确定性的相关关系:当一个或几个相互联系的变量取一定数值时,与之相对应的另一个变量的值虽然不确定,但它仍按照某种规律在一定的范围内变化;

客观现象的函数关系可以用数学分析的方法去研究,而研究客观现象的相关关系必须借助于统计学中的相关与回归分析方法。

相关分析相关分析是用一个指标(相关系数r)来表明现象间依存关系的密切程度。即:对两个变量之间线性关系的描述与度量判断变量之间的关系形态测度两个变量之间的关系强度(相关系数)对相关系数进行显著性检验相关分析要解决的问题相关系数总体相关系数(

populationcorrelationcoefficient)ρ

是反映两变量之间线性相关程度的一种特征值,表现为一个常数。样本相关系数(

samplecorrelationcoefficient)r

是总体相关系数的一致估计量,是根据样本观测值计算的,反映样本观测值线性相关程度的指标。样本相关系数其中: r=样本相关系数 n=样本容量

样本相关系数:或:相关系数的性质性质1:r的取值范围是[-1,1]|r|=1,为完全相关r=1,为完全正相关r=-1,为完全负正相关

r=0,不存在线性相关关系

-1r<0,为负相关0<r1,为正相关|r|越趋于1表示关系越强;|r|越趋于0表示关系越弱相关系数的性质性质2:r具有对称性。即x与y之间的相关系数和y与x之间的相关系数相等,即性质3:r数值大小与x和y原点及尺度无关,即改变x和y的数据原点及计量尺度,并不改变r数值大小性质4:仅仅是x与y之间线性关系的一个度量,它不能用于描述非线性关系。这意为着,r=0只表示两个变量之间不存在线性相关关系,并不说明变量之间没有任何关系性质5:r虽然是两个变量之间线性关系的一个度量,却不一定意味着x与y一定有因果关系相关系数的经验解释|r|0.8时,可视为两个变量之间高度相关0.5|r|<0.8时,可视为中度相关0.3|r|<0.5时,视为低度相关|r|<0.3时,说明两个变量之间的相关程度极弱,可视为不相关上述解释必须建立在对相关系数的显著性进行检验的基础之上相关系数(例题分析)用Excel计算相关系数r=+0.3r=+1相关系数的图示yxyxyxyxyxr=-1r=-0.6r=0单相关系数的显著性检验

假设

H0:ρ=0 (无线性相关关系) H1:ρ

≠0 (确实存在线性相关关系)检验统计量

(自由度为n–2)相关系数的显著性检验(例题分析)对不良贷款与贷款余额之间的相关系数进行显著性检验(0.05)1.提出假设:H0:;H1:02.计算检验的统计量3.根据显著性水平=0.05,查t分布表得t(n-2)=2.069由于t=7.5344>t(n-2)=2.069,拒绝H0,不良贷款与贷款余额之间存在着显著的正线性相关关系回归分析

RegressionAnalysis回归分析研究一个变量如何随着其他变量的变化而变化;

用一个称为回归模型的数学方程来描述因变量与自变量之间的变化关系,再通过控制或给定自变量的数值来估计或预测因变量可能的数值。

被解释变量、因变量(Dependentvariable):被视为随着自变量而变化的变量,是我们想要加以解释的变量。解释变量、自变量(Independentvariable):被视为主动变化的变量,用于解释被解释变量。一元(简单)线性回归模型只有一个自变量,XX和Y的关系用线性函数来描述Y的变化被认为是由于X的变化引起的线性部分回归函数(模型)回归函数(模型):截距项

斜率

随机误差项(随机干扰项)因变量Y的第i个观测值自变量X的第i个观测值随机误差项其中,ui是随机误差项,又称随机干扰项,它是一个特殊的随机变量,反映未列入方程式的其他各种因素对Y的影响。

一元线性回归模型(基本假定)因变量x与自变量y之间具有线性关系在重复抽样中,自变量x的取值是固定的,即假定x是非随机的误差项ε是一个期望值为0的随机变量,即E(ε)=0。对于一个给定的x值,y的期望值为E(y)=0+

1x对于所有的x值,ε的方差σ2都相同误差项ε是一个服从正态分布的随机变量,且相互独立。即ε~N(0,σ2)x=x3时的E(y)x=x2时y的分布x=x1时y的分布x=x2时的E(y)x3x2x1x=x1时的E(y)0xyx=x3时y的分布0+1x一元线性回归模型(基本假定)回归方程

(regressionequation)描述y的平均值或期望值如何依赖于x的方程称为回归方程一元线性回归方程的形式如下

E(y)=0+1x方程的图示是一条直线,也称为直线回归方程0是回归直线在y轴上的截距,是当x=0时y的期望值1是直线的斜率,称为回归系数,表示当x每变动一个单位时,y的平均变动值回归线与随机误差项随机误差项yxxi对应的因变量的实际观测值yiyi的拟合值

xi斜率=β1截距=β0

估计的回归方程是根据样本数据拟合的,是总体回归线的一个估计。估计的回归方程回归截距的估计值回归斜率的估计值

估计的(或拟合的)y值自变量样本回归线(样本回归方程)最小二乘估计在根据样本数据确定样本回归方程时,总是希望y的估计值尽可能地接近其实际观测值,即残差ei的总量越小越好。由于ei有正有负,简单的代数和会相互抵消,因此为了数学上便于处理,我们采用残差平方和作为衡量总偏差的尺度。所谓最小二乘法,就是根据这一思路,通过使残差平方和最小来估计回归系数的方法。最小二乘估计正规方程组(标准方程组)最小二乘估计量求解正规方程组,可得:以上就是总体回归系数的最小二乘估计量。

是当x等于0时y的平均估计值;

是x每变化一个单位,因变量y平均变化的量。最小二乘估计量的解释一元线性回归模型的例子一家房地产公司的经理想知道该公司住房的售价和住房面积(单位:平方尺)

之间的关系。为此他抽取了一个包含10套住房的随机样本。因变量(y)=住房的售价(单位:$1000)自变量(x)=住房的面积(单位:平方尺)住房价格例子的样本数据住房的售价y住房的面积xxyx224514003430001960000312160049920025600002791700474300289000030818755775003515625199110021890012100002191550339450240250040523509517505522500324245079380060025003191425454575203062525517004335002890000y=2865x=17150xy=5085975x2=30983750回归系数的估计用Excel进行回归分析工具/数据分析/回归Excel输出结果回归统计MultipleR0.76211RSquare0.58082AdjustedRSquare0.52842标准误差41.33032观测值10方差分析

dfSSMSFSignificanceF回归分析118934.934818934.934811.08480.01039残差813665.56521708.1957总计932600.5000

Coefficients标准误差tStatP-valueLower95%Upper95%Intercept98.2483358.033481.692960.12892-35.57720232.07386住房的面积0.109770.032973.329380.010390.033740.18580样本回归方程是:回归分析的图示住房价格模型:散点图和样本回归线斜率

=0.10977截距

=98.24833是当x等于0时y的平均估计值在这个例子中,没有房子的面积会等于0,所以98.24833仅仅意味着在所观测的样本范围内,住房售价中有$98,248.33不能用住房的面积来加以解释。回归截距估计值的解释回归斜率估计值的解释是x每变化一个单位,因变量y平均变化的量。这里0.10977表示住房面积每增加一平方尺,住房的售价平均增加0.10977×$1000=$109.77。估计方程的求法(教材例题)【例】求不良贷款对贷款余额的回归方程回归方程为:y=-0.8295

+0.037895

x回归系数=0.037895表示,贷款余额每增加1亿元,不良贷款平均增加0.037895亿元

总体(随机误差项)方差的估计

标准的一元线性回归模型除了β1和β2以外,还有一个未知参数,就是总体随机误差项的方差2。由于随机误差项ui不可直接观测,所以需要用最小二乘残差ei来估计2。

数学上可以证明,S2是2的无偏估计。总体(随机误差项)方差的估计

分母n-2是自由度,因为残差必须满足两个约束条件:S2的正平方根称为回归估计的标准误差。S越小表明实际观测点与所拟合的样本回归线的离差程度越小,即样本回归线具有较强的代表性,反之,S越大表明实际观测点与所拟合的样本回归线的离差程度越大,即回归线的代表性越差。

回归模型检验的种类

理论意义检验:主要考察参数估计值的符号和取值是否与实质性科学的理论以及人们的实践经验相符。如果不符,原因可能是样本容量太小,或者不满足标准假定条件。

一级检验(统计学检验):利用统计学中的抽样理论来检验样本回归方程的可靠性,具体分为拟合程度评价和显著性检验。这是所有现象进行回归分析时都必须通过的检验。

二级检验(经济计量学检验):是对标准线性回归模型的假定条件能否得到满足进行检验,具体包括序列相关检验、异方差检验等等。这是经济计量学研究的内容。拟合程度的评价所谓拟合程度是指样本观测值聚集在样本回归线周围的紧密程度。判断回归模型拟合程度优劣的指标是判定系数,该指标是建立在对总离差平方和进行分解的基础之上的。

总离差(因变量的实际观测值与样本均值的离差)

可解释离差(因变量的拟合值与样本均值的离差,可以看作能够由回归直线解释的部分)

残差(因变量的实际观测值与拟合值的离差,可以看作不能由回归直线解释的部分)

总离差平方和的分解总离差平方和可以分解为两部分:总离差平方和回归平方和残差平方和其中:

=因变量观测值的平均值

y=因变量的观测值 =因变量实际观测值的拟合值XiyxyiSST

=

(yi

-

y)2SSE

=(yi

-

yi)2

SSR=(yi-

y)2

___总离差平方和的分解yyy_y判定系数(coefficientofdetermination)是回归平方和占总离差平方和的比例,判定系数越大,说明模型拟合程度越高。

判定系数也称为R平方(R-squared),用R2表示。判定系数,R2相关系数与判定系数

R2注意:

一元线性回归模型的判定系数就是因变量Y和自变量X的相关系数的平方。

其中: R2=一元线性回归模型的可决系数 r=简单相关系数区别:判定系数是就回归模型而言的,具有非负性;而相关系数是就两个变量而言的,可正可负;

R2=1判定系数,R2yxyxR2=1R2=1所有的观测值都位于回归直线上,SSE=0,说明总离差可以完全由所估计的样本回归直线来解释。判定系数,R2yxyx0<R2<1观测值并不是全部位于回归直线上,SSE>0,有部分总离差不能由样本回归直线来解释。判定系数,R2R2=0回归直线没有解释任何离差,即模型中解释变量X与因变量Y完全无关,Y的总离差全部归于残差平方和,即SSE=SST。yxR2=0Excel输出结果回归统计MultipleR0.76211RSquare0.58082AdjustedRSquare0.52842标准误差41.33032观测值10方差分析

dfSSMSFSignificanceF回归分析118934.934818934.934811.08480.01039残差813665.56521708.1957总计932600.5000

Coefficients标准误差tStatP-valueLower95%Upper95%Intercept98.2483358.033481.692960.12892-35.57720232.07386住房的面积0.109770.032973.329380.010390.033740.18580住房售价的58.08%离差可以用住房的面积变化来解释。判定系数

(教材例题)【例】计算不良贷款对贷款余额回归的判定系数,并解释其意义

判定系数的实际意义是:在不良贷款取值的变差中,有71.16%可以由不良贷款与贷款余额之间的线性关系来解释,或者说,在不良贷款取值的变动中,有71.16%是由贷款余额所决定的。也就是说,不良贷款取值的差异有2/3以上是由贷款余额决定的。可见不良贷款与贷款余额之间有较强的线性关系线性关系的显著性检验检验自变量与因变量之间的线性关系是否显著将回归均方(MSR)同残差均方(MSE)加以比较,应用F检验来分析二者之间的差别是否显著回归均方:回归平方和SSR除以相应的自由度(自变量的个数k)残差均方:残差平方和SSE除以相应的自由度(n-k-1)1.提出假设H0:1=0线性关系不显著2.计算检验统计量F3.确定显著性水平,并根据分子自由度1和分母自由度n-2找出临界值4.作出决策:若F>F

,拒绝H0;若F<

,不拒绝H0线性关系的显著性检验(检验步骤)1.提出假设H0:1=0住房面积与住房售价之间的线性关系不显著2.计算检验统计量F3.确定显著性水平=0.05,并根据分子自由度1和分母自由度8找出临界值F

=?4.作出决策:若F>F,拒绝H0,线性关系显著线性关系的显著性检验(例题解析)Excel输出结果回归统计MultipleR0.76211RSquare0.58082AdjustedRSquare0.52842标准误差41.33032观测值10方差分析

dfSSMSFSignificanceF回归分析118934.934818934.934811.08480.01039残差813665.56521708.1957总计932600.5000

Coefficients标准误差tStatP-valueLower95%Upper95%Intercept98.2483358.033481.692960.12892-35.57720232.07386住房的面积0.109770.032973.329380.010390.033740.18580回归系数的显著性检验——t检验

回归斜率的显著性检验—t检验X和Y是否确实存在线性关系?零假设和备择假设H0:β1=0 (无线性相关关系)H1:β1

0 (线性相关关系确实存在)检验统计量

其中:=回归斜率的估计值

β1=假设的斜率=标准差的估计值Excel输出结果回归统计MultipleR0.76211RSquare0.58082AdjustedRSquare0.52842标准误差41.33032观测值10方差分析

dfSSMSFSignificanceF回归分析118934.934818934.934811.08480.01039残差813665.56521708.1957总计932600.5000

Coefficients标准误差tStatP-valueLower95%Upper95%Intercept98.2483358.033481.692960.12892-35.57720232.07386住房的面积0.109770.032973.329380.010390.033740.18580住房的售价$1000(y)住房的面积(x)2451400312160027917003081875199110021915504052350324245031914252551700估计的样本回归方程为:模型中斜率等于0.10977;请问住房的面积对住房的售价是否具有显著的影响?

回归系数显著性检验的例子回归系数显著性检验的例子H0:β1=0H1:β1

0检验统计量:

t=3.32938有足够的证据表明住房的面积确实对住房的售价有显著的影响。Excel输出结果:拒绝H0

Coefficients标准误差tStatP-valueIntercept98.2483358.033481.692960.12892住房的面积0.109770.032973.329380.01039t决策:结论:拒绝H0拒绝H0a/2=.025-tα/2不能拒绝H00tα/2a/2=.025-2.30602.30603.32938d.f.=10-2=8回归系数的置信区间估计斜率的置信区间估计的公式为:Excel的输出结果:以95%的置信水平认为,斜率的置信区间为(0.0337,0.1858)

Coefficients标准误差tStatP-valueLower95%Upper95%Intercept98.2483358.033481.692960.12892-35.57720232.07386住房的面积0.109770.032973.329380.010390.033740.18580d.f.=n-2这个95%的置信区间

不包含0.结论:以0.05的显著性水平认为住房的面积对住房的售价有显著的影响。回归分析结果的评价建立的模型是否合适?或者说,这个拟合的模型有多“好”?要回答这些问题,可以从以下几个方面入手所估计的回归系数

的符号是否与理论或事先预期相一致如果理论上认为x与y之间的关系不仅是正的,而且是统计上显著的,那么所建立的回归方程也应该如此回归模型在多大程度上解释了因变量y取值的差异?可以用判定系数R2来回答这一问题考察关于误差项的正态性假定是否成立。因为我们在对线性关系进行F检验和回归系数进行t检验时,都要求误差项服从正态分布,否则,我们所用的检验程序将是无效的。正态性的简单方法是画出残差的直方图或正态概率图残差(residual)因变量的观测值与根据估计的回归方程求出的预测值之差,用e表示反映了用估计的回归方程去预测而引起的误差残差图(residualplot)表示残差的图形关于x的残差图关于y的残差图标准化残差图用于判断误差的假定是否成立检测有影响的观测值残差与标准化残差图(教材例题)残差图(形态及判别)(a)满意模式残差x0(b)非常数方差残差x0(c)模型不合适残差x0标准化残差(standardizedresidual)残差除以它的标准差也称为Pearson残差或半学生化残差(semi-studentizedresiduals)计算公式为注意:Excel给出的标准残差的计算公式为这实际上是学生化删除残差(studentizeddeletedresiduals)标准化残差图用以直观地判断误差项服从正态分布这一假定是否成立若假定成立,标准化残差的分布也应服从正态分布在标准化残差图中,大约有95%的标准化残差在-2到+2之间残差图(教材例题)标准化残差图(教材例题)利用回归方程进行估计和预测根据自变量x

的取值估计或预测因变量y的取值估计或预测的类型点估计y的平均值的点估计y的个别值的点估计在点估计条件下,平均值的点估计和个别值的的点估计是一样的,但在区间估计中则不同区间估计y的平均值的置信区间估计y的个别值的预测区间估计置信区间、预测区间、回归方程xpyx预测上限置信上限预测下限置信下限一元线性回归模型预测的例子预测面积为2000平方尺住房的售价为:预计面积为2000平方尺的住房的售价为317.85×$1,000=$317,850本章小结变量间关系的度量回归模型、回归方程与估计的回归方程回归直线的拟合优度回归分析中的显著性检验估计和预测用Excel进行回归分析一个完整的例子假定一家火灾保险公司想建立重大住宅火灾的火灾赔偿金和住宅与最近消防站距离的关系。研究在一个主要城市的较大郊区进行;选择了这个郊区最近的15次火灾作为样本,记录每场火灾的赔偿金y和火灾与最近消防站之间的距离x,结果在下表中给出:与消防站的距离x(mile)火灾赔偿金额y(千美元)与消防站的距离x(mile)火灾赔偿金额y(千美元)3.426.23.022.31.817.82.619.64.631.34.331.32.323.12.124.03.127.51.117.35.536.06.143.20.714.14.836.43.826.1简单线性回归分析的步骤1.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论