相关分析与回归分析课件_第1页
相关分析与回归分析课件_第2页
相关分析与回归分析课件_第3页
相关分析与回归分析课件_第4页
相关分析与回归分析课件_第5页
已阅读5页,还剩141页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第12章相关分析与回归分析第一节:相关分析第二节:一元线性回归分析第三节:多元线性回归分析*第12章相关分析与回归分析第一节:相关分析1第一节相关分析1.相关关系的种类(1)按相关程度划分

完全相关:Y的变化完全由X的变化确定;

不相关:Y与X不相互影响,各自独立变化;

不完全相关:Y与X之间有一定程度的相互影响。(2)按相关方向划分

正相关:X与Y同时变大或变小;

负相关:X变大,Y变小或X变小,Y变大。(3)按相关形式划分线性相关:Y与X的关系呈现出线性关系;非线性相关:Y与X的关系呈现出非线性关系。第一节相关分析1.相关关系的种类(1)按相关程度划分2第一节相关分析1.相关关系的种类(4)按变量多少划分

单相关:指两个变量间的相关关系;复相关:指三个以上变量间的相关关系;偏相关:指多个变量情形下,固定其他变量,只考虑其中两个变量间的相关关系。(5)按相关性质划分

真实相关:两个变量确实存在内在的相关关系;

虚假相关:两个变量只是表现为数量上相关,并不存在内在的联系。第一节相关分析1.相关关系的种类(4)按变量多少划分3第一节相关分析2.相关表和相关图(1)相关表将某一变量按其数值的大小顺序排列,然后再将与其相关的另一变量的对应值平行排列,便可得到相关表。第一节相关分析2.相关表和相关图(1)相关表4第一节相关分析2.相关表和相关图(2)相关图相关图又称散点图,是以直角坐标系的横轴代表变量x,纵轴代表变量y,将两个变量相对应的成对数据用坐标点的形式描绘出来,用于反映两变量之间的相关关系的图形。第一节相关分析2.相关表和相关图(2)相关图5第一节相关分析3.相关系数及其计算方法相关系数的定义变量x与变量y之间的相关关系,可用数量指标来表示。通常以字母表示总体的相关系数,以表示样本的相关系数。定义如下:式中,是变量X与变量Y的协方差。

第一节相关分析3.相关系数及其计算方法相关系数的定义6第一节相关分析3.相关系数及其计算方法(2)相关系数的特点a.r的取值介于-1到1之间;b.当r=0时,X与Y的样本观测值之间没有线性关系;c.在大多数情况下,。r>0,说明X与Y正相关;r<0,说明X与Y负相关。r值越接近1,X与Y的相关程度越高。微弱相关:低度相关:显著相关:高度相关:

第一节相关分析3.相关系数及其计算方法(2)相关系数的7第一节相关分析3.相关系数及其计算方法(3)相关系数的计算具体计算相关系数时,通常利用以下公式:【例7-2】基于表7-1中的数据,求广告费与年销售收入间的相关系数。

可见,广告费与销售收入间存在高度的相关关系。

第一节相关分析3.相关系数及其计算方法(3)相关系数的8第一节相关分析4.样本相关系数(Pearson)显著异于0的T检验在二维总体(X,Y)服从正态分布的前提下,Fisher给出了检验简单相关系数(Pearson)显著异于0的t统计量如下:式子中,n是样本容量,r是简单相关系数(Pearson)。设定假设:H0:r=0,H1:r≠0这是一个双尾检验问题。第一节相关分析4.样本相关系数(Pearson)显著异于9【例7-3】根据表7-3资料计算的相关系数,检验该公司广告费和年销售收入之间的相关系数是否显著(设定显著水平α=0.05)?解:第一步,提出假设:

H0:;H1:第二步,计算检验的统计量第三步,统计决策。从下式中可以看出,相关系数显著。第一节相关分析4.样本相关系数(Pearson)显著异于0的T检验【例7-3】根据表7-3资料计算的相关系数,检验该公司广告费10此时的偏相关系数计算公式为:式中,是普通样本相关系数。第一节相关分析5.剔除了一个变量Z的影响后,X、Y的偏相关系数6.剔除两个变量Z1,Z2的影响后,X、Y的偏相关系数此时的偏相关系数计算公式为:式中,是固定z1的偏相关系数。此时的偏相关系数计算公式为:第一节相关分析5.剔除了一个11偏相关系数显著异于0的t统计量如下:,服从分布式中,n是样本容量,k是剔除了的变量数,r是偏相关系数。第一节相关分析7.偏相关系数显著异于0的T检验偏相关系数显著异于0的t统计量如下:第一节相关分析7.12第二节一元线性回归分析1.相关分析与回归分析的关系(1)相关分析通过计算相关系数来确定两个变量之间的相关方向和密切程度,回归分析则是选择一个合适的数学模型,对具有相关关系的两个或多个变量之间的具体数量关系进行测定,以实现对因变量的估计或预测。(2)相关分析无需考虑变量作用顺序,回归分析则要考虑;(3)相关分析将变量都视为随机变量,回归分析则只将因变量视为随机变量,自变量被认为是非随机的。第二节一元线性回归分析1.相关分析与回归分析的关系1312.2回归分析的基本概念1因变量(Y)与自变量(X)之间的关系根据因变量与自变量之间的关系不同,可以分为两种类型:函数关系统计关系12.2回归分析的基本概念1因变量(Y)与自变量(X)之14因变量(Y)与自变量(X)之间的关系1.函数关系即对两个变量X,Y来说,当X值确定后,Y值按照一定的规律唯一确定,即形成一种精确的关系。

例如:微积分学中所研究的一般变量之间的函数关系就属于此种类型。

因变量(Y)与自变量(X)之间的关系1.函数关系即对两个变15因变量(Y)与自变量(X)之间的关系2.统计关系即当X值确定后,Y值不是唯一确定的,但大量统计资料表明,这些变量之间还是存在着某种客观的联系。例如:图9.1在直角坐标平面上,标出了10个观测点的坐标位置,他们表示以家庭为单位,某种商品年需求量与该商品价格之间的10对调查数据。

因变量(Y)与自变量(X)之间的关系2.统计关系即当X值确16回归分析图9-1回归分析图9-117回归分析回归分析(RegressionAnalysis)就是应用统计方法,对大量的观测数据进行整理、分析和研究,从而得出反映事物内部规律性的一些结论。回归分析回归分析(RegressionAnalysis)1812.3一元线性回归模型统计关系的特征统计关系特征观测点散布在统计关系直线的周围,此种情况说明Y的变化除了受自变量X影响以外,还受其他因素的影响。因此试图建立这样一个回归模型,通过对此模型所作的一些假设,可以体现出上述统计关系所刻划的特征。因变量Y随自变量X有规律的变化,而统计关系直线描述了这一变化的趋势。12.3一元线性回归模型统计关系的特征统计关系观测点散布19一元线性回归模型假设根据统计关系特征,可以进行下述假设:假设(2)这些Y的概率分布的均值,有规律的随X变化而变化(1)对于自变量的每一水平X,存在着Y的一个概率分布;一元线性回归模型假设根据统计关系特征,可以进行下述假设:假设20一元线性回归模型Y与X具有统计关系而且是线性建立回归模型Yi=β0+β1Xi+εi

(i=1,2,···,n)

其中,(Xi,Yj)表示(X,Y)的第i个观测值,β0,β1为参数,β0+β1Xi为反映统计关系直线的分量,εi为反映在统计关系直线周围散布的随机分量ε

i~N(0,σ2)。一元线性回归模型Y与X具有统计建立Yi=β0+β1Xi+εi21一元线性回归模型对于任意Xi值有:⑴Yi服从正态分布⑵E(Yi)=β0+β1Xi;⑶⑷各Yi间相互独立

Yi~N(β0+β1Xi,σ2)。一元线性回归模型对于任意Xi值有:⑴Yi服从正态分布⑵E22一元线性回归模型图9-2一元线性回归模型图9-223一元线性回归方程最小二乘法Y与X之间为线性关系选出一条最能反映Y与X之间关系规律的直线一元线性回归方程最小二乘法Y与X之间选出一条最能反24一元线性回归方程Yi=β0+β1Xi+εi

β0和β1均未知根据样本数据对β0和β1进行估计β0和β1的估计值为b0和b1

建立一元线性回归方程

一元线性回归方程Yi=β0+β1Xi+εi根据样本数据β025一元线性回归方程一般而言,所求的b0和b1应能使每个样本观测点(Xi,Yi)与回归直线之间的偏差尽可能小,即使观察值与拟合值的误差平方和Q达到最小。图9-4回归方程原理图一元线性回归方程一般而言,所求的b0和b1应能使每个样本观测26一元线性回归方程令

Q达到最小值b0和b1称为最小二乘估计量微积分中极值的必要条件令偏导数为0解方程一元线性回归方程令27一元线性回归方程(9-5)(9-6)一元线性回归方程(9-5)(9-6)28【例】我们利用例7-1的表7-3的数据计算该公司广告费对年销售收入的回归方程(直线)。解:第一,观察原始数据的散点图;相关分析与回归分析课件29第二,利用Excel表格计算截距项与趋势项中的各个值;第二,利用Excel表格计算截距项与趋势项中的各个值;304.模型参数的点估计:最小二乘法OLS第二,利用Excel表格计算截距项与趋势项中的各个值;从而有因此,样本回归方程为

4.模型参数的点估计:最小二乘法OLS31最小二乘估计量b0,b1的特性b0,b1的特性线性性无偏性最小二乘估计量b0,b1的特性b0,b1的特性线性性32最小二乘估计量b0,b1的特性(1)线性特性由(9-5)得令则表明b1是Yi的线性组合最小二乘估计量b0,b1的特性(1)线性特性由(9-5)33最小二乘估计量b0,b1的特性同理,可得b0是Yi线性组合最小二乘估计量b0,b1的特性同理,可得b0是Yi线34最小二乘估计量b0,b1的特性(2)无偏性可以证明b0和b1分别是β0和β1的无偏估计

最小二乘估计量b0,b1的特性(2)无偏性可以证明b0和b35总平方和分解

9.3.1总平方和分解总平方和分解

9.3.1总平方和分解36总平方和分解

图9-5总平和分解图总平方和分解

图9-5总平37总平方和分解

总离差平方和它表示没有X的影响,单纯考察数据中Y的变动情况。总平方和分解

总离差平方和它表示没有X的影响,38总平方和分解回归平方和表示各的变动程度,该变动是由于回归直线中各Xi的变动所引起的,并且通过X对Y的线性影响表现出来。总平方和分解回归平方和表示各的变动程度,该变动是由于回39总平方和分解

误差平方和表示各Yi围绕所拟合的回归直线的变动程度SSTO=SSR+SSE总平方和分解

误差平方和表示各Yi围绕所拟合的回归直线的变动40总平方和分解

SSE=SSTO-SSR总平方和分解

SSE=SSTO-SSR41自由度的分解SSTO自由度ƒT为n-1SSEβ0和β1用了两个正规方程自由度ƒE为n-2SSR自由度ƒR为1自由度的分解SSTO自由度SSEβ0和β1用了自由度SSR自42自由度的分解自由度的分解可以表示为n-1=1+(n-2)ƒT=ƒR+ƒE自由度的分解自由度的分解可以表示为n-1=1+(n-2)ƒT43回归均方与误差均方

(9-10)(9-11)回归均方误差均方回归均方与误差均方(9-10)(9-11)回归均方误差44样本确定系数与样本相关系数9.4.1样本确定系数(9-12)注:Y的总变差中能被X解释的那部分所占的比率样本确定系数与样本相关系数9.4.1样本确定系数(9-1245样本确定系数

r2的取值范围样本的全部观察值都落在所拟和的回归直线上SSE=0,r2=1当X与Y无关,Y的变差完全由于随机因素引起,此时,SSR=0

r2=0样本确定系数

r2的取值范围样本的全部观察值都落在r2=146说明变量X与Y之间不存在线性关系;说明变量X与Y之间存在线性关系,(X,Y)的样本点都落在同一条直线上。通常越接近1,样本回归线对样本值的拟合优度越好,X对Y的解释能力越强。是样本回归线与样本观测值拟合优度的度量指标,也是回归模型包含多少样本信息量的具体表现。说明变量X与Y之间不存在47样本相关系数样本相关系数注:r与b1的分母均为正,分子相同,故r与b1有相同的符号。样本相关系数样本相关系数注:r与b1的分母均为正,分子相同,48样本相关系数r的取值情况情况一图9-6样本相关系数r的取值情况情况一图9-649样本相关系数情况二图9-7样本相关系数情况二图9-7509.4.2样本相关系数情况三图9-89.4.2样本相关系数情况三图9-851样本相关系数情况四图9-9样本相关系数情况四图9-952【例】利用例7-2中表7-3的资料,计算年销售收入对广告费的回归的判定系数,并解释其意义。解:方法1:方法2:【例】利用例7-2中表7-3的资料,计算年销售收53一元线性回归显著性检验在回归函数E(Y)=β0+β1X中,如果β1=0,则对于X的一切水平E(Y)=β0,说明Y的变化与X的变化无关,因而,我们不能通过X去预测Y。所以,对模型Yi=β0+β1Xi+εi

检验β1=0是否成立,等价于检验Y与X之间是否存在线性关系。一元线性回归显著性检验在回归函数E(Y)=β0+β1X中,如54b1的抽样分布为了检验β1=0是否成立,需要构造一个合适的统计量,因此,首先讨论b1的抽样分布。b1的抽样分布为了检验β1=0是否成立,需要构造一55b1的抽样分布b1是观测值Yi的线性组合Yi服从正态分布且相互独立b1也服从正态分布b1的抽样分布b1是观测值Yi的线Yi服从正态分布且b1也服56b1的抽样分布以下可以证明b1的方差b1的抽样分布以下可以证明b1的方差57b1的抽样分布证明:因为且Yi相互独立,其中所以,b1服从b1的抽样分布证明:因为且Yi相互独立,其中所以,b1服58F检验在一元线性回归中,为了检验Y对于X线性关系的统计显著性,对β1进行F检验1)提出假设:H0:β1=0,H1:β1≠0。

2)构造并计算统计量:3)查F分布临界值表,得临界值4)比较:接受H0,认为Y与X不存在一元线性关系。F检验在一元线性回归中,为了检验Y对于X线性1)提出假设:59F检验若F>拒绝H0,认为Y与X存在一元线性关系。表9-1方差分析表F检验若F>拒绝H0,认为Y与X存在一元线性关系。表960t检验1)提出假设H0:H1:2)构造并计算统计量步骤:3)查t分布临界值表得临界值t检验1)提出假设H0:61t检验4)比较若,接受H0

若,拒绝H0

t检验4)比较若,62利用样本相关系数进行统计检验步骤:1)提出假设H0:ρ=0H1:ρ

2)计算简单相关系数r3)查相关系数临界值表得临界值ρ是总体Y与X的线性相关系数利用样本相关系数进行统计检验步骤:1)提出假设63利用样本相关系数进行统计检验4)比较若,接受H0

若,拒绝H0

利用样本相关系数进行统计检验4)比较若647.一元线性回归模型的显著性检验未知参数的P—值检验

P—值检验是指在计算出

值后,计算

【例7-8】利用例7-4和例7-6的有关资料和结果,检验回归系数的显著性(=0.05)。解:此外,可基于SPSS等统计软件的输出结果,直接作出判断。7.一元线性回归模型的显著性检验未知参数的P—值检验【65SPSS软件的操作结果:t检验P—值检验SPSS软件的操作结果:66模型适合性分析在对一元线性回归模型的适合性进行分析时,由于误差项是不可观测或测量的,需借助残差的图像,来考察模型是否存在以下情况:异方差性和自相关性。模型适合性分析在对一元线性回归模型的适合性进行分析时,67误差项的异方差性检验若不具有常数方差,称模型存在异方差性。此时,残差如下图所示,数据点呈现发散或收敛趋势。在此种情况下,最小二乘法失效,因此需按照一定方法对数据进行变换,在计量经济学课程中,对此有详细讲述。误差项的异方差性检验若不具有常数方差,称模型存在异方差68误差项的异方差性检验误差项具有异方差性的残差图图9-10误差项的异方差性检验误差项具有异方差性的残差图图9-1069误差项的自相性关检验如果观测值是来自一个时间序列的样本,则很可能出现误差项是不独立的,将残差et与时间t作残差图,将呈现出有规则的变化趋势。称模型存在自相关(Autocorrelation)现象,也需按一定方法对数据进行修正,在计量经济学课程中也有详细论述。误差项的自相性关检验如果观测值是来自一个时间序列的样本,则70误差项的自相性关检验误差项具有负自相关性的残差图图9-11误差项的自相性关检验误差项具有负自相关性的残差图图9-1171误差项的自相性关检验误差项具有正自相关性的残差图图9-12误差项的自相性关检验误差项具有正自相关性的残差图图9-1272第二节一元线性回归分析8.一元线性回归模型的预测(1)点预测点预测是指利用估计的回归方程,对自变量X的一个给定值X0,求出因变量Y的可能值。(2)区间预测。第二节一元线性回归分析8.一元线性回归模型的预测(1)73第12章相关分析与回归分析第一节:相关分析第二节:一元线性回归分析第三节:多元线性回归分析*第12章相关分析与回归分析第一节:相关分析74第一节相关分析1.相关关系的种类(1)按相关程度划分

完全相关:Y的变化完全由X的变化确定;

不相关:Y与X不相互影响,各自独立变化;

不完全相关:Y与X之间有一定程度的相互影响。(2)按相关方向划分

正相关:X与Y同时变大或变小;

负相关:X变大,Y变小或X变小,Y变大。(3)按相关形式划分线性相关:Y与X的关系呈现出线性关系;非线性相关:Y与X的关系呈现出非线性关系。第一节相关分析1.相关关系的种类(1)按相关程度划分75第一节相关分析1.相关关系的种类(4)按变量多少划分

单相关:指两个变量间的相关关系;复相关:指三个以上变量间的相关关系;偏相关:指多个变量情形下,固定其他变量,只考虑其中两个变量间的相关关系。(5)按相关性质划分

真实相关:两个变量确实存在内在的相关关系;

虚假相关:两个变量只是表现为数量上相关,并不存在内在的联系。第一节相关分析1.相关关系的种类(4)按变量多少划分76第一节相关分析2.相关表和相关图(1)相关表将某一变量按其数值的大小顺序排列,然后再将与其相关的另一变量的对应值平行排列,便可得到相关表。第一节相关分析2.相关表和相关图(1)相关表77第一节相关分析2.相关表和相关图(2)相关图相关图又称散点图,是以直角坐标系的横轴代表变量x,纵轴代表变量y,将两个变量相对应的成对数据用坐标点的形式描绘出来,用于反映两变量之间的相关关系的图形。第一节相关分析2.相关表和相关图(2)相关图78第一节相关分析3.相关系数及其计算方法相关系数的定义变量x与变量y之间的相关关系,可用数量指标来表示。通常以字母表示总体的相关系数,以表示样本的相关系数。定义如下:式中,是变量X与变量Y的协方差。

第一节相关分析3.相关系数及其计算方法相关系数的定义79第一节相关分析3.相关系数及其计算方法(2)相关系数的特点a.r的取值介于-1到1之间;b.当r=0时,X与Y的样本观测值之间没有线性关系;c.在大多数情况下,。r>0,说明X与Y正相关;r<0,说明X与Y负相关。r值越接近1,X与Y的相关程度越高。微弱相关:低度相关:显著相关:高度相关:

第一节相关分析3.相关系数及其计算方法(2)相关系数的80第一节相关分析3.相关系数及其计算方法(3)相关系数的计算具体计算相关系数时,通常利用以下公式:【例7-2】基于表7-1中的数据,求广告费与年销售收入间的相关系数。

可见,广告费与销售收入间存在高度的相关关系。

第一节相关分析3.相关系数及其计算方法(3)相关系数的81第一节相关分析4.样本相关系数(Pearson)显著异于0的T检验在二维总体(X,Y)服从正态分布的前提下,Fisher给出了检验简单相关系数(Pearson)显著异于0的t统计量如下:式子中,n是样本容量,r是简单相关系数(Pearson)。设定假设:H0:r=0,H1:r≠0这是一个双尾检验问题。第一节相关分析4.样本相关系数(Pearson)显著异于82【例7-3】根据表7-3资料计算的相关系数,检验该公司广告费和年销售收入之间的相关系数是否显著(设定显著水平α=0.05)?解:第一步,提出假设:

H0:;H1:第二步,计算检验的统计量第三步,统计决策。从下式中可以看出,相关系数显著。第一节相关分析4.样本相关系数(Pearson)显著异于0的T检验【例7-3】根据表7-3资料计算的相关系数,检验该公司广告费83此时的偏相关系数计算公式为:式中,是普通样本相关系数。第一节相关分析5.剔除了一个变量Z的影响后,X、Y的偏相关系数6.剔除两个变量Z1,Z2的影响后,X、Y的偏相关系数此时的偏相关系数计算公式为:式中,是固定z1的偏相关系数。此时的偏相关系数计算公式为:第一节相关分析5.剔除了一个84偏相关系数显著异于0的t统计量如下:,服从分布式中,n是样本容量,k是剔除了的变量数,r是偏相关系数。第一节相关分析7.偏相关系数显著异于0的T检验偏相关系数显著异于0的t统计量如下:第一节相关分析7.85第二节一元线性回归分析1.相关分析与回归分析的关系(1)相关分析通过计算相关系数来确定两个变量之间的相关方向和密切程度,回归分析则是选择一个合适的数学模型,对具有相关关系的两个或多个变量之间的具体数量关系进行测定,以实现对因变量的估计或预测。(2)相关分析无需考虑变量作用顺序,回归分析则要考虑;(3)相关分析将变量都视为随机变量,回归分析则只将因变量视为随机变量,自变量被认为是非随机的。第二节一元线性回归分析1.相关分析与回归分析的关系8612.2回归分析的基本概念1因变量(Y)与自变量(X)之间的关系根据因变量与自变量之间的关系不同,可以分为两种类型:函数关系统计关系12.2回归分析的基本概念1因变量(Y)与自变量(X)之87因变量(Y)与自变量(X)之间的关系1.函数关系即对两个变量X,Y来说,当X值确定后,Y值按照一定的规律唯一确定,即形成一种精确的关系。

例如:微积分学中所研究的一般变量之间的函数关系就属于此种类型。

因变量(Y)与自变量(X)之间的关系1.函数关系即对两个变88因变量(Y)与自变量(X)之间的关系2.统计关系即当X值确定后,Y值不是唯一确定的,但大量统计资料表明,这些变量之间还是存在着某种客观的联系。例如:图9.1在直角坐标平面上,标出了10个观测点的坐标位置,他们表示以家庭为单位,某种商品年需求量与该商品价格之间的10对调查数据。

因变量(Y)与自变量(X)之间的关系2.统计关系即当X值确89回归分析图9-1回归分析图9-190回归分析回归分析(RegressionAnalysis)就是应用统计方法,对大量的观测数据进行整理、分析和研究,从而得出反映事物内部规律性的一些结论。回归分析回归分析(RegressionAnalysis)9112.3一元线性回归模型统计关系的特征统计关系特征观测点散布在统计关系直线的周围,此种情况说明Y的变化除了受自变量X影响以外,还受其他因素的影响。因此试图建立这样一个回归模型,通过对此模型所作的一些假设,可以体现出上述统计关系所刻划的特征。因变量Y随自变量X有规律的变化,而统计关系直线描述了这一变化的趋势。12.3一元线性回归模型统计关系的特征统计关系观测点散布92一元线性回归模型假设根据统计关系特征,可以进行下述假设:假设(2)这些Y的概率分布的均值,有规律的随X变化而变化(1)对于自变量的每一水平X,存在着Y的一个概率分布;一元线性回归模型假设根据统计关系特征,可以进行下述假设:假设93一元线性回归模型Y与X具有统计关系而且是线性建立回归模型Yi=β0+β1Xi+εi

(i=1,2,···,n)

其中,(Xi,Yj)表示(X,Y)的第i个观测值,β0,β1为参数,β0+β1Xi为反映统计关系直线的分量,εi为反映在统计关系直线周围散布的随机分量ε

i~N(0,σ2)。一元线性回归模型Y与X具有统计建立Yi=β0+β1Xi+εi94一元线性回归模型对于任意Xi值有:⑴Yi服从正态分布⑵E(Yi)=β0+β1Xi;⑶⑷各Yi间相互独立

Yi~N(β0+β1Xi,σ2)。一元线性回归模型对于任意Xi值有:⑴Yi服从正态分布⑵E95一元线性回归模型图9-2一元线性回归模型图9-296一元线性回归方程最小二乘法Y与X之间为线性关系选出一条最能反映Y与X之间关系规律的直线一元线性回归方程最小二乘法Y与X之间选出一条最能反97一元线性回归方程Yi=β0+β1Xi+εi

β0和β1均未知根据样本数据对β0和β1进行估计β0和β1的估计值为b0和b1

建立一元线性回归方程

一元线性回归方程Yi=β0+β1Xi+εi根据样本数据β098一元线性回归方程一般而言,所求的b0和b1应能使每个样本观测点(Xi,Yi)与回归直线之间的偏差尽可能小,即使观察值与拟合值的误差平方和Q达到最小。图9-4回归方程原理图一元线性回归方程一般而言,所求的b0和b1应能使每个样本观测99一元线性回归方程令

Q达到最小值b0和b1称为最小二乘估计量微积分中极值的必要条件令偏导数为0解方程一元线性回归方程令100一元线性回归方程(9-5)(9-6)一元线性回归方程(9-5)(9-6)101【例】我们利用例7-1的表7-3的数据计算该公司广告费对年销售收入的回归方程(直线)。解:第一,观察原始数据的散点图;相关分析与回归分析课件102第二,利用Excel表格计算截距项与趋势项中的各个值;第二,利用Excel表格计算截距项与趋势项中的各个值;1034.模型参数的点估计:最小二乘法OLS第二,利用Excel表格计算截距项与趋势项中的各个值;从而有因此,样本回归方程为

4.模型参数的点估计:最小二乘法OLS104最小二乘估计量b0,b1的特性b0,b1的特性线性性无偏性最小二乘估计量b0,b1的特性b0,b1的特性线性性105最小二乘估计量b0,b1的特性(1)线性特性由(9-5)得令则表明b1是Yi的线性组合最小二乘估计量b0,b1的特性(1)线性特性由(9-5)106最小二乘估计量b0,b1的特性同理,可得b0是Yi线性组合最小二乘估计量b0,b1的特性同理,可得b0是Yi线107最小二乘估计量b0,b1的特性(2)无偏性可以证明b0和b1分别是β0和β1的无偏估计

最小二乘估计量b0,b1的特性(2)无偏性可以证明b0和b108总平方和分解

9.3.1总平方和分解总平方和分解

9.3.1总平方和分解109总平方和分解

图9-5总平和分解图总平方和分解

图9-5总平110总平方和分解

总离差平方和它表示没有X的影响,单纯考察数据中Y的变动情况。总平方和分解

总离差平方和它表示没有X的影响,111总平方和分解回归平方和表示各的变动程度,该变动是由于回归直线中各Xi的变动所引起的,并且通过X对Y的线性影响表现出来。总平方和分解回归平方和表示各的变动程度,该变动是由于回112总平方和分解

误差平方和表示各Yi围绕所拟合的回归直线的变动程度SSTO=SSR+SSE总平方和分解

误差平方和表示各Yi围绕所拟合的回归直线的变动113总平方和分解

SSE=SSTO-SSR总平方和分解

SSE=SSTO-SSR114自由度的分解SSTO自由度ƒT为n-1SSEβ0和β1用了两个正规方程自由度ƒE为n-2SSR自由度ƒR为1自由度的分解SSTO自由度SSEβ0和β1用了自由度SSR自115自由度的分解自由度的分解可以表示为n-1=1+(n-2)ƒT=ƒR+ƒE自由度的分解自由度的分解可以表示为n-1=1+(n-2)ƒT116回归均方与误差均方

(9-10)(9-11)回归均方误差均方回归均方与误差均方(9-10)(9-11)回归均方误差117样本确定系数与样本相关系数9.4.1样本确定系数(9-12)注:Y的总变差中能被X解释的那部分所占的比率样本确定系数与样本相关系数9.4.1样本确定系数(9-12118样本确定系数

r2的取值范围样本的全部观察值都落在所拟和的回归直线上SSE=0,r2=1当X与Y无关,Y的变差完全由于随机因素引起,此时,SSR=0

r2=0样本确定系数

r2的取值范围样本的全部观察值都落在r2=1119说明变量X与Y之间不存在线性关系;说明变量X与Y之间存在线性关系,(X,Y)的样本点都落在同一条直线上。通常越接近1,样本回归线对样本值的拟合优度越好,X对Y的解释能力越强。是样本回归线与样本观测值拟合优度的度量指标,也是回归模型包含多少样本信息量的具体表现。说明变量X与Y之间不存在120样本相关系数样本相关系数注:r与b1的分母均为正,分子相同,故r与b1有相同的符号。样本相关系数样本相关系数注:r与b1的分母均为正,分子相同,121样本相关系数r的取值情况情况一图9-6样本相关系数r的取值情况情况一图9-6122样本相关系数情况二图9-7样本相关系数情况二图9-71239.4.2样本相关系数情况三图9-89.4.2样本相关系数情况三图9-8124样本相关系数情况四图9-9样本相关系数情况四图9-9125【例】利用例7-2中表7-3的资料,计算年销售收入对广告费的回归的判定系数,并解释其意义。解:方法1:方法2:【例】利用例7-2中表7-3的资料,计算年销售收126一元线性回归显著性检验在回归函数E(Y)=β0+β1X中,如果β1=0,则对于X的一切水平E(Y)=β0,说明Y的变化与X的变化无关,因而,我们不能通过X去预测Y。所以,对模型Yi=β0+β1Xi+εi

检验β1=0是否成立,等价于检验Y与X之间是否存在线性关系。一元线性回归显著性检验在回归函数E(Y)=β0+β1X中,如127b1的抽样分布为了检验β1=0是否成立,需要构造一个合适的统计量,因此,首先讨论b1的抽样分布。b1的抽样分布为了检验β1=0是否成立,需要构造一128b1的抽样分布b1是观测值Yi的线性组合Yi服从正态分布且相互独立b1也服从正态分布b1的抽样分布b1是观测值Yi的线Yi服从正态分布且b1也服129b1的抽样分布以下可以证明b1的方差b1的抽样分布以下可以证明b1的方差130b1的抽样分布证明:因为且Yi相互独立,其中所以,b1服从b1的抽样分布证明:因为且Yi相互独立,其中所以,b1服131F检验在一元线性回归中,为了检验Y对于X线性关系的统计显著性,对β1进行F检验1)提出假设:H0:β1=0,H1:β1≠0。

2)构造并计算统计量:3)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论