第11章 相关与回归分析课件_第1页
第11章 相关与回归分析课件_第2页
第11章 相关与回归分析课件_第3页
第11章 相关与回归分析课件_第4页
第11章 相关与回归分析课件_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十一章相关与回归分析一、相关与回归分析的基本概念二、简单线性回归分析三、相关分析第11章相关与回归分析一、相关与回归分析的基本概念函数关系与相关关系

函数关系:当一个或几个变量取值一定时,另一个变量有确定值与之对应,我们称这种关系为确定的函数关系。

相关关系:当一个或几个相互联系的变量取一定数值时,与之对应的另一个变量的值虽然不确定,但它仍按某种规律在一定范围内变化,我们称这种相互关系为具有不确定性的相关关系。

函数关系和相关关系在一定条件下可以相互转化。第11章相关与回归分析一、相关与回归分析的基本概念相关关系的种类相关完全相关;不完全相关;不相关(按相关程度划分)正相关;负相关(按相关方向划分)线性相关;非线性相关(按相关形式划分)单相关;复相关;偏向关(按变量多少划分)真实相关;虚假相关(按相关性质划分)第11章相关与回归分析一、相关与回归分析的基本概念相关分析和回归分析

相关分析:用一个指标来表明现象间相互依存关系的密切程度。

回归分析:根据相关关系的具体形态,选择一个合适的数学模型,来近似地表达变量之间的平均变化关系。

相关分析和回归分析联系:不仅具有共同的研究对象,而且在具体应用时,常常必须相互补充。

相关关系与回归分析区别:前者研究变量之间的相关方向和相关程度,但不能指出变量之间相互关系的具体形式,从而无法从一个变量的变化来推测另一个变量的变化情况,同时不必确定哪个变量是自变量,哪个变量是应变量;后者则不然。

相关分析和回归分析的局限性

第11章相关与回归分析一、相关与回归分析的基本概念相关表和相关图

相关表是反映变量之间相关关系的统计表。将某一变量按其值的大小排列,然后再将与其相关的另一变量的对应值平行排列,便可得到简单的相关表。企业编号12345678910广告费(万元)20154030426065705378年销售收入(百万元)25186045628892997598年销售收入和广告费原始资料广告费(万元)15203040425360657078年销售收入(百万元)18254560627588929998销售收入与广告费相关图第11章相关与回归分析一、相关与回归分析的基本概念

相关图(散点图):是以直角坐标系的横轴代表变量X,纵轴代表变量Y,将两个变量间相对应的变量值用坐标点的形式描绘出来,用来反映两变量之间的相关的图形。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。XYOOOOXXXYYYa、正相关b、负相关c、曲线相关d、不相关第11章相关与回归分析二、一元线性回归分析标准的一元线性回归模型

1.总体回归函数一元线性回归模型的基本形式:

Yi=α+βXi+ui

该式被称为总体回归函数。式中的α和β是未知参数,又称回归系数;Yi和Xi分别是Y和X的第i次观测值;ui是随机误差项,又称随机干扰项,它是一个特殊的随机变量,反映未列入方程式的其他各种因素对Y的影响。

由模型可知:Y是由X的线性函数(

α+βXi)和误差项

ui组成,其中(

α+βXi)是Y的数学期望,即:E(Yi)=α+βXi

第11章相关与回归分析二、一元线性回归分析E(Yi)=α+βXi

上式表明:在X的值给定的条件下,Y的期望值是X的严密的线性函数。这条直线被称为总体回归线,Y的实际观测值并不一定位于该直线上,只是散布在直线的周围。随机误差项ui是实际观测点和总体回归线垂直方向的距离,即ui=Yi-E(Yi)。。。。。。。。。。uiXYYiXioE(Yi)=α+βXi第11章相关与回归分析二、一元线性回归分析

2.样本回归函数

样本回归直线:根据样本数据拟合的直线;

样本回归曲线:根据样本数据拟合的曲线。

一元线性回归模型的样本回归直线可表示为:式中,是样本回归线上与Xi相对应的Y值,可视为E(Yi)的估计;是样本回归函数的截距系数;是样本回归函数的斜率系数,它们都是对总体回归系数的估计。第11章相关与回归分析二、一元线性回归分析

实际观测到的应变量Yi值,并不完全等于,如果用ei表示两者之差(Yi-)则有:上式称为样本回归函数。式中ei称为残差,在概念上,ei与总体误差项ui相对应;n是样本容量。

样本回归函数与总体回归函数的区别:

总体回归线是未知的,它只有一条。而样本回归线则是根据样本数据拟合的,每抽取一组样本,便可拟合一条样本回归线。②总体回归函数中的α,β是未知的参数,表现为常数。而样本回归函数中的α,β是随机变量,其具体数值随抽取的样本观测值不同而变动。③总体回归函数中的ui是Yi与未知的总体回归线之间的纵向距离,它是不可直接观测的。而样本回归函数中的ei是Yi与样本回归线之间的纵向距离,当根据样本观测值拟合出样本回归线之后,便可计算出数值。(i=1.2,…,n)第11章相关与回归分析二、一元线性回归分析

3.随机误差项的标准假定

假定1:E(ui)=0;

假定2:V(ui)=E(ui2)=σ2

假定3:Cov(ui,uj)=E(ui,uj)=0

假定4:自变量是给定的变量,与随机误差项线性无关

假定5:随机误差项服从正态分布满足上述标准假定的一元线性回归模型,称为标准的一元线性回归模型。。。。。。。XYO。。。。。。。。。。。。。X1X2XnE(Y1)E(Y2)E(Yn)第11章相关与回归分析二、一元线性回归分析

4.未知参数α,β的估计回归分析的主要任务就是建立能够近似反映真实总体回归函数的样本回归函数。在根据样本资料确定样本回归方程时,一般总是希望Y的估计值从总体来看,尽可能接近其实际观测值,为此我们用残差平方和作为衡量总偏差的尺度。Q==残差平方和Q的大小依赖于的取值。根据微积分中求极小值的原理,可知Q存在极小值,同时欲使Q打到最小,Q对的偏导数必须为零。即

第11章相关与回归分析二、一元线性回归分析

第11章相关与回归分析二、一元线性回归分析5.未知参数的估计

是随机误差ui的方差,其大小可以反映回归直线拟合程度的好坏,所以必须对做出估计。由于未知,从而无法求出ui。因此我们用ei作为ui的估计值,其中

并把作为未知参数的估计。并把的正平方根称为回归估计的标准误差第11章相关与回归分析二、一元线性回归分析

例1对下表给出的数据,试用最小二乘法求水稻产量Y对化肥用量X的回归直线,并求σ2的估计。化肥用量X(kg)15202530354045水稻产量Y(kg)330345365405445490455化肥用量与水稻产量第11章相关与回归分析二、一元线性回归分析解:回归系数的计算常常列成如表:序号1153302251089004950325.187.822203454001190256900351.79-6.793253656251332259125378.40-13.4043040590016402512150405.000535445122519802515575431.6113.39640490160024010019600458.2231.78745455202520702520475484.82-29.82∑2102835700088775——第11章相关与回归分析二、一元线性回归分析所求回归直线方程:由此可计算出第11章相关与回归分析二、一元线性回归分析6.参数估计的性质①

第11章相关与回归分析二、一元线性回归分析②第11章相关与回归分析二、一元线性回归分析③④第11章相关与回归分析二、一元线性回归分析

第11章相关与回归分析二、一元线性回归分析⑤

⑥7.参数α,β的假设检验第11章相关与回归分析二、一元线性回归分析

β的假设检验:第一步:建立假设:H0:β=β0;H1:β≠β0第二步:选择统计量:

第三步:取显著水平γ,确定拒绝域第四步:计算统计量T的观测值t第五步:作决策。第11章相关与回归分析二、一元线性回归分析

最重要的场合是β0=0,这时零假设H0:β=0。若此时零假设成立,则线性模型化为:Yi=α+uii=1,2,…,n这表明:变量Y不依赖于X,也即X,Y间不存在线性关系。例2试问例1中的水稻产量Y与化肥量X是否确实存在显著的线性关系?第一步:提出统计假设:H0:β=0;H1:β≠0第二步:选择统计量:第三步:对显著水平=0.05,确定拒绝域第四步:计算统计量T的观测值:第五步:t=6.53>2.571,拒绝原假设。第11章相关与回归分析二、一元线性回归分析

α的假设检验:同理,对检验假设H0:α=α0,可以用统计量:对于例1,现在检验假设:H0:α=300。t=现在t=2.1194<t0.05/2(5)=2.57,因此接受原假设。第11章相关与回归分析二、一元线性回归分析

拟合程度评价

拟合程度:指观测值聚集在样本回归线周围的紧密程度。判断回归模型拟合程度优劣,最常用的数量指标是可决系数(又称判决系数)。该指标是建立在对总离差平方和进行分解的基础上。。XYYYiXiO第11章相关与回归分析二、一元线性回归分析

对两边平方可得:这里可用的条件:从而有即:SST=SSR+SSE第11章相关与回归分析二、一元线性回归分析

SST=SSR+SSE其中:SST是总离差平方和;SSR是由回归直线可以解释的那一部分离差平方和,称为回归平方和;SSE是回归直线无法解释的离差平方和,称为残差平方和。两边同时除以SST,得1=SSR/SST+SSE/SST其中SSR/SST被定义为可决系数,用R2表示,则有R2=SSR/SST=1-SSE/SST

可决系数是对回归模型拟合程度的综合度量,可决系数越大,模型拟合程度越大,可决系数越小,模型拟合程度也低第11章相关与回归分析二、一元线性回归分析

例3计算例1中的拟合的样本回归方程的可决系数解:

对检验假设H0:β=0的F检验

第一步:提出假设:H0:β=0;H0:β≠0第二步:选取统计量β=0第11章相关与回归分析二、一元线性回归分析

第三步:在显著水平γ下,确定拒绝域为第四步:计算统计量F=(n-2)SSR/SSE的观测值第五步:作决策

例4对例1中原假设H0:β=0进行F检验(γ=0.05)。F=5*(SST-SSE)/SSE=5*(22150-2327.38)/2327.38=42.59F0.05(1,5)=6.61,拒绝域(6.61,+∞)

42.59>6.61,所以拒绝原假设,即水稻产量与化肥用量显著地线性相关。第11章相关与回归分析二、一元线性回归分析一元线性回归方差分析表平方和自由度平均平方和F值回归偏差1剩余偏差n-2总偏差n-1R2=SSR/SST第11章相关与回归分析二、一元线性回归分析

7.预测及预测区间

回归方程一经求得并通过检验,既能用来研究变量之间的联系,也能用来进行预测或控制。如例1中的回归方程:Y=245.36+5.3214X求得后,问化肥用量是27kg的话,水稻产量将是多少?

注意:用作为Y0的预测值,实际上它是Y0之均值的估计。

实际中还需要知道所谓预测精度

。正如我们并不满足于参数的点估计而还要给出参数区间估计一样,常常希望给出一个类似于置信区间的预测区间,也即在给定的显著水平γ下,找到一个正数δ,使为此,我们要求出的分布

,易知也服从正态分布,且

Y0与Y0相互独立。第11章相关与回归分析二、一元线性回归分析

上式中σ2是未知的,通常用它的无偏估计代入,可得统计量第11章相关与回归分析二、一元线性回归分析第11章相关与回归分析二、一元线性回归分析

预测区间上下限XYYXX0X0第11章相关与回归分析二、一元线性回归分析

例5如例1中的回归方程:Y=245.36+5.3214X,问化肥用量是27kg的话,求水稻产量的预测值,以及预测区间(γ=0.05)?解:X0=27时的预测值是

第11章相关与回归分析二、一元线性回归分析Eviews软件在回归方程中的运用

一元线性回归模型:

利用1990年——2005年中国GDP与外贸出口EX的数据,求GDP与EX回归方程。

多元线性回归模型:

利用1990年——2005年中国GDP、外贸出口额EX和固定资产投资额GZ,求GDP与EX、GZ的回归方程。第11章相关与回归分析三、相关分析相关系数的定义

单项关分析是对两个变量之间的相关程度进行分析,其所用的指标称为简单相关系数。通常以ρ表示总体相关系数,以r表示样本的相关系数。第11章相关与回归分析三、相关分析相关系数r与可决系数R2简单线性回归模型中只有一个自变量和应变量,其样本回归方程的拟合程度取决于X与Y的相关程度,因此,在这样的场合下,相关系数r的平方就等于可决系数R2。

相关系数具有以下特点:1.r的取值介于-1与1之间;2.当r=0时,说明X与

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论