版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
相关和回归分析研究系统的相互联系、测定其联系的紧密程度、揭示其变化的具体形式和规律性的统计方法,是构造各种系统模型、进行系统结构分析、预测和控制的重要工具。12/23/20221相关和回归分析研究系统的相互联系、测定其联系的紧密程度、揭示【主要内容】一、相关和回归分析的基本概念二、一元线性回归分析三、多元线性回归分析四、非线性回归分析12/23/20222【主要内容】一、相关和回归分析的基本概念12/20/2022一、相关和回归分析的基本概念⒈出租汽车费用与行驶里程:总费用=行驶里程每公里单价2.家庭收入与恩格尔系数:家庭收入高,则恩格尔系数低。函数关系确定性关系相关关系非确定性关系比较下面两种现象间的依存关系12/23/20223一、相关和回归分析的基本概念⒈出租汽车费用与行驶里程:2函数关系和相关关系现象间的依存关系大致可以分成两种类型:函数关系指现象间所具有的严格的确定性的依存关系相关关系指客观现象间确实存在,但数量上不是严格对应的依存关系函数关系与相关关系之间并无严格的界限:有函数关系的变量间,由于有测量误差及各种随机因素的干扰,可表现为相关关系;对具有相关关系的变量有深刻了解之后,相关关系有可能转化为或借助函数关系来描述。12/23/20224函数关系和相关关系现象间的依存关系大致可以分成两种类型:函数函数关系
指变量之间存在着确定性依存关系。当一个或一组变量每取一个值时,相应的另一个变量必然有一个确定值与之对应。函数关系可以用一个确定的公式,即函数式
来表示。
12/23/20225函数关系指变量之间存在着确定性依存关系。当一相关关系指变量之间存在着非确定性依存关系。即当一个或一组变量每取一个值时,相应的另一个变量可能有多个不同值与之对应。
例、根据消费理论,商品需求量Q与商品价格P、居民收入I之间具有相关关系:
相关关系,可用模型来表示。12/23/20226相关关系指变量之间存在着非确定性依存关系。即相关分析和回归分析研究现象之间相关关系的两种基本方法:就是用一个指标来表明现象间相互依存关系的密切程度就是根据相关关系的具体形态,选择一个合适的数学模型,来近似地表达变量间的平均变化关系。相关分析回归分析12/23/20227相关分析和回归分析研究现象之间相关关系的两种基本方法:就是用相关系数与判定系数在直线相关的条件下,用以反映两变量间线性相关密切程度的指标,用r表示相关系数12/23/20228相关系数与判定系数在直线相关的条件下,用以反映两变量间线相关系数与判定系数相关系数r的取值范围:-1≤r≤1r>0为正相关,r<0为负相关;|r|=0表示不存在线性关系;|r|=1表示完全线性相关;0<|r|<1表示存在不同程度线性相关:|r|<0.4为低度线性相关;0.4≤|r|<0.7为显著性线性相关;0.7≤|r|<1.0为高度显著性线性相关。12/23/20229相关系数与判定系数相关系数r的取值范围:-1≤r≤1
r2
越接近于1,表明x与y之间的相关性越强;r2
越接近于0,表明两个变量之间几乎没有直线相关关系.相关系数与判定系数是相关系数的平方,用r2表示;用来衡量回归方程对y的解释程度。判定系数取值范围:判定系数12/23/202210r2越接近于1,表明x与y之间的相关性越强;r2【例】计算工业总产值与能源消耗量之间的相关系数及判定系数资料结论:工业总产值与能源消耗量之间存在高度的正相关关系,能源消耗量x的变化能够解释工业总产值y变化的95.2﹪。12/23/202211【例】计算工业总产值与能源消耗量之间的相关系数及判定系数二、一元线性回归分析1、标准的一元线性回归模型2、一元线性回归模型的估计3、一元线性回归模型的检验4、一元线性回归模型预测
12/23/202212二、一元线性回归分析1、标准的一元线性回归模型12/20/2一元回归简单回归多元回归复回归线性回归非线性回归一元线性回归SimpleLinearregression按自变量的个数分按回归曲线的形态分回归分析的种类12/23/202213一元回归简单回归多元回归复回归线性回归非线性回归一元线性回1、标准的一元线性回归模型(一)总体回归函数
Yt=β1+β2Xt+ut
ut是随机误差项,又称随机干扰项,它是一个特殊的随机变量,反映未列入方程式的其他各种因素对Y的影响。(二)样本回归函数:
t=1,2,...n
et称为残差,在概念上,et与总体误差项ut相互对应;n是样本的容量。12/23/2022141、标准的一元线性回归模型(一)总体回归函数12/20/20样本回归函数与总体回归函数区别总体回归线是未知的,只有一条。样本回归线是根据样本数据拟合的,每抽取一组样本,便可以拟合一条样本回归线。总体回归函数中的β1和β2是未知的参数,表现为常数。而样本回归函数中的是随机变量,其具体数值随所抽取的样本观测值不同而变动。总体回归函数中的ut是Yt与未知的总体回归线之间的纵向距离,它是不可直接观测的。而样本回归函数中的et是Yt与样本回归线之间的纵向距离,当根据样本观测值拟合出样本回归线之后,可以计算出et的具体数值。12/23/202215样本回归函数与总体回归函数区别总体回归线是未知的,只有一条。误差项的标准假定假定1:误差项的期望值为零:E(ut)=0。假定2:误差项的期望值为常数:Var(ut)=。假定3:误差项之间不存在序列相关,协方差为零:Cov(utus)=0(t≠s)。假定4:自变量是给定变量,与误差项线性无关。假定5:随机误差项服从正态分布。满足以上标准假定的一元线性回归模型,称为标准的一元线性回归模型。12/23/202216误差项的标准假定假定1:误差项的期望值为零:E(ut2、一元线性回归模型的估计一元线性回归方程的几何意义截距斜率一元线性回归方程的可能形态2为正2为负2为012/23/2022172、一元线性回归模型的估计一元线性回归方程的几何意义截距斜率总体一元线性回归方程:以样本统计量估计总体参数斜率(回归系数)截距截距β1
表示在没有自变量x的影响时,其它各种因素对因变量y的平均影响;回归系数β2
表明自变量x每变动一个单位,因变量y平均变动b个单位。样本一元线性回归方程:估计的一元线性回归方程12/23/202218总体一元线性回归方程:以样本统计量估计总体参数斜率(回归系数①回归系数的估计总体回归函数样本回归函数12/23/202219①回归系数的估计总体回归函数样本回归函数12/20/2022回归系数的估计---最小二乘法标准方程组12/23/202220回归系数的估计---最小二乘法标准方程组12/20/2022根据整理方程求解可得:12/23/202221根据整理方程求解可得:12/20/202221上述进行回归分析的方法可称为:最小平方法通过使残差平方和为最小来估计回归系数的一种方法,又称最小二乘法。12/23/202222上述进行回归分析的方法可称为:最小通过使残差平方和为最小来估【分析】因为工业总产值与能源消耗量之间存在高度正相关关系(r=0.9575),所以可以拟合工业总产值对能源消耗量的线性回归方程。解:设线性回归方程为【例】建立工业总产值对能源消耗量的线性回归方程。资料12/23/202223【分析】因为工业总产值与能源消耗量之间存在高度正相关关系(线性回归方程为:结果表明,其他条件不变时,能源消耗量每增加100000吨,工业总产值将增加7961万元。12/23/202224线性回归方程为:结果表明,其他条件不变时,能源消耗量每增加1②总体方差的估计该式中,分母是自由度,其中n是样本观测值的个数,2是一元线性回归方程中回归系数的个数。在一元线性回归模型中,残差et必须满足:因而失去了两个自由度,所以其自由度为n-2。S2
的正平方根又称做回归估计标准误差。12/23/202225②总体方差的估计该式中,分母是自由度,其中n是样本观测值的回归估计标准误差(S)是因变量各实际值与其估计值之间的平均差异程度,表明其估计值对各实际值代表性的强弱;其值越小,回归方程的代表性越强,用回归方程估计或预测的结果越准确。12/23/202226回归估计标准误差(S)是因变量各实际值与其估计值之间回归估计标准误差S的简化计算:12/23/202227回归估计标准误差S的简化计算:12/20/202227【例】计算前面拟合的工业总产值对能源消耗量回归方程的回归标准差.12/23/202228【例】计算前面拟合的工业总产值对能源消耗量回归方程的回归标准③最小二乘估计量的性质残差之和为零所拟合直线通过样本散点图的重心误差项与解释变量不相关β1与β2分别是总体回归系数的无偏估计量β1与β2均为服从正态分布的随机变量12/23/202229③最小二乘估计量的性质残差之和为零12/20/202223、一元线性回归模型的检验①回归模型的检验的种类理论意义检验一级检验二级检验12/23/2022303、一元线性回归模型的检验①回归模型的检验的种类理论意义检验①回归模型的检验的种类理论意义检验主要涉及参数估计值的符号和取值区间。如果它们与实质性科学的理论以及人们的实践经验不相符,就说明模型不能很好地解释现实的现象。
常常会遇到理论意义检验不能通过的情况,主要原因是:社会经济的统计数据无法像自然科学中的统计数据那样通过有控制的实验去取得;观测的样本容量偏小,不具有足够代表性;不满足标准线性回归分析所要求的假定条件。
12/23/202231①回归模型的检验的种类理论意义检验主要涉及参数估计值的符一级检验又称统计学检验,它是利用统计学的抽样理论来检验样本回归方程的可靠性。分为拟合程度评价和显著性检验。一级检验是对所有现象进行回归分析时都必须通过的检验。二级检验又称经济计量学检验,对标准线性回归模型的假定条件能否得到满足进行检验,包括序列相关检验、异方差性检验等。12/23/202232一级检验又称统计学检验,它是利用统计学的抽样理论来检验样本回②拟合程度的评价
拟合程度,是指样本观测值聚集在样本回归线周围的紧密程度。判断回归模型拟合程度优劣最常用的数量指标是可决系数(又称决定系数或判定系数)。可决系数是建立在对总离差平方和进行分解的基础上的。12/23/202233②拟合程度的评价拟合程度,是指样本观测值聚集在样本回归线误差平方和回归平方和总离差平方和12/23/202234误差平方和回归总离差平方和12/20/202234总离差平方和回归平方和残差平方和SST=SSR+SSE12/23/202235总离差平方和回归平方和残差平方和SST=SSR+SSE12/可决系数是对回归模型拟合程度的综合度量,可决系数越大,模型拟合程度越高。可决系数越小,则模型对样本的拟合程度越差。
可决系数12/23/202236可决系数是对回归模型拟合程度的综合度量,可决系数越大,模型拟③显著性检验回归分析中的显著性检验包括两方面的内容:对各回归系数的显著性检验,通常采用t检验;对整个回归方程的显著性检验,通常采用在方差分析基础上的F检验。在一元线性回归模型中,由于只有一个解释变量,对回归系数的t检验与对整个方程的F检验是等价的。回归系数的显著性检验,就是根据样本估计的结果对总体回归系数的有关假设进行检验。
12/23/202237③显著性检验回归分析中的显著性检验包括两方面的内容:12/总体分布形式检验统计量12/23/202238总体分布形式检验统计量12/20/202238【例】对工业总产值与能源消耗量之间的回归系数进行显著性检验。
以上计算的t值远大于临界值,故拒绝原假设,接受备择假设,即认为能源消耗量对工业总产值的影响是显著的。12/23/202239【例】对工业总产值与能源消耗量之间的回归系数进行显著④一元线性回归模型的估计与预测估计的前提:回归方程经过检验,证明X和Y的关系在统计上是显著相关的。点估计对于给定的X值,求出Y平均值的一个估计值或Y的一个个别值的预测值。区间估计对于给定的X值,求出Y的平均值的置信区间或Y的一个个别值的预测区间。12/23/202240④一元线性回归模型的估计与预测估计的前提:回归方程经过检验点估计若x=80(十万吨),则:12/23/202241点估计若x=80(十万吨),则:12/20/20224区间估计:对于给定的x=x0
,Y的1-置信区间为:12/23/202242区间估计:对于给定的x=x0,Y的1-置信区间为区间估计:在置信度为1–α,自由度为n-2下的Yf预测区间为其中:
12/23/202243区间估计:12/20/202243【例】当能源消耗量为800万吨时,计算置信度为95%的工业总产值的预测区间。12/23/202244【例】当能源消耗量为800万吨时,计算置信度为95%的工业总三、多元线性回归分析总体回归函数:样本回归函数:在一元线性回归分析假定的基础上,追加一条:回归模型所包含的自变量之间不能具有较强的线性关系。标准假定:1、标准的多元线性回归模型12/23/202245三、多元线性回归分析总体回归函数:样本回归函数:误差项的标准假定假定1:误差项的期望值为零:E(ut)=0。假定2:误差项的期望值为常数:Var(ut)=。假定3:误差项之间不存在序列相关,协方差为零:Cov(utus)=0(t≠s)。假定4:自变量是给定变量,与误差项线性无关。假定5:随机误差项服从正态分布。满足以上标准假定的一元线性回归模型,称为标准的一元线性回归模型。12/23/202246误差项的标准假定假定1:误差项的期望值为零:E(ut二元线性回归模型
式中,为二元回归估计值;为x1和x2构成的平面在y轴上的截矩;和分别为y对x1和x2的回归系数。二元直线回归模型12/23/202247二元线性回归模型二元直线回归模型12/20/202247确定、、数值用最小二乘法,即选取、和的数值使得
二元直线回归的估计【例】为最小值,根据数学中的极值原理可推导出标准方程组:12/23/202248确定、、数值用最小二乘法,即选取结果表明,其他条件不变时,销售额每增加10000元,利润将增加1056元,流通费用每增加10000元,利润将减少9557元.建立二元直线回归方程为:解得:将推算结果代入标准方程组,得:
12/23/202249结果表明,其他条件不变时,销售额每增加10000元,利润将增多元线性回归模型的估计同样可采用最小二乘法,设:对,,,求偏导数,令其为零,可以得
到标准方程组:12/23/202250多元线性回归模型的估计同样可采用最小二乘法,设:12/20/标准方程组:12/23/202251标准方程组:12/20/202251多元线性回归模型的矩阵形式12/23/202252多元线性回归模型的矩阵形式12/20/202252总体回归函数:样本回归函数:标准方程组:由标准方程组,可得回归系数的估计:12/23/202253总体回归函数:样本回归函数:标准方程组:由标准方程组,可得回多元线性回归模型总体方差的估计标准的多元线性回归模型中,高斯-马尔可夫定理同样成立。S2的正平方根S为回归估计标准误差12/23/202254多元线性回归模型总体方差的估计标准的多元线①拟合程度的评价:一元线性回归分析中总离差平方和的分解公式依然成立。多元线性回归模型的检验和预测
注意:
在样本容量一定的条件下,总离差平方和与自变量的个数无关,而残差平方和则会随着模型中自变量个数的增加不断减少,至少不会增加。12/23/202255①拟合程度的评价:一元线性回归分析中总离差平方和的分解公式依修正自由度的可决系数考虑到SSE受自变量个数的影响,对可决系数进行修正:12/23/202256修正自由度的可决系数考虑到SSE受自变量个数的影响,多元回归模型的显著性检验回归系数的显著性检验t检验,检验与各回归系数对应的自变量对因变量的影响是否显著,以便对自变量的取舍作出正确的判断。一般来说,当发现某个自变量的影响不显著时,应将其从模型中删除。回归方程的显著性检验F检验,检验回归模型总体函数的线性关系是否显著。其实质就是判断回归平方和与残差平方和之比值的大小问题。12/23/202257多元回归模型的显著性检验回归系数的t检验,检验与各回归系数对回归方程的显著性检验——F检验1。建立假设:
H0:====04。判断:若,拒绝原假设;若,接受原假设。SST=总离差平方和SSE/(n-k)n-kSSE=
残差平方和SSR/(k-1)k-1SSR=回归平方和方差自由度平方和离差名称2。进行方差分析,列出方差分析表:3。计算检验统计量:12/23/202258回归方程的显著性检验——F检验1。建立假设:4。判断:多元回归预测多元线性回归预测与一元线性回归预测的原理是一致的。基本公式为:
式中,Xjf(j=2,3,……k)是给定的Xj在预测期的具体数值;是已估计出的样本回归系数;是Xj给定时Y的预测值。12/23/202259多元回归预测多元线性回归预测与一元线性回归预测的原理是一致的四、非线性回归分析非线性回归模型的确定:选择非线性函数的具体形式。非线性回归函数有多种多样的具体形式,需要根据所要研究的问题的性质并结合实际的样本观测值作出恰当的选择。确定估计函数中的参数。最常用的方法仍然是最小二乘估计法。
当自变量与因变量存在某种曲线相关关系时,可拟合曲线回归模型。12/23/202260四、非线性回归分析非线性回归模型的确定:当自变量与因变量存在非线性回归模型的确定
方程形式应与相应的基本理论相一致。方程有较高的拟合程度。方程的数学形式要尽可能简单。
基本原则12/23/202261非线性回归模型的确定方程形式应与相应的基本理论相一致。基常用非线性回归模型抛物线函数模型双曲线函数模型幂函数模型指数函数模型对数函数模型S型曲线函数模型多项式方程模型12/23/202262常用非线性回归模型12/20/202262非线性回归模型的估计即对模型中的相应参数作出估计基本方法:通过适当的变换,转化为线性回归函数,然后再利用线性回归分析的方法进行估计和检验。常用线性变换方法:倒数变换、半对数变换、双对数变换、多项式变换。注意:转换为线性方程可使回归分析简单化,转换为线性方程也是需要有一定假设条件,转换为线性方程有可能和原方程不等价。12/23/202263非线性回归模型的估计即对模型中的相应参数作出估计12/20/非线性函数的线性变换:
倒数变换
用新的变量来替换原模型中变量的倒数,从而使原模型变成线性模型。半对数变换
应用于对数函数的线性变换。12/23/202264非线性函数的线性变换:倒数变换用新的变量来替换原模双对数变换
用新的变量来替换原模型中变量的对数,从而使原模型变换成线性模型。12/23/202265双对数变换用新的变量来替换原模型中变量的对数,从而使原多项式变换适用于多项式方程的变换。12/23/202266多项式变换适用于多项式方程的变换。12/20/20综合利用多种变换
适用于比较复杂的非线性函数的变换。12/23/202267综合利用多种变换适用于比较复杂的非线性函数的变换。12线性变换要注意的问题:第一、比较复杂的非线性函数,需综合利用上述的几种方法。第二、变换得到的方程式中变量不允许包含未知的参数。第三、变换后的新模型中包含的误差项能够满足标准假定时,新模型中回归系数最小二乘估计量的理想性质才能成立。第四、严格地说,线性变换方法只适用于变量为非线性的函数。第五、并不是所有的非线性函数都可以通过变换得到与原方程完全等价的线性方程。12/23/202268线性变换要注意的问题:第一、比较复杂的非线性函数,需综合利用Thankyouverymuch放映结束12/23/202269Thankyouverymuch放映结束12/20/2序号能源消耗量(十万吨)x工业总产值(亿元)yx2y2xy1234567891011121314151635384042495254596264656869717276242524283231374041404750495148581225144416001764240127042916348138444096422546244761504151845776576625576784102496113691600168116002209250024012601230433648409509601176156816121998236025422560305534003381362134564408合计91662555086261753788712/23/202270序号能源消耗量(十万吨)x工业总产值(亿元)yx2y2xy1回归预测的置信区间12/23/202271回归预测的置信区间12/20/202271二元直线回归计算表序号销售额(万元)X1流通费用(万元)X2利润(万元)YX1yX2yX1X2X12X221234567891011123542546378891001101181231431593.23.54.24.75.56.15.97.47.88.110.210.41.01.52.32.02.84.14.85.15.45.45.17.635.063.0124.0126.0218.4364.9480.0561.0637.2664.2729.31208.43.205.259.669.4015.4025.0128.2337.7442.1243.7452.0279.04112.0147.0226.8296.1429.0542.9590.0814.0920.4996.311458.61653.612251764291639696084792110000121001392415129204492528110.2412.2517.6422.0930.2537.2134.8154.7660.8465.61104.04108.16合计11147747.15211.6350.908186.7120762557.9012/23/202272二元直线回归计算表销售额流通费用利润1353.21.03相关和回归分析研究系统的相互联系、测定其联系的紧密程度、揭示其变化的具体形式和规律性的统计方法,是构造各种系统模型、进行系统结构分析、预测和控制的重要工具。12/23/202273相关和回归分析研究系统的相互联系、测定其联系的紧密程度、揭示【主要内容】一、相关和回归分析的基本概念二、一元线性回归分析三、多元线性回归分析四、非线性回归分析12/23/202274【主要内容】一、相关和回归分析的基本概念12/20/2022一、相关和回归分析的基本概念⒈出租汽车费用与行驶里程:总费用=行驶里程每公里单价2.家庭收入与恩格尔系数:家庭收入高,则恩格尔系数低。函数关系确定性关系相关关系非确定性关系比较下面两种现象间的依存关系12/23/202275一、相关和回归分析的基本概念⒈出租汽车费用与行驶里程:2函数关系和相关关系现象间的依存关系大致可以分成两种类型:函数关系指现象间所具有的严格的确定性的依存关系相关关系指客观现象间确实存在,但数量上不是严格对应的依存关系函数关系与相关关系之间并无严格的界限:有函数关系的变量间,由于有测量误差及各种随机因素的干扰,可表现为相关关系;对具有相关关系的变量有深刻了解之后,相关关系有可能转化为或借助函数关系来描述。12/23/202276函数关系和相关关系现象间的依存关系大致可以分成两种类型:函数函数关系
指变量之间存在着确定性依存关系。当一个或一组变量每取一个值时,相应的另一个变量必然有一个确定值与之对应。函数关系可以用一个确定的公式,即函数式
来表示。
12/23/202277函数关系指变量之间存在着确定性依存关系。当一相关关系指变量之间存在着非确定性依存关系。即当一个或一组变量每取一个值时,相应的另一个变量可能有多个不同值与之对应。
例、根据消费理论,商品需求量Q与商品价格P、居民收入I之间具有相关关系:
相关关系,可用模型来表示。12/23/202278相关关系指变量之间存在着非确定性依存关系。即相关分析和回归分析研究现象之间相关关系的两种基本方法:就是用一个指标来表明现象间相互依存关系的密切程度就是根据相关关系的具体形态,选择一个合适的数学模型,来近似地表达变量间的平均变化关系。相关分析回归分析12/23/202279相关分析和回归分析研究现象之间相关关系的两种基本方法:就是用相关系数与判定系数在直线相关的条件下,用以反映两变量间线性相关密切程度的指标,用r表示相关系数12/23/202280相关系数与判定系数在直线相关的条件下,用以反映两变量间线相关系数与判定系数相关系数r的取值范围:-1≤r≤1r>0为正相关,r<0为负相关;|r|=0表示不存在线性关系;|r|=1表示完全线性相关;0<|r|<1表示存在不同程度线性相关:|r|<0.4为低度线性相关;0.4≤|r|<0.7为显著性线性相关;0.7≤|r|<1.0为高度显著性线性相关。12/23/202281相关系数与判定系数相关系数r的取值范围:-1≤r≤1
r2
越接近于1,表明x与y之间的相关性越强;r2
越接近于0,表明两个变量之间几乎没有直线相关关系.相关系数与判定系数是相关系数的平方,用r2表示;用来衡量回归方程对y的解释程度。判定系数取值范围:判定系数12/23/202282r2越接近于1,表明x与y之间的相关性越强;r2【例】计算工业总产值与能源消耗量之间的相关系数及判定系数资料结论:工业总产值与能源消耗量之间存在高度的正相关关系,能源消耗量x的变化能够解释工业总产值y变化的95.2﹪。12/23/202283【例】计算工业总产值与能源消耗量之间的相关系数及判定系数二、一元线性回归分析1、标准的一元线性回归模型2、一元线性回归模型的估计3、一元线性回归模型的检验4、一元线性回归模型预测
12/23/202284二、一元线性回归分析1、标准的一元线性回归模型12/20/2一元回归简单回归多元回归复回归线性回归非线性回归一元线性回归SimpleLinearregression按自变量的个数分按回归曲线的形态分回归分析的种类12/23/202285一元回归简单回归多元回归复回归线性回归非线性回归一元线性回1、标准的一元线性回归模型(一)总体回归函数
Yt=β1+β2Xt+ut
ut是随机误差项,又称随机干扰项,它是一个特殊的随机变量,反映未列入方程式的其他各种因素对Y的影响。(二)样本回归函数:
t=1,2,...n
et称为残差,在概念上,et与总体误差项ut相互对应;n是样本的容量。12/23/2022861、标准的一元线性回归模型(一)总体回归函数12/20/20样本回归函数与总体回归函数区别总体回归线是未知的,只有一条。样本回归线是根据样本数据拟合的,每抽取一组样本,便可以拟合一条样本回归线。总体回归函数中的β1和β2是未知的参数,表现为常数。而样本回归函数中的是随机变量,其具体数值随所抽取的样本观测值不同而变动。总体回归函数中的ut是Yt与未知的总体回归线之间的纵向距离,它是不可直接观测的。而样本回归函数中的et是Yt与样本回归线之间的纵向距离,当根据样本观测值拟合出样本回归线之后,可以计算出et的具体数值。12/23/202287样本回归函数与总体回归函数区别总体回归线是未知的,只有一条。误差项的标准假定假定1:误差项的期望值为零:E(ut)=0。假定2:误差项的期望值为常数:Var(ut)=。假定3:误差项之间不存在序列相关,协方差为零:Cov(utus)=0(t≠s)。假定4:自变量是给定变量,与误差项线性无关。假定5:随机误差项服从正态分布。满足以上标准假定的一元线性回归模型,称为标准的一元线性回归模型。12/23/202288误差项的标准假定假定1:误差项的期望值为零:E(ut2、一元线性回归模型的估计一元线性回归方程的几何意义截距斜率一元线性回归方程的可能形态2为正2为负2为012/23/2022892、一元线性回归模型的估计一元线性回归方程的几何意义截距斜率总体一元线性回归方程:以样本统计量估计总体参数斜率(回归系数)截距截距β1
表示在没有自变量x的影响时,其它各种因素对因变量y的平均影响;回归系数β2
表明自变量x每变动一个单位,因变量y平均变动b个单位。样本一元线性回归方程:估计的一元线性回归方程12/23/202290总体一元线性回归方程:以样本统计量估计总体参数斜率(回归系数①回归系数的估计总体回归函数样本回归函数12/23/202291①回归系数的估计总体回归函数样本回归函数12/20/2022回归系数的估计---最小二乘法标准方程组12/23/202292回归系数的估计---最小二乘法标准方程组12/20/2022根据整理方程求解可得:12/23/202293根据整理方程求解可得:12/20/202221上述进行回归分析的方法可称为:最小平方法通过使残差平方和为最小来估计回归系数的一种方法,又称最小二乘法。12/23/202294上述进行回归分析的方法可称为:最小通过使残差平方和为最小来估【分析】因为工业总产值与能源消耗量之间存在高度正相关关系(r=0.9575),所以可以拟合工业总产值对能源消耗量的线性回归方程。解:设线性回归方程为【例】建立工业总产值对能源消耗量的线性回归方程。资料12/23/202295【分析】因为工业总产值与能源消耗量之间存在高度正相关关系(线性回归方程为:结果表明,其他条件不变时,能源消耗量每增加100000吨,工业总产值将增加7961万元。12/23/202296线性回归方程为:结果表明,其他条件不变时,能源消耗量每增加1②总体方差的估计该式中,分母是自由度,其中n是样本观测值的个数,2是一元线性回归方程中回归系数的个数。在一元线性回归模型中,残差et必须满足:因而失去了两个自由度,所以其自由度为n-2。S2
的正平方根又称做回归估计标准误差。12/23/202297②总体方差的估计该式中,分母是自由度,其中n是样本观测值的回归估计标准误差(S)是因变量各实际值与其估计值之间的平均差异程度,表明其估计值对各实际值代表性的强弱;其值越小,回归方程的代表性越强,用回归方程估计或预测的结果越准确。12/23/202298回归估计标准误差(S)是因变量各实际值与其估计值之间回归估计标准误差S的简化计算:12/23/202299回归估计标准误差S的简化计算:12/20/202227【例】计算前面拟合的工业总产值对能源消耗量回归方程的回归标准差.12/23/2022100【例】计算前面拟合的工业总产值对能源消耗量回归方程的回归标准③最小二乘估计量的性质残差之和为零所拟合直线通过样本散点图的重心误差项与解释变量不相关β1与β2分别是总体回归系数的无偏估计量β1与β2均为服从正态分布的随机变量12/23/2022101③最小二乘估计量的性质残差之和为零12/20/202223、一元线性回归模型的检验①回归模型的检验的种类理论意义检验一级检验二级检验12/23/20221023、一元线性回归模型的检验①回归模型的检验的种类理论意义检验①回归模型的检验的种类理论意义检验主要涉及参数估计值的符号和取值区间。如果它们与实质性科学的理论以及人们的实践经验不相符,就说明模型不能很好地解释现实的现象。
常常会遇到理论意义检验不能通过的情况,主要原因是:社会经济的统计数据无法像自然科学中的统计数据那样通过有控制的实验去取得;观测的样本容量偏小,不具有足够代表性;不满足标准线性回归分析所要求的假定条件。
12/23/2022103①回归模型的检验的种类理论意义检验主要涉及参数估计值的符一级检验又称统计学检验,它是利用统计学的抽样理论来检验样本回归方程的可靠性。分为拟合程度评价和显著性检验。一级检验是对所有现象进行回归分析时都必须通过的检验。二级检验又称经济计量学检验,对标准线性回归模型的假定条件能否得到满足进行检验,包括序列相关检验、异方差性检验等。12/23/2022104一级检验又称统计学检验,它是利用统计学的抽样理论来检验样本回②拟合程度的评价
拟合程度,是指样本观测值聚集在样本回归线周围的紧密程度。判断回归模型拟合程度优劣最常用的数量指标是可决系数(又称决定系数或判定系数)。可决系数是建立在对总离差平方和进行分解的基础上的。12/23/2022105②拟合程度的评价拟合程度,是指样本观测值聚集在样本回归线误差平方和回归平方和总离差平方和12/23/2022106误差平方和回归总离差平方和12/20/202234总离差平方和回归平方和残差平方和SST=SSR+SSE12/23/2022107总离差平方和回归平方和残差平方和SST=SSR+SSE12/可决系数是对回归模型拟合程度的综合度量,可决系数越大,模型拟合程度越高。可决系数越小,则模型对样本的拟合程度越差。
可决系数12/23/2022108可决系数是对回归模型拟合程度的综合度量,可决系数越大,模型拟③显著性检验回归分析中的显著性检验包括两方面的内容:对各回归系数的显著性检验,通常采用t检验;对整个回归方程的显著性检验,通常采用在方差分析基础上的F检验。在一元线性回归模型中,由于只有一个解释变量,对回归系数的t检验与对整个方程的F检验是等价的。回归系数的显著性检验,就是根据样本估计的结果对总体回归系数的有关假设进行检验。
12/23/2022109③显著性检验回归分析中的显著性检验包括两方面的内容:12/总体分布形式检验统计量12/23/2022110总体分布形式检验统计量12/20/202238【例】对工业总产值与能源消耗量之间的回归系数进行显著性检验。
以上计算的t值远大于临界值,故拒绝原假设,接受备择假设,即认为能源消耗量对工业总产值的影响是显著的。12/23/2022111【例】对工业总产值与能源消耗量之间的回归系数进行显著④一元线性回归模型的估计与预测估计的前提:回归方程经过检验,证明X和Y的关系在统计上是显著相关的。点估计对于给定的X值,求出Y平均值的一个估计值或Y的一个个别值的预测值。区间估计对于给定的X值,求出Y的平均值的置信区间或Y的一个个别值的预测区间。12/23/2022112④一元线性回归模型的估计与预测估计的前提:回归方程经过检验点估计若x=80(十万吨),则:12/23/2022113点估计若x=80(十万吨),则:12/20/20224区间估计:对于给定的x=x0
,Y的1-置信区间为:12/23/2022114区间估计:对于给定的x=x0,Y的1-置信区间为区间估计:在置信度为1–α,自由度为n-2下的Yf预测区间为其中:
12/23/2022115区间估计:12/20/202243【例】当能源消耗量为800万吨时,计算置信度为95%的工业总产值的预测区间。12/23/2022116【例】当能源消耗量为800万吨时,计算置信度为95%的工业总三、多元线性回归分析总体回归函数:样本回归函数:在一元线性回归分析假定的基础上,追加一条:回归模型所包含的自变量之间不能具有较强的线性关系。标准假定:1、标准的多元线性回归模型12/23/2022117三、多元线性回归分析总体回归函数:样本回归函数:误差项的标准假定假定1:误差项的期望值为零:E(ut)=0。假定2:误差项的期望值为常数:Var(ut)=。假定3:误差项之间不存在序列相关,协方差为零:Cov(utus)=0(t≠s)。假定4:自变量是给定变量,与误差项线性无关。假定5:随机误差项服从正态分布。满足以上标准假定的一元线性回归模型,称为标准的一元线性回归模型。12/23/2022118误差项的标准假定假定1:误差项的期望值为零:E(ut二元线性回归模型
式中,为二元回归估计值;为x1和x2构成的平面在y轴上的截矩;和分别为y对x1和x2的回归系数。二元直线回归模型12/23/2022119二元线性回归模型二元直线回归模型12/20/202247确定、、数值用最小二乘法,即选取、和的数值使得
二元直线回归的估计【例】为最小值,根据数学中的极值原理可推导出标准方程组:12/23/2022120确定、、数值用最小二乘法,即选取结果表明,其他条件不变时,销售额每增加10000元,利润将增加1056元,流通费用每增加10000元,利润将减少9557元.建立二元直线回归方程为:解得:将推算结果代入标准方程组,得:
12/23/2022121结果表明,其他条件不变时,销售额每增加10000元,利润将增多元线性回归模型的估计同样可采用最小二乘法,设:对,,,求偏导数,令其为零,可以得
到标准方程组:12/23/2022122多元线性回归模型的估计同样可采用最小二乘法,设:12/20/标准方程组:12/23/2022123标准方程组:12/20/202251多元线性回归模型的矩阵形式12/23/2022124多元线性回归模型的矩阵形式12/20/202252总体回归函数:样本回归函数:标准方程组:由标准方程组,可得回归系数的估计:12/23/2022125总体回归函数:样本回归函数:标准方程组:由标准方程组,可得回多元线性回归模型总体方差的估计标准的多元线性回归模型中,高斯-马尔可夫定理同样成立。S2的正平方根S为回归估计标准误差12/23/2022126多元线性回归模型总体方差的估计标准的多元线①拟合程度的评价:一元线性回归分析中总离差平方和的分解公式依然成立。多元线性回归模型的检验和预测
注意:
在样本容量一定的条件下,总离差平方和与自变量的个数无关,而残差平方和则会随着模型中自变量个数的增加不断减少,至少不会增加。12/23/2022127①拟合程度的评价:一元线性回归分析中总离差平方和的分解公式依修正自由度的可决系数考虑到SSE受自变量个数的影响,对可决系数进行修正:12/23/2022128修正自由度的可决系数考虑到SSE受自变量个数的影响,多元回归模型的显著性检验回归系数的显著性检验t检验,检验与各回归系数对应的自变量对因变量的影响是否显著,以便对自变量的取舍作出正确的判断。一般来说,当发现某个自变量的影响不显著时,应将其从模型中删除。回归方程的显著性检验F检验,检验回归模型总体函数的线性关系是否显著。其实质就是判断回归平方和与残差平方和之比值的大小问题。12/23/2022129多元回归模型的显著性检验回归系数的t检验,检验与各回归系数对回归方程的显著性检验——F检验1。建立假设:
H0:====04。判断:若,拒绝原假设;若,接受原假设。SST=总离差平方和SSE/(n-k)n-kSSE=
残差平方和SSR/(k-1)k-1SSR=回归平方和方差自由度平方和离差名称2。进行方差分析,列出方差分析表:3。计算检验统计量:12/23/2022130回归方程的显著性检验——F检验1。建立假设:4。判断:多元回归预测多元线性回归预测与一元线性回归预测的原理是一致的。基本公式为:
式中,Xjf(j=2,3,……k)是给定的Xj在预测期的具体数值;是已估计出的样本回归系数;是Xj给定时Y的预测值。12/23/2022131多元回归预测多元线性回归预测与一元线性回归预测的原理是一致的四、非线性回归分析非线性回归模型的确定:选择非线性函数的具体形式。非线性回归函数有多种多样的具体形式,需要根据所要研究的问题的性质并结合实际的样本观测值作出恰当的选择。确定估计函数中的参数。最常用的方法仍然是最小二乘估计法。
当自变量与因变量存在某种曲线相关关系时,可拟合曲线回归模型。12/23/2022132四、非线性回归分析非线性回归模型的确定:当自变量与因变量存在非线性回归模型的确定
方程形式应与相应的基本理论相一致。方程有较高的拟合程度。方程的数学形式要尽可能简单。
基本原则12/23/2022133非线性回归模型的确定方程形式应与相应的基本理论相一致。基常用非线性回归模型抛物线函数模型
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 四季度工作安排领导讲话三篇
- 生产专利许可使用合同(33篇)
- 有关文明养犬倡议书范文(31篇)
- 感恩教育300字心得体会(35篇)
- 21.2.2 二次函数y=ax2+bx+c的图象和性质 同步练习
- 江苏省苏州市姑苏区2024-2025学年八年级上学期期中考试历史卷(含答案)
- 湖南省衡阳市2024-2025学年高一上学期期中物理试题(无答案)
- 广西玉林市2024-2025学年八年级上学期期中教学质量监测物理试卷
- (教研室)山东省临沂市费县2024-2025学年七年级上学期期中考试生物试题
- 2022年高考语文复习专项训练:论述类文本阅读
- 车队车辆挂靠合同模板
- 期中 (试题) -2024-2025学年人教PEP版英语四年级上册
- 动物疫病防治员(高级)理论考试题及答案
- 跨境电商行业研究框架专题报告
- 提升初中生英语写作
- 2024年深圳市优才人力资源有限公司招考聘用综合网格员(派遣至吉华街道)高频500题难、易错点模拟试题附带答案详解
- 湖北省襄阳市2023-2024学年六年级上学期语文期中考试试卷(含答案)
- 2024年国家基本公卫培训考核试题
- 教科版物理八年级上册教案(全册)
- 电阻的实验报告
- JGJ58-2008 电影院建筑设计规范
评论
0/150
提交评论