版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第七讲多元线性回归分析一、线性回归分析的基本概念与步骤研究者面对庞大的原始数据,需要以多种方式提炼信息。数据信息的提取方法包括频数表、均值与方差分析等。回归方法也是浓缩数据的一种统计技术。回归分析是将观察值分成两部分建立模型:Observed=Structural+Stochastic
其中,观察值(observed)代表因变量的实际值,结构部分(Structural)代表因变量和自变量之间的关系,随机部分(Stochastic)是不能被结构部分所解释的随机成分。随机部分又可以划分为三部分内容:1)省略的结构因子;2)测量误差;3)“噪声”。在社会科学研究中,由于我们不可能掌握所有影响因变量的因素,省略一些结构因子是不可避免的。测量误差是指数据在调查、记录或测量中的不精确。噪声反映了抽样随机误差。如何解释回归模型呢?有二种不同的概念体系。(1)Observed=TrueMechanism+Disturbance
(2)
Observed=Summary+Residual第一种解释与传统计量经济学的观点一致,研究者的目标就是去找一个能够更好拟合数据的模型,据以揭示数据的关系。第二种解释与当代计量经济学和统计学的观点一致,即如果两个模型同样能够反映被观察的事实,我们应该选择较简单的模型。该原则强调模型要能够总结出数据的本质特征。第二种解释不同于第一种解释的核心是该解释更加关注模型是否揭示事实或反映理论。
线性回归分析的基本步骤:(1)从理论出发确定回归方程中的自变量与因变量。(2)从样本数据出发确定自变量和因变量之间的数学关系式,即建立回归方程。(3)对回归方程进行各种统计检验。(4)利用回归方程进行解释或预测现象。在进行回归分析时,这四个基本步骤的第一步是由研究者自己确定的,第二步和第三步可由统计软件自动完成,第四步需要研究者结合理论进行解释与分析。二、线性回归模型的构造回归模型由三类变量组成:因变量,一组自变量,随机误差。假定自变量与因变量之间关系特征是线性的,需要估计未知参数和系数。线性模型用符号表示为:例如:职业声望=+1Education+2ParentsEducation+三、线性回归模型的基本假定(1)线性性:yi与xi通过参数i建立线性关系。(2)独立性:变量xi之间是相互独立的。(3)误差项的条件均值为0,即该假定可以进一步引申为:(4)同方差性:对于任意给定的xi,误差项有相同的方差:(5)误差的独立性:误差项与自变量不相关;误差项之间不相关,即对于两个观察值i和j,其误差项的协方差为0。(6)正态性:误差项被看作是许多不被观察因素的联合效果,因此可以认为误差项是在x条件下的正态分布。四、线性回归模型的估计最小二乘法回归分析的主要任务就是要建立能够近似反映真实总体特征的样本回归函数。在根据样本资料确定回归方程时,总是希望Y的估计值尽可能地接近实际观察值,即残差项的总量越小越好。由于残差项有正有负,简单的代数加减会相互抵消,因此,为了数学上便于处理,通常采用残差平方和作为衡量总偏差的尺度。所谓最小二乘法就是根据这一思路,通过使残差平方和为最小来估计回归系数的一种方法。根据微积分中求极小值的原理,可知Q存在极小值,欲使Q达到最小,Q对1和2的偏导数等于零例1、以食品支出与收入关系为例,说明一元线性回归系数估计值的具体计算过程。编号XYXY11020270275400104040072900296026024960092160067600397025024250094090062500410202802856001040400784005910270245700828100729006158036056880024964001296007540190102600291600361008830260215800688900676009123031038130015129009610010106031032860011236009610011129034043860016641001156001213803805244001904400144400138102702187006561007290014920280257600846400784001564020012800040960040000合计1516042304463200163654001231100解得:
=4230÷15-0.1802×15160÷15=100.08元样本回归方程为:上式中:0.1802表示收入每增加1元,食品支出会增加0.1802元;100.08表示即使在收入为0的情况下,食品支出也需要100元。五、回归系数的解释
回归系数具有“偏”或“边际”的意义这里的“偏”或“边际”是指在其他变量保持不变的情形下,y对x线性关系的斜率。由于模型是线性的,偏回归系数是一常数。六、线性回归方程的统计检验1、决定系数R方——拟合优度检验用于检验一个解释性或者预测性的方程效果如何,所得到的回归方程在多大程度上解释了因变量的变化,或者说方程对观察值的拟合程度如何。如何理解拟合优度检验呢?如果没有回归方程,对y的估计只能采用其平均值进行估计。例如,15个人的月食品支出的均值=(1/15)ΣYi=280,用它估计第10个人的食品支出,误差为:
=310-280=30
元
如果应用收入信息并借助回归方程估计食品支出,第10个人的收入为1060元,由回归方程式,有:
=100.08+0.1802×1060=291.3于是用估计第10人y的误差为:
=310-291.3=18.7
解释y均值的部分为
=291.3-280=11.3增加了解释变量后,减少了对y的预测误差。上面三式可写为:
可以证明:对n个观察值而言,TSS=为总平方和RSS=为回归平方和ESS=为残差平方和总平方和可以分解为两部分:第一部分残差平方和ESS,它是由观察值没有落在回归面而引起的,是除了x1,x2…Xk
对y影响之外的一切因素对y总平方和的作用,我们希望残差平方和越小越好。
第二部分是回归平方和RSS,它是由x的变化而引起的,反映了由于x与y的线性关系而产生的y的变化,是回归方程所能解释的部分,我们希望回归平方和越大越好。用一个指标来表示回归平方和占总平方和的比例,即决定系数。
复相关系数等于决定系数的平方根。所以复相关系数和偏相关系数也可配合决定系数来进行检验。复相关系数R反映因变量与自变量之间的相关程度,而决定系数反映自变量对因变量的解释程度。复相关系数和决定系数从两个角度来刻画y与x的关系程度。偏相关系数可以检验在控制了其他变量后,某一变量xi与y是否确有相关关系及关系的强弱,是研究与判断变量是否重要的尺度。2、总体回归方程的显著性检验检验回归方程就是检验样本y与x1,x2,…,xk的线性关系是否显著,即判断能否肯定总体回归系数中至少有一个不等于0。原假设H0:B1=B2=……=Bk=0
备择假设为H1:至少有一个Bj≠0(j=1,2,…,k)
通过样本统计量的检验,如果H0被接受,则认为Y与X1,…,Xk的线性关系不显著;反之,则拒绝H0,接受H1,即认为Y与方程中的变量存在显著的线性关系,称方程是显著的。检验统计量是F检验,F检验的计算需借助回归方差分析表。回归方差分析表来源自由度DF平方和SUMOFSQUARES均方和MEANSQUAREF值显著性水平SIGNIFF回归REGRESSIONkRSSRSS/kF的概率α余差RESIDUALn-k-1ESSESS/(n-k-1)总n-1TSS3、回归方程的系数检验
(1)t检验当回归方程检验显著时,便可认为回归方程中至少有一个回归系数是显著的,但是并不一定所有的回归系数都是显著的,我们希望在方程中保留最重要的变量,删除不显著的变量,为此必须对每个变量的回归系数进行t检验。假设:H0:Bj=0;H1:Bj≠0
当统计性不显著,便接受H0,认为总体中变量Xj与Y的线性关系不显著,进而从回归方程中删除Xj。反之,便拒绝H0,即认为总体回归系数Bj与0有显著差别。在回归分析的假设条件下,检验公式为:其中s为b的标准误,服从t分布。将计算的P值与事先确定的显著水平α比较,便可决策取舍H0。当P<α时拒绝H0,认为回归系数在α水平上统计显著;否则接受H0。(2)回归系数不显著的原因
a、样本量太小,或者变量个数较多,使n-k变小,从而使Sj增大,t值变小。
b、xj与方程中的其他变量线性相关。当自变量之间的相关系数增大时,也使Sj变大。
C、y与xj虽然关联,但却是非线性关系。
d、y与xj确实不存在显著的线性关系,至少在样本xj的变化范围内如此。因此,增加样本量、扩大Xj的变化范围以及在方程中减少与xj高度相关的变量,就有可能改善xj与y的线性关系的显著程度。4、标准化回归系数在多元回归分析中,一个经常遇到的问题是如何判别在所考察的因素中,哪些是影响y的主要因素,哪些是次要因素。为了分清k个自变量对y的影响的主次关系,一个自然的想法是比较各个因素的回归系数b1,b2,…bk绝对值的大小。但是将这些回归系数直接进行比较是不行的,因为它们的值分别与各个变量所取的单位有关。在测量单位不一致时,便不存在可比性。如果先将所有自变量Xj和因变量Yj进行标准化,取得标准化变量:如果先将所有自变量Xj和因变量Yj进行标准化,取得标准化变量:再进行回归便可以得到标准化回归方程:因为z变量是无量纲变量,所以它们的回归系数βj称为标准化回归系数,表示当其它变量不变时,xj变化一个标准差单位,y的标准差的平均变化。由于标准化消除了原来自变量不同的测量单位,于是βj之间可以互相比较,它们的绝对值的大小就代表了各自对y作用的大小。5、多重共线性检验在多元回归模型参数b的求解过程中,要求自变量x1,x2,…,xk线性无关,才可求出各个参数的唯一解。如果在回归方程:当x1、x2完全线性相关,方程就会有许多解,从而无法用最小二乘法求出唯一b的估计值。在大多数社会经济变量中,总是或多或少有部分相关。当自变量之间高度相关时,回归方程中的自变量就会互相削弱各自对y的边际影响,使本身的回归系数的数值下降而其标准误扩大,于是就会出现回归方程整体显著,但各个自变量都不显著的现象,这种现象称为多重共线性。当多重共线性发生时,方程的回归系数是不可靠的。如何判断和检验方程中存在多重共线性?A.方程中因变量与自变量的相关系数很高,但自变量的回归系数均不显著;B.自变量之间的相关系数很高;C.分别构造不含某一自变量的k-1回归模型,将它们与包括所有自变量的回归模型进行比较,若两个模型的相关系数很接近,就表明该变量对与解释y是多余的。多重共线性可以通过自变量的容忍度(tolerance)、方差膨胀因子(VIF)等指标来衡量。容忍度是指如果某个自变量与其他自变量有较小的复相关系数,那么其有较大的容忍度。容忍度的倒数称为方差膨胀因子。
七、非线性回归模型的变量转换
其中G是Y的函数,G=G(Y);U1,U2,…Uk是X1,X2…,Xk的一般函数,一个模型写成上式,就可以用前述方法求解出参数估计b0,b1,b2……bk。下面是几个变量变换的例子。1、乘法模型:两边取自然对数,得到:ln(Y)=ln(B0)+B1ln(X1)+B2ln(X2)+…Bkln(Xk)+ln(ε)2、多项式模型3、指数模型1:
两边取自然对数,有:4、指数模型2:
例2、已知统计资料如表所示,试根据表中资料,以每个居民的月平均收入(百元)和A商品的价格(10元)为自变量,拟合乘法模型形式的A商品需求函数。并利用以上建立的样本回归方程,预测居民人均收入为2200元、商品单价为0.50元时的A商品需求量。年次12345678910销售量Y(百件)10101513142018241923居民人均收入X2(百元)578991010121315单价X3(10元)2325434354解:(1)需求函数的乘法模型如下:利用双对数变换法,同时加入随机误差项,可得以下线性回归函数:其中1=ln(a),2=b2,3=b3
对上表给出的销售量Y、居民人均收入X2和
商品价格X3,求自然对数可得:年次Yt*X2t*X3t*12.30261.60490.693122.30261.94591.098632.70812.07940.693142.56492.19721.609452.63912.19721.386362.99572.30261.098672.89042.30261.098683.17812.48491.098692.94442.56491.6094103.13552.70811.38632.487.70-2.80F=33.60
=0.89由上式可知:居民收入的需求弹性约为1.16,而价格的需求弹性约为-0.4。在其他情况不变得条件下,居民人均收入每增加1%会使A商品的需求增加1.16%,价格每提高1%,会使A商品需求减少0.4%。(2)预测。将前面给出的居民收入(2200元)和价格(0.5元)代入该式,可得:(百件)八、自变量为定类变量的回归模型在社会科学研究中,有许多定类变量,比如地区、职业、性别、民族和居住地等,我们也可以应用它们的信息进行线性回归,用以解释y的变化。但是必须先将定类变量转换为虚拟变量,然后再将它们引入回归方程,所得到的回归结果才有明确的解释意义。1、虚拟变量的建立设X是有k分类的名义变量,在数据处理时以不同的编码值代表案例所属的类型。因为定类变量的各类根本没有定量关系,不能像定距变量的那样,分析x变化一个单位,y的平均变化。因此,必须以类为单位,分析各类变化对y的影响。用取值为0和1的变量代表不同类别的属性,这在统计学上被称为虚拟变量(dummyvariable)。当案例属于虚拟变量所代表的一个类别时,这个虚拟变量就赋值为1,否则便赋值为0。例如,我们要分析妇女的年龄(AGE)、文化程度(EDU)及居住地(AREA)的状况对其曾生子女数(CEB)的影响。这里的年龄是定距变量,文化程度和居住地是定类变量。其中文化程度共有5类,原变量用编码数字1至5代表,分为文盲或半文盲(1)、小学(2)、初中(3)、高中(4)和大学(5),需要设置四个虚拟变量加以表示。居住地只分为城市(1)和农村(2)两类,因此只需设一个虚拟变量。在受教育程度中取文盲或半文盲为参照类,用DE2、DE3、DE4、DE5分别表示小学、初中、高中和大学;在居住地中取农村为参照类,DU表示居住在城市。根据原变量的编码形成相应虚拟变量时的赋值操作规则如下:原变量编码值虚拟变量赋值操作EDU=1(文盲)所有DEi=0EDU=2(小学)DE2=1,其他DEi=0EDU=3(初中)DE3=1,其他DEi=0EDU=4(高中)DE4=1,其他DEi=0EDU=5(大学)DE5=1,其他DEi=0AREA=1(城市)DU=1AREA=2(农村)DU=0例如:不同年龄、受教育程度和居住地妇女曾生子女数的样本数据原变量值设立的虚拟变量值CEBAGEEDUAREADE2DE3DE4DE5DU12031010011224200100224320100012551000111285100011230420010023251000112345200010根据原变量值建立虚拟变量的工作可以应用SPSS数据转换功能RECORD来完成。利用上表数据建立回归方程:回归结果如下(回归系数下括号内为t检验的概率值)(0.00)(0.01)(0.01)(0.01)(0.01)(0.02)
方程的R方为0.96,各变量的回归系数均在0.05显著。回归结果显示,参照类妇女曾生子女数对年龄的回归直线的截矩为1.41,年龄每上升1岁,参照类妇女的平均曾生子女数上升0.068个;城市妇女比农村妇女的平均曾生子女数少0.49个;小学、初中、高中和大学文化程度妇女的曾生子女数分别比文盲、半文盲妇女平均少1.13、1.31、1.58和1.57个。2、虚拟变量回归系数的意义1)、在两个定类变量都属于参照类时,即本例当受教育程度为文盲或半文盲、居住地为农村时,所有虚拟变量都取值0,回归方程可以简化为:上式为参照类妇女的曾生子女数对年龄的回归直线,bo为直线的截矩,b1为直线的斜率,表示所有参照类妇女年龄每上升1岁,她们曾生子女数的平均变化。
2)、当受教育程度为小学,居住地为农村时,方程为:
(DE2=1,DE3=DE4=DE5=0,DU=0)
本式较上式,截矩项增加了b2,因此b2为小学文化程度妇女比文盲、半文盲妇女曾生子女数高的部分(对于相同的年龄和居住地而言)。
3、回归方程中只含一个虚拟变量
在只有一个虚拟变量的回归方程中,由于没有其他变量,各回归系数表现得十分单纯,回归常数项b0就是参照类各案例的平均值。比如,只纳入代表教育程度的四个虚拟变量DE2、DE3、DE4、DE5的回归模型的回归结果为:(.03)(.00)(.00)(.00)R=0.786,F=10.079,P=0.0011
本例中b0=4.5即为两个文盲、半文盲案例的CEB值4和5的平均值。回归常数项为4.5,说明样本中文盲、半文盲妇女平均曾生子女数很多。其他教育水平类的平均值则通过参照类平均值加上相应系数值来表示,比如小学水平的妇女平均生育3个孩子,大学水平的妇女生育1.5个孩子。实际上,这一方程可以再现样本按教育程度分类的类平均值。
4、回归方程中含有两个虚拟变量
如果一个回归分析中含有两个因素形成的虚拟变量,如将代表教育程度和城乡的所有虚拟变量纳入回归分析,这一回归分析不仅要考虑两个变量各自对CES的影响,而且要考虑二者交互作用的影响。交互作用以两个因素的各项虚拟变量相乘得到。如:DEiDU=DEi×DU,其中i代表EDU形成的虚拟变量的序号。我们可以在SPSS数据窗口的Transform菜单中用Compute命令建立这些交互作用虚拟变量。得到的回归方程为:R=0.826,F=9.463,P=0.00155、采用虚拟变量的回归分析检验在回归分析中采用虚拟变量,无论是对整个模型的检验(F检验)还是对各回归系数的检验(t检验),与一般回归分析完全没有区别。在有虚拟变量的回归分析中,整体模型检验的假设为:
H0:B1=B2=…Bk=0H1:B1,B2,…,Bk中至少有一个不等于0
这与一般回归整体检验的形式和意义完全一样。在有虚拟变量的回归分析中,单个回归系数检验的假设为:
H0:Bj=0H1:Bj≠0
对于定距变量,这一假设以Bj是否为0来体现作用是否显著。对于虚拟变量,由于取值只能是0和1,所以检验的只是取值1的类别的平均值是否与参照类(所有虚拟变量取值0)的平均值有显著差异。比如在
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- DB37T 4791-2024煤矿井下超大断面硐室施工技术规范
- 江西省丰城市第九中学2025届高三(复读班)上学期第三次段考政治试卷(含答案)
- 读书社团活动策划(9篇)
- 歌颂教师主题演讲稿三分钟歌颂教师的主题集合4篇
- 光船租赁合同(2篇)
- 《职场沟通》电子教案 项目五 职场沟通中的礼仪准备
- 2025年紫外光固化油墨合作协议书
- 2025年付里叶红外分光光度计项目合作计划书
- 2025年低温超导材料项目发展计划
- 卖车场地租赁协议
- 危险源辨识及分级管控管理制度
- GB/T 19752-2024混合动力电动汽车动力性能试验方法
- 和员工签股权合同范本
- 07FD02 防空地下室电气设备安装
- 《工程伦理》题集
- 江苏2024年江苏省新闻出版学校招聘人员笔试历年典型考题及考点附答案解析
- 四川省成都市2023-2024学年高二历史上学期期末联考试题
- 河北省2024届高三大数据应用调研联合测评(Ⅵ)英语试题含答案
- 成人手术后疼痛评估与护理-中华护理学会团体标准(2023)课件
- 《金属基增容导线技术条件+第2部分:铝包殷钢芯耐热铝合金绞线》
- 园艺植物栽培学智慧树知到期末考试答案章节答案2024年浙江农林大学
评论
0/150
提交评论