实验四线性回归分析_第1页
实验四线性回归分析_第2页
实验四线性回归分析_第3页
实验四线性回归分析_第4页
实验四线性回归分析_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一、实验目的掌握spss绘制散点图和计算相关系数的方法掌握回归分析的一般步骤和回归的统计检验(包括回归方程的拟合优度检验、回归方程的显著性检验、回归系数的显著性检验和残差分析)实验四线性回归分析共62页,您现在浏览的是第1页!二、实验内容1、练习教材中P264案例8-1,通过绘制散点图,分析家庭收入与打算购买的住房面积存在怎样的统计关系,数据文件为“住房状况调查.sav”实验四线性回归分析共62页,您现在浏览的是第2页!图形→旧对话框→散点图→简单分布→定义→把计划面积放入Y轴;家庭收入放入X轴→确定→查看输出窗口→说明大部分的数据点集中在一定区域中,有少部分数据点“脱离”整体数据较远,家庭收入与计划购买住房面积之间存在一定正的弱相关。实验四线性回归分析共62页,您现在浏览的是第3页!分析→相关→双变量→把家庭收入、计划面积放入变量框→确定→查看输出窗口→家庭收入与计划面积的简单相关系数为0.323,存在弱的正相关。P=0<0.01=α,认为两总体不是零相关。实验四线性回归分析共62页,您现在浏览的是第4页!分析→回归→线性→把课题总数放入因变量框;把投入人年数、投入高级职称的人数、投入科研事业费、专著数、论文数、获奖数放入自变量框→方法点进入→点统计量→选共线性诊断→继续→确定→查看输出窗口→由于该方程中含有多个变量,所以看调整R方=0.924,拟合优度较高,被解释变量可以被模型解释的部分较多,不能被解释的部分较小。实验四线性回归分析共62页,您现在浏览的是第5页!1、容忍度是测量解释变量间多重共线性的重要统计量。容忍度的取值范围在0~1之间,越接近于0表示多重共线性越强;越接近于1表示多重共线性越弱。2、方差膨胀因子方差膨胀因子是容忍度的倒数,方差膨胀因子的取值大于等于1。通常,如果膨胀因子大于等于10,说明解释变量xi与方程中其余解释变量之间有严重的多重共线性。3、特征根和方差比

特征根是诊断解释变量间是否存在严重的多重共线性的另一种有效方法。最大特征根的值远远大于其他特征根的值,则说明这些解释变量间具有相当多的重叠信息,原因是仅通过这一个特征根就基本刻画出了所有解释变量的绝大部分信息。解释变量标准化后它的方差为1。如果某个特征根既能够刻画某解释变量方差的较大部分(0.7以上),同时又可以刻画另一根解释变量方差的较大部分,则说明这两个解释变量间存在较强的线性相关关系。4、条件指数条件指数反映解释变量间多重共线性的指标。当0<=Ki<10时,多重共线性较弱;当10<=Ki<100时,认为多重共线性较强;Ki>=100时,认为多重共线性很强。实验四线性回归分析共62页,您现在浏览的是第6页!拟合优度的检验:经过六步,完成回归方程的建立,最终为第六个模型。随着解释变量的不断减少,方程的拟合优度下降了。说明建立回归方程并不是一味追求高的拟合优度为唯一目标的,还要重点考察解释变量是否对被解释变量有贡献。方程的DW检验值为1.747,残差存在一定程度的正自相关。(P296)实验四线性回归分析共62页,您现在浏览的是第7页!第六个模型:P=0<α=0.05,说明投入人年数与被解释变量间的线性关系显著,它保留在模型中是合理的。最终方程是立项课题数=-94.524+0.492投入人年数意味着投入人年数每增加一个单位会使立项课题数增加0.492个单位。注:通常情况下,即使常数项在模型中不显著,我们也会在模型中保留,去掉它会对模型带来不利的影响。实验四线性回归分析共62页,您现在浏览的是第8页!分析→回归→线性→绘制→选正态概率图→继续→确定→查看输出窗口→数据点围绕基准线还存在一定的规律性。实验四线性回归分析共62页,您现在浏览的是第9页!分析→回归→线性→绘制→把ZRESD放入Y轴、ZPRED放入X轴;继续→确定→查看输出窗口→随着标准化预测值的变化,残差点在0线周围随机分布,但残差的等方差性并不完全满足,方差似乎有增大的趋势。分析→回归→线性→保存→在残差中选标准化,在预测值中选标准化→继续→确定→分析→相关→双变量→把预测值和残差值选到变量窗口,相关系数选spearman→确定→查看输出窗口→说明残差与预测值的spearman等级相关系数为-0.176,且P=0.344,检验不显著,因此认为异方差现象并不明显。实验四线性回归分析共62页,您现在浏览的是第10页!*4、练习教材中P320案例9-2、案例9-3,了解曲线估计的一般原理和操作方法。对应的数据文件为“年人均消费支出和教育.sav”。实验四线性回归分析共62页,您现在浏览的是第11页!散点图:图形→旧对话框→散点图→简单分布→定义→教育支出放Y轴,年人均消费性支出放X轴→确定→查看输出窗口→说明两变量之间呈非线性关系,可尝试二次曲线、三次曲线、复合函数、幂函数模型。实验四线性回归分析共62页,您现在浏览的是第12页!有12个缺失值实验四线性回归分析共62页,您现在浏览的是第13页!复合函数的拟合优度高于幂函数,值的增长速度高于幂函数,从居民消费未来趋势看,教育支出将可能占消费性支出的较大比例,并呈快速增长的趋势,因此,采用复合函数。方程是教育支出=20.955×1.0004年人均消费性支出实验四线性回归分析共62页,您现在浏览的是第14页!案例9-3收集到1981-2002年居民在外就餐消费的数据,现希望对居民未来在外就餐的趋势进行分析和预测。数据“年人均消费支出和教育.sav”实验四线性回归分析共62页,您现在浏览的是第15页!分析→回归→曲线估计→因变量在外就餐;自变量年份→模型选指数分布,点保存,预测值,预测范围,观测值输入27→继续→确定→查看输出窗口实验四线性回归分析共62页,您现在浏览的是第16页!在外就餐的拟合回归线;2003,2004年的预测值分别为683.49853,797.2。实验四线性回归分析共62页,您现在浏览的是第17页!图形→散点→矩阵分布→把变量放入矩阵变量中→确定→从图中看它们之间都有一定的线性关系。不良贷款与贷款余额的线性关系比较密切,与固定资产投资最不密切。实验四线性回归分析共62页,您现在浏览的是第18页!分析→回归→线性→把不良贷款放入因变量;各项贷款余额放入自变量→确定→查看输出窗口→方程是不良贷款余额=-0.830+0.038各项贷款余额实验四线性回归分析共62页,您现在浏览的是第19页!分析→回归→线性→保存→选残差的标准化→图形→旧对话框→散点→简单分布→把残差放到Y轴,把贷款余额放入X轴→确定→查看输出窗口→如果误差项ɛ服从正态分布这一假设成立,那么标准化残差的分布也应服从正态分布。图中除一点外,标准化残差都在-2~+2之间,这表明误差项ɛ服从正态分布的假定成立。(所谓残差是指观测值与预测值(拟合值)之间的差,即是实际观察值与回归估计值的差。)异常点实验四线性回归分析共62页,您现在浏览的是第20页!11.1从某一行业中随机抽取12家企业,所得产量与生产费用的数据如下:⑴绘制产量与生产费用的散点图,判断二者之间的关系形态。⑵计算产量与生产费用之间的线性相关系数⑶对相关系数的显著性进行检验(α=0.05),并说明二者之间的关系强度。实验四线性回归分析共62页,您现在浏览的是第21页!r=0.92,P=0<α=0.05,拒绝原假设,表明产量与生产费用之间的线性关系显著。实验四线性回归分析共62页,您现在浏览的是第22页!正的线性相关关系实验四线性回归分析共62页,您现在浏览的是第23页!回归方程人均消费水平=734.693+0.309人均GDP回归系数0.309,表示人均GDP每增加一元,人均消费水平0.309元。实验四线性回归分析共62页,您现在浏览的是第24页!人均消费水平=734.693+0.309人均GDP=734.693+0.309*5000=2279.693实验四线性回归分析共62页,您现在浏览的是第25页!预测区间:=2279.693±697.8即(1581.893,2977.493)实验四线性回归分析共62页,您现在浏览的是第26页!航班正点率和投诉次数之间为负的线性相关关系实验四线性回归分析共62页,您现在浏览的是第27页!回归系数的检验:P=0.001<α=0.05,拒绝原假设,表明回归系数显著。实验四线性回归分析共62页,您现在浏览的是第28页!N=10,查t分布临界值表t0.05/2(10-2)=2.3060,残差sse=2853.816估计标准误差置信区间=54.109±2.3060x18.91x=54.109±16.5即置信区间为(37.609,70.609)实验四线性回归分析共62页,您现在浏览的是第29页!11.8下面是20个城市写字楼出租率和每平方米月租金的数据。设月租金为自变量,出租率为自变量,对结果进行分析和解释。实验四线性回归分析共62页,您现在浏览的是第30页!11.15随机抽取7家超市,得到其广告费支出和销售额数据如下:⑴用广告费用作自变量x,销售额作因变量y,求出估计的回归方程。⑵检验广告费支出与销售额之间的线性关系是否显著(α=0.05)?⑶绘制关于x的残差图,你觉得关于误差项ɛ的假定被满足了吗?⑷你是选用这个模型,还是另寻一个更好的模型?实验四线性回归分析共62页,您现在浏览的是第31页!P=0.021<α=0.05,说明广告费用与销售额之间的线性关系显著。实验四线性回归分析共62页,您现在浏览的是第32页!2、根据教材P274“SPSS计算相关系数的基本步骤”,在练习1绘制散点图的基础上,对于案例8-1,练习通过计算相关系数,判定分析家庭收入与打算购买的住房面积之间相关关系的强弱。实验四线性回归分析共62页,您现在浏览的是第33页!3、练习教材中P309案例9-1,掌握线性回归分析的基本操作,理解回归参数的普通最小二乘估计的原理,掌握回归方程的拟合优度检验、回归方程显著性检验、回归系数显著性检验、残差分析的基本概念、原理和判断规则。数据文件为“高校科研研究.sav”实验四线性回归分析共62页,您现在浏览的是第34页!回归方程的显著性检验:P=0<α=0.05应拒绝原假设,认为各回归系数不同时为0,被解释变量与解释变量全体的线性关系是显著的,可建立线性模型。回归系数显著性检验:有的P>α=0.05,因此不拒绝原假设,认为这些偏回归系数与0无显著差异,它们与被解释变量的线性关系是不显著的,不应保留在方程中。从容忍度和方程膨胀因子看,投入高级职称的人年数与其他变量的多重共线性很严重,可考虑剔除该变量。第七个特征根既能解释投入人年数方差的84%,也能解释高级职称的人年数方差的98%,还可以解释专著数方差的44%,这些变量存在多重共线性;5,6,7条件指数都大于10。特征根条件指数方差比(比例之和等于1)实验四线性回归分析共62页,您现在浏览的是第35页!分析→回归→线性→把课题总数放入因变量框;把投入人年数、投入高级职称的人数、投入科研事业费、专著数、论文数、获奖数放入自变量框→方法点向后→点统计量→选共线性诊断、残差的Dubin-Watson→继续→确定→查看输出窗口实验四线性回归分析共62页,您现在浏览的是第36页!最终方程为第六个:P=0<α=0.05,被解释变量与解释变量间的线性关系显著,建立线性模型是恰当的。实验四线性回归分析共62页,您现在浏览的是第37页!变量的剔除过程,在模型三中,剔除专著数的情况下,如果保留投入高级职称的人年数,那么它的标准化回归系数是-0.439,但P=0.343>α,回归系数的检验不显著;同理,剔除高级职称的人年数,如果保留专著数,那么它的标准化回归系数是-0.103,但P=0.559>α,回归系数的检验不显著。实验四线性回归分析共62页,您现在浏览的是第38页!分析→回归→线性→保存,选残差中的标准化→继续→确定→分析→非参数检验→1样本k-s(1)→把standardizedresidual放入检验变量列表→确定→查看输出窗口→P=0.809,表明标准化残差和标准正态分布不存在显著差异,可以认为残差满足了线性模型的前提要求。单样本柯尔莫哥洛夫-斯米诺夫检验实验四线性回归分析共62页,您现在浏览的是第39页!分析→回归→线性→保存,选距离中cook距离,杠杆值→继续→确定→查看输出窗口→没有发现强影响点。(库克距离大于1对应的解释变量为强影响点。杠杆值越高,对应的解释变量就越可能是强影响点)实验四线性回归分析共62页,您现在浏览的是第40页!案例9-2收集到1990-2002年全国人均消费性支出和教育支出的数据,希望对居民家庭教育支出和消费性支出之间的关系进行研究。文件名“年人均消费支出和教育.sav”实验四线性回归分析共62页,您现在浏览的是第41页!分析→回归→曲线估计→因变量教育支出;自变量年人均消费性支出→模型选二次项,立方,复合,幂→确定→查看输出窗口实验四线性回归分析共62页,您现在浏览的是第42页!由于二次曲线年人均可支配收入的回归系数为负值,与实际情况不吻合,因此不采纳。三次曲线回归系数的显著性检验P=0.374>α=0.05,回归系数不显著的解释变量,因此,该模型不采用。实验四线性回归分析共62页,您现在浏览的是第43页!复合函数、幂函数的拟合回归线,说明复合函数拟合高于幂函数。实验四线性回归分析共62页,您现在浏览的是第44页!分析→预测→序列图→把在外就餐放入变量框,把年份放入时间轴标签→确定→查看输出窗口→大致呈指数形式,可利用曲线估计进行分析。实验四线性回归分析共62页,您现在浏览的是第45页!拟合优度R方=0.938,比较理想;回归方程显著的显著性检验:P=0<0.05,通过检验;回归方程系数的显著性检验:P=0<0.05,通过检验,说明模型可用;回归方程是在外就餐=12.522*e0.154个案顺序实验四线性回归分析共62页,您现在浏览的是第46页!二、实验作业:一家大型商业银行在多个地区设有分行,其业务主要是进行基础设施建设、国家重点项目建设、固定资产投资等项目的贷款。近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的增长,这给银行业务的发展带来较大压力。为弄清楚不良贷款形成的原因,管理者希望利用银行业务的有关数据做些定量分析,以便找出控制不良贷款的办法。该银行所属的25家分行2002年的有关业务数据是“例11.6.xls”。试绘制散点图,并分析不良贷款与贷款余额、累计应收贷款、贷款项目个数、固定资产投资额之间的关系;计算不良贷款、贷款余额、累计应收贷款、贷款项目个数、固定资产投资额之间的相关系数;求不良贷款对贷款余额的估计方程;检验不良贷款与贷款余额之间线性关系的显著性(α=0.05);回归系数的显著性(α=0.05);绘制不良贷款与贷款余额回归的残差图。实验四线性回归分析共62页,您现在浏览的是第47页!分析→相关→双变量→把要分析的变量放入变量框中→确定→查看输出窗口→不良贷款与其他变量都属于正线性相关关系,其中与各项贷款余额最密切(r=0.844),与本年度固定资产最不密切(r=0.519)。实验四线性回归分析共62页,您现在浏览的是第48页!R方=0.712,通过拟合优度的检验;回归方程的显著性检验,P=0,拒绝原假设,变量之间存在显著的线性关系;回归系数的显著性检验P=0,拒绝原假设,自变量对因变量有显著影响,即两变量之间存在显著的线性关系。实验四线性回归分析共62页,您现在浏览的是第49页!2.练习《统计学》教材P330练习题11.1、11.6、11.7、11.8、11.15,对应的数据文件为“习题11.1.xls”、“习题11.6.xls”、“习题11.7.xls”、“习题11.8.xls”、“习题11.15.xls”。(任选两题)实验四线性回归分析共62页,您现在浏览的是第50页!正线性相关关系实验四线性回归分析共62页,您现在浏览的是第51页!11.6下面是7个地区2000年的人均国内生产总值(GDP)和人均消费水平的统计数据:⑴人均GDP作自变量,人均消费水平作因变量,绘制散点图,并说明二者之间的关系形态。⑵计算两个变量之间的线性相关系数,说明两个变量之间的关系强度。⑶利用最小二乘法求出估计的回归方程,并解释回归系数的实际意义。⑷计算判定系数,并解释其意义。⑸检验回归方程线性关系的显著性(α=0.05)⑹如果某地区的人均GDP为5000元,预测其人均消费水平。⑺求人均GDP为5000元时,人均消费水平95%的置信区间和预测区间。实验四线性回归分析共62页,您现在浏览的是第52页!R=0.998,相关系数接近于1,表明人均GDP与人均消费水平之间有非常强的正线性相关关系。实验四线性回归分析共62页,您现在浏览的是第53页!R方=0.996,表示在人均消费水平的变差中,有99.6%是由人均GDP决定的。F=1331.692,P=0,拒绝原假设,表明人均GDP与人均消费水平之间的线性关系显著。实验四线性回归分析共62页,您现在浏览的是第54页!N=7,查t分布临界值表t0.05/2(7-2)=2.5706,残差sse=305795估计标准误差置信区间=2279.693±2.5706x247.303x=2279.693±287.4即置信区间为(1992.293,2567.093)置信区间:实验四线性回归分析共62页,您现在浏览的是第55页!11.7随机抽取10家航空公司,对其最近一年的航班正点率和顾客投诉次数进行了调查,所得数据如下:⑴绘

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论