实验四线性回归分析课件_第1页
实验四线性回归分析课件_第2页
实验四线性回归分析课件_第3页
实验四线性回归分析课件_第4页
实验四线性回归分析课件_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一、实验目的掌握spss绘制散点图和计算相关系数的方法掌握回归分析的一般步骤和回归的统计检验(包括回归方程的拟合优度检验、回归方程的显著性检验、回归系数的显著性检验和残差分析)二、实验内容1、练习教材中P264案例8-1,通过绘制散点图,分析家庭收入与打算购买的住房面积存在怎样的统计关系,数据文件为“住房状况调查.sav”图形→旧对话框→散点图→简单分布→定义→把计划面积放入Y轴;家庭收入放入X轴→确定→查看输出窗口→说明大部分的数据点集中在一定区域中,有少部分数据点“脱离”整体数据较远,家庭收入与计划购买住房面积之间存在一定正的弱相关。分析→相关→双变量→把家庭收入、计划面积放入变量框→确定→查看输出窗口→家庭收入与计划面积的简单相关系数为0.323,存在弱的正相关。P=0<0.01=α,认为两总体不是零相关。3、练习教材中P309案例9-1,掌握线性回归分析的基本操作,理解回归参数的普通最小二乘估计的原理,掌握回归方程的拟合优度检验、回归方程显著性检验、回归系数显著性检验、残差分析的基本概念、原理和判断规则。数据文件为“高校科研研究.sav”分析→回归→线性→把课题总数放入因变量框;把投入人年数、投入高级职称的人数、投入科研事业费、专著数、论文数、获奖数放入自变量框→方法点进入→点统计量→选共线性诊断→继续→确定→查看输出窗口→由于该方程中含有多个变量,所以看调整R方=0.924,拟合优度较高,被解释变量可以被模型解释的部分较多,不能被解释的部分较小。1、容忍度是测量解释变量间多重共线性的重要统计量。容忍度的取值范围在0~1之间,越接近于0表示多重共线性越强;越接近于1表示多重共线性越弱。2、方差膨胀因子方差膨胀因子是容忍度的倒数,方差膨胀因子的取值大于等于1。通常,如果膨胀因子大于等于10,说明解释变量xi与方程中其余解释变量之间有严重的多重共线性。3、特征根和方差比

特征根是诊断解释变量间是否存在严重的多重共线性的另一种有效方法。最大特征根的值远远大于其他特征根的值,则说明这些解释变量间具有相当多的重叠信息,原因是仅通过这一个特征根就基本刻画出了所有解释变量的绝大部分信息。解释变量标准化后它的方差为1。如果某个特征根既能够刻画某解释变量方差的较大部分(0.7以上),同时又可以刻画另一根解释变量方差的较大部分,则说明这两个解释变量间存在较强的线性相关关系。4、条件指数条件指数反映解释变量间多重共线性的指标。当0<=Ki<10时,多重共线性较弱;当10<=Ki<100时,认为多重共线性较强;Ki>=100时,认为多重共线性很强。分析→回归→线性→把课题总数放入因变量框;把投入人年数、投入高级职称的人数、投入科研事业费、专著数、论文数、获奖数放入自变量框→方法点向后→点统计量→选共线性诊断、残差的Dubin-Watson→继续→确定→查看输出窗口拟合优度的检验:经过六步,完成回归方程的建立,最终为第六个模型。随着解释变量的不断减少,方程的拟合优度下降了。说明建立回归方程并不是一味追求高的拟合优度为唯一目标的,还要重点考察解释变量是否对被解释变量有贡献。方程的DW检验值为1.747,残差存在一定程度的正自相关。(P296)第六个模型:P=0<α=0.05,说明投入人年数与被解释变量间的线性关系显著,它保留在模型中是合理的。最终方程是立项课题数=-94.524+0.492投入人年数意味着投入人年数每增加一个单位会使立项课题数增加0.492个单位。注:通常情况下,即使常数项在模型中不显著,我们也会在模型中保留,去掉它会对模型带来不利的影响。变量的剔除过程,在模型三中,剔除专著数的情况下,如果保留投入高级职称的人年数,那么它的标准化回归系数是-0.439,但P=0.343>α,回归系数的检验不显著;同理,剔除高级职称的人年数,如果保留专著数,那么它的标准化回归系数是-0.103,但P=0.559>α,回归系数的检验不显著。分析→回归→线性→绘制→选正态概率图→继续→确定→查看输出窗口→数据点围绕基准线还存在一定的规律性。分析→回归→线性→绘制→把ZRESD放入Y轴、ZPRED放入X轴;继续→确定→查看输出窗口→随着标准化预测值的变化,残差点在0线周围随机分布,但残差的等方差性并不完全满足,方差似乎有增大的趋势。分析→回归→线性→保存→在残差中选标准化,在预测值中选标准化→继续→确定→分析→相关→双变量→把预测值和残差值选到变量窗口,相关系数选spearman→确定→查看输出窗口→说明残差与预测值的spearman等级相关系数为-0.176,且P=0.344,检验不显著,因此认为异方差现象并不明显。分析→回归→线性→保存,选距离中cook距离,杠杆值→继续→确定→查看输出窗口→没有发现强影响点。(库克距离大于1对应的解释变量为强影响点。杠杆值越高,对应的解释变量就越可能是强影响点)*4、练习教材中P320案例9-2、案例9-3,了解曲线估计的一般原理和操作方法。对应的数据文件为“年人均消费支出和教育.sav”。散点图:图形→旧对话框→散点图→简单分布→定义→教育支出放Y轴,年人均消费性支出放X轴→确定→查看输出窗口→说明两变量之间呈非线性关系,可尝试二次曲线、三次曲线、复合函数、幂函数模型。分析→回归→曲线估计→因变量教育支出;自变量年人均消费性支出→模型选二次项,立方,复合,幂→确定→查看输出窗口有12个缺失值复合函数的拟合优度高于幂函数,值的增长速度高于幂函数,从居民消费未来趋势看,教育支出将可能占消费性支出的较大比例,并呈快速增长的趋势,因此,采用复合函数。方程是教育支出=20.955×1.0004年人均消费性支出复合函数、幂函数的拟合回归线,说明复合函数拟合高于幂函数。分析→回归→曲线估计→因变量在外就餐;自变量年份→模型选指数分布,点保存,预测值,预测范围,观测值输入27→继续→确定→查看输出窗口拟合优度R方=0.938,比较理想;回归方程显著的显著性检验:P=0<0.05,通过检验;回归方程系数的显著性检验:P=0<0.05,通过检验,说明模型可用;回归方程是在外就餐=12.522*e0.154个案顺序在外就餐的拟合回归线;2003,2004年的预测值分别为683.49853,797.2。二、实验作业:一家大型商业银行在多个地区设有分行,其业务主要是进行基础设施建设、国家重点项目建设、固定资产投资等项目的贷款。近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的增长,这给银行业务的发展带来较大压力。为弄清楚不良贷款形成的原因,管理者希望利用银行业务的有关数据做些定量分析,以便找出控制不良贷款的办法。该银行所属的25家分行2002年的有关业务数据是“例11.6.xls”。试绘制散点图,并分析不良贷款与贷款余额、累计应收贷款、贷款项目个数、固定资产投资额之间的关系;计算不良贷款、贷款余额、累计应收贷款、贷款项目个数、固定资产投资额之间的相关系数;求不良贷款对贷款余额的估计方程;检验不良贷款与贷款余额之间线性关系的显著性(α=0.05);回归系数的显著性(α=0.05);绘制不良贷款与贷款余额回归的残差图。图形→散点→矩阵分布→把变量放入矩阵变量中→确定→从图中看它们之间都有一定的线性关系。不良贷款与贷款余额的线性关系比较密切,与固定资产投资最不密切。分析→相关→双变量→把要分析的变量放入变量框中→确定→查看输出窗口→不良贷款与其他变量都属于正线性相关关系,其中与各项贷款余额最密切(r=0.844),与本年度固定资产最不密切(r=0.519)。分析→回归→线性→把不良贷款放入因变量;各项贷款余额放入自变量→确定→查看输出窗口→方程是不良贷款余额=-0.830+0.038各项贷款余额R方=0.712,通过拟合优度的检验;回归方程的显著性检验,P=0,拒绝原假设,变量之间存在显著的线性关系;回归系数的显著性检验P=0,拒绝原假设,自变量对因变量有显著影响,即两变量之间存在显著的线性关系。分析→回归→线性→保存→选残差的标准化→图形→旧对话框→散点→简单分布→把残差放到Y轴,把贷款余额放入X轴→确定→查看输出窗口→如果误差项ɛ服从正态分布这一假设成立,那么标准化残差的分布也应服从正态分布。图中除一点外,标准化残差都在-2~+2之间,这表明误差项ɛ服从正态分布的假定成立。(所谓残差是指观测值与预测值(拟合值)之间的差,即是实际观察值与回归估计值的差。)异常点2.练习《统计学》教材P330练习题11.1、11.6、11.7、11.8、11.15,对应的数据文件为“习题11.1.xls”、“习题11.6.xls”、“习题11.7.xls”、“习题11.8.xls”、“习题11.15.xls”。(任选两题)11.1从某一行业中随机抽取12家企业,所得产量与生产费用的数据如下:⑴绘制产量与生产费用的散点图,判断二者之间的关系形态。⑵计算产量与生产费用之间的线性相关系数⑶对相关系数的显著性进行检验(α=0.05),并说明二者之间的关系强度。正线性相关关系r=0.92,P=0<α=0.05,拒绝原假设,表明产量与生产费用之间的线性关系显著。11.6下面是7个地区2000年的人均国内生产总值(GDP)和人均消费水平的统计数据:⑴人均GDP作自变量,人均消费水平作因变量,绘制散点图,并说明二者之间的关系形态。⑵计算两个变量之间的线性相关系数,说明两个变量之间的关系强度。⑶利用最小二乘法求出估计的回归方程,并解释回归系数的实际意义。⑷计算判定系数,并解释其意义。⑸检验回归方程线性关系的显著性(α=0.05)⑹如果某地区的人均GDP为5000元,预测其人均消费水平。⑺求人均GDP为5000元时,人均消费水平95%的置信区间和预测区间。正的线性相关关系R=0.998,相关系数接近于1,表明人均GDP与人均消费水平之间有非常强的正线性相关关系。回归方程人均消费水平=734.693+0.309人均GDP回归系数0.309,表示人均GDP每增加一元,人均消费水平0.309元。R方=0.996,表示在人均消费水平的变差中,有99.6%是由人均GDP决定的。F=1331.692,P=0,拒绝原假设,表明人均GDP与人均消费水平之间的线性关系显著。人均消费水平=734.693+0.309人均GDP=734.693+0.309*5000=2279.693N=7,查t分布临界值表t0.05/2(7-2)=2.5706,残差sse=305795估计标准误差置信区间=2279.693±2.5706x247.303x=2279.693±287.4即置信区间为(1992.293,2567.093)置信区间:预测区间:=2279.693±697.8即(1581.893,2977.493)11.7随机抽取10家航空公司,对其最近一年的航班正点率和顾客投诉次数进行了调查,所得数据如下:⑴绘制散点图,说明二者之间的关系形态⑵用航班正点率作自变量,顾客投诉次数作因变量,求出估计的回归方程,并解释回归系数的意义⑶检验回归系数的显著性(α=0.05)⑷如果航班正点率为80%,估计顾客投诉次数⑸求航班正点率为80%时,顾客投诉次数95%的置信区间和预测区间。航班正点率和投诉次数之间为负的线性相关关系投诉次数=430.189-4.701航班正点率,航班正点率每增加1,投诉次数减少4.701次。回归系数的检验:P=0.001<α=0.05,拒绝原假设,表明回归系数显著。投诉次数=430.189-4.701航班正点率=430.189-4.701*80=430.189-367.08=54.109N=10,查t分布临界值表t0.05/2(10-2)=2.3060,残差sse=2853.816估计标准误差置信区间=54.109±2.3060x18.91x=54.109±16.5即置信区间为(37.609,70.609)预测区间:=54.109±46.57即(7.6,46.57)11.8下面是20个城市写字楼出租率和每平方米月租金的数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论