应用数理统计大作业1——逐步回归法分析终_第1页
应用数理统计大作业1——逐步回归法分析终_第2页
应用数理统计大作业1——逐步回归法分析终_第3页
应用数理统计大作业1——逐步回归法分析终_第4页
应用数理统计大作业1——逐步回归法分析终_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、应用数理统计多元线性回归分析(第一次作业)学院:机械工程及自动化学院姓名: 学号: 2014年12月逐步回归法在AMHS物流仿真结果中的应用摘要:本文针对自动化物料搬运系统 (Automatic Material Handling System, AMHS)的仿真结果,根据逐步回归法,使用软件IBM SPSS Statistics 20,对仿真数据进行分析处理,得到多元线性回归方程,建立了工件年产量箱数与EMS数量、周转箱交换周期以及AGC物料交换服务水平之间的数学模型,并对影响年产量箱数的显著性因素进行了分析,介绍了基本假设检验的情况。关键词:逐步回归;残差;SPSS;AMHS;物流仿真目

2、录1、引言12、逐步回归法原理43、模型建立53.1 确定自变量和因变量53.2 分析数据准备63.3 逐步回归分析74、结果输出及分析84.1 输入移去的变量84.2 模型汇总94.3 方差分析94.4 回归系数104.5 已排除的变量114.6 残差统计量114.7 残差分布直方图和观测量累计概率P-P图125、异常情况说明135.1 异方差检验135.2 残差的独立性检验145.3 多重共线性检验156、结论15参考文献171、 引言回归被用于研究可以测量的变量之间的关系,线性回归则被用于研究一类特殊的关系,即可用直线或多维的直线描述的关系。这一技术被用于几乎所有的研究领域,包括社会科学

3、、物理、生物、科技、经济和人文科学。逐步回归是在剔除自变量间相互作用、相互影响的前提下,计算各个自变量x与因变量y之间的相关性,并在此基础上建立对因变量y有最大影响的变量子集的回归方程。SPSS(Statistical Package for the Social Science社会科学统计软件包)是世界著名的统计软件之一,目前SPSS公司已将它的英文名称更改为Statistical Product and Service Solution,意为“统计产品与服务解决方案”。SPSS软件不仅具有包括数据管理、统计分析、图表分析、输出管理等在内的基本统计功能,而且用它处理正交试验设计中的数据程序简

4、单,分析结果明了。基于以上优点,SPSS已经广泛应用于自然科学、社会科学中,其中涉及的领域包括工程技术、应用数学、经济学、商业、金融等等。本文研究内容主要来源于“庆安集团基于物联网技术的航空柔性精益制造系统”,在庆安集团新建的320厂房建立自动化物料搬运系统(AMHS),使用生产仿真软件EM-Plant对该系统建模并仿真,设计实验因子及各水平如表11,则共有3*4*6=72组实验结果,如表所示。为方便描述,将各因子定义为:X1表示AGC物料交换服务水平,X2表示周转箱交换周期,X3表示EMS数量,Y表示因变量年产量箱数。本文目的就是建立年产量箱数与AGC物料交换服务水平、周转箱交换周期和EMS

5、数量之间的关系。表11 三因子多水平实验方案因子水平AGC物料交换服务水平123周转箱交换周期/小时2468EMS数量24681012表12 实验结果AGC物料交换服务水平周转箱交换周期/小时EMS数量年产量箱数12220274124433261266759412882302121086856121285946142195831443788114645426148458561410453381412451611621900316430465166301971683003216102999716123032718217836184227931862265118823008181022736181

6、223020222202132244509622650852AGC物料交换服务水平周转箱交换周期/小时EMS数量年产量箱数2285129022105161622125114824219940244394782464449324844681241044232241244424262189192643019726630151268303322610298862612299742821832028422882286225862882262128102280128122303132220240324341673263401732834125321034256321234106AGC物料交换服务水平周转

7、箱交换周期/小时EMS数量年产量箱数3421974534435499346355303483576434103541634123613836218777364302163662992836830342361030205361230166382183893842262838622804388224553810224483812227632、 逐步回归法原理回归分析是研究因变量和自变量之间变动比例关系的一种方法,最终结果一般是建立某种经验性的回归方程。回归分析因变量的多少有一元回归和多元回归之分,本文中的回归模型因有3个因变量故为多元回归。在实际研究中,影响因变量Y的因素有很多,而这些因素之间可能

8、存在多重共线性,特别是在各个解释变量之间有高度的相互依赖性,如温度和雨量、雨量与雨日之间的关系密切,这就给回归系数的估计带来不合理的解释。为了得到一个可靠的回归模型,需要一种方法能有效地从众多影响Y的因素中挑选出对Y贡献大的变量,在它们和Y的观测数据基础上建立“最优”的回归方程。逐步回归分析法就是一种自动地从大量可供选择的变量中选择那些对建立回归方程比较重要的变量的方法,它是在多元线性回归基础上派生出来的一种算法技巧。逐步回归分析法在筛选变量方面较为理想,故目前多采用该方法来组建回归模型。该方法也是从一个自变量开始,视自变量对Y作用的显著程度,从大到小地依次逐个引入回归方程。但当引入的自变量由

9、于后面变量的引入而变得不显著时,要将其剔除掉。引入一个自变量或从回归方程中剔除一个自变量,为逐步回归的一步。对于每一步都要进行F值检验,以确保每次引入新的显著性变量前回归方程中只包含对Y作用显著的变量。这个过程反复进行,直至既无不显著的变量从回归方程中剔除,又无显著变量可引入回归方程时为止。本文运用IBM SPSS Statistics 20软件的有关功能模块根据上述原理精选出一些配合较好和方差贡献大的自变量,组建回归方程。当F =F =0时,则所有的变量全部被引入,逐步回归分析结果就和一般的多元线性回归分析结果相同。当F取值比较大时,理论和实践都表明,在相同的F水平上,用逐步回归筛选出的显著

10、变量个数往往比先引入全部变量后再剔除的办法要少一些。为了从挑选因子中筛选出尽可能多的因子建立回归预测模型,本系统可以自己给出F 临界值,计算机默认的F为0.05,F为0.1,如果入选的自变量因子数目不多,可通过人为降低F临界值的水平而筛选出更多的因子。如此时入选的因子太多,可人为提高F临界值的水平而筛选出有代表性因子来组建回归预测模型。如最后建立的回归预测模型的复相关系数不大,回归模型的拟合精度不太高,可根据这些入选因子来组建多元非线性回归预测模型。3、 模型建立3.1 确定自变量和因变量根据表1-1可知,本文目标是确定年产量箱数与AGC物料交换服务水平、周转箱交换周期和EMS数量之间的关系,

11、其中AGC物料交换服务水平分为水平1、水平2和水平3,分别表示自动交换、人工交换(积极)和人工交换(消极),周转箱交换周期分为2、4、6和8小时,EMS数量有2、4、6、8、10和12辆。3.2 分析数据准备打开SPSS软件,在变量视图中定义变量:自变量X1、X2和X3分别表示AGC物料交换服务水平、周转箱交换周期和EMS数量,因变量Y表示年产量箱数,如图31所示。图31 定义变量将表12中的仿真结果输入到SPSS的数据视图中,如图32所示。图32 仿真数据输入3.3 逐步回归分析单击SPSS工具栏中的分析,选择回归线性,如图33所示,打开如图34所示的线性回归对话框。图33 线性回归分析图3

12、4 线性回归对话框在该对话框中选择相应的自变量和因变量,方法中选择逐步,在绘制中选中直方图、正态概率图和产生所有部分图。图35 绘制单击继续后回到线性回归对话框,再单击确定进行回归计算。4、 结果输出及分析逐步回归分析得到的结果为6张表和2幅图,分别为变量引入/剔除方式信息表、模型汇总表、方差分析表、模型回归系数表、被剔除的变量信息表、残差统计表、残差分布直方图和观测量累计概率P-P图。4.1 输入移去的变量表41 输入移去的变量a模型输入的变量移去的变量方法1周转箱交换周期.步进(准则: F-to-enter 的概率 = .100)。2EMS数量.步进(准则: F-to-enter 的概率

13、= .100)。3AGC服务水平.步进(准则: F-to-enter 的概率 = .100)。a. 因变量:年产量箱数表41显示变量的引入和剔除,以及引入或剔除的标准。系统在进行逐步回归过程中产生了3个模型,模型1是按照F检验的标准概率值,先将与Y(年产量箱数)最密切的自变量X2(周转箱交换周期)引入模型,建立Y与X2之间的一元线性回归模型,然后再把X3(EMS数量)引入模型,建立了Y与X2,X3之间的二元线性模型,最后把X1(AGC服务水平)引入模型,建立了它们与Y之间的三元线性模型。4.2 模型汇总表42 模型汇总d模型RR 方调整 R 方标准估计的误差Durbin-Watson1.632

14、a.399.39011757.832152.727b.529.51510486.436253.776c.602.5849710.99811.845a. 预测变量: (常量),周转箱交换周期。b. 预测变量: (常量),周转箱交换周期, EMS数量。c. 预测变量: (常量),周转箱交换周期,EMS数量, AGC服务水平。d. 因变量: 年产量箱数表42中显示了各模型的拟合情况,回归模型概述表中给出了各模型的相关系数R,用来对生成的模型进行评估,R值越接近于1说明估计的模型对观测值的拟合越好。从表中可以看出,从模型1到模型3,随着预测变量的增多,相关系数(0.3900.5150.584)不断增大

15、,说明模型3是比较好的拟合模型。4.3 方差分析表43 Anovaa模型平方和df均方FSig.1回归6421384062.02516421384062.02546.449.000b残差9677263179.85070138246616.855总计16098647241.875712回归8511038424.12124255519212.06138.699.000c残差7587608817.75469109965345.185总计16098647241.875713回归9686010304.45533228670101.48534.237.000d残差6412636937.4206894303

16、484.374总计16098647241.87571a. 因变量: 年产量箱数b. 预测变量: (常量),周转箱交换周期。c. 预测变量: (常量),周转箱交换周期,EMS数量。d. 预测变量: (常量),周转箱交换周期,EMS数量,AGC服务水平。表43显示各模型的方差分析结果,对模型1:F等于46.449,显著性概率Sig. 0.001;对模型2:F等于38.699,显著性概率Sig. 0.001;对模型3:F等于34.237,显著性概率Sig. 0.001,可以认为Y(年产量箱数)与X2(周转箱交换周期)、X3(EMS数量)和X1(AGC物料服务水平)存在高度显著的线性关系。4.4 回归

17、系数表44 系数a模型非标准化系数标准系数tSig.B 的 95.0% 置信区间共线性统计量B标准误差试用版下限上限容差VIF1(常量)54823.9173394.19416.152.00048054.41161593.423周转箱交换周期-4223.408619.692-.632-6.815.000-5459.345-2987.4711.0001.0002(常量)43783.2423946.95111.093.00035909.28951657.194周转箱交换周期-4223.408552.684-.632-7.642.000-5325.982-3120.8341.0001.000EMS数量

18、1577.239361.816.3604.359.000855.4352299.0431.0001.0003(常量)53678.4084606.33111.653.00044486.61862870.198周转箱交换周期-4223.408511.815-.632-8.252.000-5244.718-3202.0981.0001.000EMS数量1577.239335.061.3604.707.000908.6352245.8441.0001.000AGC服务水平-4947.5831401.662-.270-3.530.001-7744.556-2150.6111.0001.000a. 因变量

19、: 年产量箱数表44中显示各模型的偏回归系数,标准化偏回归系数及其对应的检验值。根据表中数据非标准化系数B的数值可知,逐步回归过程中先后建立的三个模型分别是:模型1:Y = 54823.917-4223.408X2模型2:Y = 43783.242-4223.408X2+1577.239X3模型3:Y = 53678.408-4223.408X2+1577.239X3-4947.583X1t值表示对回归系数的显著性检验,其概率值Sig小于0.05时才可以认为有意义,即自变量对因变量有显著性影响。在模型中,系数均小于0.05,可认为回归是显著的。模型 3中各因子95%的知置信区间为:常亮4448

20、6.618,62870.198,周转箱交换周期-5244.718,-3202.098,EMS数量908.635,2245.844,AGC服务水平-7744.556,-2150.611。4.5 已排除的变量表45 已排除的变量a模型Beta IntSig.偏相关共线性统计量容差1AGC服务水平-.270b-3.088.003-.3481.000EMS数量.360b4.359.000.4651.0002AGC服务水平-.270c-3.530.001-.3941.000a. 因变量: 年产量箱数b. 模型中的预测变量: (常量),周转箱交换周期。c. 模型中的预测变量: (常量),周转箱交换周期,E

21、MS数量。表45中显示逐步回归过程所建立的三个模型中剔除掉的变量信息,包括各变量的Beta值、t统计量值、双尾显著性概率、偏相关系数以及多重共线性统计(Collinearity Statistics)的容差。对模型来说,它的偏回归系数的P值都大于0.05,接受原假设,即不能把这些变量加入方程中。模型1中排除了变量X1和X3,表明Y只与X2有显著的线性关系;模型2中排除了变量X1,表明Y只与X2和X3有显著的线性关系。4.6 残差统计量表46 残差统计量a极小值极大值均值标准偏差N预测值8202.870159210.878933706.875011680.0120072残差-23164.4863

22、330799.59961.000009503.6219572标准预测值-2.1842.184.0001.00072标准残差-2.3852.372.000.97972a. 因变量: 年产量箱数表46显示了预测值、残差、标准预测值和标准残差的最小值、最大值,均值,标准差以及样本容量。根据概率的3原则,标准化残差的最大值为2.3723,说明样本中的数据中没有奇异数据。4.7 残差分布直方图和观测量累计概率P-P图图41 残差分布直方图图42 观测的累积概率图回归分析中,总假定残差服从正态分布,这两张图就是根据样本数据的计算结果显示残差分布的实际状况,然后对残差分布是否服从正态分布的假设做出检验。从回

23、归残差的直方图(图41)与附于图上的正态分布两线相比较,可以明显看出残差分布与正态分布比较吻合。图42为观测量累计概率P-P图,也是用来比较残差分布与正态分布差异的图形。图中纵坐标为期望的累计概率分布,横坐标为观测量累计概率分布。图中的斜线对应着一个均值为0的正态分布。如果图中的散点密切地分布在这条斜线附近,说明随机变量残差服从正态分布,从而表明样本确实是来自于正态总体。如果离这条直线太远,应该怀疑随机变量的正确性。从图42的散点分布状况来看,72个散点大致散布于斜线附近,因此可以认为残差分布基本上是正态的。5、 异常情况说明5.1 异方差检验在回归模型的基本假设中,假定随机误差具有相同的方差

24、,但在建立实际经济问题的回归模型时,经常存在与此假设相违背的情况,这时就会出现回归模型中的异方差性。当一个方程存在异方差性时,如果仍用普通最小二乘法估计参数,将会引起严重的后果,特别是最小二乘估计量不再具有最小方差的优良性,即最小二乘估计的有效性被破坏了。异方差性的检验方法目前有十多种,但没有一种是公认最优的方法。常用的是残差图分析法,等级相关系数法以及Glejser法。本文使用残差图分析法,在SPSS中选中标准残差值为Y,标准预测值为X,如图51,绘制出的残差图如图52所示。图51 绘制残差图图52 残差图从上图中可以看出,随着预计值的增大,残差变化幅度也随之增大,由此判定存在异方差现象,需

25、要使用非线性的方法拟合。5.2 残差的独立性检验残差的独立性检验也称为序列相关性检验。如果随机误差不独立,那么对回归模型的任何顾忌与假设所做出的结论是不可靠的。残差独立性检验是通过Durbin-Watson检验来完成的。Durbin-Watson检验的参数用D表示。D的取值范围是0D10时,就说明自变量之间有严重的多重共线性,且这种多重共线性可能会过度的影响最小二乘法估计值。本文中计算出的VIF值列于表44中,可见各系数的VIF均等于1,说明自变量之间不存在多重共线性。6、 结论由上面的分析可知,模型3满足多元线形回归的假设条件,这样可以分析结果得到回归方程。在考察的对Y(年产量箱数)影响的3

26、个因素中,分析结果为:AGC物料交换服务水平、周转箱交换周期和EMS数量都有显著性影响并进入回归方程:Y = 53678.408-4223.408X2+1577.239X3-4947.583X1从上述分析的结果来看,我们不难理解,X1表示的AGC物料交换服务水平越高(X1数值上越小),机床加工工件的时间间隔就会缩短,机床的利用率上升,从而使得产量提高,所以年产量箱数与AGC物料交换服务水平成正比,表现为与X1数值成反比,因此回归方程中X1的系数为负数。周转箱交换周期表示一箱工件进出机床所使用的时间,交换周期越长,表明这箱工件占用机床的时间(包括准备时间和加工时间)越长,那么物料周转的就慢,年产量箱数也就会越低,因此年产量箱数与周转箱交换周期成反比,因此回归方程中X2的系数为负数。EMS负责将物料运输至对接缓冲,再由AGC将物料运往机床进行加工,很显然,EMS数量越多,运送的物料也就越多,设备利用率会相应上升,产出增多,但是

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论