基于蒙特卡罗方法的回归模型合理性研究毕业论文_第1页
基于蒙特卡罗方法的回归模型合理性研究毕业论文_第2页
基于蒙特卡罗方法的回归模型合理性研究毕业论文_第3页
基于蒙特卡罗方法的回归模型合理性研究毕业论文_第4页
基于蒙特卡罗方法的回归模型合理性研究毕业论文_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 . . . 编号本科生毕业论文(设计)题 目 基于Monte-Carlo方法的回归模型合理性研究 19 / 23目录摘要. I关键词. IAbstract. IIKeywords. II前言. 1第1章 理论准备. 11.1 蒙特卡罗方法的基本思想. 11.2 一元线性回归分析. 11.2.1 回归模型简介. 11.2.2 回归参数的估计. 21.2.2.1和参数的点估计. 21.2.3 相关系数的检验. 31.2.3.1离差平方和之间的关系. 31.2.3.2决定系数与相关系数. 41.2.4的估计. 4第2章 模型建立 . 52.1 线性回归过程. 52.2 蒙特卡罗实验. 92.3 结

2、论. 152.4 模型评价. 15参考文献. 15附录. 15致. 18基于Monte-Carlo方法的回归模型合理性研究 摘要:本文针对文献中使用汽车车轮弯沉数据所建立的模型进行分析,发现模型的正态假设有一定的问题,在此基础之上,用Monte-Carlo方法重新生成新的样本,并建立模型,发现新的模型与文献中的模型有差异,表明原模型的正态假设不满足,原模型不具有适用性。 关键字:统计检验;蒙特卡罗方法;一元线性回归模型;汽车弯沉值Rationality of regression model research based on Monte Carlo methodAbstract:Based

3、on the data of car wheel deflection value of the literature to carry on the model analysis, this paper finds that the model assumption of normality has some problems.On this basis, the new model is established with the Monte-Carlo method to regenerate a new sample and finds the new model and the mod

4、el in the literature have differences.Thus,the paper draw a conclusion that the original model of the normality assumption is not met and has no applicability. Keywords:statistical test ;Monte Carlo method ;a linear regression model ;car wheel deflection value前言 弯沉是指在固定的轴载作用下,路基或路面表面轮隙位置产生的总垂直变形(总弯沉

5、),以0.01mm为单位。 在此之前有人做过汽车弯沉检测车辆修正系数865-67,也把修正系数求出来,但都只是一个结论。本文基于前人试验的数据,把回归过程用SPSS来实现,建立了一元线性回归模型,结合统计检验方法对回归模型进行检验,再用Monte-Carlo方法,在SPSS中产生标准正态分布随机数,对模型合理性再次检验,从而总结出了一套更系统、更合理的计算弯沉检测车辆修正系数的方法。 本文是在大样本下进行分析处理的,样本数为,因此样本总体服从正态分布。假设汽车车轮下未垫钢板时测得的数据用变量来表示,车轮下垫钢板时测得的数据用变量来表示。第1章 理论准备1.1 蒙特卡罗方法的基本思想 蒙特卡罗(

6、Monte Carlo)方法也称为随机模拟方法,它的基本思想是,首先建立一个概率模型或随机过程,使它的参数等于问题的解;然后通过对抽样试验来计算所求参数的统计特征,最后给出所求解的近似值。而解的精确度可用估计值的标准误差来表示。 假设是随机变量且数学期望,那么近似确定的方法是对进行次重复抽样,产生相互独立的值得序列、,并计算其算术平均值:根据柯尔莫哥罗夫加强大数定理有,因此,当充分大时,下试成立的概率等于1,亦即可以用作为所求量的估计值。1.2 一元线性回归分析1.2.1 回归模型简介如果一个自变量(解释变量)与一个因变量(被解释变量)所形成的的关系是线性相关关系,即值随着的改变而改变,则可以

7、通过建立一元线性模型来描述与的关系。而将所建的一元线性模型称为一元回归模型,表示为 (11)其中为总体回归直线的截距,为总体回归直线的斜率,为随机误差项,为样本量。公式(11)称为关于的一元线性回归模型。从模型可以看到,因变量由两部分构成:一部分是由线性函数构成的确定性数值,另一部分是由决定的随机变量数值。一元线性回归模型准确地表示了自变量与因变量的线性相关关系。即当给定一个值时,的数值主要会随线性函数部分而变化,但是由于的存在,所以值仍然是不确定的,是随机的。回归模型是从总体的角度描述自变量与因变量的关系。因此,模型中的和就是从总体上说明与变量关系的系数,但它们的数值在实际中是不可能得到的,

8、只能通过样本数据得到它们的估计值。而且对这些参数估计时,必须在满足一些基本假设条件下进行。这些假设是:(1)是随机变量,且。随机误差项分布的均值为零的含义是:虽然随机因素对被解释变量有影响,但从平均意义上来说,其影响为零,从而在给定的情况下,被解释变量的平均水平完全由解释变量确定。随机误差项方差恒定,称为同方差,其具体含义是:虽然各个随机误差项的取值是不同的,但是方差是一样的,违背该假设就成为异方差。(2)随机变量与相互独立。随机误差项之间互不相关的具体含义是:对应于任意两个不同的值,随机误差项互不相关,因而各个被解释变量之间也是不相关的。在正态分布的假定下,不相关等价于独立。违背这个假定,就

9、称为误差项自相关。(3)与自变量相互独立。解释变量是非随机的,换句话说,在重复抽样下,的取值是确定不变的。1.2.2 回归参数的估计 回归分析的任务就是恰当的方法估计出参数,并且使估计出来的参数有良好的统计特性。如果有个不全相等的, , 做独立试验,可以得对样本数据, , 。通过这些数据即可得到回归函数的估计,即 (12)其中和分别作为和的估计值,就是称为关于的一元线性回归方程,其图形是回归直线。1.2.2.1和参数的点估计和的估计值和可以通过最小二乘法计算得到。如果回归函数为,可以假设一元线性回归方程为。假定对样本数据, ,为已知,现在需要确定通过这些点的哪一条直线描述与最好。根据最小二乘法

10、建立回归直线的原则就是:使得估计值与的离差平方和最小。因此设 (13)将代入公式(13)中,有 (14)根据微分学中求极值的原理,对公式(14)中的和分别求一阶偏导数,并令一阶偏导数为零,即有经整理,可得到两个二元一次方程解上述方程组,即可求出的和的值:,所求和即为和的点估计值,将和的值代入(12)中,可得到一元线性回归方程:.1.2.3 相关系数的检验1.2.3.1 离差平方和之间的关系与是否具有相关关系,可以通过值是否随值得变动来解释。当给定时,的实际值与的差值就是值随值的全部变化,称之为总变差,用表示。在这全部变差中,一部分变差可以用设定的回归方程来解释,即的部分,我们称之为回归变差。另

11、一部分变差是设定的回归方程所不能解释的,称为剩余变差,用表示。对于任意给定的总有成立。因此,可以利用变差之间的数量关系确定变量之间的联系程度。如果在总变差中,回归变差所占的比例越大,则说明值随值的变化越显著,或者说解释的能力越强。反之,回归变差在总变差中所占的比例越小,则说明值随值的变化越不显著,或者说解释的能力很差。 对于所有的数据点,因为,所以可以证明: (15)其中称为总离差平方和,称为剩余平方和,称为回归平方和。1.2.3.2 决定系数与相关系数 根据公式(15)离差平方和之间的关系,利用回归平方和与总离差平方和的比值来说明与的相关性,即有称为决定系数,也称为可决定系数。其含义是:在全

12、部变差中研究者所设定的回归方程能够解释的部分所占的比例。因此从理论上说,的取值应在之间,其值越接近于,说明相关程度越高。特别的,在研究一元线性关系时,为简化起见,将开方,用表示,即,称为相关系数,在实践中经常使用简化的形式,即相关系数的取值围是. 当时,表示与是正相关关系,即当增加(减少)时,也随之增加(减少)。当时,表示与是负相关关系,即当增加(减少)时,却随之减少(增加)。通过的数值,一方面可以判断与的相关性,另一方面可以说明线性相关的程度。1.2.4的估计,的方差都含有随机扰动项的方差,而总体随机扰动项的实际上是未知的,因此实际上无法计算和真实值的方差,这就需要对进行估计。我们定义 (1

13、6) 它是关于的无偏估计量。第2章 模型建立2.1 线性回归过程 将数据导入SPSS窗口,定义变量名:(车轮下不垫钢板测得的弯沉值)、(车轮下垫钢板测得的弯沉值);画图,执行GraphsScatter / DotSimple Scatter 命令,以为轴,以为轴,画散点图,如图所示 图21从图可以看出随变化而变化,说明与之间呈现线性关系。 执行AnalyzeRegressionLinearLinear Regression将(车轮下不垫钢板)移入Independent(s)(自变量)框中,把移入Dependent(因变量)框中Continue;StatisticsRegression Coef

14、ficientsEstimates、Model fitDurbin-Watson、Casewise diagnostics、Outliers outside,并在后面的方框中改为2,即大于两个标准差单位的观测值就认为是异常值。 Plots将ZPRED(标准化预测值)选入框中,把ZRESID(标准化残差)移入框中Normal probability plot、Histogram,以便检验残差的正态性和方差齐性。 SaveUnstandardized(未经标准化预测值)、Standardized、StudentizedMean、IndividualContinue。 单击Option按钮,采用系统

15、默认设置。 最后单击OK,输出结果与分析如下: 自变量进入或剔除情况表表,如表所示表21表中的模型中只有一个自变量。模型拟合的总体情况表,如表所示。表22由表知复相关系数,与的相关为;确定系数,说明模型的拟合优度非常高;经过校正的系数为,也说明模型的拟合优度非常高;误差的独立性检验检验的值为,查检验表知,可以说明残差与自变量之间相互独立。回归方程检验的方差分析表,如表所示表23表中列出了回归项和残差项的平方和、自由度和均方,还列出了值以与值。从表中可以看出,回归方程是显著的,,,说明(车轮下垫钢板测得的弯沉值)受(车轮下不垫钢板测得的弯沉值)的显著影响;剩余平方和(残差平方和)为。回归系数估计

16、与其检验表,如表所示。表24表中显示回归模型中的回归系数是:Constant(常数项,即回归直线截距)为,自变量系数为,由此可知该分析的非标准化回归方程可以写为: ,标准化回归方程为:。从表中也可看出回归系数的显著性水平为,表明统计量检验假设“回归系数等于的概率为远小于”,同样说明了量变量之间的线性相关关系极为显著,建立的回归方程是有效的。异常值诊断表,如表所示表25在此如果标准化残差的绝对值超过,就称为异常值。表中依次列出了所有异常值的编号、标准化残差大小、因变量取值、因变量的预测值以与残差,从表可以看出所用的数据异常值不是很多,只有4个。残差统计量表,如表所示表26表中列出了预测值、标准预

17、测值、预测值标准误差、经调整的预测值、非标准化残差、标准化残差、学生化残差、标准化学生残差、剔除残差、标准化剔除残差、马氏距离、库克距离以与中心杠杆值。横行依次列出上述各值的最小值、最大值、均值、标准差以与参与计算得观测量数目。 图描绘了残差的正态分布。从图中可以看出,代表残差值的点分布在对角线两旁,可以判定残差是近似服从正态分布的,从而证明样本是近似来自正态分布的总体。图描绘了标准化残差的直方图,从图中可知标准化残差的均值为,方差为,约等于,因此近似服从标准正态分布。图描绘了标准化预测变量与标准化残差的散点图,图中各点随机分布在一条穿过零点的水平直线的两侧,说明残差的分布是常数,从而说明残差

18、方差齐性。图 22图23图242.2 蒙特卡罗实验 下面看用正态数据生成模型的样本,看系数变化大小,变化大说明原始数据不满足正态性假定。 蒙特卡罗实验:给定的值,从的正态分布中抽取随机数,将这些随机数和的值代入回归模型(1)中,计算相应的值,这是我们从回归模型(1)中抽取的样本,再与进行最小二乘估计,产生新的样本回归模型,这一过程称为蒙特卡罗实验。在上述建立的一元线性回归模型:下,由表知残差平方和为,利用公式(16)可计算出随机扰动项的方差的估计值为,标准差为。从标准正态分布中随机抽取值,执行TransformCompute命令,Compute Variable /Target Variabl

19、e(目标变量)输入变量名randomType & Label(类型或标签)中输入“标准正态随机数”,Function groupRandom Numbers(随机数)Function and Special Variables(函数和特殊变量)Rv. Normal,将其移入Numeric Expression矩形框中,在两个问号处分别输入和,即产生的,点击OK。 从而得到一组的随机数据,将新产生的随机数代入已建立的模型,此过程在Eviews软件中进行,打开Eviews窗口,执行FileNewWorkfile,在Workfile Range窗口下的Workfile frequency栏下

20、选择Undated or irregular,在Start date矩形框中输入,End date矩形框中输入;然后在命令窗口输入 得到系列、(即得到的新的样本值)。 在一元线性回归模型中,满足假设的最小二乘估计量,具有无偏性和方差最小性,并且在随机误差项服从正态分布的假定下,估计量也服从正态分布。基于和上述产生的的样本值,对样本回归模型进行估计,记录估计的系数和方差。重复上述过程次,就产生系数的个估计值,求这个估计值点的平均数,如果估计值的均值近似等于总体回归模型(原样本回归模型)的真实值,就可以反映估计量的无偏性。把算得的的值导入窗口,再与原来做最小二乘回归,过程与第一次建立模型时一样,得

21、到结果如表、所示,得到新的散点图,如图,回归直线图如图。表28由表知,模型中只有一个自变量。表29由表知复相关系数,与的相关为;确定系数,说明模型的拟合优度非常高;经过校正的系数为,也说明模型的拟合优度非常高;误差的独立性检验检验的值为,约等于,可以说明残差与自变量之间相互独立。表210从表中可以看出,回归方程是显著的,,,说明(产生的的新样本)受(车轮下不垫钢板测得的弯沉值)的显著影响;剩余平方和(残差平方和)为。表211表中显示回归模型中的回归系数是:Constant(常数项)为,自变量系数为,由此可知该分析的非标准化回归方程可以写为: ,标准化回归方程为:。从表中也可看出回归系数的显著性

22、水平为,表明统计量检验假设“回归系数等于的概率为远小于”,说明建立的回归方程是有效的。但对于常数项的影响较大,从-0.84变为-2.635 。表212由表知样本异常值只有两个。表213 图24图描绘了标准化预测因变量与标准化残差的散点图,图中各点随机分布在一条穿过零点的水平直线的两侧,说明残差的分布是常数,即说明残差方差齐性。 图25在这里我们重复上述过程次,分别得到 和的个估计值,将其导入窗口,执行,依次得到和估计值的频率分布图,如图、所示。从图、中可以看出和的均值分别为和近似等于真值和,从而通过蒙特卡罗模拟仿真的方法直观地描绘了最小二乘估计量的无偏性。图26图272.3 结论 由上述分析过

23、程可知回归系数的估计值变化不大,但常数估计值变化较大,因此可得出总体回归系数有正态性,而总体常数项有偏正态性,正态性这项假定只能是近似的。2.4 模型评价此模型已比较好,也利用蒙特卡罗方法即做蒙特卡罗实验(在这里重复100次)验证估计系数的无偏性,验证如所期待的那样都说明用最小二乘估计出的系数估计量是无偏的,也就是最优的。但模型中常数项变化较大,只能说明正态性这项假定只能是近似的。在使用做蒙特卡罗过程中,由于重复的次数较多,如果能设计一个程序的话就不用那么麻烦;还有虽然从估计值的频率分布直方图中可以看出和估计值的均值与真实值很相近,但从图中也可看出有些区间数的频率大很多。参考文献1 徐钟济.

24、蒙特卡罗方法 M . :科学技术,1985:5-7,11-12.2 朱洪文,宋力. 应用统计 M . :高等教育,2004:203-205,217.3 王少平,继生,欧阳志刚.计量经济学 M . :高等教育,2011:15-27.4 郝犁仁,樊元,郝哲欧.实用统计分析 M . :中国水利水电,2002:206-216.5 易丹辉. 数据分析与应用 M . :中国统计,2002:1-50.6 茆诗松,王静龙,濮晓龙.高等数理统计 M . :高等教育,德国:施普林格,1998:400-426.7 军. 科学策略中的蒙特卡罗策略 M . 8 朔,友,宏秋. 利用一元线性回归的方法计算弯沉检测车辆修正系数 J . 交通科技,2007,110(4):65-67.附录 汽车弯沉值数据表序列xy111011721001063114121410010951301386170181714815781321409160170101821931116017012130142131481631414014915112119161461551716217218180191191121252020021221152161221341422314015024180196251101172616017527160182281301382911011730130145311

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论