多元线性回归模型_第1页
多元线性回归模型_第2页
多元线性回归模型_第3页
多元线性回归模型_第4页
多元线性回归模型_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、word目录第一章 课程设计的名称、目的、任务及要求11.1 课程设计的名称11.2 课程设计的目的11.3 课程设计的任务11.4 课程设计的要求2第二章 问题分析32.1 背景资料32.2 问题重述32.3 问题分析3第三章 假设与符号约定53.1 模型假设53.2 模型符号约定5第四章 模型的建立与求解64.1数据分析64.2模型的建立74.3模型求解过程10问题二的求解过程10问题三的求解过程10问题四的求解过程11第五章 模型结果分析及检验145.1模型分析及检验145.2模型评价20结 论22参考文献23结束语24.word第一章 课程设计的名称、目的、任务及要求1.1 课程设计的

2、名称本文研究的课题的名称为:多元线性回归问题。1.2 课程设计的目的养猪生产的最终目的是为满足消费者对瘦肉的要求,一般瘦肉率越高的猪卖的价格更高一些,而瘦肉率就是指猪含有的瘦肉量,瘦肉在整个中所占的比率。我们知道猪的瘦肉总产量与许多因素有关,包括猪的眼肌面积、猪的腿瘦肉量及猪的腰瘦肉量。这三者的多少直接影响猪瘦肉的产量,究竟哪些因素对猪瘦肉的产量影响更大一些,针对上诉问题本文采用多元线性回归方法,分析猪的瘦肉量与哪个因素联系更加密切,且与三个因素之间存在着怎么的线性关系。1.3 课程设计的任务 根据下表1中的某猪场25头育肥猪4个胴体性状的数据资料,试进行瘦肉量对眼肌面积、腿肉量()、腰肉量(

3、)的多元线性回归分析。表1数据资料序号瘦肉量y(kg)眼肌面积x1(cm2)腿肉量x2(kg)腰肉量x3(kg)序号瘦肉量y(kg)眼肌面积x1(cm2)腿肉量x2(kg)腰肉量x3(kg)115.0223.735.491.211415.9423.525.181.98212.6222.344.321.351514.3321.864.861.59314.8628.845.041.921615.1128.955.181.37413.9827.674.721.491713.8124.534.881.39515.9120.835.351.561815.5827.655.021.66612.4722.2

4、74.271.501915.8527.295.551.70715.8027.575.251.852015.2829.075.261.82814.3228.014.621.512116.4032.475.181.75913.7624.794.421.462215.0229.655.081.701015.1828.965.301.662315.7322.114.901.811114.2025.774.871.642414.7522.434.651.821217.0723.175.801.902514.3520.045.081.531315.4028.575.221.661.4 课程设计的要求根据表

5、1的数据完成下面问题的求解:1画出散点图与,与,与并观察与, 的关系;2求关于, 的线性回归方程: 1求出的值;3对上述回归模型和回归系数进行检验;4再分别求关于单个变量,, 的线性回归方程: 2 3 4求出的值;分别求关于两个变量,, 的线性回归方程: (2) 3 4求出系数的值;并说明这六个回归方程对原来问题求解的优劣。5编程实现上述求解过程。第二章 问题分析2.1 背景资料 众所周知,我国是猪肉生产大国,但不是猪肉生产强国。随着人们生活水平的提高,养猪生产发生了从数量到质量型的转变,猪肉消费从脂肪型到瘦肉型的变化。热胴体重和瘦肉产量决定了猪胴体的商业价值。提高猪的胴体瘦肉率是当今畜牧业面

6、临最大挑战之一,作为养猪和猪肉消费大国,猪肉的生产特别是瘦肉的生产在中国养猪业中占很重要的地位。而瘦肉型猪是指以生产瘦肉为主要特征的猪种,瘦肉型猪肉瘦肉多,肥肉少,瘦肉率指猪含有的瘦肉量,瘦肉在整个中所占的比率在55以上。其外形特点是前肢间距宽,头颈较轻,臀部兴旺,肌肉饱满,一般体长大于胸围1520厘米,在标准饲养管理下,6个月龄体重可达90100公斤。猪的瘦肉量与许多因素有关,包括猪的眼肌面积、猪的腿瘦肉量及猪的腰瘦肉量,这三者直接影响了猪瘦肉的产量,本文主要根据某猪场25头育肥猪4个胴体性状的数据资料,来研究猪的瘦肉量与哪些因素联系密切,找出它们之间的线性关系。2.2 问题重述对于该猪场2

7、5头育肥猪4个胴体性状的数据资料,我们知道,和瘦肉量有关的变量有3个,分别为:眼肌面积、腿肉量()、腰肉量()。研究瘦肉量与变量眼肌面积、腿肉量、腰肉量之间的定量关系的问题为多元回归问题。表1中是该猪场的原始数据。建立模型,分析各因素对瘦肉量的影响程度。并对所做模型进行检验,找出影响瘦肉量的主要因素。最后分析主要因素与瘦肉量的关系,并给出结论。2.3 问题分析对于该猪场25头育肥猪4个胴体性状的数据资料,我们知道,和有关的变量有3个,研究与变量、之间的定量关系的问题为多元回归问题。因此本文采用多元线性回归问题来求解。多元线性回归模型的根本形式:设随机变量与一般变量的理论线性回归模型为: 其中,

8、是个未知参数,称为回归常数,称为回归系数。称为被解释变量因变量,而是个可以精确测量并可控制的一般变量,称为解释变量自变量。是随机误差,与一元线性回归一样,对随机误差项我们常假定 称 为理论回归方程。根据表1中的数据,记为瘦肉量,为眼肌面积,为腿肉量,为腰肉量。基于上面分析,本文采用多元线性回归方法来建立模型。第一问:首先对表1的数据进行处理,利用SPSS软件画出相应的散点图来观察与,与,与的关系及与,的关系。第二问、第三问、第四问:由第一问的散点图可以大致看出与,之间的关系,利用SPSS软件的相关性分析利用最小二乘估计法来估计参数来求解中的各项系数。 回归方程的显著性检验:事先我们并不能断定随

9、机变量与一般变量,之间是否确有线性关系。在求线性回归方程前线性回归模型只是一种假设,所以在求出线性回归方程之后,我们需要对其进行统计检验。运用F检验法来判定线性回归方程的显著性。回归系数的显著性检验:由于回归方程显著并不意味着每个自变量,对因变量的影响都是重要的。而我们要找出影响瘦肉量的主要因素,即从回归方程中剔除那些次要的、可有可无的变量,这就需要我们对每个变量进行考察。显然,如果某个变量对的作用不显著,那么在多元线性回归模型中,它前面的系数就可以取值为零。因此,检验因子是否显著等价于检验假设 。最后再运用T检验法来区分模型中哪些因子是显著的。第三章 假设与符号约定3.1 模型假设因为多元线

10、性回归模型的建立或选择过程包含相当的主观性,为了保证所分析的变量关系符合多元线性回归分析的根本规定性,明确分析对象,保证回归分析的有效性,也为了检验判断的依据,需要对多元线性回归模型作一些假设。基于对问题的分析,现对题目中的变量给出以下假设:1. 因变量与自变量之间存在着线性随机函数关系,即:2. 自变量是固定数值型变量,且相互独立,即自变量之间线性无关。3. 每一个自变量与随机误差相互独立。4. 因变量是连续随机变量。5. 对应每组观测数据的误差项,都是零均值得随机变量,即的数学期望 对任意都成立。 6. 误差项的方差为常数以假设5为前提。3.2 模型符号约定各变量符号说明及意义假设如下表2

11、所示:表2 符号说明变量符号代表意义瘦肉量kg瘦肉的总产量眼肌面积cm猪背最长肌的横断面面积腿肉量kg猪的腿部到后腿局部的肉量腰肉量kg猪背骨左右那两条最嫩的瘦肉量第四章 模型的建立与求解4.1数据分析1数据导入将表1所给数据输入Excel中,然后将Excel文件导入SPSS中。2描述型统计在SPSS窗口运行“分析“描述统计“频率,在“图表选项卡勾选“直方图,点击“确定。图4.1 和各自的频率分布直方图图4.2 和各自的概率分布直方图从图4.1和图4.2可以看出,和、的标准偏差均小于1,即样本数据分布较集中。但的样本偏差为3.3,故的数据分布较零散。3样本的相关系数在SPSS窗口运行“分析“相

12、关“双变量,选择适宜的变量,勾选“Spearman相关系数,点击“确定。得到相应的相关系数表,在设定的置信度为0.01的情况下,可以看出与、的相关系数较大,检验值都小于0.01,故存在相关关系,可进行回归分析。而其他变量之间的相关系数较小,可认为无相关关系。表3 相关系数表相关系数YX1X2X3Spearman 的 rhoY相关系数1.000.179.805*.656*Sig.双侧.391.000.000N25252525X1相关系数.1791.000.226.191Sig.双侧.391.277.360N25252525X2相关系数.805*.2261.000.371Sig.双侧.000.27

13、7.068N25252525X3相关系数.656*.191.3711.000Sig.双侧.000.360.068.N25252525*. 在置信度双测为 0.01 时,相关性是显著的。4.2模型的建立为了大致地分析与、的关系,首先对原始数据分别作关于、的散点图。图4.3 与的散点图图4.4 与的散点图图4.5 与的散点图从图4.3中可以发现,随着的增加,的值有增长趋势,但是不明显,存在异常值,可以用线性模型 2拟合的。从图4.4和图4.5中可以发现,随着、 的增加,的值有明显的线性增长趋势,图中直线用线性模型 3 4拟合的。综合上面的分析,可以建立如下回归模型 2 3 4 1 1式右端的、称为

14、回归变量自变量,是给定眼肌面积、腿肉量、腰肉量时,瘦肉量的平均值,其中参数称为回归系数。由原始数据估计,影响的其他因素作用都包含在随机误差中。如果模型选择得适宜,应大致服从均值为0的正态分布。为了估计参数,我们采用最小二乘估计法。最小二乘法又叫最小平方法是一种数学优化技术。它通过最小化误差的平方和寻找数据的最正确函数匹配,利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。设分别是参数的最小二乘估计,那么回归方程为由最小二乘法知道应使得全部观察值与回归值的偏差平方和到达最小,即使最小所以是的非负二次式,最小值一定存在。根据微积分学中的极值原理,应是以下

15、正规方程组的解:显然,正规方程组的系数矩阵是对称矩阵,用来表示,那么,且其右端常数项矩阵亦可采用矩阵和来表示:。所以可以得到回归方程的回归系数:4.3模型求解过程在SPSS窗口运行“分析“回归“线性,因变量为,根据题目要求设置相应的自变量。在“绘制选项卡勾选“正态概率图,设置轴为*ZPRED,轴为*ZRESID,点击“确定。4.3.1问题二的求解过程表4的回归系数给出了模型1中的估计值,即,那么模型1的回归方程为:表4 模型1的计算结果系数a模型非标准化系数标准系数tSig.B标准 误差试用版1(常量).8541.372.622.540X1.018.029.054.609.549X22.078

16、.268.7217.741.000X31.940.510.3523.806.001a. 因变量: Y4.3.2问题三的求解过程运用F检验法来判定线性回归方程的显著性,再运用T检验法来区分模型中哪些因子是显著的,从而判断回归系数的显著性。表5 模型1的误差估计模型汇总b模型RR 方调整 R 方标准 估计的误差1.918a.844.821.45983a. 预测变量: (常量), X3, X1, X2。b. 因变量: YAnovab模型平方和df均方FSig.1回归23.94337.98137.745.000a残差4.44021.211总计28.38324a. 预测变量: (常量), X3, X1,

17、 X2。b. 因变量: Y观察表5得到模型1的系数估计值置信水平,调整后的=0.821指因变量瘦肉量的82.1%可由模型确定,F值远远超过F检验的临界值,p值远小于,因此模型1从整体来看是可用的。观察表4中的t值发现,的对应的p值大于,说明回归变量对因变量的影响不是太显著的,但是,影响显著。综上所述,经过F检验和t检验模型1的回归方程显著,回归系数显著,不显著。4.3.3问题四的求解过程得到模型2的系数估计值置信水平如下。表6 模型2的计算结果系数a模型非标准化系数标准系数tSig.B标准 误差试用版1(常量)12.5541.6947.410.000X1.092.065.2801.401.17

18、4a. 因变量: Y表6的回归系数给出了模型2中的估计值,即,那么模型2的回归方程:得到模型3的系数估计值置信水平结果如下。表7 模型3的计算结果系数a模型非标准化系数标准系数tSig.B标准 误差试用版1(常量)2.5721.5821.626.118X22.458.314.8527.819.000a. 因变量: Y表7的回归系数给出了模型3中的估计值,即,那么模型3的回归方程为:得到模型4的系数估计值置信水平结果如下。表8 模型4的计算结果系数a模型非标准化系数标准系数tSig.B标准 误差试用版1(常量)9.4451.5006.295.000X33.346.912.6083.668.001

19、a. 因变量: Y表8的回归系数给出了模型4中的估计值,即,那么模型4的回归方程为:得到模型2的系数估计值置信水平结果如下。表9 模型2的计算结果系数a模型非标准化系数标准系数tSig.B标准 误差试用版1(常量)2.0661.6951.219.236X1.032.037.097.864.397X22.396.324.8317.394.000a. 因变量: Y表9的回归系数给出了模型2中的估计值,即,那么模型2的回归方程为:得到模型3的系数估计值置信水平结果如下。表10 模型3的计算结果系数a模型非标准化系数标准系数tSig.B标准 误差试用版1(常量)1.1081.288.860.399X2

20、2.106.261.7308.074.000X31.979.498.3593.972.001a. 因变量: Y表10的回归系数给出了模型3中的估计值,即,那么模型3的回归方程为:得到模型4的系数估计值置信水平结果如下。表11 模型4的计算结果系数a模型非标准化系数标准系数tSig.B标准 误差试用版1(常量)8.3031.8764.427.000X1.056.055.1711.013.322X33.167.929.5753.410.003a. 因变量: Y表11的回归系数给出了模型4中的估计值,即,那么模型4的回归方程为:第五章 模型结果分析及检验5.1模型分析及检验为了对得到的模型的显著性进

21、行检验,运用F检验法来判定线性回归方程的显著性,再运用T检验法来区分模型中哪些因子是显著的,从而判断回归系数的显著性。由于模型假设中涉及误差项,而误差是不可观测的,是未知的,因此其估计量残差对分析误差的性质起着十分重要的作用。从残差出发分析关于误差项假定的合理性以及线性回归关系假定的可行性成为残差分析,本文主要分析正态P-P图以及拟合之残差图。其中模型1的F检验和t检验已经在前面的问题三求解过程中实现,这里不再赘述。、模型1的残差分析图5.1模型1的残差分析图从残差分析左图中可以看出,数据根本分布在直线附近,异常值较少;从右图中可以看出,数据大致在一个水平的带状区域内,且不呈现任何明显趋势,即

22、相应的假设合理。、模型2的分析与检验表12 模型2的误差估计模型汇总b模型RR 方调整 R 方标准 估计的误差1.280a.079.0391.06629a. 预测变量: (常量), X1。b. 因变量: YAnovab模型平方和df均方FSig.1回归2.23212.2321.963.174a残差26.151231.137总计28.38324a. 预测变量: (常量), X1。b. 因变量: Y表12显示,调整后的=0.0.039指因变量瘦肉量的3.9%可由模型确定,F值远远小于F检验的临界值,p值远大于,因此模型2从整体来看是不可用的。表6的回归系数表观察t值发现,的对应的p值大于,说明回归

23、变量对因变量的影响不是太显著的。模型2的残差分析图5.2 模型2的残差分析从残差分析左图中可以看出,数据根本分布在直线附近,异常值较少;从右图中可以看出,数据有增长的趋势,即相应的假设不合理。、模型3的分析与检验表13 模型3的误差估计模型汇总b模型RR 方调整 R 方标准 估计的误差1.852a.727.715.58079a. 预测变量: (常量), X2。b. 因变量: YAnovab模型平方和df均方FSig.1回归20.625120.62561.142.000a残差7.75823.337总计28.38324a. 预测变量: (常量), X2。b. 因变量: Y表13显示,调整后的=0.

24、715指因变量瘦肉量的71.5%可由模型确定,F值远远超过F检验的临界值,p值远小于,因此模型3从整体来看是可用的。表7的回归系数表观察t值发现,的对应的p值小于,说明回归变量对因变量的影响是显著的。模型3的残差分析 图5.3 模型3的残差分析从残差分析左图中可以看出,数据根本分布在直线附近,异常值较少;从右图中可以看出,数据大致在一个水平的带状区域内,且不呈现任何明显趋势,即相应的假设合理。、模型4的分析与检验表14 模型4的误差估计模型汇总b模型RR 方调整 R 方标准 估计的误差1.608a.369.342.88238a. 预测变量: (常量), X3。b. 因变量: YAnovab模型

25、平方和df均方FSig.1回归10.475110.47513.454.001a残差17.90823.779总计28.38324a. 预测变量: (常量), X3。b. 因变量: Y表14显示,调整后的=0.342指因变量瘦肉量的34.2%可由模型确定,F值远远超过F检验的临界值,p值远小于,因此模型4从整体来看是可用的。表8的回归系数表观察t值发现,的对应的p值小于,说明回归变量对因变量的影响是显著的。模型4的残差分析 图5.4 模型4的残差分析从残差分析左图中可以看出,数据根本分布在直线附近,异常值较少;从右图中可以看出,数据大致在一个水平的带状区域内,且不呈现任何明显趋势,即相应的假设合理

26、。、模型2的分析与检验表15 模型2的误差估计模型汇总b模型RR 方调整 R 方标准 估计的误差1.858a.736.712.58401a. 预测变量: (常量), X2, X1。b. 因变量: YAnovab模型平方和df均方FSig.1回归20.880210.44030.609.000a残差7.50422.341总计28.38324a. 预测变量: (常量), X2, X1。b. 因变量: Y表15显示,调整后的=0.712指因变量瘦肉量的71.2%可由模型确定,F值远远超过F检验的临界值,p值远小于,因此模型2从整体来看是可用的。表9的回归系数表观察t值发现,的对应的p值大于,说明回归变

27、量对因变量的影响不是太显著的,但是对应的p值小于,说明回归变量是显著的。模型2的残差分析 图5.5 模型2的残差分析从残差分析左图中可以看出,异常值较多;从右图中可以看出,数据分布散乱,即相应的假设不合理。、模型3的分析与检验表16 模型3的误差估计模型汇总b模型RR 方调整 R 方标准 估计的误差1.917a.841.826.45321a. 预测变量: (常量), X3, X2。b. 因变量: YAnovab模型平方和df均方FSig.1回归23.864211.93258.094.000a残差4.51922.205总计28.38324a. 预测变量: (常量), X3, X2。b. 因变量:

28、 Y表16显示,调整后的=0.826指因变量瘦肉量的82.6%可由模型确定,F值远远超过F检验的临界值,p值远小于,因此模型3从整体来看是可用的。表10的回归系数表观察t值发现,的对应的p值均小于,说明回归变量对因变量的影响,是显著的。模型3的残差分析 图5.6模型3的残差分析从残差分析左图中可以看出,数据根本分布在直线附近,异常值较少;从右图中可以看出,数据大致在一个水平的带状区域内,且不呈现任何明显趋势,即相应的假设合理。、模型4的分析与检验表17 模型4的误差估计模型汇总b模型RR 方调整 R 方标准 估计的误差1.630a.397.342.88188a. 预测变量: (常量), X3,

29、 X1。b. 因变量: YAnovab模型平方和df均方FSig.1回归11.27325.6377.248.004a残差17.11022.778总计28.38324a. 预测变量: (常量), X3, X1。b. 因变量: Y表17显示,调整后的=0.342指因变量瘦肉量的34.2%可由模型确定,F值远远超过F检验的临界值,p值远小于,因此模型4从整体来看是可用的。表11的回归系数表观察t值发现,的对应的p值小于,说明回归变量对因变量的影响是显著的,但是对应的p值大于,辨明回归变量是不太显著的。模型4的残差分析 图5.7模型4的残差分析从残差分析左图中可以看出,数据根本分布在直线附近,异常值较

30、少;从右图中可以看出,数据分布较为散乱,即相应的假设不合理。5.2模型评价本文对于各种因素对于瘦肉量的影响建立了多元线性回归模型,全面综合考虑了各个方面的因素,防止了单一因素分析的不准确性,得出了合理的数学模型。并且通过各因素的显著性分析,找到了单个因素、两个因素分别对瘦肉量的影响,较符合实际情况,模型可靠,并且模型相对简单,利于操作;该方法不仅适用于此题,也适用于其他方面的数据预测,有实际背景,可运用于实践,具有广泛适用性。本文忽略了除了所给因素之外的因素对瘦肉量的影响,与实际问题存在偏差。同时是在假设各因素相互独立的情况下对瘦肉量的影响进行分析,可能会导致误差结 论在多元线性回归方程中,假

31、设有一个或几个偏回归系数不显著时,说明其对应的自变量对依变量的作用不显著,或说其在回归方程中不重要,此时应从回归方程中剔除一个不显著的偏回归系数对应的自变量,重新建立多元线性回归方程,再对新方程作新的显著性检验,直至多元线性回归方程显著,且各个偏回归系数都显著为止。此时的多元线性回归方程即为最优多元线性回归方程。鉴于以上问题,我们引入了逐步回归分析的方法,它的根本思想是将因子一个个引入,引入因子的条件是,该因子的偏回归平方和经检验时显著的。同时,每引入一个新因子后,要对老因子逐个检验,将偏回归平方和变为不显著的因子剔除。这种方法不需要计算偏相关系数,计算较简便,并且由于每步都作检验,因而保证了最后所得的方程中所有因子都是显著的。假设回归方程是拟合好的,就可以进一步利用它来进行预报和控制。预报问题,用统计数学的语言来说就是一个区间估计问题。在建立气象预报、地震预报、自动控制等数学模型时,都可以用到本文的模型。该文可以得到瘦肉量与眼肌面积、腿肉量()、腰肉量()的最正确多元线性回归模型为即瘦肉量主要与腿肉量()和腰肉量()相关。当腿肉量()一定时,腰肉量()每增加1kg,瘦肉量增加近2kg;当腰肉量()一定时,腿肉量()每增加1kg,瘦肉量增加2kg。参考文献1 姜启源,谢金星,叶俊.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论