版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
.PAGE.1.基于回归分析的公司销售额模型摘要本文讨论了利用全行业销售额预测公司销售额的线性回归问题。对于问题一,根据1977-1981年公司销售额和行业销售额的分季度数据,利用Matlab软件画出散点图,并由此得知他们显然存在正相关,因此可采取线性回归模型进行拟合;对于问题二,首先,由公司销售额和行业销售额之间的正自相关性建立相应的线性回归模型,利用Matlab统计工具箱计算回归方程中的决定系数、统计量及各级参数和参数置信区间;其次,根据决定系数判断模型计算结果的可信度,并将参数代入回归方程得到相应回归模型;最后,采用检验法检验模型中随机误差的自相关性。得出结论:该回归模型的随机误差存在正自相关性。对于问题三,进一步建立消除随机误差自相关性后的回归模型,类比问题二,利用Matlab统计工具箱计算回归方程中的决定系数及各级参数,检验其随机误差的自相关性,代入参数即得到消除自相关性后的回归模型。考虑到全行业销售额与公司销售额之间的相互关联性,可进一步对模型进行推广,预测下一年和季度的公司销售额。关键词回归分析法;自相关性;检验.PAGE.一、问题重述某公司欲用全行业销售额作自变量预测该公司销售额,下表为1977-1981年公司销售额和行业销售额的分季度数据<单位:百万元>。回答如下问题:问题一:根据数据画出公司销售额与全行业销售额的散点图,并观察用线性回归模型拟合是否合适;问题二:建立公司销售额对全行业销售额的回归模型,并用检验诊断随机误差项的自相关性;问题三:建立消除了随机误差项自相关性后的回归模型。表1公司销售额和全行业销售额季度数据表年季公司销售额行业销售额年季公司销售额行业销售额19771120.96127.331124.54148.32221.40130.041224.30146.43321.96132.7198011325.00150.24421.52129.421425.64153.119781522.39135.031526.36157.32622.70137.141626.98160.73723.48141.2198111727.52164.24823.66142.821827.78165.619791924.10145.531928.24168.721024.01145.342028.78171.7二、问题分析全行业的销售额情况通常情况下能够用来预测公司的销售额。本文将根据1977-1981年某公司及其全行业销售额数据解决如下问题:对于问题一公司销售额与全行业销售额的散点图,根据所给数据,利用matlab软件画出图像,并判断其自相关性; 对于问题二公司及全行业销售额的回归模型,首先,本文将利用matlab统计工具箱分别求解出回归方程中的各级参数及参数置信区间,代入得到线性回归模型;其次,画出其残差散点图,分析随机误差的自相关性;最后,采用检验法通过求解统计量并查阅其检验临界值诊断其随机误差项的自相关性〔[1];对于问题三消除随机误差自相关项的回归模型,利用matlab统计工具箱分别求解回归方程中的各级参数及其置信区间,进一步利用检验确定其自相关性,代入数据得到相应的线性回归模型。三、模型假设1.假设所给数据均真实有效,具有统计价值;2.假设公司销售额可由行业销售额推算,其他因素的影响较小;四、符号说明符号符号含义残差回归系数1回归系数2随机误差置信水平统计量值相关系数公司销售额检验临界值1检验临界值2全行业销售额回归方程决定系数与统计量对应的概率值回归变量包括常数项的数目五、模型建立于求解5.1问题一:根据题目所给数据利用matlab软件画出公司销售额与全行业销售额的散点图如下图:图1y对x的散点图由图像观察可以看出,随着行业销售额的增加,公司销售额也随之增加,且两者具有很强的线性关系,因此可建立一元线性回归模型。5.2问题二:根据散点图可以看出随着行业销售额的增加,公司销售额增大,而且两者有很强的线性关系,因此可以建立一元线性回归模型〔1〔1式中影响的其他因素的作用都包含在随机误差内,这里假设〔对相互独立,且服从均值为零的正态分布〔根据题目所给数据,对〔1利用matlab统计工具箱进行求解,得到回归系数估计值及其置信水平〔置信水平、检验统计量、、的结果见表2:表2〔1的回归系数估计值及各项参数参数参数估计值置信区间-1.4548[-1.9047,-1.0048]0.1763[0.1732,0.1793]将参数估计值代入〔1得到〔2从表面上看得到的基本模型〔2的拟合度已经很高了。但是这个模型并没有考虑到数据是一个时间序列。实际上,在对时间序列数据做回归分析时,模型的随机误差项有可能存在相关性,违背模型关于〔对相互独立的基本假设。如在公司销售额模型中,行业销售额之外的因素〔如政策等因素对行业销售额的影响包含在随机误差中,如果他的影响成为的主要部分,则由于政策等因素的连续性,他们对行业销售额的影响也有时间上的延续,即随机误差会出现〔自相关性。进一步,由于残差可以作为随机误差的估计值,从而判断随机误差是否存在自相关性。利用matlab软件计算其数据残差,如下表:表3残差12345-0.0261-0.06200.02200.16380.04666789100.04640.0436-0.0584-0.0944-0.14911112131415-0.1480-0.0531-0.02290.10590.085516171819200.10610.02910.0423-0.0443-0.0330为使结果更加直观明了,根据表3画出的散点图〔如图2,可以发现点大部分都落在在1,3象限,表明存在正相关。图2残差图在建立回归模型之前需检验其随机误差的自相关性,采用检验法进行判断。检验是一种常用的诊断自相关现象的统计方法。首先根据<1>得到残差计算统计量如下〔3经过简单的运算可知,当较大时〔4而〔4式右端的正是自相关系数的估计值,于是有〔5由于,所以,并且在附近,则在附近,的自相关性很弱〔或不存在自相关性;若在附近,则接近,的自相关性很强。要根据的具体数值确定随机误差是否存在自相关,可查阅分布表,得到检验的临界值,然后由图3中所在的区间来确定其自相关性。可由〔4式估计,即利用matlab计算可得查阅分布表可知当,,时,因为,可以认为随机误差存在正自相关性。5.3问题三:消除自相关性后,设〔6作变换〔7〔8〔9根据题目所给数据,对〔6式利用matlab统计工具箱进行求解,得到回归系数估计值及其置信水平〔置信水平、检验统计量、、的结果见表4:表4参数估计参数参数估计值置信区间-0.4976[-0.9003,-0.0949]0.1743[0.1681,0.1804]所在的区间确定其自相关性,如图3:0024正自相关不能确定无自相关不能确定负自相关图3与对应的自相关状态此时计算得到:,则查阅分布表可知当,,时,因为,可以认为其随机误差不存在自相关性进而由,联立〔7〔8〔9式并代入数据得到行业销售额与公司销售额之间的表达式:六、模型评价与推广模型评价:优点:若直接采用普通的回归模型处理,因无法预测其相关性,可能导致模型建立无意义;因此本模型采用先诊断数据是否存在自相关性,考虑自相关系数,再建立新的回归模型的方法来处理数据,具有现实意义;<2>模型建立于求解直观明了,简单易懂。缺点:由于数据本身可能存在一定误差,导致在求解过程中可能存在一定偏差;采用检验时若数值落在无法确定自相关性的区间,则只能设法增加数据量或选用其他方法,方法本身存在一定的局限性。模型推广:根据本文建立的销售额回归模型及其求解结果,可进一步对公司下一年及季度的销售额作出简单预测,这对公司选择销售价格及生产数量都有积极影响。另外,本模型同样适用于投资额与生产总值和物价指数、牙膏销售量等其他销售行业的预测。参考文献[1]姜启源等,数学模型〔第四版,北京:高等教育出版社,2011...附录附录1公司销售额与全行业销售额散点图x=[127.3130.0132.7129.4135.0137.1141.2142.8145.5145.3148.3146.4150.2153.1157.3160.7164.2165.6168.7171.7];y=[20.9621.4021.9621.5222.3922.7623.4823.6624.1024.0124.5424.3025.0025.6426.3626.9827.5227.7828.2428.78];plot<x,y,'ko'>xlabel<'x'>;ylabel<'y'>;附录2回归模型参数估计x=[127.3130.0132.7129.4135.0137.1141.2142.8145.5145.3148.3146.4150.2153.1157.3160.7164.2165.6168.7171.7];y=[20.9621.4021.9621.5222.3922.7623.4823.6624.1024.0124.5424.3025.0025.6426.3626.9827.5227.7828.2428.78];X=[ones<20,1>x.'];[b,bint,r,rint,stats]=regress<y.',X>附录3DW检验诊断随机误差的自相关性:x=[127.3130132.7129.4135137.1142.2142.8145.5145.3148.3146.4150.2153.1157.3160.7164.2165.6168.7171.7];y=[20.9621.421.9621.5222.3922.7623.4823.6624.124.0124.5424.32525.6426.3626.9827.5227.7828.2428.78];plot<x,y,'ko'>boxoffy=y.';x=x.';stand=ones<20,1>;x=[stand,x];[b,bint,r,rint,stats]=regress<y,x>;k=r;s=0;w=0;a=2;n=length<k>;fora=2:nd=k<a>-k<a-1>;d=d^2;s=s+d;f=k<a>;f=f^2;w=w+f;a=a+1;enddw=s/w附录4消除自相关后参数估计x=[127.3130132.7129.4135137.1142.2142.8145.5145.3148.3146.4150.2153.1157.3160.7164.2165.6168.7171.7];y=[20.9621.421.9621.5222.3922.7623.4823.6624.124.0124.5424.32525.6426.3626.9827.5227.7828.2428.78];y=y.';x=x.';stand=ones<20,1>;x=[stand,x];k=r;s=0;w=0;a=2;n=length<k>;fora=2:nd=k<a>-k<a-1>;d=d^2;s=s+d;f=k<a>;f=f^2;w=w+f;a=a+1;enddw=s/wp=1-dw/2;y1=ones<1,19>n=length<y>a=2whilea<n+1y1<1,a-1>=y<1,a>-p*y<1,a-1>a=a+1end;x1=ones<1,19>n=length<x>a=2whilea<n+1x1<1,a-1>=x<1,a>-p*x<1,a-1>;a=a+1end;y1=y1.';x1=x1.';stand=ones<19,1>;x=[stand,x1];[b,bint,r,rint,stats]=regress<y1,x>.PAGE.2.温度对乌龟性别影响的探究摘要本文讨论了温度如何影响乌龟性别的问题,求解雄龟与雌龟数量相当时的最适温度及温度升高对乌龟性别的影响。首先,对所给数据进行预处理,汇总不同温度下雄龟所占比例,利用Matlab软件画出表示雄龟性别比例与温度关系的散点图,观察得出两者之间存在非线性关系的结论;其次,先建立雄龟比例与温度之间的Logit一次回归模型,利用Matlab求出回归系数及各级回归参数,得到一次回归方程,经计算知使得雄龟与雌龟数量相当的最适温度为,画出拟合后的图像可以看出温度升高时的雄龟比例与实际比例出入较大;进一步引入自变量的二次项得到相应回归方程,运用似然比检验统计量检验是否需要引入自变量的二次项,由知可提高其拟合程度,并得到相应最适温度为,同时画出拟合后的图像发现雄龟比例与实际比较略为接近;引入自变量的三次项,此时经计算知远小于,拟合程度更高,进而计算得到其最适温度为,进一步由拟合图像知雄龟比例与实际比例更为接近;引入自变量的四次方项,由于,所以高于三阶项均不能提高拟合程度。最后,考虑到不同温度对乌龟性别产生影响之外的其他因素,将模型进一步推广,建立多变量Logit模型,探究可能影响乌龟性别的其他因素。关键词关键词Logit回归模型;发生比;似然比检验统计量法;Matlab软件..问题重述经科学研究表明,乌龟蛋孵化时的温度是决定乌龟性别的最关键因素,为了研究温度是如何影响幼龟的雌雄比例,下面给出在5个不同的恒定温度下,3批乌龟蛋中的相关数据:表1不同温度下雄、雌乌龟蛋个数及比例温度〔乌龟蛋个数雄龟个数雌龟个数雄龟比例27.2101910%8080%91811.1%27.7107370%64266.7%86275%28.313130100%96366.7%87187.5%28.4107370%85362.5%97277.8%29.91110190.9%880100%990100%根据相关数据建立幼龟性别比和孵化温度之间的Logit模型,求出当孵化出的幼龟性别比例恰好为时的孵化温度,并分析若温度每升高,幼龟性别的变化情况。问题分析科学研究表明,温度是决定乌龟性别的最关键因素。本文将建立幼龟性别比和温度之间的Logit模型〔[1],定量分析两者之间的相互影响关系,并找出雄雌比例为时的最适温度。首先,对所给数据进行预处理,将同一温度下的相关数据进行汇总,画出幼龟性别比与温度的散点图,观察这两者之间存在的线性关系;其次,本文将建立温度与雄龟比例的Logit模型,讨论自变量一次、二次、三次及四次回归模型,利用似然比检验统计量,确定确定符合要求的高阶最优回归模型,利用Matlab求出回归系数,分析系数标准差、拟合偏差、置信区间,求出回归方程并画出相应的拟合曲线;最后,利用表达式,求出当幼龟性别比恰为时的最适温度;利用统计学中发生比的概念〔幼龟中雄龟与雌龟概率之比分析温度每升高,幼龟性别的变化情况。三、模型假设1.假设乌龟性别仅由温度决定,忽略外界其他因素的影响;2.假设所选用的乌龟蛋都已受精并且幼龟孵化后均存活;3.不考虑海拔等地理条件对温度的影响,即能准确地控制温度;4.假设所给数据均真实有效,具有统计价值;5.假设实验所使用的乌龟蛋是独立选取的。四、符号说明符号符号含义温度〔回归系数1回归系数2回归系数3回归系数4雄龟个数占所有乌龟个数的比例温度为时雄性与雌性乌龟之比五、模型建立与求解温度是决定乌龟性别的最关键因素,未了探究温度对乌龟性别的影响以及雄、雌乌龟个数相当时的最适温度。首先,为了更直观看出三批乌龟蛋中雄龟占乌龟蛋个数的比例情况,将题目所给数据进一步进行汇总处理,建立表示雄龟比例的表格如下:表2雄龟比例温度〔乌龟蛋个数雄龟个数雄龟比例27.22720.07427.724170.708328.330260.866728.427190.703729.928270.9643为使结果呈现更加直观清晰,利用Matlab软件画出对应的散点图,如下图图1幼龟中雄龟比例对温度的散点图根据散点图建立幼龟性别比和孵化温度之间的Logit模型:5.1一次线性模型观察图像,幼龟性别比和孵化温度大致呈线性关系,用表示雄龟所占比例,则有〔1利用Matlab软件计算模型中与的最大似然估计值和他的标准差〔见表3,得到其拟合偏差为14.8692。表3模型参数估计值与标准差参数参数估计值标准差-61.318312.02242.21100.4309图2给出了Logistic模型的雄龟比例预测值与实际值的图像变化情况:图2雄龟比例实际值与预测值由〔1式得Logit模型化为〔2其次,利用Matlab软件计算不同温度下雄龟比例的预测值〔见表4表4不同温度下雄龟比例预测值与预测区间温度〔雄性比例预测值置信区间27.20.07400.2354[0.1289,0.3905]27.70.70830.4818[0.3685,0.5970]28.30.86670.7780[0.6689,0.8588]28.40.70370.8138[0.7044,0.8891]29.90.96430.9918[0.9547,0.9986] 由于Logit模型与统计中〔发生比例或优势比的概念有密切联系,而就是事件的发生概率与不发生概率之比。为此设为温度为时雄性与雌性乌龟之比,则有于是Logit模型可以表示为〔3当乌龟性别比例为时,由〔2式有,即时,解得由〔3式有〔4变换可得当时,,每增加一个单位,比会相应增加,对任意正整数由〔4式有〔5即知,当温度每升高,比都会增加,即为结论:当温度为时,雄龟与雌龟比例恰为。当温度为时,,发生比为,幼龟中雄龟的个数是雌龟的倍;当温度为时,,发生比为,幼龟中雄龟的个数是雌龟的倍;当温度为时,,发生比为,幼龟中雄龟的个数是雌龟的倍;当温度为时,,发生比为,幼龟中雄龟的个数是雌龟的倍。可见,温度每升高时,雄龟都相应增多,考虑模型是否可以继续优化,所以改进模型引入的二次项。5.2引入项后的模型引入项后模型变为〔6首先,利用Matlab软件计算模型中、和的最大似然估计值和标准差〔见表3,得到其拟合偏差为10.1767。同时,表示引入项能显著提高拟合程度。表3模型参数估计值与标准差参数参数估计值标准差-677.5950268.807145.917518.9175-0.77450.3327图3给出了Logistic模型的雄龟比例预测值与实际值散点图图3雄龟比例实际值与预测值将数据代入〔6式得Logit模型化为其次,利用Matlab软件计算不同温度下雄龟比例的预测值〔见表5表5不同温度下雄龟比例预测值与预测区间温度〔雄性比例预测值置信区间27.20.07400.1600[0.0708,0.3224]27.70.70830.5100[0.3852,0.6336]28.30.86670.8274[0.7185,0.9000]28.40.70370.8541[0.7520,0.9187]29.90.96430.9485[0.7775,0.9898]同理<6>当乌龟性别比例为时,由〔6式有,即时,解得同理有且对任意正整数有即知,当温度每升高,比都会增加,即为结论:当温度为时,雄龟与雌龟比例恰为。当温度为时,,发生比为,幼龟中雄龟的个数是雌龟的倍;当温度为时,,发生比为,幼龟中雄龟的个数是雌龟的倍;当温度为时,,发生比为,幼龟中雄龟的个数是雌龟的倍;当温度为时,,发生比为,幼龟中雄龟的个数是雌龟的倍。可见,温度每升高时,雄龟个数都相应增多,考虑模型是否可以继续优化,所以再次改进模型引入的三次项。5.3引入项后的模型引入项后模型变为〔7首先,利用Matlab软件计算模型中、、和的最大似然估计值和标准差〔见表6,得到其拟合偏差为1.6829。同时表示引入项能显著提高拟合程度表6模型参数估计值与标准差参数参数估计值标准差-53633.368619466.07275630.83902051.3550196.982272.01432.29620.8422图4给出了Logistic模型的雄龟比例预测值与实际值散点图图4雄龟比例实际值与预测值散点图将所得数据代入〔7式得Logit模型化为其次,利用Matlab软件计算不同温度下雄龟比例的预测值〔见表4表6不同温度下雄龟比例预测值与预测区间温度〔雄性比例预测值置信区间27.20.07400.0694[0.0167,0.1868]27.70.70830.7284[0.5252,0.8667]28.30.86670.7964[0.6849,0.8756]28.40.70370.7917[0.6476,0.8920]29.90.96430.9637[0.7856,0.9948]同理当乌龟性别比例为时,由〔6式有,即时,解得同理有且对任意正整数有即知,当温度每升高,比都会增加,即为结论:当温度为时,雄龟与雌龟比例恰为。当温度为时,,发生比为,幼龟中雄龟的个数是雌龟的倍;当温度为时,,发生比为,幼龟中雄龟的个数是雌龟的倍;当温度为时,,发生比为,幼龟中雄龟的个数是雌龟的倍;当温度为时,,发生比为,幼龟中雄龟的个数是雌龟的倍。可见,温度每升高时,雄龟个数先增多后减少。考虑模型是否可以继续优化,所以再次改进模型引入的四次项。5.4引入项后的模型利用Matlab计算可知,表示引入项不能显著提高拟合程度。综上:幼龟性别比和孵化温度之间的最优Logit模型为当温度为时,雄龟与雌龟比例恰为;当温度每升高时,变化关系如图5所示:图5比随温度变化图六、模型评价与推广模型评价:优点:利用温度与雄龟比例的关系建立回归模型,简化模型,便于求解;运用Logit模型时,通过比较与的大小关系确定模型。缺点:〔1由于忽略外界因素对乌龟性别的影响,所得的模型结果可能存在一定偏差;〔2在控制温度时,因地域或海拔的不同,会使温度的调控出现一定的误差。模型推广: Logit模型是一种广义的线性模型,本文只涉及0—1变量且只有一个自变量,而实际上他对于多个变量Logit模型也同样适用,可在初始模型中一个个地加入自变量,包括某个自变量的二次或高此项,也包括某些自变量的交叉变量,并且实时地进行模型比较检验,以便选择与数据拟合较好的模型。该模型也广泛应用于医学、社会调查、生物信息处理等领域。参考文献[1]姜启源等,数学模型〔第四版,北京:高等教育出版社,2011...附录附录一:一次项
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论