版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、统计回归模型的研究 论文作者:林成家 专 业:信息与计算科学 班 级:050803 学 号:20052005 指导教师:杨孝英 摘 要统计回归模型是用一个或多个其他变数来预测另一个变量。通过现在或过去事件的信息来预测现在和未来的事项,同时统计回归模型在现实中的应用更是有着广泛和实际的意义。本论文主要研究统计回归模型在现实生活中的应用,以达到学以致用的目的。文章分三个部分,第一部分,统计回归模型的概念以及基础知识;第二部分是统计回归模型在现实生活中实际应用的示范举例,例如在电信行业、化工行业、农业等方面;第三部分是文章的总结。文章涉及到最小二乘法解法以及t检验,F检验,误差分析,残差分析,区间估
2、计等本科学习中的一些知识,这也是对以前所学知识的一种复习与巩固,希望通过研究能真正达到将理论知识应用到现实生活中的效果,为社会更好的服务。关键词:统计回归模型 最小二乘法 t检验 区间估计AbstractStatistical regression models are used to predict one variable from one or more other variables. Regression models provide the scientist with a powerful tool, allowing predictions about past, presen
3、t, or future events to be made with information about past or present events. At the same time, the statistical regression model is a broad and practical significance application in reality. This paper major research the application of statistical regression model in real life, the purpose is apply
4、what they have learned. The article is divided into three parts: the first part is the concept of statistical regression model and basic knowledge; the second part is the examples of statistical regression model in real life, for example, in the telecommunications industry, chemical industry, agricu
5、lture, etc; the third part is a summary of the article. Articles related to some knowledge in undergraduate study, such as least squares solution and the t test, F test, error analysis, residuals analysis, interval estimation. This is a review and consolidation to the previously learned knowledge. H
6、ope through research to be able to really achieve the desired effect that theoretical knowledge apply to real life, better service for the community.Keywords: statistical regression model, least squares, t test, interval estimation目 录一、绪论1二、统计回归模型的应用3 1、统计回归模型在电信行业的应用 51.1指标选取及小组划分51.2 各组电信业务收入回归模型及
7、其检验61.3各组影响因素分析 71.4结论及研究意义 8 2、统计回归模型在化工行业的应用 9 2.1统计回归模型在酮苯脱蜡脱油装置上的应用 92.2酮苯脱蜡模型建立 102.3模型验证 112.4蜡收率模型验证 132.5 结论 15 3、统计回归模型在农业中的应用 15 3.1 建模背景 153.2 组建统计回归模型 1633 回归值的统计精度分析 183.4 概率预报及其区间估计 183.5 结语 19三、参考文献 21 一、绪论当人们对研究对象的内在特性和各因素的关系有比较充分的认识时,一般用机理分析方法建立数学模型,如果由于客观事物内部规律的复杂性以及人们认识程度的限制,无法分析实
8、际对象内在的因果关系,建立合乎机理规律的数学模型,那么通常的办法是搜索大量的数据,基于对数据的统计分析去建立模型,而统计回归模型是一种用途非常广泛的一类随机模型。同时统计回归模型在现实应用中应用更加广泛。本论文就是基于统计回归模型的理论在现实生活中各行各业的实际应用来加以研究。二、统计回归模型在现实中的应用1.统计回归模型在电信业务的应用目前,我国各大电信集团的业务发展及收入多呈自然地域的特点,而电信业务的发展受当地经济发展状况、消费者文化程度及消费水平等因素的影响和制约,集团在制定收入计划时能否可以参考当地经济发展指标的变动而客观地制定集团宏观和微观的业务收入计划,并根据当地社会发展规划进行
9、必要的调整。通过2002年-2004年一些社会指标,建立了各组电信业务收入与社会经济指标之间的回归模型。11指标选取及小组划分各地区经济指标种类繁多,总体来看,主要包括国民经济核算、人口、教育、劳动就业、固定资产投资、能源生产与消费、财政、物价及各行业指标。在众多指标中,难免会存在相关性较高的指标,在回归分析中,这种多重共线性的存在不仅使得回归模型难以真实的反映各指标与电信业务收入的关系,而且指标间的相互扭曲会导致部分指标统计量不显著。选取人均电信业务收入为电信发展水平被解释变量,以人均GDP、最终消费与资本形成总额的比值、人口数、大专以上人口占6岁以上人口的比值四项指标分别代表当地经济发展水
10、平、消费水平、人口总量、文化程度,如表1,并进行了人均电信业务收入和人均GDP及人口数的对数处理。在指标和量纲的选取思路是,人均指标与比例指标的选取避免了多重共线性问题,又很好地表现了经济属性,并对人均指标和人口数量进行了对数处理,对数的选择既平衡了各统计量的数值悬殊问题,又平衡了指标中实际值与比例值的差别。根据人均GDP和人均电信业务收入2002-2004年指标,经过聚类分析得到四组,如表2所示。1.2各组电信业务收入回归模型及其检验对于2002-2004年的数据,我们视为截面数据,直接采用多元回归模型进行拟合,并对其结果进行检验。在确定了具有代表性而且不存在多种共线性问题的经济指标的基础上
11、,对各个小组分别进行回归分析,建立多元线性回归方程如下:y=0+1x1+2x2+3x3+4x4+其中, y, x1, x2, x3, x4如表1所述,将各组中某地区2002-2004年的各指标作为一个统计量,通过最小二乘估计得到以下各组回归方程第一组: y=-1.135+1.003+5.826, =0.989 F=267.07第二组: y=-14.417+2.005+1.176, =0.831 F=36.98第三组: y= -3.3+1.131+0.407-0.262+3.525 =0.787F=96.14第四组: y=0.895+0.740-0.1-0.25, =0.848 F=88.45各
12、组均经F检验有效,对所有回归方程的残差分析,无异常值出现,并进行了拟合,得到了良好的回归误差分析效果,回归模型误差分析结果略。1.3各组影响因素分析回归模型不仅从数量上反映了各指标因素与电信行业收入指标的关系,而且确定了各地区电信业务收入指标的影响质量。每一组的模型中,影响电信业务收入指标的各因素的解释能力各不同,而且影响的正负方向也不同,如表3通过提高经济发展水平可以促进除第一组外的其它三组的电信发展水平,它们与电信发展水平之间具有强的乘数效应;提高消费水平可以促进第二组和第三组的电信发展水平,但却将减少第四组的电信发展水平;提高文化程度可以增加和第一组和第三组的电信发展水平扩大人口数量将提
13、高第一组电信发展水平,却减少第三组电信发展水平。(1)具有电信发展水平高、经济发达、消费水平高、人口文化程度高的特点从回归模型的结果来看,人口规模和文化程度两个因素同时对电信发展有显著的正向影响作用,其中,人口规模对人均电信业务收入的弹性系数略大于1,文化程度每增长1单位则促进人均电信业务收入增长5.826单位。经济发展和消费水平两个因素对电信发展的影响不显著,表明该组的经济水平的提高已经很难再对电信发展做出新贡献,即电信发展水平的提高已经不依赖于当地经济发展水平和消费水平的提高,而且较大程度地依赖当地人口文化程度的提高,同时,随着人口规模的扩大,促进电信发展水平的提高。因此,建议第一组以吸引
14、高层次人才的方式提高人口文化程度,扩大人口规模,这正与目前的政策相吻合。(2) 具有经济较发达且人口众多、文化程度较高、消费水平较高的特点对于经济发达的省份,经济发展水平和消费水平两个因素对电信的发展有显著地正向影响,而其它的两个因素作用不显著,经济发展水平对电信发展水平的弹性系数是2,消费水平对电信发展水平的弹性系数是1.176,相比之下,说明电信发展水平的提高更多地依赖经济发展水平的提高,建议在提高消费水平的同时,大力提高经济发展水平,以提高电信发展水平,而人口规模和文化程度对电信发展水平的提高不显著,因此,不能依赖人口的增加和人口文化程度的提高的方式促进电信发展水平的提高。(3)经济整体
15、实力较低,多数边远省份,人口数量少,人口文化程度普遍不高,消费水平较低四个因素都对电信的发展有显著的影响,其中,人口规模因素是负的影响,这可能是由于这些地区的地理区域大,人口却很稀少,导致对电信发展的束缚,而其它因素都是正向的,影响最大的是人口文化程度,因此,建议该组以不扩大人口规模、快速提高文化程度、加快经济发展水平、提高消费水平的方式来增加电信发展水平,特别是电信发展水平对人口文化程度的变化最敏感。(4)经济发展对电信发展产生正的影响作用,消费水平和人口规模均对电信的发展有负的影响作用,人口文化程度的影响作用不显著相比之下,经济发展是该组促进电信发展的唯一正向动力,其落后已经严重制约了电信
16、发展水平,同时要控制人口规模的增长,降低消费与资本形成的比值,即相对最终消费而言,适度扩大资本总量的方式促进电信发展。1.4结论及研究意义我国电信业务收入水平依赖当地经济发展水平、消费水平、人口总量及文化教育程度方面的影响和制约,各影响因素的影响程度分小组而不同。通过建立和分析各小组电信业务收入回归模型,得到各组电信业务收入的主要影响作用指标和依赖程度。因此,在制定微观收入分配计划时,可以参照或跟踪当地经济发展水平提高的幅度、参考当地消费水平的变化幅度、或者根据人口总量和文化程度的变化做相应的调整,得到较为客观、可依赖的、现实的社会经济指标量化的依据。2.统计回归模型在化工上的应用2.1统计回
17、归模型在酮苯脱蜡脱油装置上的应用在相关文献资料的基础上,应用SPSS统计软件、采取多元线性回归方法找出影响酮苯脱蜡装置200SN正序油、蜡产品收率的因素进行建模,同时予以验证,将经验性调整操作参数转变为定量化指导生产,从而达到了生产关键操作参数定量化并能预测产品收率。影响酮苯脱蜡油收率、蜡收率因素较多,本次引入自变量依次为:X1原料油量;X2一次稀释比;X3二次稀释比;X4三次稀释比;X5滤机进料温度;X6酮比;X7一段稀释量;X8二段稀释量;X9一段温度;X10二段温度。因变量为:Y1油收率,%;Y2蜡收率,%。本模型立足点是将操作数据给予定量化处理,得到的模型可用以预测和规划,并为下一步调
18、优打下良好基础,从而实现效益最大化。在数理统计原理基础上,利用SPSS(12. 0版)统计分析软件,对2005至2006年装置相关数据进行采集、整理,以8 h为基准,采集从2005年8月1日到2006年8月1日共计一年的历史数据,剔除非正常生产数据,取值范围原料为200SN正序生产工艺、产品为58#半炼脱蜡及脱蜡油,进行多元线性回归建立数学模型,本次建模共计269组样本数据,符合SPSS统计软件要求。2.2酮苯脱蜡模型建立利用SPSS多元线性回归软件,采用逐步回归方法,从269组数据里剔除了7组数据,有效数据为262组。得到200SN原料油收率数学模型。回归结果见表1。油收率模型:Y1=64.
19、 324+6. 136一次稀释比-12. 094二次稀释比+8. 671三次稀释比-0. 148滤机进料温度利用多元线性回归,采用逐步回归法,从269组数据里剔除了5组数据,有效数据为264组。得到200SN原料蜡收率数学模型。回归结果见表2蜡收率模型:Y2=12. 137+0. 313原料油量+4. 427二次稀释比+4. 710三次稀释比+0. 154酮比 -0. 112二段稀释量-0. 123一段温度2.3模型验证(1)拟合优度检验从表3可以看出: R=0. 564,判定系数R2=0. 318,调整的判定系数R2=0. 302,调整的判定系数0. 302大于0. 1946,且油收率逐步回
20、归模型样本数为262,大于254,本模型有效。(2)F检验方差分析(F检验法)进行回归方程的显著性全检验。从表3可以看出:统计量F=28. 809,大于概率统计值要求的F3. 84;相伴概率值小于0. 001;说明自变量X与因变量Y之间确有线性回归关系,满足要求,该模型有效。(3)实际验证回归的模型可以对实际生产予以解释,同时模型还有估计作用,即在数据文件内,通过键入自变量的值,进行一次回归操作,则可以得出估计值。在实际生产优化工作中,可根据上述模型进行预测未知的生产数据。随机取2006年11月数据代入模型中验证,实际准确率达95%左右。经过上述检验,说明模型可以实际应用。2. 4蜡收率模型验
21、证(1)拟合优度检验从表4可以看出: R=0. 604,判定系数R2=0. 365,调整的判定系数R2=0. 350,调整的判定系数0. 350大于0. 1946,且总液收逐步回归模型样本数为264,大于254,本模型有效。D-W值符合统计假设要求,通过检验。(2)F检验见方差分析表5,从输出的结果可以看出:统计量F=24. 705,大于概率统计值要求的F3. 84;相伴概率值小于0. 001;说明自变量X与因变量Y之间确有线性回归关系,满足要求,该模型有效(3)实际验证随机取2006年11月数据代入模型中验证,实际准确率达95%左右。经过上述检验,说明模型可以实际应用。2.5结论(1)通过使
22、用SPSS软件,利用线性回归方法,以酮苯脱蜡装置2005年8月至2006年8月实际操作数据为基础,得到了关于酮苯脱蜡装置油收率、蜡收率的模型。经检验回归,模型都可以反映生产实际,同时通过了验证。(2)相关部门可以根据市场的需求,结合上述数学模型,利用线性规划模块进行优化,得出各变量的最佳变化范围,从而科学地做出生产经营决策,指导装置的生产,实现效益最大化。3统计回归在农业育种上的应用3.1 建模背景统计回归模型的因变量与自变量多为一种不确定的函数关系,不能期望自变量的数值相同,因变量的数值必然相同。如稻谷产量与生育期总积温这两个变量就存在着不完全确定的关系,即生育期总积温相同,在不同的年分里,
23、既使在同一块田里,稻谷的产量也往往不同。出现这类情况的原因是很复杂的,因为影响稻谷产量的因子是多样的,且因子之间又相互制约,再加上一些其他偶然因素的作用,就使得变量之间的关系形成了不确定性。这种不确定的关系可以称之为统计相关关系,所建立的回归方程,称为统计回归模型。在实际工作中,依据有限容量的样本数据,只要经过因子筛选和模式选择,方差分析达到显著水平是不难实现的。但利用这种统计回归模型对因变量做出预测,其效果往往不是很理想的。原因是利用样本资料,可以建立多种方差分析达到显著水平的统计预报模型。需要对这些模型进行统计精度的对比分析,在此基础上,选择几种实用模型作为统计预报模型,不仅要给出预报量,
24、还要给出其不同概率下的预报值的变化幅度,才能真正满足用户的需要。这种预报可以称之为概率预报。在多数情况下,用户还要根据生产(业务)的实际需要,对预报精度提出具体要求,这更有必要对预报模型进行统计精度的对比分析。显然,在过去的工作中往往忽略了这一点。利用一组农业区域试验资料,试图通过对若干曲线统计回归模型进行相关检验和统计精度分析达到上述目的,以期改变某些定量的农业气象预报的发布内容和形式。相信这种概率预报尝试将会得到农业指挥机关和主产单位的欢迎与认可;将会推动农业气象预报的技术进步。3.2组建统计回归模型因子普查是组建统计回归模型的第一步。根据农业气象基础理论知识,影啊稻谷壳率的主要气象因子是
25、减数分裂期,穗花期的气温、日照、降水、风等。低温寡照、高湿、强降水、北风等都将不同程度地增加稻谷空壳率。为此,我们利用一组20个样本的水稻空壳率资料,从抽穗前20天至抽穗后10天.普查各种相关气象要素与空壳率的相关关系。发现空壳率与抽穗前后5日平均气温相关系数最大.,r-0.8358,达极显著水平(附图)。模型选择是在因子普查基础上,组建统计回归方程极为重要的环节。在稻谷空壳率的5日平均气温散点图中,依据点子的分布状况,结合统计数学的基本知识、可以用8种配线去逼近这些经验点子,其数学表达式为 (1) - 显然,除外其余7种均属曲线。式(2- 8)都是可以经过变量变换将曲线相关化成直线相关的即都
26、可以化成式(l)的形式,通过新的直线形式去求解待定系数,自然希望方程的总误差最小为佳,根据最小二乘法原理可求上列各式的待定系数。然后将各系数代入原式,则有:模型 (直线) a=258.2323 b=-11.51902模型(幂函数) b=-7.838483 模型(带常量的幂函数) b=-24.1398 c=13.7 模型(指数函数) b=-0.3872072 d=56145.4模型(带常量的指数函数) b=-1.263781 c=13.8 模型(双曲线) a=-0.3555285 b=-6.177478模型(带常量的双曲线) a=-7.105693 b=0.4046098模型(带常量的对数函数)
27、 a=729.6324 b=-539.688从理论上讲,从这8种模型中筛选试验资料的最佳配线,首先需要对变量关系进行线性和非线性检验,即比较直线相关系数(r)与曲线相关比(R)的大小。在一般情况下,当R= r时,两个变量之间的关系为直线相关;当(R>r)时,为曲线相关;(R- r)值越大,曲线相关越明显。那么,(R- r)值达到什么程度才可以认为曲线相关显著呢?则需要对及与r的差异进行显著性t检验(表1)。所有模型的相关系数、F、值及(R一r)差异的t检验值的大小分布顺序都是一致的,前两者均达到极显著水平,后者直线与曲线的差异。检验未达显著程度,故曲线与直线的差异在统计上无显著区别:其值
28、变化在0.3165041.185 070。显然,如果没有各预计回归模型各相关检验参数的比较,利用这组试验数据选配直线或任一曲线方程都是可以的。但从表1的相关系数(R)和F值来看,模型y7的值为最大,分别为0.989675和797.1965,而(R-r)差异t检验虽未获通过,但也是8个模型中最高的,达到1.185070,.也就是说,7个曲线中,与直线差异最大的也属模型y7。 表 1 各统计回归模型的相关检验参数模式代码Y3(R-r)差异t -0.7646141.178 614 0.686815R0.8358100.9030540.9881320.890462F41.718 752.2978776
29、.4332 44.2159模式代码(R-r)差异t 1.1741591.0999771.1850700.316504R0.9870710.9698290.9896750.847711F703.3885204.5639797.196546.007933 回归值的统计精度分析为了增加回归方程的稳定性,客观地反映变量间的内在规律,提高方程精度和实用价值,一是要千方百计地保证观测数据本身的精确度,努力减少测量误差;二是尽可能增加观测次数,扩大样本容量;三是尽可能增大观测数据的离散程度。其目的集中一点,就是最大限度地减少回归估计值的波动,确保方程有足够的精度。对于直接影响待定系数波动大小的回归值的彼动可
30、用其标准差表示 (9)显然,回归值的波动大小不仅与剩余标准差、样本容量和自变量的离散程度有关,还与x的取值密切相关,即X越接近平均数,其回归值的波动越小,方程精度愈高,回归效果愈好。对于固定的、则Y的取值是以回归值为中心有所波动,判断波动的显著性也可以用t检验法。并达到了极显著水平,说明了这些模型的回归效果均较好。但由于值线化后的Y轴量纲发生了变化而失去比较性,所以仅凭的大小不能直接判断方程的优劣,为此需返回到各类曲线模型去鉴别。总之提高统计回归模型精度的因素除去其他随机因素的制约外,可以归纳为:观测数据的准确性(同步行);样本容量的充足性;自变量的离散性;方程剩余标准差的微小型。而剩余标准差
31、是表述所有因素对因变量综合影响的重要指标,是衡量统计回归模型精度极为重要的参数,在筛选模型中具有举足轻重的作用。3.4 概率预报及其区间估计在实践中,用统计回归模型进行实际预报时,这种模型可称之为统计预报模型。在实施预报时,考虑到样本容量的有限性、观测误差的随机影响以及回归方程的稳定性等因素,对于固定的x= x。,则Y的取值虽仍以为中心对称波动,但其波动程度的标准差实际上要比方程的剩余标准差大。此时,预报值的标准差应为 (10)预报值的对称波动范围可以称为统计预报模型的变幅,统计上称为置信区间。估计置信区间的发生可能程度即为概率,这种预报可称之为概率预报,则区间估计 (11)为便于比较,这里分
32、别给出了当x。=18.2、20.1、22.0时,8个模型3个信度下的预报值及区间估计(表2)。 表2 各统计预报模型预报值及置信区间其一,对于固定的。,则预报Y的取值是y。为中心对称分布的。以模型7为例,当x=18.2时,则数学期望值=70.90384,有99.9%的机会可落在60.6489481.15874,即置信区间是以70.90384为中心,以为振幅上下波动。有80%的机会落在76.4262774.38141,是以70.90384为中心以为振幅上下波动。依此类推,可以估算出任何概率下的置信区间。若以模型6为例,当x。=18.2时.则预报值y的数学期=62.08623,有99.9呢的机会落
33、在44.51731 79.65514,有95%的机会落在52.67463 71.49783,有80%的机会落在56.1283868.04407,其振幅分别为士3.9225、士2.1025、士1.3305。由此不难看出,预报要求的概率愈大,其置信区间愈宽。剩余标准差决定了预报精度,S愈小,预报值置信区间愈窄,预报的精度愈高;反之.5愈大,顶报位置信区间愈宽,预报的精度愈差。模型7与模型6对比.显然,模型7比模型6的预报精度高得多。其二.在有限样本容量的前提下,利用模型实施顶报时,预报值的波动,即它的标准差不仪比回归模型的剩余标准差要大,而且,它的取值还与x的取值有关。二的取值愈接近平均数,预报值
34、y的波动范围愈小,预寸伎的精度愈高。仍以模型7为例.当x=18.2时.预报值的标准差=2.614713;当x=20.1时(二序列的平均数). =2.46053()(最小),在99.9%概率下的置信区间为10.33937 29.63976,显然,振幅相对变小了,为士9.6501950。当x的取值等于x士d时,对于给定的概率,预报值的置信区问相同。其三,综观8种回归模型,无论x的取值如何,均以模型7的标准差为最小,预报值的置信区间最窄,预报的精度最高;其次为,模型;以后依次为,: ,,:,最差的为模型,其标准差为模型7的3.83倍。3.5结语5.1利用一组样本资料所建立的8种回归模型,虽然在相关检验和方程精度检验等方面均能达到统计上的要求。但在实施预报时,首先需要对各种回归模
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 广东酒店管理职业技术学院《食品微生物综合实训》2023-2024学年第一学期期末试卷
- 广东金融学院《公司金融含实验》2023-2024学年第一学期期末试卷
- 广东建设职业技术学院《技术及应用实验》2023-2024学年第一学期期末试卷
- 广东金融学院《小动物影像学》2023-2024学年第一学期期末试卷
- 网络文明培训课件
- 《能源互联网》课件
- 小班安全课件《狗狗来了》
- 厨具销售培训课件
- 共青科技职业学院《现代基础化学》2023-2024学年第一学期期末试卷
- 赣州师范高等专科学校《金融法》2023-2024学年第一学期期末试卷
- 导航通信一体化考核试卷
- 甘肃省会宁二中2025届高考仿真模拟数学试卷含解析
- 2024年未成年子女房产赠与协议
- 2024-2030年中国共模电感环形铁芯行业发展状况规划分析报告
- 眼视光学理论和方法知到智慧树章节测试课后答案2024年秋山东中医药大学
- 节约集约建设用地标准 DG-TJ08-2422-2023
- 《氮化硅陶瓷》课件
- 山东省济南市历城区2024-2025学年二年级上学期期末数学模拟检测卷(含答案)
- 叉车维护维修合同
- 2024年财务部年度工作总结(7篇)
- 2024年度医疗美容服务合作合同3篇
评论
0/150
提交评论