回归模型在统计分析中的应用(共24页)_第1页
回归模型在统计分析中的应用(共24页)_第2页
回归模型在统计分析中的应用(共24页)_第3页
回归模型在统计分析中的应用(共24页)_第4页
回归模型在统计分析中的应用(共24页)_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 回归模型(mxng)在统计分析中的应用摘要(zhiyo)在人们研究对象的内在特性(txng)和个因素间的关系时,通常会建立数学模型。在无法分析实际对象内在的因果关系时,往往会基于对数据的统计分析去建立模型。回归分析作为统计数据寻求变量间关系的近似表达式的一种方法,其广泛用途使得回归模型成为了数据统计分析中的一种常见模型。本论文分别从数学模型,回归分析,统计分析等的基本概念出发,进一步阐述了数学建模的基本方法和一般步骤,回归分析的基本模型、步骤和分类,以及统计分析的步骤。最后借用MATLAB软件,以一个关于人们对某种品牌食品的评价的实例,用合理的步骤详细描述了在解决回归模型在统计分析中的应用的

2、问题中该如何具体去做。关键词:数学模型;统计分析;回归分析;回归模型;MATLAB软件APPLICATION OF REGRESSION MODEL IN STATISTICAL ANALYSISABSTRACT In the process of researching the relationship between the inner characteristics and factors of the object,people usually build mathematical model. In the case of the inner causality that peopl

3、e can not analyse of actual object,we often to build model based on statistical analysis of data. As a method for seeking a approximate expressions of the statistical data,the wide applications of regression analysis made regression model become a common model in statistical analysis of data.This pa

4、per starts from the the basic concept such as the mathematical model,regression analysis and statistical analysis.Then further elaborated the basic methods and general steps of mathematical modeling, the basic model, steps and classification of regression analysis, and the steps of statistical analy

5、sis. Finally, applying MATLAB software,using reasonable steps to describe how to solve the problem that the application of regression models in statistical analysis in detail,by using a example about peoples evaluation towards a certain brand of food.Key words: mathematical model; statistical analys

6、is; regression analysis; regression model; MATLAB software 目 录 TOC o 1-3 h z u HYPERLINK l _Toc29287 1 问题(wnt)的提出 1 问题(wnt)的提出 当人们在研究对象的内在(nizi)特性和各因素间的关系时,通常会寻求变量间的一个具体表达式,采用机理分析方法建立数学模型。而往往由于客观事物内部规律的复杂性及人们认识程度的限制,无法分析实际对象内在的因果关系,不能确定一个具体的表达式,于是便建立合乎机理规律的数学模型,去寻求变量间关系的近似表达式,通常的方法是搜集大量的数据,基于对数据的统计分

7、析去建立模型。而统计回归模型是用途非常广泛的一类随机模型1。2 数学(shxu)模型与数学建模2.1 基本概念数学模型(Mathematical Model)可以描述为,对于现实世界的一个特定对象,为了一个特定目的,根据特有的内在规律,做出一些必要的简化假设,运用适当的数学(shxu)工具,得到的一个数学结构。这里的“特定(tdng)对象”是为了解决某个实际问题而提出的;“特定目的”是指当研究一个特定对象时要达到的目的,如分析、预测、控制、决策等;“数学结构”可以是数学关系式,也可以是程序、图、表等。数学建模(Mathematical Modeling)则是指建立数学模型的全过程1。2.2 数

8、学建模的基本方法一般来说,建模方法大体上可分为两种:机理分析和测试分析。机理分析:根据对客观事物特性的认识,找出反映内部机理的数量规律,建立的模型常有明确的物理或现实意义。测试分析:将研究对象看作一个“黑箱”系统(意思是它的内部机理看不清楚),通过对系统输入、输出数据的测量和统计分析,按照一定的准则找出与数据拟合得最好的模型1。2.2 数学建模的一般步骤模型准备:了解问题的实际背景,明确建模实际目的和意义,搜集对象必要的信息如现象、数据等,尽量弄清对象的主要特征,形成一个比较清晰的“问题”,由此初步确定模型的类型。模型假设:根据实际对象的特征和建模的目的,抓住问题的本质,忽略次要因素,做出必要

9、的、合理的简化假设。模型构成:根据所作的假设,用数学的语言、符号描述对象的内在(nizi)规律,建立包含(bohn)常量、变量等的数学模型,如优化模型、微分方程模型、差分方程模型、图的模型等。模型求解:利用(lyng)获取的数据资料,采用解方程、画图法、优化方法、数值计算、统计分析等各种数学方法,尤其是计算机技术以及数学软件等对模型的所有参数做出计算(或近似计算)。模型分析:对所要建立模型的思路进行阐述,对所得的结果进行数学上的分析,如结果的误差分析、统计分析、模型对数据的灵敏性分析、对假设的强健性分析等。模型检验:将求解和分析结果翻译回到实际问题中,并与实际情形进行比较,以此来验证模型的准确

10、性、合理性和实用性。模型应用与推广:应用的方式与问题性质、建模目的及最终的结果有关,而模型的推广就是将已有模型扩展为一个更加全面,更加符合现实情况,更加适用的模型1。3 回归分析(fnx)与回归模型3.1 基本概念回归(hugu)分析(regression analysis)是用统计数据寻求变量间关系的近似表达式的一种方法,并利用所得公式进行统计描述、分析和推断,解决预测、控制和优化问题。回归模型(mxng)(regression model)是对统计关系进行定量描述的一种数学模型。线性回归(liner regressing)是应用上最重要、理论上较完善的回归分析方法2,5。3.2 刻画回归模

11、型 用表示因变量,用表示自变量,其中是自变量的个数,和之间的真实关系可近似地用下述回归模型刻画 (3-1)其中是随机误差,它代表在近似过程中产生的偏差,也就是模型不能精确拟合数据的原因。函数刻画了和之间的关系,最简单的情形是线性回归模型3 (3-2)3.3 回归分析的步骤 回归分析包括以下步骤:问题陈述确定变量收集数据模型设定进行相关分析计算预测误差确定(qudng)预测值3,43.4 回归(hugu)分析的分类 根据(gnj)条件可将回归分析分为如下几类3:表 1 回归分析的分类回归类型条 件单变量只有一个定量的因变量多变量有两个或两个以上定量的因变量简单只有一个自变量多元有两个或两个以上自

12、变量线性方程关于所有的参数都是线性的,或经变量变换后是线性的非线性因变量和某些自变量之间具有非线性关系,或一些参数是以非线性形式出现的,并且不能经变换将参数线性化方差分析自变量都是定性变量协方差分析自变量有定量变量,也有定性变量Logistic因变量是定性变量4 统计分析4.1 基本概念统计分析(statistical analysis)是商业智能(BI)的一方面,涉及收集、审查(shnch)业务数据和趋势报告。统计分析是继统计设计、统计调查、统计整理之后的一项十分重要的工作,是在前几个阶段工作的基础上通过分析从而达到(d do)对研究对象更为深刻的认识。统计分析是运用统计方法及与分析对象有关

13、的知识,从定量与定性的结合上进行的研究活动(hu dng)。它又是在一定的选题下,集分析方案的设计、资料的搜集和整理而展开的研究活动。统计分析的必要条件是系统、完善的资料;重要特征是运用统计方法、定量与定性的结合;产品是高质量、准确而又及时的统计数据和高层次、有一定深度、广度的统计分析报告;特点是数据性、目的性和时效性6。4.2 统计分析的步骤统计分析可以分为以下5个步骤:描述要分析的数据的性质研究基础群体的数据关系创建一个模型,总结数据与基础群体的联系证明(或否定)该模型的有效性采用预测分析来预测将来的趋势65 一个线性回归模型(mxng)实例5.1 问题(wnt)的提出为了研究人们对某种品

14、牌食品的喜爱(x i)程度和该食品的水分含量和甜度的关系,进行了一个完全随机化设计的小规模试验,得到下列数据:表 2 某品牌食品的水分含量、甜度和人们的喜爱程度数据12345678444466662424242464736176728071839101112131415168888101010102424242483898693889594100试建立线性回归拟合模型,对如何解释?并做进一步的分析求出残差向量,分别作出残差关于拟合值,以及的残差图及残差的正态图,具体分析并予以评述。对给出合理的假设,给出一组新的数据观测值,给出的预测值和99%的置信区间。拟合关于的一元线性回归模型,与二元线性回

15、归模型作比较,由此得出什么结论2? 5.2 分析与假设 初步分析表中数据可知,该食品(shpn)的水分含量和甜度均与人们的喜爱程度在一定程度上呈正相关,具有函数相关性。并且通过比较可以发现,人们对这该产品(chnpn)的水分偏爱较甜度更为敏感。为简化数据模型,可作出如下(rxi)假设:该食品的水分含量和甜度构成回归自变量; 因变量是人们对该种品牌食品的喜爱程度;自变量,与因变量之间具有显著的线性关系,且考虑(,)固定取几组值;实验所得数据值与估计值之间的偏差均值为0,方差为,并且实验所得数据值的统计规律为正态分布。5.3 模型建立 根据假设,可初步确定该食品的水分含量和甜度与人们的喜爱程度之间

16、的关系,即为线性关系,建立如下二元线性回归模型: (5-1)5.4 模型求解 直接运用MATLAB统计工具箱中的命令regress求解,使用格式为:b,bint,r,rint,stats=regress(Y,X,alpha)得出回归模型(5-1)中的参数分别是,,则回归方程为 (5-1) 其中(qzhng)对于的解释(jish)分析为: 我们用食品的水分(shufn)含量来预测人们对某种品牌食品的喜爱程度的回归系数为;而的标准差为2.3094,的标准差为11.4514,因此表准化后的回归系数为;由回归分析原理知道,对的影响程度很大,就是预测的最佳拟合直线的斜率。 模型求解的详细计算步骤及MAT

17、LAB运行结果见附录:1。5.5 结果分析5.5.1 输出数据结果由MATLAB输出结果我们可得到如下数据:回归模型(5-1)中的参数分别是:,决定系数:相关系数:检验统计量: 值: 5.5.2 模型检验需要检验检验法由于给定的显著性水平:,查分布表,,显然,根据检验准则知,拒绝,即认为,与的线性关系显著。相关系数的评价由相关系数在范围内,可判断,与具有较强的线性关系。值检验(jinyn)由于(yuy)值满足(mnz),因此可以说明,与的线性关系显著。以上使用三种统计推断方法推断的结果是一致的,都认为自变量,与因变量的线性关系显著。说明以上模型假设和回归模型能够基本反映,与的关系。5.5.3

18、解决提出的三个问题由MATLAB输出结果可知,残差向量为:r =-0.1000,0.1500,-3.1000,3.1500,-0.9500,-1.7000,-1.95001.3000,1.2000,-1.5500,4.2000,2.4500,-2.6500,-4.4000,3.3500,0.6000 利用残差向量r和MATLAB语句normplot(r),得到残差向量的正态性检验图,如图1:图1 残差向量的正态性检验图 利用残差向量r,残差的区间(q jin)估计值rint和MATLAB语句:rcoplot(r,rint),得到时序残差图,如图2:图2 时序(sh x)残差图分别(fnbi)以

19、的拟合值,以及为横坐标,残差向量为纵坐标,作出作出残差关于拟合值,以及的残差图,如图3(源程序见附录:2):图3 残差关于(guny)拟合值,以及(yj)的残差图分析(fnx)及评述:观察图1,残差向量的正态检验图中,点“+”呈现的散点在一条直线上,因此可知,误差的正态性假设是合理的。观察图2,时序残差图中的残差值均落在以“”为中轴线的带状区域内,且无明显的趋势,说明数据没有奇异点,并且建立的线性回归模型比较适合于样本数据。观察图3,残差关于拟合值,以及的残差图中,由四幅图所出现的形状可知,他们没有明显的趋势性变化,是比较满意的形式。对的合理假设:假定是独立同正态分布的随机变量,有零均值和常值

20、方差。因此,若拟合的回归模型适合于所给数据,那么残差应基本上反映未知误差的这些特性。将新的数据(shj)观测值带入回归方程,将得到(d do)的点估计值。MATLAB程序(chngx):x0=1,5,4;y0=b*x0计算结果:y0 =77.2750即的估计值为77.275。使用MATLAB语句:rstool(X,Y,inmodel,alpha),拟合二次响应曲面回归明显以及预测的交互式界面,程序如下:X=4 4 4 4 6 6 6 6 8 8 8 8 10 10 10 10;2 4 2 4 2 4 2 4 2 4 2 4 2 4 2 4;Y=64 73 61 76 72 80 71 83 8

21、3 89 86 93 88 95 94 100;alpha=0.01;rstool(X,Y)得到界面如图4:图4 二次曲面交互界面在所得界面的两个(lin )窗口分别输入,则图形(txng)左侧显示数据,它即使(jsh)在点处99%的置信区间,即73.6711,80.8789。利用MATLAB拟合关于的一元线性回归模型(源程序及输出结果见附录:3):回归方程为: 决定系数:相关系数:统计检验量: 值: 运用三种模型检验方法:检验法,相关系数的评价和值检验均可推断出都认为自变量与因变量的线性关系显著。说明该一元线性回归模型能够基本反映与的关系。比较性结论:此一元线性回归模型与第一问建立的二元线性

22、回归模型比较,我们可以看到二者的的回归系数是相同的,以此我们可以认为与不相关。并且在二元线性回归模型中,将回归系数标准化后可得出:喜爱程度()与水分含量()的标准回归系数为0.8924,说明二者显著相关;而喜爱程度(Y)与甜度()的标准回归系数为0.3946,说明二者不显著相关。而这一点与问题初步分析中得出的“人们对这该产品的水分偏爱较甜度更为敏感”的初步印象是相一致的;可以说第四问的解答进一步说明了所建立的线性回归模型是合理的,较为真实的反映了实际信息。6 结论(jiln) 在做这次课程设计之前,我一直认为回归分析是一个很难的知识点,每次遇到关于回归分析的问题我都感到无从下手,这当然与自己(

23、zj)不能静下心来好好研究此类问题有关。做这次课程设计的过程中,通过查找资料与自己动手写程序操作,在MATLAB的帮助下,发现回归分析并不是像自己之前所想的那么难,关键是要找到理清思路,根据特定的步骤,并借用MATLAB进行分析。而且做完这次课程设计后,更加深刻体会到MATLAB的强大功能。在数学建模和统计分析中运用MATLAB能使问题更加简单、快速地解决。因此,我认为自己应该多看些数学建模的实例,提高建模的能力,同时也要提高对数据统计分析的能力,还要更深入地研究MATLAB,了解MATLAB更加强大的功能。参考文献1 姜启源,谢金星(jnxng),叶俊数学模型(第四版)M北京(bi jn):

24、高等教育出版社,2011:1-18,325-3322 刘琼荪,龚劬,何中市,傅鹂,任善强数学(shxu)实验M北京:高等教育出版社,2004:89-1083 (美)Samprit Chatterjee,Ali S. Hadi著,郑忠国,许静译例解回归分析(原书第5版)M.北京:机械工业出版社,2013:14 回归分析_百度百科/link?url=AwlhQ0v2TmZtJrM6PwkUTVG3nB7nolxtGrWG0dwooiCZQnVi1TYcDxA-K9-GsEZw5 回归模型_百度百科/view/962884.htm?fr=aladdin6 统计分析_百度百科/view/680978.

25、htm附录(fl)1.二元线性模型(mxng)求解的详细计算步骤及MATLAB运行(ynxng)结果:输入数据A=4 4 4 4 6 6 6 6 8 8 8 8 10 10 10 10; 2 4 2 4 2 4 2 4 2 4 2 4 2 4 2 4;a=ones(16,1);X=a,A;alpha=0.01;Y=64 73 61 76 72 80 71 83 83 89 86 93 88 95 94 100;MATLAB调用格式b,bint,r,rint,stats=regress(Y,X,alpha)输出结果b = 37.6500 4.4250 4.3750bint = 28.6249 4

26、6.6751 3.5179 5.3321 2.3468 6.4032r = -0.1000 0.1500 -3.1000 3.1500 -0.9500 -1.7000 -1.9500 1.3000 1.2000 -1.5500 4.2000 2.4500 -2.6500 -4.4000 3.3500 0.6000rint = -7.4731 7.2731 -7.2225 7.5225 -9.9632 3.7632 -3.6960 9.9960 -8.7486 6.8486 -9.4016 6.0016 -9.6067 5.7067 -6.4603 9.0603 -6.5725 8.9725 -

27、9.2755 6.1755 -2.7399 11.1399 -5.0973 9.9973 -9.6543 4.3543 -10.7033 1.9033 -3.4238 10.1238 -6.7551 7.9551stats = 0.9521 129.0832 0.0000 7.25382.绘制残差关于(guny)拟合值,以及(yj)的残差图:X1= 4 4 4 4 6 6 6 6 8 8 8 8 10 10 10 10;X2=2 4 2 4 2 4 2 4 2 4 2 4 2 4 2 4;Y=37.650+4.425*X1+4.375*X2;X=X1.*X2;r=-0.1000 0.1500

28、-3.1000 3.1500 -0.9500 -1.7000 -1.9500 1.3000 1.2000 -1.5500 4.2000 2.4500 -2.6500 -4.4000 3.3500 0.6000;subplot(2,2,1),plot(Y,r,+),title(残差关于(guny)Y的估量值的残差图);subplot(2,2,2),plot(X1,r,+),title(残差关于(guny)X1的残差图);subplot(2,2,3),plot(X2,r,+),title(残差关于(guny)X2的残差图);subplot(2,2,4),plot(X,r,+),title(残差关于X1X2的残差图);3.拟合关于的一元线性回归模型:输入数据:A=4 4 4 4 6 6 6 6 8 8 8 8 10 10 10 10;a=ones(16,1);X=a,A;alpha=0.01;Y=64 73 61 76 72 80 71 83 83 89 86 93 88

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论