版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第4章 回归分析Analysis Of Regression 相关分析和回归分析都是研究变量间关系相关分析和回归分析都是研究变量间关系的统计学课题。在应用中,两种分析方法经常的统计学课题。在应用中,两种分析方法经常相互结合和渗透,但它们研究的侧重点和应用相互结合和渗透,但它们研究的侧重点和应用面不同。面不同。 在回归分析中,变量在回归分析中,变量y y称为因变量,处称为因变量,处于被解释的特殊地位;而在相关分析中,变量于被解释的特殊地位;而在相关分析中,变量y y与变量与变量x x处于平等的地位,研究变量处于平等的地位,研究变量y y与变量与变量x x的密切程度和研究变量的密切程度和研究变量x
2、 x与变量与变量y y的密切程度是的密切程度是一样的。一样的。 在回归分析中,因变量在回归分析中,因变量y y是随机变量,是随机变量,自变量自变量x x可以是随机变量,也可以是非随机的可以是随机变量,也可以是非随机的确定变量;而在相关分析中,变量确定变量;而在相关分析中,变量x x和变量和变量y y都都是随机变量。是随机变量。 相关分析是测定变量之间的关系密切相关分析是测定变量之间的关系密切程度,所使用的工具是相关系数;而回归分析程度,所使用的工具是相关系数;而回归分析则是侧重于考察变量之间的数量变化规律,并则是侧重于考察变量之间的数量变化规律,并通过一定的数学表达式来描述变量之间的关系,通过
3、一定的数学表达式来描述变量之间的关系,进而确定一个或者几个变量的变化对另一个特进而确定一个或者几个变量的变化对另一个特定变量的影响程度。定变量的影响程度。 具体地说,回归分析主要解决以下几方面具体地说,回归分析主要解决以下几方面的问题。的问题。 通过分析大量的样本数据,确定变量通过分析大量的样本数据,确定变量之间的数学关系式。之间的数学关系式。 对所确定的数学关系式的可信程度进对所确定的数学关系式的可信程度进行各种统计检验,并区分出对某一特定变量影行各种统计检验,并区分出对某一特定变量影响较为显著的变量和影响不显著的变量。响较为显著的变量和影响不显著的变量。 利用所确定的数学关系式,根据一个利
4、用所确定的数学关系式,根据一个或几个变量的值来预测或控制另一个特定变量或几个变量的值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确度。的取值,并给出这种预测或控制的精确度。 作为处理变量之间关系的一种统计方法和技术,作为处理变量之间关系的一种统计方法和技术,回归分析的基本思想和方法以及回归分析的基本思想和方法以及“回归回归(RegressionRegression)”名称的由来都要归功于英国统计名称的由来都要归功于英国统计学家学家FGaltonFGalton(1822182219111911)。)。 从大量的父亲身高和其成年儿子身高数据的散从大量的父亲身高和其成年儿子身高数据的散
5、点图中,点图中,FGaltonFGalton天才地发现了一条贯穿其中的直天才地发现了一条贯穿其中的直线,它能描述父亲身高和其成年儿子身高之间的关线,它能描述父亲身高和其成年儿子身高之间的关系,并可用于预测某身高父亲其成年儿子的平均身系,并可用于预测某身高父亲其成年儿子的平均身高。他的研究发现,如果父亲的身高很高,那么他高。他的研究发现,如果父亲的身高很高,那么他的成年儿子也会较高,但不会有他父亲那么高;如的成年儿子也会较高,但不会有他父亲那么高;如果父亲的身高很矮,那么他的成年儿子也会较矮,果父亲的身高很矮,那么他的成年儿子也会较矮,但不会像他父亲那么矮。他们会趋向于子辈身高平但不会像他父亲那
6、么矮。他们会趋向于子辈身高平均值。均值。FGaltonFGalton将这种现象称为回归,将那条贯穿将这种现象称为回归,将那条贯穿于数据点中的线称为于数据点中的线称为“回归线回归线”。 在实际中,根据变量的个数、变量的类型在实际中,根据变量的个数、变量的类型以及变量之间的相关关系,回归分析通常分为以及变量之间的相关关系,回归分析通常分为一元线性回归分析一元线性回归分析、多元线性回归分析多元线性回归分析、非线非线性回归分析性回归分析、曲线估计曲线估计、时间序列的曲线估计、时间序列的曲线估计、含虚拟自变量的回归分析和逻辑回归分析等类含虚拟自变量的回归分析和逻辑回归分析等类型。型。 回归分析的过程n(
7、1)确定变量。包括变量的个数、自变量和因变量。n(2)确定数学模型。即自变量和因变量之间的关系。确定数学模型有两点要注意,一是能否通过数据变换找到尽可以简单的模块,因为模型越简单,处理越方便,思路越清楚;二是模型中相关参数是否有物理意义,这一点是很重要的,因为实验模型并不是纯数学游戏,计算参数是为了解决问题,因此如果引入的参数没有确定的物理意义,这显然不是一个好的模型,即使这个函数将数据拟合得很好。 回归分析的过程n(3)交由计算机软件进行反复逼近,有必要时进行人为干预。计算机与人类相比的主要好处一是运算速度快得多,二是计算过程精确不会错漏,但如果模型是错误的,则运算结果将会错得更远。因此人为
8、干预是必不可少的。n(4)根据运算结果,特别是相关系数进行检验。理论上相关系数接近1越好,但也要结合常识对结果参数的物理意义特别是取值范围进行判断。n(5)如果结果不满意,则重新修改模型的参数再进行运算。统计学上的定义和计算公式统计学上的定义和计算公式 定义:一元线性回归分析是在排除其他影定义:一元线性回归分析是在排除其他影响因素或假定其他影响因素确定的条件下,分响因素或假定其他影响因素确定的条件下,分析某一个因素(自变量)是如何影响另一事物析某一个因素(自变量)是如何影响另一事物(因变量)的过程,所进行的分析是比较理想(因变量)的过程,所进行的分析是比较理想化的。其实,在现实社会生活中,任何
9、一个事化的。其实,在现实社会生活中,任何一个事物(因变量)总是受到其他多种事物(多个自物(因变量)总是受到其他多种事物(多个自变量)的影响。变量)的影响。n一般来说,对于具有线性相关关系的两个变量,一般来说,对于具有线性相关关系的两个变量,可以用直线方程来表示它们之间的关系,即可以用直线方程来表示它们之间的关系,即n以上称为一元总体回归模型。式中以上称为一元总体回归模型。式中0和和1是未知是未知参数,参数, 0称为回归参数,称为回归参数, 1称为回归系数;称为回归系数;称称为随机扰动项,代表主观或客观原因造成的不可为随机扰动项,代表主观或客观原因造成的不可观测的随机误差,它是一个随机变量。观测
10、的随机误差,它是一个随机变量。01y=+ 在实际问题中,由于所要研究的现象的总在实际问题中,由于所要研究的现象的总体单位数一般是很多的,在许多场合甚至是无体单位数一般是很多的,在许多场合甚至是无限的,因此无法掌握因变量限的,因此无法掌握因变量y y总体的全部取值。总体的全部取值。也就是说,总体回归方程事实上是未知的,需也就是说,总体回归方程事实上是未知的,需要利用样本的信息对其进行估计。显然,样本要利用样本的信息对其进行估计。显然,样本回归方程的函数形式应与总体回归方程的函数回归方程的函数形式应与总体回归方程的函数形式一致。形式一致。 通过样本数据建立一个回归方程后,不能通过样本数据建立一个回
11、归方程后,不能立即就用于对某个实际问题的预测。因为,应立即就用于对某个实际问题的预测。因为,应用最小二乘法求得的样本回归直线作为对总体用最小二乘法求得的样本回归直线作为对总体回归直线的近似,这种近似是否合理,必须对回归直线的近似,这种近似是否合理,必须对其作各种统计检验。一般经常作以下的统计检其作各种统计检验。一般经常作以下的统计检验。验。 (1 1)拟合优度检验)拟合优度检验 回归方程的拟合优度检验就是要检验样本回归方程的拟合优度检验就是要检验样本数据聚集在样本回归直线周围的密集程度,从数据聚集在样本回归直线周围的密集程度,从而判断回归方程对样本数据的代表程度。而判断回归方程对样本数据的代表
12、程度。 回归方程的拟合优度检验一般用判定系数回归方程的拟合优度检验一般用判定系数R2R2实现。该指标是建立在对总离差平方和进行实现。该指标是建立在对总离差平方和进行分解的基础之上。分解的基础之上。 (2 2)回归方程的显著性检验()回归方程的显著性检验(F F检验)检验) 回归方程的显著性检验是对因变量与所有回归方程的显著性检验是对因变量与所有自变量之间的线性关系是否显著的一种假设检自变量之间的线性关系是否显著的一种假设检验。验。回归方程的显著性检验一般采用回归方程的显著性检验一般采用F F检验,利用检验,利用方差分析的方法进行。方差分析的方法进行。 (3 3)回归系数的显著性检验()回归系数
13、的显著性检验(t t检验)检验) 所谓回归系数的显著性检验,就是根据样所谓回归系数的显著性检验,就是根据样本估计的结果对总体回归系数的有关假设进行本估计的结果对总体回归系数的有关假设进行检验。检验。 之所以对回归系数进行显著性检验,是因之所以对回归系数进行显著性检验,是因为回归方程的显著性检验只能检验所有回归系为回归方程的显著性检验只能检验所有回归系数是否同时与零有显著性差异,它不能保证回数是否同时与零有显著性差异,它不能保证回归方程中不包含不能较好解释说明因变量变化归方程中不包含不能较好解释说明因变量变化的自变量。因此,可以通过回归系数显著性检的自变量。因此,可以通过回归系数显著性检验对每个
14、回归系数进行考察。验对每个回归系数进行考察。 回归参数显著性检验的基本步骤。回归参数显著性检验的基本步骤。 提出假设提出假设 计算回归系数的计算回归系数的t t统计量值统计量值 根据给定的显著水平根据给定的显著水平确定临界值,确定临界值,或者计算或者计算t t值所对应的值所对应的p p值值 作出判断作出判断(2)P.83 例例4-1 Example of simple linear regression equation 为研究某合成物的转化率T与实验中的压强p的关系,得到如表4-1的试验数据。试使用最小二乘法确定转化率与压强的经验公式。 Data View方法选项及其含义方法名含义Enter
15、 强迫引入法,默认选项。全部被选变量一次性进入回归模型,这是最简单的一种回归估计方法Stepwise 强迫剔除法。在每一次引入变量时,概率F最小值的变量将引入回归方程。如果已引入回归方程的变量的F大于设定值,将被剔除出回归方程。当无变量被引入或剔除时,终止回归过程Remove提出变量。将所有不进入方程模型的被选变量一次性剔除Backward 向后消去法。一次性将所有变量引入方程,并依次进行剔除。首先剔除与因变量最小相关且符合剔除标准的变量,然后进行第二个与因变量最小相关并且符合剔除标准的变量,依次类推。当方程的变量均不满足剔除标准时,终止回归方程Forward 向前引入法。被选变量依次进入回归
16、模型,首先引入与因变量最大相关且符合引入标准的变量,在引入第一个变量后,再引入第二个与因变量最大偏相关并且符合引入标准的变量,依次类推。当无变量符合引入标准时,终止回归过程方法选项及其含义(1)方法名含义估计(Estimates) 默认选项。显示回归系数的估计值、回归系数的标准误差、标准化回归系数、回归系数的的t估计值和双尾显著性水平依赖区间(Confidence intervals) 显示回归系数的的95%置信区间协方差矩阵(Covariance matrix)显示回归系数的方差协方差系数矩阵模型拟合(Model fit) 列出进入或从模型中剔除的变量以及拟合优度统计量、复相关系数(R)、判
17、定系数(R2)、调整R2、估计值的标准误差以及方差分析表R平方变换(R squared change) 增加或删除一个因变量所产生的R2改变量。 R2改变量越大,表明该变量可能是一个较理想的回归变量方法选项及其含义(2)方法名含义描述(Descriptives) 显示变量的均值、标准差、相关系数矩阵及单尾检验部分和偏相关(Part and partial correlations) 显示零阶相关、偏相关和部分相关系数。方程中至少有两个自变量共线性诊断(Collinearity diagnostics)显著包括各变量的容差、方差膨胀因子和共线性的诊断表列表项及其含义选项含义DEPENDENT因变
18、量*ZPRED 标准化预测值*ZRESID标准化残差*DRESID删除残差*ADJPRED调整预测值*SRESIDStudent残差*SDRESID Student删除残差输出1回归分析的描述性统计量表中列出了自变量和因变量的均数、标准差和数据个数。表中列出了自变量和因变量的均数、标准差和数据个数。输出1回归分析的描述性统计量表中列出了自变量和因变量的均数、标准差和数据个数。表中列出了自变量和因变量的均数、标准差和数据个数。输出2相关系数表中是相关系数的结果。从表中可看出,表中是相关系数的结果。从表中可看出,Pearson相关系相关系数为数为0.998,单尾显著性检验的概率为,单尾显著性检验的
19、概率为0.000,说明二者关系很,说明二者关系很紧密。紧密。输出2相关系数表中是相关系数的结果。从表中可看出,表中是相关系数的结果。从表中可看出,Pearson相关系相关系数为数为0.998,单尾显著性检验的概率为,单尾显著性检验的概率为0.000,说明二者关系很,说明二者关系很紧密。紧密。输出3引入/剔除变量表表中显示回归分析的方法以及变量被剔除或引入的信息。表中显示回归分析的方法以及变量被剔除或引入的信息。表中显示的回归方法是用强迫引入法引入变量表中显示的回归方法是用强迫引入法引入变量X的。对于一元线的。对于一元线性回归问题,由于只有一个自变量,所以此表意义不大。性回归问题,由于只有一个自
20、变量,所以此表意义不大。输出3引入/剔除变量表表中显示回归分析的方法以及变量被剔除或引入的信息。表中显示回归分析的方法以及变量被剔除或引入的信息。表中显示的回归方法是用强迫引入法引入变量表中显示的回归方法是用强迫引入法引入变量X的。对于一元线的。对于一元线性回归问题,由于只有一个自变量,所以此表意义不大。性回归问题,由于只有一个自变量,所以此表意义不大。输出4模型综述表表中列出了模型的相关系数表中列出了模型的相关系数(R)、相关系数的平方、相关系数的平方(R square)、调整的相关系数的平方、调整的相关系数的平方(Adjusted R square)、估计、估计的标准误差的标准误差(Std
21、. Error of the Estimate)、变化统计量、变化统计量(Change Statistics),Durbin-Watson现行检测值为现行检测值为2.166。输出4模型综述表表中列出了模型的相关系数表中列出了模型的相关系数(R)、相关系数的平方、相关系数的平方(R square)、调整的相关系数的平方、调整的相关系数的平方(Adjusted R square)、估计、估计的标准误差的标准误差(Std. Error of the Estimate)、变化统计量、变化统计量(Change Statistics),Durbin-Watson现行检测值为现行检测值为2.166。输出5方
22、差分析表结论是回归方程式是有意义的。结论是回归方程式是有意义的。输出5方差分析表结论是回归方程式是有意义的。结论是回归方程式是有意义的。输出6系数表(得到回归方程)表中,表中,Unstandardized Coefficients和和Standardized Coefficients分别表示非标准线性回归系数和标准线性回归系数,分别表示非标准线性回归系数和标准线性回归系数,B为回归系数,为回归系数,Std. Error为标准误差,为标准误差,Beta为标准化回归系数,为标准化回归系数,t为回归系数为回归系数T检验的检验的t统计量观察值,统计量观察值,Sig.为显著性水平,为显著性水平,Conf
23、idence Interval for mean为置信区间。为置信区间。Constant表示常表示常数项系数。数项系数。输出6系数表(得到回归方程)表中,表中,Unstandardized Coefficients和和Standardized Coefficients分别表示非标准线性回归系数和标准线性回归系数,分别表示非标准线性回归系数和标准线性回归系数,B为回归系数,为回归系数,Std. Error为标准误差,为标准误差,Beta为标准化回归系数,为标准化回归系数,t为回归系数为回归系数T检验的检验的t统计量观察值,统计量观察值,Sig.为显著性水平,为显著性水平,Confidence I
24、nterval for mean为置信区间。为置信区间。Constant表示常表示常数项系数。数项系数。输出7残差统计表表中,表中,Minimum和和Maxmum分别表示统计量的最小值和最大值,分别表示统计量的最小值和最大值,Mean为统计量的中值,为统计量的中值,Std.Deviation为标准差,为标准差,N为个案数量。为个案数量。Predicted Value为预测值,为预测值,Std. Predicted Value为标准化预测值,为标准化预测值,Standard Error of Predicted Value为预测值标准差,为预测值标准差,adjusted Predicted Va
25、lue Residual为为预测值调整残差,预测值调整残差, Residual为残差值,为残差值, Std. Residual 为标准残差,为标准残差,Stud. Residual为学生化残差,为学生化残差,Deleted Residual为剔除残差,为剔除残差,Stud. Deleted Residual为学生化剔除残差。为学生化剔除残差。输出7残差统计表表中,表中,Minimum和和Maxmum分别表示统计量的最小值和最大值,分别表示统计量的最小值和最大值,Mean为统计量的中值,为统计量的中值,Std.Deviation为标准差,为标准差,N为个案数量。为个案数量。Predicted V
26、alue为预测值,为预测值,Std. Predicted Value为标准化预测值,为标准化预测值,Standard Error of Predicted Value为预测值标准差,为预测值标准差,adjusted Predicted Value Residual为为预测值调整残差,预测值调整残差, Residual为残差值,为残差值, Std. Residual 为标准残差,为标准残差,Stud. Residual为学生化残差,为学生化残差,Deleted Residual为剔除残差,为剔除残差,Stud. Deleted Residual为学生化剔除残差。为学生化剔除残差。用ORGIN进行
27、线性拟合n例4-1 散点图123456789102.02.53.03.54.04.55.05.5T ( )p (atm)回归设置拟合参拟合参数设置数设置对话框对话框拟合结果的分析报表拟合结果的分析报表 拟合参数的设置n(1)Recalculate 在此项中,可以设置输入数据与输出数据的连接关系,包括Auto(自动)、Manual(手动)、None(无)3个选项。 Auto是当原数据发生变化后自动进行线性回归,Manual是当数据发生变化后,用鼠标单击快捷菜单手动选择运算,None则不进行任何处理。拟合参数的设置n(2)Input 在此项中,可以设置输入数据的范围,主要包括:输入数据区域以及误差
28、数据区域。与输出数据的连接关系,包括Auto(自动)、Manual(手动)、None(无)3个选项。 Auto是当原数据发生变化后自动进行线性回归,Manual是当数据发生变化后,用鼠标单击快捷菜单手动选择运算,None则不进行任何处理。拟合参数的设置n(3)Fit Options 在此项中,可以设置如下:Errors as Weight:误差权重;Fix Intercept和Fix Intercept at:拟合曲线的截距的限制,如果选择0则通过原点;Fix Slope和Fix Slope at:拟合曲线斜率的限制;Use Reduced Chi-Sqr:这个数据也能揭示误差情况;Appar
29、ent Fit:可用于使用log坐标对指数衰减进行直线拟合。拟合参数的设置n(4)Quantities to Compute 在此项中,可以设置如下:Fit Parameters:拟合参数项;Fit Statistics:拟合统计项;Fit Summary:拟合摘要项;ANOVA:是否进行方差分析;Covariance matrix:是否产生协方差Matrix;Correlation matrix:是否显示相关性Matrix。拟合参数的设置n(5)Residual Analysis 在此项中,可以设置如下:拟合参数的设置n(6)Output Results 在此项中,可以设置如下:Paste
30、Result Tables to Graph:是否在拟合的图形上显示拟合结果表格;Output Fitted Values To:分析结果输出到哪里,默认是在当前工作簿上新建工作表用于输出,其他选择包括Result Log窗口、Note窗口等;Output Find Specific X/Y Tables:输出时包含一个表格,自动计算X对应的Y值或者Y对应的X值。拟合参数的设置n(6)Output Results拟合参数的设置n(7)Fitted Curves Plot 在此项中,可以设置一些拟合图形的选项:Plot on Original Graph:在原图上作拟合曲线的方式;Update
31、Legend on Original Graph:更新原图上的图例;X Data Type:设置X列的数据类型,包括Points(数据点数目)和Range(数据显示区域);Confidence Bands:显示置信区间;Prediction Bands:显示预计区间;Confidence Level for Curves(%):设置置信度拟合参数的设置n(8)Find Specific X/Y 在此项中,主要是用于设置是否产生一个表格,显示在Y列或X列中寻找另一列所对应的数据。n(9)Residual Plots 在此项中主要是设置一些残差分析的参数。拟合结果的分析报表n(1)Notesn主要
32、记录一些信息诸如用户、使用时间等,引外还有拟合方程式。拟合结果的分析报表n(2)Input Datan显示输入数据的来源7.2.3拟合结果的分析报表n(3)Parametersn显示斜率、截距和标准差。7.2.3拟合结果的分析报表n(4)Statisticsn显示一些统计数据如数据点个数等,重要的是R-Square即相关系数,这个数字越接近1则表示数据相关度越高,拟合越好,因为这个数值可以反映实验数据的离散程度。7.2.3拟合结果的分析报表n(5)Summaryn显示一些摘要信息,就是整合了上面几个表格,斜率、截距和相关系数是我们关心的。7.2.3拟合结果的分析报表n(6)ANOVAn显示方差
33、分析的结果。7.2.3拟合结果的分析报表n(7)Fitted Curves Plotn显示图形的拟合结果缩略图。这是系统假设分析报告将要单独输出用于显示。3690246T ( )p (atm) T ( ) % (2,LG)7.2.3拟合结果的分析报表n(8)Residual vs. Independent Plot369-0.20.00.20.4Residual of TIndependent Variable Residual of T统计学上的定义和计算公式统计学上的定义和计算公式 定义:在上一节中讨论的回归问题只涉及定义:在上一节中讨论的回归问题只涉及了一个自变量,但在实际问题中,影响因
34、变量了一个自变量,但在实际问题中,影响因变量的因素往往有多个。例如,商品的需求除了受的因素往往有多个。例如,商品的需求除了受自身价格的影响外,还要受到消费者收入、其自身价格的影响外,还要受到消费者收入、其他商品的价格、消费者偏好等因素的影响;影他商品的价格、消费者偏好等因素的影响;影响水果产量的外界因素有平均气温、平均日照响水果产量的外界因素有平均气温、平均日照时数、平均湿度等。时数、平均湿度等。 因此,在许多场合,仅仅考虑单个变量是因此,在许多场合,仅仅考虑单个变量是不够的,还需要就一个因变量与多个自变量的不够的,还需要就一个因变量与多个自变量的联系来进行考察,才能获得比较满意的结果。联系来
35、进行考察,才能获得比较满意的结果。这就产生了测定多因素之间相关关系的问题。这就产生了测定多因素之间相关关系的问题。 研究在线性相关条件下,两个或两个以上研究在线性相关条件下,两个或两个以上自变量对一个因变量的数量变化关系,称为多自变量对一个因变量的数量变化关系,称为多元线性回归分析,表现这一数量关系的数学公元线性回归分析,表现这一数量关系的数学公式,称为多元线性回归模型。多元线性回归模式,称为多元线性回归模型。多元线性回归模型是一元线性回归模型的扩展,其基本原理与型是一元线性回归模型的扩展,其基本原理与一元线性回归模型类似,只是在计算上更为复一元线性回归模型类似,只是在计算上更为复杂,一般需借
36、助计算机来完成。杂,一般需借助计算机来完成。 对多元线性回归,也需要测定方程的拟合对多元线性回归,也需要测定方程的拟合程度、检验回归方程和回归系数的显著性。程度、检验回归方程和回归系数的显著性。 (1 1)拟合优度检验)拟合优度检验 测定多元线性回归的拟合程度,与一元线测定多元线性回归的拟合程度,与一元线性回归中的判定系数类似,使用多重判定系数,性回归中的判定系数类似,使用多重判定系数,其定义为其定义为 (2 2)回归方程的显著性检验()回归方程的显著性检验(F F检验)检验) 多元线性回归方程的显著性检验一般采用多元线性回归方程的显著性检验一般采用F F检验,利用方差分析的方法进行。检验,利
37、用方差分析的方法进行。 (3 3)回归系数的显著性检验()回归系数的显著性检验(t t检验)检验) 回归系数的显著性检验是检验各自变量回归系数的显著性检验是检验各自变量x x1 1,x x2 2,对因变量,对因变量y y的影响是否显著,从而找的影响是否显著,从而找出哪些自变量对出哪些自变量对y y的影响是重要的,哪些是不的影响是重要的,哪些是不重要的。重要的。 与一元线性回归一样,要检验解释变量对与一元线性回归一样,要检验解释变量对因变量因变量y y的线性作用是否显著,要使用的线性作用是否显著,要使用t t检验。检验。 在某化合物的合成试验中,为了提高产量,选取了原料配比(x1)、溶剂量(x2
38、)和反应时间(x3)三个因素,试验结果如表4-6所示。试用线性回归模型来拟合试验数据。输出1引入/剔除(或输入输出)变量表表中给出了每一步进表中给出了每一步进入方程式的变量和剔入方程式的变量和剔除的变量。以及采用除的变量。以及采用的多元回归方法和相的多元回归方法和相应的准则。从表中可应的准则。从表中可以看出,引入变量以看出,引入变量x3,无剔除变量。采用的无剔除变量。采用的准则是:准则是:F0.05时,时,对应变量进入方程式,对应变量进入方程式,F显著性概率显著性概率0.1时变时变量被剔除。利用该准量被剔除。利用该准则进行判别以后,只则进行判别以后,只有因素有因素x3要保留。要保留。输出0相关
39、性分析输出1引入/剔除(或输入输出)变量表表中给出了每一步进表中给出了每一步进入方程式的变量和剔入方程式的变量和剔除的变量。以及采用除的变量。以及采用的多元回归方法和相的多元回归方法和相应的准则。从表中可应的准则。从表中可以看出,引入变量以看出,引入变量x3,无剔除变量。采用的无剔除变量。采用的准则是:准则是:F0.05时,时,对应变量进入方程式,对应变量进入方程式,F显著性概率显著性概率0.1时变时变量被剔除。利用该准量被剔除。利用该准则进行判别以后,只则进行判别以后,只有因素有因素x3要保留。要保留。输出2模型综述表输出2模型综述表输出3方差分析表输出3方差分析表输出4系数分析表输出5剔除
40、变量表输出6残差统计量表中,表中,Minimum和和Maxmum分别表示统计量的最小值和最大值,分别表示统计量的最小值和最大值,Mean为统计量的中值,为统计量的中值,Std.Deviation为标准差,为标准差,N为个案数量。为个案数量。Predicted Value为预测值,为预测值,Std. Predicted Value为标准化预测值,为标准化预测值,Standard Error of Predicted Value为预测值标准差,为预测值标准差,adjusted Predicted Value Residual为为预测值调整残差,预测值调整残差, Residual为残差值,为残差值,
41、 Std. Residual 为标准残差,为标准残差,Stud. Residual为学生化残差,为学生化残差,Deleted Residual为剔除残差,为剔除残差,Stud. Deleted Residual为学生化剔除残差。为学生化剔除残差。输出6残差统计量表中,表中,Minimum和和Maxmum分别表示统计量的最小值和最大值,分别表示统计量的最小值和最大值,Mean为统计量的中值,为统计量的中值,Std.Deviation为标准差,为标准差,N为个案数量。为个案数量。Predicted Value为预测值,为预测值,Std. Predicted Value为标准化预测值,为标准化预测值
42、,Standard Error of Predicted Value为预测值标准差,为预测值标准差,adjusted Predicted Value Residual为为预测值调整残差,预测值调整残差, Residual为残差值,为残差值, Std. Residual 为标准残差,为标准残差,Stud. Residual为学生化残差,为学生化残差,Deleted Residual为剔除残差,为剔除残差,Stud. Deleted Residual为学生化剔除残差。为学生化剔除残差。P.94例例4-6某种产品的得率某种产品的得率y与反应温度与反应温度x1,反应时间,反应时间x2及某反及某反应物的
43、浓度应物的浓度x3有关,今得如表有关,今得如表4-10所示的试验结果,设所示的试验结果,设y与与x1,x2和和x3之间成线性关系,试求之间成线性关系,试求y与与x1,x2和和x2之间的三元线性之间的三元线性回归方程,并判断三因素的主次。回归方程,并判断三因素的主次。 输出0相关性分析输出1引入/剔除(或输入输出)变量表表中给出了每一步进表中给出了每一步进入方程式的变量和剔入方程式的变量和剔除的变量。以及采用除的变量。以及采用的多元回归方法和相的多元回归方法和相应的准则。从表中可应的准则。从表中可以看出,引入变量以看出,引入变量x3、x2和和x1,剔除变量无。,剔除变量无。采用的准则是:采用的准
44、则是:F0.05时,对应变量时,对应变量进入方程式,进入方程式,F显著性显著性概率概率0.1时变量被剔时变量被剔除。利用该准则进行除。利用该准则进行判别以后,因素全保判别以后,因素全保留。留。输出1引入/剔除(或输入输出)变量表表中给出了每一步进表中给出了每一步进入方程式的变量和剔入方程式的变量和剔除的变量。以及采用除的变量。以及采用的多元回归方法和相的多元回归方法和相应的准则。从表中可应的准则。从表中可以看出,引入变量以看出,引入变量x3、x2和和x1,剔除变量无。,剔除变量无。采用的准则是:采用的准则是:F0.05时,对应变量时,对应变量进入方程式,进入方程式,F显著性显著性概率概率0.1
45、时变量被剔时变量被剔除。利用该准则进行除。利用该准则进行判别以后,因素全保判别以后,因素全保留。留。输出2模型综述表表中列出了每一步的相关系数表中列出了每一步的相关系数(R)、相关系数的平方、相关系数的平方(R Square)、调整的相关系数的平方、调整的相关系数的平方(Adjusted R Square)、估计、估计的标准误差的标准误差(Std. Error of the Estimate)、变化统计量、变化统计量(Change Statistics)等项。表下的脚注显示了每一步用作预测等项。表下的脚注显示了每一步用作预测的项目的项目(包括自变量和常数项包括自变量和常数项)。输出2模型综述表
46、表中列出了每一步的相关系数表中列出了每一步的相关系数(R)、相关系数的平方、相关系数的平方(R Square)、调整的相关系数的平方、调整的相关系数的平方(Adjusted R Square)、估计、估计的标准误差的标准误差(Std. Error of the Estimate)、变化统计量、变化统计量(Change Statistics)等项。表下的脚注显示了每一步用作预测等项。表下的脚注显示了每一步用作预测的项目的项目(包括自变量和常数项包括自变量和常数项)。输出3方差分析表可见每一步都是显著的!可见每一步都是显著的!输出3方差分析表可见每一步都是显著的!可见每一步都是显著的!输出4系数分
47、析表(得到回归方程)表中,表中,Unstandardized Coefficients和和Standardized Coefficients分别表示非标准线性回归系数和标准线性回归分别表示非标准线性回归系数和标准线性回归系数,系数,B为回归系数,为回归系数,Std. Error为标准误差,为标准误差,Beta为标准化为标准化回归系数,回归系数,t为回归系数为回归系数T检验的检验的t统计量观察值,统计量观察值,Sig.为显著为显著性水平,性水平,Confidence Interval for mean为置信区间。为置信区间。Constant表示常数项系数。与用表示常数项系数。与用EXCEL有差异
48、。有差异。输出4系数分析表(得到回归方程)表中,表中,Unstandardized Coefficients和和Standardized Coefficients分别表示非标准线性回归系数和标准线性回归分别表示非标准线性回归系数和标准线性回归系数,系数,B为回归系数,为回归系数,Std. Error为标准误差,为标准误差,Beta为标准化为标准化回归系数,回归系数,t为回归系数为回归系数T检验的检验的t统计量观察值,统计量观察值,Sig.为显著为显著性水平,性水平,Confidence Interval for mean为置信区间。为置信区间。Constant表示常数项系数。与用表示常数项系数
49、。与用EXCEL有差异。有差异。输出5剔除变量表输出5剔除变量表输出6残差统计量表中,表中,Minimum和和Maxmum分别表示统计量的最小值和最大值,分别表示统计量的最小值和最大值,Mean为统计量的中值,为统计量的中值,Std.Deviation为标准差,为标准差,N为个案数量。为个案数量。Predicted Value为预测值,为预测值,Std. Predicted Value为标准化预测值,为标准化预测值,Standard Error of Predicted Value为预测值标准差,为预测值标准差,adjusted Predicted Value Residual为为预测值调整残
50、差,预测值调整残差, Residual为残差值,为残差值, Std. Residual 为标准残差,为标准残差,Stud. Residual为学生化残差,为学生化残差,Deleted Residual为剔除残差,为剔除残差,Stud. Deleted Residual为学生化剔除残差。为学生化剔除残差。多元线性回归多元线性回归ny=0+1x1+2x2+kxk+为多元线性回归模型多元线性回归7.2.7多元线性回归7.2.7多元线性回归多元线性回归7.2.7多元线性回归ny=0+1x1+2x2+kxk+为多元线性回归模型7.2.7多元线性回归7.2.7多元线性回归7.2.7多元线性回归7.2.8多
51、项式回归(也可用非线性回归)散点图024681024681012 yyx7.2.8多项式回归ny=A+B1X1+B2X2+BnXn为多项式回归模型多项式回归多项式回归统计学上的定义和计算公式统计学上的定义和计算公式 定义:研究在非线性相关条件下,自变量定义:研究在非线性相关条件下,自变量对因变量的数量变化关系,称为非线性回归分对因变量的数量变化关系,称为非线性回归分析。析。 在实际问题中,变量之间的相关关系往往在实际问题中,变量之间的相关关系往往不是线性的,而是非线性的,因而不能用线性不是线性的,而是非线性的,因而不能用线性回归方程来描述它们之间的相关关系,而要采回归方程来描述它们之间的相关关
52、系,而要采用适当的非线性回归分析。用适当的非线性回归分析。 非线性回归问题大多数可以化为线性回归非线性回归问题大多数可以化为线性回归问题来求解,也就是通过对非线性回归模型进问题来求解,也就是通过对非线性回归模型进行适当的变量变换,使其化为线性模型来求解。行适当的变量变换,使其化为线性模型来求解。一般步骤为:一般步骤为: 根据经验或者绘制散点图,选择适当根据经验或者绘制散点图,选择适当的非线性回归方程;的非线性回归方程; 通过变量置换,把非线性回归方程化为通过变量置换,把非线性回归方程化为线性回归;线性回归; 用线性回归分析中采用的方法来确定各用线性回归分析中采用的方法来确定各回归系数的值;回归
53、系数的值; 对各系数进行显著性检验。对各系数进行显著性检验。 计算公式如下。计算公式如下。 在本节中介绍几种常见的非线性回归模型,在本节中介绍几种常见的非线性回归模型,并分别给出其线性化方法及图形。并分别给出其线性化方法及图形。 统计学上的定义和计算公式统计学上的定义和计算公式 定义:在一元回归分析中,一般首先绘制定义:在一元回归分析中,一般首先绘制自变量和因变量间的散点图,然后通过数据在自变量和因变量间的散点图,然后通过数据在散点图中的分布特点选择所要进行回归分析的散点图中的分布特点选择所要进行回归分析的类型,是使用线性回归分析还是某种非线性的类型,是使用线性回归分析还是某种非线性的回归分析
54、。回归分析。 然而,在实际问题中,用户往往不能确定然而,在实际问题中,用户往往不能确定究竟该选择何种函数模型更接近样本数据,这究竟该选择何种函数模型更接近样本数据,这时可以采用曲线估计的方法,其步骤如下:时可以采用曲线估计的方法,其步骤如下: 首先根据实际问题本身特点,同时选首先根据实际问题本身特点,同时选择几种模型;择几种模型; 然后然后SPSSSPSS自动完成模型的参数估计,自动完成模型的参数估计,并显示并显示R2R2、F F检验值、相伴概率值等统计量;检验值、相伴概率值等统计量; 最后,选择具有最后,选择具有R2R2统计量值最大的模统计量值最大的模型作为此问题的回归模型,并作一些预测。型
55、作为此问题的回归模型,并作一些预测。 (3 3)由于进行曲线估计时所选的曲线模)由于进行曲线估计时所选的曲线模型种类较多,所以使得输出的观察值与在各种型种类较多,所以使得输出的观察值与在各种函数模型条件下预测值的对比图比较复杂,不函数模型条件下预测值的对比图比较复杂,不易分辨出究竟易分辨出究竟LinearLinear,QuadraticQuadratic,CubicCubic及及PowerPower这这4 4种曲线究竟哪种的对样本观察值的种曲线究竟哪种的对样本观察值的拟合优度更符合实际。拟合优度更符合实际。 气体的流量与压力之间的关系一般由经验公式表示(M=cpb),式中M是压强为p时每分钟流
56、过流量计的空气摩尔数,c,b为常数。今进行一批试验,得到如表4-14所示的一组数据。试由这组数据定出常数c,b,建立M和p之间的经验关系式,并检验其显著性。(0.05) Variable ViewData View模型选项及其含义选项含义Linear 用线性模型进行拟合,模型为y=b0+b1xQuadratic 用二次多项式进行拟合,模型为y=b0+b1x+b2x2Compound 用复合模型进行拟合,模型为y=b0(b1)x Growth 用生长模型进行拟合,模型为y=e(b0+b1x)Logarithmic 用对数模型进行拟合,模型为y=b0+b1ln(x)Cubic 用三次多项式进行拟合
57、,模型为y=b0+b1x+b2x2+b3x3S用S曲线进行拟合,y=exp(b0+b1/x)Exponential 用指数模型进行拟合,模型为y=b0eb1xInverse用双曲线进行拟合,y=b0+b1/xPower 用幂指数模型进行拟合,模型为y=b0 xb1Logistic 用逻辑模型进行拟合,模型为y=1/(1/u+b0b1x输出1模型描述输出1模型描述输出2曲线回归输出结果n以上结果为所有模型的最优拟合结果,可以通过比较相关系数的平方值来比较各模型的优劣。相关系数的平方值越大,则模型越优。输出2曲线回归输出结果n以上结果为所有模型的最优拟合结果,可以通过比较相关系数的平方值来比较各模
58、型的优劣。相关系数的平方值越大,则模型越优。输出3拟合曲线图输出3拟合曲线图输出4各模型描述输出4各模型描述输出4各模型描述输出4各模型描述输出4各模型描述输出4各模型描述输出4各模型描述输出4各模型描述 非线性拟合 非线性拟合-散点图0.40.60.81.01.21.41.61.82.02.20.30.40.50.60.70.8 MM (mol/min)p (atm) 非线性拟合7.3 非线性拟合非线性拟合非线性拟合 非线性拟合非线性拟合7.3.2 NonLinear Fitting对话框详解nNLFit对话框主要由3部分组成,分别是上部的一组参数设置标签、中间的一组主要的控制按钮以及下部的
59、一组信息显示标签。n在控制按钮上部的一组标签,主要是用来设置拟合的参数:n(1)Setting标签 包括4个子项:Function Selection:可以选择要使用的拟合函数,包括Category(函数所属种类)、Function(具体的函数)、Description(函数的描述)和File Name(函数来源和名称);Function Selection:7.3.2 NonLinear Fitting对话框详解n(1)Setting标签-Function Selection:函数目录包括基本类型(Origin Basic Functions)、按形式分类(By Form,包括Exponen
60、tial指数、 Growth/Sigmoidal生长/S曲线、Hyperbola双曲线、Logarithm对数、Peak Functions峰函数、Polynomial多项式、Power幂函数、Rational有理数、Waveform波形)、按领域(By Field,包括Chromatography色谱学、Electrophysiology生理学、Pharmacology药理学、Spectroscopy光谱学、Statistics统计学)和用户自定义函数。每一函数目录下通常有10多个具体函数,所有函数总量为200多个。7.3.2 NonLinear Fitting对话框详解n(1)Settin
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 海鲜购销合同范本模板示例
- 借款合同协议格式
- 技术开发与服务协议
- 玻璃原片采购交易价目表
- 借款合同中的抵押条款
- 重新签订的合同协议
- 农产品选购合同格式
- 展览活动承包合同
- 文化传播公司内容创意与市场推广策略方案设计方
- 智慧城市管理
- 110kV升压站构支架组立施工方案
- 何以中国:公元前的中原图景
- 【中药贮藏与养护问题及解决对策4000字(论文)】
- 自然环境对聚落的影响
- 2023-2024学年天津市部分地区六年级数学第一学期期末综合测试试题含答案
- 河南省洛阳市偃师区2023-2024学年四年级数学第一学期期末经典模拟试题含答案
- 小学生预防性侵讲稿
- 人工智能算法贝叶斯算法
- 外墙外保温监理实施细则
- 剪映使用课件s
- B2B电子商务网站调研报告
评论
0/150
提交评论