版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、20114073143数理统计中回归分析的探究与应用黑龙江八一农垦大学回归分析问题探究摘要本文主要针对数理统计中的回归分析问题,通过对一元线性回归、多元线性回归以及非线性回归原理的探究,分别运用了SPSS和MATLAB软件进行实例分析以及进一步的学习。首先,通过变量之间关系的概念诠释引出回归函数;其次,针对回归函数,分别对一元线性回归原理上的学习,了解并会运用这三种线性回归模型、参数估计和回归系数的显著性检验来处理和解决实际的一元线性回归问题;接着,对多元线性回归和非线性回归进行学习,掌握它们与一元线性回归在理论和实践的联系与区别;然后,通过实际问题运用SPSS进行简单的分析,熟悉SPSS软件
2、的使用步骤和分析方法,能够运用SPSS进行简单的数理分析;最后,用MATLAB编程来处理线性回归问题,通过多种方法进行比较,进行线性回归拟合计算并输出Logistic模型拟合曲线。关键词:回归分析;一元线性回归;多元线性回归;非线性回归;SPSS;MATLAB一、 回归概念一般来说,变量之间的关系大致可以分为两类:一类是确定性的,即变量之间的关系可以用函数的关系来表达;另一类是非确定性的,这种不确定的关系成为相关关系。相关关系是多种多样的,回归分析就是研究相关关系的数理统计方法。它从统计数据出发,提供建立变量之间相关关系的近似数学表达式经验公式的方法,给出相关行的检验规则,并运用经验公式达到预
3、测与控制的目的。如随机变量Y与变量x(可能是多维变量)之间的关系,当自变量x确定后,因变量Y的值并不跟着确定,而是按照一定的停机规律(随机变量Y的分布)取值。这是我们将它们之间的关系表示为其中是一个确定的函数,称之为回归函数,为随机项,且。回归分析的任务之一就是确定回归函数。当是一元线性函数形时,称之为一元线性回归;当是多元线性函数形时,称之为多元线性回归;当是非线性函数形时,称之为非线性回归。二、 回归分析2.1 一元线性回归分析 一元线性回归模型设随机变量Y与x之间存在着某种相关关系,这里x是可以控制或可以精确测量的普通变量。对于取定的一组不完全相同的值做独立实验得到n对观察值一般地,假定
4、x与Y之间存在的相关关系可以表示为,其中为随机误差且,未知,a和b都是未知参数。这个数学模型成为医院线性回归模型,称为回归方程,它所代表的直线称为回归直线,称b为回归系数。对于一元线性回归模型,显然有。回归方程放映了变量X与随机变量Y之间的相关关系。回归分析就是要根据样本观测值找到a和b适当的估计值,建立线性回归方程,从而利用这个公式来近似刻画变量x与随机变量Y之间的关系。2.1.2 参数估计如何根据观测数据得到回归方程呢?一个直观的做法就是:选取适当的a和b,使得直线上的点与实验数据中对应点之间的误差尽可能小。若记为直线上的点,为实验数据点,则表达式就刻画了直线上点之间的偏离程度。通常我们记
5、,这样就表示直线上相应点与全体数据点之间总的偏离程度。总得偏离程度越小,回归方程就越能客观放映出变量x与Y之间的线性关系。所以,在数理统计中,将能够使取得最小值的a与b所确定的方程视为变量x与Y之间的线性回归方程。而且把利用这种思想求出的估计值成为参数a与b的最小二乘估计,这种方法成为最小二乘法。我们利用微积分的知识来确定取得最小值的条件。将表达式分别对位置参数a与b求偏导数,并令其为零,即得整理得上式称为正规方程组。由于不完全相同,所以正规方程组的系数行列式不为零。因此,我们得到的正规方程组的唯一解为因此,我们得到了x与y之间的线性回归方程或这个线性回归方程表明,经验回归直线L是通过这n个数
6、据点几何重心且斜率为的直线。为了计算方便起见,我们引入如下记号:这样2.1.3 回归系数的显著性检验在上面的论述中,运用最小二乘法求回归方程的条件除了要求诸不完全相同外,没有其它条件,也就是说无论变量x与Y是否具有线性关系,只要诸不完全相同,使用最小二乘法总能求出a与b的一个无偏估计与,并能得到变量x与Y的一个线性回归方程。若变量x与Y之间根本不存在线性关系,那么这个线性回归方程就没有任何意义。因此,实际问题中,我们必须对用最小二乘法求出的线性回归方程进行检验,来判断变量x与Y之间相关关系是否真的可由所得到的线性回归方程给出。若果变量x与Y之间存在线性相关关系,那么模型中b不应为零。否则,就有
7、,这意味着x与Y没有任何关系。因此,我们需要假设进行检验。当拒绝时,认为变量x与Y之间有显著的线性相关关系,也称为回归效果显著。否则,称为回归效果不显著。这时变量x和Y之间的关系有很多种可能:或许二者之间关系不是线性的,或许除变量x之外还有其他不可忽视的因素对Y产生影响,甚至是它们的相关关系很弱,不是必须重视的。为了给出显著检验的拒绝域,先做一些准备工作,记称SS为总偏差平方和,它反映了数据中变量取值的离散程度。即称为回归平方和,它放映了n个回归数值相对于的离散程度,它是由x去不同的值而引起的。将带入上述回归平方和表达式中,有记其中称为第i个残差,i=1,2,n。称为残差平方和,呀反映了n次试
8、验的累计误差。由回归方程的意义知道,它是n次试验的累计误差的最小值,即小面推导残差平方和的计算公式,由推得这样我们就得到平方和的分解公式对回归系数的显著性检验一般有一下三种方法(1)t检验法 (回归系数的显著性检验)取检验统计量可以证明,当成立时,于是,在显著性水平下,当时,拒绝,认为回归效果显著。在回归分析中,t检验用于检验回归系数的显著性,即检验因变量y对自变量x的影响程度是否显著。(2)F检验法 (回归系数的显著性检验)取检验统计量这里的F检验其实就是方差分析的内容,见下表2.1表2.1 一元线性回归方程的方差分析表方差来源平方和自由度均方F值回归1误差2总计n-1可以证明,当成立时,。
9、于是在显著水平下,确定临界值。当时,就拒绝,说明总体回归系数,即回归方程是显著的。由于,所以F检验法与T检验法基本上式一致的。在线性一元回归分析中,回归方程的显著性检验和回归系数的显著性检验作用是相同的,两者可以互相替代。(3)回归方程的拟合优度检验将回归平法和与总离差平方和之比定义为样本决定系数,又称判定系数,记为即决定系数是一个衡量回归直线对样本观测值拟合优度的相对指标,反映了变量的波动中能用变量所解释的比例。的值总是在01之间,越接近1,拟合度就越好;反之,说明模型中给出的x对y信息还不充分,回归方程效果不好,应该进行修改,使x与y的信息得到充分利用。 预测与控制回归方程的重要应用就是预
10、测和控制问题。所谓控问题,就是对于给定的点,预测出y的取值范围。控制问题则是问题的反问题,就是将y限制在某个范围内,应如何控制x的取值。(1) 预测问题设自变量与因变量服从模型且与样本相互独立。首先,我们计算时的回归值将作为的预测值,但这样求出的预测值一般来说是有误差的。产生误差的原因,一是由于只是平均值的一个估计,而的实际值很可能偏离它的平均值;二是因为的取值是依赖于估计值与的,而与是随机抽样误差的。因此我们还需要求出的预测区间即置信区间。双侧预测区的上下限为或双侧预测区的长度为在实际回归问题中,样本容量n常是很大的,这时对于在附近的x来说,我们能得较短的预测区间,而且当时长度最短,这事预测
11、效果最佳。反之,当得取值超出原始的试验点的范围之外时,由于此时预测区间长度过宽,将会导致预测效果不好。当n较大时,通常d取1,且用代替,用代替。这时预测区间的上下限简化为(2) 控制问题在实际问题中,我们还会遇到控制问题,即若要求观察值y在某个区间内取值时,问应控制x在什么范围?也就是要求对于给定的置信度,求出相应的和,使得当时,所对应的观察值y落在内。我们只谈论在n很大的情况,这时,这时公式可改写当与的值确定以后,根据上式就可以求出相应的和的值,作为x控制的端点值。需要注意的是,为了有效控制x的范围区间,必须大于=2,即.2.2 多元线性回归分析在实际问题中,一般影响因变量的因素常常不止一个
12、,这就是因变量与多个自变量相关关系问题,要用多元回归的方法来解决。2.2.1 多元线性回归的数学模型多元线性回归模型的一般形式:式中,是个未知数,称为回归系数。Y称为被解释量,而是个可以精确测量并可控制的一般变量,称为解释变量。时,上式即为上一节分析的一元线性回归模型,时,我们就成上式为多元线性回归模型,这里是随机误差。与一元线性回归模型一样,对随机误差项我们常假定其期望值为零、方差为的正态分布。对于一个实际问题,如果我们获得n组观测数据,把这些观测值代入上式可得样本多元线性回归模型:写成矩阵形式为:其中:2.2.2 多元线性回归模型的基本假定为了对模型参数进行估计和推断,常常要对回归模型做如
13、下的假定:1)解释变量是确定性变量,不是随机变量,且要求矩阵x中的自变量列之间不相关,样本容量的个数应大于解释变量的个数。2)随机误差项具有零均值和同方差,即 i.j=1,2,.,n3)正态分布的假设条件: i.j=1,2,.n由上述假设和多元正态分布的性质可知:服从维正态分布,且。多元回归模型的参数估计多元线性回归方程未知参数的估计与一元线性回归方程的参数估计原理一样,所以选择的估计值与观测值之间的残差在所有样本点上打到最小,即使达到最小。所以求,使得,即有多元函数求极值点的方法可求得回归系数的最小二成估计值为:另外,未知参数的一个无偏估计,实际就是残差均方和(MSE)。2.2.4多元线性回
14、归模型的显著性检验多元线性回归模型的显著性包括两方面的内容:一是对整个回归方程的显著性检验,即F检验;另一个是对个回归系数的显著性检验,即t检验。在一元线性回归方程的检验时,这两个检验时等价的,但在多元线性回归模型的检验时两者却不同。(1) 回顾方程的显著性检验1. 提出假设:2. 构建F统计量,见表2.2:表 5.2 多元线性回归模型的方差分析表方差来源平方和自由度均方和F值回归P误差总计3. 给定显著水平,查F分布表,的临界值;4. 若,则拒绝,接受备择假设,说明总体回归系数不全为零,即回归方程是显著的;反之则认为回归方程不显著。(2) 回归系数显著性检验1. 提出假设:;2. T检验的计
15、算公式为:,其中是回归系数标准差,中第个主角线元素。t值应该有p个队每一个可以计算一个t值。3. 给定显著水平,确定临界值;4. 若,则拒绝;接受备择假设,说明总体回归系数。(3) 多元线性回归方程的拟合度检验采用调整的决定系数作为统计量的取值范围和数值大小的意义与是完全相同的。2.3非线性回归分析在对实际的客观现象进行定量分析时,对变量间非线性相关问题的曲线拟合,处理的方法有:1. 决定非线性模型的函数模型,对其中课线性化的问题则通过变量将其线性化,从而归结为前面的多元线性回归问题来解决。2. 方程形式应与有关实质型科学的基本理论一致。例如,采用幂函数的形式,能够较好的表现生产函数;采用多项
16、式方程能够较好的反映总成本与总产量的关系等等。3. 若实际问题的曲线类型不易确定时,由于任意曲线皆可由多项式来逼近,故常可用多项式回归来拟合曲线。4. 若变量间非线性关系已知,且难以用变量变换法将其线性化,则进行数值法迭代的非线性回归分析。5. 一般来说,数学形式越简单,其可操作性就越强。根据经验公式或散点图,选择适当的曲线回归方程。为了确定其中的未知参数,往往可以通过变量代换,把非线性回归化为线性回归,然后用线性回归的方法确定这些参数的值。(1) 直接代换法直接替换法适用于变量之间关系虽然是非线性的,但因变量参数间关系却是线性的非线性模型;i. 多项式模型基本形式:线性化方法:令转化为线性模
17、型:ii. 双曲线模型基本形式:线性化方法:令转化为线性模型:即(2) 间接替换法间接代换法是先通过方程两边取对数后再进行变量代换,转化为线性形式。1. 指数函数基本形式:线性化方法:两端去自然对数 令,转化为线性模型:2. 幂函数基本形式:线性化方法:两端去对数 令,转化为线性模型:三、 SPSS软件操作及应用实例1) 定义变量和输入、整理数据。2) 选择“分析/回归/线性”,在线性回归窗口自变量和因变量,单机“统计量”按钮,在弹出的窗口设置参数;单机“图”按钮,可以选择输出的图形。最后单击继续按钮。3) 在结果输出窗口的一元或者多元线性回归计算结果。根据选择参数不同,得到ANOVA和回归系
18、数等数据。例1:拖拉机拉杆的朱爱丽和速度有关,测得拖拉机在速度X下的拉力Y,数据见下表,求Y对x 回归方程。变量数据X 0.9 1.3 2.0 2.7 3.4 4.1 5.2 5.5 6.0 425 420 480 495 540 530 590 610 690 680首先,在SPSS的数据编辑窗口的Variable View 界面定义变量和在Data view 界面输入数据,见下图。其次,选择“分析”,在窗口选择自变量也因变量,设置“统计量”的窗口设置参数等,见下图最后点级确定,输出结果,见下图描述性统计量均值标准 偏差NY546.000095.7369110X3.45001.7633610
19、相关性YXPearson 相关性Y1.000.982X.9821.000Sig. (单侧)Y.000X.000.NY1010X1010模型汇总模型RR 方调整 R 方标准 估计的误差更改统计量R 方更改F 更改df1df2Sig. F 更改1.982a.964.96019.18691.964216.07418.000a. 预测变量: (常量), X。Anovaa模型平方和df均方FSig.1回归79544.899179544.899216.074.000b残差2945.1018368.138总计82490.0009a. 因变量: Yb. 预测变量: (常量), X。系数a模型非标准化系数标准系
20、数tSig.B标准 误差试用版1(常量)362.06613.90626.036.000X53.3143.627.98214.699.000a. 因变量: Y结果分析:从运行求得回归方程中可知,X的系数为53.314,常数项为362.066,于是,回归方程为散点图如下图所示:经检验,回归方程的显著性达到0.0001,极显著;对回归方程系数及常数项T检验都达到极显著,说明该方程有应用价值。四、 MATLAB应用实例炼钢厂出钢水时用的钢包,在使用过程中由于钢水及炉渣对耐火材料的浸蚀,其容积不断增大。现在钢包的容积用盛满钢水时的重量y(kg)表示,相应的试验次数用x表示。数据见表4.1,要找出y与x的
21、定量关系表达式。表4.1 钢包的重量y与试验次数x数据序号xy序号xY12106.42811110.5923108.20914110.6034109.581015110.9045109.501116110.7657110.001218110.0068109.931319110.20710110.49x1=1./x;y1=1./y;plot(x1,y1,k+); %变换后数据的散点图x2=ones(13,1) x1'b,bint,rint,stats=regress(y1',x2);z=b(1)+b(2)*x1;yc=1./z;plot(x1,y1,k+,x1,z,r)%变换后数
22、据的散点图和回归直线图变换后数据的散点图及回归直线图R2=1-sum(y-yc).2)/lyy;%模型的拟合优度系数plot(x,y,k+,x,yc,r)%数据的散点图和回归曲线图legend('散点图','回归函数')b = 0.00896662968057 0.00082917436336R2 =0.97292374957556第一种方法的程序:format longx=2 3 4 5 7 8 10 11 14 15 16 18 19;y=106.42 108.20 109.58 109.5 110 109.93 110.49 110.59 110.60 1
23、10.9 110.76 111 111.20;plot(x,y,k+);%数据的散点图x1=1./x;y1=1./y;plot(x1,y1,k+); %变换后数据的散点图x2=ones(13,1) x1'b,bint,rint,stats=regress(y1',x2);z=b(1)+b(2)*x1;yc=1./z;plot(x1,y1,k+,x1,z,r)%变换后数据的散点图和回归直线图n=length(x);lyy=sum(y.2)-n*(mean(y)2;R2=1-sum(y-yc).2)/lyy;%模型的拟合优度系数b = 0.00896662968057 0.0008
24、2917436336R2 =0.97292374957556用类似的方法可以得出其它三个曲线回归方程,它们分别是: 第二种方法的程序:format longx=2 3 4 5 7 8 10 11 14 15 16 18 19;y=106.42 108.20 109.58 109.5 110 109.93 110.49 110.59 110.60 110.9 110.76 111 111.20;x1=log(x);y1=y;x2=ones(13,1) x1'b,bint,rint,stats=regress(y1',x2);bz=b(1)+b(2)*x1;yc=z;n=lengt
25、h(x);lyy=sum(y.2)-n*(mean(y)2;R2=1-sum(y-yc).2)/lyy;plot(x,y,'k+',x,yc,c');legend('散点图','回归函数')b = 1.0e+002 *R2 =0.87731500489620第三种方法的程序:format longx=2 3 4 5 7 8 10 11 14 15 16 18 19;y=106.42 108.20 109.58 109.5 110 109.93 110.49 110.59 110.60 110.9 110.76 111 111.20;x1=
26、sqrt(x);y1=y;x2=ones(13,1) x1'b,bint,rint,stats=regress(y1',x2);bz=b(1)+b(2)*x1;yc=z;n=length(x);lyy=sum(y.2)-n*(mean(y)2;R2=1-sum(y-yc).2)/lyy;plot(x,y,'k+',x,yc,'k');legend('散点图','回归函数')b = 1.0e+002 * 1.06301275014382三种方法的拟合效果比较:R2 =0.97292374957556R2 =0.877
27、315004896201.原始数据下表给出了某地区19712000年的人口数据(表1)。试分别用Matlab和SPSS软件,对该地区的人口变化进行曲线拟合。表4.2 某地区人口变化数据年份时间变量t=年份-1970人口y/人1971133 8151972233 9811973334 0041974434 1651975534 2121976634 3271977734 3441978834 4581979934 49819801034 47619811134 48319821234 48819831334 51319841434 49719851534 51119861634 52019871
28、734 50719881834 50919891934 52119902034 51319912134 51519922234 51719932334 51919942434 51919952534 52119962634 52119972734 52319982834 52519992934 52520003034 527根据上表中的数据,做出散点图,见图1。图 4.1 某地区人口随时间变化的散点图从图1可以看出,人口随时间的变化呈非线性过程,而且存在一个与横坐标轴平行的渐近线,故可以用Logistic曲线模型进行拟合。因为Logistic曲线模型的基本形式为:所以,只要令:,就可以将其转化为直线模型:下面,我们分别用Matlab和SPSS软件进行回归分析拟合计算。2用Matlab编程进行回归分析拟合计算源程序(Nonlinear-Regression-Model.m),如下:clearclc% 读入人口数据(19712000年)y = 33815 33981 3400
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年风景名胜区绿化苗木采购与维护服务合同
- 2024小区商业中心物业社区文化活动与公益项目合作合同3篇
- 2025版KTV装修垫资服务条款3篇
- 二零二五年度九级工伤赔偿标准理赔与理赔实施合同2篇
- 2024年甲方聘请乙方进行市场调研的合同
- 2024版建设工程承包施工协议书
- 二零二五年度个人小额贷款合同及借条制定
- 2024版城市地下综合管廊建设与运营合同
- 2024年版工业用地与建筑转让书3篇
- 2024年中国虎口夹市场调查研究报告
- 物业经理转正述职
- 贸易岗位招聘面试题及回答建议(某大型国企)2025年
- 世界职业院校技能大赛高职组“关务实务组”赛项参考试题及答案
- 高中历史教师资格考试面试试题及解答参考(2024年)
- 北师大版(2024新版)生物七年级上册期末考点复习提纲
- 期末 试题 -2024-2025学年人教PEP版英语六年级上册 (含答案)
- 2024年理论中心组学习心得体会模版(2篇)
- 浙江省杭州市2023-2024学年六年级上学期语文期末试卷(含答案)
- 环保行业工业废气污染防治技术路线方案
- 电工的职业健康培训
- 《预防性侵害讲座》课件
评论
0/150
提交评论