第十一章-多元线性回归和相关分析-《试验设计与统计分析》课件_第1页
第十一章-多元线性回归和相关分析-《试验设计与统计分析》课件_第2页
第十一章-多元线性回归和相关分析-《试验设计与统计分析》课件_第3页
第十一章-多元线性回归和相关分析-《试验设计与统计分析》课件_第4页
第十一章-多元线性回归和相关分析-《试验设计与统计分析》课件_第5页
已阅读5页,还剩161页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十一章多元线性回归和相关分析第十一章多元线性回归和相关分析第一节多元回归分析依变量依两个或两个以上自变量的回归,称为多元回归或复回归(multipleregression)主要内容:1、确定各个自变量对依变量的综合效应和单独效应,即建立由各自变量描述和预测依变量反应量的多元回归方程;2、对上述综合效应和单独效应的显著性进行测验,建立最优多元回归方程;评价各自变量对依变量的相对重要性。第一节多元回归分析依变量依两个或两个以上自变量的回归,称为一、多元回归方程1、多元回归的线性模型和多元回归方程式一个m元线性回归总体的线性模型为:yj=0+

1x1j+

2x2j+…+

mxmj+j其中,j~N(0,2)一个m元线性回归样本观察值的组成为:yj=b0+b1x1j+b2x2j+…+bmxmj+ej同理一个m元线性回归方程可给定为:一、多元回归方程1、多元回归的线性模型和多元回归方程式b0是x1、x2、…、xm都为0时y的点估计值;b1是by1.23…m的简写,它是在x2,x3,…,xm皆保持一定时(取常量),x1每改变一个单位时对y的效应,称为x2,x3,…,xm不变时,x1对y的偏回归系数(partialregressioncoefficient)。b0是x1、x2、…、xm都为0时y的点估计值;2、多元回归统计数的计算多元线性回归资料的数据结构如下表:

变量组号x1x2…xmy1x11x12…x1my12x21x22…x2my2…nxn1xn2…xnm

yn返回结构矩阵2、多元回归统计数的计算多元线性回归资料的数据结构如下表:

m个自变量与依变量y的回归方程为:

根据最小二乘法原理,b0

、b1、

b2、……bm应使全部观察值y与回归估计值的偏差平方和为最小,即使

根据微分学中的极值原理,分别对b0

、b1、

b2、……bm偏导,并令其为0,即m个自变量与依变量y的回归方程为:该方程组称为正规方程组,可尽一步化为Nb0+b1Sx1+b2Sx2+b3Sx3+……+bmSxm=Syb0Sx1+b1Sx12+b2Sx1x2+b3Sx1x3+……+bmSx1xm=Sx1yb0Sx2+b1Sx1x2+b2Sx22+b3Sx2x3+……+bmSx2xm=Sx2y…………b0Sxm+b1Sx1xm+b2Sx2xm+b3Sx3xm+……+bmSxm2

=Sxmy第十一章--多元线性回归和相关分析--《试验设计与统计分析》课件写成矩阵形式:

AbB

系数矩阵偏回归系数矩阵常数项矩阵写成矩阵形式:即Ab=B系数矩阵A=XX,n组数据的称为结构矩阵或数据矩阵数据表即Ab=B数据表A为系数矩阵XXA为系数矩阵XB为常数项矩阵XYB为常数项矩阵X这样一来,正规方程组的矩阵形式是(XX)b=XY或Ab=B

其中b=(b0,b1,b2,…bm)是正规方程组中的未知数。在系数矩阵满秩的条件下(这个条件在一般情况是容易满足的),A的逆阵存在,因而b=A-1B=(X

X)-1X

YC=A-1=(X

X)-1称为相关矩阵这样一来,正规方程组的矩阵形式是第十一章--多元线性回归和相关分析--《试验设计与统计分析》课件第十一章--多元线性回归和相关分析--《试验设计与统计分析》课件(例11.1)通过12个北方春玉米杂交种的测定数据(见表11.3),研究在相同密度下每穗粒数(X1,粒)、百粒重

(X2,g)、株高(X3,cm)与每公顷玉米籽粒产量(Y,kg/hm2)的关系。试建立每穗总粒数、百粒重、株高对每公顷玉米产量的多元线性回归方程;

表11.3玉米杂交种每穗总粒数、百粒重、株高与每公顷产量杂交种编号每穗总粒数(X1,粒)百粒重(X2,g)株高(X3,cm)产量(Y,kg/hm2)1561.733.42949042.02504.140.32879744.03471.237.62908874.04476.637.02828833.55456.233.82788439.06513.635.32869058.57455.038.12928103.08594.531.02769343.59554.230.92888604.010493.730.12687287.011525.331.02777926.012571.224.12836993.0(例11.1)通过12个北方春玉米杂交种的测定数据(见表11解:用矩阵法求解多元线性回归方程①写出结构矩阵或数据矩阵X及依变量列矩阵Y解:用矩阵法求解多元线性回归方程②利用公式A=X

X

,B=X

Y,求得系数矩阵A和常数项矩阵B②利用公式A=XX,B=XY,求得系数矩阵③求系数矩阵A的逆矩阵C

③求系数矩阵A的逆矩阵C④求解偏回归系数矩阵

b=(b0、b1、b2、…、bm)′即b0=–2829.29147072,b1=14.94880992,b2=238.15014040,b3=–15.29653995④求解偏回归系数矩阵

b=(b0、b1、b2、…、bm⑤写出线性回归方程式中:自变量X1对应的偏回归系数b1=14.9,表明在百粒重(X2)、株高(X3)保持平均水平(=Σx2/n=403/12=33.55g;=Σx3/n=3401/12=283.4cm)时,每穗总粒数(X1)每增加1(粒),将使每公顷玉米籽粒产量(Y)平均增加14.9(kg);⑤写出线性回归方程同理,b2=238.2,表明在每穗总粒数(X1)、株高(X3)保持平均水平(=Σx1/n=6177/12=514.8粒;=283.4cm)时,百粒重(X2)每增加1(g),将使每公顷玉米产量(Y)平均增加238.2(kg);b3=–15.3,表明在每穗总粒数(X1)、百粒重(X2)保持平均水平(=514.8粒;=33.55g)时,株高(X3)每增加1(cm),将使每公顷玉米产量(Y)平均减少15.3(kg)。如果此回归关系是真实的(见下文),则该方程可用于描述表11.3的资料。但是,推断的量值处在观察值区间之内,才是可信的。X1的区间是[455.0,594.5],X2的区间是[24.1,40.3],X3的区间是[268,294]。同理,b2=238.2,表明在每穗总粒数(X1)、株高(二、多元线性回归的假设检验1、多元回归方程的假设检验检验m个自变量综合对Y的效应是否显著,即检验各自变量的总体偏回归系数j(j=1,2,…,)是否同时为零。①总变异平方和及自由度分解。自由度dfY=n–1

二、多元线性回归的假设检验1、多元回归方程的假设检验SSY=UY/12···m+QY/12···m

dfY=dfU+dfQ

其中,离回归平方和(或剩余平方和)

=

Y

Y–b

(X

Y)

自由度dfQ=n

–(m+1)

它与自变量X无关,仅反映除依变量与m个自变量间存在线性关系以外的其他因素包括试验误差所引起的变异。

SSY=UY/12···m+QY/12···m回归平方和

=b

(XY)–(1Y)2/n

自由度dfU=m。它是由m个自变量Xj的不同引起的,即是依变量Y受m个自变量综合线性影响所引起的变异

回归平方和②F检验若F≥F

(m,n

m

–1),那么我们可以在显著水平下,认为多元线性回归方程是成立的,是有显著意义的。反之,F<F,则认为该多元线性回归方程没有意义。②F检验若F≥F(m,n–m–1),那么这里应注意两个问题;第一,多元线性回归方程显著,不排斥有更合理的多元非线性回归方程的存在;第二,多元线性回归方程显著,也不排斥其中存在着与依变量Y无线性关系的自变量,所以,要准确地评定各自变量对Y是否有真实回归关系,还必须对偏回归系数的显著性做出假设检验,进而发现和删除不显著的偏回归系数对应的自变量。这里应注意两个问题;第一,多元线性回归方程显著,不排斥有更合2、偏回归系数的假设检验检验自变量Xj对Y的作用是否显著

,亦即检验假设H0:j=0。①F检验法叫做Y在Xi上的偏回归平方和。可以检验bj来自j=0的总体的概率。2、偏回归系数的假设检验检验自变量Xj对Y的作用是否显著,②t检验法服从df=n–(m+1)的t分布

其中sbj为偏回归系数估计标准

其中cjj为高斯乘数,是相关矩阵C中主对角线上的元素。

②t检验法sY/12···m称为多元线性回归方程的估计标准误或离回归标准误:

它的大小反映了回归平面与实测点的偏离程度,即回归估计值与实测值y偏离的程度。离回归标准误sY/12···m愈小,表明各个观察点愈靠近回归平面,则由回归方程估计Y的精确度愈高;反之,离回归标准误sY/12···m愈大,由回归方程估计Y的精确度愈低,可见,sY/12···m是回归精确度的量度。sY/12···m称为多元线性回归方程的估计标准误或离回归标[例11.2]对表11.3资料做多元线性回归方程及偏回归系数的假设检验;(1)回归方程的假设检验;

①无效假设H0:1=

2=

3=0;对应假设HA:1、2、3至少有一个不为0。②确定显著水平,

=0.01③计算总变异平方和SSY,离回归平方和QY/12···m、回归平方和UY/12···m及相应自由度[例11.2]对表11.3资料做多元线性回归方程及偏回归系数第十一章--多元线性回归和相关分析--《试验设计与统计分析》课件UY/123=b

(X

Y)–(1Y)2/n

=SSY

QY/12···m=7354748.0625–973413.0342=6381335.0283

dfU

=m=3④计算F值⑤推断:F>F0.01

(3,8)=7.591,说明P(H0)<0.01(实际P=0.0007)应被否定,三元线性回归方程成立,表11.3的X1、X2和X3与Y有真实的三元线性回归关系。将结果填于表11.4。UY/123=b(XY)–(1Y)2(2)偏回归系数的假设检验①无效假设H0:j=0;对应假设HA:j≠0。②确定显著水平,

=0.01③计算各偏回归平方和Uj及自由度Y依X1的偏回归平方和及自由度:df1=1(2)偏回归系数的假设检验①无效假设H0:j=0;Y依X2的偏回归平方和及自由度:df2=1Y依X3的偏回归平方和及自由度:df3=1Y依X2的偏回归平方和及自由度:④计算F值⑤推断:F1

、F2均

>F0.01

(1,8)=11.26;说明H0:1=0、2=0应被否定,即每穗总粒数(X1)、百粒重(X2)对每公顷玉米产量(Y)的偏回归都是极显著的。F3

=0.85<1,说明H0:3=0应被接受,即株高(X3)对每公顷玉米产量(Y)的偏回归不显著。将结果与三元回归方程的假设检验结果一并做成方差分析表于表11.4。④计算F值表11.4三元线性回归方差分析表变异来源DFSSMSFF0.01P因X1的偏回归12812500.40512812500.405123.11**11.260.0013因X2的偏回归15145494.55525145494.555242.29**11.260.0002因X3的偏回归1103533.5743103533.57430.8511.260.3835三元回归36381335.02832127111.676117.48**7.590.0007离回归8973413.0342121676.6293

总变异117354748.0625

表11.4三元线性回归方差分析表变异来源DFSSMSFF(3)二元线性回归方程的计算表11.5二元线性回归方差分析表变异来源DFSSMSFF0.01P因X1的偏回归12798669.87132798669.871323.39**10.560.0009因X2的偏回归16267783.30146267783.301452.38**10.564.88×10-5二元回归26277801.45403138900.727026.23**8.020.0002离回归91076946.6085119660.7343总变异117354748.0625

(3)二元线性回归方程的计算表11.5二元线性回归方差综合二元回归方程及偏回归系数假设检验结果,表11.3的X1和X2与Y有真实的二元线性回归关系;每穗总粒数(X1,粒)、百粒重(X2,g)对每公顷玉米产量(Y,kg)的偏回归也都是极显著的。二元线性回归方程

=–6012.3+13.9x1+219.6x2为表11.3资料的最优多元线性回归方程。综合二元回归方程及偏回归系数假设检验结果,表11.3的X1和第二节多元相关和偏相关在M=m+1个变量中,m个变量的综合和一个变量的相关,叫做多元相关或复相关(multiplecorrelation);而在其余M-2个变量皆固定时,指定的两个变量间的相关,叫做偏相关(partialcorrelation)一、多元相关1、多元相关系数第二节多元相关和偏相关在M=m+1个变量中,m个变量的综[例11.3]由表11.3资料(X3已删除,不参加分析),计算依变量Y(每公顷玉米籽粒产量)与自变量X1(每穗总粒数)和X2(百粒重)的二元相关系数,并与各自变量Xj与依变量Y的简单相关系数作比较;

①在〔例11.1〕中,已算得SSY=7354748.0625,UY/12=6277801.4540,二元相关系数:②另由表11.3资料,可算得Y与X1、X2的简单相关系数:[例11.3]由表11.3资料(X3已删除,不参加分析),计可见二元相关系数RY·12比简单相关系数r1Y、r2Y都大。可见二元相关系数RY·12比简单相关系数r1Y、r2Y都大。2、多元相关系数的假设测验[例11.4]由表11.3资料(X3已删除,不参加分析),进行二元相关系数假设检验①计算F值:②推断:FR

>F0.01

(2,9)=8.02,表明RY·12极显著(实际P=0.0002)。2、多元相关系数的假设测验[例11.4]由表11.3资料(X若用查R值法,则由df2=n–m

–1=9与M=m+1=2+1=3,查附表9得R0.01(9,3)=0.800,因为RY·12

=0.9239>R0.01=0.800,故P<0.01,二元相关系数RY·12极显著,与F检验法结论完全一致。假设检验结果表明:每公顷玉米籽粒产量(Y)与每穗总粒数(X1)、百粒重(X2)之间存在极显著的二元线性相关关系。若用查R值法,则由df2=n–m–1=9与M二、偏相关1、偏相关系数的计算①由简单相关系数rij构建相关系数矩阵R:

②求相关系数矩阵R的逆矩阵C:二、偏相关1、偏相关系数的计算③由下式计算偏相关系数rij·:[例11.5]计算表11.3资料的偏相关系数在例11.3中已算得自变量X1与X2;以及依变量Y与自变量X1、X2的简单相关系数:r12=–0.63741402;r1Y=0.03690710;r2Y=0.68778314。

①将Y看作X3,构建相关系数矩阵:

③由下式计算偏相关系数rij·:第十一章--多元线性回归和相关分析--《试验设计与统计分析》课件2、偏相关系数的假设检验t检验法:令总体偏相关系数为rij.,则由可测验H0:rij.=0对HA:rij.≠0,该t具有n=n-M2、偏相关系数的假设检验t检验法:令总体偏相关系数为rij.查r值法

由df=n–M及变量个数2,查附表9,得r0.05

和r0.01,将偏相关系数的绝对值|rij·|与r0.05

和r0.01进行比较,即可做出统计推断。若|rij·|

≥r,则P≤,偏相关系数rij·在水平上显著;若|rij·|

<r,则P>,偏相关系数rij·在水平上不显著。

查r值法[例11.6]检验例11.5所得偏相关系数的显著性。①提出假设H0:ij·=0,对HA

:ij·≠0,②确定显著水平,

=0.01由df=n–M=12–3=9及变量个数2,查附表9,得r0.05(9)=0.602,r0.01(9)=0.735。因为各偏相关系数的绝对值|rij·|>r0.01,故P<0.01,上述三个偏相关系数均极显著。结论:当X2(百粒重)保持一定时,X1(每穗总粒数)和Y(每公顷玉米籽粒产量)呈极显著正相关;当X1保持一定时,X2和Y亦呈极显著正相关,但当Y保持一定时,X1和X2呈极显著负相关。[例11.6]检验例11.5所得偏相关系数的显著性。三、偏相关和简单相关的关系从表11.6可以看出:简单相关系数和对应的偏相关系数在数值及相关程度上相差很大,甚至有时连符号都可能相反。表11.6表11.3资料的偏相关系数rij·(主对角线上方)和简单相关系数rij(主对角线下方)

性状X1X2X

3=YX1(每穗总粒数)–0.9137**0.8498**X2(百粒重)–0.6374*0.9238**X3=Y(公顷产)0.03690.6878*三、偏相关和简单相关的关系表11.6表11.3资料的偏简单回归系数和偏回归系数也存在类似的情形:

造成这些不同情况的关键在于自变量之间的相关。简单回归系数和偏回归系数也存在类似的情形:除非r12=0,和r2Y=0,否则偏相关(回归)系数r1Y·2(b1)决不会和简单相关(回归)系数r1Y(bY/1)相同。同样,除非r12=0,和r1Y=0,否则偏相关(回归)系数r2Y·1(b2)决不会和简单相关(回归)系数r2Y(bY/2)相同。

除非r12=0,和r2Y=0,否则偏相关(回归)系数本例中r12=–0.6374*,这个显著的负相关,就说明表11.3资料中X1的大值将使X2取小值,X1的小值将使X2取大值。亦即:若每穗总粒数多的杂交种,则百粒重就小;百粒重小的杂交种,则每穗总粒数就多。这样,在用简单相关和简单回归计算时,X1中就混淆着X2的负效应,X2中也混淆着X1的负效应,因而得到的两个简单相关系数和简单回归系数均比相应偏相关系数、偏回归系数小。反之,如果在X1和X2之间有一个显著的正相关,X1中就混淆着X2的正效应,X2中也混淆着X1的正效应,因而得到的两个简单相关系数和简单回归系数均比相应偏相关系数、偏回归系数大。当应用偏相关和偏回归的方法分析时,由于消除了自变量相关的混淆,因而能够表现出自变量和依变量的单独关系。本例中r12=–0.6374*,这个显著的负相关,就说明综上所述,简单相关和简单回归是包含有其它因素作用成分在内的相关和回归。因而研究工作者要根据研究目的正确选用适当的统计指标。当要排除其它变量干扰,研究两个变量单独的关系时采用偏相关与偏回归;当考虑变量间实际存在的关系而要研究某一个变量为代表的综合效应间的相关与回归时,则可采用简单相关和简单回归。综上所述,简单相关和简单回归是包含有其它因素作用成分在内的相第三节通径分析一、基本概念假设有三个相关变量Y、X1、X2,两个自变量的关系有两种可能:一是X1与X2间彼此独立无关(r12=0,如图11·1);二是X1与X2间彼此相关r12≠0,(如图11·2)。图中:单箭头“←“表示变量间的因果关系,箭头方向是原因到结果,称为“通径”(path);双箭头“↔”表示变量间存在相关关系,称为相关线,相当于两条尾端相连的通径。这种用来表示各变量间的通径与相关关系的图称为通径图。表示各条通径对于改变Y反应量相对重要性的统计数叫通径系数(pathcoefficient)。.第三节通径分析一、基本概念二、通径系数的导出图11·1独立通径图图11·2相关通径图二、通径系数的导出图11·1独立通径图图11·2相关新变量Xj′对Y′的偏回归系数bj′:(因为;)新变量Xj′对Y′的偏回归系数bj′:表示j→Y通径相对重要性的统计数–—通径系数pj:

表示j→Y通径相对重要性的统计数–—通径系数pj:可见,pj的意义是:在j→Y通径上,Xj若增加一个标准差单位,Y将增加(pj>0)或减少(pj<0)pj个标准差单位。所以,通径系数pj可看作是自变量Xj对依变量Y的标准效应,由pj的绝对值大小,即可确定Xj对Y的相对重要性。可见,pj的意义是:在j→Y通径上,Xj若增加一个标准差单通径系数可细分为直接通径系数pjY(简写作pj),和间接通径系数pj→i→Y。直接通径系数pjY或pj表示自变量Xj对依变量Y的直接效应;间接通径系数pj→i→Y表示Xj通过与其相关的Xi对Y的间接效应:由此可见,进行通径分析以明确各自变量对依变量的直接与间接效应,必须先获取直接通径系数,再利用上式求出间接通径系数。通径系数可细分为直接通径系数pjY(简写作pj),和间接通①一个具有m个自变量的反应系统,共有m个直接和m(m

–1)个间接的通径和通径系数。②通径系数的取值在实数范围,可以>1或<–1。③通径系数是有方向的量,箭头表示了作用的方向,如Xj和Y互换,则pjY

≠pYj,pi→j→Y

≠pY→j→i。④通径系数具有偏回归系数的性质。它是变量标准化后的偏回归系数,能够表示变量间的因果关系,故仍具有偏回归系数的性质。三、通径系数的性质①一个具有m个自变量的反应系统,共有m个直接和m(m–⑤通径系数具有相关系数的性质。它是一个不带单位的相对数,因而又具有相关系数的性质,是具有方向性的相关系数,能表示原因与结果(自变量与依变量)之间的关系,它是介于回归系数和相关系数之间的一种统计数,可用于各种性状间的相关分析。⑥通径系数绝对值的大小可以用来衡量自变量Xj对依变量Y直接效应的大小,比较其相对重要性。⑤通径系数具有相关系数的性质。它是一个不带单位的相对数,因⑦自变量Xj对依变量Y的直接和间接通径系数的总和等于二者间的相关系数,即存在

(i,j=1,2,…,m;i≠j)可见,当各自变量都彼此独立(rij

=0)时,通径系数等于相关系数。四、通径系数的计算①将m+1元的正规方程组转换为m元的正规方程组⑦自变量Xj对依变量Y的直接和间接通径系数的总和等于二者间(11·8)的m+1元的正规方程组为:(11·8)的m+1元的正规方程组为:第十一章--多元线性回归和相关分析--《试验设计与统计分析》课件②将式移项可得:③关于各直接通径系数p1、p2、…、pm的正规方程组:②将④矩阵形式为:④矩阵形式为:R和R-1都是对称的。在R中,rii=1,rij=rji;在R-1中,

因此R和R-1都是对称的。在R中,rii=1,rij=即直接通径系数为:(j=1,2,…,m)五、通径系数的假设检验在通径分析系统中,m元回归平方和为:m元离回归平方和为:即直接通径系数为:而剩余因素(未包含在研究中的一切可能影响Y的因素)的通径系数pe→Y则可定义为:

(11·57)此pe→Y可简写为pe,亦称多元疏远系数,它独立于任一Xj→Y通径。由上述,可进一步得出Xj→Y的通径系数的标准误:而剩余因素(未包含在研究中的一切可能影响Y的因素)的通径系数因此,由或可检验Xj→Y的总体通径系数πj=0的假设。

因此,由六、通径分析实例〔例11.4〕由表11.3资料(X3不参加分析),①计算每穗总粒数X1、百粒重X2对每公顷玉米籽粒产量Y的通径系数;②对直接通径系数进行假设检验。解:(1)通径系数的计算在〔例11.2〕中,已算得表11.3资料的简单相关系数分别为:r1Y

=0.03690710,r2Y

=0.68778314,r12=–0.63741402。因此,正规方程组的系数矩阵:六、通径分析实例〔例11.4〕由表11.3资料(X3不参加分直接通径系数:即:p1=0.80058450;p2=1.19808693间接通径系数:p1→2→Y=r12p2=–0.63741402×1.19808693=–0.7637p2→1→Y=r12p1=–0.63741402×0.80058450=–0.5103直接通径系数:(2)直接通径系数假设检验。

①提出假设设总体的直接通径系数为πj,H0:πj=0,对HA:πj≠0②显著水平,

=0.01③计算t值上例已算得二元决定系数为:(2)直接通径系数假设检验。通径系数的标准误为:因此,对p1=0.800584504;p2=1.198086928分别有:④推断:查附表4,t0.01(9)=3.250,现实得t>t0.01(9),所以均否定H0,接受HA。通径系数的标准误为:上述结果表明:每穗总粒数每增加一个标准单位,可直接使产量增加0.8006个标准单位,百粒重每增加一个标准单位则可直接使产量增加1.1981个标准单位,均为极显著,其对产量变异的总决定度为85.36%。这里标准单位的量值,对X1是:对X2是:对Y是:上述结果表明:每穗总粒数每增加一个标准单位,可直接使产量增加剩余通径系数pe=0.3827,说明除了X1

、X2外,还存在对产量Y起作用的其它因素,但pe<p1,也<p2,所以那些未考虑的因素将是次要的。也可采用F检验的方法:查附表5,F0.01(1,9)=8.02;现实F1、

F2>F0.01,所以否定H0接受HA。结论与t检验完全一致。剩余通径系数pe=0.3827,说明除了X1、X2外,注意:t检验的两个t值与二元线性回归方程偏回归系数及偏相关系数检验的t相等;F检验的两个F值也与偏回归系数检验的F值相等。由此可见,通径系数的假设检验与偏回归系数及偏相关系数的假设检验是完全等价的。注意:t检验的两个t值与二元线性回归方程偏回归系数及偏相关系七、直接和间接效应分析图11·3表11.3资料(删除X3)的通径分析结果将〔例11.4〕通径及相关关系绘成通径图(图11·3),则更为形象。七、直接和间接效应分析图11·3表11.3资料(删除X也可以将上述通径分析的结果制成通径分析表(11·7),尤其在自变量较多时,列表表示较为清晰。列表的规则是:①凡直接通径系数都在主对角线上;②凡通过i的间接通径系数都与i→Y的直接通径系数在同一列上。便于比较和判断。

也可以将上述通径分析的结果制成通径分析表(11·7),尤其在表11.7表11.3资料(删除X3)的通径分析表通径项目1→Y(产量)2→Y(产量)Xj对Y的总效应rjYX1(每穗总粒数),1→0.8006–0.76370.0369X2(百粒重),2→–0.51031.19810.6878表11.7表11.3资料(删除X3)的通径分析表通由图11.3和表11.7可以看出,每穗总粒数到产量有两条通径,第一条是直接通径X1→

Y,该条通径上每穗总粒数对产量的直接效应为p1Y=0.8006;第二条是间接通径X1→X2→

Y,每穗总粒数通过与其相关的百粒重对产量的间接效应为p1→2→Y

=–0.7637;二者之和为每穗总粒数对产量的总效应r1Y

=0.8006+(–0.7637)=0.0369。同理,由X2到Y也有两条通径,第一条是直接通径X2→Y,百粒重对产量的直接效应为p2Y=1.1981,第二条是间接通径X2→X1→Y,百粒重通过与其相关的每穗总粒数对产量的间接效应(即百粒重高的杂交种,每穗总粒数就较少而给予产量的效应)为p2→1→Y=

–0.5103;二者之和为百粒重对产量的总效应r2Y

=1.1981+(–0.5103)=0.6878。

由图11.3和表11.7可以看出,每穗总粒数到产量有两条通径本章学习要点1、多元回归方程的建立,多元回归关系和偏回归关系的假设测验2、多元相关系数和偏相关系数的计算及假设测验。3、偏回归系数和偏相关系数,与简单回归系数和简单相关系数有何异同?应分别在何种场合下使用?4、了解通径系数的意义、性质,了解通径分析的基本步骤。本章学习要点1、多元回归方程的建立,多元回归关系和偏回归关系第十一章多元线性回归和相关分析第十一章多元线性回归和相关分析第一节多元回归分析依变量依两个或两个以上自变量的回归,称为多元回归或复回归(multipleregression)主要内容:1、确定各个自变量对依变量的综合效应和单独效应,即建立由各自变量描述和预测依变量反应量的多元回归方程;2、对上述综合效应和单独效应的显著性进行测验,建立最优多元回归方程;评价各自变量对依变量的相对重要性。第一节多元回归分析依变量依两个或两个以上自变量的回归,称为一、多元回归方程1、多元回归的线性模型和多元回归方程式一个m元线性回归总体的线性模型为:yj=0+

1x1j+

2x2j+…+

mxmj+j其中,j~N(0,2)一个m元线性回归样本观察值的组成为:yj=b0+b1x1j+b2x2j+…+bmxmj+ej同理一个m元线性回归方程可给定为:一、多元回归方程1、多元回归的线性模型和多元回归方程式b0是x1、x2、…、xm都为0时y的点估计值;b1是by1.23…m的简写,它是在x2,x3,…,xm皆保持一定时(取常量),x1每改变一个单位时对y的效应,称为x2,x3,…,xm不变时,x1对y的偏回归系数(partialregressioncoefficient)。b0是x1、x2、…、xm都为0时y的点估计值;2、多元回归统计数的计算多元线性回归资料的数据结构如下表:

变量组号x1x2…xmy1x11x12…x1my12x21x22…x2my2…nxn1xn2…xnm

yn返回结构矩阵2、多元回归统计数的计算多元线性回归资料的数据结构如下表:

m个自变量与依变量y的回归方程为:

根据最小二乘法原理,b0

、b1、

b2、……bm应使全部观察值y与回归估计值的偏差平方和为最小,即使

根据微分学中的极值原理,分别对b0

、b1、

b2、……bm偏导,并令其为0,即m个自变量与依变量y的回归方程为:该方程组称为正规方程组,可尽一步化为Nb0+b1Sx1+b2Sx2+b3Sx3+……+bmSxm=Syb0Sx1+b1Sx12+b2Sx1x2+b3Sx1x3+……+bmSx1xm=Sx1yb0Sx2+b1Sx1x2+b2Sx22+b3Sx2x3+……+bmSx2xm=Sx2y…………b0Sxm+b1Sx1xm+b2Sx2xm+b3Sx3xm+……+bmSxm2

=Sxmy第十一章--多元线性回归和相关分析--《试验设计与统计分析》课件写成矩阵形式:

AbB

系数矩阵偏回归系数矩阵常数项矩阵写成矩阵形式:即Ab=B系数矩阵A=XX,n组数据的称为结构矩阵或数据矩阵数据表即Ab=B数据表A为系数矩阵XXA为系数矩阵XB为常数项矩阵XYB为常数项矩阵X这样一来,正规方程组的矩阵形式是(XX)b=XY或Ab=B

其中b=(b0,b1,b2,…bm)是正规方程组中的未知数。在系数矩阵满秩的条件下(这个条件在一般情况是容易满足的),A的逆阵存在,因而b=A-1B=(X

X)-1X

YC=A-1=(X

X)-1称为相关矩阵这样一来,正规方程组的矩阵形式是第十一章--多元线性回归和相关分析--《试验设计与统计分析》课件第十一章--多元线性回归和相关分析--《试验设计与统计分析》课件(例11.1)通过12个北方春玉米杂交种的测定数据(见表11.3),研究在相同密度下每穗粒数(X1,粒)、百粒重

(X2,g)、株高(X3,cm)与每公顷玉米籽粒产量(Y,kg/hm2)的关系。试建立每穗总粒数、百粒重、株高对每公顷玉米产量的多元线性回归方程;

表11.3玉米杂交种每穗总粒数、百粒重、株高与每公顷产量杂交种编号每穗总粒数(X1,粒)百粒重(X2,g)株高(X3,cm)产量(Y,kg/hm2)1561.733.42949042.02504.140.32879744.03471.237.62908874.04476.637.02828833.55456.233.82788439.06513.635.32869058.57455.038.12928103.08594.531.02769343.59554.230.92888604.010493.730.12687287.011525.331.02777926.012571.224.12836993.0(例11.1)通过12个北方春玉米杂交种的测定数据(见表11解:用矩阵法求解多元线性回归方程①写出结构矩阵或数据矩阵X及依变量列矩阵Y解:用矩阵法求解多元线性回归方程②利用公式A=X

X

,B=X

Y,求得系数矩阵A和常数项矩阵B②利用公式A=XX,B=XY,求得系数矩阵③求系数矩阵A的逆矩阵C

③求系数矩阵A的逆矩阵C④求解偏回归系数矩阵

b=(b0、b1、b2、…、bm)′即b0=–2829.29147072,b1=14.94880992,b2=238.15014040,b3=–15.29653995④求解偏回归系数矩阵

b=(b0、b1、b2、…、bm⑤写出线性回归方程式中:自变量X1对应的偏回归系数b1=14.9,表明在百粒重(X2)、株高(X3)保持平均水平(=Σx2/n=403/12=33.55g;=Σx3/n=3401/12=283.4cm)时,每穗总粒数(X1)每增加1(粒),将使每公顷玉米籽粒产量(Y)平均增加14.9(kg);⑤写出线性回归方程同理,b2=238.2,表明在每穗总粒数(X1)、株高(X3)保持平均水平(=Σx1/n=6177/12=514.8粒;=283.4cm)时,百粒重(X2)每增加1(g),将使每公顷玉米产量(Y)平均增加238.2(kg);b3=–15.3,表明在每穗总粒数(X1)、百粒重(X2)保持平均水平(=514.8粒;=33.55g)时,株高(X3)每增加1(cm),将使每公顷玉米产量(Y)平均减少15.3(kg)。如果此回归关系是真实的(见下文),则该方程可用于描述表11.3的资料。但是,推断的量值处在观察值区间之内,才是可信的。X1的区间是[455.0,594.5],X2的区间是[24.1,40.3],X3的区间是[268,294]。同理,b2=238.2,表明在每穗总粒数(X1)、株高(二、多元线性回归的假设检验1、多元回归方程的假设检验检验m个自变量综合对Y的效应是否显著,即检验各自变量的总体偏回归系数j(j=1,2,…,)是否同时为零。①总变异平方和及自由度分解。自由度dfY=n–1

二、多元线性回归的假设检验1、多元回归方程的假设检验SSY=UY/12···m+QY/12···m

dfY=dfU+dfQ

其中,离回归平方和(或剩余平方和)

=

Y

Y–b

(X

Y)

自由度dfQ=n

–(m+1)

它与自变量X无关,仅反映除依变量与m个自变量间存在线性关系以外的其他因素包括试验误差所引起的变异。

SSY=UY/12···m+QY/12···m回归平方和

=b

(XY)–(1Y)2/n

自由度dfU=m。它是由m个自变量Xj的不同引起的,即是依变量Y受m个自变量综合线性影响所引起的变异

回归平方和②F检验若F≥F

(m,n

m

–1),那么我们可以在显著水平下,认为多元线性回归方程是成立的,是有显著意义的。反之,F<F,则认为该多元线性回归方程没有意义。②F检验若F≥F(m,n–m–1),那么这里应注意两个问题;第一,多元线性回归方程显著,不排斥有更合理的多元非线性回归方程的存在;第二,多元线性回归方程显著,也不排斥其中存在着与依变量Y无线性关系的自变量,所以,要准确地评定各自变量对Y是否有真实回归关系,还必须对偏回归系数的显著性做出假设检验,进而发现和删除不显著的偏回归系数对应的自变量。这里应注意两个问题;第一,多元线性回归方程显著,不排斥有更合2、偏回归系数的假设检验检验自变量Xj对Y的作用是否显著

,亦即检验假设H0:j=0。①F检验法叫做Y在Xi上的偏回归平方和。可以检验bj来自j=0的总体的概率。2、偏回归系数的假设检验检验自变量Xj对Y的作用是否显著,②t检验法服从df=n–(m+1)的t分布

其中sbj为偏回归系数估计标准

其中cjj为高斯乘数,是相关矩阵C中主对角线上的元素。

②t检验法sY/12···m称为多元线性回归方程的估计标准误或离回归标准误:

它的大小反映了回归平面与实测点的偏离程度,即回归估计值与实测值y偏离的程度。离回归标准误sY/12···m愈小,表明各个观察点愈靠近回归平面,则由回归方程估计Y的精确度愈高;反之,离回归标准误sY/12···m愈大,由回归方程估计Y的精确度愈低,可见,sY/12···m是回归精确度的量度。sY/12···m称为多元线性回归方程的估计标准误或离回归标[例11.2]对表11.3资料做多元线性回归方程及偏回归系数的假设检验;(1)回归方程的假设检验;

①无效假设H0:1=

2=

3=0;对应假设HA:1、2、3至少有一个不为0。②确定显著水平,

=0.01③计算总变异平方和SSY,离回归平方和QY/12···m、回归平方和UY/12···m及相应自由度[例11.2]对表11.3资料做多元线性回归方程及偏回归系数第十一章--多元线性回归和相关分析--《试验设计与统计分析》课件UY/123=b

(X

Y)–(1Y)2/n

=SSY

QY/12···m=7354748.0625–973413.0342=6381335.0283

dfU

=m=3④计算F值⑤推断:F>F0.01

(3,8)=7.591,说明P(H0)<0.01(实际P=0.0007)应被否定,三元线性回归方程成立,表11.3的X1、X2和X3与Y有真实的三元线性回归关系。将结果填于表11.4。UY/123=b(XY)–(1Y)2(2)偏回归系数的假设检验①无效假设H0:j=0;对应假设HA:j≠0。②确定显著水平,

=0.01③计算各偏回归平方和Uj及自由度Y依X1的偏回归平方和及自由度:df1=1(2)偏回归系数的假设检验①无效假设H0:j=0;Y依X2的偏回归平方和及自由度:df2=1Y依X3的偏回归平方和及自由度:df3=1Y依X2的偏回归平方和及自由度:④计算F值⑤推断:F1

、F2均

>F0.01

(1,8)=11.26;说明H0:1=0、2=0应被否定,即每穗总粒数(X1)、百粒重(X2)对每公顷玉米产量(Y)的偏回归都是极显著的。F3

=0.85<1,说明H0:3=0应被接受,即株高(X3)对每公顷玉米产量(Y)的偏回归不显著。将结果与三元回归方程的假设检验结果一并做成方差分析表于表11.4。④计算F值表11.4三元线性回归方差分析表变异来源DFSSMSFF0.01P因X1的偏回归12812500.40512812500.405123.11**11.260.0013因X2的偏回归15145494.55525145494.555242.29**11.260.0002因X3的偏回归1103533.5743103533.57430.8511.260.3835三元回归36381335.02832127111.676117.48**7.590.0007离回归8973413.0342121676.6293

总变异117354748.0625

表11.4三元线性回归方差分析表变异来源DFSSMSFF(3)二元线性回归方程的计算表11.5二元线性回归方差分析表变异来源DFSSMSFF0.01P因X1的偏回归12798669.87132798669.871323.39**10.560.0009因X2的偏回归16267783.30146267783.301452.38**10.564.88×10-5二元回归26277801.45403138900.727026.23**8.020.0002离回归91076946.6085119660.7343总变异117354748.0625

(3)二元线性回归方程的计算表11.5二元线性回归方差综合二元回归方程及偏回归系数假设检验结果,表11.3的X1和X2与Y有真实的二元线性回归关系;每穗总粒数(X1,粒)、百粒重(X2,g)对每公顷玉米产量(Y,kg)的偏回归也都是极显著的。二元线性回归方程

=–6012.3+13.9x1+219.6x2为表11.3资料的最优多元线性回归方程。综合二元回归方程及偏回归系数假设检验结果,表11.3的X1和第二节多元相关和偏相关在M=m+1个变量中,m个变量的综合和一个变量的相关,叫做多元相关或复相关(multiplecorrelation);而在其余M-2个变量皆固定时,指定的两个变量间的相关,叫做偏相关(partialcorrelation)一、多元相关1、多元相关系数第二节多元相关和偏相关在M=m+1个变量中,m个变量的综[例11.3]由表11.3资料(X3已删除,不参加分析),计算依变量Y(每公顷玉米籽粒产量)与自变量X1(每穗总粒数)和X2(百粒重)的二元相关系数,并与各自变量Xj与依变量Y的简单相关系数作比较;

①在〔例11.1〕中,已算得SSY=7354748.0625,UY/12=6277801.4540,二元相关系数:②另由表11.3资料,可算得Y与X1、X2的简单相关系数:[例11.3]由表11.3资料(X3已删除,不参加分析),计可见二元相关系数RY·12比简单相关系数r1Y、r2Y都大。可见二元相关系数RY·12比简单相关系数r1Y、r2Y都大。2、多元相关系数的假设测验[例11.4]由表11.3资料(X3已删除,不参加分析),进行二元相关系数假设检验①计算F值:②推断:FR

>F0.01

(2,9)=8.02,表明RY·12极显著(实际P=0.0002)。2、多元相关系数的假设测验[例11.4]由表11.3资料(X若用查R值法,则由df2=n–m

–1=9与M=m+1=2+1=3,查附表9得R0.01(9,3)=0.800,因为RY·12

=0.9239>R0.01=0.800,故P<0.01,二元相关系数RY·12极显著,与F检验法结论完全一致。假设检验结果表明:每公顷玉米籽粒产量(Y)与每穗总粒数(X1)、百粒重(X2)之间存在极显著的二元线性相关关系。若用查R值法,则由df2=n–m–1=9与M二、偏相关1、偏相关系数的计算①由简单相关系数rij构建相关系数矩阵R:

②求相关系数矩阵R的逆矩阵C:二、偏相关1、偏相关系数的计算③由下式计算偏相关系数rij·:[例11.5]计算表11.3资料的偏相关系数在例11.3中已算得自变量X1与X2;以及依变量Y与自变量X1、X2的简单相关系数:r12=–0.63741402;r1Y=0.03690710;r2Y=0.68778314。

①将Y看作X3,构建相关系数矩阵:

③由下式计算偏相关系数rij·:第十一章--多元线性回归和相关分析--《试验设计与统计分析》课件2、偏相关系数的假设检验t检验法:令总体偏相关系数为rij.,则由可测验H0:rij.=0对HA:rij.≠0,该t具有n=n-M2、偏相关系数的假设检验t检验法:令总体偏相关系数为rij.查r值法

由df=n–M及变量个数2,查附表9,得r0.05

和r0.01,将偏相关系数的绝对值|rij·|与r0.05

和r0.01进行比较,即可做出统计推断。若|rij·|

≥r,则P≤,偏相关系数rij·在水平上显著;若|rij·|

<r,则P>,偏相关系数rij·在水平上不显著。

查r值法[例11.6]检验例11.5所得偏相关系数的显著性。①提出假设H0:ij·=0,对HA

:ij·≠0,②确定显著水平,

=0.01由df=n–M=12–3=9及变量个数2,查附表9,得r0.05(9)=0.602,r0.01(9)=0.735。因为各偏相关系数的绝对值|rij·|>r0.01,故P<0.01,上述三个偏相关系数均极显著。结论:当X2(百粒重)保持一定时,X1(每穗总粒数)和Y(每公顷玉米籽粒产量)呈极显著正相关;当X1保持一定时,X2和Y亦呈极显著正相关,但当Y保持一定时,X1和X2呈极显著负相关。[例11.6]检验例11.5所得偏相关系数的显著性。三、偏相关和简单相关的关系从表11.6可以看出:简单相关系数和对应的偏相关系数在数值及相关程度上相差很大,甚至有时连符号都可能相反。表11.6表11.3资料的偏相关系数rij·(主对角线上方)和简单相关系数rij(主对角线下方)

性状X1X2X

3=YX1(每穗总粒数)–0.9137**0.8498**X2(百粒重)–0.6374*0.9238**X3=Y(公顷产)0.03690.6878*三、偏相关和简单相关的关系表11.6表11.3资料的偏简单回归系数和偏回归系数也存在类似的情形:

造成这些不同情况的关键在于自变量之间的相关。简单回归系数和偏回归系数也存在类似的情形:除非r12=0,和r2Y=0,否则偏相关(回归)系数r1Y·2(b1)决不会和简单相关(回归)系数r1Y(bY/1)相同。同样,除非r12=0,和r1Y=0,否则偏相关(回归)系数r2Y·1(b2)决不会和简单相关(回归)系数r2Y(bY/2)相同。

除非r12=0,和r2Y=0,否则偏相关(回归)系数本例中r12=–0.6374*,这个显著的负相关,就说明表11.3资料中X1的大值将使X2取小值,X1的小值将使X2取大值。亦即:若每穗总粒数多的杂交种,则百粒重就小;百粒重小的杂交种,则每穗总粒数就多。这样,在用简单相关和简单回归计算时,X1中就混淆着X2的负效应,X2中也混淆着X1的负效应,因而得到的两个简单相关系数和简单回归系数均比相应偏相关系数、偏回归系数小。反之,如果在X1和X2之间有一个显著的正相关,X1中就混淆着X2的正效应,X2中也混淆着X1的正效应,因而得到的两个简单相关系数和简单回归系数均比相应偏相关系数、偏回归系数大。当应用偏相关和偏回归的方法分析时,由于消除了自变量相关的混淆,因而能够表现出自变量和依变量的单独关系。本例中r12=–0.6374*,这个显著的负相关,就说明综上所述,简单相关和简单回归是包含有其它因素作用成分在内的相关和回归。因而研究工作者要根据研究目的正确选用适当的统计指标。当要排除其它变量干扰,研究两个变量单独的关系时采用偏相关与偏回归;当考虑变量间实际存在的关系而要研究某一个变量为代表的综合效应间的相关与回归时,则可采用简单相关和简单回归。综上所述,简单相关和简单回归是包含有其它因素作用成分在内的相第三节通径分析一、基本概念假设有三个相关变量Y、X1、X2,两个自变量的关系有两种可能:一是X1与X2间彼此独立无关(r12=0,如图11·1);二是X1与X2间彼此相关r12≠0,(如图11·2)。图中:单箭头“←“表示变量间的因果关系,箭头方向是原因到结果,称为“通径”(path);双箭头“↔”表示变量间存在相关关系,称为相关线,相当于两条尾端相连的通径。这种用来表示各变量间的通径与相关关系的图称为通径图。表示各条通径对于改变Y反应量相对重要性的统计数叫通径系数(pathcoefficient)。.第三节通径分析一、基本概念二、通径系数的导出图11·1独立通径图图11·2相关通径图二、通径系数的导出图11·1独立通径图图11·2相关新变量Xj′对Y′的偏回归系数bj′:(因为;)新变量Xj′对Y′的偏回归系数bj′:表示j→Y通径相对重要性的统计数–—通径系数pj:

表示j→Y通径相对重要性的统计数–—通径系数pj:可见,pj的意义是:在j→Y通径上,Xj若增加一个标准差单位,Y将增加(pj>0)或减少(pj<0)pj个标准差单位。所以,通径系数pj可看作是自变量Xj对依变量Y的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论