sc统计之直线回归相关知识_第1页
sc统计之直线回归相关知识_第2页
sc统计之直线回归相关知识_第3页
sc统计之直线回归相关知识_第4页
sc统计之直线回归相关知识_第5页
已阅读5页,还剩59页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第八章直线回归与相关

前面各章我们讨论的问题,都只涉及到一个变量,如体重、日增重、产仔数、体温、血糖浓度、产奶量、产毛量或孵化率、发病率等。但是,由于客观事物在发展过程中相互联系、相互影响,因而在畜牧、水产等试验研究中常常要研究两个或两个以上变量间的关系。下一张

主页

退出

上一张

最高月产、猪瘦肉率与背膘厚度、眼肌面积、胴体长;绵羊产毛量与体重、胸围、体长;黑白花奶牛的一胎305天产奶量与、最高日产天数;

90天产奶量、最高日产猪的增重与饲料消耗;雏鹅重与70日龄重;绵羊胸围与体长;仔猪初生重与断奶重;例如变量间的关系有两类:

一类是变量间存在着完全确定性的关系,可以用精确的数学表达式来表示。

如长方形的面积(S)与长(a)和宽(b)的关系可以表达为:S=ab。它们之间的关系是确定性的,只要知道了其中两个变量的值就可以精确地计算出另一个变量的值,这类变量间的关系称为函数关系。下一张

主页

退出

上一张

另一类是变量间不存在完全的确定性关系,不能用精确的数学公式来表示。

如黄牛的体长与体重的关系;仔猪初生重与断奶重的关系;猪瘦肉率与背膘厚度、眼肌面积、胴体长等的关系等等,这些变量间都存在着十分密切的关系,但不能由一个或几个变量的值精确地求出另一个变量的值。像这样一类关系在生物界中是大量存在的,统计学中把这些变量间的关系称为相关关系,把存在相关关系的变量称为相关变量。下一张

主页

退出

上一张

相关变量间的关系一般分为两种:一种是因果关系,即一个变量的变化受另一个或几个变量的影响。如仔猪的生长速度受遗传特性、营养水平、饲养管理条件等因素的影响,子代的体高受亲本体高的影响;另一种是平行关系,它们互为因果或共同受到另外因素的影响。如黄牛的体长和胸围之间的关系,猪的背膘厚度和眼肌面积之间的关系等都属于平行关系。下一张

主页

退出

上一张

统计学上采用回归分析(regressionanalysis)研究呈因果关系的相关变量间的关系。表示原因的变量称为自变量,表示结果的变量称为依变量。研究“一因一果”,即一个自变量与一个依变量的回归分析称为一元回归分析;研究“多因一果”,即多个自变量与一个依变量的回归分析称为多元回归分析。一元回归分析又分为直线回归分析与曲线回归分析两种;多元回归分析又分为多元线性回归分析与多元非线性回归分析两种。下一张

主页

退出

上一张

回归分析的任务是揭示出呈因果关系的相关变量间的联系形式,建立它们之间的回归方程,利用所建立的回归方程,由自变量(原因)来预测、控制依变量(结果)。

统计学上采用相关分析(correlationanalysis)研究呈平行关系的相关变量之间的关系。对两个变量间的直线关系进行相关分析称为简单相关分析(也叫直线相关分析);对多个变量进行相关分析时,研究一个变量与多个变量间的线性相关称为复相关分析;研究其余变量保持不变的情况下两个变量间的线性相关称为偏相关分析。

下一张

主页

退出

上一张

第一节直线回归

一、直线回归方程的建立

对于两个相关变量,一个变量用x表示,另一个变量用y表示,如果通过试验或调查获得两个变量的n对观测值:(x1,y1),(x2,y2),……,(xn,yn)

下一张

主页

退出

上一张

为了直观地看出x和y间的变化趋势,可将每一对观测值在平面直角坐标系描点,作出散点图(见图8-1)。从散点图(图8-1)可以看出:

②两个变量间直线关系的性质(是正相关还是负相关)和程度(是相关密切还是不密切);下一张

主页

退出

上一张

散点图直观地、定性地表示了两个变量之间的关系。为了探讨它们之间的规律性,还必须根据观测值将其内在关系定量地表达出来。

①两个变量间有关或无关;若有关,两个变量间关系类型,是直线型还是曲线型;如果呈因果果关系的两两个相关变变量y(依依变量)与与x(自变变量)间的的关系是直直线关系,,根据n对观测值所所描出的散散点图,如如图8—1((b)和图8—1(e)所示示。由于依变量量y的实际际观测值总总是带有随随机误差,,因而依变变量y的实实际观测值值yi可用自变量量x的实际际观测值xi表示为:(i=1,2,…,n)(8—1)其中:x为可以以观测的一一般变量(也可以是是可以观测测的随机变变量);y为可以以观测的随随机变量;这就是直线线回归的数学模型。我们可以以根据实际际观测值对对α,β以以及方差做做出出估计。i为相互独立立,且都服服从N(0,))的随机机变量。在x、y直角坐标平平面上可以以作出无数数条直线线,我们把所有直线线中最接近近散点图中中全部散点点的直线用用来表示x与y的直线关系系,这条直线线称为回归直线。下一张主页页退出上一张设回归直线的方程为:(8-2)其中,a是α的估计计值,b是β的估计计值。a、b应使回归估估计值与与实际观观测值y的偏差平方方和最小,即:根据微积分分学中的求求极值的方方法,令Q对a、b的一阶偏导导数等于0,即:最小整理得关于于a、b的正规方程组组:下一张主页页退出上一张解正规方程程组,得::(8-3)(8-4)(8-3))式中的分分子是自变变量x的离均差与与依变变量y的离均均差的的乘积积和,,简称乘积和,记作,,分母母是自变量量x的离均差平平方和,,记记作SSX。a叫做样本回归截距,是回归直直线与y轴交点的纵纵坐标,当当x=0时,=a;b叫做样本回归系数,表示x改变一个个单位,y平均改变变的数量;;b的符号反映映了x影响y的性质,b的绝对值大大小反映了了x影响y的程度;的估计值。叫做回归估计值,是当x在在其研究范围内取某一个值时,y值平均数回归方程的的基本性质质:如果将(8-4)式式代入(8-2)式式,得到回回归方程的的另一种形形式(中心化形式式):下一张主页页退出上一张性质1最小;性质2;性质3回归直线通过点。(8-5)【例8.1】在四川川白鹅的生生产性能研研究中,得得到如下一一组关于雏雏鹅重(g)与70日龄重(g)的数数据,试建建立70日日龄重(y)与雏鹅重重(x)的直线回回归方程。。表8-1四四川白鹅鹅雏鹅重与与70日龄龄重测定结结果(单位:g)下一张主页页退出上一张1、作散点点图以雏鹅重((x)为横坐标标,70日日龄重(y)为纵坐标标作散点图图,见图8-3。2、计算回回归截距a,回归系数数b,建立直线线回归方程程首先根据实实际观测值值计算出下下列数数据:下一张主页页退出上一张进而计算出出b、a:得到四川白鹅的70日龄重y对雏鹅重x的直线回归方程为:根据直线回回归方程可可作出回归归直线,见见图8-3。从图8-3看出,并不不是所有的的散点都恰恰好落在回回归直线上上,这说明明用去去估计y是有偏差的的。下一张主页页退出上一张3、直线回回归的偏离离度估计偏差平方和和的的大小表表示了实测测点与回归归直线偏离离的程度,,因而偏差差平方和又又称为离回归平方方和。统计学已已经证明::在直线回回归分析中中离回归平平方和的自自由度为n-2。于是是可求得离回归均方方为:离回归均方方是模型((8-1))中σ2的估计值。。离回归均方方的平方根根叫离回归标准准误,记为,,即即(8-6))离回归标准准误Syx的大小表示示了回归直直线与实测测点偏差的的程度,即回归估估测值与与实际际观测值y偏差的程度度,于是我我们把离回归标标准误Syx用来表示回回归方程的的偏离度。。下一张主页页退出上一张以后我们将将证明:(8-7))利用(8-7)式先先计算出,,然然后再代入入(8-6)式求Syx。对于【例8.1】有有所以二、直线回回归的显著著性检验若x和y变量间并不不存在直线线关系,但但由n对观测值((xi,yi)也可以根根据上面介介绍的方法法求得一个个回归方程程=a+bx。显然,,这样的回回归方程所所反应的两两个变量间间的直线线关系是不不真实的。。如何判判断直线回回归方程所所反应的两两个变量间间的直线关关系的真实实性呢?这这取决于变变量x与y间是否存在在直线关系系。我们先先探讨依变变量y的变异,然然后再作出出统计推断断。下一张主页页退出上一张1、直线回回归的变异异来源图8-4的的分分解图从图8-4看到:上式两端平平方,然后后对所有的的n点求和,则则有下一张主页页退出上一张由于所以于是所以有(8-8))反映了y的总变异程程度,称为为y的总平方和和,记为SSy;反映了由于于y与x间存在直线线关系所引引起的y的变异程度度,称为回回归平方和和,记为SSR;反映了了除y与x存在直直线关关系以以外的的原因因,包包括随随机误误差所所引起起的y的变异异程度度,称称为离离回归归平方方和或或剩余余平方方和,,记为为SSr。(8-8))式又又可表表示为为:(8-9))这表明明y的总平平方和和剖分分为回回归归平方方和与与离离回归归平方方和两两部分分。与与此相相对应应,y的总自自由度度dfy也划分分为回回归自自由度度dfr与离回回归自自由度度dfr两部分分,即即下一张张主页页退出出上一张张(8-10)在直线线回归归分析析中,,回归归自由由度等等于自自变量量的个个数,,即即;;y的总总自自由由度;;离回回归自自由度度。。于于是::离回归归均方方,,回回归归均均方方。2、回回归关关系显显著性性检验验—F检验x与y两个变变量间间是否否存在在直线线关系系,可可用F检验法法进行行检验验。无效假假设HO:=0,,备择择假设设HA:≠0。。在无效效假设设成立立的条条件下下,回回归均均方与与离回回归均均方的的比值值服从从和和的的F分布,,所以以可以以用df1=1,df2=n-2(8-11)下一张张主页页退出出上一张张来检验验回归归关系系即回回归方方程的的显著著性。。回归平平方和和还可可用下下面的的公式式计算算得到到:(8-12)(8-13)根据((8-9))式,,可得得到离离回归归平方方和计计算公公式为为:下一张张主页页退出出上一张张对于【【例8.1】资资料,,有而。。于于是可可以列列出方方差分分析表表进行行回归归关系系显著著性检检验。。表8-2四四川白白鹅70日日龄重重与雏雏鹅重重回归归关系系方差分分析下一张张主页页退出出上一张张因为,,表表明四四川白白鹅70日日龄重重与雏雏鹅重重间存存在极极显著著的直直线关关系。。3、回回归系系数的的显著著性检检验——t检验采用回回归系系数的的显著著性检检验——t检验也也可检检验x与y间是否否存在在直线线关系系。回回归系系数显显著性性检验验的无无效假假设和和备择择假设设为HO:β==0,,HA:β≠≠0。。t检验的的计算算公式式为::(8-14)(8-15)其中,,Sb为回归归系数数标准准误。。对于【【例例8.1】】资资料料,,已计计算得得故有下一张张主页页退出出上一张张当,,查查t值表,,得因,,,,否定HO:β==0,,接受受HA:β≠≠0,,即直直线回回归系系数b=21.7122是是极显显著的的,表表明四四川白白鹅70日日龄重重与与雏鹅鹅重间间存在在极显显著的的直线线关系系,可可用所所建立立的直直线回回归方方程来来进行行预预测和和控制制。F检验验的的结结果果与与t检验验的的结结果果一一致致。。事实实上上,,统统计计学学已已证证明明,,在在直直线线回回归归分分析析中中,,这这二二种种检检验验方方法法是是等等价价的的,,可可任任选选一一种种进进行行检检验验。。下一一张张主页页退出出上一一张张特别别要要指指出出的的是是::利利用用直直线线回回归归方方程程进进行行预预测测或或控控制制时时,,一一般般只只适适用用于于原原来来研研究究的的范范围围,,不不能能随随意意把把范范围围扩扩大大,,因因为为在在研研究究的的范范围围内内两两变变量量是是直直线线关关系系,,这这并并不不能能保保证证在在这这研研究究范范围围之之外外仍仍然然是是直直线线关关系系。。若若需需要要扩扩大大预预测测和和控控制制范范围围,,则则要要有有充充分分的的理理论论依依据据或或进进一一步步的的实实验验依依据据。。利利用用直直线线回回归归方方程程进进行行预预测测或或控控制制,,一一般般只只能能内内插插,,不不要要轻轻易易外外延延。。第二二节节直直线线相相关关进行行直直线线相相关关分分析析的的基基本本任任务务在在于于根根据据x、、y的实实际际观观测测值值,,计计算算表表示示两两个个相相关关变变量量x、、y间线线性性相相关关程程度度和和性性质质的的统统计计量量————相相关关系系数数r并进进行行显显著著性性检检验验。。下一一张张主页页退出出上一一张张一、、决决定定系系数数和和相相关关系系数数在上上一一节节中中已已经经证证明明了了等等式式::从这这个个等等式式不不难难看看到到::y与x直线线回回归归效效果果的的好好坏坏取取决决于于回回归归平平方方和和与与离离回回归归平平方方和和的大大小小,,或或者者说说取取决决于于回回归归平平方方和和在在y的总总平平方方和和中中所所占占的的比比例例的的大大小小。。这这个个比比例例越越大大,,y与x的直线回回归效果果就越好好,反之之则差。。我们把比比值叫做x对y的决定系数数(coefficientofdetermination),记记为r2,即下一张主页页退出出上一张(8-24)决定系数数的大小小表示了了回归方方程估测测可靠程程度的高高低,或者说说表示了了回归直直线拟合合度的高高低。显显然有0≤r2≤1。因因为而SPxy/SSx是以x为自变量量、y为依变量量时的回回归系数数byx。若把把y作为自变变量、、x作为依变变量,,则回归归系数bxy=SPxy/Ssy,所以决决定系数数r2等于y对x的回归系系数与x对y的回归归系数的的乘积。。这就是是说,决决定系数数反应了了x为自变量量、y为依变量量和y为自变量量、x为依变量量时两个个相关变变量x与y直线相关关的信息息,即即决定系数数表示了了两个个互为因因果关系系的相关关变量间间直线相相关的程程度。但决定定系数介介于0和和1之间间,不能能反应直直线关系系的性质质——是是同向增增减或是是异向增增减。下一张主页页退出出上一张若求r2的平方根根,且取取平方根根的符号号与乘积积和SPxy的符号一一致,即即与bxy、byx的符号一一致,这这样求出出的平方方根既可表示示y与x的直线相相关的程程度,也也可表示示直线相相关的性性质。统计学学上把这这样计算算所得的的统计量量称为x与y的相关系系数(coefficientofcorrelation),,记为r,即(8-25)(8-26)下一张主页页退出出上一张二、相关关系数的的计算【例8.6】计计算算10只只绵羊的的胸围((cm)和体重重(kg)的相相关系数数。表8-310只绵绵羊胸围围和体重重资料下一张主页页退出出上一张根据表8-3所所列数据据先计算算出:代入(8-25)式得得:即绵羊胸胸围与体体重的相相关系数数为0.8475。下一张主页页退出出上一张三、相关关系数的的显著性性检验上述根据据实际观观测值计计算得来来的相关关系数r是样本相相关系数数,它它是双变变量正态态总体中中的总体体相关系系数ρ的的估计值值。样本本相关系系数r是否来自自ρ≠0的总体体,还须须对样本本相关系系数r进行显著著性检验验。此此时无无效效假设设、备备择假假设设为HO:ρ=0,HA:ρ≠0。与与直线线回归关关系显著著性检验验一样,,可采用用t检验法与与F检验验法对相相关系数数r的显著性性进行检检验。t检验的计计算公式式为:t=,,df=n-2(8-27)其中,,,叫做做相关系系数标准准误。F检验的计计算公式式为:F=,,df1=1,df2=n-2(8-28)下一张主页页退出出上一张统计学家家已根据据相关系系数r显著性t检验法计计算出了了临界r值并列出出了表格格。所所以可可以直接接采用查查表法对对相关系系数r进行显著著性检验验。具体作法法是:先根据据自自由度度n-2查查临界r值(附附表表8),得得,,。。若若|r|<,,P>0.05,则则相关系系数r不显著,,在r的右上方方标记““ns”;若≤≤|r|<,,0.01<P≤0.05,则则相关系系数r显著,在在r的右上方方标记““*”;;若|r|≥,,P≤0.01,,则相相关系系数数r极显著,,在r的右上方方标记““**””。对于【例例8-6】,因因为df=n-2=10-2=8,查查附表8得:=0.632,=0.765,,而r=0.8475>,,P<0.01,表表明绵羊羊胸围与与体重的的相关系系数极显显著。四、相关关系数与与回归系系数的关关系从相关系系数计算算公式的的导出可可以看到到:相关关变量x与y的相关系系数r是y对x的回归系数数与x对y的相关系数数bxv的几何平均均数:下一张主页页退出上一张表明直线相相关分析与与回归分析析关系十分分密切。事事实上,它它们的研究究对象都是是呈直线关关系的相关关变量。直直线回归分分析将二个个相关变量量区分为自自变量和依依变量,侧侧重于寻求求它们之间间的联系形形式——直直线回归方方程;直线线相关分析析不区分自自变量和依依变量,侧侧重于揭示示它们之间间的联系程程度和性质质——计算算出相关系系数。两种种分析所进进行的显著著性检验都都是解决y与x间是否存在在直线关系系。因而二二者的检验验是等价的的。即相关关系数显著著,回回归系数亦亦显著;相相关系数数不显著,回归归系数也必必然不显著著。由于利利用查表法法对相关系系数进行检检验十分简简便,因此此在实际进行行直线回归归分析时,,可用相关关系数显著著性检验代代替直线回回归关系显显著性检验验,即可先计计算出相关关系数r并对其进行行显著性检检验,若检检验结果r不显著,则则用不着建建立直线回回归方程;;若r显著,再计计算回归系系数b、回归截距距a,建立直线线回归方程程,此时所所建立的直直线回归方方程代表的的直线关系系是真实的的,可利用用来进行预预测和控制制。下一张主页页退出上一张五、应用直直线回归与与相关的注注意事项直线回归分分析与相关关分析在生生物科学研研究领域中中已得到了了广泛的应应用,但在在实际工作作中却很容容易被误用用或作出错错误的解释释。为了正正确地应用用直线回归归分析和相相关分析这这一工具,,必须注意意以下几点点:1、变量间间是否存在在相关直线回归分分析和相关关分析毕竟竟是处理变变量间关系系的数学方方法,在将将这些方法法应用于生生物科学研研究时要考考虑到生物物本身的客客观实际情情况,譬如如变量间是是否存在直直线相关以以及在什么么条件下会会发生直线线相关,求求出的直线线回归方程程是否有意意义,某性性状作为自自变量或依依变量的确确定等等,,都必须由由生物科学学相应的专专业知识来来决定,并并且还要用用到生物科科学实践中中去检验。。如果不以以一定的生生物科学依依据为前提提,把风马马牛不相及及的资料随随意凑到一一块作直线线回归分析析或相关分分析,那将将是根本性性的错误。。下一张主页页退出上一张2、其余变变量尽量保保持一致由于自然界界各种事物物间的相互互联系和相相互制约,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论