《生物统计学》07 直线回归与相关_第1页
《生物统计学》07 直线回归与相关_第2页
《生物统计学》07 直线回归与相关_第3页
《生物统计学》07 直线回归与相关_第4页
《生物统计学》07 直线回归与相关_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三节直线相关第二节直线回归第一节回归和相关的概念第七章直线回归与相关一、变量的关系二、相关变量三、回归分析和相关分析第一节回归和相关的概念函数关系一、变量的关系xy是一一对应的确定关系设有两个变量x和y,当变量x取某个数值时,

y依确定的关系取相应的值,则称y是x的函数,记为y=f(x),则x称为自变量,y称为因变量各观测点落在一条线上相关关系xy变量间关系不能用函数关系精确表达一个变量的取值不能由另一个变量唯一确定当变量x取某个值时,变量y的取值可能有几个各观测点分布在直线周围黄牛的体长与体重的关系⑴、相关关系的类型相关关系非线性相关线性相关正相关正相关负相关负相关完全相关不相关⑵、相关关系的图示不相关负线性相关正线性相关非线性相关完全负线性相关完全正线性相关7一个变量的变化受另一个或多个变量的影响仔猪的生长速度受遗传特性、营养水平、饲养管理条件等因素的影响;子代的身高受亲本身高的影响相关变量存在相关关系的变量称为相关变量。相关变量间的关系分为两类因果关系平行关系二、相关变量相关变量存在相关关系的变量称为相关变量。相关变量间的关系分为两类因果关系平行关系二、相关变量两个变量之间互为因果或共同受到另外因素的影响人的身高和体重之间的关系;兄弟姐妹身高之间的关系一元回归分析研究“一因一果”,即一个自变量与一个因变量的回归分析多元回归分析研究“多因一果”,即多个自变量与一个因变量的回归分析回归分析研究变量之间的因果关系以计算回归方程为基础的分析方法x为自变量(表示原因的变量)y为因变量或依变量(表示结果的变量)三、回归分析和相关分析回归分析的任务揭示因果关系的变量间的联系形式建立它们之间的回归方程利用所建立的回归方程,由自变量(原因)来预测因变量(结果)简单相关分析对两个变量间的直线关系进行相关分析偏相关分析研究其余变量保持不变的情况下两个变量间的线性相关相关分析以计算相关系数为基础的统计分析方法研究呈平行关系的相关变量之间的关系x和y都受误差的影响,无自变量和因变量的区别变量间的关系及分析方法随机关系(无关)三、预测及应用二、回归方程的显著性检验一、直线回归方程的建立第二节直线回归一、直线回归方程的建立对于两个相关变量,一个变量用x表示,另一个变量用y表示,如果通过试验或调查获得两个变量的n对观测值:

(x1,y1),(x2,y2),……,(xn,yn)如何知道x和y间的变化趋势?

㈠、散点图直观地、定性地表示了两个变量之间的关系通过散点图可初步判断两个变量是否相关;若相关,是直线型还是曲线型相关两个变量间直线关系的性质(是正相关还是负相关)和相关程度(是密切还是不密切)

㈡、直线回归的数学模型变量y与x内在联系,可用一条线性方程表示:y=+x因变量y的实际观测值总是带有随机误差因变量y的实际观测值yi记为yi

=+xi+i

(i=1,2,…,n)回归模型:描述因变量y如何依赖于自变量x和误差项的方程模型参数相互独立,服从N(0,2)误差项ε是一个期望值为0的随机变量,即E(ε)=0。对于一个给定的x值,y的期望值为:E(y)=+x误差项ε是一个服从正态分布的随机变量,且相互独立。即ε~N(0,σ2)基本假定回归方程:描述y的期望值如何依赖于x的方程简单线性回归方程的形式如下E(y)=+x方程的图示是一条直线,因此也称为直线回归方程是回归直线在y轴上的截距,是当x=0时y的期望值是直线的斜率,称为回归系数,表示当x每变动一个单位时,y的平均变动值

㈢、回归方程1、估计(经验)的回归方程总体回归参数和是未知的,必需利用样本数据去估计用样本统计量a和b代替回归方程中的未知参数和,就得到了估计的回归方程简单线性回归中估计的回归方程为a叫做样本回归截距,是回归直线与y轴交点的纵坐标,当x=0时,y=ab叫做样本回归系数,表示x改变一个单位,y平均改变的数量;b的符号反映了x影响y的性质,b的绝对值大小反映了x影响y的程度y叫做回归估计值,是当x取某一个值时,y值平均数+x的估计值2、参数和

的估计用最小二乘法拟合的直线与实际数据的误差比其他任何直线都小通过计算因变量的观察值与估计值之间的离差平方和达到最小,来求得a和b的方法。即最小二乘法(图示)xy(xn,yn)(x1,y1)(x2,y2)(xi,yi)^ei=yi-yi}据微积分的极值原理,Q(a,b)对a,b的一阶偏导数等于0,即计算公式【例】在四川白鹅的生产性能研究中,得到如下一组关于雏鹅重(g)与70日龄重(g)的数据,试建立70日龄重(y)与雏鹅重(x)的直线回归方程。已知:x2=118112,x=1182

y=32650,xy=32526101、作散点图以雏鹅重(x)为横坐标,70日龄重(y)为纵坐标作散点图2、计算回归截距a,回归系数b,建立直线回归方程x2=118112,x=1182

y=32650,xy=3252610y=582.1816+21.7122x二、回归方程的显著性检验若x和y变量间并不存在直线关系,但由n对观测值(xi,yi)也可以根据上面介绍的方法求得一个回归方程

y=a+bx显然,这样的回归方程所反应的两个变量间的直线关系是不真实的如何判断直线回归方程所反应的两个变量间的直线关系的真实性?

1、离差平方和的分解因变量y

变异来源于两个方面:由自变量x的取值不同造成的随机误差等其他因素造成的对一个具体的观测值来说,变异大小可以通过该实际观测值与其均值之差y-y

来表示三个平方和的关系两边平方后求和dfy

=n-1,dfR=1自变量个数,dfr=n–2SSy=SSR+SSr

dfy=dfR+dfr总平方和SSy{回归平方和SSR{残差平方和SSr{总平方和:SSy=(yi

-y)2反映y的总变异程度,即因变量的n

个观察值与其均值的总离差回归平方和:SSR=(yi

-y)2反映自变量x

的变化对因变量y

取值变化的影响,也称为可解释的平方和残差平方和:SSr=(yi

-y)2反映的是除x

以外的其他因素对y

取值的影响,也称为不可解释的平方和或剩余平方和三个平方和的意义2、线性关系的检验——F检验检验自变量和因变量之间的线性关系是否显著将回归均方(SSR/dfR)同残差(SSr/dfr)加以比较,用F检验来分析差别是否显著显著两个变量之间存在线性关系不显著两个变量之间不存在线性关系检验的步骤提出假设H0:线性关系不显著计算检验统计量F确定显著性水平,并根据分子自由度1和分母自由度n-2找出临界值F

作出决策FF,拒绝H0F<F,接受H0【续前例】四川白鹅70日龄重与雏鹅重回归关系方差分析表6-1四川白鹅70日龄重与雏鹅重回归关系方差分析

F=213.81>F0.01(1,10)=10.04,P<0.01,表明四川白鹅70日龄重与雏鹅重间存在极显著的直线关系。检验x与y之间是否具有线性关系理论基础是回归系数b的抽样分布在一元线性回归中,等价于回归方程的显著性检验3、回归系数的显著性检验——t检验样本统计量b的分布b是根据最小二乘法求出的样本统计量,它有自己的分布b的分布具有如下性质分布形式:正态分布数学期望:E(b)=标准差:由于未知,需用其估计量Sy来代替得到的估计的标准差估计标准误差Sy实际观察值与回归估计值离差平方和的均方根反映实际观察值在回归直线周围的分散状况从另一个角度说明了回归直线的拟合程度计算公式b的抽样分布样本统计量b的分布和计算E(b)=检验的步骤提出假设H0:

=0(没有线性关系)H1:

0(有线性关系)计算检验的统计量确定显著性水平,并进行决策t>t,拒绝H0t<t,接受H0【续前例】对四川白鹅70日龄重与雏鹅重回归系数进行显著性检验提出假设H0:=0四川白鹅70日龄重与雏鹅重之间无线性关系H1:

0四川白鹅70日龄重与雏鹅重之间有线性关系计算检验的统计量t=b/Sb=21.7122/1.4849=14.62df=n-2=12-2=10,t0.05(10)=2.228,t0.01(10)=3.169

t=14.62>t0.01(10),P<0.01,表明回归系数b=21.7122是极显著的,即四川白鹅70日龄重与雏鹅重间存在极显著的直线关系。利用直线回归方程进行预测或控制,一般只适用于原来研究的范围,不能随意把范围扩大。在研究范围内两变量是直线关系,并不能保证在这研究范围之外仍然是直线关系若需要扩大预测和控制范围,则要有充分的理论依据或进一步的实验依据利用直线回归方程进行预测或控制,一般只能内推,不要轻易外延三、预测及应用五、应用直线回归与相关的注意事项四、相关系数与回归系数的关系三、相关系数的显著性检验二、相关系数的计算一、决定系数和相关系数第三节直线相关相关分析的基本任务:根据x、y的观测值,计算其相关程度和并进行显著性检验一、决定系数和相关系数

直线回归效果的好坏取决于回归平方和(y-y)2占总平方和(y-y)2的比例大小。比例越大,直线回归效果越好,反之则差1、决定系数比值叫做x对y的决定系数,记为r2,即:决定系数的大小表示了回归方程估测可靠程度的高低,或者说反映了回归直线的拟合度高低取值范围在[0,1]之间r2

1,说明回归方程拟合的越好r20,说明回归方程拟合的越差2、相关系数(coefficientofcorrelation)两个变量之间线性相关程度称为简单相关系数若相关系数是根据总体全部数据计算的,称为总体相关系数,记为若是根据样本数据计算的,则称为样本相关系数,记为r计算:相关系数取值及其意义r

的取值范围是[-1,1]|r|=1,为完全相关r=1,为完全正相关r=-1,为完全负正相关

r=0,不存在线性相关关系相关-1r<0,为负相关0<r1,为正相关|r|1表示关系越密切|r|0表示关系越不密切相关系数取值及其意义(图示)-1.0+1.00-0.5+0.5完全负相关无线性相关完全正相关负相关程度增加r正相关程度增加【例】计算10只绵羊的胸围(cm)和体重(kg)的相关系数。解:x2=51904,x=720y2=46818,y=680xy=49123二、相关系数的计算三、相关系数的显著性检验检验两个变量之间是否存在线性相关关系等价于对回归系数b的检验采用t检验或F检验均可检验步骤提出假设H0:H1:0计算检验的统计量确定显著性水平,并作出决策若t>t,拒绝H0

若t<t,接受H0t检验的公式

Sr相关系数标准误【续前例】对10只绵羊的胸围(cm)和体重(kg)的相关系数进行显著性检验提出假设H0:H1:0计算检验的统计量df=n-2=10-2=8,t0.05(8)=2.306,t0.01(8)=3.355t=4.5160>t0.01(8)=3.355,拒绝H0,绵羊的胸围(cm)和体重(kg)的相关系数极显著四、相关系数与回归系数的关系r2=(r)2y=a+bx,相关系数b研究对象都是呈直线关系的相关变量直线回归分析将二个相关变量区分为自变量和因变量,侧重于寻求它们之间的联系形式——直线回归方程相关分析不区分自变量和因变量,侧重于揭示变量之间的联系程度和性质——计算出相关系数实际进行直线回归分析时,可用相关系数显著性检验代替直线回归关系显著性检验两种分析都是针对y与x是否存在直线关系二者的检验是等价的相关系数显著,回归系数亦显著相关系数不显著,回归系数也必然不显著直线回归分析和相关分析是处理变量间关系的数学方法将这些方法应用于生物科学研究时要考虑到生物本身的客观实际情况变量间是否本身存在相关关系其余变量尽量保持一致观测值要尽可能的多外推要谨慎正确理解回归或相关显著与否的含义显著的回归方程并不一定具有实践上意义五、应用直线回归与相关的注意事项同一变量往往受到许多其它变量的影响研究两个变量间关系时,要求其余变量应尽量保持在同一水平研究人的身高和胸围之间的关系体重固定,身高,胸围体重变化,结果就会变化变量间是否本身存在相关关系其余变量尽量保持一致观测值要尽可能的多外推要谨慎正确理解回归或相关显著与否的含义显著的回归方程并不一定具有实践上意义五、应用直线回归与相关的注意事项两个变量成对观测值应尽可能多一些可提高分析的精确性,一般至少有5对以上的观测值变量x的取值范围要尽可能大一些容易发现两个变量间的变化关系变量间是否本身存在

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论