




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 第九章 直线回归与相关分析n简单相关分析n回归与相关的概念n简单回归分析9.1 回归与相关的概念回归与相关的概念 可用精确的数学表达式表示。可用精确的数学表达式表示。 例如例如 , 圆面积与半径的关系圆面积与半径的关系 S=r2 。 一个变数的任一变量都必有另一个变数的一一个变数的任一变量都必有另一个变数的一个确定数值与之对应,这种关系即为个确定数值与之对应,这种关系即为确定性关系确定性关系,也称做函数关系。也称做函数关系。 确定性关系常见于力学、电学、确定性关系常见于力学、电学、光学、运动学等学科,在农学和生物学中较少见。光学、运动学等学科,在农学和生物学中较少见。1、确定性关系一、变数之
2、间的关系 不确定性关系不能用精确的数学表达式来表示。 2、不确定性关系例如, :受施肥量、品种、土壤、光照、温 度、雨量 等条件的影响。 在一定的范围内,一个变数的数量变化只是部分地引起另一个变数的数量变化 ,没有一个确定的数值与之对应,这种关系称为不确定性关系不确定性关系。 常见于农业科学和生物学中。 从统计学角度讲,确定性关系与不确定性关系的区别仅在于前者不存在随机误差,而后者不可避免地具有试验误差。 统计学上把变数之间既存在着密切关系,又不能由一个变数(几个变数)的数值准确地求出另一个变数的数值的关系称为相关关系相关关系。并把存在相关关系的变数称为相关变数。相关变数。 回归与相关就是用来
3、研究变数间的不确定关系的回归与相关就是用来研究变数间的不确定关系的统计方法统计方法。 实际当中变数之间的关系有两种情况实际当中变数之间的关系有两种情况: : 一类如水稻的穗长与每穗粒数,我们不能说穗长决定每穗粒数,也不能说每穗粒数决定穗长,但是,穗长的数量变化的确又是和每穗粒数的数量变化有一定关系。一般的经验告诉我们:穗短的,往往每穗粒数较少;长的则较多。穗长和穗粒数是平行变化关系,二者都有随机误差。对于这类资料,则适用于做相关分析。 另一类如播种期与产量的关系,播种期是事先设计的、固定的,而产量是有随机误差的。对于这类资料,其中一个变数的取值可控或独立变化,同时从专业知识可以看出一个变数可能
4、是随另一个变数的改变而改变,即另一个变数是它的反应,则应做回归分析。 在回归模型中,X是固定的(试验时预先确定的),没有误差或误差很小,而Y则不仅随X的变化而变化,且具有随机误差。这一模型中的X叫做自变数自变数,Y叫做依变数依变数。 回归回归 据此,统计上,将两个变数X和Y的相关关系划分为两种理论模型:回归模型 是指由一个(或多个)变数的变化来估测另一个变数的变化。有自变数和依变数之分; 特征:特征:自变数x无误差或误差很小,依变数y存在误差。具有预测的作用,即可以由X的数量变化来预测Y的数量变化;回归分析回归分析 (regression analysis) 对回归模型资料,通常在确定自变数和
5、依变数的基础上,建立由X来预测Y的回归方程式,并确定当自变数X取某一定值时 依变数Y将会在什么范围内变化。这种分析,在统计上就称为回归分析回归分析。 是指两个变数间有一定的关联,一个变数的变化必然会引起另一个变数的变化。 相关模型 相关相关(correlation) 在相关模型中,两个变数X和Y是呈平行关系变化的,都有随机误差,因而不能区分哪一个是自变数,哪一个是依变数。表示两个变数的偕同变异;特征特征: 对相关模型资料,通常只研究两个变数之间有无关系,以及关系的密切程度和性质,而不需要由一变数去估测另一变数。这种分析在统计上就称为相关分析相关分析。相关分析相关分析(correlation a
6、nalysis):存在随机误差。不具有预测的作用;没有自变数与依变数之分;1、根据所研究变数的多少根据所研究变数的多少多元回归与多元相关(复回归与复相关);多元回归与多元相关(复回归与复相关); 曲线回归与曲线相关曲线回归与曲线相关;2、根据所研究变数之间的关系特征根据所研究变数之间的关系特征简单回归与简单相关简单回归与简单相关(一元回归与一元相关一元回归与一元相关);直线回归与直线相关直线回归与直线相关;二、回归与相关的种类二、回归与相关的种类 9.2 简单回归分析简单回归分析 用来概括依变数与自变数间线性关系的方程,称为 :表示该直线的斜率,是x每增加一个单 位数时, 平均地将要增加或减少
7、的单 位数,称做回归系数回归系数。 y 一、线性回归方程线性回归方程线性回归方程。记作其中,y :是x=0时 的值,即回归直线 在 y 轴上的截距, 称做 回归截距回归截距; :表示和 x 值相对应的 y的估计值;y : 是自变数;xa b bxay 对于(对于(x 1, y1) 、(x2 , y2)、(x3 , y3) 、(xn , yn)这样一组数据资料,要了解这样一组数据资料,要了解x和和y到底呈何种关系?通常可采用以下方法:到底呈何种关系?通常可采用以下方法: 1、作散点图作散点图 将每一对观察值都表示为直角坐标将每一对观察值都表示为直角坐标平面上的一个点,作成散点图,进行平面上的一个
8、点,作成散点图,进行初步的考察。初步的考察。根据散点图可以看出根据散点图可以看出:n两个变数相关的性质和密切程度或由两个变数相关的性质和密切程度或由x估计估计y的精确度;的精确度;n两个变数的关系是直线型的还是非直线型的;两个变数的关系是直线型的还是非直线型的;n是否有一些特殊的不规则的点表示着其他因是否有一些特殊的不规则的点表示着其他因素的干扰等。素的干扰等。 图9.1(直线,正相关)图9.2(直线,负相关)图9.3(曲线)xyxxyy 设x与y之间存在线性关系,如果要概括其在数量上的互变规律,也就是要从x的数量变化来预测y的数量变化,必须采用直线回归方程来描述。 我们知道,(x , y)的
9、n对观察从理论上可以作无数条直线,但是哪一条最能代表x与y在数量上的互变关系?根据最小平方法,必须使nnbxayyyQ1212)() (最小2、建立直线回归方程因此,a和b值可按微积分学求偏导数的办法求出,即nnxbxaybQbxayaQ110)(202xyxbxayxban2xssspxxyyxxbxbya2Sp:是自变数:是自变数x的离均差和依变数的离均差和依变数 y的离均差的乘积,称为乘积和。的离均差的乘积,称为乘积和。SSx:平方和。:平方和。 这种求解这种求解a、b的方法称做的方法称做最小二乘法,最小二乘法,或最小平方法或最小平方法。xxbybxxbyyxbayxbyaxbay得代入
10、公式由此由此a、b构成的直线回归方程具有以构成的直线回归方程具有以下三个性质:下三个性质:)0)(2yxyyyy,回归直线通过(最小由回归方程 可以看出:bxay b0时,表示时,表示y随随x的增大而增大,成正相关;的增大而增大,成正相关; b0时,表示时,表示y随随x的增大而减小,成负相关;的增大而减小,成负相关; b=0或和或和0的差异不显著时,则表明的差异不显著时,则表明y的变异和的变异和 x的取值大小无关,直线回归关系不能成立。的取值大小无关,直线回归关系不能成立。二、线性回归方程的计算实例【例【例9.1】一些夏季害虫盛发期的早迟和春】一些夏季害虫盛发期的早迟和春季温度高低有关。江苏某
11、县测定季温度高低有关。江苏某县测定1956-1964年间年间3月下旬至月下旬至4月中旬旬平均温度累积值月中旬旬平均温度累积值x(单位:旬单位:旬度)和一代三化螟蛾盛发期度)和一代三化螟蛾盛发期y(以以5月月10日为日为0)的关系于下表,试计算)的关系于下表,试计算其直线回归方程。其直线回归方程。 累积温和一代三化螟蛾盛发期的关系累积温和一代三化螟蛾盛发期的关系X(累积温(累积温) 35.5 34.1 31.7 40.3 36.8 40.2 31.7 39.2 44.2Y(盛发期(盛发期) 12 16 9 2 7 3 13 9 -1解解: 首先根据表中的数据算得回归分析所必须的6个一级数据: x
12、=35.5+34.1+44.2=333.7 x2=35.52+34.12+44.22=12517.49 y=12+16+(-1)=70 y2=122+162+(-1)2=794 xy=(35.512)+(34.116)+ 44.2(-1) =2436.4 n=9 资料中 观察值的对数7778. 79700778.3797 .3330444.159)707 .333(914 .2436)(15556.249)70(91794)(1222nyynxxyxnxySPynySSy6356.144)7 .333(9149.12517)(1222xnxSSx由一级数据算得由一级数据算得5个二级数据:个二级
13、数据:故得该资料的直线回归方程:故得该资料的直线回归方程:xyxy1 . 15 .480996. 15485.48可简化为可简化为: 由二级数据算得由二级数据算得2个三级数据:个三级数据:)(5485.48)0778.370996. 1(7778. 7)/(0996. 16356.1440444.159天度旬天xbyaSSSPbx 回归系数和回归截距的统计意义回归系数和回归截距的统计意义: 当当3月月下旬至下旬至4月中旬的积温(月中旬的积温(x)每提高)每提高1旬旬度时,度时,一代三化螟蛾的盛发期平均将一代三化螟蛾的盛发期平均将提早提早1.1天;若积天;若积温温x=0,则一代三化螟蛾的盛发期在
14、,则一代三化螟蛾的盛发期在6月月27-28日日(x=0时,时, ,又因,又因y是以是以5月月10日为日为0,故,故48.5为为6月月27-28日)。日)。5 .48 y三、线性回归方程的图示 直线回归图包括回归直线的直线回归图包括回归直线的图象和散布图,由它们可以比较图象和散布图,由它们可以比较醒目地表示出醒目地表示出x和和y的数量关系,的数量关系,并进行预测。并进行预测。 在制作回归直线时,通常以在制作回归直线时,通常以x为横坐标,为横坐标,y为纵坐标,纵、横坐标皆需标明名称和单为纵坐标,纵、横坐标皆需标明名称和单位。然后,取位。然后,取x坐标上的一个小值坐标上的一个小值x1代入代入回归方程
15、得回归方程得 ;取一个大值;取一个大值x2代入回归代入回归方程得方程得 。应用坐标点。应用坐标点 和和 即可在图上连成一条回归直线。即可在图上连成一条回归直线。 此直线必须通过点此直线必须通过点 ,它可,它可作为制图是否正确的核对。作为制图是否正确的核对。1 y2 y),(11yx)(2, 2yx),(yx 如例如例9.1资料,以资料,以x1=30代入回归方程得代入回归方程得 ;以以x2=44代入回归方程得代入回归方程得 。在坐标上确定。在坐标上确定 (30,15.6)和()和(44,0.2)这两个点,再连接之,即)这两个点,再连接之,即为回归方程为回归方程 的直线图象。的直线图象。6 .15
16、1y2 . 02yxy1 . 15 .48yXxy四、线性回归的估计 标准误和实测的坐标点并不完全吻合。所以和实测的坐标点并不完全吻合。所以称称Q为离回归平方和或剩余平方和。为离回归平方和或剩余平方和。最小2) (yyQxy1 . 15 .48由图可知,满足由图可知,满足而得的线性回归方程:而得的线性回归方程:由于在建立回归方程时用了由于在建立回归方程时用了a和和b两个统计数,故两个统计数,故Q的自由度的自由度df=n-2,因而,可定义回归估计标准误为:因而,可定义回归估计标准误为:2) (22nyynQSxy 由上式可知:由上式可知: 若各个观察点愈靠近回归直线,若各个观察点愈靠近回归直线,
17、Sy.x的值将愈小;的值将愈小; 若各个观察点在回归线上下分散得愈若各个观察点在回归线上下分散得愈远,则远,则Sy.x的值愈大。的值愈大。离回归平方和通常可用下式计算:离回归平方和通常可用下式计算:xySSSPssyyQ22)() (xyxxxyxyxxySSSPSSSSSSSPSSSPSSSSbbSPSSxxbyyxxbyyxxbyyyyQSSSPbxxbyySSSPSSyyQ22222222222222的推导公式【例例9.2】试计算表试计算表9.1资料的回归估计标准误资料的回归估计标准误。解:将前面算得的解:将前面算得的SSy、SP、SSx代入公式代入公式求得求得 6670.746356.
18、144)0444.159(5556.249)(22xySSSPSSQ故故(天)226. 3296670.742.nQsxy 上述计算结果表明,当用回归方程上述计算结果表明,当用回归方程 由由3月下旬至月下旬至4月中旬的积温预测一代三月中旬的积温预测一代三化螟蛾盛发期时,有一个化螟蛾盛发期时,有一个3.266天的估计标天的估计标准误。准误。xy1 . 15 .48y 约有约有68.27%个观察点落在个观察点落在 3.266天范围天范围内;内;约有约有95.45%个观察点落在个观察点落在 6.532天范围天范围内;内; 它的统计意义是:当它的统计意义是:当X为某一定值时为某一定值时在积温在积温X为
19、某一值时,实际的盛发期为某一值时,实际的盛发期Y和回归估计和回归估计 的盛发期的盛发期 ,平均相差,平均相差3.266天天y y y 五、线性回归的假设测验五、线性回归的假设测验 回归关系的假设测验回归关系的假设测验 两个回归系数相比较的假设测验两个回归系数相比较的假设测验(一)回归关系的假设测验(一)回归关系的假设测验 若x和y变数的总体并不存在直线回归关系,则由其中的一个样本也可用前面所学的方法算得一个直线回归方程,显然这样的回归方程靠不住。所以对于样本的回归方程,必须测定其来自无直线回归关系的总体的概率大小。只有当这种概率很小(如P小于0.05或0.01)时,我们才能冒较小的危险确认其所
20、代表的总体存在着直线回归关系,这就是回归关系的假设测验。可用t测验或F测验进行。1、t测验测验 若总体不存在直线回归关系,则总体回归系数为零 ;若总体存在直线回归关系,则总体回归系数不为零。所以,对直线回归的测验为:0:; 0:0AHH回归系数的标准误:xxybSSSxxnyyS.22)()2() ( 故由t值即可知道样本回归系数b来自无直线回归关系总体的概率大小。bSbt服从df=n-2的t分布 查附表3得,t0.05,7=2.36, t0.01,7=3.50,由于t=4.053.50,故回归关系极其显著,即认为积温和一代三化螟蛾盛发期是有真实直线回归关系的,或者说b=-1.0996是极其显
21、著的。【例9.3】试测验例9.1资料回归关系的显著性。解:例9.1和例9.2已分别算得的b,SSx,Sy.x则05. 42715. 000996. 12715. 06356.144266. 3.tSSSSxxyb2、F测验测验Y变数的平方和可分解为两个部分,即2222222) () ()(0)()(2) () ()()(yyyyyyyyyyyyyyyyyyyyyyyySSy),(yxbxay)(yy)(yy ) (yy xy(x,y) oSSSSSPSPSSSPxxbxxyybxxbyyxxbyyyyyySSSPbxxbyyyyyyxxxx2220的推导公式 为回归方程的估测误差平方 和,即离
22、回归平方和,用Q表示,具有自由度df=n-2; 2) (yy2)( yy上式中: 代表y随x变动的变异,即回归平方和,记作U,具有自由度df=(n-1)-(n-2)=1UQyy2 由于回归与离回归的均方比遵 循df1=1,df2=n-2的F分布,故由著性。即可测验回归关系的显)2() (1)(22nyyyyF【例9.4】试测验例9.1资料回归关系的显著性。解:例9.1和例9.2已算得SSx,SSy,SP,Q,故U=SSy-Q=249.5556-74.6670=174.8886 变异来源 df SS MS F F0.01 回 归 1 174.8886 174.8886 16.40 12.25离回
23、归 7 74.6670 10.6667 总变异 8 249.5556 实得F=16.4F0.01=12.25 , 表明积温和一代三化螟蛾盛发期是有真实直线回归关系的。表 例91资料的回归关系显著性测验 上述t测验和F测验,在任何回归样本上,其结果完全一致。 因为在同一概率值下,df1=1,df2=n-2的一尾F值恰巧等于df=n-2的两尾t值的平方。如本例,F=16.40,t=-4.05, 而(-4.05)2=16.40。所以,对直线回归做假设测验,只需要选择上述测验方法的一种。但须注意,若直线回归的若直线回归的t或或F测验不显测验不显著,仅表明该样本不是来自直线回归总体,并不排著,仅表明该样
24、本不是来自直线回归总体,并不排除它来自其他非直线回归总体的可能性。除它来自其他非直线回归总体的可能性。(二)两个回归系数比较时的假设测验(二)两个回归系数比较时的假设测验: 我们要了解两个回归系数是否同质,则需 测验b1和b2的差异显著性。所作假设为 H0:1=2;HA:12。两样本回归系数的差数标准误1111xbay 2222.2112.21)()(xxSxxSSxyxybb若有两个直线回归方程2222xbay 和服从df=(n1-2)+(n2-2)的t分布,故由上式可测验在1=2的总体中获得现有b1b2的样本的概率。)2)(2(2121.2nnQQSxys2y.x为两个样本回归估计标准误的
25、合并方差。2121212121)()()(bbbbSbbSbbt 2213518246585139424830.697181420 1810708225168637436520.69447 420【例9.5】测定两玉米品种叶片长宽乘积(x)和实际叶面积(y)的关系,得表9.3的计算结果,试测验两回归系数间是否有显著差异。表9.3玉米叶片长宽乘积和叶面积关系的计算结果品种七叶白石榴子nSSx SSy SPb Q由表9.3可得3 . 00092. 069447. 069718. 0)()()(2121212121bbbbSbbSbbxyS.221 bbSt11.51)218()222(420142
26、0)2()2(2121nnQQ0092.0107082211.51135182411.51)()(2222.2112.xxSxxSxyxy注意:上式的注意:上式的b是两个回归系数的加权平均数,是两个回归系数的加权平均数,它不等于它不等于(b1+b2)/2。69598. 0107082213518247436529424832121SSSSSPSP 当df=(n1-2)+(n2-2)=36时由附表3查得t0.05,35=2.030t=0.3. 结果不显著,所以应接受H0:1=2,即认为叶片长宽乘积与叶面积的回归系数在七叶白和石榴子两品种上差异不显著。其共同值为:b六、线性回归方程的应用六、线性回
27、归方程的应用 线性回归方程建立、并经显著性测验证明其真实存在后,即可在建立回归方程所用的自变量观察值范围内对依变量进行预测。 由于x变数的实测区间为31.7 , 44.2,所以回归方程在该区间内可用于由x的变化来预测y的变化。但在该区间之外是否适用,不得而知,如要应用则必须有新的依据。七、线性回归的置信区间七、线性回归的置信区间 在确认两个变数间有回归关系后,可进一步估算线性回归的置信区间。 bSb)( 自由度df=n-2的t分布,故对总体回归系数有95%可靠度的置信区间为:bbstbLstbL05. 0205. 01,已知1、回归系数的置信区间、回归系数的置信区间 从总体回归截距为的回归总体
28、中抽样,所得样本回归截距a的标准误为Saxbya2、回归截距的置信区间、回归截距的置信区间nSxy .y其中:的标准误为xxySSS.的标准误为因为b2.2.22xSSSnSSxxyxya所以对总体回归截距有95%可靠度的置信区间为:aastaLstaL05. 0205. 01,xxyaSSxnSS2.1分布的服从因tndfSaa2 由于x与y之间只是一种相关关系,而不是函数关系。因此,我们不能指望用一个已知的x值精确地算出对应的y值。即实测的y值与用回归方程所求得的y估计值 有差异,所以不能将理论值 作为实际值来估计。用回归方程所估测的 值,它要受到方程中a,b两个数值的影响,而a,b两个值
29、均带有误差,这样,由方程所估测的值也会带有误差。所以,对y值的估计不能做点估计,而只能进行区间估计。 因a,b都有误差,故由回归方程 算得的y估计值也必然有误差。) (y) (yy bxay3、y估计值的置信区间估计值的置信区间(1)y的平均估计值的置信区间的平均估计值的置信区间 关于x为某一定值时y总体的平均数y的置信区间。因它受到 和b 的抽样影响,所以其估计标准误为:xxyxyxxyxyxyssxxnssxxSSSnSSxxbyy2.22.2.2.2)(1)()(yxyxystyLstyL.05. 02.05. 01, 服从df=n-2的t分布,故总体平均数有95%可靠度的置信区间为:x
30、yySy.)(由于xxyssxxns2.)(11 关于x为某一定值时,y总体的个别观察值y的置信区间。因该y值不仅受 和 b 的抽样影响,而且也受到总体分布变异度的影响,所以其估计标准误为:y 因 服从df=n-2的t分布,故y的的个别估计值个别估计值95%可靠度的置信区间为: xysyy. )( xyxystyLstyL. 05. 02. 05. 01,xys. (2)y的个别估计值的置信区间的个别估计值的置信区间 【例9.6】对例9.1资料,试计算:回归系数的95%置信区间;回归截距的95%置信区间;当3月下旬至4月中旬的积温为40旬度时,历年的一代三化螟蛾平均盛发期在何时(取95%可靠度
31、)?某年3月下旬至4月中旬的积温为40旬度,试估计该年的一代三化螟蛾盛发期在何时(取95%可靠度)? 由例9.3和例9.4已证明该资料的两变量间存在有显著的线性回归关系。 回归系数的置信区间 回归系数标准误 当自由度df=9-2=7时,t0.05=2.365,故L1= -1.0996-2.3650.2715= -1.7417L2= -1.0996+2.3650.2715= -0.4575 即对例9.1资料重复进行抽样调查试验,则由样本计算的回归系数b,将有95%把握落在-1.7417,-0.4575区间内。2715. 01.xxybSSSS L1=48.5485-2.36510.1278=24
32、.5963 L2=48.5485+2.36510.1278=72.50071278.106356.1440778.3791266.312.xxySSxnS回归截距的置信区间回归截距的标准误sa,可由式(9.15)算得aS当df=n-2=9-2=7时,t0.05=2.365,故35. 16356.144)0778.3740(91266. 3)(122.xxyssxxns 当x=40旬度时,总体平均数y的估计值为 = 48.5485-(1.099640)=4.56 由式(9.17)可算得, y 即对例9.1资料重复进行抽样调查,将有95%样本的a值在24.5963,72.5007区间内。xys.所
33、以包括在内有95%可靠度的置信区间为L1=4.56-(2.361.35)=1.4(即5月12日)L2=4.56+(2.361.35)=7.7(即5月18日) 即3月下旬至4月中旬积温为40旬度的年份,其一代三化螟蛾平均盛发期的95%置信区间为1.4,7.7,或5月12日18日。当x=40旬度时,总体单个观察值y的估计值为 = 48.5485-(1.099640)=4.56y L1=4.56-(2.363.53)=-3.8(即5月6日)L2=4.56+(2.363.53)=12.9(即5月23日)53. 36356.144)0778.3740(911266. 3)(1122.xxyssxxnsx
34、ys. 由式(9.19)可算得故包括y在内有95%可靠度的置信区间为 即某年3月下旬至4月中旬积温为40旬度时,该年一代三化螟蛾平均盛发期的95%置信区间为-3.8,12.9,或5月6日23日。这种预报在100次中将有95次是对的。如果该虫态是防治对象,则生产上在整个置信区间内都需注意检查和防治。 9.3 简单相关分析简单相关分析 简单相关分析是研究双变量线性资料在数量上的变化特征和规律的统计方法。或者说是以计算双变量资料线性相关系数为基础的统计方法。一、相关系数与决定系数一、相关系数与决定系数 1、相关系数、相关系数:表示x和y两类变量相关密切程度及其性质的统计数。),(yxyx 假设有一双
35、变量总体,具有N对(X,Y)。这N对(X,Y)都可以在直角坐标平面上用坐标点来表示。如果将X轴和Y轴皆分别移至 上,则各个点的位置不变,而所取坐标值变为 yx和(x,y)(x-x, y- y)00 xyxy0)( , 0)(yxyx在象限:在象限:在象限:在象限:0)( , 0)(yxyx0)( , 0)(yxyx0)( , 0)(yxyx当(X,Y)总体呈正相关时,落在象限 、 的点一定比落在象限、 的点多,故离均差乘积和为正,且落在象限、 的点愈多,此正值也愈大; )(yxyx一定为正;凡落在象限、的点因而,凡落在象限、的点一定为负。因此,)(yxyx 当(X,Y)总体呈负相关时 ,则落在
36、象限、的点一定比落在象限、的点多,故离均差乘积和一定为负,且落在象限、 的点愈多,此负值的绝对值愈大。 如果(X,Y)总体无相关,则落在象限的点是均匀分散的,因而正负想消,离均差乘积和等于零正相关负相关无相关000 xyxyxy图9.3 三种不同的总体相关散布图 受到X和Y的变异程度、所取单位和N的大小的影响。为消除以上因素的影响。可将离均差除以各自的标准差,使其成为标准化离差,再除以N。因此可定义总体相关系数为: )( )(yxyx221)()()()()(1YYXXYYXXYYXXNyxN)( )(yxyx由以上分析可以看出, 可以用来度量两个变量线性相关的程度和性质。但由于 由于是一个不
37、带单位的纯数,故可用来比较不同双变量总体的相关程度和性质。当计算样本的相关系数时,则yxSSSSSPyyxxyyxx22)()()(r 由回归分析也可得出上述结果,因SSy=U+Q,U占SSy的比率愈大,则相关点愈靠近回归直线,直线相关就愈密切。因此,相关系数又可定义为:yxyxySSSSSPSSSSSPSSU2r由上式可以看出: 当实际观测值的点完全落在回归直线上,Q=0,SSy=U,则11r 当y 的变异和x完全无关时,U=0,SSY=Q , 则 r=0。所以,r的取值区间为-1,1。yxySSSSSPSSU 所以,决定系数即相关系数的平方值。取值范围0,1。因此,r2只表示相关程度,而不
38、表示相关的性质。 由x不同而引起的y变量平方和 占y变数总平方和 的比率或由y的不同而引起的x变量的平方和 占x变量的总平方和 的比率称为决定系数。用r2表示2)(yyU2)(yySSy2)(xx2)(xx2、决定系数、决定系数2r r可正可负,而r2总为正值。故后者只能表示变数间相关的程度,不能表示变数间的相关性质。 除 r =0和 r = 1外,r2 r 。因此,应用决定系数可避免对相关系数所表示的相关程度做过分夸张的解释。3、决定系数和相关系数的区别、决定系数和相关系数的区别二、相关系数和决定系数的计算二、相关系数和决定系数的计算 【例9.8】西南农大研究某小麦品种的单株有效穗数(x)与
39、单株籽粒产量(y)的关系,调查数据如下表,试计算资料中小麦单株有效穗数和单株籽粒产量的相关系数和决定系数。单株有效穗数(x) 单株籽粒产量(y) 2.9 4.5 2.5 4.2 3.0 4.7 2.9 4.9 3.1 4.7 3.5 5.7 4.0 6.3 3.6 5.1 3.5 5.2 4.0 5.6小麦单株有效穗数和单株籽粒产量由表中的数据算得: x=33, x2=111.14, y=50.9, y2=262.67, xy=170.54 , n=10由一级数据算得该资料的二级数据:SSx=2.24, SSy=3.59, SP=2.57,09. 530. 3yx, 计算结果表明:小麦单株有效穗数与单株籽粒产量呈正相关,即有效穗数愈多,籽粒产量愈高;且籽粒产量变异的平方和有82.13%是由有效穗数的变异造成的。8213. 059. 324. 257. 2)(9063. 059. 324. 257. 2222yxyxSSSSSPrSSSSSPr三、相关系数的假设测验三、相关系数的假设测验 相关系数一般由样本算出,和其它统计数一样也有抽样误差。若从同一总体内抽出若干大小相同的样本,由个样本计算的相关系数总有不同。在无相关总体中抽取样本,由于抽样误差,r并不一定为0,所以,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 阜阳科技职业学院《材料力学(1)》2023-2024学年第二学期期末试卷
- 豫章师范学院《招投标与合同管理》2023-2024学年第二学期期末试卷
- 上海师范大学天华学院《健身教练技能培训》2023-2024学年第二学期期末试卷
- 莱芜职业技术学院《生态学实验》2023-2024学年第二学期期末试卷
- 江西管理职业学院《图像编辑技术》2023-2024学年第二学期期末试卷
- 浙江工商职业技术学院《中学化学问题设计与问题解决》2023-2024学年第二学期期末试卷
- 周口师范学院《运动控制导论》2023-2024学年第二学期期末试卷
- 青海柴达木职业技术学院《给排水工程仪表与控制》2023-2024学年第二学期期末试卷
- 河北农业大学现代科技学院《犯罪心理学专题》2023-2024学年第二学期期末试卷
- 重庆科技学院《世界平面设计史一》2023-2024学年第二学期期末试卷
- 银行业金融机构监管数据标准化规范(2021版)数据结构一览表
- 电子商务基础与实务(第四版)高职PPT完整全套教学课件
- 信息论与编码(第4版)完整全套课件
- 施工吊篮工程监理实施细则
- 自动扶梯与自动人行道调试作业指导书(通用版)
- 2023年全国卷英语甲卷讲评课件-2024届高考英语复习
- 现代通信原理与技术(第五版)PPT全套完整教学课件
- 《战胜抑郁 走出抑郁症的30天自我康复训练》读书笔记思维导图
- 办公电脑领用、保管登记表
- 幼儿园课件:时钟国王
- 最值问题-阿氏圆
评论
0/150
提交评论