




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第十章直线相关与回归一、教学大纲要求(一)掌握内容1 .直线相关与回归的根本概念.2 .相关系数与回归系数的意义及计算.3 .相关系数与回归系数相互的区别与联系.(二)熟悉内容1 .相关系数与回归系数的假设检验.2 .直线回归方程的应用.3 .秩相关与秩回归的意义.(三)了解内容曲线直线化.二、学内容精要(一)直线回归1.根本概念直线回归(linearregression)建立一个描述应变量依自变量变化而变化的直线方程,并要求各点与该直线纵向距离的平方和为最小.直线回归是回归分析中最根本、最简单的一种,故又称简单回归(simpleregression)o直线回D3方程Y?abX中,a、b是决定
2、直线的两个系数,见表10-1.表10-1直线回归方程a、b两系数比照ab含义回归直线在Y轴上的截距(intercept).回归系数(regressioncoefficient),即直线表示X为零时,丫的平均水平的估计的斜率.表示X每变化一个单位时,丫的值.平均变化量的倩计值.系数>0a>0表示直线与纵轴的交点在原点的b>0,表示直线从左下方走向右上方,即Y上方随X增大而增大系数<0a<0表示直线与纵轴的交点在原点的b<0,表小直线从左上方走1可右下方,即Y卜方随X增大而减小系数=0a=0表示回归直线通过原点b=0,表示直线与X轴平行,即Y不随X的变化而艾化计
3、算公式(XX)(YY)IxyaYbXb2(XX)2.样本回归系数b的假设检验(1)方差分析;t检验.lxx3.直线回归方程的应用(1)描述两变量的依存关系;(2)用回归方程进行预测;(3)用回归方程进行统计限制;(4)用直线回归应注意的问题.(二)直线相关1 .根本概念直线相关(linearcorrelation)又称简单相关(simplecorrelation),用于双变量正态分布资料.有正相关、负相关和零相关等关系.直线相关的性质可由散点图直观的说明.相关系数又称积差相关系数(coefficientofproduct-momentcorrelation),以符号r表示样本相关系数,p表示总
4、体相关系数.它是说明具有直线关系的两个变量间,相关关系的密切程度与相关方向的指标.2 .计算公式(XX)(YY)院丫r(XX)2.(YY)2lXX.lYY相关系数r没有单位,其值为-1WrW1.其绝对值愈接近1,两个变量间的直线相关愈密切;愈接近0,相关愈不密切.r值为正表示正相关,说明一变量随另一变量增减而增减,方向相同;r值为负表示负相关,说明一变量增加、另一变量减少,即方向相反;r的绝对值等于1为完全相关.3 .样本相关系数r的假设检验(1) r界值表法;(2) t检验法.(三)直线回归与相关的区别与联系1.区别(1)资料要求:直线回归要求因变量Y服从正态分布,X是可以精确测量和严格限制
5、的变量,一般称为I型回归;直线相关要求两个变量X、Y服从双变量正态分布.这种资料假设进行回归分析称为n型回归.(2)应用情况:直线回归是说明两变量依存变化的数量关系;直线相关是说明两变量间的相关关系.(3)意义:b表示X每增(减)一个单位时,Y平均改变b个单位;r说明具有直线关系的两个变量间关系的密切程度与相关方向.(4)计算:b=lxy/lxx;r=lxy/./lxxlyy.(5)取值范围:8<b<+oo;-1<r<1.(6)单位:b有单位;r没有单位.2.联系(1)方向一致:对一组数据假设能同时计算b和r,它们的符号一致.(2)假设检验等价:X同一样本,r和b的假设
6、检验得到的t值相等,即tb=tr.3用回归解释相关:决定系数r2上S4/SS、,回归平方和越接近总平方和,yy那么r2越接近1,说明引入相关的效果越好.四秩相关秩相关,又称等级相关rankcorrelation,是用双变量等级数据作直线相关分析,适用于以下资料:1 .不服从双变量正态分布而不宜作积差相关分析;2 .总体分布型未知;3 .用等级表示的原始数据.三、典型试题分析回归系数的假设检验B.只能用t检验D.三者均可A.只能用r的检验代替C.只能用F检验答案:D评析此题考点:回归系数假设检验方法的理解.回归系数的假设检验常用的方法有:方差分析;t检验.对同一样本,r和b的假设检验等价,r和b
7、的假设检验得到的t值相等,即tb=tr.故回归系数的假设检验用三者均可.4 .1=r2,那么B.tb1=tb2A.b1=b2C.tr1=tr2D.两样本决定系数相等答案:D评析此题考点:直线相关系数与回归系数关系的理解.由于相关系数r和回归系数b的计算公式不同,不能推导出b1=b2;r和b的假设检验等价,即tr1=tb1,tr2=tb2,而不是tb1=tb2,tr1=tr2;样本决定系数为产,1=2,那么两样本决定系数相等,即122.5 .|r|>r0.05n-2时,可认为两变量X与Y间A.有一定关系B.有正相关关系C.一定有直线关系D.有直线关系答案:D评析此题考点:直线相关系数假设检
8、验的理解.由于直线相关系数r是样本的相关系数,它是相应总体相关系数p的估计值.由于抽样误差的影响,必须进行显著性检验.r的假设检验是检验两变量是否有直线相关关系.|r|>r0.05n-2时,P<0.05,拒绝Ho,接受Hi,认为总体相关系数p*0,因此可认为两变量X与丫间有直线关系.6 .相关系数检验的无效假设也是A.p=0B.pw0C.p>0D.p<0答案:A评析此题考点:直线相关系数显著性检验中检验假设的理解.由于r是样本相关系数,它是总体相关系数p的估计值.要判两变量间是否有相关关系,就要检验r是否来自总体相关系数p为零的总体.由于即使从p=0的总体作随机抽样,由
9、于抽样误差的影响,所得r值也常不等于零.7 .同一双变量资料,进行直线相关与回归分析,有.A.r>0,b<0B.r>0,b>0C. r<0,b>0D.r与b的符号毫无关系答案:B评析此题考点:直线相关与回归的区别与联系的理解.由于对同一资料而言直线相关系数与回归系数的方向一致,假设能同时计算b和r,它们的符号一致.因此,同一双变量资料,进行直线相关与回归分析,有r>0,b>0.四、习题一单项选择题1. 以下式可出现负值.A.汇XX2C.EY-Y22. Y=14+4X是17岁儿童以年龄成国际单位kg,那么此方程A.截距改变C.两者都改变3. r=1
10、,那么一定有.A.b=1C.Sy.x=0B.EY2一汇丫2/nD. EXXYY岁估计体重市斤的回归方程,假设体重换.B.回归系数改变D.两者都不改变8. a=14. 用最小二乘法确定直线回归方程的原那么是各观察点A.距直线的纵向距离相等B.距直线的纵向距离的平方和最小C.与直线的垂直距离相等D.与直线的垂直距离的平方和最小5. 直线回归分析中,X的影响被扣除后,A. Sx,yJ(XX)2/(n2).Y方面的变异可用指标表示.B. Sr、Y丫2n1C.Sy,x.YY2n26. 直线回归系数假设检验,其自由度为A.nC.n-27. 应变量Y的离均差平方和划分,可出现D.Sy.x=Sy8.卜列计算S
11、S剩的公式不正确的选项是C.lYYlxYb以lxxB.).1YY9.直线相关系数可用A-IxyJxxIyyD.计算.(110.当r=0时,xyY?abX回归方程中有D,以上均可blxxr2)lyyB.byx.jlxxIyyD,以上均可A.a必大于零C.a必等于零名词解释).B.D.a必等于xa必等于Y1.直线回归6.零相关三是非题2.7.回归系数相关系数3.8.剩余平方和决定系数4.9.回归平方和曲线直线化5.直线相关10.秩相关1.剩余平方和SS剩1=SS剩2,那么门必然等于2.2.3.直线回归反映两变量间的依存关系,而直线相关反映两变量间的相互直线关系.两变量关系越密切r值越大.四简做题1
12、 .用什么方法考察回归直线图示是否正确?2 .剩余标准差的意义和用途?3 .某资料n=100,x与Y的相关系数为r=0.1,可否认为x与Y有较密切的相关关系?4 .r与rs的应用条件有何不同?5 .应用直线回归和相关分析时应注意哪些问题?6 .举例说明如何用直线回归方程进行预测和限制?7 .直线回归分析时怎样确定因变量与自变量?五计算题1 .10名20岁男青年身高与前臂长的数据见表10-2.计算相关系数并对p=0进行假设检验;计算总体p的95%可信区间.表10-210名20岁男青年身高与前臂长身高170173160155(cm)173188178183180165前臂长45424441(cm)
13、4750474649432 .某单位研究代乳粉营养价值时,用大白鼠作实验,得到大白鼠进食量和增加体重的数据见表10-3.此资料有无可疑的异常点?求直线回归方程并对回归系数作假设检验.试估计进食量为900g时,大白鼠的体重平均增加多少,计算其95%的可信区间,并说明其含义.求进食量为900g时,个体Y值白95%容许区间,并解释其意义.表10-3八只大白鼠的进食量和体重增加量12345678进食量g800780720867690787934750增量g1851581301801341671861333 .某省卫生防疫站对八个城市进行肺癌死亡回忆调查,并对大气中苯并a花进行监测,结果如下,试检验两者
14、有无相关?表10-4八个城市的肺癌标化死亡率和大气中苯并a花浓度12345678肺癌标化死亡率1/10万)5.6018.5016.2311.4013.808.1318.0012.10苯并a花g/100m3)0.051.171.050.100.750.500.651.204 .就下表资料分析血小板和出血症的关系.表10-512例病人的血小板浓度和出血症的关系123456789101112血小板数12013016031042054074010601260123014402000(109/L)出血病症+±一+一一一一+一五、习题做题要点(1) 单项选择题1. D2,C3.C4.B5.C6.
15、C7.D8.B9.D10.D(2) 名词解释1 .直线回归linearregression建立一个描述应变量依自变量变化而变化的直线方程,并要求各点与该直线纵向距离的平方和为最小.直线回归是回归分析中最根本、最简单的一种,故又称简单回归simpleregressiono2 .回归系数rregressioncoefficient即直线的斜率slope,在直线回归方程中用b表示,b的统计意义为X每增减一个单位时,Y平均改变b个单位.3 .剩余平方和residualsumofsquare.,SS剩即YY?,它反映X对Y的线性影响之外的一切因素对Y的变异的作用,也就是在总平方和中无法用X解释的局部.在
16、散点图中,2各实测点离回归直线越近,YY?也就越小,说明直线回归的估计误差越小.24 .回归平方和regressionsumofsquares,SS回即Y?Y,匕反映由于X与Y的直线关系而使Y的总变异所减小的局部,也就是在总平方和中可以用X解释的局部.回归平方和越大,说明回归效果越好.5 .直线相关(linearcorrelation)又称简单相关(simplecorrelation),用于双变量正态分布资料.有正相关、负相关和零相关等关系.直线相关的性质可由散点图直观的说明.6 .零相关(zerrocorrelation)是指两变量间没有直线相关关系.11 .相关系数又称积差相关系数(coe
17、fficientofproduct-momentcorrelation),以符号r表相关关系的示样本相关系数,p表示总体相关系数.它是说明具有直线关系的两个变量间,密切程度与相关方向的指标.212.决te系数(coefficientofdetermination)即r的平方,r氐lXXlYY1XyIxxlYY包SSL'心、说明当SS总固定不变时,回归平方和的大小决定了r平方的大小.回归平方和越接近总平方和,那么r平方值越接近1.13 .曲线直线化(rectification)是曲线拟合的重要手段之一.对于某些非线性的资料可以通过简单的变量变换使之直线化,用直线回归分析方法来分析.14
18、.秩相关又称等级相关(rankcorrelation),是用双变量等级数据作直线相关分析,适用于以下资料:不服从双变量正态分布而不宜作积差相关分析;总体分布型未知;用等级表示的原始数据.(三)是非题1 ,错.两样本剩余平方和SS剩1=SS剩2,但两样本总平方和SS总及回归平方和SS回不一定相等,故两样本相关系数门与r2不一定相等.2 .正确.3 .错.相关系数r有正负之分,其值为-1WrW1,在总体相关系数不为零,即两变量确有直线关系前提下,r绝对值愈接近1,两个变量间的直线相关愈密切;愈接近0,相关愈不密切.(四)简做题1 .用以下三种方法判定:直线必须通过点(无Y).假设纵坐标、横坐标无折
19、断号时,将此线左端延长与纵轴相交,交点的纵坐标必等于截距a.直线是否在自变量X的实测范围内.2 .剩余标准差用SY.X表示:Sy.xv'SSo;'n2qYY?/n2其意义是指当X对Y的影响被扣除后,Y方面仍有变异.这局部变异与X无关,纯属抽样变异.故Syx是用来反映Y的剩余变异的,即不考虑X以后Y本身的随机变异.剩余标准差可用于:估计回归系数b的标准误,sbsY.X/JI1,进行回归系数的区间估计和假设检验.估计总体中当X为某一定值时,估计值Y?的标准误.s?)小Tn(XX)2;(XX)2并可计算Y?的可信区间,SYX可作为预报精度的指标.估计总体中当X为某一定值时,个体Y值的
20、标准差.SY?SY.x#n(XX)2/(XX)2,并计算个体丫值的容许区间.3 .n=100,r=0.1时,对相关系数进行t检验,按检验水准a=0.05,拒绝Ho(p=0),接受H1(pw0),认为两变量有相关关系,但决定系数r2=0.12=0.01,表示回归平方和在总平方和中仅占1%,说明两变量间的相关关系实际意义不大.4 .积差相关系数r用于描述双变量正态分布资料的相关关系.等级相关系数rs适用于下列资料:不服从双变量正态分布而不宜作积差相关分析的资料;总体分布型未知的资料;原始资料是用等级表示的资料.5 .注意以下五个问题作回归分析和相关分析时要有实际意义,不能把毫无关联的两种现象作回归
21、、相关分析,必须对两种现象间的内在联系有所熟悉.在进行回归分析和相关分析之前,应绘制散点图.但观察点的分布有直线趋势时,才适宜作回归、相关分析.如果散点图呈明显曲线趋势,应使之直线化再行分析.散点图还能提示资料有无可疑异常点.直线回归方程的应用范围一般以自变量的取值范围为限.假设无充分理由证实超过自变量取值范围外还是直线,应防止外延.双变量的小样本经t检验只能推断两变量间有无直线关系,而不能推断相关的紧密程度,要推断相关的紧密程度,样本含量必须很大.相关或回归关系不一定是因果关系,也可能是伴随关系,有相关或回归关系不能证实事物间确有内在联系.6 .用直线回归方程进行预测和限制的步骤根据研究目确
22、实定预报因子X和预报量Y,由X估atY值,收集资料.建立预报方程Y?abX,并进行回归系数假设检验.假设P小于临界值,那么回归方程成立.根据回归方程在X实测范围内对丫进行预测,并计算X为某定值时,个体丫值波动范围容许区间.例如,17岁儿童,X为年龄,Y为体重,可根据年龄预测估计体重.统计限制是利用回归方程进行逆估计,如要求因变量Y值在一定范围内波动,可以通过限制自变量X的取值来实现.步骤同前.例如,针刺哑门穴,进针深度Y与颈围X间存在直线关系,可根据X取值到达限制Y的目的.7. I型回归中,X为精密测量和严格限制的变量,Y为正态变量.n型回归中,X、Y均为服从正态分布的随机变量,可计算两个回归
23、方程.何者为X,何者为Y,根据研究目的确定.例如,测得某一人群的身高和体重两变量,假设目的只是由身高估计体重,那么确定X为身高,丫为体重.五计算题1 .由原始数据及散点图的初步分析图10-1,估计本资料有直线趋势.5137一351j11150160170180190身高(cm)图10-110名20岁男青年身高与前臂长散点图(1)计算相关系数X1725,X2298525,X172.52Y454,Y20690,Y45.4,XY78541lXXX2X2n2985251725210962.5lYYY2Y2n2069045421078.4IxyXYXY.n78541172545410226226962.
24、578.40.8227与p=0进行假设检验.H0:p=0,即身高与前臂长间无直线相关关系Hi:pW0,即身高与前臂长间有直线相关关系,r0r0.8227.102,t4.09Sr1r2n2.10.82272a=0.05n21028,查t界值表,得0.002<P<0.005,按a=0.05水准拒绝H0,接受Hi,故可认为20岁男青年身高与前臂长呈正直线相关.算总体p的95%可信区间.对r作z变换:1.1r-ln1.16511,10.8227ln210.8227或,z=tanh10.8227=1.1651z的95%可信区间:zU0.05,Jn3,zUcogQn31.16511.96,10
25、31.16511.961030.4243,1.9059按r=tanhz对z作反变换,得20岁男青年身高与与前臂长总体相关系数的95%可信区间为(0.4005,0.9567).2 .由原始数据及散点图初步分析(图10-2),估本资料有直线趋势,故作以下计算.EX=6328,EX2=,X791EY=1273,EY2=206619,Y159.125,汇XY=lXXX2(X)2,n50488146328284336611320IyyY2(Y)2n2066191273284052.875IxyXY(X)(Y)n10182636328127381XY1XX11320433660.261aYbX159.12
26、50.26179147.326图10-2大白鼠的进食量与增加体重散点图(1)回归系数假设检验:H.:B=0,即进食量与增重之间无直线关系H1:BW0,即进食量与增重之间有直线关系a=0.05SS总IYY4052.875SSiXyIxx113202433662954.905SSuSS、SS4052.8752954.9051097.97方差分析,见表10-6.表10-6方差分析表SSuMSF总变异4052.8757回归2954.90512954.90516.147剩余1097.9706182.995计算得F=16.147,查F界值表,得P<0.01,按a=0.05水准,拒绝Ho,接受Hi,可
27、认为大白鼠的进食量与增加体重间有直线关系.t检验:H.:B=0,即进食量与增重之间无直线关系H1:BW0,即进食量与增重之间有直线关系&=0.05SS总lyy4052.875SSiXy.Ixx113202433662954.905SSuSS总SS4052.8752954.9051097.97Sy.x1097.97(82)13.5276b0Sb0.26113.5276.433664.018按u=6,查t界值表,得0.01>P>0.05,按a=0.05水准,拒绝H0,接受H1,结论同上.此题.F.16.1474.018t故可用直线回归方程Y?abX47.3260.261X来描述
28、大白鼠的进食量与增加体重的关系.异常点即对应于残差(Y-Y?)绝对值特大的观测数据见表10-7.表10-7残差的计算X丫YY-Y1800185161.47423.5262780158156.2541.7463720130140.594-10.5944867180178.9611.0395690134132.7641.2366787167158.0818.9197934186196.448-10.4488750133148.424-15.424由散点图及残差分析,第一号点(X=800,Y=185)为可疑的异常点.根据以上的计算结果,进一步求其总体回归系数的95%可信区间.绘制回归直线并图示回归系
29、数的95%可信区间.总体回归系数(3的95%可信区间:(b-t0.05(n-2)Sb,b+t0.05(n2)Sb)=(0.261-2.447X13.5107/v43366,0.261+2.447X13.5107/、'43366)=(0.1022,0.4198)取Xi=690,代入回归方程Y?=-47.326+0.261X,得Yi=132.76;X2=934,丫2=196.45.在图上确定(690,132.76)和(934,196.45)两个点,以直线连接即得回归直线的图形见图10-2.按回归系数的95%可信区间下限和上限分别代入aYbX,得a1=78.285,a2=-172.937.回
30、归系数的95%可信区间上、下限对应的两条直线,即图10-2中两条回归直线,回归方程为:Y?=78.285+0.1022X,Y?=172.937+0.4198X估计进食量为900g时,大白鼠的体重平均增加多少,计算其95%的可信区间,并说明其含义.SySy.x1n(XX)2(XX)213.527618(900791)2433668.5446当X=900时,丫?的95%可信区间:(W1°.05(6)Sy?,丫?+1°.05(6)Sy?)=(187.574-2.447X8.5446,187.574+2.447X8.5446)=(166.67,208.48)即总体中,进食量为900
31、g时,大白鼠的体重平均增加187.574g,其95%的可信区间为166.67208.48g.其含义为:当进食量为900g时,相应的平均增重服从一个正态分布(此正态分布的样本均数估计值为187.574g),如果从此正态分布中重复抽样100次,这100个可信区间中理论上将有95个区间包含真正的总体均数(虽然这个总体均数真值是未知的).求进食量为900g时,个体Y值白95%容许区间,并解释其意义.SySy.x,11n(XX)2(XX)213.5276.1 18(900791)24336616.0002当X=900时,Y?=-47.326+0.261X=187.574,个体Y值白95%容许区间:(丫一t0.05(6)SY,q+t0.05(6)SY)=(187.574-2.447X16.0002,187.57
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论