统计学教案习题10直线相关与回归分享_第1页
统计学教案习题10直线相关与回归分享_第2页
统计学教案习题10直线相关与回归分享_第3页
统计学教案习题10直线相关与回归分享_第4页
统计学教案习题10直线相关与回归分享_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第十章 直线相关与回归一、教学大纲要求(一) 掌握内容直线相关与回归的基本概念。相关系数与回归系数的意义及计算。相关系数与回归系数相互的区别与了解。(二)熟悉内容相关系数与回归系数的假设检验。直线回归方程的应用。秩相关与秩回归的意义。(三)了解内容 曲线直线化。二、 学内容精要(一) 直线回归1. 基本概念直线回归(linear regression)建立一个描述应变量依自变量变化而变化的直线方程,并要求各点与该直线纵向距离的平方和为最小。直线回归是回归分析中最基本、最简单的一种,故又称简单回归(simple regression)。直线回归方程中,a、b是决定直线的两个系数,见表10-1。表

2、10-1 直线回归方程a、b两系数对比ab含义回归直线在Y轴上的截距(intercept)。表示X为零时,Y的平均水平的估计值。回归系数(regression coefficient),即直线的斜率。表示X每变化一个单位时,Y的平均变化量的估计值。系数>0a>0表示直线与纵轴的交点在原点的上方b>0,表示直线从左下方走向右上方,即Y随X增大而增大系数<0a<0表示直线与纵轴的交点在原点的下方b<0,表示直线从左上方走向右下方,即Y随X增大而减小系数=0a=0表示回归直线通过原点b=0,表示直线与X轴平行,即Y不随X的变化而变化计算公式2. 样本回归系数b的假

3、设检验(1)方差分析;(2)t检验。3. 直线回归方程的应用(1)描述两变量的依存关系;(2)用回归方程进行预测;(3)用回归方程进行统计控制;(4)用直线回归应注意的问题。 (二) 直线相关1. 基本概念直线相关(linear correlation)又称简单相关(simple correlation),用于双变量正态分布资料。有正相关、负相关和零相关等关系。直线相关的性质可由散点图直观的说明。相关系数又称积差相关系数(coefficient of product-moment correlation),以符号r表示样本相关系数,表示总体相关系数。它是说明具有直线关系的两个变量间,相关关系的

4、密切程度与相关方向的指标。2. 计算公式相关系数r没有单位,其值为1r1。其绝对值愈接近1,两个变量间的直线相关愈密切;愈接近0,相关愈不密切。r值为正表示正相关,说明一变量随另一变量增减而增减,方向相同;r值为负表示负相关,说明一变量增加、另一变量减少,即方向相反;r的绝对值等于1为完全相关。3. 样本相关系数r的假设检验(1)r界值表法;(2)t检验法。(三)直线回归与相关的区别与了解1. 区别(1) 资料要求:直线回归要求因变量Y服从正态分布,X是可以精确测量和严格控制的变量,一般称为型回归;直线相关要求两个变量X、Y服从双变量正态分布。这种资料若进行回归分析称为型回归。(2) 应用情况

5、:直线回归是说明两变量依存变化的数量关系;直线相关是说明两变量间的相关关系。(3) 意义:b表示X每增(减)一个单位时,Y平均改变b个单位;r说明具有直线关系的两个变量间关系的密切程度与相关方向。(4) 计算:b= lxy/ lxx ;r = lxy/。(5) 取值范围:b+ ;1r1 。(6) 单位:b有单位;r没有单位。2. 了解(1) 方向一致:对一组数据若能同时计算b和r,它们的符号一致。(2) 假设检验等价:对同一样本,r和b的假设检验得到的t值相等,即tb=tr 。(3) 用回归解释相关:决定系数,回归平方和越接近总平方和,则r2越接近1,说明引入相关的效果越好。 (四)秩相关秩相

6、关,又称等级相关(rank correlation),是用双变量等级数据作直线相关分析,适用于下列资料:不服从双变量正态分布而不宜作积差相关分析;总体分布型未知;用等级表示的原始数据。三、典型试题分析1回归系数的假设检验( )A只能用r的检验代替 B只能用t检验C只能用F检验 D三者均可答案:D评析 本题考点:回归系数假设检验方法的理解。回归系数的假设检验常用的方法有:方差分析;t检验。对同一样本,r和b的假设检验等价,r和b的假设检验得到的t值相等,即tb=tr。故回归系数的假设检验用三者均可。2已知r1=r2,那么( ) Ab1=b2 Btb1=tb2 Ctr1=tr2 D两样本决定系数相

7、等 答案: D评析 本题考点:直线相关系数与回归系数关系的理解。因为相关系数r和回归系数b的计算公式不同,不能推导出b1=b2 ;r和b的假设检验等价,即tr1= tb1,tr2=tb2,而不是tb1=tb2,tr1=tr2 ;样本决定系数为r2,已知r1=r2,则两样本决定系数相等,即r12=r22。3|r|>r0.05( n-2)时,可认为两变量X与Y间( )A有一定关系 B. 有正相关关系C一定有直线关系 D. 有直线关系答案: D评析 本题考点:直线相关系数假设检验的理解。因为直线相关系数r是样本的相关系数,它是相应总体相关系数的估计值。由于抽样误差的影响,必须进行显著性检验。r

8、的假设检验是检验两变量是否有直线相关关系。|r|>r0.05( n-2)时,P<0.05,拒绝H0,接受H1,认为总体相关系数0,因此可认为两变量X与Y间有直线关系。4相关系数检验的无效假设H0是( )A=0 B. 0C>0 D. <0答案: A评析 本题考点:直线相关系数显著性检验中检验假设的理解。因为r是样本相关系数,它是总体相关系数的估计值。要判两变量间是否有相关关系,就要检验r是否来自总体相关系数为零的总体。因为即使从=0的总体作随机抽样,由于抽样误差的影响,所得r值也常不等于零。5同一双变量资料,进行直线相关与回归分析,有( )。Ar>0,b<0

9、B. r>0,b>0Cr<0,b>0 D. r与b的符号毫无关系答案: B评析 本题考点:直线相关与回归的区别与了解的理解。因为对同一资料而言直线相关系数与回归系数的方向一致,若能同时计算b和r,它们的符号一致。因此,同一双变量资料,进行直线相关与回归分析,有r>0,b>0。四、习 题(一) 单项选择题1 下列( )式可出现负值。A(X)2 BY 2(Y)2/nC(Y) 2 D(X)(Y)2 Y=14+4X是17岁儿童以年龄(岁)估计体重(市斤)的回归方程,若体重换成国际单位kg,则此方程( )。A截距改变 B回归系数改变C两者都改变 D两者都不改变3 已知

10、r=1,则一定有( )。Ab=1 Ba=1CSY. X=0 DSY. X= SY4 用最小二乘法确定直线回归方程的原则是各观察点( )。A距直线的纵向距离相等B距直线的纵向距离的平方和最小C与直线的垂直距离相等D与直线的垂直距离的平方和最小5 直线回归分析中,X的影响被扣除后,Y方面的变异可用指标( )表示。A B. C. D. 6 直线回归系数假设检验,其自由度为( )。An Bn1Cn2 D2n17 应变量Y的离均差平方和划分,可出现( )。ASS剩=SS回 BSS总=SS剩CSS总=SS回 D以上均可8 下列计算SS剩的公式不正确的是( )。A B C. D 9 直线相关系数可用( )计

11、算。A BC D 以上均可10 当r=0时,回归方程中有( )。Aa必大于零 B. a必等于Ca必等于零 D. a必等于(二) 名词解释1. 直线回归 2. 回归系数 3. 剩余平方和 4. 回归平方和 5. 直线相关6. 零相关 7. 相关系数 8. 决定系数 9. 曲线直线化 10.秩相关(三) 是非题1 剩余平方和SS剩1=SS剩2,则r1必然等于r2。2 直线回归反映两变量间的依存关系,而直线相关反映两变量间的相互直线关系。3 两变量关系越密切r值越大。(四)简答题1 用什么方法考察回归直线图示是否正确?2 剩余标准差的意义和用途?3 某资料n=100,X与Y的相关系数为r=0.1,可

12、否认为X与Y有较密切的相关关系?4 r与rs的应用条件有何不同?5 应用直线回归和相关分析时应注意哪些问题?6 举例说明如何用直线回归方程进行预测和控制?7 直线回归分析时怎样确定因变量与自变量?(五)计算题110名20岁男青年身高与前臂长的数据见表10-2。计算相关系数并对=0进行假设检验;计算总体的95%可信区间。表10-2 10名20岁男青年身高与前臂长身 高(cm)170173160155173188178183180165前臂长(cm)454244414750474649432 某单位研究代乳粉营养价值时,用大白鼠作实验,得到大白鼠进食量和增加体重的数据见表10-3。此资料有无可疑的

13、异常点?求直线回归方程并对回归系数作假设检验。试估计进食量为900g时,大白鼠的体重平均增加多少,计算其95%的可信区间,并说明其含义。求进食量为900g时,个体Y值的95%容许区间,并解释其意义。表10-3 八只大白鼠的进食量和体重增加量鼠号12345678进食量(g)800780720867690787934750增量(g)1851581301801341671861333 某省卫生防疫站对八个城市进行肺癌死亡回顾调查,并对大气中苯并(a)芘进行监测,结果如下,试检验两者有无相关?表10-4 八个城市的肺癌标化死亡率和大气中苯并(a)芘浓度城市编号12345678肺癌标化死亡率(1/10万

14、)5.6018.5016.2311.4013.808.1318.0012.10苯并(a)芘(g/100m3)0.051.171.050.100.750.500.651.204 就下表资料分析血小板和出血症的关系。表10-5 12例病人的血小板浓度和出血症的关系病例号123456789101112血小板数(109/L)12013016031042054074010601260123014402000出血症状+±+五、习题答题要点(一) 单项选择题1.D 2.C 3.C 4.B 5.C 6.C 7.D 8.B 9.D 10.D(二) 名词解释1 直线回归(linear regressio

15、n)建立一个描述应变量依自变量变化而变化的直线方程,并要求各点与该直线纵向距离的平方和为最小。直线回归是回归分析中最基本、最简单的一种,故又称简单回归(simple regression)。2 回归系数(regression coefficient)即直线的斜率(slope),在直线回归方程中用b表示,b的统计意义为X每增(减)一个单位时,Y平均改变b个单位。3 剩余平方和(residual sum of squares),SS剩即,它反映X对Y的线性影响之外的一切因素对Y的变异的作用,也就是在总平方和中无法用X解释的部分。在散点图中,各实测点离回归直线越近,也就越小,说明直线回归的估计误差越

16、小。4 回归平方和(regression sum of squares),SS回即,它反映由于X与Y的直线关系而使Y的总变异所减小的部分,也就是在总平方和中可以用X解释的部分。回归平方和越大,说明回归效果越好。5 直线相关(linear correlation)又称简单相关(simple correlation),用于双变量正态分布资料。有正相关、负相关和零相关等关系。直线相关的性质可由散点图直观的说明。6 零相关(zerro correlation)是指两变量间没有直线相关关系。11 相关系数又称积差相关系数(coefficient of product-moment correlation

17、),以符号r表示样本相关系数,表示总体相关系数。它是说明具有直线关系的两个变量间,相关关系的密切程度与相关方向的指标。12 决定系数(coefficient of determination)即r的平方,说明当SS总固定不变时,回归平方和的大小决定了r平方的大小。回归平方和越接近总平方和,则r平方值越接近1。13 曲线直线化(rectification)是曲线拟合的重要手段之一。对于某些非线性的资料可以通过简单的变量变换使之直线化,用直线回归分析方法来分析。14. 秩相关又称等级相关(rank correlation),是用双变量等级数据作直线相关分析,适用于下列资料:不服从双变量正态分布而不

18、宜作积差相关分析;总体分布型未知;用等级表示的原始数据。(三)是非题1错。两样本剩余平方和SS剩1=SS剩2,但两样本总平方和SS总及回归平方和SS回不一定相等,故两样本相关系数r1与 r2不一定相等。2正确。3错。相关系数r有正负之分,其值为1r1,在总体相关系数不为零,即两变量确有直线关系前提下,r绝对值愈接近1,两个变量间的直线相关愈密切;愈接近0,相关愈不密切。(四)简答题1用以下三种方法判定:直线必须通过点()。若纵坐标、横坐标无折断号时,将此线左端延长与纵轴相交,交点的纵坐标必等于截距a。直线是否在自变量X的实测范围内。2剩余标准差用sY. X表示: 其意义是指当X对Y的影响被扣除

19、后,Y方面仍有变异。这部分变异与X无关,纯属抽样变异。故sY. X是用来反映Y的剩余变异的,即不考虑X以后Y本身的随机变异。剩余标准差可用于:估计回归系数b的标准误,进行回归系数的区间估计和假设检验。估计总体中当X为某一定值时,估计值的标准误。 并可计算的可信区间,sY. X可作为预报精度的指标。估计总体中当X为某一定值时,个体Y值的标准差。,并计算个体Y值的容许区间。3n=100,r=0.1时,对相关系数进行t检验,按检验水准=0.05,拒绝H0(=0),接受H1(0),认为两变量有相关关系,但决定系数r2=0.12=0.01,表示回归平方和在总平方和中仅占1%,说明两变量间相关关系实际意义

20、不大。4积差相关系数r用于描述双变量正态分布资料的相关关系。等级相关系数rs适用于下列资料:不服从双变量正态分布而不宜作积差相关分析的资料;总体分布型未知的资料;原始资料是用等级表示的资料。5注意以下五个问题作回归分析和相关分析时要有实际意义,不能把毫无关联的两种现象作回归、相关分析,必须对两种现象间的内在了解有所认识。在进行回归分析和相关分析之前,应绘制散点图。但观察点的分布有直线趋势时,才适宜作回归、相关分析。如果散点图呈明显曲线趋势,应使之直线化再行分析。散点图还能提示资料有无可疑异常点。直线回归方程的应用范围一般以自变量的取值范围为限。若无充分理由证明超过自变量取值范围外还是直线,应避

21、免外延。双变量的小样本经t检验只能推断两变量间有无直线关系,而不能推断相关的紧密程度,要推断相关的紧密程度,样本含量必须很大。相关或回归关系不一定是因果关系,也可能是伴随关系,有相关或回归关系不能证明事物间确有内在了解。6用直线回归方程进行预测和控制的步骤根据研究目的确定预报因子(X)和预报量(Y),由X估计Y值,收集资料。建立预报方程,并进行回归系数假设检验。若P小于临界值,则回归方程成立。根据回归方程在X实测范围内对Y进行预测,并计算X为某定值时,个体Y值波动范围(容许区间)。例如,17岁儿童,X为年龄,Y为体重,可根据年龄预测(估计)体重。统计控制是利用回归方程进行逆估计,如要求因变量Y

22、值在一定范围内波动,可以通过控制自变量X的取值来实现。步骤同前。例如,针刺哑门穴,进针深度Y与颈围X间存在直线关系,可根据X取值达到控制Y的目的。7型回归中,X为精密测量和严格控制的变量,Y为正态变量。型回归中,X、Y均为服从正态分布的随机变量,可计算两个回归方程。何者为X,何者为Y,根据研究目的确定。例如,测得某一人群的身高和体重两变量,若目的只是由身高估计体重,则确定X为身高,Y为体重。 (五)计算题1由原始数据及散点图的初步分析(图10-1),估计本资料有直线趋势。(1)计算相关系数与=0进行假设检验。H0:=0,即身高与前臂长间无直线相关关系H1:0,即身高与前臂长间有直线相关关系=0

23、.05,查t界值表,得0.002<P<0.005,按=0.05水准拒绝H0,接受H1,故可认为20岁男青年身高与前臂长呈正直线相关。 算总体的95%可信区间。对r作z变换:或,z=tanh10.8227=1.1651z的95%可信区间:按r=tanhz对z作反变换,得20岁男青年身高与与前臂长总体相关系数的95%可信区间为(0.4005,0.9567)。2由原始数据及散点图初步分析(图10-2),估本资料有直线趋势,故作下列计算。X=6328,X2=5048814,Y=1273,Y2=206619, ,XY=1018263 Y=172.94+0.42XY=47.33+0.26XY=

24、78.29+0.10X 图10-2 大白鼠的进食量与增加体重散点图(1)回归系数假设检验:H0:0,即进食量与增重之间无直线关系H1:0,即进食量与增重之间有直线关系0.05 方差分析,见表10-6。表10-6 方差分析表变异来源SSMSF总变异4052.8757回归2954.90512954.90516.147剩余1097.9706182.995计算得F=16.147,查F界值表,得P<0.01,按0.05水准,拒绝H0,接受H1,可认为大白鼠的进食量与增加体重间有直线关系。 t检验:H0:0,即进食量与增重之间无直线关系H1:0,即进食量与增重之间有直线关系0.05按=6,查t界值表

25、,得0.01>P>0.05,按0.05水准,拒绝H0,接受H1,结论同上。本题故可用直线回归方程来描述大白鼠的进食量与增加体重的关系。异常点即对应于残差(Y)绝对值特大的观测数据见表10-7。表10-7 残差的计算序号XY Y1800185161.47423.5262780158156.2541.7463720130140.59410.5944867180178.9611.0395690134132.7641.2366787167158.0818.9197934186196.44810.4488750133148.42415.424由散点图及残差分析,第一号点(X=800,Y=18

26、5)为可疑的异常点。根据以上的计算结果,进一步求其总体回归系数的95%可信区间。绘制回归直线并图示回归系数95%可信区间。总体回归系数的95%可信区间:(bt0.05(n2) Sb,bt0.05(n2) Sb)=(0.2612.447×13.5107,0.2612.447×13.5107)=(0.1022,0.4198)取X1=690,代入回归方程=47.326+0.261X,得Y1=132.76;X2=934,Y2=196.45。在图上确定(690,132.76)和(934,196.45)两个点,以直线连接即得回归直线的图形见图10-2。按回归系数的95%可信区间下限和上

27、限分别代入,得=78.285,=172.937。回归系数的95%可信区间上、下限对应的两条直线,即图10-2中两条回归直线,回归方程为:=78.285+0.1022X,=172.937+0.4198X估计进食量为900g时,大白鼠的体重平均增加多少,计算其95%的可信区间,并说明其含义。当X=900时,的95%可信区间:(t0.05(6) ,t0.05(6) )=(187.5742.447×8.5446,187.5742.447×8.5446)=(166.67,208.48)即总体中,进食量为900g时,大白鼠的体重平均增加187.574g,其95%的可信区间为166.67

28、208.48g。其含义为:当进食量为900g时,相应的平均增重服从一个正态分布(此正态分布的样本均数估计值为187.574g),如果从此正态分布中重复抽样100次,这100个可信区间中理论上将有95个区间包含真正的总体均数(虽然这个总体均数真值是未知的)。求进食量为900g时,个体Y值的95%容许区间,并解释其意义。当X=900时,=47.326+0.261X=187.574,个体Y值的95%容许区间:(t0.05(6)SY ,t0.05(6)SY)=(187.5742.447×16.0002,187.5742.447×16.0002)=(148.42,226.73)即估计总体中,进食量为900g时,有95%的大白鼠增加体重在148.42226.73g范围内。3本题

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论