统计学教案习题10直线相关与回归_第1页
统计学教案习题10直线相关与回归_第2页
统计学教案习题10直线相关与回归_第3页
统计学教案习题10直线相关与回归_第4页
统计学教案习题10直线相关与回归_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

〔一〕⒈直线相关与回归的根本概念。

第十章直线相关与回归一、教学大纲要求⒉相关系数与回归系数的意义及计算。⒊相关系数与回归系数相互的区分与联系。〔二〕生疏内容⒈相关系数与回归系数的假设检验。⒉直线回归方程的应用。⒊秩相关与秩回归的意义。〔三〕了解内容 曲线直线化。二、学内容精要(一)直线回归根本概念直线回归(linearregression)建立一个描述应变量依自变量变化而变化的直线方程平方和为最小。直线回归是回归分析中最根本、最简洁的一种,故又称简洁回归simpleregressio。Y

abX中,a、b是打算直线的两个系数,见表10-1。10-1直线回归方程a、b两系数比照a b含义系数<0

回归直线在YintercepX为零时,Y的平均水平的估量值。a>0表示直线与纵轴的交点在原点的上方a<0表示直线与纵轴的交点在原点的下方a=0表示回归直线通过原点

回归系数regressioncoefficien的斜率。表示X每变化一个单位时,Y的平均变化量的估量值。b>0YX增大而增大b<0YX增大而减小b=0XYX的变化而变化计算公式

aYbX

(XX)(YY)b(XX)2

llXYXX样本回归系数b的假设检验〕t检验。直线回归方程的应用〕描述两变量的依存关系〕用回归方程进展推测;〕用回归方程进展统计掌握〕用直线回归应留意的问题。(二)直线相关根本概念直线相关linearcorrelatio〕又称简洁相关simplecorrelatio和零相关等关系。直线相关的性质可由散点图直观的说明。相关系数又称积差相关系数coefficientofproduct-momentcorrelatio,以符号r表示样本相关系数,ρ表示总体相关系数。它是说明具有直线关系的两个变量间,相关关系的亲热程度与相关方向的指标。计算公式(XX)2 (YY)2XYl lXX YY(X(XX)2 (YY)2XYl lXX YY相关系数r没有单位,其值为-1≤r≤1。其确定值愈接近1,两个变量间的直线相关愈亲热;愈接近0,相关愈rr另一变量削减,即方向相反;r确实定值等于1为完全相关。样本相关系数r的假设检验〔1〕r界值表法;〔2〕t检验法。〔三〕直线回归与相关的区分与联系区分资料要求:直线回归要求因变量Y听从正态分布,X是可以准确测量和严格掌握的变量,一般称为Ⅰ型回归;直线相关要求两个变量X、Y听从双变量正态分布。这种资料假设进展回归分析称为Ⅱ型回归。应用状况:直线回归是说明两变量依存变化的数量关系;直线相关是说明两变量间的相关关系。意义:bX每增〔减〕b个单位;r说明具有直线关系的两个变量间关系的亲热程度与相关方向。llxxyy计算:b=lxy/lxx;r=llxxyy〔5〕取值范围:—∞<b<+∞;-1≤r≤1。〔6〕单位:b有单位;r没有单位。联系方向全都:对一组数据假设能同时计算b和r,它们的符号全都。假设检验等价:对同一样本,rb的假设检验得到的ttb=tr。l2用回归解释相关:打算系数r2 ll

SS SS回

,回归平方和越接近总平方和,xxyyr21,说明引入相关的效果越好。〔四〕秩相关秩相关,又称等级相关rankcorrelatio,是用双变量等级数据作直线相关分析,适用于以下资料:⒈不听从双变量正态分布而不宜作积差相关分析;⒉总体分布型未知;⒊用等级表示的原始数据。回归系数的假设检验〔 〕

三、典型试题分析只能用r的检验代替 B.只能用t检验C.只能用F检验 D.三者均可答案:D[评析] 此题考点:回归系数假设检验方法的理解。r回归系数的假设检验常用的方法有:①方差分析;②t检验。对同一样本,rb的假设检验等价,rb的假设t值相等,即tb=t。故回归系数的假设检验用三者均可。rr=r,那么〔〕1 2b1=b2 B.tb1=tb2C.tr1=tr2 D.两样本打算系数相等答案:D[评析]此题考点:直线相关系数与回归系数关系的理解。1 由于相关系数r和回归系数b的计算公式不同,不能推导出b1=b2;rb的假设检验等价,即tr1=tb,tr2=tb1 而不是b=b=r2;样本打算系数为,rr,则两样本打算系数相等,即r=r。23.|r|>r

1 2 1 2时,可认为两变量XY间〔〕0.05(n-2)A.有肯定关系 B.有正相关关系C.肯定有直线关系 D.有直线关系答案:D[评析]此题考点:直线相关系数假设检验的理解。由于直线相关系数rρ的估量值。由于抽样误差的影响,必需进展显著性检验。r的假设检验是检验两变量是否有直线相关关系|r|>r 时,P<0.05,拒绝H,承受H,认为总体相0.05(n-2) 0 1关系数ρ≠0,因此可认为两变量X与Y间有直线关系。4.相关系数检验的无效假设H0是〔〕A.ρ=0 B.ρ≠0C.ρ>0 D.ρ<0答案:A[评析]此题考点:直线相关系数显著性检验中检验假设的理解。由于rρ的估量值。要判两变量间是否有相关关系,就要检验r是否来自总体相关系数ρρ=0的总体作随机抽样,由于抽样误差的影响,所得r值也常不等于零。同一双变量资料,进展直线相关与回归分析,有〔。A.r>0,b<0 B.r>0,b>0C.r<0,b>0 D.rb的符号毫无关系答案:B[评析]此题考点:直线相关与回归的区分与联系的理解。b和r,它们的符号全都。因此,同一双变量资料,进展直线相关与回归分析,有r>0,b>0。四、习题〔一〕单项选择题以下( )式可消灭负值。A.∑〔X—X〕2 B.∑Y2—〔∑Y〕2/n.Y—Y)2 .∑—X—Y〕Y=14+4X是1~7岁儿童以年龄〔岁〕估量体重〔市斤〕的回归方程,假设体重换成国际单kg,则此方程( )。截距转变 B.回归系数转变C.两者都转变 D.两者都不转变r=1,则肯定有( )。b=1 B.a=1C.SY.X=0 D.SY.X=SY用最小二乘法确定直线回归方程的原则是各观看( )。A.距直线的纵向距离相等B.距直线的纵向距离的平方和最小C.与直线的垂直距离相等D.与直线的垂直距离的平方和最小直线回归分析中,X的影响被扣除后,Y方面的变异可用指标( )表示。C. S

x,y(YY)2(n2)

B. S ((XX)2(n2)(YY)2(n1)XX2D. S Sy,x b xy直线回归系数假设检验,其自由度( )。A.n B.n-1C.n-2 D.2n-1应变量Y的离均差平方和划分,可消灭( )。回 B.SS总=SS剩C.SS总=SS回 D.以上均可以下计算SS剩的公式不正确的选项是( )。A.lYY

l b B.lXY

blXXC. lYY

l2 lXY

D.(1r2)lYY直线相关系数可用( )计算。A.lXY

l lXXYY

B.bl lXX YYl lXX YYC.b bYX XYr=0时,Y

D.以上均可abX回归方程中有( )。A.a必大于零 B.a必等于XC.a必等于零 D.a必等于Y〔二〕名词解释1.直线回归2.3.4.5.直线相关6.零相关7.8.9.10.秩相关〔三〕是非题2SS1=SS剩2

r。12直线回归反映两变量间的依存关系,而直线相关反映两变量间的相互直线关系。12两变量关系越亲热r值越大。〔四〕简答题用什么方法考察回归直线图示是否正确?剩余标准差的意义和用途?n=100,XY的相关系数为r=0.1,可否认为XY有较亲热的相关关系?rrs的应用条件有何不同?应用直线回归和相关分析时应留意哪些问题?举例说明如何用直线回归方程进展推测和掌握?直线回归分析时怎样确定因变量与自变量?〔五〕计算题1.1020岁男青年身高与前臂长的数据见表10-2。⑴计算相关系数并对ρ=0进展假设检验;⑵计算总体ρ95%可信区间。表10-2 10名20岁男青年身高与前臂长17017317017316015517318817818318016545424441475047464943〔cm〕前臂长〔cm〕10-3。⑴此资料有无可疑的特别点?⑵求直线回归方程并对回归系数作假设检验。⑶试估量进食量为900g时,大白鼠的体重平均增加多少,计算其95%的可信区间,并说明其含义。⑷求进食量为900gY95%容许区间,并解释其意义。表10-3 八只大白鼠的进食量和体重增加量鼠号12345678进食量〔g〕800780720867690787934750增量〔g〕185158130180134167186133某省卫生防疫站对八个城市进展肺癌死亡回忆调查,并对大气中苯并〕者有无相关?表10-4 八个城市的肺癌标化死亡率和大气中苯并〔a〕芘浓度城市编号12345678肺癌标化死亡率〔1/10万〕5.6018.5016.2311.4013.808.1318.0012.10苯并〔a〕芘〔μg/100m3〕0.051.171.050.100.750.500.651.20就下表资料分析血小板和出血症的关系。表10-5 12例病人的血小板浓度和出血症的关系病例号123456789101112血小板数12013016031042054074010601260123014402023出血病症+++++±-++----++-五、习题答题要点〔一〕单项选择题1.D 2.C 3.C 4.B 5.C 6.C 7.D 8.B 9.D 10.D〔二〕名词解释直线回归〔linearregression〕建立一个描述应变量依自变量变化而变化的直线方程,并要求各点与该直线纵向距离的平方和为最小。直线回归是回归分析中最根本、最简洁的一种,故又称简洁回归simpleregressio。回归系数〔regressioncoefficient〕即直线的斜率(slope),在直线回归方程中用b表示,b的统计意义为X每增〔减〕一个单位时,Yb个单位。剩余平方和residualsumofsquares

Y ˆ即2X即2XY的线性影响之外的一切因素对Y的变异的作用,也就是在总平方和中无法用X解释的局部。在散点图中,各实测点离回归直线越近,

Y

2也就越小,说明直线回归的估量误差越小。回归平方和regressionsumofs

ˆ 即回即

2,它反映由于XY的直线关系而使Y的总变异所减小的局部,也就是在总平方和中可以用X解释的局部。回归平方和越大,说明回归效果越好。直线相关linearcorrelatio〕又称简洁相关simplecorrelatio相关和零相关等关系。直线相关的性质可由散点图直观的说明。零相关〔zerrocorrelation〕是指两变量间没有直线相关关系。l2lXY XXcoefficientofproduct-momentcorrelatio,以符号rl2lXY XX〔coefficientofdetermination〕r的平方,r2

l2 l l

l

SSSS回SS总固定不变时,XXYY YY 总回归平方和的大小打算了r平方的大小。回归平方和越接近总平方和,则r平方值越接近1。曲线直线化〔rectification〕是曲线拟合的重要手段之一。对于某些非线性的资料可以通过简洁的变量变换使之直线化,用直线回归分析方法来分析。秩相关又称等级相关rankcorrelatio双变量正态分布而不宜作积差相关分析;⑵总体分布型未知;⑶用等级表示的原始数据。〔三〕是非题错。两样本剩余平方和SS1=SS2,但两样本总平方和SS总及回归平方和SS回不肯定相等,故两样本相关系r与r1

不肯定相等。正确。错。相关系数rr1,两个变量间的直线相关愈亲热;愈接近0,相关愈不亲热。〔四〕简答题用以下三种方法判定:⑴直线必需通过点〔X,Y。a。⑶直线是否在自变量X的实测范围内。剩余标准差用s

sY.

SS剩

n2

Y

2 n2XY的影响被扣除后,Y方面仍有变异。这局部变异与X无关,纯属抽样变异。故sY.X是用来反映YlXX的剩余变异的,即不考虑X以后YlXX⑴估量回归系数bsb

sY.X

,进展回归系数的区间估量和假设检验。⑵估量总体中当X为某肯定值时,估量值Yˆ的标准误。sYˆ

s1n1n(XX)2(XX)2并可计算的可信区间,s 1n(1n(XX)2(XX)2s sYˆ Y.X

,并计算个体Y值的容许区间。0 n=100,r=0.1时,对相关系数进展t检验,按检验水准α=0.05H(ρ=0)H(ρ≠0),认为两变量r2=0.12=0.01,表示回归平方和在总平方和中仅占1%0 s积差相关系数r用于描述双变量正态分布资料的相关关系。等级相关系数rs

适用于以下资料:⑴不听从双变量正态分布而不宜作积差相关分析的资料;⑵总体分布型未知的资料;⑶原始资料是用等级表示的资料。留意以下五个问题⑴作回归分析和相关分析时要有实际意义,不能把毫无关联的两种现象作回归、相关分析,必需对两种现象间的内在联系有所生疏。⑵在进展回归分析和相关分析之前,应绘制散点图。但观看点的分布有直线趋势时,才适宜作回归、相关分析。假设散点图呈明显曲线趋势,应使之直线化再行分析。散点图还能提示资料有无可疑特别点。⑶直线回归方程的应用范围一般以自变量的取值范围为限。假设无充分理由证明超过自变量取值范围外还是直线,应避开外延。⑷双变量的小样本经t检验只能推断两变量间有无直线关系,而不能推断相关的严密程度,要推断相关的严密程度,样本含量必需很大。⑸相关或回归关系不肯定是因果关系,也可能是伴随关系,有相关或回归关系不能证明事物间确有内在联系。用直线回归方程进展推测和掌握的步骤⑴依据争论目确实定预报因子〕和预报量,由X估量Y值,收集资料。⑵建立预报方程abX,并进展回归系数假设检验。假设P小于临界值,则回归方程成立。⑶依据回归方程在X实测范围内对Y进展推测,并计算X为某定值时,个体Y值波动范围〔容许区间。例如,1~7岁儿童,X为年龄,Y为体重,可依据年龄推测〔估量〕体重。Y值在肯定范围内波动,可以通过掌握自变量X的取值来实现。步骤同前。例如,针刺哑门穴,进针深度YX间存在直线关系,可依据X取值到达掌握Y的目的。Ⅰ型回归中,X为周密测量和严格掌握的变量,Y为正态变量。Ⅱ型回归中,X、Y均为听从正态分布的随机X,何者为Y,依据争论目确实定。例如,测得某一人群的身高和体重两变量,假设目的只是由身高估量体重,则确定X为身高,Y为体重。〔五〕计算题.由原始数据及散点图的初步分析〔10-,估量本资料有直线趋势。))m长臂前514947454341393735150160170身高(cm)180190图10-110名20岁男青年身高与前臂长散点图〔1〕计算相关系数X172X229852X175Y45Y22069Y4XY78541l X2X2 n2985251725210965XXl

Y

n206904542

1078.4YYl XYXY

X

Yn78541172545410226XYl lXXYYrXYl lXXYY

226962.578.4 962.578.4与ρ=0进展假设检验。H:ρ=0,即身高与前臂长间无直线相关关系0H:ρ≠0,即身高与前臂长间有直线相关关系0.82270.8227 10210.822721r2n21r2n2s

4.09rα=0.050 n21028t界值表,得0.002<P<0.005,按α=0.05HH,故可认为20岁男青0 ⑵算总体ρ95%可信区间。rz变换:z1ln1r

1ln10.82271.16512 1r 2 10.8227 =tan0.8227=1.1651z95%可信区间:n3n3103z103

n3,zu0.051.16511.96 1031.16511.960.4241.9059按=tanhz对z作反变换,得2095可信区间为0.4000.956.由原始数据及散点图初步分析〔图10-,估本资料有直线趋势,故作以下计算。∑X=6328,∑X2=5048814,X791159.125 ,∑XY=1018263XXl X2(X)2 n504881463282843366XXl Y2(Y)2 n2066191273284052.875YYl XY(XY

Y)n101826363281273811320lb lXX

1132043366

0.261aYbX159.1250.26179147.326200200180)Y=-47.33+0.26XY=78.29+0.10X( 160重增140120100600700800进食量(g)900100010-2大白鼠的进食量与增加体重散点图〔1〕回归系数假设检验:0H:β=0,即进食量与增重之间无直线关系01H:β≠0α=0.051SS l总

4052.875SS l2 l回 XY

113202433662954.905SS SS剩

SS回

4052.8752954.9051097.97① 方差分析,见表10-6。10-6方差分析表变异来源SSυMSF总变异4052.8757回归2954.90512954.90516.147剩余1097.9706182.995F=16.147F界值表,得P<0.01,按α=0.05水准,拒绝HH,可认为大白鼠的进食量与增加0 1体重间有直线关系。②t检验:0H:β=0,即进食量与增重之间无直线关系01H:β≠0,即进食量与增重之间有直线关系α=0.051SS l总

4052.875SS l2 l回 XY

113202433662954.905SS SS剩

SS回

4052.8752954.9051097.97sY.X

剩sY.XlXX13.5276 43366tbsY.XlXX13.5276 43366sb

0.261

4.01816.1470 按υ=6t界值表,得0.01>P>0.05,按α=0.05H16.1470 F此题 F

4.018t序号XY10-7残差的计算Yˆ1800185161.4742780158156.2543720130140.5944867180178.9615690134132.7646787167158.0817序号XY10-7残差的计算Yˆ1800185161.4742780158156.2543720130140.5944867180178.9615690134132.7646787167158.0817934186196.4488750133148.424由散点图及残差分析,第一号点〔X=800,Y=185〕为可疑的特别点。

Y-Yˆ23.5261.746-10.5941.0391.2368.919-10.448-15.42495%95%可信区间。总体回归系数β95%可信区间:〔b-t0.05(n

,b+t S〕b4336643366— b 0.05(n-b4336643366=〔0.261-2.447×13.5107∕=〔0.1022,0.4198〕

,0.261+2.447×13.5107∕ 〕1 1 2 X=690,代入回归方程Yˆ=-47.326+0.261XY=132.76;X=934,Y=196.45。在图上确定〔690,132.76〕和〔934,196.45〕两个点,以直线连接即得回归直线的图形见图10-21 1 2 95%可信区间下限和上限分别代入aYbX,得a1

=78.285,a2

=-172.93795%可信区间上、下限对应的两条直线,即图10-2中两条回归直线,回归方程为:Yˆ=78.285+0.1022X,Yˆ=-172.937+0.4198X1n(1n(XX)2(XX)2s sY Y.X1818(900791)2 43366X=900ˆ

95%可信区间:ˆ

8.5446

s,YYˆ

+t0.05(6)sˆ〕=〔187.574-2.447×8.5446,187.574+2.447×8.5446〕=〔166.67,208.48〕即总体中,进食量为900g时,大白鼠的体重平均增加187.574g,其95%的可信区间为166.67~208.48g。900g〔此正态分布的样本均数估量值为假设从今正态分布中重复抽样10010095〔虽然这个总体均数真值是未知的。⑷求进食量为900gY95%容许区间,并解释其意义。1111n(XX)2(XX)2Y Y.X118118(900791)2 43366X=900时,Yˆ=-47.326+0.261X=187.574Y95%容许区间:S S〕0.05(6)Y 0.05(6)Y=〔187.574-2.447×16.0002,187.574+2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论