第九章 双变量回归与相关_第1页
第九章 双变量回归与相关_第2页
第九章 双变量回归与相关_第3页
第九章 双变量回归与相关_第4页
第九章 双变量回归与相关_第5页
已阅读5页,还剩102页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第九章双变量回归与相关LinearRegressionandCorrelation1102

函数关系有精确的数学表达式(确定性的关系)直线回归分析一元回归分析变量间的关系因果关系曲线回归分析(回归分析)多元回归分析多元线性回归分析统计关系 多元非线性回归分析(非确定性的关系)简单相关分析——直线相关分析相关关系复相关分析(相关分析)多元相关分析偏相关分析2102双变量计量资料:每个个体有两个变量值

总体:无限或有限对变量值样本:从总体随机抽取的n对变量值

(X1,Y1),(X2,Y2),…,(Xn,Yn)

目的:研究X和Y的数量关系

方法:回归与相关简单、基本——直线回归、直线相关3102

Content

1.Linearregression2.Linearcorrelation3.Rankcorrelation4.Curvefitting

4102

十九世纪英国人类学家F.Galton首次在《自然遗传》一书中,提出并阐明了“相关”和“相关系数”两个概念,为相关论奠定了基础。其后,他和英国统计学家KarlPearson对上千个家庭的身高、臂长、拃长(伸开大拇指与中指两端的最大长度)做了测量,发现:历史背景:5102

儿子身高(Y,英寸)与父亲身高(X,英寸)存在线性关系:即高个子父代的子代在成年之后的身高平均来说不是更高,而是稍矮于其父代水平,而矮个子父代的子代的平均身高不是更矮,而是稍高于其父代水平。Galton将这种趋向于种族稳定的现象称之“回归”。6102

目前,“回归”已成为表示变量之间某种数量依存关系的统计学术语,并且衍生出“回归方程”“回归系数”等统计学概念。如研究糖尿病人血糖与其胰岛素水平的关系,研究儿童年龄与体重的关系等。7102第一节直线回归8102一、直线回归的概念

目的:研究应变量Y对自变量X的数量依存关系。特点:统计关系。X值和Y的均数的关系,不同于一般数学上的X和Y的函数关系。9102函数关系是一种确定性的关系,例如圆面积与半径的关系为。其不包含误差的干扰。统计关系是一种非确定性的关系。例如,作物的产量与施肥量的关系,两类变数受误差的干扰表现为统计关系。10102

例9-1

某地方病研究所调查了8名正常儿童的尿肌酐含量(mmol/24h)如表9-1。估计尿肌酐含量(Y)对其年龄(X)的回归方程。11102

表9-18名正常儿童的年龄(岁)与尿肌酐含量(mmol/24h)

1210213102

在定量描述儿童年龄与其尿肌酐含量数量上的依存关系时,将年龄称为自变量(independentvariable),用X表示;尿肌酐含量称为应变量(dependentvariable),用Y表示。14102

由图9-1可见,尿肌酐含量Y

随年龄X增加而增大且呈直线趋势,但并非8个点子恰好全都在一直线上,此与两变量间严格的直线函数关系不同,称为直线回归(linearregression),其方程叫直线回归方程,以区别严格意义的直线方程。双变量直线回归是回归分析中最基本、最简单的一种,故又称简单回归。15102直线回归方程的一般表达式为

为各X处Y的总体均数的估计。161021.a为回归直线在Y

轴上的截距。a>0,表示直线与纵轴的交点在原点的上方;a<0,则交点在原点的下方;a=0,则回归直线通过原点。a=0a<0a>0XY17102b>0,直线从左下方走向右上方,Y随X增大而增大;

b<0,直线从左上方走向右下方,Y随X增大而减小;

b=0,表示直线与X轴平行,X与Y无直线关系。XY2.b为回归系数,即直线的斜率。b的统计学意义是:X

每增加(减)一个单位,Y

平均改变b个单位。b>0b<0b=018102

1910220102二、直线回归方程的求法

残差(residual)或剩余值,即实测值Y与假定回归线上的估计值的纵向距离。求解a、b实际上就是“合理地”找到一条能最好地代表数据点分布趋势的直线。原则:最小二乘法(leastsumofsquares),即可保证各实测点至直线的纵向距离的平方和最小(X,Y)21102

2210223102

例9-1

某地方病研究所调查了8名正常儿童的尿肌酐含量(mmol/24h)如表9-1。估计尿肌酐含量(Y)对其年龄(X)的回归方程。24102

表9-18名正常儿童的年龄(岁)与尿肌酐含量(mmol/24h)

25102解题步骤261022710228102此直线必然通过点(,)且与纵坐标轴相交于截距a。如果散点图没有从坐标系原点开始,可在自变量实测范围内远端取易于读数的X值代入回归方程得到一个点的坐标,连接此点与点(,)也可绘出回归直线。2910230102三、直线回归中的统计推断31102(一)回归方程的假设检验

建立样本直线回归方程,只是完成了统计分析中两变量关系的统计描述,研究者还须回答它所来自的总体的直线回归关系是否确实存在,即是否对总体有?3210233102341021.方差分析

35102(X,Y)36102数理统计可证明:37102上式用符号表示为

式中

3810239102上述三个平方和,各有其相应的自由度,并有如下的关系:

40102

如果两变量间总体回归关系确实存在,回归的贡献就要大于随机误差,大到何种程度时可以认为具有统计意义,可计算统计量F41102式中421022.t检验43102

例9-2检验例9-1数据得到的直线回归方程是否成立?

44102(1)方差分析45102

表9-2方差分析表

列出方差分析表如表9-2。46102(2)t检验47102注意:

48102(二)总体回归系数的可信区间

利用上述对回归系数的t检验,可以得到β的1-α双侧可信区间为49102

例9-3根据例9-1中所得b=0.1392,估计其总体回归系数的双侧95%可信区间。50102(0.1392-2.447×0.0304,0.1392+2.447×0.0304)=(0.0648,0.2136)51102(三)利用回归方程进行估计和预测

52102(9-15)

(9-14)

反映其抽样误差大小的标准误为53102(9-16)

(9-17)

54102两条实曲线——总体均数的可信区间;两条虚曲线——个体Y值的预测区间,范围更宽。二者都是中间窄,两头宽;都在X=处最窄。55102

例9-4用例9-1所得直线回归方程,计算当X0=12时,的95%可信区间和相应个体值的95%预测区间。56102计算步骤例9-1、例9-2已计算出

5710258102一、线性回归的主要用途1.研究因素间的依存关系

自变量和应变量之间是否存在线性关系,即研究一个或多个自变量对应变量的作用,或者应变量依赖自变量变化而变化的规律。

2.估计与预测

可用易测定的一组给定的自变量的观测值来推算较难测定的Y值。3.统计控制是利用回归方程进行逆估计,即应变量Y给出一个确定的值或在一定范围内波动时,通过控制自变量的取值来实现。59102二、线性回归应用的注意事项1.在进行直线回归分析之前,应绘制散点图。2.作回归分析时,要注意两变量间是否存在实际意义。3.两变量间存在直线关系时,不一定表明彼此之间就存在因果关系。601024.建立回归方程后,须对回归系数进行假设检验。5.使用回归方程进行估计与预测时,一般只适用于原来的观测范围,即自变量的取值范围,不能随意将范围扩大。6.在线性回归分析时,要注意远离群体的极端值对回归效果的影响。61102第二节直线相关62102

直线相关(linearcorrelation)又称简单相关(simplecorrelation),用于双变量正态分布(bivariatenormaldistribution)资料。其性质可由图9-6散点图直观的说明。

目的:研究两个变量X,Y数量上的依存(或相关)关系。

特点:统计关系一、直线相关的概念63102二、相关系数的意义与计算

1.意义:相关系数(correlationcoefficient)又称Pearson积差相关系数,用来说明具有直线关系的两变量间相关的密切程度与相关方向。相关系数没有单位,其值为-1r1。r值为正表示正相关,r值为负表示负相关,r的绝对值等于1为完全相关,r=0为零相关。64102651022.计算:样本相关系数的计算公式为

(9-18)

66102由例9-1算得,按公式(9-18)

例9-5

对例9-1数据(见表9-1),计算8名儿童的尿肌酐含量与其年龄的相关系数。67102三、相关系数的统计推断(一)相关系数的假设检验(9-19)68102例9-6对例9-5所得r值,检验尿肌酐含量与年龄是否有直线相关关系?69102检验步骤本例n=8,r=0.8818,按公式(9-19)70102(二)总体相关系数的可信区间

71102具体步骤如下72102例9-7对例9-5所得r值,估计总体相关系数的95%可信区间。

再按公式(9-22)将z作反变换,得到年龄与尿肌酐含量的总体相关系数95%可信区间为(0.4678,0.9971)。

73102四、决定系数(coefficientofdetermination)

定义为回归平方和与总平方和之比,计算公式为:(9-23)

取值在0到1之间且无单位,其数值大小反映了回归贡献的相对程度,也就是在Y的总变异中回归关系所能解释的百分比。

7410275102五、直线回归与相关应用的注意事项

76102

1.根据分析目的选择变量及统计方法

直线相关用于说明两变量之间直线关系的方向和密切程度,X与Y没有主次之分;直线回归则进一步地用于定量刻画应变量Y对自变量X在数值上的依存关系,其中应变量的定夺主要依专业要求而定,可以考虑把易于精确测量的变量作为X,另一个随机变量作Y,例如用身高估计体表面积。两个变量的选择一定要结合专业背景,不能把毫无关联的两种现象勉强作回归或相关分析。77102781022.进行相关、回归分析前应绘制散点图—第一步

(1)

散点图可考察两变量是否有直线趋势;(2)

可发现离群点(outlier)。散点图对离群点的识别与处理需要从专业知识和现有数据两方面来考虑,结果可能是现有回归模型的假设错误需要改变模型形式,也可能是抽样误差造成的一次偶然结果甚至过失误差。需要认真核对原始数据并检查其产生过程认定是过失误差,或者通过重复测定确定是抽样误差造成的偶然结果,才可以谨慎地剔除或采用其它估计方法。791023.资料的要求

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论