




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
直线回归方程的建立线性回归方程用于描述两个变量间依存变化的数量关系。也称简单回归。直线回归方程的建立FrancisGaltonX-自变量(independentvariable);Y-因变量(dependentvariable);-给定X
时Y
的估计值;a-截距(intercept)或常数项(constantterm);b-回归系数(regressioncoefficient)。一、线性回归方程的概念例1研究成人BMI(kg/m2)与肝脏硬度指数LSM间的关系,得到了表中所示的资料,试进行线性回归分析。表1成人BMI(kg/m2)与肝脏硬度指数LSM回归分析数据调查对象BMI(X)LSM(Y)
XY
X2Y2132.068.37268.341,027.8470.06231.208.47264.26973.4471.74330.047.37221.39902.4054.32428.937.90228.55836.9462.41………………1920.035.13102.75401.2026.322019.686.00118.08387.3036.00合计499.29125.583213.0912731.62824.32实例由散点图可见,BMI与肝脏硬度指数LSM之间存在着直线趋势,可以考虑建立二者之间的线性回归方程。图1成人BMI(kg/m2)与肝脏硬度指数LSM间关系散点图二、线性回归方程的估计回归系数
b和常数项
a是线性回归方程中需要估计的两个量,估计的原理是最小二乘法(methodofleastsquares),该方法的原则是保证各实测点到回归直线的纵向距离的平方和最小,即使
最小,从而使计算出的回归直线最能代表实测数据所反映出的直线趋势。Y0(xi,yi)X图2双变量线性回归残差示意图依据最小二乘法推导出的结果:回归方程的参数估计调查对象BMI(X)LSM(Y)XY
X2Y2132.068.37268.341,027.8470.06231.208.47264.26973.4471.74330.047.37221.39902.4054.32428.937.90228.55836.9462.41………………1920.035.13102.75401.2026.322019.686.00118.08387.3036.00合计499.29125.583213.0912731.62824.32回归方程为:表2成人BMI(kg/m2)与肝脏硬度指数LSM回归分析数据图3成人BMI(kg/m2)与肝脏硬度指数LSM间关系散点图1.线性回归分析常用于分析两个变量之间是否存在线性依存关系,通过散点图可以直观描述两个变量的数量变化关系,参数估计可以使用最小二乘法。2.在回归分析中,因变量是随机变量,自变量既可以是随机变量,也可以是给定的量,在两个变量都是随机变量的情况,应以变异小的变量作为自变量3.线性回归则反映两个变量之间单向的依存关系,更适合分析因果关系的数量变化。4.对同一资料进行相关与回归分析,r
与b
正负号相同,r
和b
为正,说明X
与
Y的数量变化的方向是一致的,X
增大,Y
也增大;反之亦然。5.如果散点图显示两变量间不是直线关系,但可以通过某种变量变换转变为直线相关关系,则可以对变换后的数据采用上述公式建立模型。小结直线回归系数的含义线性回归方程用于描述两个变量间依存变化的数量关系。也称简单回归。直线回归系数的含义FrancisGaltonX-自变量(independentvariable);Y-因变量(dependentvariable);-给定X
时Y
的估计值;a-截距(intercept)或常数项(constantterm);b-回归系数(regressioncoefficient)。表示X每变动1单位,平均而言,Y将变动b单位。回归方程式
中之斜率b,称为回归系数,表示X每变动1单位,平均而言,Y将变动b单位。回归系数越大表示x对y影响越大,正回归系数表示y随x增大而增大,负回归系数表示y随x增大而减小。小结直线回归系数的假设检验回归方程检验的基本思想:一、方差分析线性回归的假设检验如果
X
与Y
之间无线性回归关系,则
SS回归
与
SS残差
都只包含随机因素对Y
的影响,因此其均方
MS回归与
MS残差
应近似相等,如果两者差别较大,并超出能够用随机波动解释的程度,则认为回归方程具有统计学意义。图4变异划分示意图回归系数的假设检验可用下面的简化公式计算变异来源SSMSFP
值总变异
SS总
回归
SS回
残差
SS残差
表3方差分析表两线基本重合对例1数据建立的回归方程进行假设检验:2.计算各变异统计量实例1.建立检验假设,确定检验水准:回归系数,即BMI和LSM间无线性回归关系
:回归系数,即BMI和LSM间有线性回归关系变异来源SSMSFP值总变异35.80319
回
归22.807122.80731.589<0.01残
差12.996180.722
3.列出方差分析表,得出统计分析结论表4回归方程方差分析表
查
F
界值表(附表4),F0.01(1,18)=8.28,F>F0.01(1,18),P<0.01,拒绝H0,可以认为成人BMI与肝脏硬度指数LSM之间存在线性回归关系。实际中最好给出更准确的P值,如P<0.0001二、t
检验为样本回归系数的标准误,反映样本回归系数的抽样误差;为剩余标准差,表示因变量Y值对于回归直线的离散程度。回归系数检验也可以采用t
检验的方法,即对例1数据建立的回归方程后,进行t
检验,过程如下:2.计算各变异统计量实例1.建立检验假设,确定检验水准:回归系数,即BMI和LSM间无线性回归关系
:回归系数,即BMI和LSM间有线性回归关系3.确定P值,作出结论根据,查t
界值表(附表2),,,拒绝H0,结论与方差分析相同。可以看出,统计量F
与t之间存在确定的数量关系,即,本例。图5成人BMI(kg/m2)与肝脏硬度指数LSM间关系散点图1.回归系数的假设检验可以使用方差分析或者t检验方法。2.对同一资料进行相关与回归分析,r
与b
正负号相同,r
和b
为正,说明X
与
Y的数量变化的方向是一致的,X
增大,Y
也增大;反之亦然。3.如果散点图显示两变量间不是直线关系,但可以通过某种变量变换转变为直线相关关系,则可以对变换后的数据采用上述公式建立模型。小结直线相关系数的含义与计算当两事物或现象在数量上的协同变化呈直线趋势时则称为直线相关(linearcorrelation),又称简单相关(simplecorrelation),用于分析双变量正态分布资料。表示两变量相关关系的重要指标就是相关系数。例如11名男青年身高与前臂长之间存在线性相关关系。一、线性相关的概念11名男青年身高与前臂长散点图KarlPearson图1线性相关性质示意图相关系数r没有度量衡单位,其数值为。表示正相关;
表示负相关;
表示无相关,即无直线关系。当时称为完全相关。相关系数的绝对值愈接近1,表示相关愈密切;相关系数愈接近0,表示相关愈不密切。相关系数(correlationcoefficient):说明具有线性相关关系的两个数值变量间相关的密切程度与相关方向的统计量。样本线性相关系数(r)又称Pearson相关系数,简称相关系数。其计算公式为二、相关系数及其计算
例1从男青年总体中随机抽取11名男青年组成样本,分别测量每个男青年的身高和前臂长,测量结果如下表所示,试计算身高与前臂长之间的相关系数。编号身高X前臂长YXYX2Y21170477990289002209217342726629929176431604470402560019364155416355240251681┊┊┊┊┊┊91804988203240024011016543709527225184911166447304275561936合计18915008618532608122810表111名男青年身高与前臂长的测量结果(cm)实例经计算:图211名男青年身高与前臂长关系散点图相关系数为:结论:前臂长与身高呈正相关关系,而且相关程度较高。
线性相关表示两个变量之间的相互关系是双向的。相关系数。相关系数可以用于描述两个变量间相互关系的密切程度和方向。小结直线相关系数的假设检验t检验法:根据r作总体相关系数是否为零的假设检验,即H0:,t值的计算为相关系数的假设检验式中,分母为相关系数r的标准误。计算出t值后,可以查附表2得到P
值(使用统计软件可以直接得到P
的确切值)。由于t
值可以直接根据r值计算得到,实际中也可根据计算出的r
值,直接查r界值表得到
P值(附表11),若
,则可以认为两变量之间存在线性相关关系。注意:上式t检验公式不能用于对的检验
例1从男青年总体中随机抽取11名男青年组成样本,分别测量每个男青年的身高和前臂长,测量结果如下表所示,试对身高与前臂长之间的相关系数进行假设检验。编号身高X前臂长YXYX2Y21170477990289002209217342726629929176431604470402560019364155416355240251681┊┊┊┊┊┊91804988203240024011016543709527225184911166447304275561936合计18915008618532608122810表111名男青年身高与前臂长的测量结果(cm)实例对例1计算得到的r值进行假设检验:1.建立检验假设,即身高与前臂长之间不存在线性相关系,即身高与前臂长之间存在线性相关关系2.计算统计量确定P
值,作出结论查t界值表,得,,,拒绝,接受,可以认为男青年身高与前臂长之间存在正相关关系。
0.80092
线性相关表示两个变量之间的相互关系是双向的。相关系数。两变量之间是否具有相关性的统计检验可以使用t
检验方法。小结直线回归与相关的联系1.相关系数
r与回归方程中的
b正负号相同,r和
b为正,说明
X与
Y
的数量变化的方向是一致的,X增大,Y
也增大;符号为负,变化方向相反。2.对同一样本可以得出
r与
b互相转化的公式,两种假设检验完全等价。回归系数b乘以X和Y变量的标准差之比结果为相关系数r,即r=b*σx/σy3.相关与回归可以互相解释。r的平方称为决定系数(coefficientofdetermination),可表示为
线性回归与相关的联系
对同一资料进行相关与回归分析,相关系数r
与回归方程中的b
正负号相同,r
和b
为正,说明X
与
Y的数量变化的方向是一致的,X
增大,Y
也增大;反之亦然。小结直线回归与相关的区别1.相关系数理论上适用于两个数值变量都服从正态分布的情形。而在回归分析中,因变量是随机变量,自变量既可以是随机变量(Ⅱ
型回归模型),也可以是给定的量(I型回归模型)。2.线性相关表示两个变量之间的相互关系是双向的,线性回归则反映两个变量之间单向的依存关系,更适合分析因果关系的数量变化。三、线性回归与相关的区别等级相关的适用范围当遇到有些资料并不呈正态分布,对于此类资料就不宜用上述所讲的直线相关与回归分析(积差相关分析),而常用等级相关处理资料。等级相关亦称为秩相关,适用于分布类型不明的资料、偏态分布资料和等级资料的相关分析。常用的等级相关系数有斯皮尔曼等级相关系数rs、肯德尔和谐系数等。等级相关的适应范围
斯皮尔曼等级相关(Spearman’scorrelationcoefficientforrankeddata)主要用于解决名称数据和顺序数据相关的问题。适用于两列变量,而且具有等级变量性质具有线性关系的资料。由英国心理学家、统计学家斯皮尔曼根据积差相关的概念推导而来Spearman等级相关法。
分析步骤:1.先将X、Y
分别由小到大列出等级,即编秩次,数字相同时需要求平均等级;2.求出每一对X、Y的等级之差d值;3.按下列公式计算等级相关系数rs式中rs为等级相关系数,d2
为等级之差,n为样本含量。
Spearman等级相关基本步骤4.根据n查附rs界值表,确定P值。如rs≥rα,n
,,则P≤α,说明X、Y两变量相关有统计学意义;如rs<rα
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论