版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
直线回归分析Linearregressionanalysis第十三章公共卫生学院统计与流行病学教研室第13章直线回归分析前面讨论的线性相关用于描述两个随机变量X与Y之间线性联系的程度,结论所反映的是它们相互之间的关系,两变量并无主次之分第13章直线回归分析随着所探索问题的深入,研究者通常更感兴趣于其中的一个变量如何定量地影响另一变量的取值:例如医学研究中常需要从某项指标估算另一项指标,如果这指标分别是测量变量X和Y,我们希望由X推算Y的值。我们称X为自变量,Y则称为依赖于X的因变量。如果Y与X的关系呈线性时,我们可以用线性回归(linearregression)描述两者的关系。第13章直线回归分析“回归”名称的由来
英国遗传统计学家F·Galton(1822-1911年)和他的学生、现代统计学的奠基者之一K.Pearson(1856-1936年)在研究父母身高与其子女身高的遗传问题时,观察了1078对夫妇,以每对夫妇中父亲的身高作为解释变量X,而取他们的一个成年儿子的身高作为被解释变量Y(应变量),将结果在平面直角坐标系上绘成散点图,发现趋势近乎一条直线。
计算出的回归直线方程:
第13章直线回归分析
Galton数据散点图(英寸)第13章直线回归分析Galton注意到:当父亲身高很高时,他的儿子的身高一般不会比父亲身高更高同样如果父亲很矮,他的儿子也一般不会比父亲矮,而会向一般人的均值靠拢。第13章直线回归分析第13章直线回归分析无论身材高还是矮的父亲所生儿子的身高有向人群的平均身高“回归”的趋势,这就是“回归”的生物学内涵人们借用“回归”一词来描述通过自变量(indepen-dentvariable)的数值来预测反应变量(responsevariable)的平均水平第13章直线回归分析扩展一元线性回归多元线性回归Logistic回归Cox回归第13章直线回归分析§1直线回归
第13章直线回归分析直线回归的概念
又称简单回归,用于研究一个变量随另一个变量变化而变化的数量依存关系(回归关系),从而预测或控制未知变量的一种统计分析方法,通过拟合线性方程来描述两变量间的回归关系应用条件
要求因(应)变量Y呈正态分布自变量X是可以精确测量和控制的变量
第13章直线回归分析直线回归分析的一般步骤绘制散点图求回归系数及截距对回归方程及回归系数进行假设检验若有统计学意义,写出回归方程,画出回归直线第13章直线回归分析
直线回归方程一般表达式:a:截距(intercept),直线与Y轴交点的纵坐标(X=0)。b:斜率(slope),回归系数(regressioncoefficient)。
或为
Y|X的估计值,读作‘Yhat’第13章直线回归分析Y的总体均数自变量Slope总体斜率Intercept总体截距第13章直线回归分析标准差相等
EQUALSTANDARDDEVIATION
对于任何X值,随机变量Y的标准差
Y|X相等独立INDEPENDENCE
每一观察值之间彼此独立线性LINEARITY
反应变量均数与X间呈直线关系
Y|X=α+X直线回归模型的四个假定(LINE)正态
NORMALITY
对于任何给定的X,Y服从正态分布,均数为
Y|X,标准差为
Y|X第13章直线回归分析xy线性
正态
独立
标准差相等第13章直线回归分析回归系数b:斜率(slope),回归系数(regressioncoefficient)
意义:X每改变一个单位,Y平均改变b个单位
b>0,Y随X的增大而增大(减少
而减少)——斜上
b<0,Y随X的增大而减小(减少
而增加)——斜下
b=0,Y与X无直线关系——水平
|b|越大,表示Y随X变化越快,直线越陡峭。第13章直线回归分析
xyaa第13章直线回归分析回归系数b和截距a的计算
b是根据最小二乘法原理(各实测点至直线的纵向距离的平方和最小)求得的其中,为X和Y的离均差积和为X的离均差平方和
第13章直线回归分析最小二乘(Leastsquares)法图解Yi估计值i
残差i=
Yi–估计值i寻找使S(残差i)2最小的直线使各实际散点(Y)到直线的纵向距离的平方和最小。最小第13章直线回归分析参数计算第13章直线回归分析第13章直线回归分析第13章直线回归分析对【例13-1】资料进行回归分析第13章直线回归分析第13章直线回归分析第13章直线回归分析回归参数a、b的解释斜率(b)当X每增加1个单位时,Y改变b个单位本例b=0.2041,表明在所研究的体重范围内,体重每增加1kg,心脏横径增加0.2041cmY的截距(a)当X=0时Y的平均值本例a=4.2121,表示体重为0时,心脏横径的期望值为4.2121cm(注意有时这种解释无实际意义)第13章直线回归分析回归系数的假设检验b≠0原因:①由于抽样误差引起,总体回归系数β=0②的确存在回归关系,总体回归系数β≠0假设检验:方差分析t检验第13章直线回归分析方差分析因变量y的取值大小不同,y取值的这种波动称为变异。变异来源于两个方面:由于自变量x的取值不同造成的除x以外的其他因素(如x对y的非线性影响、测量误差等)的影响第13章直线回归分析对一个具体的观测值来说,变异的大小可以通过该实际观测值与其均值之差来表示x和y的线性关系引起的变异y的变异误差引起的变异第13章直线回归分析第13章直线回归分析三个平方和的意义y的总离均差平方和(totalsumofsquares)
表示未考虑x与y的回归关系时,一组y值之间的总变异。第13章直线回归分析回归平方和(regressionsumofsquares)指当自变量x引入回归方程后,由于x值的不同而引起的之间的不同它反映在y的总变异中,可以用x与y的线性关系解释的那部分变异。SS回越大,回归效果越好。第13章直线回归分析
亦称剩余平方和(residualsumofsquares)
表示考虑回归之后y的随机误差,是x对y的线性影响之外的一切因素对y的变异,即总变异中无法用x解释的部分。
SS残即SS剩越小,回归效果越好。第13章直线回归分析
ν总=ν回+ν残相应的自由度分别为:ν总=n-1ν回=1(自变量的个数)ν残=n-2
统计量的构造:第13章直线回归分析
SS总、SS回和SS残的计算:第13章直线回归分析对例13-1所求回归方程用方差分析进行检验【检验步骤】1.建立检验假设,确定检验水准H0:总体回归系数
=0H1:总体回归系数
0
=0.05第13章直线回归分析2.计算检验统计量
第13章直线回归分析表13-2例13-1资料的方差分析表变异来源SS
MSFP回归3.344413.344443.39<0.01剩余0.8479110.0771
总4.192312第13章直线回归分析3.确定P值,作出统计推断
查F界值表,得P<0.01,按水准,拒绝H0,接受H1,认为8岁健康男童心脏横径与体重之间存在直线关系第13章直线回归分析
其中,Sb为回归系数b的标准误
SY.X
为剩余标准差★两种检验方法之间的关系:
t
检验表示应变量y在扣除自变量x的线性影响后的离散程度,反映实际观察值在回归直线周围的分散状况第13章直线回归分析1.建立检验假设,确定检验水准2.计算检验统计量3.确定P值,作出统计推断斜率b的t检验
按
=0.05水准拒绝H0接受H1回归系数b有统计学意义第13章直线回归分析图示在自变量x的实测范围内任取相距较远易读的两个值,求出相应估计值,用直线连接通过纵轴交点为(0,a)第13章直线回归分析第13章直线回归分析直线回归分析的区间估计总体回归系数β
的区间估计应变量条件均数的区间估计个体y值的容许区间估计第13章直线回归分析
总体回归系数β的区间估计:Sb
为回归系数b的标准误SY.X
为剩余标准差第13章直线回归分析对例13-1资料,总体回归系数β的95%可信区间:
第13章直线回归分析
因变量条件均数的区间估计:总体中当x=x0时,y的条件均数的点估计值为:
为x=x0时的条件均数的点估计值,它遵从总体均数为和标准差为的正态分布第13章直线回归分析
xy第13章直线回归分析.第13章直线回归分析
个体Y值的容许区间:是指总体中x为某定值x0时,个体y值的波动范围
第13章直线回归分析
xy
第13章直线回归分析第13章直线回归分析总体均数的可信区间与个体值的允许区间若a=0.05,1-a=95%前者表示在固定的x0处,反复抽样100次,可计算出100个总体均数的可信区间,其中有95个区间包含了客观存在而未知的总体均数,如果只做一次计算,则得到一个可信区间,而该区间包含总体均数的可能性为95%。后者表示x0一定时,预测值的取值范围,即如果要预测100个个体值,将有95个个体预测值分布在此范围内。第13章直线回归分析95%的置信区间与个体Y
的预测区间有关数据编号XYY_hat均数下限均数上限个值下限个值上限1133.543.4713.16023.78242.89774.04492113.013.1932.98923.39662.66973.7161393.092.9152.74013.08892.40203.4270462.482.4972.18582.80801.92333.0705582.562.7752.57162.97902.25213.29856103.363.0542.87933.22812.54123.56627123.183.3323.07993.58432.78823.8760872.652.6362.38392.88832.09223.1800第13章直线回归分析第13章直线回归分析描述两变量的数量依存关系利用回归方程进行预测预报
X—预报因子(体重)
Y—预报量(心脏横径)
个体Y值的容许区间计算:
四、直线回归分析的应用第13章直线回归分析
用容易测量的指标估计不易测量的指标体重、身高、肺活量(x)估计体表面积、心室血输出量、体循环总血量等指标(y)得到精确度更高的医学参考值范围7岁以下儿童身高的正常值范围()利用回归方程进行统计控制给定Y值范围,求X值范围第13章直线回归分析第13章直线回归分析第13章直线回归分析
作回归分析要有实际意义根据专业知识选择分析对象应绘制散点图观察有否直线趋势注意观察异常点五、直线回归分析的应用注意事项第13章直线回归分析
考虑建立线性回归模型的基本假定(LINE)满足线性、独立、正态和方差齐性条件直线回归方程的适用范围以自变量的取值范围为限,不可随意外延
两变量间有线性关系存在,不一定确有因果关系可能具仅有伴随关系,两变量的变化可能同受另一个因素的影响第13章直线回归分析区别资料要求不同:回归要求因变量y
服从正态分布;x
是可以精确测量和严格控制的变量。直线相关要求x
和y均呈正态分布
直线回归与相关区别与联系
第13章直线回归分析变量地位不同:回归的变量y称为因变量,处在被解释的地位,x称为自变量,用于预测因变量的变化相关中变量x变量y处于平等的地位,彼此相关关系用途不同:说明两变量间依存变化的数量关系用回归说明变量间的相关关系用相关
第13章直线回归分析度量衡单位不同回归系数有度量衡单位,随变量值的单位的变化而变化相关系数没有单位,不随变量值单位的变化而变化r与b的绝对值反映的意义不同r的绝对值越大,散点图中的点越趋向于一条直线表明两变量的关系越密切,相关程度越高b的绝对值越大,回归直线越陡,说明当X变化一个单位时,Y的平均变化就越大。反之也是一样
第13章直线回归分析联系r与b的方向一致r与b的假设检验等价tr=tb
数量关系用回归解释相关r
2
称为决定系数,计算式如下:第13章直线回归分析补充内容
曲线拟合第13章直线回归分析
医学研究中,X与Y两变量的数量关系并非总是线性的,如毒物剂量动物死亡率年龄身高时间血药物浓度可用曲线直线化估计(Curveestimation)方法进行统计学分析。第13章直线回归分析
绘制散点图,根据图形和专业知识选取曲线类型(可同时选取几类)按曲线
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 桥梁质量通病防治措施
- 一下科学教学计划
- 儿童医院分级护理制度的必要性
- 云梯游乐设施产业规划专项研究报告
- 人力资源数字化转型行业发展趋势预测及战略布局建议报告
- 橄榄球产业行业发展趋势预测及战略布局建议报告
- 抗糖尿病药物行业未来三年发展洞察及预测分析报告
- 布料漂白行业市场现状分析及未来三至五年行业预测报告
- 吹制玻璃器皿行业发展趋势预测及战略布局建议报告
- 工业机器人行业现状分析及未来三至五年行业发展报告
- 系统解剖学——动脉
- 常用荷载取值
- GCS评分表01843
- 压力容器壁厚计算
- X射线装置辐射事故应急预案
- 房屋建筑和市政基础设施工程竣工联合验收办事指南
- 纪检监察干部调研报告
- 安全工程—英语双专业(双学位)培养计划(精)
- 体格检查基本规范
- 生活中的比-小组学习任务单
- 毕业论文打印机皮带驱动系统能控能观和稳定性分析
评论
0/150
提交评论