版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2023/2/131Linearregressionanalysis第13章直线回归分析2023/2/132前面讨论的线性相关用于描述两个随机变量X与Y之间线性联系的程度,结论所反映的是它们相互之间的关系,两变量并无主次之分2023/2/133随着所探索问题的深入,研究者通常更感兴趣于其中的一个变量如何定量地影响另一变量的取值:例如医学研究中常需要从某项指标估算另一项指标,如果这指标分别是测量变量X和Y,我们希望由X推算Y的值。我们称X为自变量,Y则称为依赖于X的因变量。如果Y与X的关系呈线性时,我们可以用线性回归(linearregression)描述两者的关系。2023/2/135“回归”名称的由来
英国遗传统计学家F·Galton(1822-1911年,生物学家达尔文的表弟
)和他的学生、现代统计学的奠基者之一K.Pearson(1856-1936年)在研究父母身高与其子女身高的遗传问题时,观察了1078对夫妇,以每对夫妇中父亲的身高作为解释变量X,而取他们的一个成年儿子的身高作为被解释变量Y(应变量),将结果在平面直角坐标系上绘成散点图,发现趋势近乎一条直线。
计算出的回归直线方程:
2023/2/136
Galton数据散点图(英寸)2023/2/137Galton注意到:当父亲身高很高时,他的儿子的身高一般不会比父亲身高更高同样如果父亲很矮,他的儿子也一般不会比父亲矮,而会向一般人的均值靠拢。2023/2/1382023/2/139无论身材高还是矮的父亲所生儿子的身高有向人群的平均身高“回归”的趋势,这就是“回归”的生物学内涵人们借用“回归”一词来描述通过自变量(indepen-dentvariable)的数值来预测反应变量(responsevariable)的平均水平2023/2/1310扩展一元线性回归多元线性回归Logistic回归Cox回归2023/2/1311§1直线回归
2023/2/1312直线回归的概念
又称简单回归,用于研究一个变量随另一个变量变化而变化的数量依存关系(回归关系),从而预测或控制未知变量的一种统计分析方法,通过拟合线性方程来描述两变量间的回归关系应用条件
要求因(应)变量Y呈正态分布自变量X是可以精确测量和控制的变量
2023/2/1313直线回归分析的一般步骤绘制散点图求回归系数及截距对回归方程及回归系数进行假设检验若有统计学意义,写出回归方程,画出回归直线2023/2/1314
直线回归方程一般表达式:a:截距(intercept),直线与Y轴交点的纵坐标(X=0)。b:斜率(slope),回归系数(regressioncoefficient)。
或为Y|X的估计值,Y的总体均数2023/2/1315Y的总体均数自变量Slope总体斜率Intercept总体截距2023/2/1316标准差相等
EQUALSTANDARDDEVIATION
对于任何X值,随机变量Y的标准差Y|X相等独立INDEPENDENCE
每一观察值之间彼此独立线性LINEARITY
反应变量均数与X间呈直线关系
Y|X=α+X直线回归模型的四个假定(LINE)正态
NORMALITY
对于任何给定的X,Y服从正态分布,均数为Y|X,标准差为Y|X2023/2/1317xy线性
正态
独立
标准差相等2023/2/1318回归系数b:斜率(slope),回归系数(regressioncoefficient)
意义:X每改变一个单位,Y平均改变b个单位
b>0,Y随X的增大而增大(减少
而减少)——斜上
b<0,Y随X的增大而减小(减少
而增加)——斜下
b=0,Y与X无直线关系——水平
|b|越大,表示Y随X变化越快,直线越陡峭。2023/2/1319xyaa2023/2/1320回归系数b和截距a的计算
b是根据最小二乘法原理(各实测点至直线的纵向距离的平方和最小)求得的其中,为X和Y的离均差积和为X的离均差平方和
2023/2/1321最小二乘(Leastsquares)法图解Yi估计值i
残差i=
Yi–估计值i寻找使S(残差i)2最小的直线使各实际散点(Y)到直线的纵向距离的平方和最小2023/2/1322参数计算2023/2/13232023/2/13242023/2/1325对【例13-1】资料进行回归分析2023/2/13262023/2/13272023/2/1328回归参数a、b的解释斜率(b)当X每增加1个单位时,Y改变b个单位本例b=0.2041,表明在所研究的体重范围内,体重每增加1kg,心脏横径增加0.2041cmY的截距(a)当X=0时Y的平均值本例a=4.2121,表示体重为0时,心脏横径的期望值为4.2121cm(注意有时这种解释无实际意义)2023/2/1329回归系数的假设检验b≠0原因:①由于抽样误差引起,总体回归系数β=0②的确存在回归关系,总体回归系数β≠0假设检验:方差分析t检验2023/2/1330方差分析因变量y的取值大小不同,y取值的这种波动称为变异。变异来源于两个方面:由于自变量x的取值不同造成的除x以外的其他因素(如x对y的非线性影响、测量误差等)的影响2023/2/1331对一个具体的观测值来说,变异的大小可以通过该实际观测值与其均值之差来表示x和y的线性关系引起的变异y的变异误差引起的变异2023/2/13322023/2/1333三个平方和的意义y的总离均差平方和(totalsumofsquares)
表示未考虑x与y的回归关系时,一组y值之间的总变异。2023/2/1334回归平方和(regressionsumofsquares)指当自变量x引入回归方程后,由于x值的不同而引起的之间的不同它反映在y的总变异中,可以用x与y的线性关系解释的那部分变异。SS回越大,回归效果越好。2023/2/1335
亦称剩余平方和(residualsumofsquares)
表示考虑回归之后y的随机误差,是x对y的线性影响之外的一切因素对y的变异,即总变异中无法用x解释的部分。
SS残即SS剩越小,回归效果越好。2023/2/1336
ν总=ν回+ν残相应的自由度分别为:ν总=n-1ν回=1(自变量的个数)ν残=n-2
统计量:2023/2/1337
SS总、SS回和SS残的计算:2023/2/1338对例13-1所求回归方程用方差分析进行检验【检验步骤】1.建立检验假设,确定检验水准H0:总体回归系数=0H1:总体回归系数0=0.052023/2/13392.计算检验统计量
2023/2/1340表13-2例13-1资料的方差分析表变异来源SSMSFP回归3.344413.344443.39<0.01剩余0.8479110.0771
总4.1923122023/2/13413.确定P值,作出统计推断
查F界值表,得P<0.01,按水准,拒绝H0,接受H1,认为8岁健康男童心脏横径与体重之间存在直线关系2023/2/1342
其中,Sb
为回归系数b的标准误
SY.X
为剩余标准差★两种检验方法之间的关系:
t
检验表示应变量y在扣除自变量x的线性影响后的离散程度,反映实际观察值在回归直线周围的分散状况2023/2/13431.建立检验假设,确定检验水准2.计算检验统计量3.确定P值,作出统计推断斜率b的t检验
按
=0.05水准拒绝H0接受H1回归系数b有统计学意义2023/2/1344图示在自变量x的实测范围内任取相距较远易读的两个值,求出相应估计值,用直线连接通过纵轴交点为(0,a)2023/2/13452023/2/1346直线回归分析的区间估计总体回归系数β
的区间估计应变量条件均数的区间估计个体y值的容许区间估计2023/2/1347
总体回归系数β的区间估计:Sb
为回归系数b的标准误SY.X
为剩余标准差2023/2/1348对例13-1资料,总体回归系数β的95%可信区间:
2023/2/1349
因变量条件均数的区间估计:总体中当x=x0时,y的条件均数的点估计值为:
为x=x0时的条件均数的点估计值,它遵从总体均数为和标准差为的正态分布2023/2/1350xy2023/2/1351.2023/2/1352
个体Y值的容许区间:是指总体中x为某定值x0时,个体y值的波动范围
2023/2/1353xy2023/2/13542023/2/1355总体均数的可信区间与个体值的允许区间若a=0.05,1-a=95%前者表示在固定的x0处,反复抽样100次,可计算出100个总体均数的可信区间,其中有95个区间包含了客观存在而未知的总体均数,如果只做一次计算,则得到一个可信区间,而该区间包含总体均数的可能性为95%。后者表示x0一定时,预测值的取值范围,即如果要预测100个个体值,将有95个个体预测值分布在此范围内。2023/2/135695%的置信区间与个体Y
的预测区间有关数据编号XYY_hat均数下限均数上限个值下限个值上限1133.543.4713.16023.78242.89774.04492113.013.1932.98923.39662.66973.7161393.092.9152.74013.08892.40203.4270462.482.4972.18582.80801.92333.0705582.562.7752.57162.97902.25213.29856103.363.0542.87933.22812.54123.56627123.183.3323.07993.58432.78823.8760872.652.6362.38392.88832.09223.18002023/2/13572023/2/1358描述两变量的数量依存关系利用回归方程进行预测预报
X—预报因子(体重)
Y—预报量(心脏横径)
个体Y值的容许区间计算:
四、直线回归分析的应用2023/2/1359
用容易测量的指标估计不易测量的指标体重、身高、肺活量(x)估计体表面积、心室血输出量、体循环总血量等指标(y)得到精确度更高的医学参考值范围7岁以下儿童身高的正常值范围()利用回归方程进行统计控制给定Y值范围,求X值范围2023/2/13602023/2/13612023/2/1362
作回归分析要有实际意义根据专业知识选择分析对象应绘制散点图观察有否直线趋势注意观察异常点五、直线回归分析的应用注意事项2023/2/1363
考虑建立线性回归模型的基本假定(LINE)满足线性、独立、正态和方差齐性条件直线回归方程的适用范围以自变量的取值范围为限,不可随意外延
两变量间有线性关系存在,不一定确有因果关系可能具仅有伴随关系,两变量的变化可能同受另一个因素的影响2023/2/1364区别资料要求不同:回归要求因变量y
服从正态分布;x
是可以精确测量和严格控制的变量。直线相关要求x
和y均呈正态分布
直线回归与相关区别与联系
2023/2/1365变量地位不同:回归的变量y称为因变量,处在被解释的地位,x称为自变量,用于预测因变量的变化相关中变量x变量y处于平等的地位,彼此相关关系用途不同:说明两变量间依存变化的数量关系用回归说明变量间的相关关系用相关
2023/2/1366度量衡单位不同回归系数有度量衡单位,随变量值的单位的变化而变化相关系数没有单位,不随变量值单位的变化而变化r与b的绝对值反映的意义不同r的绝对值越大,散点图中的点越趋向于一条直线表明两变量的关系越密切,相关程度越高b的绝对值越大,回归直线越陡,说明当X变化一个单位时,Y的平均变化就越大。反之也是一样
2023/2/1367联系r与b的方向一致r与b的假设检验等价tr=tb
数量关系用回归解释相关r
2
称为决定系数,计算式如下:2023/2/1368掌握内容直线回归的概念和应用回归系数的意义应变量条件均数的区间估计与个体y值的容许区间估计的区别直线回归与直线相关的区别和联系2023/2/1372补充内容
曲线拟合2023/2/1373
医学研究中,X与Y两变量的数量关系并非总是线性的,如毒物剂量动物死
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年棕、藤、草制品项目提案报告模板
- 求职信自荐信模板五篇
- 2025年TFT系列偏光片项目立项申请报告模稿
- 2025年新型贵金属催化剂项目规划申请报告模板
- 大国工匠观后感400字
- 初中数学教师学习心得体会
- 教师上半年工作总结5篇范文
- 试用期个人工作表现和总结5篇
- 产品质量承诺书15篇
- 2022年公司圣诞节活动的策划方案
- 《城市违法建设治理研究的文献综述》2100字
- 《XL集团破产重整方案设计》
- 智慧金融合同施工承诺书
- 《基于Java web的网上招聘系统设计与实现》10000字(论文)
- 2024年1月国家开放大学法律事务专科《民法学(1)》期末纸质考试试题及答案
- 【MOOC】模拟电子技术基础-华中科技大学 中国大学慕课MOOC答案
- 科研伦理与学术规范(研究生)期末试题
- 林下中药材种植项目可行性研究报告
- 2024年网格员考试题库完美版
- 北京市矢量地图-可改颜色
- 2024年农民职业农业素质技能考试题库附含答案
评论
0/150
提交评论