![第14章 直线回归分析_第1页](http://file4.renrendoc.com/view12/M06/00/09/wKhkGWXjxP-AeiFGAAIOKsXczAw149.jpg)
![第14章 直线回归分析_第2页](http://file4.renrendoc.com/view12/M06/00/09/wKhkGWXjxP-AeiFGAAIOKsXczAw1492.jpg)
![第14章 直线回归分析_第3页](http://file4.renrendoc.com/view12/M06/00/09/wKhkGWXjxP-AeiFGAAIOKsXczAw1493.jpg)
![第14章 直线回归分析_第4页](http://file4.renrendoc.com/view12/M06/00/09/wKhkGWXjxP-AeiFGAAIOKsXczAw1494.jpg)
![第14章 直线回归分析_第5页](http://file4.renrendoc.com/view12/M06/00/09/wKhkGWXjxP-AeiFGAAIOKsXczAw1495.jpg)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
直线回归分析第十四章陈卫中
副教授公共卫生系流行病与卫生统计学教研室03三月2024例14.1探讨男性腰围(WC)与腹腔内脂肪面积(VAT)的关系利用腰围预测腹腔内脂肪面积随机抽取了20名男性志愿受试者测量其腰围(cm),并采用磁共振成像法测量其腹腔内脂肪面积(cm2)引例内容提要概念和用途分析步骤模型中参数的估计研究变量间数量依存关系,并以函数的形式表达这种关系的统计学方法回归分析数量依存关系的专业解释从专业上来看,存在数量依存关系的变量间的关系因果关系影响因素作用于研究对象必然事物的发生或所处状态产生影响(效应)
影响因素不同水平产生的效应不同伴随关系
ZXY根据被预测变量(Y)的类型及函数形式不同简单线性回归(Simplelinearregression)多元线性回归(Multivariatelinearregression)logistic回归(Logisticregression)Cox回归(Coxregression)非线性回归(Curveregression)常见的回归形式是一种研究两变量间数量依存关系,并寻找最能代表这种关系的直线的统计方法回归:数量依存关系简单:两变量Y:被预测的变量,称为因变量(dependentvariable)或反应变量(responsevariable)必须是定量变量X:Y所依存的变量,称为自变量(independentvariable)或解释变量(explanatoryvariable)可用数字进行表达线性:直线函数简单线性回归内容提要概念和用途分析步骤回归分析的应用明确X、Y,并定量化确定回归模型:绘制散点图估计模型中的参数,形成回归方程绘制回归函数图形回归分析的统计推断回归模型诊断回归方程预测效果的评价回归分析的基本步骤确定因变量(结局变量,Y)与自变量(X)因果关系:医学常识、专业意义确定伴随关系:研究目的确定X、Y明确X、Y,并定量化确定回归模型:绘制散点图估计模型中的参数,形成回归方程绘制回归函数图形回归分析的统计推断回归模型诊断回归方程预测效果的评价回归分析的基本步骤根据资料,绘制散点图建立坐标系每个点表示一个观测对象点的密集程度和趋势来表示两个变量间的数量关系确定回归模型,散点图的绘制表14.120名男性志愿受试者腰围和腹腔内脂肪面积的测量值编号腰围(cm)腹腔内脂肪面积(cm2)编号腰围(cm)腹腔内脂肪面积(cm2)181.369.81193.5108.2285.661.212103.8129.0385.980.31397.5110.4487.875.51498.3123.3579.075.71599.7105.5682.585.41687.283.1795.2102.51784.172.0896.199.61888.0100.0994.497.819101.0105.01090.6100.92088.3127.7散点图的绘制20名男性志愿受试者腰围和腹腔内脂肪面积的测量值散点图81.3,69.8绘制散点图的意义是否存在线性趋势散点完全在一条直线上Y变量的变异完全由X变量的变化来解释——确定性关系散点未完全落在一条直线,只存在线性趋势Y变量的变异不完全由X变量的变化来解释——非确定性关系不存在回归关系不存在线性关系有无异常点有无混杂因素影响—同质性
y=+
x(98.3,123.3)
+
98.3确定回归模型说明1个因变量和1个自变量间数量依存关系,并用线性函数表达非确定性关系直线回归模型的表达常数项截距回归系数斜率残差回归部分随机部分
y|x=
+x:X确定时其值不再变化,故又称为固定部分统计学意义:X为某一定值时Y的总体均数,又称为条件均数专业意义:X为某一定值时Y的预测值截距(intercept),
或
0表示回归直线在Y轴上的截距,即x=0时Y的条件均数回归部分亦称回归系数(regressioncoefficient),
表示X每变化1个单位时,Y平均变化
个单位
=0,X与Y之间无数量依存关系
0,X与Y之间存在数量依存关系协同变化的方向
>0,X、Y同向变化
<0,X、Y反向变化斜率(slope)残差(residual)
=Y-(
+
X),实测值与条件均数之间的差异为随机误差,无方向性假定其服从正态分布总体均数为0方差
2,且不随x的变化而变化——与X无关残差间相互独立明确X、Y,并定量化确定回归模型:绘制散点图估计模型中的参数,形成回归方程绘制回归函数图形直线回归分析的统计推断回归模型诊断回归方程预测效果的评价简单线性回归分析的基本步骤最小二乘法(leastsquareestimate,LSE)使实际数据中y的实测值与模型预测值之差的平方和达到最小建立关于a、b的一阶偏导数,整理得到正规方程组,最终获得回归方程系数的估计值系数估计方法例题回归方程数学模型回归方程截距a=-96.39cm2,表示腰围为0cm时,腹腔内脂肪面积的平均估计值为-96.39cm2回归系数b=2.11cm2/cm,说明腰围每增加1cm,腹腔内脂肪面积平均增加2.11cm2当腰围x=81.3cm时与实测值69.8cm2之间的差距为残差,腹腔内脂肪面积平均估计值明确X、Y,并定量化确定回归模型:绘制散点图估计模型中的参数,形成回归方程绘制回归直线回归分析的统计推断回归模型诊断回归方程预测效果的评价简单线性回归分析的基本步骤20名男性志愿受试者腰围和腹腔内脂肪面积的测量值散点图及回归线明确X、Y,并定量化确定回归模型:绘制散点图估计模型中的参数,形成回归方程绘制回归直线回归分析的统计推断回归模型诊断回归方程预测效果的评价简单线性回归分析的基本步骤回归分析的统计推断
数学模型回归方程表达两变量间的数量依存关系—用X的变化解释Y的变异回归模型的假设检验目的:排除抽样误差的影响,确定回归关系确实存在1.建立检验假设,确定检验水准H0:无直线回归关系,即
=0H1:存在直线回归关系,即
0
=0.052.选定检验方法,计算检验统计量①方差分析法:对整个回归模型进行检验②t检验法:对回归系数(及截距)进行检验x0P(x0,y)y方差分析法SS总:未考虑x与y的回归关系时y的总变异SS回:y的总变异中能用x的变化解释的y的变异SS剩:y的总变异中无法用x解释的部分3.确定P值,做出统计推断F=26.9241,
1=1,
2=18,查F界值表,得P<0.001,故拒绝H0(
=0),接受H1(
0)方差分析法方差分析结果
SS
MSFP回归分析4235.1014235.1024.92<0.001残差3058.5518169.92总变异7293.6519
回归系数的抽样分布回归系数b是根据样本信息获得的,为样本统计量分布:标准误:t检验法3.确定P值,做出统计推断t=4.9924,
=18查t界值表,得P<0.001,故拒绝H0(
=0),接受H1
(
0)t检验结果
系数估计值标准误tPIntercept-96.3938.58-2.500.0224腰围2.110.424.990.0001回归分析的统计推断
数学模型回归方程表达两变量间的数量依存关系—用X的变化解释Y的变异点估计:b
区间估计:回归系数
的估计系数区间估计结果
系数估计值标准误LowerCI95%UpperCI95%Intercept-96.3938.58-177.44-15.35腰围2.110.421.223.00总体条件均数
y|x的估计通过20人样本信息获得的腰围和腹腔内脂肪面积间的回归方程为当腰围x=90cm时腰围为90cm个体的腹腔内脂肪面积的总体均数如何估计?总体条件均数
y|x的估计点估计:区间估计在x为定值xp时,亦为样本统计量分布:总体条件均数
y|x的估计区间估计当置信度1-
为95%,腰围x=90cm:回归直线的1-
置信带(confidenceband)将x取不同值时y的条件均数置信区间的上下限分别连起来形成的两条弧形线间的区域条件均数
x|y的95%置信带明确X、Y,并定量化确定回归模型:绘制散点图估计模型中的参数,形成回归方程绘制回归直线回归分析的统计推断回归模型诊断回归方程预测效果的评价简单线性回归分析的基本步骤残差(residual)
=Y-(
+
X),实测值与条件均数之间的差异为随机误差,无方向性假定其服从正态分布总体均数为0方差
2,且不随x的变化而变化——与X无关残差间相互独立残差图
20名男性志愿受试者腰围与腹腔内脂肪面积残差图残差图用途残差是否服从正态分布的诊断离群值识别线性诊断残差方差齐性的诊断独立性诊断自变量与残差的独立性诊断残差之间的独立性诊断明确X、Y,并定量化确定回归模型:绘制散点图估计模型中的参数,形成回归方程绘制回归直线回归分析的统计推断回归模型诊断回归方程预测效果的评价简单线性回归分析的基本步骤预测或拟合效果评价决定系数:反映回归拟合效果,回归贡献的相对程度,即在应变量y的总变异中,用y与x回归关系所能解释的比例本例R2=0.581方差分析结果
SS
MSFP回归分析4235.1014235.1024.92<0.001残差3058.5518169.92总变异7293.6519
内容提要概念和用途分析步骤回归分析的应用回归方程的应用描述两变量间的数量依存关系预测(forecast):点值预测和预测区间应用一般以自变量x的取值范围为限控制(control)是回归方程的反向应用,当个体应变量值(Y)在某一范围内波动时,自变量(X)的取值因素筛选:假设检验H0:
=0P
,可以认为X对Y有影响作用P>
,尚不能认为X对Y有影响作用个体y值的预测区间通过20人样本信息获得的腰围和腹腔内脂肪面积间的回归方程为当腰围x=90cm时腰围为90cm大多数个体的腹腔内脂肪面积的波动范围?个体y值的预测区间当x为某一定值xp时,个体y值的波动范围1-
为95%,腰围x=90cm腹腔内脂肪面积的95%参考值范围为:条件均数
x|y的95%置信区间和个体y值95%预测区间
直线回归分析其它注意事项分析要有实际意义回归关系不一定是因果关系为提高分析的准确性,观察对象数n
5自变量X为定量变量时,取值范围尽可能大对自变量X的分布无特殊要求只需严密控制或精确测量的数据,可以用数值加以表达即可自变量的量化自变量X既可以是定量变量,也可以是定性变量定量变量如自变量和因变量存在线性关系,则直接以原变量取值引入模型如自变量与应变量是非线性关系,则需作适当变换,如x2、logx等,直到变换后与应变量成线性关系转化为有序多分类/二分类数据定性变量:需定量化后方可引入模型可直线化的曲线回归类型函数形式变量变换直线化结果(+
)对数曲线指数曲线幂函数双曲线S型曲线定性变量的量化二分类定性变量:常用0,1指示。如性别:无序多分类定性变量以哑变量(dummyvariables)形式纳入有序多分类定性变量(等级变量)以0、1、2、…、c-1来表示c个类别直接纳入以哑变量形式引入模型哑变量(dummyvariable)亦称指示变量(indicatorvariable)适用于无序定性自变量有序定性自变量,但与因变量不呈线性关系有c个类别的定性变量用c-1个哑变量进行表达确定哑变量所表明的类别1代表个体属于该哑变量所表明的类别,0代表个体不属于所表明的类别为减少冗余,用c-1个哑变量表达c个类别年龄赋值(X)哑变量D0(0~)D1(10~)D2(18~)D3(65~)0~0100010~1010018~2001065~30001哑变量生成示例哑变量的生成回归分析
与t检验、方差分析表9.1喂养不同饲料的大鼠红细胞数(×1012/L)普通饲料10%大豆饲料yij4.784.654.656.923.984.444.046.163.445.993.776.673.655.294.914.704.795.055.316.014.055.675.164.684.385.52
nstP(2-tailed)
普通饲料124.380.63-3.770.00110%大豆饲料125.520.84喂养不同饲料的大鼠红细胞数(×1012/L)t检验结果t检验回归分析结果以红细胞数为y,组别(g)为自变量
系数标准误tP
截距4.380.21420.465<0.001组别1.140.3033.7740.001喂养2种不同饲料的大鼠红细胞数(×1012/L)回归分析结果表9.1喂养不同饲料的大鼠红细胞数(×1012/L)普通饲料10%大豆饲料15%大豆饲料yij4.784.656.804.656.925.913.984.447.284.046.167.513.445.997.513.776.677.743.655.298.194.914.707.154.795.058.185.316.015.534.055.677.795.164.688.034.385.527.30方差分析例9.1资料的方差分析结果变异来源SS
MSFP组间变异52.13226.0642.92<0.001组内变异20.04330.60总变异72.16352.06以红细胞数为y,组别定量化纳入回归分析组别定量化普通饲料010%大豆饲料115%大豆饲料2例9.1喂养不同饲料的大鼠红细胞数(×1012/L)散点图回归分析以红细胞数为y,组别以哑变量纳入组别groupg10g15普通饲料00010%大豆饲料11015%大豆饲料201表9.1喂养三种不同饲料的大鼠红细胞数(×1012/L)回归分析结果例9.1资料的回归模型方差分析结果变异来源SS
MSFP回归52.13226.0642.92<0.001剩余20.04330.60总变异72.16352.06回归分析结果
系数标准误tP
截距4.380.2219.46<0.001g101.140.323.590.001g152.920.329.19<0.001不同饲料的大鼠红细胞数(×1012/L)回归分析结果率的线性趋势分析例11.9(P146)抽样调查了891名中学生的吸烟状况该市中学生吸烟率是否有随年级增加而增高的趋势年级调查人数吸烟人数吸烟率(%)初一1441711.81初二1481912.84初三1352518.52高一1574126.11高二1685532.74高三1397251.80合计89122925.70表11.13某市不同年级中学生吸烟率(%)趋势线图某市不同年级中学生吸烟率(%)率的线性趋势分析分析目的:某事物的发生率是否随着某因素分层等级呈线性变化趋势研究方法:调查研究变量类型自变量:年级,有序多分类定性变量/等级变量应变量:是否吸烟,二分类定性变量已知:样本数据,R
2列联表R
2列联表形式x未发生数发生数合计发生率(%)1n10n11n1.p112n20n21n2.p21……………ini0ni1ni.pi1……………RnR0nR1nR.pR1合计n.0n.1n..p.1R
2列联表形式分析过程分析事物发生率(Y)与某等级变量(X)间的线性数量依存关系定性变量的定量化:定性变量转换为数值x[年级]:1,2,3,…,Rs[吸烟]:吸烟=1,不吸烟=0线性模型:模型系数的估计假设检验x[年级]s[吸烟]f[频数]111710127211920129312
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 政府采购项目招标代理委托协议书范本
- 升降车租赁合同范本
- 卫生保洁绿化服务合同范本
- 球墨铸铁井盖采购合同范本
- 部编版八年级历史上册《第22课抗日战争的胜利》表格式听课评课记录
- 部编版八年级道德与法治上册听课评课记录:2.1《网络改变世界》
- 苏州管道破裂封堵施工方案
- 铁路旧轨枕封闭施工方案
- 听评课教学过程怎么记录
- 人教版数学八年级上册听评课记录14.3.1《提公因式法》
- 【MOOC】数字摄影技术与艺术-西南石油大学 中国大学慕课MOOC答案
- 心内科心衰一病一品护理成果汇报
- 2025检验检测中心年度工作总结及工作计划
- 2024年总经理助理年终工作总结(3篇)
- 2024年考研英语(二)真题及参考答案
- 山西省太原市2023-2024学年高二上学期期末物理试题(含答案)
- B区地下室碳纤维加固施工方案
- 幼儿园园安全培训
- 冲突矿产课件教学课件
- 三甲医院临床试验机构-44 V00专业组SOP目录
- 旅行社脱团安全协议书范文模板
评论
0/150
提交评论