版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第1页我们要讨论是SPSS建立方程检验方程总体和各自变量统计学意义自变量筛选Case剔除(强影响点)共线性诊疗第2页多元统计方法线性回归Logistic 回归注:完全能够用于单原因分析,从这一点也能够看出统计学方法是相通。SPSS无法进行条件Logistic回归 ,就像sas没有专门针对配对资料语句一样,任何统计软件都有不足。建立方程计算量很大,普通需软件完成。前人手工计算这两种回归(借助科学计算器),精神可嘉80 年代,一个Logistic回归即使用计算机,计算时间也以天计。第3页调整或控制多变量控制或调整法就是同时统计可能有影响原因,把他们与可能危险原因一起作分析单原因分析有统计学意义,多
2、原因分析没有意义解释,举例第4页In univariate analysis, the family histories of SAH and ICH were positively associated with each of the subtypes of stroke. whereas after adjustment for potential risk factors, family history of ICH no longer showed a significant association with haematoma.单原因分析有意义,多原因没有意义解释第5页Family
3、 history of intracerebral haematoma was not an independent risk factor for haematoma, but it might be a good predictor, which indirectly influences the pathogenesis of intracerebral haematoma via certain hereditary components such as hypertension, and even lifestyle factors such as alcohol consumpti
4、on. 第6页Is family history an independent risk factor for stroke? J Neurol Neurosurg Psychiatry. 1997 Jan;62(1):66-70.第7页多元线性回归(简单步骤)指标多,难以了解。在计算自动化时代,这是回归难点,我们不懂怎样判断我们模型好坏第8页回归实际应用在影响原因分析中 一个是探索模式,在回归模型中探索全部可能自变量与应变量关系 一个是控制模式,即控制混杂原因影响后者对回归模型要求要小多,不出现异常情况,可仅对模型拟合稍作考虑。第9页SPSS菜单analyze-regression-line
5、ar第10页变量数量化(1)自变量为连续型变量 :必要时作变换(2)自变量为有序变量:依次赋值,如疗效好中差,可分别赋值3、2、1(3)自变量为二分类:如令男1,女0(4)自变量为名义分类:需要采取哑变量(dummy variables)进行编码 第11页名义分类变量哑变量化 假如职业分类为工、农、商、学、兵5类,则可定义比分类数少1个,即4个哑变量。编码方法以下:亚变量的设置,我们会在Logistic回归模型中讨论第12页数据格式第13页回归一些定义应变量(dependent variable)自变量( independent variable)偏回归系数 pertial regressio
6、n coefficient常数项b0决定系数 determination coefficient,R square共线性 collinearity:自变量间存在着线性关系yi=b0+b1x1i+b2x2i+bnxni第14页回归方程建立就是求解b0和bi过程矩阵各种计算(求解线性方程)SPSS实现: analyze-regression-linear将回归方程中全部自变量作为一个整体来检验他们于应变量之间是否含有线性关系,P0.05,说明所拟合方程含有统计学意义,但并不说明模型拟合好坏各自变量假设检验与评价,检验各自变量和应变量是否有线性关系,P(可放宽)说明有线性关系,一样t值不说明线性关系
7、强弱,这么,一个回归方程就建立了,回归方程建立就是如此easy。第15页线性与拟合优度有线性关系拟合优度不一定很好上述F和t检验有统计学意义,只是说明 自变量与y有线性关系,但未能表示“关系有多大”举例:上述方程R2很小,但因为样本量大,F值很大R2意义:能够由BMI,age和膳食口味解释SBP4.3改变我认为,原因分析能够只考虑线性关系有没有。尤其是在控制模式中。第16页自变量选择全局择优法: 求出全部可能回归模型(共有2m1个)对应准则值;按R2,Cp准则,AIC准则等统计量选择最优模型。求出全部可能回归模型(共有2m1个)对应准则值;按上述准则选择最优模型缺点:假如自变量个数为4,则全部
8、回归有241 15个;当自变量数个数为10时,全部可能回归为 2101 1023个;当自变量数个数为50时,全部可能回归为25011015个。第17页全局择优法决定系数(R2)和校正决定系数(R2c),能够用来评价回归方程优劣。【 R2伴随自变量个数增加而增加,所以需要校正】 校正决定系数(R2c)越大,方程越优。Cp选择法:选择Cp最靠近p或p1方程(不一样学者解释不一样)。 Cp无法用Spss直接计算,可能需要手工。其中p为方程中自变量个数,m为自变量总个数第18页Cp准则计算公式第19页AIC准则计算公式第20页自变量选择逐步选择法逐步选择法: (一)前进法(forward) (二)后退
9、法(backward) (三)逐步回归法(stepwise)小样本检验水准a定为0.10或0.15,大样本把值定为0.05。值越小表示选取自变量标准越严。 注意,引入变量检验水准要小于或等于剔除变量检验水准。第21页自变量到底怎样选择两种方法结合手工选择,逐步选择法选择后手工增减变量看校正决定系数(R2c)等方程拟合优劣指标好坏放宽或限制进入方程标准,尤其是在逐步回归时候硬性进入方程最感兴趣研究变量第22页统计“最优”与专业“最优”不一样准则、方法得出“最优”方程不一样;不一样引入、剔除标准取得“最优”方程不一样;方程还受数据正确性、共线性影响第23页强影响点,统计选择变量统计第24页强影响点
10、,统计选择从理论上讲,每一个样本点对回归模型影响应该是同等,实际并非如此。有些样本点(统计)对回归模型影响很大。对由过失或错误造成点应删去没有错误强影响点可能和自变量与应变量相关相关,不可轻易删除。第25页判断强影响点指标SPSS软件中指标analyze-regression-linear-saveSave中选项均进入数据库,而不出现在output中各种残差越大,单一统计对方程影响越大第26页判断强影响点指标(2)距1越远,越是强影响点其余指标绝对值越大越是强影响点第27页多重共线性 自变量间存在着线性关系,使一个或几个自变量能够由另外自变量线性表示时,称为该变量与另外自变量间存在有共线性(c
11、ollinearity)。轻易出现:回归系数符号与由专业知识不符变量主要性与专业不符整个方程决定系数R2高,但各自变量对应回归系数均不显著。第28页多重共线性诊疗SPSS中指标允许度:越近似于0,共线性越强特征根:越近似于0,共线性越强条件指数:越大,共线性越强第29页Spss实现与结果analyze-regression-linear-statistics第30页实例以BMI为应变量,SBP,DBP和年纪为自变量进行回归。结果如图极端例子:以SBP为应变量,BMI和复制BMI为自变量,结果为其中之一无法进入方程从第四个特征根看,特征根小,条件指数大,从变量方差百分比来看,SBP和DBP在其中
12、贡献最大,能够说二者有近似共线性不过二者共线性对方程影响并不大第31页允许度越近于0共线性越大,等于0,完全共线复制BMI根本无法进入方程后面讨论交互作用时候我们还要提到共线性第32页一、应用影响原因分析,控制混杂原因预测:由自变量值推出应变量Y值控制:指定应变量Y值查看自变量改变量影响原因分析,控制混杂原因在医学研究中最为长用,个人认为对模型拟合要求较低,尤其在控制混杂控制模式中后两种用途对模型要求严格第33页二、应用条件第34页回归系数符号反常与主要变量选不进方程原因分析有主要影响原因未包含在内一些变量个体间差异很大样本内突出点上数据误差大变量改变范围较小样本数太少上述各项在用最小二乘法求
13、解方程过程中对残差等主要中间指标影响大,造成最小二乘法失效。第35页线性回归注意事项应变量为连续变量,自变量可认为连续变量、分类变量或有序变量样本含量:一般要求样本量n最少是方程中自变量个数m5-10倍逐步回归不是万能,一个good of fit好模型建立需要多方面考证。多重共线性:自变量存在较强线性关系检验两变量间有没有交互作用,普遍做法是在方程中加入它们乘积项再做检验。但共线性问题会所以而突出,举例共线性很大SPSS菜单在处理回归中选项较少,但完全能够满足普通模型拟合。其syntax模式应该有更多项选择项,但鉴于介绍这方面内容书籍文件较少。如确实需要严格模型拟合,SAS可能是更加好选择第3
14、6页回归发展加权回归有重复测量回归分析:对每一个回归变量xy有屡次重复测量值。岭回归分析:改进最小二乘方,用于自变量相关性大,或一些变量改变范围太小。可用sas实现。第37页Logistic回归实际上属于判别分析,因拥有很差判别效率而不惯用。适合用于流行病学资料原因分析试验室中药品剂量-反应关系临床试验评价疾病预后原因分析第38页二、 Logistic回归模型Logistic回归分类 二分类 多分类 其中二分较为惯用 条件Logistic回归 非条件Logistic回归 二者针正确资料类型不一样,后者者针对 成组研究,前者针对配对或配伍研究。第39页26例冠心病病人和28例对照者进行病例对照研
15、究(变量赋值表) 自变量为连续变量,最好变为等级或计数资料有统计学家持反对意见认为损失信息第40页26例冠心病病人和28例对照者进行病例对照研究(数据格式) 第41页Logistic回归方程建立建立方程就是求解b0,b1bp第42页Logistic回归中常数项(b0)表示,在不接触任何潜在危险保护原因条件下,效应指标发生与不发生事件概率之比对数值。Logistic回归中回归系数( bi )表示,某一原因改变一个单位时,效应指标发生与不发生事件概率之比对数改变值,即OR或RR对数值。参数意义第43页回归系数意义单纯从数学上讲,与多元线性回归分析中回归系数解释并无不一样,亦即bi表示xi改变一个单
16、位时, logit P平均改变量。第44页多原因Logistic回归分析时,对回归系数解释都是指在其它全部自变量固定情况下优势比。存在原因间交互作用时, Logistic回归系数解释变得更为复杂,应尤其小心。调整与控制第45页流行病学中一些基本概念:相对危险度(relative risk): RR=P1/P2比数Odds=P/(1-P)比数比OR=P/(1-P)/P/(1-P)在患病率较小情况下,ORRR第46页依据Wald检验可知,Logistic回归系数bi服从u分布。所以其可信区间为进而,优势比e(bi)可信区间为第47页参数预计似然函数计算方法最大似然法迭代法初始值迭代次数人为精度可能
17、不收敛总体来说,解比较稳定。第48页SPSS实现analyze-regression-binary logistic第49页analyze-regression-binary logistic-option模型拟合优度指标,2值越小,P值越大表明模型越好迭代过程,能够监察方程计算过程参数预计相关矩阵,每步各协变量零级相关系数(简单相关系数)均小(,说明 Logistic方程总体有意义,借用线性 解释来说将回归方程中全部自变量作为一个整体来检验他们于应变量之间是否含有线性关系,P0.05,说明所拟合方程含有统计学意义,但并不说明模型拟合好坏:真正模型拟合普通要把其提升到0.20或0.10而非0.05。第52页结果3模型拟合优度指标,2值越小,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年企业急救药箱配备合同范本
- 升压站合同模板
- 2024年农产品购买合同
- 水轮机安装工程合同(2篇)
- 2024年20无人机研发与销售合同
- 企业员工正式合同模板
- (2024版)跨区域医疗资源共享合同服务内容详细
- 人设部合同模板
- 2024年创新型医疗器械许可协议
- 2024年医疗设备研发与临床试验协议
- 铜绿假单胞菌感染诊治及护理
- 电焊作业的火灾危险性及预防对策
- 大班室内低结构材料清单
- 关于市盘活闲置国有资产的调研报告
- 天翼云解决方案练习试题及答案(一)
- 《严以律已+做遵纪守法的好少年+主题班会教育》
- 教科版三年级上册综合实践活动-22我喜欢的小动物
- 《喜看稻菽千重浪》《心有一团火温暖众人心》《“探界者”钟扬》课件26张高中语文必修上册
- 光伏发电安全与应对措施
- 洛阳市女职工生育保险待遇申报表
- 习题课教学公开课一等奖课件省课获奖课件
评论
0/150
提交评论