版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
讲座logistic20140331一元直线回归模型
y=a+bx+e多元直线回归模型
y=a+b1x1+b2x2+…+bkxk+e直线回归分析的适用环境:线性(linear):反应变量Y的总体平均值与自变量X呈线性关系判断:散点图;残差图独立(independent)任意两个观察值互相独立判断:专业知识正态性(normal)假定线性模型的误差项服从正态分布判断:残差直方图等方差性(equalvariance):在X的取值范围内,不论X取什么值,Y都具有相同的方差判断:X与Y,残差的散点图Logistic回归分析概率型非线性回归研究二分类观察结果与一些影响因素之间关系的一种多变量分析方法。logistic回归的主要用途:一是寻找危险因素二是预测,根据建立的logistic回归模型,预测在不同的自变量情况下,发生某病或某种情况的概率有多大。三是判别,实际上跟预测类似,根据logistic模型,判断某人属于某病或属于某种情况的概率有多大,也就是看一下这个人有多大的可能性是属于某病患者。
logistic回归与多重线性回归logistic回归与多重线性回归实际上有很多相同之处,最大的区别就在于他们的因变量不同,这两种回归可以归于同一个家族,即广义线性模型(generalizedlinearmodel)。这一家族中的模型形式基本上都差不多,不同的就是因变量不同,如果是连续的,就是多重线性回归,如果是二项分布,就是logistic回归,如果是poisson分布,就是poisson回归,如果是负二项分布,就是负二项回归logistic回归的因变量可以是二分类的,也可以是多分类的,但是二分类的更为常用,也更加容易解释。所以实际中最为常用的就是二分类的logistic回归。Logistic回归分析在流行病学研究中的应用疾病病因和危险因素探讨-病例对照研究实验研究中药物或毒物的剂量反应关系临床试验评价疾病预后因素分析膳食因素与2型糖尿病关系的logistic回归分析大学生高血压相关因素的Logistic回归分析产后抑郁症影响因素的病例对照研究产褥期抑郁及其影响因素的Logistic回归分析产褥期抑郁及其影响因素的Logistic回归分析天津市婴幼儿孤独症患病率与危险因素。。。。。孙振球主编.《医学统计学》人民卫生出版社.Logistic回归模型影响Y的取值的m个自变量,X1,X2…Xm。P表示m个自变量的作用下阳性结果发生的概率,则Logistic回归模型表示为称为P的logit变换。Logistic回归模型-参数的含义影响Y的取值的m个自变量,X1,X2…Xm。P表示m个自变量的作用下阳性结果发生的概率,则Logistic回归模型表示为β0表示暴露剂量为0时个体发病与不发病概率之比的自然对数。流行病学中的一些基本概念:相对危险度(relativerisk):RR=P1/P2比数
Odds=P/(1-P)比数比OR=[P1/(1-P1)]/[P2/(1-P2)]在患病率较小情况下,OR≈RRLogistic回归中的常数项(b0)表示,在不接触任何潜在危险/保护因素条件下,效应指标发生与不发生事件的概率之比的对数值。Logistic回归中的回归系数(bi
)表示,某一因素改变一个单位时,效应指标发生与不发生事件的概率之比的对数变化值,即OR的对数值。Logistic回归系数的意义分析因素xi为二分类变量时,存在(暴露)xi
=1,不存在(未暴露)xi
=0,则Logistic回归中xi的系数bi就是暴露与非暴露优势比的对数值.即OR=exp(bi)=e(bi)医学研究中疾病的复杂性一种疾病可能有多种致病因素或与多种危险因素有关疾病转归的影响因素也可能多种多样临床治疗结局的综合性解决办法:固定其他因素,研究有影响的一两个因素(配比);分层分析:按1~2个因素组成的层进行层内分析和综合。统计模型实例分析为了探讨冠心病发生的有关危险因素,对26例冠心病病人和28例对照者进行病例-对照研究,各因素的说明见表1,资料见数据库data1,试用logistic逐步回归分析方法筛选危险因素。
Logistic回归分析的一般步骤变量的编码哑变量的设置和引入各个自变量的单因素分析变量的筛选交互作用的引入建立多个模型选择较优的模型模型应用条件的评价输出结果的解释1.变量的编码变量的编码要易于识别注意编码的等级关系改变分类变量的编码,其分析的意义并不改变。牢记编码使用变量数值标识(valuelabels)记录编码内容变量的编码变量名变量标识变量值值标识
SEX性别1男
2女
EDU教育程度0文盲
1小学
2初中及以上2.哑变量的设置和引入哑变量,又称指示变量。有利于检验等级变量各个等级间的变化是否相同。一个k分类的分类变量,可以用k-1个哑变量来表示。哑变量的设置教育程度X1X2X3文盲:0000小学:1100初中:2010高中:3001教育程度:文盲,小学,初中,高中以上教育程度X1X2X3文盲:0100小学:1010初中:2001高中:3000以高中作为参照SPSS提供的方法Indicator:
默认。以第1或最后1类作对照,其他每类与对照比较;Sample:
以第1或最后1类作对照,其他每类与对照比较,但反映平均效应。Difference:
除第1类外各分类与其前各类平均效应比较;Helmert:
除最后1类外各分类与其前各类平均效应比较;Repeated:
除第1类外各分类与其前一类比较;Polynomial:
假设类间距相等,用于数值型变量。Deviation:
以第1或最后1类作对照,其余每类与总效应比较。3.自变量的单因素分析了解自变量与因变量的分布检验是否符合建立模型的应用条件偏离应用条件时,进行数据变换各个自变量两组间的比较计数资料计量资料双变量分析4.变量的筛选变量筛选的原则专业上考虑测量上考虑共线性问题:计算相关矩阵,相关系数0.8-0.9,则选其一。缺失数据少、测量误差低的优先选择经验上考虑双变量分析中有显著性的自变量(P≤0.15)选择那些改变主效应的自变量变量的筛选变量筛选的可用方法逐步logistic回归:自动选择有显著性的自变量,不仅用于自变量的剔选,也用于交互作用项是否显著的判断。前进法:逐个引入模型外的变量后退法:放入所有变量,再逐个筛选
理论上看,前进法选择变量的经验公式缺乏总体概念,当用于因素分析时,建议用后退法。当变量间有完全相关性时,后退法无法使用,可用前进法。5.交互作用的引入交互作用的定义当自变量和因变量的关系随第三个变量的变化而改变时,则存在交互作用交互作用项的引入基于临床实际认为对结果有重要影响基于模型应用条件的分析引入两个自变量的乘积项交互作用的检验交互作用的解释6.建立多个模型饱和模型自定义的模型从饱和模型中选择自变量再建立模型饱和模型(saturatedmodel)是指各观测变量之间均容许相关的最复杂模型,自由度为0.饱和模型其实是人为设定的约束条件最少的模型,纯粹按照数据的相互关系来构建最优的模型,所以,它是数学上最优的模型,一种理想的状态。
7.选择较优的模型模型拟合优度检验AIC(Akaikeinformationcriterion):同一资料的多个模型的比较,此值越小,模型越合适。SC(Schwartzcriterion):同上Score统计量:同上,但不包括截距项。似然比检验(OmnibusTest):检验全部自变量的作用是否显著。较为可靠。适用于含连续性变量的情况。模型拟合好,x2值大,P值小。Hosmer-Lemeshow检验:评价估计概率和观察概率接近的程度。适用于含连续性变量的情况。模型好,x2值小,P值大。非条件logistic回归的SPSS实现AnalyzeRegressionBinarylogistic应变量自变量非条件logistic回归的SPSS实现AnalyzeRegressionBinarylogistic8.模型应用条件的评价残差分析残差是观察值与估计值之差合理的logistic回归模型也可能得到不理想的残差,这在自变量是二分类变量时更易出现。增加交互作用项可能增加模型的效能非条件logistic回归的SPSS实现AnalyzeRegressionBinarylogistic应变量自变量非条件logistic回归的SPSS实现AnalyzeRegressionBinarylogistic9.输出结果的解释模型中各个系数的显著性检验Wald检验:类似于直线回归系数的t检验Waldx2检验:同上似然比检验:自变量不在模型中与在模型中的似然值比较。Score检验输出结果的解释回归系数的解释系数的正负值:正(负)系数表示随自变量的增加因变量logit值的增加(减少)。二分类自变量系数为比数比的对数值,由此比数比=eb多分类自变量
以第i类作参照,比较相邻或相隔的两个类别。连续型自变量当自变量改变一个单位时,比数比为eb输出结果的解释模型拟合的优劣自变量与结果变量(因变量)有无关系确认因变量与自变量的编码模型包含的各个自变量的临床意义由模型回归系数计算得到的各个自变量的比数比的临床意义输出结果的解释模型的预测结果的评价敏感度、特异度和阳性预测值正确选择预测概率界值,简单地以0.5为界值,但并不是最好的。C指数预测结果与观察结果的一致性的度量。C值越大(最大为1),模型预测结果的能力越强。非条件logistic回归的SPSS实现AnalyzeRegressionBinarylogistic应变量自变量非条件logistic回归的SPSS实现AnalyzeRegressionBinarylogistic非条件logistic回归研究对象之间是否发生某事件是独立的。适用于:成组的病例-对照研究无分层的队列研究或横断面调查诊断性试验条件logistic回归研究中有N个配比组,每组中n个病例配m个对照者。这时各个研究对象发生某事件的概率即为条件概率。适用于配比设计的病例-对照研究精细分层设计的队列研究校正混杂因素一般采用Mantel-Haenszel分层分析分层较细或存在格子零频数时,M-H法无法采用。logistic回归分析可综合校正多个混杂因素的影响Logistic应用-疾病预后的估计logistic回归模型作为一种概率模型,可用于预测某事件发生的概率。logistic回归不要求在因变量正态假设的前提下进行预测。其预测的准确性取决于拟合数据资料的代表性Logistic应用-疾病诊断疾病诊断的判别诊断性试验研究中,敏感度和特异度的估计logistic回归模型综合校正协变量的影响充分利用数据提供的信息可进行95%可信区间的估计logistic回归的其他问题多分类logistic回归模型因变量为二分类变量因变量为多分类变量多分类logistic回归其他问题研究对象例数的确定研究设计时样本含量的估计经验方法:模型中的每一自变量至少需要出现10个结局。给定例数时自变量太多删除变量合并变量及变量的分类其他问题logistic回归的局限性理论上的不足:自变量对疾病的影响是独立的,但实际情况及推导结果不同。模型有不合理性:“乘法模型”与一般希望的“相加模型”相矛盾。样本含量不宜太少:例数大于200例时才可不考虑参数估计的偏性。相关阅读-logistic回归分析在医院/卫生管理工作中的应用住院病例医疗费用分布及影响因素Logistic回归分析医疗风险影响因素的有序多分类Logistic回归分析10种系统疾病住院医疗费用的Logistic分析2009年出院病人住院日影响因素Logistic回归分析超长住院日影响因素的Logistic回归分析病人选择就诊医院影响因素的lo
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度北京生物医药研发合同
- 2024年度北京市小汽车租赁行业培训合同
- 催化转化器市场发展现状调查及供需格局分析预测报告
- 清洁梳市场需求与消费特点分析
- 2024年度广告制作合同:某品牌广告制作协议
- 04版计算机软件开发与授权合同
- 2024年度合同服务内容扩展:供应链管理合同标的的物流方案与风险控制
- 2024年度农产品批量供应与销售合同
- 退热剂市场发展预测和趋势分析
- 电磁阀市场需求与消费特点分析
- 《中医基础理论》体质-课件
- 地球与生命的进化课件
- 螃蟹奇遇记课件
- 体育用品店行业市场分析研究报告-第3篇
- 数字化环境下的英语教学转型教学课件
- 中国旅游客源地和目的地概况PPT完整全套教学课件
- 银行后备人才竞聘演讲稿
- 马原第五章资本主义的发展及其趋势
- 安全风险分级管控清单(样表)
- GB/T 42509-2023质量管理顾客体验管理指南
- 火龙罐综合灸技术课件
评论
0/150
提交评论