Logistic回归分析及其应用课件_第1页
Logistic回归分析及其应用课件_第2页
Logistic回归分析及其应用课件_第3页
Logistic回归分析及其应用课件_第4页
Logistic回归分析及其应用课件_第5页
已阅读5页,还剩73页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2022/11/101概述1967年TrueltJ,ConnifieldJ和KannelW在《JournalofChronicDisease》上发表了冠心病危险因素的研究,较早将Logistic回归用于医学研究。一般概念一元直线回归多元直线回归2022/11/91概述1967年TrueltJ,Conn2022/11/102一元直线回归模型

y=a+bx+e多元直线回归模型

y=a+b1x1+b2x2+…+bkxk+e2022/11/92一元直线回归模型2022/11/103-4.00-2.000.002.004.00X:自变量0.000.250.500.751.00F(y):因变量的logit值如果一定要进行直线回归也可以做出结果,但此时效果不佳。当自变量取一定值时,因变量的预测值可能为负数。2022/11/93-4.00-2.000.002.004.2022/11/104一般直线回归难以解决的问题医学数据的复杂、多样连续型和离散型数据医学研究中疾病的复杂性一种疾病可能有多种致病因素或与多种危险因素有关疾病转归的影响因素也可能多种多样临床治疗结局的综合性2022/11/94一般直线回归难以解决的问题医学数据的复杂2022/11/105简单的解决方法固定其他因素,研究有影响的一两个因素;分层分析:按1~2个因素组成的层进行层内分析和综合。统计模型2022/11/95简单的解决方法固定其他因素,研究有影响的2022/11/106寻找合适的模型进行logit变换logit(p)=ln(——),p为y=1所对应的概率

logit(0.1)=ln(———)=ln(0.1/0.9)p1-p0.11-

0.12022/11/96寻找合适的模型进行logit变换p1-2022/11/107logit(p)=ln(——)p=0或1时,此式失效

以p=r/n代之

logit(p)=ln[(r+0.5)/(n–r+0.5)]此称经验logistic变换

以Z代上式的logit(p),Z=a+b1x1+b2x2+…+bkxk

称此为logistic回归模型p1-p2022/11/97logit(p)=ln(——)2022/11/108P=ez/(1+ez)ea+b1x1+b2x2+…+bkxk

1+ea+b1x1+b2x2+…+bkxk此为非条件logistic回归模型应用于成组数据的分析P=2022/11/98P=2022/11/109自变量取定一些值时,因变量取0、1的概率就是条件概率,对条件概率进行logistic回归,称为条件logistic回归表达式:

eb1x1+b2x2+…+bkxk

1-eb1x1+b2x2+…+bkxk

常用于分析配比的资料P=2022/11/99自变量取定一些值时,因变量取0、1的概率2022/11/1010概述小结logistic回归对因变量的比数的对数值(logit值)建立模型因变量的logit值的改变与多个自变量的加权和呈线性关系因变量呈二项分布2022/11/910概述小结logistic回归对因变量的2022/11/1011分析的一般步骤变量的编码哑变量的设置和引入各个自变量的单因素分析变量的筛选交互作用的引入建立多个模型选择较优的模型模型应用条件的评价输出结果的解释2022/11/911分析的一般步骤变量的编码2022/11/10121.变量的编码变量的编码要易于识别注意编码的等级关系改变分类变量的编码,其分析的意义并不改变。牢记编码使用变量数值标识(valuelabels)记录编码内容2022/11/9121.变量的编码变量的编码要易于识别2022/11/1013变量的编码变量名变量标识变量值值标识

SEX性别1男

2女

EDU教育程度0文盲

1小学

2初中及以上2022/11/913变量的编码变量名变量标识2022/11/1014variablelabelsqnum'问卷序号'rnum'录入序号'pnum'病人编号'hnum'住院号/门诊号'chname'患者中文姓名'drugroup'组别'name'患者姓名'sex'患者性别'age'患者年龄'valuelabelssex1'男'2'女'/hisc1'是'0'否'9'无法判断'/nsex1'正常'0'异常'9'未检'/demdx1'有'0'无'/addx0'无'1'危险性'2'可能'3'很可能'/edu0‘文盲’

1‘小学程度’

2‘初中及以上'2022/11/914variablelabelsvalu2022/11/10152.哑变量的设置和引入哑变量,又称指示变量或设计矩阵。有利于检验等级变量各个等级间的变化是否相同。一个k分类的分类变量,可以用k-1个哑变量来表示。2022/11/9152.哑变量的设置和引入哑变量,又称指示2022/11/1016哑变量的设置教育程度X1X2X3文盲:0000小学:1100初中:2010高中:3001教育程度:文盲,小学,初中,高中以上2022/11/916哑变量的设置教育程度X1X2X3文盲:2022/11/1017教育程度X1X2X3文盲:0100小学:1010初中:2001高中:3000以高中作为参照2022/11/917教育程度X1X2X3文盲:0100小学2022/11/1018SPSS提供的方法Indicator:

默认。以第1或最后1类作对照,其他每类与对照比较;Sample:

以第1或最后1类作对照,其他每类与对照比较,但反映平均效应。Difference:

除第1类外各分类与其前各类平均效应比较;Helmert:

除最后1类外各分类与其前各类平均效应比较;Repeated:

除第1类外各分类与其前一类比较;Polynomial:

假设类间距相等,用于数值型变量。Deviation:

以第1或最后1类作对照,其余每类与总效应比较。2022/11/918SPSS提供的方法Indicator:2022/11/10193.自变量的单因素分析了解自变量与因变量的分布检验是否符合建立模型的应用条件偏离应用条件时,进行数据变换各个自变量两组间的比较计数资料计量资料双变量分析2022/11/9193.自变量的单因素分析了解自变量与因变2022/11/10204.变量的筛选变量筛选的原则专业上考虑测量上考虑共线性问题:计算相关矩阵,相关系数0.8-0.9,则选其一。缺失数据少、测量误差低的优先选择经验上考虑双变量分析中有显著性的自变量(P≤0.15)选择那些改变主效应的自变量2022/11/9204.变量的筛选变量筛选的原则2022/11/1021变量的筛选变量筛选的可用方法逐步logistic回归:自动选择有显著性的自变量,不仅用于自变量的剔选,也用于交互作用项是否显著的判断。前进法:逐个引入模型外的变量后退法:放入所有变量,再逐个筛选

理论上看,前进法选择变量的经验公式缺乏总体概念,当用于因素分析时,建议用后退法。当变量间有完全相关性时,后退法无法使用,可用前进法。2022/11/921变量的筛选变量筛选的可用方法2022/11/10225.交互作用的引入交互作用的定义当自变量和因变量的关系随第三个变量的变化而改变时,则存在交互作用交互作用项的引入基于临床实际认为对结果有重要影响基于模型应用条件的分析引入两个自变量的乘积项交互作用的检验交互作用的解释2022/11/9225.交互作用的引入交互作用的定义2022/11/10236.建立多个模型饱和模型自定义的模型从饱和模型中选择自变量再建立模型2022/11/9236.建立多个模型饱和模型2022/11/10247.选择较优的模型模型拟合优度检验AIC(Akaikeinformationcriterion):同一资料的多个模型的比较,此值越小,模型越合适。SC(Schwartzcriterion):同上Score统计量:同上,但不包括截距项。-2logL(似然比检验,OmnibusTest):检验全部自变量的作用是否显著。较为可靠。适用于含连续性变量的情况。模型拟合好,x2值大,P值小。Hosmer-Lemeshow检验:评价估计概率和观察概率接近的程度。适用于含连续性变量的情况。模型好,x2值小,P值大。2022/11/9247.选择较优的模型模型拟合优度检验2022/11/10258.模型应用条件的评价残差分析残差是观察值与估计值之差合理的logistic回归模型也可能得到不理想的残差,这在自变量是二分类变量时更易出现。增加交互作用项可能增加模型的效能2022/11/9258.模型应用条件的评价残差分析2022/11/10269.输出结果的解释模型中各个系数的显著性检验Wald检验:类似于直线回归系数的t检验Waldx2检验:同上似然比检验:自变量不在模型中与在模型中的似然值比较。Score检验2022/11/9269.输出结果的解释模型中各个系数的显著2022/11/1027输出结果的解释回归系数的解释系数的正负值:正(负)系数表示随自变量的增加因变量logit值的增加(减少)。二分类自变量系数为比数比的对数值,由此比数比=eb多分类自变量

以第i类作参照,比较相邻或相隔的两个类别。连续型自变量当自变量改变一个单位时,比数比为eb2022/11/927输出结果的解释回归系数的解释2022/11/1028输出结果的解释模型拟合的优劣自变量与结果变量(因变量)有无关系确认因变量与自变量的编码模型包含的各个自变量的临床意义由模型回归系数计算得到的各个自变量的比数比的临床意义2022/11/928输出结果的解释模型拟合的优劣2022/11/1029输出结果的解释模型的预测结果的评价敏感度、特异度和阳性预测值正确选择预测概率界值,简单地以0.5为界值,但并不是最好的。C指数预测结果与观察结果的一致性的度量。C值越大(最大为1),模型预测结果的能力越强。2022/11/929输出结果的解释模型的预测结果的评价2022/11/1030非条件logistic回归研究对象之间是否发生某事件是独立的。适用于:成组的病例-对照研究无分层的队列研究或横断面调查诊断性试验2022/11/930非条件logistic回归研究对象之间2022/11/1031条件logistic回归研究中有N个配比组,每组中n个病例配m个对照者。这时,各个研究对象发生某事件的概率即为条件概率。适用于配比设计的病例-对照研究精细分层设计的队列研究2022/11/931条件logistic回归研究中有N个配2022/11/1032logistic回归的应用疾病影响因素的研究校正混杂因素疾病预后的估计疾病诊断2022/11/932logistic回归的应用疾病影响因素2022/11/1033疾病影响因素的研究病因学研究病例-对照研究队列研究影响因素的研究横断面调查临床试验2022/11/933疾病影响因素的研究病因学研究2022/11/1034校正混杂因素一般采用Mantel-Haenszel分层分析分层较细或存在格子零频数时,M-H法无法采用。logistic回归分析可综合校正多个混杂因素的影响2022/11/934校正混杂因素一般采用Mantel-Ha2022/11/1035疾病预后的估计logistic回归模型作为一种概率模型,可用于预测某事件发生的概率。logistic回归不要求在因变量正态假设的前提下进行预测。2022/11/935疾病预后的估计logistic回归模型2022/11/1036疾病诊断疾病诊断的判别诊断性试验研究中,敏感度和特异度的估计logistic回归模型综合校正协变量的影响充分利用数据提供的信息可进行95%可信区间的估计2022/11/936疾病诊断疾病诊断的判别2022/11/1037logistic回归的其他问题多分类logistic回归模型因变量为二分类变量因变量为多分类变量多分类logistic回归2022/11/937logistic回归的其他问题多分类l2022/11/1038其他问题研究对象例数的确定研究设计时样本含量的估计经验方法:模型中的每一自变量至少需要出现10个结局。给定例数时自变量太多删除变量合并变量及变量的分类2022/11/938其他问题研究对象例数的确定2022/11/1039其他问题logistic回归的局限性理论上的不足:自变量对疾病的影响是独立的,但实际情况及推导结果不同。模型有不合理性:“乘法模型”与一般希望的“相加模型”相矛盾。最大似然法估计参数的局限样本含量不宜太少:例数大于200例时才可不考虑参数估计的偏性。2022/11/939其他问题logistic回归的局限性2022/11/1040概述1967年TrueltJ,ConnifieldJ和KannelW在《JournalofChronicDisease》上发表了冠心病危险因素的研究,较早将Logistic回归用于医学研究。一般概念一元直线回归多元直线回归2022/11/91概述1967年TrueltJ,Conn2022/11/1041一元直线回归模型

y=a+bx+e多元直线回归模型

y=a+b1x1+b2x2+…+bkxk+e2022/11/92一元直线回归模型2022/11/1042-4.00-2.000.002.004.00X:自变量0.000.250.500.751.00F(y):因变量的logit值如果一定要进行直线回归也可以做出结果,但此时效果不佳。当自变量取一定值时,因变量的预测值可能为负数。2022/11/93-4.00-2.000.002.004.2022/11/1043一般直线回归难以解决的问题医学数据的复杂、多样连续型和离散型数据医学研究中疾病的复杂性一种疾病可能有多种致病因素或与多种危险因素有关疾病转归的影响因素也可能多种多样临床治疗结局的综合性2022/11/94一般直线回归难以解决的问题医学数据的复杂2022/11/1044简单的解决方法固定其他因素,研究有影响的一两个因素;分层分析:按1~2个因素组成的层进行层内分析和综合。统计模型2022/11/95简单的解决方法固定其他因素,研究有影响的2022/11/1045寻找合适的模型进行logit变换logit(p)=ln(——),p为y=1所对应的概率

logit(0.1)=ln(———)=ln(0.1/0.9)p1-p0.11-

0.12022/11/96寻找合适的模型进行logit变换p1-2022/11/1046logit(p)=ln(——)p=0或1时,此式失效

以p=r/n代之

logit(p)=ln[(r+0.5)/(n–r+0.5)]此称经验logistic变换

以Z代上式的logit(p),Z=a+b1x1+b2x2+…+bkxk

称此为logistic回归模型p1-p2022/11/97logit(p)=ln(——)2022/11/1047P=ez/(1+ez)ea+b1x1+b2x2+…+bkxk

1+ea+b1x1+b2x2+…+bkxk此为非条件logistic回归模型应用于成组数据的分析P=2022/11/98P=2022/11/1048自变量取定一些值时,因变量取0、1的概率就是条件概率,对条件概率进行logistic回归,称为条件logistic回归表达式:

eb1x1+b2x2+…+bkxk

1-eb1x1+b2x2+…+bkxk

常用于分析配比的资料P=2022/11/99自变量取定一些值时,因变量取0、1的概率2022/11/1049概述小结logistic回归对因变量的比数的对数值(logit值)建立模型因变量的logit值的改变与多个自变量的加权和呈线性关系因变量呈二项分布2022/11/910概述小结logistic回归对因变量的2022/11/1050分析的一般步骤变量的编码哑变量的设置和引入各个自变量的单因素分析变量的筛选交互作用的引入建立多个模型选择较优的模型模型应用条件的评价输出结果的解释2022/11/911分析的一般步骤变量的编码2022/11/10511.变量的编码变量的编码要易于识别注意编码的等级关系改变分类变量的编码,其分析的意义并不改变。牢记编码使用变量数值标识(valuelabels)记录编码内容2022/11/9121.变量的编码变量的编码要易于识别2022/11/1052变量的编码变量名变量标识变量值值标识

SEX性别1男

2女

EDU教育程度0文盲

1小学

2初中及以上2022/11/913变量的编码变量名变量标识2022/11/1053variablelabelsqnum'问卷序号'rnum'录入序号'pnum'病人编号'hnum'住院号/门诊号'chname'患者中文姓名'drugroup'组别'name'患者姓名'sex'患者性别'age'患者年龄'valuelabelssex1'男'2'女'/hisc1'是'0'否'9'无法判断'/nsex1'正常'0'异常'9'未检'/demdx1'有'0'无'/addx0'无'1'危险性'2'可能'3'很可能'/edu0‘文盲’

1‘小学程度’

2‘初中及以上'2022/11/914variablelabelsvalu2022/11/10542.哑变量的设置和引入哑变量,又称指示变量或设计矩阵。有利于检验等级变量各个等级间的变化是否相同。一个k分类的分类变量,可以用k-1个哑变量来表示。2022/11/9152.哑变量的设置和引入哑变量,又称指示2022/11/1055哑变量的设置教育程度X1X2X3文盲:0000小学:1100初中:2010高中:3001教育程度:文盲,小学,初中,高中以上2022/11/916哑变量的设置教育程度X1X2X3文盲:2022/11/1056教育程度X1X2X3文盲:0100小学:1010初中:2001高中:3000以高中作为参照2022/11/917教育程度X1X2X3文盲:0100小学2022/11/1057SPSS提供的方法Indicator:

默认。以第1或最后1类作对照,其他每类与对照比较;Sample:

以第1或最后1类作对照,其他每类与对照比较,但反映平均效应。Difference:

除第1类外各分类与其前各类平均效应比较;Helmert:

除最后1类外各分类与其前各类平均效应比较;Repeated:

除第1类外各分类与其前一类比较;Polynomial:

假设类间距相等,用于数值型变量。Deviation:

以第1或最后1类作对照,其余每类与总效应比较。2022/11/918SPSS提供的方法Indicator:2022/11/10583.自变量的单因素分析了解自变量与因变量的分布检验是否符合建立模型的应用条件偏离应用条件时,进行数据变换各个自变量两组间的比较计数资料计量资料双变量分析2022/11/9193.自变量的单因素分析了解自变量与因变2022/11/10594.变量的筛选变量筛选的原则专业上考虑测量上考虑共线性问题:计算相关矩阵,相关系数0.8-0.9,则选其一。缺失数据少、测量误差低的优先选择经验上考虑双变量分析中有显著性的自变量(P≤0.15)选择那些改变主效应的自变量2022/11/9204.变量的筛选变量筛选的原则2022/11/1060变量的筛选变量筛选的可用方法逐步logistic回归:自动选择有显著性的自变量,不仅用于自变量的剔选,也用于交互作用项是否显著的判断。前进法:逐个引入模型外的变量后退法:放入所有变量,再逐个筛选

理论上看,前进法选择变量的经验公式缺乏总体概念,当用于因素分析时,建议用后退法。当变量间有完全相关性时,后退法无法使用,可用前进法。2022/11/921变量的筛选变量筛选的可用方法2022/11/10615.交互作用的引入交互作用的定义当自变量和因变量的关系随第三个变量的变化而改变时,则存在交互作用交互作用项的引入基于临床实际认为对结果有重要影响基于模型应用条件的分析引入两个自变量的乘积项交互作用的检验交互作用的解释2022/11/9225.交互作用的引入交互作用的定义2022/11/10626.建立多个模型饱和模型自定义的模型从饱和模型中选择自变量再建立模型2022/11/9236.建立多个模型饱和模型2022/11/10637.选择较优的模型模型拟合优度检验AIC(Akaikeinformationcriterion):同一资料的多个模型的比较,此值越小,模型越合适。SC(Schwartzcriterion):同上Score统计量:同上,但不包括截距项。-2logL(似然比检验,OmnibusTest):检验全部自变量的作用是否显著。较为可靠。适用于含连续性变量的情况。模型拟合好,x2值大,P值小。Hosmer-Lemeshow检验:评价估计概率和观察概率接近的程度。适用于含连续性变量的情况。模型好,x2值小,P值大。2022/11/9247.选择较优的模型模型拟合优度检验2022/11/10648.模型应用条件的评价残差分析残差是观察值与估计值之差合理的logistic回归模型也可能得到不理想的残差,这在自变量是二分类变量时更易出现。增加交互作用项可能增加模型的效能2022/11/9258.模型应用条件的评价残差分析2022/11/10659.输出结果的解释模型中各个系数的显著性检验Wald检验:类似于直线回归系数的t检验Waldx2检验:同上似然比检验:自变量不在模型中与在模型中的似然值比较。Score检验2022/11/9269.输出结果的解释模型中各个系数的显著2022/11/1066输出结果的解释回归系数的解释系数的正负值:正(负)系数表示随自变量的增加因变量logit值的增加(减少)。二分类自变量系数为比数比的对数值,由此比数比=eb多分类自变量

以第i类作参照,比较相邻或相隔的两个类别。连续型自变量当自变量改变一个单位时,比数比为eb2022/11/927输出结果的解释回归系数的解释2022/11/1067输出结果的解释模型拟合的优劣自变量与结果变量(因变量)有无关系确认因变量与自变量的编码模型包含的各个自变量的临床意义由模型回归系数计算得到的各个自变量的比数比的临床意义2022/11/928输出结果的解释模型拟合的优劣2022/11/1068输出结果的解释模型的预测结果的评价敏感度、特异度和阳性预测值正确选择预

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论