




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第八章第八章 Logistic回归模型 许多社会科学的观察都只分类而不是连续的 比如,政治学中经常研究的是否选举某候选人 又如,经济学研究中所涉及的是否销售或购买 某种商品、是否签订个合同等等这种选择 量度通常分为两类,即“是与“否” 在社会学和人口研究中,人们的社会行为与事 件的发生如犯罪、逃学、迁移、结婚、离婚、 患病等等都可以按照二分类变量来测量。 线性回归模型在定量分析中也许是最流行的统计 分析方法,然而在许多情况下,线性回归会受到限 制.比如,当因变量是一个分类变量,不是一个连续 变量时,线性回归就不适用,严重违反假设条件. 分类变量分析通常采用对数线性模型分类变量分析通常采用对数线
2、性模型(Log-linear model), 而因变量为二分变量时而因变量为二分变量时, 对数线性模型就变对数线性模型就变 成成Logistic回归模型回归模型. logistic回归是一个回归是一个概率型模型概率型模型,因此,因此 可以利用它预测某事件发生的概率。可以利用它预测某事件发生的概率。 例如在临床上可以根据患者的一些检例如在临床上可以根据患者的一些检 查指标,判断患某种疾病的概率有多查指标,判断患某种疾病的概率有多 大。大。 目的:目的:作出以多个自变量(危险因素)估计作出以多个自变量(危险因素)估计 应变量(应变量(结果因素)结果因素)的的logistic回归方程。回归方程。 属
3、于概率型非线性回归。属于概率型非线性回归。 资料:资料:1. 应变量为反映某现象发生与不发生的应变量为反映某现象发生与不发生的 二值变量;二值变量;2. 自变量宜全部或大部分为分类自变量宜全部或大部分为分类 变量,可有少数数值变量。分类变量要数量变量,可有少数数值变量。分类变量要数量 化。化。 用途:用途:研究某种疾病或现象发生和多个危险因研究某种疾病或现象发生和多个危险因 素(或保护因子)的数量关系。素(或保护因子)的数量关系。 用用 检验(或检验(或u检验)的检验)的局限性:局限性: 1.只能研究只能研究1个危险因素;个危险因素; 2.只能得出定性结论。只能得出定性结论。 2 1.1.成组
4、(非条件)成组(非条件)logistic回归方程。回归方程。 2.2.配对(条件)配对(条件)logistic回归方程。回归方程。 第八章 第一节第一节 机动 目录 上页 下页 返回 结束 logistic回归模型 一、两分类因变量与一、两分类因变量与LogisticLogistic回归模型回归模型 事件发生的条件概率P(yi=1|xi)与xi之间的非线性关 系通常是单调函数, 假设有一个理论上存在的连续 反应变量yi代表事件发生的可能性,其值域为负无 穷至正无穷当该变量的值跨越一个临界点c(比如c o),使导致事件发生于是有: 当yi*0时, yi=1 在其它情况, yi=0 这里,yi是实
5、际观察到的反应变量, yi1表示事件发生 yi0表示事件未发生 如果假设在反应变量yi* 和自变量xi之间 存在一种线性关系,即 如果假设在反应变量yi* 和自变量xi之间存在一种线 性关系,即 这里,yi是实际观察到的反应变量, yi1 表示事件发生 yi0 表示事件未发生 iii xy* 由上面的式子得到: 0)| 1( iiii xPxyP )( ii xP 通常,假设公式中误差项i有logistic分布或标准正 态分布由于logistic分布和标准正态分布都是对 称的,得到: )| 1( iiii xPxyP i xF 如果如果i为为logistic分布,就得到分布,就得到logist
6、ic模型模型; 如果如果i为标准正态分布,就得到为标准正态分布,就得到probit模型模型. 其中F为累积分布函数. 当当i为为logistic分布时分布时: )| 1( iiii xPxyP i e 1 1 上式可以变换为: )( 1 1 )|1( i x ii e xyP 记条件概率 iii pxyP)| 1( 得logistic回归模型回归模型 )( 1 1 i x i e p pi是xi的非线性函数,可以转换为线性函数 定义不发生事件的条件概率为: i i x x i e e p 1 11 i x e 1 1 那么事件发生概率与不发生概率之比为: i x i i e p p 1 这个比
7、率成为事件的这个比率成为事件的发生比发生比(the odds of the experiencing an event ),简称简称odds,对,对odds取对数,取对数, 可以得到可以得到对数发生比对数发生比: i i i x p p 1 ln 上面的式子由于做了对数变换,被称作上面的式子由于做了对数变换,被称作logit形式,形式, 也称作也称作y的的logit,即即logit(y). i i i x p p 1 ln 当有k个自变量时,相应的logistic 回归模型将有如 下形式: k k ikk i i x p p 1 1 ln 其中,pi=P(yi=1|x1i,x2i,xki)为在
8、给定系列自变量x1, x2,xki的值时事件发生概率。 第八章 第二节第二节 机动 目录 上页 下页 返回 结束 Logistic回归模型估计 最大似然估计最大似然估计(Maximum Likelihood Estimation) 最大似然估计法既可以用于线性模型,也可以用于 更为复杂的非线性估计 方法方法: 首先要建立似然函数首先要建立似然函数(Likelihood function) 将观测数据的概率表示为未知模型的参将观测数据的概率表示为未知模型的参 数数 选择能够使这一函数达到最大的参数估选择能够使这一函数达到最大的参数估 计计 一、建立似然函数一、建立似然函数 假设有由N个案例构成的
9、总体、Yl,YN,从中随 机抽取n个案例作为样本,观测值标注为Yl, , yn, 设piP(yi=1|xi)为给定xi的条件下得到结果 yi1的条件概率。 而在同样条件下得到结果yi0的条件概率为1-pi, 于是得到一个观测值的概率为: ii y i y i pp 1 )1 ( 其中yi=0或1 ,联合分布可以表示为各个边际分布 的乘积: n i y i y i ii ppL 1 1 )1 ()( 似然函数取对数为了求最大的估计参数, 得到回归模 型的对数似然函数: n i y i y i ii ppL 1 1 )1 (ln)(ln n i iiii pypy 1 )1ln()1 ()ln(
10、n i i i i i p p p y 1 )1ln() 1 ln( n i x x ii i i e e xy 1 1 1ln)( n i x ii i exy 1 1ln)( 分别对,求偏导,令它等于0,可以得到似然方 程组: n i i x x i n i x x i x e e y L e e y L i i i i 1 1 1 )(ln 1 )(ln 由于方程是和的非线性函数,求解是通过计算机 迭代计算完成的. 得到和的最大似然估计值 从上面的两个公式的得到的,的值估计就是最大似 然估计。按照惯例,用表示估计值,p表示条件概率 的估计值,这个值是在给定x i的条件下yi=1的条件概
11、率的估计。它代表了logistic模型的拟合值或预测值, 令偏导函数等于0时, n i i n i i py 11 这意味着观测值之和等于预测概率之和,这一性质 在评价模型拟和情况时非常有用。 二、模型估计的假设条件二、模型估计的假设条件 1.数据必须来自于随机样本 2.因变量Yi被假设为K个自变量Xki的函数 3.Xi对多重共线性敏感,自变量之间存在的多重共线 性会导致标准误的膨胀。 4.因变量是分类变量因变量是分类变量 5.因变量和各自变量之间的关系是非线性的因变量和各自变量之间的关系是非线性的 6.在在OLS回归中要假设方差不变,类似的假设在回归中要假设方差不变,类似的假设在 logis
12、tic中不需要中不需要 7. 没有关于自变量分布的假设条件,自变量可以是没有关于自变量分布的假设条件,自变量可以是 连续变量,也可以使离散变量,还可以是虚拟变连续变量,也可以使离散变量,还可以是虚拟变 量,并且不需要假设它们之间存在多元正态分布量,并且不需要假设它们之间存在多元正态分布 三、最大似然估计的性质三、最大似然估计的性质 logistic的最大似然估计与OLS估计的性质几乎完全 相同,即logistic的最大似然估计有: 一致性,一致性, 渐进有效性渐进有效性 渐进正态性渐进正态性 四、模型估计的样本规模四、模型估计的样本规模 最大似然估计具有的一致性、有效性和正态性都是 一些很好的
13、统计件质,然而保持这些性质的条件为 样本规模要很大 但是,这并不等于说最大似然估计在小样本时统计 性质就定不好简单而言,我们通常并不知道在 小样本时的统计性质究竞如何。 更实际的问题是,样本在多大时就可以应用最大似 然化计,或多大样本可以保证统计检验得到显著的 结果这个问题现无明确的答案许多研究者在没 有其他方法可供选择的条件下,便无论对大样本还 是对小样本都用最大似然估计方法 根据一些资深研究人员的看法,最大似然估计的大 样本性质维持得较好,即使在中等规模样本(比如 M100)的条件下也能够接受。Long (1997)提到, 在样本规模小于100时使用最大似然估计风险较 大样本大于500时就
14、显得比较充分了。 第八章 第三节第三节 机动 目录 上页 下页 返回 结束 Logistic回归模型的评价 模型估计完成以后,我们需要评价模型如何有效地 描述反应金旦及模型匹配配观测数据的程度如果模 型的预测值能够与对应的观测值有较高的一致性, 就认为这一模型拟和数据否则,将不能接受这一 模型,就需要对模型重新设置。 一、拟和优度一、拟和优度 检验预测值与观测值之间差别检验预测值与观测值之间差别 在开始讨论具体拟合优度统计指标之前,先介绍一 下协变类型的概念, 这一概念又称为子总体. 协变类 型描述的是模型中协变量不同值的特定组合. 如果模型中只包括两个分类变量,比如性别和重点大 学, 出于性
15、别和重点大学都是二分类变量,因此模型 中只有4种(即2x 2)可能的协变类型组合,即协变类型或 子总体为4个。 在固定样本规模n情况下,协变类型越多,每个类型 (即每个子总体)中的案例数nj就越少在每个协变类型 中,预测的事件发生频数表示为nj*,其中是第j种协 变类型中事件发生的模型预测概率。 与此类似,我们也可以计算每种协变类型中事件末 发生的频数. 二、皮尔逊二、皮尔逊 2 皮尔逊 可以用通过比较模型预测的和观测的事 件发生和不发生的频数检验模型成立的假设. 2 将观测频数和预测频数代入标准计算公式, J jj jj E EO 1 2 J是协变类型的种类数目,Oj和Ej分别为第j类协变类
16、型 中的观测频数和预测频数 卡方值很小,意味着预测值与观测值之间没有显著差别 卡方值很大,意味着预测值与观测值之间有显著差别, 拟合不佳 三、偏差三、偏差 观测值和预测值的比较还可以根据对数似然函数表 示,以作为模型所估计得最大似然值,它概括了样 本数据由这一模型所拟和的程度,由于这一统计量 不能独立于样本规模,因此不能根据它的值估计模 型的拟和优度 对于同一套数据还必须有一个基准模型作为比较所 设模型拟和优度的标准。一种基准模型为保和模型, 它的最大似然值为 ,通过比较和 ,便可以估 计所设模型代表数据的充分程度。 f L f L 通常采用-2乘以设定模型和饱和模型的最大似然值的 对数: )
17、 ln (ln2 ln2 fs f s LL L L D D统计量被称为偏差,D值越小,拟和优度越好。 四、四、Hosmer-Lemeshow拟合优度指标拟合优度指标 当自变量数量增加时,尤其是连续自变量纳入模型 之后,协变类型的数量便会很大,于是许多协变类 型只有很少的观测案例结果,偏差和皮尔逊卡方 值不再适用于估计拟合优度Hosmer-Lemeshow研 究了一种对logistic模型拟和优度的检验方法。 Hosmer-Lemeshow指标(记为HL)是一种类似于皮尔 逊2统计量的指标.它可以从观测频数和预测频数 构成的2*G交互表中求得其统计公式如下: G gggg ggg ppn pn
18、y HL 1 )1 ( 其中G代表分组数,且G10 ,ng为第n组中的案例数; yg为第g组事件的观测数量;为第g组的预测事件概 率;ng 为事件的预测数,实际上它等于第g组的预 测概率之和 五、信息测量类指标五、信息测量类指标 另一种估计logistic回归模型的拟合优度的指标是信 息测量类的指标这些指标也可以用来比较不同模 型的优劣其中一种著名的信息测量指标是Aknike信 息标准。它的定义如下: n SKLL AIC f )(2 2 其中K为模型中自变量的个数;S是反应变量类别总 数减1(对于logistic回归有S=2-1),n是观测数量, 是所设模型的估计最大似然值的自然对数, 其
19、值较大表示拟合较好. f LL 其他条件不变的情况下,较小的AIC值表示拟合模型 较好.AIC指标还常常应用于比较不同样本的模型,或 应用于比较非嵌套关系的模型,而这些模型的比较不 能采用似然比(L.R.)检验. 六、六、Logistic回归模型的预测准确性回归模型的预测准确性类类R2指标指标 线性回归的R2有一种十分诱人的解释特性,即它描 述因变量的变动中模型的自变量所“解释”的百分 比但是,在logistic回归分析中却没有相应的统计 指标 不过,在模型似然值对数的基础上,可以为logistic 同归模型计算某种类似R2的指标,表示如下: 0 0 2 ) 2(2 2 LL LLLL LRI
20、 S 与R2类似,LRI在0到1之间。当自变量与因变量完全不相关 时(即所有的回归系数为0),LRI=0。当模型的拟合程度提 高时,LRI值增加,拟合得越好,LRI越接近1。 七、模型卡方统计七、模型卡方统计 线性回归及AN0VA模型中常用自由度分别为K和 n-K-1的F检验(来检验“除常数项外的所有系数都等 于0”的无关假设。 logistic回归中服务于同一目的的检验却是似然比检 验, 它可以用来检验logistic回归模型是否统计件显 著,似然比统计量近似地服从于卡方分布。 实际上,模型卡方与多元线性回归中的F检验十分类 似. 模型卡方作为一种卡方统计量来检验可以提供关于 零假设(即除常
21、数项外的所有系数都等于0的假设, 通常以公式表示为: H0: B1=B2=Bk=0 第八章 第四节第四节 机动 目录 上页 下页 返回 结束 Logistic回归系数的解释 当logistic回归模型能够较好地拟合数据时,便可以 对模型的系数进行解释了类似于线性同归系数, logistic回归系数也可以被解释为对应自变量一个单 位的变化所导致的因变量上的变化. logistic回归模型的系数如果是正值且统计显著,意 味着在控制其他自变量的条件下对数发生比随对 应自变量值增加而增加; 相反,一个显著的负系数代表对数发生比随对应自 变量的增加而减少; 如果系数的统计性不显著,说明对应自变量的作用
22、在统计上与0无差异. 由于Logistic回归的因变量不是常规的连续变量,而 是logit(即对数发生比,那么对应每个自变量的估计 系数便是对该自变量对logit的作用. 尽管这种解直截 了当,但是其实十分含糊因为logit或对数发生比 没有较直观的含义. 通常,较方便的是将logit进行转换后再进行解释, 而不是直接解释系数本身. 如果我们将回归模型等 式两侧取自然指数,于是左边便成为发生比(p (1p)由于发生比是日常生活中的常用概念, 比如 关于高校录取或投票选举结果等成功与失败的比 率,因此这种解释便变得容易理解 一、发生比和发生比率一、发生比和发生比率 发生比是事件的发生频数与不发生
23、频数之间的 比,即: odds=(事件发生频数事件发生频数)/(事件不发生频数事件不发生频数) 由于发生比被表示为一个比值,因此其值域的上限 无边界,即可以在所有非负值域取值当比值大于1 时,事件更为可能发生. 比如,一个事件发生的概率为0.6那么事件不发生 的概率即0.4,于是发生比便等于0.6/0.41.5 这意味 着事件发生的可能性是不发生的可能性的1.5倍,或 者说我们期望看到对应每一次事件不发生有1.5次事 件发生. 如果发生比odd=0.25,说明事件不发生可能性是发 生可能性的4倍,或者说可以期望对应每4次事件不 发生有1次事件发生. 假设研究事件为“高中毕业后考入大学“(简标为
24、“是 )否事件便是“未能考入大学”(简际为“否”)共 有1000名高中毕业生,其中550名男生、450名女 生因此,考入大学的发生比为“是”的频数除以“否” 的频数 假如分别有259名男生和76名女生考入了大学 (同时有291名男生和374名女生落榜) 男生和女生的(是否)发生比分别为: oddsm=259/291=0.8900; oddsf=76/374=0.2032 而男生与女生的发生比率(OR)为: ORoddsm/oddsj0.8900/0.20324.38 2221 1211 22 11 / / )1/( )1/( nn nn pp pp OR 二、按发生比解释系数二、按发生比解释系
25、数 对logistic回归系数进行解释时,很难具体把握以对 数单位测量的作用幅度,所以通常将以logit单位推 导的作用转换为对应的发生比率. 例如有如下模型: 其中变量p为高中毕业后进人大学的概率;变量 GENDER表示性别( 1为男性。0为女性);变量 KFYSCH表示高中类型(1为重点中学,0为其他中 学);变量MEANGR代表高中平均成绩,GENDER KEYSCH都是虚拟变量,而MEANGR是连续变量。 MEANGRKEYSCHGENDER 1 ln 321 p p 因为理解发生比比理解对数发生比更容易,logistic 回归模型可以按事件发生比的形式改写为 : MEANGR)KEY
26、SCHGENDERexp( 1 odds 321 p p MEANGRKEYSCHGENDER 321 eeee 连续自变量的发生比率连续自变量的发生比率 在上面的例子中,自变量MEANER的logistic回归系 数为=0.4245,因此MEANER增加一个单位将使发生 比变化。 e0.4245 = 1.529 在社会科学研究中,人们对一些连续变量中一个 单位值的变化通常不感兴趣比如,年龄增加1岁 或收入增加1元的作用十分微小,并不重要而一 个离散的变化,如年龄增加5岁或收入增加100元 的变化也许更有意义 为了估计连续变量的调整发生比率,通常先要设定 两个要比较的变量值比方用a 和b标志这
27、两个代表连 续自变量Xk水平的值,那么这个变量从a变到b时, 其logit的变化为: kabvsxx abodds kk )()( )( 调整发生比率为: k ab kk odds ebvsxxeAOR )()ln( 其中, 代表在控制其他变量条件下,xk变化一个 单位时导致logit(对数发生比)的变化估计 k 在我们的例子中,计算当MEANGR比总平均值高5 分时调整发生比率是多少,应用上面的式子可以得 到: AOR=exp(5-0)0.4245=8.352 分类自变量的发生比率分类自变量的发生比率 当分类自变量多于两个类别时,就要建立组虚拟 变量来代表类型的归属性质如果个分类变量包括 m
28、个类别,那么可以产生m个相应的虚拟变量但是, 建模需要的虚拟变量的数目应等于分类总数减l 这就 是说,如果变量包括m个类别,那只需要建立m-1个 虚拟变量即可 不能同时在模型中包括m个虚拟变量,因为其中的 每一个虚拟变量都是其余虚拟变量的线性组合,这 会违反回归的基本假设条件。 从建模中省略的那个类别称作参照类比如,学校的 类型是个名义变量,如果我们定义它有三个类别: 重点中学,城市普通中学,农村普通中学我们将 在模型中设置两个虚拟变量SCH1(表示重点中学)和 SCH2(表示城市普通中学) 模型中没有包括表示农村 普通中学的虚拟变量,所以农村普通中学这个类别 就作为参照类. 分类变量的哪一类
29、别应为参照类是随意的,在省略 农村普通中学虚拟变量的情况下当一个学生属重点 中学时,虚拟变量SCH1=1,否则,SCHl=0;当属 城市普通中学时,虚拟变量SCH2=1,否则,SCH2=0 这时,模型如下: MEANGRSCH2SCH1GENDER 1 ln 4321 p p 如同在线性回归中一样,系数代表重点中学与农村 普通中学(参照类)在因变量上的差别所以 312 )ln( schvssch odds 为重点中学对农村普通中学的发生比率在同样 的基础上, 2 e 为城市普通中学对农村普通小学的发生比率。 3 e 标准化系数标准化系数 通常在线性回归模型中的自变量是以不同尺度测量 的比如。收
30、入的单位是元,年龄的单位是岁,长 度单位可用厘米、分米、或米,如此等等,于是, 某个自变量中的一个单位的变化并不等价于另一个 自变量上一个单位的变化如果我们要比较因变量与 不同自变量之间关系的强度,通常采用标准化回归 系数出于同样的原因,在logistic回归分析中也可 以考虑使用标准化系数。 对logistic回归来说 Logistic 回归的标准化系数标准化系数为: 22 it g lo 2 )(it g lo /Rss y it s it s s R Rs xx g lo 22 g lo / * 第八章 第五节第五节 机动 目录 上页 下页 返回 结束 Logistic回归系数的 统计推
31、断 如果模型满足假设条件,可以由样本模型的结 果对总体参数进行统汁推断 统计推断有两个含义统计推断有两个含义: 假设检验和参数估计假设检验和参数估计 1.假设检验涉及的一系列工作最后导致接受或拒绝 总体参数所作假设陈述的结论; 2.参数估计便是估计出总体参数的值(包括点估计和 置信区间估计) 一、一、Logistic回归系数的显著性检验回归系数的显著性检验 在logistic回归模型中自变量xk对logit作用的显著性 检验这涉及到一个自变量是否与反应变量显著相 关的统计假设,以及如何建立和检验这一假设并做 出结论。 假设零假设H0为: o(表示自变量对事件发生可能 性无影响作用) 如果零假设
32、被拒绝、说明事件发生 可能性依赖于xk的变化。 k Wald检验检验 选择显著性水平以后,就可以计算检验统计量了, 可以采用Z统计量: k SEz k / 其中 为的 标准误 k SE k Wald统计量的一般形式统计量的一般形式: Q=r 其中为待检验的模型参数向量, Q为常数矩阵(各元 素值为0或1), r为常数矩阵(元素为0) W=Q-rQ Var()Q-1Q-r 2( Q 的行数的行数) 常用统计软件中,对logistic回归系数进行显著性检 验时通常使用wald检验,其公式为: 决策的规则为: 若若W在在=0.05水平的水平的23.841,拒绝,拒绝H0 若若W在在=0.01水平的水
33、平的26.635,拒绝,拒绝H0 若若W在在=0.001水平的水平的210.828,拒绝,拒绝H0 2 )/ ( k SEW k 似然比检验似然比检验 统计学已经证明,在大样本时,如果两个模型之间 有嵌套关系那么两个模型之间的对数似然比乘以- 2的结果(简标为-2LL)之差近似服从卡方分布。 这一检验统计量称为似然比(1ikelihood ratio 简标为 L.R. ), 在0+之间. 其中为待检验的模型参数向量, Q为常数矩阵(各元 素值为0或1), r为常数矩阵(元素为0) L.R. =(-2LLm2)-(-2LLm1)=-2ln(Lm2/Lm1) 1 1 Z P e 若令若令: mm
34、XXXZ 22110 01122 ln= 1 mm P XXX P 01122 1 1 exp () mm P XXX 回回 归归 模模 型型 其中 0 为常数项, m , 21 为回归系数。 概率概率P:01,logitP:。 取值范围取值范围 logitP logistic函数的图形函数的图形 0 0.5 1 -4-3-2-101234 1 0.5 P Z :, 0, : 0, 0.5, 1P Z 模模 型型 参参 数数 的的 意意 义义 01122 ln=logit 1 mm P XXXP P 常数项常数项 表示暴露剂量为表示暴露剂量为0时个体发病时个体发病 与不发病概率之比的自然对数。
35、与不发病概率之比的自然对数。 回归系数回归系数 表示自变量表示自变量 改变一个单位时改变一个单位时logitP 的改变量。的改变量。 0 ), 2 , 1(mj j j X 流行病学衡量危险因素作用大小的流行病学衡量危险因素作用大小的比数比例比数比例指标。指标。 计算公式为:计算公式为: 11 00 /(1) /(1) j PP OR PP 优势比优势比OR(odds ratio) 11 10 00 0100 10 /(1) lnlnlogitlogit /(1) ()() () j mm jttjtt tjtj j PP ORPP PP cXcX cc 对对比比某某一一危危险险因因素素两两个
36、个不不同同暴暴露露水水平平 1 cX j 与与 0 cX j 的的发发病病 情情况况(假假定定其其它它因因素素的的水水平平相相同同) ,其其优优势势比比的的自自然然对对数数为为: 与与 logisticP 的关系的关系: 0, 1 exp, 0, 1 0, 1 j jjjj j OR OROR OR 无作用 危险因 保 子 护因子 则有 10 1 , 1, 0 j ccX 暴 非 若 暴露 露 由 于 j OR值 与 模 型 中的 常 数项 0 无 关 , 0 在 危 险 因素 分 析中 通 常视 其 为无 效 参数 。 11 00 /(1) 1, /(1) PP PORRR PP 当则有 1
37、0 exp() jj ORcc即 二、二、logisticlogistic回归模型的参数估计回归模型的参数估计 1 1 (1) ii n YY ii i LPP 1 lnln(1) ln(1) n iiii i LYPYP m bbbb, 210 参数估计参数估计 原理:最大似然原理:最大似然( likelihood )估计估计 )(exp 01 ccbRO jj )exp( 2/ j bj Sub 可反映某一因素两个不同水平(c1,c0)的优势比。 2. 优势比估计优势比估计 例例: 下表是一个研究吸烟、饮酒与食道癌关系的病下表是一个研究吸烟、饮酒与食道癌关系的病 例对照资料,试作例对照资料
38、,试作logistic回归分析。回归分析。 1 2 1 0 1 0 1 0 X X Y 吸 烟 不 吸 烟 饮 酒 不 饮 酒 病 例 对 照 确确 定定 各各 变变 量量 编编 码码 分 层 吸 烟 饮 酒 观 察 例 数 阳 性 数 阴 性 数 g X1 X2 ng dg ng dg 1 0 0 199 63 136 2 0 1 170 63 107 3 1 0 101 44 57 4 1 1 416 265 151 表表 吸烟与食道癌关系的病例对照调查资料吸烟与食道癌关系的病例对照调查资料 经logistic回归计算后得: 2 2 exp(1.96)exp(0.5261 1.96 0.1
39、572)(1.24,2.30) b bS 2 OR的95可信区间: 饮酒与不饮酒的优势比 11 expexp0.8856=2.42ORb 1 10.05/2 expexp(0.8856 1.96 0.1500)(1.81,3.25) b buS OR1的95可信区间 11 expexp0.8856=2.42ORb吸烟与不吸烟的优势比: 三、三、logisticlogistic回归模型的假设检验回归模型的假设检验 Wald 检验 将各参数的估计值 j b与 0 比较,而 用它的标准误 j b S作为参照,检验统计量为 2 , 1 jj jj bb bb u SS 2 或 2 2 1 2 2 01
40、11 02212 0.8856 34.86 0.1500 0.5261 11.20 0 :0, :0, 0.05, :0, :0, .157 0 05, 2 . HH HH 2 值均大于 3.84,说明食道癌与吸烟、饮酒有关系,结论同前。 2. Wald检验检验 1.1.似然比检验似然比检验 方法方法:前进法、后退法和逐步法。 检验统计量:检验统计量:不是 F 统计量,而是似然比统计量、 Wald 统计量和计分统计量之一。 四、变量筛选四、变量筛选 例: 为了探讨冠心病发生的有关危险因素,对为了探讨冠心病发生的有关危险因素,对26例例 冠心病病人和冠心病病人和28例对照者进行病例例对照者进行病
41、例 对照研究,各因对照研究,各因 素的说明及资料见下两。试用素的说明及资料见下两。试用logistic 逐步回归分析方逐步回归分析方 法筛选危险因素。法筛选危险因素。)15. 0,10. 0( 出入 表冠心病表冠心病8 8个可能的危险因素与赋值个可能的危险因素与赋值 序号 X1 X2 X3 X4 X5 X6 X7 X8 Y 1 3 1 0 1 0 0 1 1 0 2 2 0 1 1 0 0 1 0 0 3 2 1 0 1 0 0 1 0 0 4 2 0 0 1 0 0 1 0 0 5 3 0 0 1 0 1 1 1 0 6 3 0 1 1 0 0 2 1 0 7 2 0 1 0 0 0 1 0
42、 0 8 3 0 1 1 1 0 1 0 0 9 2 0 0 0 0 0 1 1 0 10 1 0 0 1 0 0 1 0 0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 2 0 1 1 0 1 2 1 1 52 2 1 1 1 0 0 2 1 1 53 2 1 0 1 0 0 1 1 1 54 3 1 1 0 1 0 3 1 1 表表 冠心病危险因素的病例冠心病危险因素的病例 对照调查资料对照调查资料 表方程中的自变量及有关参数的估计值表方程中的自变量及有关参数的估计值 选入 变量 回归系 数 b 标准误 b
43、S Wald 2 P 值 标准回归 系数 b OR 常数项 -4.705 1.543 9.30 0.0023 - - X1 0.924 0.477 3.76 0.0525 0.401 2.52 X5 1.496 0.744 4.04 0.0443 0.406 4.46 X6 3.136 1.249 6.30 0.0121 0.703 23.00 X8 1.947 0.847 5.29 0.0215 0.523 7.01 第八章 第二节第二节 机动 目录 上页 下页 返回 结束 条件logistic回归 一、原理一、原理 配对资料。最常用的是每组中有一个病例和若干 个对照,即1: M配对研究(一般) 表表 1: M 条件条件logistic回归数据的格式回归数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 12家乡的喜与忧 第二课时 教学设计-2023-2024学年道德与法治四年级下册统编版
- Module4 单元整体(教学设计)-2024-2025学年外研版(三起)英语五年级上册
- 9《知法守法依法维护》(第2课时)教学设计-2024-2025学年道德与法治六年级上册统编版
- 20《金字塔:不可思议的金字塔》教学设计-2023-2024学年统编版语文五年级下册
- 19 只有一个地球 教学设计-2024-2025学年语文六年级上册统编版
- 造瘘袋更换的护理
- 诊断业务趋势
- 2023六年级英语下册 Unit 2 Good habits Period 1教学设计 译林牛津版
- 讯飞智文导出
- 2023九年级物理下册 第九章 家庭用电9.2家庭电路第1课时 认识家庭电路教学设计 (新版)教科版
- 《 人脸识别技术的隐私威胁研究》范文
- 心理健康促进学习通超星期末考试答案章节答案2024年
- 驴用乳酸菌制剂生产技术规程
- 公司章程与内部管理规则制度
- 20以内加减法口算练习题带括号填空135
- 百位数加减法练习题连加
- 地下综合管廊工程机电安装工程施工方案
- 高速公路路网数字底座研究与建设
- 药学专业岗位分析报告范文
- 七年级道法上册 第一单元 少年有梦 单元测试卷(人教版 2024年秋)
- DL-T586-2008电力设备监造技术导则
评论
0/150
提交评论