《传播学研究方法》第四章 logistic回归2_第1页
《传播学研究方法》第四章 logistic回归2_第2页
《传播学研究方法》第四章 logistic回归2_第3页
《传播学研究方法》第四章 logistic回归2_第4页
《传播学研究方法》第四章 logistic回归2_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第四章 Logistic 回归第一节 从多元线性回归到logistic回归第二节 logistic回归模型的建立第三节 logistic回归结果的解释第四节 logistic回归模型的检验第五节 研究实例参见郭志刚主编,社会统计分析方法SPSS软件应用第六章,中国人民大学出版社1999 若我们所研究的因变量为分类变量时,线性回归的假设条件往往不能成立。第一节 从多元线性回归到logistic回归为什么需要应用logistic回归回顾:线性回归的主要条件1、间距变量2、自变量之间不能完全相关 3、关于误差项:(1)e与任何一个自变量无关,且均值为0(2)对应不同自变量xi的各ei有不变的方差(3

2、)在各个观测自变量点xi上的误差ei之间无关(4)ei正态分布OLS求解前提高斯-马尔可夫假设统计推论的前提一、违反假定因变量为分类变量时,出现的主要问题:以 abx为例对任一 ,y只能等于0或者1,当y0时, 0当y1时, 1Ei方差出现系统变动OLS估计不是最佳二、线性概率模型(LPM)及其问题1、实际情况y为0、1,但线性回归方程结果不是如此2、与实际情况不同(等速与变速)自变量对因变量的作用是线性的将模型因变量理解为概率在为只限于0和1之间的概率选用模型时,LPM不适合第二节 logistic回归模型的建立要考虑的情况:1、自变量的影响两端小而中间大2、概率模型(因变量总是取0或1)选

3、择曲线模型更合适(Logistic回归)一、logistic函数及其性质又称增长函数Robert B. Pearl and Lowell J. Reed 果蝇口研究 1920t:时间 P:时间t上的人口数 L:P的最大极限值 a和b 分别为有关参数exp(x)用来计算以e为底的x次方值 补充:有关数学知识定义形如 的函数叫幂函数,其中为常数 指数函数, (a0,且a1),注意与幂函数的区别对数函数y (a0,且a1)指数函数 与对数函数y 互为反函数(2)指数函数与对数函数的图象和性质如表1-2 一般对数的底可以为任意不等于1的正数。对数的底如果为超越数e(e=2.718),我们就把这样的对数

4、叫作自然对数,用符号“ln”表示。“1”是对数“logarithm”的第一个字母,“n”是自然“nature”的第一个字母,把两个字母合在一起,就表示自然对数。ln1=0 ln100=4.605170“lg”表示以10为底的对数logistic概率函数此式子突出了两个有用参数:b以及a/b由图示可知:1、b表示自变量的作用方向 (b为正数,logsitic函数随x值增加而单调增加;反之亦然)2、-a/b是曲线的中心,在这一点上概率函数整好取值0.5。 函数以拐点(-a/b,0.5)为中心对称,在这一点上曲线的变化率最大,而距离这一点越远,曲线变化率越小,在趋近函数的上限或下限时,曲线的变化率接

5、近于零3、b的绝对值越大,曲线在中段上升或下降的速度越快(越陡峭)。 这意味着主要变化部分被压缩在x轴上对应拐点的附近范围内。以上只在logistic函数中引入了一个自变量,可以扩展为多元分析为表达便利,将多元线性组合 以 表示 ,再令z ,于是,logistic函数可以表示为:如果将上式分子分母同乘以exp(z),有:这也是logistic函数的常用表达式之一对上式继续转换:p1+exp(z)=exp(z)p+p*exp(z)=exp(z)p=exp(z) -p*exp(z)p=(1 p)exp(z)二、logistic回归模型因变量的不同形式最后对等式两边取对数,得到了概率的函数与自变量的

6、线性表达式可见:事件概率以自变量的非线性表达可以转换为事件概率的函数用自变量来线性表达1、事件发生的概率 pp (y1)2、事件不发生的概率 1p1p (y1)p (y0)3、发生比(odds) 4、对数发生比(log odds)ln相对风险P的罗吉特转换三、有关概念例:分析被调查妇女为文盲的可能性与其他因素之间的关系因变量 WENMNG:本人为文盲取值1,其他为0自变量民族:汉族为1,少数民族为0居住地:农村居民为1,城市为0婚姻状况:未婚为1,其他为0年龄:定距变量或分年龄组的定序变量(1549岁)自变量回归参数 b显著性(p值)发生比率 eb汉族1.079.1932.942未婚-.457

7、.103.633农村居民2.296.00059.9361519岁(参照组)2024岁.665.0481.9442529岁.948.0142.5813034岁1.261.0013.5303539岁2.006.00057.4334044岁2.916.000518.4654549岁3.196.000524.443常数项-6.041.0005.002一、问题多元线性回归的表达方式(回顾)logistic回归中,xi与logit p有线性关系,但与p却不是线性关系xi变化对p的作用难以确切表达通过logtistic回归系数可以得到各自变量对事件概率作用的笼统认识,但无法一般性地表示确切的变化关系报告xi

8、对logit p的作用第三节 logistic回归系数的意义二、以发生比的指数表达式来解释回归系数发生比具有实际意义,表示一种相对风险如果我们要分析x2变化一个单位对于发生比的影响幅度,可以用(x21)表示,并将其代入上式表示新的发生比值 三、发生比率(相对风险比)把两个发生比集中在一起,有:我们称这一变化前后的两个发生比之比为发生比率 (odds ratio),或称相对风险比(relative risk ratio):可测量自变量一个单位的增加给原来的发生比所带来的变化请注意准确表达:参照前例:农村调查对象与具有相同特征(民族、婚姻状况、年龄组)的城市妇女相比更有可能是文盲,农村的发生比是城

9、市的10倍左右。未婚调查对象与具有相同特征(民族、城乡、年龄组)的已婚者相比更不可能是文盲,未婚者的发生比是已婚者的三分之二左右。二、Logistic 回归的系数标准化标准化的一、对模型的总体评价第四节 logistic回归模型的检验Logistic回归方程求解参数是采用最大似然估计方法,因此其回归方程的整体检验通过似然函数值(likelihood)进行似然函数:一种概率假设拟合模型为真实情况时,能够观察到这一特定样本的概率,取值在0、1之间L或lnL都可以作为判断模型优劣的指标,但其统计性质不明确补充2:最大似然法最早是遗传学家以及统计学家罗纳德费舍尔在1912年至1922年间开始使用的。似

10、然是對likelihood 的一種較為貼近文言文的翻譯,似然用現代的中文來說即可能性。故而,若稱之為最大可能性估計則更加通俗易懂。最大似然法的基本思想:假定一个样本取自某已知分布形式的总体,但是我们并不知道总体的参数。我们可以“任取”一些值把它们“当成”是总体的参数,然后计算在这些情况下,从该总体中抽取到已知样本的可能性有多大。我们最终要选择的参数就是使这种可能性是最大的参数估计,并称为最大似然估计。评价标准:1、-2 Log Likelihood (2LL值) 2LL 越接近 0 则模拟效果越好;值越大,意味着回归方程的似然值越小,标志模型的拟合程度越差模型总体的卡方检验:Model Chi-square至少一个df自变量个数2、虚拟确定系数Cox & Snell 其中 L(0) 是只有常数项的模型统计量, L(B) 当前模型的统计量。Nagelkerke R23、交互分类表与预测正确率报告分析结果时一般选用预测正确率(如有必要还应当加以解释)卡方检验或虚拟确定系数(说明是哪一个)二、回归系数的显著性检验 Wald statisticWald存在的问题:当回归系数很大时,难拒绝虚无假设解决方案:比较两个模型lnL,差距大,说明变量影响大总结1、以logistic函数(增长函数)为依据,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论