调查数据分析二元logistic回归讲课稿_第1页
调查数据分析二元logistic回归讲课稿_第2页
调查数据分析二元logistic回归讲课稿_第3页
调查数据分析二元logistic回归讲课稿_第4页
调查数据分析二元logistic回归讲课稿_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、调查数据分析二元Logistic回归目的:作出以多个自变量估计因变量的目的:作出以多个自变量估计因变量的logisticlogistic回归方程。属于概率型非线性回归。回归方程。属于概率型非线性回归。资料:资料:1. 1. 因变量为反映某现象发生与不发因变量为反映某现象发生与不发生的二值变量;生的二值变量;2. 2. 自变量宜全部或大部自变量宜全部或大部分为分类变量,可有少数数值变量。分分为分类变量,可有少数数值变量。分类变量要数量化。类变量要数量化。用途:研究哪些变量影响因变量,影响用途:研究哪些变量影响因变量,影响程度方向、大小等。程度方向、大小等。LogisticLogistic回归模型

2、回归模型一一. .模型的引进模型的引进二二.Logistic.Logistic回归模型估计回归模型估计三三. Logistic. Logistic回归模型的评价回归模型的评价四四. Logistic. Logistic回归系数的统计推断回归系数的统计推断五五. Logistic. Logistic回归诊断回归诊断回归建模回归建模二元二元LogisticLogistic回归模型回归模型 当虚拟变量作为因变量,虚拟变量有当虚拟变量作为因变量,虚拟变量有两个取值,可使用二元两个取值,可使用二元LogisticLogistic回归。回归。 例:在一次有关公共交通的调查中,例:在一次有关公共交通的调查中

3、,一个调查项目为一个调查项目为“是乘坐公交车上下班,是乘坐公交车上下班,还是骑自行车上下班还是骑自行车上下班”。因变量有两个取。因变量有两个取值,当取值为值,当取值为1 1,乘坐公交车上下班;取值,乘坐公交车上下班;取值为为0 0,骑自行车上下班。,骑自行车上下班。回归建模回归建模二元二元LogisticLogistic回归模型回归模型 回归建模回归建模二元二元LogisticLogistic回归模型回归模型 自变量(解释变量):自变量(解释变量): X1 X1:年龄,取值从:年龄,取值从1818到到5858; X2 X2:月收入(元),取值:月收入(元),取值850850、950950、10

4、001000 、 12001200、1 1300300、 15001500、 18001800、 21002100; X3 X3:性别,取值为:性别,取值为1 1,表示男性;取,表示男性;取值为值为0 0,表示女性。,表示女性。 回归建模回归建模二元二元LogisticLogistic回归模型回归模型研究目的:研究目的:X1X1,X2X2,X3X3等因素对因变量等因素对因变量(使用什么交通方式)有无影响?(使用什么交通方式)有无影响?建立建立Y Y与与X X的多元线性回归模型的多元线性回归模型?3322110XXXY(取值(取值0和和1)回归建模回归建模二元二元LogisticLogistic

5、回归模型回归模型建立建立p(Y=1|X)p(Y=1|X)与与X X的多元线性回归模型的多元线性回归模型?0112233p(1|)YXXXX(取值范围取值范围01) 线性回归模型的基本假定:线性回归模型的基本假定: (1 1)随机误差项具有)随机误差项具有均值均值: :(2 2)随机误差项具有)随机误差项具有同方差:同方差:(3 3)随机误差项在不同样本点之间是独立的,)随机误差项在不同样本点之间是独立的,不存不存在序列相关在序列相关:(4 4)随机误差项与解释变量(自变量)之间不相关随机误差项与解释变量(自变量)之间不相关:(5 5)随机误差项服从均值、同方差的)随机误差项服从均值、同方差的正

6、态分布正态分布 回归建模回归建模二元二元LogisticLogistic回归模型回归模型1 1、发生概率、发生概率p p的大小取值范围的大小取值范围0,10,1,p p与自变与自变量的关系难以用多元线性模型来描述。量的关系难以用多元线性模型来描述。2 2、当、当p p接近接近0 0或者或者1 1时,时,p p值的微小变化用普值的微小变化用普通的方法难以发现和处理好。通的方法难以发现和处理好。总:能不能找到一个总:能不能找到一个p p的严格单调函数的严格单调函数Q Q,就会比较方便;同时要求就会比较方便;同时要求Q Q对在对在p=0p=0或或p=1p=1的附近的微小变化很敏感。的附近的微小变化很

7、敏感。回归建模回归建模二元二元LogisticLogistic回归模型回归模型ln1,pQppLogitQ 变换取值范围为回归建模回归建模二元二元LogisticLogistic回归模型回归模型Logit(P)P回归建模回归建模二元二元LogisticLogistic回归模型回归模型 建立建立logitlogit(p p)与)与X X的多元线性回归模型的多元线性回归模型: : 0112233(1|)ln()1(1|)p YXXXXp YX(取值范围取值范围-+)ppln()p(itlog1优势比优势比(odds)机会比机会比(odds)logisticlogistic回归模型回归模型 Logi

8、sticLogistic回归模型:回归模型:kkkkXXXXXXeep22110221101)(kk2211011XXXepkk22110plogitXXX)(LogisticLogistic回归模型估计:极大似然估计回归模型估计:极大似然估计LogisticLogistic回归模型估计的假设条件与回归模型估计的假设条件与OLSOLS的不同的不同 (1 1)logisticlogistic回归的因变量是二分类变量回归的因变量是二分类变量 (2 2)logisticlogistic回归的因变量与自变量之间的关系是非线回归的因变量与自变量之间的关系是非线性的性的 (3 3)logisticlogi

9、stic回归中无相同分布的假设回归中无相同分布的假设 (4 4)logisticlogistic回归没有关于自变量回归没有关于自变量“分布分布”的假设(离的假设(离散,连续,虚拟)散,连续,虚拟)LogisticLogistic回归模型估计:极大似然估计回归模型估计:极大似然估计多元回归采用最小二乘估计,使因变量的多元回归采用最小二乘估计,使因变量的真实值和预测值差异值的平方和最小化;真实值和预测值差异值的平方和最小化;LogisticLogistic变换的非线性特征使得在估计模型的变换的非线性特征使得在估计模型的时候采用极大似然估计的迭代方法,找到时候采用极大似然估计的迭代方法,找到系数的系

10、数的“最可能最可能”的估计,在计算整个模型的估计,在计算整个模型拟合度时,采用似然值。拟合度时,采用似然值。LogisticLogistic回归模型估计:极大似然估计回归模型估计:极大似然估计最小二乘估计(最小二乘估计(OLSOLS):): 根据线性回归模型,选择参数估计值,使得模型根据线性回归模型,选择参数估计值,使得模型的估计值与真值的离差平方和最小的估计值与真值的离差平方和最小。极大似然估计极大似然估计( MLEMLE ): 选择使得似然函数最大的参数估计值。选择使得似然函数最大的参数估计值。由于各项观测相互独立,其联合分布为:由于各项观测相互独立,其联合分布为:LogisticLogi

11、stic回归模型估计:极大似然估计回归模型估计:极大似然估计 111iinyyiiiLpp121,101iinyyiiiiny yyP Yyppy假设 个样本观测值得到一个观察值的概率为其中 取值为 或者求似然函数的极大值求似然函数的极大值nixiiiyniiiiniyiyiniyiyiiiiiiiexy)p()pp()p()p(p)p(pL1101111101ln11ln11ln1ln)(lnxpp101lnxe-p10111LogisticLogistic回归模型估计:极大似然估计回归模型估计:极大似然估计分别对参数求偏导,然后令它等于分别对参数求偏导,然后令它等于0 0:求得求得 的估计

12、值的估计值 ,从而得到,从而得到 (p pi i的极的极大似然估计大似然估计) ),这个值是在给定,这个值是在给定x xi i的条件下的条件下y yi i=1=1的条的条件概率的估计,它代表了件概率的估计,它代表了LogisticLogistic回归模型的拟合回归模型的拟合值。值。01)(ln101010nixxiiieeyL01)(ln111010inixxixeeyLii10,10,ip LogisticLogistic回归模型估计:极大似然估计回归模型估计:极大似然估计Logistic Logistic 回归系数的解释回归系数的解释因此每个因此每个 代表当保持其他变量不变时,每代表当保持

13、其他变量不变时,每单位量的增加对对数发生比的影响单位量的增加对对数发生比的影响发生比率发生比率若发生比率若发生比率11,则说明该变量增大时,则说明该变量增大时,则则Y=1Y=1事件发生的比例也就越高。事件发生的比例也就越高。mi0kki1iplnx1Pkkkeodds2odds1ORLogisticLogistic回归模型估计:极大似然估计回归模型估计:极大似然估计LogisticLogistic回归模型的评价回归模型的评价n 1 1 拟合优度检验(拟合优度检验(Goodness of fitGoodness of fit)1.1 1.1 皮尔逊检验皮尔逊检验1.2 Hosmer-Lemesh

14、ow1.2 Hosmer-Lemeshow检验检验n 2 Logistic2 Logistic回归模型的预测准确性回归模型的预测准确性Cox & Snell R SquareCox & Snell R Square指标和指标和Nagelkerke R Nagelkerke R SquareSquare指标指标拟合优度检验拟合优度检验LogisticLogistic回归模型的拟合优度检验是通过比较模型预测回归模型的拟合优度检验是通过比较模型预测的与实际观测的事件发生与不发生的频数有无差别来进的与实际观测的事件发生与不发生的频数有无差别来进行检验。如果预测的值与实际观测的值越接近,

15、说明模行检验。如果预测的值与实际观测的值越接近,说明模型的拟合效果越好。型的拟合效果越好。模型的拟合优度检验方法有偏差检验(模型的拟合优度检验方法有偏差检验(DevianceDeviance)、皮)、皮尔逊(尔逊(pearsonpearson)检验、统计量)检验、统计量(Homser-Lemeshow),(Homser-Lemeshow),分分别计算统计量别计算统计量X X2 2D D、X X2 2 P P、X X2 2HLHL值。统计量值越小,对应值。统计量值越小,对应的概率越大。原假设的概率越大。原假设H0H0:模型的拟合效果好。:模型的拟合效果好。模型拟合优度信息指标有:模型拟合优度信息

16、指标有:-2lnL-2lnL、AICAIC、SCSC。这。这3 3个指个指标越小表示模型拟合的越好。标越小表示模型拟合的越好。类类R2R2是预测准确性的粗略近似,在自是预测准确性的粗略近似,在自变量与因变量完全无关时,类变量与因变量完全无关时,类R2R2值趋值趋近于近于0 0;当和模型能够完美预测时,类;当和模型能够完美预测时,类R2R2趋近于趋近于1.1.2.1 Logistic2.1 Logistic回归模型的预测准确性回归模型的预测准确性2 Logistic2 Logistic回归模型的预测准确性回归模型的预测准确性 Cox & Snell R SquareCox & S

17、nell R Square指标指标 其中其中 与与 表示零假设模型与所设模型各自的似然值,表示零假设模型与所设模型各自的似然值,n n为样本容量为样本容量。n2S02LL1R0LSL2.1 Logistic2.1 Logistic回归模型的预测准确性回归模型的预测准确性然而对于然而对于logisticlogistic回归,上面定义的回归,上面定义的R R最大值最大值却小于却小于1 1NagelkerkeNagelkerke提出一种提出一种logisticlogistic回归的调整确定系数回归的调整确定系数n202maxL1R)(2max2adj2R RRLogisticLogistic回归模型

18、的统计推断回归模型的统计推断LogisticLogistic回归方程的检验(对模型回归系数回归方程的检验(对模型回归系数整体检验):似然比检验(整体检验):似然比检验( likehood ratio likehood ratio test test )、比分检验()、比分检验(score testscore test)和)和WaldWald检验检验(wald testwald test)LogisticLogistic回归系数的显著性检验:回归系数的显著性检验:WaldWald检验检验LogisticLogistic回归参数的的置信区间回归参数的的置信区间 LogisticLogistic回归

19、系数的置信区间回归系数的置信区间 发生比率的置信区间发生比率的置信区间1 Logistic1 Logistic回归方程的显著性检验回归方程的显著性检验检验模型中所有自变量整体来看是否与所研究事件的对数优势比存在线性关系,也即方程是否成立。检验的方法有似然比检验( likehood ratio test )、比分检验(score test)和Wald检验(wald test)。三种方法中,似然比检验最可靠,比分检验一般与它相一致,但两者均要求较大的计算量;而Wald检验未考虑各因素间的综合作用,在因素间有共线性时结果不如其它两者可靠。 似然比检验(似然比检验( likehood ratio te

20、st likehood ratio test )通过比较包含与不包含某一个或几个待检验观察因素通过比较包含与不包含某一个或几个待检验观察因素的两个模型的对数似然函数变化来进行,其统计量为的两个模型的对数似然函数变化来进行,其统计量为G G (又称(又称DevianceDeviance)。)。 G=-2(ln Lp-ln Lk)G=-2(ln Lp-ln Lk) 样本量较大时,样本量较大时,G G近似服从自由度为待检验因素个数的近似服从自由度为待检验因素个数的 分布。分布。似然比检验似然比检验当当G G大于临界值时,接受大于临界值时,接受H1,H1,拒绝无效假拒绝无效假设,认为从整体上看适合作设

21、,认为从整体上看适合作LogisticLogistic回归分回归分析,回归方程成立。析,回归方程成立。LogisticLogistic回归系数的显著性检验回归系数的显著性检验为了确定哪些自变量能进入方程,还为了确定哪些自变量能进入方程,还需要对每个自变量的回归系数进行假需要对每个自变量的回归系数进行假设检验,判断其对模型是否有贡献。设检验,判断其对模型是否有贡献。检验方法常用检验方法常用Wald X2Wald X2检验。检验。 Logistic Logistic回归系数的显著性检验回归系数的显著性检验Wald检验 该检验是基于在大样本情况下值服从正态分布的性质。 其中 为 的标准误。原假设:

22、该自变量下的回归系数=0) 1 (SEW22KKKKSEZKKSE Logistic Logistic回归参数的的置信区间回归参数的的置信区间LogisticLogistic回归系数回归系数 的置信区间为:的置信区间为:发生比率的置信区间发生比率的置信区间kk2/kSEZk2/kk2/kSEZSEZe,e二分类二分类LogisticLogistic回归回归 method method中文名称中文名称剔除依据剔除依据EnterEnter全部进入全部进入Forward:condiForward:conditionaltional向前逐步向前逐步条件参数估计似然比条件参数估计似然比Forward:L

23、RForward:LR向前逐步向前逐步最大偏似然估计似然比最大偏似然估计似然比Forward:WaldForward:Wald向前逐步向前逐步WaldWald统计量统计量Backward:condBackward:conditionalitional向后逐步向后逐步条件参数估计似然比条件参数估计似然比Backward:LRBackward:LR向后逐步向后逐步最大偏似然估计似然比最大偏似然估计似然比Backward:WaldBackward:Wald向后逐步向后逐步WaldWald统计量统计量ln2.6292.2240.1021exp2.6292.2240.102exp2.6292.2240.

24、102ippp 性别年龄性别年龄1性别年龄回归建模回归建模二元二元LogisticLogistic回归模型回归模型LogisticLogistic回归可直接预测事件发生的概率,回归可直接预测事件发生的概率,若预测概率大于若预测概率大于0.50.5,则预测发生(,则预测发生(Y=1Y=1););若预测概率小于若预测概率小于0.50.5,则不发生(,则不发生(Y=0Y=0)。)。LogisticLogistic回归模型的诊断回归模型的诊断多重共线性的诊断多重共线性的诊断异常值的诊断异常值的诊断多重共线性的诊断多重共线性的诊断相关系数矩阵相关系数矩阵容忍度容忍度方差膨胀因子方差膨胀因子由于只关心自变

25、量之间的关系,所以可以由于只关心自变量之间的关系,所以可以通过线性回归得到容忍度指标。通过线性回归得到容忍度指标。2xkR1TOLTOL1VIF 异常值的诊断(一)异常值的诊断(一)标准化残差(标准化残差(PearsonPearson残差)残差) yj为第为第j个协变量组合的阳性(取值为个协变量组合的阳性(取值为1)观)观察值个数察值个数 nj为第为第j个协变量组合的观察单位数个协变量组合的观察单位数 Pj为第为第j个协变量组合的概率估计值个协变量组合的概率估计值 一般认为残差值超过一般认为残差值超过2则可能为异常点则可能为异常点)p1 (pnpnyejjjjjjj异常值的诊断(二)异常值的诊

26、断(二)Deviance残差残差 其中其中sgn表示此式的正负号与(表示此式的正负号与(yj-njpj)的相同的相同 一般认为残差值超过一般认为残差值超过2则可能为异常点则可能为异常点jjjjjjjjjjjjjip1nynlnynpnylny2pnysgnd例题:高中毕业生继续进入大学学习的可能性的影响因素例题:高中毕业生继续进入大学学习的可能性的影响因素 如果一个高中毕业生升入了大学,则如果一个高中毕业生升入了大学,则y=1y=1;如果没有升入;如果没有升入大学,则大学,则y=0y=0。P P为高中毕业后升入大学的概率。为高中毕业后升入大学的概率。 自变量为性别自变量为性别GenderGen

27、der(1 1为男性,为男性,0 0为女性),高中类型为女性),高中类型KeyschKeysch(1 1为重点中学、为重点中学、0 0为普通中学),高中成绩为普通中学),高中成绩MeangrMeangr。前两个为虚拟变量,前两个为虚拟变量, MeangrMeangr为连续变量。为连续变量。 LogisticLogistic回归模型为:回归模型为:MeangrKeyschGender)p1p(ln3210数据数据r0.425Meangh0.913Keyscr0.866Gende-1.757)p1p(ln最后的回归结果为:最后的回归结果为:分组数据的二元分组数据的二元LogisticLogisti

28、c回归模型回归模型例:在一次住房展销会上,与房地产例:在一次住房展销会上,与房地产商签订初步购房意向书的共有商签订初步购房意向书的共有n=313n=313名名顾客。在随后的顾客。在随后的3 3个月的时间,只有部个月的时间,只有部分顾客确实购买了房屋。购买房屋的分顾客确实购买了房屋。购买房屋的顾客记为顾客记为1 1,没有购买房屋的顾客记为,没有购买房屋的顾客记为0 0。以顾客的年家庭收入(万元)为自。以顾客的年家庭收入(万元)为自变量变量x x,建立,建立LogisticLogistic回归模型。回归模型。分组数据的二元分组数据的二元LogisticLogistic回归模型回归模型分组数据的二元分组数据的二元LogisticLogistic回归模型回归模型分组:分组

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论