




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、logistic回归分析 logistic回归为概率型非线性回归模型,是研究分类观察结果(y)与一些影响因素(x)之间关系的一种多变量分析方法。1.多元线性回归方法要求 Y 的取值为连续性随机变量2.多元线性回归方程要求Y与X间关系为线性关系3.多元线性回归结果不能回答“发生与否”logistic回归方法补充多元线性回归的不足 值得注意的是,因变量并不仅仅局限于“是”或“否”这样的二分变量。 比如,美国总统的选举问题。假定有三个政党民主党、共和党和独立党派,因变量就是三分变量。此外,还可能存在五分变量或者多分因变量的问题。 在这种情况下,我们运用相应的模型来预测每种事件发生的概率,因此,含有定
2、性变量作为因变量的模型通常被成为概率模型。 因为通常情况下,我们考虑被解释变量为二元变量的模型,这种模型也因此被称为二元选择模型或者离散选择模型,如果为多元,则称之为多元选择模型。 离散选择模型起源于Fechner于1860年所进行的动物条件二元反射研究,1962年Warner首次将这一方法应用与经济研究领域。Mcfadden因为在离散选择模型领域里的突出贡献而获得了2000年的诺贝尔经济学奖。例如,公共交通和私人交通的选择问题 对某种商品的购买决定问题离散选择模型在实际生活中的应用 大学生对职业的选择问题一、基本概念 1.变量的取值 logistic回归要求应变量(Y)取值为分类变量(两分类
3、或多个分类) 自变量(Xi)称为危险因素或暴露因素,可为连续变量、等级变量、分类变量。 可有m个自变量X1, X2, Xm 2.两值因变量的logistic回归模型方程一个自变量与Y关系的回归模型其中:记家庭拥有自有住房的条件概率为P(Yi=1/Xi),则不拥有自己住房的概率就是1- P(Yi=1/Xi) :条件期望:那么:例如,我们对一个是否拥有自有住房的案例进行回归,结果如下:回归拟合的很好,经济学意义也非常明确,收入Xi每增加1单位(1万元人民币),平均拥有住房的概率将增加10.56%:但问题是,当收入10万元,或者更少的情况下,平均拥有住房的概率为负值,而当收入为20万元,或者更多的情
4、况下,平均拥有住房的概率大于1,因此,我们必须考虑相应的方法对这一问题进行处理。对同样的问题,我们采用如下的模型形式:那么:从而:这样的事件发生比Li,不仅对Xi是线性的,对参数也是线性的,而且发生概率将永远落在0和1之间, Li就被称为logit,像*这样的模型也就被称为logit模型。参数的含义是什么?现在定义:当X变化一个单位时:因此有:二、logit模型的估计 为了估计事件发生的概率之比Li,除了需要知道解释变量的数据之外,还得知道Li的数值。此时,该如何处理? 依然以是否拥有自有住房为例进行说明,不同的收入水平下有很多个家庭N,在这一收入水平下有n个家庭拥有自己的住房,其余N-n个家
5、庭没有自己的住房,那么我们就可以用事件发生的相对频率作为事件发生概率的估计值Pi ,并利用这个估计值得到Li 。事实上,当样本容量足够大的时候,这样的频率将是概率的良好估计。对模型* 估计之后,如何计算指定收入水平下拥有住房的概率?1.一般情况下的估计回归结果如下:这就意味着,当收入增加1万元时,根据该样本回归的结果认为,拥有自有住房的发生比将增加8.2%2.解释变量同样为定性变量的情况Xi=1时:Xi=0时:如果定义:那么就有: 危险因素 Y x= 1 x= 0发病=1 30(a) 10( b) 不发病=0 70(c) 90(d) a+c b+d 危险因素 Y x= 1 x= 0发病=1 p
6、1 p0 不发病=0 1-p1 1-p0 有暴露因素人群中发病的比例 反映了在其他变量固定后,X=1与X=0相比发生Y事件的对数优势比。 回归系数1与OR X与Y的关联 1 =0,OR=1 无关 1 0,OR1 有关,危险因素 1 0,OR1, 有关,保护因子例:抽烟与否与患食道癌的概率Y(患食道癌)X(抽烟习惯)发生的频数1115520119310128400164其中,Y=0表示没有罹患食道癌,Y=1则表示患了食道癌; X=0表示没有抽烟习惯,X=1则表示有抽烟的习惯回归的结果如下:表示什么含义? 这意味着在其他条件都相同的情况下,抽烟人士患食道癌的可能性是不抽烟人士的3.7倍还要多。3.
7、多个解释变量的情况 在很多情况下,解释变量既有定性变量,又有连续变量,而且连续变量并非分组变量,很难计算出解释变量取不同值时事件发生的频率,在这种情况下,又该如何处理?例如:新的教学方法对大一新生成绩的影响如果学生期末成绩为A,则记为被解释变量PJ=1,如果期末成绩为B或者C或者更低,则记为被解释变量PJ=0。考虑使用的解释变量为:学生的平均学分GPA 学生在期初时的成绩PRES 是否使用新的教学方法(1,是;0,否)建立如下logit模型:回归结果如下: 这意味着在其他条件都相同的情况下,或者说控制了其他影响学生期末成绩的情况下,接受新教学方法的学生得到A的可能性是没有接受新教学方法学生的6
8、倍多。 需要注意的是,在logit模型中,模型的拟合优度衡量的是正确预测次数的概率,这样的拟合优度对于回归而言是次要的,回归系数的期望符号以及他们在统计上的显著性才是首要的。此外,这种logit估计是针对大样本的,对于小样本并不适用。probit回归分析 probit模型也是一种广义的线性模型。服从正态分布。 当因变量是名义变量时,Logit和Probit并没有本质的区别,一般情况下可以换用。区别在于采用的分布函数不同,Logit模型假设随机变量服从逻辑概率分布,而Probit模型则假设随机变量服从正态分布。这两种分布函数的区别在于逻辑概率分布函数的尾巴比正态分布粗一些。但当因变量是序次变量时
9、,回归时只能用有序Probit模型。有序Probit可以看作是Probit的扩展一、使用群组数据的Probit估计 假定在是否拥有自有住房的回归中,第i个家庭对是否拥有住房的决定,依赖于一种不可观测的效用指数Ii,而后者又按照某种方式取决于解释变量,比如说取决于收入:而且指数Ii的值越大,家庭拥有住房的概率就越高。 其中Xi表示第i个家庭的收入水平。 Xi仍然具有分组的特征 拥有自有住房的决定如何与Ii发生关系呢? 一个合理的假定就是:对每一个家庭而言,都存在一个门槛值Ii *,当Ii * Ii时,该家庭拥有自己住房,否则不拥有,因此有: 其中F()是标准正态分布函数, Ii是效用函数。 因为
10、Pi=F(Ii), F()为单调递增函数,因此,Ii=F-1(Pi),其中F-1()是正态CDF的反函数。累积分布函数P(Yi=1/Xi)表示给定解释变量X的值时,拥有自有住房这一事件出现的概率,如下图所示:对于模型: 估计步骤如下:从分组数据得到根据得到的 ,从标准正态CDF中得到Ii=F-1(Pi)用得到的Ii作为模型(1)中的因变量,用OLS对模型(1)进行回归,得到相应的参数。对是否拥有自有住房的例子,回归结果如下:Xi的系数0.0487代表什么含义?对Probit模型中系数的解释:考察X的单位变动对Y=1这一事件发生概率的影响,也就是求:其中, 是在 处取值的标准正态概率密度函数。就
11、本例而言,当Xi=5万元时,标准正态密度函数的值为: 查标准正态分布表可知:-0.7478处的标准正态密度约为0.3011,将该值乘以斜率系数的估计值0.0487,得到0.0147。 这意味着,从5万元开始,如果收入上升1万元,一个家庭购买住宅的可能性将上升约1.47%。例:贷款决策模型 某商业银行从历史贷款客户中随机抽取78个样本,根据设计的指标体系分别计算它们的“商业信用支持度”(CC)和“市场竞争地位等级”(CM)。目的是研究客户的贷款结果JG与CC、CM之间的关系,并为正确贷款决策提供支持。cmcccmcccmcc结果表示:当CC和CM已知时,代入方程,可以计算贷款成功的概率JGF。例
12、如,将表中第19个样本:CC=15、CM=1代入方程右边,括号内的值为0.1326552;查标准正态分布表,对应于0.1326552的累积正态分布为0.5517;于是,JG的预测值JGF=10.5517=0.4483,即对应于该客户,贷款成功的概率为0.4483。二、非群组数据的Probit估计仍然以前面新的教学方法与学生成绩之间的关系为例:如果学生期末成绩为A,则记为被解释变量PJ=1,如果期末成绩为B或者C或者更低,则记为被解释变量PJ=0。考虑使用的解释变量为:学生的平均学分GPA 学生在期初时的成绩PRES 是否使用新的教学方法(1,是;0,否)用Logit回归的结果如下:用Probi
13、t回归的结果如下:由于要考察新的教学方法TAN对学生成绩的影响,现在求概率函数对TAN的导数:带入各解释变量的均值,得到:查标准正态分布表可知:-0.6212处的标准正态密度约为0.3292,将该值乘以斜率系数的估计值1.1281,得到0.3713,也就是说,接受新的教学方法的学生得到A的可能性比未接受新教学方法的学生高37.13%。三、Ordered-Probit估计 当被解释变量为有序的分类变量时,或者,分类的个数超过两个的时候,我们需要用Probit模型去进行估计,具有这样特征的Probit模型就是Ordered-Probit模型。比如,因变量为: 与一般的Probit模型一样,我们需要
14、设定一个状态变量或者效用函数,使之具有如下特征:或者写成向量的形式:ui为标准正态分布的随机误差项:被解释变量和效用函数之间的关系定义如下(以3种分类为例):因为 ,这种关系也可以写成:ui的概率密度为:与一般的Probit模型一样,解释变量X的变化对事件发生概率的边际影响为:很明显:P(Yi=0)的导数与系数符号相反;P(Yi=2)的导数与系数符号相同;P(Yi=1)的导数的符号则不确定,它取决于密度函数 和 的大小比较。例:居民的幸福感与居民收入差距之间的关系本例中幸福感( HAPPINESS) 在数字1 到 5 之间变化,具体表达式如下:HAPPINESS = 1, 如果 HAPPINE
15、SS C1 非常不幸福HAPPINESS = 2, 如果 C1HAPPINESS C2 不幸福HAPPINESS = 3, 如果 C2HAPPINESS C3 一般HAPPINESS = 4, 如果 C3HAPPINESS C4 幸福HAPPINESS = 5, 如果 C4 HAPPINESS 非常幸福居民收入差距用基尼系数来衡量样本的基本情况:变量之间的相关性: 可见,不管样本来自于城市还是农村,其基尼系数与居民之间的幸福感都呈现负相关关系,基尼系数越大,居民的幸福感越低 。因此,随着收入差距的拉大,居民幸福感就会降低, 但农村居民基尼系数与幸福感之间的负相关关系并不显著。解释变量主要有以下
16、四类:个体特征变量( personal):包括性别( sex)、 年龄(age)、 宗教信仰( religion) 、工作状况( job) 、受教育程度( education) 和婚姻状况( marital);收入变量( income):用样本家庭全年总收入( family income) 衡量;收入差距变量( inequality),用基尼系数( gini) 衡量;满意度变量(satisfaction),包括家庭经济状况满意度, 家庭关系满意度 人际关系满意度 个人健康状况满意度 住房状况满意度 社区满意度以及工作满意度, 分别用 satisfaction1 7 表示。具体的模型设定如下:h
17、appiness= f (personal , income , inequality , satisfaction)其中收入变量取其对数值回归的结果如下:略tobit回归分析 Tobit模型是Probit模型的一个扩展,最先由诺贝尔经济学家詹姆斯托宾提出。 例:对人们购买住房的情况进行分析时,不仅想知道样本个体是否购买了住房,还想知道其花在购买住房上的金额。此时就存在这样一个问题:如果一个消费者没有购买住房,那么我们就无法得到他花在购买住房上的具体金额。 Tobit模型就是针对这种情况而言的:对统计调查取得的数据进行研究的时候,被解释变量不能被完全观察的情形,我们称之为数据出现了截取或者断尾
18、的现象。一、截取数据 截取和断尾的共同之处在于:样本因为某种原因,不能够代表真实的总体,因此简单的OLS估计将会得到不一致的结果,如果借助极大似然估计方法,就必须对总体分布施加更强的假设,才能够从有偏的样本中得到一致的参数估计结果。 当被解释变量y的取值被限定在一个特定的范围内时,就出现了数据截取问题。此时,我们观察到y在一个特定的范围之内并不等于其真实值y*,通常情况下,y在这一特定范围之内会等于某一常数。1.定义 数据截取分为从上截取和从下截取,又称为右截取和左截取。 在从上截取的情形中,当真实值y*大于某一值c时,我们就无法观测到真实的y* ,而是观察到y=c,因此从上截取更详细的表达式
19、为: 相应的,在从下截取的情形中,当真实值y*小于某一值c时,我们就无法观测到真实的y* ,而是观察到y=c,因此从下截取更详细的表达式为:2.产生截取数据的原因角点解的存在:在消费者或者厂商问题中,会面临预算约束或者资源约束,当这些约束条件成立时,就会产生角点解。 例如:在耐用消费品的选择中,如果最优消费数量y*小于1,消费者就会选择不购买,此时我们就只能观测到y=0; 在电影或者球赛的门票销售中,由于受到场地的限制,当电影或比赛备受欢迎,门票的需求量超过了座位数c时,我们也只能观测到y=c。数据分类:在对数据进行分类整理时,我们常常会把低于某个下限或者高于某个上限的数值用下限或者上限来代替
20、,从而产生数据截取的问题。比较典型的例子就是:对收入调查数据进行处理时,对于高收入群体,调查中就经常采用类似“高于2万元”这样的选项,从而使得这一样本个体的具体收入情况无法得知,也就产生了从上截取的现象。二、断尾数据 当被解释变量y的取值在某一范围内时,我们无法获得有关的样本信息,此时就出现了数据断尾的问题。数据断尾实际上是一个样本缺失的问题,由于缺失的样本在某个截取点之外,因此就称之为“断尾”。1.定义 由此可见,数据“断尾”情况下,数据的缺失不是随机的,它具有系统性,从而导致所得到的的样本并不具有对总体的代表性,我们可以这样表示从上“断尾”的情形:2.产生断尾数据的原因 样本选择是产生断尾
21、数据的主要原因。所谓样本选择是指所观察到的样本由于在抽样的过程中,或多或少受到因变量取值的影响,而因此成为非随机样本。被调查对象的“自选择”行为:具有某种特定行为或特征的被调查对象很容易进入到样本中来,而其他的被调查对象则容易被排除在外。 例如:对工资与工作时间关系的研究时,容易出现“自选择”的情况。在劳动力市场中,我们所观察到的工资和工作时间都是从就业群体中获得的,而那些失业者能够接受的保留工资和意愿工作时间则无法观察到。抽样方案设计不当:如果抽样方案设计不当,也会产生数据断尾的情形,在这种情况下,因为抽样方案设计不当而导致的样本选择是可以通过一定的途径得到修正的。比如:在对人们购物习惯(网购)进行调查时,如果对抽样方案进行设计时,确定通过网络调查来获得样本数据
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 浙江省湖州市2025年初中学业水平调研测评语文试题卷(含答案)
- 环境监测新技术与应用考核试卷
- 橡胶制品行业发展趋势与前沿技术考核试卷
- 毛皮服装生产过程中的生产数据统计分析与决策考核试卷
- 心肺复苏知识培训 2
- 慢阻肺病诊断、管理和预防全球创议(2025版)解读
- 北京市顺义区第一中学2024−2025学年高二下学期3月月考 数学试卷【含答案】
- 部编二年级语文查字典练习题
- 温州市达标名校2025年初三下学期百日冲刺模拟考试英语试题含答案
- 四川省绵阳第五中学2025年全国初三冲刺考(三)全国I卷生物试题试卷含解析
- 民法典知识竞赛课件
- 绞车工考试题及答案
- 2025年度“基层法治建设年”活动实施方案
- 2025年升降机司机作业证理论考试笔试试题(200题)附答案
- 2025年网络安全培训考试题库(网络安全专题)实战试题
- 行政管理本科毕业论文-地方政府智慧政府建设问题与对策研究-以G市为例
- DBJ51T 108-2018 四川省建筑岩土工程测量标准
- 2025年国家保密基本知识考试题库及答案
- 2024年四川省成都市武侯区中考化学二模试卷附解析
- 《大学生创新创业基础》全套教学课件
- CB/T 3784-1996木材产品物资分类与代码
评论
0/150
提交评论