版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
管理定量分析长安大学:刘兰剑第10章其他多变量技术有些时候我们遇到中介变量的问题,即自变量对因变量的影响不是直接的,而是通过中介变量对因变量形成影响。例如
,货币政策主要有三个层次的变量:工具变量、中介变量、目标变量。在货币政策的传导过程中,中央银行通过直接控制工具变量来操纵中介变量,达到间接影响目标变量的目的。这类问题需要进行因果分析。当因变量的取值只有2-3个类别时,例如考试通过或没通过,对某个意见同意或不同意,随意迟到现象减少或没减少等等,需要用到probit分析技术。logistic回归在流行病学中应用较多,比较常用的情形是探索某疾病的危险因素,根据危险因素预测某疾病发生的概率,等等。例如,想探讨胃癌发生的危险因素,可以选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群肯定有不同的体征和生活方式等。这里的因变量就是是否胃癌,即“是”或“否”,为两分类变量,自变量就可以包括很多了,例如年龄、性别、饮食习惯、幽门螺杆菌感染等。自变量既可以是连续的,也可以是分类的。通过logistic回归分析,就可以大致了解到底哪些因素是胃癌的危险因素。研究“事件发生的方式和相关因素”,也就是研究个人特征变量、环境变量或制度性变量在变化的时空中是如何影响一些事件的发生概率的。事件史分析是研究事件及其起因的最理想的方法。10.1因果模型案例设被解释变量为城乡居民储蓄存款年末余额(亿元),影响城乡居民储蓄存款年末余额的主要因素包括:农村居民家庭人均纯收入(元)、农村居民家庭平均每人消费支出(元)、城镇居民家庭人均可支配收入(元)、城镇居民家庭平均每人消费支出(元)和居民消费价格指数,居民消费价格指数以1978年为基期。根据1986-2005年的统计数据(如表10-3所示)进行路径分析。分析农村居民家庭人均纯收入(A)和城镇居民家庭人均可支配收入(C)这两个变量不但对城乡居民储蓄存款年末余额(Y)有直接作用,而且还分别通过农村居民家庭人均消费支出(B)和城镇居民家庭人均消费支出(D)对城乡居民储蓄存款年末余额(Y)有间接作用。农村居民家庭人均消费支出(B)和城镇居民家庭人均消费支出(D)对城乡居民储蓄存款年末余额(Y)不仅有直接作用,而且这两个变量通过居民消费价格指数(E)有间接作用。10.2probit分析Probit是处理因变量是分类较少的定序变量情况下的一种分析技术,主要是为了处理小样本情况下的二分因变量而开发的。它也可以被用于处理因变量是三个或更多定序分类的情况。但如果因变量有五个或更多的定序类别,就应采用普通的回归技术了。多元回归使用二分因变量的问题1.有些预测是无意义的。例如,大于x1的x值预测因变量的值会比1大。这是不可能的,因为y只能取0~1间的值。与此类似,小于xo的x值预测因变量的值会比0小,这也是不可能的。因此,这个回归模型对因变量的预测是无意义的。2.预测中的误差都与x的值相关。超过x1的值在预测中的所有的误差都是负的。这意味着x变量的预测结果高于实际发生的情况。低于x0的值在预测中的误差都是正的。因此当实际值等于0时,x变量预测的值都小于0。x的值与误差的相关性违背了回归假设:误差是随机分布在自变量每个取值周围的。3.在已获得雇佣的成功案例中加入一些x值更高的案例,却导致直线变得更为平缓,这意味着本应该更强的相关性减弱了。probit的计算与分析probity分析是用最大似然估计(maximumlikelihoodestimates,MLE)求出系数,它看起来有些像回归系数。用标准误差除以MLE得到的t值,可以利用t分数表检验系数的显著性水平。对于MLE没有类似回归系数那样简单的解释。在一个回归方程y=0.4+0.05x中,我们可以看到x每增加一个单位,y的值就增加0.05;但probit方程内同样的系数却有不同的解释。probit的解释为每变化一个单位的x,y的Z值就会有0.05的变化。如果要知道Z值所对应的概率,需要查Z分数表。一个案例:假设我们想要研究受教育年限、上次工作时间长度以及是否完成职业培训对再就业的影响。这个问题的因变量是再次找到工作的概率,自变量是受教育年限、上次工作时间长度以及是否完成职业培训。职业培训到底有什么确切的影响呢?1.将每个自变量的样本均值与它的MLE相乘后求和,再加上常数。在这个例子中,结果是l.02[(12.0×0.40)+(8.0×0.20)+(0.4×0.30)-5.5=4.8+1.6+0.12—5.5=1.02]。这是所有自变量都取均值时,因变量的Z值。2.除去职业培训这个自变量,将每一个自变量样本的均值与它的MLE相乘后求和。为了计算职业培训这一项,我们把职业培训完成时的变量值l乘以它的MLE(0.30×1=0.30),加上其他自变量的和,再加上常数,这个结果是l.2(4.8+1.6+0.3-5.5)。3.重复第二步,但用没有完成职业培训时的变量值0来替换职业培训项与MLE相乘(0.30X0=0)。这时结果是0.90(4.8+1.6+0-5.5)。注意完成职业培训(1.2)和没完成职业培训(0.9)之间的Z值差等于0.30,即职业培训变量的MLE值。4.翻到正态曲线表。查找未完成职业培训的值(0.9)与0之间的区域。查到的值是0.3159。查找完成职业培训的值(1.2)与0之间的区域。查到的值是0.3850。结论对于样本中那些受教育年限和前工作史达到平均值的人,完成职业培训使他们被雇佣的机会大概由81.59%上升到88.50%。10.3logistic回归logistic回归的主要用途:一是探寻某些现象的原因,例如寻找某一疾病的致病因素。二是预测,如果已经建立了logistic回归模型,则可以根据模型,预测在不同的自变量情况下,研究对象发生某种事件的概率有多大。三是判别,根据logistic模型,判断某人属于某种情况的概率有多大,也就是分析这个人有多大的可能性会发生某种事件。在线性回归方程中,y=a+4x,其中b=4,在这里自变量每发生l单位的变化,因变量就发生4单位的变化。在logistic回归中,上述模型中,自变量变化1个单位,因变量的对数几率比就会发生4单位的变化。logistic回归系数也可以通过优比(oddsratio)来表示。优比要比logistic回归系数更容易解释,与普通最小平方中可以相互比较的偏标准系数一样,优比也可以相互比较。而且优比可以被转换成为概率。在一个自变量或一组自变量给定取值的情况下,可以估计某件事情发生的可能性。一个案例例如,研究某人投资房地产的原因。因变量是一个人是否做房地产投资,如果做地产投资就编码为1,不投资则编码为0,自变量是他们的朋友是否做房地产投资,投资就编码为1,不投资则编码为0。假设搜集的数据如下:为了理解优比,首先需要理解几率比。几率比是事件发生(通常编码为1)的次数与未发生(通常编码为0)的次数的比。例如:在朋友做房地产投资的情况下,个人进行房地产投资的几率比为72/157或0.46;同样在朋友不做房地产投资的情况下,个人进行房地产投资的几率比为48/185或0.26。优比就是这两个几率比的比。因此,朋友投资房地产的人自己投资房地产的可能性,是朋友不投资房地产的人的0.46/0.26=1.76倍。相反,后者做房产投资的可能性是前者做房产投资可能性的0.26/0.46=0.56倍。优比小于1表明随着自变量取值的增加,因变量发生的几率比下降。优比大于1,则说明随着自变量取值的增加,因变量发生的几率比增加。logistic回归可以用优比来表示:其中a是常数,这个常数是指那些朋友不投资房产的人自己却投资房产的几率比。1.76是优比,朋友是否投资房产是优比的幂,用来对某人是否投资房产的概率作一估计。在上面的例子中,朋友投资房产而某人也投资房产的几率比是
0.26×1.76(1)=0.46朋友不投资房产而某人投资房产的几率比是0.26×1.76(0)=0.26朋友投资房产而某人投资房产的概率就是0.46/(1+0.46)=0.3210.4事件史分析事件史分析是研究社会现象动态过程的一类统计模式,主要关注社会现象变迁的过程例如,研究一个人在劳动力市场上的就业过程(就业、换工作、再就业)的影响因素,一个人的职位何时提升?为什么得到提升?一个人出生、死亡、结婚、离婚等事件发生的时间和原因?一个组织类型的产生、扩展、衰落等的时间和原因?成人重新就学、入党、培训机会等的时间和原因?假设我们感兴趣的是失业人员经过多长时间再次找到工作。我们可以使用标准的回归分析。对于每一个失业者,可以测量他重新找到工作的时间。作为自变量可以收集有关信息:他在失业前工作了多长时间,所从事的职业类型,他的受教育程度和职业技能等等。于是得到一般的回归方程:y=a+bXi+e,其中y是重新找到工作前前经过的时间,Xi是自变量,e是误差项。在这个例子中,标准回归分析的一个问题是对因变量的删截(censoring)。假设有3名失业者,郭靖在失业后后第1个月找到工作,欧阳峰在在失业后第3个月找到工作,洪七公在失业后10个月也没找到工作,即我们所研究的这个时间中没有再就业。因此,对郭靖和欧阳峰而言,很容易给他们的t分别编码为1和3,但该怎样给洪七公编码呢?应该给他编码为10吗?如果这样就意味着他在第10个月重新就业,但事实并非如此。换句话说,因变量被删截,因为一些个案并没有落在我们研究的时间段内。另一个问题是一些自变量会随时间变化。也许郭靖失业后去参加了短期职业培训,获得了职业资格证书。也许欧阳峰在失业后的第二个月中了头彩。所以教育程度和收入在这段时间内都在增加。除非我们采用的是这些年内郭靖教育状况和欧阳峰收入状况的平均值,否则标准回归分析是不允许自变量发生变化的。事件史分析中的核心概念风险集(riskset):是指那些在特定的时间点面临事件发生(再就业,入党,提干)“风险”的案例(case)的集合。那些曾经发生过事件——再就业或入党——的案例就不再具有风险了。风险率(hazardrate):是指在特定时间某一特定的人发生某一事件的概率,前提是这个人属于风险集。在三个人的例子中,三个人中的一个在第一月再就业,所以风险率是1/3即0.33。在第2月内没有人再就业,所以风险率为0。剩下的两人中的一个在第三个月再就业,所以风险率是l/2即0.5。注意虽然在第一个月和第三个月再就业的人数相同(1),但是与第一年0.33的风险率相比,第三年的风险率增加了。其原因就在于风险集在第一年较大(是3而非2)。在表10—15中,我们需要创建测量
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 7S与现场管理课件
- 存在管理制度不规范规章制度
- 市场部(销售)胜任力素质模型库
- 福建厦门大同中学2024届高三年级校内模拟数学试题试卷(最后一卷)
- 2024年郑州客运资格专业能力考试题库
- 2024年青海办理客运从业资格证版试题
- 2024年天津客运运输从业资格证模拟考试题
- 2024年海南办理客运从业资格证版试题
- 人教部编版二年级语文上册第13课《寒号鸟》精美课件
- 吉首大学《合唱与合唱指挥1》2021-2022学年第一学期期末试卷
- 中国中铁专业分包合同范本
- 2024年计算机二级WPS考试题库380题(含答案)
- 第1-3章综合检测试卷 2024-2025学年浙教版数学八年级上册
- 2024中国邮政集团江苏分公司春季招聘高频500题难、易错点模拟试题附带答案详解
- 道德与法治学科成绩提升计划
- 2022-2023学年北京市西城区德胜中学八年级(上)期中数学试卷【含解析】
- 病历书写基本规范细则
- 高校廉政课件
- 装修工人简历范文
- 工作任务委托书
- 知道网课智慧树《文化考察(西安工程大学)》章节测试答案
评论
0/150
提交评论