stata第六讲山大陈波_第1页
stata第六讲山大陈波_第2页
stata第六讲山大陈波_第3页
stata第六讲山大陈波_第4页
stata第六讲山大陈波_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Stata上机实验1离散选择模型1。二项选择模型主要包括:Probit模型(标准正态分布)Logit模型(逻辑分布)2Logit模型Logit模型假定模型的误差项服从Logistic分布利用极大似然估计方法拟合,Yhat=0负的产出Yhat<>0(通常yhat=1)正的产出3例如:sysuseauto,clearlogitforeignweightmpg相当于计算如下概率:Pr(foreign=1)=F(B0+B1weight+B2mpg)41。获得个体取值为1的概率。predictp1,prlistp1foreign对比一下结果,判断有正有误2。对预测准确率的判断estatclass结果解读5敏感性(Sensitivity)指即真实值取1而预测准确的概率;特异性(Specificity)是指即真实值取0而预测准确的概率。默认的门限值为0.5。63。受试者操控曲线(Receiveroperatingcharacteristic,简称为ROC曲线)是指敏感性与(1-特异性)的散点图,即预测值等于1的准确率与错误率的散点图。lroc4。goodness-of-fit拟合优度检验estatgof5。变量的边际影响回归结果中,,估计量β并非“边际效应”(marginaleffects),因此要用命令:mfx7Probit模型Probit模型假定误差项的分布形式为标准正态分布:回归方法和检验方法与Logit模型类似。probitforeignweightmpg8注意:由于Probit与Logit所使用的分布函数不同,其参数估计值并不直接可比。雨宫(Amemiya)提出:同一个模型的logit和probit模型大概具有如下关系:Blogit约等于1.6*BProbit但利用mfx计算的两者的边际效应应该大致相同。9一个综合例子使用美国妇女就业数据集“womenwork.dta”,估计决定就业的Probit与Logit模型。被解释变量为work=1,就业;work=0,不就业。解释变量为age(年龄),married(婚否),children(子女数),education(教育年限)。10usewomenwork,clearlogitworkagemarriedchildreneducationmfxestatclasspredictp1,prlistworkp1lrocestatgof注意:married是离散变量,因此执行mfx后的结果的含义不同。11probitworkagemarriedchildreneducationmfxestatclasspredictp2,prlistworkp2lrocestatgoftabworktabworkifp2>0.5122。多项选择模型多项Logit模型:由于可选项目有多项,因此输出结果时stata将自动指定一个为基础类别(BaseOutput),显示各个变量对另外几个类别的影响系数。13usebrand,cleartabbrandmlogitbrandagefemale结果分析可以利用predict提取个体选择概率predictp1p2p3list可以根据研究需要,自由地指定用来比较的baseoutcome(参照点)。

mlogitbrandagefemale,base(3)14排序选择模型根据GSS的调查数据,不同的家庭母亲与子女之间的关系也不同。根据调查显示,有的家庭母子(女)关系比较紧张,有的比较融洽。变量包括:warm=关系融洽度(0、1、2、3);educ=子女接受教育的程度;age=子女年龄;male=儿子;prst=职业威望;white=白人;y89=89年调查结果。分析不同因素对母子(女)关系的融洽程度有何影响。15useordwarm,cleartabwarm建立如下方程:16ologitwarmedagemaleprstwhiteyr89oprobitwarmedagemaleprstwhiteyr89结果解读

predictp1p2p3p4listp1p2p3p41718计数模型1。泊松回归2。负二项回归19泊松回归模型有些被解释变量只能取非负整数,即0,1,2,...,对于这一类“计数数据”,常使用“泊松回归”(Poissonregression)。

yi=1,2,…。我们知道,泊松分布的最大特点是条件期望和方差相等。即20利用数据集poissonreg.dta估计决定初中生旷课天数(daysabs)的计数模型。解释变量为langarts(语言艺术课成绩)与male(是否男性)。usepoissonreg,clearpoissondaysabslangartsmalepredictp1,nlistmfxestatgof21泊松MLE分析常常受到很多限制,如泊松分布的所有概率以及更高阶矩完全由其均值决定,特别是方差等于均值这一点有明显的局限性。事实表明,大多数应用都难以满足这一条件。如果被解释变量的方差明显大于期望,即存在“过度分散”(overdispersion)因此,如果出现“过度分散”,可以考虑使用“负二项回归”。22负二项回归模型所谓负二项分布是指,在独立的实验中,成功n次的时候,失败次数x的概率分布。当成功n次时,实验停止,此时失败次数为x,那么总的实验次数为(n+x),而且最后一次(即第(n+x)次)是成功的。那么,前(n+x-1)次试验中成功次数为(n-1)、失败次数为x。负二项分布适用于当试验成功的次数(n)确定下来后,试验失败的次数(x)的分布。23nbregdaysabslangartsmale命令结果中将提供一个LR检验,原假设:不存在过度分散,应该使用泊松回归。此时alpha=0。备则假设:alpha<>0,不能使用泊松回归。24受限因变量模型1。断尾回归2。截取回归25断尾回归对于线性模型yi=x’B+εi,假设由于某种原因,只有满足yi≥c(c为常数)的数据才能观测到。因此,当yi<c时,没有任何有关{xi,yi}的数据。被解释变量在C点就存在“左边断尾”(lefttruncationatC)。26左边断尾:truncregyx1x2x3,ll(#)右边断尾:truncregyx1x2x3,ul(#)双边断尾:truncregyx1x2x3,ll(#)ul(#)、sysuseauto,cleartruncregpriceweightlengthgear_ratio,ll(10000)regpriceweightlengthgear_ratioifprice>=1000027截取回归对于线性模型yi=x’B+εi,如果满足yi≥c或者(yi≤c)(c为常数),使得yi=c。截取回归与断尾回归不同的是,我们虽然有全部的观测数据,但对于某些观测数据,被解释变量yi被压缩在一个点上了。此时,yi的概率分布就变成由一个离散点与一个连续分布所组成的“混合分布”。28tobityx1x2x3,ll(#)(变量<#的被左截断)tobityx1x2x3,ul(#)(变量>#的被右截断)tobityx1x2x3,ll(#)ul(#)(l同时定义下限和上限)29利用womenwork.dta的数据进行普通OLS回归和截取回归。被解释变量为lwf(logofwageifworkingand0ifnotworking)。解释变量为age(年龄),married(婚否),children(子女数),education(教育年限)。usewomenwork,clearreglwfagemarriedchildreneducationtobitlwfagemarriedchildreneducation,ll(0)30随机数的产生和常用分布例1:产生10000个服从[0,1]均匀分布的随机数和10000个服从正态分布的随机数。clearsetobs10000genx=uniform()histogramxgeny=invnormal(uniform())histogramy,normal31伪随机数例二:clearsetobs10000genx1=uniform()genx2=uniform()

listx1x2in1/50但是如果加上一句话:setseed123,情况会发生变化。32setseed12345genx3=uniform()setseed12345genx4=uniform()

listx3x4in1/5033原因:计算机产生的随机数是伪随机数,它是通过一个或者多个复杂的公式计算出来的,是有迹可寻的。例如:公式可以为:

X_j=(a*X_(j-1)+c)modm(j=1,2,...)其中:m是一个很大的数;

a*X_(j-1)为种子。蒙特卡罗模拟和自抽样一般都要提供种子,已被检验和分析。34常用分布随机数的产生finditrnd1。自由度为k的chi2分布Chi2(k)clearrndchi100005histogramxc,normal特点:向右拖尾。2。自由度为k的t分布t(k)clearrndt100005histogramxt,normal特点:尖峰厚尾353。自由度为k1,k2的F分布clearrndf1000320histogramxf4。参数为λ的指数分布:

clearrndexp100003histogramxe

更多的统计分布量察看helprnd36自抽样(Bootstrap)实质:可重复抽样通过一个简单例子说明基本原理:1---9九个数求均值。clearinputx输入1---9九个数保存为sample.dtausesample,clearbsample9list反复执行:可以发现每次不同的重复抽样。37利用Bootstrap命令实现模拟:usesample,clearbootstrapx_m=r(mean),reps(500)saving(sample1,replace):sumx或者简写为:bsx_m=r(mean),reps(500)saving(sample1,replace):sumxusesample1,clearsumx_m38使用BS得到标准误sysuseauto,clear普通回归:regpriceweightlengthforeign利用BS方法:regpriceweightlengthforeign,vce(bs,reps(500))或者使用下列方法:bootstrap,reps(500):regpriceweightlengthforeign39蒙特卡罗模拟基本思想:向这个正方形随机地

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论