




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二讲分类logitprobit模面章节中,都在讲述与线性回归有关的内容。虽然线性回归在社会科学定量归要求因变量的测量水平必须要达到定距尺度(intervalscale),即因变量须为连续变量,若因变量为离散变量(discretevariable),还能续用传统的线性回归方法吗?关系也较为少见,而离散变量作为因变量的例子却是相当常见。如学关注一个在过去一段时间内是否,政治学讨论在某次中是否参与投票,市场学关心消费者是是否等等问题的,家庭学中研究的多种状态、使用的药具类型,医行改造或扩展,从而形成一般化线性模型(GeneralizedLinearModels,G)。尤其需要说明的是,传统线性回归直接针对观测变量进行分析,但从这讲开始介绍的一般化线性模型与之不同,模型中的因变量不再是直接针对观测变量,而是针对发生的概率。如对于二分因变量,研究者的目标是以一组自变量为条件来估计或预测成功或失败的概率。因此,对二分因变量进行统计分析时,虽然所观测到的是某一是否发生,即yi1或yi 0,但统计模型中的因变量却是发生某一 的概率,即Pryi1第一节一般化线性模型一般化线性模型(GeneralizedLinearModels,G)是将回归方程扩展到非常态分布或非线Poisson模型等。一、一般化线性模型 )概(一 的三个要01X12X2...k将μ=E(Y)透过方程式连结到解释变量上。(二)一般化线性模型的常见型态最小二乘法OLS模型系统要素01X12X2...kXk连结函数:g(μ)logit模01X12X2...kXk①连结函数:g(μ)=logμ/(1μ)]泊松回归模型(Poisson随机要素:泊松分布(Poissondistribution)下的计数频率(countfrequency) 1 X 1 根据统计学基础知识,列联表(contingencytables)中的数据也是频次或频率。因此, 基础上发展起来的logit/probit模型所替代,故在近年来的统计教学中很少提及。【温馨小结】 (三 估计法:最大似然估利用最大似然估计法(umLikelihoodEstimation,MLE)所得的参数值与所观察到的数值最为一致,即运用MLE估计出总体参数与真值接近的概率最优。步骤一:先确定一个函数来说明未知参数概率的似然函数(likelihoodfunction)。例子:运用二项(binomialformula)来计算十个被观察对象当中出现四位女性的概率。女性在总体当中出现的实际概率是1/2。4P(s4|n10,p.5)100.54(144位女性,我们由这个样本当中得到总体最可能的π值为多少?4L104(14(变异的极小化minimum随样本量的增加,其统计偏误会不断缩小其分配型态渐近于随机抽样分布下,最小二乘法(OLS)估计等同于最大似然估计(MLE)(PowersandXie,2009)。第二节、二分因变量logit模型概述能的数值中取值。此类仅具有两类可能结果的数据被看作是二分类数据(binarydata),所对应的变量也被称作二分变量(binaryvariable)。类结果被看作为“成功”1;而另一类则被看作为“失败”0。在这一需要说明的是,从这讲开始,我们所要介绍的模型与线性回归直接针对观测变量进行分析大有不同。在对二分因变量进行统计分析时,所观测到的是某一 是否发生,即i1或i0。但统计模型中的因变量却是发生某一 的概率,即Pr(i)。一、线性回归面对二分因变量的困境续变量;另外还有一个非常重要的假定,对应于不同自变量的误差项ei有相同的方差,即最佳线性无偏估计(BLUEthebest,linearandunbiasedestimator)的特性。对于二分因变probabilitymodel)。尽管此时因变量表示的是发生某一观测的概率,但该模型依然(一)误差项(i)的异分布性
iPr(y|p)py(1 i由此,可以得到成功的概率为Pryi1)p,失败的概率为Pryi0)1pyibkxik eibkxikyi1ei1bkxik。因此,我们可以求得误差项eiE(ei)P(yi0)(bkxik)P(yi1)(1bkxik[1P(yi1)]P(yi1)P(yi1)[1P(yi
Var(ei)E(e2)[E(e iE(e2)iP(y0) bx)2P(y1)[1P(y k [1P(yi1)][P(yi1)]2P(yi1)[1P(yiP(yi1)[1P(yi1)][P(yi1)1P(yiP(yi1)[1P(yi(bkxik)[1bkxik
这就是说,误差方差Var(eixik取值水平的变动而发生系统性变动。换句话说,就是误差项i呈现出异分布性,不同的观测值具有不同的误差方差。这明显违背了线性(二)线性函数的荒谬性数bk和误差ei同样也没有做具体限定。因此,从理论上讲,yi可以在(,)这一区间Eyi作为概率还是作为实际的取值加以理解,其取值都只能在[0,区间内。若采用线性回归对二分因变量进行分析的话,由于建立的是线二、处理对策:logit模型或probit模型预测结果。介绍logit模型和probit模型,通过对数据进行转换,从而确保参数估计值的统计性质,并将预测值限定在[0,区间内。第三节、二分因变量logit模型一、发生比/发生风险(odds)与发生风险比率 odds 1因此,我们也可以用发生比Odds倒算出概率:p 发生Odds与概率Probability之间的关发生比率(oddsratio,OR)是用来估计不同群体之间发生概率的相对比例。同一个事p1/(1p2/(1p2案例:1996年统计数据中有6473个有效样本(使用数据为“第二讲二分类logit模型Stata操作”中的“_life_history1996.dta”),①依据与党员资格来划分,可以得.tab.codebookparty,tab.recodeparty(1=1"CPC")(2=0"NON-CPC"),gen rty).codebook.recodensize14(-3/1=1).tab.tabnsize14.recodefparty(-.dropifage1==-.listpartynsize14age1 in.codebook .label 1"male"2.tab .genage=96-RECODEofparty|(currentparty ofmember?) NON-CPC 2,870 CPC 168 Total 3,038 ①所使用数据为1996年中国生活史(Lifehistory 答:以成为党员的概率除以成为非党员的概率。若手算即为odds 1 1oddsratio0.2736需要提醒的是,发生比及发生比率的概念通用于各类logit模型与loglinear模型。二、二分因变量logit回归法(BinaryLogistic细地描述。成功概率p的logistic转换可以表达为,logit(p)
pi 1logit(pi)
1
)KkK
k
Kexp(kxikp k 1exp(kxikk
这就是logistic的概率密度函数x和的所有可能取值,logisticpi在[0,区间应的logitpi将趋近于正无穷。通过logistic转换,就克服了概率取值超出[0,区间的问标准logistic分布与标准正态分布的均值都为0,但方差不同:标准正态分布的方2*2var(*)1,而标准logistic分布的方差为var() 2 2以0.55也可得到与probit估计值相对应的值。作为一个经验规则,有的学者建议以1.610.625作为乘数以得到更接近的近似值(Amemiya,1991;Maddala,1983)PredictedP(Y=1)byx,wherea=1andb=11..0-10-9-8-7-6-5-4-3-2-10123456789ValueofPredictor(e.g.2-1Logistic函数曲如果将与图2-1对应的数学表达出来的话,应为:P 。该图采用Stata1exp[(1例如,现在研究陆“具有哪些特征的人能够成为党员,而其他却不能”的问题(使用数据为_life_history1996)。问卷中的“party”(党员)为二分因变量,、及父 .tabcurrent|partymember? +1 2 +Total E(Y|X)=β0+β1X1+函数型态上的错
LinearProbability10XPP(1-P)=VAR虽然异方差性(heteroskedasticity)与超范围的预测值可以运用最小二乘法OLS以外的线性 分类因变量的概率分布型态,则需引入logistic(logit)模型:e11eP(Y1|X)(X)111eLogistic方程式的基本性质:在β>0的条件下:在β<0的条件下:X→+πx)0X→-πx)要视X与β的条件而定:
P(Y|X) (Y|X
(X)[1(X*P(y1|X)[1P(y1|X为了方便解释,在通常情况下会将 函数转换成发生风险发生风险π(X)/[1-π(X)]=发生风险的对数“LogOdds”log{π(X)/[1-π(X)]}=“linearlogitequation”三、估计与解释常用的估计方法:最大似然估计(umLikelihoodnL=Pr(Y1,Y2,…Yn)=Pr(yini
L pyi(1p n
i)(1pi
i11logL
yi log(1pi n 1pi n logLxylog(1eixii
ii
i四、常见的两类logit模型:模型与表格模 (unitrecord)或“”logit模型 汇总数据或表格模型(tabularmodel)(unitrecord)或“”logit模在n(i=1…n)个观察(“individuals”)中,我们观察到因变量Yi属于(0,1)这种二项结果,以及自变量Xi,这两类数据都来自原始的数据( .use"D:\第二讲_二分类变量回归\二分类logit模型Stata _life_history1996.dta",.list rtynsize14age in |ne |NON- 2|NON- 2 1|NON- 2 2 |NON- 1 2|NON- 1|NON- 2|NON- 1 |NON- 1|NON- 1|NON- 1|NON- 2|NON- 1 1|NON- 1 2|NON- 2 1 .xi:logit rty**recodeparty(1=1"CPC")(2=0"NON-CPC"),gen rty)codebook(-LogisticNumberof=LR=Prob>=Loglikelihood=-Pseudo= rty Std. [95%Conf. -. .. -. -. ..|....| ---.logit,Logistic Numberof LR=Prob>=Loglikelihood=-Pseudo= rty|Odds Std. [95%Conf.||.| | .| .| | .xi:logisticrpartyLogisticNumberof=LR=Prob>=Loglikelihood=-Pseudo= rty|Odds Std. [95%Conf.+_Insize14_2 | | .| .| | 汇总数据或表格模型 sizeof RECODEofceof|residence
(currentpartyat1 NON- 1 578 2 3 4 5 6 7 +
+Total
是真正的数据);.codebooknetabulation: Numeric0NON-1.inputceparmem parmem 0 0 0 0 0 0 1 1 1 1 1 115..labeldata"tabulardata LifeHistory.label ce ceatage.labelvarparmem"whetherparty.labelvarfreq .labeldefinep11"village"2"township"3"countyseat"4"county-levelcity"5"prefecturalcity"6"provincialcapital"7"BeijingShanghai".labelvaluesce.labeldefinep21"partymember"0"notparty.labelvalueparmem.cewasfloatnowbyteparmemwasfloatnowbytefreqwasfloatnowint. sosc534tabulardatafrom LifeHistorySurvey 16Sep199819:40 48,720(99.9%of storagedis variable variable residenceceatage whetherpartymember Note:datasethaschangedsincelast.+
Sorted+ freq notparty 3697 notparty 352 county notparty 292|county-level notparty 219 prefectural notparty 433 |provincial notparty 254 Beijing notparty 1318.|9.|10.county|||11.county-level|12.prefectural|13.provincial|14.Beijing|++ 处理(weight)若上述数据检查无误,则可运行汇总数据的logit模型。但需特别注意 处理(weight).xi:logitparmemi.cei.ce _Ice_1-7(naturallycoded;_Ice_1omitted)Ition0:loglikelihood=-2620.9292Ition1:loglikelihood=-2610.5704Ition2:loglikelihood=-2610.356Ition3:loglikelihood=-Logisticregression Numberofobs LR Prob> Loglikelihood=- Pseudo parmem Std. [95%Conf.+ ce_2 ce_3 .. -... ce_4 ce_5 - ce_6 ce_7 _cons|- - - -.xi:logisticparmem ce.xi:logisticparmemi.cei. (naturallycoded;_Ice_1LogisticLoglikelihood=-
Numberof LR Prob> Pseudo parmem|Odds Std. [95%Conf.+ ce_2 ce_3 | .| .| | 在实际研究中,若无法判断因变量的概率分布型态及其连结函数,则可在G的架构针 数 .xi:glm rtyi.nsize14,GeneralizedlinearNo.of= :Residual=Scale=. =(1/df)=. =(1/df)=.①“glm”命令的好处在于:(1)通用性。有时命令过细流于繁琐,则可用该命令统一处理,只是要写明连结函数。(2)这一命令最大的好处,是可直接得到AIC及BIC的值,不但方便嵌套模型间优劣的比较,还可VarianceV(u)=Link g(u)=ln(u/(1-=.Log -= Std. + - .. -. -. .. ..|.---针对汇总数据.xi:glmparmemi.ceGeneralizedlinearNo.of= :ResidualScale==. = =(1/df)Deviance(1/df)Pearson==..Variancefunction:V(u)=Link :g(u)=ln(u/(1-=.Log== parmem Std. [95%Conf.+ ce_2 - ce_3 ..ce_4 -.ce_5 -.ce_6 ..ce_7 .._cons|- ---五、回归系数的解读我们可以计算成为党员的Logodds: .xi:logit LogisticNumberof=LR=Prob>=Loglikelihood=-Pseudo= rty Std. [95%Conf. . .. -. -. ..|....|.---.logit,Logistic Numberof LR=Prob>LR=Prob>=Pseudo= rty|Odds Std. [95%Conf.|| .| | .| .| | (增加)了0.086个logit单位。生率“odds”高出了9%(两组发生率比为1.09:1)。一般以此为解释,较为通俗易懂①①.xi:logit rtyageLogistic
Numberofobs LR Prob> 曾经在一中文文献中见过如此的解释:在ModelA中,参照组仍为农村的条件下,拿另一个组比较,相对于在乡镇长大的人(对照组)来说,在县城长大的人成为员的发生比率“oddsratio”大约是173%,也可以说比镇上的人相对高出73%(=2.38/1.38)。但经作者反复查证,这种比较存在错误(参见Agresti及Yuxie的 也等于73%,但因其 Loglikelihood=- Pseudo rty+Std.z[95%Conf.age.. _Insize14_2-- | -| -.| -.| -.| -| --.logit,Logistic Numberof LR=Prob>=Loglikelihood=-Pseudo= rty Std. [95%Conf.ageage .._Insize14_2|---._Insize14_3 -_Insize14_4 -._Insize14_5 -._Insize14_6 -._Insize14_7 -_cons ---.logit,Logistic Numberof LR=Prob>=Loglikelihood=-Pseudo= rty|Odds Std. [95%Conf.ageage _Insize14_2 -._Insize14_3 ._Insize14_4 ._Insize14_5 -._Insize14_6 ._Insize14_7 odds就增加0.05logit单位,或其成为党员的发生比率(相对于非党员)增加4.73%(2)利用模型预测发生概率 rty对nsize14回归的logit模型结果(在省略其它变量的情况下),研究下列问题在农村里长大的人成为党员的概率是多少在镇上长大的人成为党员的概率是多少在直辖大的人成为党员的概率是多少.xi:logit LogisticNumberof=LR=Prob>=Loglikelihood=-Pseudo= rty Std. [95%Conf. -. .. -. . .. ..| ---.predict(optionprassumed; (2017missingvalues..predictp2ifnsize14==2(optionprassumed;Pr(ne (6058missingvaluesgenerated)..predictp3ifnsize14==3(optionprassumed;Pr(ne (6106missingvaluesgenerated)..predictp4ifnsize14==4(optionprassumed;Pr(ne (6212missingvaluesgenerated)..predictp5ifnsize14==5(optionprassumed;Pr(ne (5970missingvaluesgenerated)..predictp6ifnsize14==6(optionprassumed;Pr(ne (6166missingvaluesgenerated)..predictp7ifnsize14==7(optionprassumed;Pr(ne (6309missingvaluesgenerated).sump1-Variable Std. +p1 p2| p3| p4 p5 +p6 p7
在农村里长大的人有12.97%的概率的机会成为党员镇上长大的人则有13.97%的概率成为党员直辖市(京、津、沪)长大的人则有高达20.12%的概率成.xi:logit LogisticNumberof=LR=Prob>=Loglikelihood=-.xi:logit LogisticNumberof=LR=Prob>=Loglikelihood=-Pseudo= rty+z|....| -| --.predictpmale .predictpfemaleif.versionTheEfffectofAgeonJoiningtehTheEfffectofAgeonJoiningteh 0结论:虽 概率都 成长的正影响,但比女性更有机会成为党员0六、假设检验(HypothesisTesting)、拟合优度(GoodnessofFit)与模型选择(ModelSelection)同时用F检验来测试某些附加的条件或限制(这里指的限制是针对嵌套模型而言的,限制模型一般指小模型,其意是将其它偏回归系数限制为零)是否显著地改善了模型的拟合logitlogitt-test/z-test来判ratio检验对模型中的多重条件或限制进行假设检验。(一)WaldWald-test的实质这种差距是以对数似然函数的曲率对估计值的变异量(variabilityoftheestimator)加权(weighted)所得到的。 BB*
W .xi:logit rtyageeduc_hiyi.①所谓限制(restricted)是针对嵌套模型而言的。限制模型一般指小模型,其意是将其它偏回归系数限制为零。而大模型则限制条件相对较少,而称之为非限制模型(unrestrictedmode)。inepmalepfemaleage,title(TheEfffectofAgeonJoiningtehParty)subtitle(MaleandFemale)sort.xi:logit rtyageeduc_hiy (naturallycoded; _1 (codedasnote:agedroppedbecauseofItionlog=Itionlog=Itionlog=Itionlog=Itionlog=Itionlog=Logistic Numberof=LR=Prob=Loglikelihood= rty Std. [95%Conf.+age educ_hiy _2|- - - - Xage_2 - _cons|- - - -若对单个系数的虚无假设作检验,则采用如下命令.test(1)age=chi2(1)=Prob>chi2 若对两个系数的虚无假设同时作检验,则采用如下命令:.test_I Xage_2_I (1)_I Xage_2=0(2) _2=chi2(2) Prob>chi2 若对两系数相等的虚无假设作检验,则采用如下命令:.test(1)-age1+educ_hiy=chi2(1)=Prob>chi2 说明自由度为1时(即1constraint),原假设(rejectthenull)对教育导致成为党员有效果=0.25单位logodds的虚无假设作检验,则用如下命令:.testeduc_hiy=0.25(1)educ_hiy=.25chi2(1)=Prob>chi2 (二)似然比率统计-卡方检验( Statistic-对或群体数据模型,我们用似然率检验(likelihoodratiotests)来比较嵌套模型这里请大家注意,这一部分对嵌套模型的似然比率检验方法适合于所有的一般化线性模型的比较。有两个概念需记清:针对嵌套模型而言,限制模型(restrictedmode)一般指小模型(自称之为非限制模型(unrestrictedmode)。简约模型一般是指小模型,即含自变量较少的(nestedmodels)的概念参见谢宇:《回归分析》,社科文献,2010两个模型为嵌套模型。模型1为限制性模型(restrictedmodel),模型2为非限制性模型(unrestricted①假设模型A中有自变量(1,X1,X2),模型B中有自变量(1,X1,X2,X3),模型C(1,X1,X2X3),模型D中的自变量为(1,X2X3)模型A与模型B为嵌套模型。模型A称为限制性模型,模型BABBAX30,即30。模型C和模型A不是嵌套模型。因为模型A中的自变量不是模型C中自变量的子集或线性组模型C和模型B是嵌套模型。模型C为限制性模型,模型B为非限制性模型。因为相对于模B,模型CX2,X3的系数设为相等,即23。①所谓限制是指回归系数为0较多的情况,即自变量越少,模型的受限制程度就越大模型C和模型D是嵌套模型。模型D为限制性模型,模型C为非限制性模型。因为相对于模C,模型DX1的系数设定为010。模型D与模型A不是嵌套模型。因为模型D中的自变量不是模型A中自变量的子集或线性组模型D与模型B为嵌套模型。模型D为限制模型,而模型B则为非限制性模型。因为相对于模型B,模型DX10X2,X31023。logL与两个模型之间的自由度、或者说与变量的数目不独立,所以不能用来STATAlogistic/logit指令时,结果中已给出了模型的对数似然率(loglikelihood)与模型的χ2值。
χ2=-2(logL0-L0指的是虚无模型(没有任何自变量)La则指另一个与之相比的模型(df相比之模型(三)案例分析.xi:logit Logisticregression Numberofobs LR Prob> Loglikelihood=- Pseudo rty Std. [95%Conf.+_cons|- - - -.xi:logit rtyLogisticregression Numberofobs LR Prob=Loglikelihood= rty Std. [95%Conf.+educ_hiy _cons|- - - -在模型D中似然比率LRχ2(1)=230.24[i.e.,-2*(-2620.9292-(-2505.8106))],基于卡方布χ2检验,我们虚无假设并接受替换假设,也就是所加入的自变量(educ_hiy)显著的提高了似然比率。这与与R2性回归中所扮演的角色类似,Pseudo-R2=(L0-La)/.genr2=(-2620.9292-(-2505.8106))/(-.dis.模型拟合优度的判断:1R2(PseudoR2)只是模型线性回归而营造的一个相对数值。在判别模型的好坏时,.estat3、似然比率检验统计量(likelihoodratiotest,LRT)。这是一个统计量,而非像R2一类无法查统计数表的指标(p-value对应表),故用其来判断模型的拟合优度是具有公认效G2=(Mc-Mu)=-2[logL(Mc)-似然比率LRT检验的例一:约原则(parsimonyprinciple)筛选最终模型极为重要。.xi:logit rtyLogisticNumberof=LR=Prob>=Loglikelihood=-Pseudo= rty Std. [95%Conf.+_Insize14_2 - _Insize14_3 -. -. -. . - _cons|- - --.eststore.xi:logit rtyLogisticNumberof=LR=Prob>=Loglikelihood=-Pseudo= rty Std. [95%Conf.+ -. .. . -. .. _cons|- - - -.lrtestLikelihood-ratio LRchi2(2) (Assumption:.nestedin Prob>chi2 Probchi20.0344p<0.05,呈显著统计学差异。因此,我们无法大模型。否则,则接受小模型。似然比率LRT的例二:.xi:logit rtyLogisticNumberof=LR=Prob>=Loglikelihood=-Pseudo= rty Std. [95%Conf._Insize14_2 _Insize14_2 ._Insize14_3 .. -. -. .. ..|- ---.eststore.xi:logitLogisticof=LR=Prob>=Loglikelihood=-Pseudo= rty Std. [95%Conf.|| --.| -.| --.| --| --. -. .|- ---.lrtestLikelihood-ratio LRchi2(1) (Assumption:Bnestedin Prob>chi2 模型需为嵌套,即一个模型必须透过对另一个模型增加限制而形成,两个模型必须运行同一个样本与观察个数(N)此外,还有一种不太常用的检验群体数据模型拟合优度的指标是 (ff^2 ij^ ^.tabregnowsample,columnrow | |row |columnpercentage current|registration(hukou) samplest 3 1 364 9.83 95.04 2 19 0.69 4.96 3 0 0.00 0.00 Total 383 5.92 100.00 Pearsonchi2(4)=4.4e+03 Pr=0.000likelihood-ratiochi2(4)= Pr=Cramer'sV =-0.9731ASE=Kendall'stau-b=-0.7766ASE=列(columns)的数目,J则代表行(rows)的数目。Pearsonχ2与LRχ2差异在后者数学上可以分解( 型之间的比较之用。但模型比较时还是倾向于用LRT。(四)非嵌套模型(Non- models)的比较检验:信息准则个目标似乎是的,因为通过增加自变量的个数可以提高模型的精确程度,但同时也牺(1)赤池信息准则(Akaikeinformationcriterion):AIC①minAICln(e'e)2 e代表残差系列,n代表样本量,K代表自变量的个数。可以看出,该函数的第一AIC一般为正值,其值越小则对数据的拟合越好,自变量的个数也达到最佳(2)贝叶斯信息准则(BayesianInformation minBIC ) ln(n2BIC更加注重模型的简约性。因此,在非嵌套模型的比较与筛选中,BIC比AIC运用得更为广泛。BICk=-G2与虚无模型相比之下的似然比(likelihoodratiostatisticforcurrentvsnullmodel)dfk=模型中自变量的数目N黄金规则:在非嵌套模型比较时,BIC、AIC的数值越小,其模型的拟合程度与简约性就.xi:logit LogisticNumberof=LR=Prob>=Loglikelihood=-Pseudo= rty Std. [95%Conf.+|- - - -_cons .gen.dis yx或做完回归后输入.estatic命令也可得到BIC与AIC(此命令对各种回归比较都适用.xi:logit .estatModel +. - Note:N=ObsusedincalculatingBIC;see[R]BIC.xi:logit LogisticNumberof=LR=Prob>=Loglikelihood=-Pseudo= rty Std. [95%Conf.|| ---age1 ---_cons .estatModel +. - Note:N=ObsusedincalculatingBIC;see[R]BIC.xi:glm ,family(binomial)Generalizedlinear No.of :ML Residualdf Scaleparameter = (1/df)Deviance= (1/df)Pearson=Variancefunction:V(u)=u*(1- Link :g(u)=ln(u/(1- =Log =- =- rty Std. [95%Conf.+|- - - -_cons .xi:glm rty,family(binomial)Generalizedlinear No.of :ML Residualdf Scaleparameter = (1/df)Deviance= (1/df)Pearson=Variancefunction:Link V(u)=u*(1-g(u)=ln(u/(1-=.Log -= rty Std. [95%Conf.+_cons|- - -.genbic=-2436.884497-(-.dis ybic一、二分因变量probit模型y*为不可观测的或潜在的,其值域为(。根据下述分界点,我们只观察到变量y*的外显值:对于潜在变量y*,线性函数仍然成立,因此它也可由一组自变量加以解释y*
x 由此,我们可以得出
kik k0KP(yi1|xi) kxiki)kKP[i(kxikk
P(yi1|xi)P[i(kxik)]F(kxik k k式(2-9)中右边部分实际上就是残差i的累计分布函数。假设ik 1p
2ui K对式(2-10)求解kxik得k1(p)probit(p) kk的是对数形态的发生比率log[p/(1-p)]),但由于probit函数较为复杂,我们用Ф1X
Ф1Xfunction),也被称为“probit”。也是计量喜好probit模型的原因之一。Y*abX Y*只能被部分观察到,可以表示为:Y1,ifY* e~N(0,2),此 Y0,ifY*
P(abXeP[eaP(eabXP[e/ P a/b/这就probit模型,并且Y*只能部分被观察到的条件下可以转Tobit(样本选择模型sampleselectionmodels)。二、logit模型与probit模型比较方差不同:标准正态分布的方差var(*)1,而标准logistic分布的方差为3
理论上讲,一个probit模型的回归系数乘以3
(1.8138)就相当于得到一个logit模型的验规则,有学者建议以1.61与0.625作为乘数以得到更接近的近似值(Amemiya,1991;Maddala,1983)让我们先生成一个logi
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 应对CPBA考试的策略试题及答案
- 赣州军训考试题目及答案
- 宠物营养影响因素分析试题及答案
- 专升本结构力学b试题及答案
- 2024-2025学年辽宁省七校协作体高一下学期3月联考生物试题及答案
- 二手车评估流程优化考题及答案
- 教育双减政策
- 小自考行政管理的知识组织与整合试题及答案
- 2024年计算机基础考试提高分数的试题及答案
- 2024年细解汉语言文学试题及答案
- 跌倒护理RCA案例汇报
- 利用DeepSeek优化水资源管理
- DeepSeek人工智能语言模型探索AI世界科普课件
- 牛桥水库现代化水库运行管理矩阵建设探讨
- 2024年晋中职业技术学院单招职业技能测试题库附解析答案
- DB32∕T 2677-2014 公路涉路工程安全影响评价报告编制标准
- 2025年北京铁路局集团招聘笔试参考题库含答案解析
- 食品中蜡样芽孢杆菌的检验课件
- 食为天:2024中国食品饮料行业白皮书
- 2025南水北调东线山东干线限责任公司人才招聘30人管理单位笔试遴选500模拟题附带答案详解
- 电力行业电力调度培训
评论
0/150
提交评论