数学建模专题汇总-离散模型_第1页
数学建模专题汇总-离散模型_第2页
数学建模专题汇总-离散模型_第3页
数学建模专题汇总-离散模型_第4页
数学建模专题汇总-离散模型_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

离散模型§1离散回归模型 一、离散变量如果我们用0,1,2,3,4,…说明企业每年的专利申请数,申请数是一个离散的变量,但是它是间隔尺度变量,该变量类型不在本章的讨论的被解释变量中。但离散变量0和1可以用来说明企业每年是否申请专利的事项,类似表示状态的变量才在本章的讨论中。在专利申请数的问题中,离散变量0,1,2,3和4等数字具有具体的经济含义,不能随意更改;而在是否申请专利的两个选择对象的选择问题中,数字0和1只是用于区别两种不同的选择,是表示一种状态。本专题讨论有序尺度变量和名义尺度变量的被解释变量。二、离散因变量在讨论家庭是否购房的问题中,可将家庭购置住房的决策用数字1表示,而将家庭不购置住房的决策用数字0表示。如果x作为说明某种具体经济问题的自变量,那么应用以前介绍虚拟变量知识就足够了。如果现在考虑某个家庭在一定的条件下是否购置住房问题时,那么表示状态的虚拟变量就不再是自变量,而是作为一个被说明对象的因变量出现在经济模型中。因此,需要对以前讨论虚拟变量的分析方法进行扩展,以便使其能够适应分析类似家庭是否购房的问题。因为在家庭是否购房问题中,虚拟因变量的具体取值仅是为了区别不同的状态,所以将通过虚拟因变量讨论备择对象选择的回归模型称为离散选择模型。三、线性概率模型现在约定备择对象的0和1两项选择模型中,下标i表示各不同的经济主体,取值0或l的因变量表示经济主体的具体选择结果,而影响经济主体进行选择的自变量。如果选择响应YES的概率为,那么经济主体选择响应NO的概率为,那么=。根据经典线性回归,我们知道其总体回归方程是条件期望建立的,这使我们想象可以构造线性概率模型描述两个响应水平的线性概率回归模型可推知,根据统计数据得到的回归结果并不一定能够保证回归模型的因变量拟合值界于[0,1]。如果通过回归模型式得到的因变量拟合值完全偏离0或l两个数值,那么描述两项选择的回归模型的实际用途就受到很大的限制。为防止出现回归模型的因变量预测值偏离0或1的情形,需要限制因变量的取值范围并对回归模型式进行必要的修正。由于要对其进行修正,那么其模型就会改变,模型改变会导致似然函数改变,这就是我们下面要讨论的。现在我们讨论的模型与判别分析的目的是一样的,但有区别。§2二元离散选择模型一、效用函数为了使得二元选择问题的有进一步研究可能,首先建立一个效用函数。在讨论家庭是否购房的问题中,可将家庭购置住房的决策用数字1表示,而将家庭不购置住房的决策用数字0表示。用表示第个人选择买房的效用,表示第个人选择不买房的效用。其效用均为随机变量,于是有〔1〕将(1)-(2),得记:那么有,格林称该模型为潜回归。这是二元选择模型的切入点。称为过渡变量〔潜在的〕,这个变量是不可观测的。当效用差大于零,那么应该选“1”,即购房;当效用差小于零,那么应该选“0”,即不购房。故此处已经通过,将自变量与事件发生的概率联系起来了。为概率提供了一个潜在的结构模型。现在的问题是服从何种分布?既然是分布函数,那么必须满足分布函数的条件.二、两类常用的模型根据以上的分析,我们的问题已经转化为作为有什么形状,即密度函数具有什么样的函数形式。采用累积标准正态概率分布函数的模型称作Probit模型,或概率单位模型,用正态分布的累积概率作为Probit模型的预测概率。另外logistic函数也能满足这样的要求,采用logistic函数的模型称作logit模型,或对数单位模型。注:分布在此时是以y轴为对称。〔一〕Logit模型因为如果我们取F〔.〕为逻辑函数〔LOGIT〕,即〔满足分布函数的条件〕,有为了更简化模型,我们令,,那么有==〔非线性〕〔广义非线性〕〔2〕称〔2〕式为逻辑斯蒂回归模型。〔二〕PROBIT模型更为一般的情形,如果选择F〔.〕是标准正态分布,那么产生PROBIT回归模型。〔3〕称〔3〕式为PROBIT回归模型。注Probit曲线和logit曲线很相似。标准正态概率分布曲线logistic分布曲线使用哪个分布是一个很自然的问题,logit曲线除了在尾部比正态分布厚得多以外,两条曲线都是在pi处有拐点,logit曲线更接近一个自由度为7的t分布〔格林书认为自由度是4的t分布〕。所以,对于的中间值〔比方到1.2之间〕来说,两种分布会给出类似的概率,但是当非常小时,逻辑斯蒂回归模型比PROBIT回归模型倾向于给出〔〕较大的概率值,而在非常大时,倾向于给出〔〕较小的概率值。利用函数式可以得到的概率值见表一。表一Probit模型和logit模型概率值yi正态分布函数pi=逻辑概率分布pi=3特点尾薄尾厚§3二元离散选择模型最大似然估计下面我们来构造二元离散选择模型的似然函数。这是二元离散选择模型最关键的问题。因为我们假设有以Y轴为对称的概率密度函数f(.),那么于是模型的似然函数为两边同时取自然对数,那么对数似然函数最大化的条件是〔4〕一、对数单位模型的似然函数将和代入〔4〕,那么似然方程为。假设包含常数项,那么一阶条件意味着预测概率的平均值一定等于样本中“1”的比率。对数单位模型对数似然函数的二阶导数为二、概率单位模型的似然函数如果是正态分布,那么对数似然函数为概率单位模型的对数似然函数的二阶导数为:。〔例一〕在一次住房展销会上,与房地产商签订初步购房意向书的共有325名顾客,在随后的3个月的时间内,只有一局部顾客确实购置了房屋。购置了房屋的顾客记为“1”,没有购置的人记为“0”。以顾客的年家庭收入为自变量X,根据表二资料,分析收入万元的家庭买房的可能性。程序如下。dataa;inputxnr;cards;;proclogisticdata=a;outputout=llp=phat;modelr/n=x/link=normit;procprintdata=ll;run;表二例一的分组数据资料年家庭收入〔万元〕签订意向书人数〔人〕实际购房人数〔人〕25832135826522243203922281621211510分别用LOGIT和PROBIT模型讨论这个问题。表三LOGIT模型名称参数估计值标准差Wald统计量自由度显著性水平Exp(B)常数项1<.0001X

1<.0001表四probit模型名称参数估计值标准差Wald统计量自由度显著性水平常数项1<.0001X0.034019.71451<.0001§4多元离散选择模型多种选择的情形存在着几种决策,这是在三个或三个以上的备择中选择一个决策。有两种决策集,有序的和无序的。例如,对某个候选人的态度:赞成,反对和弃权中的选择是无序的。客户的信用等级1,2,3,4,5级中的选择是有序的。有序和无序的情形使用相当不同的技术。由于目前许多有序离散回归模型的应用,故先讨论有序情形。一、有序Logistic模型及其估计排序多元离散选择模型问题普遍存在于经济生活中。其模型的构建为:设,是不可观测的,人们观测到的是〔5〕是门槛〔threshole〕值。根据两水平的Logit模型的思路,有〔6〕将〔6〕变形,有〔〕那么有其中=1,表示第个个体选择了第个水平;=0,表示第个个体没有选择第个水平;;。解方程,得的极大似然估计。二.有序Probit模型及其估计假设假定服从正态分布,且有零均值,方差为1,那么那么其似然函数为:两边取自然对数,有再对求导数并令其为零,解出方程组中的,得到模型参数的极大似然解。〔例二〕下表是某金融机构客户的个人资料,这些资料对一个金融机构来说,对于客户信用度的了解至关重要,因为利用这些资料,可以挖掘出许多的信息,建立客户的信用度评价体系。所选变量为:x1:月收入x2:月生活费支出x3:虚拟变量,住房的所有权,自己的为“1”,租用的“0”x4:目前工作的年限x5:前一个工作的年限x6:目前住所的年限x7:前一个住所的年限x8:家庭赡养的人口数type:信用程度,“5”的信用度最高,“1”的信用度最低。dataa;inputx1-x8type;cards;3000 1500 0 2 8 6 2 5 3850 425 1 3 3 25 25 1 31000 3000 0 0.1 0.3 0.1 0.3 4 19000 2250 1 8 4 5 3 2 54000 1000 1 3 5 3 2 1 43500 2500 0 0.5 0.5 0.5 2 1 12200 1200 1 6 3 1 4 1 34500 3500 0 8 2 10 1 5 21200 1000 0 0.5 0.5 1 0.5 3 1800 800 0 0.1 1 5 1 3 17500 3000 1 10 3 10 3 4 53000 1000 1 20 5 15 10 1 52500 700 1 10 5 15 5 3 53000 2600 1 6 1 3 4 2 27000 3700 1 10 4 10 1 4 43000 2800 0 1 2 3 4 3 14500 1500 1 6 4 4 9 3 4;proclogisticdata=aoutest=test;outputout=lllp=phat;modeltype=x1x2/rsqscale=noneaggregatecovb;procprintdata=test;run;程序的局部输出AnalysisofMaximumLikelihoodEstimatesStandardWaldParameterDFEstimateErrorChi-SquarePr>ChiSqIntercept11-0.x11x21注:为什么这是4条平行线,不是5条,也不是一条?这是因为有序离散选择模型都是预测的累计概率,最后的一类可以推算。该模型的形状为Obsx1x2type_LEVEL_phat1300015003123000150032330001500334300015003458504253168504253278504253388504253491000300011101000300012111000300013121000300014139000225051149000225052159000225053169000225054§5模型的其它问题一、模型的假定条件1、数据来于随机样本2、因变量被假定为k个自变量的函数3、自变量无多重共线性4、因变量和自变量之间的关系是非线性的5、方差不变性问题对于存在异方差时,可以作如下处理。以PROBIT模型的异方差问题为例。1〕似然函数其中。如果是外生变量的函数,假设有如下的情形是影响随机干扰项方差的外生变量构成的向量,是斜率系数向量。特别如果是零向量,那么模型是等方差。设=1,表示第个个体选择了第个水平;=0,表示第个个体没有选择第个水平;;;那么模型的似然函数为:模型的对数似然函数为对分别求,的偏导数,并令其为零,那么和。解出和,可得估计模型。参看格林《计量经济分析》第五版中文版第736页。如果的t检验不显著,那么可以认为没有该种类型的异方差存在。2〕异方差的检验:模型是等方差的〔〕,:模型有异方差的〔〕,对数似然比检验步骤:1、建立无约束条件的模型,得模型的似然函数2、建立约束条件的模型,即的模型,得模型的似然函数3、检验的统计量:是两个模型的自由度之差。当原假设成立时,给定显著性水平,得临界值,如果,接受原假设,无异方差;,拒绝原假设,有异方差;6、不需要假定自变量是服从正态的。二、最大似然估计的性质1、渐近一致性2、渐近有效性3、渐近正态性三、模型估计的样本规模样本容量足够大时,统计量有好性质。§6回归模型评价一、拟合优度〔Goodnessoffit〕1、皮尔逊统计量(Pearson)在回归分析中我们常常引入自变量,在这里称为协变量〔covariate〕。在固定的样本规模n下,协变量类型越多,那么每个协变量分组越多,那么每组中的个案那么越少。皮尔逊统计量检验协变量分组中,预测的次数与观测的次数之间是否拟合得很好。协变量类型中的实际观测值的与预测值没有差异协变量类型中的实际观测值的与预测值有显著差异统计量为〔7〕当样本容量足够大是该统计量服从自由度为J-k-1的分布。其中J是种类数,k是自变量个数。这个统计量是如何计算的呢?例三、续例二。原始类预测到某类的概率〔〕实际观测到的频率第一类3036566813011504E-142E-07401130201111505050202401140第二类30301050000505E-0740103021101050505021401040第三类3131105040103120101050505020401040第四类3030105041103020101050505020411041合计该题的统计量为与我们用SAS计算出的结果一致。 2、偏差观测值与预测值的拟合优度,还可以用对数似然函数表示。以为设定模型的极大似然函数,它概括了样本数据由这个模型所拟合的程度,想象有一个完美的模型,为极大似然函数。〔8〕:设定模型与最完美的模型没有显著性差异;:最完美的模型比设定模型好。这个最完美的模型只可想象,是存在的,但不可及。当值相对较小时,那么较大,支持设定模型与饱和模型有显著的差异,设定模型不佳。如果当值相对几乎相等,那么较小,设定模型拟合情况好,D与线性回归模型的残差方差十分类似。实际上该检验的在SAS中的统计量就是对数似然函数的-2倍除以〔协变量类型个数减估计参数〕,即。注:局限性是不宜用在连续协变量情形。当模型中的协变量为连续性变量时,和皮尔逊统计量那么不适合,因为协变量过多的拟合值,导致了过多的协变量类型。如客户信用度的评价问题,其拟合优度检验的结果如下:DevianceandPearsonGoodness-of-FitStatisticsCriterionDFValueValue/DFPr>ChiSqDeviance62ModelFitStatisticsInterceptInterceptandCriterionOnlyCovariatesSC-2LogL53.1893、Hosmer-Lemeshow拟合指标Hosmer-Lemeshow拟合指标仅仅针对二值响应的模型。当连续性变量作为协变量进入模型,协变量类型〔组〕太多,会导致一些协变量类型中不存在任何样本点。在样本容量n一定的条件下,每个协变量组中的个案数太少。Hosmer-Lemeshow拟合指标的思想是:将预测概率值数据分为大致相等规模的10个组,将观测值按其预测概率升序排列。第一组包括估计概率最小的组,最后一组包括估计概率最大的组。〔9〕其中〔〕代表分类组数,为第组中的案例数;为第组事件的观测数量;为事件的预测数。用SAS的LOGISTIC模块的LACKFIT可以计算出Hosmer-Lemeshow统计量,但是仅仅对二值响应模型。〔例四〕续例一。例一的资料是分组资料,如果我们资料是未分组资料,估计一个年收入在8万元客户不买房的概率。程序如下dataa;inputxclass@@;cards;1.5 0 2.5 0 3.5 0 4.5 0 5.5 0 6.5 0 7.5 0 8.5 1 9.5 01.5 0 2.5 0 3.5 0 4.5 0 5.5 0 6.5 0 7.5 0 8.5 1 9.5 01.5 0 2.5 0 3.5 0 4.5 0 5.5 0 6.5 0 7.5 0 8.5 1 9.5 01.5 0 2.5 0 3.5 0 4.5 0 5.5 0 6.5 0 7.5 0 8.5 1 9.5 01.5 0 2.5 0 3.5 0 4.5 0 5.5 0 6.5 0 7.5 0 8.5 1 9.5 01.5 0 2.5 0 3.5 0 4.5 0 5.5 0 6.5 0 7.5 0 8.5 1 9.5 11.5 0 2.5 0 3.5 0 4.5 0 5.5 0 6.5 0 7.5 0 8.5 1 9.5 11.5 0 2.5 0 3.5 0 4.5 0 5.5 0 6.5 0 7.5 0 8.5 1 9.5 11.5 0 2.5 0 3.5 0 4.5 0 5.5 0 6.5 0 7.5 0 8.5 1 9.5 11.5 0 2.5 0 3.5 0 4.5 0 5.5 0 6.5 0 7.5 0 8.5 1 9.5 11.5 0 2.5 0 3.5 0 4.5 0 5.5 0 6.5 0 7.5 0 8.5 1 9.5 11.5 0 2.5 0 3.5 0 4.5 0 5.5 0 6.5 0 7.5 0 8.5 1 9.5 11.5 0 2.5 0 3.5 0 4.5 0 5.5 0 6.5 0 7.5 1 8.5 1 9.5 11.5 0 2.5 0 3.5 0 4.5 0 5.5 0 6.5 0 7.5 1 8.5 1 9.5 11.5 0 2.5 0 3.5 0 4.5 0 5.5 0 6.5 0 7.5 1 8.5 1 9.5 11.5 0 2.5 0 3.5 0 4.5 0 5.5 0 6.5 0 7.5 1 8.5 1 1.5 02.5 0 3.5 0 4.5 0 5.5 0 6.5 0 7.5 1 8.5 11.5 1 2.5 03.5 0 4.5 0 5.5 0 6.5 1 7.5 1 8.5 11.5 1 2.5 0 3.5 04.5 0 5.5 0 6.5 1 7.5 1 8.5 11.5 1 2.5 1 3.5 0 4.5 05.5 0 6.5 1 7.5 1 8.5 11.5 1 2.5 1 3.5 0 4.5 0 5.5 06.5 1 7.5 1 8.5 11.5 1 2.5 1 3.5 0 4.5 0 5.5 0 6.5 17.5 1 1.5 1 2.5 1 3.5 0 4.5 0 5.5 0 6.5 1 7.5 1 1.5 12.5 1 3.5 0 4.5 0 5.5 1 6.5 1 7.5 1 1.5 1 2.5 1 3.5 04.5 0 5.5 1 6.5 1 7.5 1 2.5 1 3.5 0 4.5 0 5.5 1 6.5 17.5 1 2.5 1 3.5 0 4.5 0 5.5 1 6.5 1 7.5 1 2.5 1 3.5 04.5 0 5.5 1 6.5 1 7.5 1 2.5 1 3.5 0 4.5 0 5.5 1 6.5 12.5 1 3.5 0 4.5 0 5.5 1 6.5 1 2.5 1 3.5 0 4.5 1 5.5 16.5 1 2.5 1 3.5 0 4.5 1 5.5 1 6.5 1 3.5 1 4.5 1 5.5 16.5 13.5 1 4.5 1 5.5 1 6.5 13.5 1 4.5 1 5.5 1 6.5 13.5 1 4.5 1 5.5 1 6.5 13.5 1 4.5 1 5.5 1 6.5 1 3.5 14.5 1 5.5 1 6.5 13.5 1 4.5 1 5.5 1 6.5 1 3.5 1 4.5 15.5 1 3.5 1 4.5 1 5.5 13.5 1 4.5 1 5.5 1 3.5 1 4.5 15.5 1 3.5 1 4.5 1 3.5 1 4.5 1 3.5 1 4.5 1 3.5 1 4.5 13.5 1 4.5 1 3.5 1 4.5 13.5 1 4.5 13.5 1 4.5 13.5 14.5 13.5 13.5 13.5 13.5 13.5 13.5 18.0.procprint;run;proclogisticdata=aoutest=test;outputout=lllp=phat;modelclass=x/rsqscale=noneaggregatecovblackfit;procprintdata=lll;run; StandardWaldParameterDFEstimateErrorChi-SquarePr>ChiSqIntercept11.19920.302415.7206<.0001x1-0.24300.056018.8443<.0001模型为预测概率分组该组实际个案该组实际个案观测到取“0”的数该组期望次数126522812339174432355230658327321982517合计PartitionfortheHosmerandLemeshowTestclass=0class=1GroupTotalObservedExpectedObservedExpectedHosmerandLemeshowGoodness-of-FitTestChi-SquareDFPr>ChiSq4、信息测量指标另一些评价模型好坏的指标是信息测量指标。它们是AIC,BIC和SC准那么函数。假设干个模型相比,一般来说AIC、BIC和SC准那么函数越小越好。〔二〕回归模型预测准确性1、类指数Cox和Snell(1989),Maddala(1983)以及Magee(1990)建议,用表示模型预测情况的优劣。Nagelkerke在1991年提出调整了的。,。其中:是零模型的对数似然函数值,相当于线性回归分析中的总离差平方和;是设定模型的对数似然函数值,相当于线性回归分析中的残差平方和;是样本容量。与线性模型的类似,模型的拟合情况越好,越靠近1。ModelFitStatisticsCriterionInterceptOnlyInterceptandCovariatesAICSC-2LogLL类确定系数有许多重要性质:1.与经典的的定义一致;2.对于模型参数的最大似然估计可以保证取得最大值;3.有渐近独立于样本容量的性质;4.它可以理解为变异中被解释的比例。〔三〕预测概率与观测值之间的关联模型的拟合情况好坏的第二种测量方法是建立在观测的反响变量和模型预测的条件概率之间关联的根底上的,这种测量的指标为秩相关指标。例如两水平的情况。例子首先通过一个例子来讨论这个问题。样本序号12345观测值01010预测到第一类的概率本例中,反映变量“0”有3个,“1”的有2个,样本点的配对可以有2*3=6个,为〔1,2〕〔2,3〕〔3,4〕〔4,5〕〔2,5〕〔1,4〕。〔1,2〕〔2,3〕〔4,5〕〔2,5〕〔1,4〕是和谐的nc=5;〔3,4〕不和谐nd=1。定义:在一个观测数据对中,如果观测到应变量的值为的时,预测到的概率大,那么称其为和谐的。。2、指标种类Gamma=〔10〕【(5-1)÷】〔11〕【(5-1)÷6=0.6667】〔12〕【(5-】〔13〕其中n为样本观测案例总数,t为拥有不同反映值的观测数据对总数。nc为和谐对数量,nd为不和谐对的数量。如果某个模型在统计量上有比拟高的值,说明模型的预测能力较好。AssociationofPredictedProbabilitiesandObservedResponses指标数值指标数值PercentConcordantSomers'DPercentDiscordantGammaPercentTiedTau-aPairs113c这里样本点数对是113,是按如下的方式组合的。反映变量为1的有5个观测,其他12个,配对60个;反映变量为2的有2个观测,其他15个,配对30个;反映变量为3的有3个观测,其他14个,配对42个;反映变量为4的有3个观测,其他14个,配对42个;反映变量为5的有4个观测,其他13个,配对52个;合计226对组合,226/2=113。〔三〕分类表预测类合计原始类……合计正判率=错判率两种不同的方法建立分类表:1〕将样本随机分为两份,一份用来培训模型,一份用来检测模型。2〕交叉核实。用去掉一个样本点,建立培训模型,将去掉的这个点代入模型,观测预测类别,列出判别情况。〔三〕模型的统计量所谓模型的统计量是零假设模型与所设模型之间的差距。用LR检验的根本思路是:如果约束条件成立,那么相应约束模型与非约束模型的极大似然函数值应该是近似相等的。如果约束条件不成立,那么非约束模型的极大似然函数值应该比约束模型极大似然函数大得多。用表示设定模型的对数极大似然函数。其中和分别是对〔参数集合〕,的极大似然估计。用表示模型的对数极大似然函数。其中和分别是对和的极大似然估计。定义似然比〔LR〕统计量为〔14〕中括号内是两个似然函数之比的对数〔似然比检验由此而得名〕。在零假设约束条件成立条件下其中m表示约束条件个数。用样本计算LR统计量。判别规那么是,假设,那么接受零假设,约束条件成立。假设,那么拒绝零假设,约束条件不成立。如例三,其模型的统计量服从分布。ModelFitStatisticsInterceptInterceptandCriterionOnlyCovariates-2LogLTestingGlobalNullHypothesis:BETA=0TestChi-SquareDFPr>ChiSqLikelihoodRatio23.98332<.0001Wald9.5472〔四〕Wald检验与似然比检验相比,W检验的一个直接的优点就是只需估计无约束模型。当约束模型的估计很困难时,此方法尤其适用。W检验由沃尔德〔Wald1943〕提出,适用于线性与非线性约束条件的检验。W检验的原理是测量无约束估计量与约束估计量之间的距离,严格说是马氏距离。结论一,与二次型有关的统计量设独立同正态分布,其中是均值向量,是协方差矩阵。那么首先对变量进行标准化那么可见服从维的标准正态分布。因为相互独立的标准正态分布的平方和为自由度为的卡方分布,所以结论成立。特别当总体的协方差矩阵未知时,可以用样本的协方差矩阵来估计,那么结论二,Wald检验的假设和统计量对于假设检验问题,设检验的统计量为,是的无偏估计量,有那么当样本容量足够大,那么,进而有在成立的条件下,几何含义是两个极大似然估计量的距离。;至少一个不为零。估计参数的协方差矩阵Intercept_Intercept_Intercept_Intercept_Parameter1234x1x2x1-0.00002-0.00018-0.00093-0.001436.781E-7-9E-7x2-0.00044-0.00018〔五〕Score检验.与W检验不同的是拉格朗日〔Lagrange〕乘数〔LM〕检验只需估计约束模型。所以当施加约束条件后模型形式变得简单时,更适用于这种检验。LM检验是由艾奇逊—西尔维〔Aitchison-Silvey1960〕提出的。LM检验另一种表达式是由拉奥〔Rao1948〕提出的,称为得分检验。拉格朗日乘数检验的统计量为其中为无约束模型的一阶导数在有约束参数向量处的取值,而是极大似然估计量的三个渐近协方差矩阵估计量中的一个,同样也是在有约束参数向量处的取值。 §7回归系数的解释一、发生比和发生比率发生比〔odds〕是事件的发生频数与不发生频数之间的比。odds=〔事件发生的频数〕/〔事件不发生的频数〕注1:时机比率,成败比。注2:发生比率。例如,下表是关于性别和考上学校的类别的资料,我们利用该资料计算发生比和发生比率。协变量观测结果是否重点大学男性885434女性44935非重点大学男性462205257女性40667339

,说明参加考试的男生,考上大学的时机是没有考上时机的倍。,说明参加考试的女生,考上大学的时机是没有考上时机的倍。 ,男生与女生的时机比率相比为,说明男生考上大学的可能性比女生更大。按发生比率来解释Logistic回归系数的含义是当其它变量不发生变化时,增加一个单位,对发生比率而言平均增减。例如,其它变量不变,而增加一个单位,那么提示1:系数的符号或数值的大小实际上影响的时机比。几乎所有的统计软件,在Logistic回归模型中输出参数估计值的同时也给出了,这就使我们非常容易得到回归系数的解释。提示2:如果系数是负的,那么就小于1,说明其它变量不发生变化时,增加一个单位,增加一个单位的时机比可望比不增加一个单位的时机比小。注:PROBIT模型,系数含义是当其它变量不发生变化时,增加一个单位,累计概率而言平均增减。〔三〕用概率来解释自变量的作用 可见,当变量变化时,其可望变化为。〔四〕预测概率1、两水平的情形正如线性回归模型能够预测一样,根据离散选择模型我们可以获得事件发生的预测概率。例如估计出的模型为根据估计出的模型,讲某个个案的自变量的观测值带入上式,那么可以计算出概率〔或〕的预测值。2、多水平的情形再根据概率越大的事件越可能发生的原理,估计可能的选择。例:几种奶酪添加剂对奶酪的效果。共四种,用虚拟变量,和表示四种不同的添加剂。第一种:=1,和均为零;第二种:=1,和均为零;第三种:=1,和均为零;第四种:,和均为零;考虑的口感等级为1—9,从很不喜欢到十分好吃。dataa;inputx1x2x3yfreq@@;cards;1001010020100311004710058100681007191008810091010160102901031201041101057010660107101080010900011100121001360014800152300167001750018100190000100002000030000410005300067000714000816000911;proclogisticdata=a;freqfreq;modely=x1-x3/link=normit;run;输出结果:TheLOGISTICProcedureResponseProfileOrderedTotalValueyFrequency11722103319442755416628773988259912ModelConvergenceStatusTheLOGISTICProcedureModelFitStatisticsInterceptInterceptandCriterionOnlyCovariatesAIC875.802SC902.502-2LogL859.802TestingGlobalNullHypothesis:BETA=0TestChi-SquareDFPr>ChiSqLikelihoodRatio152.41113<.0001Score

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论