Probit回归概率单位回归_第1页
Probit回归概率单位回归_第2页
Probit回归概率单位回归_第3页
Probit回归概率单位回归_第4页
Probit回归概率单位回归_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

会计学1Probit回归概率单位回归Logistic回归因变量二项Logistic回归多项Logistic回归有序回归Probit回归第1页/共29页第15章Probit回归(概率单位回归)15.1Probit回归的基本原理15.2Probit回归的案例分析第2页/共29页15.1Probit回归的基本原理Probit回归即概率单位回归,主要用来测试分析刺激强度与反应比例之间关系的关系。例如,对于指定数量的病人,分析他们的给药剂量与治愈比例之间的关系。此方法应用的典型例子是分析杀虫剂浓度和杀死害虫数量之间的关系,并据此判断什么样的剂量浓度是最佳的。Probit回归适用于对反应变量(因变量)为分类变量的资料进行统计分析,也存在反应变量为二分类、有序多分类、无序多分类三种情况,但目前最常用的是二分类的情形,SPSS也仅能处理反应变量为二分类的资料。第3页/共29页15.1Probit回归的基本原理Probit回归与Logistic回归相似,也是拟合0-1型因变量回归的方法,即把取值分布在实数范围内的变量通过累积概率函数转换成取值分布在(0,1)区间的概率值。所得概率分布的表达式为:Probit回归常用的累积概率函数有两个:(1)logit概率函数:通过变换可以得到另一种等价形式:第4页/共29页(2)标准正态累计概率函数:单一解释变量:多变量:分别为标准正态分布的分布函数与密度函数。15.1Probit回归的基本原理据此建立的Probit回归模型:或第5页/共29页Probit模型的边际分析自变量的变化对响应概率(p)的影响:

一般情况下对连续变量,X取样本均值,指的是X在平均意义上每增加一个单位会导致事件发生的概率将会变化多少个单位。第6页/共29页15.1Probit回归的基本原理Probit回归的数据要求因变量(响应变量)应该是计数信息,记录在指定的自变量条件下,有响应的观测个数。自变量(因子变量)必须是分类变量且须用整数编码。观测量应该是独立的。如果自变量值的数量与观察值的数量相比过多,否则卡方检验和拟合优度检验是不适宜的对Probit过程的参数估计同样采用极大似然估计法,构建Probit过程时要求样本采取随机抽取方式抽取,即要求样本分布与总体分布具有同一性。概率回归时,最有用的是半数发生量。如收入到多少时,有一半家庭会购买。毒素浓度达到多少时,有一半的小白鼠会死亡。第7页/共29页15.1Probit回归的基本原理Probit回归与logistic回归的关系当Probit回归过程选择了Logit变换时,进行的统计分析过程就是Logistic回归。Logistic模型强调因变量的最终结果是发生还是不发生,其取值有明显的0~1分化。而概率回归研究的是在因变量具有两种相反属性时,随着自变量的变化,因变量取某属性的比例变化情况。如家庭购买电脑的比例与家庭人均收入之间的关系,研究的不是在某各收入水平下是否会购买,而是在不同的收入水平下购买的比例。一般情况下:Probit回归更适用于从有计划的试验中获得的数据,而Logistic回归更适用于直接的观测数据。Probit回归输出对各种响应比例有效值的估计,Logistic回归输出对自变量发生比(OR)的估计。第8页/共29页Probit曲线和logit曲线很相似。两条曲线都是在pi=0.5处有拐点,但logit曲线在两个尾部要比Probit曲线厚。累积正态概率分布曲线

Logistic分布函数第9页/共29页实际应用中,对于同一资料用Probit回归与Logistic回归分析的结果非常接近。但Logistic回归的应用比Probit回归更广泛。这是因为:Logistic回归中的偏回归系数可以计算其exp(b),即OR值,可以得到很好的直观解释与应用。Probit回归模型中偏回归系数的含义为其他自变量取值保持不变时自变量每改变一个单位,出现某结果的概率密度函数值的改变量。显然解释起来比较麻烦,远不如Logistic模型中,这也导致了研究者更喜欢使用Logistic模型。目前有很多针对Logistic回归模型的诊断及补救措施,而对于Probit回归而言而有信方面相对缺乏。当然,这类似"先有鸡还是先有蛋"的问题,很难说是因为模型诊断措施较多而导致了Logistic回归的更多应用,还是说因为Logistic回归更多的应用促进了其模型诊断措施的发展。第10页/共29页15.2Probit回归的案例分析例1:某医师希望研究病人的年龄(岁)、性别co为女性,1为男性)、心电图检验是否异常(ST段压低,0为正常、1为轻度异常、2为重度异常)与患冠心病是否有关,数据文件为“冠心病影响.sav”拟合Logistic回归模型因变量:ca;协变量:sex,ecg、ageexp(B):自变量增加一个单位,

总体研究对象患病率与未患病率的比值/倍数(优势比的变化率)。第11页/共29页15.2Probit回归的案例分析拟合probit回归模型SPSS默认变量取值=1表示出现阳性结果(患病)由于SPSS默认的是对频数表资料进行Probit回归分析,而本例资料并非各自变量不同取值水平组合的频数表资料,每一条记录表示一个观察对象,此处需指定一个频数变量count=1。其方法有如下几种:直接定义频数变量count,并录入数据1转换——计算变量:count=1语法:COMPUTEcount=1.

EXECUTE.第12页/共29页15.2Probit回归的案例分析拟合probit回归模型SPSS操作:分析——回归——probit前者为用标准正态累计概率函数的反函数来转换响应比例,后者为logit变换代表在自变量的指定水平下,对有响应的观测的计数信息,取值非负代表在自变量的指定水平下,总的观测计数,取值不能小于相应的响应频数变量值须为整数编码的分类变量,须指定最大和最小值代表不同的实验刺激条件设置变量转换函数,当协变量与概率之间不存在现行关系时,需要选择对协变量的转换方式默认为无,自动给出控制组第13页/共29页输出观测频数、预测频数、观测值的残差等。输出因素变量水平间的半数效应及其致信区间对所有因子水平具有共同的斜率这一假设的检验,若没有因子变量,则相关中位数力不可用输出指定响应比例的刺激剂量的置信区间当选入多个些变量,相关中位数力和信仰置信区间不可用,只有选入一个因素变量,两者才可以用指定在没有刺激的条件下(即剂量为0),是否有一个自然响应率无:没有自然响应率从样本数据估计其自然响应率值:输入指定的自然响应率,取值必须小于1。例如,如果当激励为0时响应在10%的时间里发生,则输入0.10。第14页/共29页共有78条非频数表资料记录纳入分析,其中66条记录出现阴性结果(ControlGroup)回归系数/标准误,即Z检验统计量p=Φ(-3.364+0.804•sex+0.520•ecg+0.056•

age)或者写成:probit(p)=-3.364+0.804•sex+0.520•ecg+0.0564•

age)显著!第15页/共29页参数估计值得协方差和相关性卡方检验:原假设是模型能很好地拟合数据,根据P>a接受原假设,故模型拟合较好平行检验:P>a,可以认为因素变量个分组的回归方程具有相同的斜率。第16页/共29页Probit回归系数的解释问题:以年龄age为例,其偏回归系数为0.056,表示当性别、心电图保持不变时,年龄每增加一岁,患冠心病的概率密度函数值增加0.056。进一步举例如下:设对于性别为男性、心电图检验结果为轻度异常、年龄30岁的人患冠心病的概率为0.40,则相应的概率密度函数值为-0.253,则相同性别、相同心电图检验结果,年龄为31岁者患冠心病的概率密度函数值为-0.253+0.056=-0.197,相应的概率为0.422。则30岁、31岁时患病与未患病的比值比分别为0.4/(1-0.4)=0.667、0.422/(1-0.422)=0.729,此时的OR值为0.729/0.667=1.094,与Logistic回归分析结果中的exp(β)=1.097一致。p=Φ(-3.364+0.804•sex+0.520•ecg+0.0564•

age)或者写成:probit(p)=-3.364+0.804•sex+0.520•ecg+0.0564•

age)第17页/共29页15.2Probit回归的案例分析例2:某公司在不同营业所(网上、货架、店铺)采用了不同的促销价格,请使用probit回归对不同促销价格和对促销有反馈的顾客数量之间的关系进行分析,并拟合响应模型。数据文件为:“促销效果评价数据.sav”第18页/共29页协变量和三个截距项对方程的作用都有显著意义显著!由此可得对三种营业场所的probit回归方程:网上:probit(p)=-7.219+1.88*ln(促销价格)货架:probit(p)=-7.613+1.88*ln(促销价格)店铺:probit(p)=-7.982+1.88*ln(促销价格)第19页/共29页自然响应率估计值:在没有促销活动的情况下,总顾客中仍会有4.1%的人购买产品。模型拟合非常好,因素变量各分组的回归方程具有相同的斜率,满足平行性假设条件第20页/共29页置信区间表:显示的是制定销售地点的相应概率。响应概率probit=0.5时,促销价格半数响应估计值:网上为46.518,货架为57.905,店铺69.8,可见网上促销最有效刺激强度反应比例第21页/共29页相对中位数强度估计值,即相对半数效应表。以第一行为例说明:第一行为网上促销(地点取值为1)对货架促销(地点取值为2)的相对半数效应,网上与货架半数效应比值的估计值为0.803,且其95%的直线区间不包含1,说明两者是有明显区别的,也就是说网上促销更有效,因为它能以较小的促销价格促使50%的顾客购买产品(即达到50%的响应率。)第22页/共29页响应概率与对数促销价格呈明显的现行趋势,说明对促销价格选择自然对数转换是比较合适的。如果不呈现明显线性趋势,可以尝试其他转换方法分析。网上促销的probit普遍大于其他两种方式第23页/共29页第24页/共29页序号性别年龄(岁)月收入(千元)序号性别年龄(岁)月收入(千元)10183.850151204.00020214.200161254.20030233.851171274.30040233.951181284.50050284.201191303.95160313.850201324.00070364.501211334.80080424.001221334.00090463.951231384.200100484.200241414.500110554.801251454.801120565

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论