




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第10章多元线性回归与相关学习目标熟悉多元线性回归模型矩阵形式;掌握多元线性回归模型、参数估计过程及参数的解释,标准化参数估计值;了解多元线性回归共线性的诊断问题;理解复相关系数与偏相关系数;掌握多元线性回归的SAS程序(REG过程以及选项)。熟悉计算偏相关系数的SAS程序。多元线性回归与相关的基础理论在许多实际问题中,还会遇到一个随机变量与多个变量的相关关系问题,需要用多元回归分析的方法来解决。前面介绍的一元回归分析是其特殊情形。但由于多元回归分析比较复杂,在此仅简要介绍多元线性回归分析。由于经济现象的复杂性,一个被解释变量往往受多个解释变量的影响。多元回归模型就是在方程式中有两个或两个以上自变量的线性回归模型。多元线性回归预测是用多元线性回归模型,对具有线性趋势的税收问题,使用多个影响因素所作的预测。多元线性回归多元线性回归分析也称为复线性回归分析,它是一元线性回归分析或简单线性回归分析的推广,它研究的是一组自变量如何直接影响一个因变量。这里的自变量指的是能独立自由变化的变量,一般用x表示;因变量y指的是非独立的、受其它变量影响的变量,一般用y表示。由于多元线性回归分析(包括一元线性回归分析)仅涉及到一个因变量,所以有时也称为单变量线性回归分析。回归变量的选择与逐步回归在实际问题中,人们总是希望从对因变量有影响的诸多变量中选择一些变量作为自变量,应用多元回归分析的方法建立“最优”回归方程以便对因变量进行预报或控制,这就涉及到自变量选择的问题。所谓“最优”回归方程,主要是指希望在回归方程中包含所有对因变量影响显著的自变量而不包含对影响不显著的自变量的回归方程。在回归方程中若漏掉对Y影响显著的自变量,那么建立的回归式用于预测时将会产生较大的偏差。但回归方程若包含的变量太多,且其中有些对Y影响不大,显然这样的回归式不仅使用不方便,而且反而会影响预测的精度。因而选择合适的变量用于建立一个“最优”的回归方程是十分重要的问题。回归变量的选择与逐步回归选择“最优”回归方程的变量筛选法包括逐步回归法,向前引入法和向后剔除法。向前引入法是从回归方程仅包括常数项开始,把自变量逐个引入回归方程。具体地说,先在m个自变量中选择一个与因变量线性关系最密切的变量,记为,然后在剩余的m-1个自变量中,再选一个,使得联合起来二元回归效果最好,第三步在剩下的m-2个自变量中选择一个变量,使得联合起来回归效果最好,...如此下去,直至得到“最优”回归方程为止。回归变量的选择与逐步回归向前引入法中的终止条件为,给定显著性水平,当某一个对将被引入变量的回归系数作显著性检查时,若p-value≥,则引入变量的过程结束,所得方程即为“最优”回归方程。向前引入法有一个明显的缺点,就是由于各自变量可能存在着相互关系,因此后续变量的选入可能会使前面已选入的自变量变得不重要。这样最后得到的“最优”回归方程可包含一些对Y影响不大的自变量。回归变量的选择与逐步回归向后剔除法与向前引入法正好相反,首先将全部m个自变量引入回归方程,然后逐个剔除对因变量Y作用不显著的自变量。具体地说,从回归式m个自变量中选择一个对Y贡献最小的自变量,比如,将它从回归方程中剔除;然后重新计算Y与剩下的m-1个自变量回归方程,再剔除一个贡献最小的自变量,比如,依次下去,直到得到“最优”回归方程为止。向后剔除法中终止条件与向前引入法类似。向后剔除法的缺点在于,前面剔除的变量有可能因以后变量的剔除,变为相对重要的变量,这样最后得到的“最优”回归方程中有可能漏掉相对重要的变量。回归变量的选择与逐步回归逐步回归法是上述两个方法的综合。向前引入中被选入的变量,将一直保留在方程中。向后剔除法中被剔除的变量,将一直排除在外。这两种方程在某些情况下会得到不合理的结果。于是,可以考虑到,被选入的的变量,当它的作用在新变量引入后变得微不足道时,可以将它删除;被剔除的变量,当它的作用在新变量引入情况下变得重要时,也可将它重新选入回归方程。这样一种以向前引入法为主,变量可进可出的筛选变量方法,称为逐步回归法。回归变量的选择与逐步回归它的主要思路是在考虑的全部自变量中按其对的作用大小,显著程度大小或者说贡献大小,由大到小地逐个引入回归方程,而对那些对作用不显著的变量可能始终不被引人回归方程。另外,己被引人回归方程的变量在引入新变量后也可能失去重要性,而需要从回归方程中剔除出去。引人一个变量或者从回归方程中剔除一个变量都称为逐步回归的一步,每一步都要进行检验,以保证在引人新变量前回归方程中只含有对影响显著的变量,而不显著的变量已被剔除。首先给出引入变量的显著性水平和剔除变量的显著性水平,然后筛选变量。回归变量的选择与逐步回归回归变量的选择与逐步回归逐步回归分析的实施过程是每一步都要对已引入回归方程的变量计算其偏回归平方和(即贡献),然后选一个偏回归平方和最小的变量,在预先给定的水平下进行显著性检验,如果显著则该变量不必从回归方程中剔除,这时方程中其它的几个变量也都不需要剔除(因为其它的几个变量的偏回归平方和都大于最小的一个更不需要剔除)。相反,如果不显著,则该变量要剔除,然后按偏回归平方和由小到大地依次对方程中其它变量进行检验。将对影响不显著的变量全部剔除,保留的都是显著的。接着再对未引人回归方程中的变量分别计算其偏回归平方和,并选其中偏回归平方和最大的一个变量,同样在给定水平下作显著性检验,如果显著则将该变量引入回归方程,这一过程一直继续下去,直到在回归方程中的变量都不能剔除而又无新变量可以引入时为止,这时逐步回归过程结束。多重共线性回归分析是一种比较成熟的预测模型,也是在预测过程中使用较多的模型,在自然科学管理科学和社会经济中有着非常广泛的应用,但是经典的最小二乘估计,必需满足一些假设条件,多重共线性就是其中的一种。实际上,解释变量间完全不相关的情形是非常少见的,大多数变量都在某种程度上存在着一定的共线性,而存在着共线性会给模型带来许多不确定性的结果。多重共线性设回归模型ε如果矩阵X的列向量存在一组不全为零的数,I=1,2,…n,则称其存在完全共线性,如果,I=1,2,…n,则称其存在近似的多重共线性。多重共线性当存在严重的多重共线性时,会给回归系数的统计检验造成一定的困难,可能造成F检验获得通过,T检验却不能够通过。在自变量高度相关的情况下,估计系数的含义有可能与常识相反。在进行预测时,因为回归模型的建立是基于样本数据的,多重共线性也是指抽样的数据。如果把建立的回归模型用于预测,而多重共线性问题在预测区间仍然存在,则共线性问题对预测结果不会产生特别严重的影响,但是如果样本数据中的多重共线性发生了变化则预测的结果就不能完全的确定了。多重共线性检验检查和解决自变量之间的多重共线性,多多元线性回归分析来说是很必要和重要的一个步骤,常用的共线性诊断方法包括:直观的判断方法方差扩大因子法(VIF)特征根判定法直观的判断方法在自变量的相关系数矩阵中,有某些自变量的相关系数值比较大。回归系数的符号与专业知识或一般经验相反对重要的自变量的回归系数进行t检验,其结果不显著,但是F检验确得到了显著的通过如果增加一个变量或删除一个变量,回归系数的估计值发生了很大的变化重要变量的回归系数置信区间明显过大方差扩大因子法(VIF)一般认为如果最大的超过10,常常表示存在多重共线性。事实上>10这说明>0.9。特征根判定法根据矩阵行列式性质,矩阵行列式的值等于其特征根的连乘积。因此,当行列式||≈0时,至少有一个特征根为零,反过来,可以证明矩阵至少有一个特征根近似为零时,X的列向量必存在多重共线性,同样也可证明有多少个特征根近似为零矩阵X就有多少个多重共线性。根据条件数,其中为最大的特征根.为其他的特征根,通常认为0<k<10,没有多重共线性,k>10存在着多重共线性。多重共线性的处理方法增加样本容量,当线性重合是由于测量误差引起的以及他仅是偶然存在于原始样本,而不存在于总体时,通过增加样本容量可以减少或是避免线性重合,但是在现实的生活中,由于受到各种条件的限制增加样本容量有时又是不现实的剔除一些不重要的解释变量,主要有向前法和后退法,逐步回归法。多重共线性的处理方法前进法的主要思想是变量由少到多的,每次增加一个,直至没有可引入的变量为止。具体做法是首先对一个因变量y和m个自变量分别建立回归方程,并分别计算这m个回归方程的F值,选其最大者,记为Fj,,给定显著性水平F,如果Fj>F,则变量引入该方程,再分别对(Xj,X1),(Xj,X2)…(Xj,Xm)做回归方程,并对他们进行F检验,选择最大的Fi值,如果Fi.>F,则该变量引入方程,重复上述步骤,直到没有变量引入为止。后退法,是先用m个因变量建立回归方程,然后在这m个变量中选择一个最不显著的变量将它从方程中剔除,对m个回归系数进行F检验,记所求得的最小的一个记为Fj,给定一个显著性的水平,如果Fj<F则将Xj从方程中删除,重复上述步骤直到所有不显著的变量被剔除为止。多重共线性的处理方法逐步回归法,前进法存在着这样的缺点当一个变量被引入方程时,这个变量就被保留在这个方程中了,当引入的变量导致其不显著时,它也不会被删除掉,后退法同样存在着这样的缺点,当一个变量被剔除时就永远的被排斥在方程以外了,而逐步回归法克除了两者的缺点。逐步回归的思想是有进有出。将变量一个一个的引入,每引入一个变量对后面的变量进行逐个检验,当变量由于后面变量的引入而不变的不显著时将其剔除,进行每一步都要进行显著性的检验,以保证每一个变量都是显著的。多重共线性的处理方法主成分法。当自变量间有较强的线性相关性时,利用P个变量的主成分,所具有的性质,如果他们是互不相关的,可由前m个主成来建立回归模型。由原始变量的观测数据计算前m个主成分的的得分值,将其作为主成分的观测值,建立Y与主成分的回归模型即得回归方程。这时P元降为m元,这样既简化了回归方程的结构,且消除了变量间相关性带来的影响。复相关系数与偏相关系数在学习一元线性回归分析时,讨论了与之紧密联系的一元相关分析或简单相关分析。将这个概念扩展到多元,就是多元相关分析或复相关分析。简单相关分析研究两个变量之间的关联性,复相关研究多个变量之间的关联性。复相关系数复相关系数是指在具有多元相关关系的变量中,用来测定因变量y与一组自变量之间相关程度的指标。
复相关系数的计算公式为:偏向关系数偏相关系数度量了当其它变量固定不变时,或者说,消除了其它变量的影响之后,两个变量之间线性关联的强度。设有三个变量,如果在三个变量中,剔除的影响,可计算对偏向关系数,记作,其计算公式为:
偏向关系数如果在这三个变量中,剔除的影响,可计算、对偏向关系数,记作,其计算公式为:偏向关系数偏向关系数如果在这三个变量中,剔除的影响,可计算、对偏向关系数,记作,其计算公式为:多元相关分析与多元回归分析的区别比较多元相关分析与多元回归分析,它们的相同点是都讨论了变量之间的关联性。区别是:①多元回归分析给出了变量之间的依存关系,而多元相关分析却没有给出依存关系;②多元回归分析要求将变量分为自变量和因变量,而多元相关分析不要求将变量分为自变量和因变量;③分为自变量和因变量要求因变量服从正态分布,而多元相关分析要求所有变量服从正态分布。多元相关分析与多元回归分析的区别同样,比较多元相关分析与多元回归分析,有三对概念需要加以区别:回归系数和相关系数;偏回归系数和偏相关系数;确定系数和复相关系数。本章小节多元线性回归分析也称为复线性回归分析,它是一元线性回归分析或简单线性回归分析的推广,它研究的是一组自变量如何直接影响一个因变量。这里的自变量指的是能独立自由变化的变量,一般用x表示;因变量y指的是非独立的、受其它变量影响的变量,一般用y表示。多元线性回归分析的手段是借助于一个数学模型来揭示总体中若干个自变量与一个因变量之间的线性依存关系,并评估用这一数学模型模拟相关事物变化规律的准确性。具体地说,多元线性回归分析可以从统计意义上确定在消除了其它自变量的影响后,每一个自变量的变化是否引起因变量的变化,并且估计出在其它自变量固定不变的情况下,每个自变量对因变量的数值影响大小。本章小节对于多元线性回归分析,要求观察数据和模型的残差满足一定的条件,在本章中进行了详细的描述。详细介绍了多元线性回归模型的参数估计,包括回归参数的最小二乘估计、拟合优度检验(包括总离差平方和分解、样本决定系数和调整后的样本决定系数)、模型显著性检验以及参数显著性检验。本章小节选择“最优”回归方程的变量筛选法包括逐步回归法,向前引入法和向后剔除法。多元回归分析的目的是为了找出一个最优的模型,用来解释和预测自变量和因变量的依存关系。但是,要注意的是,所谓的最优模型,只是相比较而言。没有一个绝对的最优模型存在。解释变量间完全不相关的情形是非常少见的,大多数变量都在某种程度上存在着一定的共线性,而存在着共线性会给模型带来许多不确定性的结果。介绍了常用的共线性诊断方法以及各种处理方法。介绍了复相关系数和偏相关系数的定义以及与复确定系数和偏回归系数的联系和区别。第11章Logistic回归分析学习目标了解Logistic回归模型的建立和假设检验;了解Logistic回归模型的应用领域;掌握Logistic回归模型系数的解释,及回归系数与OR值之间的关系;掌握Logistic回归过程步;掌握哑变量的设置和结果的解释;掌握多元Logistic回归模型的逐步过程法和系数的解释;了解条件Logistic回归的应用;掌握条件Logistic回归的SAS程序;概述线性回归模型和广义线性回归模型要求因变量是连续的正态分布变量,且自变量和因变量呈线性关系。当因变量是分类型变量时,且自变量与因变量没有线性关系时,线性回归模型的假设条件遭到破坏。这时,最好的回归模型是Logistic回归模型,它对因变量的分布没有要求,从数学角度看,Logistic回归模型非常巧妙地避开了分类型变量的分布问题,补充完善了线性回归模型和广义线性回归模型的缺陷。从医学研究角度看,Logistic回归模型解决了一大批实际应用问题,对医学的发展起着举足轻重的作用。非条件Logistic回归Logistic回归分析在医学研究中应用广泛。目前主要是用于流行病学研究中危险因素的筛选,但它同时具有良好的判别和预测功能,尤其是在资料类型不能满足Fisher判别和Bayes判别的条件时,更显示出Logistic回归判别的优势和效能。本研究对Logistic回归方程的判别分析进行了探讨,并用一实例介绍其应用。非条件Logistic回归医学研究中经常需要分析分类型变量的问题。比如,生存与死亡、有病与无病、有效与无效、感染与未感染等二分类变量。研究者关心的问题是,哪些因素导致了人群中有些人患某种病而有些人不患某种病,哪些因素导致了某种治疗方法出现治愈、显效、好转和无效等不同的效果等。这类问题,实质上是一个回归问题,因变量就是上述提到的这些分类型变量,自变量x是与之有关的一些因素。但是,这样的问题却不能直接用线性回归分析方法解决,其根本原因在于因变量是分类型变量,严重违背了线性回归分析对数据的假设条件。那么应该怎样解决这个问题呢?非条件Logistic回归研究者将所研究的问题转换一个角度,不是直接分析y与x的关系,而是分析y取某个值的概率P与x的关系。例如,令y为1,0变量,y=1表示有病,y=0表示未患病;x是与患病有关的危险因素。如果P表示患病的概率,即P=prob(y=1),那么研究患病的概率P与危险因素x的关系就不是很困难的事情了。非条件Logistic回归分析因变量y取某个值的概率P与自变量x的关系,就是寻找一个连续函数,使得当x变化时,它对应的函数值P不超出[0,1]范围。数学上这样的函数是存在且不唯一的,Logistic回归模型就是满足这种要求的函数之一。与线性回归分析相似,Logistic回归分析的基本原理就是利用一组数据拟合一个Logistic回归模型,然后借助这个模型揭示总体中若干个自变量与一个因变量取某个值的概率之间的关系。具体地说,Logistic回归分析可以从统计意义上估计出在其它自变量固定不变的情况下,每个自变量对因变量取某个值的概率的数值影响大小。Logistic回归模型有条件与非条件之分,前者适用于配对病例对照资料的分析,后者适用于队列研究或非配对的病例-对照研究成组资料的分析。问题的提出
在流行病学研究中,经常遇到因变量为离散型分类变量的情况。如治疗效果的无效好转、显效、痊愈;不同染毒剂量下小白鼠的存活或死亡;在某种暴露下的发病与不发病等。最常见的情况是因变量为二分变量的问题。多元线性回归的局限性经典流行病学统计分析方法—分层分析的局限性1.两种主要的流行病学设计 1)病历对照研究 2)队列研究2.判断结局(疾病)和暴露(因素)联系强弱的指标 1)相对危险度:RR=p1/p0
p1:暴露于某个危险因素下发病的概率 p0:不暴露于某个危险因素下发病的概率(对照) 2)比值比:OR={P(D=1|E=1)/P(D=0|E=1)}/{P(D=1|E=0)/P(D=0|E=0)} D=1:患某种疾病,D=0:不患某种疾病 E=1:暴露于某个危险因素,E=0:不暴露于某个危险因素
可以简单地表述成:OR=(p1/q1)/(p0/q0) p1:暴露于某个危险因素下发病的概率 q1:暴露于某个危险因素下不发病的概率 p0:不暴露于某个危险因素下发病的概率 q0:不暴露于某个危险因素下不发病的概率不同年龄组内服用避孕药的比例——————————————————————————
年龄服OC 不服OC 合计——————————————————————————〈40 38(0.31) 85 123≥40 25(0.12) 183 208
——————————————————————————合计 63 268 331———————————————————————————————————
2=17.88P〈0.01
40岁以上服用OC的比例远小于40岁以下组。Mantel-Haenszel分层分析法
按年龄分层,可以得到下表:
————————————————————————————————— 〈40岁 ≥40岁
————————————
———————————— MI非MI合计 MI 非MI
合计—————————————————————————————————服OC21 1738 18 725未服OC265985 88 95 183 ———————————————————————————合计 47 76123 106102208—————————————————————————OR(1)=2.803
2(1)=6.77
OR(2)=2.7762(2)=5.03
ORMH=(ai*di/ni)/(bi*ci/ni)
ORMH=2.79
分层分析中,可以分别计算出分层后的各层OR值,如果发现与总的OR有较大的差异,则可以认为该风层因素是混杂因素。必须对该因素进行MH调整,调整后的OR值才能真正反映因素和结局间的关系。
如果当分层后各层的OR值经过一致性检验发现:各层间的OR值有统计学差异,这时说明分析因素在分层因素的不同水平上与结局变量的联系强度是不同的,这时分层因素和研究因素存在这交互作用(效应修饰作用)。这时应该分层报告OR值,而不能计算调整OR值。
分层分析的局限性只能控制少数因素(分层因素过多,每个格子中的样本例数太少)定量资料需要分组,信息丢失不能对因素作用大小进行定量分析(交互作用)
二、Logistic回归原理yy=log2x01Logistic模型中系数的意义:
回归系数的流行病学意义是:在其它自变量都不变的条件下,当因素X变化一个测量单位时所引起的OR值自然对数的改变量。三、Logistic回归和OR值间的关系假设建立了如下的logistic回归方程: LogitP=α+βxx
为二分变量,当暴露时,取值为1;
不暴露时,取值为0。所以暴露时, Logit(P1)=α+β,
比值(odds)=exp(α+β)所以不暴露时,Logit(P0)=α,
比值(odds)=exp(α)则,暴露对于不暴露的比值比(oddsratio)为: OR=
exp(α+β)/exp(α)=exp(β)举例2使用雌激素与子宫内膜癌病例对照研究(病例对照,曾光《现代流行病学方法与应用》,P76)以一个最简单的Logistic回归模型做为例子。
——————————————————————————
使用过 未使用过 合计——————————————————————————病例 55 128 183对照 19 164 183
——————————————————————合计 74 293 366——————————————————————————建立的logistic回归方程形式为:LogitP=-0.2478+1.3107x X取值:1使用过雌激素 0未使用过雌激素使用过雌激素的Logit为:LogitP(x=1)=-0.2478+1.3107=1.063即:Ln(p1/q1)=1.063
所以,使用过雌激素的比值(odds)为: p1/q1=exp(1.063)=2.895未使用过雌激素的Logit为:LogitP(x=0)=-0.2478+0=-0.2478即:Ln(p0/q0)=-0.2478所以,未使用过雌激素的比值(odds)为:
p0/q0=(exp(-0.2478))=0.781使用过雌激素相对于未使用过雌激素的比值比为:OR(oddsratio)=2.895/0.781=3.709
以四格表为例来说明最大似然求解的意义及过程。
四格表的一般表达形式
————————————————————————————
发病(y=1) 不发病(y=0)
————————————————————————————
暴露(x=1) a b
不暴露(x=0) c d
—————————————————
合计 a+c b+d
—————————————————————————————
暴露者发病概率p1=a/(a+b);
不暴露者发病概率p0=c/(c+d) OR=ad/(bc)
四、Logistic回归最大似然建模用发病概率来表示四格表,可以得到四格表的另外一种表示形式:
四格表的另外一种表达形式(1)
————————————————————————————
发病(y=1) 不发病(y=0)
————————————————————————————
暴露(x=1) p1 1-p1
不暴露(x=0) p0 1-p0
—————————————————————————————
暴露者发病概率:p1=exp(α+βx)/[1+exp(α+βx)]
暴露者不发病概率:q0=1-p1=1/[1+exp(α+βx)];
不暴露者发病概率:p0=exp(α)/[1+exp(α)]
不暴露者不发病概率:q0=1-p0=1/[1+exp(α)];
用发病概率来表示四格表,可以得到四格表的另外一种表示形式:
四格表的另外一种表达形式(2)
——————————————————————————————
发病(y=1) 不发病(y=0)
——————————————————————————————
暴露(x=1)e(α+β)/[1+e(α+β)]
1/[1+e(α+β)]
不暴露(x=0)eα/[1+eα] 1/[1+eα]
——————————————————————————————
因为四格表的四个实际数为a,b,c及d,故可构造似然函数为: L= {e(α+β)/[1+e(α+β)]}a{1/[1+e(α+β)]}b {eα/[1+eα]}c{1/[1+eα]}d
取对数,有 Ln(L)=a(α+β)–aln[1+e(α+β)]–bln[1+e(α+β)]
+cα–cln[1+eα]–dln[1+eα]
对以上似然函数分别求对α和β的一阶偏导数,再令两个偏导数为零,就可以解得α和β的估计值。在经典流行病学分析里对因素的统计学意义检验是检验OR值是否为1对于Logistic回归来说,对模型中变量的统计学检验就是对检验其回归系数是否为0一般常用的方法有三种:似然比检验、Wald检验、比分检验五、Logistic回归模型的统计学检验1)似然比检验
似然比检验的原理是通过分析模型中变量变化对似然比的影响,来检验增加/减少的自变量是否对应变量有统计学上的显著意义。
检验统计量:
G=-2[Ln(Lk-1)-Ln(Lk)] Ln((Lk-1)为不包含检验变量时模型的对数似然值Ln(Lk)为包含检验变量时模型的对数似然值当检验一个变量时则G服从自由度为1的χ2
分布当对模型整个进行检验时就是相当于模型中所有n个变量的回归系数都为0,G服从自由度为n的χ2
分布 2)Wald统计量-检验回归系数是否为0
对于方程内单个自变量的检验,采用Wald统计量。 W=β/Sβ
Sβ为β的标准误。
其临界值可取标准正态分布的临界值。同时,W2遵循自由度为的卡方分布。β的95%可信区间为:
(β-1.96×Sβ,β-1.96×Sβ)
OR的95%可信区间为:(eβ-1.96×Sβ,eβ+1.96×Sβ) 3)比分检验
在原有模型的基础上增加一个变量,并假设该变量的回归系数为0,似然函数一阶偏导和信息矩阵的乘积为比分检验统计量S。S在样本量较大时服从自由度为检验参数个数的χ2
分布上述方法中,似然比检验最可靠,Wald检验和比分检验一致。Wald检验没有考虑变量间的相互影响,当因素间相关时(存在共线性)不可靠参数的可信区间是以Wald法计算的,在应用可信区间时要注意
PROCLOGISTIC过程SAS系统中进行Logistic回归分析的过程步是PROCLOGISTIC过程。下面我们先了解以下这个过程步。LOGISTIC过程的语句基本格式如下:PROCLOGISTICdata=descendingsimpleorder=;Model因变量=自变量/link=nointrsqclrlselection=sle=sls=;freq频数变量;outputout=pred=变量名;run;PROCLOGISTIC过程DESCENDING:指令系统输出因变量取值由大到小的概率,缺省时,系统输出因变量取值由小到大的概率。使用和不使用DESCENDING语句的回归模型的回归系数绝对值完全相同,但是符号完全相反。SIMPLE:指令系统输出每一个自变量的基本统计量。MODEL:给出模型的因变量和自变量。LINK:指定因变量概率函数的形式NOINT:指令模型不含常数项。RSQ:指定输出确定系数。PROCLOGISTIC过程CL:指定输出参数估计值的可信区间。RL:指定输出相对危险度(或比数比)的可信区间。SELECTION、SLE和SLS:和REG过程步的对应选项一样,用于逐步回归分析。FREQ:是否使用,取决于数据的输入方法。当x和y变量的观察值被直接输入到SAS数据集时,不需要使用FREQ语句。但是,当x是分类型变量,且x和y变量的观察值不是直接输入到SAS数据集时,而是将x和y变量的频数输入到SAS数据集中时,需要使用FREQ语句。OUTPUT语句:用来保存指定的分析结果。Out选择项用来给出输出数据集的名字。Pred选择项用来给出一个预测概率的变量名。条件Logistic回归医学研究中的配对病例对照研究资料
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论