10章—Logit回归要点_第1页
10章—Logit回归要点_第2页
10章—Logit回归要点_第3页
10章—Logit回归要点_第4页
10章—Logit回归要点_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2011623通知:考试时间改为,2011629下午2:30, A405教室参考资料1、 陈峰等,医用多元统计分析方法,中国统计出版社,2000年12月第1版2、 张尧庭,定性数据的统计分析,广西师范大学出版社,佃91年11月第1版3、 阮敬,SAS统计分析一从入门到精通,人民邮电出版社,2009年4月第1版,39.00元类型分类(因变量)例宀日. 疋量连续/计量利润离散/计数人口定性(名义)二分类性别多分类(无序)职业多分类(有序)学历亠、变量的分类变量的分类'宀日连续/计量例如,身高疋量i离散/计数例如,人数=有序例如,学历定性L v'二分类例如,性别名义彳、多分类例如,职

2、业注:计量指标与计数指标一般好区别。特殊情形下不好区别,如年龄类型分类(因变量)例方法分布备注宀日. 疋量连续/计量利润普通回归正态可运算离散/计数人口普通或Log回归Poiison 分布可运算定性(名义)二分类性别Logit回归二项分布不可运算多分类无序职业基准一类别Logit回归r多项分布不可运算有序学历累积Logit回归Poiison 分布不可运算因变量y自变量xjlix方法分布定量(连续,离散)定量 琏续,离散),定性普通回归模型:二分类连续,定性(二分类, 多分类)Logit模型二项分布SAS中可非线性多分类多分类(有序)Logit模型Poiison 分布SAS中可非线性多分类(无序

3、)Logit模型多项分布定量,定性定量,定性?】、两分类变量的logistic回归1、logit 变换考虑上市公司中企业类型(ST与非ST )与财务指标的关系。常常需要研究事件A发生的概率p大小与某些因素有关。例如,讨论某特定人群(例如糖尿病患者)中患动脉硬化的概率与年龄的关系。显然 人群中只有两种状态“动脉硬化”和“非动脉硬化”(简称为“患病”和“不患病”),人群的状态记为y,则“患病”和“不患病”对应着 y的两个取值:y =1,y = 0。用事件表示 即y=1“患病”=“动脉硬化” ,y = 0“不患病”=“非动脉硬化”若患病率记为p,则 显然pfy n_py =1丄1一 p讨论患病率p与

4、年龄X的关系,显然,患病率随着年龄X的增加而增长。例,观察了 123位糖尿病患者,记录了他们的年龄 x以及是否患动脉硬化y。数据格 式见下表,详细数据见附录一2。表1、 糖尿病原始数据 (注:此为简表,详见附录3数据)编号动脉硬化分类 年龄nyx1032123178符号说明符号解释注1动脉硬化0动脉非硬化编号是否动脉硬化年龄根据这些数据如何分析是否患病 y与年龄X的关系?能否建立y关于x的回归方程?不行。因为y的取值并无实际意义。将数据分组,得到各组的患病率 p (见表2),能否建立p关于x的回归方程? (如何将表1的原始数据整理成表2的分组数据?详见附录1)。表2糖尿病分组数据分组组号频数n

5、i患病频数n患病频率pi n;ni组中值xi35以下1200.00032.536402710.14337.541 4531230.25042.5465041160.54547.551 5551290.75052.55660615120.80057.561 65724200.83362.56670823220.95767.571 75914141.00072.576以上10331.00077.5合计123900.732假设能建立P关于x的回归模型:P _0 gx -:根据表2数据,得如下(普通)回归结果N=1ORegressian Summary for Dependent Variable:

6、p (S|pread9lheet1)R= .95721507 R2= .91626069 Adjusted F?2= .90679327尸(1 .0)=57.535 p<.DODD1 StdJError of estimate. .11 443BetaStdl Err. of曰曰RSt d Err. of BtCB)P-Iew&IIniorcept-O.&6©0,1434620,002X0.9570.1020.0240.0030.000得到P关于x的回归方程P - -0.6690.024x此回归方程是否真实地描述了p与x的关系?答案是否定的。原因如下:第一,当x

7、=75时,p =1.131,而患病率p只能在0, 1区间内取值,所以p不可能是 x的线性函数。因为二次函数和多项式函数的值域都会超过 0, 1区间,所以p也不可能是x 的二次函数或多项式函数。00.50204060S0第二,观察表3和上图可发现,p对x的散点图呈“ S”形。在p = 0和p=1附近时, 即使x变动很大,p的变动幅度却很小,在p =0.5附近的变动幅度却很大。又如,多数自然灾害(如地震)发生的概率很小,对其正确预报的概率p更小,接近于0,即使能找到一些影响p的前兆因素,也不可能将p值提高很多。从数学上看,p是x 的非线性程度较高的函数。于是,希望寻找一个 p的函数f(P),应具有

8、以下两个特征:(1) 函数f ( p)在p =0和p=1附近时,变化率较大;(2) 函数f (p)形式不太复杂。下面寻找函数f(p)。函数f(p)在p附近的变化率(速度),就是其导数 型他。要希dp望df(p)在p = 0和p =1附近有较大的值,则自然要考虑函数dp1P(1 - p)P(1 一 P)dpdp此函数的特征是:当p > 0时,f(p):; p > 1时,f(pn :。这符合要求的特征(1)。 因为要求变化率df (p)在P =0和p=1附近有较大的值,故df (p)应与1 成正比, 记为df(P)1OC dpP(1-P)将上式取成等式,并作分解df (p)111 -&

9、quot;4 ”dp P(1-P) P 1-P这是一个简单的微分方程。容易验证,满足此微分方程的函数(微分方程的解)是Pf (p) = InIn p -1 n 1 - p( 1)1 - p这是一个并不复杂的对数函数,符合要求的特征(2)。故f(p) Jn 丄就是要寻找的函数。1 - P(1)式称为logit变换(logit transformation)。或许此名称就是“log it'(取对数)之 意。1970年Cox首先研究了 logit变换。显然,函数f (p)在在p=0和p =1附近的变化率很大,而且,当从 0变到1时,f(p)从_:变到:。患病概率p与年龄x不是线性关系,In

10、与x可以是线性关系,这就克服1 - p了前面提出的两点困难。设pIn0 "工必 :1 - p上式称作P关于x的logit回归模型。下式称作p关于x的logit回归方程:pIno : Sx1 - p【注】 验证f(p)=I n是微分方程的解。因为 (I nx) = (I nxj=2,所以1 -pdxxdf(x)dpdpInPJ-IIn p Tn(1 - p)丨-1 1 1 1 11 =p 1 - p p 1 - p P(1 - p)2、例回到上例。求患病概率p关于年龄x的logit回归方程:In =1x,其中 P 二 Py = 11 - P原假设:H。: 口 1=0,患病率与年龄无关

11、定性分析:根据本例的实际背景,可以有如下判断。回归系数符号备注a1+年龄x是连续定量变量,a1的符号有意义:患病率与年龄成正比在statistica中实现logit回归的步骤如下将表1中的数据复制到statistica中,建立数据文件。文件格式如下操作如下。Statistics Advanced Linear/Nonlinear Model Nonlinear Estimation Quick Logit regrqssiohInput file |若为原始数据选codes andno co u nts在Variables|中选自变量x、因变量y。若为分组数据选codes and counts

12、在|Variabled中选自、因变量和频数Ok I Qk | Summary (本例为原始数据,故选“ nocounts”。得如下结果Model: Loais-lic rearessiioi-i (logiit) N ofOJs:33 1 *s:9CiDe-p. var. y LeiBs. MaH likelihood (IMS-®rrto 1 )FZI igw: 4A 391 763449 Chi2lf1 =S0 279 o= OOCCiON=123Cunsl. BQI xGstimale-7 5GCO. 153Sl-and-ard Error1.520 .29WO4.973p-l

13、t!V?lo ooo0.000-9S%CL1Oi匚7号 1Q1+95%CL-4.5S7 215SA/alri'? Chi-quarn24 7S1 207p-lvalo noa口口口口Odd爭Hid (unrt 匚hjQ 0011 171-95%CLO OOG1 106+9S%CL.101 240 Odds 畑tin (rer«a)H34 102-95%CL104 601-b9G%CL19G« 1 690 |因此,logit回归方程为In L 二:o jx 二-7.566 0.158x,其中 P =Py =11 - p0)。对于检此结果与定性分析的判断相符。结果表明:

14、年龄x的系数检验显著(不为 验的问题拒绝H 0H。: 口 1 =0,患病率与年龄无关,故,患病率与年龄有关:年龄越大,患病的可能性越大。 logit回归方程可写成如下形式:0 :1X.7.566"0.158x_ e 即口 eP 二,即 P 二7566 0.158x1 * e1 * e在同一坐标系中,画出上述logit回归方程的图像和患病频率的散点图。204060 80z,x由上图可知,logit回归方程与实际患病频率拟合得相当好。由logit回归方程Z566 0.158X eInp/(1 - P)丨=-7.566 0.158x,或 P7.566 0.158x1 +e可进行预测了。例如

15、将年龄x=60代入上式,得p =0.871,既对于60岁的糖尿病患者,患 动脉硬化的概率为0.871。下面讨论参数 =0.158的统计意义。3、(二分类)logit回归方程的一般形式如果影响In 的因素有X!,X2,ll1,Xp,则多元logit线性回归方程为1-PIn P 0 : 1X1 : 2X2 川:pXp 1 - P0 -:1X/2X :kXk1 十0°0 屯1X1 乜X2 十 I 4UXk多元logit线性回归方程还有以下等价形式ep =1p _ 1 . e«0"1 ;2x2 】i tkXk)若将In 丄 看成是因变量,则logit线性回归模型与多元线性

16、回归模型的形式是一致1 - p的,且有很多共性。不同的是:1、logistic回归模型中因变量是二分类的,而且非连续,其误差的分布不再是正态分 布,而是二项分布,且所有的分析均建立在二项分布的基础上。2、由于上述原因,logit回归系数的估计不能再用最小二乘法, 而要用极大似然估计法 回归模型和回归系数的检验也不是 F检验和t检验,而要用 Wald检验、似然比检验等。4、优势ln °: 0.二必=-7.566 0.158x1 - p首先看看一P的统计意乂。P: y =1 = p是患病的概率,P、y = 0$ = 1 - p是不患病的概 1 -P率,则就是患病概率与不患病概率之比,称1

17、 -PP1 - P为优势(oddS,记为OD = odds 1 - P因此,优势OD的统计意义是:“患病概率”相对于“不患病概率”的倍数。当OD >1时,“患病概率”大于“不患病概率”;当OD :1时,“患病概率”小于“不患病概率”; 当OD =1时,“患病概率”等于“不患病概率”。因此,多元logit线性回归模型可写为lnOD°:必:2X2 川:pXp因P越大,则1-P越小,又In x是单调函数,故p与OD成正比,OD与InOD成正比p 二 OD In ODInOD越大,则OD越大,则Py =1二P“患病”,p越大。 当:i 0时,p与Xi成正比;当: 0时,p与Xi成反比。

18、 回到动脉硬化的例子。模型为pInIn OD = : 0 “ 场x 二-7.5660.158x1 - p0 - 1X _7.566 0.158XOD 二 e ex=60时,ODx a二e566 0.158 60 = 6.78, “患病”概率是“不患病”概率的 6.78倍,或 “患病”概率比“不患病”概率高 5.78倍。(odds-可能的机会,成败的可能性,优势,不均,不平等,几率,差别)6、回归系数的解释与优势比讨论logit回归模型pInIn OD = : 0:x1 - P=OD 心-1x1 - p中,回归系数:1的统计意义。当x =xo时,患病的概率记为P0,优势记为OD0;当x =x0

19、1 (即x增加1个单位)时,患病的概率记为P1,优势记为OD1 则In二 In OD0 - 0 ' -片沧1 - P0In 乩=In ODr = : 0:(Xo 1)1 - P1OD1In= In ODr -In OD0ODo=i(Xo 1) -: o gXo=o *1X0*i o 1X0即:1的统计意义是:自变量增加1个单位,优势OD1与ODo之比的自然对数增(减): 1个单位。(.0时为增,冷:o时为减)喘,ODrP1Po为优势比(odds ratio),记作OR然对数增(减):1个单位。显然,ODo 1 - P11 - Po'则冷的统计意义是:自变量增加1个单位,优势比的

20、自优势比。唱心以动脉硬化数据为例,模型为In p 则回归系数=0158的意义是:=:0 11 %x = -7.566 0.158x1、年龄X每增加1岁,优势比的自然对数InO R=l n?®增加0.158个单位。ODo。若是定性变量则不一定 能这样x = 2表示农民,则“ x增加1个单位”是没有意义的)In1ODo(注意,年龄是定量的连续型变量,故可以这样解释 解释,如X是职业,X=1表示工人,ODr2、等于优势比ODo1的对数:3、注意p(: .:1X),虽然由-1不能直接对p进行解释,但可以判断:若 r,1 * e则P增加,反之则减小。6、小结公式意义模型In P 二InOD o

21、 Jx,或 OD Fo :1X1 - POD 二 p.1 _ P事件C y = 1发生的概率是不发生的 OD倍优势p=OD 1-p:-1 o,x , In OR ; :1 o,x , In OROR = OD1/OD°'x增加1个单位,优势增减 e -1倍1儿力比OD1 ©ODoe1,优势增加;e ",优势减小系数OD1InX增加1个单位,优势比的自然对数增(减) 1个单位ODo三、多分类有序变量的logistic回归设因变量y为有k个等级的有序变量:y =12H|,k。x(x1|,xh)为自变量。记y的等级为i的概率为P(y =i x) =口,i -1,

22、21,k。则等级小于等于i的概率为P(y 叮 x)二 P(y =1 x) P(y =2x)川 P(y =i x)二 Pl P2 川 Pi称P(y列x)为等级小于等于i的累积概率(cumulative probability)。作logit变换:P(y >i|x)叽巳心小巴卡鳥卜)有序变量的logistic回归模型定义为hlog it P(y i x) -i吃恥,i =12川,k1i=1等价于P(y S x)二1 +expl-ctj + 迟 PixiI y 丿实际上是将k个等级人为地分为两类:",2,川,门和,在这两类定义的logit表示: 属于后k -1个等级的累积概率与前i个

23、等级的累积概率的比数之对数,故该模型称为累积比 数模型 (cumulative odds model。X是解释变量均为0时, j与i无关,故:有序变量的累积比数模型有k -1 h个参数,:-和' j为待估参数(i=1,Hl,k-1, j=1,lil,h ),对于任一 i , logit(P(y>i|x)是自变量的线性函数。在某一固定的i下,两类不同概率之比的对数值。由于回归系数% “2 川£叭根据有序变量的logistic回归模型,可得每类结果的概率:P(y =i x) =P(y x) - P(乞 i 一1 x)八 氷 u 空:J1 exp1h-:i4'iXim

24、1_ ( h1 exp i 二:ixi<i#在此,:'0定义为定义为F。当其他变量不变时,为的两个不同取值水平为a,b,其比数比为:OR = exp : j(b - a)可见OR值与:i无关,回归系数表示自变量为每改变一个单位,y值提高一个及一个以 上个等级之比数比的对数值。若 xj为0-1变量,则e'j恰好是该变量的OR值。累积比数模 型中,假设自变量的回归系数与j无关。注意,这里对比的两类是“前i个等级”与“后k-i个等级”,即1,2,川,门和U VIHk, 其余的解释与两类结果的logistic回归一致。变量的筛选、建模策略等亦相似。当 k=2时, 累计比数模型就退

25、化为普通的二类结果的 logistic回归。累积比数模型中,假设自变量的回归系数1与j无关。如在两种治疗方案(分别记为y = 0,1,2,3 )。x=0,1 )的评估中,因变量为:无效,有效,显效,治愈四个等级(分别记为 按有序分类将其分为两类,有三种分法:第 1 种: 0 , 1,2,3 第 2 种: 0,1 , 2,3 第 3 种: 0,1, 2 , 3 按照累积比数模型的假定:无论对哪种分法,治疗方案的效应是相同的。在探讨影响智力因素的研究中,调查了875名小学一年级学生的智商与母亲的模型为:文化程度,结果见下表。试分析两者间的关系表3儿童智商与母亲学历分组数据c合计智商y0小学1初中2

26、高中专3大专仁中下2257111912二中等8123611244333二中上30135105102804二上等326177:53:合里,儿童智商是多分类定性有序变量,宜建立累积比数logistic回归。影响因素母亲文化程度亦是多分类定性有序变量,可直接进入方程。变量回归系数标准误差ZPx0.63730.09346.8240.00:-1-1.45780.1454常数项:'21.22540.1358:'33.56300.1935回归模型见表log it P(y ix)-二0.6373x这里:i =1,2,3,1.4578,:- 2 =1.2254,: 3

27、=3.5630。OR二e0.6373 =1.89,解释为:当母亲的文化程度提高一个等级时,儿童智力提高一个或 一个以上等级的可能性将增加0.89倍。常数项又称为分割系数,因为它们将1P(y =i x)二1 explogit分布进行了分割,以对应于不同类的概率:1h 、一工 7 x.1-1 I I丿lx-OLIim=*:。例如,当X = 1时:1 exp1y =1 的概率为:P(y 胡 x)1.4578 0.6373 710961 +e1 1y = 2 的概率为: P(y - 2 X)1.2254 0.63731.4578 06373 _ 0.53331+e1+e1 1y = 3 的概率为: P

28、(y = 3 X)二-0.30621+e1 +e1y =4 的概率为:P(4 x) =13 5630 0 637 0.05091 +e实际上,x =1 时,y=1,2,3,4 的观察频率为:57454 = 0.1256,236 454 = 0.5198,135 450.2974, 26 450.0573。理论概率与实际频率很接近。【例】王静龙p.174某校女教师抱怨,在过去一年里,升职的比例较男教师明显偏低,有歧视女教师的倾 向。下表是学校的有关数据。试分析有无歧视女教师的倾向。表4教师晋升分组数据性别s0-女,1-男晋升y0-否,1-是工龄g学历c012300(5年及以下)119820718

29、918900(6至15年)217923616313700(16 至 30 年)31931841479100(30年以上)4186151834101135712012510101401391315150141416161110149971421851029614018217610314118317013710417915711710111112613112371320113714202511415202331指标说明符号指标类型取值s性别定性二分类无序0, 1女,男y晋升定性二分类0, 1未升职,升职g工龄定量连续分 4 组一1,2,3,4按定性有序多分类处理c文化定性多分类有序0,1,2,3专

30、科,本科,硕士,博士f频数定量,离散具有某些特征的人数表3教师晋升复合分组数据的格式,软件是无法识别的,必须将表3转换成软件能识别的下述形式,见下面的表 4。表5教师晋升分组数据(软件识别格式!)(注:此为简表,详见附录 3数据)nsygcf10010198r 64r 114331设升职的概率为p,即Py=1; = p,影响p的因素有:S 性别,工龄一G,学历一C。显然,性别是二分类变量;工龄本质上是连续变量,因进行了分组,故将工龄转换为 定性有序变量;学历是定性有序变量。则设logistic模型为In = ": S : G C,其中 P'y = 1, p1 -p原假设:H&

31、#176;s:。=0,晋升与性别无关Hog:,晋升与工龄无关Hoc: Y =0,晋升与学历无关定性分析:根据本例的实际背景,可以有如下判断。回归系数符号备注aX性别是定性无序变量,a的符号无意义。但 a是否等于0有意义P彳+工龄是定量变量,0的符号有意义:晋升与工龄成正比+学历是定性有序变量,丁的符号有意义:晋升与学历成止比将表4中的数据复制到statistica中,建立数据文件,格式如下图在statistica中实现logit回归的步骤如下:StatisticS Advanced Linear/Nonlinear ModelNonlinear Estimation Quick Logi! r

32、egrqssiohInput' file原始数据选codes and no counts在Variables中选定自、因变量分组数据选codes and counts在Variables中选定因变量(y)、自变量(s,g,c)和频数。OK OK Summary(本题为分组数据,故选“ cou nt”【注】因为是分组数据,因此在变量选择对话框中多出了一个频数变量“Count varible”MadflL Logilic rngFashion (logiit) N of Ob£Jlvpi!#"Dep. var: y Loss: Max. Iiikebhood (MS-e

33、rr. scaled to 1) 尸innl |1口=匸:曰96了号 C:hi:2C3)=1£p二口.QCQDlogit回归结果如下IM二&画 Est imateSt si rid a rd E r rur"1(5217)p-levelA/ald"-s Clhii-square p- IqwiIOdds- ratio (unH: uh) 95%CL +35% CLOdds, ratio (range)Const. BOIc .1090.053 .D52-1 .015-9.E14-8.5000.300.0000.000 .324=O.EDS S4D .103

34、 O.4D2 .3371 口宁192 42372.245 31口O.DDQ B95O.BD3 &4E .724G4 563111曰O 139 曰O 220 2EQ .724Q.1IS1 1901 1QQO 299 3C3O. 139 23.217 0.0004.238E.Q2O £391口39!0.000 I Q2.400 G.2Z1 151.372故,logit回归方程为pIn4.629 -0.110S -0.505G -0.439C1 - P此结果表明,晋升的可能性与“工龄 G”、“学历C”成反比。这个结果与定性分析的判断 明显不符。(注意:因为“工龄G”和“学历C”是定

35、性有序变量可以这样解释。而“性 别S”是定性无序变量,不能这样解释)问题出在哪里?问题可能出在软件的默认值上。只要作如下修改即可。注意:若回归结果与定性分析的判断相符,就不必修改变量y表示晋升与否,y二1表示晋升,y二0表示不晋升,我们定乂 p二P ? y二1。而 默认值是按数据文件中y的取值出现的先后顺序定义p,因y的取值0最先出现,因此默 认值是:定义p二Py=0?,见下图。为了得到正确的logit回归方程,应将默认值改变一下即可,见下图Qui ckI)«p end ; yCo d.es for dep.In dep exiden f s s-c CoTUltE :fDouble

36、-click on the F14EP«Ctiv« f&e-ld 1c £4l»Ct ccKliB-s fromi the: list of valid!从而得到logit回归结果MocJek L&gjiitic: r®gr*ttioh (l&gil) in af 04: 4B26 1'*"395Dep. var: y Loss: Max likelhhooidl (MS-err. scaled to 1)IFinsd 10=9&日30百产石翠7;3 匚1(2(32二157.石1 口芒1300。

37、_Co net. BOsgcEstimaleStandard Errorp>-level 9&%CL45%CLWald's Chi-square p-levelOdds raitio (umi! ch) -95% CL+55%CLOdds ratio (range) -AECL+95%CL6290.199 -23.2170.000-5.D2D -4.230 5:B9.CJ39 .DOOO.DIO0.007O Dl JQ.1091.015 0310 -0.1030.32J1.0.1.Q.0.5050.0539.614Q.107227220331119C36119C3FIWO

38、2O023DOGO9S37X4S4 口 E 4 H4.5543.3436 203_0528 5000800 3370 54072 245 I 5501 4口11 7153 7272 7S2S04H因此,logit回归万程为In= -4.629 0.110S 0.505G 0.439C1 - P为了明确p是如何定义的,最好在模型后面注释一下。In = .6290.110S 0.505G0.439C ,其中 Py=1.;=p1 - p检验结果表明:S性别的系数检验不显著(为0),而工龄G和学历C的系数检验均显著(不为0)。对于3个检验的问题H°s: :0,晋升与性别无关,接受H°

39、;sH°g: 0,晋升与工龄无关拒绝H°gHoc:=0,晋升与学历无关拒绝H°c故,晋升与性别无关,与工龄和学历有关:工龄越长、学历越高,晋升的概率越大。 实际上,两个logit回归方程都是正确的,只不过 p的意义不同。= 4.629-0.110S -0.505G -0.439C,其中 Ply =0 = pp 值0.310In=-4.629 0.110S 0.505G 0.439Cp值0.310四、附录1、将糖尿病原始数据(表1)整理成分组数据(表2)第1步,在exceI中,用if语句将123个样品(患者)分成10组。由于if语句只能嵌 套7个if语句(分8组),

40、可将数据按年龄排序后,分两次将 123个样品分成10组。两次 分组的if语句如下:第 1 次:IF(c2<35,1,if(c2v40,2,if(c2v45,3,if(c2v50,4,if(c2v55,5,if(c2v60,6,if(c2v65,7,if(c2v70,8,9)第 2 次: IF(d2<75,9,10)将分组后的组号设为变量 C。结果见exceI中的文件“ logit回归”。数W口(w)帮助(H)多元分析碧ABCD' Z1楼序(S)1序号yXC210321厨数据透视表和数据透视图(E)12312217710.-犖.12412317Q10敎喀适视表和融培谢 视国向

41、导贰4 苗典|:>X£1.=5.t站丸刊區或牌爲埠u厂瘙吉H计宜审JS医皿朋常创涩的抿晒豊aiE曲箱遴现精Hi严範18懣规囲|旦蝕疝:8觇?1.| ®監* | | | F:母 Qp . 住Kfi 吒)硼I上站创斤帧计飙I第2步,运用excel中的“数据透视表和数据透视图”功能,将123个样品分成10组。这“ 3步骤之3”中,选“布局”0鳖据透视表和戳据逶机图冋导-3步婆.13 _BE勒击"需ET榔3创建克抵遢1除.SF1I22这“ 3步骤之3”中,选“布局”0布舄QJ . | aJS%: I 酗 I上一吿I 舌:凭他応i这“ 3步骤之3”中,选“布局”0将分

42、组变量C拖入“行(R) ”,将变量Y拖入“列(C)”,再将变量Y拖入“数据(D) ”, 双击“求和项:y”出现下图。将“求和”改为“计数”,见下图按“确定”出现下图。数据透视表和数据透视圉向导- 3步骤之3!->勲据适规表显示沱晝广浙楚工作表Qf)P现有二Tt表国) 耳 *.iTi$TEL|单缶“芫减"搖钗赳建麴惬适脱.布尿如 |选顼| 取消 "J齿酣将光标指向“现有工作表” (1-处),指出计算结果的存放位置(2处)。本例中, 存放在“ Sheet1!$F$1',即存放在“当前工作表的第1表的第f列、第1行”的位置。按“完成”。出现下图。经适当计算、整理得下

43、表。再整理成下面的表2各组频数患病频数恵病频率1200. 0002710, 1 4331230. 25041160. 54551290. 7506151 20, 800724200. S33823220. 957914141. 00010331 一 000总计123900. 732表2糖尿病分组数据分组组号频数ni患病频数n患病频率Pi n(1)ni组中值xi35以下1200.00032.536402710.14337.541 4531230.25042.5465041160.54547.551 5551290.75052.55660615120.80057.561 65724200.8336

44、2.56670823220.95767.571 75914141.00072.576以上10331.00077.5合计123900.732注意:.应考虑患病频数.(此为新增加的).。2、将教师晋升分组数据(表4)转换为(软件可识别)分组数据(表5)的SAS程序表4教师晋升分组表性别s晋升y工龄g学历c012300119820718918911415202331注意:1按从左到右的顺序:s, y, g, c读数,顺序不能混;2、s, y,g, c的取值从小到大读取(见程序第 3行)3、 数据行(从第5行开始)中仅放频数:佃8,,31等。s, y, g, c的取值 不要放到数据行中。SAS程序如下

45、:TITLE Logistic回归一教师晋升数据'data qc;do s=0,1;do y=0,1; do g=1 to 4; do c=0 to 3;input f ; output;end; end; end; end; cards; 19820718918917923616313719318414791186151834135712510101491315151416161149971421859614018217614118317013717915711710112613371320714202515202331proc print;proc logistic des;model y=s g c /clodds=wald;freq f;run;将上述程序复制到SAS软件的编辑窗口。程序运行后,出现如下输出L储i妣i心回归-教师晋升数据Obssy£cf1 00101982 00I12Q7anni?ns将上述输出的数据选定,复制到空白的word文档中进行设法进行编辑,并

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论