版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、2011623通知:考试时间改为,2011629下午2:30, A405教室参考资料1、 陈峰等,医用多元统计分析方法,中国统计出版社,2000年12月第1版2、 张尧庭,定性数据的统计分析,广西师范大学出版社,佃91年11月第1版3、 阮敬,SAS统计分析一从入门到精通,人民邮电出版社,2009年4月第1版,39.00元类型分类(因变量)例宀日. 疋量连续/计量利润离散/计数人口定性(名义)二分类性别多分类(无序)职业多分类(有序)学历亠、变量的分类变量的分类宀日连续/计量例如,身高疋量i离散/计数例如,人数=有序例如,学历定性L v二分类例如,性别名义彳、多分类例如,职业注:计量指标与计数
2、指标一般好区别。特殊情形下不好区别,如年龄类型分类(因变量)例方法分布备注宀日. 疋量连续/计量利润普通回归正态可运算离散/计数人口普通或Log回归Poiison 分布可运算定性(名义)二分类性别Logit回归二项分布不可运算多分类无序职业基准一类别Logit回归r多项分布不可运算有序学历累积Logit回归Poiison 分布不可运算因变量y自变量xjlix方法分布定量(连续,离散)定量 琏续,离散),定性普通回归模型:二分类连续,定性(二分类, 多分类)Logit模型二项分布SAS中可非线性多分类多分类(有序)Logit模型Poiison 分布SAS中可非线性多分类(无序)Logit模型多项
3、分布定量,定性定量,定性?】、两分类变量的logistic回归1、logit 变换考虑上市公司中企业类型(ST与非ST )与财务指标的关系。常常需要研究事件A发生的概率p大小与某些因素有关。例如,讨论某特定人群(例如糖尿病患者)中患动脉硬化的概率与年龄的关系。显然 人群中只有两种状态“动脉硬化”和“非动脉硬化”(简称为“患病”和“不患病”),人群的状态记为y,则“患病”和“不患病”对应着 y的两个取值:y =1,y = 0。用事件表示 即y=1“患病”=“动脉硬化” ,y = 0“不患病”=“非动脉硬化”若患病率记为p,则 显然pfy n_py =1丄1一 p讨论患病率p与年龄X的关系,显然,
4、患病率随着年龄X的增加而增长。例,观察了 123位糖尿病患者,记录了他们的年龄 x以及是否患动脉硬化y。数据格 式见下表,详细数据见附录一2。表1、 糖尿病原始数据 (注:此为简表,详见附录3数据)编号动脉硬化分类 年龄nyx1032123178符号说明符号解释注1动脉硬化0动脉非硬化编号是否动脉硬化年龄根据这些数据如何分析是否患病 y与年龄X的关系?能否建立y关于x的回归方程?不行。因为y的取值并无实际意义。将数据分组,得到各组的患病率 p (见表2),能否建立p关于x的回归方程? (如何将表1的原始数据整理成表2的分组数据?详见附录1)。表2糖尿病分组数据分组组号频数ni患病频数n患病频率
5、pi n;ni组中值xi35以下1200.00032.536402710.14337.541 4531230.25042.5465041160.54547.551 5551290.75052.55660615120.80057.561 65724200.83362.56670823220.95767.571 75914141.00072.576以上10331.00077.5合计123900.732假设能建立P关于x的回归模型:P _0 gx -:根据表2数据,得如下(普通)回归结果N=1ORegressian Summary for Dependent Variable: p (S|pread
6、9lheet1)R= .95721507 R2= .91626069 Adjusted F?2= .90679327尸(1 .0)=57.535 p 0时,f(p):; p 1时,f(pn :。这符合要求的特征(1)。 因为要求变化率df (p)在P =0和p=1附近有较大的值,故df (p)应与1 成正比,记为df(P)1OC dpP(1-P)将上式取成等式,并作分解df (p)111 -4 ”dp P(1-P) P 1-P这是一个简单的微分方程。容易验证,满足此微分方程的函数(微分方程的解)是Pf (p) = InIn p -1 n 1 - p( 1)1 - p这是一个并不复杂的对数函数,
7、符合要求的特征(2)。故f(p) Jn 丄就是要寻找的函数。1 - P(1)式称为logit变换(logit transformation)。或许此名称就是“log it(取对数)之 意。1970年Cox首先研究了 logit变换。显然,函数f (p)在在p=0和p =1附近的变化率很大,而且,当从 0变到1时,f(p)从_:变到:。患病概率p与年龄x不是线性关系,In 与x可以是线性关系,这就克服1 - p了前面提出的两点困难。设pIn0 工必 :1 - p上式称作P关于x的logit回归模型。下式称作p关于x的logit回归方程:pIno : Sx1 - p【注】 验证f(p)=I n是微
8、分方程的解。因为 (I nx) = (I nxj=2,所以1 -pdxxdf(x)dpdpInPJ-IIn p Tn(1 - p)丨-1 1 1 1 11 =p 1 - p p 1 - p P(1 - p)2、例回到上例。求患病概率p关于年龄x的logit回归方程:In =1x,其中 P 二 Py = 11 - P原假设:H。: 口 1=0,患病率与年龄无关 定性分析:根据本例的实际背景,可以有如下判断。回归系数符号备注a1+年龄x是连续定量变量,a1的符号有意义:患病率与年龄成正比在statistica中实现logit回归的步骤如下将表1中的数据复制到statistica中,建立数据文件。文
9、件格式如下操作如下。Statistics Advanced Linear/Nonlinear Model Nonlinear Estimation Quick Logit regrqssiohInput file |若为原始数据选codes andno co u nts在Variables|中选自变量x、因变量y。若为分组数据选codes and counts在|Variabled中选自、因变量和频数Ok I Qk | Summary (本例为原始数据,故选“ nocounts”。得如下结果Model: Loais-lic rearessiioi-i (logiit) N ofOJs:33 1
10、 *s:9CiDe-p. var. y LeiBs. MaH likelihood (IMS-rrto 1 )FZI igw: 4A 391 763449 Chi2lf1 =S0 279 o= OOCCiON=123Cunsl. BQI xGstimale-7 5GCO. 153Sl-and-ard Error1.520 .29WO4.973p-lt!V?lo ooo0.000-9S%CL1Oi匚7号 1Q1+95%CL-4.5S7 215SA/alri? Chi-quarn24 7S1 207p-lvalo noa口口口口Odd爭Hid (unrt 匚hjQ 0011 171-95%CLO
11、OOG1 106+9S%CL.101 240 Odds 畑tin (rera)H34 102-95%CL104 601-b9G%CL19G 1 690 |因此,logit回归方程为In L 二:o jx 二-7.566 0.158x,其中 P =Py =11 - p0)。对于检此结果与定性分析的判断相符。结果表明:年龄x的系数检验显著(不为 验的问题拒绝H 0H。: 口 1 =0,患病率与年龄无关,故,患病率与年龄有关:年龄越大,患病的可能性越大。 logit回归方程可写成如下形式:0 :1X.7.5660.158x_ e 即口 eP 二,即 P 二7566 0.158x1 * e1 * e在
12、同一坐标系中,画出上述logit回归方程的图像和患病频率的散点图。204060 80z,x由上图可知,logit回归方程与实际患病频率拟合得相当好。由logit回归方程Z566 0.158X eInp/(1 - P)丨=-7.566 0.158x,或 P7.566 0.158x1 +e可进行预测了。例如将年龄x=60代入上式,得p =0.871,既对于60岁的糖尿病患者,患 动脉硬化的概率为0.871。下面讨论参数 =0.158的统计意义。3、(二分类)logit回归方程的一般形式如果影响In 的因素有X!,X2,ll1,Xp,则多元logit线性回归方程为1-PIn P 0 : 1X1 :
13、2X2 川:pXp 1 - P0 -:1X/2X :kXk1 十00 屯1X1 乜X2 十 I 4UXk多元logit线性回归方程还有以下等价形式ep =1p _ 1 . e01 ;2x2 】i tkXk)若将In 丄 看成是因变量,则logit线性回归模型与多元线性回归模型的形式是一致1 - p的,且有很多共性。不同的是:1、logistic回归模型中因变量是二分类的,而且非连续,其误差的分布不再是正态分 布,而是二项分布,且所有的分析均建立在二项分布的基础上。2、由于上述原因,logit回归系数的估计不能再用最小二乘法, 而要用极大似然估计法 回归模型和回归系数的检验也不是 F检验和t检验
14、,而要用 Wald检验、似然比检验等。4、优势ln : 0.二必=-7.566 0.158x1 - p首先看看一P的统计意乂。P: y =1 = p是患病的概率,P、y = 0$ = 1 - p是不患病的概 1 -P率,则就是患病概率与不患病概率之比,称1 -PP1 - P为优势(oddS,记为OD = odds 1 - P因此,优势OD的统计意义是:“患病概率”相对于“不患病概率”的倍数。当OD 1时,“患病概率”大于“不患病概率”;当OD :1时,“患病概率”小于“不患病概率”; 当OD =1时,“患病概率”等于“不患病概率”。因此,多元logit线性回归模型可写为lnOD:必:2X2 川
15、:pXp因P越大,则1-P越小,又In x是单调函数,故p与OD成正比,OD与InOD成正比p 二 OD In ODInOD越大,则OD越大,则Py =1二P“患病”,p越大。 当:i 0时,p与Xi成正比;当: 0时,p与Xi成反比。 回到动脉硬化的例子。模型为pInIn OD = : 0 “ 场x 二-7.5660.158x1 - p0 - 1X _7.566 0.158XOD 二 e ex=60时,ODx a二e566 0.158 60 = 6.78, “患病”概率是“不患病”概率的 6.78倍,或 “患病”概率比“不患病”概率高 5.78倍。(odds-可能的机会,成败的可能性,优势,
16、不均,不平等,几率,差别)6、回归系数的解释与优势比讨论logit回归模型pInIn OD = : 0:x1 - P=OD 心-1x1 - p中,回归系数:1的统计意义。当x =xo时,患病的概率记为P0,优势记为OD0;当x =x0 1 (即x增加1个单位)时,患病的概率记为P1,优势记为OD1 则In二 In OD0 - 0 -片沧1 - P0In 乩=In ODr = : 0:(Xo 1)1 - P1OD1In= In ODr -In OD0ODo=i(Xo 1) -: o gXo=o *1X0*i o 1X0即:1的统计意义是:自变量增加1个单位,优势OD1与ODo之比的自然对数增(减
17、): 1个单位。(.0时为增,冷:o时为减)喘,ODrP1Po为优势比(odds ratio),记作OR然对数增(减):1个单位。显然,ODo 1 - P11 - Po则冷的统计意义是:自变量增加1个单位,优势比的自优势比。唱心以动脉硬化数据为例,模型为In p 则回归系数=0158的意义是:=:0 11 %x = -7.566 0.158x1、年龄X每增加1岁,优势比的自然对数InO R=l n?增加0.158个单位。ODo。若是定性变量则不一定 能这样x = 2表示农民,则“ x增加1个单位”是没有意义的)In1ODo(注意,年龄是定量的连续型变量,故可以这样解释 解释,如X是职业,X=1
18、表示工人,ODr2、等于优势比ODo1的对数:3、注意p(: .:1X),虽然由-1不能直接对p进行解释,但可以判断:若 r,1 * e则P增加,反之则减小。6、小结公式意义模型In P 二InOD o Jx,或 OD Fo :1X1 - POD 二 p.1 _ P事件C y = 1发生的概率是不发生的 OD倍优势p=OD 1-p:-1 o,x , In OR ; :1 o,x , In OROR = OD1/ODx增加1个单位,优势增减 e -1倍1儿力比OD1 ODoe1,优势增加;e ,优势减小系数OD1InX增加1个单位,优势比的自然对数增(减) 1个单位ODo三、多分类有序变量的lo
19、gistic回归设因变量y为有k个等级的有序变量:y =12H|,k。x(x1|,xh)为自变量。记y的等级为i的概率为P(y =i x) =口,i -1,21,k。则等级小于等于i的概率为P(y 叮 x)二 P(y =1 x) P(y =2x)川 P(y =i x)二 Pl P2 川 Pi称P(y列x)为等级小于等于i的累积概率(cumulative probability)。作logit变换:P(y i|x)叽巳心小巴卡鳥卜)有序变量的logistic回归模型定义为hlog it P(y i x) -i吃恥,i =12川,k1i=1等价于P(y S x)二1 +expl-ctj + 迟 P
20、ixiI y 丿实际上是将k个等级人为地分为两类:,2,川,门和,在这两类定义的logit表示: 属于后k -1个等级的累积概率与前i个等级的累积概率的比数之对数,故该模型称为累积比 数模型 (cumulative odds model。X是解释变量均为0时, j与i无关,故:有序变量的累积比数模型有k -1 h个参数,:-和 j为待估参数(i=1,Hl,k-1, j=1,lil,h ),对于任一 i , logit(P(yi|x)是自变量的线性函数。在某一固定的i下,两类不同概率之比的对数值。由于回归系数% “2 川叭根据有序变量的logistic回归模型,可得每类结果的概率:P(y =i
21、x) =P(y x) - P(乞 i 一1 x)八 氷 u 空:J1 exp1h-:i4iXim1_ ( h1 exp i 二:ixi-level 9&%CL45%CLWalds Chi-square p-levelOdds raitio (umi! ch) -95% CL+55%CLOdds ratio (range) -AECL+95%CL6290.199 -23.2170.000-5.D2D -4.230 5:B9.CJ39 .DOOO.DIO0.007O Dl JQ.1091.015 0310 -0.1030.32J1.0.1.Q.Q.107227220331119C36119C3FI
22、0.5050.0539.614WO2O023DOGO9S37X4S4 口 E 4 H4.5543.3436 203_0528 5000800 3370 54072 245 I 5501 4口11 7153 7272 7S2S04H因此,logit回归万程为In= -4.629 0.110S 0.505G 0.439C1 - P为了明确p是如何定义的,最好在模型后面注释一下。In = .6290.110S 0.505G0.439C ,其中 Py=1.;=p1 - p检验结果表明:S性别的系数检验不显著(为0),而工龄G和学历C的系数检验均显著(不为0)。对于3个检验的问题Hs: :0,晋升与性别
23、无关,接受HsHg: 0,晋升与工龄无关拒绝HgHoc:=0,晋升与学历无关拒绝Hc故,晋升与性别无关,与工龄和学历有关:工龄越长、学历越高,晋升的概率越大。 实际上,两个logit回归方程都是正确的,只不过 p的意义不同。,其中 Ply =0 = p= 4.629-0.110S -0.505G -0.439Cp 值0.310In=-4.629 0.110S 0.505G 0.439Cp值0.310四、附录1、将糖尿病原始数据(表1)整理成分组数据(表2)第1步,在exceI中,用if语句将123个样品(患者)分成10组。由于if语句只能嵌 套7个if语句(分8组),可将数据按年龄排序后,分两
24、次将 123个样品分成10组。两次 分组的if语句如下:第 1 次:IF(c235,1,if(c2v40,2,if(c2v45,3,if(c2v50,4,if(c2v55,5,if(c2v60,6,if(c2v65,7,if(c2v70,8,9)第 2 次: IF(d2X1.=5.t站丸刊區或牌爲埠u厂瘙吉H计宜审JS医皿朋常创涩的抿晒豊aiE曲箱遴现精Hi严範18懣规囲|旦蝕疝:8觇?1.| 監* | | | F:母 Qp . 住Kfi 吒)硼I上站创斤帧计飙I鳖据透视表和戳据逶机图冋导-3步婆.13 _BEr捋現U工條J)勒击需ET榔3创建克抵遢1除.SF1I22布舄QJ . | aJS%
25、: I 酗 I上一吿I 舌:凭他応i将分组变量C拖入“行(R) ”,将变量Y拖入“列(C)”,再将变量Y拖入“数据(D) ”, 双击“求和项:y”出现下图。将“求和”改为“计数”,见下图按“确定”出现下图。数据透视表和数据透视圉向导- 3步骤之3!-勲据适规表显示沱晝广浙楚工作表Qf)P现有二Tt表国) 耳 *.iTi$TEL|单缶“芫减搖钗赳建麴惬适脱.布尿如 |选顼| 取消 J齿酣将光标指向“现有工作表” (1-处),指出计算结果的存放位置(2处)。本例中, 存放在“ Sheet1!$F$1,即存放在“当前工作表的第1表的第f列、第1行”的位置。按“完成”。出现下图。经适当计算、整理得下表
26、。再整理成下面的表2各组频数患病频数恵病频率1200. 0002710, 1 4331230. 25041160. 54551290. 7506151 20, 800724200. S33823220. 957914141. 00010331 一 000总计123900. 732表2糖尿病分组数据分组组号频数ni患病频数n患病频率Pi n(1)ni组中值xi35以下1200.00032.536402710.14337.541 4531230.25042.5465041160.54547.551 5551290.75052.55660615120.80057.561 65724200.83362
27、.56670823220.95767.571 75914141.00072.576以上10331.00077.5合计123900.732注意:.应考虑患病频数.(此为新增加的).。2、将教师晋升分组数据(表4)转换为(软件可识别)分组数据(表5)的SAS程序表4教师晋升分组表性别s晋升y工龄g学历c012300119820718918911415202331注意:1按从左到右的顺序:s, y, g, c读数,顺序不能混;2、s, y,g, c的取值从小到大读取(见程序第 3行)3、 数据行(从第5行开始)中仅放频数:佃8,,31等。s, y, g, c的取值 不要放到数据行中。SAS程序如下:
28、TITLE Logistic回归一教师晋升数据data qc;do s=0,1;do y=0,1; do g=1 to 4; do c=0 to 3;input f ; output;end; end; end; end; cards; 19820718918917923616313719318414791186151834135712510101491315151416161149971421859614018217614118317013717915711710112613371320714202515202331proc print;proc logistic des;model y=s
29、 g c /clodds=wald;freq f;run;将上述程序复制到SAS软件的编辑窗口。程序运行后,出现如下输出L储i妣i心回归-教师晋升数据Obssycf1 00101982 00I12Q7anni?ns将上述输出的数据选定,复制到空白的word文档中进行设法进行编辑,并转化为如下的表格格式即可。Obssygcf1001019863114223641143313、数据表1、 糖尿病原始数据 (注:这是未分组数据!)编号动脉硬化分类年龄nyx1032203430354035503660367036813690391004011040121411304114041150411604343
30、434343454545454747484949494950505252525253535454545455551101111111111011015555565656575757575758585960606161611 611718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646511111011111111101111111111110161626263636363636363636363636464646465656565666666666666676768686869696969696969697070707171717166676869707172737475767778798081828384858687888990919
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024建筑项目铜门定制及安装工程合同
- 2024年香港地区离婚协议模板版
- 2024年版杭州婚房房产分割协议书
- 2024年版简易工程施工承包合同范本版B版
- 2025版劳动人事争议仲裁院劳动争议仲裁院争议案件调解与仲裁员监督合同2篇
- 2025版烟酒电商平台合作协议细则3篇
- 2023年中空玻璃设备项目融资计划书
- 课题申报书:代际传递视角下儿童期情感忽视对小学生心理健康的影响及其干预措施研究
- 2025年度股东股权变更协议参考范本3篇
- 课题申报书:大学生学习过程数字化建模与评估研究
- 医院药物临床试验伦理委员会伦理审查申请及受理表
- 资产收购法律意见书范本
- 淘汰赛赛对阵表
- 空压机日常操作标准作业指导书
- 电子公章采集表格样表格
- DB3502∕Z 5058-2020 厦门市城市轨道交通工程预算定额(土建工程)
- 教师信息技术能力提升培训课件希沃的课件
- 《深圳地质》-地质构造-断裂带-文字全电子版
- 《桥梁工程计算书》word版
- 学术论文的写作与规范课件
- (完整版)ECRS培训课件
评论
0/150
提交评论