多重线性回归分析.课件_第1页
多重线性回归分析.课件_第2页
多重线性回归分析.课件_第3页
多重线性回归分析.课件_第4页
多重线性回归分析.课件_第5页
已阅读5页,还剩148页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、多重线性回归分析例:由于改革开放政策,深圳特区中外来人口大幅度增加,为了考察特区中外来人口对本地经济发展的贡献,深圳特区统计局收集了所属的宝安县在1987年末18个镇的人口与工农业总产值数据(见数据文件reg.sav)。此处把工农业总产值当作因变量(W),而把外地及本地人口数当作两个自变量(Z1,Z2)。(有关统计方法的原理及计算参见孙尚拱,医学多变量统计与统计软件,北京医科大学出版社,2000)第1页,共153页。数据文件reg.sav第2页,共153页。1.如何估计自变量与因变量之间的相互关系?(估计回归方程)2.哪些自变量对因变量有影响?(影响因素分析)3.哪一个自变量对因变量的影响更重

2、要?(自变量的相对重要性分析)4.如何用自变量预测因变量?(预测分析)(一)多重回归分析的任务第3页,共153页。(二)多重回归分析的适用条件1.自变量与因变量之间存在线性关系2.残差的正态性3.残差的等方差性4.剔除强影响点(突出点,outliers)5.自变量之间不应存在共线性6.独立性残差:实际测量值和预测值之间的差异第4页,共153页。关于独立性:所有的观测值是相互独立的。如果受试对象仅被随机观测一次,那么一般都会满足独立性的假定。但是出现下列情况时,观测值不是相互独立的:时间序列、重复测量(某种药物使用后1个月两个月三个月的疗效)等情况。SPSS软件在“Linear Regressi

3、on:Statistics”对话框中,提供了Durbin-Watson统计量d,以检验自相关系数是否为0。当d值接近于2,则残差之间是不相关的(此指标仅作参考。是否可使用多元分析主要依据实验设计)。第5页,共153页。1.如何估计自变量与因变量之间的相互关系?(估计回归方程)其中y为实测值, 为预测值(predicted value)估计模型中系数的方法:最小二乘方法(Least Square,LS),即残差平方和最小。b1, b2. bm称为偏回归系数(partial regression coefficient) :当固定其他变量时(扣除其他自变量的影响,即Bm就是已经调整了其他影响因素后

4、的回归系数,故名偏),xm每增加一个单位,y的增加值都是bm。 (一)多重回归分析的任务第6页,共153页。模型拟和的优良性指标R:复相关系数,反映了Y与M个自变量的总体相关系数;R2:决定系数(R Square)R2c:调整决定系数(Adjusted R square ),是对决定系数的修正,是更客观的指标。 (若要做预测分析的话,R值的要求较高,应0.75。0.6凑活,0.3.,0.4预测效果很差。若只是做影响因素分析的话0.5之类都还好)这些指标越接近于1,说明回归模型拟合越好。 第7页,共153页。2.哪些自变量对因变量有影响?(影响因素分析)对回归模型的统计检验当P0.05,则认为此

5、回归模型有显著性。对自变量的统计检验当P0.05,则认为此自变量对因变量有影响。第8页,共153页。自变量的筛选实际应用中,通常从专业知识出发,建立一个简约(parsimonious)的回归模型,即用尽可能少的自变量拟合模型。 常用方法(最常用的是2和3,1仍然是单变量思想。注意,选入标准0.05,剔除标准宽些0.10)1.前进法(Forward):逐步增加变量到模型中(由少到多),对已经进入的变量不再剔除;SPSS中默认的选入自变量的检验水准为0.05。2.后退法(Backward):从模型中逐步剔除变量(由多到少),对已经剔除的变量不再进入;SPSS中默认的剔除自变量的检验水准为0.10。

6、 3.逐步法(Stepwise):结合了前进法和后退法,变量边进入边剔除。第9页,共153页。3.哪一个自变量对因变量的影响更重要?(自变量的相对重要性分析)当自变量的量纲相同时,衡量自变量相对重要性的指标: 偏回归系数;若偏回归系数的绝对值越大,则相应自变量对因变量的影响就越大。第10页,共153页。当自变量的量纲不同时,衡量自变量相对重要性的指标:(偏回归系数有量纲,以下指标无,故可用来衡量)标准化偏回归系数(Standardized regression coefficient)、偏相关系数(Partial Correlation)和部分相关系数(Part Correlation)。上述

7、指标的绝对值越大,则相应自变量对因变量的影响就越大。 第11页,共153页。标准化偏回归系数:对自变量、因变量作标准化处理后计算的回归系数。偏相关系数:因变量与自变量均扣除其他自变量影响之后,二者之间的相关系数。与简单相关系数(Pearson相关系数)不同;例如:考察因变量Y与自变量X1 、X2的多元回归分析,Y与X1的偏相关系数为扣除X2影响后的Y与X1的相关性。 Y与X1的简单相关系数为忽略X2影响后的Y与X1的相关性。部分相关系数:自变量扣除其他自变量影响之后,因变量与自变量之间的相关系数。与偏相关系数不同,部分相关系数中因变量未扣除其他自变量的影响。 第12页,共153页。4.如何用自

8、变量预测因变量?(预测分析)当自变量取某个数值时,y的预测值为Y的均数的95置信区间个体Y值的95容许区间预测分析时,(x10,x20 xm0)应该在样本的自变量取值范围内。 第13页,共153页。1.自变量与因变量之间存在线性关系通过绘制y与每个自变量的偏相关散点图,可以判断y与自变量之间是否存在线性关系。 2.残差的正态性通过绘制标准化残差的直方图以及正态概率图(P-P图),可以判断是否服从正态分布。此条件可以放宽,只要不是严重偏离正态即可。3.残差的等方差性通过绘制标准化残差与预测值的散点图,若标准化残差在零水平线上下波动,无明显的规律性,则可以判断满足等方差的假定。 (二)多重回归分析

9、的适用条件第14页,共153页。通过标准化残差(Standardized Residuals) (服从T分布)、学生氏残差(Studentlized Residuals) (服从Z分布)来判断强影响点 。当指标的绝对值大于3时,可以认为样本存在强影响点。删除强影响点应该慎重,需要结合专业知识。以下两种情况可以考虑删除强影响点:1.强影响点是由于数据记录错误造成的;2.强影响点来自不同的总体。4.剔除强影响点(Influential cases;或称为突出点,outliers)第15页,共153页。5.自变量之间不应存在共线性(Collinear) (可以有一定的相关性,因为如果完全不相关,相关

10、系数为0,那么就和单变量分析一样。)当一个(或几个)自变量可以由其他自变量线性表示时,称该自变量与其他自变量间存在共线性关系。常见于:1.一个变量是由其他变量派生出来的,如:BMI由身高和体重计算得出 ;2.一个变量与其他变量存在很强的相关性。当自变量之间存在共线性时,会使回归系数的估计不确定、预测值的精度降低以及对y有影响的重要自变量不能选入模型 。第16页,共153页。共线性诊断方法:1.TOL(容许度,Tolerance)法:TOL越接近零,共线性越大。2.VIF(方差膨胀因子,Variance Inflation Factor,VIF )法:VIF越大,共线性越大。3.特征根(Eige

11、nvalue)法:如果自变量相关矩阵的特征根近似于零,则自变量之间存在共线性。4.CI(条件指数,Condition Index)法:CI越大,共线性越大。第17页,共153页。1. 数据预处理:根据经济学专业知识,需要先对Z1、Z2、W作对数变换,分别记为X1、X2、Y。(三)多重线性回归:实例分析变换后的数据第18页,共153页。回归线性2.多重回归分析第19页,共153页。因变量自变量第20页,共153页。Statistics对话框回归系数的估计模型拟和共线性诊断部分相关与偏相关系数统计描述第21页,共153页。Plots对话框标准化残差图直方图正态概率图,P-P图绘制所有的偏相关图 第

12、22页,共153页。Save对话框第23页,共153页。分别给出Y、X1、X2的均数与标准差相关系数阵简单相关系数(Pearson相关)P值从简单相关系数可见:Y与X1、X2存在较强相关性,X1、X2存在中等相关性。3.输出结果解释第24页,共153页。复相关系数决定系数调整决定系数F值P值此模型的复相关系数为0.857,调整决定系数为0.699,反映此模型拟和较好;模型经统计学检验,F=20.738,P0.05,说明此多元回归模型有显著性。第25页,共153页。非标准化系数 标准化系数 t值 P值简单相关偏相关部分相关TolVIF经统计学检验,X1与X2均有显著性,因此回归模型为 ;根据偏回

13、归系数的大小,可以认为X2对Y的影响比X1大。第26页,共153页。特征根条件指数, CI方差比例共线性诊断共线性诊断:两个自变量之间不存在共线性。第27页,共153页。因为标准化残差、学生化残差的绝对值小于3,所以从统计学上认为样本不存在强影响点。残差统计量学生化残差标准化残差第28页,共153页。直方图及P-P图从残差直方图及P-P图可见:残差正态性不太好,可能与样本量太小有关。第29页,共153页。通过绘制y与X1的偏相关散点图,可以判断y与X1之间存在线性关系。 第30页,共153页。通过绘制y与X2的偏相关散点图,可以判断y与X1之间存在线性关系。 第31页,共153页。检查残差的等

14、方差性:由图可见:残差满足等方差性。第32页,共153页。提示: 多重线性回归分析允许自变量为分类变量,但当自变量为多分类变量时,需要以“哑变量(dummy variables)”的方式引入模型。 如:某个自变量为“文化程度”:1=文盲,2=小学,3=中学,4=大学及以上。若以“大学及以上”为参照,关心文盲、小学、中学分别与大学及以上的比较,则进行回归分析时,此自变量须用3个哑变量表达:x1: 1=文盲,0=其他;x2: 1=小学,0=其他;x3: 1=中学,0=其他。第33页,共153页。练习1以下实例摘自Hosmer, David W . (2000). Applied logistic

15、regression . John Wiley, New York.研究目的是考察与婴儿低出生体重有关的可能危险因素(当体重低于2500g时,认为是低出生体重婴儿)。研究收集了189例妇女的数据,其中59例分娩低出生体重婴儿,130例分娩正常体重婴儿(数据见文件data1.sav)。第34页,共153页。(一)Logistic回归分析的任务影响因素分析logistic回归常用于疾病的危险因素分析,logistic回归分析可以提供一个重要的指标:OR。(二)Logistic回归分析的基本原理1.变量特点因变量:二分类变量,若令因变量为y,则常用y1表示“发病”,y0表示“不发病”(在病例对照研究

16、中,分别表示病例组和对照组)。自变量:可以为分类变量,也可以为连续变量。Logistic回归分析第35页,共153页。2.Logistic模型P=P(y=1|x),为发病概率;1-P=P(y=0|x),为不发病概率。0为常数项, 1 , 2 . m分别为m个自变量的回归系数。g(x)是对P的变换,称为logit变换:可以得到:第36页,共153页。模型估计方法:最大似然法(Maximum Likelihood Method):构造似然函数( Likelihood function )L= P(y=1|x) P(y=0|x),通过迭代法(默认20次以内)估计一组参数(0, 1 , 2 . m)使

17、L达到最大。第37页,共153页。3.模型及自变量的统计检验模型检验:H0:12im H1:至少有一个i0采用似然比检验(the likelihood ratio test),当P0.05时,拒绝H0,认为模型有统计学意义。自变量检验:H0:i0H1:i0采用Wald检验,当P0.05时,拒绝H0,认为i不为0。第38页,共153页。4.自变量的筛选与多元线性回归分析类似,有Forward法(实际上是逐步向前法)、Backward法。默认方法为Enter,即所有自变量一次全部进入方程。注:不同自变量的筛选方法,当结果差别较大时,应该结合专业知识,用尽可能少的变量拟合一个最佳模型。依据Wald统

18、计量(Wald statistic) 、似然比统计量(Likelihood ratio)或者条件统计量(Conditional statistic)剔除变量时,似然比统计量是决定哪个变量应该被剔除的最好方法。第39页,共153页。5.模型拟合的优良性指标(1)拟合分类表(Classification Table)根据Logistic回归模型,对样本重新判别分类,总符合率越接近100%,则模型拟合越好。Logistic回归用于判别分类很粗劣,尤其在很多情况下对于小样本的分类效果差 。(2)Hosmer-Lemeshow 拟合优度统计量 (与样本量有关)当检验的P值大于0.1时,则说明模型对样本的

19、拟合是可以接受的。第40页,共153页。6.OR与RRLogistic回归模型中,OR=exp()。lnOR=当某种疾病的发病率或死亡率很低时,ORRROR的置信区间为: 当自变量为连续变量时,回归系数的解释与变量单位有关。当x改变“c个”单位时,OR=exp(c),置信区间为 第41页,共153页。例:比较新疗法与旧疗法治疗某种疾病的疗效。现对40例患者随机分组,分别接受新疗法和旧疗法治疗。根据专业知识,患者的病情严重程度、年龄对疗效也有影响。如何评价新旧疗法的疗效(见数据文件logistic.sav)?(注:作为举例,本例样本量仅为40例,由于样本量太小,Logistic回归的结论仅作为参

20、考)第42页,共153页。变量说明:Y:治愈情况,1=治愈;0=未治愈;X1:病情严重程度,0=不严重,1=严重;X2:年龄。X3:治疗方法,0=新疗法,1=旧疗法。第43页,共153页。二值Logistic回归第44页,共153页。因变量协变量(自变量)注:此处将X1、X3看作为连续变量;采用Enter法。第45页,共153页。OR的95%置信区间第46页,共153页。对模型的检验-2Log likelihood=40.597经统计学检验,模型2=13.951,P=0.003,Logistic回归模型有显著性。第47页,共153页。符合率为70.0%拟合分类表第48页,共153页。回归系数标

21、准误Wald值P值OROR置信区间根据模型,病情严重程度与治疗方法对患者的治愈情况有影响;其中病情严重组相对于不严重组,OR0.203,95%置信区间为(0.038,1.092)(此区间包括1,缺乏实际意义);旧疗法组相对于新疗法组, OR0.103,95%置信区间为(0.019,0.553)第49页,共153页。另法:将X1、X3指定为分类变量。第50页,共153页。与前述结果相比,X1与X3的回归系数符号发生了变化,结果解释有所不同:病情不严重组相对于严重组,OR4.928, 95%置信区间为(0.916,26.506) ;新疗法组相对于旧疗法组, OR9.707, 95%置信区间为(1.

22、809,52.103) 。另法:将X1、X3指定为分类变量。注:对于二分类变量,可以当作连续变量处理,也可以指定为分类变量,但要注意结果解释。第51页,共153页。后退法筛选变量第52页,共153页。每步的模型检验、-2Log likelihood及拟合分类表第53页,共153页。不在模型中的变量后退法筛选变量第54页,共153页。逐步前进法筛选变量第55页,共153页。不在模型中的变量逐步前进法筛选变量第56页,共153页。应用Logistic回归分析时的注意事项1. Logistic回归是乘法模型,这一点,在结果解释时需要慎重。对于自变量(X1,X2),OR12=EXP(1+2)=OR1O

23、R2例:某研究调查胃癌发病的危险因素,得到“有不良饮食习惯”相对于“无不良饮食习惯”的OR=2.6, “喜吃卤食和盐渍食物”相对于“不吃卤食和盐渍食物”的OR=2.4。那么根据Logistic回归,“有不良饮食习惯且喜吃卤食和盐渍食物”相对于“无不良饮食习惯且不吃卤食和盐渍食物”的OR=2.62.4=6.24,得出此结论时需要考虑从专业知识上是否合理。第57页,共153页。通常情况下,自变量为二分类变量时,可以当作连续变量进入模型(常用0、1或者1、2赋值),也可以通过“categorical”来指定哑变量。但是,对多分类变量应该通过“categorical”来指定哑变量,而不宜直接作为连续变

24、量处理。 当自变量有m个分类时,则需要定义m-1个哑变量。如定义自变量“文化程度”的哑变量:若以“大学及以上”为参照,关心文盲、小学、中学分别与大学及以上的比较,则进行Logistic回归分析时,需定义3个哑变量:x1: 1=文盲,0=其他;x2: 1=小学,0=其他;x3: 1=中学,0=其他;当x1、x2、x3取值均为0时,则表示文化程度为“大学及以上”。 第58页,共153页。附录:经典Logistic回归分析的其他应用假设检验的目的推断多个总体率是否相等当P0.05,拒绝H0时,总的说来各组有差别,但并不意味着任何两组都有差别:可能是任何两者间都有差别,也可能其中某两者间有差别,而其它

25、组间无差别。目前尚无公认的进一步两两比较的方法(可考虑采用Logistic回归)。结果解释回顾:分类变量的假设检验完全随机设计的多个样本比较第59页,共153页。例:某省从3个水中氟含量不同的地区随机抽取1012岁儿童,进行第一恒齿患病率的调查,问3个地区儿童第一恒齿患病率是否不同?第60页,共153页。变量说明:group:组别,1=高氟区,2=干预区,3低氟区;effect:1=患龋,2=未患龋;freq:频数 。第61页,共153页。经2检验, 2=10.489,P=0.005,可以认为:总的来说三个地区患龋情况有差别。Pearson卡方值P值患龋率第62页,共153页。如何进一步判断哪

26、两个地区有差别?二值Logistic回归在进行Logistic回归分析之前,需要用freq变量进行加权第63页,共153页。第64页,共153页。以低氟区为参照,其他两个地区与低氟区进行比较。Categorical对话框第65页,共153页。Options对话框OR的95%置信区间第66页,共153页。对模型的检验结论:经统计学检验,2=11.852,P=0.003,Logistic模型有显著性。高氟区、干预区与低氟区相比,患病率均有差异(P0.05)。第67页,共153页。 生存分析 生存分析是将事件的结果和出现这一结果所经历的时间,结合起来进行分析的一种统计分析方法。 资料特点(1)通过随

27、访进行收集(2)起始时间(3)事件的结局及时间(4)生存时间的分布十分复杂(5)随访资料常因失访等原因造成某些数据观察不完全 第68页,共153页。事件:研究者所认定的结局生存时间:开始观察到某终点事件所经历的时间跨度。 (1)完全数据:指从起点至出现认定事件所经历的时间跨度。 (2)截尾数据:从起点至截尾点所经历的时间。 截尾:没有观察到的认定事件。有以下几种情况: 失访、拒绝访问、中途退出等, 死于其它与研究无关的疾病 研究工作结束时事件尚未发生等 完全数据是生存分析的主要依据;截尾数据也提供部分信息,说明病人在某时刻之前没有发生事件。 基本术语第69页,共153页。生存函数又称生存率S(

28、t) :观察对象活过时点t的概率. S(t)= P(xt) ,为累积生存概率。 有截尾数据,分母就必须分时段校正,故此式一般不能直接应用。 第70页,共153页。生存概率和生存率的区别,前者是单位时段生存概率;而后者是多个时段的生存概率,是多个时段的累积的结果。生存率的估计:假定病人在各个时段生存的事件相互独立,则生存率为各时段生存概率之积。 第71页,共153页。第72页,共153页。Kaplan-Meier法:适用于小样本资料,生存时间记录要确切。 寿命表法:适用于频数表资料或大样本资料,生存时间分段记录的资料。生存时间的估计和检验第73页,共153页。例 某研究者收集一些肺癌病例, 数据

29、见survival1.savtime生存时间(天)status生存状态. 0,截尾; 1,死亡type肺癌类型: 1腺癌, 2大细胞癌, 3小细胞癌, 4鳞癌health病人入院时的身体状况diagtime从诊断为肺癌到开始治疗的时间age病人的年龄sex病人的性别试比较不同类型肺癌患者生存时间 Kaplan-Meier法第74页,共153页。SPSS数据文件第75页,共153页。AnalyzeSurvivalKaplan-MeierTime: time(生存时间变量)Status: status(生存状态变量) Define event: single vaule:1Factor: type

30、(欲比较的分类变量)Compare factor test staticics: 选 log rankOption statistics :survival table plot: 选SurvivalOkSPSS操作第76页,共153页。第77页,共153页。K-M主对话框第78页,共153页。生存率曲线统计学检验 第79页,共153页。option子对话框第80页,共153页。腺癌的生存分析表结果第81页,共153页。腺癌的生存时间的均数、中位数Number of Cases: 18 Censored: 1 ( 5.56%) Events: 17 Survival Time Standard

31、 Error 95% Confidence Interval Mean均数: 62 12 ( 38, 86 ) Median中位数: 48 6 ( 36, 60 )第82页,共153页。218.41,P=0.004,显示四种病理类型患者的生存率曲线分布差别有统计学意义第83页,共153页。四种病理类型肺癌患者的生存曲线,鳞癌生存状况较好,其次为大细胞癌,小细胞癌和腺癌的生存状况较差第84页,共153页。数据特点 寿命表数据,所有病例的随访都是定期(一年)进行的. 为便于录入可使用每个组段的起始年数表示每个组段. 计算的是1年的生存概率,n年的生存率。寿命表法例 某医院对114例胃癌患者术后生存

32、情况进行随访, 见文件lifetb1.sav, 计算胃癌患者术后各年生存率第85页,共153页。SPSS数据文件第86页,共153页。dataweight case;weight case by : freq。OK SPSS操作 (一)SPSS操作(二)AnalyzeSurvivalLife TablesTime框: time(生存时间变量)Display Time Iiterals:10 to 1Status框: died(生存状态变量) Define event: single vaule:1Option选lietable table;plot: 选Survival。Ok第87页,共153

33、页。Life table 主对话框第88页,共153页。其它选项说明:Factor: 分组变量By factor: 分层变量Options对话框 compare levers of first factor overall:几组生存曲线的检验 pairwise:几组生存曲线的两两比较第89页,共153页。Life Table结果第90页,共153页。两组儿童横纹肌瘤治疗后复发时间处理组9,12,16,19,19,20,20,24,24,30,31,34,42,44,53,59,62对照组2,3,9,10,10,12,15,15,16,18,24,30,36,40,45分析两组儿童的生存情况练习

34、1第91页,共153页。第92页,共153页。 常用术语生存函数又称生存率S(t) :观察对象活过时点t的概率. S(t)= P(xt) ,为累积生存概率。如果有截尾数据,分母就必须分时段校正,故此式一般不能直接应用。Cox 比例风险模型第93页,共153页。 常用术语生存概率和生存率的区别,前者是单位时段生存概率;而后者是多个时段的生存概率,是多个时段的累积的结果。生存率的估计:假定病人在各个时段生存的事件相互独立,则生存率为各时段生存概率之积。 第94页,共153页。常用术语第95页,共153页。Cox 比例风险模型 1972年由英国的Cox提出,属半参数模型。 Cox模型的基本形式: h

35、(t,x)为具有协变量x的个体在时刻t的风险函数(风险率, 瞬时死亡率),h0(t)称基准风险率,即所有协变量均为0时,个体时刻t的风险函数第96页,共153页。 上式的右侧分两部分: h0(t)与时间有关的任意函数,其分布和形状无明确假定,是非参数部分。另一部分是参数部分,其参数可以通过样本估计. 因为无须估计h0(t), 故Cox回归的模型拟和不是直接用生存时间作为因变量,而是以风险函数与基础风险函数的比值为因变量。Cox 比例风险模型第97页,共153页。Cox 比例风险模型第98页,共153页。例 某研究者收集一些肺癌病例,进行Cox回归分析。数据见Survival1.sav数据tim

36、e生存时间(天)status生存状态. 0,截尾; 1,死亡type肺癌类型: 1腺癌, 2大细胞癌, 3小细胞癌, 4鳞癌health病人入院时的身体状况diagtime从诊断为肺癌到开始治疗的时间age病人的年龄sex病人的性别试比较不同类型肺癌患者生存时间 第99页,共153页。SPSS操作AnalyzeSurvivalCox regressionTime: timeStatus: statusDefine event: single vaule:1Covariates: type/ health /diagtime/ age /sex (待筛选的协变量)Categorical :Cov

37、ariates:type(将肺癌亚型定义为哑变量)Method : forward LRplot: SurvivalOption : CI for exp()Display model information: At last stepOk 第100页,共153页。第101页,共153页。Cox Regression 主对话框第102页,共153页。 SPSS结果第103页,共153页。第104页,共153页。第105页,共153页。第106页,共153页。第107页,共153页。第108页,共153页。第109页,共153页。第110页,共153页。第111页,共153页。判别分析是根据训练

38、样本的特定指标,找出判别函数,用以判断未分类个体归属的方法训练样本(training sample) :明确分类,含特定测量指标广泛应用于临床诊断与鉴别诊断。判别分析(Discriminant Analysis) 第112页,共153页。关于训练样本1、每一个样本的所属类别应采用“金标准”2、测量指标必须与分类有关,测量值必须准确3、样本量足够大。第113页,共153页。判别效果的评价: 用误判率P来评价 样本二分法 回代法 交互验证(Cross-Validation):依次去掉1例,建立判别函数,在用建立的判别函数判断该例。第114页,共153页。 例1 从胃癌、萎缩性胃炎及非胃病三类人群中

39、,每类各抽取5例。每一例都进行4项生化指标的检测:铜兰蛋白X1、蓝色反应X2、吲哚乙酸X3、中性硫化物X4 ,数据如下(孙尚拱): 第115页,共153页。第116页,共153页。 又称Fisher线性判别。对分布没有要求,也没有等协方差阵假定。 Fisher借鉴自己创造方差分析的思想,试图找到一个由原始自变量组成的线性函数,使得类间距离尽可能大,而母体内的方差尽可能的小。典则判别分析(canonical discriminant)第117页,共153页。 设有个k类,从第r个类中随机抽取nr个样品,共抽到n=n1+n2+ nk,每个个体测量变量X1, X2 Xm,构造与原始变量成线性函数关系

40、的综合指标u(x ):第118页,共153页。Fisher的判别思想是使上式尽可能大。第119页,共153页。 最大时的判别系数 , 并记此时为1,该U1(x)区分能力最大; 次大时的判别系数 ,并记此时为2;该U2(x)区分能力次之; 最多可以找到p(pmin(k-1),m)个不为0的及相应p 个判别系数向量。 第120页,共153页。 特征根i反映了该判别函数Ui(x)的区分能力;其相对区分能力为: 显然1的区分能力最大,1相对区分能力为:第121页,共153页。 另一个衡量综合指标Ui(x)与k个母体关系密切程度的指标为典则相关系数。第122页,共153页。对判别函数进行检验H0:各组的

41、均值向量相等WilkLambda值:第123页,共153页。 分类 将P组判别系数带入判别函数,分别计算每个样品的综合指标,记 为第r类综合指标的中心点(均数)。 X0为待分类的样品,可计算出P个综合指标 ,计算该点到各类中心点的欧式距离 若X0到r类的距离最近,则将X0判为r类。第124页,共153页。例1 某医师对25例正常人, 15例肝硬化患者,40例血清甲胎蛋白阳性肝癌患者和20例甲胎蛋白阴性肝癌患者的四种血清蛋白成分(PA,a1-AG,a1-AT,HP)进行观察,试建立判别函数, 数据见discrim田.sav第125页,共153页。第126页,共153页。判别分析主对话框第127页,共153页。第128页,共153页。第129页,共153页。第130页,共153页。10.908, 相对区分能力为82.3%2=0.195

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论