基于logistic回归模型对肝癌手术治疗效果的评价_第1页
基于logistic回归模型对肝癌手术治疗效果的评价_第2页
基于logistic回归模型对肝癌手术治疗效果的评价_第3页
基于logistic回归模型对肝癌手术治疗效果的评价_第4页
基于logistic回归模型对肝癌手术治疗效果的评价_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、河南城建学院第三届大学生数学建模竞赛承诺书我仔细阅读了河南城建学院笫三届大学生数学建模竞赛参赛须知。我完全明白,在竞赛开始后参赛者不能以任何方式(包括电话、电子邮件、网上咨 询等)与任何人研究、讨论与赛题有关的问题。我知道,抄袭别人的成果是违反竞赛规则的,如果引用别人的成果或其他公开的资 料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考 文献中明确列出。我郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则 的行为,我将受到严肃处理。我的选择题号为:B姓 名系 别学 号联系方式(以下内容参赛同学不需填写,由竞赛组委会统一编码)评阅编号:河南城建学院

2、第三届大学生数学建模竞赛编号专用页评阅编号(由组委会评阅前进行编号):评阅记录(供评阅时使用):评分nnnnn评阅人备注题目:基于Logistic回归模型对肝癌手术治疗效果的评价摘要:本文根据20个具有代表性的肝癌患者样本的10项指标,讨论了肝癌手术的预 后影响,通过不同的模型来提高模型预测的精确度和稳定性。通过查阅大量医学书籍, 了解各项指标的意义以及在临床实验中它们对肝癌手术的影响程度,并根据医学统计学 原理对各个指标的含义进行赋值,所赋的值为分类指示符,并无数值含义。首先,利用聚类分析根据10个指标对20个样本进行聚类,发现与预后影响的结果 具有很大的偏差,故10个指标均不是对预后具有决

3、定性的指标,具有权重性。再对10 个指标对预后的影响进行聚类分析,发现x3 (HbsAg), x9 (肿瘤旁的微小子灶),x4 (AntiHCV), xlO (术后腹水),x8 (肿瘤包膜)、x2 (门脉癌栓),x7 (肿瘤生长方式) 具有相近性,即对预后的影响也许具有一致性。其次,利用判别分析各指标与预后影响的相关性,得到非标准化判别方程并用3个 样本进行回带检验,准确率为66. 7%,精确度和稳定性不够高,对现实的指导意义不怎 么大。为提高精确度和稳定性,换用Logistic回归模型利用具有代表性的肝癌患者样本 的10项指标建立回归方程,得到:无预后影响的准确率为90. 9%,有预后影响的

4、准确 率为88. 9%,总计百分比为90%,根据统计学原理,若预测率大于50%,预测的结果是良 好的.较为准确的。至此,准确率比用判别分析提高了 23. 3%,所以用Logistic回归 模型对预后影响进行判断是有效的。关键词:聚类分析,判别分析,Logistic回归分析,肝癌预后影响,SPSS1问题重述肝癌手术治疗效果评价肝癌是我国第二常见的癌症,很多人在发现肝癌时就已经是肝癌中晚期了,而肝癌 手术治疗是中晚期肝癌的首选疗法。选取某医院10年来肝癌病例总共4860例,每个 病例有病人近80个信息,其中包括患者病历号、性别、年龄、学历、职业、住址、基 本病史、临床体征、恶性肿瘤分类、实验室检验

5、指标、影像学检查等,经过数据预处理, 选取其中20个有代表性的样本,选取对预后影响的10个指标如附件1-预处理后样本 数据,各指标项说明见附件2-各指标项说明。请以预后影响作为评价标准,建立数学模型,对手术的治疗效果进行预测,为病人 是否选择手术治疗提供建议。2模型假设(1)在理想情况下,认为20个样本具有很强的代表性,即包含了不同重要指标所对应 的预后影响。(2)不考虑各个样本之间的个体差异,即大致的身体健康情况相同,身体恢复能力也 相同。(3)不考虑各个样本在术后的主观意志和客观条件如手术医师、病房条件、药物使用 等的影响。(4)不考虑其他变量指标对预后的影响,不考虑其他变量指标对10个指

6、标的交互影响。3符号说明表1符号含义符号含义Gn第 n 类样本(nW 1,2, nGN*)xi第 i 个指标(iei, 10, iGN*)dij第i个指标xi与第j个指标xj的欧式距离Ci线性判别函数的系数Pi预后影响的概率P0与指标xi无关的常数项Pi指标xi对P的贡献量OR指标优势比4数据预处理4.1医学数据意义翻阅大量医学专业书籍C1L 2,可知相关变量指标的含义,如表2所示。表2变量指标的含义变量指标变量指标含义D预后影响预测疾病的可能病程和结局。XI食道静脉曲张曲张山于肝脏主要的血供来源之一的门静脉系统压力过高,导致 它的功能异常,原本应该汇入这个系统而回流至心脏的静脉血液 无法流入

7、,淤积在管腔里就使静脉异常的扩张而且不能回缩至正 常。X2门脉癌栓肝癌门静脉栓的形成是影响肝癌预后的重要因素,临床发生率高 达 60%-90%oX3HbsAgHbsAg (乙肝表面抗原):乙型肝炎表面抗原阳性,表示体内已感 染乙肝病毒。X4AntiHCVAnti-HCV ( W型肝炎病毒抗体):丙型肝炎病毒抗体IgG阳性表明 已有HCV感染。X5肿瘤部位肿瘤生长的地方X6肿瘤大小直径3cm(small)、35cm(middle)、5 10cm(big)、10cm(very big)X7肿瘤生长方式膨胀性生长:手术容易摘除,摘除后不易复发。浸润性生长:临 床触诊时,肿瘤固定不活动,手术切除这种肿

8、瘤时,为防止复发, 切除范围应该比肉眼所见范圉大,因为这些部位也可能有肿瘤细 胞的浸润。X8肿瘤包膜包膜可以视作为正常组织对肿瘤组织的反应(不一定有),为对肿 瘤局部损伤刺激的修复反应,因此是山结缔组织构成的纤维膜。X9肿瘤旁的微 小子灶一个局限的、具有病原微生物的病变组织,就称为病灶。X10术后腹水肝腹水一般来说都是山肝硬化疾病转化而来的,它是肝硬化病症 最显著的并发症之一,它的岀现代表着肝功能进入失代偿期。4. 2数据的初步分析4.2.1数据的初步统计利用Excel对选取的20个有代表性的样本及其各样本对预后影响的10个指标总 表进行析:20个样本中有“预后影响”的有9例,无“预后影响”的

9、有11例,所有样 本详情的统讣情况如表3所示。表3样本详情统计指标名称指标取值有术后影响样本数无术后影响样本数食道静脉曲张无25轻度31中度24重度21门脉癌栓无33分支34主干34HbsAg阴性48阳性3AntiHCV阴性4阳性47肿瘤部位左肝20右肝59全肝22肿瘤大小<3cm313 ocm245'10cm22>10cm24肿瘤生长方式膨胀55侵润16肿瘤包膜无42子灶突破包月莫43无16肿瘤旁的微小子灶尢75冇26术后腹水无24少44¥334. 2. 2数据剔除根据现代医学统计方法理论3,所有样本量的各项指标从轻到重的分布应呈现正态 分布图像4, 20个样本

10、数据的10个指标的分布详情均比较准确。依据统计学原理, 20个样本数据具有一定的代表性,故不剔除任何数据。4. 3对指标的赋值为方便建模时对各样本、各指标进行分析,故将各个指标的情况进行赋值,按照综 合评价中指标值标准化方法的探讨5,在模型中各项指标均为分类数据,为将分类数 据应用于数值模型中,因此对分类数据进行数值赋值。分别用数集0,1,2, 3中的数字 来表示各指标下的不同等级数据,且数集0, 1, 2, 3只是分类指示符,并无真正的数值 含义,具体赋值情况如表4所示。表4对变量的赋值变量名变量标示变量说明XI食道静脉曲无(no)0> 轻(light)1、中(mid)2、重(seri

11、ous)3X2门脉癌栓无(no) Ox 分支(branch) 1 % 主干(trunk) 2X3HbsAg阴性(negative)0、阳性(positive) 1X4AntiHCV阴性(negative)0、阳性(positive) 1X5肿瘤部位左肝(left liver) 1 % 右肝(right liver) 2> 全肝(all liver) 3X6肿瘤大小直径<3cm(small)1、3、5cm(middle)2、5、10cm(big)3、 >10cm(very big)4X7肿瘤生长方 式膨胀(dilation) 1、浸润(infiltration) 2X8肿瘤包膜

12、完整(integrate) K子灶突破包膜(part) 2无(no)0X9肿瘤旁微小 子灶无(no)Os 有(have)1X10术后腹水无(no)0 少(less)1、多(much)2Decision预后影响有(Y) 1.无(N) 05模型建立与优化求解5.1基于聚类分析分析源数据5.1.1聚类分析的基本方法聚类分析(Cluster Analysis) 是研究分类问题的多元统计方法之一,就是根 据研究对象的特征把性质相近的个体归为一类,按样本的“接近程度”使得同一类中的 个体具有高度的同质性,不同类之间的个体具有高度的差异性的多元分析技术的总称。5.1.2聚类分析的大致过程系统聚类的步骤一般是

13、首先根据一批数据或指标找出能度量这些数据或指标之间相 似程度的统讣量;然后以统计量作为划分类型的依据,把一些相似程度大的变量(或样 品)首先聚合为一类,而把另一些相似程度较小的变量(或样品)聚合为另一类,直到 所有的变量(或样品)都聚合完毕,最后根据各类之间的亲疏关系,逐步画成一张完整 的分类系统图,乂称谱系图。其相似程度山距离或者相似系数定义。进行类别合并的准 则是使得类间差异最大,而类内差异最小。记第i个样本兀与第j个样本勺之间的距离d(xitXj)= ,其中i H J非负性:心0满足一下条件:对称性:三角不等式:以£+切无预后影响的样本:9、10、13、14、19按照已知数据所

14、示,应分成两大类,一类为“有预后影响S另一类为“无预后影响S 但充分按照10个指标的数据来进行分类,所得类别含有的样本与预想的类别含有的样 本具有显著的差异。故10个指标并不都是重要指标,是具有权重性的,即需要对指标 进行筛选,得到各个指标的权重系数,建立合理的线性回归方程。5.1.4对10个指标的系统聚类分析结果考虑“预后影响”的各项指标,对10个指标进行分类,利用SPSS系统聚类分析的 方法,把原来10个指标按照“接近程度”进行样品聚类分析。通过SPSS的分析,得 到系统聚类分析如图2所示。图2 10个指标的系统聚类分析图Rescaled Distance Cluster Combine聚

15、类分析中类别数口的确定,一方面要按照聚类图的密集程度做划分,另一方面还 要考虑实际情况的需求来决定最后的分类情况: 根据图2系统聚类分析图的分类情况,将10个指标分成5类:A类:x3 (HbsAg), x9 (肿瘤旁的微小子灶),x4 (Anti HCV), xlO (术后腹水),x8 (肿瘤包膜);类类类类 B c D E:x2 (门脉癌栓),x7 (肿瘤生长方式);:X1 (食道静脉曲张);:X5 (肿瘤部位);:x6 (肿瘤大小)。从图2的信息可知知道,A类具有5项指标,B类具有2项指标,C类.D类、E 类均只含有1项指标,指标具有相近性,说明A类和B类的指标可能对预后结果的影 响具有一

16、致性。5.2基于判别分析求判别函数判别分析'是根据已知类别(两类以上)的事物的性质(表明观察量特征的变量 值),建立函数式,利用已建立的函数式对未知类别的新事物进行判断并将之归入已知 的类别的分析方法。是运用计算机进行运动员挑选、动植物分类和疾病诊断的主要统计 学基础。5.2.1判别分析的基本方法在我们的日常生活和工作实践中,常常会遇到判别分析问题,即根据所划分类别的 有关资料和某种最优准则,确定一种判别方法,判定一个新的样本归属哪一类。任何一 种判别总是存在误判的,一个好的判别法应该是误判的概率尽可能的小。常用的判别方 法有如下:计算误判率、用已建立判别函数的样品进行回带、建立判断函

17、数并判断。两个总体的距离判别:设有协方差矩阵工 相等的两个总体q和G2,其均值分别是 刈和“2,对于一个新的样品X,要判断它来自哪个总体。一般的想法是计算新样品x到两个总体的马氏距离d2(x,gj和r>2(x,Gj,并按照 如下的判别规则进行判断x w q,如果 d2(x.g)< d2(x,g2)XeG2,如果 D2(X,G,)>D2(X,G2)这个判别规则的等价描述为:求新样品x到的q距离与到q的距离之差,如果其值为正,X属于G?;否则属于G。借助方差分析的思想构造一个判别函数:y =工6和其中g为系数) 5. 2. 2对样本的选择用Excel表格中的“end ()函数”随

18、机选择17个样本进行判别函数的建立,用 剩余的3个样本进行回带判断。表5对样本的随机排序样品号随机序列200. 89239780. 82362870. 535523180. 69073730. 328389100. 593089120. 18467940. 63266720. 33521690. 903682190. 514618170. 038178160. 252134150. 27290550. 64620560. 903531130. 03952610.462211140. 658924110. 833521由表 5 知,假设用前 17 个样本2、3、4、5、6、7、8、9、10、12

19、、13、15、16、 17、19. 19、20进行判别函数的建立,用剩余的3个样本1、11、14进行回带判断。 17个样本中“有预后影响”的有8例,7个样本中“无预后影响”的有9例。5.2.3判别分析的大致过程将随机抽取的17个样本分为两类:3、 4. 6、 7、 12、 15、18、 20G 有预后影响:G2 无预后影响:2、5、 8、 9、 10、 13、16、 17、 19丁虫屮+ C佑用G、q建立函数关系得:厂=C1x1'2>+- + Qv9,2>希望对来自不同两个总体的两个平均值yy相差愈大愈好,取判别临界值为:一一 儿/p,+G?pyG1P+G2P_y>y

20、0,xreG1若尹>腐,判别准则可表示为:eG2若y vy ,判别准则可表示为:y>yxG2y<yxieG5.2.4由SPSS得出非标准化判别方程在不进行指标筛选的情况下,得到非标准化线性方程,其系数如表6所示。表6非标准化线性方程系数Canonical Discriminant Function CoefficientsFunction1X1X2X3X4X5X6X7X8X9X10(Constant)-.6261.086 -2.430.024-.479.314-1.163.5593.687-.2381.071有表可知,费希尔判别函数为:y = l071-0.626X +1.0

21、86x2 - 2.430x3 +0.024x4 -0.479x5+0.314x6 一1.163%7 +0.559兀 +3687兀丿 一0.238心5.2.5回带数据检验判别方程组重心处的费希尔判别函数值表7组重心处的费希尔判别函数值Functions at Group CentroidsFunctionGroup11-1.0232.909山表知,无预后影响的组重心点为0. 909,有预后影响的组重心点为-1.023,实际 上为各类别重心在空间中的坐标位置。这样只要在前面计算出各观测值的具体坐标位置 后,再计算岀它们分别离各重心的距离,就可以知道它们的分类了。将前面剩余的3个 样本1、11、14

22、的10项指标数据进行回带进行检验,求出判别分,比较此判别分分别 距各重心的距离,距离哪个近就属于哪一类。表8判别结果样本原数据判别分组重心函数 值判别分到 各重心的距离判别结果准确与否110. 292-1.0231. 3150不准确.9090.6171103. 031-1.0234.0540准确.9092. 1221403. 896-1.0234.9190准确.9092. 987将数据回代的判别结果显示准确率为66. 7%,具有一定的可参考性,但是准确率依 然不高,原因在于某些指标变量在进行相关度计算时,具有两者具有较强的共线性,指 标变量过多是干扰判别预测的主要因素,故需进行模型改进。5.3

23、基于Logistic模型对预后进行预测Logistic回归模型'是一种概率型非线性模型,是研究分类观察结果(y)与一 些影响因素(X)之间关系的一种多变量分析方法。基本原理:用一组观察数据拟合Logistic模型揭示若干个自变量x与一个因变量y 取值的关系,反映y对x的依存关系。5. 3. 1 Logistic模型的基本方法Logistic回归模型适合于病例中对照研究、随访研究和横断面研究,且结果发生的 变量取值必须是二分的或多项分类的。可用影响结果变量发生的因素为自变量与因变 量,建立回归方程。5. 3. 2 Logistic回归模型的大致过程将有预后影响的概率记为P,它与自变量xl

24、、x2、x3、x4、x5、x6、x7、x8、x9、 xlO之间的Logistic回归模型为:p= cxp(0"+0“ + 炕)5 ),可知,无预后影响的概率为:(1_卩)l+exp(/70+/71x1+-/?10xI0)经数学变换得:lnp/(l-p) = /+/71xI+-/7I0x10定义:Logit(p) = lnp/(1 -p)为Logistic变换,B|J:=几+妙“ + 久“。其中几是与诸指标九无关的常数项,卩、炖、是回归系数,标示住指标七对"的 贡献量。流行病学的常用指标优势比(odds ratio, OR)或称比数比,为流行病学中常用的统计指 标。即易的优势

25、比为:OR二刎卫1PoAl-Po)所以,A的意义:当因素兀每改变一个测量单位时所引起比数的自然对数改变量。5.3.3利用SPSS进行Logistic回归模型的建立选择肝癌患者样本的10项指标进行Logistic回归模型的建立,指标有:XI (食道静脉曲张)、X2 (门脉癌栓)、X3 (HbsAg)、X4 (AntiHCV). X5 (肿瘤部位)、X6 (肿瘤大小)、X7 (肿瘤生长方式)、X8 (肿瘤包膜)、X9 (肿瘤旁的微小子灶)、X10 (术后腹水)5.3.4对Logistic回归模型的显著性检验对模型系数综合检验,结果如表9所示。表9模型系数的混合检验Omnibus Tests of

26、Model CoefficientsChi-squaredfSig.Step 1 Step16.54410.085Block16.54410.085Model16.54410.085该表为模型系数综合检验表,表明模型的X二16. 544 , sig二0. 085。按显著性水平Q =0.5为水准,自由度df二10 ,通过查卡方检验临界值表可得xG 9.342 , P-值(sig)为0.085,这个P-值很小,即估计回归方程在总体中是显著的。表io F统计量Model SummaryStep-2 Log likelihoodCox & Snell RSquareNagelkerke R S

27、quare110.9813.563.753Cox & Snell以及Nagelkerke的R:检验是回归方程的拟合优度检验,类似于线性 回归的R2统计量。其数值大小反应方程对解释变量变差解释的程度,这两个统计量常 用于不同模型之间的比较R2(R2< 1)越大表明模型的拟合效果越好。在本模型中,Cox & Snell R2为0. 563, Nagelkerke W为0. 753,表明模型的拟合程度较好。5. 3. 5对Logistic回归模型的分类表分析表11分类表Classification Table3ObservedPredicteddecisionPercentag

28、eCorrect01Step 1 decision 010190.911888.9Overall Percentage90.0a. The cut value is .500分类表11显示出了观测值与预测值之间的互相作用关系,无预后影响的准确率为 90. 9%,有预后影响的准确率为88. 9%,根据统讣学原理,若预测率大于50%预测的结 果是良好的、较为准确的。该模型的预测率总讣口分比为90%,所以该模型稳定性不错。5. 3. 6 Logistic回归模型结果利用SPSS软件建立模型,求解结果如表12所示。69表12 Logistic回归方程中的变量Variables in the EquationBS.E.WalddfSig.Exp(B)Step!3 X12.8682.0821.8971.16817.603X2-3.1762.6371.4501.228.042X325.9871.271E4.0001.9981.932E11X4-4.2844

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论