生物信息学医学数据_第1页
生物信息学医学数据_第2页
生物信息学医学数据_第3页
生物信息学医学数据_第4页
生物信息学医学数据_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物信息学在医学数据分析中的应用生物信息学在医学数据分析中的应用 1.前言前言 随着信息技术的飞速发展,医疗数据以爆炸般的速度积累增长,特别是临 床医疗数据的大量积累,但是如何有效的整合和利用这些数据进行科学研究, 这就对有效数据的管理和挖掘提出了更高的要求。 近年来,数据挖掘得到迅速发展,并逐渐应用到现实生活中,在分类分析 方面表现相当出色,因此,已有专家将数据挖掘技术与基因表达数据分类问题 相结合,发掘基因之间的关联联系,基因表达正常与非正常的活动范围,由此 来理解基因表达的内在规律1,给疾病的诊断和预测、新特药的设计提供新的 思路和方法。但目前医学数据的整合还存在以下问题: 一是医院临床数据通常是分散存在的。分布于医院信息系统、检验信息系 统、检查信息系统、电子病历系统等医院建立的各种信息系统当中,有的甚至 存在于医生手写的随访记录本当中,这样分散存在的数据不利于收集、整合与 分析。 二是以往的临床科学研究都是以手工的方式去收集和整合数据,数据的可 靠性和准确性得不到保证,而且容易产生数据丢失。与此同时,人工收集数据 工作量大,数据采集速度慢、试验周期长的状况,这对临床科研数据的统计和 分析结果的准确性提出来质疑。 三是 在对手工搜集到的分散的数据资源进行统计分析和查询的过程中,效 率滞后,容易影响科研进度。 针对上述几个问题,为确保收集数据的准确性、有效性和完整性,以便进 行统计分析,基于临床科研的数据管理系统应运而生。 2. 支持向量机在医疗数据中的应用支持向量机在医疗数据中的应用 在疾病检测中,单一的生理信息不足以反映人体的健康状况,因此对多种 生理信息综合分析是十分有必要的。在心脏病的诊断中就涉及诸如年龄、血压、 心跳等几种,甚至几十种理化指标。医生综合这些检测的数据,根据自己的经 验、知觉和见解等对人体的健康状况做出某种诊断。显然,这种诊断是主观性 的,对同一个人,有时不同的医生甚至会做出截然相反的判别。多生理信息融 合( Information Fusing)技术可以直接从原始样本数据出发建立某种规则模型, 并将这种模型在计算机上实现,利用这一模型可以帮助医生对待测人体做出更 客观、准确和及时的诊断2。用于建立模型的方法很多,其中支持向量机是近 年来发展迅速的一种理论统计方法。 支持向量机是在该情况下产生的一种新的、非常有力的机器学习新方法, 是贝尔实验室研究人员 Vapnik 等人在统计学习理论三十多年的研究基础之上发 展起来的一种全新的机器学习算法,也使统计学习理论第一次对实际应用产生 了重大影响3,4。支持向量机是基于统计学习理论的结构风险最小化原则的,它 将最大分界面分类器思想和基于核的方法结合在一起,在模式识别、信号处理、 函数逼近等领域得到了应用5,6,表现出了很好的泛化能力。目前,支持向量机 作为小样本学习的最佳理论,越来越多的应用于智能医学数据分析领域,成为 当前智能医疗诊断研究的热点。其基本原理如下: 支持向量机通过对待分类数据进行用核函数定义的非线性特征影射(x): RnZ,将其映射到某一更高维特征空间 Z 中,从而能够线性可分,然后在新的 特征空间 Z 中构造最优分类超平面,形成样本分类的决策规则(图 1)。最优 分类平面不仅要保证将两类样本错分个数最少,还要求分类间隔最大。错分个 数最少保证了经验风险最小,从而使真实风险最小。但在一般情况下,这种低 维向高维的变换,可能会比较复杂,不容易实现。考虑最优分类函数只涉及样 本之间的内积运算,这样在高维空间也只需内积运算:而这种高维运算是可以 用原空间中的函数实现的,我们甚至没有必要知道变换的形式。根据泛函的有 关理论,只要一种核函数 K(x,y)满足 Mercer 条件7,它就对应某一变换空间 中的内积。因此在最优分类面中采用适当的核函数就可以实现某非线性变换后 的线性分类,而计算的复杂度却没有增加。 图 1 支持向量机原理7 应用支持向量机进行分类研究克服了传统分类方法中存在的过学习、维数 灾难、产生局部极小点及高维特征等问题,而且在小样本条件下仍然具有良好 的推广能力,因而成为智能技术研究的新的热点9。SVM 在模式识别、回归分 析、和概率密度估计等机器学习方面获得了较好的效果,并且已经应用于文本 识别、非线性回归建模、生物信息学领域等实际问题中10,11,12。 2.1 支持向量机在心脏病中的应用支持向量机在心脏病中的应用 利用 SVM 等对多生理样本信息进行融合处理,从而形成一种判断模型, 根据 模型可以对新加的数据做出某种判别。这种判别的能力好坏不仅取决于原 始样本数据数量、完整性等,还和建立模型的工具方法有直接的关系。SVM 具 有良好的泛化性能、结构简单,因此是建立医疗诊断模型的有效方法。如今 SVM 广泛应用于癌症、高血压、心脏病等诸多的医疗诊断领域。可以相信以 SVM 建立的医疗模型将会成为辅助医疗诊断的重要工具,应当引起相关领域研 究人员的高度重视。 但在诊断中由于病人存在个体的差异和诊断数据本身的噪 声和非线性等,所以要准确的诊断是困难的。而改进的支持向量机,能够去除 噪声和孤立点,提高了分类的准确率,其优良特性表明本算法在医疗诊断中具 有很大的应用潜力。 在对心脏病数据进行分类时,支持向量机算法相对于其他算法的优势主要 表现在以下两个方面: (1)支持向量机分类器通过求解一个凸二次规划得到,二次规划所得的解 是唯一的且为全局最优解,这样不存在局部极值问题; (2)支持向量机分类器只由少数支持向量确定,且将非线性问题的求解转 化为计算确定的核函数。 徐义田13等通过运用结构风险最小化原理和聚类原理,将支持向量机中有 监督的分类算法与统计中无监督的聚类算法有机结合起来,对线性可分与线性 不可分两种情况分别建立了无监督的分类模型。模型的求解转化为一个二次规 划问题,同时此模型也适合于多分类情况。在应用到心脏病的医疗诊断中,准 确率为 88.5%,明显优于其他诊断方法。有文献14报道,利用心电图特征,如 各个波形的问期、幅值等信息作为分类依据,采用支持向量机和高阶统计量的 方法对心律异常的心拍进行分类。苏枫15等通过采用支持向量机 SVM 和 Adaboost 分类算法,设计高精度的分类模型和分期模型,发现结合 Adaboost 和 SVM 两种机器学习模型,能为心力衰竭的诊断及分期提供较准确的模型。 费胜巍16针对 SVM 参数选取困难的难题,提出基于 PSO 的 SVM 参数优化方 法,提出了基于 PSO-SVM 的心律失常诊断方法,通过 PSO 优化的 SVM 分类 器具有较高的分类精度,并通过诊断实例证明了其可行性和正确性。 本研究通过检测 80 例先天性心脏病患者与 80 例健康对照者的 cTnI、hs- CRP、BNP、Lp(a)水平,结果表明病例组的 cTnI、hs-CRP、BNP、Lp(a)水平显 著高于对照组,差异具有统计学意义。以 cTnI、hs-CRP、BNP、Lp(a)四个血清 指标建立的支持向量机先天性心脏病诊断模型,经测试结果准确率为 85%,同 徐义田13等报道研究一致。 2.2 支持向量机在结直肠癌中的应用支持向量机在结直肠癌中的应用 针对当前医疗领域数据挖掘中分类方法效率低以及分类准确率低等问题, 以特征基因选择为主要研究内容,以有效提高基因表达谱分类方法准确性为目 标,研究基因表达数据的数据挖掘方法,为肿瘤识别及基因表达数据特征分类 提供技术支持,对致病基因与癌症关系的正确理解、肿瘤特征基因的选择和分 类,具有重要的理论意义和临床应用价值。 大肠癌是发病率最高的恶性肿瘤之一,早期大肠癌手术后的 5 年存活率超 过 90%,晚期癌手术后则低于 10%,建立有效的大肠癌筛查与早期诊断方法, 以实现早期治疗成为提高患者生存率的关键17。Furey 等18以结肠癌为研究对 象,通过计算信噪比提取特征基因,应用支持向量机的方法分析特征基因表达 数据,建立肿瘤预测模型。对结肠癌数据提取了 2000 个特征基因,在 62 个样 本中预测模型正确分类了 56 个样本,分类的正确率为 90.3%。 Ramaswamy 等18分析了涵盖 14 种肿瘤的 144 个样本的基因表达数据,使 用支持向量机方法提取特征基因,并用此方法建立肿瘤预测模型。Zhang 等20 在统一处理中把基因选择和癌的分类、获取高准确率同时实现。采用的算法为 SCAD SVM(smoothly clipped absolute deviation)。 在国外,从 20 世纪 90 年代末开始,包括 Science 在内的国际著名期刊陆 续发表的论文中公布了许多有价值的研究成果。支持向量机针对基因表达数据 的研究,各方面涉及较多,如基因分类、基因功能分类及特征提取等,表明支 持向量机技术在信息学中的应用日趋成熟。 K-ras 基因野生型大肠癌患者的抗表皮生长因子受体对结直肠癌(epidermal grow th factor receptor,EGFR) 治疗效果好,因此 K-ras 基因检测有利于筛选出 抗 EGFR 药物治疗有效的大肠癌患者,从而实现大肠癌患者的个体化治疗,延长 患者的生存期,并大大降低治疗的毒性和不必要的费用21,因此建立了一种基于 最小二乘支持向量机数学模型的大肠癌 K-ras 基因突变预测方法就显得至关重 要。将 LS-SVM 应用大肠癌 K-ras 基因突变的预测,模型针对训练集的预测正 确率达到 100%,说明模型的内推能力很强,对检验集的预测正确率达到 79.40%, 虽没有测试集的效果好,但是其方差较小,说明模型的稳定性还是很高的。造 成测试集效果没有训练集高的原因可能是模型的参数选取和样本 K-ras 突变量 较少,应用 LS-SVM 预测模型预测大肠癌 K-ras 基因突变是可行的,如果再与 测序的结果相印证,就大大提高对突变能检测的信度22。 目前,已有的血清肿瘤标志物对结直肠癌诊断过程中大都特异性低、灵敏 性差,但非特异性的血清肿瘤标记物对结直肠癌早期癌诊断以及预后监测仍具 有一定的临床价值【23】。在统计学中,用来作为衡量某特征特异性的方法有 很多,目前用的最多的是距离度量。距离度量也可称作“离散度准则”、“类 别可分离判据”。距离作为统计模式识别中的一个重要概念,主要包括巴氏距 离、欧氏距离和马氏距离,而巴氏距离往往用于基因表达谱特征的分析,不管 是维数高还是维数低的数据都较为适用,其应用范围较广。 本研究结果表明,当采用 12 个指标联合建立 SVM 模型时,模型分类的准 确度为 73.33%,不够理想。联合 CEA、NSE、CYFRA21-、AFP、CA724 等 7 项指标建立 SVM 模型,判别准确率可达 86.67%。这表明,选用过多的指标联 合鉴别结直肠肿瘤的良恶性,可能会由于指标冗余而干扰其中有用指标判别的 效果,造成判别准确率的降低。本研究采用巴氏距离判别法可以有效筛选出特 异性较高的指标,联合特异性较高的指标可以建立准确率较高的 SVM 诊断模 型。 当采用巴氏距离最高的 4 个指标:CEA、NSE、CA724、AFP 建立 SVM 模 型时,模型的判别准确度为 80%,反低于联合 7 个指标建立的模型准确度。这 表明,选用的指标并不是越少越好,指标过少可能会导致判别结果不稳定,出 现一定的偶然性。 3. BP 神经网络在医疗数据中的应用神经网络在医疗数据中的应用 BP(Back Propagation)神经网络是 1986 年由 Rumelhart 和 McCelland 为首 的科学家小组提出,是一种按误差逆传播算法训练的多层前馈网络,由信息的 正向传播和误差的反向传播两个过程组成。输入层各神经元负责接收来自外界 的输入信息,并传递给中间层各个神经元,最后传递到输出层神经元,经处理 后完成正向传播处理过程,由输出层向外界输出信息处理结果。实际输出与期 望输出不符时,进入误差的反向传播阶段。周而复始的信息正向传播和误差反 向传播过程,是各层权值不断调整的过程,也是神经网络学习训练的过程,一 直进行到网络输出的误差减少到可以接受的程度。BP 神经网络结构如图 224所 示: 图 2 BP 神经网络结构 BP 神经网络主要包括输入层,隐含层和输出层三个组成部分。输入层和输 出层各为一层,根据所研究问题的复杂程度和样本量的大小,隐含层可以是单 层 也可以是多层。上图所示为隐含层包含二层的 BP 神经网络模型。 神经网络是一个具有高度非线性的超大规模连续时间动力系统。是由大量 的处理单元(神经元)广泛互连而形成的网络。它是在现代神经科学研究成果的 基础上提出的,反映了脑功能的基本特征。但它并不是人脑的真实描写,而只 是它的某种抽象、简化与模拟。网络的信息处理由神经元之间的相互作用来实 现;知识与信息的存储表现为网络元件互连问分布式的物理联系;网络的学习 和计算决定于各神经元连接权的动态演化过程。因此神经元构成了网络的基本 运算单元。每个神经元的输入信号是所有与其相连的神经元的输出信号加权后 的和,而输 出信号是其净输入信号的非线性函数。根据网络拓扑结构和学习规 则,可将人工神经网络分为多种类型,如不含反馈的前向神经网络、层内有相 互结合的前向网络、反馈网络、相互结合型网络等。 BP 神经网络不需要精确的数学模型,对自变量和因变量没有任何假设要求, 自变量和变量可以是连续也可以是离散,而且 BP 神经网络具有很强的容错性 和联想记忆功能25。理论上讲,一个训练好的 BP 神经网络能逼近任何自变量 和因变量之间的函数关系,BP 经网络通过模拟人的智能行为可以处理一些复杂、 不确定、非线性的问题,所以说 BP 神经网络为解决没有先验知识、模糊的、 复杂的、非线性的问题提供了一个全新而且有效的途径。 由于人工神经网络是基于对人脑组织结构、活动机制的初步认识而提出的 一种新型信息处理体系,因此它可以呈现出人脑的许多特征,并且具有人脑的 一些基本功能。 (1)并行分布处理:人工神经网络是由大量简单处理元件相互连接构成的高 度并行的非线性系统,具有大规模并行性处理特征。虽然每个处理单元的功能 十分简单,但大量简单处理单元的并行活动使网络呈现出丰富的功能并具有较 快的速度。一个神经网络可存储多种信息,其中每个神经元的连接权中存储的 是多种信息的一部份。当需要获得已存储的知识时,神经网络在输入信息激励 下采用“联想”的办法进行记忆,因而具有联想记忆功能。神经网络内在的并 行性与分布性表现在其信息的存储与处理都是空间上分布、时间上并行的。 (2)自学习、自组织与自适应性:当外界环境发生变化时,神经网络能在外 部刺激下按一定规则调整神经元之间的突触连接,调整结构参数,逐渐建立起 新的神经网络。 (3)鲁棒性:神经网络有很好的鲁棒性,一方面,由于信息的分布式存储, 当网络中部分神经元损坏时不会对系统的整体性能造成影响,这一点就象人脑 中每天都有神经细胞正常死亡而不会影响大脑的功能一样:另一方面,当输入 模糊、残缺或变形的信息时,神经网络能通过联想恢复完整的记忆,从而实现 对不完整输入信息的正确识别。 (4)分类与识别:人工神经网络对外界输入样本具有很强的识别与分类能力。 对输入样本的分类实际上是在样本空间找出符合分类要求的分割区域,由于神 经网络可以很好地解决对非线性曲面的逼近,因此比传统的分类器具有更好的 分类与识别能力26。 3.1 BP 神经网络在心脏病中的应用神经网络在心脏病中的应用 心脏病(heartdisease)位居世界卫生组织列出的人类健康“十大杀手”之榜首, 全世界每年有数百万人死于心脏病。在我国,每年有几十万人死于心脏病。由 于心脏病的病理形态、功能改变和临床表现等方面可涉及多系统、多脏器,往 往又有各种并发症和伴发症存在,而且疾病表征还具有模糊性、不确定性和游 走性等特点,因此心脏病的准确诊断一直是医学临床上的一个重点和难点,用 人工智能方法建立心脏病决策支持系统就具有重要的临床意义。在我国,心脏 病以高血压性心脏病、冠状动脉粥样硬化性心脏病、风湿性心脏病、慢性肺原 性心脏病和先天性心脏病这五种心脏病最为常见,对人们健康危害也最大。因 此,本章采用人工神经网络方法,构建了一个基于人工神经网络的诊断决策支 持系统来鉴别诊断这五种常见的心脏病。 根据遗传算法的基本原理和方法,对基本遗传算法进行了改进,并将遗传 算法与神经网络 BP 算法相结合,构建了一个基于混合遗传算法医学诊断决策 支持系统,将该系统用于心脏病的辅助诊断中,实验结果表明,本章构建的混 合遗传算法医学诊断决策支持系统不仅能对五种常见心脏病有较好的分类识别 能力,表现出良好的心脏病临床决策支持能力。根据遗传算法可以挖掘属性对 象内部关系的特性,我们还探索了疾病的重要诊断参量的提取方法。 全国总体手术构成:先心病居首位( 60-65),瓣膜病次之( 2O-25), 冠 心病外科第 3 位 (10-2O),我国每年超过 150,000 病人进行心脏手术,有 8,000,000 心脏病人需要进行心脏手术治疗。针对中国心胸外科发展趋势和 现状,如果能不断提高诊断水平、增强风险意识,将会造福更多的心胸疾病患 者。 传统心脏病诊断方法医生根据患者病史、病状、检查结果,并用所学病理知识 和经验进行综合分析得出诊断结果。随着人工智能技术的发展,为避免人为和 主观 因素,得到更为准确和客观的心脏诊断结果。本文拟采用神经网络技术, 使用克利夫兰诊所基金会提供的疾病数据,分别建立 BP、RBF 和 LVQ 神经网 络三种诊断方案,应用于心脏病诊断。 文献27利用室性早搏心拍和室上性早搏心拍的小波特征形态和 RR 间期参 数作为 BP 神经网络的输入,实现了正常、室性早搏和室上性早搏的识别。文 献28利用心电波形的四阶回归模型系数作为 BP 网络的输入层,可用来识别正 常心拍、房性早搏以及室性期前收缩。文献29利用 BP 神经网络进行心拍分类。 但 BP 神经网络存在两个重要问题:收敛速度慢和目标函数存在局部最小点。 文献30,31中采用了遗传算法(genetic algorithm,GA)来优化 BP 网络, 实现了 正常心拍、左束支阻滞、室性早搏等心律失常的分类,取得了一定的效果。李 刚32等人在 BP 网络训练之前引入 LADT 压缩算法对心电数据进行处理,与传 统的 BP 神经网络相比,其训练、测试速度与分类精度有很大的提高。而本研 究纳入所有 4 个参数,建立 BP 神经网络,对训练好的网络分两步进行测试, 首先对训练样本进行测试,先天性心脏病病例的正确检出率为 100%,误诊率为 0,进一步对于测试集样本正确检出率为 100%。 3.2 BP 神经网络在结直肠癌中的应用神经网络在结直肠癌中的应用 结直肠癌是世界上最常见的恶性肿瘤之一,其发病率分别居男、女性恶性 肿 瘤的第 3 和第 2 位,死亡率居世界恶性肿瘤的第 4 位33。近年来,随着我 国经济的发展,居民饮食结构和生活方式发生了明显改变,结直肠癌发病率在 快速上升,有研究表明 20 世纪 90 年代与 70 年达相比,我国城市结直肠癌发病 率上升了 31.95%,农村增加了 8.51%,2005 年因结直肠癌死亡人数较 1991 年 增加 70.7%,平均每年增长 4.7%34。有研究发现,结直肠癌发病率在我国天津、 上海等大城市已居于男性第 3 位,女性第 2 位35。结直肠癌是一种预后较差的 恶性肿瘤,尽管临床诊治水平在不断提高,但结 直肠癌患者的预后状况仍然不 乐观,5 年生存率徘徊在 50%左右36,37。 在临床实践中,临床医生经常需要根据某些危险因素判断患某种疾病的可 能性以及判断患者的生存时间或者预后等,传统统计学方法在预后研究中有一 定的局限性,而 BP 神经网络可以用于预后研究,在大肠癌预后研究中,BP 神经 网路在模型拟合和预测方面都取得较好效果,且 BP 神经网络与 Logistic 回归模 型性能比较显示:在大肠癌预后研究中,BP 神经网络不论是在模型拟合还是前 瞻性预测方面都优于传统统计学方法 Logistic 回归模型38。 BP 神经网络对资料不作任何假设,输出变量可以是分类型变量也可以是连 续型变量,因而可以用于肿瘤患者术后生存期的预测。贺佳等39采用 BP 神经 网络方法预测肝癌患者的术后无瘤生存期,结果显示,网络的回代贡献率 83.94%, 网络对检验集的贡献率为 71.11%,经检验,预测值与实际值相符(P=0.692)。 赵振40的研究结果显示 BP 神经网络预测肝转移患者术后生存期与实际结果相 比没有显著性差异。陈权41通过用 BP 神经网络训练,效果虽不太理想,但依 然能够进行有效预测,预测结果与实际结果间没有显著性差异 (t=0.576,P0.574),研究结果表明 BP 神经网络能有效应用于结直肠癌患者 术后生存期的预测。姚尧之42研究表明,在对大肠癌早期荧光光谱数据进行处 理后,通过 BP 神经网络进行癌组织与非癌组织识别,识别准确率较高,这对 推动大肠早癌诊断进入临床运用具有较好的作用。 本研究中,纳入12个血清指标建立的BP神经网络,对训练好的网络进行测 试,测试分两部分进行。首先对训练样本进行测试,结直肠癌病例的正确检出 率为100%,误诊率为0,进一步对于50例测试集样本正确检出率为100%。纳入 AUC面积在0.8以上的9个指标:CEA、CA50、HSP60、CYFRA21- 1、TPA、CA242、CA724、CA125、UGT1A8,建立的BP神经网络,对训练好 的网络分2部分进行测试,首先对训练样本进行测试,结直肠癌病例的正确检出 率为100%,误诊率为0,进一步对于50例测试集样本正确检出率为100%。纳入 AUC面积在0.9以上的指标CEA、CA50、HSP60、CYFRA21- 1、TPA、CA242、UGT1A8,建立的BP神经网络,对训练好的网络分两部分进 行测试,首先对训练样本进行测试,结直肠癌病例的正确检出率为100%,误诊 率为0,进一步对于50例测试集样本,有48例预测正确,2例预测失败,正确检 出率为98%,误诊率为2%。结果表明,BP神经网络建立的诊断模型在结直肠癌 的诊断中准确率高,具有很好的应用前景。 4. Logistic回归分析在医疗数据中的应用回归分析在医疗数据中的应用 Logistic 回归分析是Cox于1970年最早提出的一种概率模型,属于概率型非 线性回归,主要用于处理因变量是分类型变量的资料,它巧妙的避开了分类型 变量的分布问题,转化为研究因变量取某一值时的概率,因变量取某一值时相 应概率的取值范围为0-1,弥补了线性回归和广义线性回归分析不能处理因变量 为分类型变量的缺陷,使得近年来Logistic回归模型被广泛应用于医学研究的各 个领域,如流行病学、病因学研究、病例对照研究、临床诊断的判别模型以及 治疗效果的评价等。Logistic回归分析在单独面对医学领域日益庞大和复杂多变 的数据信息时,往往受到一定的限制,无法使数据信息得到充分利用,应用不 当还会得出错误结论。因此,随着统计学方法的不断发展,Logistic回归分析在 医学研究的文献资料中常常不再单独出出现,而是与其它方法相互结合,充分 利用资料中的信息,进而得出相对准确的结论。 Logistic 回归分析因变量最常见的类型为二值变量,如阳性与阴性,生存与 死亡,有效与无效等;此外,Logistic 回归分析还常用于处理因变量为多分类变 量或有序变量的资料。Logistic 回归分析对自变量类型没有要求,自变量可以为 连续变量,也可以为分类变量或有序变量。Logistic 回归模型用公式表示如下: 式中 0为常数项,又称为截距,i为回归系数,X 为回归方程的自变量,P 表示在 m 个自变量的作用下,因变量取某一值时的概率,范围为 0-1。回归系 数 i表示在其他自变量不变,Xi 每改变一个单位时 LogitP 的改变量,标准化 偏回归系数是评价影响因素作用大小的指标,与相对危险度(RR)或比值比 (OR)呈对应关系,OR=exp(i),当发病率很低时,ORRR。发病率较低的 疾病,如恶性肿瘤,比值比可以作为相对危险度的估计值。 Logistic 回归模型是一种概率模型,适合于病例-对照组研究、随访研究和 横断面研究,且结果发生的变量必须是二分的或多项分类。Logistic 回归分析的 特点之一是参数意义清楚,即得到某一因素的回归系数后,可以很快估计出这 一因素在不同水平下的优势比或近似相对危险度,因此非常适合于流行病学研 究。 4.1 Logistic 回归分析在先天性心脏病中的应用回归分析在先天性心脏病中的应用 先天性心脏病(congenital heart disease,CHD) 即指先天性心血管疾病, 是由 于心脏、血管在胚胎发育过程中的障碍所至的心脏、血管形态结构、功能、 代 谢上的异常。研究表明,71%的 CHD 患儿可存活到生育年龄以后。可见 CHD 已成为影响我国儿童身心健康及人口生存质量的重大公共卫生问题,给社会和 个人带来了沉重的经济和精神负担。对于 CHD 的病因,目前较普遍的观点认 为 CHD 的发生绝大多数是遗传因素和环境因素相互作用的结果,即多因子遗传 疾病或多基因遗传疾病,强调在内在多基因遗传基础上,胚胎在心管、血管形成过 程中遇到各种外界环境致畸原所触发而引起的,约占 CHD 的 80% -90%43,44。 同时,CHD 危险因素、统计分布存在国家和地域性差异。利用单因素条件 Logistic 回归可对可能的影响因素进行初选、数据结构分析和适当的变量函数转 换。然后对初选的可疑危险因素进行共线性诊断,改进变量间的共线性关系后 用多因素条件 Logistic 逐步回归作进一步筛选,建立并评价先天性心脏病影响 因素的最优回归模型。 本研究通过 Logistic 回归分析表明 cTnI、BNP、Lp(a)等血清指标均与先天 性心脏病具有显著的相关关系,联合诊断时 cTnI、BNP、Lp(a)三者两两结合与 先天性心脏病相关,联合检测 ROC 曲线结果表明 cTnI、BNP、Lp(a)三者两两 结合的 AUC 均大于 0.9,具有较高的诊断价值。 4.2 Logistic 回归分析在结直肠癌中的应用回归分析在结直肠癌中的应用 结直肠癌是常见的消化道恶性肿瘤,其发病率和病死率均较高,充分了解 结 直肠癌的预警症状、掌握结直肠癌的发病特点和临床特征是及时诊断并制定 有 效治疗方案的基础,因此可采用 Logistic 回归分析对结直肠癌各临床特征与 诊断关系进行预测。梁君林等45通过应用单因素和多因素 Logistic 回归分析, 对结直肠癌根治术后患者的临床病例资料进行回归分析,淋巴结转移(数目或部 位)和肿瘤分化程度是影响 Dukes C 期结直肠癌术后复发转移最重要的独立因素, 对于判断预后、指导术后治疗及随访方案的制订具有重要作用。李增军等46研 究报道,Logistic 回归分析显示,淋巴结转移、肠壁浸润深度是影响结直肠癌术 后复发转移重要的预后因素。屠世良47通过 Logistic 分析得出的与直肠癌淋巴 结转移相关因素按密切程度依次递减为:浸润深度、大体类型、分化程度、肿 瘤大小,这对术后复发的防治提供了理论依据。 本研究第二章利用Logistic回归分析和ROC曲线分析两种方法,从 CEA、HSP60、CYFRA21- 1、TPA、AFP、CA199、CA242、CA50、CA724、CA125、CA153和UGT1A8 等12个结直肠癌肿瘤标志物指标中,筛选出CEA、CA199和HSP60三个指标, 纳入Logistic回归模型,该模型的AUC为0.906,明显高于三种肿瘤标志物任一 指标的AUC,但该诊断模型的准确率(82.67%)低于联合 CEA、NSE、CYFRA21-、AFP、CA724等7项指标建立的SVM模型(86.67%)。 顾平等【48】应用Logistic回归分析筛选出诊断价值较高的结直肠癌肿瘤标志物, 然后采用ROC曲线探讨了CEA、CA199及CA50在结直肠癌中的诊断价值,结果 发现:结直肠癌-良性结直肠病中,CA50的曲线下面积(AUC)要高于CA199 的AUC,而CEA、CA50两项联合诊断结直肠癌的 AUC(0.875)均高于单项检测 及CEA、CA199、CA50三项联合诊断的AUC(0.604),由结果可知Logistic回归分 析作为一种统计学方法手段,可以提高诊断的特异性和灵敏度,这与国外研究报 道一致49。 近年来 ,快速发展的信息技术与现代医学越来越紧密地结合在一起 ,产 生的生物医学信息处理技术特别是计算机辅助诊断模型的建立在疾病的诊断及 预后评估中得到了很好的应用。 目前,生物医学信息处理主要包括 医学 图像及数据处理与分析、计算机 辅助诊断与治疗系统、医学信号的检测与处理和基于基因技术 的生物信息学。 本文中以相关血清标记物为参数基于SVM、BP神经网络及Logistic回归分析建 立的诊断模型,在先天性心脏病和结直肠癌的诊断中均表现出了较好的应用效 果,与先前的研究表现出了一致性。表明生物信息学作为一门崭新的综合性学 科,在医学应用上有着广阔的空间和前景。 1 Chen R, Jiang Q, Yuan H,et al. Mining Association Rules in Analysis of Transcription Factors Essential to Gene ExpressionsJ. Atlantic Symposium on Computational Biology and Genome Information System 3: 1-5. 15 苏枫,张少衡等.基于机器学习分类判断算法构建心力衰竭疾病分期模型J.中 国组织工程研究, 2014,18(49): 7938-7942. 16 费胜巍. 基于 ECG 信号的健康监测与诊断系统研究D. 上海: 上海交通大 学, 2009. 11 17 Weinberg DS. In the clinic:colorectal cancer screening. Ann Intern Med, 2008, 148( 3): ITC2-1-I TC2-16. 18 Terrence S, Nello C, Nigel D, et al. Support Vector Machine Classification and Validation of Cancer Tissue Samples Using Microarray Expression DataJ.Bioinformatics, 2000, Vol. 16 No.10: 906-914. 19 Sridhar Ramaswamy, Pablo Tamayo,Ryan Rifkin, et al.Multiclass cancer diagnosis using tumor gene expression signaturesJ. PNAs. 2001,Vol.98,No. 26: 15149-15154. 20 Z Hao.A Jeongyoun. L Xiaodong. Gene selection using support vector machines with non-convex penaltyJ. Bioinformatics.Vol.00 No.00 2005 Page1-8. 21 Ma W W, Adjei AA . Novel agents on the horizon for cancer therapy. CA Cancer J Clin, 2009, 59( 2): 111-137. 22 单连峰, 李新等. 基于最小二乘支持向量机的大肠癌 K-ras 基因突变预测J.山 西医药杂志.2011,40(4):339-340. 23 24 陈权.BP 神经网络在结直肠癌预后研究中的应用D.武汉:华中科技大学. 2011.12. 25 邓伟, 金丕焕. 人工神经网络及其在预防医学中的应用J. 中国公共卫生, 2002, 18(10): 1265-1267. 26 R.O.Duda,P.E.Hart and D.G.Strok.Pattern Classification(second edition).Wiley.2001. 27 Ince T ,Kiranyaz S, Gabbouj M. A generic and robust system for automated patient-specific classification of ECG signals. IEEE Trans Biomed Eng 2009; 56(5):1415-1426. 28 Srinivasan N. Autoregressive modeling and classification of cardiac arrhyth mias Proc EMBS/BMES. 2002; 2: 1405-1406. 28 张泾周, 李陈, 李婷, 等. 基于神经网络的心电信号分类方法研究J.中国医 疗器械杂志, 2008, 32(3): 183-186. 30 Osowski S, Siroic R. Genetic Algorithm of Integration of Ensemble of Classifiers in Arrhythmia Recognition. International Instrumentation and Measurement Technology Conference. Singapore. 2009. 31 Gacek A, Pedrycz W. A genetic segmentation of ECG signals. IEEE Biomed Eng. 2003; 10(5O): 1203-1208. 32 李刚, 叶文宇, 何峰等. 基于 LADT-BP 算法的心电图快速分析J.中国生物 医学工程学报, 2001,20(2): 127-131. 33 Ferlay J, Shin HR, Bray F, et al. Estimates of worldwide burden of cancer in 2008: GLOBOCAN 2008. J. International Journal Of Cancer, 2010, 127(12): 2893- 2917. 34 Richie JP, Catalona WJ, Ahmann FR, et al. Effect of patient age on early detection of prostate cancer with serum prostate-specific antigen a

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论