第3讲基因-环境交互作用研究概况_第1页
第3讲基因-环境交互作用研究概况_第2页
第3讲基因-环境交互作用研究概况_第3页
第3讲基因-环境交互作用研究概况_第4页
第3讲基因-环境交互作用研究概况_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第3讲基因环境交互作用研究概况基因环境交互作用研究概况南京医科人学王守林一、概述疾病都是在致病因索的损伤与机体的抗损伤作用下,因机体稳态调节紊乱而发生的异常生 命活动过程。致病因素主要是来白机体内在或外在的一些因素,是引起疾病发生的必不可少 的因素,像传染病那样用单一因素來解释其他疾病的发生已不能满足今天人类对致病因素的 认识,许多疾病的发生是遗传因素和环境因素综合作用的结果。复杂疾病一般由多种遗传与环境因素以及它们的相互作用造成的,在人群屮比较常见的, 如糖丿求病、肥胖症、骨质疏松症、高血压、心血管疾病、白身免疫性疾病等。复杂性疾病和 单基因疾病的一个最显著的区別在于,它不依照经典的孟徳尔模

2、式遗传。在复杂性疾病中, 很多位点相互作川并r和环境因素一起影响疾病的形成。疾病的临床表型一般是几种不同的 屮间表型的复合体,这些屮间表型背后有不同的遗传和坏境因索的作川。复杂性状疾病具有 以下特点:遗传模式尚未确定、群体遗传界质性强、外显率低、多基因参与、单一基因作用 微弱,同时还受一组环境因索的作用。遗传因索和环境因索对复杂疾病的作用的分析方法冇 比较成熟和完备的理论和实践基础,但遗传因素与环境因素交互作用研究方法还不是很成 熟。有证据表明,很多复杂疾病(如:肿瘤、肥胖、高血压等)实际是多基因与环境交互 作用的共同结果,因此如何正确分析和评价基因和坏境的交互作川在复杂疾病病因学上的作 用就

3、显得至关重要。此外,对于认识和消除致病因素,对疾病的预防、诊断和治疗也具有重 要意义。(一)遗传变界一内因遗传变界儿乎与所有的疾病发牛有关,基因在有序调控机制下的正常表达是健康的基础。 某个或某些基因的突变、缺失或调控障碍,使相应的蛋白质结构或功能发生变界,导致细胞 对环境改变的应答反应失常并引起疾病发生。遗传变异至少部分解禅了对暴露于同样环境因 素之后的这种患病危险的个体差别。由遗传基础决定个体患病的危险,称为遗传易感性,而由环境因素决定个体患病的危险, 称为获得易感性。遗传易感性是多棊因遗传中使用的一个特定概念,易感性高,患病的可能 性就大;易感性低,患病的町能性就小。易感性的变异像一般多

4、基因遗传性状那样,在群体 中呈正态分布。一个群体中大部分个体的易感性都接近于平均值,易感性很高和很低的个体 数很少。当一个个体的易感性达到一定的限度后,这个个体就将患病,易感性的此限度称为 阈值。在一定的环境条件下,阈值即代表患病所需的致病基因的最低数量。(二)环境因素一外因遗传变异本身不引起疾病,但影响一个人对坏境因索的易感性。换句话说,疾病本身并 1不遗传,而是遗传对环境因素某效应的一组易感因素产生了影响,因此遗传因素可影响某 疾病的发生危险。这也就解释了,为什么相同环境因素影响的个体具冇不同的患病风险。(三)基因坏境交互作用交互作用又称为效应修饰,它分为统计学意义上的交互作用和生物学意义

5、的交互作用。当 两种或两种以上暴露因素同时存在时,其所致效应不等于它们单个作用相联合的效应时,则 称因素z间存在交互作用,当前者大于后者吋称为正交互作用,说明两种或多种因素同吋存 在时效应增强,其生物学意义为协同作用;但前者小于后者时称为负交互作用,说明两种或 多种因索同时存在时效应降低,其牛物学意义为拮抗作用。遗传环境交互作用具冇两层含义:不同基因型的人群中,环境暴霜具冇不同的患病风险; 不同环境暴霍的人群中,不同的基因型具冇不同的患病风险,即为在携带不同的遗传易感基 因型人群中,环境因素対肿瘤的效应有差别;或是在不同的环境眾露下,某易感基因型的效 应有差别。基因环境交互作用是与疾病的发病机

6、制和临床表现有关的一种客观存在的作用,在混杂 被控制的情况下依然存在。一般说來,复杂疾病的发住与发展并不能完全由遗传变异來解 释,而应该理解为遗传变杲和环境因素共同作用的结果;即便是病因明确的环境性疾病如慢 性苯中毒也存在遗传易感性,甚至所谓的单基因病实际上也是rti于遗传因素和环境因素交互 作川才发病的。例如,苯丙酮球症起因于一个遗传变异导致苯丙氨酸代谢障碍,其特征是在 正常的蛋口质摄取后,苯丙氨酸累积并导致中枢神经系统的损伤。然而,只有当遗传变界(苯 丙氨酸经化酶缺乏)和环境的暴露(饮食的苯内氨酸)同时存在时,苯丙酮尿症才会发生。 每个基因少疾病z间可能只存在弱关联,并不存在主基因效应,这

7、种弱效应更容易受到外部 环境的影响;如果忽略了基因与环境之间的交互作用(包括基因基因、基因环境的交互作 用),就无法真实、准确地描述遗传变异的效应,也就出现了对同一种疾病易感位点的研究, 在不同的研究者之间产生相互矛盾结果的现象。近儿年来,人们已逐渐认识到研究基因基因、基因环境间交互作用对准确把握复杂疾病 的发生与运行机制十分有益,正如hunter指出的那样1,研究基因基因、基因环境交互 作用,对研究复杂疾病的遗传效应至关重要:(1)能增强统计遗传学检测方法的检验功效;(2)能更准确地估计影响复杂疾病的群体遗传效应和坏境效应;(3)能更好地揭示复杂 疾病的机制,并解释环境眾露是怎样影响到生物信

8、息通路的功能:(4)通过揭示环境因素的 改变如何影响到生物信息通路的反应,可为疾病的预防和治疗提供全新的策略。但是,迄今为止,许多疾病的遗传危险因子尚未被识別,而且基因与其他基因、基因与环 境因素z间的复杂交互作用仍未阐明。为进一步描述这些因素和它们的交互作川,必须进行 针对性的流行病学病因研究和临床研究。随着对遗传变界理解的深入,我们必然也增加对坏 境因素的认识。最终,遗传信息必将用于制定对高危险个体和群体的适当干预策略。2二、研究内容(一)预测基因环境交互作用模型环境因索和遗传因索如何相互作用从而影响发病风险,其作用机理和模式还不清楚。 ottman2提出了五种交互作用模式(图1),基木概

9、括了遗传和环境因素的作用情况。模式 a中,易感基因导致或促进了环境因素的作用,环境因素的效应在没有易感基因的作用下也 可以显现,暴露效应不会因为基因型而改变,实际上这并不是一种交互作用。模式b中, 易感基因对个体没有肓接产生效应,只是加人了环境因素的效应。模式c屮,环境暴露放 大了易感基因的效应,但它对个体没有直接的作用。模式d小遗传和环境因素都是疾病危 险增加所必需的。模式e中,遗传和环境因素对疾病都有各口的效应,如果它们同吋存在, 其效应将大于或小于单独存在时的效应。图1遗传与环境暴露z间关系的5种模型(二)评价基因环境交互作用的相対危险度在有限的意义上,模型b、c、d和e包括了基因坏境交

10、互作用所有可能的模型组合。它们 的个体效应对于疾病危险、遗传和眾露有4种可能的组合:(1)有暴露效应但无遗传效应 (rr10); (2)冇遗传效应但无暴露效应(rr01);既无遗传效应也无暴露效应(rroo); 3(4)兼有遗传和暴露两者的效应(rr11)。如果我们把这些交互作川加入此4种可能性,结 果分别是模型b、c、d和c之一,各个模型所预期的交互作用如表1所示。表1在基因环境交互作用的各个模型小所预期的相对危险度>l表示比较的危险超过1.0, >>l表示危险显著增加在模型b、c和d中,不管患病危险是以相加或相乘的刻度来衡量,交互作用总是存在的。

11、然而,模型c包含有和没有交互作用两种情形。而11,衡量刻度的选择将决定是否有特指的 交互作用。三、研究策略方法学方血,研究基因之间、基因与环境因子之间的统计交互作用的方法进展很快。从研 究设计类型上看,能够用于统计交互作用的设计类型有:队列研究;(2)无关个体病例对 照研究,包括成组设计的病例对照研究和配比病例对照研究、两阶段病例对照研究等;(3) 有关个体病例对照研究,包括病例父母亲对照研究、病例同胞对照研究、扩展同胞对照研究; (4)无关和有关个体的联合病例对照研究;(5)单纯病例研究;(6)双生子硏究:(7)连锁分析; (8)分离分析;(9)连锁与分离的联合分析;(10)不完全病例对照研

12、究。这些方法在分析交互 作用时各有优缺点,乂相互优势互补。1、病例对照研究传统的病例对照研究是研究遗传环境交互作用最常用的一种方法。分析时以未携带易感 基因的非暴霸组为参照,or为1,计算各种组合的or值5,6。这一方法首先用于两个环 境因素的交互作用研究,后來逐渐应用于遗传环境交互作用。传统的病例对照研究可以计算每一个危险因索的主效应及其交互作川效应,但在研究遗4传因素或者遗传与环境交互作用时,它并不是最佳的研究方法。首先是人群分层偏倚。该 方法的潜在问题是当病例和对照遗传背景不同时,会由于这一混杂因素而不能对遗传作用或 者遗传与环境交互作用做出正确估计。当除遗传因素外的其他因素(例如,环境

13、因素或者其 他基因)导致患病,且这些因索在各个亚人群屮分布也不同时,则有可能由于遗传因索与其 他因素的相关而得到遗传与疾病z间的虚假关联结果。二是所需样本量大。评估交互作用所 需的样木量一般是评佔相同大小主效应所需样木量的4倍。因此很难川于暴需率低或罕见基 因的疾病,因为过小的眾露率会使所需样本量过大,以致无法实施。三是对照纽基因信息较 难得到(生物样本采集困难)。2、病例病例研究乂称为单纯病例研究或病例系列研究。此研究方法与传统的病例对照类似,也是按是否携 带易感基因将病例分为两组,有易感基因组成为新的病例组,而未携带易感基因者则为新的 对照组,分析方法有计算or值和可信限或用多因素冋归模型

14、控制混杂。病例病例研究的 最人优点在于不需要一无病的人ii來做对照,使研究易于实施。很多学者也从单纯病例研究 设计、样本大小、检验效能等进行了相关分析为硏究,认为单纯病例研究可以作为分析基因 与环境交互作用的一个较好的选择。piegorsch7等从理论可行性上对病例病例研究进行了 分析,认为当人群屮基因(g)与坏境因索(e)相互独立,且所研究疾病发病率很低时,以病例 为基础进行交互作用分析从理论是可行的,即使没有对照组也可以估计g与e之间的交互 作用,并且结果精确度要优于传统的病例对照研究。yang8等比较了同等条件下单纯病例 研究少病例对照研究所需耍的样本大小及检验效率,发现前者可大大廿省样

15、本含量,并且估 计精度高,检验效能高。病例病例研究的一个重要前提就是所研究基因和坏境因索要相互独立,但在实际研究屮 很难判断所研究的两个因素是否相互独立。因此,这个前捉条件是否成立以及如何检验是目 前争论和研究的一个焦点。如果不满足这个条件,研究结果就会带冇偏倚,并h偏倚大小与 关联程度成正相关。albert 9等通过模拟检验发现单纯病例研究结果与独立性假设密切相 关。如果基因与环境之间存在关联,即使是很小的关联,i类错误将被放大,导致虚假联系。 他们认为,只有相当的经验数据表明基因和环境因素满足独立性要求时,单纯病例研究才是 一种有效的研究方法;如果没有这种证据时,对于单纯病例研究结果(估计

16、值、可信限等) 的解释要谨慎。对于独立性的检验,冇学者在研究环境危险因索与基因z间的交互作用时, 同吋收集病例和对照信息,在对照人群中确认二者相互独立,再进行单纯病例研究。3、病例父母対照研究病例父母对照研究用病例的父母作为对照纽,寻找与疾病发病有关的遗传标志或与具相邻 位点上连锁不平衡的等位基因,评估环境致病因素与基因型之间的交互作用。根据病例组和 对照组z间相对风险的计算方法不同,病例父母对照研究模型分为三类:慕于某因型的单体 型相对风险分析(ghrr)、基于单体型的单体型相对风险分析(hhrr)、传递/不平衡检验 (tdt)o在交互作用研究中应用较多的是tdt,研究者将病例按照环境因素情

17、况进行分-5层,分析易感基因传递频率的差异,从而分析环境致病因索与基因型z间的交互作用10。 在研究棊因、环境肿瘤的关系吋,如果所研究疾病为种族、民族、血统有关,对照的选 择就尤为重要,否则就会导致偏倚或混杂iio病例父母对照设计可以克服遗传因素中种族 差异的混杂作川,减少由于遗传人群结构(包括人群分层和混杂)所造成的偏倚12,这正是 传统病例对照研究所不能解决的问题。此外,在使用这种设计中,病例的父母亲比随机对照 冇更高的参与率。病例父母亲对照设计可以较好地来研究遗传和环境的交互作用,而所需 的样木含最较小。模拟检验显示10病例父母亲对照研究比传统的病例对照研究的效率要 高,尤其当易感等位基

18、因外显率罕见和环境危险因素对未携带易感基因的患者作用较大的时 候。病例父母对照研究有两个前提条件,否则会产生偏倚。首先必须服从孟徳尔遗传规律,遗 传效应的评价基于观测值与符合孟徳尔遗传规律时的期望值z间的偏差,这是病例父母对照 研究的理论基础。其次是当双亲具有不同棊因型吋,子女的暴露状态为其候选位点的基因型 是相互独立的。该方法的缺点是当双亲的棊因型与影响生育的疾病冇关时,对照组不能代表 所研究的人群。具次,该方法不能评估环境眾露的独立效应,只能佔计眾踞者与非眾露者基 因型是否存在羌别。第三是tdt法区分不出由于连锁不平衡造成的关联与标记基因木身即 疾病易感性所造成的关联。4、病例同胞对照研究

19、该设计也是以家系为对照的一种病例对照研究,以患者及具未患病同胞为研究对象,将同 胞作为对照,通过比较同胞的等位基因或者基因型,来检测遗传标志是否与疾病位点基因关 联或者连锁及基因与环境是否冇交互作用13。与病例父母对照一样,该设计也可以冇效地 避免人群分层混杂现象。其次是资料容易获得,对于肿瘤等晚期发作的疾病来说,测定患者 父母的基因型非常怵i难,有时候甚至是不可能的。因此,用患者同胞的信息來推断患者父母 的基因型,而j1同胞比父母对照更易于获得相关调査资料。病例和耒患病同胞的基因来源于 相同的亲代,二者之间等位基因频率的差别要小于随机人群屮抽取的发病和未发病者之间的 差别。因此,实施过程中容

20、易出现匹配过度。没冇同胞或不能获得同胞信息的病例不能纳入 研究,容易损失信息。四、研究方法基因与坏境因索的交互作用在方法学上取得了很人的进展,但也存在着需要进一步解决的 问题和重点关注的领域,一是山于易感基因携带率、环境因素暴露率等比较低,研究所需要 的样本虽大,hl前相关病例与对照研究的平均样木量为150-300例。冇学者认为,比较准确 的研究基因因素的主效应,样木量要达到5002000例,需要扩人样本最14。二是为了全 血评估基因和环境因素的效应,应当対相加模型和和乘模型条件下的效应情况都进行研究, 分析其主效应和交互效应,这也对样本量大小提出了要求,并对研究方法提出了要求。三是 有关方法

21、检验效率和检验效能的研究很少。从分析方法上看,有叉生分析、多因素logistic 回归模型、多因子降维法和基于复合连锁不平衡的交互作用分析方法。-6 -(一)叉主分析法叉生分析3是遗传流行病学研究屮分析基因环境交互作用的最基木的方法之一,群体病 例对照研究、病例父母亲对照研究、病例同胞对照研究、队列研究设计类型的资料均可用叉 生分析方法分析基因少环境z间的交互作用。表2所示的是2*4叉牛分析是基因与环境因素相互作用研究中的基本研究单元,它表示基 因(g)、坏境i大i素(e)均为二分类变量而组成白勺4种可能的组合表。同时暴露于两因素相对于 同时不暴露于两因素的危险性(比值比,or)记为orge(

22、简记为a);单独暴露于基因或环 境因素的危险性分别记为org> ore (分别简记为b、c);两因素均未暴露的病例和对照组 作为共同参比组,or=1。表2基因(g)与环境因素(e)因素作用的2*4叉生分析基因(g)+表中基因与环境联合作用的效应不仅包括两者分别作用的效应,述可能包括:基因与环境作 用的叠加,也可能呈现基因与环境作用的相乘效应。通过不同的模型,可以判别基于不同模 型的两因素间交互作用是否存在及其大小。那么在叉牛分析屮,交互作用乂是怎样被度量呢?由于交互作用的存在与否,与所选择的 模型密切相关,根据rothm珂4提出的基于相加模型计算交互作用的指标,有以下几种:1. 交互作用

23、指数(the synergy index, s)s=(a-1)/(b 1) + (c 1)意义:当s=1时,无交互作用;s#1时,基因(g)与环境(e)存在相加模型交互作用;s>l 吋,两因子间有正交互作用;s<l吋,两因子间有负交互作用;s的绝对值越大,基因(g) 与环境(e)z间的交互作用越强。2. 交互作用归因比(attributable proportion of interaction, ap)ap =a-(b + c-1)/a意义:ap表示总效应小有多大比例归因于基因(g)与环境(e)之间的交互作用。ap的绝-7 -环境因素(e) + + 病例组 a c

24、 c g 对照组 b d f h or 值 orgc =a= ah/bg orc =b= ch/dg orc =c= ch/fg 1意义g、e联合作用效应g单独作用效应g单独作用效应 共同对 昭 八、对值越大,基因(g)与坏境(e)之间的交互作川越强。3. 纯交互作用归因比ap*ap*=a-(b + c-1)/(a-1)意义:ap*表示由基因(g山环境(e)两因素引起的效应中归因于二者交互作用的比例。4. 交互作用超额相对危险度(relative excess risk of interaction , rer1)rer 1= a-(b + c-1)意义:表示基因(g)与环境(e)两因素联合作

25、用与其单独作用之和的差值,同时也表示交互 作用与基因(g)与环境(e)两因素以外的因素作用z间的关系,如果未知因子作用很大,贝i所 研究的交互作用就变得十分次耍而没有意义。这里,reri即为基于相加模型的两因素交互 作用值。reri的绝对值越大,棊因(g)与环境(e)之间的交互作用越强。从上述四项指标可以看出,上述公式均是以基因(g)与环境(e)的相加模型的交互作川为前 提的。叉生分析的优势与局限:(1)叉生分析表作为病例对照研究中垄本的流行病学分析方法,具 有信息量丰富、计算肓观等优点。通过叉生分析表,不仅分别获得基因和环境因素各自的主 效应,还获得基于不同模型(和加或相乘模型)的交互作用效

26、应。(2)山于2*4叉牛分析表只能 分析单个基因(g)与单个坏境因子(e), 口二者均为二分类变量时的交互作用,它无法分析每 个因了是多分类或多个因素间的交互作用。(3)在研究基因(g)与环境因了(e)之间的交互作用 时,若存在混杂因索的影响,则交互作用的测量结果将会被歪|11|。此时,需要控制混杂因索 后再进行叉生分析,以反映交互作用的真实强度。(-)数据模型从数据分析方法上看,有四类数据挖掘方法可以用于交互作用的研究:(1)降维法,主要有 多因子降维法mdr、logistic回归、多元自适应回归样条等;(2)基于树的方法,主要是指 递归划分算法,包括分类回归树和随机森林random for

27、est等;(3)模式识别法,包括神经网 络、支持向量机;(4)贝叶斯法;贝叶斯上位效应关联图谱等。1. logistic回归模型logistic回归模型是病例对照研究屮分析遗传统计方法。在logistic回归模型屮,自变量 通过logistic函数与二分类结局变量(如疾病状态)联系起來。非条件logistic回归用于成 组的病例对照研究;条件logistic回归则用于配对的病例对照研究。logistic冋归的优点有:分析某个口变量的效应吋,可以同时控制多个协变量的影响:(2)可以处理自变量对因变量的非线性效应;(3)可以在模型中引入交互作用项;(4)回归系 数的可解释性。尽管logistic回

28、归可以采用逐步回归的方法从大量的自变量中筛选出一部分有统计学意义 的口变量,然后再建立回归模型,但是这种筛选的方法也存在一定缺陷:如果采用前进法筛 选自变量,模型中只能引入有主效应的自变呆以及这些自变量的交互作用,从而忽视了只有 微弱主效应但存在交互作用的臼变量;如果采用后退法,由于需要估计的参数太多,则会导 致估计偏差。采用最小的绝对缩减和变量选择算子(lasso)来筛选口变量可能比以上的筛选 方法更为冇效。该方法是将自变量中那些很小的回归系数缩减为零,从大量的自变量中筛选 出一个集。但lasso并不一定能实质性地减少预测因子的数量15。因此为了运用logistic 回归模型来分析自变量与疾

29、病之间的关联,需要考虑采用其他方法来筛选重要的自变量了 集。2. 多因子降维法ritchie等于2001年提出多因子降维法mdr16,现已被广泛用于识别乳腺癌、2型糖尿 病、风湿性关节炎等复杂疾病的潜在交互作用位点17,18。mdr是一种构造性归纳方法,其分析过程如下:(1)将所有观测数据随机分成10个等份, 其屮9份数据(训练集)用于构造模型,剩余的1份数据(测试集)用于评价模型的拟合效果, 即十折交叉验iie(ten-fold cross-validation)o (2)在训练集的数据中,从全部的预测因子屮选择 n个因了(n=l, 2.)。(3)n个因了观察值的组合被呈现在n维空间中。例如

30、,假设每个snp 有3种可能的基因型,则对于2个snp的2因子组合将有9种可能的基因型组合。(4)估计 每种基因型组合中病例数与对照数的比值,当比值达到或超过预先确定的某一阈值(如n1) 时,该组合被标记为高危组;当比值小于阈值时,则被标记为低危组。这样就可以将原来的 n维模型的维度降低为一维(1个变量2个水平:高危组和低危组)。(5)考虑每一种可能有n 因子的组合,重复笫24步的过程。在所有的组合中,能够使高危组中病例数与对照数的 比值达到最大(即训练集屮分类课差最小)的n因子组合被选择为最住的因子纽合。对这个 最佳的n因了纟fl合,进一步用测试集来验证其预测的准确性。(6)对于第1步屮的任

31、一个9 / 10和1 / 10的样本,重复第25步的过程。绘终的最佳n因子组合是所冇n因子组合中 平均预测准确性最高(平均预测谋差最小)且交叉验证一致性(10次交叉验证中,该n因 子组合作为笫5步中最佳的因子组合而重复出现的次数)最大的一个。(7)通过置换检验确 定经验p值,进一步评估该模型是否有统计学意义。与logistic回归模型相比,mdr的优点主要有:(1)在单个snp位点缺乏主效应时,可以 同时检测位点间的交互作用;(2)将研究小的多因子组合以疾病易感性的方式分为高危和低 危,把高维结构降低到一维两水平,降低了建模所需的自由度,从而可以分析多个位点间的 高阶交互作用。mdr的缺点主要

32、是:(1)如果使用穷尽搜索的方式检测最佳n因子组合,由于该搜索方式 非常耗吋,mdr只能用于分析中小规模预测变量数的交互作用,而不能用于处理大规模数 据(如全基因组关联研究的多个位点)。(2)当数据中存在遗传异质性和拟表型时,mdr的 检验效能人大降低。(3)mdr将基因型组合简单地根据病例与对照的比值分为高风险组和 9-低风险纟r,当某种组合屮病例数和对照数的比值接近于全部观测数据屮的比值,或者该组 合屮病例数和对照数都很少时,mdr很容易发生分类错误,导致假阳性率或假阴性率增高; 另外,有些n因子组合的n维列联表的观测数可能为零,此吋就很难准确地将该组合归类为 高风险组或是低风险组。因此,

33、有必要对mdr进行改进。3. 分类回归树(cart)cart方法是由brciman等在1984年提出的一种决策树分类方法19,可用于发现大规模 白变最与分类或连续性结局变最的关系。作为传统i叫归方法的补充,cart已被广泛用于遗 传关联研究中检测基因基因、基因环境交互作用。cart包括分类树和回归树,分类树用 于分类结局变量,1佃凹归树用于连续性结局变量。两者的构建方法是相同的,均采用递归算 法将研究对象划分为不同的组别,使得组内研究对象的异质性达到最小。分类树是一个二叉树,由根结点、内部结点和叶结点(即终结点)组成。最佳分类树的产 生包含两个过程:(1)树的构建:从包含全部观测对象的根结点开

34、始采用自上而下的递归方 式在每个结点上対样本集按照分支规则选择分支属性(预测因子),然后按照相应属性的所 有可能取值向下建立二分支的子结点、划分训练样本,直到一个结点上的所有样本都被划分 到同一个类,或者某一结点屮的样木数量低于给定值时为止(叶结点)。分支规则是指根据 某一属性进行分支时,该属性能最大限度地区分出两个子结点的结局变量状态。例如,一个 子节点的病例所占比例较高,而另一个子结点的对照所占比例较高。cart屮最常用的分支 规则是基尼指数,用于度量某个节点及根据某属性进行分支得到的子结点的基尼不纯度。根 据某属性进行分支时,应使该分支节点基尼不纯度的减少量达到最人;另外,爛函数也是常

35、用的分支规则。(2)树的剪枝:上述过程建立的分类树是根据全部观测对象建立的,树的结 点数庞大,容易造成过度拟合的问题。因此,需要对其进行剪枝,去除一些不重要的结点, 以增加预测的泛化能力。cart算法采用交叉验证的后剪枝法,并根据复杂度参数来确定最 佳树的构建。cp值综合考虑了被修剪后树的预测误差和树的大小(即复杂度),能使复杂度 达到最小的cp值所对应的树就是所耍构建的最佳树。cart的优点主要是:(1)从根结点到叶结点由许多预测因了纽成的每一条路径对应于结局 变量的值(即分类规则)。因此这些分类规则包含着预测因子间潜在的交互作用,即高阶交互 作用。(2)釆用了与传统统计学完全不同的方式构建

36、预测准则,它所构建的预测准则以二叉 决策树的形式给出,非常容易理解、解释和使用。cart的缺点主要是:(1)根结点的初始分支是在预测因子有主效应的条件下进行的:后续 内部结点的分支也是在有主效应的条件下,并且依赖于上部结点分支的基础上进行的。因此, 当预测因子缺乏主效应时,cart不能检测出纯粹的交互作用。cart的结果非常不稳定, 当样木中的数据有-很小的变动时,构建的树就有较大的变动,会导致不同的预测结果。4. 随机森林10随机森林是brciman于2001年提出的一种集成算法20,它是cart的扩展,是一种利用 多个分类树对数据进行判别或分类的方法。随机森林克服了 cart中分类结果不稳

37、定的缺 点。与cart不同的是,随机森林产生的是大量的分类树,而不是唯一的具有清晰结构的 可用于解释基因型一表型z间关联特征的分类树。随机森林在对数据进行分类的同时,还能 够计算出各个预测因了对分类影响的重要性评分。研究者可以根据评分人小筛选出相对重要 的变量,这些重要的变量很可能就是真正具有主效应、或是与其他变量有交互作用的因子。 目前,随机森林已用于哮喘、围产期并发症、老年性黄斑变性等的遗传关联研究中。随机森林的分析过程如下:(1)从原始样本中进行有放回的抽样,抽収b个自助样本。每 个口助样本含量均与原始数据的样本量相同,口助样本中无重复的观察对彖约为原始样本的 2/3,作为训练样木;剩余

38、1/3的袋外样木作为测试样木。(2)对于每个自助样木,从所有的p 个预测因子中随机选择一部分预测因子的子集作为每个结点潜在的分支变量。按这种方式, 产生b个未经过剪枝的分类树(即为随机森林)。使用随机森林用于预测吋,则根据所有分类 树中预测比例最大(投票数最多)的某个分类作为最终分类。(3)对于任意第b个自助样本,采 用对应的测试样本对笫b棵树进行测试,记录整棵树的不纯性(错课分类率)为,nb;然后, 对测试样本的p个预测因子中第j个预测因子进行置换后,用于测试第b棵树,记录其不纯 性为7rbjo此时第b个样本中笫j个预测因子的重要性即为sbj=7tbj一兀b。(4)対所有的b=l, 2.b,

39、计算出第j个预测因子的重要性sbjo (5)最后,第j个预测因子的重耍性评分切以即 为上述b个重要性的平均值。在r软件中的random forest程序包中,可以计算变量重要性 的标准化度量,即以oj与6bj标准差的比值。随机淼林的优点主要是:(1)通过随机选取部分预测因了的了集构建随机森林,因此它克服 了维度困扰的问题,也克服了数据中预测因子间的共线性问题。同时随机森林不会发生过度 拟合的问题。(2)随机森林能够対各个预测因子或成对的预测因子対分类影响的重要性进行 评分,有利于筛选重要变量进行进一步的研究。(3)随机森林能检测出只有微弱主效应但有 交互作用的snpso (4)随机森林还能够处

40、理遗传异质性的问题。随机淼林的缺点主要是:(1)因为随机森林的结果是综合许多不同的分类树而得出的,所以 重要变最是如何单独或通过交互作用对疾病产生影响的真实模型对研究者来说是不明确的, 即随机森林对交互作用的解释比较困难。(2)当预测因子子集较大时,检测预测因子的联合 重耍性以获得高阶交互作用,冃前在计算上述难以实现。5. 贝叶斯上位效应关联图谱beam是近年来发展的检测冇交互作用和无交互作用位点的贝叶斯统计方法21。在 beam方法中,遗传标记位点被分成3组:第0组包含与疾病无关联的位点,第1组包含 只有主效应的位点,笫2组包含通过交互作用与疾病关联的位点。在给出每组中每个位点及 相应参数先

41、验分布的条件卜所有参数的后验分布ij以从马尔科夫链蒙特卡洛法(mcmc) 模拟屮计算得到。beam除了给出贝叶斯推断的框架外,还可以进一步计算b统计量,以 检验每一个标记位点或一系列标记位点是否与疾病有显著关联。11相对于mdr和logic回归等方法,beam能够处理全基因组关联研究屮人规模的标记位 点,且检验效能更高。上述这些方法均冇各自的优缺点。随着基因分型技术的发展,可检测的单核昔酸多态性 (single nucleotide polymorphism, snp)位点规模逐渐增人,使得非参数方法的应用越来越广, 研究也更加深入。目前,国如乳腺癌、肺癌、胃癌、原发性肝癌及直肠癌等2. 免疫

42、系统 如系统性红斑狼疮、强直性脊柱炎、风湿性关节炎等3. 神经系统如抑郁症等4. 代谢相关如高血压、糖尿病及高血脂等下面以冃前研究比较成熟的几种疾病为例,阐述基因环境交互作用的应用。12(一)乳腺癌乳腺癌的发生不仅与某些环境因索冇关,而fl取决于个体遗传易感性。大量低显性易感基 因多态在散发乳腺癌中起着更为重要的作用,决定了个体暴露于某种危险因素后是否发病, 基因环境交互作用研究不仅为探索乳腺癌病因提供了线索,而且为其个性化预防提供了依 据。1候选基因相关的基因环境交互作用研究早期的乳腺癌基因环境交互作用的研究往往通过候选基因方法选择功能位点,所选慕因 主要涉及各类代谢酶基因和dna修复基因等

43、;环境因素则集屮在环境致癌物、放射线、使 用激素、生殖因素及生活方式等方面。(1)性激索及相关酶基因多态性激素在乳腺癌的发生中起关键作用,其合成与代谢涉及cyp17、cyp1ar hsd17b1、 sult1a1和ugt1a1等多种代谢酶。编码这些酶的基因多态可影响酶活性改变人体内性 激素的生物利用度,从而可能修饰雌激素眾露与乳腺癌的关联。目前已有大量研究证据支持 这种观点。月经、生冇状况和肥胖等指标常用来反映女性内源性雌激素水平,是乳腺癌重要的危险因 素。初潮早、绝经晚、未育、晚育、少产、人工喂养以及肥胖等与高水平雌激素暴露有关。 谢伟等22发现,中国女性cyp17基因多态可修饰母乳喂养、妊

44、娠次数、绝经年龄、痛经 史与乳腺癌的关联,等位基因a2对这些因素的作用冇放大效应。口服避孕药(0c)和激素替代疗法(hrt)是外源性雌激索的主要來源。guillemette等 发现23,在oc使用者中,含ugt1a1 (ta) 7和(ta) 8等位基因者发牛:乳腺癌的风 险是(ta) 5/ (ta) 5、 (ta) 5/ (ta) 6 和(ta) 6/ (ta) 6 基因型者的 1.5 倍;在未 使用0c的女中,两者之间无显著关联。性激素必须与和应受体结合才能发挥牛.物学效应,因而受体基因多态可通过影响二者的结 合而与乳腺癌有关o性激素生物学效应的发挥还受性激素结合球蛋白(sex hormon

45、e-binding globulin, shbg) 的调节。shbg与性激素结合使其失去生物学活性,从而调节循环性激素的生物利用度。 研究表明24, shbg327 asn等位棊因对绝经后妇女的保护作用在低bmi或腰臀比 (waist-to-hip ratio, whr)以及er阳性的女性中更为显著,并发现绝经后asn等位基因 携带者的血shbg水平较非携带者高10%,具屮bm1或whr低者更是高出20%。(2) 环境致癌或抑癌物与生物转化酶基因多态细胞色素p450 (cyp450)除了可以催化类固醇激索、胆固醇和脂肪酸等内源性化介物的 生物合成外,还可降解包括人部分药物和环境化学物在内的外源

46、性物质,并可被这些化合 13 -物诱导和抑制。芬兰的一项研究表明25,在吸烟者屮,cyp1b1 432val等位基因携带者 罹患乳腺癌风险的增加更为明显。这与最近的一项研究结果相符26,提示提示cyp1b1可 能是吸烟少乳腺癌关联的效应修饰因子。谷胱lj s肽转移酶(glutathione s-transferase, gst)超基因家族主要包括gsta、gstm> gstp、gstt和gsto,其主耍功能是促使谷胱u肽与内源性即外源性亲电子化合物(如 致癌物、活性氧以及细胞代谢产物等)结合,以达到解毒的作用。在绝经后女性gstt1 基因缺失的吸烟者罹患乳腺癌的风险增加,且开始吸烟的年龄

47、越小,风险越高。n乙酰转移臨2 (n-acetyltransferase-2, nat2)参与多种药物及环境致癌物的代谢。多项 研究发现,nat2慢代谢基因型修饰吸烟对乳腺癌的作用26、27o超氧化物歧化酶(super oxide dismutase, sod)催化超氧自由基歧化形成过氧化氢。具屮, mn-sod是线粒体内最主要的抗氧化酶。meta分析显示28, mnsodval9ala多态与肿瘤 风险无关,但ala/ala基因型可增加维生索c或e摄入水平低的绝经前女性罹患乳腺癌的 风险,该基因多态可显著修饰吸烟者罹患乳腺癌的风险。最新的一项研究显示29, casp8-rs 1045485与饮

48、洒之间存在强关联,与不饮酒或者较少 量饮酒的女性相比,那些每h饮酒一次或一次以上的女性发生乳腺癌的危险显苦增加。乳腺癌基因环境交互作用的研究还涉及膳食营养素及相关酶基因多态等,这些研究存在 下列共性以及局限:多数为病例对照研究和单病例研究设计,只有少部分釆用队列研究 的数据,无法避免偏倚;(2)样本量较小(1001 000对病例与对照),在暴露水平较低或 易感基因型频率较低时缺乏足够的把握度;(3)通常采川1 ogistic回归模型进行基因环境交 互作用分析,关注相乘交互作川;(4)研究往往基于一定的主物学假设,通常采用候选基因 方法筛选乳腺癌易感基因及位点,所研究的基因多态功能相对明确,而环

49、境暴露因素则往往 是相关代谢通路的始动因素或底物;(5)山于研究设计和方法的局限及不同人群遗传背景和 坏境眾露的差异,导致研究结果的一致性较差。2.gwas相关基因坏境交互作用研究自2007年开始,多项gwas发现了多个新的乳腺癌相关基因及其多态。由于并不十 分清楚这些位点的功能,因此这些位点未成为候选基因方法的目标,其与乳腺癌的关联询待 重复验证,对其功能也有待进一步的探索。利用已知的乳腺癌危险因素开展基因环境交互 作川研究,是探索和揭示这些基因及其多态功能的方法乙一,也是揭示乳腺癌发病机制的途 径。2008年,bha伍30等率先利用gwas结果,发现在乳腺癌的发生中,位于llpl5的h19

50、 基因rs2107425多态位点与职业辐射暴露剂量之间存在显著的交互作用。目前对h19的功 能并不十分明确,一般认为h19可能参与igf2基因的调控,貝有上调igf2表达作用的 h19基因型可能使发生辐射性dna损伤的细胞存活,从而促进肿瘤的发生。bhatti等进一 步发现31,辐射相关乳腺癌与位于mrps30基因的rs930395、rs 10941679> rs206798014和rs4415084位点有关。mrps30 rs930395多态l个体诊断性辐射暴露z间存在显著的 交互作用,其他 snps(如 stxbp4rs6504950、c60rf190rs9491859 和 npas

51、2 rs 12622050) 对电离辐射也有效应修饰作用o由于gwas不基于任何假设,发现的潜在易感基因及位点与乳腺癌之间仅仅是统计学上 的关联,尚不清楚其生物学功能。这类基因环境交互作用研究具有如下特点:所研究基 因及多态位点为gwas发掘的乳腺癌相关基因,尚不清楚其生物学功能;(2)环境因素仍为 乳腺癌已知危险因素或是某个代谢通路的始动或促进因素;(3)研究设计仍以病例对照研究 为主,但样本量较人;(4)统计学方法仍以相乘交互作用分析为主。可见,gwas相关基因. 环境交互作用研究除了易感基因及位点来源于gwas夕卜,其在研究设计及分析上仍与候选 某因多态相关研究大同小异,因此不可避免地存

52、在这些研究的根本缺陷,如环境暴露评估的 不准确、重复性差和假阳性等。大量研究提示,基因环境交互作用在乳腺癌发牛中起着重要的作用,但由于研究设计的 局限性以及不同人群乳腺癌充分病因学模式的差杲,乳腺癌某因坏境交互作用研究的重复 性很走,目前鲜有研究结果能被真正地应用于疾病的预防与控制。评估乳腺癌基因环境交 互作用不仅仅是统计学上的问题,更重要的是能否在牛物学上作出合理的解释。无论是候选 基因相关基因环境交互作用研究还是打gwas相关基因环境交互作用研究,都是将统计 学结果与生物学知识相结合,以探索乳腺癌的发病机制。不同z处在于,前者慕于生物学机 制进行统计学分析,后者基于统计学结果探索可能的牛物

53、学机制。gwas相关基因坏境交 互作用研究的这种全新探索模式对深入理解乳腺癌的发病机制提供了新的线索。今示期待开 展设计完善、样木虽足够的前瞻性研究,将研究成果应用于乳腺癌高危人郡的筛选和个性化 预防,从而达到降低乳腺癌发病率的最终目标。(二)肺癌1. 坏境因素所致的癌基因与抑癌基因的突变p53基因是一种典型的抑癌基因。人约50%以上的肺癌患者存在p53基因突变,其屮鳞癌 的p53突变率高于腺癌和其他类型肺癌。吸朋肺癌患者p53基因突变的最常见类型是g: c-t: a颠换,而非吸烟患者中则是g: c-a: t转换。吸烟是导致肺癌发牛的重要原因,p53基因突变与吸烟之间的强相关关系已从分子水平得

54、 到了证实。在吸烟肺癌患者中,p53基因发生突变者显著年长于无p53基因突变者,并j1吸 烟年限也较长。也有研究表明吸烟量少p53棊因突变的危险性z间有显著的剂量反应关系。 此外,饮酒可以增强吸烟的致肺癌作川,既吸烟又饮酒的患者比吸烟但不饮酒或不吸烟也 不饮酒的患者更易发生p53突变。在非吸烟肺癌的病因学研究屮,坏境烟草烟雾(ets)的暴露是一项重要内容。有报道显示 暴露于配偶ets的非吸烟肺癌患者p53基因发牛:突变的危险性比那些未暴露于ets的高2 倍,曾暴露于配偶或工作场所ets的患者p53棊因发生突变的危险性比那些未暴于ets-15的高1.5倍32。除ets外,烟煤燃烧时釋放的煤烟也引

55、起了人们的注意。在肺癌高发区云南宣威,煤烟 是导致肺癌发牛的主要原因。一些特殊职业者也是肺癌的高发人祥,如接触石棉者比未接触 石棉者更易发生p53突变,从而便肺癌发生的危险性增高,而且此种p53突变类型往往不 同于吸烟相关肺癌。2. 代谢酶多态性与肺癌发牛的危险性(1) 细胞色素p450酶p450酶可催化苯并(a)陀、亚硝胺类化合物、卤代甲烷反应生成具冇高度亲电子活性的中 间代谢产物,与dna等生物人分子共价结合产生致癌效应。cyp450酶的基因型cyp1a1、 cyp2a6、cyp2d6、cyp2e1等存在多态现象,可影响个体易感性。我国一项病例対照研 究发现携带和cyp1ap2a和cyp1

56、a1*2b的个体发生肺鳞癌的危险性增加,并与吸烟有协 同作用33。(2) gst人类谷胱卄肽s转移酚gst主耍由3个胞质晦家族和一个微粒体醐家族组成,已发现卩、0和兀三个卿家族呈多 态性分布。其中gstm1和gstp1主要催化gsh与多环芳坯环氧化酶共价结合而解毒。gstm1裸基因型是肺癌发牛的一个危险因索,携带此基因型对以使个体发牛肺癌的危险 增髙1.92倍,对轻度吸朋者而言,危险度增高3.47倍34。有研究提示暴露于ets的非吸 烟女性肺癌患者比未暴露者表现出更多的gstm1活性缺失,并随着暴露量的增人缺火率增 高。gstp1裸基因型可能会增加重度吸烟者发生肺癌的危险性。在瑞典人群中的研究

57、发现 gstp1裸基因型在从耒吸烟人群中似乎是一个保护因素,但在吸烟人群中却导致肺病发生 的危险性增高,尤其对于重度吸烟人群,吸烟m>py29 (平均每天一包烟,共29年), 时,0r为3.5(95%ci=0.7-17.73)o与携带gstp1非裸基因型的轻度吸朋者相比,携带gstp1 非裸基因型的重度吸烟者发生肺癌的危险增高9倍,携帯gstp1裸基因型的重度吸烟者发 生肺癌的危险则增高到4倍。综上所述,坏境因索与基因的交互作川对肺癌的发生起着决定性的作用,分子流行病学 则是探讨环境一基因交互作用的最为有效的一种手段。它能明确病因,发现有效的肿瘤标志 物,确定易感人群,冇助于一级

58、预防和二级预防的实施,冇效地降低肺癌的发病率和死亡 率。(%1) 系统性红斑狼疮系统性红斑狼疮(systemic kipus erythematosus, sle)是一种与遗传、环境、内分泌和自身免 疫系统紊乱等多种因素有关的自身免疫性疾病,但到目询为止其确切病因和发病机制仍不清楚,这対于sle的诊断、治疗和预防的进展造成了很大障碍。分子流行病学研究发现多种基因(如hladr、hladq、补体4基因、tcr基因、多 种细胞因子及受体基因等)与sle存在关联,表明sle是一种多基因遗传病。尽管口前有关基因-usle关联性的研究很多,但研究结果很不一致,有时甚至完全相反, 因此sle的主要易感基因到冃前为止仍然无法确认。造成这种现彖的原因z可能是冃前 的研究尚未深入到检测出sle主要易感基因的程度。但综合现有的研究來看,更加可能的 另一种原因是sle并不像强直性脊柱炎那样有确切的主要易感基因,而是有多个基因交互 作用,共同影响sle的易感性及自身抗体的产生,进而影响

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论