全基因组关联分析的原理和方法题库_第1页
全基因组关联分析的原理和方法题库_第2页
全基因组关联分析的原理和方法题库_第3页
全基因组关联分析的原理和方法题库_第4页
全基因组关联分析的原理和方法题库_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、全基因组关联分析(Genome-wide association study;GWAS)是应用基因组中 数以百万计的单核苷酸多态性(single nucleotide ploymorphism,SNP)为分子 遗传标记,进行全基因组水平上的对照分析或相关性分析,通过比较发现影响复 杂性状的基因变异的一种新策略。随着基因组学研究以及基因芯片技术的发展,人们已通过GWAS方法发现并 鉴定了大量与复杂性状相关联的遗传变异。近年来,这种方法在农业动物重要经 济性状主效基因的筛查和鉴定中得到了应用。全基因组关联方法首先在人类医学领域的研究中得到了极大的重视和应用, 尤其是其在复杂疾病研究领域中的应用,使

2、许多重要的复杂疾病的研究取得了突 破性进展,因而,全基因组关联分析研究方法的设计原理得到重视。人类的疾病分为单基因疾病和复杂性疾病。单基因疾病是指由于单个基因的 突变导致的疾病,通过家系连锁分析的定位克隆方法,人们已发现了囊性纤维化、 亨廷顿病等大量单基因疾病的致病基因,这些单基因的突变改变了相应的编码蛋 白氨基酸序列或者产量,从而产生了符合孟德尔遗传方式的疾病表型。复杂性疾 病是指由于遗传和环境因素的共同作用引起的疾病。目前已经鉴定出的与人类复 杂性疾病相关联的SNP位点有439个。全基因组关联分析技术的重大革新及其应 用,极大地推动了基因组医学的发展。(2005年,Science杂志首次报

3、道了年龄相关 性视网膜黄斑变性GWAS结果,在医学界和遗传学界引起了极大的轰动,此后一系列GWAS陆 续展开。2006年,波士顿大学医学院联合哈佛大学等多个研究机构报道了基于佛明翰心脏 研究样本关于肥胖的GWAS结果(Herbert等.2006);2007年,Saxena等多个研究组联合报 道了与2型糖尿病(T2D )关联的多个位点,Samani等则发表了冠心病GWAS结果(Samani 等.2007); 2008年,Barrett 等通过 GWAS 发现了 30 个与克罗恩病(Crohns disrease) 相关的易感位点;2009年,W e is s等通过GWAS发现了与具有高度遗传性的

4、神经发育疾 病一一自闭症关联的染色体区域。我国学者则通过对12 000多名汉族系统性红斑狼疮患者 以及健康对照者的GWAS发现了 5个红斑狼疮易感基因,并确定了 4个新的易感位点(Han 等.2009)。截至2009年10月,已经陆续报道了关于人类身高、体重、血压等主要性状, 以及视网膜黄斑、乳腺癌、前列腺癌、白血病、冠心病、肥胖症、糖尿病、精神分 裂症、风湿性关节炎等几十种威胁人类健康的常见疾病的GWAS结果,累计发表了近万篇 论文,确定了一系列疾病发病的致病基因、相关基因、易感区域和SNP变异。)标记基因的选择:Hap Map是展示人类常见遗传变异的一个图谱,第1阶段完成后提供了 4 个人

5、类种族 Yoruban ,Northern and Western European , and Asian (Chinese and Japanese) 共 269个个体基因组,超过100万个SNP (约 1 SNP / 3kb )及连锁不平衡区域(linkage disequilibrium, LD )关 系的图谱。第二阶段增加了其它的人类种族数据。基于Hap Map可以选 择500 000到1 000 000个覆盖全基因组的SNP。基因组拷贝数变异(copy number variations ,CNV )是20世纪80 年代发现的在人类基因组中存在的多种类型的染色体数目和结构变异。 是

6、指与参考序列相比,基因组中1 kb的DNA 片段插入、缺失和/或 扩增,及其互相组合衍生的复杂染色体结构变异。与SNP相似,部分CNV 在不同人群中以不同频率分离并具有显著性差异,并可能影响基因表达 和表型改变,因此CNV也是一种引起疾病或增加复杂疾病发病风险的重 要遗传变异。GWAS采用的研究方式与传统的候选基因病例一对照(case-control)关联分 析一致,即如果人群基因组中一些SNP与某种疾病相关联,理论上这些疾病相 关SNP等位基因频率在某种疾病患者中应高于未患病对照人群。动物重要经济性状即复杂性状GWAS分析方法的原理是,借助于SNP分子遗 传标记,进行总体关联分析,在全基因组

7、范围内选择遗传变异进行基因分型,比 较异常和对照组之间每个遗传变异及其频率的差异,统计分析每个变异与目标性 状之间的关联性大小,选出最相关的遗传变异进行验证,并根据验证结果最终确 认其与目标性状之间的相关性。GWAS的具体研究方法与传统的候选基因法相类似:单阶段方法,即选择足够多的样本,一次性地在所有研究对象中对目标 SNP进行基因分型,然后分析每个SNP与目标性状的关联,统计分析关联强度和 OR值(计算出的OR值等于1时,则该因素的疾病发生不起任何作用;大于1时, 该因素为危险因素;小于1时,该因素为保护因素。)。目前GWAS研究主要采用两阶段方法/多阶段方法。第一阶段用覆盖全基因组范围的S

8、NP进行对照分析,统计分析后筛选出较少 数量的阳,性SNP进行。可以以个体为单位,也可以采用DNA pooling的方法(后 者可大大降低及基因分型的成本和工作量)。但是DNA pooling的基因分型 结果与对所有个体进行基因分型的结果仍有一定差异,DNA pooling估计的等位 基因频率标准差在1 % 4%的范围,因而若单独以DNApooling来估计等位基 因频率,那么这种误差对全基因组的病例一对照研究的检验效能(power of test )有重要影响。第二阶段或随后的多阶段中采用更大样本的对照样本群进行基因分型,然后 结合两阶段或多阶段的结果进行分析。这种设计需要保证第一阶段筛选与

9、目标性 状相关SNP的敏感性和特异,性,尽量减少分析的假阳性或假阴,性,并在第二阶段 应用大量样本群进行基因分型验证。结果的统计和分析:在GWAS用于病例-对照研究设计时,比较病例和对照组中每个SNP等位 基因频率差别多采用4格表的卡方检验(chi-square test )并计算 OR及其95%的可信区间(confidence interval , CI),归因分数(attributable fraction , AF)和归因危险度(attributable risk , AR);同时需对如年龄、性别等主要混杂因素采用Logistic回归分析, 以基因型和混杂因素作为自变量,研究对象患病状态

10、为因变量进行分析。GWAS用于研究随机人群的SNP与某一数量性状关联时(如身高、体重、 血压等),主要应用单因素方差分析(one-way ANOVA )比较SNP位点3 种基因型与所研究的数量性状水平的关系,需要调整混杂因素时则采用 协方差分析(analysis o f covariance)或线性回归引起结果误差的主要原因有人群分层和多重假设检验调整。无论是GWAS两阶段 /多阶段设计,还是采用Bonferroni校正等遗传统计方法,都难以解决人群分 层及多重比较导致的假阳性或假阴性问题。GWAS不能仅凭P值判断某个SNP 是否与疾病真正关联,多种族、多群体、大样本的重复验证研究(repli

11、cation) 才是提高检验效能、确保发现真正疾病关联SNP的关键。【例】全基因组关联分析在乳腺癌易感位点筛选的应用2007 年 6 月,乳腺癌关联协作组(Breast Cancer Association Consortium BCAC)首先报告了乳腺癌GWAS的结果,该研究共包括三个阶段:第一阶段:408例家族性乳腺癌患者和400名对照,266 722个SNP;第二阶段:3990例乳腺癌患者和3916名对照,12 711个SNP;第三阶段:22例病例-对照研究,合计21 860例患者和22 578名对照, 30个SNP。研究结果最终发现了5个乳腺癌的易感性位点,4个 位于已知基因:FGFR

12、2 ( rs2981582)、TNRC9 /LOC643714(rsl2443621 )、MAP3K1( rs889312)和 LSPl (rs3817198) 而rsl3281615位于染色体8q24。虽然GWAS结果在很大程度上增加了对复杂性状分子遗传机制的理解,但也 显现出很大的局限,性。首先,通过统计分析遗传因素和复杂性状的关系,确定与 特定复杂性状关联的功能性位点存在一定难度。通过GWAS发现的许多SNP位点 并不影响蛋白质中的氨基酸,甚至许多SNP位点不在蛋白编码开放阅读框(open reading frame ,ORF)内,这为解释SNP位点与复杂性状之间的关系造成了困难。 而且

13、,就目前来说GWAS难以检测的部分可能主要集中在最小等位基因频(minor allele frequency ,MAF)介于 0 . 5 % 5 %之间的少见变异,或者 MAF 0.5% 的罕见变异,现有的基因分型芯片较难有效地发现这些遗传变异但是,由于复杂性状很大程度上是由数量性状的微效多基因决定的,SNP位 点可能通过影响基因表达量对这些数量性状产生轻微的作用,它们在RNA的转录 或翻译效率上发挥作用,可能在基因表达上产生短暂的或依赖时空的多种影响, 刺激调节基因的转录表达或影响其RNA剪接方式。因此,在找寻相关变异时应同 时注意到编码区和调控区位点变异的重要性。其次,等位基因结构(数量、

14、类型、 作用大小和易感性变异频率)在不同性状中可能具有不同的特征。在GWAS研究后要确定一个基因型-表型因果关系还有许多困难,由于连锁不 平衡的原因,相邻的SNP之间会有连锁现象发生。同样,在测序时同样存在连锁 不平衡现象,而且即使测序的费用降到非常低的水平,要想如GWAS研究一般地 获得大量样本的基因组数据还是非常困难的。*llumina宣布HiSeq X Ten测序系统将会于1月份重磅回归,该技术的早期运用还需要等 待一段时间,然而GEN预测了 I lluminaXTen在2015年可能会实现的6大应用。Illumina XTen的测序功能非常强大,一台机器一年能完成18000个人类基因组

15、测序,尽管大规模基 因组测序还会面临一系列挑战,但是现在可以将这些顾虑暂时搁置,思考一下科学家们可以 利用该技术完成哪些有趣的工作呢?下面就是GEN预测的6大应用。1新生儿与儿科疾病预测新生儿重症监护病房和儿童医院每年都会收治大量患有严重疾病的患儿,而其中很多致命的 疾病都存在其遗传基础。其中有一些是已知的遗传疾病,能够通过临床基因检测确诊。然而 还有大量的疾病无法通过基因检测查出来,却严重地影响儿童健康。目前有很多试点计划, 像是NIH的“未确诊疾病计划”就是通过外显子测序来实现检测,外显子测序平均能揭示 25-30%的病理性突变。然而,全基因组测序能够发现难以捕捉的外显子区域,还能够发现结

16、构性变异。随着XTen system的应用,全基因组测序只是下面要做工作的第一步。它的运转速度更快,不需要杂 化反应,检测范围能从单一核苷酸变异到大片段丢失。如果可行的话,患者及其父母,甚至 是兄弟姐妹都可以进行全基因组测序。药物试验和药物基因组学基因研究的一个巨大前景就是实现个体化医疗:把治疗疾病具体到每个个体的基因组成上 来。实现个体化医疗需要研究疾病预后和药物反应的个体基因差异,目前许多药物基因组计 划正在进行,而很多都是运用SNP分析和靶向测序技术。全基因组测序能够更好地促进这些 工作,因为全基因组测序能够捕获范围更广的变异。全基因组测序还能够运用到临床试验的 前沿,它可以将病人按反应

17、分成很多群体进行研究。控制变异和表达数量性状基因座(eQTLs)国际人类基因组单体型图计划(HapMap Project)的一项重要开支就是从成纤维细胞系中鉴 定出基因变异,该项工作由Coriell领头。获得所有SNP基因型后,研究人员可以分析基因 表达,最初是通过芯片分析,后来通过RNA-seq技术,最终将这些结果与变异联系起来。这 些分析结果产生了成千上万的表达数量性状基因座(eQTLs),分析这些数据可以了解基因变 异影响转录的方式。可以想象用最先进的RNA-Seq和WGS (全基因组测序)技术对同一样本进行分析后会得到怎 样强大的数据(RNA-seq是在另外一些平台上做的,比如Hise

18、q2000,因为X Ten只能进行 全基因组测序)。ENCODE Project Consortium和其他几个团队揭示了转录广泛发生的方式, 毫无疑问,仅仅利用过去的SNP芯片分析是无法得出这些结论的。罕见肿瘤研究癌症基因组图谱(TCGA)和国际癌症基因组计划(ICGC)等工作鉴定出大量癌症类型的体细 胞突变。大多数工作是通过外显子测序和全基因组测序完成的,而鉴于成本考虑,主要是外 显子测序。尽管如此,这些工作极为有效地揭示出反复出现的变异和通路。然而,这些工作主要是基于那些常见的肿瘤类型。不过随着全基因组测序的普及,那些罕见 的肿瘤类型也可以通过同样的手段进行研究。通过把TCGA、ICGC和其他数据库的样本作为 比对参照,我们可以获得许多罕见肿瘤的体细胞变异数据。这不仅可以帮助那些患罕见瘤的 病人,而且可以帮助深入理解生物学中的特异性。全基因组测序是研究这些罕见肿瘤的极为有效的工具,基于我们对这些肿瘤了解甚少,通过 全基因组测序可以捕获到所有的变异,在一次测序中小到可以获知单核苷酸位点的变异,大 到染色体重排。将全基因测序大规模应用在肿瘤研究中,也是理所当然了。家族性疾病基因组学研究这一点和第一条应用(新生儿与儿科疾病预测)看起来可能很相似,但其实是另一种研究, 需要挖掘受家族性遗传疾病影响的多谱系病因。家族性研究和病

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论