人类群体遗传学.ppt_第1页
人类群体遗传学.ppt_第2页
人类群体遗传学.ppt_第3页
人类群体遗传学.ppt_第4页
人类群体遗传学.ppt_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、人类群体遗传学基本原理和分析方法,中科院-马普学会计算生物学伙伴研究所,中国科学院上海生命科学研究院研究生课程 人类群体遗传学,徐书华 金 力,20072008学年第二学期人类群体遗传学分析方法课程表 上课时间:每周四上午10:00-11:50 上课地点:中科大厦4楼403室第7教室,第五讲,单倍型估计及连锁不平衡分析,第五讲,基本概念 连锁不平衡原理及其统计量 影响连锁不平衡的因素 连锁不平衡在基因定位研究中的应用,基本概念,遗传多态性(Genetic polymorphism) 指在一个群体中,同时存在的两种或两种以上的变异类型,每种类型的频率比较高,一般认为每种变异型超过1即可定为多态现

2、象,不足1的称为罕见变异型,或者称为突变(mutation)。 人类存在多种遗传多态现象(多态性),主要有染色体多态性、酶和蛋白质多态性、抗原多态性的DNA多态性五类。,单核苷酸多态性,单核苷酸多态性(single nucleotide polymorphism,SNP,读作 “snip” ),主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。它是人类可遗传的变异中最常见的一种。占所有已知多态性的90%以上。SNP在人类基因组中广泛存在,平均每300600个碱基对中就有1个,估计其总数可达1000万个甚至更多。SNP所表现的多态性只涉及到单个碱基的变异,这种变异可由单个碱基的转

3、换(transition)或颠换(transversion)所引起,也可由碱基的插入或缺失所致。但通常所说的SNP并不包括后两种情况。理论上讲,SNP既可能是二等位多态性,也可能是3个或4个等位多态性,但实际上,后两者非常少见,几乎可以忽略。因此,通常所说的SNP都是二等位多态性的(biallelic)。,genotype,相邻位点的等位基因在同一条染色体上的排列方式,From genotype to haplotype,genotype,haplotype,phased data,unphased data,Reconstruct haplotype from genotype,CLARKS

4、 algorithm Parsimony-based method E-M algorithm Likelihood-based method PHASE algorithm Bayesian method,Reconstruct haplotype at individual level,00100111010101000001111101011011111111110100100001010101110110000111011000001101110011111000010 0010111111101011111010001010010000000010000110000011010001

5、1100110000000011111100110001000100000 00101111010101000001111101011010111111110101001001000000000101000000000000001100110001000100000 11010111010101000001111101011010111111110100111100011111110101000001100011111100110001000100000 0010011101010100000111110101101111111111010010000101010111011000011101

6、0000001000001100010011011 11010011010101000001111101011011111111110100000011000000000000010000000100000100110001000100000 00101111010101000001111101011010111111110100101001000000000101000000000000001000001100010011011 1101000000000000000000000000000000000000100000001100000000000001000000010000010011

7、0001000100000 00000000000000000000000000000000000000001010000011000000000000010000000100000100110001000100000 11010111010101000001111101011010111111110100101001000000000101000000000000001000001100010011011 0000000000000000000000000000000000000000100010000011010001110010100000000000100000110001001101

8、1 00101111111010111110100010100100000000100001100000110100011100110000000000000100110001000100000 00000000000000000000000000000000000000001010000011000000000000010000001100000100110001000100000 11010100000000000000000000000000000000001000000011000000000000010000000100000101110011111000010 0000000000

9、0000000000000000000000000000001010111100011111110101010000000100000100110001000100000 00000000000000000000000000000000000000001010000011000000000000010000000100000100110001000100000 00101111111010111110100010100100000000100001100000110100011100110000000100000100110001000100000 1101011111101011111010

10、0010100100000000100001101001000000000100000001100000000110010011010000110 00000000000000000000000000000000000000001010111100011111110101000011100000001101110011111000010 00101111111010111110100010100100000000100001000011000000000000010000000100000101110011111000010 0010111111101011111010001010010000

11、0000100001100000110100011100101000000000001000001100010011011 11010111111010111110100010100100000000100001100000110100011100101000000000001000001100010011011 00000000000000000000000000000000000000001000000011000000000000010000000100000100110001000100000 1101011111101011111010001010010000000010000110

12、0000110100011100101000000000001000001100010011011 00000000000000000000000000000000000000001010111100011111110101010000000100000100110001000100000 00000000000000000000000000000000000000001010100000110100011100101000000000001000001100010011011 0010111111101011111010001010010000000010000111000001111111

13、0101000000000011111110010011010001010 11010111010101000001111101011010111111110100101001000000000101000000000000001000001100010011011,软件演示,PHASE Ne is the effective population size.,Human recombination rate,= 4Ner = 4 x 10000 x 1cM/Mb = 4 x 10000 x 0.01 M/1000000 bp = 0.0004/bp = 0.4/kb,4Ner and LD,

14、4Ner as an approach for quantifying LD; This approach avoids reliance on pairwise measures of LD, which differ from marker to marker, and facilitates comparisons between regions.,LD统计量的性质- |D|,|D|具有很好的性质,当且仅当两个SNP位点没有被重组打断,或者没有因为回复突变、基因转换等因素影响的情况下,|D|=1。在这种情况下,对于两个位点来说,从样本中最多能观察到三种单倍型。|D|=1被认为是完全的连锁

15、不平衡(complete LD)。 |D|1则暗示先前完全的连锁不平衡已经被打乱了。然而,小于1的|D|往往没有很清楚的解释,而且|D|在样本量小的情况下波动很大,尤其是对于低频位点来说,即使在高频SNP位点中也是这样。因而即使在位点实际处于连锁平衡状态(linkage equilibrium)的情况下,也可以获得很高的|D|值。正因为样本量的大小严重影响|D|的估计,而样本之间往往又是不可比的,所以统计上显著地接近于1的|D|值,提示历史上发生过重组的可能性很小,这是非常有用的;但中间值却不应该用来衡量连锁不平衡的强度以及在不同的研究中进行比较。,LD统计量的性质- r2,r2在某种程度上是

16、与|D|相互补充的一个连锁不平衡测度,有些地方也表示成2。近些年来的基因定位研究一般将其作为首选,以用来衡量连锁不平衡的强度和在不同研究中进行比较。 r2=1只有在一种非常严格的情况下成立,即两个位点上等位基因在染色体上的排列没有被重组打乱,而且等位基因具有完全相同的频率。此时的连锁不平衡是真正“完美的”连锁不平衡(perfect LD)。在这种情况下,样本中实际上只有两种单倍型,一个位点的信息完全可以替代另外一个位点,检测两个位点的基因型是多余的。,r2的中间值比较容易解释,可以考虑两个位点,一个是与疾病关联的功能位点,另外一个是其附近的遗传标记位点,如果通过标记位点来检测与疾病之间的关联,

17、想要达到与检测功能位点本身同样的功效的话,样本量需要增加大约1/r2倍。简单地讲,r2的值与另外一个位点提供的信息含量是直接相关的。值得注意的是,这个性质已经很好地考虑了两个位点之间等位基因频率的差异。然而,这也同样意味着两个紧密连锁、互相贴近的位点与第三个位点的连锁不平衡可能表现出完全不同的r2值,所以小的r2值并不意味着位点之间一定有高的重组率。另外一点,r2受样本量大小的影响比D小得多。,Useful LD,从关联分析的功效角度对r2的解释,产生了“实用连锁不平衡”(useful LD)的概念。在关联分析当中,由于病人样本,表型数据收集的困难以及基因分型的成本,样本量往往受到限制,况且花

18、费很大的力气扩大样本量而使得标记与疾病易感位点之间的连锁不平衡微弱增加,实在是不可取。r21/3的连锁不平衡水平,使得样本量的增加不超过3倍,可以作为“实用连锁不平衡”的底线。,LD统计量的性质- p-value,因为p值严重依赖于样本量的大小,所以不能用来比较使用了不同样本量的研究结果。另外,只要样本量足够大,很容易获得统计上显著的p值,比如r2=0.01的连锁不平衡在1,000条染色体的样本可以是统计上极其显著的。再者,尽管实际的连锁不平衡远远低于可用于基因定位中有用的水平,p值却往往让人误以为连锁不平衡延伸了很远,因为连锁平衡的微弱偏离可以在相当长的距离上观察到。,总的说来,对于两两位点

19、之间连锁不平衡的度量方式,r2是一个比较好的统计量,尤其是在关联分析的框架下来考虑的话,r2可以直接与功效联系起来。,影响连锁不平衡的因素,分子水平 重组率的不均匀分布 突变率的不均匀分布 基因转换 群体水平 遗传漂变 群体扩张 人群混合和人群迁移 群体结构 自然选择,重组率的不均匀分布,已知重组率在整个基因组中的变化超过一个数量级。因为连锁不平衡的衰减主要就是重组驱动的,所以连锁不平衡将以相反的比例随着重组率的波动而波动。甚至有人认为重组有可能绝大多数集中在基因组中一些局部的“重组热点”(hotspot),从而其他地方重组很少发生。按照这个观点,连锁不平衡将在非重组区表现得很强,而在“重组热

20、点”表现得很弱。尽管已经有实验研究提示这种情况确实在基因组的某些区域发生,但是“重组热点”的一般性,“热点”区域以内和以外的重组频率差异程度以及这些区域的长度分布都有待于进一步的研究和确认。,突变率的不均匀分布,基因组中的某些区域比如在CpG二核苷酸位置附近,单核苷酸多态位点可能具有较高的突变率,从而与附近的位点表现出很弱的连锁不平衡甚至没有连锁不平衡,尽管实际上没有重组发生。,基因转换,在减数分裂期间,如果发生基因转换事件,一般是一条染色体的一个短片段转移到另外一条染色体上。这个效应等价于近距离发生了两次重组事件,于是连锁不平衡被打断,如同重组和回复突变产生的效果。已经有一些研究表明,人类基

21、因组中基因转换的发生非常频繁,对紧密连锁位点之间的连锁不平衡产生重要影响。,遗传漂变,遗传漂变描述的是在有限群体大小的群体中,由于每一代的随机取样造成的基因频率和单倍型频率的改变的现象,这是群体遗传学中见到的最普遍的现象。等位基因频率的变化在小群体中尤其迅速,一般来说,在一个稳定的(而不是增长的)小群体中,随着单倍型的不断丢失,遗传漂变会使连锁不平衡不断增强。,群体扩张,群体的快速增长或群体扩张因为削弱了遗传漂变的影响,从而导致连锁不平衡的增强。,人群混合和人群迁移,人群之间的混合或者迁移可以产生新的连锁不平衡。在人群混合之初,连锁不平衡的强度与混合人群之间等位基因频率的差异相关或成比例,而与位点之间的物理距离无关。在随后的世代中,相互不连锁的位点之间的“伪”连锁不平衡很快消失,而那些连锁的相邻位点之间的连锁不平衡因为重组会逐渐衰减,但是相对要缓慢得多。理论上来讲,在混合人群中进行基因定位可以使标记的需要量大大减少。已经有研究试图在一些混合人群,比如美国黑人当中用这种策略进行基因定位。,群体结构,一般人群认为群体结构各方面的特征都会对连锁不平衡产生影响。在人类群体中,人群的分化有可能对连锁不平衡的模式有相当重要的影响,然而我们有限的知

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论