生物信息学概论第四章基于距离的系统发生分析_第1页
生物信息学概论第四章基于距离的系统发生分析_第2页
生物信息学概论第四章基于距离的系统发生分析_第3页
生物信息学概论第四章基于距离的系统发生分析_第4页
生物信息学概论第四章基于距离的系统发生分析_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章基于距离的系统发生分析本章内容分子系统发生学的历史4.1分子系统发生分析的优点4.2系统发生树4.3距离矩阵法4.4最大似然法4.5多重序列比对4.64.1分子系统发生学的历史

系统发生学是研究物种之间的进化关系的,是进化生物学的一个重要研究领域,系统发生分析在达尔文时代就已经开始。从那时起,科学家们就开始寻找物种的源头,分析物种之间的进化关系,给各个物种分门别类。CharlesDarwin(1809-1882)4.1分子系统发生学的历史

1902~1904年,G.H.FNuttall证明了把一个生物体的血液注射到另一个生物体时,产生的免疫反应的程度与这两个生物体的进化关系直接相关。通过这些实验,他检测了成百种生物之间的关系,并且最早正确地推断出人和猿比它们和其它灵长类动物有更近的共同祖先

20世纪50年代,分子数据才开始被广泛应用于系统发生研究。蛋白质电泳,使得我们可以在一些浅层特征上(如分子大小、电荷等)来分离和比较蛋白质20世纪60年代,蛋白质测序成为可能,而在此之前,测序中等长度蛋白质的全部氨基酸序列都是很不容易的。所有这些方法促进了可研究其系统方式的生物体种类的重大改变4.1分子系统发生学的历史20世纪70年代,研究者开始能够获得真正的基因组信息。研究者一度热衷于重建系统发生关系,结果还为面临着成指数增长的数据的分子生物学家们发展出很多严格的数学方法。这是第一次研究者有可能对系统发生分类赋予统计置信度,并且相对容易地形成关于进化过程的可验性假设

如今,DNA序列数据比任何其他形式的分子信息都要丰富得多。传统的基于解剖差异的分类方法仍旧给进化提供补充数据。古生物学也提供了关于生物体积累差异和进化真实时间不可替代的线索。此外,像PCR(聚合酶链式反应)这样的分子技术产生同源序列提供了第一手的资料,使得回答关于地球上生命的历史和关系这样至关重要的问题变得更容易了。4.2分子系统发生分析的优点

遗传关系在解码进化关系上十分重要。分子时钟假设的最大作用是暗示了分子数据能用来解码所有生命体之间的系统发生关系。简单说,就是生物体之间分子相似度越高,他们之间的关系就越近。表型分析——在能够利用分子生物学工具提供的分子数据进行这种分析之前,分类学家只能依靠表型的比较来推断生物体的基因型。最初的表型检查仅包括大量粗略的解剖特征,后来还研究了行为的、超微结构以及生物化学特性表型分析的局限性趋同进化——有时候关系很远的生物体也能进化出相似的表型例如,如果一个生物学家按照生物体是否有眼睛来构建进化树,那么他可能将人类、两翼昆虫和软体动物放在同一个进化组中许多生物没有可用来进行比较的易于研究的表型特征例如,研究细菌之间的关系总是困难重重。即使用显微镜检查,细菌几乎没有明显特征当比较关系较远的生物的时候,第三个问题出现了,即什么样的表型特征能用来比较呢?基于DNA和蛋白质序列的分析一般不会存在这样的问题,因为很多同源分子对所有生物都是很基本的概念

系统发生树:三个或者更多基因或生物体之间

进化关系的典型图示;

大部分系统发生研究都是围绕系统发生树的概念进行的,它表示了数据之间的关系分歧时间共同祖先的特征

4.3系统发生树4.3.1重建系统发生树的术语系统发生树有时也称为系统树图,它是由一系列的节点和分支组成的,其中每个节点代表一个分类单元。分支末端的节点(外部节点)对应一个基因或生物体;内部节点代表一个推断的共同祖先,它在过去的某个时候分歧出两个独立的分支。ABCDⅠⅡⅢⅣⅤ外部节点内部节点根节点4.3.1重建系统发生树的术语Newick格式——系统发生树结构的基本信息在计算机程序中常用一组嵌套的圆括号表示,称为Newick格式,用该格式来表示上图中的树,可写成(((Ⅰ,Ⅱ)

,(Ⅲ,Ⅳ)),Ⅴ)ABCDⅠⅡⅢⅣⅤ二叉树与多叉树虽然内部节点可以是多叉,即有三个或者更多的派生分支,但大多数树的内部节点都只有两个分支,称为二叉节点多叉节点可以用以下的两个方法之一来解释:一个祖先种群同时产生了三个或者更多的独立分支过去某时发生了两个或者多个二叉分歧,但是由于可获得数据的限制无法确定它们发生的先后次序本章系统发生树主要指二叉树一棵系统发生树的分支模式能表达关于进化事件发生顺序的信息;一棵系统发生树的分支长度有时用来表示不同数据集分歧的程度。标度树:是指分支长度与相邻节点对的差异程度成正比的树。在最好的情况下,标度树是可加的,即连接两个节点的分支的长度准确地表示了它们之间的差异非标度树:只是将所有外部节点排成行,表示他们之间的亲缘关系,而没有表示它们之间差异程度的任何信息4.3.2有根树和无根树ⅠⅡⅢⅣⅤ根时间ⅠⅡⅢⅣⅤ⑴有根树⑵无根树有根树,单一的节点指派为共同的祖先,从祖先节点只有唯一的路径进化到达其他任何节点。无根树只表明了节点之间的关系,而没有关于进化发生方向的信息;但是通过引入外群或外部参考物种,可以在无根树中指派根节点4.3.2有根树和无根树只考虑3个物种的时候,有3棵有根(二叉)树,一棵无根树,如下图所示:ⅠⅡⅠⅡⅢⅠⅢⅡⅡⅢⅠⅢ有根树无根树4.3.2有根树和无根树描述少量物种之间可能的进化关系的有根树和无根树的数目物种数目有根树数目无根树数目211331415351051510344594252207025152134580467678757905853580625208200794532637891559375221643095476699771875n个物种可能的有根系统发生树(NR)和无根系统发生树(NU)数目可用下面的公式计算得到:

NR=(2n-3)!∕2n-2(n-2)!

NU=(2n-5)!∕2n-3(n-3)!只有一棵树代表了(基因或物种)的实际系统发生关系!4.3.3基因树和物种树区别:基因树为基于单个同源基因差异构建的系统发生树;物种树一般从多个基因数据中分析得出。只考虑一个基因的时候,个体有可能表现出与其他物种的成员关系更近的情况。(下图)基因分化的发生通常先于产生新物种的种群分离基因分化事件常常在物种形成前或后都有发生。abcdefG1G2G3SG4G54.3.4特征和距离数据用于构建系统发生树的分子数据分成两类:(1)

距离(distances)数据,常用距离矩阵描述,表示两个数据集之间所有两两差异;(2)

特征(characters)数据,存在有限不同状态的特征。

DNA和蛋白质序列数据描述离散的特征;其他特征数据集的例子包括基于解剖学或行为学的分类法中较常见的特征,如生物体颜色、生物体对某种刺激的反应时间等。一旦建立了确定所有可能状态之间相似性的标准,特征数据就很容易转化成距离数据;例如,来自两个物种的两个基因之间的距离值(D)可以简单地用序列的最优比对来确定,计算匹配的核苷酸数目(m),将它除以总的位点数目(t):D=m/t许多生物学家用“每100个核苷酸改变数”来归一化距离值。通过蛋白质序列比对时,也可以用同样的方法来计算蛋白质距离。但是,做这样的转换时,大量重要的潜在生物信息可能会丢失。比如,我们知道,一些替换更容易发生在某些特定的核酸和蛋白质序列上,因此比对时,应赋予不同的权重值。以算术为基础的系统发生树重建方法,常常忽略数据集的生物学上的意义(本章)。表型分类学家喜欢使用这种方法,因为他们把重点放在数据集之间的关系上,而不管他们到达当前状态的途径如何遗传分类学家一般更加关心进化的途径和模式,倾向于使用更多以生物学为基础的建树方法(第五章)这两类方法都被广泛使用,并且对大部分数据集都适用4.4距离矩阵法

两两距离矩阵是全体有待分析的数据集之间差异的表格化总结,包含用于很多常见系统发生树重建算法的原始数据。要深入理解这些算法背后的逻辑,读者首先应该理解系统发生树到底传递了什么样的信息,从而选择不同的算法4.4.1非加权组平均法(UPGMA)

非加权组平均法

(UPGMA)是最早的距离矩阵法,20世纪60年代早期提出,用来协助进行表型特征的进化分析的是基于统计的,像所有基于距离的方法一样,要求数据能够精简为所有被研究的物种两两之间遗传距离的度量。

一般来说,UPGMA方法需要建立一个距离矩阵。

UPGMA距离矩阵系统发生树ACBDE例:4个物种A、B、C、D建立的矩阵,假设其两两距离如下所示:数目ABCBdABCdACdBCDdADdBDdCDdAB表示物种A和B之间的距离,dAC表示物种A和C之间的距离,依次类推。UPGMA算法先将两个距离最近的物种合成一个复合物种组,如上表所示,假设距离矩阵中的最小值是dAB,所以物种AB首先组合成一组(AB),聚类以后,需要更新距离矩阵,计算新组(

AB)和物种C和D之间的距离:d(AB)C

=1/2(

dAC+dBC),d(AB)D

=1/2(

dAD+dBD)然后再将新的矩阵中距离最近的物种再次合成一个复合物种组,如此反复,直到把所有物种都聚为一类。

例:两两矩阵之间的不匹配的核苷酸数目物种ABCDB9C811D121510E15181351020304050A:GTGCTGCACGGCTCAGTATAGCATTTACCCTTCCATCTTCAGATCCTGAAB:ACGCTGCACGGCTCAGTGCGGTGCTTACCCTCCCATCTTCAGATCCTGAAC:GTGCTCGCAGGCTCGGCGCAGCATTTACCCTCCCATCTTCAGATCCTATCD:GTATCACACGACTCAGCGCAGCATTTGCCCTCCCGTCTCCAGATCCTAAAE:CTATCACATAGCTCAGCGCAGCATTTGCCCTCCCGTCTTCAGATCTAAAA最小将物种D和E聚成一类,然后再计算新的距离矩阵

将物种D和E聚成一类,然后再计算新的距离矩阵物种ABCB9C811DE物种ABCDB9C811D121510E1518135=1/2(dAD+dAE)13.516.511.5=1/2(dBD+dBE)=1/2(dCD+dCE)

将物种A和C聚成一类,然后再计算新的距离矩阵物种BACACDE16.5物种ABCB9C811DE13.516.511.510=1/2(dAB+dBC)12.5=1/2(dA(DE)+dC(DE))用UPGMA法重建系统发生树DE(D,E)ACDE(A,C),(D,E)ACBDE(((A,C),B),(D,E))物种BACAC10DE16.512.54.4.2分支长度的估计系统发生树的拓扑结构除了描述序列之间的关系,还可以表达有关序列的分歧程度的信息。标度树能够表达这样的信息,通常称为进化分支图,它的分支长度对应于推断出的序列独立积累替换的时间。确定进化分支图中每一条分支的相对长度,只要利用距离矩阵中的信息进行简单的计算。如果假设所有家系的进化速率不变,那么内部节点将置于与分叉树上相对应的两个物种距离相等的地方。

例:两两矩阵之间的不匹配的核苷酸数目物种ABCDB9C811D121510E15181351020304050A:GTGCTGCACGGCTCAGTATAGCATTTACCCTTCCATCTTCAGATCCTGAAB:ACGCTGCACGGCTCAGTGCGGTGCTTACCCTCCCATCTTCAGATCCTGAAC:GTGCTCGCAGGCTCGGCGCAGCATTTACCCTCCCATCTTCAGATCCTATCD:GTATCACACGACTCAGCGCAGCATTTGCCCTCCCGTCTCCAGATCCTAAAE:CTATCACATAGCTCAGCGCAGCATTTGCCCTCCCGTCTTCAGATCTAAAA4.4.2分支长度的估计例:A(A,C)(D,E)CDE442.52.56.256.25这个简单的估计分支长度的方法使得UPGMA成为能构造有根系统发生树的少数几种方法之一。dDE=5dAC=8

如果假设所有家系的进化速率不变,那么内部节点将置于与分叉树上相对应的两个物种距离相等的地方。描述4个物种的标度树4.4.2分支长度的估计当不同的家系有不同的进化速率时,确定标度树的分支长度变得略微复杂些BACχуzdAC=χ

dAB=χ

+zdBC=у

+z对上面的等式进行简单的代数变换,分支长度就可以用两两距离矩阵中的数值表示:χ=(dAB

+dAC

–dBC)/2у

=(dAC

+dBC

–dAB)/2z

=(dAB

+dBC

–dAC

)/2最简单的树(3个物种,1个分支点)4.4.2分支长度的估计对于更复杂的树(多于一个分支点的树)的分支长度的估计,可以一次考虑3个分支。例:在一组5个物种(1,2,3,4和5)的距离矩阵中,用UPGMA首先将物种1和物种2聚到一组,前面等式中的dAC和dBC就是这两个物种和其他所有物种之间距离的平均值:dAC=(d13+d14+d15

)/3

dBC=(d23+d24+d25

)/3BAC’χуz123451、先考虑圆圈里的分支2、由于这里不再是三个物种,

C’所表示的含义不同于三

个物种的系统树,它代表除1、2之外的所有物种。3、计算dAC’、dBC’dAC’=(d13+d14+d15)/3dBC’=(d23+d24+d25)/34、用新计算出的dAC’

、dBC’替换三个物种系统树公式中的dAC和dBC,得到公式χ=(dAB

+dAC’

–dBC’)/2у

=(dAC’

+dBC’

–dAB)/2z

=(dAB

+dBC’

–dAC’

)/25、解出x、z之后再考虑下一个分支,最终解出全部的距离4.4.3距离变换法距离矩阵法的一个优点是对于表型数据和分子数据,甚至是两者的结合,都很适用。它考虑了具体分析中所有可能获得的数据,而在第5章中介绍另一种算法——简约法则忽略所谓的非信息位点。UPGMA算法的一个缺陷是假定所有家系的进化速率是相同的,但是相对速率测试表明情况并不总是这样。替换速率的变化对UPGMA方法来说是很重要的问题,极易导致它产生错误的拓扑结构的树。4.4.3距离变换法除UPGMA法外,其他的一些基于距离矩阵的方法考虑了不同的家系有不同的进化速率,其中最简单的最早的算法是距离变换法。这种方法充分利用了外群或外部参考物种——先于其他所有被考虑的物种[内群或内部物种]

从它们的共同祖先中分化出来的那些物种。UPGMA距离矩阵系统发生树外部种群距离变换4.4.3距离变换法假定D为外部参考物种,变换式如下:d’ij=(dij-diD-djD)/2+dDd’ij是物种i和j之间变换后的距离,dD是外部参考物种与全体内部物种之间的平均距离。dD=ΣdiD/(n-1)物种ABCB9C811D121510--四个物种两两进化距离(假设树可加)-ABCD362316四个物种之间真实系统发生关系以及分支长度物种ABCB9C811D121510dD=(dAD+dBD+dCD)/3

=(12+15+10)/3=37/3-物种ABBCd’AB=(dAB-dAD-dBD)/2+dD=(9-12-15)/2+37/3=10/3-10/3d’BC=(dBC-dBD-dCD)/2+dD=(11-15-10)/2+37/3=16/3d’AC=(dAC-dAD-dCD)/2+dD=(8-12-10)/2+37/3=16/3--16/316/34.4.3距离变换法d’ij=(dij-diD-djD)/2+dDd’ij是物种i和j之间变换后的距离,dD是外部参考物种与全体内部物种之间的平均距离。dD=ΣdiD/(n-1)物种ABCB9C811D121510--物种ABB10/3C16/316/3四个物种两两进化距离(假设树可加)3个物种为内部物种,D为外部物种时的距离矩阵-引入dD只是为了确保所有变换后的距离为正值,因为从进化的角度看,负值是不可能的距离变化法的优势体现在那些很简单却容易被忽略的方面内部物种只是在分化发生后进化分离出来的,所以它们积累的替换数目一定是从那以后才有了差异外部参考物种为比较它们替换速率提供了客观参考的框架上述例子中,距离变换法在确定树的正确拓扑结构上优于单独使用UPGMA法。当然,当不能独立确定哪些物种是外部参考物种时,UPGMA法还是可行的。任意一个内部物种也能提供时候变换距离的参考框架,而使用外部参考物种的最大优点是使得系统发生树能有一个根-4.4.4近邻关系法近邻关系法是由UPGMA法演变出的另一种常用的方法,强调配对物种,由此构造一棵分支长度总和最小的树(针对4个物种,无根树)。近邻:任意一棵无根树中,仅被一个内部节点分隔的一对物种称为近邻。DABCabcde四个物种(A,B,C,D)之间进化关系的通用系统发生树上图中的系统发生树的拓扑结构给出了一些近邻间有用的代数关系,由于树是正确的且可加和,则下面的等式成立:

dAC+dBD=

dAD+dBC=

a+b+c+d+2e=dAB+

dCD+

2e下面的不等式也是成立的(四点条件):

a+b+c+d=dAB+

dCD<

dAC+dBD=a+b+c+d+2ea+b+c+d=dAB+

dCD<

dAD+dBC=a+b+c+d+2e考虑4个物种间所有可能物种对的排列(3对),然后确定哪一个满足四点不等式。四点不等式的一个重要假设是,系统发生树的分支长度是可加的。由于它对不符合假设的情况不敏感,所以不可加的数据集会导致这种算法产生错误拓扑结构的树dAB+dCD<dAC+dBDdAB+dCD<dAD+dBC物种ABCB1C43D321ABCD1133241977年,S.Sattath和A.Tversky提出了一种用近邻关系法构建多于4个物种的树的方法。他们建立了一个距离矩阵,用矩阵中的值计算出针对前4个物种的3个数值:⑴dAB+dCD⑵dAC+dBD

⑶dAD+dBC。取和最小的两个配对打分为1,而其他的4个配对打分为0。对数据集中所有可能的4个物种的组合(Cn4

)都重复以上的步骤,不断累计得分。最后得分最高的一对物种聚为一组,即这两个物种是近邻,就像UPMGA法一样,得到一个新的距离矩阵,用新的距离矩阵开始新一轮的打分过程,直到只剩下3个物种(此时,树的拓扑结构已经明确确定了)。

例:假定有5个物种,A,B,C,D,E构成的距离矩阵要做C54

=5次比较,每次取4个物种ABCD、ABCE、ABDE、ACDE、BCDE每次比较对C42

=6个物种对赋值(0或1)总计C52

=10个物种对A-BA-CA-DA-EB-CB-DB-EC-DC-ED-E第一次XXXXXX第二次XXXXXX第三次XXXXXX第四次XXXXXX第五次XXXXXX总计4.4.5邻近归并法邻近归并法是对上面的方法做了一些改动。这类算法首先是由一棵星状树开始,不管数目多少,所有的物种都从一个中心节点出发,然后通过最小化树的分支长度和,相继找到近邻。计算分支长度和公式:

1987年N.Saitou和M.Nei提出

树的1和2的位置可以使其中任何一对物种, N是距离矩阵中物种的数目

k是引入外部参考物种, dij是物种i和j之间的距离;

1988年,J.Studier和K.Keppler提出一种快速算法:

Q12=(N-2)d12-

∑d1i-∑d2i

在每一轮过程中考虑所有可能的物种对(Cn2),把能使树的整个分支长度最小(S或Q最小)的物种对聚为一组,从而产生新的距离矩阵S和Q标准在理论上是相关的。上面所述的邻近归并法和近邻关系法在理论上也是等价的,因为它们都基于四点不等式和可加和的假设。所以,邻近归并法和近邻关系法产生的树的拓扑结构,即使不完全一致,也是十分相似的。4.5最大似然法最大似然法是另外一类完全基于统计的系统发生树重建方法的代表。该法在每组序列比对中考虑了每个核苷酸替换的概率。例如,在第3章中我们已经知道,转换出现的概率大约是颠换的3倍。在一个三序列的比对中,发现其中有一列为一个C、一个T和一个G,有理由认为,C和T

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论