9-分子进化与系统发育_第1页
9-分子进化与系统发育_第2页
9-分子进化与系统发育_第3页
9-分子进化与系统发育_第4页
9-分子进化与系统发育_第5页
已阅读5页,还剩104页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第9章分子进化与系统发育讲授:舒坤贤2013.11WhereDoWeComeFrom?WhatAreWe?WhereAreWeGoing?(MuseumofFineArts,Boston)“一个半世纪以前,CharlesDarwin可能没有意识到他所给予科学的是一件从未有过的强大武器,即他的进化理论。科学家用这把坚利之剑斩断了无知、迷信和傲慢,这些束缚人类对亿万年来的生命的了解的镣铐。”——《美国自然博物馆成立125周年纪念专刊》前言CharlesDarwin(1809-1882)Whoarecloser?OutofAfrica53个人的线粒体基因组(16,587bp)人类迁移的路线TreeofLife:重建所有生物的进化历史并以系统树的形式加以描述。Wehaveadream…第一节分子进化与系统发育Darwin,Charles(1809-1882)

《TheOriginofSpecies》(1859)化石证据(最理想的方法:化石!——

然而…零散、不完整)

(Fossil)比较形态学证据

(Comparativemorphology)比较生理学证据

(Comparativephysiology)系统学(Systematics)分类学(Taxonomy)经典的进化研究方法比较形态学和比较生理学:确定大致的进化框架。——

然而,细节存在巨多的争议一、分子水平的进化分子水平的进化主要是指在生物进化过程中,构成生物体的大分子物质,如蛋白质、核酸的演变过程。分子系统发育学MolecularPhylogenetics分子系统学MolecularSystematicsWhatcanwedoformolecularevolution?序列比较:源于同一祖先DNA/氨基酸序列的两条DNA/氨基酸序列,考察二者的差异。序列差异:进化过程中分子突变的痕迹。分子进化:以累计在DNA/氨基酸分子上的历史信息为基础,研究分子水平的生物进化过程和机制。分子系统学为生物分类问题提供了许多崭新的见解。基因突变1、核苷酸替代、插入/缺失、重组2、基因转换固定在生物个体以及物种内遗传漂变自然选择传递给后代产生新的形态、性状分子系统学是研究进化机制的一个重要工具。生物进化的分子机制性状改变DNA分子的改变核苷酸替代substitution核苷酸缺失deletion核苷酸插入insertion核苷酸倒位invertionDNA序列的突变

Thr

Tyr

LeuLeuACCTATTTGCTGACCTCTTTGCTGThrSerLeuLeu替代

ThrTyrLeuLeuACCTATTTGCTGACCTACTTTGCTGThrTyrPheAla插入

ThrTyr

LeuLeuACCTATTTGCTGACCTATTGCTG-ThrTyr

Cys-缺失

Thr

TyrLeu

LeuACCTATTTGCTGACCTTT

ATGCTG

Thr

PheMet

Leu倒位核苷酸替代的几种分类转换

(transition)嘌呤嘌呤嘧啶嘧啶颠换

(transvertion)嘌呤嘧啶嘧啶嘌呤ATCG胞嘧啶腺嘌呤胸腺嘧啶鸟嘌呤

在大多数DNA片段中,转换出现的概率高于颠换出现的概率。DNA序列突变对氨基酸序列的影响

同义(沉默)替代(synonymous/silentsubstitution)仍然为同义密码子的核苷酸替代如:TATTAC

TyrTyr

非同义替代(nonsynonymoussubstitution)导致产生非同义密码子的核苷酸替代如:TATAAT

TyrAsn

无义突变(nonsensemutation)导致产生终止密码子的核苷酸突变如:TATTAA

TyrSTP问题:假设所有密码子以同一概率出现,上述三种突变的比例25%,71%,4%1、分子进化的特点1)生物大分子进化速率相对恒定Sandwalk:TheModernMolecularClock-1244×1000-按图片搜索网页制作者:LaurenceA.Moran-...interestedinmolecularclocks(BrohamandPenny,2003;Kumar,2005).也可尝试查看以下图片:

图片可能受版权保护。-发送反馈分子进化速率

生物大分子随时间的改变主要表现为核苷酸、蛋白质的一级结构的改变,即分子序列中核苷酸、氨基酸的替换不同物种同源大分子的分子进化速率大体相同

例子:比较不同物种血红蛋白氨基酸序列差异人、马——0.8

10-9/AA.a

人、鲤鱼——0.6

10-9/AA.a分子进化速率远远比表型进化速率稳定原因?

序列的核苷酸或氨基酸替换是否随机过程?…1965,ZuckerkandlandPauling,MolecularClock,分子钟根据分子系统学研究与古生物学资料相结合,建立推论生物进化事件发生的时间表。

假定分子进化速率r恒定,则分子进化改变量(替代数目或替代率)与进化时间成正比。以两条序列为例:d=2rt其中,t是进化时间,d是这两条序列每个位点的替代数目。分子钟成立的先决条件:分子进化速率恒定。分子钟成立的证据:A至少某些生物大分子(如珠蛋白)的进化速率在相当长的地质时间内的相对稳定、均匀;B许多不同物种的多种同源大分子在相当长时间内的平均进化速率近似恒定。建立分子钟的大致步骤a、选择所要比较的生物大分子种类根据具体研究目标和已掌握的资料,选择进化速率相对恒定、速率大小合适、分布范围能涵盖各待比较物种的生物大分子。b、选择所要比较的物种,确定各比较组合及其所代表的进化事件c、获得生物大分子一级结构的资料d、获得有关的代表性进化事件发生的地质时间数据e、通过比较大分子一级结构,选择合适的数学模型,计算得到进化产生的分子差异d,通过回归分析等统计方法得到大分子的进化速率r(t)f、由此可以推断未知进化事件的发生时间关于分子钟的讨论和争议a、对长期进化而言,不存在以恒定速率替换的生物大分子一级结构;(基因功能的改变、基因数目的增加)b、不存在通用的分子钟;c、争议:分子钟的准确性中性理论(分子钟成立的基础)2)生物大分子进化的保守性保守性

功能上重要的大分子或大分子的局部在进化速率上明显低于那些在功能上不重要的大分子或者大分子局部。(引起表型发生显著改变的突变发生的频率要低于无明显表型发生显著改变得突变发生的频率。)氨基酸

例:血红蛋白分子的外区的功能要次于内区的功能,外区的进化速率是内区进化速率的10倍。核苷酸

例:DNA密码子的同义替代频率高于非同义替代频率;内含子上的核苷酸替代频率较高。生物大分子进化并非完全随机

存在某种制约因素,存在某种机制……?从物种的一些分子特性出发,构建系统发育树,进而了解物种之间的生物系统发生的关系——treeoflife;物种分类。TreeofLife:16SrRNA进化理论围绕的三个主题A进化的动力是什么?B进化是否有一定的方向?C进化的速度是否恒定?是渐近的还是跳跃的?分子进化理论同样必须回答上述三个问题。2、分子进化的中性学说Darwinian进化理论告诉了什么?(1)、遗传和变异

一切生物都能发生变异,至少有一部分变异能够遗传给后代(2)、自然选择

繁殖过剩:任何生物产生的生殖细胞或后代数目要远远多于可能存活的个体数目;而在所产生的后代中,那些最具有适应环境条件的有利变异的个体有较大的生存机会,并繁殖后代,从而使有利变异可以世代积累,不利变异被淘汰。“选择”不是超自然的上帝的作用。(3)、性状分歧;种的形成、绝灭;系统树

性状分歧原理——在同一个种内,个体之间在结构、习性上越是歧异,则在适应不同环境方面愈是有利,因而将会繁育更多的个体,分布到更广的范围。由此一个种会逐渐演变为若干变种、亚种乃至新种。新种的形成、种间的竞争、种的绝灭、外界环境的作用系统树——由于性状分歧和中间类型的绝灭,新种不断产生、旧种不断绝灭,种间差异不断扩大,形成时间、空间上的物种系统树。Darwinian进化理论的三次修正第一次:“新Darwinian主义”

1900s,Weismann等,消除Lamarck的“获得性遗传”学说、Buffon的“环境直接作用”学说,强调“自然选择”为进化的主要因素;第二次:“现代综合论(Modernsynthesis)”1930-40s,遗传学、生物系统学、古生物学的重大贡献:对“自然选择”、“物种变异”等概念的新认识。适应:繁殖的相对优势适应度:个体或基因型对后代或后代基因库的相对贡献适应和选择:繁殖或基因传递的相对差异

……

消除社会达尔文主义的科学基础第三次:NOW…

原因:现代分子生物学、古生物学的发展。宏观(对生物进化实际过程的了解):古生物学揭示生命进化的规律、进化速度、进化趋势、物种的形成和绝灭微观:现代分子生物学揭示生物大分子的进化规律和携带遗传信息的物质基础及其复杂结构新的认识:(1)、生物进化过程并非“匀速”、“渐变”的,而是“快速进化”与“进化停滞”相间;(2)、生物进化与分子进化都显示出相当大的随机性,自然选择并非总是进化的主要因素;(3)、遗传系统本身具有某种进化功能,进化过程中可能存在内因的“驱动”和“导向”。

Continuing…Neutraltheoryofmolecularevolution(Kimura&Ohta,1968,1971)(King&Jukes,1969)提出分子层次上的“non-Darwinianevolution”“在生物分子层次上的进化改变不是由自然选择作用于有利突变而引起的,而是在连续的突变压之下由选择中性或非常接近中性的突变的随机固定造成的。中性突变是指对当前适应度无影响的突变。”中性突变、连续突变压、随机固定否认自然选择在分子进化中的作用,认为生物大分子的进化主要因素是机会和突变压力。分子进化中性论的若干依据分子层次上的大多数变异是选择中性的

蛋白质和核苷酸分子的进化速率高且相对恒定

突变压在分子进化中的作用得到研究证实按照群体遗传学的数学模型,自然选择的代价太高

分子进化中性论的讨论1)、中性论是解释分子层次的进化现象

自然选择只作用于表型,并不直接作用于分子。衡量尺度的区别:分子的显著性改变并不意味着表型的显著性改变。中性论只涉及生物大分子一级结构单元的替换,并不包含和解释分子层次的全部改变(如蛋白质三级结构、功能的改变)2)、分子进化的保守性表明选择仍然起作用

可能之一——负选择的存在:任何发生在重要功能的大分子或大分子保守区的突变,由于造成适应度的下降而被选择淘汰。(随机作用)可能之二——存在某种机制阻止功能重要的大分子或大分子保守区的突变产生。(非随机作用)3)、选择中性突变的复杂调控系统

中性突变的可能原因:复杂的调控机制。基因表达受到内外因素的制约。决定中性突变的调控系统受到自然选择的影响。

4)、选择在分子的适应进化中起作用

在分子层次上可能存在两种进化形式:中性进化(导致分子多样性)适应进化(通过选择实现,导致分子适应)能否打倒的Darwinian进化论?3、基因组计划与分子进化基因组计划为许多生物进化关键问题的研究提供了基础1)、基因组计划产生的大量数据为分子进化研究提供了新的素材人类基因组计划、模式生物基因组计划2)、可以从生物大分子层次研究进化的机制进化机制:基因重复、拷贝?(低等生物->高等生物)多基因家族的一致进化?提供有关重复基因、DNA缺失插入、基因易位、转座子插入等信息,为分子系统学研究提供更多的研究对象。4、研究分子进化的意义生命起源诸多生命现象的解释分子系统发育树构建二、系统发育分析的基本概念基于16S/18S核糖体RNA序列比对得到的古细菌系统发育树(Ettema等,2005)1、分子系统发育树的基本概念一般来说,系统发生树是一种二叉树。所谓树,实际上是一个无向非循环图。系统发生树由一系列节点(nodes)和分支(branches)组成,其中每个节点代表一个分类单元(物种或序列),而节点之间的连线代表物种之间的进化关系。树的节点又分为外部节点(terminalnode)和内部节点(internalnode)。在一般情况下,外部节点代表实际观察到的分类单元,而内部节点又称为分支点,它代表了进化事件发生的位置,或代表分类单元进化历程中的祖先。分类单元是一种由研究者选定的基本单位,在同一项研究中,分类单元一般应当一致。abcdabcd拓扑结构:有根树:反映时间顺序无根树:反映距离

理论上,一个DNA序列在物种形成或基因复制时,分裂成两个子序列,因此系统发育树一般是二歧的。一般考虑二歧的树结构:二歧树分支:内部分支外部分支节点:内部节点外部节点2、有根树和无根树系统发育树:术语祖先节点/树根内部节点/分歧点,该分支可能的祖先结点分支/世系末端节点

ABCDE代表最终分类,可以是物种,群体,或者蛋白质、DNA、RNA分子等

物种树:

代表一个物种或群体进化历史的系统发育树两个物种分歧的时间:两个物种发生生殖隔离的时间

基因树:

由来自各个物种的一个基因构建的系统发育树(不完全等同于物种树),表示基因分离的时间。abcdef基因分裂基因分裂基因分裂物种分裂3、基因树与物种树期望树:

一个用无限长的序列或每一分支的期望替代数构建的树理论上:假设所研究的序列无限长,从中随机抽样进行统计分析。实际情况:所研究的序列是短序列,统计得到的替代数目存在大量随机误差。现实树:

建立在实际替代数基础上的树重建树构树方法系统发育树的种类:期望树、现实树和重建树

系统发生树性质:

(1)如果是一棵有根树,则树根代表在进化历史上是最早的、并且与其它所有分类单元都有联系的分类单元;(2)如果找不到可以作为树根的单元,则系统发生树是无根树;(3)从根节点出发到任何一个节点的路径指明进化时间或者进化距离。对于给定的分类单元数,有很多棵可能的系统发生树,但是只有一棵树是正确的。

系统发生分析的目标

——寻找这棵正确的树第二节

分子系统发生树的构建方法建立系统发生树的基本任务:在给定的条件下(包括分类单元、分类单元的特征值或者序列),构造一棵最优的系统发生树。这里重点讨论针对DNA序列或者蛋白质序列构建系统发生树。1、特征数据(characterdata):表示分子所具有的特征,提供了基因、个体、群体或物种的信息特征数据可分为:

二态特征——例如:DNA序列上的某个位置如果是剪切位点多态特征——例如:某一位置可能的碱基有A、T、G或C2、距离数据(distancedata)或相似性数据(similaritydata):常用距离矩阵描述,表示两个数据集之间所有两两差异,涉及的则是成对基因、个体、群体或物种的信息。

构建系统发生树的分子数据

计算序列之间距离令S(i,j)是序列i和序列j比对位置得分的加权和

归一化的距离:其中Sr(i,j)是序列i和j随机化之后的比对得分的加权和,Smax(i,j)是可能的最大值令Sr(i,j)=0

为了适合于处理相似性较小的序列,可以进一步修改距离计算公式

分子系统发生分析过程

多序列比对(自动比对,手工校正)选择建树方法以及替代模型建立进化树进化树评估系统发生树的构建方法分为两大类:基于距离的构建方法

最小二乘法

连锁聚类方法及非加权组平均法 距离变换法

邻近归并法 基于离散特征的构建方法最大简约法最大似然法根据建树算法在执行过程中采用的搜索方式,系统发生树的构建方法也可以分为以下3类。(1)穷尽搜索方法

即产生所有可能的树,然后根据评价标准选择一棵最优的树。

(2)分支约束方法

即根据一定的约束条件将搜索空间限制在一定范围内,产生可能的树,然后择优。(3)启发式或经验性方法

根据先验知识或一定的指导性规则压缩搜索空间,提高计算速度。

需要注意的是,系统发生树可能的个数随序列的个数急剧增加。假设要为n个分类单元建立系统发生树,则可能的有根树个数(NR)和无根系统发生树个数(NU)可用下面的算式计算得到:分支数目:有根树无根树内部分支数目:有根树无根树内部节点数目:有根树无根树abcdabcdabcdadbcbacdcabddabcacbdbcadcbaddbacadbcbaaccdabdcab考虑4个分类群时,共有15种可能的有根树abcdacbdadbc考虑4个分类群时,共有3种可能的无根树表6.1对不同的n,可能的有根树和无根树数目数据数目

有根树数目

无根树数目

21133141535105151034,459,4252,207,02515213,458,046,767,8757,905,853,580,625208,200,794,532,637,891,559,375221,643,095,476,699,771,875从计算量来看,穷尽搜索方法只能处理很少的分类单元。当分类单元个数n大于一定值(如15),几乎不可能采用穷尽搜索的方式来求取最优树。因此,目前算法都为优化算法,不能保证最优解。

构建进化树的一般原则http://www.genome.jp/tools/clustalw/一、基于距离的系统发生树构建方法基本思路:给定一种序列之间距离的测度,在该距离测度下构建一棵系统发生树,使得该树能够最好地反映已知序列之间的距离。10条核酸序列的距离矩阵

采用两两距离,建立一个距离矩阵,如下表所示,根据距离矩阵构造系统发生树。如何建立分类群之间的进化距离的数学模型如何根据不同的概率统计模型,由两条序列的差异值构建它们的进化距离?进一步阅读:《分子进化与系统发育》(MolecularEvolutionandPhylogentics)MasatoshiNei&SudhirKumar,OxfordUniversityPress,Inc.2000中文译本:吕宝忠、钟扬、高莉萍等译,高等教育出版社,2002第二~四章(pp15-63)《氨基酸序列的进化演变》《DNA序列的进化演变》《同义与非同义的核苷酸替代》1、最小二乘法目标是构造一棵树T,该树的叶节点代表物种,用该树预测物种之间的距离。通过优化,使下式最小化:

这里,Dij为物种i和j的实际观察距离(或序列之间的计算距离),dij是物种i和j在系统发生树T中的距离,Wij是与物种i和j相关的权值。SSQ(T)是树T所有预测值与实际观察值偏差的累加和。权值Wij一般为1,或

Wij=1/Dij2

例,如果有三个分类单元,其两两距离如下:dab=0.5;dac=0.9;dbc=0.9假设分类单元a和分类单元b的分歧起始时间是相同的,根据分子时钟假说,dau

和dbu

的值应该是相等的,进一步假设节点u到其它节点的距离相同,则通过求解方程,得到如图6.2所示的一棵树。

但是,在实际应用中,所要处理的分类单元可能很多,因而,需要求解的线性方程也很多,难以求解,或者方程组的求解过程存在着不确定性。因此,需要采用数学逼近的方法。连锁聚类属于一般的聚类分析方法,当用来构建系统发生树时,其假定的前提条件是:在进化过程中,核苷酸或氨基酸的替换速率是均等且恒定的,在每一次分歧发生后,从共同祖节点到两个分类单元间的分支长度一样。在构建系统发生树时,首先用n个叶节点表示n个分类单元(序列),每个分类单元自成一类,然后通过反复的聚类使所有的分类单元都聚为一类,并将进化过程中的祖先赋予树的内部节点,最终得到一个完整的系统发生树。假设若干条序列是从一个共同的祖先进化而来,则系统发生树将是一个有根树,并且从根节点出发到所有叶节点路径的长度相同。2、连锁聚类方法及非加权分组平均法

选择距离最小的一对序列将这两个序列合二为一,形成一个新的对象(代表这两个序列的祖先)重新计算这个新的对象与其它序列的距离。单连锁聚类:d(x,u)=min(d(y,u),d(z,u)) 最大连锁聚类:d(x,u)=max(d(y,u),d(z,u))平均连锁聚类:d(x,u)=1/2(d(y,u)+d(z,u))

其中x代表y和z的合并,u代表任意其它对象。基本思路非加权分组平均法

(UnweightedPairGroupMethodwithArithmeticmean,UPGMA)

在平均连锁聚类过程中,一个新类到其它类之间的距离就是简单的原距离平均值。

如果类中分类单元个数不一样,原距离矩阵中各个距离值对新距离计算的贡献就不一样,或者说是经过“加权”的,称这样的聚类为加权分组平均。在非加权分组平均法中,在计算新分类到其它分类之间的平均距离时按照各分类中分类单元的数目进行加权处理。

UPGMA算法的执行过程如下:(1)初始化:使每个物种自成一类,如果有n个物种,则开始时共有n个类,每个类的大小为1,分别用n个叶节点代表每个类;

(2)执行下列循环:l

寻找具有最小距离Dij的两个类i、j;建立一个新的聚类(ij)l

连接i和j形成新节点(ij),生长两个新的分支,将i和j连接到(ij),分支的长度为Dij/2;l

计算新分类到其它类的距离

其中ni、nj、(ni+nj)分别为i类、j类、(ij)类的元素个数;l

在距离矩阵中删除与类i和类j相应的行和列,为类(ij)加入新的行和列;

重复循环,直到仅剩一个类为止。

讨论1)、在基因替代速率恒定假设成立时,UPGMA方法比较适用;2)、UPGMA方法适用于具有较小变异系数的距离测度;3)、UPGMA是一种既构建拓扑结构又计算分支长度的方法;4)、UPGMA方法既可以得到有根树,也可以得到无根树。3、距离变换法

连锁聚类和UPGMA算法的一个缺陷是假定所有家系的进化速率是相同的,但是,实际情况并不总是这样。进化速率的变化容易导致连锁聚类和UPGMA算法产生错误拓扑结构的树。表6.3四个分类单元的距离矩阵

ABCB9

C811

D121510假设有4个分类单元A、B、C和D,其系统发生关系及各个分类单元之间的距离如图6.5所示,距离矩阵见表6.3。如果利用UPGMA进行分析,则首先合并A和C,(AC)到B的距离等于9/2+11/2=10,(AC)到D的距离等于12/2+10/2=11;进一步合并(AC)和B,((AC)B)到D的距离等于2×11/3+1×15/3=37/3;最终得到图6.6所示的系统发生树,但是,该树显然与真实树有出入。距离变换法(TransformedDistanceMethod)。这种方法充分利用了外群或外部参考物种(outgroup),即先于其它所有被考虑的物种(称为内群或内部物种,ingroup)从它们的共同祖先中分化出来的那些物种。假设有4个物种A、B、C和D,其中D是物种A、B和C的外部参考物种,并且已知关于这四个物种的距离矩阵。D可作为变换其它物种之间的距离的外部参考,变换式如下:其中d’ij是物种i和j之间的变换后距离,

是外部参考物种与全体内部物种之间的平均距离,此例中

=(dAD+dBD+dCD)/3

。邻近归并法(NeighborJoining)是另一种快速的聚类方法,该方法是Saitou和Nei于1987年首次提出的。在构建系统发生树时,该方法取消了非加权分组平均法所作的假定,不需要关于分子钟的假设,在进化分支上,发生趋异的次数可以不同。与非加权分组平均法相比,邻近归并法在算法上相对较复杂,它跟踪的是树上的节点而不是分类单元。4、邻接法(NeighborJoiningMethod)基本思想是:进行类的合并时,不仅要求待合并的类是相近的,同时,还要求待合并的类远离其它的类。在聚类过程中,根据原始距离矩阵,根据所有节点间的平均趋异程度,对每两个节点间的距离进行调整,即将每个分类单元的趋异程度标准化,从而形成一个新的距离矩阵。重建时,将距离最小的两个叶节点连接起来,合并这两个叶节点所代表的分类,形成一个新的分类。在树中增加一个父节点,并在距离矩阵中加入新的分类,同时删除原来的两个分类。随后,新增加的父节点被看成为叶节点,重复上一次循环。在每一次循环过程中,都有两个叶节点被一个新的父节点所取代,两个类被合成为一个新类。整个循环直到只剩一个类为止。从所得到的系统发生树来看,对于两个聚在一起的分类单元,其所在的叶节点到父节点的距离并不一定相同。定义:邻居(neighbors)无根树中,一个节点所连接的两个分类群互为邻居

(1,2);(5,6);(1-2,3);(1-2-3,4)……其中X为连接互为邻居的类群i,j的内部节点,LiX为类群i到X的分支长度。ACDB123456(1)(2)(3)(4)(1)(2)(2)(6)(7)S:所有分支长度总和在每一次循环中,都要在树中寻找两个分类单元的直接祖先。对于节点x,到其它节点的距离dx按下式进行估算:这里dxy是分类x和分类y之间的距离,是动态更新的距离矩阵D中的元素。为了使所有分支长度的和最小(或称为最小进化原则),选择dxy-dx-dy最小的一对节点x和节点y进行归并。算法如下:

(1)初始化(与连锁聚类算法一样)(2)循环对于所有的分类单元x,按公式(6-13)计算dx;选择一对分类单元x和y,使dxy-dx-dy最小;将x和y归并为新的类(xy),在树中添加一个新的节点,将它与节点x和y连接,新节点代表新生成的分类,计算从x和y到新节点(xy)的分支长度;dx,(xy)

=1/2dx,y+1/2(dx-dy),dy,(xy)

=1/2dx,y+1/2(dy-dx)计算新类(xy)与其它类u的距离;d(xy),u=1/2(dx,u+dy,u-dx,y)删除聚类x和y,添加新类(xy),更新距离矩阵;如果有两个以上的分类存在,则继续执行循环,否则合并剩余的两个类,并且连接这两个类。例子已知距离矩阵:

表6.46个分类单元的距离矩阵

ABCDEB5

C47

D7107

E6965

F811898首先分别用6个叶节点代表分类单元,计算每个节点到其它节点的距离:dA=5+4+7+6+8=30/4=7.5;dB=5+7+10+9+11=42/4=10.5;dC

=4+7+7+6+8=32/4=8;dD

=7+10+7+5+9=36/4=9.5;dE

=6+9+6+5+8=34/4=8.5;dF

=8+11+8+9+8=44/4=11第一次归并时,选择使Dxy-dx-dy最小的一对分类单元x=A和y=B,将这两个邻近的单元归并,以一个新节点(xy)代表,同时计算(xy)到x和y所在节点的距离:

dx,(xy)=Dx,(xy)/2+(dx-dy)/2=5/2+(7.5-10.5)/2=1dy,(xy)=Dx,(xy)/2+(dy-dx)/2=5/2+(10.5-7.5)/2=4进一步计算新类与其它类的距离,更新距离矩阵,重复循环。最终结果见图6.8。

CommentsNJ法本质上是一种寻找最优拓扑结构的谱系聚类算法。同时给出系统发育树的拓扑结构以及分支的长度。优点:1)、可以较快地构建系统树;2)、适用于分析较大的数据集;3)、能够较方便地进行自展(Bootstrap)检验。一般问题:给定n个物种

m个用以描述物种的特征每个物种所对应的特征值

构建一棵系统发生树,使得某个目标函数最大。二、基于特征的系统发生树构建方法输入一般为n×m的特征矩阵M在构建系统发生树假设特征是相互独立的,即一个特征的变化不影响另一个特征。另外,还假设在进化过程中,两个物种分叉后独立进化,互不影响。1、最大简约法

(MaximumParsimonyMethod)目标:构造一棵反映分类单元之间最小变化的系统发生树。所谓简约就是使代价最小。对于系统发生树最直观的代价计算就是沿着各个分支累加特征变化的数目。

甲乙丙丁戊

节点1

节点3

节点2

根节点最大简约法的处理过程:(1)针对待比较的物种,选择核酸或蛋白质序列。有些分子比其它分子变化慢,适合于进行距离分析,例如哺乳类的线粒体DNA、管家蛋白质等;(2)比较各个序列,产生序列的多重比对,确定各个序列符号的相对位置;(3)根据每个序列比对的位置(即多重对比排列的每一列),确定相应的系统发生树,该树用最少的进化动作产生序列的差异,最终生成完整的树。

对于一棵系统发生树T

假设树中的节点用V(T)表示, 树的边用E(T),以uj、vj分别表示节点u和v的第j个特征,则树T的代价为:单特征Fitch算法(Fitch,1971;Hartigan,1973):首先对于每个待分析的物种,分配一个叶节点v,其值vc取对应物种的特征值。然后执行下面两步:(1)给每个节点v赋予一个集合Sv:如果v是叶节点,则Sv={vc};如果v是内部节点,并且u、w是其子节点,如果Su

Sw

,则Sv=Su

Sw;否则S(v)=Su

Sw

。这个过程是从叶节点开始,直至处理到根节点。如果用递归算法,则应该按后序遍历方式处理每个节点。(2)给定集合Sv,为每个内部节点v的特征c赋予值vc。如果v有一个父节点u满足uc

Sv,则将uc赋予vc,否则任取一个t

Sv赋予vc。这个过程的执行方向刚好与上一个过程相反,即从树根出发,直至叶节点为止,最后得到完全标定的树。应按前序遍历方式依次处理每个节点。

MP法评述MP法适用的问题(1)位点不存在回复突变、平行突变;(2)被分析的序列较长,核苷酸或氨基酸数目很大;(3)序列的相似度较高;(4)核苷酸或氨基酸替代速率较稳定。详细内容请参考《分子进化与系统发育》(高等教育出版社)ML算法基本思想(Felsenstein,1981;Kishino,1990)以一个特定的替代模型分析一组给定的核苷酸(或氨基酸)序列数据,使获得的每一个拓扑结构的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论