




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、分子进化与系统进化树的构建分子进化与系统进化树的构建主要内容:1、分子进化的研究方法2、系统进化树的构建方法3、系统进化树构建常用软件汇集 # ?: m2 v: G/ 6 I- U4、系统进化树构建方法及软件的选择 5、Phylip分子进化分析软件包简介及使用6、如何利用MEGA3.1构建进化树%声明:1、本篇涉及的资源主要源于网络及相关书籍,由酷友搜集、分析、整理、审改,供大 家学习参考用,如有转载、传播请注明源于 基因酷 及本篇的工作人员;若本篇侵犯了您 的版权或有任何不妥,请 Email ge 告知。2、由于我们的学识、经验有限,本篇难免会存在一些错误及缺陷,敬请不吝赐教:请到基因 酷论
2、坛(/bbs)本篇对 应的专题跟贴 指出或 Email gen 。致谢:整编者:flashhyh主要参考资料:生物信息学札记 樊龙江;分子进化分析与相关软件的应用 作 者不详;进化树构建 ZHAO Yangguo ;如何用 MEGA 3.1 构建进化树 作者不 详; MEGA3 指南 作者不详; # ?( r, F9 !分子进化的研究方法分子进化的研究方法分子进化研究的意义+Q自 20 世纪中叶,随着分子生物学的不断发展,进化研究也进入了分子进化 (molecularevolution) 研究水平,并建立了一套依赖于核酸、蛋白质序列信息的理论和方 法。 随着基因组测序计划的实施, 基因组的巨量
3、信息对若干生物领域重大问题的研究提 供了有力的帮助, 分子进化研究再次成为生命科学中最引人注目的领域之一。这些重大 问题包括:遗传密码的起源、基因组结构的形成与演化、进化的动力、生物进化等等。 分子进化研究目前更多地是集中在分子序列上,但随着越来越多生物基因组的测序完 成,从基因组水平上探索进化奥秘,将开创进化研究的新天地。分子进化研究最根本的目的就是从物种的一些分子特性出发, 从而了解物种之间的 生物系统发生的关系。 通过核酸、 蛋白质序列同源性的比较进而了解基因的进化以及生 物系统发生的内在规律。分子进化研究的基础 $ D3 Q( I ?4 C3 |9 假设:核苷酸和氨基酸序列中含有生物进
4、化历史的全部信息。分子钟理论: 在各种不同的发育谱系及足够大的进化时间尺度中, 许多序列的进化 速率几乎是恒定不变的。如下图:直系同源与旁系同源 7 C& q1 I S# L x5 Z,直系同源(orthologs):同源的基因是由于共同的祖先基因进化而产生的;旁系同源(paralogs):同源的基因是由于基因复制产生的。一+.两者之间的关系如下图所示:注:用于分子进化分析中的序列必须是直系同源的 ,才能真实反映进化过程。 分子进化研究的基本方法对于进化研究, 主要通过构建系统发育过程有助于通过物种间隐含的种系关系揭示 进化动力的实质。9 n) e N- e # h表型的(phenetic)和
5、遗传的(cladistic)数据有着明显差异。Sneath和Sokal(1973)将表型 性关系定义为根据物体一组表型性状所获得的相似性,而遗传性关系含有祖先的信息, 因而可用于研究进化的途径。这两种关系可用于系统进化树(phyloge netictree)或树状图(dendrogram)来表示。表型分枝图(phenogram)和进化分枝图(cladogram)两个术语已用于 表示分别根据表型性的和遗传性的关系所建立的关系树。 进化分枝图可以显示事件或类 群间的进化时间,而表型分枝图则不需要时间概念。文献中,更多地是使用“系统进化树”一词来表示进化的途径,另外还有系统发育树、物种树 (spec
6、iestree)基因树等等一 些相同或含义略有差异的名称 .系统进化树分有根(rooted)和无根(unrooted)树。有根树反映了树上物种或基因的时 间顺序, 而无根树只反映分类单元之间的距离而不涉及谁是谁的祖先问题。 下图表示了4 个物种部分有根树和无根树形式:用于构建系统进化树的数据有二种类型:一种是特征数据(characterdata),它提供了基因、个体、群体或物种的信息;二是距离数据(distancedata)或相似性数据 (similaritydata) ,它涉及的则是成对基因、个体、群体或物种的信息。距离数据可由特征 数据计算获得, 但反过来则不行。 这些数据可以矩阵的形式表
7、达。 距离矩阵 (distancematrix) 是在计算得到的距离数据基础上获得的,距离的计算总体上是要依据一定的遗传模型, 并能够表示出两个分类单位间的变化量。 系统进化树的构建质量依赖于距离估算的准确 性。系统进化树的构建方法系统进化树的构建方法系统树的构建主要有三种方法:距离矩阵法(distanee matrix method)是根据每对物种之间的距离,其计算一般很直接, 所生成的树的质量取决于距离尺度的质量。距离通常取决于遗传模型。最大简约 (maximum parsimony) 法较少涉及遗传假设, 它通过寻求物种间最小的变更数 来完成的。对于模型的巨大依赖性是最大似然 (maxi
8、mum likelihood) 法的特征,该方法在计算上繁 杂,但为统计推断提供了基础。距离矩阵法 1 n9 Y8 F0 a首先通过各个物种之间的比较,根据一定的假设(进化距离模型)推导得出分类群 之间的进化距离, 构建一个进化距离矩阵。进化树的构建则是基于这个矩阵中的进化距 离关系。这里的遗传距离为所有成对实用分类单位(operational taxonomic units , OTU)之间的距离。用这些距离对OUT进行表型意义的分类可借助于聚类分析(clustering),聚类过程可以看作是鉴别具有相近 OUT 类群的过程。 : k M* X9 & R4 A8 Q. X由进化距离构建进化树
9、的方法很多,常用有如下几种:平均连接聚类法(UPGMA法):聚类的方法很多,包括序贯法(sequential)、聚合法(agglomerative)、分层法(hierarchical)和非重叠法(nonoverlapping)等。应用最广泛的是平 均连接聚类法(average linkage clustering)或称为UPGMA法(应用算术平均数的非加权成 组配对法, un weighted pair-group method using an arithmetic average)。该法将类间距离定 义为两个类的成员所有成对距离的平均值,广泛用于距离矩阵。 Nei 等模拟了构建树的 不同方
10、法,发现当沿树上所有分枝的突变率相同时, UPGMA 法一般能够得到较好的结 果。但必须强调有关突变率相等 (或几乎相等 ) 的假设对于 UPGMA 的应用是重要的。另 一些模型研究 (如 Kim 和 Burgman) 已证实当各分枝的突变率不相等时, 这一方法的结果 不尽人意。当各分枝突变率相等时,认为分子钟 (molecularclock) 在起作用。 ( m2 O% v( R B2 i* f% f- KFitch-Margoliash Method (FM 法): UPGMA 法包含这样的假定:沿着树的所有分 枝突变率为常数。 Fitch 和 Margoliash(1967) 所发展的方
11、法去除了这一假定。该法的应用 过程包括插入 丧失的” OUT作为后面OUT的共同祖先,并每次使分枝长度拟合于3个OTU 组。 G$ ! B) L0 P, E. MMargoliash 担心他们的法则所得到的拓扑结构可能是不完全正确的,并建议考查其 它的拓扑结构。可以采用Fitch和Margoliash(1967)称之为百分标准差”的一种拟合优度 来比较不同的系统树, 最佳系统树应具有最小的百分标准差。根据百分标准差选择系统 树,其最佳系统树可能与由 Fitch-Margoliash 法则所得的不相同。当存在分子钟时,可 以预期这一标准差的应用将给出类似于 UPGMA 方法的结果。 如果不存在分
12、子钟, 因而 在不同的世系 (分枝)中的变更率是不同的, 则 Fitch-Margoliash 标准就会比 UPGMA 好得 多。通过选择不同的 OUT 作为初始配对单位,就可以选择其它的系统树进行考查。具 有最低百分标准差的系统树即被认为是最佳的, 并且这个标准是建立在应用 Fitch- Margoliash算法的基础上的。FM 算法的基本步骤:1 、找出关系最近的序列对,如 A 和 B2、 将剩余的序列作为一个简单复合序列,分别计算A、B 到所有其他序列的距离的平 均值3、用这些值来计算 A 和 B 间的距离4、将 A、B 作为一个单一的复合序列 AB ,计算与每一个其他序列的距离,生成新
13、的距 离矩阵5、确定下一对关系最近的序列,重复前面的步聚计算枝长6、从每个序列对开始,重复整个过程7、对每个树计算每对序列间的预测距离,发现与原始数据最符合的树Neighbor-JoiningMethod(NJ 法/邻接法 ):邻接法 (Neighbor-joiningMethod) 由 Saitou 和Nei(1987)提出。该方法通过确定距离最近(或相邻)的成对分类单位来使系统树的总距 离达到最小。相邻是指两个分类单位在某一无根分叉树中仅通过一个节点(no de)相连。通过循序地将相邻点合并成新的点,就可以建立一个相应的拓扑树。最大简约法最大简约法(maximum parsimony ,
14、MP)最早源于形态性状研究,现在已经推广到分 子序列的进化分析中。最大简约法的理论基础是奥卡姆(Ockham )哲学原则,这个原则认为: 解释一个过程的最好理论是所需假设数目最少的那一个。对所有可能的拓扑结构进行计算,并计算出所需替代数最小的那个拓扑结构,作为最优树。9 T# J L2 M$ ) Y) P- zFelse nstein指出,在试图使进化事件的次数最小时,简约法隐含地假定这类事件是 不可能的。如果在进化时间范围内碱基变更的量较小,则简约法是很合理的,但对于存 在大量变更的情形,随着所用资料的增加,简约法可能给出实际上更为错误的系统树。最大简约法的优点: 最大简约法不需要在处理核苷
15、酸或者氨基酸替代的时候引入假 设(替代模型)。此外,最大简约法对于分析某些特殊的分子数据如插入、缺失等序列 有用。缺点:在分析的序列位点上没有回复突变或平行突变,且被检验的序列位点数很大 的时候, 最大简约法能够推导获得一个很好的进化树。然而在分析序列上存在较多的回 复突变或平行突变, 而被检验的序列位点数又比较少的时候,最大简约法可能会给出一 个不合理的或者错误的进化树推导结果。最大似然法( ML )最大似然法 (maximum likelihood,ML) 最早应用于系统发育分析是在对基因频率数 据的分析上,后来基于分子序列的分析中也已经引入了最大似然法的分析方法。最大似然法分析中, 选取
16、一个特定的替代模型来分析给定的一组序列数据,使得获 得的每一个拓扑结构的似然率都为最大值, 然后再挑出其中似然率最大的拓扑结构作为 最优树。 在最大似然法的分析中, 所考虑的参数并不是拓扑结构而是每个拓扑结构的枝 长,并对似然率球最大值来估计枝长。最大似然法的建树过程是个很费时的过程,因为 在分析过程中有很大的计算量,每个步骤都要考虑内部节点的所有可能性。最大似然法也是一个比较成熟的参数估计的统计学方法, 具有很好的统计学理论基 础, 在当样本量很大的时候, 似然法可以获得参数统计的最小方差。 只要使用了一个合 理的、正确的替代模型,最大似然法可以推导出一个很好的进化树结果。 0 v q, n
17、 I7 e k) * y6 L注:上述只是对系统进化树构建方法的简要介绍,没有深入每种方法的构建原理等 方面,若想进一步了解,请参见附件中的 生物信息学札记一一分子进化:系统树的构 建,樊龙江编 。若欲深入了解,请参考相关文献。系统进化树构建方法及软件的选择系统进化树构建方法及软件的选择构建方法的选择从上述我们可以了解到,构建系统进化树的方法主要有:基于距离矩阵的方法(UPGMA、NJ( Neighbor-Joining ,邻接法)等、 MP ( Maximum parsimony,最大简约 法)、ML (Maximum likelihood,最大似然法)以及贝叶斯( Bayesian)推断等
18、方法。 其中基于距离矩阵中的UPGMA法已经较少使用。一般情况,若有合适模型,ML的效果较好;近缘序列,一般使用MP (基于的假设少);远缘序列,一般使用NJ或ML。对相似度很低的序列,NJ往往出现Long-branch attraction( LBA,长枝吸引现象), 有时会严重干扰进化树的构建;贝叶斯的方法则太慢。各种方法构建的系统进化树,(Hall BG. Mol Biol Evol 2005, 22(3):792-802 )认为贝叶斯方法的准确性最高,其次是ML ,然后再是MP。其实若序列有较高的相似性,各种方法都会得到不错的结果,模型间的差 别也不大。对于NJ和ML两种方法,需要选择
19、构建模型。对于核酸及蛋白质序列,两者模型 的选择是不同的。 蛋白质的序列,一般选择 Poisson Correction (泊松修正)这一模型; 而对于核酸序列,一般选择Kimura 2-parameter ( Kimura-2参数)模型。Bootstrap选项一般都要选择,当Bootstrap的值70,一般都认为构建的进化树较为 可靠。如果Bootstrap的值太低,则有可能进化树的拓扑结构有错误,进化树是不可靠 的。.“,对于进化树的构建,如果对理论的了解并不深入,则推荐使用缺省的参数,并启用 Bootstrap检验。一般情况下,使用两种不同的方法构建进化树,如果得到的进化树基本一致,结果
20、较为可靠。 构建软件的选择构建NJ树,可以用PHYLIP或者MEGA。MEGA是Nei开发的方法并设计的图形 化的软件,使用非常方便,推荐使用。虽然多序列比对工具ClustalW/X也自带了一个NJ的建树程序,但是该程序只有p-distanee模型,而且构建的树不够准确,一般不用来构建进化树。构建MP树,最好的工具是PAUP,但该程序属于商业软件, 并不对科研学术免费。 MEGA和PHYLIP也可以用来构建 MP树。构建ML树可以使用PHYML,速度较快。也可使用 Tree-puzzle,该程序做蛋白质 序列的进化树效果比较好。 ML还可以使用 PAUP、PHYLIP (或BioEdit )来
21、构建。BioEdit 集成了一些PHYLIP的程序,用来构建进化树。Tree-puzzle是另外一个不错的选择,不 过该程序是命令行格式的,需要学习DOS命令。贝叶斯的算法以MrBayes为代表,不过速度较慢。一般的进化树分析中较少应用。系统进化树构建常用软件汇集系统进化树构建常用软件汇集软件名称网址说明PHYLIP HYPERLINK /phylip/software.html /phylip/software.html -目前发布最广,用 户最多的通用系 统树构建软件,由 美国华盛顿大学Felse nste in 开发, 可免费下载,适用 绝大多数操作系 统PAUPscavottos in
22、 或ftp:/ ony /paup国际上最通用的 系统树构建软件 之一, 美国 simths onioninstitute 开发,仅 适用Apple-Maci ntosh 和UNIX操作系 统-E#MEGA HYPERLINK http:/bioi http:/bioi nfo.weizma nn .ac.il/databases/i nfo/mega.sof美国宾西法尼亚 州 立 大 学MasatoshiNei 开发的分子进化遗 传学软件,图形 化、集成的进化分 析工具,不包括MLMOLPHY HYPERLINK ftp:/s ftp:/s unm h.ism.ac.jp/pub/molphy日本国立统计数理研究所开发,最大似然法构树PAML HYPERLINK http:/abacus.gene.ucl.ac.uk/software/paml.html http:/abacus.gene.ucl.ac.uk/software/paml.html
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 计算器产品召回与质量控制考核试卷
- 铜压延加工中的质量控制体系考核试卷
- 酒吧服务酒品陈列与展示技巧考核试卷
- 绿色交通与城市出行方式的投资考核试卷
- 保健医急救知识培训
- 深静脉感染预防控制要点
- 妊娠期甲状腺疾病诊治
- 二手交易电商平台信用评价与信用评分模型构建报告
- 绿色供应链管理在制造业中的绿色供应链与绿色供应链管理培训课程开发报告
- 盐湖提锂技术2025年成本优化与产能扩张产业竞争力研究报告
- CJJ1-2025城镇道路工程施工与质量验收规范
- 健康中国战略下的体育产业发展方向
- GB/T 20424-2025重有色金属精矿产品中有害元素的限量规范
- 消防设施操作和维护保养规程
- 专利基础知识教学课件
- 人教部编版六年级下册语文【选择题】专项复习训练真题100题(附答案解析)
- 2025美国急性冠脉综合征(ACS)患者管理指南解读课件
- 国家开放大学电大《国际私法》形考任务1-5题库及答案
- 《哪吒魔童降世》幼儿园小学少儿美术教育绘画课件创意教程教案
- 中医养生康复学
- 2024年中考模拟试卷生物(扬州卷)(考试版A3)
评论
0/150
提交评论