第5讲分子进化和系统发育分析课件_第1页
第5讲分子进化和系统发育分析课件_第2页
第5讲分子进化和系统发育分析课件_第3页
第5讲分子进化和系统发育分析课件_第4页
第5讲分子进化和系统发育分析课件_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第五讲 分子进化与系统发育分析第五讲 分子进化与系统发育分析分子系统发生学的历史5.1分子系统发生分析的优点5.2系统发生树5.3距离矩阵法5.4最大似然法5.5相关软件5.6分子系统发生学的历史5.1分子系统发生分析的优点5.2系统发5.1 分子系统发生学的历史 系统发生学是研究物种之间的进化关系的,是进化生物学的一个重要研究领域,系统发生分析在达尔文时代就已经开始。从那时起,科学家们就开始寻找物种的源头,分析物种之间的进化关系,给各个物种分门别类。 Charles Darwin (1809-1882)5.1 分子系统发生学的历史 系统发生学是20世纪70年代20世纪60年代20世纪50年代

2、1902和1904研究者开始能够获得基因组信息,特别是DNA序列 蛋白质测序成为可能 分子数据开始被广泛应用于系统发生研究 正确地推断出人和猿比它们和其它灵长类动物有更近的共同祖先 20世纪70年代后至今研究者一直致力于研究DNA序列以及基因组信息,目前DNA数据比任何分子信息都要丰富 20世纪70年代20世纪60年代20世纪50年代1902和1生物进化理论达尔文进化论:进化:变异的遗传自然选择:解释为何演变发生的机制种群中个体变异的遗传学基础:孟德尔遗传孟德尔豌豆实验:杂交的表现特征是基因表达的结果,而不是基因杂交遗传中性进化论:并非所有种群中保留下来的突变都由自然选择所形成;大多数突变是中

3、性或接近中性,不妨碍种群的生存与繁衍。生物进化理论达尔文进化论:研究生物进化历史的途径1. 最确凿证据是:生物化石! 零散、不完整2.比较形态学、比较解剖学和生理学等:确定大致的进化框架 细节存很多的争议研究生物进化历史的途径1. 最确凿证据是:生物化石! 零分子进化 1964年,Linus Pauling提出分子进化理论;从物种的一些分子特性出发,从而了解物种之间的生物系统发生的关系。 发生在分子层面的进化过程:DNA, RNA和蛋白质分子 基本假设:核苷酸和氨基酸序列中含有生物进化历史的全部信息。分子进化 1964年,Linus Pauling提出分子进化分子进化的模式 DNA突变的模式:

4、替代,插入,缺失,倒位; 核苷酸替代:转换 (Transition) & 颠换 (Transversion) 基因复制:多基因家族的产生以及伪基因的产生A. 单个基因复制 重组或者逆转录B. 染色体片断复制C. 基因组复制分子进化的模式 DNA突变的模式:替代,插入,缺失,倒位;DNA突变的模式替代插入缺失倒位DNA突变的模式替代插入缺失倒位核苷酸替代:转换 & 颠换 转换:嘌呤被嘌呤替代,或者嘧啶被嘧啶替代 颠换:嘌呤被嘧啶替代,或者嘧啶被嘌呤替代核苷酸替代:转换 & 颠换 转换:嘌呤被嘌呤替代,或者嘧啶被基因复制:单个基因复制重组逆转录基因复制:单个基因复制重组逆转录基因复制:基因组复制酿

5、酒酵母克鲁雄酵母研究结果:克鲁雄酵母中的同源基因数量与酿酒酵母相比为1:2基因复制:基因组复制酿酒酵母克鲁雄酵母研究结果:克鲁雄酵母中 物种分类及关系:从物种的一些分子特性出发,构建系统发育树,进而了解物种之间的生物系统发生的关系 tree of life 大分子功能与结构的分析:同一家族的大分子,具有相似的三级结构及生化功能,通过序列同源性分析,构建系统发育树,进行相关分析;功能预测 进化速率分析:例如,HIV的高突变性;哪些位点易发生突变?分子进化研究的目的 物种分类及关系:从物种的一些分子特性出发,构建系统发育树, Tree of Life: 16S rRNA Tree of Life:

6、 16S rRNAOut of Africa53个人的线粒体基因组(16,587bp)人类迁移的路线Out of Africa53个人的线粒体基因组(16,58同源性与相似性相似性 (Similarity)序列比对过程中用来描述检测序列和目标序列之间相似DNA碱基或氨基酸残基序列所占比例;定量描述;同源性 (Homology)两个基因或蛋白质序列具有共同祖先的结论;定性判断;相似不一定同源,同源不一定相似。氨基酸序列相似性超过30%,很可能同源。同源性与相似性相似性 (Similarity)序列同源性模型中的进化假设所有的生物都起源于同一个祖先;序列不是随机产生,而是在进化上,不断发生着演变;

7、基本假设: 序列保守性 结构保守性 注意:反之未必 序列保守性 结构保守性序列同源性模型中的进化假设所有的生物都起源于同一个祖先;5.2 分子系统发生分析的优点表型分析 具有一定的局限性 许多生物体没有可 用来进行比较的易于 研究的表型 什么样的表型特征 能用来比较也不特别 明了比较分析分子系统发生分析基于DNA和蛋白质序列的分析,能够克服表型分析的缺点问题,能够对生物体进行正确的分组,对于所得数据比较可靠。5.2 分子系统发生分析的优点表型分析比较分析分子系统发生分概念 系统发生树:三个或者更多基因或生物体 之间 进化关系的典型图示; 大部分系统发生研究都是围绕系统发生树的概念进行的,它不仅

8、表示了数据之间的关系,还体现了他们的分歧时间和他们共同祖先的特征。 5.3 系统发生树概念5.3 系统发生树5.3 系统发生树重建系统发生树的术语5.3.1有根树和无根树5.3.2基因树和物种树5.3.3特征和距离数据 系统发生树重建系统发生树的术语5.3.1有根树和无根5.3.1 重建系统发生树的术语系统发生树有时也称为系统树图,它是由一系列的节点和分支组成的,其中每个节点代表一个分类单元。分支末端的节点(外部节点)对应一个基因或生物体;内部节点代表一个推断的共同祖先,它在过去的某个时候分歧出两个独立的分支。5.3.1 重建系统发生树的术语系统发生树有时也称为系统树图5.3.

9、1 重建系统发生树的术语ABCD 5个物种 (, , , ) 之间的进化关系的系统发生树 系统发生树结构的基本信息在计算机程序中常用一组嵌套的圆括号表示,称为 Newick 格式,用该格式来表示上图中的树,可写成 ( ( (,) , (, ) ) , ) 外部节点内部节点根节点5.3.1 重建系统发生树的术语ABCD 5个物种5.3.2 有根树和无根树根时间 有根树 无根树有根树种,单一的节点指派为共同的祖先,从祖先节点只有唯一的路径进化到达其他任何节点。无根树只表明了节点之间的关系,而没有关于进化发生方向的信息;5.3.2 有根树和无根树根时间 有根5.3.2 有根树和无根树只考虑3个物种的

10、时候,有3棵有根树,一棵无根树,如下图所示:有根树无根树5.3.2 有根树和无根树只考虑3个物种的时候,有3棵有根树5.3.2 有根树和无根树描述少量物种之间可能的进化关系的有根树和无根树的数目物种数目有根树数目无根树数目21133141535105151034 459 4252 207 02515213 458 046 767 8757 905 853 580 625208 200 794 532 637 891 559 375221 643 095 476 699 771 875n 个物种可能的有根系统发生树 (NR)和无根系统发生树(NU)数目可用下面的公式计算得到: NR = (2n-

11、3)! 2n-2 (n-2)! NU =(2n-5)!2n-3(n-3)!只有一棵树代表了(基因或物种)的实际系统发生关系! 5.3.2 有根树和无根树描述少量物种之间可能的进化关系的5.3.3 基因树和物种树区别:基因树为基于单个同源基因差异构建的系统发生树;物种树一般从多个基因数据中分析得出。 只考虑一个基因的时候个体可能表现出与其他物种的成员关系更近。基因分化事件常常在物种形成前或后发生。5.3.3 基因树和物种树区别:5.3.4 特征和距离数据用于构建系统发生树的分子数据分成两类: (1) 距离 (distances) 数据,常用距离矩阵描述,表示两个数据集之间所有两两差异; (2)

12、特征 (characters) 数据,表示分子所具有的特征。 DNA 和蛋白质序列数据描述离散的特征;一旦建立了确定所有可能状态之间相似性的标准,特征数据就很容易转化成距离数据;5.3.4 特征和距离数据用于构建系统发生树的分子数据分成两多序列比对(自动比对,手工校正)选择建树方法以及替代模型建立进化树进化树评估系统发育树重建分析步骤多序列比对(自动比对,手工校正)选择建树方法以及替代模型建立1. 最大简约法 (maximum parsimony, MP)适用序列有很高相似性时2. 距离法 (distance)适用序列有较高相似性时3. 最大似然法 (maximum likelihood, M

13、L)可用于任何相关序列集合计算速度:距离法 最大简约法 最大似然法系统发育树重建的基本方法1. 最大简约法 (maximum parsimony, M1. 最大简约法 (MP) 根据信息位点提供的各序列间的替换情况,在所有可能的树中筛选含最小替换数的树的方法。理论基础为奥卡姆剃刀 (Ockham)原则:计算所需替换数最小的那个拓扑结构,作为最优树。 在分析的序列位点上没有回复突变或平行突变,且被检验的序列位点数很大的时候,最大简约法能够推导获得一个很好的进化树。 优点:不需要在处理核苷酸或者氨基酸替代的时候引入假设 (替代模型) 缺点:分析序列上存在较多的回复突变或平行突变,而被检验的序列位点

14、数又比较少的时候,可能会给出一个不合理的或者错误的进化树推导结果。1. 最大简约法 (MP) 根据信息位点提供的各序列间的替换 信息位点:能将所有可能的树区别出来的位点。 信息位点是指那些至少存在2个不同碱基/氨基酸且每个不同碱基/氨基酸至少出现两次的位点。信息位点 信息位点:能将所有可能的树区别出来的位点。信息位点 第5讲分子进化和系统发育分析课件上例 Position 5, 7, 9为信息位点; 基于position 5的三个MP树: Tree 1长度为1,Tree 2 & 3长度为2 Tree 1最为简约:总长=4 Tree 2长5;Tree 3长6 计算结果:MP tree的最优结果为

15、tree 1上例 Position 5, 7, 9为信息位点;2. 距离法又称距离矩阵法,首先通过各个物种之间的比较,根据一定的假设(进化距离模型)推导得出分类群之间的进化距离,构建一个进化距离矩阵。再依据进化距离,分别依次将序列合并聚类,构建进化树。2. 距离法又称距离矩阵法,首先通过各个物种之间的比较,根据简单的距离矩阵简单的距离矩阵由进化距离构建进化树的方法有很多,常见有:(1) Fitch-Margoliash Method (FM法): 对短支长非常有效(2) Neighbor-Joining Method (NJ法/邻接法):求最短支长,最通用的距离方法(3) Neighbors

16、Relaton Method(邻居关系法) (4) Unweighted Pair Group Method with Arithmetic Mean (UPGMA,非加权组平均法)通过距离矩阵建树的方法由进化距离构建进化树的方法有很多,常见有:通过距离矩阵建树的(1) Fitch-Margoliash方法 (FM法)= D和E最接近!DEABCedm示例(1) Fitch-Margoliash方法 (FM法)=分成三组:D, E, 以及ABC(1) FM法示例分成三组:D, E, 以及ABC(1) FM法示例DE距离=d+e=10 (1)D到ABC间的平均距离=d+m = 32.7 (2)E

17、到ABC间的平均距离=e+m = 34.7 (3)(2)-(3)+(1)d=4,e=6DEABCedmDE距离=d+e=10 (1)DEABCedm分成三组:C, DE, 以及AB= C最接近DE!分成三组:C, DE, 以及AB= C最接近DE!c+g+(e+d)/2=19 (1)c+f+(a+b)/2=40 (2)(e+d)/2+(a+b)/2+f+g=41 (2)(1)+(2)-(3)= c=9= g=5c+g+(e+d)/2=19 (1)由:(a+b)/2+f+g+(d+e)/2=41 得:f=20由:a+f+c=39 得:a=10,则b=12由:(a+b)/2+f+g+(d+e)/2

18、=41 得:f=2N-J/邻接法 与FM方法非常类似 保证总的支长最短总支长:a+b+c+d+e=314/4=78.5N-J/邻接法 与FM方法非常类似总支长:a+b+c+d+e找到距离最近的两个点1.任意两个节点选为相邻序列的总支长计算公式:2.计算SAB, SBC, SCD, SDE等数值3.该例中, SAB最小找到距离最近的两个点1.任意两个节点选为相邻序列的总支长计算 把A、B看成一个新的复合序列,构建一个新的距离表,重复以上过程计算A, B的分支长度 把A、B看成一个新的复合序列,构建一个新的距离表,重d=e=10/2=5UPGMA法d=e=10/2=5UPGMA法c=19/2=9.

19、5g=c-d=9.5-5=4.5c=19/2=9.5a=b=22/2=11AB(CDE)A-2239.5B-41.5(CDE)-a=b=22/2=11AB(CDE)A-2239.5B-4(AB)(CDE)(AB)-40.5(CDE)-f1+a=f2+c=40.5/2=20.25f1=9.25 , f2=11.75(AB)(CDE)(AB)-40.5(CDE)-f1+a=最大似然法 (ML)最大似然法(maximum likelihood, ML): 最早应用于对基因频率数据的分析上 选取一个特定的替代模型来分析给定的一组序列数据,使得获得的每一个拓扑结构的似然率都为最大值,然后再挑出其中似然率

20、最大的拓扑结构作为最优树; 在最大似然法的分析中,所考虑的参数并不是拓扑结构而是每个拓扑结构的枝长,并对似然率求最大值来估计枝长; 缺点:费时,每个步骤都要考虑内部节点的所有可能性 改进:启发式算法,分枝交换搜索等最大似然法 (ML)最大似然法(maximum likeli构建进化树的一般原则构建进化树的一般原则1. 可靠的待分析数据2. 准确的多序列比对3. 选择合适的建树方法:A. 序列相似程度高,MP首先B. 序列相似程度较低,ML首先C. 序列相似程度太低,无意义4. 一般采用两种及以上方法构建进化树,无显著区别可接受构建进化树的一般原则 (2)1. 可靠的待分析数据构建进化树的一般原

21、则 (2) 选择一个或多个已知与分析序列关系较远的序列作为外类群; 外类群可以辅助定位树根; 外类群序列必须与剩余序列关系较近,但外类群序列与其他序列间的差异必须比其他序列之间的差异更显著。外类群(Outgroup)bacteria outgroupeukaryoteeukaryoteeukaryoteeukaryotearchaeaarchaeaarchaea外类群 选择一个或多个已知与分析序列关系较远的序列作为外类群;外类进化树的可靠性分析单纯由预先获得的多序列比对结果数据所推导出的进化树有时并不一定可靠。改进办法:引进一些统计分析来寻找更优的进化树,检验结果的可靠性。最常见的就是bootstrap评估。进化树的可靠性分析单纯由预先获得的多序列比对结果数据所推导出 从排列的多序列中随机有放回的抽取某一列,构成相同长度的新的排列序列; 重复上面的过程,得到多组新的序列; 对这些新的序列进行建树,再观察这些树与原始树是否有差异,以此评价建树的可靠性。一般Bootstrap的值70,则认为构建的进化树较为可靠。 自展法- 进化树的可靠性分析 从排列的多序列中随机有放回的抽取某一列,构成相同长度的新的系统发育分析软件介绍软件说明PHYLIP免费的、集成的进化分析工具/phyli

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论