分子系统发育分析进化树_第1页
分子系统发育分析进化树_第2页
分子系统发育分析进化树_第3页
分子系统发育分析进化树_第4页
分子系统发育分析进化树_第5页
已阅读5页,还剩106页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

分子系统发育分析进化树第一页,共一百一十一页,编辑于2023年,星期五本章内容引言生物进化的分子机制系统进化树及其构建分子系统发育分析软件及应用第二页,共一百一十一页,编辑于2023年,星期五引言生物学家:Wehaveadream…TreeofLife:重建所有生物的进化历史并以系统树的形式加以描述第三页,共一百一十一页,编辑于2023年,星期五引言梦想走进现实:How?最理想的方法:化石!——零散、不完整第四页,共一百一十一页,编辑于2023年,星期五引言梦想走进现实:How?比较形态学和比较生理学:确定大致的进化框架——细节存很多的争议第五页,共一百一十一页,编辑于2023年,星期五引言梦想走进现实:How?第三种方案:分子进化1964年,美国进化生物学家E.Zuckerkandl和量子化学家LinusPauling提出分子进化理论基本假设核酸和蛋白质序列中含有生物进化历史的全部信息理论分子进化速率恒定。分子钟:物种的同源基因之间的差异程度与它们的共同祖先的存在时间(即两者的分歧时间)有一定的数量关系。发生在分子层面的进化过程:DNA,RNA和蛋白质分子第六页,共一百一十一页,编辑于2023年,星期五引言分子钟成立的证据:1、至少某些生物大分子(如珠蛋白)的进化速率在相当长的地质时间内的相对稳定、均匀;2、许多不同物种的多种同源大分子在相当长时间内的平均进化速率近似恒定。第七页,共一百一十一页,编辑于2023年,星期五建立分子钟的大致步骤1、选择所要比较的生物大分子种类根据具体研究目标和已掌握的资料,选择进化速率相对恒定、速率大小合适、分布范围能涵盖各待比较物种的生物大分子。2、选择所要比较的物种,确定各比较组合及其所代表的进化事件3、获得生物大分子一级结构的资料4、获得有关的代表性进化事件发生的地质时间数据5、通过比较大分子一级结构,选择合适的数学模型,计算得到进化产生的分子差异d,通过回归分析等统计方法得到大分子的进化速率r(t)6、由此可以推断未知进化事件的发生时间第八页,共一百一十一页,编辑于2023年,星期五Example:Molecularclockfor17mammalspeciesInferredpairwisenucleotidesubstitutionsamong17mammalspeciesfromsevengeneproducts,asestimatedfromproteinstudies,plottedagainstdateofdivergence,asestimatedfromthefossilrecord.Thelineisdrawnfromtheoriginthroughtheoldestpoint(marsupial/placentaldivergenceat125MYBP).Thestronglinearrelationshipsuggeststhatmoleculardifferencesbetweenpairsofspeciesareproportionaltothetimeoftheirseparation,ratherthanthedegreeoforganismaldifference.

Therefore,measuresofgeneticdivergencecanbeusedtodatethetimeofdivergenceforspeciespairsforwhichnofossildataareavailable:genesfunctionasMolecularClocks.

(fromA.C.Wilson1976)第九页,共一百一十一页,编辑于2023年,星期五关于分子钟的讨论和争议1、对长期进化而言,不存在以恒定速率替换的生物大分子一级结构;(基因功能的改变、基因数目的增加)2、不存在通用的分子钟;3、争议:分子钟的准确性中性理论(分子钟成立的基础)第十页,共一百一十一页,编辑于2023年,星期五第一节生物进化的分子机制分子途经研究生物进化的可行性分子进化的模式分子进化的特点研究分子进化的作用第十一页,共一百一十一页,编辑于2023年,星期五分子途径研究生物进化的可行性普适性由4种核酸组成分子水平的进化表现为:DNA序列的演化、氨基酸序列演化、蛋白质结构及功能的演化可比较性比较不同物种的有关DNA序列建立DNA序列的演化模型、氨基酸序列的演化模型蛋白质结构的演化模型基因组包含丰富的编码信息与形态、性状包含的信息相比,基因组序列、蛋白质序列包含更多、更复杂的信息结构第十二页,共一百一十一页,编辑于2023年,星期五基因变异1、核苷酸替代、插入/缺失、重组2、基因复制固定在生物个体以及物种内遗传漂变自然选择传递给后代产生新的形态、性状分子进化的模式第十三页,共一百一十一页,编辑于2023年,星期五分子进化的模式1.DNA突变:替代,插入,缺失,倒位核苷酸替代:转换(Transition)&颠换(Transversion)2.基因复制:多基因家族的产生以及伪基因的产生A.单个基因复制–重组或者逆转录B.染色体片断复制C.基因组复制第十四页,共一百一十一页,编辑于2023年,星期五ThrTyrLeuLeuACCTATTTGCTGACCTCTTTGCTGThrSerLeuLeu替代ThrTyrLeuLeuACCTATTTGCTGACCTACTTTGCTGThrTyrPheAla插入ThrTyrLeuLeuACCTATTTGCTGACCTATTGCTG-ThrTyrCys-缺失ThrTyrLeuLeuACCTAT

TTGCTGACCTTT

ATGCTGThrPheMetLeu倒位

(1)DNA突变第十五页,共一百一十一页,编辑于2023年,星期五核苷酸替代:转换&颠换1.转换:嘌呤被嘌呤替代,或者嘧啶被嘧啶替代2.颠换:嘌呤被嘧啶替代,或者嘧啶被嘌呤替代第十六页,共一百一十一页,编辑于2023年,星期五(2)基因复制:单个基因复制重组逆转录第十七页,共一百一十一页,编辑于2023年,星期五(2)基因复制:染色体片段复制人狒狒第十八页,共一百一十一页,编辑于2023年,星期五(2)基因复制:基因组复制S.Cerevisiae(酿酒酵母)K.Waltii(克鲁雄酵母)研究结果:克鲁雄酵母中的同源基因数量与酿酒酵母相比为1:2第十九页,共一百一十一页,编辑于2023年,星期五分子进化的特点生物大分子进化速率相对恒定分子进化速率

生物大分子随时间的改变而变化,主要表现为核苷酸、蛋白质的一级结构的改变,即分子序列中核苷酸、氨基酸的替换不同物种同源大分子的分子进化速率大体相同

例子:比较不同物种血红蛋白氨基酸序列差异

人、马——0.810-9/AA.a

人、鲤鱼——0.610-9/AA.a

分子进化速率远远比表型进化速率稳定第二十页,共一百一十一页,编辑于2023年,星期五生物大分子进化的保守性保守性

功能上重要的大分子或大分子的局部在进化速率上明显低于那些在功能上不重要的大分子或者大分子局部。(引起表型发生显著改变的突变发生的频率要低于无明显表型发生显著改变得突变发生的频率。)氨基酸

例:血红蛋白分子的外区的功能要次于内区的功能,外区的进化速率是内区进化速率的10倍。核苷酸

例:DNA密码子的同义替代频率高于非同义替代频率;内含子上的核苷酸替代频率较高。GTTGTCGTAGTGCGTCGC脯氨酸P组氨酸HTGGTGC色氨酸W半胱氨酸C第二十一页,共一百一十一页,编辑于2023年,星期五研究分子进化的作用从物种的一些分子特性出发,构建系统发育树,进而了解物种之间的生物系统发生的关系

——treeoflife;物种分类大分子功能与结构的分析:同一家族的大分子,具有相似的三级结构及生化功能,通过序列同源性分析,构建系统发育树,进行相关分析;功能预测进化速率分析:例如,HIV的高突变性;哪些位点易发生突变?第二十二页,共一百一十一页,编辑于2023年,星期五研究分子进化的作用TreeofLife:16SrRNA第二十三页,共一百一十一页,编辑于2023年,星期五研究分子进化的作用OutofAfrica53个人的线粒体基因组(16,587bp)人类迁移的路线第二十四页,共一百一十一页,编辑于2023年,星期五第二节系统进化树及其构建系统进化树的概念系统进化树的种类系统进化树的构建第二十五页,共一百一十一页,编辑于2023年,星期五系统进化树的概念所有生物都可以追溯到共同的祖先,生物的产生和分化就像树一样生长、分叉,以树的形式来表示生物之间的进化关系是非常自然的事。第二十六页,共一百一十一页,编辑于2023年,星期五系统进化树的概念phylogenetictree/evolutionarytree系统进化树/生物进化树/系统发育树/系统发生树/系统树/进化树/演化树是表明被认为具有共同祖先的各物种相互间进化关系的树形图。第二十七页,共一百一十一页,编辑于2023年,星期五系统进化树的概念——术语祖先节点/树根内部节点/分歧点,该分支可能的祖先节点分支/世系:长度对应演化距离(如估计的演化时间)

末端节点:代表最终分类,可以是物种,群体,或者蛋白质、DNA、RNA分子等

ABCDE第二十八页,共一百一十一页,编辑于2023年,星期五系统进化树的概念进化树分支的图像称为进化的拓扑结构理论上,一个DNA序列在物种形成或基因复制时,分裂成两个子序列,因此系统进化树一般是二歧的。ABCDE†FGFGCDE†AB第二十九页,共一百一十一页,编辑于2023年,星期五系统进化树的概念直系同源(orthologs):同源的基因是由于共同的祖先基因进化而产生的。旁系同源(paralogs):同源的基因是由于基因复制产生的。用于分子进化分析中的序列必须是直系同源的,才能真实反映进化过程。旁系同源直系同源第三十页,共一百一十一页,编辑于2023年,星期五拓扑结构:有根树:反映时间顺序无根树:反映距离系统进化树的种类

——有根树、无根树archaeaarchaeaeukaryoteeukaryoteeukaryoteeukaryotearchaeabacteriaoutgrouprooteukaryoteeukaryoteeukaryoteeukaryotearchaeaarchaeaarchaea外围支第三十一页,共一百一十一页,编辑于2023年,星期五abcdabcdabcdadbcbacdcabddabcacbdbcadcbaddbacadbcbaaccdabdcab考虑4个分类群时,共有15种可能的有根树第三十二页,共一百一十一页,编辑于2023年,星期五abcdacbdadbc考虑4个分类群时,共有3种可能的无根树第三十三页,共一百一十一页,编辑于2023年,星期五#Taxa

无根树有根树31343155151056105945794510,395…30~3.58X1036~2.04X1038Taxa增多,计算量急剧增加,选出真实树的拓扑结构十分困难,因此,目前算法都为优化算法,不能保证最优解。系统进化树的种类

——有根树、无根树第三十四页,共一百一十一页,编辑于2023年,星期五系统进化树的种类

——标度树、非标度树标度树:分支的长度表示变化的程度非标度树:分支只表示进化关系,支长无意义Bacterium1Bacterium3Bacterium2Eukaryote1Eukaryote4Eukaryote3Eukaryote2Bacterium1Bacterium3Bacterium2Eukaryote1Eukaryote4Eukaryote3Eukaryote2一个单位第三十五页,共一百一十一页,编辑于2023年,星期五abcdef基因分裂基因分裂基因分裂物种分裂系统进化树的种类

——物种树、基因树物种树:代表一个物种或群体进化历史的系统进化树,两个物种分歧的时间为两个物种发生生殖隔离的时间基因树:由来自各个物种的一个基因构建的系统进化树(不完全等同于物种树),表示基因分离的时间。第三十六页,共一百一十一页,编辑于2023年,星期五系统进化树的构建构建系统进化树的步骤构建系统进化树的方法构建进化树的一般原则第三十七页,共一百一十一页,编辑于2023年,星期五构建系统进化树的步骤多序列比对(自动比对,手工校正)选择建树方法以及替代模型建立进化树进化树评估第三十八页,共一百一十一页,编辑于2023年,星期五构建系统进化树的方法1.最大简约法(maximumparsimony,MP)适用序列有很高相似性时2.距离法(distance)适用序列有较高相似性时3.最大似然法(maximumlikelihood,ML)可用于任何相关序列集合计算速度:距离法>最大简约法>最大似然法第三十九页,共一百一十一页,编辑于2023年,星期五构建系统进化树的方法

——最大简约法(MP)

理论基础为奥卡姆(Ockham)原则:计算所需替代数最小的那个拓扑结构,作为最优树在分析的序列位点上没有回复突变或平行突变,且被检验的序列位点数很大的时候,最大简约法能够推导获得一个很好的进化树缺点:分析序列上存在较多的回复突变或平行突变,而被检验的序列位点数又比较少的时候,可能会给出一个不合理的或者错误的进化树推导结果第四十页,共一百一十一页,编辑于2023年,星期五信息位点能将所有可能的树区别出来的位点。至少存在2个不同碱基/氨基酸且每个不同碱基/氨基酸至少出现两次的位点。构建系统进化树的方法

——最大简约法(MP)

第四十一页,共一百一十一页,编辑于2023年,星期五第四十二页,共一百一十一页,编辑于2023年,星期五上例1.Position5,7,9为信息位点2.基于position5的三个MP树:Tree1长度1,Tree2&3长度23.Tree1更为简约:总长:4Tree2长5;Tree3长64.计算结果:MPtree的最优结果为tree1第四十三页,共一百一十一页,编辑于2023年,星期五构建系统进化树的方法

——距离法又称距离矩阵法,首先通过各个物种之间的比较,根据一定的假设(进化距离模型)推导得出分类群之间的进化距离,构建一个进化距离矩阵。进化树的构建则是基于这个矩阵中的进化距离关系。第四十四页,共一百一十一页,编辑于2023年,星期五构建系统进化树的方法

——距离法简单的距离矩阵第四十五页,共一百一十一页,编辑于2023年,星期五由进化距离构建进化树的方法有很多,常见有:(1)Fitch-MargoliashMethod(FM法):对短支长非常有效(2)Neighbor-JoiningMethod(NJ法/邻接法):求最短支长,最通用的距离方法(3)NeighborsRelatonMethod(邻居关系法)(4)UnweightedPairGroupMethod(UPGMA法/非加权组平均法)构建系统进化树的方法

——距离法第四十六页,共一百一十一页,编辑于2023年,星期五DE距离=d+e(1)D到ABC间的平均距离=d+m(2)E到ABC间的平均距离=e+m(3)(2)-(3)+(1)d=4,e=6构建系统进化树的方法

——FM法第四十七页,共一百一十一页,编辑于2023年,星期五C最接近DE!分成三组:C,DE,以及AB构建系统进化树的方法

——FM法第四十八页,共一百一十一页,编辑于2023年,星期五c+g+(e+d)/2=19(1)c+f+(a+b)/2=40(2)(e+d)/2+(a+b)/2+f+g=41(2)(1)+(2)-(3)得:c=9构建系统进化树的方法

——FM法第四十九页,共一百一十一页,编辑于2023年,星期五c+g+(e+d)/2=19(e+d)/2=5,c=9,则g=5构建系统进化树的方法

——FM法第五十页,共一百一十一页,编辑于2023年,星期五由:(a+b)/2+f+g+(d+e)/2=41得:f=20由:a+f+c=39得:a=10,则b=12构建系统进化树的方法

——FM法第五十一页,共一百一十一页,编辑于2023年,星期五1.最大似然法(maximumlikelihood,ML):最早应用于对基因频率数据的分析上2.选取一个特定的替代模型来分析给定的一组序列数据,在每组序列比对中考虑每个核苷酸替换的概率。例如,转换出现的概率大约是颠换的三倍。在一个三条序列的比对中,如果发现其中有一列为一个C,一个T和一个G,我们就认为,C和T所在的序列之间的关系很有可能更接近。3.计算表示序列关系的每棵可能的树的概率。概率总和最大的那棵树最有可能是反映真实情况的系统发生树。4.缺点:费时,每个步骤都要考虑内部节点的所有可能性5.改进:启发式算法构建系统进化树的方法

——最大似然法(ML)第五十二页,共一百一十一页,编辑于2023年,星期五构建系统进化树的原则第五十三页,共一百一十一页,编辑于2023年,星期五1.可靠的待分析数据2.准确的多序列比对3.选择合适的建树方法:A.序列相似程度高,MP首先B.序列相似程度较低,ML首先C.序列相似程度太低,无意义4.一般采用两种及以上方法构建进化树,无显著区别可接受构建系统进化树的原则第五十四页,共一百一十一页,编辑于2023年,星期五1.选择一个或多个已知与分析序列关系较远的序列作为外围支2.外围支可以辅助定位树根3.外围支序列必须与剩余序列关系较近,但外围支序列与其他序列间的差异必须比其他序列之间的差异更显著构建系统进化树的原则选择外围支bacteriaoutgroupeukaryoteeukaryoteeukaryoteeukaryotearchaeaarchaeaarchaea外类群第五十五页,共一百一十一页,编辑于2023年,星期五进化树的可靠性分析单纯由预先获得的多序列比对结果数据所推导出的进化树有时并不一定可靠。改进办法:引进一些统计分析来寻找更优的进化树,检验结果的可靠性。最常见的就是bootstrap评估。第五十六页,共一百一十一页,编辑于2023年,星期五从排列的多序列中随机有放回的抽取某一列,构成相同长度的新的排列序列;重复上面的过程,得到多组新的序列;对这些新的序列进行建树,再观察这些树与原始树是否有差异,以此评价建树的可靠性。至少进行100次重复取样。进化树的可靠性分析自举法(BootstrapMethod)第五十七页,共一百一十一页,编辑于2023年,星期五进化树的可靠性分析

自举法(BootstrapMethod)原始数据多序列比对结果对序列中每个位置重复抽样,基于原比对结果生成多个样本第五十八页,共一百一十一页,编辑于2023年,星期五第五十九页,共一百一十一页,编辑于2023年,星期五第三节分子系统发育分析软件及应用常用分子系统发育分析软件分子系统发育分析实例(实验三)第六十页,共一百一十一页,编辑于2023年,星期五软件说明PHYLIP免费的、集成的进化分析工具/phylip.htmlMEGA图形化、集成的进化分析工具,不包括ML/

PAUP商业软件,集成的进化分析工具

/PHYML最快的ML建树工具http://atgc.lirmm.fr/phyml/MrBayes基于贝叶斯方法的建树工具/MAC5基于贝叶斯方法的建树工具/software/mac5/常用分子系统发育分析软件第六十一页,共一百一十一页,编辑于2023年,星期五常用分子系统发育分析软件软件说明ClustalX图形化的多序列比对工具;构建N-J系统树http://bips.u-strasbg.fr/fr/Documentation/ClustalX/GeneDoc多序列比对结果的美化工具(可以导入fasta格式的文件,作图可用于发表)/biomed/genedoc/

BioEdit序列分析的综合工具

/BioEdit/bioedit.html

TreeView进化树显示工具http://taxonomy.zoology.gla.ac.uk/rod/treeview.html

第六十二页,共一百一十一页,编辑于2023年,星期五常用分子系统发育分析软件进化分析软件PHYLIP:由华盛顿大学遗传学系开发,是一个免费的系统发育分析软件包,可以通过以下地址下载,目前已更新至3.69版。/phylip.htmlPhylip包含了35个独立的程序,这些独立的程序都实现特定的功能,这些程序基本上包括了系统发生分析的所有方面。第六十三页,共一百一十一页,编辑于2023年,星期五分子系统发育分析实例(实验三)第六十四页,共一百一十一页,编辑于2023年,星期五第五章:基于特征的系统发生分析

第六十五页,共一百一十一页,编辑于2023年,星期五分子系统发生分析主要分成三个步骤:(1)分子序列或特征数据的分析;(2)系统发生树的构造;(3)结果的检验。其中,第一步的作用是通过分析,产生距离或特征数据,为建立系统发生树提供依据。

第六十六页,共一百一十一页,编辑于2023年,星期五

构成系统发生树的分子数据:

特征数据基于特征的系统发生分析

距离数据基于距离的系统发生分析关于进化关系的结论的一致性可以看作是对一棵系统发生树的正确性的积极认可。第六十七页,共一百一十一页,编辑于2023年,星期五5.1简约法在生物学中,描述按照进化途径中突变事件最少的标准来优先选择一个进化途径的过程。两个简单假设:(1)突变是罕见事件;(2)一个模型引发了越不合理的事件,这个模型就越不可能是正确的。

因此,突变最少的进化关系就越有可能是物种之间真实的进化关系。第六十八页,共一百一十一页,编辑于2023年,星期五4个物种三种可能的无根树123413241423第六十九页,共一百一十一页,编辑于2023年,星期五5.1.1信息位点和非信息位点根据信息内容可以分为:信息位点

(informative):含有信息的位点

信息位点就是指能由位点产生的突变数目把一棵树与其它树区分开来的位点;非信息位点

(uninformative):不含有信息的位点

不变位点

(invariant):属于非信息位点,比较的所有序列都有同样的核苷酸。即每一棵描述所有序列间进化关系的树都有相同的突变数目(0)。第七十页,共一百一十一页,编辑于2023年,星期五((1,2)(3,4))((1,3)(2,4))((1,4)(2,3))序列位点1位点2位点3位点4位点5位点61GGGGGG2GGGAGT3GGATAG4GATCAT

图5.1

4条同源序列的比对(每条序列有6个核苷酸)6个位点构造4个物种之间进化关系的可能无根树不变位点第七十一页,共一百一十一页,编辑于2023年,星期五序列位点1位点2位点3位点4位点5位点61GGGGGG2GGGAGT3GGATAG4GATCAT((1,2)(3,4))((1,3)(2,4))((1,4)(2,3))不变位点非信息位点第七十二页,共一百一十一页,编辑于2023年,星期五序列位点1位点2位点3位点4位点5位点61GGGGGG2GGGAGT3GGATAG4GATCAT不变位点非信息位点非信息位点((1,2)(3,4))((1,3)(2,4))((1,4)(2,3))第七十三页,共一百一十一页,编辑于2023年,星期五序列位点1位点2位点3位点4位点5位点61GGGGGG2GGGAGT3GGATAG4GATCAT不变位点非信息位点非信息位点非信息位点((1,2)(3,4))((1,3)(2,4))((1,4)(2,3))第七十四页,共一百一十一页,编辑于2023年,星期五序列位点1位点2位点3位点4位点5位点61GGGGGG2GGGAGT3GGATAG4GATCAT不变位点非信息位点非信息位点非信息位点信息位点((1,2)(3,4))((1,3)(2,4))((1,4)(2,3))第七十五页,共一百一十一页,编辑于2023年,星期五序列位点1位点2位点3位点4位点5位点61GGGGGG2GGGAGT3GGATAG4GATCAT不变位点非信息位点非信息位点非信息位点信息位点信息位点((1,2)(3,4))((1,4)(2,3))((1,3)(2,4))T第七十六页,共一百一十一页,编辑于2023年,星期五信息位点的共同特征:

如果一个位点是信息位点,那么它(1)至少有两种不同的核苷酸,并且(2)这些核苷酸至少出现两次。第七十七页,共一百一十一页,编辑于2023年,星期五5.1.2无权简约法最简约树:考虑每个信息位点所有可能的树,分别给每棵树进行打分,统计每个位点的核苷酸最小替换数目。所有简约信息位点最小核苷酸替换数的总和最小的树记为最简约树。4条序列比对的例子可能是最简单的例子:在只包含4条序列的分析中,每个信息位点只能支持3棵可能的树中的1棵,含有最多信息位点的树就是最简约树。第七十八页,共一百一十一页,编辑于2023年,星期五5条或更多序列数据集的计算复杂得多。原因在于:⑴随序列数增加,无根树数目也增加;⑵每个信息位点可能有多棵树,整个数据集的最大简约树不一定是含最多信息位点的树;⑶每棵树的核苷酸替换数目的计算更加困难。n个物种可能得到无根系统发生树(Nu)数目:

Nu=(2n-5)!/2n-3(n-3)!第七十九页,共一百一十一页,编辑于2023年,星期五下图是描述5条不同序列之间关系的15棵可能无根树中的3棵。这3棵无根树有相同的简约度,它们的最小替换数都是2。由简约规则,推断出的祖先的候选核苷酸分别列在每个内部节点的旁边。T512346789GGAAGA(GA)(GAT)(a)A123456789GGTAGA(GT)

(GTA)(b)123456789GTGAAGGA(GA)(c)计算祖先核苷酸位置的算法:如果一个内部节点的两个直接后代节点上的核苷酸的交集非空,那么这个节点的最可能的候选核苷酸集就是这个交集;否则为它的两个后代节点上的核苷酸集的并集。第八十页,共一百一十一页,编辑于2023年,星期五上述方法只适用于信息位点,不适用于非信息位点。非信息位点的最小替换数:外部节点上不同核苷酸数目减去1(与树的拓扑结构无关)例如:

5条序列的比对中,有一个位置上的核苷酸是G、G、A、G和T,则最小替换数就是3-1=2。非信息位点对所有可能的树的贡献都是等价的,在简约分析中往往被完全排除。树的长度(length):当一棵树在信息位点和非信息位点的替换数的总和是一个确定的数值时,这个数值就是指树的长度。第八十一页,共一百一十一页,编辑于2023年,星期五5.1.3加权简约法赋值的必要性:“突变是罕见事件”将所有突变看成是等价的,但之前的学习已经告诉我们插入和删除比替换可能性小;长插入和长删除比短插入和短删除少见;转换概率大于颠换;功能相关的突变比无关的突变发生的概率小……因此,我们给各种突变赋予相对概率值,在简约算法中可将这些值转化为权值。第八十二页,共一百一十一页,编辑于2023年,星期五我们无法得到一组适用于所有数据集的权值,原因有三:(1)一些序列比其他序列更容易插入和删除;(2)即使是同源基因,对功能的重要性也因不同的基因、不同的物种而有所差别;(3)不同的基因和物种有不同的替换偏好。因此,最佳的权值通常来自对实验数据集的分析,可获得的最佳实验数据集是实际分析过的数据集。例如:假如转换出现频率为颠换的3倍,那么对同一序列集的简约分析就可以给所有的转换替换赋权值1,给所有的颠换替换赋权值0.33。第八十三页,共一百一十一页,编辑于2023年,星期五5.2推断出的祖先序列简约法最值得注意的副产品是分析过程中产生的推断出的祖先序列,即使这些祖先可能在数亿年前就已经灭绝。推断出的树中的内部分支的信息位点称作共源性状(synapomorphies,几个物种共有的遗传状态)。其他信息位点称作同形性状(homoplasies,),它是通过趋同进化、平行进化和逆转进化,由物种独立发展出来的特征,而不是从共同祖先遗传得到的。第八十四页,共一百一十一页,编辑于2023年,星期五哺乳动物啮齿动物例如同形性状共源性状

应用

进化论对创世论的反驳利用简约分析推断出祖先,不仅填补了分子进化研究中空白,还能从现存后代序列中推断出中间状态;第八十五页,共一百一十一页,编辑于2023年,星期五5.3快速搜索策略即使信息位点的数目较少,用未改进的简约法对较多序列的比对进行手工计算也是不现实。分析10条序列需要考虑200万棵树。由于数据集十分庞大,计算困难,因此研究出一些改进的算法,不用考虑所有可能的树就能够方便可靠地确定最简约树。分支约束法启发式搜索第八十六页,共一百一十一页,编辑于2023年,星期五5.3.1分支约束法分支约束法(BranchandBoundMethod)是在一个复杂的空间中进行搜索的通用技术,搜索空间以从一个分层树的根节点至叶节点的一系列路径表示。步骤:⑴为最简约树的长度确定一个上限

L。

L的值可以是随机选择的任何一棵描述被研究物种之间关系的树的长度。但是如果用近似最简约的树(例如UPGMA产生的树)来建立上限更有效。⑵树的生长过程,即在描述部分序列之间关系的树中每次增加一个分支。第八十七页,共一百一十一页,编辑于2023年,星期五这个方法的原理是:由数据子集得到的任何一棵树,如果它的替换数大于L,那么当剩下的序列加入后,总的分支长度必定变得更大,那么原先的长度为L的树为最简约树。如果在分析过程中,如果发现比初始建立的上限为L的树替换数更少的树,那么L的值将随之修正,这样余下的数据集的分析将更为有效。第八十八页,共一百一十一页,编辑于2023年,星期五分支约束法搜索最简约树的过程表示3个物种(A,B,C)之间关系的无根树只有1棵(A1);用这棵树作为起始点,将第4个物种(D)插入到树A1中,得到四个物种的3种无根树(B1,B2,B3);如果插入后得到的树的长度大于原来的树,例如B3,舍弃该树。继续插入第5个物种,重复上述步骤,直到所有待分析物种都被插入到树中。下图是用分支约束法搜索简约树的过程第八十九页,共一百一十一页,编辑于2023年,星期五BACA1STOPABCDB3ABCDB2ABCDB1ABCDEABCDEABCDEABCDEABCDEABCDEABCDEABCDEABCDEABCDEC2.1C2.2C2.3C2.4C2.5STOPSTOPSTOPSTOPSTOPC1.1C1.2C1.3C1.4C1.5图5.4用分支约束法搜索最简约树的过程第九十页,共一百一十一页,编辑于2023年,星期五分支约束法快速搜索策略的优缺点优点:分支约束法保证在分析完成时没有遗漏更简约的树,具有比穷举法搜索快几个数量级的优点;能分析多达20条序列。缺点:对于多于1×1021可能的无根树的分析,计算量还是太大。第九十一页,共一百一十一页,编辑于2023年,星期五5.3.2启发式搜索对大于20条序列的多序列进行比对必须采用近似的更为有效的算法。启发式方法的假设:各个可能的树并不总是相互独立的。最简约数和次简约数拓扑结构相似,因此首先构建一棵初始树,从它开始寻找更短的树。因此启发式搜索通过子树分支交换,把它们嫁接到该步分析中找到的最好的那棵树的其他位置上,从而产生一棵拓扑结构和初始树相似的树。同分支约束法一样,如果初始树很接近于最简约树(例如UPGMA产生的树),启发式搜索会更有效。第九十二页,共一百一十一页,编辑于2023年,星期五图5.5分支交换再接1234567剪除1245673第一轮分析中,由初始树产生出上百棵新树,其中所有比初始树短的新树都在第二轮分析中被剪枝和嫁接。不断重复这个过程,直到某一轮通过剪枝和嫁接无法产生与前一轮等长或更短的树。第九十三页,共一百一十一页,编辑于2023年,星期五大量序列比对的可能的无根树的数目是一个天文数字,这种比对深度对计算造成了很大困难,把多个序列比对分成几个较少序列的比对可以较好的解决这一问题。例如:同源哺乳动物序列灵长类序列啮齿类序列部分偶蹄、兔类、灵长、啮齿探知树中灵长类所在树干的末段之间的关系确定树中啮齿类所在树干的末段之间的关系检验更早的分支、更具体的灵长类树干和啮齿类树干的最后位置第九十四页,共一百一十一页,编辑于2023年,星期五5.4一致树简约法产生多棵等价的简约数是很常见的。此时最简单的方法是用一个一致树(consensustree)作为代表来概括所有等价的简约树。方法如下:(1)在所有树中都一致的分支点在一致树中表示成二叉分支点。(2)不一致的分支点蜕变成连接三个或更多后代分支的内部节点。第九十五页,共一百一十一页,编辑于2023年,星期五严格一致树(strictconsensustree):只要有一棵简约树与其他不同,对所有不一致的分支点都进行相同的处理。过半截定一致(50%majority-ruleconsensus)

:只要有至少一半的树符合条件,这个内部节点在一致树中就可以表示成二叉节点,而少于一半的树符合条件的内部节点表示为多叉节点。不一致性阈值是一个参数,可以取0~100%的任意值。第九十六页,共一百一十一页,编辑于2023年,星期五由一个数据集推断出的3棵树7712345612345612345671234567过半截定一致原则1234567严格一致原则第九十七页,共一百一十一页,编辑于2023年,星期五5.5树的置信度所有的系统发生树都是关于组成数据集的序列的进化历史的假设。系统发生树的可靠性?问题:

(1)整棵树和它的组成部分(分支)的置信度是多少?

(2)这样得到正确的树的可能性比随机选出一棵是正确的树的可能性大多少?解决方法:自举检验——解决问题(1)参数检验——解决问题(2)第九十八页,共一百一十一页,编辑于2023年,星期五5.5.1自举检验(bootstraptest)

自举检验是一种重采样技术,能粗略地量化这些置信度水平。

自举检验的基本方法是:(1)从原数据集中抽取(同时替换)部分数据组成新的数据集。(2)用这个新的数据集推断系统发生树。重复上述过程,产生成百上千的重采样数据集,并同时生成对应的自举树,进而检验自举树对最终系统发生树各个分支的支持率。在各个自举树中都有出现或大量出现的那些部分将具有较高的置信度。产生相同分组的自举树的数目常常标注在系统发生树相应节点的旁边,表示树中每个部分的相对置信度。第九十九页,共一百一十一页,编辑于2023年,星期五系统发生树的自举检验序列Ⅳ位置ⅠⅡⅢⅤ推断树ⅠⅡⅢⅣⅤ自举树1ⅠⅡⅢⅣⅤ自举树2ⅠⅡⅢⅣⅤ自举树3ⅠⅡⅢⅣⅤ(a)(b)自举树ⅠⅡⅢⅣⅤ(c)

为3个重采样数据集的一致树7567GGGGGGGAAAGGGAGGGAAAGGGTAAAAATGAACAAAGGTGTTCAAAAAT12245557710GGGGGGATTTGGGATTATTTAAATGGACCCTTTCTTGTTTTTTCTTATTT3334667888GGGGGGGCCCGGGGGGTCCCGGAAAAGAAAGGTAAATAAAGGTAAATCCC1135556999GGGGGGATCAGGGAGTATCAGGATAGACATGATCATGTATGTTCATATCT12345678910第一百页,共一百一十一页,编辑于2023年,星期五5.5.2参数检验是否一棵有10,000个替换的树比另一棵有10,001个替换的树更有可能描述序列间真实进化关系?比起先前提出的另一棵描述物种间进化关系的树,最简约树是真实树的概率会大多少?

第一百零一页,共一百一十一页,编辑于2023年,星期五H.Kishino和M.Hasegawa假设比对中的各个信息位点彼此独立而且等价,并用两棵树的最小替换数之差D作为检验统计量。分别考虑每一个信息位点,按下式计算反映D变化程度的V值:

其中n是信息位点的数目,Di为两棵树中各个信息位点替换数的差值。n–1个自由度的t检验可以用来检验空假设,即两棵树的替换数相等的情况:第一百零二页,共一百一十一页,编辑于2023年,星期五5.6各种系统发生分析方法的比较无论是基于距离的系统发生树重建方法,还是基于特征的系统发生树重建方法,都不能保证一定能够得到

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论