版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
金丽华生物信息技术
项目3进化树的构建生物信息技术
项目3进化树的构建1项目3课程导学生物是怎么进行进化的?从什么数据中我们可以看出生物分子的进化过程呢?猴子和人类有多大的相似性?在本项目中,我们利用系统进化树的方法来理解生物的进化过程。项目3课程导学生物是怎么进行进化的?2项目任务1)学习并理解分子进化。2)能理解分子钟和中性理论3)能看懂进化树4)能利用MEGA5.1软件画出系统进化树。项目任务1)学习并理解分子进化。3学习内容1.分子进化与系统发育2.分子进化树与系统进化树3.利用MEGA5.1构建进化树(实操任务)学习内容1.分子进化与系统发育4分子进化与系统发育分子进化与系统发育5内容提要分子进化分析介绍系统发育树重建方法Phylip软件包在分子进化分析中的应用PAUP*在分子进化分析中的应用MEGA分子进化树分析软件内容提要分子进化分析介绍6
从物种的一些分子特性出发,从而了解物种之间的生物系统发生的关系。
蛋白和核酸序列
通过序列同源性的比较进而了解基因的进化以及生物系统发生的内在规律。分子进化研究的目的 从物种的一些分子特性出发,从而了解物种之间的生物系统发生7系统发育树是什么?
对一组实际对象的世系关系的描述(如基因,物种等)。系统发育树是什么? 对一组实际对象的世系关系的描述(如基因,8祖先节点/树根内部节点/分歧点,该分支可能的祖先结点分支/世系末端节点
ABCDE代表最终分类,可以是物种,群体,或者蛋白质、DNA、RNA分子等系统发育树:术语祖先节点/树根内部节点/分歧点,该分支可能的祖先结点分支/世9ABCDE†FG树只代表分支的拓扑结构FGCDE†ABABCDE†FG树只代表分支的拓扑结构FGCDE†AB10分子进化研究的基础(假设)核苷酸和氨基酸序列中含有生物进化历史的全部信息。分子进化研究的基础(假设)核苷酸和氨基酸序列中含有生物进化历11在各种不同的发育谱系及足够大的进化时间尺度中,许多序列的进化速率几乎是恒定不变的。(分子钟理论,1965)分子进化研究的基础(理论)分子进化研究的基础(理论)12虽然很多时候仍然存在争议,但是分子进化确实能阐述一些生物系统发生的内在规律。分子进化研究的基础(实际)分子进化研究的基础(实际)13从一个分歧数据可以推测其他序列分歧度分歧时间xy分子钟理论从一个分歧数据可以推测其他序列分歧度分歧时间xy分子14速率恒定的证据:血色素速率恒定的证据:血色素15中性理论“在生物分子层次上的进化改变不是由自然选择作用于有利突变引起的,而是在连续的突变压之下由选择中性或非常接近中性的突变的随机固定造成的,中性突变是指对当前适应度无影响的突变。”否认自然选择在生物进化中的作用,认为生物大分子的进化的主要因素是机会和突变压力中性理论16进化及遗传模型1、序列有指定的来源并且正确无误。2、序列是同源的,而序列不是“paralog”的混合物。3、序列比对中,不同序列的同一个位点都是同源的4、在接受分析的一个序列组中,序列之间的系统发育史是相同的。5、样本足以解决感兴趣的问题。进化及遗传模型1、序列有指定的来源并且正确无误。17进化及遗传模型6、样本序列之间的差异代表了感兴趣的宽组。7、样本序列之间的差异包含了足以解决感兴趣的问题的系统发育信号。8、样本序列是随机进化的。9、序列中的所有位点的进化都是随机的。10、序列中的每一个位点的进化都是独立的。进化及遗传模型6、样本序列之间的差异代表了感兴趣的宽组。18直系同源(orthologs):同源的基因通过物种形成的事件而产生,或源于不同物种的最近的共同祖先的两个基因,或者两个物种中的同一基因,一般具有相同的功能。并系同源(paralogs):同源基因在同一物种中,通过至少一次基因复制的事件而产生。直系同源与旁系同源直系同源(orthologs):同源的基因通过物种形成的事件19paralogsorthologsparalogsorthologs20paralogsorthologsErikL.L.SonnhammerOrthology,paralogyandproposedclassificationforparalogsubtypesTRENDSinGeneticsVol.18No.12December20020168-9525/02/$–seefrontmatter©2002ElsevierScienceLtd.Allrightsreserved.paralogsorthologsErikL.L.Son21
以上两个概念代表了两个不同的进化事件用于分子进化分析中的序列必须是直系同源的,才能真实反映进化过程。生物信息技术概述课件22趋同进化的基因(Convergentevolution)通过不同的进化途径获得相似的功能,或者功能替代物(geneshaveconvergedfunctionbyseparateevolutionarypaths)趋同进化的基因(Convergentevolution)23异源基因或水平转移基因(xenologousorhorizontallytransferredgenes)由某一个水平基因转移事件而得到的同源序列异源基因或水平转移基因24Bacterium1Bacterium3Bacterium2Eukaryote1Eukaryote4Eukaryote3Eukaryote2Bacterium1Bacterium3Bacterium2Eukaryote1Eukaryote4Eukaryote3Eukaryote2Phylogramsshowbranchorderandbranchlengths进化树,有分支和支长信息2.进化分支图,进化树Cladogramsshowbranchingorder-branchlengthsaremeaningless进化分支图,只用分支信息,无支长信息。Bacterium1Bacterium3Bacteriu25archaeaarchaeaeukaryoteeukaryoteeukaryoteeukaryote通过外围支来确定树根archaeabacteriaoutgroup根eukaryoteeukaryoteeukaryoteeukaryote无根树archaeaarchaeaarchaea有根树外围支无根树,有根树,外围支archaeaarchaeaeukaryoteeukaryo26无根树和有根树:潜在的数目#Taxa无根树有根树31343155151056105945794510,395…30~3.58X1036~2.04X1038Taxa增多,计算量急剧增加,因此,目前算法都为优化算法,不能保证最优解无根树和有根树:潜在的数目#Taxa无274.基因树,物种树WeoftenassumethatgenetreesgiveusspeciestreesabcABDGenetreeSpeciestree4.基因树,物种树Weoftenassumeth28系统发育树重建分析步骤多序列比对(自动比对,手工比对)建立取代模型(建树方法)建立进化树进化树评估系统发育树重建分析步骤多序列比对(自动比对,手工比对)建立取291.最大简约法(maximumparsimony,MP)2.距离法(distance)3.最大似然法(maximumlikelihood,ML)系统发育树重建的基本方法1.最大简约法(maximumparsimony,M30最大简约法(MP)1.理论基础为奥卡姆剃刀(Ockham)原则:计算所需替代数最小的那个拓扑结构,作为最优树2.在分析的序列位点上没有回复突变或平行突变,且被检验的序列位点数很大的时候,最大简约法能够推导获得一个很好的进化树3.优点:不需要在处理核苷酸或者氨基酸替代的时候引入假设(替代模型)4.缺点:分析序列上存在较多的回复突变或平行突变,而被检验的序列位点数又比较少的时候,可能会给出一个不合理的或者错误的进化树推导结果最大简约法(MP)1.理论基础为奥卡姆剃刀(Ockha311.信息位点,必须在至少2个taxa中具有相同的序列性状2.信息位点是指那些至少存在2个不同碱基/氨基酸且每个不同碱基/氨基酸至少出现两次的位点信息位点(Sitesareinformative)1.信息位点,必须在至少2个taxa中具有相同的序列性状信32生物信息技术概述课件33上例1.Position5,7,9为信息位点2.基于position5的三个MP树:Tree1长度1,Tree2&3长度23.Tree1更为简约上例1.Position5,7,9为信息位点342.距离法又称距离矩阵法,首先通过各个物种之间的比较,根据一定的假设(进化距离模型)推导得出分类群之间的进化距离,构建一个进化距离矩阵。进化树的构建则是基于这个矩阵中的进化距离关系2.距离法又称距离矩阵法,首先通过各个物种之间的比较,根据35计算序列的距离,建立距离矩阵通过距离矩阵建进化树计算序列的距离,建立距离矩阵通过距离矩阵建进化树36简单的距离矩阵简单的距离矩阵37由进化距离构建进化树的方法有很多,常见有:(1)Fitch-MargoliashMethod(FM法):对短支长非常有效(2)Neighbor-JoiningMethod(NJ法/邻接法):求最短支长,最通用的距离方法(3)NeighborsRelatonMethod(邻居关系法)(4)UnweightedPairGroupMethod(UPGMA法)通过距离矩阵建树的方法由进化距离构建进化树的方法有很多,常见有:通过距离矩阵建树的381.找出关系最近的序列对,如A和B2.将剩余的序列作为一个简单复合序列,分别计算A、B到所有其他序列的距离的平均值3.用这些值来计算A和B间的距离4.将A、B作为一个单一的复合序列AB,计算与每一个其他序列的距离,生成新的距离矩阵5.确定下一对关系最近的序列,重复前面的步聚计算枝长7.从每个序列对开始,重复整个过程8.对每个树计算每对序列间的预测距离,发现与原始数据最符合的树Fitch-Margoliash方法(FM法)1.找出关系最近的序列对,如A和BFitch-Margoli39Fitch-Margoliash方法(FM法)Fitch-Margoliash方法(FM法)40D和E最接近!分成三组:D,E,以及ABCD和E最接近!分成三组:D,E,以及ABC41DE距离=d+e(1)D到ABC间的平均距离=d+m(2)E到ABC间的平均距离=e+m(3)(2)-(3)+(1)d=4,e=6DE距离=d+e(1)42C最接近DE!分成三组:C,DE,以及ABC最接近DE!分成三组:C,DE,以及AB43c+g+(e+d)/2=19(1)c+f+(a+b)/2=40(2)(e+d)/2+(a+b)/2+f+g=41(2)(1)+(2)-(3)得:c=9c+g+(e+d)/2=19(1)44c+g+(e+d)/2=19(e+d)/2=5,c=9,则g=5c+g+(e+d)/2=1945由:(a+b)/2+f+g+(d+e)/2=41得:f=20由:a+f+c=39得:a=10,则b=12由:(a+b)/2+f+g+(d+e)/2=41得:f=246练习题
计算以下序列的进化距离,画出进化树。序列1:AACTGTTAGTCAATTGATTCCAATGGTCCATAAACGAATC序列2:AACAGTCAGTCAAGTGTTTCCTTTGGTCCATCGACGAATC序列3:AAGGGTCTGTCACAGGATGGCATCGGTCGGTAAACGAGAC序列4:AAGGGTCTGTCACAG
GAAGG
CATCGGTGGGTAAACGTGAC序列5:AACAC
ACAGTCAAGAGTTTCCTTGGGTCCATCGTCGAATC练习题序列1:AACTGTTAGTCAATTGAT47NJ法/邻接法Neighbor-JoiningMethod(NJ法/邻接法):邻接法(Neighbor-joiningMethod)由Saitou和Nei(1987)提出。该方法通过确定距离最近(或相邻)的成对分类单位来使系统树的总距离达到最小。相邻是指两个分类单位在某一无根分叉树中仅通过一个节点(node)相连。通过循序地将相邻点合并成新的点,就可以建立一个相应的拓扑树。NJ法/邻接法Neighbor-JoiningMethod48NJ/邻接法1.与FM方法非常类似2.保证总的支长最短总支长:a+b+c+d+e=314/4=78.5NJ/邻接法1.与FM方法非常类似总支长:a+b+c+d+49找到距离最近的两个点1.任意两个节点选为相邻序列的总支长计算公式:2.计算SAB,SBC,SCD,SDE…等数值3.该例中,SAB最小找到距离最近的两个点1.任意两个节点选为相邻序列的总支长计算50
把A、B看成一个新的复合序列,构建一个新的距离表,重复以上过程计算A,B的分支长度把A、B看成一个新的复合序列,构建一个新的距离表,重51AB组合出现3次,DE组合出现3次,CD、AC、BC组合各一次,则AB和DE各为两对关系最近的邻居。(关系最近的邻居作为邻居的次数最多),将邻居看成一个新的复合序列,重复这个过程邻居关系法AB组合出现3次,DE组合出现3次,CD、AC、BC组合各一52UPGMA法称为(应用算术平均数的非加权成组配对法,unweightedpair-groupmethodusinganarithmeticaverage)。该法将类间距离定义为两个类的成员所有成对距离的平均值,广泛用于距离矩阵。Nei等模拟了构建树的不同方法,发现当沿树上所有分枝的突变率相同时,UPGMA法一般能够得到较好的结果。但必须强调有关突变率相等(或几乎相等)的假设对于UPGMA的应用是重要的。另一些模型研究(如Kim和Burgman)已证实当各分枝的突变率不相等时,这一方法的结果不尽人意。当各分枝突变率相等时,认为分子钟(molecularclock)在起作用。UPGMA法称为(应用算术平均数的非加权成组配对法,unw53d=e=10/2=5UPGMA法d=e=10/2=5UPGMA法54c=19/2=9.5g=c-d=9.5-5=4.5c=19/2=9.555a=b=22/2=11AB(CDE)A-2239.5B--41.5(CDE)---a=b=22/2=11AB(CDE)A-2239.5B--456(AB)(CDE)(AB)-40.5(CDE)--f1+a=f2+c=40.5/2=20.25f1=9.25,f2=11.75(AB)(CDE)(AB)-40.5(CDE)--f1+a=57最大似然法(ML)1.最大似然法(maximumlikelihood,ML):最早应用于对基因频率数据的分析上2.选取一个特定的替代模型来分析给定的一组序列数据,使得获得的每一个拓扑结构的似然率都为最大值,然后再挑出其中似然率最大的拓扑结构作为最优树3.在最大似然法的分析中,所考虑的参数并不是拓扑结构而是每个拓扑结构的枝长,并对似然率求最大值来估计枝长4.缺点:费时,每个步骤都要考虑内部节点的所有可能性5.改进:启发式算法最大似然法(ML)1.最大似然法(maximumlik58构建进化树的一般原则构建进化树的一般原则591.选择一个或多个已知与分析序列关系较远的序列作为外围支2.外围支可以辅助定位树根3.外围支序列必须与剩余序列关系较近,但外围支序列与其他序列间的差异必须比其他序列之间的差异更显著选择外围支(Outgroup)1.选择一个或多个已知与分析序列关系较远的序列作为外围支选601.进化树的可靠性分析:自展法(BootstrapMethod)从排列的多序列中随机有放回的抽取某一列,构成相同长度的新的排列序列2.重复上面的过程,得到多组新的序列3.对这些新的序列进行建树,再观察这些树与原始树是否有差异,以此评价建树的可靠性自展法1.进化树的可靠性分析:自展法(BootstrapMe61原始排列AlphaAACAACBetaAACCCCGammaACCAACDeltaCCACCAEpsilonCCAAACBootstrap1AlphaACAAACBetaACCCCCGammaACAAACDeltaCACCCAEpsilonCAAAACBootstrap2AlphaAAAACCBetaAACCCCGammaCCAACCDeltaCCCCAAEpsilonCCAACC
Bootstrap3AlphaACAAACBetaACCCCCGammaCCAAACDeltaCACCCAEpsilonCAAAAC原始排列Bootstrap162PHYLIP、PUZZLE、MEGA、PAUP、TREEVIEW、CLUSTALX和PHYLO-WIN(LINUX)常用的进化树软件phylip3.6a3进化树分析软件,并可绘制进化树。TreeView1.6.6进化树处理软件。GeneTree1.3比较基因与种系进化树的程序。NDE0.5.0用来编辑NEXUS格式文件的程序。TreeMap1.0用来可视地比较主、从进化树的程序。Spectrum分析进化信息而不用将之转化为进化树的软件。Phyltools1.32计算与处理进化树数据的软件。tree-puzzle5.0核酸序列、蛋白序列相似性分析及进化树构建工具。ATV1.92JAVA语言编写的显示“NewHampshire”与NHX格式的进化树文件软件。TREECON1.3bDemo构建和绘制进化树的软件包。ProBiosys1.0比较表现型分类法数据和分析计算核酸序列数据距离值的软件。COMPONENT2.0分析进化树免费软件。NJplot小巧的显示进化树的免费软件NJplot。MEGA2.1免费分子进化遗传分析软件PAUP4PAUP的快速使用手册PHYLIP、PUZZLE、MEGA、PAUP、TREEVI63生物信息技术概述课件64生物信息技术概述课件65生物信息技术概述课件66生物信息技术概述课件67Phylip软件包介绍Phylip是一个免费的系统发生(phylogenetics)分析软件包。以下链接可以下载:
http://evolution.genetics,/phylip.html
由华盛顿大学遗传学系开发,1980年首次公布。Phylip软件包介绍Phylip是一个免费的系统发生(ph68Phylip软件包介绍Phylip包含了35个独立的程序,这些独立的程序都实现特定的功能,这些程序基本上包括了系统发生分析的所有方面。
Phylip有多种不同平台的版本(包括windows,Macintosh,DOS,Linux,Unix和OpenVMX)。Phylip软件包介绍Phylip包含了35个独立的程69Phylip是目前最广泛使用的系统发生分析程序,主要包括一下几个程序组:分子序列组,距离矩阵组,基因频率组,离散字符组,进化树绘制组。
Phylip软件包介绍Phylip是目前最广泛使用的系统发生分析程序,主要包70分子序列组:
1.蛋白质序列:protpars,proml,promlk,
protdist2.核酸序列:dnapenny,dnapars,
dnamove,dnaml,dnamlk,
dnainvar,dnadist,dnacompPhylip软件包分组介绍分子序列组:Phylip软件包分组介绍71距离矩阵组:Fitch,kitsch,neighbor基因频率组:Gendist,contml离散字符组Pars,mix,move,penny,dollop,dolmove,dolpenny,clique,factorPhylip软件包分组介绍距离矩阵组:Phylip软件包分组介绍72进化树绘制组:drawtree,drawgram其他:restdist,restml,seqboot,contrasttreedist,consense,retreePhylip软件包分组介绍进化树绘制组:drawtree,drawgramPhylip73Phylip软件包的文档是非常详细的,对于每个独立的程序,都有一个独立的文档,详细的介绍了该程序的使用及其说明。此外,Phylip软件包还包括程序的源代码(c语言)。Phylip软件包的文档Phylip软件包的文档是非常详细的,对于每个独立的74Phylip软件包的应用1,根据你的分析数据,选择适当的程序如,你分析的是DNA数据,就在核酸序列分析类中选择程序(dnapenny,dnapars,dnamove,dnaml,dnamlk,dnainvar,dnadist,dnacomp
)如果分析的是离散数据,如突变位点数据,就在离散字符组里面选择程序。Phylip软件包的应用1,根据你的分析数据,选择适当的程序752.选择适当的分析方法如你分析的是DNA数据,可以选择简约法(DNAPARS),似然法(DNAML,DNAMLK),距离法等(DNADIST)。。。Phylip软件包的应用2.选择适当的分析方法Phylip软件包的应用763.进行分析选择好程序后,执行,读入分析数据,选择适当的参数,进行分析,结果自动保存为outfile,outtree。
Phylip软件包的应用3.进行分析Phylip软件包的应用77 Outfile是一个记录文件,记录了分析的过程和结果,可以直接用文本编辑器(如写字板)打开。
outtree是分析结果的树文件,可以用phylip提供的绘树程序打开查看,也可以用其他的程序来打开,如treeviewPhylip软件包的应用 Outfile是一个记录文件,记录了分析的过程和结果,可78生物信息技术概述课件79出发数据-已经排列好的蛋白序列。重构算法-距离法(protdist.exe)
最大简约法(protpars.exe)
最大似然法(proml.exe)统计分析-拨靴法(bootstrap)实际应用(从蛋白序列推导进化树)出发数据-已经排列好的蛋白序列。实际应用(从蛋白序列推导进化80实际操作Phylip软件包中的每个分析程序都是一个独立的应用程序。我们选择好了分析算法后,按一定的顺序组合使用选择的程序,就可以获得按选择的算法分析的结果(进化树)。例子:从我们刚刚通过clustal比对获得的蛋白序列推测进化树。
选择方法:距离法(protdist.exe)实际操作Phylip软件包中的每个分析程序都是一个独立81
第一步:双击执行protdist.exe,根据提示输入分析的文件名(程序默认是infile)。
第一步:双击执行protdist.exe,根据提示输入分析82第二步:设定各个参数,执行程序,获得距离矩阵数据输出文件outfile。第三步:选择通过距离矩阵推测进化树的算法(fitch.exe,kotsch.exe,neighbor.exe)。第四步:将刚获得的输出文件改名为infile,执行选择的推测算法(neighbor.exe)。设置好参数后执行程序,获得outfile和outtree两个结果输出。第二步:设定各个参数,执行程序,获得距83生物信息技术概述课件84
获得的结果文件中,outtree文件是一个树文件,可以用treeview等软件打开。outfile是一个分析结果的输出报告,包括了树和其他一些分析报告,可以用记事本直接打开。outfileouttree获得的结果文件中,outtree文件是一个树文件,可以85加入统计分析(bootstrap)我们刚刚获得的进化树是纯粹的根据先前获得的排列数据所推导出来的。有很多可能使得这个树并不一定可靠。1.测序的出错。2.多序列比对算法本身的问题。3.其他的问题。我们可以引进一些统计分析来寻找更优的进化树最常见的就是bootstrap分析。加入统计分析(bootstrap)我们刚刚获得的进化树是纯粹86Bootstrap分析Phylip软件包中有两个用于执行bootstrap分析的程序。(seqboot.exe,consence.exe)。分析过程:1.Seqboot产生大量的数据组2.应用选择的算法对产生的数据组进行分析。3.由consence获得最优树。Bootstrap分析Phylip软件包中有两个用于执行bo87PAUP*的使用PAUP*的数据格式(Nexus)#NEXUSbegintaxa; dimensionsntax=12; taxlabelsLemur_catta …Tarsius_syrichta;end;begincharacters; dimensionsnchar=898; formatmissing=?gap=-matchchar=.interleavedatatype=dna; optionsgapmode=missing; matrixLemur_cattaAAGCTTCATAGGAGCAACCATTCTAATAATCGCACATGGCCTTACATCATCCATATTATTHomo_sapiensAAGCTTCACCGGCGCAGTCATTCTCATAATCGCCCACGGGCTTACATCCTCATTACTATTPanAAGCTTCACCGGCGCAATTATCCTCATAATCGCCCACGGACTTACATCCTCATTATTATTGorillaAAGCTTCACCGGCGCAGTTGTTCTTATAATTGCCCACGGACTTACATCATCATTATTATTPongoAAGCTTCACCGGCGCAACCACCCTCATGATTGCCCATGGACTCACATCCTCCCTACTGTTHylobatesAAGCTTTACAGGTGCAACCGTCCTCATAATCGCCCACGGACTAACCTCTTCCCTGCTATTPAUP*的使用PAUP*的数据格式(Nexus)#NEXU88beginassumptions; charsetcoding=2-457660-896; charsetnoncoding=1458-659897-898; charset1stpos=2-457\3660-896\3; charset2ndpos=3-457\3661-896\3; charset3rdpos=4-457\3662-.\3;
exsetcoding=noncoding; exsetnoncoding=coding;
usertype2_1=4 [weightstransversions2timestransitions] acgt [a] .212 [c]2.21 [g] 12.2 [t] 212. ; usertype3_1=4 [weightstransversions3timestransitions] acgt [a] .313 [c]3.31 [g] 13.3 [t] 313. ;
taxsethominoids=Homo_sapiensPanGorillaPongoHylobates;end;beginpaup; constraintsch=((Homo_sapiens,Pan)); constraintschg=((Homo_sapiens,Pan,Gorilla));end;生物信息技术概述课件89PAUP*的数据格式(Nexus)
主要包括taxa,characters,assumptions,sets,trees,codons,distances,paup八个数据块。对于一个常规的分析,taxa,characters块是必须的。而分析的命令可以通过菜单操作(mac),或者键盘命令(win,linux),也可以在nexus文件中加入paup命令块PAUP*的数据格式(Nexus)901.TAXA块主要是定义所分析的数据(如分子序列)个数,以及这些数据的名称(如物种名称)。2.CHARACTERS块主要是定义数据矩阵(如多序列比对结果)和其他一些相关的信息(如序列特征值,序列有效区域等)PAUP*的Nexus的文件块1.TAXA块PAUP*的Nexus的文件块913.ASSUMPTIONS块定义了对数据的一些设定,如那些特征值是不需考虑的,怎么处理gap这个特征值等,用户自定义的一些数据也放在这块,如自定义的打分矩阵。4.SETS块定义了一系列的数据组,如特征值组,物种组等,这些设置都是为了方便后续的分析。3.ASSUMPTIONS块925.TREES块定义了用户自己设定的树。用于后续的分析,如作为限制树等。6.CODONS块定义了遗传密码子的一些信息。如编码的位置(哪些是编码的,密码子的位点等)。7.DISTANCES块定义了一些距离矩阵。5.TREES块938.PAUP
块是软件的核心块,所有的分析命令和一些参数设置(90多个命令)都放在这一块。这一块并不是分析输入数据所必须的,这些命令可以写在这一块(文件中),这时载入文件时就开始根据该块的命令进行分析(有点类似dos的批处理过程)。当然也可以通过键盘命令逐一敲入,交互进行分析。
批处理的方式在分析过程比较长,耗时比较久的时候是比较有用的。当然在进行处理之前一定要先保证该批处理过程没有问题。8.PAUP块94一个PAUP*的基本分析实例1.通过clustalw/clustalx获取一个多序列比对结果(可能要经过人工调整,推荐用bioedit做辅助编辑器)。保存成nexus格式的文件,或者用其他格式转换软件转换成nexus格式。paup*中也有一个tonexus命令可以将其他格式(包括phylip,GCG等格式)的文件转换为nexus格式的文件。一个PAUP*的基本分析实例1.通过clustalw/clu952.在PAUP*程序中读入数据(Nexus格式)输入命令的地方打开文件的窗口程序自带的测试数据执行该文件还是编辑该文件?执行文件时将文件数据读入程序,编辑文件则调用一个文本编辑器。如果不是nexus格式,执行时候会出错,然后调用文本编辑器打开。2.在PAUP*程序中读入数据(Nexus格式)输入命令的地963.数据输入完成,开始分析…
两个很有用的命令
?:显示所有的命令
命令?:显示命令的所有参数3.数据输入完成,开始分析…97分析…(开始一)1.开始之前打开记录文件?(跟踪整个分析过程)命令:logstartfile=your_log_file_name;停止:logstop;分析…(开始一)1.开始之前982.设置数据哪些用于分析?如:includecoding/only;excludecoding/only;哪些物种要分析(删除不要的)?如:delete1;或者deletetaxa_name…undelete1;……分析…(开始二)2.设置数据分析…(开始二)993.确定建树方法最大简约法?最大似然法?距离法?命令:Setcriterion=parsimony|likelihood|distance;
分析…(建树一)3.确定建树方法分析…(建树一)1004.确定其他参数Set?查看其他参数的设置,改为自己所需要的设置。如:setmaxtree=10000increase=noautoclose=yes;分析…(建树二)4.确定其他参数分析…(建树二)1015.确定搜索方法(对于距离法不适用)穷尽法:alltrees
分支跳跃查找:bandb
启发式搜索:hsearch
其他:puzzle(只在likelihood时有效)…分析…(建树三)5.确定搜索方法(对于距离法不适用)分析…(建树三)1026.开始搜索树之前(设置各个建树方法的参数)距离法:dset如:dsetdistance=tamneinegbrlen=allow最大简约法:pset如psetcollapse=nogapmode=newstate最大似然法:lset如:lsetnst=6clock=yes分析…(建树四)6.开始搜索树之前(设置各个建树方法的参数)分析…(建树四1037.再次确认参数是否要设置外围群(outgroup)?如outgroup1,2;或者outgrouptaxa_set;其他参数?分析…(建树五)7.再次确认参数分析…(建树五)1047.开始搜索树距离法:NJ,UPGMA最大简约法,最大似然法Hsearch?参数是否要更改?如:hsearchandseq=randomswap=spr分析…(建树六)7.开始搜索树分析…(建树六)1058.进化树的评估选择评估方法?Bootstrap(自展法)
用的最多,是对进化树重新取样的评估方法,可以对距离法,简约法,似然法以及衍生出的任何其他方法构建的进化树进行评估。其分析结果是一组数字,这个数字描述了进化树进化分支的支持比例,也就是进化树分支的稳健性。分析…(树评估一)8.进化树的评估分析…(树评估一)106分析…(树评估二)未经过bootstrap的树Bootstrap后的树分析…(树评估二)未经过bootstrap的树Bootst107BOOTSTRAP[options][/heuristic-search-options|branch-and-bound-search-options];
使用分支限制或者是启发式搜索的方法进行bootstrap分析。参数:•BSEED=integer-value随机数种子。•NREPS=integer-valuebootstrap重复的次数,默认值为100。•SEARCH=HEURISTIC|BANDB|FASTSTEP|NJ|UPGMA搜索方式•CONLEVEL=integer-valuebootstrap重复次数的最低比率,默认为50。•KEEPALL=YES|NO•WTS=IGNORE|SIMPLE|REPEATCNT|PROPORTIONAL•NCHAR=CURRENT|number-of-characters每次重复采样的数目。•GRPFREQ=YES|NO显示bootstrap分割频率•TREEFILE=bootstrap-tree-file-name树的文件•FORMAT=NEXUS|ALTNEXUS|FREQPARS|PHYLIP|HENNIG•BRLENS=YES|NO分支的长度•*REPLACE=YES|NO•CUTOFFPCT=integer-value定义显示的最低bootstrap分割频率。Examplebootstrapnreps=200treefile=boot.tresearch=heuristic/addseq=random;分析…(树评估三)PAUP*中的bootstrap命令BOOTSTRAP[options][/heuristic108对折分析(jackknife)跟bootstrap类似,只是在对原始数据取样的时候不会取重复的数据位点。因为它重复取样的时候是在原始数据中除去一个或者多个比对位点。
对折分析得出的结果和bootstrap是一样的。命令和参数都类似,用的比bootstrap少很多。分析…(树评估四)对折分析(jackknife)分析…(树评估四)109JACKKNIFE[options][/heuristic-search-options|branchand-bound-search-options];对折分析•PCTDELETE=real-value
每个对折分析循环中删除的dataset百分数•JSEED=integer-value
随机数种子•NREPS=integer-value对折循环次数•SEARCH=HEURISTIC|BANDB|FASTSTEP|NJ|UPGMA树的搜索方法(NJ和UPGMA仅在最优规则为distance时才可用)•RESAMPLE=NORMAL|JAC•CONLEVEL=integer-valueboostrap中出现的最小比例(最为保留group),默认为50,即50%•KEEPALL=YES|NO低于conlevel的树,若与一致树兼容,也保留•WTS=IGNORE|SIMPLE|REPEATCNT|PROPORTIONAL•GRPFREQ=YES|NO显示对折分区频率•TREEFILE=tree-file-name•FORMAT=NEXUS|ALTNEXUS|FREQPARS|PHYLIP|HENNIG•*REPLACE=YES|NO•CUTOFFPCT=integer-value
对折频率表中显示的最小频率。ExampleJACKKNIFEnreps=200treefile=tree.tresearch=heuristic/addseq=random分析…(树评估五)PAUP*中的jackknife命令JACKKNIFE[options][/heuristic110KHtest和SHtest
用来测试一个特定的次优化的ml或者mp拓扑结构同最优化的拓扑结构相比是否显著不同(通常用来做Hypothesistest)。
PAUP*中这两个测试是作为pscores和lscores的一个参数,默认关闭,需要进行这两个测试的时候,要打开该参数。Pscore中有KHtest,不支持SHtestLscore中有KHtest和SHtest分析…(树评估六)KHtest和SHtest分析…(树评估六)111如:Pscoresall/khtest=normal;Lscoresall/khtest=normalshtest=rell;
测试得出的结果是返回一个显著性差异系数(P值)。分析…(树评估七)如:分析…(树评估七)112其他测试随机测试:permute不一致的长度差异测试:hompart…分析…(树评估八)其他测试分析…(树评估八)113分析结束之前1.保存分析结果Savetrees
根据要求将内存中的树保存到文件如:savetreesfile=tree.trebrlens=yessavebootp=bothfrom=1to=2;2.停止记录文件Logstop;分析结束之前1.保存分析结果114退出3.如果要进行下一项分析,想让原来改过的参数全部变回默认设置命令:factory所有参数恢复默认设置4.确定要退出后命令:quit退出3.如果要进行下一项分析,想让原来改过的参数全部变回默认115一些有用的命令1.Treeinfo
查看内存中树的情况(多少个?有根还是无根?…)。2.clear
清除内存中所有的树。3.showtree
查看内存中的树(默认显示第一个树,可以加入参数)如:showtreeall;showtree2,3;4.gettrees
从树文件中读取树到内存中一些有用的命令1.Treeinfo1165.dscores,pscores,lscores
计算树的距离,简约性,相似性分值。6.ingroup/outgroup
取消和设定外围群7.Contree
根据一定的规则求解一致树8.Deroottrees
将有根树转换为无根树9.Roottrees根据当前设定的outgroup将无根树转换为有根树5.dscores,pscores,lscores11710.Filter根据设定的规则筛选树。11.详细的命令请参考paup*软件的commandreference。10.Filter118Paup块的一个例子beginpaup;Logstarfile=log.txt;
setcriterion=likelihoodautoclose=yesmaxtrees=10000increase=no; lsetnst=6rmatrix=estimatebasefreq=estimatepinv=estimaterates=gammashape=estimate;hsearchaddseq=randomnreps=100;
bootstrapnreps=1000search=heuristicbrlens=yes;savetreesfile=tree.tresavebootp=bothfrom=1to=1;logstop;quit;end;Paup块的一个例子beginpaup;119构建进化树实例MEGA3.1软件安装启动程序Alignment转入fasta格式文件比对保存比对后文件为扩展名meg的格式关闭软件窗口按钮点phylogeny菜单选构建树的方式完成构建构建进化树实例MEGA3.1软件安装启动程序Al120生物信息技术概述课件121生物信息技术概述课件122生物信息技术概述课件123生物信息技术概述课件124生物信息技术概述课件125生物信息技术概述课件126生物信息技术概述课件127生物信息技术概述课件128生物信息技术概述课件129金丽华生物信息技术
项目3进化树的构建生物信息技术
项目3进化树的构建130项目3课程导学生物是怎么进行进化的?从什么数据中我们可以看出生物分子的进化过程呢?猴子和人类有多大的相似性?在本项目中,我们利用系统进化树的方法来理解生物的进化过程。项目3课程导学生物是怎么进行进化的?131项目任务1)学习并理解分子进化。2)能理解分子钟和中性理论3)能看懂进化树4)能利用MEGA5.1软件画出系统进化树。项目任务1)学习并理解分子进化。132学习内容1.分子进化与系统发育2.分子进化树与系统进化树3.利用MEGA5.1构建进化树(实操任务)学习内容1.分子进化与系统发育133分子进化与系统发育分子进化与系统发育134内容提要分子进化分析介绍系统发育树重建方法Phylip软件包在分子进化分析中的应用PAUP*在分子进化分析中的应用MEGA分子进化树分析软件内容提要分子进化分析介绍135
从物种的一些分子特性出发,从而了解物种之间的生物系统发生的关系。
蛋白和核酸序列
通过序列同源性的比较进而了解基因的进化以及生物系统发生的内在规律。分子进化研究的目的 从物种的一些分子特性出发,从而了解物种之间的生物系统发生136系统发育树是什么?
对一组实际对象的世系关系的描述(如基因,物种等)。系统发育树是什么? 对一组实际对象的世系关系的描述(如基因,137祖先节点/树根内部节点/分歧点,该分支可能的祖先结点分支/世系末端节点
ABCDE代表最终分类,可以是物种,群体,或者蛋白质、DNA、RNA分子等系统发育树:术语祖先节点/树根内部节点/分歧点,该分支可能的祖先结点分支/世138ABCDE†FG树只代表分支的拓扑结构FGCDE†ABABCDE†FG树只代表分支的拓扑结构FGCDE†AB139分子进化研究的基础(假设)核苷酸和氨基酸序列中含有生物进化历史的全部信息。分子进化研究的基础(假设)核苷酸和氨基酸序列中含有生物进化历140在各种不同的发育谱系及足够大的进化时间尺度中,许多序列的进化速率几乎是恒定不变的。(分子钟理论,1965)分子进化研究的基础(理论)分子进化研究的基础(理论)141虽然很多时候仍然存在争议,但是分子进化确实能阐述一些生物系统发生的内在规律。分子进化研究的基础(实际)分子进化研究的基础(实际)142从一个分歧数据可以推测其他序列分歧度分歧时间xy分子钟理论从一个分歧数据可以推测其他序列分歧度分歧时间xy分子143速率恒定的证据:血色素速率恒定的证据:血色素144中性理论“在生物分子层次上的进化改变不是由自然选择作用于有利突变引起的,而是在连续的突变压之下由选择中性或非常接近中性的突变的随机固定造成的,中性突变是指对当前适应度无影响的突变。”否认自然选择在生物进化中的作用,认为生物大分子的进化的主要因素是机会和突变压力中性理论145进化及遗传模型1、序列有指定的来源并且正确无误。2、序列是同源的,而序列不是“paralog”的混合物。3、序列比对中,不同序列的同一个位点都是同源的4、在接受分析的一个序列组中,序列之间的系统发育史是相同的。5、样本足以解决感兴趣的问题。进化及遗传模型1、序列有指定的来源并且正确无误。146进化及遗传模型6、样本序列之间的差异代表了感兴趣的宽组。7、样本序列之间的差异包含了足以解决感兴趣的问题的系统发育信号。8、样本序列是随机进化的。9、序列中的所有位点的进化都是随机的。10、序列中的每一个位点的进化都是独立的。进化及遗传模型6、样本序列之间的差异代表了感兴趣的宽组。147直系同源(orthologs):同源的基因通过物种形成的事件而产生,或源于不同物种的最近的共同祖先的两个基因,或者两个物种中的同一基因,一般具有相同的功能。并系同源(paralogs):同源基因在同一物种中,通过至少一次基因复制的事件而产生。直系同源与旁系同源直系同源(orthologs):同源的基因通过物种形成的事件148paralogsorthologsparalogsorthologs149paralogsorthologsErikL.L.SonnhammerOrthology,paralogyandproposedclassificationforparalogsubtypesTRENDSinGeneticsVol.18No.12December20020168-9525/02/$–seefrontmatter©2002ElsevierScienceLtd.Allrightsreserved.paralogsorthologsErikL.L.Son150
以上两个概念代表了两个不同的进化事件用于分子进化分析中的序列必须是直系同源的,才能真实反映进化过程。生物信息技术概述课件151趋同进化的基因(Convergentevolution)通过不同的进化途径获得相似的功能,或者功能替代物(geneshaveconvergedfunctionbyseparateevolutionarypaths)趋同进化的基因(Convergentevolution)152异源基因或水平转移基因(xenologousorhorizontallytransferredgenes)由某一个水平基因转移事件而得到的同源序列异源基因或水平转移基因153Bacterium1Bacterium3Bacterium2Eukaryote1Eukaryote4Eukaryote3Eukaryote2Bacterium1Bacterium3Bacterium2Eukaryote1Eukaryote4Eukaryote3Eukaryote2Phylogramsshowbranchorderandbranchlengths进化树,有分支和支长信息2.进化分支图,进化树Cladogramsshowbranchingorder-branchlengthsaremeaningless进化分支图,只用分支信息,无支长信息。Bacterium1Bacterium3Bacteriu154archaeaarchaeaeukaryoteeukaryoteeukaryoteeukaryote通过外围支来确定树根archaeabacteriaoutgroup根eukaryoteeukaryoteeukaryoteeukaryote无根树archaeaarchaeaarchaea有根树外围支无根树,有根树,外围支archaeaarchaeaeukaryoteeukaryo155无根树和有根树:潜在的数目#Taxa无根树有根树31343155151056105945794510,395…30~3.58X1036~2.04X1038Taxa增多,计算量急剧增加,因此,目前算法都为优化算法,不能保证最优解无根树和有根树:潜在的数目#Taxa无1564.基因树,物种树WeoftenassumethatgenetreesgiveusspeciestreesabcABDGenetreeSpeciestree4.基因树,物种树Weoftenassumeth157系统发育树重建分析步骤多序列比对(自动比对,手工比对)建立取代模型(建树方法)建立进化树进化树评估系统发育树重建分析步骤多序列比对(自动比对,手工比对)建立取1581.最大简约法(maximumparsimony,MP)2.距离法(distance)3.最大似然法(maximumlikelihood,ML)系统发育树重建的基本方法1.最大简约法(maximumparsimony,M159最大简约法(MP)1.理论基础为奥卡姆剃刀(Ockham)原则:计算所需替代数最小的那个拓扑结构,作为最优树2.在分析的序列位点上没有回复突变或平行突变,且被检验的序列位点数很大的时候,最大简约法能够推导获得一个很好的进化树3.优点:不需要在处理核苷酸或者氨基酸替代的时候引入假设(替代模型)4.缺点:分析序列上存在较多的回复突变或平行突变,而被检验的序列位点数又比较少的时候,可能会给出一个不合理的或者错误的进化树推导结果最大简约法(MP)1.理论基础为奥卡姆剃刀(Ockha1601.信息位点,必须在至少2个taxa中具有相同的序列性状2.信息位点是指那些至少存在2个不同碱基/氨基酸且每个不同碱基/氨基酸至少出现两次的位点信息位点(Sitesareinformative)1.信息位点,必须在至少2个taxa中具有相同的序列性状信161生物信息技术概述课件162上例1.Position5,7,9为信息位点2.基于position5的三个MP树:Tree1长度1,Tree2&3长度23.Tree1更为简约上例1.Position5,7,9为信息位点1632.距离法又称距离矩阵法,首先通过各个物种之间的比较,根据一定的假设(进化距离模型)推导得出分类群之间的进化距离,构建一个进化距离矩阵。进化树的构建则是基于这个矩阵中的进化距离关系2.距离法又称距离矩阵法,首先通过各个物种之间的比较,根据164计算序列的距离,建立距离矩阵通过距离矩阵建进化树计算序列的距离,建立距离矩阵通过距离矩阵建进化树165简单的距离矩阵简单的距离矩阵166由进化距离构建进化树的方法有很多,常见有:(1)Fitch-MargoliashMethod(FM法):对短支长非常有效(2)Neighbor-JoiningMethod(NJ法/邻接法):求最短支长,最通用的距离方法(3)NeighborsRelatonMethod(邻居关系法)(4)UnweightedPairGroupMethod(UPGMA法)通过距离矩阵建树的方法由进化距离构建进化树的方法有很多,常见有:通过距离矩阵建树的1671.找出关系最近的序列对,如A和B2.将剩余的序列作为一个简单复合序列,分别计算A、B到所有其他序列的距离的平均值3.用这些值来计算A和B间的距离4.将A、B作为一个单一的复合序列AB,计算与每一个其他序列的距离,生成新的距离矩阵5.确定下一对关系最近的序列,重复前面的步聚计算枝长7.从每个序列对开始,重复整个过程8.对每个树计算每对序列间的预测距离,发现与原始数据最符合的树Fitch-Margoliash方法(FM法)1.找出关系最近的序列对,如A和BFitch-Margoli168Fitch-Margoliash方法(FM法)Fitch-Margoliash方法(FM法)169D和E最接近!分成三组:D,E,以及ABCD和E最接近!分成三组:D,E,以及ABC170DE距离=d+e(1)D到ABC间的平均距离=d+m(2)E到ABC间的平均距离=e+m(3)(2)-(3)+(1)d=4,e=6DE距离=d+e(1)171C最接近DE!分成三组:C,DE,以及ABC最接近DE!分成三组:C,DE,以及AB172c+g+(e+d)/2=19(1)c+f+(a+b)/2=40(2)(e+d)/2+(a+b)/2+f+g=41(2)(1)+(2)-(3)得:c=9c+g+(e+d)/2=19(1)173c+g+(e+d)/2=19(e+d)/2=5,c=9,则g=5c+g+(e+d)/2=19174由:(a+b)/2+f+g+(d+e)/2=41得:f=20由:a+f+c=39得:a=10,则b=12由:(a+b)/2+f+g+(d+e)/2=41得:f=2175练习题
计算以下序列的进化距离,画出进化树。序列1:AACTGTTAGTCAATTGATTCCAATGGTCCATAAACGAATC序列2:AACAGTCAGTCAAGTGTTTCCTTTGGTCCATCGACGAATC序列3:AAGGGTCTGTCACAGGATGGCATCGGTCGGTAAACGAGAC序列4:AAGGGTCTGTCACAG
GAAGG
CATCGGTGGGTAAACGTGAC序列5:AACAC
ACAGTCAAGAGTTTCCTTGGGTCCATCGTCGAATC练习题序列1:AACTGTTAGTCAATTGAT176NJ法/邻接法Neighbor-JoiningMethod(NJ法/邻接法):邻接法(Neighbor-joiningMethod)由Saitou和Nei(1987)提出。该方法通过确定距离最近(或相邻)的成对分类单位来使系统树的总距离达到最小。相邻是指两个分类单位在某一无根分叉树中仅通过一个节点(node)相连。通过循序地将相邻点合并成新的点,就可以建立一个相应的拓扑树。NJ法/邻接法Neighbor-JoiningMethod177NJ/邻接法1.与FM方法非常类似2.保证总的支长最短总支长:a+b+c+d+e=314/4=78.5NJ/邻接法1.与FM方法非常类似总支长:a+b+c+d+178找到距离最近的两个点1.任意两个节点选为相邻序列
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年物业维修管理制度
- 制造业人力资源管理策略
- 银行营销策略总结精准定位提升竞争力
- 2024年热闹的元宵节大班教案
- 2024年美术教案篇1
- 分公司资质挂靠协议书(2篇)
- DB33T 2305-2021 大中型体育场馆智慧化建设和管理规范
- 乳腺癌保乳手术
- 注塑产品项目可行性研究报告
- 《导弹驱逐舰》课件
- 出口货物备案单证目录(生产企业)
- 中国食物成分表2018年(标准版)第6版 第一册 素食
- 甘肃科技重大专项计划申报书模版
- 35kV线路工程电杆组立工程施工组织方案
- 毕业论文材料分拣装置PLC控制系统方案
- 刑法涉及安全生产的16宗罪解读
- 京东五力模型分析
- 电大《电气传动与调速系统》网络课形考任务1-4作业及答案
- 铜精矿加工费简析
- 机电拆除专项施工方案
- 变电站电气一次工程监理要点重点
评论
0/150
提交评论