




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、分子进化与系统发育分析生物信息学1分子进化与系统发育分析生物信息学1内容提要分子进化分析介绍系统发育树重建方法Phylip软件包在分子进化分析中的应用PAUP*在分子进化分析中的应用MEGA分子进化树分析软件2内容提要分子进化分析介绍2从物种的一些分子特性出发,从而了解物种之间的生物系统发生的关系。 蛋白和核酸序列通过序列同源性的比较进而了解基因的进化以及生物系统发生的内在规律。分子进化研究的目的3从物种的一些分子特性出发,从而了解物种之间的生物系统发生系统发育树是什么?对一组实际对象的世系关系的描述(如基因,物种等)。4系统发育树是什么?对一组实际对象的世系关系的描述(如基因,祖先节点/树根
2、内部节点/分歧点,该分支可能的祖先结点分支/世系末端节点 ABCDE代表最终分类,可以是物种,群体,或者蛋白质、DNA、RNA分子等系统发育树: 术语5祖先节点/树根内部节点/分歧点,该分支可能的祖先结点分支/世ABCDEFG树只代表分支的拓扑结构FGCDEAB6ABCDEFG树只代表分支的拓扑结构FGCDEAB6分子进化研究的基础(假设)核苷酸和氨基酸序列中含有生物进化历史的全部信息。7分子进化研究的基础(假设)核苷酸和氨基酸序列中含有生物进化历在各种不同的发育谱系及足够大的进化时间尺度中,许多序列的进化速率几乎是恒定不变的。(分子钟理论, 1965 )分子进化研究的基础(理论)8分子进化研
3、究的基础(理论)8虽然很多时候仍然存在争议,但是分子进化确实能阐述一些生物系统发生的内在规律。分子进化研究的基础(实际)9分子进化研究的基础(实际)9从一个分歧数据可以推测其他序 列 分 歧 度分歧时间xy分子钟理论10从一个分歧数据可以推测其他序 列 分 歧 度分歧时间xy分子速率恒定的证据:血色素11速率恒定的证据:血色素11中性理论“在生物分子层次上的进化改变不是由自然选择作用于有利突变引起的,而是在连续的突变压之下由选择中性或非常接近中性的突变的随机固定造成的,中性突变是指对当前适应度无影响的突变。”否认自然选择在生物进化中的作用,认为生物大分子的进化的主要因素是机会和突变压力12中性
4、理论12进化及遗传模型1、序列有指定的来源并且正确无误。2、序列是同源的,而序列不是“paralog“的混合物。3、序列比对中,不同序列的同一个位点都是同源的4、在接受分析的一个序列组中,序列之间的系统发育史是相同的。5、样本足以解决感兴趣的问题。13进化及遗传模型1、序列有指定的来源并且正确无误。13进化及遗传模型6、样本序列之间的差异代表了感兴趣的宽组。7、样本序列之间的差异包含了足以解决感兴趣的问题的系统发育信号。8、样本序列是随机进化的。9、序列中的所有位点的进化都是随机的。10、序列中的每一个位点的进化都是独立的。14进化及遗传模型6、样本序列之间的差异代表了感兴趣的宽组。14直系同
5、源(orthologs):同源的基因通过物种形成的事件而产生,或源于不同物种的最近的共同祖先的两个基因,或者两个物种中的同一基因,一般具有相同的功能。并系同源(paralogs):同源基因在同一物种中,通过至少一次基因复制的事件而产生。直系同源与旁系同源15直系同源(orthologs):同源的基因通过物种形成的事件paralogsorthologs16paralogsorthologs16paralogsorthologsErik L.L. Sonnhammer Orthology,paralogy and proposed classification for paralog subtyp
6、es TRENDS in Genetics Vol.18 No.12 December 2002 0168-9525/02/$ see front matter 2002 Elsevier Science Ltd. All rights reserved.17paralogsorthologsErik L.L. Son 以上两个概念代表了两个不同的进化事件 用于分子进化分析中的序列必须是直系同源的,才能真实反映进化过程。1818趋同进化的基因(Convergent evolution )通过不同的进化途径获得相似的功能,或者功能替代物(genes have converged function
7、 by separate evolutionary paths)19趋同进化的基因(Convergent evolution )异源基因或水平转移基因(xenologous or horizontally transferred genes)由某一个水平基因转移事件而得到的同源序列20异源基因或水平转移基因20Bacterium 1Bacterium 3Bacterium 2Eukaryote 1Eukaryote 4Eukaryote 3Eukaryote 2Bacterium 1Bacterium 3Bacterium 2Eukaryote 1Eukaryote 4Eukaryote 3E
8、ukaryote 2Phylograms show branch order and branch lengths进化树,有分支和支长信息2.进化分支图,进化树Cladograms show branching order - branch lengths are meaningless进化分支图,只用分支信息,无支长信息。21Bacterium 1Bacterium 3Bacteriuarchaeaarchaeaeukaryoteeukaryoteeukaryoteeukaryote通过外围支来确定树根archaeabacteria outgroup根eukaryoteeukaryoteeu
9、karyoteeukaryote无根树archaeaarchaeaarchaea有根树外围支无根树,有根树,外围支22archaeaarchaeaeukaryoteeukaryo无根树和有根树:潜在的数目#Taxa 无根树 有根树3 1 34 3 155 15 1056 105 9457 945 10,39530 3.58X1036 2.04X1038Taxa增多,计算量急剧增加,因此,目前算法都为优化算法,不能保证最优解23无根树和有根树:潜在的数目#Taxa 无 4.基因树,物种树We often assume that gene trees give us species treesab
10、cABDGene treeSpecies tree24 4.基因树,物种树We often assume th系统发育树重建分析步骤多序列比对(自动比对,手工比对)建立取代模型(建树方法)建立进化树进化树评估25系统发育树重建分析步骤多序列比对(自动比对,手工比对)建立取1. 最大简约法 (maximum parsimony, MP)2. 距离法 (distance)3. 最大似然法 (maximum likelihood, ML)系统发育树重建的基本方法261. 最大简约法 (maximum parsimony, M最大简约法 (MP)1. 理论基础为奥卡姆剃刀 (Ockham)原则:计算所
11、需替代数最小的那个拓扑结构,作为最优树2. 在分析的序列位点上没有回复突变或平行突变,且被检验的序列位点数很大的时候,最大简约法能够推导获得一个很好的进化树3. 优点:不需要在处理核苷酸或者氨基酸替代的时候引入假设 (替代模型)4.缺点:分析序列上存在较多的回复突变或平行突变,而被检验的序列位点数又比较少的时候,可能会给出一个不合理的或者错误的进化树推导结果27最大简约法 (MP)1. 理论基础为奥卡姆剃刀 (Ockha1. 信息位点,必须在至少2个taxa中具有相同的序列性状2. 信息位点是指那些至少存在2个不同碱基/氨基酸且每个不同碱基/氨基酸至少出现两次的位点信息位点 (Sites ar
12、e informative)281. 信息位点,必须在至少2个taxa中具有相同的序列性状信2929上 例1. Position 5, 7, 9为信息位点2. 基于position 5的三个MP树: Tree 1长度1,Tree 2 & 3长度23. Tree 1更为简约30上 例1. Position 5, 7, 9为信息位点302. 距离法又称距离矩阵法,首先通过各个物种之间的比较,根据一定的假设(进化距离模型)推导得出分类群之间的进化距离,构建一个进化距离矩阵。进化树的构建则是基于这个矩阵中的进化距离关系 312. 距离法又称距离矩阵法,首先通过各个物种之间的比较,根据计算序列的距离,建
13、立距离矩阵通过距离矩阵建进化树32计算序列的距离,建立距离矩阵通过距离矩阵建进化树32简单的距离矩阵33简单的距离矩阵33由进化距离构建进化树的方法有很多,常见有:(1) Fitch-Margoliash Method (FM法): 对短支长非常有效(2) Neighbor-Joining Method (NJ法/邻接法):求最短支长,最通用的距离方法(3) Neighbors Relaton Method(邻居关系法) (4) Unweighted Pair Group Method (UPGMA法)通过距离矩阵建树的方法34由进化距离构建进化树的方法有很多,常见有:通过距离矩阵建树的1.找
14、出关系最近的序列对,如A和B2.将剩余的序列作为一个简单复合序列,分别计算A、B到所有其他序列的距离的平均值3.用这些值来计算A和B间的距离4.将A、B作为一个单一的复合序列AB,计算与每一个其他序列的距离,生成新的距离矩阵5.确定下一对关系最近的序列,重复前面的步聚计算枝长7.从每个序列对开始,重复整个过程8.对每个树计算每对序列间的预测距离,发现与原始数据最符合的树Fitch-Margoliash方法(FM法)351.找出关系最近的序列对,如A和BFitch-MargoliFitch-Margoliash方法 (FM法)36Fitch-Margoliash方法 (FM法)36D和E最接近!
15、分成三组:D, E, 以及ABC37D和E最接近!分成三组:D, E, 以及ABC37DE距离=d+e (1)D到ABC间的平均距离=d+m (2)E到ABC间的平均距离=e+m (3)(2)-(3)+(1)d=4,e=638DE距离=d+e (1)38C最接近DE!分成三组:C, DE, 以及AB39C最接近DE!分成三组:C, DE, 以及AB39c+g+(e+d)/2=19 (1)c+f+(a+b)/2=40 (2)(e+d)/2+(a+b)/2+f+g=41 (2)(1)+(2)-(3)得:c=940c+g+(e+d)/2=19 (1)40c+g+(e+d)/2=19(e+d)/2=5
16、,c=9,则g=541c+g+(e+d)/2=1941由:(a+b)/2+f+g+(d+e)/2=41 得:f=20由:a+f+c=39 得:a=10,则b=1242由:(a+b)/2+f+g+(d+e)/2=41 得:f=2NJ法/邻接法Neighbor-JoiningMethod (NJ法/邻接法):邻接法(Neighbor-joiningMethod)由Saitou和Nei(1987)提出。该方法通过确定距离最近(或相邻)的成对分类单位来使系统树的总距离达到最小。相邻是指两个分类单位在某一无根分叉树中仅通过一个节点(node)相连。通过循序地将相邻点合并成新的点,就可以建立一个相应的拓扑
17、树。43NJ法/邻接法Neighbor-JoiningMethod NJ/邻接法1. 与FM方法非常类似2. 保证总的支长最短总支长:a+b+c+d+e=314/4=78.544NJ/邻接法1. 与FM方法非常类似总支长:a+b+c+d+找到距离最近的两个点1.任意两个节点选为相邻序列的总支长计算公式:2.计算SAB, SBC, SCD, SDE等数值3.该例中, SAB最小45找到距离最近的两个点1.任意两个节点选为相邻序列的总支长计算 把A、B看成一个新的复合序列,构建一个新的距离表,重复以上过程计算A, B的分支长度46 把A、B看成一个新的复合序列,构建一个新的距离表,重AB组合出现3
18、次,DE组合出现3次,CD、AC、BC组合各一次,则AB和DE各为两对关系最近的邻居。(关系最近的邻居作为邻居的次数最多),将邻居看成一个新的复合序列,重复这个过程邻居关系法47AB组合出现3次,DE组合出现3次,CD、AC、BC组合各一UPGMA法称为 (应用算术平均数的非加权成组配对法,unweighted pair-group method using anarithmetic average)。该法将类间距离定义为两个类的成员所有成对距离的平均值,广泛用于距离矩阵。Nei等模拟了构建树的不同方法,发现当沿树上所有分枝的突变率相同时,UPGMA法一般能够得到较好的结果。但必须强调有关突变
19、率相等(或几乎相等)的假设对于UPGMA的应用是重要的。另一些模型研究(如Kim和Burgman)已证实当各分枝的突变率不相等时,这一方法的结果不尽人意。当各分枝突变率相等时,认为分子钟(molecularclock)在起作用。 48UPGMA法称为 (应用算术平均数的非加权成组配对法,unwd=e=10/2=5UPGMA法49d=e=10/2=5UPGMA法49c=19/2=9.5g=c-d=9.5-5=4.550c=19/2=9.550a=b=22/2=11AB(CDE)A-2239.5B-41.5(CDE)-51a=b=22/2=11AB(CDE)A-2239.5B-4(AB)(CDE)
20、(AB)-40.5(CDE)-f1+a=f2+c=40.5/2=20.25f1=9.25 , f2=11.7552(AB)(CDE)(AB)-40.5(CDE)-f1+a=最大似然法 (ML)1. 最大似然法(maximum likelihood, ML): 最早应用于对基因频率数据的分析上2. 选取一个特定的替代模型来分析给定的一组序列数据,使得获得的每一个拓扑结构的似然率都为最大值,然后再挑出其中似然率最大的拓扑结构作为最优树3. 在最大似然法的分析中,所考虑的参数并不是拓扑结构而是每个拓扑结构的枝长,并对似然率求最大值来估计枝长4. 缺点:费时,每个步骤都要考虑内部节点的所有可能性5.
21、改进:启发式算法53最大似然法 (ML)1. 最大似然法(maximum lik构建进化树的一般原则54构建进化树的一般原则541. 选择一个或多个已知与分析序列关系较远的序列作为外围支2. 外围支可以辅助定位树根3. 外围支序列必须与剩余序列关系较近,但外围支序列与其他序列间的差异必须比其他序列之间的差异更显著选择外围支 (Outgroup)551. 选择一个或多个已知与分析序列关系较远的序列作为外围支选1. 进化树的可靠性分析:自展法 (Bootstrap Method)从排列的多序列中随机有放回的抽取某一列,构成相同长度的新的排列序列2. 重复上面的过程,得到多组新的序列3. 对这些新的
22、序列进行建树,再观察这些树与原始树是否有差异,以此评价建树的可靠性自展法561. 进化树的可靠性分析:自展法 (Bootstrap Me原始排列Alpha AACAACBeta AACCCCGamma ACCAACDelta CCACCAEpsilon CCAAAC Bootstrap1Alpha ACAAACBeta ACCCCCGamma ACAAACDelta CACCCAEpsilon CAAAAC Bootstrap2Alpha AAAACCBeta AACCCCGamma CCAACCDelta CCCCAAEpsilon CCAACC Bootstrap3Alpha ACAAAC
23、Beta ACCCCCGamma CCAAACDelta CACCCAEpsilon CAAAAC57原始排列 Bootstrap157PHYLIP、PUZZLE、MEGA、PAUP、TREEVIEW、CLUSTALX和PHYLO-WIN(LINUX)常用的进化树软件phylip 3.6a3 进化树分析软件,并可绘制进化树。 TreeView 1.6.6 进化树处理软件。 GeneTree 1.3 比较基因与种系进化树的程序。 NDE 0.5.0 用来编辑NEXUS格式文件的程序。 TreeMap 1.0 用来可视地比较主、从进化树的程序。 Spectrum 分析进化信息而不用将之转化为进化树
24、的软件。 Phyltools 1.32 计算与处理进化树数据的软件。 tree-puzzle 5.0 核酸序列、蛋白序列相似性分析及进化树构建工具。 ATV 1.92 JAVA语言编写的显示“New Hampshire”与NHX格式的进化树文件 软件。 TREECON 1.3b Demo 构建和绘制进化树的软件包。 ProBiosys 1.0 比较表现型分类法数据和分析计算核酸序列数据距离值的软件。 COMPONENT 2.0 分析进化树免费软件。 NJplot 小巧的显示进化树的免费软件NJplot。 MEGA 2.1 免费分子进化遗传分析软件 PAUP 4 PAUP的快速使用手册 58PH
25、YLIP、PUZZLE、MEGA、PAUP、TREEVI5959606061616262Phylip软件包介绍Phylip是一个免费的系统发生(phylogenetics)分析软件包。以下链接可以下载: http:/evolution.genetics,/phylip.html 由华盛顿大学遗传学系开发,1980年首次公布。63Phylip软件包介绍Phylip是一个免费的系统发生(phPhylip软件包介绍 Phylip包含了35个独立的程序,这些独立的程序都实现特定的功能,这些程序基本上包括了系统发生分析的所有方面。 Phylip有多种不同平台的版本(包括windows,Macintosh
26、,DOS,Linux,Unix和OpenVMX)。64Phylip软件包介绍 Phylip包含了35个独立的程 Phylip是目前最广泛使用的系统发生分析程序,主要包括一下几个程序组:分子序列组,距离矩阵组,基因频率组,离散字符组,进化树绘制组。 Phylip软件包介绍65 Phylip是目前最广泛使用的系统发生分析程序,主要包分子序列组: 1.蛋白质序列:protpars,proml,promlk, protdist 2.核酸序列:dnapenny,dnapars, dnamove,dnaml,dnamlk, dnainvar,dnadist,dnacompPhylip软件包分组介绍66分子
27、序列组:Phylip软件包分组介绍66距离矩阵组:Fitch,kitsch,neighbor基因频率组:Gendist,contml离散字符组Pars,mix,move,penny,dollop,dolmove,dolpenny,clique,factorPhylip软件包分组介绍67距离矩阵组:Phylip软件包分组介绍67进化树绘制组:drawtree,drawgram其他:restdist,restml,seqboot,contrast treedist,consense,retreePhylip软件包分组介绍68进化树绘制组:drawtree,drawgramPhylip Phylip
28、软件包的文档是非常详细的,对于每个独立的程序,都有一个独立的文档,详细的介绍了该程序的使用及其说明。 此外,Phylip软件包还包括程序的源代码(c语言)。Phylip软件包的文档69 Phylip软件包的文档是非常详细的,对于每个独立的Phylip软件包的应用1,根据你的分析数据,选择适当的程序 如,你分析的是DNA数据,就在核酸序列分析类中选择程序(dnapenny,dnapars, dnamove,dnaml,dnamlk, dnainvar,dnadist,dnacomp )如果分析的是离散数据,如突变位点数据,就在离散字符组里面选择程序。70Phylip软件包的应用1,根据你的分析数
29、据,选择适当的程序2.选择适当的分析方法如你分析的是DNA数据,可以选择简约法(DNAPARS),似然法(DNAML, DNAMLK),距离法等(DNADIST)。Phylip软件包的应用712.选择适当的分析方法Phylip软件包的应用713.进行分析 选择好程序后,执行,读入分析数据,选择适当的参数,进行分析,结果自动保存为outfile,outtree。 Phylip软件包的应用723.进行分析Phylip软件包的应用72Outfile是一个记录文件,记录了分析的过程和结果,可以直接用文本编辑器(如写字板)打开。outtree是分析结果的树文件,可以用phylip提供的绘树程序打开查看,
30、也可以用其他的程序来打开,如treeviewPhylip软件包的应用73Outfile是一个记录文件,记录了分析的过程和结果,可7474出发数据已经排列好的蛋白序列。重构算法距离法(protdist.exe) 最大简约法(protpars.exe) 最大似然法(proml.exe)统计分析拨靴法(bootstrap)实际应用(从蛋白序列推导进化树)75出发数据已经排列好的蛋白序列。实际应用(从蛋白序列推导进化实际操作 Phylip软件包中的每个分析程序都是一个独立的应用程序。我们选择好了分析算法后,按一定的顺序组合使用选择的程序,就可以获得按选择的算法分析的结果(进化树)。例子:从我们刚刚通过
31、clustal比对获得的蛋白序 列推测进化树。 选择方法:距离法(protdist.exe)76实际操作 Phylip软件包中的每个分析程序都是一个独立第一步:双击执行protdist.exe,根据提示输入分析的文件名(程序默认是infile)。77第一步:双击执行protdist.exe,根据提示输入分析第二步:设定各个参数,执行程序,获得距 离矩阵数据输出文件outfile。第三步:选择通过距离矩阵推测进化树的算法(fitch.exe,kotsch.exe,neighbor.exe)。第四步:将刚获得的输出文件改名为infile,执行选择的推测算法(neighbor.exe)。设置好参数后
32、执行程序,获得outfile和outtree两个结果输出。78第二步:设定各个参数,执行程序,获得距 787979 获得的结果文件中,outtree文件是一个树文件,可以用treeview等软件打开。outfile是一个分析结果的输出报告,包括了树和其他一些分析报告,可以用记事本直接打开。outfileouttree80 获得的结果文件中,outtree文件是一个树文件,可以加入统计分析(bootstrap)我们刚刚获得的进化树是纯粹的根据先前获得的排列数据所推导出来的。有很多可能使得这个树并不一定可靠。1.测序的出错。2.多序列比对算法本身的问题。3.其他的问题。我们可以引进一些统计分析来寻
33、找更优的进化树最常见的就是bootstrap分析。81加入统计分析(bootstrap)我们刚刚获得的进化树是纯粹Bootstrap分析Phylip软件包中有两个用于执行bootstrap分析的程序。(seqboot.exe,consence.exe)。分析过程:1.Seqboot产生大量的数据组2.应用选择的算法对产生的数据组进行分析。3.由consence获得最优树。82Bootstrap分析Phylip软件包中有两个用于执行boPAUP*的使用PAUP*的数据格式(Nexus)#NEXUSbegin taxa;dimensions ntax=12;taxlabelsLemur_catta
34、Tarsius_syrichta;end;begin characters;dimensions nchar=898;format missing=? gap=- matchchar=. interleave datatype=dna;options gapmode=missing;matrixLemur_catta AAGCTTCATAGGAGCAACCATTCTAATAATCGCACATGGCCTTACATCATCCATATTATTHomo_sapiens AAGCTTCACCGGCGCAGTCATTCTCATAATCGCCCACGGGCTTACATCCTCATTACTATTPan AAG
35、CTTCACCGGCGCAATTATCCTCATAATCGCCCACGGACTTACATCCTCATTATTATTGorilla AAGCTTCACCGGCGCAGTTGTTCTTATAATTGCCCACGGACTTACATCATCATTATTATTPongo AAGCTTCACCGGCGCAACCACCCTCATGATTGCCCATGGACTCACATCCTCCCTACTGTTHylobates AAGCTTTACAGGTGCAACCGTCCTCATAATCGCCCACGGACTAACCTCTTCCCTGCTATT83PAUP*的使用PAUP*的数据格式(Nexus)#NEXUbegin a
36、ssumptions;charset coding = 2-457 660-896;charset noncoding = 1 458-659 897-898;charset 1stpos = 2-4573 660-8963;charset 2ndpos = 3-4573 661-8963;charset 3rdpos = 4-4573 662-.3;exset coding = noncoding;exset noncoding = coding;usertype 2_1 = 4weights transversions 2 times transitionsa c g ta. 2 1 2c
37、 2 . 2 1g1 2 . 2t2 1 2 .;usertype 3_1 = 4weights transversions 3 times transitionsa c g ta. 3 1 3c 3 . 3 1g1 3 . 3t3 1 3 .;taxset hominoids = Homo_sapiens Pan Gorilla Pongo Hylobates;end;begin paup;constraints ch = (Homo_sapiens,Pan);constraints chg = (Homo_sapiens,Pan,Gorilla);end;8484PAUP*的数据格式(Ne
38、xus) 主要包括taxa,characters,assumptions,sets,trees,codons,distances,paup八个数据块。 对于一个常规的分析,taxa,characters块是必须的。而分析的命令可以通过菜单操作(mac),或者键盘命令(win,linux),也可以在nexus文件中加入paup命令块85PAUP*的数据格式(Nexus)851.TAXA块 主要是定义所分析的数据(如分子序列)个数,以及这些数据的名称(如物种名称)。2. CHARACTERS 块 主要是定义数据矩阵(如多序列比对结果)和其他一些相关的信息(如序列特征值,序列有效区域等)PAUP*的
39、Nexus的文件块861.TAXA块PAUP*的Nexus的文件块863. ASSUMPTIONS块 定义了对数据的一些设定,如那些特征值是不需考虑的,怎么处理gap这个特征值等,用户自定义的一些数据也放在这块,如自定义的打分矩阵。4. SETS块 定义了一系列的数据组,如特征值组,物种组等,这些设置都是为了方便后续的分析。 873. ASSUMPTIONS块 875. TREES 块 定义了用户自己设定的树。用于后续的分析,如作为限制树等。6. CODONS 块 定义了遗传密码子的一些信息。如编码的位置(哪些是编码的,密码子的位点等)。7. DISTANCES 块 定义了一些距离矩阵。885
40、. TREES 块888. PAUP 块 是软件的核心块,所有的分析命令和一些参数设置(90多个命令)都放在这一块。 这一块并不是分析输入数据所必须的,这些命令可以写在这一块(文件中),这时载入文件时就开始根据该块的命令进行分析(有点类似dos的批处理过程)。当然也可以通过键盘命令逐一敲入 ,交互进行分析。 批处理的方式在分析过程比较长,耗时比较久的时候是比较有用的。当然在进行处理之前一定要先保证该批处理过程没有问题。898. PAUP 块89一个PAUP*的基本分析实例1.通过clustalw/clustalx获取一个多序列比对结果(可能要经过人工调整,推荐用bioedit做辅助编辑器)。保
41、存成nexus格式的文件,或者用其他格式转换软件转换成nexus格式。paup*中也有一个tonexus命令可以将其他格式(包括phylip,GCG等格式)的文件转换为nexus格式的文件。90一个PAUP*的基本分析实例1.通过clustalw/clu2.在PAUP*程序中读入数据(Nexus格式)输入命令的地方打开文件的窗口程序自带的测试数据执行该文件还是编辑该文件?执行文件时将文件数据读入程序,编辑文件则调用一个文本编辑器。如果不是nexus格式,执行时候会出错,然后调用文本编辑器打开。912.在PAUP*程序中读入数据(Nexus格式)输入命令的地3.数据输入完成,开始分析 两个很有用
42、的命令 ?:显示所有的命令 命令 ?:显示命令的所有参数923.数据输入完成,开始分析92分析(开始一)1.开始之前 打开记录文件?(跟踪整个分析过程)命令:log start file =your_log_file_name;停止:log stop;93分析(开始一)1.开始之前932.设置数据 哪些用于分析?如:include coding/only; exclude coding/only;哪些物种要分析(删除不要的)?如: delete 1; 或者 delete taxa_name undelete 1;分析(开始二)942.设置数据分析(开始二)943.确定建树方法最大简约法?最大似
43、然法? 距离法?命令:Set criterion=parsimony|likelihood|distance; 分析(建树一)953.确定建树方法分析(建树一)954.确定其他参数Set ?查看其他参数的设置,改为自己所需要的设置。如:set maxtree=10000 increase=no autoclose=yes;分析 (建树二)964.确定其他参数分析 (建树二)965.确定搜索方法(对于距离法不适用) 穷尽法:alltrees 分支跳跃查找:bandb 启发式搜索:hsearch 其他:puzzle(只在likelihood时有效)分析 (建树三)975.确定搜索方法(对于距离法不
44、适用)分析 (建树三)976.开始搜索树之前(设置各个建树方法的参数)距离法:dset如:dset distance=tamnei negbrlen=allow最大简约法:pset如 pset collapse=no gapmode=newstate最大似然法:lset如:lset nst=6 clock=yes分析 (建树四)986.开始搜索树之前(设置各个建树方法的参数)分析 (建树四7.再次确认参数 是否要设置外围群(outgroup)?如 outgroup 1,2 ;或者 outgroup taxa_set;其他参数?分析 (建树五)997.再次确认参数分析 (建树五)997.开始搜索
45、树距离法:NJ,UPGMA最大简约法,最大似然法Hsearch ?参数是否要更改?如:hsearch andseq=random swap=spr分析 (建树六)1007.开始搜索树分析 (建树六)1008.进化树的评估 选择评估方法?Bootstrap(自展法) 用的最多,是对进化树重新取样的评估方法,可以对距离法,简约法,似然法以及衍生出的任何其他方法构建的进化树进行评估。其分析结果是一组数字,这个数字描述了进化树进化分支的支持比例,也就是进化树分支的稳健性。分析(树评估一)1018.进化树的评估分析(树评估一)101分析 (树评估二)未经过bootstrap的树Bootstrap后的树1
46、02分析 (树评估二)未经过bootstrap的树BootstBOOTSTRAP options/heuristic-search-options|branch-and-bound-search-options; 使用分支限制或者是启发式搜索的方法进行bootstrap分析。参数: BSEED = integer-value 随机数种子。 NREPS = integer-value bootstrap重复的次数,默认值为100。 SEARCH = HEURISTIC|BANDB|FASTSTEP|NJ|UPGMA 搜索方式 CONLEVEL = integer-value bootstrap重
47、复次数的最低比率,默认为50。 KEEPALL = YES|NO WTS = IGNORE|SIMPLE|REPEATCNT|PROPORTIONAL NCHAR = CURRENT|number-of-characters 每次重复采样的数目。 GRPFREQ = YES|NO 显示bootstrap分割频率 TREEFILE = bootstrap-tree-file-name 树的文件 FORMAT= NEXUS|ALTNEXUS|FREQPARS|PHYLIP|HENNIG BRLENS = YES|NO 分支的长度 *REPLACE = YES|NO CUTOFFPCT = inte
48、ger-value 定义显示的最低bootstrap分割频率。Examplebootstrap nreps=200 treefile=boot.tre search=heuristic/addseq=random;分析 (树评估三)PAUP*中的bootstrap命令103BOOTSTRAP options/heuristic对折分析(jackknife) 跟bootstrap类似,只是在对原始数据取样的时候不会取重复的数据位点。因为它重复取样的时候是在原始数据中除去一个或者多个比对位点。 对折分析得出的结果和bootstrap是一样的。命令和参数都类似,用的比bootstrap少很多。分析
49、(树评估四)104对折分析(jackknife)分析 (树评估四)104JACKKNIFE options/heuristic-search-options|branchand-bound-search-options; 对折分析 PCTDELETE = real-value 每个对折分析循环中删除的data set百分数 JSEED = integer-value 随机数种子 NREPS = integer-value 对折循环次数 SEARCH = HEURISTIC|BANDB|FASTSTEP|NJ|UPGMA 树的搜索方法(NJ和UPGMA仅在最优规则为distance时才可用) R
50、ESAMPLE = NORMAL|JAC CONLEVEL = integer-value boostrap中出现的最小比例(最为保留group),默认为50,即50 KEEPALL = YES|NO 低于conlevel的树,若与一致树兼容,也保留 WTS = IGNORE|SIMPLE|REPEATCNT|PROPORTIONAL GRPFREQ = YES|NO 显示对折分区频率 TREEFILE = tree-file-name FORMAT = NEXUS|ALTNEXUS|FREQPARS|PHYLIP|HENNIG *REPLACE = YES|NO CUTOFFPCT = in
51、teger-value 对折频率表中显示的最小频率。ExampleJACKKNIFE nreps=200 treefile=tree.tre search=heuristic/addseq=random分析 (树评估五)PAUP*中的jackknife命令105JACKKNIFE options/heuristicKHtest和SHtest 用来测试一个特定的次优化的ml或者mp拓扑结构同最优化的拓扑结构相比是否显著不同(通常用来做Hypothesis test)。 PAUP*中这两个测试是作为pscores和lscores的一个参数,默认关闭,需要进行这两个测试的时候,要打开该参数。Psco
52、re中有KHtest,不支持SHtestLscore中有KHtest和SHtest分析 (树评估六)106KHtest和SHtest分析 (树评估六)106如:Pscores all/khtest=normal;Lscores all/khtest= normal shtest=rell; 测试得出的结果是返回一个显著性差异系数(P值)。分析 (树评估七)107如:分析 (树评估七)107其他测试随机测试:permute不一致的长度差异测试: hompart分析 (树评估八)108其他测试分析 (树评估八)108分析结束之前1.保存分析结果Savetrees 根据要求将内存中的树保存到文件如:
53、savetrees file=tree.tre brlens=yes savebootp=both from=1 to=2;2.停止记录文件Log stop;109分析结束之前1.保存分析结果109退出3.如果要进行下一项分析,想让原来改过的参数全部变回默认设置 命令:factory 所有参数恢复默认设置4.确定要退出后 命令 :quit110退出3.如果要进行下一项分析,想让原来改过的参数全部变回默认一些有用的命令1.Treeinfo 查看内存中树的情况(多少个?有根还是无根?)。2.clear 清除内存中所有的树。3.showtree 查看内存中的树(默认显示第一个树,可以加入参数) 如:
54、showtree all;showtree 2,3;4.gettrees 从树文件中读取树到内存中111一些有用的命令1.Treeinfo 1115.dscores,pscores,lscores 计算树的距离,简约性,相似性分值。6.ingroup/outgroup 取消和设定外围群7.Contree 根据一定的规则求解一致树8.Deroottrees 将有根树转换为无根树9.Roottrees 根据当前设定的outgroup将无根树转换为有根树1125.dscores,pscores,lscores11210.Filter根据设定的规则筛选树。11.详细的命令请参考paup*软件的comm
55、and reference。11310.Filter113Paup块的一个例子begin paup;Log star file=log.txt; set criterion=likelihood autoclose=yes maxtrees=10000 increase=no;lset nst=6 rmatrix=estimate basefreq=estimate pinv=estimate rates=gamma shape=estimate; hsearch addseq=random nreps=100; bootstrap nreps=1000 search=heuristic br
56、lens=yes; savetrees file=tree.tre savebootp=both from=1 to=1; log stop; quit;end;114Paup块的一个例子begin paup;114构建进化树 实例 MEGA3.1软件安装启动程序Alignment转入fasta格式文件比对保存比对后文件为扩展名meg的格式关闭软件窗口按钮点phylogeny菜单选构建树的方式完成构建115构建进化树 实例 MEGA3.1软件安装启动程序Al116116117117118118119119120120121121122122123123生物信息学第六章 分子进化与系统发育分析1
57、24生物信息学第六章 分子进化与系统发育分析124生物学家:We have a dream1. Tree of Life: 重建所有生物的进化历史并以系统树的形式加以描述125生物学家:We have a dream1. Tree o梦想走进现实:How?1. 最理想的方法:化石! 然而零散、不完整2. 比较形态学和比较生理学:确定大致的进化框架。 然而,细节存在巨多的争议126梦想走进现实:How?1. 最理想的方法:化石! 然而第三种方案:分子进化1. 1964年,Linus Pauling提出分子进化理论;2. DNA & RNA: 4种碱基;蛋白质分子:20种氨基酸;3. 发生在分子层
58、面的进化过程:DNA, RNA和蛋白质分子;4. 基本假设:核苷酸和氨基酸序列中含有生物进化历史的全部信息;127第三种方案:分子进化1. 1964年,Linus Pauli分子进化的模式1. DNA突变的模式:替代,插入,缺失,倒位;2. 核苷酸替代:转换 (Transition) & 颠换 (Transversion);3. 基因复制:多基因家族的产生以及伪基因的产生;A. 单个基因复制 重组或者逆转录;B. 染色体片断复制;C. 基因组复制;128分子进化的模式1. DNA突变的模式:替代,插入,缺失,倒位 (1) DNA突变的模式替代插入缺失倒位129 (1) DNA突变的模式替代插入
59、缺失倒位129(2) 核苷酸替代:转换 & 颠换1. 转换:嘌呤被嘌呤替代,或者嘧啶被嘧啶替代;2. 颠换:嘌呤被嘧啶替代,或者嘧啶被嘌呤替代;130(2) 核苷酸替代:转换 & 颠换1. 转换:嘌呤被嘌呤替代基因复制:单个基因复制重组逆转录131基因复制:单个基因复制重组逆转录131基因复制:染色体片段复制132基因复制:染色体片段复制132基因复制:基因组复制S. Cerevisiae (酿酒酵母)K. Waltii (克鲁雄酵母)研究结果:克鲁雄酵母中的同源基因数量与酿酒酵母相比为1:2133基因复制:基因组复制S. Cerevisiae (酿酒酵母)分子进化研究的目的1. 从物种的一些
60、分子特性出发,构建系统发育树,进而了解物种之间的生物系统发生的关系 tree of life; 物种分类;2. 大分子功能与结构的分析:同一家族的大分子,具有相似的三级结构及生化功能,通过序列同源性分析,构建系统发育树,进行相关分析;功能预测;3. 进化速率分析:例如,HIV的高突变性;哪些位点易发生突变?134分子进化研究的目的1. 从物种的一些分子特性出发,构建系统发(1) Tree of Life: 16S rRNA135(1) Tree of Life: 16S rRNA135Out of Africa53个人的线粒体基因组(16,587bp)人类迁移的路线136Out of Afri
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《贵州丰采能源开发有限公司织金县珠藏镇宏发煤矿(变更)矿产资源绿色开发利用方案(三合一)》评审意见
- 统编版小学语文二年级下册第4课《邓小平爷爷植树》精美课件
- 近视手术后护理
- 2025年呼和浩特a2货运从业资格证模拟考试
- 2025年石家庄从业资格货运资格考试题库答案解析
- 2025年萍乡经营性道路客货运输驾驶员从业资格考试
- 2025年唐山货运从业资格证考试题及答案
- 2025年银川货运上岗证考试题
- 治酒工艺知识培训课件
- 四川省泸州市2024-2025学年高一上学期期末考试历史试题(解析版)
- 时政述评巴以冲突课件-2024届高考政治一轮复习
- 三级综合医院评审标准(2024年版)
- 2024延长石油(集团)限责任公司社会招聘高频难、易错点500题模拟试题附带答案详解
- 中建《质量标准化管理手册》水利水电工程
- 声乐老师招聘笔试题与参考答案(某大型央企)
- 湘教版四年级美术下册 3 春天来了 教案
- 上海市静安区2025年高三第一次联考英语试题含解析
- 3.1 细胞膜的结构和功能课件-高一上学期生物人教版必修1
- 天津市2024年中考英语模拟试卷(含答案)2
- 部编人教版初中历史七年级下册历史复习提纲含答案
- 2024年中国泌尿科内窥镜市场调查研究报告
评论
0/150
提交评论