版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第五章多序列对位排列和进化分析(I)生物信息学第五章生物信息学1chickenPLVSS---PLRGEAGVLPFQQEEYEKVKRGIVEQCCHNTCSLYQLENYCNxenopusALVSG---PQDNELDGMQLQPQEYQKMKRGIVEQCCHSTCSLFQLESYCNhumanLQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCNmonkeyPQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCNdogLQVRDVELAGAPGEGGLQPLALEGALQKRGIVEQCCTSICSLYQLENYCNhamsterPQVAQLELGGGPGADDLQTLALEVAQQKRGIVDQCCTSICSLYQLENYCNbovinePQVGALELAGGPGAGG-----LEGPPQKRGIVEQCCASVCSLYQLENYCNguineapigPQVEQTELGMGLGAGGLQPLALEMALQKRGIVDQCCTGTCTRHQLQSYCNBringthegreatestnumberofsimilarcharactersintothesamecolumnofthealignmentMultipleSequenceAlignment(MSA)多序列对位排列chickenPLVSS---PLRGEAGVLPF2Findoutwhichparts“dothesamething”为什么要做MSA?用于描述一组序列之间的相似性关系,以便了解一个基因家族的基本特征,寻找motif,保守区域等。用于预测新序列的二级和三级结构,进而推测其生物学功能。Findoutwhichparts“dothes3用于描述同源序列之间的亲缘关系的远近,应用到分子进化分析中。是构建分子进化树的基础。为什么要做MSA?abcGenetreeABCSpeciestreeWeoftenassumethatgenetreesgiveusspeciestrees用于描述同源序列之间的亲缘关系的远近,应用到分子进化分析中。4为什么要做MSA?Contigassembly为什么要做MSA?Contigassembly5怎么做MSA?动态规划算法(dynamicprogramming):MSA改进算法(heuristicalgorithm):
1.渐进法(progressivemethods):Clustal,T-Coffee,MUSCLE2.迭代法(iterativemethods):PRRP,DIALIGN3.其它算法:PartialOrderAlgorithm、profileHMM、meta-methods(MAFFT)…http://www.ebi.ac.uk/Tools/msa/CurrentOpinioninStructuralBiology2006,16:368–373怎么做MSA?动态规划算法(dynamicprogramm6Clustal:目前应用最广泛的MSA方法可在线分析可在本地计算机运行Clustal使用方法序列输入、输出格式FASTANBRF/PIREMBL/SWISSPROTALN
GCG/MSF
GCG9/RSF
GDEALN
NBRF/PIR
GCG/MSF
PHYLIP
NEXUS
GDE/FASTAInputOutput>sequence1
ATTGCAGTTCGCA……>sequence2
ATAGCACATCGCA……>sequence3
ATGCCACTCCGCC……/Clustal:目前应用最广泛的MSA方法可在线分析Cl7两两比对
构建距离矩阵构建指导树(guidetree)将距离最近的两条序列用动态规划的算法进行比对;“渐进”的加上其他的序列ClustalW/X算法基础两两比对
构建距离矩阵构建指导树(guidetree)将距8Clustal在线分析方法(ClustalW)多序列对位排列结果粘贴或上载序列EBI的ClustalW分析网页http://www.ebi.ac.uk/Tools/msa/clustalw2/调整参数http://www.ebi.ac.uk/Tools/msa/clustalw/help/AlignmentsResultSummaryClustal在线分析方法(ClustalW)多序列对位排列9自带Help文件UsingClustalXformultiplesequencealignment
byJarnoTuimala
两种工作模式:MultipleAlignmentProfileAlignmentClustal离线分析方法(ClustalX)下载安装自带Help文件UsingClustalXformul10第一步:输入序列FileLoadsequences1、序列为多重fasta格式(可进行编辑,保存为txt文件)2、序列文件所在路径不能有空格和中文字符(如放在系统桌面),否则ClustalX无法载入3、为便于识别每条序列,可在>后输入物种名称,并用空格和其它描述内容分开,如:>Human
gi|301129180|ref|NP_001180303.1|resistin[Homosapiens]第一步:输入序列FileLoadsequences1、序列11第二步:设定比对参数第二步:设定比对参数12第三步:进行序列比对,得到结果第三步:进行序列比对,得到结果13第四步:评价比对质量打开比对结果:1、可在ClustalX中直接输出打印2、可用写字板打开aln文件3、可将aln文件以图形展示,更直观更改参数、手动编辑,使之具有生物学意义第四步:评价比对质量打开比对结果:1、可在ClustalX中14可进一步对排列好的序列进行修饰(1)Boxshade突出相同或相似位点(/software/BOX_form.html)在EBIClustalW结果网页复制序列比对结果在“Boxshade”网页粘贴序列,在“Inputsequenceformat”栏目选择“ALN”,在“Outputformat”栏目选择“RTF_new”修饰过的排列结果在结果网页点击“hereisyouroutputnumber1”可进一步对排列好的序列进行修饰(1)Boxshade突15可进一步对排列好的序列进行修饰(2)ESPript多种修饰功能,突出相同或相似位点在ESPript分析网页“AlignedSequences”栏上载Alignments文件在“Outputlayout”和“Outputfileordevice”栏选择修饰后的比对结果http://espript.ibcp.fr/ESPript/cgi-bin/ESPript.cgi在EBIClustalW结果网页下载“Alignments”(CLUSTALWformat)可进一步对排列好的序列进行修饰(2)ESPript多种修16GeneDoc/gfx/genedocFile–Import修饰排列结果选择输入文件的格式(如ALN)可进一步对排列好的序列进行修饰(3)GeneDocFile–Import修饰排列结果选择输17第五章多序列对位排列和进化分析(II)生物信息学第五章生物信息学182.系统发生分析(Phylogeneticanalysis)分析基因或蛋白质的进化关系系统发生(进化)树(phylogenetictree)Atreeshowingtheevolutionaryrelationshipsamongvariousbiologicalspeciesorotherentitiesthatarebelievedtohaveacommonancestor.2.系统发生分析(Phylogeneticanal19经典进化生物学:比较:形态、生理结构、化石分子进化生物学:比较DNA和蛋白质序列研究系统发生的方法经典进化生物学:研究系统发生的方法20Residuesthatarelinedupindifferentsequencesareconsideredtoshareacommonancestry(i.e.,theyarederivedfromacommonancestralresidue).AnAlignmentisanhypothesisofpositionalhomologybetweenbases/AminoAcidsEasyonlywithsubstitutionsDifficultalsowithindelsResiduesthatarelinedupin21=((A,(B,C)),(D,E))Newickformat节点Node分支BranchABCDE末端节点
可以是物种,群体,或者蛋白质、DNA、RNA分子等OTU祖先节点/树根Root系统发生树术语内部节点/分歧点该分支可能的祖先HTU=((A,(B,C)),(D,E))Newick22Aclade(进化支)isagroupoforganismsthatincludesanancestorandalldescendentsofthatancestor.geneticchangenomeaningPhylogram CladogramtimeTaxonATaxonBTaxonCTaxonD111635TaxonATaxonBTaxonCTaxonDTaxonATaxonBTaxonCTaxonDUltrametrictree
超度量树进化树分支树系统发生树术语Aclade(进化支)isagroupoforg23Rootedtreevs.Unrootedtreetwomajorwaystoroottrees:ABCD102352d(A,D)=10+3+5=18Midpoint=18/2=9Bymidpointordistance有根树ACBD无根树系统发生树术语outgroup外群、外围支Rootedtreevs.Unrootedtreet24plantplantplantfungusanimalanimalanimalUnrootedtreerootRootedtreebacteriumanimalanimalanimalfungusplantplantplantMonophyleticgroupMonophyleticgroupRootedtreevs.Unrootedtreeplantplantplantfungusanimalani25选择外群
(Outgroup)选择一个或多个已知与分析序列关系较远的序列作为外类群外类群可以辅助定位树根外类群序列必须与进化树上其它序列同源,但外类群序列与这些序列间的差异必须比这些序列之间的差异更显著。eukaryoteeukaryoteeukaryoteeukaryotearchaeaarchaeaarchaeabacteriaoutgroup外群Howtorootatree?选择外群
(Outgroup)选择一个或多个已知与分析序列关26系统发育树构建步骤多序列比对(自动比对、手工校正)选择建树方法(替代模型)建立进化树进化树评估最大简约法(maximumparsimony,MP)距离法(distance)最大似然法(maximumlikelihood,ML)贝叶斯法(Bayesianinference)统计分析BootstrapLikelihoodRatioTest……UPGMA邻近法(Neighbor-joining,NJ)最小进化法(minimumevolution)系统发育树构建步骤多序列比对(自动比对、手工校正)选择建树方27距离法 距离法又称距离矩阵法,首先通过各个序列之间的比较,根据一定的假设(进化距离模型)推导得出分类群之间的进化距离,构建一个进化距离矩阵。进化树的构建则是基于这个矩阵中的进化距离关系。CatDogRatDog3Rat45Cow676CatDogRat11224Cow计算序列的距离,建立距离矩阵通过距离矩阵建进化树距离法 距离法又称距离矩阵法,首先通过各个序列之间的比较,28Step1.计算序列的距离,建立距离矩阵Uncorrected“p”distance(=observedpercentsequencedifference)Kimura2-parameterdistance(estimateofthetruenumberofsubstitutionsbetweentaxa)对位排列,去除空格(选择替代模型)Step1.计算序列的距离,建立距离矩阵Uncorrect29由进化距离构建进化树的方法有很多,常见有:1.UnweightedPairGroupMethodwithArithmeticmean
(UPGMA)
2.Neighbor-JoiningMethod(NJ法/邻位连接法)
3.MinimumEvolution(MP法/最小进化法)Step2.通过矩阵建树由进化距离构建进化树的方法有很多,常见有:Step2.通过30 最大简约法(MP)最早源于形态性状研究,现在已经推广到分子序列的进化分析中。最大简约法的理论基础是奥卡姆(Ockham)哲学原则,对所有可能的拓扑结构进行计算,找出所需替代数最小的那个拓扑结构,作为最优树。
最大简约法(MaximumParsimony)Findthetreethatexplainstheobservedsequenceswithaminimalnumberofsubstitutions 最大简约法(MP)最早源于形态性状研究,现在已经推广到分31Sequence1TGCSequence2TACSequence3AGGSequence4AAG1
2
3PositionMP法建树流程If1and2aregroupedatotaloffourchangesareneeded.
If1and3aregroupedatotaloffivechangesareneeded.
If1and4aregroupedatotalofsixchangesareneeded.Position1
(1,2):1change;
(1,3)or(1,4):2changesPosition2
(1,3):1change;
(1,2)or(1,4):2changesPosition3
(1,2):1change;
(1,3)or(1,4):2changesSequence1TGCSequence2TACSequen32456BESTMP法建树步骤456BESTMP法建树步骤33最大似然法(MaximumLikelihood)最大似然法(ML)最早应用于对基因频率数据的分析上。其原理为选取一个特定的替代模型来分析给定的一组序列数据,使得获得的每一个拓扑结构的似然率都为最大值,然后再挑出其中似然率最大的拓扑结构作为最优树。最大似然法(MaximumLikelihood)最大似然34ML法建树流程CAGATGCCATGCML法建树流程CAGATGCCATGC35PickanEvolutionaryModelForeachposition,GenerateallpossibletreestructuresBasedontheEvolutionaryModel,calculateLikelihoodoftheseTreesandSumthemtogettheColumnLikelihoodforeachOTUcluster.CalculateTreeLikelihoodbymultiplyingthelikelihoodforeachpositionChooseTreewithGreatestLikelihoodInferringthemaximumlikelihoodtreePickanEvolutionaryModelInf36Holder&Lewis(2003)NatureReviewsGenetics4,275-284Bayesianinference:Whatistheprobabilitythatthemodel/theoryiscorrectgiventheobserveddata?Pr(T|D)MaximumLikelihood:
Whatistheprobabilityofseeingtheobserveddata(D)givenamodel/theory(T)?Pr(D|T)SpeedNoneedforbootstrapping构建进化树的新方法——贝叶斯推断
(Bayesianinference)与ML相比,BI的优势:Holder&Lewis(2003)NatureRev37ComparisonofMethodsDistanceMaximumparsimonyMaximumlikelihoodUsesonlypairwisedistancesUsesonlysharedderivedcharactersUsesalldataMinimizesdistancebetweennearestneighborsMinimizestotaldistanceMaximizestreelikelihoodgivenspecificparametervaluesVeryfastSlowVeryslowEasilytrappedinlocaloptimaAssumptionsfailwhenevolutionisrapidHighlydependentonassumedevolutionmodelGoodforgeneratingtentativetree,orchoosingamongmultipletreesBestoptionwhentractable(<30taxa,homoplasyrare)GoodforverysmalldatasetsandfortestingtreesbuiltusingothermethodsComparisonofMethodsDistanceM38Bioinformatics:SequenceandGenomeAnalysis,2ndedition,byDavidW.Mount.p254ChoosingaMethodforPhylogeneticPrediction/cgi/content/full/2008/5/pdb.ip49MolecularBiologyandEvolution200522(3):792-802Bioinformatics:SequenceandG39AssessingtreereliabilityPhylogeneticreconstructionisaproblemofstatisticalinference.Onemustassessthereliabilityoftheinferredphylogenyanditscomponentparts.Questions:(1)howreliableisthetree?(2)whichpartsofthetreearereliable?(3)isthistreesignificantlybetterthananotherone?Assessingtreereliability40Astatisticaltechniquethatusesintensiverandomresamplingofdatatoestimateastatisticwhoseunderlyingdistributionisunknown.评估进化树的可靠性——自展法(bootstrappingmethod)从排列的多序列中随机有放回的抽取某一列,构成相同长度的新的排列序列重复上面的过程,得到多组新的序列对这些新的序列进行建树,再观察这些树与原始树是否有差异,以此评价建树的可靠性Astatisticaltechniquethatu41TheBootstrapComputationalmethodtoestimatetheconfidencelevelofacertainphylogenetictree.rat GAGGCTTATChuman GTGGCTTATCturtle GTGCCCTATGfruitfly CTCGCCTTTGoak ATCGCTCTTGduckweed ATCCCTCCGG 0123456789SamplerathumanturtlefruitflyoakduckweedInferredtreeMorereplicates(between100-1000)rat GGAAGGGGCThuman GGTTGGGGCTturtle GGTTGGGCCCfruitfly CCTTCCCGCCoak AATTCCCGCTduckweed AATTCCCCCT
0011222345Pseudosample1rat CCTTTTAAAThuman CCTTTTAAATturtle CCCCCTAAAT fruitfly CCCCCTTTTToak CCTTTCTTTTduckweed CCTTTCCCCG
4455567778Pseudosample2TheBootstrapComputationalme42自展法检验流程Bootstrappingdoesn’treallyassesstheaccuracyofatree,onlyindicatestheconsistencyofthedata对ML法而言,自展法太耗时,可用aLRT法检验进化树的可靠性Anisimova&Gascuel(2006)Syst.Biol.55(4):539-552自展法检验流程Bootstrappingdoesn’tr43MSA程序可对任何序列进行比对,选择什么样的序列进行比对非常重要!!用于构建进化树的序列必须是同源序列MSA是构建分子进化树的关键步骤MSA程序可对任何序列进行比对,选择什么样的序列进行比对非常44分子进化树构建(ClustalW)页面下方显示CladogramTree点击“ShowasPhylogramTree”展示PhylogramTree不推荐:仅提供距离法建树,且没有进行评估输入比对后的序列(或上载Alignments文件)EBI的ClustalW2-phylogeny分析网页http://www.ebi.ac.uk/Tools/phylogeny/clustalw2_phylogeny/分子进化树构建(ClustalW)页面下方显示Cladog45看图工具下载“Phyliptreefile”(ph文件)TreeView进化树编辑打印软件(在http://taxonomy.zoology.gla.ac.uk/rod/treeview.html)输入比对后的序列(或上载Alignments文件)用TreeView软件打开上述文件可以不同格式展示进化树(1、2、3)EBI的ClustalW2-phylogeny分析网页看图工具下载“Phyliptreefile”(ph文件)46PHYLIP/phylip.html免费的集成进化分析工具PAUP/商业软件,集成的进化分析工具MEGA/免费的图形化集成进化分析工具PHYMLhttp://atgc.lirmm.fr/phyml/最快的ML建树工具PAMLhttp://abacus.gene.ucl.ac.uk/software/paml.htmlML建树工具Tree-puzzle
http://www.tree-puzzle.de/较快的ML建树工具MrBayes/基于贝叶斯方法的建树工具分子进化分析软件更多工具/phylip/software.htmlPHYLIPhttp://evolution.g47提供最大简约法(MP)、最大似然法(ML)和距离法三种建树方法。其中距离法包括邻接法(NJ)、最小进化法(ME)和UPGMA三种算法。分子进化树构建方法优点:图形界面,集序列查询、比对、进化树构建为一体,帮助文件详尽,免费/提供最大简约法(MP)、最大似然法(ML)和距离法三种建树方48第五章多序列对位排列和进化分析(上机操作)生物信息学第五章生物信息学49用BLAST查询人Insulin(P01308)在蛋白质数据库中的相似序列,根据比对结果中的E值和相似度确定其在黑猩猩、猪、牛、羊、鸡和斑马鱼中的同源蛋白序列。在HomoloGene中获取人Insulin在上述物种中的同源蛋白序列。获取同源序列用BLAST查询人Insulin(P01308)在蛋白质数据501、对第一个练习中获取的同源序列用clustal程序进行多序列比对。2、修改相关参数,观察对比对结果的影响。3、练习使用各种修饰功能对排列结果的展示方式进行修改。多序列对位排列1、对第一个练习中获取的同源序列用clustal程序进行多序511、利用在第一个练习中获取的来自不同物种的Insulin蛋白序列构建分子进化树。观察使用不同建树方法和不同替代模型对进化树拓扑结构的影响,并对进化树的可靠性进行校验。2、在基因重组人胰岛素面市之前,糖尿病患者所需胰岛素主要来自动物胰脏。请根据构建的分子进化树分析来源自猪、牛和羊的胰岛素哪一种最适于人使用,说明理由。构建分子进化树1、利用在第一个练习中获取的来自不同物种的Insulin蛋白52ClustalWClustalX
Clustal工作界面ClustalWClustalXClustal工作界面53Clustal部分参数定义Gapopeningpenalty:增大数值使gap数目减少Gapextensionpenalty:增大数值使gap长度变短Weighttransition:A-G转换或C-T转换(multipleDNAsequencealignment)Hydrophilicgap:选择“on”将增加形成gap的机会(multipleproteinsequencealignment)Residue-specificgappenalties:选择“on”将增加在某些氨基酸残基处形成gap的机会,而减少在另一些氨基酸残基处形成gap的机会(multipleproteinsequencealignment)Clustal部分参数定义Gapopeningpenal54构建分子进化树课件55http://espript.ibcp.fr/ESPript/cgi-bin/ESPript.cgihttp://espript.ibcp.fr/ESPript56构建分子进化树课件57构建分子进化树课件58Buffon(1707-1788)NaturalHistoryofAnimals
Buffon(1707-1788)59始祖鸟化石复原图始祖鸟化石复原图602.7%difference2.7%difference61xl,Xenopuslaevis;xt,Xenopustropicalis;gg,Gallusgallus;rn,Rattusnorvegicus;mm,Musmusculus;hs,Homosapiens.BMCEvolutionaryBiology20077:164xl,Xenopuslaevis;BMCEvolut62构建分子进化树课件63构建分子进化树课件64构建分子进化树课件65由于同一位点多重替代(multiplesubstitution)的发生,观测到的差异比实际替代数要小原始序列后代序列13mutations
=
3differencesDegreeofdivergenceTotalnumberofsubstitutions由于同一位点多重替代(multiplesubstituti66为了估算出正确的分歧时间(期望替代数),必须对观测到的替代数进行校正在进化的任意时间点,任意位点的核苷酸都可能发生回复和平行突变。替代模型Substitutionmodel为了估算出正确的分歧时间(期望替代数),必须对观测到的替代数67替代模型替代模型68第五章多序列对位排列和进化分析(I)生物信息学第五章生物信息学69chickenPLVSS---PLRGEAGVLPFQQEEYEKVKRGIVEQCCHNTCSLYQLENYCNxenopusALVSG---PQDNELDGMQLQPQEYQKMKRGIVEQCCHSTCSLFQLESYCNhumanLQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCNmonkeyPQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCNdogLQVRDVELAGAPGEGGLQPLALEGALQKRGIVEQCCTSICSLYQLENYCNhamsterPQVAQLELGGGPGADDLQTLALEVAQQKRGIVDQCCTSICSLYQLENYCNbovinePQVGALELAGGPGAGG-----LEGPPQKRGIVEQCCASVCSLYQLENYCNguineapigPQVEQTELGMGLGAGGLQPLALEMALQKRGIVDQCCTGTCTRHQLQSYCNBringthegreatestnumberofsimilarcharactersintothesamecolumnofthealignmentMultipleSequenceAlignment(MSA)多序列对位排列chickenPLVSS---PLRGEAGVLPF70Findoutwhichparts“dothesamething”为什么要做MSA?用于描述一组序列之间的相似性关系,以便了解一个基因家族的基本特征,寻找motif,保守区域等。用于预测新序列的二级和三级结构,进而推测其生物学功能。Findoutwhichparts“dothes71用于描述同源序列之间的亲缘关系的远近,应用到分子进化分析中。是构建分子进化树的基础。为什么要做MSA?abcGenetreeABCSpeciestreeWeoftenassumethatgenetreesgiveusspeciestrees用于描述同源序列之间的亲缘关系的远近,应用到分子进化分析中。72为什么要做MSA?Contigassembly为什么要做MSA?Contigassembly73怎么做MSA?动态规划算法(dynamicprogramming):MSA改进算法(heuristicalgorithm):
1.渐进法(progressivemethods):Clustal,T-Coffee,MUSCLE2.迭代法(iterativemethods):PRRP,DIALIGN3.其它算法:PartialOrderAlgorithm、profileHMM、meta-methods(MAFFT)…http://www.ebi.ac.uk/Tools/msa/CurrentOpinioninStructuralBiology2006,16:368–373怎么做MSA?动态规划算法(dynamicprogramm74Clustal:目前应用最广泛的MSA方法可在线分析可在本地计算机运行Clustal使用方法序列输入、输出格式FASTANBRF/PIREMBL/SWISSPROTALN
GCG/MSF
GCG9/RSF
GDEALN
NBRF/PIR
GCG/MSF
PHYLIP
NEXUS
GDE/FASTAInputOutput>sequence1
ATTGCAGTTCGCA……>sequence2
ATAGCACATCGCA……>sequence3
ATGCCACTCCGCC……/Clustal:目前应用最广泛的MSA方法可在线分析Cl75两两比对
构建距离矩阵构建指导树(guidetree)将距离最近的两条序列用动态规划的算法进行比对;“渐进”的加上其他的序列ClustalW/X算法基础两两比对
构建距离矩阵构建指导树(guidetree)将距76Clustal在线分析方法(ClustalW)多序列对位排列结果粘贴或上载序列EBI的ClustalW分析网页http://www.ebi.ac.uk/Tools/msa/clustalw2/调整参数http://www.ebi.ac.uk/Tools/msa/clustalw/help/AlignmentsResultSummaryClustal在线分析方法(ClustalW)多序列对位排列77自带Help文件UsingClustalXformultiplesequencealignment
byJarnoTuimala
两种工作模式:MultipleAlignmentProfileAlignmentClustal离线分析方法(ClustalX)下载安装自带Help文件UsingClustalXformul78第一步:输入序列FileLoadsequences1、序列为多重fasta格式(可进行编辑,保存为txt文件)2、序列文件所在路径不能有空格和中文字符(如放在系统桌面),否则ClustalX无法载入3、为便于识别每条序列,可在>后输入物种名称,并用空格和其它描述内容分开,如:>Human
gi|301129180|ref|NP_001180303.1|resistin[Homosapiens]第一步:输入序列FileLoadsequences1、序列79第二步:设定比对参数第二步:设定比对参数80第三步:进行序列比对,得到结果第三步:进行序列比对,得到结果81第四步:评价比对质量打开比对结果:1、可在ClustalX中直接输出打印2、可用写字板打开aln文件3、可将aln文件以图形展示,更直观更改参数、手动编辑,使之具有生物学意义第四步:评价比对质量打开比对结果:1、可在ClustalX中82可进一步对排列好的序列进行修饰(1)Boxshade突出相同或相似位点(/software/BOX_form.html)在EBIClustalW结果网页复制序列比对结果在“Boxshade”网页粘贴序列,在“Inputsequenceformat”栏目选择“ALN”,在“Outputformat”栏目选择“RTF_new”修饰过的排列结果在结果网页点击“hereisyouroutputnumber1”可进一步对排列好的序列进行修饰(1)Boxshade突83可进一步对排列好的序列进行修饰(2)ESPript多种修饰功能,突出相同或相似位点在ESPript分析网页“AlignedSequences”栏上载Alignments文件在“Outputlayout”和“Outputfileordevice”栏选择修饰后的比对结果http://espript.ibcp.fr/ESPript/cgi-bin/ESPript.cgi在EBIClustalW结果网页下载“Alignments”(CLUSTALWformat)可进一步对排列好的序列进行修饰(2)ESPript多种修84GeneDoc/gfx/genedocFile–Import修饰排列结果选择输入文件的格式(如ALN)可进一步对排列好的序列进行修饰(3)GeneDocFile–Import修饰排列结果选择输85第五章多序列对位排列和进化分析(II)生物信息学第五章生物信息学862.系统发生分析(Phylogeneticanalysis)分析基因或蛋白质的进化关系系统发生(进化)树(phylogenetictree)Atreeshowingtheevolutionaryrelationshipsamongvariousbiologicalspeciesorotherentitiesthatarebelievedtohaveacommonancestor.2.系统发生分析(Phylogeneticanal87经典进化生物学:比较:形态、生理结构、化石分子进化生物学:比较DNA和蛋白质序列研究系统发生的方法经典进化生物学:研究系统发生的方法88Residuesthatarelinedupindifferentsequencesareconsideredtoshareacommonancestry(i.e.,theyarederivedfromacommonancestralresidue).AnAlignmentisanhypothesisofpositionalhomologybetweenbases/AminoAcidsEasyonlywithsubstitutionsDifficultalsowithindelsResiduesthatarelinedupin89=((A,(B,C)),(D,E))Newickformat节点Node分支BranchABCDE末端节点
可以是物种,群体,或者蛋白质、DNA、RNA分子等OTU祖先节点/树根Root系统发生树术语内部节点/分歧点该分支可能的祖先HTU=((A,(B,C)),(D,E))Newick90Aclade(进化支)isagroupoforganismsthatincludesanancestorandalldescendentsofthatancestor.geneticchangenomeaningPhylogram CladogramtimeTaxonATaxonBTaxonCTaxonD111635TaxonATaxonBTaxonCTaxonDTaxonATaxonBTaxonCTaxonDUltrametrictree
超度量树进化树分支树系统发生树术语Aclade(进化支)isagroupoforg91Rootedtreevs.Unrootedtreetwomajorwaystoroottrees:ABCD102352d(A,D)=10+3+5=18Midpoint=18/2=9Bymidpointordistance有根树ACBD无根树系统发生树术语outgroup外群、外围支Rootedtreevs.Unrootedtreet92plantplantplantfungusanimalanimalanimalUnrootedtreerootRootedtreebacteriumanimalanimalanimalfungusplantplantplantMonophyleticgroupMonophyleticgroupRootedtreevs.Unrootedtreeplantplantplantfungusanimalani93选择外群
(Outgroup)选择一个或多个已知与分析序列关系较远的序列作为外类群外类群可以辅助定位树根外类群序列必须与进化树上其它序列同源,但外类群序列与这些序列间的差异必须比这些序列之间的差异更显著。eukaryoteeukaryoteeukaryoteeukaryotearchaeaarchaeaarchaeabacteriaoutgroup外群Howtorootatree?选择外群
(Outgroup)选择一个或多个已知与分析序列关94系统发育树构建步骤多序列比对(自动比对、手工校正)选择建树方法(替代模型)建立进化树进化树评估最大简约法(maximumparsimony,MP)距离法(distance)最大似然法(maximumlikelihood,ML)贝叶斯法(Bayesianinference)统计分析BootstrapLikelihoodRatioTest……UPGMA邻近法(Neighbor-joining,NJ)最小进化法(minimumevolution)系统发育树构建步骤多序列比对(自动比对、手工校正)选择建树方95距离法 距离法又称距离矩阵法,首先通过各个序列之间的比较,根据一定的假设(进化距离模型)推导得出分类群之间的进化距离,构建一个进化距离矩阵。进化树的构建则是基于这个矩阵中的进化距离关系。CatDogRatDog3Rat45Cow676CatDogRat11224Cow计算序列的距离,建立距离矩阵通过距离矩阵建进化树距离法 距离法又称距离矩阵法,首先通过各个序列之间的比较,96Step1.计算序列的距离,建立距离矩阵Uncorrected“p”distance(=observedpercentsequencedifference)Kimura2-parameterdistance(estimateofthetruenumberofsubstitutionsbetweentaxa)对位排列,去除空格(选择替代模型)Step1.计算序列的距离,建立距离矩阵Uncorrect97由进化距离构建进化树的方法有很多,常见有:1.UnweightedPairGroupMethodwithArithmeticmean
(UPGMA)
2.Neighbor-JoiningMethod(NJ法/邻位连接法)
3.MinimumEvolution(MP法/最小进化法)Step2.通过矩阵建树由进化距离构建进化树的方法有很多,常见有:Step2.通过98 最大简约法(MP)最早源于形态性状研究,现在已经推广到分子序列的进化分析中。最大简约法的理论基础是奥卡姆(Ockham)哲学原则,对所有可能的拓扑结构进行计算,找出所需替代数最小的那个拓扑结构,作为最优树。
最大简约法(MaximumParsimony)Findthetreethatexplainstheobservedsequenceswithaminimalnumberofsubstitutions 最大简约法(MP)最早源于形态性状研究,现在已经推广到分99Sequence1TGCSequence2TACSequence3AGGSequence4AAG1
2
3PositionMP法建树流程If1and2aregroupedatotaloffourchangesareneeded.
If1and3aregroupedatotaloffivechangesareneeded.
If1and4aregroupedatotalofsixchangesareneeded.Position1
(1,2):1change;
(1,3)or(1,4):2changesPosition2
(1,3):1change;
(1,2)or(1,4):2changesPosition3
(1,2):1change;
(1,3)or(1,4):2changesSequence1TGCSequence2TACSequen100456BESTMP法建树步骤456BESTMP法建树步骤101最大似然法(MaximumLikelihood)最大似然法(ML)最早应用于对基因频率数据的分析上。其原理为选取一个特定的替代模型来分析给定的一组序列数据,使得获得的每一个拓扑结构的似然率都为最大值,然后再挑出其中似然率最大的拓扑结构作为最优树。最大似然法(MaximumLikelihood)最大似然102ML法建树流程CAGATGCCATGCML法建树流程CAGATGCCATGC103PickanEvolutionaryModelForeachposition,GenerateallpossibletreestructuresBasedontheEvolutionaryModel,calculateLikelihoodoftheseTreesandSumthemtogettheColumnLikelihoodforeachOTUcluster.CalculateTreeLikelihoodbymultiplyingthelikelihoodforeachpositionChooseTreewithGreatestLikelihoodInferringthemaximumlikelihoodtreePickanEvolutionaryModelInf104Holder&Lewis(2003)NatureReviewsGenetics4,275-284Bayesianinference:Whatistheprobabilitythatthemodel/theoryiscorrectgiventheobserveddata?Pr(T|D)MaximumLikelihood:
Whatistheprobabilityofseeingtheobserveddata(D)givenamodel/theory(T)?Pr(D|T)SpeedNoneedforbootstrapping构建进化树的新方法——贝叶斯推断
(Bayesianinference)与ML相比,BI的优势:Holder&Lewis(2003)NatureRev105ComparisonofMethodsDistanceMaximumparsimonyMaximumlikelihoodUsesonlypairwisedistancesUsesonlysharedderivedcharactersUsesalldataMinimizesdistancebetweennearestneighborsMinimizestotaldistanceMaximizestreelikelihoodgivenspecificparametervaluesVeryfastSlowVeryslowEasilytrappedinlocaloptimaAssumptionsfailwhenevolutionisrapidHighlydependentonassumedevolutionmodelGoodforgeneratingtentativetree,orchoosingamongmultipletreesBestoptionwhentractable(<30taxa,homoplasyrare)GoodforverysmalldatasetsandfortestingtreesbuiltusingothermethodsComparisonofMethodsDistanceM106Bioinformatics:SequenceandGenomeAnalysis,2ndedition,byDavidW.Mount.p254ChoosingaMethodforPhylogeneticPrediction/cgi/content/full/2008/5/pdb.ip49MolecularBiologyandEvolution200522(3):792-802Bioinformatics:SequenceandG107AssessingtreereliabilityPhylogeneticreconstructionisaproblemofstatisticalinference.Onemustassessthereliabilityoftheinferredphylogenyanditscomponentparts.Questions:(1)howreliableisthetree?(2)whichpartsofthetreearereliable?(3)isthistreesignificantlybetterthananotherone?Assessingtreereliability108Astatisticaltechniquethatusesintensiverandomresamplingofdatatoestimateastatisticwhoseunderlyingdistributionisunknown.评估进化树的可靠性——自展法(bootstrappingmethod)从排列的多序列中随机有放回的抽取某一列,构成相同长度的新的排列序列重复上面的过程,得到多组新的序列对这些新的序列进行建树,再观察这些树与原始树是否有差异,以此评价建树的可靠性Astatisticaltechniquethatu109TheBootstrapComputationalmethodtoestimatetheconfidencelevelofacertainphylogenetictree.rat GAGGCTTATChuman GTGGCTTATCturtle GTGCCCTATGfruitfly CTCGCCTTTGoak ATCGCTCTTGduckweed ATCCCTCCGG 0123456789SamplerathumanturtlefruitflyoakduckweedInferredtreeMorereplicates(between100-1000)rat GGAAGGGGCThuman GGTTGGGGCTturtle GGTTGGGCCCfruitfly CCTTCCCGCCoak AATTCCCGCTduckweed AATTCCCCCT
0011222345Pseudosample1rat CCTTTTAAAThuman CCTTTTAAATturtle CCCCCTAAAT fruitfly CCCCCTTTTToak CCTTTCTTTTduckweed CCTTTCCCCG
4455567778Pseudosample2TheBootstrapComputationalme110自展法检验流程Bootstrappingdoesn’treallyassesstheaccuracyofatree,onlyindicatestheconsistencyofthedata对ML法而言,自展法太耗时,可用aLRT法检验进化树的可靠性Anisimova&Gascuel(2006)Syst.Biol.55(4):539-552自展法检验流程Bootstrappingdoesn’tr111MSA程序可对任何序列进行比对,选择什么样的序列进行比对非常重要!!用于构建进化树的序列必须是同源序列MSA是构建分子进化树的关键步骤MSA程序可对任何序列进行比对,选择什么样的序列进行比对非常112分子进化树构建(ClustalW)页面下方显示CladogramTree点击“ShowasPhylogramTree”展示PhylogramTree不推荐:仅提供距离法建树,且没有进行评估输入比对后的序列(或上载Alignments文件)EBI的ClustalW2-phylogeny分析网页http://www.ebi.ac.uk/Tools/phylogeny/clustalw2_phylogeny/分子进化树构建(ClustalW)页面下方显示Cladog113看图工具下载“Phyliptreefile”(ph文件)TreeView进化树编辑打印软件(在http://taxonomy.zoology.gla.ac.uk/rod/treeview.html)输入比对后的序列(或上载Alignments文件)用TreeView软件打开上述文件可
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度航空航天器地面设备安装工程合同范本3篇
- 2024木材公司销售合同范本
- 2024弱电施工分包合同:数据中心电源系统施工工程3篇
- 二零二五年度个人环保项目借款合同
- 2025版房屋买卖合同汇编:房屋买卖合同中房屋质量与保修责任2篇
- 2024年物业服务合同违约金计算方式3篇
- 2025版离婚冷静期二婚离婚协议辅导服务合同2篇
- 2024年精密医疗器械定制研发合作合同一
- 2024水电站生态环保承包管理合同范例3篇
- 2024某科技公司与某医院关于医疗设备采购的合同
- 实验诊断学练习题库(附参考答案)
- 2024版新能源汽车充电站电线电缆采购合同2篇
- 国家药包材检验标准培训
- 肿瘤科危急重症护理
- 2024-2030年中国加速器行业发展趋势及运营模式分析报告版
- 护理查房深静脉置管
- 计算与人工智能概论知到智慧树章节测试课后答案2024年秋湖南大学
- 2024年度油漆涂料生产线租赁合同3篇
- 2024-2024年上海市高考英语试题及答案
- 庆祝澳门回归25周年主题班会 课件 (共22张)
- 《药事管理与法规》期末考试复习题及答案
评论
0/150
提交评论