第五章分子系统发育分析课件_第1页
第五章分子系统发育分析课件_第2页
第五章分子系统发育分析课件_第3页
第五章分子系统发育分析课件_第4页
第五章分子系统发育分析课件_第5页
已阅读5页,还剩92页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第五章分子系统发育分析5.1分子进化的基本概念5.2分子进化模型与序列分歧度计算5.3分子系统树的构建5.4分子系统树的检验5.5分子系统发育分析软件及应用5.1分子进化的基本概念系统发生(phylogeny)——是指生物形成或进化的历史系统发生学(phylogenetics)——研究物种之间的进化关系系统发生树(phylogenetictree)——表示形式,描述物种之间进化关系5.1分子进化的基本概念同源性与相似性关于现代人起源的研究:

线粒体DNA ——所有现代人都是一个非洲女性的后代分类单元(物种或序列)物种之间的进化关系

有根树与无根树有根树的数目ABCABCDDDDD无根树的数目ABCABCDDDNumberofTaxaNumberofunrootedtrees

Numberofrootedtrees

313431551510561059457945103958103951351359135135202702510202702534459425有根树与无根树的数目5.2分子进化模型

与序列分歧度计算5.2.1核苷酸序列进化5.2.2蛋白质编码序列进化5.2.3核苷酸序列分歧度5.2.4蛋白质编码序列分歧度5.2.1核苷酸序列进化ATCGJukesandCantor(1969)的单参数模型嘌呤嘧啶在t时间内DNA序列上某个位点的碱基由A突变到G的概率为在t时间内DNA序列上某个位点的碱基为A保持不变的概率为JukesandCantor(1969)的单参数模型在t+t时间内核苷酸在某个位点上碱基为A保持不变的概率为表示在0到t这段时间内DNA序列上某个位点的碱基为A保持不变的概率因此,在0到t这段时间内DNA序列上某个位点的碱基保持不变的概率为因此,在0到t这段时间内DNA序列上某个位点的碱基发生突变的概率为1下面考虑在0到t这段时间内DNA序列上某个位点的碱基发生突变的平均次数设表示0到t这段时间内DNA序列上某个位点的碱基发生突变的次数为n的概率,则突变率2即在0到t这段时间内DNA序列上某个位点的碱基发生突变的次数服从泊松分布,平均次数为,方差也为。两条DNA序列分歧度的计算AACGACGATCGAAGGACGATCG:Species2AACGATGATCG:Species1tt

Thetimeis2tbetweenSpecies1andSpecies2

定义两条DNA序列间的分歧度为K=2t

对于JukesandCantor模型Sp1:AAGCCTCGGGGCCCTTATTTTTTG||||||||||||||||||Sp2:AATCTCCGGGGCCTCTATTTTTTTp=0.25K=0.304099Geneticdistancesarescaledtobethenumberofsubstitutionspersite.Kimura(1980)的两参数模型ATCG嘌呤嘧啶

碱基的转换(transition)

碱基的颠换(transversion)(1)(2)(3)(4)(1)-(3)代入(1)式,得推导KK80AACGACGATCGAAGGACGATCG:Species2AACGACTATCG:Species1tt

Thetimeis2tbetweenSpecies1andSpecies2

定义两条DNA序列间的分歧度为K=2t=2(+2)t

设Ns为转换数,Nv为颠换数,则Ps=P=Ns/L,Pv=Q=Nv/LSp1:AAGCCTCGGGGCCCTTATTTTTTG||||||||||||||||||Sp2:AATCTCCGGGGCCTCTATTTTTTTWhatarePandQ?P=4/24,Q=2/24K值的取样误差其中P=4/24Q=2/24p=6/24L=24Implicationsofsubstitutionsinprotein-codingregionsNonsynonymoussubstitution:ThrTyrLeuLeuACCTATTTGCTGACCTCTTTGCTGThrSer

LeuLeuSynonymoussubstitution:ThrTyrLeuLeuACCTATTTGCTGACCTCCTTGCTGThrTyrLeuLeuTheratesofnucleotidesubstitutionsinthethirdpositionaremuchhigherthaninthefirstandsecondpositions,duetoredundancyinthethirdposition:Changesinthefirstandsecondpositionfrequentlychangestheresultingaminoacid,whilechangesinthethirdpositionaretypicallysynonymous.Countingthenumberofsynonymous&nonsynonymoussubstitutionsbetweenapairofhomologoussequences:Inthe“evolutionarymethod,”wetakeintoaccountallpossibleevolutionarypathwaysbetweeneachpairofhomologouscodons.sdandndarethenumberofsynonymous&nonsynonymoussubstitutionspercodon.ForGTT(Val)andGTA(Val),thereisonesynonymousdifferenceandnononsynonymousdifferences.Therefore,sdandndare1&0,respectively.Itismorecomplicatedwhentherearemultiplesubstitutionspercodon:Multiplesubstitutionspercodon:Thereare6pathwaysbetweenTTGandAGA:TTG(Leu)<->ATG(Met)<->AGG(Arg)<->AGA(Arg)TTG(Leu)<->ATG(Met)<->ATA(Ile)<->AGA(Arg)TTG(Leu)<->TGG(Trp)<->AGG(Arg)<->AGA(Arg)TTG(Leu)<->TGG(Trp)<->TGA(Ter)<->AGA(Arg)TTG(Leu)<->TTA(Leu)<->ATA(Ile)<->AGA(Arg)TTG(Leu)<->TTA(Leu)<->TGA(Ter)<->AGA(Arg)Subs:S,N1,20,31,2*1,2*Wecanignore4&6,whichinvolvestopcodons.sdandndarethen¾and9/4,respectively.ThetotalnumberofsubstitutionsThetotalnumberofsubstitutionsareSdandNd,whicharethesumsofsdandndforallcodonsinthecomparedsequences.NotethatSd+Ndisequaltothetotalnumberofnucleotidedifferencesbetweenthetwosequencescompared.Sincesomesubstitutionsmightbemorecommonduetotransition-transversionbias,wecanmodifyourestimateswithparametersfortheseratesTheproportionofsubstitutionsWhileSdandNd

provideuswithinformationaboutthenumberofsubstitutions,wearemoreinterestedintherelativeratesofthesesubstitutionsbetweendifferentgenes.Therefore,weestimatetheproportionofdifferences:Ks=Sd/S&KA=Nd/NWhereS&Narethenumbersofsynonymousandnonsynonymoussites;S+N=3C(thetotalnumberofcodons).TheratesKs&KAareestimatedusingtheJukes-Cantormethod,assumingequalnucleotidefrequencyandnotransition-transversionbias.Add’lparameterscanbeaddediftheseassumptionsarenotvalid.Seq1SerThrGluMetCysLeu

TCAACTGAGATGTGTTTASeq2TCAACAGAGATATGTCTASerThrGluIleCysLeu Sd=2

Nd=1Onesubstitutioninthecodon:Seq1SerThrGluMetCysLeu

TCGACAGAGATGTGTTTASeq2TCGACAGAGATGTGTCTTSerThrGluMetCysLeuSeveralpathwaysproblem1. TTACTA

CTT2. TTATTTCTTTwosubstitutioninthecodonSeveralpathwaysproblem

LeuLeuLeu1. TTA

CTA

CTT2. TTATTT

CTT

LeuPheLeu

Sd=2Nd=0

Sd=0Nd=2Averagepathways Sd=(2+0)/2=1

Nd=(0+2)/2=1Seq1 SerThrGluMetCysLeu

TCGACAGAGATGTGTTTASeq2 TCGACAGAGCGCTGTTTA SerThrGluArgCysLeuSeveralpathwaysproblem1. ATGATC

AGC

CGC2. ATGATC

CTC

CGC3. ATGAGGAGC

CGC4. ATGAGGCGGCGC5. ATGCTG

CTC

CGC6. ATGCTG

CGGCGCThreesubstitutioninthecodonSeveralpathwaysproblemMetIleSerArg1.ATGATC

AGCCGCMetIleLeuArg2.ATGATCCTCCGCMetArgSerArg3.ATGAGGAGCCGCMetArgArgArg4.ATGAGG

CGG

CGCMetLeuLeuArg5.ATG

CTG

CTC

CGCMetLeuArgArg6.ATG

CTG

CGG

CGC

Sd=0Nd=3AveragepathwaysSd=(0+0+0+2+1+1)/6=0.67Nd=(3+3+3+1+2+2)/6=2.33

Sd=0Nd=3

Sd=0Nd=3

Sd=2Nd=1

Sd=1Nd=2

Sd=1Nd=2Calculatethenumbersof

synonymousandnonsynonymoussites苯基丙氨酸半胱氨酸

SerThrGluMetCysLeuS1

TCAACTGAGATGTGTTTA NNSNNSNN1/3SNNNNN1/2S1/3SN1/3S

2/3N1/2N2/3N2/3N SerThrGluIleCysLeuS2 TCAACAGAGATATGTCTA NNSNNSNN1/3SNN2/3SNN1/2S1/3SNS

2/3N1/3N1/2N2/3NExample:Seq1SerThrGluMetCysLeu

TCAACTGAGATGTGTTTASeq2TCAACAGAGATATGTCTASerThrGluIleCysLeuS=4.1667N=13.8333Sd=0+1+0+0+0+1=2Nd=0+0+0+1+0+0=1DivergenceforSynonymousandNonsynonymoususingJukesandCantor’sModelinThisExample5.3分子系统树的构建5.3.1距离矩阵法5.3.2简约法UPGMA法邻接法Fitch-Margoliash法最大简约法进化简约法其他方法方法比较

距离矩阵法—UPGMA法设类群OTUp和OTUq中含有np和nq个原始类群,并且它们聚合成类群OTUr,则OTUr与OTUi间的距离dr,i为例5—1OTU1OTU2OTU3OTU4

OTU1OTU2

OTU3

OTU4UnweightedPair-GroupMethodusingArithmeticaverages第一步:将OTU1和OTU2聚合为OTUr1,则OTUr1OTU3OTU4OTUr1OTU3OTU4第二步:将OTUr1和OTU3聚合为OTUr2,则OTUr2OTU4OTUr2

OTU4第三步:将OTUr2和OTU4聚合为OTUr3,结束。用UPGMA法构建的系统树

距离矩阵法—邻近法ABCDEABCDEABCDEABCDEABCDE邻近法的计算步骤对于所有的分类单元i,计算选择一对分类单元i和j,使最小将i和j归并为新的类(ij),在树中添加一个新的节点,代表新生成的分类,计算从i和j到新节点的分支长度:计算新类与其它类的距离:如果有两个以上的分类存在,则继续执行循环;否则用长度为Di,j的分支连接剩余的两个类。例5-25个分类群5SrRNA的例子BsuBstLviAmoMluBsuBstLviAmoMlu0.30930.3387670.3958670.4524670.420533设LviAmo0.11140.1681BsuBstLviAmoMluBsuBstLviAmoMluu1()()u10.12220.17980.17980.12220.27190.2719BsuBstu1

MluBsuBstu1

Mlu0.26310.27850.28690.3551BsuBstu1

Mlu设LviAmo0.11140.1681Bsu0.04920.0730BsuBstu1

MluBsuBstu1

Mlu

u2BstMlu

u2

BstMlu

u2BstMlu

u2

BstMlu0.30580.32040.3970

u2BstMluLviAmo0.11140.1681Bsu0.04920.0730设Bst0.06460.0500Mlu0.1412

距离矩阵法

—Fitch-Margoliash法距离定义:某个分类单元到一个合并类的距离定义为这个分类单元到这个合并类中的分类单元的平均距离ACED例5—3设A—D4个类群间的距离为:ABCDABCDACAve.BDACBDAC①②③ABCDABCDBD(AC)B

D(AC)ACBD①②③②-③:④①+④调整ACDB

最大简约法推断序列中碱基替换的数为最小的进化树适用于较短的、相似度较高的序列算法并不复杂,但能保证获得最优树常用的软件有PAUP和PHYLIP以一个例子说明最大简约法位点123456789序列1AAGAGTGCA序列2AGCCGTGCG序列3AGATATCCA序列4AGAGATCCGAdaptedfromLiandGraur1991四条序列可能有3种无根树一些位点有信息,这些点偏爱其中的一棵树,信息位点的字母至少在两条序列中出现只须分析信息位点,如位点5、7、9GCAA1234位点123456789序列1AAGAGTGCA序列2AGCCGTGCG序列3AGATATCCA序列4AGAGATCCGGGACA1324GACA1423树1树2树3AAAAAACTG1234位点123456789序列1AAGAGTGCA序列2AGCCGTGCG序列3AGATATCCA序列4AGAGATCCGCATCG1324AGCT1423树1树2树3TTCATGGAA1234位点123456789序列1AAGAGTGCA序列2AGCCGTGCG序列3AGATATCCA序列4AGAGATCCGGGAGA1324GAGA1423树1树2树3AAAAAAGAG1234位点123456789序列1AAGAGTGCA序列2AGCCGTGCG序列3AGATATCCA序列4AGAGATCCGAAAGG1324AGGA1423树1树2树3AAGAAGGAA1234GGAGA1324GAGA1423AAAAAGGCC1234GGCGC1324GCGC1423CCCCCAGAG1234AAAGG1324AGGA1423AAGAA位点5位点7位点9碱基替换总数455GGAGGGACAACGGGAACA位点123456789序列1AAGAGTGCA序列2AGCCGTGCG序列3AGATATCCA序列4AGAGATCCG

进化简约法以四个分类群为例说明考虑三种可能的系统树,分别称为X型、Y型、Z型:ABCDACBDADBC位点1234567891011121314151617181920SAAUCAGGCUUGCACUAACUGGSBAGGAGAAGUAAGGCCACUUCSCAGGUGUAAUCAGGGCAGAACSDAGCUACCUUUUGCAACGAUA将每个位点的碱基转换成单位矢量11111333133111331112123413311341111

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论