生物信息学-分子进化分析-课件_第1页
生物信息学-分子进化分析-课件_第2页
生物信息学-分子进化分析-课件_第3页
生物信息学-分子进化分析-课件_第4页
生物信息学-分子进化分析-课件_第5页
已阅读5页,还剩83页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1859年英国生物学家达尔文发表《物种起源》,第一次用大量事实和系统的理论论证了生物进化的普遍规律。1859年英国生物学家达尔文发表《物种起源》,第一次用大量事1生物信息学-分子进化分析-课件2大规模的测序给进化研究带来了丰富的资源,使进化研究不仅能够基于宏观的表型,更能利用微观的分子结构,进化进入了分子进化阶段!随着基因组数据的不断丰富,比较基因组学也在蓬勃发展。一场进化革命即将爆发!大规模的测序给进化研究带来了丰富的资源,使进化研究不仅能够基3序列比对与进化分析GAATCGAGTT共同的祖先GA(A/G)T(C/T)序列比对与进化分析GAATC共同的祖先4生物信息学-分子进化分析-课件5生物信息学-分子进化分析-课件6有根树和无根树RootedUnrooted序列A序列B序列C序列D序列D序列B序列A序列C有根树和无根树Rooted序列A序列B序列C序列D序列D序列7序列D序列B序列A序列C序列D序列B序列A序列C序列D序列B序列A序列C序列D序列B序列A序列C序列D序列B序列A序列C序列D序列B8穷举一组序列的进化树序列数目有根树无根树3314153510515710395954152134580467678757905853580625序列D序列B序列A序列C序列D序列C序列A序列B序列B序列D序列A序列C穷举一组序列的进化树序列数目有根树无根树33141535109进化分析的步骤确定待分析的近似序列多重比对相似性分析最大简约法最大近似法距离法高度相似中度相似低度相似验证进化预测与原始数据的匹配程度进化分析的步骤确定待分析的近似序列多重比对相似性分析最大简约10最大简约法Taxa1234123456789AAGAGTGCAAGCCGTGCGAGATATCCAAGAGATCCG列出所有的无根树序列4序列2序列1序列3序列4序列3序列1序列2序列3序列4序列1序列2区分有义列和无义列甲树丙树乙树最大简约法Taxa123456789列出所有的无根树序列4序11最大简约法Taxa1234123456789AAGAGTGCAAGCCGTGCGAGATATCCAAGAGATCCG对位点5的分析A序列4序列2

G序列1GA序列3A序列4序列3

A序列1GG序列2A序列3序列4

A序列1GG序列2GAAAAA甲树丙树乙树最大简约法Taxa123456789对位点5的分析A序12最大简约法Taxa1234123456789AAGAGTGCAAGCCGTGCGAGATATCCAAGAGATCCG对位点7的分析C序列4序列2

G序列1GC序列3C序列4序列3

C序列1GG序列2C序列3序列4

C序列1GG序列2GCCCCC甲树丙树乙树最大简约法Taxa123456789对位点7的分析C序13Taxa1234123456789AAGAGTGCAAGCCGTGCGAGATATCCAAGAGATCCG对位点9的分析G序列4序列2

G序列1AA序列3G序列4序列3

A序列1AG序列2A序列3序列4

G序列1AG序列2AAAAGA甲树丙树乙树最大简约法Taxa123456789对位点9的分析G序列4序列214进化树位点5位点7位点9总计甲1124乙2215丙2226选择进化树中变化最少的作为候选最大简约法进化树位点5位点7位点9总计甲1124乙2215丙2226选15

序列4序列2

序列1

序列3最大简约法序列4序列2序列1序列3最大简约法16距离法序列ABCDACGCGTTGGGCGATGGCAACACGCGTTGGGCGACGGTAATACGCATTGAATGATGATAATACACATTGAGTGATAATAAT距离分布表ABCDA378B67C3DDBAC24121距离法序列AACGCGTTGGGCGATGGCAAC距离分布17计算方法:FitchandMargoliashMethod(FM)Neighbor-joiningMethod(NJ)TheUnweightedPairGroupMethodwithArithmeticMean(UPGMA)距离法计算方法:距离法18FitchandMargoliashMethoda+b=22a+c=39b+c=41a=10,b=12,c=29 FitchandMargoliashMethoda+b19FitchandMargoliashMethodDEABCd+e=10d+x=32.7e+x=34.7d=4,e=6 dexFitchandMargoliashMethodDEA20FitchandMargoliashMethodDEf+(d+e)/2+c=19f+(d+e)/2+y=41c+y=40f=5,c=9 decABCfyFitchandMargoliashMethodDEf21FitchandMargoliashMethodDE(f+(d+e)/2+c)/2+g+a=119/3(f+(d+e)/2+c)/2+g+b=125/3a+b=22a=10,b=12,g=20 decCfABabgABCDEA22119/3B125/3CDEFitchandMargoliashMethodDE(22Neighbor-joiningMethod优选原则:各树枝的平均距离总和最短AB+AC+AD+AE+BC+BD+BE+CD+CE+DE=314a,b,c,d,e五个分枝总和平均长度为S=314/4a+b+c+d+e=a+b+a+c+a+d+a+e+b+c+b+d+b+e+c+d+c+e+d+e=4a+4b+4c+4d+4eNeighbor-joiningMethod优选原则:各树23Neighbor-joiningMethodAB+AC+AD+AE+BC+BD+BE+CD+CE+DE=a+b+(a+f+c)+(a+f+d)+(a+f+e)+(b+f+c)+(b+f+d)+(b+f+e)+(c+d)+(c+e)+(d+e)=6f+4a+4b+4c+4d+4e6f+4a+4b+4c+4d+4e=314CDEABcdefab假设一平均长度SAB=(314+2AB+CD+CE+DE)/6=67.7Neighbor-joiningMethodAB+AC+A24Neighbor-joiningMethodADEBCadefbc假设三平均长度SBC=81ABEDCabefdc假设二平均长度SCD=76……SDE,SAC,SAD,SAE,SBDNeighbor-joiningMethodADEBCad25Neighbor-joiningMethod最小值为SAB=67.7故进化树应为:CDEABcdefab将AB枝看作一个,再寻找CDE分枝中的树形(S最小)ABCDEAB404042C1820D10ENeighbor-joiningMethod最小值为SAB26Neighbor-joiningMethodCDEABcdefabgCDEABcdefabgDCEABdcefabgNeighbor-joiningMethodCDEABcd27TheUnweightedPairGroupMethodwithArithmeticMean(UPGMA)d=e=10/2=5TheUnweightedPairGroupMeth28TheUnweightedPairGroupMethodwithArithmeticMean(UPGMA)c=LC-DE/2=19/2=9.55+g+c=LC-DE=19g=4.5TheUnweightedPairGroupMeth29TheUnweightedPairGroupMethodwithArithmeticMean(UPGMA)a=b=22/2=11TheUnweightedPairGroupMeth30TheUnweightedPairGroupMethodwithArithmeticMean(UPGMA)ABCDEAB40.7CDETheUnweightedPairGroupMeth31外类群(Outgroup)能提高预测的准确性有助于确定根节点的位置应与待分析的序列存在较大差异必需与待分析的序列存在一定的相似性Outgroup外类群(Outgroup)能提高预测的准确性Outgroup32距离值(D)的确定:两两序列间碱基差异数目的百分比值由序列比对程序产生的相似性分值(S)计算S=e-DD=-ln(s)距离值(D)的确定:S=e-D33不同进化速率的修正随着序列差异的增加,同一位点可能发生多次突变或回复突变,看似保守的位点可能已经有个别序列发生过突变。ACTGAACGTAACGCACTGAACGTAACGCACTGAACGTAACGCCTTCCTTKAB=-3/4ln(1-4/3dAB)KAB=(1-(fA2+fG2+fC2+fT2))ln(1-4/3dAB)KAB=1/2ln(1/(1-2dABtransition-dABtransversion))+1/4ln(1/(1-2dABtransversion))不同进化速率的修正ACTGAACGTAACGCACTGAAC34最大近似法TTAGAGTTTAGCAATTAGTGTTTAGGGG……最大近似法TTAGAGTTTAGCAATTAGTGTTTAG35进化树的检验——自举(bootstrap)检验BootStrap重采样法进化树的检验——自举(bootstrap)检验BootStr36进化分析软件PhylipPAUPMacClade进化分析软件PhylipPAUPMacClade37利用进化树进行重组分析ADCBE利用进化树进行重组分析ADCBE38使用距离法逐段进行进化树的构建使用距离法逐段进行进化树的构建39逐段扫描量化新序列在各段进化树中的位置0<G<1,Ga+Gb+Gc…+Gn=1G越大,表示新序列埋在某个基因型的分枝中越深。G很小则表示新序列不在这个基因型分枝中G新序列相对于基因型A的位置分值N新序列到基因型A的某条序列所经过的节点数Y基因型A的样本数逐段扫描G新序列相对于基因型A的位置分值40AF461043AF46104341AB231908AB23190842Exercise下载并安装MEGA软件使用MEGA比对序列使用MEGA显示比对后的序列使用不同方法对HBV参考序列做树Exercise下载并安装MEGA软件43HOMEWORK利用已知的ABCDEFGHI型的参考序列:下载并比对,使用MEGA做进化树下载一条今年报道的HBV全基因组序列,加入到参考序列比对中(profile比对),使用MEGA重新做树,判断他的基因型。AAB076679AB194950FM199977BAB073852AB287314DQ993684CAB112472FJ562317X75656DAB188241AM494716DQ486024EAB032431DQ060826EU239225FAB036905AF223962DQ899142GAB056513AF160501EF464097HAB205010AY090454FJ356716HOMEWORK利用已知的ABCDEFGHI型的参考序列:A441859年英国生物学家达尔文发表《物种起源》,第一次用大量事实和系统的理论论证了生物进化的普遍规律。1859年英国生物学家达尔文发表《物种起源》,第一次用大量事45生物信息学-分子进化分析-课件46大规模的测序给进化研究带来了丰富的资源,使进化研究不仅能够基于宏观的表型,更能利用微观的分子结构,进化进入了分子进化阶段!随着基因组数据的不断丰富,比较基因组学也在蓬勃发展。一场进化革命即将爆发!大规模的测序给进化研究带来了丰富的资源,使进化研究不仅能够基47序列比对与进化分析GAATCGAGTT共同的祖先GA(A/G)T(C/T)序列比对与进化分析GAATC共同的祖先48生物信息学-分子进化分析-课件49生物信息学-分子进化分析-课件50有根树和无根树RootedUnrooted序列A序列B序列C序列D序列D序列B序列A序列C有根树和无根树Rooted序列A序列B序列C序列D序列D序列51序列D序列B序列A序列C序列D序列B序列A序列C序列D序列B序列A序列C序列D序列B序列A序列C序列D序列B序列A序列C序列D序列B52穷举一组序列的进化树序列数目有根树无根树3314153510515710395954152134580467678757905853580625序列D序列B序列A序列C序列D序列C序列A序列B序列B序列D序列A序列C穷举一组序列的进化树序列数目有根树无根树331415351053进化分析的步骤确定待分析的近似序列多重比对相似性分析最大简约法最大近似法距离法高度相似中度相似低度相似验证进化预测与原始数据的匹配程度进化分析的步骤确定待分析的近似序列多重比对相似性分析最大简约54最大简约法Taxa1234123456789AAGAGTGCAAGCCGTGCGAGATATCCAAGAGATCCG列出所有的无根树序列4序列2序列1序列3序列4序列3序列1序列2序列3序列4序列1序列2区分有义列和无义列甲树丙树乙树最大简约法Taxa123456789列出所有的无根树序列4序55最大简约法Taxa1234123456789AAGAGTGCAAGCCGTGCGAGATATCCAAGAGATCCG对位点5的分析A序列4序列2

G序列1GA序列3A序列4序列3

A序列1GG序列2A序列3序列4

A序列1GG序列2GAAAAA甲树丙树乙树最大简约法Taxa123456789对位点5的分析A序56最大简约法Taxa1234123456789AAGAGTGCAAGCCGTGCGAGATATCCAAGAGATCCG对位点7的分析C序列4序列2

G序列1GC序列3C序列4序列3

C序列1GG序列2C序列3序列4

C序列1GG序列2GCCCCC甲树丙树乙树最大简约法Taxa123456789对位点7的分析C序57Taxa1234123456789AAGAGTGCAAGCCGTGCGAGATATCCAAGAGATCCG对位点9的分析G序列4序列2

G序列1AA序列3G序列4序列3

A序列1AG序列2A序列3序列4

G序列1AG序列2AAAAGA甲树丙树乙树最大简约法Taxa123456789对位点9的分析G序列4序列258进化树位点5位点7位点9总计甲1124乙2215丙2226选择进化树中变化最少的作为候选最大简约法进化树位点5位点7位点9总计甲1124乙2215丙2226选59

序列4序列2

序列1

序列3最大简约法序列4序列2序列1序列3最大简约法60距离法序列ABCDACGCGTTGGGCGATGGCAACACGCGTTGGGCGACGGTAATACGCATTGAATGATGATAATACACATTGAGTGATAATAAT距离分布表ABCDA378B67C3DDBAC24121距离法序列AACGCGTTGGGCGATGGCAAC距离分布61计算方法:FitchandMargoliashMethod(FM)Neighbor-joiningMethod(NJ)TheUnweightedPairGroupMethodwithArithmeticMean(UPGMA)距离法计算方法:距离法62FitchandMargoliashMethoda+b=22a+c=39b+c=41a=10,b=12,c=29 FitchandMargoliashMethoda+b63FitchandMargoliashMethodDEABCd+e=10d+x=32.7e+x=34.7d=4,e=6 dexFitchandMargoliashMethodDEA64FitchandMargoliashMethodDEf+(d+e)/2+c=19f+(d+e)/2+y=41c+y=40f=5,c=9 decABCfyFitchandMargoliashMethodDEf65FitchandMargoliashMethodDE(f+(d+e)/2+c)/2+g+a=119/3(f+(d+e)/2+c)/2+g+b=125/3a+b=22a=10,b=12,g=20 decCfABabgABCDEA22119/3B125/3CDEFitchandMargoliashMethodDE(66Neighbor-joiningMethod优选原则:各树枝的平均距离总和最短AB+AC+AD+AE+BC+BD+BE+CD+CE+DE=314a,b,c,d,e五个分枝总和平均长度为S=314/4a+b+c+d+e=a+b+a+c+a+d+a+e+b+c+b+d+b+e+c+d+c+e+d+e=4a+4b+4c+4d+4eNeighbor-joiningMethod优选原则:各树67Neighbor-joiningMethodAB+AC+AD+AE+BC+BD+BE+CD+CE+DE=a+b+(a+f+c)+(a+f+d)+(a+f+e)+(b+f+c)+(b+f+d)+(b+f+e)+(c+d)+(c+e)+(d+e)=6f+4a+4b+4c+4d+4e6f+4a+4b+4c+4d+4e=314CDEABcdefab假设一平均长度SAB=(314+2AB+CD+CE+DE)/6=67.7Neighbor-joiningMethodAB+AC+A68Neighbor-joiningMethodADEBCadefbc假设三平均长度SBC=81ABEDCabefdc假设二平均长度SCD=76……SDE,SAC,SAD,SAE,SBDNeighbor-joiningMethodADEBCad69Neighbor-joiningMethod最小值为SAB=67.7故进化树应为:CDEABcdefab将AB枝看作一个,再寻找CDE分枝中的树形(S最小)ABCDEAB404042C1820D10ENeighbor-joiningMethod最小值为SAB70Neighbor-joiningMethodCDEABcdefabgCDEABcdefabgDCEABdcefabgNeighbor-joiningMethodCDEABcd71TheUnweightedPairGroupMethodwithArithmeticMean(UPGMA)d=e=10/2=5TheUnweightedPairGroupMeth72TheUnweightedPairGroupMethodwithArithmeticMean(UPGMA)c=LC-DE/2=19/2=9.55+g+c=LC-DE=19g=4.5TheUnweightedPairGroupMeth73TheUnweightedPairGroupMethodwithArithmeticMean(UPGMA)a=b=22/2=11TheUnweightedPairGroupMeth74TheUnweightedPairGroupMethodwithArithmeticMean(UPGMA)ABCDEAB40.7CDETheUnweightedPairGroupMeth75外类群(Outgroup)能提高预测的准确性有助于确定根节点的位置应与待分析的序列存在较大差异必需与待分析的序列存在一定的相似性Outgroup外类群(Outgroup)能提高预测的准确性Outgroup76距离值(D)的确定:两两序列间碱基差异数目的百分比值由序列比对程序产生的相似性分值(S)计算S=e-DD=-ln(s)距离值(D)的确定:S=e-D77不同进化速率的修正随着序列差异的增加,同一位点可能发生多次突变或回复突变,看似保守的位点可能已经有个别序列发生过突变。ACTGAACGTAACGCACTGAACGTAACGCACTGAACGTAACGCCTTCCTTKAB=-3/4ln(1-4/3dAB)KAB=(1-(fA2+fG2+fC2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论