生物信息进化_第1页
生物信息进化_第2页
生物信息进化_第3页
生物信息进化_第4页
生物信息进化_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物信息进化第1页/共61页第2页/共61页第3页/共61页第一节基本概念

基本概念:系统发生(phylogeny)——是指生物形成或进化的历史系统发生学(phylogenetics)——研究物种(遗传学特征)之间的进化关系,认为特征相似的物种在遗传学上接近.系统发生的结果常以系统发生树表示;系统发生树(phylogenetictree)——表示形式,描述物种(遗传学特征:形态,基因序列,蛋白质序列等等)之间进化关系第4页/共61页第一节基本概念系统发生树:物种(遗传特征)之间的关系;进化树:从低等到高等,有始有终第5页/共61页

经典系统发生学 主要是物理或表型特征 如生物体的大小、颜色、触角个数即通过表型比较来推断生物体的基因型(genotype),研究物种之间的进化关系.有时候亲缘关系远的物种也能进化出相似的表型,所谓的趋同进化(convergentevolution).所以表型为依据的进化分析有时候并不正确.如是否有眼睛?第6页/共61页现代系统发生学利用从遗传物质中提取的信息作为物种特征 具体地说就是核酸序列或蛋白质分子第7页/共61页根据现有生物基因或物种多样性重建生物的进化史是一个非常重要的问题.根据核酸和蛋白质的序列信息,可以推断物种之间的系统发生关系.基本原理:

从一条序列变为另一条序列所需要的变换越多,两条序列的相关性就越小,从共同祖先分歧的时间越早,进化距离越大;反之,两个序列越相似,它们之间的进化距离可能越小.第8页/共61页所有的生物都可以追溯到共同的祖先,生物的产生和分化就象数一样地生长,分叉,以树的形式来表示生物之间的进化关系是非常自然的事.第9页/共61页系统发生树是一种二叉树(每个节点最多有两个子节点),由一系列的节点(nodes)和分支(branches)组成,每个节点代表一个分类单元(物种或序列),节点之间的连线表示物种之间的进化关系.枝长branchlength通常代表在该分枝中曾发生过的变化数.第10页/共61页系统树可以是有根的rooted也可以是无根的(unrooted).在有根树中存在一个被称为根特殊节点由此导向任何别的节点都只有唯一图.每一途径中的方向与进化时间相对应.而根则是所有正被研究的的共同祖先.无根树是一种只将各间的关系具体化而未定义进化途径的树图.第11页/共61页第12页/共61页系统发生树性质:(1)如果是一棵有根树,则树根代表在进化历史上是最早的、并且与其它所有分类单元都有联系的分类单元;(2)如果找不到可以作为树根的单元,则系统发生树是无根树;(3)从根节点出发到任何一个节点的路径指明进化时间或者进化距离。第13页/共61页直系同源(orthologs):同源的基因是由于共同的祖先基因进化而产生的.旁系同源(paralogs):同源的基因是由于基因复制产生的.直系同源与旁系同源必须了解的概念:第14页/共61页paralogsorthologs第15页/共61页paralogsorthologs第16页/共61页思考:用于分子进化的序列必须是直系or旁系同源才能真实反映进化过程?

第17页/共61页Bacterium1Bacterium3Bacterium2Eukaryote1Eukaryote4Eukaryote3Eukaryote2Bacterium1Bacterium3Bacterium2Eukaryote1Eukaryote4Eukaryote3Eukaryote2Phylogramsshowbranchorderandbranchlengths进化树,有分支和支长信息.进化分支图,进化树Cladogramsshowbranchingorder-branchlengthsaremeaningless进化分支图,只用分支信息,无支长信息。第18页/共61页Rootedbyoutgrouparchaeaarchaeaarchaeaeukaryoteeukaryoteeukaryoteeukaryotebacteriaoutgrouprooteukaryoteeukaryoteeukaryoteeukaryote无根树archaeaarchaeaarchaea有根树,无根树,外围群有根树外围群第19页/共61页第二节系统发生分析步骤(1)序列比对(2)确定替换模型(3)构建系统发生树(4)评价所建立的树第20页/共61页两类数据:距离离散特征

离散特征数据可分为

二态特征——例如:DNA序列上的某个位置如果是剪切位点

多态特征——例如:某一位置可能的碱基有A、T、G或C第21页/共61页系统发生树的构建方法分为两大类:基于距离的构建方法 非加权组平均法 邻近归并法

Fitch-Margoliash法 最小进化方法基于离散特征的构建方法最大简约法最大似然法进化简约法相容性方法第22页/共61页1.最大简约法(MP) 最大简约法(maximumparsimony,MP)最早源于形态性状研究,现在已经推广到分子序列的进化分析中。最大简约法的理论基础是奥卡姆(Ockham)哲学原则,这个原则认为:解释一个过程的最好理论是所需假设数目最少的那一个。对所有可能的拓扑结构进行计算,并计算出所需替代数最小的那个拓扑结构,作为最优树。第23页/共61页最大简约法利用存在序列之间的差异的位点,即信息位点:由位点产生的突变数目把一棵树与另一棵树区分开来的位点.对于一个信息位点要求至少有两种不同的序列,而且每个序列至少出现2次.第24页/共61页最大简约法就是寻找长度最小,代价最小(替换的次数最少)的树.我们只考虑信息位点.(以5为例)try…第25页/共61页2.距离法 距离法又称距离矩阵法,首先通过各个物种之间的比较,根据一定的假设(进化距离模型)推导得出分类群之间的进化距离,构建一个进化距离矩阵。进化树的构建则是基于这个矩阵中的进化距离关系。第26页/共61页10条核酸序列的距离矩阵

第27页/共61页例,如果有三个物种,其两两距离如下:

dab=0.5dac=0.9dbc=0.9通过求解方程,得到如图所示的一棵树。

uvabc0.20.250.250.45第28页/共61页一种简单的距离矩阵第29页/共61页由进化距离构建进化树的方法有很多,常见有:1.Fitch-MargoliashMethod(FM法)

2.

Neighbor-JoiningMethod(NJ法/邻接法)

3.NeighborsRelatonMethod(邻居关系法)4.UnweightedPairGroupMethod(UPGMA法)通过矩阵建树的方法第30页/共61页2.1非加权分组平均法

(UnweightedPairGroupMethodwithArithmeticmean,UPGMA)

在非加权分组平均法中,在计算新分类到其它分类之间的平均距离时按照各分类中分类单元的数目进行加权处理。

第31页/共61页UPGMA法d=e=10/2=5第32页/共61页c=19/2=9.5g=c-d=9.5-5=4.5d(DE)A=(AE+AD)/2=(41+39)/2=40第33页/共61页a=b=22/2=11AB(CDE)A-2239.5B--41.5(CDE)---d(CDE)A=(AE+AD+AC)/3=(41+39+39)/3=39.5第34页/共61页(AB)(CDE)(AB)-40.5(CDE)--f1+a=f2+c=40.5/2=20.25f1=9.25,f2=11.75第35页/共61页选择外类群

(Outgroup)选择一个或多个已知与分析序列关系较远的序列作为外类群外类群可以辅助定位树根外类群序列必须与剩余序列关系较近,但外类群序列与其他序列间的差异必须比其他序列之间的差异更显著。bacteriaoutgroupeukaryoteeukaryoteeukaryoteeukaryotearchaeaarchaeaarchaea外围群第36页/共61页可靠性分析自展法

通过系统发生分析推断出来的树的不同部分可能有不同的置信度,造成统计误差的一个原因是数据采样误差.因此对分析的对象多次采样,比较不同样本得到的估计值.具体做法:从原始数据中采集部分数据组新的数据集,构建系统发生树,重复该过程,产生千百的重采样数据集,并同时生成对应的自展树,检验自展树对最终系统发生树各分支的支持率.最后计算出来的数值为自展值(Bootstrapvalue).第37页/共61页进化树的可靠性分析自展法(BootstrapMethod)将最终系统树与各个自展树进行比较,其中在各个自展树中都出现或大量出现的那些部分将具有高的置信度.比较耗时.第38页/共61页第39页/共61页课堂练习:下列哪些位点是信息位点?位点123456序列1CAGGTA序列2CAGACA序列3CGGCTA序列4TGGTCG第40页/共61页课堂练习:2)下列系统发生树建立的方法中,基于序列特征分析的是?基于距离的是?A.neighbor-joiningmethodB.UPGMAC.MaximumparismonyD.Maximumlikelihood第41页/共61页课堂练习:3)给定一个距离距阵,请用UPGMA法构建系统发生树.ABCDEA-8468B--884C---68D----8

第42页/共61页或者:

假设序列A-E如下:

A:aagcttactgaatgggc

B:aagcatactgaatcggc

C:aatcatactgaatgccg

D:aatcatactgtttgccg

E:tttcatagtcaatgcca

假设序列之间的距离为序列转换需要的碱基替换次数.试用UPGMA法绘制树.第43页/共61页常用系统发生树软件:ClustalW/X,Philip,MEGA,DNAstar查看软件:Treeview,MEGA专业软件第44页/共61页1)流程:1)ClustalX多序列比较;2)用ClustalX程序直接绘制NJ树;

3)用Treeview程序打开.第45页/共61页2)流程:1)ClustalX多序列比较;2)用MEGA程序转换格式;

3)选择构建方法;4)MEGA查看.第46页/共61页Forsequences:>OsSRZ1MNRKPGDWDCRACQHLNFSRRDLCQRCGGPRGAADRGSGGGGDYANFGGRGGSSFGGGFGTGSDVRPGDWYCNCGAHNFASRSSCFKCAAFKDDAAVNSGGAGAFDGGDMSRSRGYGFGSGAVRASRPGWKSGDWICTRSGCNEHNFASRMECFRCNAPRDSGTEV>OsSRZ2MNIQRKPGDWNCKSCQHLNFSRRDYCQRCHTPRQDLPLGDGYVPGGVLSSLDIRPGDWYCNCGYHNFASRASCFKCGAIVKDLPAGQGGGVANGDFARALDSSAVRAGWKAGDWICTRPGCNVHNFASRIECYRCNAPREAGNVK>OsSRZ3METKAAAMAMRKPGDWSCRSCQYVNFCKREACQRCGEAKLGVERTDYAAMGGGWEVKPGDWCCRCCAVNNYASRGSCFKCGAAKNDSAAAVAQGWGFSVASQAGWKNGDWICPRMECNVQNYANRTECFRCNFPRYYVD>AtSRZ1MSRPGDWNCRSCSHLNFQRRDSCQRCGDSRSGPGGVGGLDFGNFGGRAMSVFGFTTGSDVRPGDWYCTVGNCGTHNFASRSTCFKCGTFKDETGAGGGGGGIGGPAMFDADIMRSRVPGNGGRSSWKSGDWICTRIGCNEHNFASRMECFRCNAPRDFSNRTSF>AtSRZ2MNRPGDWNCRLCSHLNFQRRDSCQRCREPRPGGISTDLLSGFGGRPVSSSFGFNTGPDVRPGDWYCNLGDCGTHNFANRS

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论