第五章进化与系统发生分析_第1页
第五章进化与系统发生分析_第2页
第五章进化与系统发生分析_第3页
第五章进化与系统发生分析_第4页
第五章进化与系统发生分析_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物信息学Bioinformatics编号名称第一章生物信息学引论第二章生物信息学的生物学基础第三章生物信息学数据库资源第四章DNA和蛋白质序列分析第五章系统发生分析第六章基因表达数据分析第七章其他常用生物信息学工具第八章电子克隆的原理和应用第九章基本生物信息学工具的开发与应用第五章系统发生分析第一节基本概念第二节系统发生分析步骤第一节基本概念

基本概念:系统发生(phylogeny)——是指生物形成或进化的历史;系统发生学(phylogenetics)——研究物种间进化关系的学科;系统发生树(phylogenetictree)——描述物种间进化关系的一种表示形式。

经典系统发生学 主要是物理或表型特征 如生物体的大小、颜色、触角个数即通过表型比较来研究物种之间的进化关系。有时候亲缘关系远的物种也能进化出相似的表型,所谓的趋同进化(convergentevolution)。如是否有眼睛?现代系统发生学利用从遗传物质中提取的信息作为物种特征,具体地说就是核酸序列或蛋白质分子如:关于现代人起源的研究:线粒体DNA

——所有现代人都是一个非洲女性的后代系统发生树是一般是二叉树(每个节点最多有两个子节点),由一系列的节点(nodes)和分支(branches)组成。Bacterium1Bacterium3Bacterium2Eukaryote1Eukaryote4Eukaryote3Eukaryote2Bacterium1Bacterium3Bacterium2Eukaryote1Eukaryote4Eukaryote3Eukaryote2Phylograms

showbranchorderandbranchlengths进化树,有分支和支长信息。.进化分支图Cladograms

showbranchingorder-branchlengthsaremeaningless进化分支图,只用分支信息,无支长信息。进化树系统树可以是有根的(rooted)也可以是无根的(unrooted):有根树中存在一个被称为根特殊节点,是所有正被研究的共同祖先。无根树是一种只将各间的关系具体化而未定义进化途径的树图。Rootedbyoutgrouparchaeaarchaeaarchaeaeukaryoteeukaryoteeukaryoteeukaryotebacteriaoutgrouprooteukaryoteeukaryoteeukaryoteeukaryote无根树archaeaarchaeaarchaea有根树,无根树有根树外围群直系同源(orthologs):同源的基因是由于共同的祖先基因进化而产生的.旁系同源(paralogs):同源的基因是由于基因复制产生的.直系同源与旁系同源必须了解的概念:paralogsorthologs思考:用于分子进化的序列必须是直系or旁系同源才能真实反映进化过程?

第二节系统发生分析步骤(1)序列比对(2)确定替换模型(3)构建系统发生树(4)评价所建立的树两类数据:距离离散特征

系统发生树的构建方法分为两大类:基于距离的构建方法: 非加权组平均法 邻近归并法

Fitch-Margoliash法 最小进化方法基于离散特征的构建方法:最大简约法最大似然法进化简约法相容性方法基本思路是:

给定一种序列之间距离的测度,在该距离测度下构建一棵系统发生树,使得该树能够最好地反映已知序列之间的距离。一.距离法10条核酸序列的距离矩阵

例,如果有三个物种,其两两距离如下:

dab=0.5dac

=0.9

dbc=0.9通过求解方程,得到如图所示的一棵树。

uvabc0.20.250.250.45一种简单的距离矩阵1.1非加权分组平均法

(UnweightedPairGroupMethodwithArithmeticmean,UPGMA)

在非加权分组平均法中,在计算新分类到其它分类之间的平均距离时按照各分类中分类单元的数目进行加权处理。

例,如果有三个物种,其两两距离如下:

dab=0.5dac

=0.9

dbc=0.9通过求解方程,得到如图所示的一棵树。

uvabc0.20.250.250.45UPGMA法d=e=10/2=5c=19/2=9.5g=c-d=9.5-5=4.5d(DE)A=(AE+AD)/2=(41+39)/2=40a=b=22/2=11AB(CDE)A-2239.5B--41.5(CDE)---d(CDE)A=(AE+AD+AC)/3=(41+39+39)/3=39.5(AB)(CDE)(AB)-40.5(CDE)--f1+a=f2+c=40.5/2=20.25f1=9.25,f2=11.751.2邻近归并法(neighbor-joiningmethod)基本思想:在进行类的合并时,不仅要求待合并的类是相近的,同时还要求待合并的类远离其它的类。选择外类群

(Outgroup)选择一个或多个已知与分析序列关系较远的序列作为外类群外类群可以辅助定位树根bacteriaoutgroupeukaryoteeukaryoteeukaryoteeukaryotearchaeaarchaeaarchaea外围群系统发生树的构建方法分为两大类:基于距离的构建方法 非加权组平均法 邻近归并法

Fitch-Margoliash法 最小进化方法基于离散特征的构建方法最大简约法最大似然法进化简约法相容性方法离散特征数据可分为:二态特征——例如:DNA序列上的某个位置如果是剪切位点;多态特征——例如:某一位置可能的碱基有A、T、G或C。

二.距离法2.1

最大简约法(MP)

最大简约法(maximumparsimony,MP)认为:解释一个过程的最好理论是所需假设数目最少的那一个。对所有可能的拓扑结构进行计算,并计算出所需替代数最小的那个拓扑结构,作为最优树。

最大简约法利用存在序列之间的差异的位点,即信息位点:由位点产生的突变数目把一棵树与另一棵树区分开来的位点.对于一个信息位点要求至少有两种不同的序列,而且每个序列至少出现2次.最大简约法就是寻找长度最小,代价最小(替换的次数最少)的树.我们只考虑信息位点.(以5为例)try…2.2最大似然法(ML) 最大似然法(maximumlikelihood,ML)选取一个特定的替代模型来分析给定的一组序列数据获得多个拓扑结构,然后再挑出其中似然率最大的拓扑结构作为最优树。第二节系统发生分析步骤(1)序列比对(2)确定替换模型(3)构建系统发生树(4)评价所建立的树进化树的可靠性分析自展法(BootstrapMethod)将最终系统树与各个自展树进行比较,其中在各个自展树中都出现或大量出现的那些部分将具有高的置信度.比较耗时.课堂练习:下列哪些位点是信息位点?位点123456序列1CAGGTA序列2CAGACA序列3CGGCTA序列4TGGTCG课堂练习:2)下列系统发生树建立的方法中,基于序列特征分析的是?基于距离的是?A.neighbor-joiningmethodB.UPGMAC.Maximum

parismonyD.Maximumlikelihood课堂练习:3)给定一个距离距阵,请用UPGMA法构建系统发生树.ABCDEA-8468B--884C---68D----8

或者:

假设序列A-E如下:

A:aagcttactgaatgggc

B:aagcatactgaatcggc

C:aatcatactgaatgccg

D:aatcatactgtttgccg

E:tttcatagtcaatgcca

假设序列之间的距离为序列转换需要的碱基替换次数.常用系统发生树软件:

ClustalW/X,Philip,MEGA,DNAstar查看软件:Treeview,MEGA流程:1)ClustalX多序列比较;2)用MEGA程序转换格式;

3)选择构建方法;4)MEGA查看.Forexample…Forsequences:>OsSRZ1MNRKPGDWDCRACQHLNFSRRDLCQRCGGPRGAADRGSGGGGDYANFGGRGGSSFGGGFGTGSDVRPGDWYCNCGAHNFASRSSCFKCAAFKDDAAVNSGGAGAFDGGDMSRSRGYGFGSGAVRASRPGWKSGDWICTRSGCNEHNFASRMECFRCNAPRDSGTEV>OsSRZ2MNIQRKPGDWNCKSCQHLNFSRRDYCQRCHTPRQDLPLGDGYVPGGVLSSLDIRPGDWYCNCGYHNFASRASCFKCGAIVKDLPAGQGGGVANGDFARALDSSAVRAGWKAGDWICTRPGCNVHNFASRIECYRCNAPREAGNVK>OsSRZ3METKAAAMAMRKPGDWSCRSCQYVNFCKREACQRCGEAKLGVERTDYAAMGGGWEVKPGDWCCRCCAVNNYASRGSCFKCGAAKNDSAAAVAQGWGFSVASQAGWKNGDWICPRMECNVQNYANRTECFRCNFPRYYVD>AtSRZ1MSRPGDWNCRSCSHLNFQRRDSCQRCGDSRSGPGGVGGLDFGNFGGRAMSVFGFTTGSDVRPGDWYCTVGNCGTHNFASRSTCFKCGTFKDETGAGGGGGGIGGPAMFDADIMRSRVPGNGGRSSWKSGDWICTRIGCNEHNFASRMECFRCNAPRDFSNRTSF>AtSRZ2MNRPGDWNCRLCSHLNFQRRDSCQRCREPRPGGISTDLLSGFGGRPVSSSFGFNTGPDVRPGDWYCNLGDCGTHNFANRSSCFKCGAAKDEFSCSSAAATTGFMDMNVGPRRGLFGFGGSSSGGGGTGRSPWKSGDWICPRSGCNEHNFASRSECFRCNAPKELATEPPY>AtSRZ3MSWTGGDWLCGACQHANFKKRESCQKCGYPKFGGVDVSTYLYNRTEVMAGDWYCGALNCGSHN

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论