




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
系统发育分析第一页,共九十五页,编辑于2023年,星期三系统发育分析概论地球大约是在45亿年前形成的。第二页,共九十五页,编辑于2023年,星期三地质学、古生物学和地球化学直接或间接证据都表明:大约在地球形成10亿年之后,我们这个星球开始出现生命,主要是些类似简单杆状细菌的原始生物。但在同期的、另外一些被认为是由光合微生物与沉积物形成的片层状化石,它们类似于绿硫细菌和多细胞丝状细菌,这些原始生命大概都是厌氧型的。含有产氧型光合细菌——蓝细菌的层叠石则发现于25-30亿年前的地质年代中,蓝细菌的出现,给地球带来了氧气。而后,各种真核生物才随之出现。第三页,共九十五页,编辑于2023年,星期三相关概念:所谓进化(evolution)是生物与其生存环境相互作用过程中,其遗传系统随时间发生一系列不可逆的改变,在大多数情况下,导致生物表型改变和对生存环境的相对适应。第四页,共九十五页,编辑于2023年,星期三第五页,共九十五页,编辑于2023年,星期三第六页,共九十五页,编辑于2023年,星期三
系统发育(phylogeny)指的是研究各类生物进化的历史。构建系统发育过程有助于通过物种间隐含的种系关系揭示进化动力的实质。第七页,共九十五页,编辑于2023年,星期三第八页,共九十五页,编辑于2023年,星期三第九页,共九十五页,编辑于2023年,星期三
系统发育分析(phylogeneticanalysis
)就是要推断或者评估这些进化关系。第十页,共九十五页,编辑于2023年,星期三Evidencefrommorphological,biochemical,andgenesequencedatasuggeststhatallorganismsonEartharegeneticallyrelated,andthegenealogicalrelationshipsoflivingthingscanberepresentedbyavastevolutionarytree,theTreeofLife.TheTreeofLifethenrepresentsthephylogenyoforganisms.AllorganismsareconnectedbythepassageofgenesalongthebranchesofthephylogeneticTreeofLife.第十一页,共九十五页,编辑于2023年,星期三LivingorganismssitlikeleavesatthetipsofthebranchesoftheTreeofLife.Theirevolutionaryhistoryisrepresentedbyaseriesofancestorswhicharesharedhierarchicallybydifferentsubsetsoftheorganismsthatarealivetoday.第十二页,共九十五页,编辑于2023年,星期三通过系统发育分析所推断出来的进化关系一般用分枝图表(进化树)来描述,这个进化树就描述了同一谱系的进化关系,包括了分子进化(基因树)、物种进化以及分子进化和物种进化的综合。第十三页,共九十五页,编辑于2023年,星期三Aphylogenetictreeofbeachbeetles.Somebrancheshavegoneextinctinthepast,whileothersrepresentspecieslivingtoday.第十四页,共九十五页,编辑于2023年,星期三直系/旁系同源基因的判定估计分歧时间重建祖先序列/性状发现生物序列上自然选择影响较大的重要位点确定基因重组的发生位点识别和疾病关联的突变确定病原体的分类系统发育分析的用途:第十五页,共九十五页,编辑于2023年,星期三在现代系统发育学研究中,研究的重点已经不再是生物的形态学特征或者其他特性,而是生物大分子尤其是序列。第十六页,共九十五页,编辑于2023年,星期三20世纪70年代以前,生物类群间的亲缘关系主要是根据形态结构、生理生化、行为习性等表型特征以及少量的化石资料来判断它们之间的亲缘关系。第十七页,共九十五页,编辑于2023年,星期三20世纪70年代以后研究生物的系统发育,主要是分析和比较生物大分子的结构特征,特别是蛋白质、RNA和DNA这些反映生物基因组特征的分子序列,作为判断各类生物进化关系的主要特征。第十八页,共九十五页,编辑于2023年,星期三
分子进化(molecularevolution)是指从物种的一些分子特性出发了解物种之间的系统发育关系。第十九页,共九十五页,编辑于2023年,星期三依据K14序列的不同,用贝叶斯推断绘制bichir(一种鱼)的系统发育树,第二十页,共九十五页,编辑于2023年,星期三随着基因组测序计划的实施,基因组的海量信息为若干生物领域重大问题的研究提供了有力的帮助,分子进化研究再次成为生命科学中最引人注目的领域之一。重大问题包括:遗传密码的起源、基因组结构的形成与演化、进化的动力、生物进化等等。第二十一页,共九十五页,编辑于2023年,星期三人与老鼠的基因组大小相似,都含有约30亿碱基对,基因的数量也相近,可人与老鼠为何差异如此之大?从进化的角度如此解释?是否可以在浩如烟海的基因组密码中获得答案?第二十二页,共九十五页,编辑于2023年,星期三分子进化研究的基础核苷酸和氨基酸序列中含有生物进化历史的全部信息。假设第二十三页,共九十五页,编辑于2023年,星期三在各种不同的发育谱系及足够大的进化时间尺度中,许多序列的进化速率几乎是恒定不变的。分子钟理论第二十四页,共九十五页,编辑于2023年,星期三直系同源
Orthologs,由共同的祖先进化所产生的。如确定为直系同源则表示两者来自于不同物种的由垂直家系(物种形成)进化而来的,并且典型的保留与原始蛋白或基因有相同的功能。
第二十五页,共九十五页,编辑于2023年,星期三旁系同源
Paralogs,由于复制所产生的。如确定为旁系同源则表示该蛋白或基因是在一定物种中的来源于复制所得,可能会进化出新的与原来有关的功能。第二十六页,共九十五页,编辑于2023年,星期三OrthologsandParalogsaretwotypesofhomologoussequences.
Orthologydescribesgenesindifferentspeciesthatderivefromacommonancestor.Orthologousgenesmayormaynothavethesamefunction.Paralogydescribeshomologousgeneswithinasinglespeciesthatdivergedbygeneduplication.第二十七页,共九十五页,编辑于2023年,星期三用于分子进化研究的序列必须是直系同源的。第二十八页,共九十五页,编辑于2023年,星期三分子进化研究的方法主要通过描述物种的系统发育过程来解释物种进化动力的实质。第二十九页,共九十五页,编辑于2023年,星期三表型性关系(Phenetic)和遗传性关系(Cladistic)表型性关系是根据一组物体的表型性状所获得的相似性;遗传性关系含有祖先的信息,因而可用于研究进化。这两种关系可以用系统进化树(Phylogenetictree
)或树状图(Dendrogram
)来表示。第三十页,共九十五页,编辑于2023年,星期三表型分枝图(Phenogram)进化分枝图(Cladogram)表型性关系遗传性关系进化分枝图可以显示类群间的进化时间,而表型分枝图不需要时间概念。第三十一页,共九十五页,编辑于2023年,星期三系统进化树的种类有根树(Rooted)和无根树(unRooted)。反映树上物种或基因的时间顺序只反映分类单元之间的距离,不涉及谁是谁的祖先问题第三十二页,共九十五页,编辑于2023年,星期三构建系统进化树的数据特征数据(Characterdata):提供了基因、个体、群体或物种的信息。距离数据(Distancedata):提供了成对基因、个体、群体或物种的信息。第三十三页,共九十五页,编辑于2023年,星期三这些数据可以矩阵的形式表达。距离矩阵(distancematrix)是在计算得到的距离数据基础上获得的,距离的计算总体上是要依据一定的遗传模型,并能够表示出两个分类单位间的变化量。系统树的构建质量依赖于距离估算的准确性。
第三十四页,共九十五页,编辑于2023年,星期三遗传模型在分子进化研究中,我们往往认定这样的一个假设,即序列是同源的,它们具有单一祖先序列;这一祖先序列在进化过程中发生了一系列的核苷酸突变。第三十五页,共九十五页,编辑于2023年,星期三第三十六页,共九十五页,编辑于2023年,星期三在以上的假设基础上,进一步假设每一碱基具有同等机率突变为另外3种碱基中的任何一种,其频率常数为μ/3,μ为碱基替换频率。其中转换和颠换具有不同的频率,а和β。Judes-Cantor单参数模型(上三角部分)和Kimura两参数模型(下三角部分)。第三十七页,共九十五页,编辑于2023年,星期三第三十八页,共九十五页,编辑于2023年,星期三距离K适用于显示两条序列从一个祖先序列趋异进化以来的时间,并能用于序列间系统树的构建。在计算时,均需要将序列作初步的列线分析。第三十九页,共九十五页,编辑于2023年,星期三以下是在两参数模型下证实,由于趋异变化,由转换造成差异(I型变化)或由颠换造成差异(Ⅱ型变化)的碱基,随时间而变化:如果k=а+2β是单位时间碱基替换的总频率,则适合作为系统树的距离尺度为:该类距离可用于有关系统树距离矩阵中,用样本比值代入公式就可估计这些距离。第四十页,共九十五页,编辑于2023年,星期三兔和鸡的β-球蛋白序列长438bp,有58个I型变化、63个Ⅱ型变化。因此,pI=0.1324,PII=0.1438,K距离为0.3513。这与只根据相同碱基比例q=0.7237所得Jukes-Cantor距离0.3446没有本质上的差异。~~~第四十一页,共九十五页,编辑于2023年,星期三DNA序列距离K又可称为DNA序列间的分歧度(sequencedivergence),即序列间相异性的一个指标。蛋白质序列的分歧度分为两序列同义变化的分歧度(KS)和非同义变化的分歧度(KA),根据Jukes-Cautor单参数模型和Kimura两参数模型等遗传模型,可以分别计算得到两序列的分歧度(或称为蛋白质序列间的距离)。第四十二页,共九十五页,编辑于2023年,星期三对DNA序列进行系统发育分析的四个主要步骤是比对,建立取代模型,建立进化树以及进化树评估。如何绘制系统进化树第四十三页,共九十五页,编辑于2023年,星期三多重比对
进行多重比对的基本步骤包括:选择合适的比对程序;然后从比对结果中提取系统发育的数据集,至于如何提取有效数据,取决于所选择的建树程序如何处理容易引起歧义的比对区域和插入—删除序列(即所谓的indel状态或者空位状态)。第四十四页,共九十五页,编辑于2023年,星期三计算机依赖性:无依赖;部分依赖;完全依赖。系统发育调用:无调用;先验调用;递归调用。比对参数评估:先验评估;动态评估;递归评估。比对特征:基本结构(比如序列);高级结构。数学优化:统计优化;非统计优化。多重比对程序的属性第四十五页,共九十五页,编辑于2023年,星期三一个典型的比对过程包括:首先应用CLUSTALW/X程序,然后进行手工比对,最后提交给一个建树程序。这个过程有如下特征选项:(1)部分依赖于计算机(也就是说,需要手工调整);(2)需要一个先验的系统发育标准(也就是说需要一个前导树);(3)使用先验评估方法和动态评估方法(推荐)对比对参数进行评估;(4)对基本结构(序列)进行比对;(5)应用非统计数学优化。第四十六页,共九十五页,编辑于2023年,星期三不能直接把计算机比对结果提交给建树程序,因为建树程序不能发现比对的错误;尤其是那些包含在比对程序包中(比如,CLUSTALandTREEinProPack)的建树程序,因为在这些程序包中的建树程序更加不严格。我们必须通过分子结构;功能和碱基取代过程作出一些假定,并且结合另外一些独立的系统发育证据,对整个比对进行考察。注意第四十七页,共九十五页,编辑于2023年,星期三在系统进化过程中,会出现碱基、核酸和氨基酸的替代。对于生物而言某种程度上的替代是被允许的。目前,还没有一种简单的计算机程序可以对较复杂的变量进行评估,同样,现有的建树软件也不可能理解这些复杂变量。因此建立取代模型既影响比对,也影响建树。取代模型
第四十八页,共九十五页,编辑于2023年,星期三建树方法距离矩阵法(Distancematrixmethod)最大简约法(Maximumparsimony,MP)最大似然法(MaximumlikelihoodML)第四十九页,共九十五页,编辑于2023年,星期三距离矩阵法(distancematrixmethod)是根据每对物种之间的距离,其计算一般很直接,所生成的树的质量取决于距离尺度的质量。距离通常取决于遗传模型。第五十页,共九十五页,编辑于2023年,星期三距离矩阵法平均连接聚类法(UPGMA)系统树可建立在(遗传)距离矩阵的基础上。这里的遗传距离为所有成对实用分类单位(operationaltaxonomicunits,OTU)之间的距离。第五十一页,共九十五页,编辑于2023年,星期三t个实用分类单位(OTU)间的距离矩阵第五十二页,共九十五页,编辑于2023年,星期三第五十三页,共九十五页,编辑于2023年,星期三每对序列间Jukes-Cantor距离取决于每对序列间差异核普酸的观察数。如果在两条序列中相同碱基的比例为q,则距离K可估计为:第五十四页,共九十五页,编辑于2023年,星期三第五十五页,共九十五页,编辑于2023年,星期三第五十六页,共九十五页,编辑于2023年,星期三第五十七页,共九十五页,编辑于2023年,星期三第五十八页,共九十五页,编辑于2023年,星期三Fitch-Margoliash算法第五十九页,共九十五页,编辑于2023年,星期三第六十页,共九十五页,编辑于2023年,星期三第六十一页,共九十五页,编辑于2023年,星期三依此类推第六十二页,共九十五页,编辑于2023年,星期三第六十三页,共九十五页,编辑于2023年,星期三d第六十四页,共九十五页,编辑于2023年,星期三第六十五页,共九十五页,编辑于2023年,星期三如果设置树根I,并假定从工到现在所有序列的两个分枝具有相等的变更率,因而从G到工的距离g与从H到I的距离h是相等的,则有根树就可以采用与UPGMA提供的相同拓扑方法来获得。所以g=h=0.092,且从G到I的距离g为g减去G的高度,即0.032。将所有这些分枝长度一起考虑便得到有根系统树。第六十六页,共九十五页,编辑于2023年,星期三第六十七页,共九十五页,编辑于2023年,星期三邻接法(Neighbor一joiningMethod)该方法通过确定距离最近(或相邻)的成对分类单位来使系统树的总距离达到最小。相邻是指两个分类单位在某一无根分叉树中仅通过一个节点(node)相连。人与黑猩猩是相邻的,人与大猩猩则不是;如果人与黑猩猩组成一个新类,则该新类与大猩猩又成为相邻。总之,通过循序地将相邻点合并成新的点,就可以建立一个相应的拓扑树。第六十八页,共九十五页,编辑于2023年,星期三第六十九页,共九十五页,编辑于2023年,星期三第七十页,共九十五页,编辑于2023年,星期三第七十一页,共九十五页,编辑于2023年,星期三第七十二页,共九十五页,编辑于2023年,星期三第一步,星号(or)和长臂猿(gi)之间的Mij值最小,则它们用节点1取代,进入第2步,则新节点(节点1)到这二个节点的距离为:第七十三页,共九十五页,编辑于2023年,星期三第七十四页,共九十五页,编辑于2023年,星期三第七十五页,共九十五页,编辑于2023年,星期三最大简约法最大简约(maximumparsimony)法较少涉及遗传假设,它通过寻求物种间最小的变更数来完成的。第七十六页,共九十五页,编辑于2023年,星期三对于每种可能的拓扑结构,每一节点的序列就是产生两个直接后裔序列所需变更最小的序列。然后可以找到整个系统树所需的变更总数,具有最小总数的系统树就是最简约的。简约法明显注重每一物种观测的特征值,而不是概括特征值之间差异的序列间距离。如果有一组物种的序列可供利用,那么连接它们的最为简约的拓扑结构就可能得到。但一般无法获得分枝长度。第七十七页,共九十五页,编辑于2023年,星期三对于最大化的简约,只需考虑那些信息位点(Informativesite)。对于DNA序列,信息位点是指那些至少存在2个不同的碱基且每个不同碱基至少出现两次的位点。只有一个碱基且只在一个序列中出现的位点不属于信息位点,因为那种独特的碱基位点是由于在直接通向它所在序列的分枝上发生单个碱基变更所引起的。这种碱基变更可与任何拓扑结构相容。第七十八页,共九十五页,编辑于2023年,星期三以表为例,只有位点5,7,9为信息位点。第七十九页,共九十五页,编辑于2023年,星期三存在5个信息位点:25,39,44,47,54。第八十页,共九十五页,编辑于2023年,星期三第八十一页,共九十五页,编辑于2023年,星期三最大似然法注:最大似然估计是一种统计方法,它用来求一个样本集的相关概率密度函数的参数。对于模型的巨大依赖性是最大似然(maximumlikelihood)法的特征,该方法在计算上繁杂,但为统计推断提供了基础。第八十二页,共九十五页,编辑于2023年,星期三当考虑实施最大似然法时,该方法先假定系统树的形式,然后选择分枝长度以使产生特定系统树的资料的似然值最大化。通过比较不同系统树的似然函数值,将具有最大似然值的系统树看作最佳估计。一个直接的问题是随着OTU的增加,系统树的数目迅速增加。当树端具有n个OTU时,无根分歧树(在每一内部树节上连接着两个分枝的树)的数目为(2n-5)!/[(n-3)!2-3]。当n=3,4,6,8和10时,该数分别为1,3,105,10395,2027025。具有n个树端的有根树数目与具有n+1个树端的无根树数目相同。实际应用时,只研究所有系统树的一个亚集。第八十三页,共九十五页,编辑于2023年,星期三第八十四页,共九十五页,编辑于2023年,星期三第八十五页,共九十五页,编辑于2023年,星期三三种方法的比较
距离矩阵方法简单,只计算两个序列的差异数量。这个数量被看作进化距离,而其准确大小依赖于进化模型的选择。然后运行一个聚类算法,从最相似(也就是说,两者之间的距离最短)的序列开始,通过距离值方阵计算出实际的进化树,或者通过将总的树枝长度最小化而优化出进化树。第八十六页,共九十五页,编辑于2023年,星期三用最大节约方法搜索进化树的原理是要求用最小的改变来解释所要研究的分类群之间观察到的差异。第八十七页,共九十五页,编辑于2023年,星期三用于系统发育推论的最大似然方法评估所选定的进化模型能够产生实际观察到的数据的可能性。如果两个姐妹分类群都有核苷酸“A”,那么,如果假定原先的核苷酸是“C”,得到现在的“A”的可能性比起假定原先就是“A”的可能性要小得多。所有可能出现的几率被加和,产生一个特定位点的似然值,然后这个数据集的所有比对位点似然值的加和就是整个进化树的似然值。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 交通信号控制系统操作规程
- 三农村电商售后服务与客户关系管理实战指南
- 安装光伏发电划算不
- 汽车 充电桩 新能源
- 课题研究可行性分析格式模板
- 项目进度管理与风险控制的工作计划
- 三农产品三农村市场风险防控方案
- 消防中级监控练习试题及答案
- 中级养老护理练习试题
- 茶艺师复习测试题
- 2021年10月自考03347流体力学试题及答案含评分标准
- 聚酯生产技术 聚酯岗位操作规程
- 幕墙玻璃维修更换施工方案
- 证明公司人数
- 《电子信息工程专业导论》复习备考核心题库(100多题)
- GB/T 10561-2023钢中非金属夹杂物含量的测定标准评级图显微检验法
- 浅谈希沃白板在初中区域地理教学中的应用
- 小鹰广郡通:2023成都城市全景数据报告 -城市研究
- -《画线段图解决问题的策略》
- 工程勘察服务成本要素信息(2022版)
- 特种设备安全风险管控责任清单
评论
0/150
提交评论