![分子系统发生 理论和实践(共11页)_第1页](http://file4.renrendoc.com/view/0eed51d6ca2c8aa92ab28732b435bc14/0eed51d6ca2c8aa92ab28732b435bc141.gif)
![分子系统发生 理论和实践(共11页)_第2页](http://file4.renrendoc.com/view/0eed51d6ca2c8aa92ab28732b435bc14/0eed51d6ca2c8aa92ab28732b435bc142.gif)
![分子系统发生 理论和实践(共11页)_第3页](http://file4.renrendoc.com/view/0eed51d6ca2c8aa92ab28732b435bc14/0eed51d6ca2c8aa92ab28732b435bc143.gif)
![分子系统发生 理论和实践(共11页)_第4页](http://file4.renrendoc.com/view/0eed51d6ca2c8aa92ab28732b435bc14/0eed51d6ca2c8aa92ab28732b435bc144.gif)
![分子系统发生 理论和实践(共11页)_第5页](http://file4.renrendoc.com/view/0eed51d6ca2c8aa92ab28732b435bc14/0eed51d6ca2c8aa92ab28732b435bc145.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、分子(fnz)系统发生学:理论和实践文摘:分子进化是重要的解决各种生物物种或基因之间的关系等问题的起源,发展和物种的数目变化和迁移模式。测序技术(jsh)的进步了系统发育分析到一个新的高度。生物进化已经渗透到几乎每一个分支,过多的分支以及庞杂的分析软件包让生物学家犯了愁。在这里,我们审查系统进化分析的主要方法,包括直系、距离、可能性和贝叶斯方法。我们讨论他们的优势和劣势,为其使用提供指导。出现DNA测序技术之前,系统发育树几乎只用于描述(mio sh)在分类学和物种分类之间的关系。今天,生物学的分子测序用于几乎所有进化分支。除了代表的关系,基因在物种生命之树上的发展史是用来描述paralogu
2、es之间的关系在一个基因家族,历史的人口,病原体的进化- ary和流行病学动态,体细胞的系谱关系在不同的点子和癌症发展和语言的进化。最近,分子系统发生学基因组compari子基因成为一个不可或缺的工具。在这种情况下,它使用:将宏基因组序列,识别基因,监管元素和新测序的基因组的非编码rna;解释现代和古代个人基因组;重建祖先基因组。在其他应用程序中,发展史本身可能不是直接利益但不过必须占在分析。这种“树思维”改变了许多生物学的分支。在群体遗传学,开发创新中合并理论和广泛的可用性的多个个体的基因序列相同物种的发展促使genealogy-based推理方法,具有转速- olutionized现代计算
3、人口麝猫- ics。这里,基因树描述序列样本的家谱是高度不确定的;他们不是直接兴趣但是包含有价值的公司美信模型中的参数。树想也结下了深厚的人口遗传学和合成系统发生学,形成统计进化地理学的新兴领域。在物种树methods2基因树的单个位点可能不是直接兴趣和可能与物种树相冲突。在未被注意的平均基因树下多品种联合模型,这些方法推断物种树尽管基因树的不确定性。在比较分析,推理之间的关联特征(例如,睾丸大小和性滥交)使用现代物种的观测特征应该考虑物种发展史避免曲解历史事件的因果关系。推理的自适应蛋白质进化发展史是用来跟踪同义和nonsynonymous substitu沿着树枝,不确定加速氨基酸变化的情
4、况下,即使发展史不直接利益。如今,每一个生物学家需要了解系统发育推断。然而,一个试验心理生物学家不熟悉的领域,许多分析方法和软件的存在似乎令人生畏。在本文中,我们描述当前的套件phylo方法遗传推断使用序列数据。我们还讨论各种统计标准,有助于选择最适合一个特定的问题的方法和数据类型。下一代测序(上天)技术的认识产生巨大的数据集。分析这样的数据集,减少系统误差,提高模型的鲁棒性侵犯更重要如此更比减少随机抽样错误。我们讨论几个问题在大型数据集的分析,例如哲学树一个种系发生是系谱历史分支长河中不知道的参数。例如,左图的种系发生在t0t1时间点内的两个特殊事件。分支的长度(b0,b1,b2,b3)展示
5、的是在整个进化分支中每两个位点间预期的替换单位和测量值总和的类型。如果替换数据长时间保持恒定,我们称之为分子保留时钟。这棵树将会有一个超度量的根,意思是从树尖到树根的距离是相等的。在树根上的物种代表年龄是祖先的节点因此包含长长分支的参数。树根和分子钟傲慢的程序分子钟根。对于亲缘关系较近的物种来说,假设这个时钟不傲慢。分子生物学家分析,不能出现这种结果。如果分支树上的每一个分支允许有一个独立(dl)的进化数据,通常用的模型和方法是不能识别根上的特定位点的,所以只有树上的非根除能被识别推断出来。一个没有根的S物种(wzhng)的树应该有2S-3的距离。据分析通常用的策略是包括物种以外的树根,众所周
6、知的亲缘关系远的物种。尽管推断树对于(duy)所有的物种都是无根的,但在整个分支的特定位点仍然被相信有根的存在来领导外源物种所以物种内是有根的。这个策略被称为组织外的根。一个系统进化树包括节点和分支,每一个分支 代表一个遗传宗谱的存在,每一个节点代表一个新的遗传宗谱的出现。如果这个树代表一群物种的关系那么这个节点代表嗲表五中的形成,在别的context中关系可能就不是这样了。比如在一个人类的基因序列树中,一个节点就会代表一个个体的出生,然而在一个paralogous基因树中,一个节点就会代表一个重复基因的出现。系统进化数不是直接发现的,它是由基因序列或是其他数据推出来的。本次系统进化树的重建时
7、基于距离和character俩方面。在距离矩阵的方法中,没对序列的距离被估计,之后的结果用于树的重建。 基于性状的方法包括maximum parsimony, maximum likelihood and Bayesian inference 方法。这些方法同时比对所有的序列,如果有一个位点相同就给这个树加一分。这个树的分数是 maximum parsi-mony(最大值过度吝啬)方法里边的最小的改变值,是 maximum likelihood 方法里的可能值的log值,是Bayesian inference方法里的posterior probability值。在理论上,用分数最高的树和所有可
8、能的树做对比,而实际上,因为有很多可能的树,比如彻底的计算不实一个好的计算方法除非是一个晓得数据,所以我们用了算法来得到启发式的树,经常用一种快速的算法来得到一个starting tree的树,之后 再用次数来重新排列以计算次数的分数。一个启发式的树不能保证是一个最好的树在一定的标准下,但是它使得大数据的反洗成为可能。为了描述大数据,这三种方法被用来替换模型之后模型构建。但是maximum parsimon。失败了。两个序列的距离用 Markov chain模型中的核酸替换率来计算。几种通用的模型在FIG.1中北介绍。JC69 模型认为俩个核酸的替换率是相等的。 K80模型认为在 transi
9、tions和 transversions.之间有不同的替换率。俩种方法都预测了四个核苷酸的相同序列,而在HKY85和GTR模型中,这个序列的预测就不是很严格,因为在突变率和选择上的变化,基因和蛋白上的不同位点以不同的速度在进化。在距离的计算中这样的变化是被gamm(位点的分布律)值来调整的,就像在 JC69 + , HKY85 + or GTR +?模型中一样。在距离矩阵模型中当序列的距离倍计算之后,序列对比就没有(mi yu)用处了 。这是一个用相同的方块(fn kui)的方法用于数据统计来适应直线y=a+bx固定散落的点。是优化分支长度导致了被给的分数是Q,这个数最小的分数就是估计这个数的
10、真实值。 最小的进化方法用树的长度代替Q为树的选择,尽管这些树的分枝(fn zh)长度可以用来估计最小方块的标准,在最小进化标准下,树越短就越正确。广泛运用距离方法是加入邻居,这是一个群算法和通过开始一棵像星型树连续的选择一对分类去加入到一起的操作。直到一个获得一个圆满解决好的树。这个树将会被选择被估计最小树的长度,两个分类将会代表他们的祖先并且联系到根源分类的数目将会减少一个。最大的距离在分类取代两个原始分类对于邻居的讨论在不断地更新。加入邻居的高效实施在MEGA的方法中找到了。距离方法的优点和弱点。第一个距离方法的优点是计算的高效性,一组计算是非常快的因为他并不需要与其他很多树进行最佳标准
11、的比较。由于这个原因,加入邻居是个很大的具有非常低的可分离性的数据设置分析。记载表明,他用于计算两个两个的距离可能非常重要。距离方法表现的非常差在分离序列上。因为大的距离包含了大量的样品错误,大多数的距离方法并不会由于大的距离的估测导致高度的变化。距离的方法对于直线排列的缺口非常的敏感。最大的节俭节俭树的分数。最大的节俭方法使基因树的数目通过分配特征情况对于树上内部的节点的数量最小化。特征长度是需要改变长度的最小数。然而,树的分数是所有位点的特征长度的总和,最大节俭树是使树分数最小化的一种树。一些位点在靠节俭法在对树的比较上并没有用,例如连续位点,相同的核酸出现在所有的物种有一个特征长度为零在
12、所有的树上,那种只在一种物种上出现的单独的核苷酸序列。也能够被忽略,特征长度也总是相同的。节俭信息为那些至少有两个可以区分的特征。对于四类物种仅仅有三个位点模型XXYY:XYXY:,所在位置是区分两个核苷酸序列。这三个模型可能不是相同根源的树对那四类物种,他们中最大的节俭树依靠三个位点模型出现在列队中的频率。这个列队是为了找到在双源树中的最小改变的数,这个列队被他们普遍发展节俭工程。节俭的起源发展是用来分析所摧毁的形态学特征,在世纪年代末,他开始用于分子数据,一个节俭或者可能性是否形态学的分析是一个公开辩论。这个公开辩论已经被减弱,方法的重要性能够广泛被认可,节俭法仍然被广泛使用。并不是因为节
13、俭法被认为是自由假设而是因为它能经常产生合理结果和计算高效。节俭法的优点和缺点。优点是因为他很简单,很容易去描述去理解,它是可调节的对于严谨的数学分析。简单帮助了电脑高效性的发展。一个最大的缺点是缺乏一个明确假设,这样会导致在没有任何序列进化树结构的知识的基础上的可操作性不强。图二所示:相邻加入算法。相邻加入算法是一个分开的聚类算法。它从一棵星型树开始:两个节点然后在这颗树上聚集在一起(在这个例子中,节点1和节点2),在这棵树的根部减少节点的数量(shling)至1个(节点X)。这个过程一直在重复直到一颗完整解决好的进化树诞生。使它一直存在一个问题名为long-branch-attractio
14、n43。(长枝条诱惑)。如果正确(zhngqu)的进化树(T1,in FlG 3a)有两个额外的长枝条,且被一个短的内在枝条分割,简约性将会朝向一个错误推断的进化树(T2 in FIG 3b),而且这些长枝条被聚集在一起。当这些枝条在T1中伸长到一定程度时,对于XXYY位置模式的可能性(用于支持正确的进化树(T1)),可能会比XYXY位置模式(用于支持错误的进化树T2)更小。因此,在序列里有越多的作用位点,就会有越大的可能性对于XXYY模式被观测到概率比XYXY被观测到的概率更低,而且更能确定的是:这颗错误的进化树T2将会被选择作为最简约的进化树。因此简约性汇聚了一颗错误的进化树,并且所提供的
15、数据前后不一致。long-branch-attraction43(长枝条诱惑)已经被证实在许多真实和模拟的数据集合,并且是由于简约性引导在同一位点正确的多水平的变化的错误或者是适应在两个长枝条的平行变化。看REFS的24,25页有更多关于这个问题的讨论。值得注意的是,如果假设模型过于简单,忽略了节点之间的速度变化,那么(n me)基于模型的方法(即 距离,似然法和贝叶斯方法)也遭受长枝吸引。在深层次的系统发育结构的重建中,长枝吸引(以及物种之间的不平等的核苷酸或氨基酸的频率)是系统误差的重要来源(FIG 3c,d) 。在这个分析中,去使用现实的替代模型或者似然法。贝叶斯方法论是明智可取的选择。
16、高频率的生物分类单位的抽样去打破长枝或者消除高速演化的蛋白以及位点也能够奏效。 最大相似性最大相似性的基础,最大可能性是在二十世纪二十年代作为一种估计一个模型中的未知参数的统计方法被R.A.Fisher开发出,可能性函数被定义为给定参数的数据的概率,但被看做是数据中的一个参数的函数。它代表了数据中与参数有关的所有信息,参数的最大相似估计值是可能性最大化的参数值。通常来讲,最大相似估计值在数字上使用了迭代优化算法。 MLES有着理想的渐进性质;它们是客观的,稳定的;高效的。最大似然树重建,第一个DNA序列数据的最大相似性分析的算法是由FLESETEIN开发的。得益于日益增加的计算能力和软件的启用
17、以及序列进化的越发现实化的模型。使该方法现在已经得到广泛应用。可注意到,两个优化步骤参与了最大相似树的估计:分支长度的优化的计算使每个候选树的树得分以找出树空间中最大似然树。从一个统计学角度来讲,树(拓扑结构)是一个模型而不是一个参数,而给定树的分支长度和替换参数是模型中的参数。最大似然树推理就相当于比较许多统计模型,每个都有相同数量的参数。上文所提到的MLES的引人注目的渐进性质在真实树被给出未应用于参数估计,但不是最大相似树。 在各种替代模型下计算一个给定树的相似性在文献23、24中有相应解释。用距离计算的所有替代模型中都可以用在这里。事实上通过比较许多序列容纳复杂的模型是可行的。最常用的
18、分子进化中的模型假设序列中的位点可独立进化,因此相似性是不同位点的概率的产物。在任何特定位点的概率是平均超过无法观察的在最早节点的特征状态。而相似平均超过所有可能的状态。早期的最大似然应用包括PHYP MOLPHY 和PAUP4 现代应用 如PLYML53 PAML54 GARLI55,都不只是计算速度更快但也更有寻找具有高度相似性的树时高效性。MEGA5的最大似然性最近加入了该方法(fngf),使其更容易被没有电脑经验的生物学家们所接受。最大相似性的优劣势。最大相似性的一个优势在于其所有的假象模型都很清晰,所以它们可以被评估和改进。一个最大相似法中复杂进化模型的计算机指令系统的实用性是其由于
19、简约发的最大优势。深度中系问题的现代推理运用饱受蛋白质法几乎完全依赖于相似性和贝叶斯定理(dngl)的方法。第五(d w)页表1|的几个功能常用的系统发育程序名称简述参考文献链接贝叶斯进化分析取样树木(BEAST)贝叶斯MCMC计划下的时钟推断根性树种或宽松的时钟模式。它可用于分析核苷酸序列和氨基酸序列,以及形态数据。一套程序,如示踪和FigTree,还提供了用于诊断,总结和可视化结果http:/beast.bio.ed.ac.uk遗传算法快速似然推断(GARLI)使用遗传算法的程序来搜索最大似然树。它包括GTR+模型和特殊情况,可以分析核苷酸,氨基酸和密码子的序列。并行版本也已经推出/p/g
20、arli假设使用测试系统发育(的HyPHY)最大似然程序的分子进化的拟合模型。它实现,用户可以用它来指定模型一个高级语言和建立似然比检验分子进化遗传分析(MEGA基于Windows的程序采用了全图形化的用户界面,可以在Mac OSX或Linux上使用的Windows模拟器上运行。它包括距离,系统发育重建的简约性和可能性的方法,虽然其优势在于距离的方法。它采用了比对程序从GenBank中的ClustalW和可检索数据MrBayes贝叶斯MCMC计划系统发育推断。它包括所有的核苷酸,氨基酸和密码子替代的模型开发的可能性分析系统发育分析通过最大似然(PAML)方案估计的参数和假设检验的集合使用可能性
21、。它主要用于阳性筛选试验,祖重建和分子钟约会。它是不适合的搜索树系统发育分析采用简约*和其它方法(PAUP*4.0)PAUP*4.0仍然是一个beta版本(在撰写本文时)。它实现了简约,系统发育重建的距离和似然法PHYLIP程序包通过的距离,简约的进化推理程序和似然法PhyML快速程序用于搜索使用核苷酸的最大似然树或蛋白质序列数据RAxML快速程序用于搜索下GTR的最大似然树模型使用的核苷酸或氨基酸序列。水货版本特别是强大的采用新树分析技术(TNT)快速节俭计划,旨在对非常大的数据集注:所有程序可以在Windows,Mac OSX和Unix或Linux平台(pngti)上运行。除了PAUP*,
22、其中收取象征性的费用,所有的包都是免费下载。见费尔森斯丁的综合节目列表/phylip/software.html。GTR,一般(ybn)时间可逆的;MCMC,马氏链蒙特卡罗。似然比检验一般的假设检验使用该方法似然性来比较两个嵌套的假说,通常使用的2分布,以评估的意义。分子钟该假说或观察的进化速率不随时间变化或整个谱系。先验分布分配的分配之前的参数分析的数据(shj)。后验分布的分布参数(或模型)条件的数据。它结合信息在现有和在数据(可能性)。(本段文字为左边边框内容)对于这种推论,它做为模型,以适应位点之间可变的氨基酸取代率或甚至这些位点之间不同氨基酸的频率是很重要的。最大似然拥有距离有明显的
23、优势或简约性方法,如果目的是为了理解序列进化的过程。似然比测试可以用来检查演化模型的拟合,并测试一些有趣的生物的假说,如分子时钟和达尔文选择影响蛋白质进化。见参考文献22,24,64,65为摘要这样的测试在系统发育。最大似然法的主要缺点是似然度计算和,特别是树搜索可能性准则下的计算苛刻。另一个缺点在于,该方法具有可能不佳的统计特性,如果模型错误识别。这也是真正的贝叶斯分析(表2).贝叶斯方法贝叶斯推理的基础。贝叶斯推理是一般统计推断的方法。它不同于在最大似然模型中的参数被认为是随机变量的统计分布,而在最大似然他们未知固定常数的分析之前,数据时,参数被分配一个先验分布,这是结合的数据(或可能性)
24、来生成后验分布。所有有关的推论参数,然后基于所述后验分布。在过去的二十年中,贝叶斯推理具有得到普及得益于先进的计算方法,特别是马尔可夫链蒙特卡罗算法(MCMC算法)。贝叶斯系统发育。贝叶斯推理介绍在十九世纪九十年代后期分子(fnz)系统学。早期的方法,假设一个分子钟。更高效的MCMC 算法发展这消除了时钟的假设(允许独立在无根树分支长度)和该方案MrBayes的新闻稿中所作的方法分子systematists的欢迎。一个更近在程序BEAST72用途贝叶斯实施所谓宽松的时钟模型来推断根树尽管该模型允许替代率改变跨谱系(表1)。结论(jiln)第六页的图中的。a Correct tree, T1正确
25、(zhngqu)的树b Wrong tree, T2错误的树c The Gnepine tree能力有限未查到d The GneCup tree能力有限未查到然后图里其他的是各种属名,就没翻译。图三。在理论上和实践上的长枝吸引。图a和b依据Felsenstein显示了对四个物种情况的分析。如果正确的树(T1)有两个长分支由一个内部短分支隔开,简约性(以及在简单模型中基于模型的方法如似然法和贝叶斯法)倾向于恢复错误树(T2),两个长分支被组合在一起。图c和d显示出类似的现象用一个真实数据集合。关于种子植物的系统发生。买麻藤目是一个形态学和生态上裸子植物的不同分组,包括三个属(麻黄,买麻藤和千岁兰
26、),但其系统发育位置一直存在争议。最大似然分析叶绿体蛋白质产生GneCup树(d),麻黄目与Cupressophyta分组,显然由于长枝吸引加工。然而,Gnepine树(c),麻黄目连接松科,排除进化最快的。不包括18蛋白质以及三种蛋白质(即psbC rpl2和rps7),推断出经历过许多平行的替换日本柳杉分支和分支之间的祖先是买麻藤目。Gnepine树(c)还支持两种蛋白质的核基因组和看上去是正确的树。分支长度和引导比例都是使用RAxML计算的。有关详细信息,请参阅REF134。正文贝叶斯推理依赖于贝叶斯定理,公式是这样的P(T,)是树T的先验概率和参数,P(D | T,)的可能性或概率鉴于
27、树的数据和参数,P(T,| D)是后验概率。分母P(D)是标准化常数,它的作用是确保P(T,| D)的和依靠树木和集成在一个参数上。定理公式是后与前时间成正比的可能性,或者是吗是之前的信息加上后信息数据信息。一般来说,树的后验概率不能直接计算。特别是,标准化常数(P(D)涉及高维积分所有可能的参数值)在所有可能的树求和。相反,贝叶斯系统发育推断依赖于采样算法从后验分布上来生成一个样本,这是示框2。见第5章介绍采样的REF。24。贝叶斯推理的优点和缺点方法。似然法和贝叶斯方法使用似然函数,从而分享许多统计的属性,如一致性和效率。然而,最大似然法和贝叶斯推理表示反对哲学的统计推断。贝叶斯推理看上去
28、是作为一个优势或劣势相同的特性,取决于一个人的哲学。参见REF24共同的简要描述。在这里我们评论两个问题结果的可解释性和之前信息模型的实用性。首先,众所周知,贝叶斯统计回答生物问题直接和收益结果是容易解释:树的后验概率是,这里树是正确的树。考虑到旁边(pngbin)小字马尔可夫链蒙特卡罗算法(采样算法)。一个(y )蒙卡洛模拟是计算机模拟生物使用随机过程数字。一个采样算法蒙特卡洛模拟算法,生成一个样本的目标分布(通常是一个贝叶斯后验分布)。不同的树重建方法的优点(yudin)和缺点的总结简约的方法 :优点简单而直观的吸引力 唯一的框架,适用于一些数据 (如正弦和LINES)缺点假设是隐式的,并
29、了解甚少 缺乏一个模型使得它几乎不可能把我们的序列进化的知识合并分支长度基本上是低估了的时候 替代率很高 最大简约法可能遭受长期分支的吸引力 距离法 优点:快速的运算速度 只要遗传距离确定了可应用到任何类型的数据可以选择适应的数据计算模型的距离缺点:大多数距离的理论,如相邻数据加入,不考虑距离估计的方差 距离的计算是有问题的,当序列是发散的,涉及到许多对准缺口 负分支长度是没有意义的似然方法 优点:可以使用复杂的替换机型 使生物接近现实 强大的框架来估计参数和进行假设检验缺点:最大似然法涉及大量的计算 拓扑结构不是一个参数,使其难以适用来估计最大似然理论,引导 比例很难解释贝叶斯方法 优点:可
30、以用现实的替代模型,如最大似然法 首先先存概率包含一些信息或专业知识 其次系统树和进化枝的后验概率更容易被解释缺点:Markov chain Monte Carlo(MCMC)中涉及大量的计算 大量数据表明,MCMC收敛和混合问题都很难识别和纠正 首先没有信息的话概率很难确定。对于那些后来的没有知识的研究者们来说,多维的概率可能会产生不当影响 后验概率往往会出现过高的现象 模型的选择会涉及到很多具有挑战性的计算与此相反,像是最大似然法的分析中,类似于置信区间这样的概念有着人为的解释,模糊了很多数据的使用者们。在系统发育中,还不可能确定一棵树的置信区间。尽管付出很多的努力,广泛的利用辅助程序的理
31、论但还是很难解释它。当然老一代人不能完全的否定最大似然法。系统树和进化枝计算时的后存概率往往出现(chxin)的过高。在很多分析中,所有模型的后验概率都达到了100%。系统树的后验概率(gil)很容易改变模型,使用简单的模型可能会导致飞涨的后验概率。系统(xtng)发生理论的数据评定系统发生的推理目的是估计进化树的拓扑结构和它可能的进化枝。存在四种标准用来判断进化树的理论。一致性当能够趋于正确的参数接近无穷时,一个预测的方法就可以说是不矛盾的。当预测的树接向正确的树靠近也就是序列上的位置增加时,一个树的重现方法就是不矛盾的,如果假定的模型是正确的,那么模型方法就是统一的。有一些树在联合中过度节
32、俭,就可能是矛盾的。Felsensteins证明了这一点并促进了更多的热门讨论。效率在一个参数的统计学评估中,一个无偏斜的有小方差的预测比有大方差的更有效率。在一个发展史树中,效率可能用还原一个正确的树的可能性来评估,这可以通过电脑模拟来预测,重现一个数的复杂意味着MLEs的渐进理论可能是不成立的,然而电脑已经发现比过度节俭更高的效率也就是最有可能恢复的正确的树(MCMC)是一个从一棵树(或参数值)到另一棵树的移动的运算法则,从长远来看,参照树木(或参数)的比例进行后验概率。树参数设置 (T,)构成了该算法的状态。在这里,参数may包括: 树的分支长度和参数的演化模型,如过渡/颠换率比。下述方
33、案说明了主要的MCMC算法的特点。 第1步:初始化,随机选择起始树和启动参数(T,)。 第2步:主回路步骤2a。建议把树T.Propose改变成一个新的树,T *,通过改变当前树,如果T*具有比当前树高后验概率, P(T *,| D) P(T,| D),接受新树T*。否则,接受T *的概率为:如果T *是公认的,设定T= T *步骤2b。建议更改参数.Propose新的参数值,*,通过改变当前。这里,为了简单起见,我们假定这些建议是对称的,这样的提议*从equals的概率的概率建议from*。如果P(T,*| D) P(T,| D),接受新的*。否则,接受* 概率:如果新的*被接受时,设定=*
34、。步骤2c。链中的样品。打印(d yn)出来(T,)。注意,第一次的算法不需要归一化常数的计算P(D),因为它消除在提议后比率的步骤(bzhu)2a和2b。第二,从长远来看,一棵树的参数设置如果(rgu)比另一组后验概率高将被更频繁的算法比访问:。的确,算法在任意树上的时间的预期比例正好是它的后验概率: P(T|D因此,通过计数在算法中各树被访问的频率,我们得到后验概率的MCMC的估计。对于树木对值的序列(或链)(T,)由算法产生有这样的可能性,考虑到当前的状态(T,),它移动到新的物业状态的概率不依赖于过去的状态。此无记忆特性被称为马尔可夫特性,其中指出这样的现状,未来不取决于在过去。生成的
35、序列称为马尔可夫链,因为马尔可夫链是由MonteCarlo模拟生成的。鲁棒性。(鲁棒性就是系统的健壮性。它是在异常和危险情况下系统生存的关键)是一种稳健的方法,如果它给正确的答案即使它的假设被违反。一些假设关系比其他的重要。随着序列数据快速增长堆积,抽样误差在建树中显著减小,所以系统错误或稳健性的方法变得更加重要。 计算速度。此属性是容易评估。使用聚类算法邻近的加入到一棵树是非常快的。该方法是搜索下一个最好的标准树,如最大进化,最大简约法和最大似然速度较慢。贝叶斯方法的运算速度取决于链的长度(由MCMC算法产生的),这是高度依赖于数据的。进化的计算可能是昂贵的,最大似然和贝叶斯推理速度通常比最
36、大简约较慢。然而,对于大型数据集在计算算法取得基于似然方法方法进行分析以取得相当大的进步。利用新的算法的优势即多核处理器和图形的计算机处理单元(GPU),正在推动边界更进一步。大数据集系统发生分析随着新的测序技术的出现和完成各种基因组计划的到来,系统发育已进入基因组大规模数据集的时代。在这里,我们就这样大的数据集讨论与分析的几个问题。 超级树和超级矩阵处理。两种方法已被提倡的系统分析数百个基因或蛋白质,特别是当一些位点缺失的一些物种。该supertree方法分别分析了各基因,然后使用启发式算法的集合子树的单个基因组成一个supertree对于所有物种。单独分析对研究在重建子树或患病水平基因转移
37、的区别有用。然而,这是低效估计一个共同的系统发育构成所有基因。在超级矩阵的方法中,序列多基因被连接起来以产生一个数据超矩阵,在其中丢失的数据将被一个询问标记代替,该超级矩阵然后用于重建树。大多数的超级矩阵分析忽略了基因间的进化动力学差异。需要注意的是一个超级矩阵分析,假定不同的进化模型和不同的树和分支长度对于基因是相当于一个单独的或supertree分析。当一个普通的树位于所有基因之下,理想办法应该是一个对所有基因的组合(超级矩阵)分析,利用适应在进化过程中周围基因同源域的可能性。我们的下面的评论涉及到这个组合的方法。缺失数据的影响。很多基因组数据集高度不完全,所以大部分细胞基因矩阵将是空的。
38、虽然,从理论上讲,该似然函数(在最大似然和贝叶斯方法)可以正常容纳丢失数据,这种大规模的缺失数据和排列差异的影响并不很好理解的。模拟显示最大似然和贝叶斯推断总体表现比邻居加入或最大简约处理丢失的数据更好,贝叶斯推理是被发现进行最佳的。相邻接合的低性能可被理解为如果考虑极端情况,排除排列差异后,成对距离的计算从不同集合的基因或位点的,其中一些是快速进化的,而另一些正在慢慢演变。对于(duy)传统(chuntng)的参数估计,我们重视的置信区间,他表明参与(cny)点的不确定性所述参数的估计值。这在分子系统中是不可能的,如概念中的方差,和当施加到树木的置信区间都是没有意义的。对于距离,简约又似然的方法,并且
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 四川省泸县高三三诊模拟语文试卷(含答案)
- 中职班主任选手备赛七部曲汇报人王秀芳讲解
- 职业沟通与礼仪健康管理系施怡宁讲解
- 2025商铺租房的合同范本
- 简单聘用合同范本
- 2025抵押物的借款合同范本「标准版」
- 实习生用人合同协议书
- 2025三方工程合同
- 提高沟通技巧的职业培训方案
- 安防监控工程施工合同范本
- 苏教版六年级数学下册第四单元大单元教学设计
- 北师大版七年级上册数学思维导图全套
- 13《马说》(原卷版)-2023年中考课标文言文20篇专项训练
- 人教版三下劳动项目四《蒸蛋羹》教学设计
- 质量为纲-华为公司质量理念与实践
- 2023徐金桂“徐徐道来”(行政法知识点)版
- 《事故汽车常用零部件修复与更换判别规范》
- JBT 1306-2024 电动单梁起重机(正式版)
- 信息科技重大版 七年级下册 互联网应用与创新 第一单元单元教学设计 互联网创新应用
- 高中政治必刷题 高考真题 必修3《政治与法治》(原卷版)
- 2024年辅警招聘考试试题库含完整答案(各地真题)
评论
0/150
提交评论