全基因组复制文献最终翻译版_第1页
全基因组复制文献最终翻译版_第2页
全基因组复制文献最终翻译版_第3页
全基因组复制文献最终翻译版_第4页
全基因组复制文献最终翻译版_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、种子植物的全基因组复制事件Angiosperms被子植物Polyploidy多倍体Orthogroup纯正群WGD全基因组的复制phylogenomics种系基因组学同义现场发散(KS)Eudicots双子叶植物MLT最大似然树unigene是Universal Gene的英文缩写,意为广泛通用的基因数据库全基因组的复制( WGD ) ,或多倍体,伴随着基因的损失和二倍化,长期以来被认为是动物,真菌和其他生物,尤其是植物一个重要的进化动力。被子植物的成功归功于在某种程度上,与基因或全基因组复制相关的革新,在保存的基因序列的分析中找到了能阐明单子叶植物和双子叶植物分化时间、同时更为古老的基因组复

2、制的证据,但这些证据仍然模棱两可。在这里,我们用测序的植物基因组的全面的系统发育基因组分析和系统发育,基因举足轻重的谱系超过12.6万个新的表达序列标签序列阐明两组古老的基因重复一中现存种子植物的共同祖先和其他在现存被子植物的共同祖先。基因复制事件进行了强烈集中在3.19亿年前和1.92亿年前,暗示在祖先谱系两次全基因组复制在现存种子植物和被子植物分别多样化前不久。显著,这些祖先全基因组复制导致调节基因重要的种子和花发育的多样化,这表明他们参与了重大创新,最终促成种子植物和被子植物的兴起和最终的霸主地位。被子植物是目前陆生植物中最大的群体,拥有超过300,000的生物物种。显著,大多数开花植物

3、谱系反映了一轮或多轮古多倍体。例如,对拟南芥进行的完整基因组序列分析支持了最近的两次全基因组复制(命名为a和b),在这期间,十字花科植物(十字花科)的直系和一个三重事件(c),可能由所有核心双子叶植物共享。毛果杨基因组显示了核心双子叶植物三重证据以及更近的全基因组复制。在单子叶植物(R和S)两个多倍体事件被推定为已经先于谷物和其他草(禾本科)的多元化。一些研究暗示,一个古老的全基因组复制事件比被子植物进化还早。然而,这些古老事件的存在和时间,和他们的长期影响,仍然不明朗。这里我们使用了严格的种系基因组学办法(补充图1;补充方法里的详细信息),以测试单子叶植物和真双子叶植物的分化之前发生的一个或

4、多个古老的基因组复制的假设。由重复的事件映射到系统进化树,我们判断旁系同源物是否在一个给定的物种事件(图1a)之前或之后复制。虽然单个基因可能会丢失一些系统发育,但从很多或者全部的基因家族来同时考虑,一张广阔的蓝图可以绘制。我们使用同种完全测序的基因组(补充表1 ,两个单子叶植物(水稻和高粱)和五个真双子叶植物(拟南芥,番木瓜,毛果,黄瓜和葡萄) )来构建基因科或亚科。当给基因重复和在单子叶植物、双子叶植物分化之前发生的潜在全基因组复制测定年份时一种lycophyte (卷柏moellendorffii )和一种苔藓(小立碗藓)作为外类群(对照组)。总体而言,所有基因组测序中的蛋白质编码基因的

5、77.03 被分成31,433个多基因核心纯正群 。我们定义纯正群是发源于中心类群的有共同祖代单个基因的同源基因簇,并参考纯正群九个测序的基因组为核心纯正群。其中, 7470个核心纯正群包含至少一个单子叶植物,一个双子叶植物,一个卷柏和/或小立碗序列。这些核心纯正群在我们推算单子叶植物双子叶植物分化的复制事件的调查中被用到。我们为每个核心纯正群的指示共享重复的拓扑结构(图1a ,分析I)查询最大似然树( MLTS ) 。我们筛选了基因树(补充方法) ,要求七个核心品种中至少一个保留两个旁系,紧随一个单子叶植物、双子叶植物的共同祖代所推断出来的基因复制事件其后(见补充资料1纯正群的列表) 。例如

6、,纯正群1711(DEADbox RNA解旋酶)的最大似然树(包含在单子叶和真双子叶植物而MLTS为纯正群 2312 (亚精胺合酶)重复基因和纯正群 396 (功能未知)表明,无论是单子叶植物或双子叶植物旁系同源物之一是丢失后单子叶植物和真双子叶植物的分歧(见典范树补充图2a , 3a和4 ) 。在这个保守的标准的基础上,我们发现了大量的核心纯正群与单子叶植物和真双子叶植物(共享重复重复829 799核心纯正群与引导支持( BS)大于或等于50 ; 474重叠在451核心纯正群符合BS=80 ;补充资料2 ) 。的C三重(它可被限制在真双子叶植物)之前发生的这些重复。正如所料,取样双子叶植物谱

7、系中的许多年轻的重复也观察到在这些树上( 1,146 纯正群存活至少一个双子叶宽一式三份( c)条) ,但在本研究中,我们专注于该单子叶植物的分化之前发生的古老的重复和真双子叶植物。和裸子植物(松属,云杉属, Zamia ,柳杉等;补充表2 ),从基部被子植物(补充表2马兜铃,鹅掌楸, Nuphar和Amborella )额外的同系物中加入799芯纯正群以形成扩大纯正群 。这些关键系统发育谱系增加基因采样,并提供更好的分辨率古代重复的时机。由“基本被子植物”我们的意思是开花植物单子叶植物和真双子叶植物分离之前出现的最早分支谱系。在重新估算的扩大纯正群基因树,我们又增加了质量控制步骤,除去短期或

8、高度分散的基因数据库 (从表达序列标签数据集组件中所产生的序列;补充方法) 。过滤后,仍然有540和338 纯正群与基因数据库一起分别从基部被子植物和裸子植物采样。这其中, 322 纯正群含有由基底被子植物和裸子植物(图1b)个单一。对于540纯正群从基部被子植物个基因数据库 ,树木的数量中,我们发现了一个重复祖先被子植物起源之前(图1a ,分析第IIa )大大超过了我们被子植物起源后,确定了共同的重复数(图1a,分析IIb)中。一个重复的推论预先约会基底被子植物(祖先被子植物重复)的多样化是由262 ( BS=80 )的支持或343 ( BS=50 ) 纯正群 ,而只有一个(BS=80 )或

9、五个( BS=50 ) 纯正群支持一个基因复制的推断只是被子植物冠组(图1b ,分析II)的由来之后。我们还发现,只有五个与幸存的重复使用一些共享纯正群 ,但不是全部,采样基础被子植物。虽然基底被子植物是一个档次的(而不是一个分支) ,我们代表他们与图一行。 1A因为重复信号是包括所有基础被子植物。338个纯正群填充裸子植物基因数据库额外的分析鉴定62 (BS=80 )或147 ( BS=50 ),其中包含一个种子植物全基因复制和59 ( BS=80 )树木或110 ( BS=50 )树木以后的复制只能通过共享被子植物(图1b ,分析三)。此外,分析了322 纯正群扩大了与来自基底被子植物和裸

10、子植物直系同源物也检测到了两个古老的共享重复类似的信号: 65 ( BS=80 )或130 ( BS=50 )的树木呈现一个祖先的种子植物的重复(见典范树补充图2b ) ,和54 ( BS=80 )或88 ( BS=50 )树木支撑被子植物的祖先重复(补充图3b和图1b ,分析四)。总之,我们的保守滤波程序确定的799棵有适合有关古代重复的存在假设检验的拓扑结构。这些树提供了两组重复的,一个在所有种子植物的共同祖先的所有被子植物和其他的共同祖先存在压倒性的支持。有几种机制可以解释基因复制的协同模式在基因树透露,包括WGD或多个节段或染色体复制。现有数据的最简约的解释是古WGD 。我们进行分歧时

11、间分析,以进一步研究这一假说。如果拟议的WGDs是真实的,估计日期的独立基因树木基因复制事件预计将是相似的。可选地,如果重复是无关(即,独立的事件的集合)中, 重复次裸子植物和被子植物的起源之间的区间内的均匀分布所预期的祖先被子植物重复或导致种子植物的分支为祖种子植物重复。我们校准的799核心纯正群支持(BS=50 )单子叶植物和真双子叶植物从我的分析分离前古重复和估计的使用程序R8S (补充方法)在774核心纯正群 860节点的分歧时间。然后,我们分析了使用分配的分歧时间估计要由混合模型中指定的类贝叶斯方法的推断重复时间的分布。重复时间的分布是双峰,峰值19262 ( 95 置信区间)和31

12、9.63亿年( MYR)前。日期被集中在两个相对短的时间间隔,这表明这些重复没有均匀分布(图2a) 。此外,我们还分析了古代重复的499节点的435纯正群符合BS=80 (图2b ),并发现了类似的分布模式(两个组成部分: 21064和32164秘耳前) 。然后,我们研究古代重复仅限于在分析三纯正群已被填充了近全长裸子植物基因数据库的年龄分布。其中338 纯正群与推断的绝对年代,有110 (BS=50 ; 59 80 BS )是放置一个重复的被子植物分支从裸子植物发散后。重复次从这些纯正群推断的分布表现为一侧显著峰( 23469或23669秘耳前; 。补充图5A , B) 。现存被子植物中存在

13、的最近的共同祖先一直追溯到130-190秘耳前。因此,所识别的事件的重复现存被子植物的辐射,这与从系统发育分析的结果(图1b ,分析)之前发生。一个额外的分析仅限于那些147 (BS=50)或62 (BS=80) 纯正群(图1b ,分析a)中所包含的种子,植物全重复的基础上的系统发育分析。混合模型分析确定了重复时间的分布只有一个显著组成部分( 34963或34764秘耳前; 。补充图5C ,D ) ,这是年纪比祖节点为现存种子植物( 310秘耳前) 。因此,无论是分子约会和系统发育分析支持另一种古老的全基因组复制所有现存种子植物(图3)共享。的同义位点发散的重复基因和同线性分布的分析也支持这一

14、结论(补充讨论) 。基因重复提供了新颖功能的进化原的遗传物质。 WGD在古代种子植物会产生每一个基因的多个副本,其中一些表型新奇的起源可以有至关重要的作用,并最终在起源和被子植物的迅速多样化。虽然这些保留从祖先WGDs重复基因代表了所有功能类别,有来自几个功能类,包括转移和结合蛋白,转录因子和蛋白激酶(补充图6及补充资料3 )保留重复基因过剩。这些类别显著富含纯正群尚存在分析我所描述的单子叶植物,双子叶植物的重复和纯正群幸存的预被子植物和/或预种子植物中的重复分析三。这些结果与基因保留的以下更近WGDs在拟南芥谱系(参见23和其中的参考文献)模式一致,并WGD在脊椎动物中,支撑的解释,在这里观

15、察到的并发的重复是WGD的产品。总而言之,这些模式表明,对于某些类型的基因复制下面的多倍体要保留的倾向一直是后-WGD二倍化过程中整个植物的进化史的一个共同特点。本来可以到古老的种子植物和被子植物的创新贡献重复基因的一个子集,包括那些在繁殖和花发育的特殊角色。在这项研究中,我们发现参与花发育途径与单子叶植物和真双子叶植物的分化之前至少有一个古老的复制事件(补充表3) 35 纯正群 。例如, 纯正群 361 (含拟南芥光敏色素基因) ,其中包括开花时间和种子发芽监管,保留重复基因下面两个假定WGDs预约会被子植物和种子植物,起源分别与已发布的亲缘关系的光敏色素一致基因家族。其他已发表的基因家族系

16、统发育还建议基因复制的常见模式,暗示在这里看到的全基因组规模的重复。例如, TIR1/AFB已经现存被子植物的多元化经历过的一个古老的重复。锌指同源盒( ZHD )系列, HD -ZIP III基因家族,并MADS- box基因(补充讨论)的系统发育分析表明重复图案与WGDs预先约会被子植物和种子植物的起源是一致的。因此,单个基因或基因家族,这些以前的研究支持我们的结论基于对成千上万个基因的全基因组的调查,并找出一些从这些重复的可能已经在种子植物和被子植物的演化有重要的作用所产生的许多基因。方法综述系统发育分析. 我们使用OrthoMCL方法来建构一套核心纯正群。生成与肌肉所有纯正群氨基酸比对

17、,然后通过除去不良的对准区域使用TRIMAL1.2修整。为核心纯正群(检索到HaMStR)其他单基因排序的序列,在氨基酸水平进入现有9种“全路线(修剪之前)使用CLUSTALX1.8对齐。修整后,将各单基因序列进行检查,并去除其外对准,如果序列中包含小于70的长度对齐。相应的DNA序列,然后被迫到氨基酸对准使用定制的Perl脚本并用于随后的系统发育分析。最大似然分析使用RAXML,7.2.1版,以获得最佳的MLT寻找与GTRGAMMA模型,它代表速度和准确度(RAXML7.0.4手动)之间的可接受的折衷进行。分子约会的分析和95的置信区间。从每个重复得到的2旁系分支的发散时间从最好的最大似然拓

18、扑宽松分子钟通过使用截断牛顿优化算法作为程序R8S实施施加半参数送给似然方法的假设下,估计。平滑参数是由交叉验证来确定。约会约束在方法中描述。该EMMIX软件包,用来拟合多元正态分布或t-分布式组件的混合模型给定的数据集。对于确定EMMIX每个显著成分,然后计算平均日估计的95置信区间。方法检测古WGD事件。几种方法已经被提出并广泛地用于检测基因组复制的签名。基因的基因组中大量同线块的识别提供了有力的证据来支持基因组复制。 WGDs的时序是通过跨物种基因组的比较推断,但广泛的基因组重排和基因损失减少同线块的大小随着时间的推移,模糊识别古前C WGD 。另一种方法是估计的旁系同源基因对,这里同义

19、现场发散(KS)或者非同义现场发散(KA)被用作用于复制事件的年龄的代理的年龄分布。然而,这种方法可以通过基因过度损失,重复对估计上更近的节点浓度, Ks的旧旁系同源物对之间的饱和度和谱系的基因家族,甚至基因中的分子异质性率羞愧。例如,推断在同线块分析的b和c GWDs也不明显了Ks的阴谋拟南芥旁系对。因此,这两种方法提出了挑战,以推断可能发生接近或被子植物起源之前以及古基因组复制。出于这个原因,我们使用种系基因组学分析,以确定单子叶植物和双子叶植物之前发生的古老基因重复,并评估其系统发育的时间和估计的年龄,以确定是否有时间集中基因重复(补充图1 )的。系统发育分析。该OrthoMCL方法被用

20、来构建了一套基于蛋白质的相似图形核心纯正群 。这种方法已被证明能产生比其它方法,这对于本研究中的关键更少的假阳性。如果基因从芯纯正群在中心(误报)外都包括在分析中,核心纯正群可能会不正确地评价为保持古重复。与肌使用默认参数生成所有纯正群氨基酸比对。多序列比对通过除去不良的对准区域使用TRIMAL 1.2与选项 automated1 修整。为核心纯正群(检索到HaMStR )其他单基因排序的序列,在氨基酸水平使用CLUSTALX 1.8对齐到现有的11种“全路线(修剪之前) 。修整后,将各单基因序列进行检查,并去除其外对准,如果序列中包含小于70的取向覆盖。相应的DNA序列,然后被迫到氨基酸对准

21、使用定制的Perl脚本并用于随后的系统发育分析。最大似然分析使用RAXML , 7.2.1版本,调用快速引导( 100次)的分析和寻找最佳的计分MLT与DNA序列进化的一般时间可逆模型与伽玛分布率的异质性中进行(在GTRGAMMA模型,它代表了速度和精度之间的一个可接受的折衷; RAXML 7.0.4手动)在一个单一的程序运行。比对和系统进化树存放在/10.5061/ dryad.8546 ,和Perl脚本可从CWD要求评价基因复制. 通过仔细地解释所有的树木,重复事件被确定在使用小立碗基因根性树种(或卷柏如果没有立碗藓的基因在纯正群)作为外群序列。评估一个特定

22、的重复支持时,三个相关的引导值考虑在内。例如,给定的拓扑结构( M1E1 ) 引导1 , ( M2E2 )引导2 ) 引导3 ) , 引导1和引导2是自举值支撑theM1E1进化枝和M2E2clade ,分别与引导3是自举值支撑大进化枝包括M1E1和M2E2 。置信度为50 ( 或80 )单子叶植物,双子叶植物的重复意味着自举3和自举1和引导2值中的至少一个是大于或等于50 ( or80 ),当基底被子植物和/或裸子植物的基因,再加入引导1和2的引导,评价为节点级联ME1B (图1a) ,而引导3是为节点级联的大分支,包括被子植物范围或种子全厂范围的重复计算。基因树估计可能会受到长枝吸引,特别

23、是稀疏的分类群抽样(即,在基因树上上下文稀疏基因采样)或当有错误指定用于系统发育重建的分子进化的模型,导致拓扑结构的错误结论。例如,在系统发育模式(水稻(Oryza ,杨树)(拟南芥) )的纯正群是用基因复制由单子叶和真双子叶植物的共享,在双方的单子叶植物和双子叶植物的谱系(图1a ,分析Ib)的后续旁系同源物的损失一致。或者,它可能是拟南芥基因是特别发散并因此被置于作为姐姐到稻 - 胡杨对由于长枝吸引。这些替代性的解释之间的区别可以通过增加基因采样来促进分裂长枝。此外,基因重复的推断可能是模糊的,如果所有的类群是通过在给定的基因树中的一个单一的基因表示的(如上面的例子)。有了这些考虑,我们筛

24、选了基因树,要求七个核心品种的至少一个保留了两个旁系按照一个共同的单子叶植物,双子叶植物的祖先推断的基因复制事件。因此,与单子叶植物,双子叶植物的重复最小可能的基因树的一个例子将是(稻属,葡萄属)(葡萄属),卷柏),并在这些条件的基础上,我们取得了各纯正群有或没有古重复,并计算纯正群支持每个假设说明inFig.1a的总数。补充资料2细节刻划为每纯正群每种类型的重复次数。基因组复制的有限混合模型。探索基因组复制事件发生的时间,发散倍推断分布安装在混合模型中包括各种比例数分量分布。该EMMIX软件可以用来适应多元正态分布或t-分布组分的混合物模型给定的数据组(http:/www.maths.uq。

25、edu.au/,GJM/ emmix/ emmix.html)。混合群体进行建模有一至四个元件。 EM算法被重复100次随机的初始值,以及用K均值初始值10倍。被认定利用贝叶斯信息标准的最佳混合模型。分子追溯的分析和95的置信区间。最佳最大似然拓扑芯纯正群或纯正群用于发散时间的分析。两个旁系分支的分化时间是一个松散分子钟的使用截断牛顿优化算法在程序R8S44实施应用半参数惩罚似然法的假设下估计。平滑参数是由交叉验证来确定。我们用我们的估计程序的日期如下: 4亿年的最低年龄和4.5亿年的最高年龄为体育藓的分歧, 400Myr固定约束年龄的S. moellendorffii发散, 309Myr的最

26、低年龄冠组种子植物(这种约束只在使用中报告补充图5的分析) , 1.25亿年的最低年龄为单子叶植物和真双子叶植物的分歧,并1.25亿年最大年龄rosids48的起源。我们需要知道树木对我们同时通过交叉验证的程序,并提供重复节点的年龄估计。推断的分歧时间,然后由EMMIX分析。对于确定EMMIX每个显著成分,然后计算平均值的95置信区间。Ks的计算。旁系同源序列对被确定的全部按全BLASTN搜索最好的倒数匹配。只有蛋白质序列长度超过200个碱基对被用于Ks的计算。由ESTSCAN产生个单一的翻译序列,采用肌3.6对齐。核苷酸序列,然后被迫使用PAL2NAL以适应氨基酸比对。使用在“codeml程

27、序赋值分别”包ofPAML实施的高盛阳最大似然法的简化版本,分别计算Ks(又称DS)值。在Ks频率在0.05内的范围为0,3.0的每个时间间隔的大小作图。基因本体论富集纯正群与古老的重复。纯正群与早期古重复的基因本体(GO)的注释与没有这样的重复,来测试的GO术语富集纯正群进行了比较。拟南芥GO超薄条款下载并分配到纯正群如果直接在纯正群包括拟南芥基因。否则,我们使用搜索的代表INTERPROSCAN53的InterPro域。然后去注释被分配到使用InterPro2GO映射纯正群。随后,所有的GO注释被映射使用“map2slim脚本GO苗条类别。最后,我们评估了在使用agriGO通过Fisher

28、精确检验和Yekutieli(下依赖性的假发现率)多测试调整方法GO超薄条款富集统计学差异。图1 |假设树的拓扑结构和纯正群摘要在单子叶植物和双子叶植物的分割前古老的基因重复是一致的。一,分析I :系统发生树表示保留或损失旁系的三个示例:(a)两个旁系都保留有单子叶植物和真双子叶植物,( b)该旁系之一丢失在单子叶植物中,(c)旁系之一丢失在双子叶植物中。分析II :同源物从基本被子植物加入到核心纯正群来缩短被子植物中古代基因复制的时间(a)基因的复制在被子植物间分享; (b)基因的复制只由单子叶和双子叶植物的共享。分析三:裸子植物的同源物在现存裸子植物和被子植物(b)分化前( a)和/或之后被添加到核心纯正群来放置共享的基因复制。分析四:当我们用自基底被子植物和裸子植物其它同源物来扩展核心纯正群时与由种子植物(a) ,被子植物( b)和单子叶植物、双子叶植物(c)共同参与的基因复制时期相一致的三种不同的拓扑结构。 M,单子叶植物,E ,真双子叶植物,B ,基本的被子植物,G

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论