




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
机器学习揭示了农业和医学中的「重要基因」2021-10-2014:54·\t"/i7021034426318586380/_blank"ScienceAI编辑|萝卜皮能够利用基因组数据来预测机体对营养、毒素和病原体暴露变化的反应,可以为作物改良、疾病预后、流行病学和公共卫生提供信息。纽约大学与台北大学的研究人员合作,应用了一种基于进化的机器学习方法,根据物种内和物种间共享的转录组反应来预测表型;此外,在功能上验证了七种候选转录因子,它们对拟南芥和玉米中的NUE结果具有预测能力;同时,将他们的进化信息管道应用于其他物种,包括水稻和小鼠;该方法可以用于寻找一些关键基因,它们所控制的生理特征可能对生物学、农业、医学产生重大影响。该研究以「Evolutionarilyinformedmachinelearningenhancesthepowerofpredictivegene-to-phenotyperelationships」为题,于2021年9月24日发布在《NatureCommunications》杂志。论文链接:/articles/s41467-021-25893-w从基因组规模的信息中准确预测复杂的表型特征是一个挑战。有几个因素导致了这些挑战。首先,与越来越多的组学数据的可用性相反,从充分代表表型多样性空间的遗传多样性人群中收集高质量的表型数据已成为主要的限制因素。此外,表型数据通常是从与用于获取功能基因组数据的实验不同的实验中收集的。为了克服这些限制,表型分析工作应该扩大并在作为遗传/基因组信息来源的相同材料上进行。组学数据的爆炸式增长意味着从单个实验中收集的特征(例如基因数量)不可避免地超过表型空间(例如样本量),从而导致数据稀疏、多重共线性、多重测试和过度拟合等问题。这可以通过增加样本大小、降维或特征选择方法来抵消,例如主成分分析(PCA)、最小绝对收缩和选择算子(LASSO)正则化、典型相关分析(CCA)等。在机器学习环境中采用了跨物种方法来提高模型到人类知识翻译的性能。图示:进化信息机器学习方法增强了基因与表型关系的预测能力。(来源:论文)在该研究中,研究人员通过使用基于进化的机器学习方法来解决这些挑战,该方法利用物种内和物种间的遗传多样性。在具有实际意义的原理验证研究中,利用氮响应基因的转录组数据来预测氮利用效率(NUE),这是对全球食品安全和可持续性至关重要的农艺结果。氮(N)——植物生长的主要限制性常量营养素——通过施氮肥在农业系统中得到补充。对于玉米等主要中耕作物,植物吸收了不到40%的氮,而超过60%的土壤氮通过反硝化、氨氮挥发、浸出等多种过程流失到大气或水体中。平衡进一步提高作物产量的需要,同时减轻与氮肥相关的环境影响,是可持续农业的挑战。考虑到NUE涉及发育、生理和代谢过程的整合的多基因性质,机器学习是解决这一复杂特征背后机制的有吸引力的策略。为此,研究人员从两个物种——玉米(一种作物)和拟南芥(一种模式生物)——中收集了转录组学和表型NUE数据,每个物种都包括一组具有不同遗传背景和NUE变异的基因型。研究人员使用基因(基因对「N处理」或「N-DEG」的反应,在物种内部和物种之间是保守的),作为机器学习的降维方法。由于玉米和拟南芥在系统发育上高度不同,这些进化上保守的N反应基因应该代表有助于NUE的基本/核心功能。图示:氮是解释拟南芥自然接入中NUE变化的主要因素。(来源:论文)研究表明,与同等数量的排名靠前的N-DEG或随机选择的表达基因相比,使用这些进化上保守的N-DEG构建的模型显着改善了从基因表达值对NUE性状的预测。重要的是,将模式物种拟南芥纳入研究使研究人员能够使用突变体验证该发现。这一实验证据证实,在机器学习模型中,其表达水平对于预测NUE很重要的基因不仅是标记,而且在功能上是性状所必需的。此外,进化机器学习管道可以转移到植物和动物的其他物种和特征。具体而言,将该方法应用于与田间水稻干旱或小鼠模型疾病相关的其他匹配转录组和表型数据集,可以提高学习模型的预测准确性。因此,以进化为依据的机器学习管道,有可能识别对生物学、农业或医学中感兴趣的复杂表型具有重要意义的基因。图示:基因型是解释玉米育种系中NUE变异的主要因素。(来源:论文)详细讨论该团队的工作从全基因组表达数据中预测表型结果。利用进化保守基因表达数据集——物种内和物种间——增强了机器学习模型在预测模型(拟南芥)和作物(玉米)中的NUE表型方面的性能,也适用于已发表的匹配转录组/表型数据集。另一种作物(水稻)和模型动物(小鼠)。研究人员开发的「进化告知三步机器学习管道」,整合了表型特征、转录组谱、遗传变异和环境反应,使研究人员能够:(1)根据物种内和物种间进化上保守的转录组反应预选一个转录本子集,(2)将此保守性用作一种生物学上的方法来降低特征维数以提高机器学习模型的性能,以及(3)快速通过包含模型和作物物种,验证从XGBoost模型和GENIE3基因调控网络中识别出的「重要基因特征」的功能。在过去几年中,机器学习在预测表型方面的实施取得了进展。然而,可用的数据集并不总是:(1)利用生物体的遗传多样性和(2)使用捕获转录组反应的相同样本测量表型。该团队的工作在这两点上都推动了该领域的发展,他们利用了一组具有不同遗传背景的基因型,并从捕获转录组的同一批次植物中测量了表型。整合了遗传多样性、机器学习和跨物种方法来确定对农艺重要性状NUE具有重要意义的基因。研究人员设计了一个足够大但可管理的N处理实验空间,跨越一组约20种基因型,涵盖模型和作物物种中的NUE表型。在此呈现的结果从模型和作物物种中生成了最大的匹配表型和转录组数据集。该数据集包括用于植物群落和18个拟南芥种质的318个玉米基因型的大型NUE表型数据集资源。研究人员利用了18个拟南芥种质和23个玉米基因型的遗传多样性;这些基因型被选为NUE的广泛表型变异,并在相同样本中对它们的转录组学和生理学反应进行评分。重要的是,选定的玉米基因型代表了在适应美国玉米带的综合种质集合中观察到的NUE多样性范围。研究的局限性在于所得出的预测模型不一定会显示基因与性状的因果关系。然而,预测准确性和解释力是破译潜在机制复杂性的两个维度,而不是极端。预测建模预测新的或未来的观察,而解释性建模测试因果解释。预测模型的目的不是解释潜在的机制;「最合理的方法是首先实现准确的预测,然后尝试理解原因」。通过提供准确的预测,预测模型揭示了用于进一步研究因果关系的新基因特征。该研究结果强调了一个事实,即影响NUE的基因参与一系列过程,包括营养反应和吸收(DIV1和NLP5)、花药和花粉发育(NF-YA6和MYB)、幼虫到成虫的转变(MYB)、microRNA介导的生长和反应(NF-YA、MYB和TCP2)、免疫反应(NF-YA6、UNE12、WRKY和WRKY)和光形态发生(TCP2和Zm00001d006835)。这些结果不仅提供了额外的证据支持NUE是一种多基因性状并与多种信号通路交织在一起的观点,而且进一步揭示了这些基因在调节NUE中的新作用。值得注意的是,有NF-Y、NLP和WRKY三个转录因子家族,其成员被丰富为XGBoost模型的基因特征或基于GENIE3的GRN的调节因子:该研究确定了9个拟南芥和一个玉米NF-Y基因作为XGBoost模型的特征,以及12个拟南芥和14个玉米NF-Y基因作为GENIE3NUEGRN中的潜在调节因子。使用拟南芥NF-YA6(AT3G14020)及其玉米同源物NFYA3中的突变体验证了NUE(拟南芥XGBoost模型中的顶级基因)中NF-YA6的功能。在几乎所有真核生物中发现的NF-Y家族编码进化上保守的三聚体转录因子复合物的成分。在人类中,NF-Y与在乳腺癌、结肠癌、甲状腺癌和前列腺癌中过度表达的大量基因的启动子中的CCAAT盒结合。在植物中,NF-Y在开花时间、早期种子发育、结瘤、激素信号传导和应激反应中的调节作用已被揭示。NF-Ys作为一种多聚体蛋白复合物(NF-YA/B/C(-CO/bZIP/bHLH)结合其规范基序CCAAT和/或其伙伴TFs的基序。人们很容易假设灵活的顺式结合能力使NF-Ys多功能和上下文相关的TFs可以快速适应营养波动。值得注意的是,几个NF-Y基因被miR169靶向和下调,miR169成员对N-饥饿做出转录反应。因此,我们的数据支持N信号、NF-Y的N响应中的miRNA变化与NUE的表型输出之间的新联系:氮→miR169→NF-Y→NUE。研究人员确定了六个拟南芥和两个玉米NLP基因作为XGBoost模型中预测NUE的特征,以及五个拟南芥和14个NLP基因作为GENIE3NUEGRN中的潜在调节因子。此外,使用突变体验证了NLP5(玉米XGBoost模型和玉米NUEGRN中的顶级基因特征)作为NUE负调节因子的作用,特别是在低氮条件下。NLP是植物特异性TF,与核心共生基因Nin相关,后来被确定为拟南芥中硝酸盐信号传导的主要调节因子。新出现的证据表明,它们对N调节基因表达和发育过程的贡献在植物物种中很常见。功能验证实验结果表明,NLP5在N耗尽条件下是NUE的负调节因子,这可以解释为NLP5是N-的主调节因子NIGT1/HRS1的靶标。因此,拟南芥突变体中NLP5的缺失可以去抑制N-饥饿反应,导致更高的NUE。确定了六个拟南芥和六个玉米WRKY基因作为XGBoost模型的特征,以及24个拟南芥和11个WRKY基因作为GENIE3NUEGRN中的调节因子。其中,WRKY38和WRKY50是拟南芥NUEGRN中排名靠前的TFhub。使用拟南芥突变体的功能分析验证了WRKY38和WRKY50在介导NUE中的作用。WRKYs主要存在于植物中,是最大的转录因子家族之一。越来越多的证据表明,WRKYs在植物发育过程(胚胎发生、发芽、衰老等)以及对生物和非生物胁迫(包括防御、盐、干旱、营养缺乏等)的反应中具有重要的生物学功能。除了已知它们在防御反应中的功能外,研究人员发现它们在调节NUE方面也发挥着作用,并使它们成为协调植物对
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 人工费劳务合同
- 摄影师协议书摄影签约合同
- 客栈租赁合同协议书
- 物业管理小区设施采购合同
- 茶艺师练习试题附答案
- 学校商业转让合同范本
- ppp市政项目合同范本
- 供货期限合同范本
- 大楼租赁合同范本简单
- 青蟹供货合同范本
- 【课件】文明的瑰宝(艺术色彩)课件高中美术人教版(2019)选择性必修1+绘画
- 史丹利行业分析
- H3C全系列产品visio图标库
- 恩赐测试完整版本
- “科学与文化论著研习”任务群教学:以《改造我们的学习》为例
- canva可画行业分析
- 《安徽大学简介》课件
- 《神经介入治疗》课件
- 护士如何应对患者和家属的抱怨和不满
- 电动汽车底盘的维护与保养
- 2023年河南省普通高校专升本公共英语真题(试卷+答案)
评论
0/150
提交评论