版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
宏基因组中短底列的注释是理解测序微生物群落潜在功能的重要步骤之一。单纯利用局部匹配的注释容易混淆那些蛋白同源性且局部序列非常相似的序列,进而不能真实准确反映复杂蛋白质家族中多变的结构和功能域。今天我们介绍一种新方法MetaGeneHunt,该方法可以识别特定的蛋白质结构域,并根据结构域的长度对hit-counts进行标准化。使用MetaGeneHunt对MG-RAST对公开获取的宏基因组进行分析,包括哺孚⑻物微生物群和TwinGut肠道菌群研究,以评估短序列中含GH蛋白的频率和位于GH区域的匹配频率。在对糖苗水解酶(GHs)的研究,发现在所有样本中4726,023条含有GH区域蛋白匹配的短读序列中,有58.3%的廂列位于目标区域之外。接下来,在比较样本之前,将匹配到目标区域的hit-counts标准化,以说明对应的域长度。肠道和盲肠中的菌群显示出与不同微生物组合相匹配的GH谱特征。相反,胃和结肠的菌群在结构和功能上显示出更多样性和多变性。在样本中,尽管有波动,但碳水化合物处理的潜在功能变化与群落组成的变化相关。这表示,在利用MG-RAST平台处理宏基因组测廂寤列时,MetaGeneHunt是一种能快速准确地识别短序列宏基因组中离散蛋白结构试的新方法。在过去的几十年里,宏基因组DNA的高通量测序已经产生了大量的廂列,这些序列的特征为我们了解微生物群落的结构和功能提供了许多认知。例如,截至2019年12月,MG-RAST托管了约40万个可公开访问的带注释的数据集。在数据处理过程中,不考虑目标区域(或蛋白质)的长度会导致两个主要的系统偏差。首先,目标区城越长,他们的频率就越容易被高估。其次,如果数据处理涉及稀疏性较短的、不太丰富的域,尽管重要,也可能被丟弃。为了解决r这些问题,研究人员设计了MetaGeneHunt来精确注释从MG-RAST检索到的短序列宏基因组中的蛋白质结构域。MetaGeneHunt将MG-RAST提供的短陰列局部比对与M5nr数据库中精确的基于PFam的蛋白质结构域识别相结合,以在公共可访问数据集中识别蛋白质结构域。方法MetaGeneHunt简要说明:MetaGeneHunt的设计基于MG-RAST平台注释的数据集的。在使用GeneHunt创建的M5nr数据库中,MetaGeneHunt使用了糖昔水解酶和辅助结构域(如CBMs)的精确的特定结构懺注释(PFam)作为参考注释表(RAT)。首先,MetaGeneHunt使用MG-RAST应用程序接□从MG-RAST("330"和"650〃文件)检索M5n「注释的宏基因组。接下来,使用来自RAT的注释命中的MD5id,在文件窗中识别与潜在的GHs匹配的序列。接下来,对于这些局部匹配”将精确对齐位置与RAT中特定于域的注释进行比较。如果查询中的〉20AAS与特定的蛋白质结构域(考虑到RAT中的HMM・envelope位置)对齐,则该结构域注释被转移到查询中。
相反,如果查询的〉20AAS匹配在目标区域之外(例如,在连接域、辅助域、信号肽中),则该注释被认为是否定的。用户可以随意修改重叠(overlapping)的阈值。接下来,从序列聚集文件("330〃文件)中检索每个识别出的命中的实际序列计数。最后,在后续的数据处理和标准化过程中,根据Pfam数据库中蛋白质结构域的大小,对每个蛋白质结构域的命中计数进行标准化。方法验证:文中使用的原始数据和预处理数据可在MG-RAST服务器上公开访问。在mgp20861项目中可获得对应于555百万个100bp序列的小鼠微生物组数据。使用MG-RASTAPI检索了哺孚⑻物微生物组数据(nigpll6)和双肠肠道菌群硏究(mgpIO)其他数据集。哺乳动物微生物组研究糖苗水解酶(GHs)和相关酶的附加注释表是从BrianMuegge(直接对应)获得的。使用MG-RASTAPI检索了预处理的数据,包括从门到属水平的读物分类注释。数据分析和统计使用R统计语言。主要结果糖莒水解酶的识别识别蛋白质结构域并考虑其长度产生了一个健壮的功能注释系统,对hit-count的标准化反应了目标区域的实际分布。Gonus(Phylum)Gonus(Phylum)bbNormalizedHitCountDomainLength<AAs)Gaia:Qwgpe.CGHb«O■8006004002001QK(OGeajOcPOU.WUHV40■GH1GH®Gh«勺■課2」二-M?fsm2f:SM3MS■-w-HMM8F:lM5MLI!■III^UlMj如MIM2F:lM5MIM6MIMM5MCMSL33(Rawflcount)GH125DomainLength<AAs)Gaia:Qwgpe.CGHb«O■8006004002001QK(OGeajOcPOU.WUHV40■GH1GH®Gh«勺■課2」二-M?fsm2f:SM3MS■-w-HMM8F:lM5MLI!■III^UlMj如MIM2F:lM5MIM6MIMM5MCMSL33(Rawflcount)GH125■■■FFiSM8F:C■M3MCM6-MCyro-3dE”vsMT-0•■5罚询L-'r纟FoCoLmnZ-SarcGH43-GH13-GH88-GH29-GH3C-GH130-GH3-GH28-GH2N・GH31-GH5-GH2C・gheizGH27GH5)?GH5:GH2Q-GM25・GH35-Glillir-fTs-AGH10R*GHW*GH78-GH106-t:H:汩7*GH94¥GH2G*CBM4/9GH42GH4GH4CGH42MG粼GH63GH42CCBM48GH24GH66GH395000a10000aSex•Female▲MaleLocationCecum•IntestineEColona)•横轴为目标区域的原始hit-count,纵轴为标准化后的hit-count,图中的颜色阶梯表示目标区域的长度。这种标准化主要影响长度短的域(例如,GH78、GH25)、小的亚域(例如,GH31N、GH36C)和目标区域的附属域(例如,CMB5J2)Ob)•小鼠胃肠道中目标区域的标准化后的hit-count(仅显示大于100的hit-count的区域),可见,标准化后的hit-count与结构域长度无关(附加文件中有对两者做相关分析,结果分别为P.pearson=0.38,P.spearman二0.33)
c)・热图显示了小鼠胃肠道中最受样本来源影响的被稀疏标准化的GH区域的分布(two-way方差分析)。纵轴的注释列Mx:F/M:S/l/C/L分别表示小鼠(样本号)雌性/雄性:胃/肠/盲肠/结肠小鼠肠道菌群的结构,与盲肠中的微生物群落相比,结肠与肠道中的微生物群落结构更相似結肠和胃中的微生物群落有较高的相似性。0—03*02^丄r(J1■0.0-宀C宀厂宀宀iL—sO£ULLlSSu.sco电白亦Jr)<iofdicSjC\JrdSS0—03*02^丄r(J1■0.0-宀C宀厂宀宀iL—sO£ULLlSSu.sco电白亦Jr)<iofdicSjC\JrdSS2乏3ZSS5<r-Biftdobactenum(MDS2=0.23)Akkermansia(V)Alistipes(B)Bacillus(F)Bacteroides(B)Bifidjbaderium(A)Blautia(F)Bryantella(F)ButyrMbno(F)Clostridium(F)Doroa(F)Eubacterium(F)HokJemama(F)Lactobacillus(F)Pa阳bacteroides(B)Porphyromonas(B)Prevotella(B)Roseburia(F)Ruminococcus(F)Turidbacter(F)PhyljnnTuridbacter(MDS2=0.35AActinobactoriaLactobacillusHoldemania.PrevoteilaEwcteroidAs..AhshpesProteoOactoriaVorruoomicrobaBacterodetesFlrrhculesEubaaenum.-ClostridiumRuminococcusBlautiaIDoreaRoseburAKButyrivibrioParabacteroidesPorphyromonasStomachIntestneCecum4342刚MDS1M3祸樓恥Akkermansia...a)•对受样本来源影响较大的样本根据属水平进行样本聚类(Bray-Curtis距离指数,completelinkage)。b)•样本间的微生物群落组成,只展示了相对丰度至少占群落中1%的属水平物种(V:疣微菌门,B:拟杆菌门,A:放线菌门,F:厚壁菌门)。
.NMDS分析(2Dstress=0.020),展示了在样本聚类中都存在的这些菌属,在b)中的主要类群用标签指示,不同门水平按颜色区分,点的大小反映该属在样本中的最大频率。微生物组中的结构■功能关系,多样性仍然与潜在功能高度相关。胃和盲肠的群落在结构和功能上是最多样化的。其次,肠道中的群落组成和功能大多是保守的,而与保守的微生物群落相关20的大肠则显示出可变功能潜力。/COAO*0AO*(eeEMo-Aem閹△」eEMo-Aem閹△0.05-山口□口0Stomach(九5=082PpyVO01)△Intestine(RPoafSor=0.73.Pp^<0.001)®CeCUm(Rpearscn=0'89,P'<0'001)0.00-0.10.2□Colon(Rpag=0.56.PMicrobialCommunityStructurePMrscn<0.01)0.0(PairwiseBray-CurtisDissimilarity)0.30.00-0.10.2□Colon(Rpag=0.56.PMicrobialCommunityStructurePMrscn<0.01)0.0(PairwiseBray-CurtisDissimilarity)0.3对同一位置的样本的微生物群落结构和功能差异进行成对比较(Bray-Curtis),线条为线性回归的结果。在胃,肠,盲肠和结肠中,属水平群落结构的变化与多糖解构功能的相关性分析结果表示除大肠外,其余的P・pearson的值都在0.001以下。胃和盲肠的群落在结构和功能上是最多样化的,尽管多样性仍然与功能潜力高度相关。其次,肠道中的群落组成和功能大多是保守的,而与保守的微生物群落相关的大肠则显示出可变的功能潜力。MetaGeneHune提供了一种新的方法来识别短序列宏基因组中的GHs及其相关结构域。识别结构域而不是蛋白质是至关重要的,因为GH结构域与许多可变结构域相关。这种新方法基于GeneHunt注释方法,并对其进行补充,旨在分析MG-RAST中的短序列宏
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年式通勤车租赁合同
- 《动态奖惩机制下装配式建筑质量链参与主体演化博弈研究》
- 《旋后肌综合征“三线定位法”诊断意义及临床应用研究》
- 《渐进式膈肌锻炼对肺癌围手术期患者肺康复效果的影响》
- 《miR-219a-5p在人骨髓间充质干细胞成骨分化中的作用及机制研究》
- 2024年那曲公交车从业资格证考试题库
- 2024年阿坝小型客运从业资格证考试题答案
- 2024年贵港道路旅客运输驾驶员继续教育试题
- 2024年度物流运输合同:物流公司与托运人就货物运输、保险等事项
- 2024年齐齐哈尔道路运输从业资格证考试
- 脑卒中基本知识课件
- 高效沟通与管理技能提升课件
- 消防维保方案 (详细完整版)
- 四年级上册英语课件- M3U1 In the school (Period 3 ) 上海牛津版试用版(共15张PPT)
- 档案馆建设标准
- 高边坡支护专家论证方案(附有大量的图件)
- 苏教版五年级上册数学试题-第一、二单元 测试卷【含答案】
- 人员定位矿用井口唯一性检测系统
- 电力系统数据标记语言E语言格式规范CIME
- 历史纪年与历史年代的计算方法
- 快递物流运输公司 国际文件样本 形式发票样本
评论
0/150
提交评论