




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
一、项目信 二、实验流 流程图 流程简 三、生信分析流 分析流 分析内 四、序列统计与质 原始序列统 数据质量控 五、序列拼接与预 拼接组 5.2预 六、非冗余集构 6.1序列聚 6.2丰度计 七、物种与功能注 物种分类学注 COG功能注 KEGG功能注 碳水化合物活性酶注 抗生素抗性注 八、物种与功能组成分 多样本比较Venn 物种与功能Heatmap 九、样本比较分 PCA主成分分 样本层次聚类 十、物种与功能差异分 组间LEfSe差异判别分 备省市洪山区狮子山街1邮邮谢邮邮 二、实验流器:CovarisM220试剂:TruSeq™DNASamplePrepKit桥式桥试剂:HiSeq3000/4000PEClusterKitIllumina 试剂:HiSeq3000/4000SBSKits备勾√√√√√√√√√√√样本≥2≤样本(组)√Heatmap样本≥√2≤样本(组)样本≥样本≥√样本≥样本≥样本≥√分组2,每组样本分组2,每组样本大组2,每大组的亚组3,每亚组样本3,共计样本≥18样本≥分组2,每组样本分组2,每组样本3,建议分组√样本(组)样本(组)分组2,每组样本样本(组)相关性Heatmap样本3,需提供环境因子样本3,需提供环境因子ManTest分数值型矩阵PartialManTest分数值型矩阵样本≥相关性Network:样本3;其他Network:2≤样本≤5分组2,样本ROC样本≥样本≥样本≥样本≥九、进化分十、基于物种和功能注四、序列统计与质在实验中采用了多个样品平行混合,各样品中的序列均引入了一段标示其样本来源信息的Index标签序列。根据Index序列区分各个样品的数据,提取出的数据以fastq格式保存。MP或PE文库的数据结果中,每个样品有fq1和fq2两个文件,里面为两端的reads,并且reads的顺序是严格一致、相互对应的。FASTQ是Solexa技术中一种生物序列和对应质量值的文本格式。每条read包含4行信息,其中第 Table4-1StatisticsofrawReadRawRaw注:Sample:样品名称;Insertsize:插入片段长度;Readlengthread的序列长度;Rawreads:rawreadsreads的碱基质量(Scale:42=Highest,-15=Lowest),图中垂直紫线“Ⅰ”指定的范围是所有reads碱基质量的分布区间,紫色垂直方块是质量的四分位值范围,加黑粗线是质量值的中位数。Hiseq是双端,随着的进行,酶的活性会逐步下降,因此到达一定长度后,碱基质量值也会随之下降。图中当中位值均在Q20以上,则该文库碱基质量良好。注:横坐标是reads碱基坐标,纵坐标是所有reads的A、C、G、T、N碱基分别占的百分比。在文库较均匀随使用软件 使用软件Sickle( 含N碱基的reads,保留高质量的pair-endreads和single-endreads; )将reads比对宿主DNA序列,并去除比对相似性高的污染reads。Table4-2StatisticsofcleanCleanCleanPercentinrawPercentinrawSample:样品名称;Cleanreads:cleanreads的序列条数;Cleanbases:cleanreads的总序列长度;Percentinrawreads:cleanreads占rawreads的百分比;Percentinrawbases:cleanbases占rawbases的百分比。使用基于De-Brujingraph原理的拼接软件SOAPdenovo( /,Version1.06)对优化序列进行拼接组装[2],根据kmer间的(overlap)关系,构建De-Brujingraphs,获得contigs;把readsmap到contigreads之间的双端(pair-end)contigsscaffolds。拼接主要参数k-mer值设范39-47scaffolds内部gapscaffolds打断成新的contigs500bp的contigs进行统计,结果:ContigsbasesN50N90MaxMin注:Sample:样品名称;Contigs:contigs的序列条数;Contigsbases:contigs的总序列长度;N50(N90):将各contigs序列按长度大小排序,从大至小逐一扫描各条序列的长度值,进行累加,当该累加值第一次超过所有更能准确表示此次的序列拼接效果。Max:最长contig的序列长度。Min:最短contig的序列长度。5.2预使用MetaGene( )对拼接结果中的contig进行ORF预测[3]选择核酸长度大于等于100bp的,并将其翻译为氨基酸序列。 TotallengthAveragelengthMaxMin平均序列长度;Max:最长ORF的序列长度;Min:最短ORF六、非冗余集构6.1序列聚的整体信息[4]。将所有样品预测出来的序列,用CD-HIT软件( 行聚类(参数为:95%identity、90%coverage)[5],每个类取最长的作为代表序列,构建非冗余集。 Table6-1StatisticsofgeneAverageCatalogCatalogtotalCatalogaverage注:Genes:去冗余前所有样品数;Totallength:去冗余前所有样品的总序列长度;Averagelength:去冗余前所有样品的平均序列长度;Cataloggenes:非冗余集数;Catalogtotallength:非冗余集的总序列长度;Catalogaveragelength:非冗余集的平均序列长度。6.2丰度计使用SOAPaligner软件( /)[2],分别将每个样品的高质量reads与非冗余集进行比对(95%identity),统计在对应样品中的丰度信息。 Table6-2Gene使用BLASTP[6](BLASTVersion2.2.28+, ncbi.nlm.nih./Blast.cgi)将集与NR数据库进行比对(BLAST比对参数设置期望值e-value为1e-5),并通过NR库对应的分类学信息数据库获得物种注释,然丰度,从而构建相应分类学水平上的丰度谱(abundanceprofile)。NR数据库:非冗余蛋白质的氨基酸序列数据库,包含了SwissProt、PIR(ProteinInformationResource)、PRF(ProteinResearchFoundation)、PDB(ProteinDataBank)蛋白质数据库非冗余的数据以及从GenBank和RefSeq的CDS数据翻译来的蛋白质数据。结果:st错配数;Gaps:gap数;Querystart:查询序列比对起始点;Queryend:查询序列比对终止点;Subjectstart:目标序列比对起始点;Subjectend:目标序列比对终止点;E-value:比对期望值;Bitscore:比对得分。 Fig.7-1-1Microbialcommunity5%的物种合并为others在图中显示;在门水平上,默认将所有样本中丰度均低于1%的物种合并为others在图中显示。5%的物种合并为others在图中显示;在门水平上,默认将所有样本中丰度均低于1%的物种合并为others在图中显示。使用BLASTP(BLASTVersion2.2.28+, )将集序列与eggNOG数据库[7,8]进行比对(BLAST比对参数设置期望值e-value为1e-5),获得对应的COG(Clustersoforthologousgroupsofproteins,直系同源序列聚类),然后使用COG对应的丰度总和计算该COG的丰度。EggNOG(evolutionarygenealogyofgenes:Non-supervisedOrthologousGroups, 的功能注释。目前该数据库(v4.0)包含170万个直系同源类群,覆盖了3686个物种,给定了107个不同的分 st错配数;Gaps:gap数;Querystart:查询序列比对起始点;Queryend:查询序列比对终止点;Subjectstart:目标序列比对起始点;Subjectend:目标序列比对终止点;E-value:比对期望值;Bitscore:比对得分。eggNOG.anno.xls:每条的eggNOG功能注释信息表Sequence:序列名称;NOG:注释到的NOG编号;Function:NOG编号所对应的功能代码;FunctionARNAprocessingandBCEnergyproductionandcog.box.pdf:COG功能分类与COGFig.7-2-1Boxplotsoffunction注:上图横坐标为COGCOGCOG功能单样本使用BLASTP(BLASTVersion2.2.28+,nlmnih. /Blast.cgi)将集序列与KEGG的基OrthologyBasedAnnotationSystem, /home.do)进行功能注释[9]。使用KO、Pathway、EC、Module对应的丰度总和计算该功能类别的丰度。KEGG数据库[10](KyotoEncyclopediaofGenesandGenomes,)是系统分功能,联系组信息和功能信息的大型知识库。KEGGGENES数据库提供关于在组计划中发现的和蛋白质的序列信息;KEGGPATHWAY数据库包括各种代谢通路、合成通路、膜转运、信号传递、细胞周期以及疾病相关通路等。此外还收集了各种化学分子、酶以及酶促反应等相关信息。KEGGModule数据库是KEGG收集的一系列的功能单元,用于组注释和生物学解释。KEGGOrthology(KO)系统通过把分子网络的相关信 gene.kegg.blastM8.xls:Blastm8格式的KEGGTable7-3-1ResultsofblastagainstQuerySubjectIdentityAlignlengthMismatchesGapsQuerystartQueryendSubjectstartSubjectendE-valueBit错配数;Gaps:gap数;Querystart:查询序列比对起始点;Queryend:查询序列比对终止点;Subjectstart:目标序列比对起始点;Subjectend:目标序列比对终止点;E-value:比对期望值;Bitscore:比对得分。Query:序列名称;Gene:序列注释到的KEGG数据库中的编号;KO:序列注释到的KO编KO对应的Module编号;Hyperlink:KO的网页。(该表格中若出现连接符“-”,表示数据库中没有此注释Pathway的描述信息,Pathwaymap各列是各个样品的Pathway的图形。KEGG.eachPfile.xls中的Pathwaymap各列是各个样品的Pathway的图形,在有网络的条件下,点(KO)分类体系(序列高度相似,并在同一条通有相似功能的蛋白质被归为一组KO),而白色背景KO分类体系之列;圆形节点表示化合物(即底物或产物);白色背景圆角长方形表示与本通路相关参见:html。图中红色边框表示能被本次的所注释到。第一列是Module编号,倒数第一列是Module的描述信息,其它各列的数值为Module第一列是Enzyme编号,倒数第一列是Enzyme的描述信息,其它各列的数值为Enzyme碳水化合物活性酶(Carbohydrate-activeenzymes,CAZyme)对地球上所有碳水化合物的合成、降解与修饰起重要作用,因此深入研究CAZyme,对于了解微生物碳水化合物的代谢机制非常重要。分成糖苷水解酶(GlycosideHydrolases,GHs),糖基转移酶(GlycosylTransferases,GTs),多糖裂合酶(PolysaccharideLyasesPLs),碳水化合物酯酶(CarbohydrateEsterasesCEs),碳水化合物结合模块(Carbohydrate-BindingModules,CBMs),辅助氧化还原酶(AuxiliaryActivities,AAs)等六大类蛋白质。使用CAZy数据库的对应工具 )将集与CAZy数据V5.0进行比对,比对参数设置期望值e-value为1e-5,获得对应的碳水化合物活性酶注释信息,然后使用碳 Table7-4-1CAZyPolysaccharideLyasesCarbohydrateEsterasesCarbohydrate−BindingModulesFig.7-4CAZy 河流等)细菌抗药性及其抗性谱、作用机制、本体论、COG和CDD等注释信息,为研究药物作用、环境治理提供研究依据。当前,ARDB包括了13,293个、377种类型、257种抗生素、632个组、933个物种和124个属的抗性信息。使用BLASTP(BLASTVersion2.2.28+, ncbi.nlm.nih./Blast.cgi)将集与ARDB数据库进行比对,比对参数设置期望值e-value为1e-5,获得对应的抗生素抗性功能注释信息,然后使用抗生素抗性 TypeClass 名称;Class:Type所属的上一级分类;Classdescription:Class的描述信息。Table7-5-2Type第一列是type名称,之后各列的数值为type在各个样品中的丰度值。第一列是class名称,之后各列的数值为class在各个样品中的丰度值。Fig.7-5Fig.7-5ARtype多样本比较Venn软件:R语言工具统计和作图。 tax/:对应于物种的结果;eggNOG/COG的结果;kegg/KEGG的结果;gene/Fig.8-2Venn注:不同的颜色代表不同的样本,如果两个不同颜色圆圈的区域标注有数字100,说明这两个样本共有物种(或功能)为100个。图中的样本数量一般为2~5个。深浅表示出来。对数据进行物种、功能或样本间丰度相似性聚类,将聚类后数据表示在heatmap图上,可将相似性和差异性。Heatmap图可以对不同样品在物种、、COG和KEGG代谢功能等层次上进行聚类分析。软件及算法:R语言vegan包。 heatmap_*.pdf:heatmapPCA(PrincipalComponentysis)主成分分析,是一种对数据进行简化的分析方法,主成分分析可以有效的找出数据中最“主要”的元素和结构,通过分析不同样品物种、、COG和KEGG代谢功能等组分,运用特征值分解方法,将多组数据的差异反映在二维主成分图上。样品组成越相似,在PCA图
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 母猪分娩操作流程
- 2024年度宁夏回族自治区护师类之儿科护理主管护师考前冲刺模拟试卷A卷含答案
- 《2025租赁工业生产设备合同》
- 2025陶瓷砖铺贴合同
- 2025中外合作经营企业建设生产基地合同范本
- 2025年全国大学生网络安全知识竞赛题库与答案(共50题)
- 2025年全国大学生环保知识竞答题库及答案(共130题)
- 2025会议的服务合同范本
- 2025年江西吉安市七叶荆文化旅游有限公司招聘笔试参考题库附带答案详解
- 2025超市雇佣合同范本
- 化工行业保安工作计划
- 【MOOC】计算机控制系统-东北大学 中国大学慕课MOOC答案
- 广州市南沙区房屋租赁合同
- 24年国开建筑工程估价实训报告
- DB11T 2103.1-2023 社会单位和重点场所消防安全管理规范 第1部分:通则
- 人教版八年级上册生物全册教案(完整版)教学设计含教学反思
- 《经济法学》(第三版)电子教案
- 大学数学《概率论与数理统计》说课稿
- 投资资金合同协议书
- 股权转让确认函
- 徐州2024年江苏徐州睢宁县招聘教师306人笔试历年典型考题及考点附答案解析
评论
0/150
提交评论