mj-基因组分析8个样品

上传人：汤*** IP属地：北京上传时间：2022-12-24 格式：DOCX 页数：38 大小：3.06MB 积分：12 举报 版权申诉

免费预览已结束，剩余33页可下载查看

 下载本文档

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

一、项目信二、实验流流程图流程简三、生信分析流分析流分析内四、序列统计与质原始序列统数据质量控五、序列拼接与预拼接组 5.2预六、非冗余集构 6.1序列聚 6.2丰度计七、物种与功能注物种分类学注 COG功能注 KEGG功能注碳水化合物活性酶注抗生素抗性注八、物种与功能组成分多样本比较Venn 物种与功能Heatmap 九、样本比较分 PCA主成分分样本层次聚类十、物种与功能差异分组间LEfSe差异判别分备省市洪山区狮子山街1邮邮谢邮邮二、实验流器：CovarisM220试剂：TruSeq™DNASamplePrepKit桥式桥试剂：HiSeq3000/4000PEClusterKitIllumina 试剂：HiSeq3000/4000SBSKits备勾√√√√√√√√√√√样本≥2≤样本（组）√Heatmap样本≥√2≤样本（组）样本≥样本≥√样本≥样本≥样本≥√分组2，每组样本分组2，每组样本大组2，每大组的亚组3，每亚组样本3，共计样本≥18样本≥分组2，每组样本分组2，每组样本3，建议分组√样本（组）样本（组）分组2，每组样本样本（组）相关性Heatmap样本3，需提供环境因子样本3，需提供环境因子ManTest分数值型矩阵PartialManTest分数值型矩阵样本≥相关性Network：样本3；其他Network：2≤样本≤5分组2，样本ROC样本≥样本≥样本≥样本≥九、进化分十、基于物种和功能注四、序列统计与质在实验中采用了多个样品平行混合，各样品中的序列均引入了一段标示其样本来源信息的Index标签序列。根据Index序列区分各个样品的数据，提取出的数据以fastq格式保存。MP或PE文库的数据结果中，每个样品有fq1和fq2两个文件，里面为两端的reads，并且reads的顺序是严格一致、相互对应的。FASTQ是Solexa技术中一种生物序列和对应质量值的文本格式。每条read包含4行信息，其中第 Table4-1StatisticsofrawReadRawRaw注：Sample：样品名称；Insertsize：插入片段长度；Readlengthread的序列长度；Rawreads：rawreadsreads的碱基质量（Scale：42=Highest，-15=Lowest），图中垂直紫线“Ⅰ”指定的范围是所有reads碱基质量的分布区间，紫色垂直方块是质量的四分位值范围，加黑粗线是质量值的中位数。Hiseq是双端，随着的进行，酶的活性会逐步下降，因此到达一定长度后，碱基质量值也会随之下降。图中当中位值均在Q20以上，则该文库碱基质量良好。注：横坐标是reads碱基坐标，纵坐标是所有reads的A、C、G、T、N碱基分别占的百分比。在文库较均匀随使用软件使用软件Sickle（含N碱基的reads，保留高质量的pair-endreads和single-endreads； )将reads比对宿主DNA序列，并去除比对相似性高的污染reads。Table4-2StatisticsofcleanCleanCleanPercentinrawPercentinrawSample：样品名称；Cleanreads：cleanreads的序列条数；Cleanbases：cleanreads的总序列长度；Percentinrawreads：cleanreads占rawreads的百分比；Percentinrawbases：cleanbases占rawbases的百分比。使用基于De-Brujingraph原理的拼接软件SOAPdenovo（ /，Version1.06）对优化序列进行拼接组装[2]，根据kmer间的（overlap）关系，构建De-Brujingraphs，获得contigs；把readsmap到contigreads之间的双端（pair-end）contigsscaffolds。拼接主要参数k-mer值设范39-47scaffolds内部gapscaffolds打断成新的contigs500bp的contigs进行统计，结果：ContigsbasesN50N90MaxMin注：Sample：样品名称；Contigs：contigs的序列条数；Contigsbases：contigs的总序列长度；N50（N90）：将各contigs序列按长度大小排序，从大至小逐一扫描各条序列的长度值，进行累加，当该累加值第一次超过所有更能准确表示此次的序列拼接效果。Max：最长contig的序列长度。Min：最短contig的序列长度。5.2预使用MetaGene( )对拼接结果中的contig进行ORF预测[3]选择核酸长度大于等于100bp的，并将其翻译为氨基酸序列。 TotallengthAveragelengthMaxMin平均序列长度；Max：最长ORF的序列长度；Min：最短ORF六、非冗余集构6.1序列聚的整体信息[4]。将所有样品预测出来的序列，用CD-HIT软件（行聚类（参数为：95%identity、90%coverage）[5]，每个类取最长的作为代表序列，构建非冗余集。 Table6-1StatisticsofgeneAverageCatalogCatalogtotalCatalogaverage注:Genes：去冗余前所有样品数；Totallength：去冗余前所有样品的总序列长度；Averagelength：去冗余前所有样品的平均序列长度；Cataloggenes：非冗余集数；Catalogtotallength：非冗余集的总序列长度；Catalogaveragelength：非冗余集的平均序列长度。6.2丰度计使用SOAPaligner软件( /)[2]，分别将每个样品的高质量reads与非冗余集进行比对（95%identity），统计在对应样品中的丰度信息。 Table6-2Gene使用BLASTP[6]（BLASTVersion2.2.28+， ncbi.nlm.nih./Blast.cgi）将集与NR数据库进行比对（BLAST比对参数设置期望值e-value为1e-5），并通过NR库对应的分类学信息数据库获得物种注释，然丰度，从而构建相应分类学水平上的丰度谱（abundanceprofile）。NR数据库：非冗余蛋白质的氨基酸序列数据库，包含了SwissProt、PIR（ProteinInformationResource）、PRF（ProteinResearchFoundation）、PDB（ProteinDataBank）蛋白质数据库非冗余的数据以及从GenBank和RefSeq的CDS数据翻译来的蛋白质数据。结果：st错配数；Gaps：gap数；Querystart：查询序列比对起始点；Queryend：查询序列比对终止点；Subjectstart：目标序列比对起始点；Subjectend：目标序列比对终止点；E-value：比对期望值；Bitscore：比对得分。 Fig.7-1-1Microbialcommunity5%的物种合并为others在图中显示；在门水平上，默认将所有样本中丰度均低于1%的物种合并为others在图中显示。5%的物种合并为others在图中显示；在门水平上，默认将所有样本中丰度均低于1%的物种合并为others在图中显示。使用BLASTP（BLASTVersion2.2.28+，）将集序列与eggNOG数据库[7,8]进行比对（BLAST比对参数设置期望值e-value为1e-5），获得对应的COG（Clustersoforthologousgroupsofproteins，直系同源序列聚类），然后使用COG对应的丰度总和计算该COG的丰度。EggNOG(evolutionarygenealogyofgenes:Non-supervisedOrthologousGroups，的功能注释。目前该数据库（v4.0）包含170万个直系同源类群，覆盖了3686个物种，给定了107个不同的分 st错配数；Gaps：gap数；Querystart：查询序列比对起始点；Queryend：查询序列比对终止点；Subjectstart：目标序列比对起始点；Subjectend：目标序列比对终止点；E-value：比对期望值；Bitscore：比对得分。eggNOG.anno.xls：每条的eggNOG功能注释信息表Sequence：序列名称；NOG：注释到的NOG编号；Function：NOG编号所对应的功能代码；FunctionARNAprocessingandBCEnergyproductionandcog.box.pdf:COG功能分类与COGFig.7-2-1Boxplotsoffunction注：上图横坐标为COGCOGCOG功能单样本使用BLASTP（BLASTVersion2.2.28+，nlmnih. /Blast.cgi）将集序列与KEGG的基OrthologyBasedAnnotationSystem， /home.do）进行功能注释[9]。使用KO、Pathway、EC、Module对应的丰度总和计算该功能类别的丰度。KEGG数据库[10]（KyotoEncyclopediaofGenesandGenomes，）是系统分功能，联系组信息和功能信息的大型知识库。KEGGGENES数据库提供关于在组计划中发现的和蛋白质的序列信息；KEGGPATHWAY数据库包括各种代谢通路、合成通路、膜转运、信号传递、细胞周期以及疾病相关通路等。此外还收集了各种化学分子、酶以及酶促反应等相关信息。KEGGModule数据库是KEGG收集的一系列的功能单元，用于组注释和生物学解释。KEGGOrthology(KO)系统通过把分子网络的相关信 gene.kegg.blastM8.xls：Blastm8格式的KEGGTable7-3-1ResultsofblastagainstQuerySubjectIdentityAlignlengthMismatchesGapsQuerystartQueryendSubjectstartSubjectendE-valueBit错配数；Gaps：gap数；Querystart：查询序列比对起始点；Queryend：查询序列比对终止点；Subjectstart：目标序列比对起始点；Subjectend：目标序列比对终止点；E-value：比对期望值；Bitscore：比对得分。Query：序列名称；Gene：序列注释到的KEGG数据库中的编号；KO：序列注释到的KO编KO对应的Module编号；Hyperlink：KO的网页。（该表格中若出现连接符“-”，表示数据库中没有此注释Pathway的描述信息，Pathwaymap各列是各个样品的Pathway的图形。KEGG.eachPfile.xls中的Pathwaymap各列是各个样品的Pathway的图形，在有网络的条件下，点（KO）分类体系（序列高度相似，并在同一条通有相似功能的蛋白质被归为一组KO），而白色背景KO分类体系之列；圆形节点表示化合物（即底物或产物）；白色背景圆角长方形表示与本通路相关参见：html。图中红色边框表示能被本次的所注释到。第一列是Module编号，倒数第一列是Module的描述信息，其它各列的数值为Module第一列是Enzyme编号，倒数第一列是Enzyme的描述信息，其它各列的数值为Enzyme碳水化合物活性酶（Carbohydrate-activeenzymes，CAZyme）对地球上所有碳水化合物的合成、降解与修饰起重要作用，因此深入研究CAZyme，对于了解微生物碳水化合物的代谢机制非常重要。分成糖苷水解酶（GlycosideHydrolases，GHs），糖基转移酶（GlycosylTransferases，GTs），多糖裂合酶（PolysaccharideLyasesPLs），碳水化合物酯酶（CarbohydrateEsterasesCEs），碳水化合物结合模块（Carbohydrate-BindingModules，CBMs），辅助氧化还原酶（AuxiliaryActivities，AAs）等六大类蛋白质。使用CAZy数据库的对应工具）将集与CAZy数据V5.0进行比对，比对参数设置期望值e-value为1e-5，获得对应的碳水化合物活性酶注释信息，然后使用碳 Table7-4-1CAZyPolysaccharideLyasesCarbohydrateEsterasesCarbohydrate−BindingModulesFig.7-4CAZy 河流等）细菌抗药性及其抗性谱、作用机制、本体论、COG和CDD等注释信息，为研究药物作用、环境治理提供研究依据。当前，ARDB包括了13,293个、377种类型、257种抗生素、632个组、933个物种和124个属的抗性信息。使用BLASTP（BLASTVersion2.2.28+， ncbi.nlm.nih./Blast.cgi）将集与ARDB数据库进行比对，比对参数设置期望值e-value为1e-5，获得对应的抗生素抗性功能注释信息，然后使用抗生素抗性 TypeClass 名称；Class：Type所属的上一级分类；Classdescription：Class的描述信息。Table7-5-2Type第一列是type名称，之后各列的数值为type在各个样品中的丰度值。第一列是class名称，之后各列的数值为class在各个样品中的丰度值。Fig.7-5Fig.7-5ARtype多样本比较Venn软件：R语言工具统计和作图。 tax/：对应于物种的结果；eggNOG/COG的结果；kegg/KEGG的结果；gene/Fig.8-2Venn注：不同的颜色代表不同的样本，如果两个不同颜色圆圈的区域标注有数字100，说明这两个样本共有物种(或功能)为100个。图中的样本数量一般为2~5个。深浅表示出来。对数据进行物种、功能或样本间丰度相似性聚类，将聚类后数据表示在heatmap图上，可将相似性和差异性。Heatmap图可以对不同样品在物种、、COG和KEGG代谢功能等层次上进行聚类分析。软件及算法：R语言vegan包。 heatmap_*.pdf：heatmapPCA(PrincipalComponentysis)主成分分析，是一种对数据进行简化的分析方法，主成分分析可以有效的找出数据中最“主要”的元素和结构，通过分析不同样品物种、、COG和KEGG代谢功能等组分，运用特征值分解方法，将多组数据的差异反映在二维主成分图上。样品组成越相似，在PCA图

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

mj-基因组分析8个样品

文档简介

温馨提示

最新文档

评论

mj-基因组分析8个样品

文档简介

温馨提示

最新文档

评论

相关文档