微生物精细图报告_第1页
微生物精细图报告_第2页
微生物精细图报告_第3页
微生物精细图报告_第4页
微生物精细图报告_第5页
免费预览已结束,剩余13页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、合同:YR-NGS-20140112ZXH-HXX微生物组精细图结题委托方(甲方):项目联系人: 通讯地址:项目联系人:项目联系人电子邮箱:受托方(乙方):杭州生物科技项目联系人:通讯地址:杭州市下城区绍兴路 353 号 2 号楼 211 室 项目联系人:项目联系人电子邮箱:目录1 项目概况31.1项目基本信息31.2策略31.3生物信息分析项目41.4生物信息分析流程52 生物信息分析.62.1原始数据过滤、整理及估62.1.1 原始数据整理62.1.2 数据质控.组序列拼装与分析组拼装82.2.2 缺口填补9功能元件分析 蛋白编码.92.3.2 非编码R

2、NA.102.3.3 CRISPRs.10蛋白编码功能注释112.4蛋白编码的序列比对112.4.1蛋白编码的 GO 注释11的 COG 注释12的 KEGG 注释.32.4.4比较蛋白编码蛋白编码2.5组分析152.5.1基于 16s rDNA 的系统发育树重构15共线性图谱绘制.3分析162.6组圈图绘制17附录 A-文档说明18某细菌从头生物信息分析结题项目概况项目基本信息1.2策略本项目采用全组鸟枪法(WGS)策略,利用第二代技术,构建不同片段长度的文库,采用对这些文库进序,具体的策略见表。表策略概述SleLibraryInserted size

3、Sequencing platformSequencing ModePE450450 bpIllumina MiseqPaired-end, 2251 bpPE700700 bpIllumina MiseqPaired-end, 2251 bpMP8K8000 bpIllumina MiseqMate-paired, 2151 bp项目项目类型组从头样本数目分析项目标准生物信息分析完成日期1.3生物信息分析项目注:打代表需要分析的项目标准信息分析流程是否分析高级信息分析流程是否分析原始数据过滤、整理及估组拼装与分析蛋白编码rRNAtRNA其他非编码 RNACRISPRs序列比对GO 注释COG

4、 注释KEGG 注释基于 16s rDNA 的系统发育树重构共线性分析分析组圈图绘制1.4 生物信息分析流程生物信息分析原始数据过滤、整理及2.1.1 原始数据整理样品经过 DNA 提取、建库和估,得到原始下机数据(raw reads,标准的 fastq 数据格式,见)。Raw reads 包含一些带接头的、低质量的 reads,这些序列会对后续的信息分析造成很大的干扰,为了保证信息分析质量,必须对 Raw Reads 进行过滤。数据过滤的标准主要包括以下几点:1)接头污染去除, 采用 cutadapt 1.2.1 去除 3 端的接头污染, 至少 10bp overlap(AGATCGGAAG

5、),允许 20%的碱基错误率;2)质量过滤,采用 5bp 滑动窗口法,窗口的平均质量分数 = Q20,允许 3 截短,最短不低于 50 bp,序列中无不确定碱基(“N”)。数据过滤的基本情况见表,具体过滤情况见表。表数据过滤统计*: Coverage 按组大小为Mb 来计算获得表数据估表SleLibraryCategoryReadsAvg. lengthReads numberTotal baseRaw DataRead12514,351,2041,092,152,204Read22514,351,2041,092,152,204Paired2514,351,2042,184,304,408C

6、lean DataRead12303,262,446749,030,960Read21443,262,446470,925,710Paired1873,262,4461,219,956,670Useful Data (%)74.98%55.85%Raw DataRead12512,265,079568,534,829Read22512,265,079568,534,829Paired2512,265,0791,137,069,658Clean DataRead12231,740,885388,342,218Read21471,740,885256,039,724Paired1851,740,8

7、85644,381,942Useful Data (%)76.86%56.67%SleLibraryRaw Dlean Doverage ()*2.1.2 数据质控Raw Data通过质量过滤后,采用 FastQC()程序进行质控分析,其中 Read1 的分析结果见图和图,所有结果见目录图单碱基质量分布图序列质量分布箱线图。横坐标是 reads 碱基位置(5-3),纵坐标是所有 reads 在该位点碱基质量统计。红色代表中位数,蓝线代表平均数,黄色代表 25%-75%区间,触须是 10%-90%区间。一般而言,Reads 的 5端和 3端的碱基质量较低,中间部分的碱基质量较高。从图中可知,本次

8、测序过滤后的数据平均质量非常高。注:Q 值,又称 Phred Quality Scores,指碱基的质量分数值,代表每一个碱基的可靠性,Q值一般可以用以下公式计算得到:Q=-10 log10P其中 P 为碱基的错误率,Q 为质量分数值。Q20 代表碱基具有 1%的错误率,Q30 代表碱基具有 0.1%的错误率。图GC 含量分布图GC 含量分布图,横坐标是 GC 含量,纵坐标为 reads 数。红色曲线表示的是实测值,蓝色曲线表示的值(正态分布,均值不一定在 50%,而是由平均 GC 含量推断的)。曲线形状的偏差往往是由于文库的污染或是部分 reads的子集有偏差(overrepresented

9、 reads)。形状接近正态但偏离理论分布的情况提示可能有系统偏差。从图中可以看出本次实验理论值与实测值符合较好。组序列拼装与分析组拼装采用 Newbler v2.8 (20110517_1502) 对去除接头序列的数据进行从头拼装,构建 contig和 scaffold;然后使用 GapCloser 程序进行缺口填补得到最终的拼接结果。拼装得到的 contig 文件见“.contig.fna”,scaffold 文件见“.scaffold.fna”,agp 文件见“.agp”。对拼装得到的 contig 和 scaffold 文件进行拼装效果评价,具体的拼装效果见表。表组拼装

10、的数据统计SlePropertyContigsScaffoldsXXTotal Sequence number3433Shortest (bp)595595Longest (bp)1,526,4561,526,456N2011,526,4561,526,456N5011,498,2481,498,248N9096,24496,244N number025N rate00.0004%Total sequence length5,670,4735,670,473GC content45.51%45.51%Sequengreatern 1kb3130N50: The N50 size is comp

11、uted by sorting all contigs from largest to smallest and by determining theminimum set of contigs whose sizes total 50% of the entire genomeN20 和 N90 的值采用相似的方式计算获得2.2.2 缺口填补利用参照或 mate-paired Reads 构建 contig 与 contig 之间的对应关系,然后采用Phred-consed-Phrap 程序分别在有对应关系的 contig 与 contig 末端设计引物,进行 PCR 扩增。扩增得到的 PC

12、R 产物采用 ABI3730 XL 仪进序,然后利用 Phred-consed-Phrap 进行拼接,最后得到该组的完成图。该组的基本情况见表。表组基本情况统计2.3 功能元件分析2.3.1 蛋白编码采用 Glimmer 3.0对全组序列进行模型选取自我训练模型,即提取拼装序列中最长的序列,以该序列作为模型训练的序列。然后以该序列构建的模型,对所有序列进行,设定开放阅读框的长度为 110 bp,其余参数为 Glimmer 3.0 的默认设置。开放阅读框的基本信息见表。所有开放阅读框的核苷酸序列见“.gene.fna”,所有开放阅读框的蛋白质序列见“.protein.faa”,所有开放阅读框的g

13、ff3 文件见“.gff3”。表开放阅读框的数据统计PropertyValueOpen Reading framber4,310Longest ORF (bp)4,563Average ORF length (bp)711Average GC %46.98%Coding Region (bp)3,065,895% of genome86.19%SleGenome SizeGC contentCoverageChromosomePlasmidPlasmidSummary2.3.2 非编码 RNA采用 tRNAscan-SE全组中的 tRNA,采用 RNAmmer1.2rRNA,其余非编码 RNA

14、 的主要通过与 Rfam 进行比较获得,非编码 RNA的具体结果见表表非编码 RNA的数据统计2.3.3 CRISPRs成簇的规律间隔的短回文重复序列 (CRISPRs)是一类独特的 DNA 正向重复序列,广组中 (存在于 40% 的细菌组以及 90% 的古菌中)。CRISPRs 通常泛存在于原核生物由长度为 2548 的重复序列以及单一序列间隔组成。目前的研究认为 CRISPRs 能够给宿主提供某种获得性免疫。外源 DNA 的短片段 (间隔序列,spacers),通过 CRISPR 重复片段的间隔区整合到宿主组中,并作为一种元件。CRISPRs 的作用机制类似于真核生物的 RNAi,即利用间

15、隔区识别并沉默外源的遗传物质。采用 CRISPR recognition tool (CRT) 来组中的 DRs (正向重复序列) 和 Spacers全(间隔区)。CRISPR的结果见表,具体结果见“”。CRISPRs表的数据统计IDSeq. IDStartEndNumber of SpacerLengthOf Genome %123TotalncRNA TypeCopyAverage length (bp)Total length (bp)% of genome5s rRNA16s rRNA23s rRNAtRNAOther ncRNASummary2.4 蛋白编码蛋白编码功能注释的功能注释

16、的主要目的是对所有蛋白编码进行功能,从而在分子水平上对该物种进行。蛋白编码功能注释的主要方法是将所有得到的蛋白编码与各种数据库中包含的蛋白质进行比较,若该蛋白质和数据中的某一蛋白质具显著的序列相似性,则可以初步确定该蛋白具有和数据库中的蛋白质具有相似甚至是相同的功能。蛋白编码的功能注释的准确性依赖于两方面:1)即数据库本身的准确性。数据库根据其数据来源可以分为一次数据库和二次数据库。一般而言,二次数据库的准确性高于一次数据库,如 Swiss-Prot 数据库均来自于文献,准确性比较高;而其他大部分蛋白质数据库如 Uniprot,refseq,nr,nt 大部分序列采用功能注释的方法获得,因此相

17、对包含比较多的错误注释信息。在进行功能注释的过程中,尽量选取准确性高的数据库。2)传递规则的严谨性。即在序列比对的过程中,如何才能认为两个蛋白质序列具有显著的序列的相似性。一般而言,两条序列的比对的区域越长,序列一致性越高,那么两条序列的功能就越有可能相似。在进行功能注释的过程中,尽量选取较为严谨的传递规则。2.4.1 蛋白编码的序列比对的序列比对采用 blastall来完成,序列比对所采用的数据库为 refseq(准蛋白编码确性相对较高),序列比对的临界值选取为 1e-6,序列的一致性需达到 30%以上,序列比对的长度应不小于任意一个蛋白的 70%,选取最佳的 Hits 进行功能的传递。序列

18、比对的具体结果见“”。2.4.2 蛋白编码的 GO 注释GO 是 Gene Ontology 的缩写。GO 的产生主要是为了解决同一在不同数据库定义的混乱性以及不同物种的同一在功能定义上的性。它是一个国际标准化的功能分类体系,提供了一套动态更新的标准词汇表(controlled vocabulary)来全面描述生物体中和产物的属性。GO 总共有三个 ontology,分别描述的分子功能 (molecular function)、所处的细胞位置 (cellular component)、参与的生物学过程(biological pros)。GOSlim 是缩减版的 GO 术组 GO 注释的概述性结

19、果。语,它提供了蛋白编码的 GO 注释采用 BLAST2GO来完成,GO 注释采用 BLAST2GO 的默认参数。GOSlim 注释结果采用 map2slim 完成(GOSlim 采用 Generic 文件),GO 注释的具体结果见“”,GOSlim 的分析结果见图。图GOSlim 注释图2.4.3的 COG 注释蛋白编码COG 是 Cluster of Orthologous Groups of proteins 的缩写。每个 COG 的蛋白都是被假定为来自于一个祖先蛋白,并且因此或者是 orthologs 或者是paralogs。Orthologs 是指来自于不同物种的由垂直家系(物种形成

20、)进化而来的蛋白,并且典型的保留与原始蛋白有相同的功能。Paralogs 是那些在一定物种中的来源于的蛋白,可能会进化出新的与原来有关的功能。相似的 COG 进一步被归类为更高级别的分类目录,如能量产生与转换、碳水化合物转运和代谢等等。通过 COG 分析,可以得到每一个蛋白所属的 COG,从而推断出该蛋白质的功能。通过进一步的归类分析,可以获得该物种在组 COG 注释的概述性结果。蛋白编码的 COG 的注释采用 blast来完成,blast 所采用的数据库为 eggNOG(V3),临界值选取 1e-6;COG 的功能传递规则为:E-value 1e-6,序列的一致性需达到 30%以上,序列比对

21、的长度应不小于任意一个蛋白的 70%,最佳 hits 的 COG传递给相应的蛋白编码。COG 的注释结果见文件“”。进一步利用 COG与 COG 分类目录之间的对应关系,将每一个蛋白归类到 COG 分类目录上,每一个 COG 分类的数据统计结果见图。图COG 功能分类图2.4.4 蛋白编码的 KEGG 注释KEGG (Kyoto Encyclopedia of Genes and Genomes),又称与组百科全书,是基因组破译方面的数据库。KEGG 注释的主要目的包括两个:KO(KEGG Ortholog)注释,即将分子网络的相关信息进行跨物种注释;KEGG Pathway 注释,即代谢通路

22、注释,获得物种内分子间相互作用和反应的网络。蛋白编码的 KO 及 Pathway 注释主要采用 KEGG 的 KAAS 自动化注释系统完成,其中集选择 “For Prokaryote”,KO 的传递规则选取 bi-directional best hit (BBH),KO 注。KO 注释完成后,将 KO到相应的 KEGG Pathway 通,KEGG Pathway释的结果见的统计结果见图,KEGG 代谢通路样图见图。图KEGG 统计图图KEGG 注释图注:绿色代表该在该物种中存在,白色代表该在该物种中不存在2.5 比较组分析2.5.1 基于 16s rDNA 的系统发育树重构采用 Muscle (ver3.8.31)对所有 16s rDNA 序列进行比对,比对使用 Muscle 的默认参数;然后采用 gblock(ve

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论