




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
一 项目信 二 工作流 IlluminaHiseq2000实验流 流 流程说 单分子PacBio实验流 实验流 流程说 生物信息分析流 三 项目结果报 原始数据说 原始数据质 原始数据质量剪 数据统 组组 rRNA/tRNA查 .......................................................................................................................15功能注 各数据库结果汇总 COG功能分 KEGG通路分 GO注释统 四 附 附件说 文件解压缩方 文件打开或浏览方 .......................................................................................................................22一 项目信细菌组完成图及分项目2013 二 工作流2.1.1流文库构建→→桥式PCRIllumina收集纯化组利用Covaris进行组DN段化连接A&B琼脂糖凝胶电泳进行片段筛选,保留一端是A接头、一端是B接头的氢氧化钠变性,产生单链DN段桥式DN段的一端与引物碱基互补,固定在上另一端随机与附近的另外一个引物互补,也被固定住,形成" (bridge)PCR扩增,产生DNA簇DNA扩增子线性化成为Illumina加入改造过的DNA聚合酶和带有4种荧光标记的dNTP,每次循将"荧光基团"和"终止基团"化学切割,恢复3'端粘性,继续聚合第二个核苷酸统计每轮收集到的荧光信号结果,获知模板DN段的序列单分子PacBio实验流DNA利用TBS380或Nanodrop2000检测组DNA浓度,保证进行后续实验的DNA质量足够高(无降解单分子建片段化:利用G-tubes方法将组DNA处理成8-10k的片段环”)的结构,称为SMRTBell,如下图;单分子将文库单链环退火,结合到固定的ZMW(zero- waveguides,零模波导孔)底部的聚合酶上结合完成即可上机,原理如下图在一个反应管(SMRTCell:单分子实时反应孔中有许多圆形纳米小孔,即上面提到的ZM(零模波导孔),外径100多纳米,比检测激光波长小(数百纳米),激光从底部打上去后不能小孔进入上方溶液区,能量被限制在一个小范围(体积20*1021L)里,正好足够覆盖需要检测的部分,使得信号仅来自这个小反应区域,孔外过多游离核苷酸单体依然留在中,将背景降到最低。单个ZMW底部固定有一个结合了模板DNA的聚合酶,当加入反应试剂后,每个碱基配对后会发出相应的光并被检测。一个SMRTCell中有15万个ZMW,每个孔中有一个单分子DNA链在高速。原始检测数据的结果,每一个碱基即显示为一个脉冲峰,每分钟>100个碱基的速度,配上高分辨率的光学检测系统,就能实时检进行检测。单分子质量评与第二代中单碱基质量表示方法类似,Q10表示90%的准确度,20表示99%的准确度,以此类推。单分子公司和的文献表明,单个碱基被5个单分子覆盖,该碱基的准确度达到99%。本项目涉及到的生物信息学分析内容见下表(√打勾部分 √√√COG注√√GO注√KEGG注√Nr注√√GIgbk文件提交到三 项目结果报(8~10kb,IlluminaHiseq2000得到的原始图像数据经过BaseCalling转化为序列数据,结果以FASTQ文件格式@HWI-ST531R:144:D11RDACXX:4:1101:1212:19461:N:0:ATTCCT+HWI-ST531R:144:D11RDACXX:4:1101:1212:1946每条read包含4行信息,其中第一行和第三行分别表示read名称和ID(其中,第一行以“@”开头而第三行以“+”开头;第三行中ID可以省略,但“+”不能省略),第二行为read的碱基序列,第四行是第二行中序列的每个碱基所对应的质量值。为方便保存和共享各产生的高通量数据,NCBI数据中心建立了大容量的数据库equenceReadArchive, nlmnih./Traces/sra)来存放共享的原始数据。通过生物信息统计学的方法,对所有reads的每个circle进行碱基分布和质量波动进行统计,可以直观的反映出样本的质量和文库构建质量。下面是本项目IlluminaHiseq2000原始数据的质控图:分别为原始数据碱基分布图(又称为GC偏差图)和原始数据碱基质量分布图。原注:横坐标是reads碱基坐标,纵坐标是所有reads的A、C、G、T、N碱基分别占的百分比。组项目中建 原readsreads的碱基质量(SolexaScale40=Highest15=Lowest),图中垂直红线”Ⅰ”指定的范围是所有reads碱基的综合质量,红色垂直方块是质量的四分位值范围,加黑粗线是质量值的中要内容,下图为单分子Clean数据reads的长度分布统计图:例图单分子Clean数据序列的长度分布统计图与箱线注:横坐标为reads的长度,纵坐标为不同长度reads的数目,从上图中可以看出,本次获得的reads的长度大小主要集中分布在3000-5000bp,质量较高,可以用于后续分析。采用IlluminaHiseq2000技术对样品的DNA分别进行paired-end,构建了300bp片段文库,由于5’端含有非AGCT修剪质量较低的reads末端(质量值小于舍弃去adapter及质量修剪后长度小于25bp对经过质量剪切前后的数据分别进序reads数、reads读长、总碱基数、文库平均长度、平均StatisticsofPacBiorawTotalreadsStatisticsofIlluminaHiseq2000rawTotalreads2,525,243,712Read3001205.14StatisticsofIlluminaHiseq2000highqualityTotalreadsPairreads12,070,497XSinglereads2,317,761,9321106.12首先,利用soapdenovo初步组装Illumina数据,然后利用blasR比对单分子数据,根据比对结果对单分子数据进行一次矫正与纠错,目的在于减少单分子长序列中单碱基、缺失的错误;最后利用纠正过的单分子数据进行组装,组装原理与第一代技术类似,即序列之间的overlap关系进行scaffold的连接,使用celera进行后续组装。完成所有scaffold连接以后,再次利用Illumina数据进行校验,同时进行gapclosing的工作,使用为GapCloser(soapdenovo相关)。详细的组装算法原理请见下图:(方法参考:KorenSMCSchatzetal2012Hybriderrorcorrectionanddenovoassemblyofsingle-moleculesequencingreads."NatBiotechnol30(7):693-700.)No.ofallscaffoldsBasesinallscaffolds
12,095,396G+C N No.ofall Basesinall 2,092,092注:N50、N90长度的概念:将各个序列按长度大小排序,从大至小逐一扫描各个序列的长度值,进行累加,当50%N50值,N90值亦同理。N50、N90长度值比平均长度更能准确表示拼接序列的好坏。Contig:群,拼接基于reads之间的overlap区而拼在一起的序列,中间没有GapScaffold:框架序列,基于paired-end或mate-pair文库的序列信息,确定contigs之间的顺序关系,将contigs按顺序排列在一起形成的更长序列,即为scaffold,中间可能有Gap(NNNNN……)分别利用RNAmmer和tRNAscan-SE对组中包含的rRNA和tRNA进行,统计结果见下表tRNAAntiSP-SP-SP-SP--SP-6-利用Glimmer 详见附件predict 下的*gff,的核苷酸序列详见附件predict 下的*ffn,对应的氨基酸文件详见附件predict 下的*faa。结果的统计见下表,分别为数量,总长度,GC含量,占组百分比,平均长度,间区长度,间区GC含量及间区占组百分比等。GeneGene1,807,923GCcontentingeneGeneaverage831Gene1.037genesperIntergeneticregion287,473GCcontentinintergenetic各数据库结果汇总将的蛋白序列分别与Nr、genes、string和GO数据库进行blastp比对(BLAST2.2.24+),从而获*.annotation.xlsx NameoftheQuery Orf LengthoftheQuery NameoftheTopHitfrom NR库中比对到的top DescriptionabouttheTopHitfrom NR库中比对到的top PercentageofSimilarBasesintheTopHigh-ScoringSegmentPairfromNR
NR库中比对到的top NameofTheTopHitfrom Strings库中比对到的top目标序 DescriptionAboutTheTopHitfrom Strings库中比对到的top目标序 PercentageofSimilarBasesInTheHigh-ScoringSegmentPairfrom
Strings库中比对到的top目标序 ClustersofOrthologousGroupsof EukaryoticOrthologous Non-SupervisedOrthologous KO号或 NameoftheKEGG COG是ClustersofOrthologousGroupsofproteins的缩写( nih./COG/)。COG是在对已完成组的物种的蛋白质序列进行相互比较的基础上构建的,COG数据库选取的物种包括各个主要的系通过与string数据库进行blastp比对,可以获得所对应的COG注释结果,并根据COG注释结果对蛋COGannotation/COG_KOG/stringv8.3。样品的组蛋白进行COG功能归类后的统计结果如下图所示例图COG功能分类统计KEGG(KyotoEncyclopediaofGenesandGenomes,和组百科全书, KEGG将从NCBI等数据库中获得的包括完整和部分的组序列及其序列于KEGGgenes数据库胞周期以及疾病相关通路等。此外,KEGGLIGAND数据库中也收集了各种化学分子、酶以及酶促反应等相关信在物体内,产物不是孤存在而自发挥作的,同物之间通有序的互协调一起行KEGG数据库中丰富的通路信息将有助于从系统水平去了解的生物学功能,例如代谢途径、遗传信息传递以及细胞学过程等一些复杂的生物过程。运用BLAST算法(blastx/blastp2.2.24+)将所获得的与KEGG的数据库(GENES)进行比对,根据比对得到的KO可以获得相应参与的具体生物学通路。KEGG数据库注释结果详见pathway.txt:每个比对到的KO、KO名字以及数据库 pathways/*html:所有例图KEGG通路数据库中MAPKSignaling例图KEGG通路数据库中MAPKSignaling(KO)分类体系(序列高度相似,并在同一条通有相似功能的蛋白质被归为一组KO,而白色背景的产物则不在KO分类体系之列,绿色表示本次所研究能够注释到这些产物上(即认为具有与该节点基因产物相同或相似的功能;圆形节点表示化合物(即底物或产物;白色背景圆角长方形表示与本通路相关联的其他通路。箭头说明:酶反应方向或信息传递方向等;实线表示直接作用,虚线表示间接作用。详细说明请参见:。GO是本体论GeneOntology的缩写(见 要花费大量的时间和精力去分析生物学术语之间的联系,而GeneOntology项目的目的就是为了标准化这些生物学术语,方便生物学家之间的相互交流。GO注释包括3个方面的内容:Cellularcomponent:thepartsofacelloritsextracellularMolecularfunction:theelementalactivitiesofageneproductatthemolecularlevel,suchasbindingorBiologicalprocess:operationsorsetsofmoleculareventswithadefinedbeginningandend,pertinenttothefunctioningofintegratedlivingunits:cells,tissues,ans,andanisms.因此,GO注释更加便于理解背后所代表的生物学意义。通过blast2go对blast结果进行了注释分析,详细的统计图表见附件 ,下图为GO统计图例例图GO功能注释统计分布同源分采用OrthoMCL对所有参与分析的物种的氨基酸(或核苷酸)序列进行比对,选取一定阈值(阈值一般在30%~80%之间,视具体项目情况而定)进行相似性聚类,获得同源的列表。统计每一个蛋白聚类cuser的物种分布情况,可以进行属内或种内的泛组、组的研究。下表为六个菌株进行种内同源分析的列表(例表:D、E、F在每个蛋白聚类内的详细的信息。全组进化树构在同源分析的基础上,选取参与分析的物种都含有且为单一拷贝的同源(避免旁系同源蛋白的干扰,对这些同源进行多序列比对(采用musce,,版本号:v3.7,将所有比齐后的同源串联起来获得全组水平上的比对结果,该结果后续可用多种算法进行全组进化树的构建(MEGA。例图基于NJ法构建的组进化采用mummer或者ACT,进行两个组或多个组序列的共线性分析。共线性分析可以从宏观清晰地显示组水平上的、缺失、翻转、易位等现象,下图是两个菌株组序列的共线性分析的mummer图(例图。例图组共线性分析例组圈图可以全面展示组的特征,如在正、反义链上的分布情况、的COG功能分类情况、GC含量、组岛、同源等。将各种信息综合展示在一张组圈图中,可以使对菌株组的特本分析采用Circos(,版本号:v0.62)进行组圈图的绘制,下图为传统经典的例 注:圈图的最外面一圈为组大小的标识,每一个刻度为0.5Mb;第二圈和第三圈为正链、负链上的CDS,不同的颜色表组平均GC含量,峰值越高表示与平均GC含量差值越大,向内的蓝色部分表示该区域GC含量低于全组平均GC含链越更倾向于转录CDS,为负值时负链更倾向于转录CDS(圈图的形式是灵活多变的,以上只是最传统的形式)。组GeneBank提交数据文件生成及提交列提交的GeneBank格式文件展示:GI利用已获得的组gbk文件,基于不同的GI岛对菌株中包含的GI岛序列进行,注:蓝色和橘黄色线代表两种不同的GI岛结果,红色表示不同的整合结果,第二圈的峰状图表示组的GC含量分布情况。四 附 ||-- ||-- ||--*.scaf 拼接好的scaffold||-- 将scaffold序列拆分为contig|--rRNA ||--* ||--*rRNA ||-- ||-- tRNA的详细信息,包含一级序列和二级结构 ||-- ||--* ||--*faa 信息:orf、所在的contig序列,在contig上的起始、终止位置 ||--*annotation ||-- 存放与nr库blastp结果的文件|||-- (|||--*.nr.blast ||--COG_KOG|||--cog.listorf对应COG|KOG|NOG号|||--cog.sumary|||--orf比对stringsCOG、KOGNOG的具体信息|||--|||--||-- |||--*kegg_table |||--*.pathway_table |||--*.png、*html ||--GO ||每个orfGO号||||orf比对GO库中某GO的具体功能信息|||--Comparative ||--Orthologous |||-- |||--orthomcl_spe
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度车辆抵押保险代理合作协议
- 二零二五年度柴油罐租赁与环保设施维护管理协议
- 二零二五年度农村耕地租赁与农业可持续发展合作协议
- 三农产品品牌培育方案手册
- 医疗卫生行业医疗信息化与智能诊断方案
- 医疗设备行业质量控制与监管体系方案
- 高效率日常行政事务文书指南
- 物联网行业智能家居设备互联互通方案
- 能源储存技术手册
- 餐饮企业运营管理与服务指南
- 2024年广东省公务员《申论(省市级)》试题真题及答案
- (一模)2025届安徽省“江南十校”高三联考化学试卷(含官方答案)
- 高等教育数字化转型心得体会
- 2025年安徽财贸职业学院单招职业技能测试题库及答案1套
- 2025年安徽职业技术学院单招职业技能测试题库及答案1套
- 典范英语6-12玉米片硬币英文原文及重点短语和句子演示教学
- 日式保洁培训课件大全
- 2025年陕西工商职业学院单招职业技能测试题库学生专用
- 新教科版小学1-6年级科学需做实验目录
- 押金收据条(通用版)
- 500kV变电站工程主变基础及防火墙施工方案
评论
0/150
提交评论