版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
项目概 合同关键指 项目基本信 项目执行情 项目结果概 项目流 实验流 信息分析流 生物信息学分 3.1数据质 原始数据介 碱基质量分 碱基类型分 低质量数据过 数据统 转录组数据组 组装原 组装结果统 数据与组装结果的比对统 转录组文库质量评 mRN段化随机性检 转录组数据饱和度检 Unigene功能注 SNP检 编码区序列预 表达量分 Unigene表达量计 样品表达量总体分 差异表达分 差异表达筛 差异表达数目统 差异表达聚类分 关联分 高质量SNP筛 SNP-index方法关联结 ED方法关联结 候选Unigene筛 候选区域的功能注 候选区域内的GO富集分 候选区域内的KEGG富集分 候选区域内COG分类统 候选区域内差异表达分 候选区域内差异表达数目统 候选区域内差异表达功能注 数据...........................................................................................................合同关键指据产量不少于4GCleanData每个子代混池数据产量不少于15GCleanData,Q3085%以上。Unigene完成Unigene的表达量分析和差异表达分析结构分析:完成CDS关联分析:通过计算两个混池间等位的型频率确定与目标性状关候选分析:完成候选区域内的功能注释及差异表达分析项目基本信样 BMK 混池 混池 注:BMK:百迈客对样品的统一,实验建库和后续信息分析均使用该项目执行情样品检测合格时间为样品信息到位时间为项目建库启动时间为项目分析完成时间为项目结果概完成4个样品的转录组,共获得41.84GbCleanData,均满足合同要求碱基百分比在91.32%条。基于Unigene库的结构分析,进行编码区序列预测SNP-index关联算法,共得到5个UnigeneED关联算法,共得到6个Unigene,实验流文库质量检测和上机,具体流程见下图:物mRNA,然后加入fragmentationbuffer将mRNA进行随机打断,以mRNA为模板,合成cDNA双链,cDNA纯化后再进行末端修复、加A尾并连接接头、片段大信息分析流信息分析的内容包括:数据质量控制;通过数据组装获得Uningene,然后进序文库质量评估、Uningene的功能注释、结构分析、表达量分析等;基于SNP分析,进行关联分析获得候选区域,并根据在不同样品或不同样品组中的表达量进行差异表达分析、差异表达功能注释和功能富集等高数据质原始数据介Data或RawReads,结果以FASTQ(简称为fq)文件格式,其中包含序列。(Reads)的序列信息以及其对应的质量信息样品中真实数据随机截取。@HWI-7001455:238:HA52PADXX:2:1205:15904:284671:N:0:CCGTCCIllumina识别符(SequenceIdentifiers)和描述文字(选择性部分);第二行是行是对应序列的质量。Illumina识别符(SequenceIdentifiers)详细信息见如下Illumina标识详细信 Uniqueinstrument Run FlowcellFlowcell Tilenumberwithintheflowcell 'x'-coordinateoftheclusterwithinthe 'y'-coordinateoftheclusterwithintheMemberofapair,1or2(paired-endormate-pairreads Yifthereadfailsfilter(readisbad),N 0whennoneofthecontrolbitsareon,otherwiseitisaneven IndexIllunimaQphred=-IllunimaCasava1.8版本错误率与质量值简明对应关系如下表所示 对应字 碱基识别(BaseCalling):IllunimaCasava1.8版本参数:双端(Pairedend,PE)碱基质量分每个碱基错误率是通过Phred数值(Phredscore,Qphred)得到,而在个簇就是一个位点,在进行固定过程中极少量的簇与簇之间物理位置会发生重叠,在时,软件通过前4个碱基对这些的点进行分析和识别,将这些点位置分开,保证每个点测到的是一个DNA分子,因此序列5′端前几个碱基的错误率相对较高。另外错误率会随着序列(SequencedReads)的长度的增加而升高,这是由于过程中化学试剂的消耗而导致的。因此在进行碱质量分布分析时,样品的碱基质量分布4个碱基和后十几个碱基的质量值会低于中间碱基,但其质量值都高于,根据质量值和错误率的关系,我们将质量值转换成错误率,绘制错误率分布图如下:P注:横坐标为reads的碱基位置,纵坐标为单碱基错误率,前151bp为双端序列的第一端reads的错误率分布情况,后151bp为另一端reads的错误率分布情况。碱基类型分的含量每个循环上应分别相等且整个过程稳定不变呈水平线由于Reads5’端的前几个碱基为随机引物序列存在一定的偏,因此会在碱基分布图中出现列的第一端reads的碱基分布,后151bp为另一端reads的碱基分布。每个cycle代表的每个碱基,如第一即表示该项目所有在第一个碱基的 该图的结果显示AT、CG碱本不发生分离,且曲线较平缓,说明结果低质量数据过得到的原始序列(SequencedReads)或者RawReads,里面含有带接该Pair-endreads。 注:BMKID:百迈客对项目样品的统一;Raw_Reads:原始reads数;Adapter_Related:含接头被过滤数据统各样品产出数据评估结果如下表所示样品数据评估统PM转录组数据组获得高质量的数据之后,需要对其进行序列组装。Trinity[1]是一款专门为高通量转录组设计的组装软件。转录本深度除了受数据量等影响,还与该转录本的表达丰度有关。深度会直接影响组装的好坏。为了使各样品中表达丰度较低的转录本组装得更完整,对于同物种的样品推荐合并组装可以间接增加深度,从而使转录结果更完整,同时也有利于后续的数据分析;而对于不同物种的样品,由于组间存在差异,推荐采用分别组装或分开分析。组装原Trinity软件首先将Reads打断为较短的片段(K-mer),然后将这些小片段延伸成较长的片段(Contig),并利用这些片段之间的,得到片段集合(Component),最后利用DeBruijn图的方法和Read信息,在各个片段集合中Trinity将Reads按照指定K-mer打断来构建K-mer库,去除可能包含错误选择频率最高的K-mer作为向两端进行贪婪延伸(以K-1个碱基的Overlap为标准,低复杂度或只出现一次的K-mer不能作为),不断循环此过程对(2)中得到的ontigompnn(ontig之间包含1个碱基的rlap,并且有一定数目Kmer分别有一半比对在两条ontig上,这样的ontig会聚为一个omponent);对每个Component中的Contig构建DeBruijn对(4)中得到的DeBruijn图进行简化(合并节点,修剪边沿以真实的Read来解开DeBruijnTrinity组装结果统Length1000-TotalTotalN50Mean注:LengthRange:表示Contig/Transcript/Unigene的不同长度区间;表格中的数字表示相应区间内带*表格中统计的是长度在区0-300内Contig的数量和百分比TotalNumber:表示组装得到的表示Contig/Transcript/Unigene的N50的长度;MeanLength:表示Contig/Transcript/Unigene的平均长度。数据与组装结果的比对将各样品的CleanData与组装得到的Transcript或Unigene库进行序列比对,比对结果统计见下表。比对到Transcript或Unigene的Reads称为MappedReads,MappedBMK-CleanMappedMappedPM转录组文库质量评合格的转录组文库是转录组的必要条件,为确保文库的质量,从以下2点对转录组文库进行质量评估:(1)通过检验片段在Unigene上的分布评估mRN段化的随机性mRNA(3)通过绘制饱和度图,评估文库容量和比对到Unigene库的Reads(MappedmRN段化随机性检mRN段化后的片段大小选择,可以理解为从mRNA序列中独立随机地么目的RNA每个部分被抽取到的可能性就越接近,即mRN段化随机性越高,通过MappedReads在各Unigene上的位置分布,模拟mRN段化结果,检验mRN段化的随机程度。各样品MappedReads在mRNA转录本上的位置分布图如注:横坐标为mRNA位置,纵坐标为对应位置区间内Reads在MappedReads中所占百分比。由于参考的mRNA长例,图中反映的是所有mRNA各个区间内的MappedReads比例的汇总。转录组数据饱和度检充足的有效数据是信息分析准确的必要条件。转录组检测到的数目与数据量成正相关性,即数据量越大,检测到的数目越多。但一个物的数目是有限的,而且转录具有时间特异性和空间特异性,所以随着量的增加,检测到的数目会趋于饱和。为了评估数据是否充足,需要查看随着数据量的增加,新检测到的是否越来越少或没有,即检测到的数目是否趋于饱和。使用各样品的MappedReads对检测到的数目的饱和情况进行模拟,绘制曲注:通过将MappedReads等量地分成100份,逐渐增加数据查看检测到的数量来绘制饱和度曲线。横坐标为Reads数目(以106为单位),纵坐标为检测到的数量(以103为单位)。表达量FPKM不小于0.1的定义为表达的。Unigene功能注ResourceFoundationPD(ProteinSwiss-Prot数据库是由EBI(欧洲生物信息学)负责的数据库,包含COG(ClustersofOrthologousGroups)数据库是对产物进行同源分类的数据库,是一个较早的识别直系同源的数据库,通过对多种生物的蛋白质序列大KOG(euKaryoticOrthologousGroups)数据库针对真核生物,基于直系同源关系,结合进化关系将来自不同物种的同源分为不同的Orthologous簇,目前Pfam(Proteinfamily)数据库通过蛋白序列的比对建立了每个的氨基酸序GO(GeneOntology)数据库是一个国际标准化的功能分类体系,提供了一套动态更新的标准词汇表来全面描述生物体中和产物的功能属性。该数据库总共有三大类,分别是分子功能(MolecularFunction)、细胞组分(CellularComponent)和生物学过程(BiologicalProcess),各自描述了产物可能行使的ReceptorBinding”或者“SignalTransduction”,同时有一个唯一的,形如KEGG(KyotoEncyclopediaofGenesandGenomes)数据库是系统分析产物在细胞中的代谢途径以及这些产物功能的数据库。它整合了组、化学分病(DISEASE)、序列(GENES)及组(GENOME)等。利用该数据库有助于把及表达信息作为一个整体的网络进行研究。以上所有数据库的地址等信息详见附表本项目通过选择BLAST参数E-value不大于10-5和HMMER参数E-value不大于AnnotatedSNP检样品与参考UningeneSNP检SNP(SingleNucleotidePolymorphisms)是指在组上由单个核苷酸变异形成的遗传标记,其数量很多,多态性丰富。利用针对RNA-Seq的比对软件STAR[11]个样本的Reads与Unigene序列进行比对,并通过GATK[12]针对RNA-Seq的SNP识进行局部重新比对,校正由于缺失引起的比对结果错误。Recalibrationcalling对SNP进行严格过滤:sluster(5bp内如果有2个SNP则过滤掉Indel其中注释行包含文件数据行的INFO和FORMAT列中使用的各种标识符的意释,P....AG113.4G5A67过滤状89样品的型信SNPreads支持数目累积图,右边为相邻SNP之间SNP类型的变异分为转换和颠换两种,同种类型碱基之间突变称为转换于二倍体或者多倍体物种,若同源上的某一SNP位点均为同一种碱基,则该SNP位点称为纯合SNP位点;若同源上的SNP位点包含不同类型的碱基,则该SNP位点称为杂合SNP位点纯合SNP数量越多则样品与参考组之间差异越大,样品之间SNP的检PMCGCGTACGCGAATAACNTCC 意A AC(aMinoC GCG AT(WeakT GTC(notA)(BcomesafterA)U GAT(notC)(DcomesafterC)RGA ACT(notG)(HcomesafterG)YTC GCA(notT,notU)(VcomesafterU)KGT AGCTSNP编编码TransDecoder软件基于开放阅读框(OpenReadingFrame,ORF)长度、对数似然函数值(Log-likelihoodScore)、氨基酸序列与Pfam数据库蛋白质结构域序列的比对等信息,能够从转录本序列中识别可靠的潜在编码区序列(CodingSequence,CDS),是Trinity和Cuffinks等软件推荐的CDS预测软件。(注:文件为标准的FASTA格式,每个序列单元以“>”开始到下一个“>”之前结束。“>”后面紧接编码区序列由5’端部分(5prime_partial,即仅预测到起始子)、3’端部分(3prime_partial,即仅预测到终止子)和区段(internal,即起始子和终止子都没有预测到)。从第二行开始直到出现“>”之前为止为编码(Unigene表达量计采用Bowtie[13]将各样品得到的Reads与Unigene库进行比对根据比对结果,FPKM[15](FragmentsPerKilobaseoftranscriptperMillionmappedreads)是每百万Reads中来自比对到某一每千碱基长度的Reads数目,是转录组数据分析中常用的表达水平估算方法。FPKM能消除长度和量差异对计算表达的影响,计算得到的表达量可直接用于比较不同样品间的表达差异。公式中,cDNAFragments表示比对到某一转录本上的片段数目,即双端数目;MappedFragments(Millions)表示比对到转录本上的片段总数,以106TranscriptLength(kb):转录本长度,以103对每个的信息进行统计,样品P结果文件示意见下表 注注 不同转录本的平均长度Unigene的长度;TPM:TPM方法标准化后的表达丰度值;FPKM:FPKM方法标准化后的表达丰度值样品表达量总体分使用转录组数据检测表达具有较高的灵敏度。通常情况下,能够到的蛋白质编码表达水平横跨6个数量级,即FPKM值从10-2到104不等[16]。从箱线图中不仅可以查看单个样品表达水平分布的离散程度,还可以直观的比较不同样品的整体表达水平。该项目两个亲本的FPKM分布箱线图见下图:差异表达分突变型、不同时间点、不同组织等)下,表达水平存在显著差异的或转录本,称之为差异表达(DifferentiallyExpressedGene,DEG)或差异表达转录ranscript,DETysis差异表达分析得到的集合叫做差异表达集,使用“A_vs_B”的方式命名。根据两(组)样品之间表达水平的相对高低,差异表达可以划分为上调基因(Up-regulatedGene)和下调(Down-regulatedGene。上调在样品(组)差异表达筛检测差异表达时,需要根据实际情况选取合适的差异表达。对于物学条件之间的差异表达集;对于没有生物学重复的样本,使用EBSeq[18]进行差异分析,获得两个样品之间的差异表达集。在差异表达过程中将FoldChange≥2且FDR<0.01作为筛选标准差异的差异表达分析是对大量的表达值进行独立的统计假设检验,会存在假阳性问差异表达----通过火山图(VolcanoPlot)可以快速地查看候选区域内在两个(组)样品纵坐标表示表达量变化的统计学显著性的负对数值。横坐标绝对值越大,说明表达量在两样品间的表达量调差异表达,红色的点代表上调差异表达,黑色的点代表非差异表达。通过MA图可以直观地查看的两个(组)样品的表达水平和差异倍数的差异表达MA色的点代表下调差异表达,红色的点代表上调差异表达,黑色的点代表非差异表达。差异表达数目统差异表达及数目统计结果见下表差异表达数目统计DEG DEG up- down-Pvs B1vs 注:DEGSet:差异表 集名称;DEGNumber:差异表 数目;up-regulated:上 的数目差异表达聚类分对筛选出的差异表达做层次聚类分析,将具有相同或相似表达模式的进行聚类并使用K-means的方法对差异的表达量水平值log2(FPKM+1)进行聚类分析将具有相似表达水平变化趋势的聚在同一类样品P和M间差异表达基差异表达聚类注:横坐标代表样品名称及样品的聚类结果,纵坐标代表的差异及的聚类结果。图中不同的列代表不对筛选出的所有差异表达的表达量做层次聚类分析,得到差异在不实验条件下的表达模式,表达模式相同或相近的成类。由于同类的可cluster的进行功能注释及富集分析,可预测未知的功能或已知的未知关联分在关联分析前,首先对SNP进行过滤,过滤标准如下:首先过滤掉有多个型的SNP位点,其次过滤掉read支持度小于4的SNP位点,再次过滤掉混池之间型一致的SNP位点以及隐性混池不是来自于隐性亲本的SNP位点,最终得到高质SNPTotal的高质量数B1vs SNP-index方法关联结SNP-index是近年来的一种通过混池间的型频率差异进行标记关联分析的方法[7],主要是寻找混池之间型频率的显著差异,用Δ(SNP-index)统计。标记SNP与性状关联度越强,Δ(SNP-index)1。Maa表示aa池来源于母本的深度;Paa表示aaMabab池来源于母本的深度;Pab表示abSNP位点会倾向于在两混池间差异,因此为了控制单个位点关联造成的假阳性,在有水平的组的情况下,需要利用位点的位置信息进行拟合分析[7]。然而拟合分析不适用于无水平2Unigene上两混池间差异的SNP3Unigene其中,MSNP的总数,K表示所有候选关联位点的总数,yUnigene上候选关联位点的数目,NUnigene上SNP的总数4Benjamini–HochberUnigene富集关联位点的概率进行多重检验校正,计算FDR。Unigene(FDR<0.0129个显著富集关联位点的Unigene,对其进行罗列,见下表:显著富集关联位点的Unigene440000440077588595955677465532注:igeige;AlNP该iene上所有的NP点数目;AssNP:该ige上的候选关联位点-legeeR其中,Unigene2647.1Unigene5612.14SNP4UnigeneUnigene,Unigene3002.117SNP13Unigene同样与性状关联的概率很大,但由于其上的总SNP数目较少,其结果需要进一步证实。ED方法关联结欧式距离(EuclideanDistance,ED)算法,是利用数据寻找混池间存在显因此为了控制单个位点关联造成的假阳性,在有水平的组的情况下,需要利用位点的位置信息进行拟合分析。然而拟合分析不适用于无水平组P-55005500330044003300注:Unigene:筛选得到的Unigene;length:Unigene的长度;AllCount:Unigene上所有的SNP位点数目;AssoCount:Unigene上关联SNP位点数目;P-value:该Unigene上富集关联位点的显著性水平;FDR:经过多重候选Unigene筛Unigene444442797558885695795251647574263525321对候选区间内的编码进行多个数据(NRSwiss-ProtGOKEGGCOG)的深度注释通过详细的注释快速筛选候选候选区域内共注释到39个,其中在亲本间存在非同义突变共注释到XX个,注释结果见下表:AnnotatedGeneNon_SynGene4GeneNum:候选区域内亲本间存在非同义突变的数。候选区域内的GO富集分GO数据库是一个结构化的标准生物学注释系统建立了及其产物功能的标表的功能越具体。通过GO分析并按照Cellularcomponent、MolecularFunction、Biologicalprocess对进行分类。候选区域内GO分类统计结果见下图候选区域内GO注释聚类topGO有向无环图能直观展示关联区域内富集的GOterm及其层级关系有向无环图为关联区域内GO富集分析结果的图形化展示方式分支代表包含关系,候选区域内的Cellularcomponent的topGO有向无环图如下候选区域GO的富集分析结果见下表ATP2.0e-L-ascorbicacid4ATP2.0e-L-ascorbicacid42.5e-protein3.2e-proteinspecific0naringenin3-dioxygenase74ligase7isomerase1 methionine 0注:GO.ID:GO节点的;Term:GO节点名称;Annotated:所有注释到该功能的数;Significant:DEG注释到该功能的数;Expected:注释到该功能DEG数目的期望值;KS:富集节点的显著性统计,KS值越候选区域内的KEGG富集分在生物体内,不同相互协调来行使生物学功能,不同的间相同的作用通路为一个Pathway,基于Pathway分析有助于进一步解读的功能。KEGG是关候选区域内的KEGG注释结果按照通路类型进行分类,分类图如下注:横坐标为注释到该通路下的个数及其个数占被注释上的总数的,纵坐标为KEGG代谢通路的名称候选区域内的代谢通路结果见下图注:红色框标记的为关联区域内的,蓝色框代表该通路所需要的所有的酶,说明对应与此酶相关,而 候选区域内的KEGG富集部分结ProteinprocessinginendoplasmicFlavonoidPlant-pathogenLimoneneandpinenePorphyrinandchlorophyllTyrosinePyruvate候选区域内COG分类统数据库可以对产物进行直系同源分类。关联区域内COG分类统计结果见下候选区域内COG注释分类注:横坐标为COG各分类内容,纵坐标为数目。在不同的功能类中,所占比例多少反映对应时期和环候选区域内差异表达分候选区域内差异表达数目统 差异表达数目统计DEGDEG up-down-Pvs B1vs 注:DEGSet:差异表达集名称;DEGNumber:差异表达数目;up-regulated:上调的数目候选区域内差异表达功能注Annotateddatabases AnnotatedGeneNumber 数据ade.x件多以文本格式为主a文件、x文件,deal文件,s文件等)。在Wndo系统下查看文件,推荐使用Edipu或UraEdiUnx或Linuxe报告文件含有SVG格式的文件,SVG是矢量化的文件,可以随意放大而不失【参考文献GrabherrMG,HaasBJ,YassourM,,etal.FulllengthtranscriptomeassemblyfromRNASeqdatawithoutareferencegenome.NatureBiotechnology.2011.(29):644-652AltschulSF,MaddenTL,SchäfferAA,etal.GappedBLASTandPSIBLAST:ANewGenerationofProteinDatabaseSearchPrograms.NucleicAcidsResearch.1997.25(17):3389-3402DengYY,LiJQ,WuSF,etal.IntegratednrDatabaseinProteinAnnotationSystemandItsLocalization.ComputerEngineering.2006.32(5):71-74ApR,BairochA,WuCH,etal.UniProt:theUniversalProteinNucleicAcidsResearch.2004.32(Databaseissue):D115-AshburnerM,BallCA,BlakeJA,etal.Geneontology:toolfortheunificationofbiology.Naturegenetics.2000.25(1):25-29TatusovRL,GalperinMY,NataleDA.TheCOGdatabase:atoolforgenomescaleysisofproteinfunctionsandevolution.NucleicAcidsResearch.2000.28(1):33-36KooninEV,FedorovaND,JacksonJD,etal.Acomprehensiveevolutionaryclassificationofproteinsencodedincompleteeukaryoticgenomes.GenomeBiology,2004,5(2):R7.KanehisaM,GotoS,KawashimaS,etal.TheKEGGresourcefordecipheringthegenome.NucleicAcidsResearch.2004.32(Databaseissue):D277-D280EddyS.R.ProfilehiddenMarkovmodels(1998)Bioinformatics,14(9),pp.755-FinnRD,BatemanA,ClementsJ,etal.Pfam:theproteinfamiliesdatabase.NucleicAcidsResearch,2013:gkt1223.DobinA,DavisCA,SchlesingerF,etal.STAR:ultrafastuniversalRNA-seqaligner[J].Bioinformatics,2013,29(1):15-21.McKennaA,HannaM,BanksE,etal.TomeysisToolkit:aMapReduceframeworkforyzingnext-generationDNAsequencingdata[J].GenomeResearch.2010,20(9):1297-1303LangmeadB,TrapnellC,PopM,SalzbergSL:Ultrafastandmemory-efficientalignm
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2020-2021学年浙江省台州市三门县三校八年级(上)期中道德与法治试卷含解析
- 物价指数的预测模型研究-洞察分析
- 性别平等法律保障机制-洞察分析
- 硬化剂在建筑材料中的应用-洞察分析
- 新兴社交平台分析-洞察分析
- 网络隐私权保护策略-洞察分析
- 水下微生物群落多样性-洞察分析
- 虚拟现实技术在娱乐产业的应用-洞察分析
- 养血生发胶囊副作用及应对策略-洞察分析
- 《晶宏观对称性》课件
- 中职英语基础模块第二版8单元说课课件
- 培养教育考察记实簿
- 国开电大本科《管理英语3》机考真题(第三套)
- 吹气球比赛(习作课)课件
- 110与120联动协议书
- 营销策略4P-课件
- 中国铁路总公司铁路建设项目监理招标文件示范文本
- 高三地理一模考试质量分析报告课件
- 聚合物锂电池规格表
- 保安请假休假制度规定
- T-GDC 65-2023 钢纤增强聚乙烯复合压力管道
评论
0/150
提交评论