有参结题报告大基因组_第1页
有参结题报告大基因组_第2页
有参结题报告大基因组_第3页
有参结题报告大基因组_第4页
有参结题报告大基因组_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

项目概 合同关键指 项目基本信 项目执行情 项目结果概 项目流 实验流 信息分析流 生物信息学分 3.1数据质 原始数据介 碱基质量分 碱基类型分 低质量数据过 数据统 与参考组比对统 比对结果统 深度分布统 转录组文库质量评 mRN段化随机性检 片段长度检 转录组数据饱和度检 SNP检测与注 样品与参考组间SNP的检 样品之间SNP的检 SNP结果注 结构分 可变剪接分 结构优化分析 新分 新发 新功能注 表达量分 3.7.1表达定 样品表达量总体分 差异表达分 差异表达筛 差异表达数目统 差异表达聚类分 关联分 高质量SNP筛 SNP-index方法关联结 ED方法关联结 候选区域筛 候选区域的功能注 候选区域的SNP注 候选区域的注 候选区域内的GO富集分 候选区域内的KEGG富集分 候选区域内COG分类统 候选区域内可变剪接事件统 候选区域内新分 候选区域内差异表达分 候选区域内差异表达数目统 候选区域内差异表达功能注 结果可视 数据...........................................................................................................合同关键指产量不少于10GCleanData,每个子代混池数据产量不少于10GCleanData,Q3085%以上。与组比对:比对效率,组覆盖度,组覆盖深度统计完成表达量分析关联分析:通过计算两个混池间等位的型频率确定与目标性状关联结构分析:完成候选区域内可变剪接分析和新分析SNPSNP注释,包括位置信息和非同义突变信候选分析:完成候选区域内的功能注释、可变剪切事件的统计、新项目基本信样品信息样 BMK 混池 混池 注:BMK:百迈客对样品的统一,实验建库和后续信息分析均使用该参考组信息根据小麦的组大小以及GC含量等信息,最终选取小麦组作为参考物种信息小(Triticumaestivum),实际组大小为17,000MbMb,参考物种信息:小麦(Triticumaestivum)[1]组,组装出的组大小为14,547Mb,GC含量为46.05%,该组组装到水平,有注释信息,版本号为v1,地址:。项目执行情样品检测合格时间为样品信息到位时间为项目建库启动时间为20181209项目结果概完成4个样品的转录组,共获得54.14GbCleanData。Q30碱基百分比在91.12%及以上。样品与参考组比对效率均在85%以上。、基于比对结果进行可变剪接预测分析结构优化分析以及新的发掘,发掘新12,717个。、SNP-index关联算法,共得到9个与性状相关的区域,总长度为30.39Mb;交集得到7个与性状相关的区域,总长度为18.26Mb。关联区域内注释到160个,其中非同义突变SNP位点的共18个,新共注释到13个,差异表达基实验流文库质量检测和上机,具体流程见下图:图1转录组实验流程Oligo(dT)的磁珠富集真核mRNAfragmentationbuffer将mRNAmRNA模板,合成cDNA双链,cDNA纯化后再进行末端修复、加A尾并连接接头、片段大小选择最后通过PCR富集得到cDNA文库文库经质检合格后通过IlluminaHiSeqTM进序。信息分析流信息分析的内容包括:数据质量控制;通过与参考组比对,进行片段长度检验随机性检验等文库质量评估进行结构分析新发掘、表达量分析和差异表达分析等;基于SP分析,进行关联分析获得候选区域基因,并根据在不同样品或不同样品组中的表达量进行差异表达分析、差异表达功能注释和功能富集等高级分析。BSR数据质原始数据介。碱基识别(BaseCalling)分析转化为原始序列(SequencedReads),我们称之序列(Reads)的序列信息以及其对应的质量信息样品中真实数据随机截。@HWI-7001455:238:HA52PADXX:2:1205:15904:284671:N:0:CCGTCCIllumina识别符(SequenceIdentifiers)和描述文字(选择性部分);第二行是行是对应序列的质量。Illumina识别符(SequenceIdentifiers)详细信息见如下Illumina标识详细信 Uniqueinstrument Run Flowcell Flowcell Tilenumberwithintheflowcell 'x'-coordinateoftheclusterwithinthe 'y'-coordinateoftheclusterwithinthe Memberofapair,1or2(paired-endormate-pairreads Yifthereadfailsfilter(readisbad),N 0whennoneofthecontrolbitsareon,otherwiseitisaneven IndexIllunimaQphred=-IllunimaCasava1.8版本错误率与质量值简明对应关系如下表所示 对应字 碱基识别(BaseCalling):IllunimaCasava1.8版本参数:双端(Pairedend,PE)碱基质量分每个碱基错误率是通过Phred数值(Phredscore,Qphred)得到,在Hiseq4000系统时首先会对文库进行目的是将文库DNA个簇就是一个位点,在进行固定过程中极少量的簇与簇之间物理位置会发生重叠,在时,软件通过前4个碱基对这些的点进行分析和识别,将这些点位置分开,保证每个点测到的是一个DNA分子,因此序列5′端前几个碱基的错误率相对较高。另外错误率会随着序列(SequencedReads)的长度的增加而升高,这是由于过程中化学试剂的消耗而导致的。因此在进行碱质量分布分析时,样品的碱基质量分布4个碱基和后十几个碱基的质量值会低于中间碱基,但其质量值都高于,根据质量值和错误率的关系,我们将质量值转换成错误率,绘制错误率分布图如下:样品P注:横坐标为reads的碱基位置,纵坐标为单碱基错误率,前151bp为双端序列的第一端reads的错误率分布情况,后151bp为另一端reads的错误率分布情况。碱基类型分AT、GC分离现象,RNA-Seq所测的序列为随机打断的cDN段,因随机性打断及碱基互补配对原则,理论上,G和C、A和T的含量每个循环上应分别相等,且整个过程稳定不变,呈水平线。由于Reads5’端的前几个碱基为随机引物序列存在一定的偏,因此会在碱基分ATCG列的第一端reads的碱基分布,后151bp为另一端reads的碱基分布。每个cycle代表的每个碱基,如第一即表示该项目所有在第一个碱基的 该图的结果显示AT、CG碱本不发生分离,且曲线较平缓,说明结果低质量数据过得到的原始序列(SequencedReads)或者RawReads,里面含有带接该Pair-endreads。PM注K百客项样的一a_eas始rad数dper_eaed头过滤的radr_prcn:rneir_prnt:1%reds05%radea_easrad数据统PM与参考组比对统本项目使用指定的组组装Sscrofa10.2作为参考进行序列比对及后续分析利用STAR[1]将CleanReads与参考组进行序列比对,获取在参考组或组上的Reads称为MappedReads,基于 Reads进行后续信息分析比对结果统各样品数据与所选参考组的序列比对结果统计见下表BMK-TotalPM

Uniq

ReadsMapto ReadsMapto'- 考组上的Reads数目及在CleanReads中占的百分比;UniqMappedReads:比对到参考组唯一位置的中占的百分比。ReadsMapto'-':比对到参考组负链的Reads数目及在CleanReads中占的百分比。深度分布统将比对到不同上Reads进行位置分布统计绘制MappedReads在所选参考组上的覆盖深度分布图。样品P的MappedReads在参考组上的MappedReads在参考组上的位置及覆盖深度分布小窗口(Window),统计落在各个窗口内的MappedReads作为其覆盖深度。蓝色为正链,绿色为负链。统计MappedReads在指定的参考组不同区(外显子内含子和间区)的数目,绘制组不同区域上各样品MappedReads的分布直方图,如下:注图中将组分为外显子区间区内含子区区域大小按Map到相应区域的Reads在所有Mapped理论上,来自成熟mRNAReads应比对到外显子区。Reads比对到内含子是由于mRNA前体和发生可变剪切的内含子保留;Reads比对到间区是由于转录组文库质量评合格的转录组文库是转录组的必要条件,为确保文库的质量,从以下3点通过片段的长度分布,评估片段长度的离散程度通过绘制饱和度图,评估文库容量和MappedDatamRN段化随机性检mRN段化后的片段大小选择,是从mRNA序列中独立随机地抽取子序列,mRNARNA每个部分被抽通过MappedReads在各mRNA转录本上的位置分布模拟mRN段化结果,检验mRN段化的随机程度。如果mRNA存在严重降解,被降解的碱基序列不能被,即无Reads比对上。因此,通过查看MappedReads在mRNA转录本上的位置分布可了解mRNAMappedReads在mRNA转录本上的位MappedReads在mRNA数目及所占的比例,图中反映的是所有mRNA各个区间内的MappedReads比例的汇总。从上图可以看出各样品的曲线较平滑说明mN段化随机性较高曲线中间部分斜率较小,说明样品的降解程度可接受。片段长度检片段长度检验片段长度的离散程度能直接反映出文库过程中磁珠纯化的效果。通过片段两端的Reads在参考组上的比对起止点之间的距离计算片段长度。大部分的真核生物为断裂,外显子被内含子隔断,而转录组得到的是无内含子的成熟mRNAmRNA中跨内含子的片段两端的Reads比对到组上时,比对起止点之间的距离要大于片段长度。因此,在片段长度模拟1个或多个小峰。样品P的片段长度模拟分布如下图220bp附近,没有偏离目标区域,且峰型较窄,说明插入片段长度的离散程度较小,片段大小选择正常。转录组数据饱和度检为了评估数据是否充足并满足后续分析对得到的数进行饱和度检测。由于一个物种的数目是有限的,且转录具有时间和空间特异性,因此随着量的增加,检测到的数目会趋于饱和。对于表达量越高的,越容易被检测定量。因此,对于表达量越低的,需要更大的数据量才能被准确定量。使用各样品的MappedData对检测到的不同表达情况的数目饱和情况进行模拟,绘制曲线图如下,可查看随着数据量的增加,检测到的不同表达量的基注:横坐标代表定位到组上的Reads数占总reads数的百分比,纵坐标代表部分Reads和全部Reads的Gene表SNP检测与注样品与参考组间SNP的检SNP的检测主要使用GATK[2]软件工具包实现根据CleanReads在参考组的Realignment)、碱基质量值校正(BaseRecalibration)等预处理,以保证检测得到的SNP准确性,再使用GATK进行单核苷酸多态性(SingleNucleotidePolymorphism,进行局部重新比对,校正由于缺失引起的比对结果错误使用GATK进行碱基质量值再校准(BaseRecalibration),对碱基的质量值使用GATK进行变异检测(variantcalling),主要包括SNP和InDel变异结果使用vfvf其中注释行包含文件数据行的IO和FT列中使用的各种标识符的意释,而标题行和数据行包含各样品的变异检测结果信息,格式如下所示: .GA [ANNOTATIONS]0.AG [ANNOTATIONS]0.CT [ANNOTATIONS]0.AG [ANNOTATIONS]0 参考序列的名23.4G5A67过滤状89样品的型信SNPreads支持数目累积图,右边为相邻SNP之间的距离累积图SNP类型的变异分为转换和颠换两种,同种类型碱基之间突变称为转换于二倍体或者多倍体物种,若同源上的某一SNP位点均为同一种碱基,则该SNP位点称为纯合SNP位点;若同源上的SNP位点包含不同类型的碱基,则该SNP位点称为杂合SNP位点。纯合SNP数量越多,则样品与参考组之间差异样品之间SNP的检根据样品与参考组的比对结果,汇总样品之间所有有差异的变异位点,各 CCTCCGGAGGAATAACNTCCTNCTTCCTCCTTCTTSNP型的编码采用标准核苷酸符号,符号表如下所示 意A AC(aMinoCGCSG AT(WeakTGTC(notA)BcomesafterUGAT(notC)DcomesafterRGAACT(notG)HcomesafterYTCGCA(notT,notV(VcomesafterKGT AGCT样品间SNPSNP结果注据变异位点在参考组上的位置以及参考组上的位置信息,可以得到变异位点在组发生的区域(间区、区或CDS区等),以及变异产生的影 Amino_Acid_Change|Amino_Acid_Length|Gene_Name|Gene_Coding|Transcript_ID|WARNINGS]|Genotype_Number[||||类 意 Effect 变异影响大小(High,ModerateLowFunctional 功能分类(NONESILENTMISSENSE

编码蛋白(CODING| Exon/Intron 变异的型位 。 Pvs B1vs 00M和B1vsB2为两个样品间存在的对应类型的SNP数量。 间 非同义的起始子突 起始子丢 终止子获 终止子丢 同义终止子突

由于gff文件中信息不完整而无法得到准确的 结构分可变剪接分可变剪接事件预转录生成的前体mRNA(pre-mRNA),有多种剪接方式,选择不同的外这种转录后的mRNA加工过程称为可变剪接或选择性剪接(Alternativesplicing)采用Cufflinks[6]对Tophat的比对结果进行拼接并使用Cufflinks 将CufflinksASprofile[7]存在的可变剪接类型及相应表达量。可变剪接类型如下图所示注:(A)外显子跳跃和多外显子跳跃;(B)单内含子保留和多外显子保留;(C)可变外显子;(D)可变转录起始位点;(E)可变转录终止位点;其中红色处为可变剪接类型。TranscriptionstarttranscriptionterminalIR_ON,IR_OFFMIR_ON,MIR_OFFXMIR_ON,XMIR_OFFAlternativeexon5'或3'Approximate5'或3'端剪切(模糊边界可变剪接事件数量统该项目样品PM12可变剪接事件结构和表达量-0-0-0-0-0-0--注:(1)event_id:AS事件(2)event_type:AS事件类型(3)gene_id:cufflink组装结果中(4)chrom:(5)event_start:AS事件起始位置(6)event_end:AS事件结束位(7)event_pattern:AS事件特征(8)strand:正负链信息(9)fpkm:此AS类型该表达结构优化分由于使用的软件或数据的局限性,所选参考组的注释往往不够精确,这样就有必要对原有注释的结构进行优化。如果在原有边界之外的区域有连续的MappedReads支持,将的非翻译区(UntranslatedRegion,UTR)向上下游延伸,修正的边界。此项目对12,991个结构进行了优化,部分结构优StrandUTROriginalOptimized 1645- 2991-2663- 4967-4967- 15628-15628- 25004-24699-注:GeneID:ID;GeneLocus:座;Strand:正负链;UTRsite:3'或5'UTR;Originalregion:原来的注释的UTR起止坐标;Optimizedregion:延伸之后的UTR起止坐标。新分新发基于所选参考组序列,使用Cufflinks软件对可比对Reads进行拼接,并与原有的组注释信息进行比较,寻找原来没有被注释的转录区,发掘该物种的新显子的序列共发掘2671个新新的发掘能够补充和完善原有的组注释信息,组注释信息通常使用GFF格式。新的GFF格式文件部分见新的GFF文chrA01CufflinksgenechrA01Cufflinksgene95997chrA01CufflinksmRNA95997chrA01CufflinksCDS95997chrA01CufflinksCDS96289chrA01CufflinksCDSchrA01CufflinksCDS.+ .+ .+ .+ .+ .+ 提供组注释补充信息的同时,也提供以FASTA格式的新序列。新序列的FASTA文件部分见下表7:新序列FASTA文件(局部 后面紧接着ID;下面一行或多行为该的碱基序列。新功能注功能注释概需要转录为RNA和翻译为蛋白质才能发挥其功能,因此,所谓的功能实际上是产物的功能。对于那些预测出来的尚未被实验证实的,它们的数据库中与新(转录本或蛋白质)序列相似度最高的同源序列,二者拥有相似或相同的功能,将同源序列的功能描述信息作为新的功能描述。在生物信息中,这种获取功能描述信息的过程叫做功能注释(GeneFunctionAnnotation)或功能预测(GeneFunctionPrediction)。新功能注释统使用BLAST[8]软件将发掘的新与NR[9],Swiss-Prot[10],GO[11],COG[12],KEGG[13]数据库进行序列比对,获得新的注释信息。最终得到各数据库注释的新数量统计见下表Annotated NewGene 表达量分 表达定转录组可以模拟从一个样品转录组的任意一段核酸序列上独立地随机抽[1]BinomialDistribution基于该数学模型使用Cufflinks软件的Cuffquant和Cuffnorm组件通过MappedReads在上的位置信息对转录本和的表达水平进行定抽取转录本的片段数目与数据(或MappedData)量、转录本长度、转录本表达水平都有关,为了让片段数目能反映转录本表达水平,需要对样品中的MappedReads的数目和转录本长度进行归一化。Cuffquant和Cuffnorm采用FPKM[15](FragmentsPerKilobaseoftranscriptperMillionfragmentsmapped)作为衡量转录本或表达水平的指标,FPKM计算公式如下:公式中,cDNAFragments表示比对到某一转录本上的片段数目,即双端Reads数目;MappedReads(Millions)MappedReads106为单位;TranscriptLength(kb)103个碱基为单位。候选区域内的表达量部分结果见下表+++0+000+00+注:GeneID:ID号;Length:长度;FPKM:表达量;Gene_position:位置;Strand:正负链;raw_fragment_number:比对到该上的片段数;normalized_count:校正后的片段数。样品表达量总体分使用转录组数据检测表达具有较高的灵敏度。通常情况下,能够到的蛋白质编码表达水平横跨6个数量级,即FPKM值从10-2到104不等[16]。FPKM从箱线图中不仅可以查看单个样品表达水平分布的离散程度,还可以直观的比较不同样品的整体表达水平。该项目两个亲本的FPKM分布箱线图如下:FPKM差异表达分突变型、不同时间点、不同组织等)下,表达水平存在显著差异的或转录本,称之为差异表达(DifferentiallyExpressedGene,DEG)或差异表达转录或差异表达的过程叫做差异表达分析(DifferentialExpressionysis)。差异表达分析得到的集合叫做差异表达集,使用“A_vs_B”的方式命名。根据两(组)样品之间表达水平的相对高低,差异表达可以划分为上调基B中的表达水平高于样品(组)A中的表达水之为下调。上调和下调是相对的,由所给A和B的顺序决定。差异表达筛检测差异表达时,需要根据实际情况选取合适的差异表达。对于物学条件之间的差异表达集;对于没有生物学重复的样本,使用EBSeq[18]进行差异分析,获得两个样品之间的差异表达集。在差异表达过程中将FoldChange≥2且FDR<0.01作为筛选标准差ChangeRate,FDR)p值(p-value)进行校正得到的。由于转录组测序的差异表达分析是对大量的表达值进行独立的统计假设检验,会存在假阳性异表达筛选的关键指标。差异表达集部分结果见下表差异表达结 1.9952e- 6.1796e-03 3.0278e-08 2.3499e- - 下调(down)通过火山图(VolcanoPlot)可以快速地查看候选区域内在两个(组)样品PM间差异表达火山图如下:注差表火图的一点示个坐表某个两品表量异数对值;纵标示达变的计显性负数。标对越,明达在样间表量倍差越;坐值大表差表越著筛到差表达越靠图绿的代下调异达红的代上差表达,色代非异达。通过MA图可以直观地查看的两个(组)样品的表达水平和差异倍数的整MA注:差异表达MA图中每一个点代表一个。横坐标为A值:log2(FPKM),即两样品中表达量均值的对数值;纵坐标为M值:log2(FC),即两样品间表达量差异倍数的对数值,用于衡量表达量差异的大小。图中绿色的点代表下调差异表达,红色的点代表上调差异表达,黑色的点代表非差异表达。差异表达数目统差异表达及数目统计结果见下表DEG DEG up- down-Pvs 注:DEGSet:差异表 集名称;DEGNumber注:DEGSet:差异表 集名称;DEGNumber:差异表 数目;up-regulated:上 的数目差异表达聚类分对筛选出的差异表达做层次聚类分析,将具有相同或相似表达模式的进行聚类,并使用K-means的方法对差异的表达量水平值log2(FPKM+1)进行聚类分析将具有相似表达水平变化趋势的聚在同一类样品P和M间差异表达基差异表达聚类注:横坐标代表样品名称及样品的聚类结果,纵坐标代表的差异及的聚类结果。图中不同的列代表不对筛选出的所有差异表达的表达量做层次聚类分析,得到差异在不同实验条件下的表达模式,表达模式相同或相近的成类。由于同类的可cluster的进行功能注释及富集分析,可预测未知的功能或已知的未知关联分在关联分析前,首先对SNP进行过滤,过滤标准如下:首先过滤掉有多个型的SNP位点,其次过滤掉read支持度小于4的SNP位点,再次过滤掉混池之间型一致的SNP位点以及隐性混池不是来自于隐性亲本的SNP位点,最终得到高质SNPTotal

高质量B1vs SNP-index方法关联结SPindex是近年来的一种通过混池间的型频率差异进行标记关联分析的方法[19],主要是寻找混池之间型频的显著差异,用(SPindex)统计。标记SP与性状关联度越强,(SPindex)1。Maa表示aa池来源于母本的深度;Paa表示aaMabab池来源于母本的深度;Pab表示ab为了消除假阳性的位点,利用标记在组上的位置,可对同一条上标记的ΔSNP-index值进行拟合[19]本项目并采用DISTANCE方法对△SNP-index进行拟合,取每个SNP2M的SNP的△SNP-index的中值作为该位点拟合后池分别的SNP-index及△SNP-index的分布如下图所示:SNP-index关联值在上的分注:横坐标为名称,彩色的点代表计算出来的-iex(或index)值,黑色的线为拟合后的-ndex或inde)1混池的inde2inexindex0.99.95的.9根据计算机模拟实验[8]计算结果,当置信度为0.95时,共得到1个区域,总长度为1.702Mbp,其中包含非同义突变SNP位点的共3个,同义突变SNP位点的共145个。的定位区域,利用拟合后△SNP-index的99百分位数,共得到1个区域,总长度为1.602Mbp,其中包含非同义突变SNP位点的共1个,同义突变SNP位点的基因共211个,移码突变的共0个。然而由于未达到理论阈值,这个区域很可ChromosomeGene--以Mb为单位;Genenumber:关联区域内的数量。ED方法关联结欧式距离(EuclideanDistance,ED)算法,是利用数据寻找混池间存在显ED0。ED方法的计算公式如下所示,ED值越大表明该标记在两混Amut为A碱基在突变混池中的频率,Awt为A碱基在野生型混池中的频率;CmutC碱基在突变混池中的频率,CwtC碱基在野生型混池中的频率;Gmut为G碱基在突变混池中的频率,Gwt为G碱基在野生型混池中的频率;Tmut为T碱基在突变混池中的频率,Twt为T碱基在野生型混池中的频率。在进行分析时,利用两混池间型存在差异的SNP位点,统计各个碱基在不EDED值进行乘方处理[22],本项目取原始ED的4次方作为关联值以达到消除背景噪音的功能,然后采用局部线性回归LOESS方法对ED值进行拟合,关联值分布如下图所示:注:横坐标为名称,彩色的点代表每个SNP位点的ED值,黑色的线为拟合后的ED值,红色的虚线代表median+3SD作为分析的关联阈值[7]0.18。根据关联阈值判定,共得到16个区域,总长度为40.84Mb,共包含484个,其中非同义突变SNP位点的共63个。其中包含的区域列表如下:ChromosomeGene--以Mb为单位;Genenumber:关联区域内的数量。候选区域筛ChromosomeGene--以Mb为单位;Genenumber:关联区域内的数量。候选区域的SNP注本项目样品间在候选区域内的SNP候选区域内SNPPvsB1vs4732 324400注:Type:SNP所在区域或类型;PvsM和B1vsB2为两个样品间在关联区域内存在的对应类型的SNP据统计,亲本间存在非同义突变的SNP3个,这些SNP很有可能与性状直同义突变的SNP共3个,非同义突变共3个。候选区域的注对候选区间内的编码进行多个数据(NRSwiss-ProtGOKEGGCOG)的深度注释通过详细的注释快速筛选候选候选区域内共注释到39个其中在亲本间存在非同义突变共注释到88个,注释结果见下表AnnotatedGeneNon_SynGene4GeneNum:候选区域内亲本间存在非同义突变的数。候选区域内的GO富集分GO数据库是一个结构化的标准生物学注释系统建立了及其产物功能的标表的功能越具体。通过GO分析并按照Cellularcomponent、MolecularFunction、Biologicalprocess对进行分类。候选区域内GO分类统计结果见下图候选区域内GO注释聚类topGO有向无环图能直观展示关联区域内富集的GOterm及其层级关系。有向无环图为关联区域内GO富集分析结果的图形化展示方式,分支代表包含候选区域内的Cellularcomponent的topGO有向无环图如下候选区域内的CellularcomponenttopGO有向无环图分候选区域GO的富集分析结果见下表候选区域内的topGO富集结果示意表(CellularATP2.0e-L-ascorbicacid42.5e-protein3.2e-proteinspecific0naringenin3-dioxygenase74ligase7isomerasemethionine1

注:注:GO.ID:GO节点 数DEG注释到该功能的数;Expected:注释到该功能DEG数目的期望值;KS:富集节点的显著性统计,KS候选区域内的KEGG富集分在生物体内,不同相互协调来行使生物学功能,不同的间相同的作用通路为一个Pathway,基于Pathway分析有助于进一步解读的功能。KEGG是关候选区域内的KEGG注释结果按照通路类型进行分类,分类图如下候选区域内的代谢通路结果见下图注:红色框标记的为关联区域内的,蓝色框代表该通路所需要的所有的酶,说明对应与此酶相关,而 KEGG候选区域内的KEGG富集部分结 Proteinprocessinginendoplasmic Flavonoidbiosynthesis Plant-pathogeninteraction Limoneneandpinenedegradation Porphyrinandchlorophyllmetabolism Tyrosine Pyruvate 注:注:Pathway:KEGG通路名称;KO:KEGG通 ent_Factor:富集因子;Q_value:富集的显候选区域内COG分类统数据库可以对产物进行直系同源分类。关联区域内COG分类统计结果见候选区域内COG注释分类候选区域内可变剪接事件统-0-0-0-0-0-0--注:(1)event_id:AS事件(2)event_type:AS事件类型(3)gene_id:cufflink组装结果中(4)chrom:(5)event_start:AS事件起始位置(6)event_end:AS事件结束位(7)event_pattern:AS事件特征(8)strand:正负链信息(9)fpkm:此AS类型该表达候选区域内新分定位区域内共找到XX个,XX个新。分别对这些进行功能注释,AnnotatedAnnotated 候选区域内差异表达分候选区域内差异表达数目统候选区域内的差异表达及数目统计结果见下表DEG DEG up- down-Pvs 注:DEGSet:差异表达集名称;DEGNumber:差异表达数目;up-regulated:上调的数目候选区域内差异表达功能注在各数据库获得的候选区域内差异表达注释统计结果见下表Annotated AnnotatedGene 图5亲本间结果可视化在上的分注:从外到里依次为:第一圈:坐标,第二圈:差异表达分布,第三圈:SNP密度分布,第四圈数据上传中有Readme.txt说明,详细介绍了每个文件所代表的内容。上传的结果数据文件多以文本格式为主(fa文件、txt文件,detail文件,xls文件等)。在报告文件含有SVG格式的文件,SVG是矢量化的文件,可以随意DobinA,DavisCA,SchlesingerF,etal.STAR:ultrafastuniversalRNA-seqaligner[J].Bioinformatics,2013,29(1):15-21McKennaA,HannaM,BanksE,SivachenkoA,etal.TomeysisToolkit:aMapReduceframeworkforyzingnext-generationDNAsequencingdata.GenomeRes.201020:1297-303Picard:JokeReumers,PeterDeRijk,etal.Optimizedfilteringreducestheerrorrateindetectinggenomicvariantsbyshort-readsequencing.NatureCingolaniP,PlattsA,WangleL,etal.Aprogramforannotatingandpredictingtheeffectsofsinglenucleotidepolymorphisms,SnpEff:SNPsinthegenomeofDrosophilamelanogasterstrainw1118;iso-2;iso-3.",Fly(Austin).2012Florea,L.,L.SongandS.L.Salzberg(2013).Thousandsofexonskipeventsdifferentiatesplicingpatternsinsixteenhumantissues.F1000Research2013,2:188TrapnellC,WilliamsBA,PerteaG,MortazaviA,etal.TranscriptassemblyandficationbyRNASeqrevealsunannotatedtranscriptsandisoformswitchingduringcelldifferentiation.NatureBiotechnology2010,28(5):511-515.AltschulSF,MaddenTL,SchäfferAA,ZhangJ,etal.GappedBLASTandPSIBLAST:ANewGenerationofProteinDatabaseSearchPrograms.NucleicAcidsResearch1997,25(17):3389-3402.DengYY,LiJQ,WuSF,ZhuYP,etal.IntegratedNRDatabaseinProteinAnnotationSystemandItsLocalization.ComputerEngineering2006.,32(5):71-74.ApR,BairochA,WuCH,BarkerWC,etal.UniProt:theUniversalProteinknowledgebase.NucleicAcidsResearch2004Jan1;32(Databaseissue):D115-9.AshburnerM,BallCA,BlakeJA,BotsteinD,etal.Geneontology:toolfortheunificationofbiology.Naturegenetics2000,25(1):2529.TatusovRL,GalperinMY,NataleDA.TheCOGdatabase:atoolforgenomescaleysisofproteinfunctionsandevolution.NucleicAcidsResearch2000,28(1):33KanehisaM,GotoS,KawashimaS,OkunoY,etal.TheKEGGresourcefordecipheringthegenome.NucleicAcidsResearch2004,32(Databaseissue):D277Jiang,H..StatisticalinferencesforisoformexpressioninRNA-Seq.Bioinformatics2009,25:1026–1032.TrapnellC,WilliamsBA,PerteaG,MortazaviA,etal.TranscriptassemblyandficationbyRNASeqrevealsunannotatedtranscriptsandisoformswitchingduringcelldifferentiation.NatureBiotechnology2010,28(5):511515.Djebali,SarahandMortazavi,etal.Landscapeoftranscriptioninhumancells.Nature2012,489(7414).pp.101-108.ISSN0028-0836.AndersS,HuberW.Differentialexpressionysisforsequencecountdata.GenomeBiology2010,11:R106.Leng,N.,J.A.Dawson,J.A.Thomson,etal.EBSeq:AnempiricalBayeshierarchicalmodelforinferenceinRNA-seqexperiments,Bioinformatics,2013.Fekih,R.etal.MutMap+:GeneticMapandMutantIdentificationwithoutCrossinginRice.PLoSOne8,1–10(2013).Takagi,H.etal.QTL-seq:RapidmapoftativetraitlociinricebywholegenomeresequencingofDNAfromtwobulkedpopulations.PlantJ.74,174–183Hill,J.T.etal.MMAPPR:MutationMapysisPipelineforPooledRNA-seq.GenomeRes.23,687–697(2013).附表一: Nucleotidesequenceresultingfromthetranscriptionof omicDNAtomRNA.转录本

genecanhavedifferenttranscriptsorsplicevariantsresultingfromthealternativesplicingofdifferentexonsingenes.互补 ComplementaryDNA.DNAobtainedbyreversetranscriptionofaRNACodingSequence.TheportionofageneoranmRNAthatcodesforaprotein.Intronsare

codingsequences,norarethe5'or3'UTR.ThecodingsequenceinacDNAormaturemRNAincludeseverythingfromthestartcodonthroughtothestopcodon,inclusive.UntranslatedRegion.The5'UTRistheportionofanmRNAfromthe5'endtothepositionofthefirstcodonusedintranslation.The3'UTRistheportionofanmRNAfromthepositionofthelastcodonthatisusedintranslationtothe3'end.SingleNucleotidePolymorphism.StrictlyspeakingaSNPisavariationorpolymorphismintomesequenceinvolvingasinglenucleotidepositiondiffersbetweenmembersofabiologicalspeciesorpairedchromosomes. lele ternativeformofanucleotidesequence,ageneoralocusint otypereferstothepairofallelesforagivenregionof omethatan型ferenceAssembly)碱基识(Base(PhredQualitySco

Orthologuesaregenesderivedfromacommonancestorthroughverticaldescent.Thisisoftenstatedasthesamegeneindifferentspecies.Incontrast,paralogsaregeneswi

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论