数据分析总结报告样板_第1页
数据分析总结报告样板_第2页
数据分析总结报告样板_第3页
数据分析总结报告样板_第4页
数据分析总结报告样板_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Solexa RNA-Seq数据分析总结地址:市科技园区路 151 号(201203):传真:1 / 32客户合同号目录一项目信息41.1. 41.2 合同信息4二数据分析52.1 分析流程图52.2 分析内容:62.3 数据分析结果6序列格式展示62.3.1序列估72.3.2数据预处理102.3.32.3.3Mapgenome112.3.4ALL GENE Expres. 132.3.5Differential geneysis142.3.5.1GO enrient182.3.5.2KEGG enrient192.3.6Splicing transcript expres.202.3.7Ne

2、w gene detection202.3.8Alternative splicing detection21地址:市科技园区路 151 号(201203):传真:2 / 322.3.9new lncRNAysis242.3.10Known lncRNAysis252.3.11Differential lncRNAysis252.3.12 lncRNAprediction262.3.13 TransGO/KEGGysis272.3.14 gene fu. 282.3.15 SNV calling30三、参考文献32地址:市科技园区路 151 号(201203):传真:3 / 32一 项目信息1

3、.11.2 合同信息地址:市科技园区路 151 号(201203):传真:4 / 32合同销售信息样本数量客户客户二数据分析2.1分析流程图地址:市科技园区路 151 号(201203):传真:5 / 32KEGG EnrientGO EnrientNew GeneGene FuDifferential expresAlternative Splicingnovel LncRNAExpresin gene levelExpresranscript levelAlignment with referenceKnown LncRNAClean reads (fastq)SNV callingRaw

4、 reads (fastq)2.2 分析内容:对 2 个样本的(全)转录组数据进行常规转录组分析,包括数据预处理、组 map、表达分析、转录本表达分析、可变剪切分析、差异分析、新查找、差异GO/KEGG 富集分析、融合、SNV 及 LncRAN 分析。注:下面中*表示是 4 样本的代称2.3 数据分析结果序列格式展示2.3.1NGS(Next Generation Sequencing,二代高通量(如:illumina Hiseq 2000/2500、Miseq、Genome)技术应用高通量yzer IIx)对 cDNA 进仪序。首先得到的原始图像文件,然后经过碱基识别及误差过滤,最终得到可以

5、用于分析的原始片段,称之为 Reads,它包括序列的碱基组成信息以及其对应的序列质量信息,双端(pair-end)会分为两个 Reads 文件:_1,_2。Reads 部分截取展示如下:地址:市科技园区路 151 号(201203):传真:6 / 32序列估2.3.2评估原理:应用质量 Q 值进行评估,Q 值与错误 E 值之间关系为:质量与错误率对照表错误率(E)质量值(Q)5%131%200.1%300.01%40(max Q)地址:市科技园区路 151 号(201203):传真:7 / 32评估方法:Q 值盒图统计:盒图即是质量分位图,黄色长方形最下面的边为占 25%比例的,质量 Q 值,

6、依此往上分别为占 50%比例,占 75%比例对应的质量 Q 值,上下的黑线代表占 90%和 10%对应的质量值,蓝色的线表示质量数值的平均值、绿色背景部分代表高质量数值部分、橘色背景部分代表合理质量数值部分、红色背景部分代表低质量数值部分。Fig2.3.2.1quality sistics横坐标为 reads 的碱基位置,纵坐标为所有 reads 在每个位置上的质量(Q: 040)分布。此为一个样本双端结果综合示例。地址:市科技园区路 151 号(201203):传真:8 / 32碱基分布图:可以观测过程碱基均衡性,一般来说,因采用随机引物扩增但随即引物种类有限而导致 reads 的前 10

7、个碱基的比例不均衡,会出现波动是正常现象。在此波动之后的碱基互补配对原理 GC 及 AT 碱基对会分别均衡分布。Fig2.3.2.2Bases distribution横坐标为 reads 碱基位置,纵坐标为碱基所占的比例。不同颜色表示不同碱基。此为一个样本双端结果综合示例。评估结论:所有样本结果优良,碱基分布均衡详细结果详见:istics/*_ qc/ QC_report.html。reads quality s地址:市科技园区路 151 号(201203):传真:9 / 322.3.3 数据预处理得到 Raw Reads 中可能含有总体质量较低、含有引物、末端质量偏不合格的 Reads,这

8、些不合格的 Reads 很有可能对分析质量造成一定的影响,所以必须对其进行过滤,得到可用于数据分析的 clean Reads,主要过滤步骤如下:1. 去除总体质量偏低的 reads,将质量大于 20 碱基所占比例小于 50%的 reads 去除2. 去除 3端质量 Q 低于 10 的碱基,即碱基错误率小于 0.1,其中,Q=-10logerror_ratio3. 去除 reads 中所含有的接头序列4. 去除 reads 中含有的模糊的 N 碱基,是由于强度不够,机器无法识别的碱基5. 去除长度小于 20 的片段(reads)Clean 统计结果如下:结果统计如下表:Table 2.3.3cl

9、eansumaryA81,240,18079,103,85578,219,81375,630,70293.10%B88,996,29087,035,30086,197,15883,758,72294.11%注:Clean ratio=(Clean reads/Raw reads)%数据量计算方法:81,240,180reads=81M reads=81*100/1000G bases=8.1G bases地址:市科技园区路 151 号(201203):传真:10 / 32Sle IDRaw readsQuality trimeptor trimedClean readsClean ratio2

10、.3.3Mapgenome应用 tophat(ver:2.0.6)2的 spliced map算法对预处理后 reads 进行Genome map,这种算法允许将不能全长匹配的 reads 分割进行 map,较适用于真核(有内含子间区)转录组数据;比对允许 2 个错配,每个 reads 允许 multi hits=2。Map生成的比对结果为 BAM 文件,见:BAM/*.bam采用组版本为 UCSC mm10,地址为:统计如下表:MapTable2.3.3. mapresult sisticsA75,630,70268,899,57065,497,3103,402,26065,159,7753

11、,739,79591.1%B83,758,72277,222,74174,527,8922,694,84972,919,5234,303,30292.2%注:Mapratio=Mapped reads/All reads, Mapped Multi reads:匹配到组多个位置的reads, Mapped Unique reads:在组仅有一个位置匹配的 reads地址:市科技园区路 151 号(201203):传真:11 / 32MappedMappedMappedMappedMappedMapSles_IDAll readsPairbroken-pairUniqueMultireadsra

12、tioreadsreadsreadsreadsFig.2.3.3 Regions distribution注:其中 non-coding region 包括 5UTR、3UTR、non-coding RNA regions 等总的非编码区域的统计,详细解释组覆盖分布图:以 1K 的窗口得出组的一个覆盖分布,图中最外圈为组,里面每一个圈表示一个样本的覆盖地址:市科技园区路 151 号(201203):传真:12 / 32饱和度分析图:横坐标为的数据量纵坐标为覆盖到的比例可以说明数量是否足够2.3.4ALL GENE Expres应用 cufflink(ver:2.0.2)3对 tophat 的

13、map结果进行定量。主要过程为:首先由已有的注释文件得到具置,然后将覆盖到区域的 reads 进行计数,最后应用长度与 reads 计数进行表达量标准化计算。定量标准化公式如下:FPKM 含义:Fragments Per Kilobase of exon mper Million mapped reads,公式如下:其中,transcription_reads 为覆盖整个 geneexon 的 fragment reads 数目transcription_length 为 gene exon 总长度地址:市科技园区路 151 号(201203):传真:13 / 32FPKM transcrip

14、tion_reads 109 transcription_length total_mapped_reads_in_runtotal_mapped_reads_in_run 为该样本所有 mapped genome 的总 fragment reads 数目注:Fragment=a pair of reads详细定量结果见:gene_expres/gene expres.xlsx.文件字段说明:第一列:名称第二列:EntrezGene ID第三列:描述信息第四列:locus,即,的位置信息,如,chr1:56095-59915:位于chr1 上的56095-59915 这个区段第五,六列:在不同

15、样本中的表达量第七,八列:在不同样本中的 fragments 个数2.3.5Differential geneysis应用 DEGseq包将 2.3.4 归一化得到的 FPKM 值进行样本间差异分析。采用 Fold-change(表达差异倍数)以及 Fisher-test 精确检验统计学方法对差异差异程度进行筛选,挑选条件如下:1).假设检验 FDR =2差异详细信息见:differential gene/*_differential _all.xlsdifferential gene/*_differential_UP.xlsdifferential_gene/*_differential_

16、DOWN.xls地址:市科技园区路 151 号(201203):传真:14 / 32差异表格文件字段说明:第一列:名称第二列:EntrezGene ID第三列:描述信息第四列:locus,即,差异的位置信息第五、六列:在各样本中的表达量 FPKM第七列:取 log2 对数后的 fold-change 值第八列:统计阈值 p-value,值越小,差异越显著第九列:FDR(False discovery rate control,q-value),对 p-value 的一个检验,使差异阈值更加可靠,FDR0.05 为差异,FDR=10 的作为新,共找到 256 个新,Ensemble 详见文件:n

17、ew gene/new_gene.fa,new_gene/new_gene.xls。地址:市科技园区路 151 号(201203):传真:20 / 32文件字段说明:第一列:新ID第二列:ID第三、四列:新起始、终止位置第五列:新的正负链第六七列:新在各样本中的表达量2.3.8Alternative splicing(AS) detection应用 astalavistaver:3.1 (Foissac andSammeth, 2007; Sammeth, 2009;模型,检测可变剪切位点及剪切Sammeth et al., 2008)应用 cufflinks形式,具体算法流程如下:出的地址:

18、市科技园区路 151 号(201203):传真:21 / 32在生物体内,主要存在 7 种可变剪切类型如下:(a)Skipped exon (SE):外显子跳跃(b)Alternative 5 splicing stie(A5SS): 可变 5端剪切(c)Alternative 3 splicing site(A3SS): 可变 3端剪切(d)Retainedron(RI):内含子滞留(e)Mutually exclusive exon (MEX):互相排斥的外显子(f)Alternative promoters(AP):启动子可变(g)Alternative poly(A) (APA):po

19、ly(A)可变(o)Complex:多种剪切方式组合剪切类型统计如下:地址:市科技园区路 151 号(201203):传真:22 / 32可变剪切检测结果详见文件:alternative splicing/astalavista splicing.xls文件格式如下:文件字段说明:第一列:第二列:正负链地址:市科技园区路 151 号(201203):传真:23 / 32第三列:cufflinks 转录本 ID第四列:转录本两端位置第五列:可变剪切区两端相同侧翼位点第六列:可变剪切模式代码第七列: 可变剪切位点2.3.9new lncRNAysis用 PhyloCSF 流程进行新 lncRNA

20、的定量。LncRNA 筛选条件包括:,再用 RSEM 对的新 lncRNA 进行1) Transcript Length = 200bp2) Transcript ORF 300bp3) 根据已知数据库 conding 和 non-conding 区域建立的氨基酸替换模型,蛋白编码区域氨基同义替换频率低,同义替换频率高,non-conding 区域反之。将 1,2 步得到 transcripts进行多物种比对,通过分析序列多物种比对结果以及替换频率规则评估 transcripts 序列属于conding 和non-conding 的可能性,使用这种可能性比值区别 conding 与non-co

21、nding4) 将第 3 步符合 non-coding 条件的 transcripts 与 Pfam 蛋白功能域数据库进行比对,将具有蛋白功能域的 transcripts 进行排除,最终得出LncRNA transcripts。结果见:lncRNA/new lncRNA anlaysis/new lncRNA expres.xls文件字段说明:第一列:新 lncRNA id第二列:new lncRNA 长度第三列:ID第四、五列:起始、终止位置地址:市科技园区路 151 号(201203):传真:24 / 32第六列:new lncRNA 的正负链第七八列:new lncRNA 在不同样本中的

22、 fragment reads 覆盖值第九十:new lncRNA 在不同样本中的表达量2.3.10Known lncRNAysis用 RSEM 对已知 lncRNA 进行定量。结果见:lncRNA/known lncRNA ysis/known lncRNA expres.xls文件字段说明:第一列:known lncRNA 信息第二列:known lncRNA 长度第三,四列:known lncRNA 在不同样本中的 fragment reads 覆盖值第五,六列:known lncRNA 在不同样本中的表达量2.3.11Differential lncRNAysis应用 2.3.9 和

23、2.3.10 得到的 FPKM 值进行样本间差异分析。差异挑选条件如下:1).FDR =2*表示比对的两样本差异详细信息见:lncRNA/differential_lncRNA/*_differential_all.xls地址:市科技园区路 151 号(201203):传真:25 / 32lncRNA/differential_lncRNA/*_differential_UP.xlslncRNA/differential_lncRNA/*_differential_DOWN.xls字段说明:第一列:lncRNA 信息第二列:lncRNA 长度第三、四列:lncRNA 在各样本中的表达量 FPK

24、M第五列:取 log2 对数后的 fold-change 值第六列:统计阈值 p-value,值越小,差异越显著第七列:FDR(False discovery rate control,q-value),对 p-value 的一个检验,使差异阈值更加可靠,FDR0.05 为差异,FDR0.01 为显著差异2.3.12 lncRNAprediction小鼠 lncRNA 的 trans采用数据库是小鼠 mRNA 数据库。先采用 blast 选择出序列上具有互补性或相似性的序列,再利用 RNAplex 计算两序列之间的互补能量,选择出阈值以上的序列。详细 trans结果见:lncRNA/lncRN

25、A TransPrediction/lncRNA trans predition.xls字段说明:第一列:lncRNA信息第二列:transEntrezGene ID第三列:trans所在和在上的起始终止位置信息第四列:transrefseqid地址:市科技园区路 151 号(201203):传真:26 / 32第五列:transEvalue 值2.3.13 TransGO/KEGGysis对 2.3.11 的差异 lncRNA 对应的靶进行 GO、Pathway 分析。结果见:1、 差异 lncRNA 对应的 trans的信息见:lncRNA/trans KEGG GO ysis/diffe

26、rential lncRNA transinfo.xls字段说明:第一列:lncRNA信息第二列:transEntrezGene ID第三列:trans所在和在上的起始终止位置信息第四列:transrefseqid第五列:transEvalue 值2、 trans对应的 GO 信息结果见:lncRNA/trans KEGG GO ysis/differential lncRNA transGOinfo.xls字段说明:第一列:transid第二列:GO id第三列:GO term 名称地址:市科技园区路 151 号(201203):传真:27 / 32第四列:类别第五列:Evidence co

27、de3、 trans对应的KEGG 信息结果见:lncRNA/trans KEGG GO ysis/trans gene2pathway.xls字段说明:第一列:gene id第二列:pathway 信息lncRNA/trans KEGG GO ysis/trans pathway info.xls字段说明:第一列:pathway id第二列:pathway 描述信息第三列:pathway 上的 trans数第四列:pathway 上的 trans列表ysis/pathway 文件夹中为 Pathway 通路图,包括KEGG 中相应的说明页面(图中红色标记的lncRNA/trans_KEGG_GO_网页

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论